2. TYPOLOGIE DES OUTILS DE RECHERCHE : MOTEURS ET ANNUAIRES
Moteurs Annuaires
- Gestion automatisée - Gestion humaine
- Entrée par indexation - Entrée par soumission
- Tout le web a vocation à être indexé - Des choix éditoriaux sont faits
- Tout le contenu des pages est indexé - Seules les références aux sites sont indexées
- Navigation par requêtes - Navigation arborescente (recherche possible)
4. FONCTIONNEMENT D'UN MOTEUR (VERSION MOINS SIMPLE)
(Schema basé sur l'article « The Anatomy
Web of a Large-Scale Hypertextual Web
Search Engine », par Sergey Brin et
Lawrence Page)
Serveur d'URLs Crawlers Serveur tampon
Dicte les URLs à crawler Indexent, envoient le Compresse, numérote et envoie
contenu des pages
Ancres
Résolveur d'URLs Stocke les liens et
ancres associées
Dépôt
Convertit les URLs en URLs absolues, Indexeur
et lie les documents entre eux
Décompresse, parse Contient une copie de chaque
page HTML indexée (cache)
Silos
Silos
Silos Trieur Lexique
Liens Index des documents Maintient une Trie le contenu des silos et
correspondance produit un index inversé
Stocke une Répertories l'ensemble des mots / documents
cartographie du web documents indexés (index inversé)
(index direct)
Moteur de recherche
Pagerank Répond aux requêtes des utilisateurs
5. COMMENT PENSE UN MOTEUR ?
Juger de la pertinence d'une page web, c'est un peu comme juger du contenu d'un livre
dans une bibliothèque :
Contenu Titre Balise <title>
4ème de couverture Balise <meta> description
Table des matière Titraille (balises <h1> à <h6>)
Contenu général Ensemble des textes
Structure Lisibilité Accessibilité technique et
structuration
Popularité Recommandations Quantité, qualité et teneur des
liens entrants
6. ANATOMIE GENERALE D'UNE PAGE DE RESULTATS
Résultats « Onebox »
Liens sponsorisés
Résultats naturels
7. ELEMENTS D'INTERFACE GOOGLE
Sitelinks
Résultats indentés
- Déterminés algorithmiquement
- Jusque 8 éléments
Classic sitelinks
- Contextuels
- Déterminés algorithmiquement
- Jusque 4 éléments Hiérarchie de site
Jumplinks
- Basées sur les fils d'ariane des sites
- Contextuels
- Basés sur les ancres
8. RECHERCHE UNIVERSELLE
Objectif : « faire tomber les silos de
Actualités l'information qui existent sur le web »
(Marissa Mayer, 16/05/07)
Pages web
Billets de blogs
Images
Vidéos
9. PERSONNALISATION DES RESULTATS DE RECHERCHE
Plusieurs critères concourent la personnalisation des résultats :
Localisation de l'utilisateur Interface utilisée
(IP, langue du navigateur) (.com, .fr...)
Comportement de Personnalisations
l'utilisateur par l'utilisateur
(loggé ou non) (Searchwiki)
11. LES OPERATEURS UTILES AU REFERENCEUR : GOOGLE
Guillemets "
Pour rechercher une chaine de mots
Tiret -
Pour exclure des mots ou sites
Site:
Pour rechercher sur un domaine, un sous-domaine, un répertoire
Filetype:
Pour rechercher un type de fichier donné
Inurl: et allinurl:
Pour rechercher les pages dont l'URL contient une expression
Intitle: et allintitle:
Pour rechercher les pages dont le <title> contient une expression
Link:
Pour recherche des pages pointant vers une URL donnée
12. LES OPERATEURS UTILES AU REFERENCEUR : BING
Linkfromdomain:
Pour rechercher les liens sortants d'un domaine
Ip:
Pour rechercher les sites hébergés sur une IP
Inanchor:
Pour rechercher les sites liés avec une ancre donnée