Google Hummingbird est un nouvel algorithme de Google sorti en septembre 2013.
Ce nouveau système révolutionne la manière dont Google interprète les requêtes et les pages web. Dans cette présentation, nous expliquons ces concepts, en liaison avec la linguistique. Nous analysons, ainsi, les changements que cela implique pour le SEO.
Présentation réalisée par Sébastien Monnier et Anthony Sigogne, Woptimo, au SEO campus à Paris le 13 mars 2014.
Pénalités Google : Google Penguin, Google Panda : quelle stratégie de Google?
Google Hummingbird : ce que cela change pour le SEO - conférence SEO Campus 2014
1. Google Hummingbird
le point de vue d’un linguiste
Sébastien Monnier
Ex- Googler, fondateur de Woptimo
Anthony Sigogne
Docteur en informatique linguistique,
responsable R&D chez Woptimo
3. Google non
Sur Google Images, grâce au test de baume-
referencement, c’est Adriana Karembeu qui aparaît.
Mais Google peut-il reconnaître une pizza? ... Sans
doute que oui.
4. Google sait identifier des concepts
Sur Google Plus Photos, Google arrive bien à identifier des concepts à partir de photographies. Essayez
ainsi de rechercher “chiens” sur ce service, Google identifiera ainsi des photos comme...
mais aussi... (encore quelques progrès à faire)
5. Sommaire
1. Quelques notions de linguistique
2. Hummingbird : un nouvel oiseau?
3. Hummingbird : le process
4. Conséquences sur le SEO
7. Notions linguistiques
Niveau d’analyse Ex: Le Président de la République Définition
Lexical 5 mots comment les mots sont placés les
uns à côté des autres
Syntaxique 1 groupe nominal composé d’une tête
(Président) et d’une extension
comment les mots sont organisés
les uns par rapport aux autres
Sémantique Entité : être humain
Domaine : politique
comment l’organisation des mots
permet d’extraire des relations
Pragmatique En 2014, en France, François Hollande comment la vie réelle peut aider à
la signification
10. Qu’est-ce qu’Hummingbird
● Annoncé fin septembre 2013 pour le 15e annniversaire
de Google
● Déjà présent depuis un mois
● Impacte 90% des requêtes
● Aussi important pour l’infrastructure de Google que
Google Caffeine
12. La recherche évolue ...
La recherche par reconnaissance vocale est de plus en plus utilisée.
13. Anticiper les évolutions
● Boom du trafic mobile, du trafic connecté et géolocalisé
1 requête = + que des mots
➔ 1 contexte spatial
➔ 1 contexte humain
➔ 1 contexte d’historique de recherche
➔ Google cherche à comprendre l’intention, plus que l’assemblage des mots
dans la requête
15. Moteur: Algorithme général
● Le moteur de recherche de Google est basé sur des algorithmes
mathématiques (probabilités)
● Le comportement de ces algorithmes est conditionné par de multiples
paramètres linguistiques et statistiques
● Ces paramètres sont calculés grâce à une batterie de “classifiers”
16. Qu’est-ce qu’un classifier?
Un classifier est un algorithme de catégorisation
○ Entrée: requêtes, pages web, domaines...
○ Sortie: Nature diverse des informations (texte, score, liste,...)
● Classifier de requête :
○ Ex : requête géolocalisée (bureau Paris), requête navigationelle (Youtube,
Facebook...)
● Classifier de pages web :
○ Ex : bourrage de mots-clés, texte caché, “in-depth article”...
● Classifier d’élements sur une page web :
○ Ex : fil d’Ariane, listing d’éléments...
● ... Et de nombreux autres types de classifiers...
17. Moteur: Algorithme général - Schéma
Requête (“photo de Paris”)
➢ Analyse lexicale: “photo”:nom...
➢ Analyse syntaxique: groupe nominal
➢ Typologie, Intention
➢ ...
Page Web
➢ PageRank
➢ Typologie, Intention
➢ Potentiel de spam
➢ Auteur de la page
➢ ...
Domaine
Sous-domaine
Auteur
...
MOTEUR
Résultats
Universal
Knowledge
Graph
URL 1
URL 2
URL 3
…
URL X
18. Brevet Google
● Soumis le 1er juin 2012: Search query results based upon topic
➢ Requêtes orientées contenu audio/video
➢ Semble valable pour les requêtes communes
● Modification en profondeur des algorithmes mathématiques
➢ Nouveaux classifiers liés à la semantique
➢ Introduction de la notion de “concept”
19. Algorithme HummingBird
Requête (“photo de Paris”)
➢ Analyse lexicale: “photo”:nom...
➢ Analyse syntaxique: groupe nominal
➢ Typologie, Intention
➢ Concepts
➢ ...
Page Web
➢ PageRank
➢ Typologie, Intention
➢ Potentiel de spam
➢ Auteur de la page
➢ Concepts
➢ ...
Domaine
Sous Domaine
Auteur
...
MOTEUR
Résultats
Universal
Knowledge
Graph
URL 1
URL 2
URL 3
…
URL X
20. Notion de Concept
➢ Objet concret ou abstrait représenté par une séquence de mots
➢ Concepts interconnectés d’après des relations plus ou moins éloignées
21. Concepts de “photo de Paris”
Photo de
Paris
Représentation
graphique
Image
Photographies
Photographies
panoramiques
Lieu
Studio Photo
Marque
Maison
Européenne de
la photo
Evénement
Exposition
23. Prétraitement de la Requête
● Généralisation des requêtes
➢ Modification de la requête initiale
➢ Regrouper des requêtes similaires
➢ Traitement relativement identique
● Deux prétraitements
➢ Suppression des marques morphologiques
➢ Remplacement par des synonymes
25. Remplacement par des synonymes
● synonymes des mots-clés
➢ photo: cliché, diapositive, image, photographie
➢ synonymes en gras dans les snippets
26. Extraction des concepts
● Attribution de concepts aux mots clés
➢ Determining a meaning of a knowledge item
using document based information
➢ Brevet en avril 2011
● Différentes sources
➢ Bases de données (Wikipedia/Freebase)
➢ Pages indexées
➢ Règles/Grammaires manuelles
➢ …
● Force du lien entre un concept et un mot clé
➢ Probabilité
27. Concepts de “photo de Paris”
Photo de
Paris
Représentation
graphique
Image
Photographies
Photographies
panoramiques
Lieu
Studio Photo
Marque
Maison
Européenne de
la photo
Evénement
Exposition
28. Calcul d’un ensemble de pages
➢ Le moteur attribue des concepts à chaque page
indexée
➢ Ensemble = Pages ayant des concepts en commun
avec la requête
Requête
C1
C2
C3
C4
Page Web
C1
C2
C8
C9
C1, C2
Page ajoutée à
l’ensemble
29. Tri des pages
● Combinaison des probabilités des concepts associés
○ à la requête
○ à la page
● Affichage des pages dans l’ordre décroissant des
probabilités
30. Concepts et intention de l’utilisateur
[Représentation Graphique] --> Paris [ville]
[Marque] Maison de la photographie
[Evénement] Expo photo au Grand Palais
Interaction directe
Informationnel
Navigationnel
33. 70 à 90% des images sont identiques entre les deux requêtes : Google a la même
compréhension pour ces pages
34. Termes manquants :
● L’ajout de “termes manquants” est un vrai indice de l’utilisation d’
Hummingbird
35. Et les 10% non impactés par
Hummingbird?
Info présente ici : bravo Google, ... mais
ouch...
36. Hummingbird : un complément à l’
existant?
Quand Google ne trouve pas assez de résultat concluant avec Hummingbird, l’
ancien algorithme de recherche de co-occurrence rentre en jeu.
Quelques indices (?):
➢ Snippet de 4 lignes
➢ Pas le “termes manquants”
38. Adieu contenu SEO...
● Oubliez les consignes comme :
Je veux un texte de 300 mots optimisés pour mot-clé1, mot-clé2 et mot-clé3
Donnez plutôt :
Je veux du contenu pour une page qui va donner cette information avec 2
arguments, 2 exemples et en citant ses sources.
➔ Soyez concis, clair et factuel
➔ Pensez présentation et lisibilité du texte
➔ Pensez mots-clés, champ lexical et synonymes dans un 2e temps
39. Contenu Avant - Après
Les premiers tapis datent du Ve
siècle avant J-C. Mais,
désormais, on peut acheter des
tapis en ligne, voire même des
tapis pas chers.
Découvrez notre sélection
exceptionnelle de tapis pas chers
de toutes les couleurs. Avec les
tapis pas chers MegaTapis, vous
avez la garantie du service au
meilleur prix. Que ce soit pour
votre chambre à coucher, votre
salle à manger, le tapis qu’il vous
faut est sans doute sur
MegaTapis.
MegaTapis a un grand choix de
tapis. Nous vous conseillons
notamment :
Tapis persans
Nos tapis persans sont garantis faits
main. Les premiers prix sont à partir
de 400€. Nous conseillons l’
utilisation de ces tapis pour protéger
du froid et de l’humidité. Ainsi, vous
pouvez les placer dans l’entrée, la
salle à manger ou la chambre à
coucher.
40. Véracité du contenu
Si vous possédez du contenu vérifiable (date de naissance/décès de célébrité,
adresses d’entreprise, ...), pensez à les mettre à jour.
Google peut extraire votre contenu et les comparer avec sa base de
connaissance.
Trop de mauvaises informations = MAUVAIS SIGNAL
41. Pensez à aider l’utilisateur
● Il recherche un numéro de téléphone... donnez lui un vrai numéro !!!
42. Analysez les SERP
Au-delà de la position, il faut essayer de comprendre
● L’INTENTION de la requête interprétée par Google.
● La réponse comprise par Google
● La diversité des résultats
● Google ne classe pas 10 pages web en fonction de leur PageRank.
● Google organise la présentation d’informations permettant de répondre, au
mieux, au besoin supposé de l’internaute.
43. Marquage sémantique
Utilisation des données structurées / microdonnées devient un standard
➔ permet aux moteurs une meilleure compréhension des concepts de votre
site
➔ L’absence de données structurées n’entraîne pas de pénalités, mais vous
risquez une moins bonne interprétation par Google
44. 1 rue Albert Einstein,
Champs-sur-Marne,
77447 Marne-la-Vallée Cedex 2
France
Tél : +33 (0)1 83 64 24 11
Fax : +33 (0)1 83 64 38 15
Twitter : @woptimo
www.woptimo.com
Merci
Besoin d’une prestation en
● SEO
● AdWords
● Link marketing
● Digital Analytics
Contactez-nous
contact@woptimo.com