Un aperçu de l'utilisation des données de logs et des données de crawl à fins d'audit et d'analyse pour le SEO. Et les avantages de l'analyse croisée logs+crawl.
Conférence présentée au SEO Camp'us 2014 par Adrien Ménard, PDG de Botifiy, et Philippe Yonnet, DG de Search Foresight
6. A quoi ça sert ?
• Découvrir le nombre de pages réellement
“crawlables” par un moteur de recherche (ne
suit pas robots.txt, no follow, javascript, ajax)
• Repérer les liens cassés (et donc les pages
sources)
• Découvrir la profondeur de ses pages
• Analyser ses temps de réponses (crawler)
• Repérer les duplicates
• Identifier les canonicals mal renseignées
• Analyser les liens entrants / sortants de vos
pages
10. Tester les performances du site
• Le temps de téléchargement du code a
une influence sur l’exploration de Google
11. Votre site est-il rapide ?
• Google webmaster tools
ne fournit que des temps
« moyens »
• Un crawler permettra de
comprendre quelles sont
les « scripts » lents et
d’identifier les causes de
ralentissement
15. Pourquoi mesurer la profondeur ?
Plus une url est profonde, moins elle reçoit de linkjuice
Plus une url est profonde, moins elle a de Pagerank, moins elle est crawlée
16. Le rythme de crawl sur Google est
fonction du PR (et d’autres facteurs)
19. L’analyse du maillage interne
• Objectif : mesurer les ratios
– Nb de liens entrants vs liens sortants
– Nb de liens sortants internes vs externes
• Indegree = nombre de liens entrants
• La hiérarchie des indegrees doit être
conforme à l’importance des pages
23. Les logs serveurs c’est quoi ?
-----------
-----------
-----------
-----------
-----------
Enregistrement
de
la requête =
ajout d’une ligne
dans le fichier de
logs
Log
24. Les logs serveurs c’est quoi ?
• Les « logs » sont des fichiers texte créés
par les serveurs web.
• Chaque requête envoyée à un serveur
web est enregistrée dans le fichier log
représente une requête http
25. A quoi cela ressemble ?
194.116.215.20 - - [14/Nov/2005:22:28:57 +0000] “GET / HTTP/1.0″ 200 16440
87.113.68.91 - - [15/Nov/2005:22:45:56 +0000] “GET / HTTP/1.1″ 200 36821
87.113.68.91 - - [15/Nov/2005:22:45:56 +0000] “GET /index.php?=PHPE9568F35-D428-11d2-A769-00AA001ACF42 HTTP/1.1″ 200 2146
87.113.68.91 - - [15/Nov/2005:22:45:56 +0000] “GET /index.php?=PHPE9568F34-D428-11d2-A769-00AA001ACF42 HTTP/1.1″ 200 4644
Format Apache par défaut
Remarque : on ajoute en général d’autres champs comme :
- Le referrer (et le query string : la chaine de paramètres)
- Le User Agent
- L’hôte
26. Quelles informations y trouve-t’on ?
• L’adresse IP de la source
• L’identité du client
• Le nom de l’utilisateur distant (si http auth)
• Date, heure, fuseau de la requête
• La requête http://
• Le code réponse renvoyé par le serveur
• La taille du bloc de données retourné par le serveur en octets
• Les “-” symbolisent une information manquante
27. Quelles lignes des logs nous intéressent ?
• Pour compter les visites SEO : celles qui
contiennent « Google » ou « Bing » (ou tout autre
moteur de recherche) dans le champ « referrer »
• Pour compter les crawls des bots : celles qui
contiennent « Googlebot » ou « Bingbot » (ou un
autre bot) dans le champ « User Agent »
28. Usage n°1bis : caractériser le
comportement de crawl
0
2000
4000
6000
8000
10000
12000
14000
16000
18000
20000
23-Jun-10
24-Jun-10
25-Jun-10
26-Jun-10
27-Jun-10
28-Jun-10
29-Jun-10
30-Jun-10
01-Jul-10
02-Jul-10
03-Jul-10
04-Jul-10
05-Jul-10
06-Jul-10
07-Jul-10
08-Jul-10
09-Jul-10
10-Jul-10
11-Jul-10
Crawl des fiches produits : pages
uniques
Crawl des fiches produits : avec
recrawl
L’analyse des logs permet
d’analyser les logs templates
par template et de savoir si les
pages sont crawlées plus
souvent ou si plus de pages
sont crawlées
Les courbes de GWT
concernent tout le
site, et n’indiquent
pas le nombre de
pages uniques
crawlées
30. Surveiller « le crawl » par type de pages
Pages produit Pages Erreurs
31. Usage n°2 : déterminer les pages qui
reçoivent du trafic organique
32. Usage n°2 : déterminer les pages qui
reçoivent du trafic organique
Les pages qui ne reçoivent pas de visites en provenance d’un moteur
au cours d’un mois donné sont, soit non indexées, soit très mal classées
Une augmentation du ratio pages visitées sur pages ignorées
mesure en règle générale une meilleure indexation et de meilleurs classements
33. Usage n°3 : analyser les requêtes qui
rapportent du trafic pour une url donnée
Ratios intéressant :
Longueur des requêtes /
type de pages
Nombre d’expressions
différentes / page
34. Usage n°4 : identifier les pb techniques
ou serveurs sur une période
Pic de 302 depuis début janvier qui doit être corrigé rapidement
35. Usage n°5 : monitorer les perfs côté
serveur
• Apache 2 :
•temps pour délivrer la page mesuré en microsecondes
•LogFormat "%h %l %u %t "%r" %>s %b "%{Referer}i" "%{User-Agent}i" %T/%D"
combined
•Résultat
•[31/Jan/2008:14:19:07 +0000] "GET / HTTP/1.1" 200 7918 "" "Mozilla/5.0 (X11; U; Linux i686; en-US;
rv:1.8.1.11) Gecko/20061201 Firefox/2.0.0.11 (Ubuntu-feisty)" 0/95491
•Soit 0,095491 secondes
•Avec Apache 1,3 seul le temps en sec est disponible
•Ne pas confondre avec le temps de génération de la page
39. Comparer les deux visions du site
• Ce que vous montrez (crawl)
vs
• Ce que le moteur de recherche voit et fait (logs)
Votre
site Votre site
+ du
duplicate
40. L’analyse combinée crawl+logs
• Urls crawlables => données par votre crawler
• Urls crawlées par Googlebot => découvertes
dans les logs serveur (User Agent : googlebot)
Home
Cat 1
P1
P2
P3
Cat 2
P1
P2
P3
P4
Cat 3
P1
P2
Votre version
Home
Cat 1
P1
P2
P3
Cat 2
P1
P1bis
P2
P2bis
P3
P4
Cat2bis Cat 3
Version vue par Googlebot
Des urls en moins
Des urls en +
41. Principe de l’analyse des deux versions
Urls crawlées
par
Google, non
présentes sur le
site :
URLS
parasites, à
bloquer dans
le robots.txt
Urls présentes
sur le site, non
explorées par
Google :
identifier la
cause
Urls OK
présentes
et
crawlées
42. Taux de crawl et taux de pages actives :
deux indicateurs à maîtriser
43. Usage n°1 : connaître les pages crawlées
Identifier les urls des pages non crawlées, et identifier les raisons de
cet « oubli » : pb technique, pagerank faible, duplicates, pages
vides …
44. Usage n°2 : déterminer les pages qui
reçoivent du trafic organique
• Les pages qui ne reçoivent pas de visites en provenance d’un moteur
au cours d’un mois donné sont, soit non indexées, soit très mal classées
• Une augmentation du ratio pages visitées sur pages ignorées
mesure en règle générale une meilleure indexation et de meilleurs
classements
45. Les limites de l’exercice
• Fournit un diagnostic sur la santé d’un site
• Fournit des données précises sur le crawl
des moteurs et l’état du référencement
d’un site
Mais cela ne vous donne qu’une liste
priorisée de points à corriger
Pour développer le trafic SEO, il faut aussi
identifier des chantiers permettant une
réelle croissance du trafic
47. Merci !
• Nous contacter :
Philippe YONNET
Directeur Général de l’agence Search Foresight
Groupe My Media
55 rue Anatole France – 92300 LEVALLOIS PERRET
Philippe.yonnet@search-foresight.com
Tél : 01 74 18 29 40
Adrien Menard
adrien@botify.com / 01 83 62 90 78
Twitter.com/botify
www.botify.com
Hinweis der Redaktion
Application d’analyse de la performance SEOLancé en janvier, + de 1000 utilisateurs à travers le mondeInterface complète de lancement de crawlRapport d’analyse entièrement automatiséURLs Explorer pour filtrer, requêter, exporter…Puissant analyseur de logsCompare les données de crawl aux logs140 clients en Europe parmi Dailymotion, Viadeo, Aufeminin, La Redoute, RDC, Lagardère…