SlideShare une entreprise Scribd logo
1  sur  60
Agence Conseil en stratégie digitale
SEO, CRO, Inbound Marketing, Analytics
Philippe YONNET
Agence Search Foresight – Groupe My Media
Les usages
avancés
d’un crawler
pour le SEO
/ PHILIPPE YONNET – DIRECTEUR ASSOCIE SF
 Philippe YONNET, 49 ans, a aujourd’hui douze années d’expérience en
référencement naturel.
• Il a conseillé plus d’une centaine de sites, dont un grand nombre de sites
à forte audience (Pages Jaunes, Rue du Commerce, Pixmania,
Dailymotion, AuFeminin, LeGuide, Twenga, Allociné, Ebay, Nokia, Fnac,
SFR, Facebook, La Redoute…)
• Il a été notamment Directeur métier puis Directeur Général Adjoint
d’Aposition-Isobar de 2007 à 2010. Il est ensuite revenu chez l'annonceur,
pour travailler à Londres et New-York pendant deux ans, en tant que
Directeur SEO International de Vivastreet, puis en tant que Directeur SEO
International et Directeur Merchandising du comparateur de prix Twenga.
• Philippe YONNET est le fondateur de l’association SEO Camp, qui regroupe
les professionnels du référencement des pays francophones.
 Il est un contributeur régulier de la lettre professionnelle
d’Abondance, et a contribué à plusieurs chapitres du livre « réussir son
référencement » chez Eyrolles
 Il a fondé le principal évènement sur le référencement en France, les
SEO Camp’us
 Il a créé la certification CESEO, qui valide les connaissances des
experts en SEO
L’ORATEUR
/ Définition
4
C’est quoi un crawler ?
Un robot d'indexation (en anglais web
crawler ou web spider) est un logiciel qui
explore automatiquement le Web.
Il est généralement conçu pour collecter
les ressources (pages Web, images,
vidéos, documents Word, PDF ou
PostScript, etc.), afin de permettre à un
moteur de recherche de les indexer.
On les appelle aussi familièrement des
« bots » (d’où Googlebot, Bingbot) etc…
/ Comment un crawler découvre les pages
- 5 -
Le processus de « crawl »
Search Foresight 2015 ©
Agence Conseil en Stratégie Digitale
Source : http://www.definitions-webmarketing.com/
Connaître une url et savoir ce qu’elle contient
sont deux choses différentes
6
WEB
URLs crawlées
téléchargées et analysées
Frontière des urls
Zone inexplorée
(urls inconnues)
Pages
Seed
Urls connues
mais non
téléchargées
Le processus de crawl
/ Les principaux composants
7
Anatomie d’un crawler
Les deux modes
Deux modes : aspirateur / spider
Aspirateur : on fournit au crawler
une liste d’urls, que le robot
« aspire » (télécharge) pour
alimenter une base de données
Spider : on fournit une url de départ au
robot, qui analyse le contenu de la page
web, trouve les liens à l’intérieur, les
stocke dans une file d’attente. Puis il
télécharge les nouvelles urls trouvées,
trouve d’autres liens à l’intérieur et
ainsi de suite…
/ Breadth first
Le processus de crawl : les 2 façons de crawler un site
• En mode breadth first, le robot
explore d’abord toutes les urls
situées à la profondeur 1, puis à la
profondeur 2 etc…
• Inconvénient : il faut attendre que
toutes les pages du niveau N soit
explorées, téléchargées et
analysées pour pouvoir passer au
niveau suivant
• Avantage : si le crawl s’arrête en
cours d’exploration, l’arborescence
est parfaitement connue jusqu’à un
certain niveau.
/ Depth first
Le processus de crawl : les 2 façons de crawler un site
En mode depth first, le robot cherche
à explorer le maximum d’urls dans le
minimum de temps
• Avantage : cela va plus vite, car
si des modèles de pages sont
lents, ou si certaines pages
envoient des erreurs 500. On
peut paralléliser le crawl sans
avoir à synchroniser les différents
threads…
• Inconvénient : si on arrête le
crawl en cours de route,
l’arborescence obtenue est
inexploitable (les indicateurs
utiles sont faussés : profondeur,
indegree, outdegree…)
La plupart des crawlers du marché
fonctionnent sur ce mode, attention.
/ Les principaux composants
11
Anatomie d’un crawler
/
12
Pourquoi utiliser un outil de crawl ?
Objectif : simuler le
comportement d’un bot de
moteur de recherche sur votre
site pour identifier ce qui peut
bloquer ou gêner l’exploration
de vos pages web par le
moteur.
Votre crawler
simulant Googlebot
Exemples de crawlers utiles
Les crawlers « basiques »
Xenu Link Sleuth
 http://home.snafu.de/tilman/xenulink.html
Link Examiner
http://www.analogx.com/contents/download/Network/lnkexam/Freeware.htm
Les crawlers avancés
/ http://www.siteliner.com
Siteliner
 Fonctionnalités d’analyse du duplicate
http://www.screamingfrog.co.uk/seo-spider/
Screaming Frog
Les solutions pour crawler de
gros volumes de page…
- 20 -
Search Foresight 2015 ©
Agence Conseil en Stratégie Digitale
/ https://lucene.apache.org/
Lucène (java)
/ https://nutch.apache.org/
Nutch (java)
/ http://scrapy.org/
Scrapy (python)
http://80legs.com/
80legs
Quelques solution externes
Et/ou en mode SAS
- 25 -
Search Foresight 2015 ©
Agence Conseil en Stratégie Digitale
/ http://deepcrawl.co.uk/
Deepcrawl
/ https://fr.botify.com/
Botify
/ http://www.oncrawl.com/
Oncrawl
Les usages classiques
/ La détection des pages 404
Détection des liens brisés
/ ex : analyse avec Botify
Volumétrie des codes http: non 200
/ Identification et estimation des volumétries
L’analyse des redirections
 Détection des erreurs 30x
 Détection des redirections en cascade, ou en boucle
 Objectif : diminuer le volume de 301
 Eliminer les 302
Utilisations plus avancées
/ Ce qu’un bon crawler pour le SEO doit permettre de faire
34
Les prérequis pour une utilisation avancée
 Respect ou non du robots.txt
 Possibilité de paramétrer le user-agent
 Paramétrage du rythme de crawl
 Respect ou non des x-robots-tag, des directions noindex, nofollow
 Respect ou non de l’attribut nofollow
 Prise en compte ou non des canonical
 Détection des hreflang, des rel next/prev
 Crawl des sous-domaines ou limité à un host
 Crawl limité à un pattern d’url, ou excluant ce pattern
 Comptage de l’indegree et de l’outdegree
 Analyse correcte de la profondeur des pages
 Aspiration de la base des liens, avec les anchor texts
 Collecte des balises seo : title, h1, desc, meta robots etc…
 Possibilité de reconnaître un pattern dans la page
 Collecte du temps de téléchargement
 Mode spider et mode liste
 Capacité à parser le flash, les pdf, et les javascript
/ Suite…
35
Les prérequis pour une utilisation avancée
 Capacité à gérer http vs https://
 Capacité à simuler une visite d’un device mobile / tablette / desktop
 Collecte des rescodes, des redirections (y compris successives)
 Capacité à convertir un pattern d’url rewriting (permet de matcher avec les urls
contenues dans les logs)
 Capacité à crawler le web invisible (pages protégées par login/mdp)
 Support de proxies (pour simuler le crawl depuis un autre pays)
+
 La capacité d’exporter les infos récoltées dans des formats réutilisables :
 Base des ressources (url => pages / images)
 Base des liens (url + anchor text)
Nota Bene : il manque quelques unes de ces fonctionnalités aux crawlers du marché
Tester les performances du site
 Le temps de téléchargement du code a une influence
sur l’exploration de Google
Tester les performances du site
 Google webmaster tools ne
fournit que des temps
« moyens »
 Un crawler permettra de
comprendre quelles sont les
« scripts » lents et d’identifier
les causes de
ralentissement
Détection des duplicate title et
description
 Exemple avec Screaming Frog
Vérification du duplicate
 Ex avec Botify
Vérification de l’efficacité
de la mise en cache
 Extraction de patterns :
– timestamp de génération de la page vs horodatage du
téléchargement de la page
– Test de requêtes conditionnelles (If modified since et renvoi de
codes 304)
– Etc.
Analyse de la profondeur
 Profondeur : nb de clics nécessaires pour atteindre une
page en cliquant sur des liens
– Exemple ci-dessous : Botify
Pourquoi mesurer la profondeur ?
0
20000
40000
60000
80000
100000
120000
140000
Prof0
Prof1
Prof2
Prof3
Prof4
Prof5
Prof6
Prof7
Prof8
nb urls crawlables
non crawlées
nb urls crawlées
Plus une url est profonde, moins elle reçoit de linkjuice
Plus une url est profonde, moins elle a de Pagerank, moins elle est crawlée
Le rythme de crawl sur Google est
fonction du PR (et d’autres facteurs)
Les prérequis pour le crawler
 Respect du robots.txt
 Gestion du nofollow sur les liens
 Gestion du nofollow dans les balises meta
 Gestion du x-robots-tag dans les en-têtes http://
 Gestion des canonical comme des redirections
Analyse des link rel=canonical
Analyse des liens sortants
 Ex : botify
Diagnostic complet
 Ex avec Botify (tableau de bord)
L’analyse combinée crawl+logs
 Urls crawlables => données par votre crawler
 Urls crawlées par Googlebot => découvertes dans les
logs serveur (User Agent : googlebot)
Home
Cat 1
P1
P2
P3
Cat 2
P1
P2
P3
P4
Cat 3
P1
P2
Votre version
Home
Cat 1
P1
P2
P3
Cat 2
P1
P1bis
P2
P2bis
P3
P4
Cat2bis Cat 3
Version vue par Googlebot
Des urls en moins
Des urls en +
L’analyse combinée logs + crawl
Identifier le problème du duplicate vu par google
 Ce que vous montrez (crawl)
vs
 Ce que le moteur de recherche voit et fait (logs)
Votre site
Votre site + du
duplicate
Principe de l’analyse des deux versions
Urls crawlées par
Google, non présentes
sur le site :
URLS parasites, à
bloquer dans le
robots.txt
Urls présentes sur le
site, non explorées par
Google : identifier la
cause
Urls OK
présentes et
crawlées
L’analyse du maillage interne
 Objectif : mesurer les ratios
– Nb de liens entrants vs liens sortants
– Nb de liens sortants internes vs externes
 Indegree = nombre de liens entrants
 La hiérarchie des indegrees doit être conforme à
l’importance des pages
L’analyse du maillage interne
 Objectif : mesurer les ratios
– Nb de liens entrants vs liens sortants
– Nb de liens sortants internes vs externes
 Indegree = nombre de liens entrants
 La hiérarchie des indegrees doit être conforme à
l’importance des pages
/ Le tag de tracking est-il présent ?
53
Vérification d’un plan de taggage
 Recherche d’un pattern (expression régulière)
Vérification des plans de taggage
/ Est-ce que la nouvelle version du site est ok ?
55
Outil de recette
 Recherche d’anomalies dans l’inventaire des pages
 Les CTO qui ont essayé la recette à l’aide d’un crawler l’adoptent souvent
systématiquement ensuite
/ Que se passerait-il si ?
56
Simuler un changement sur le site
Tester la structure d’un site en cas de changement dans l’inventaire des pages ou
dans son maillage.
Home
Cat 1
P1
P2
P3
Cat 2
P1
P2
P3
P4
Cat 3
P1
P2
Home
P1
P2
P3
P1
P2
P3
P4
Cat 3
P1
P2
Structure en ligne Structure envisagée à tester
/ Le crawler, c’est le couteau suisse du référenceur
57
Conclusion
 Outil de collecte de données
 Outil d’audit
 Outil de recette
 Outil de simulation
Outil de collecte de données
/ Crawlez toujours, crawlez encore, vous finirez par
découvrir quelque chose d’important… 
58
Conclusion
Outil de collecte de données
Devise du SEO Shadok : il vaut mieux crawler même s’il ne
se passe rien que de risquer qu’il se passe quelque chose
de pire en ne crawlant pas !
(remarque : la devise est programmée dans l’ordonnanceur de
Googlebot ;-) )
59
Merci !
www.search-foresight.com
Spécialiste de
l’accompagnement
stratégique en SEO

Contenu connexe

Tendances

SEARCH Y - Aymeric Bouillat - "Mystères et Associés" dans les résultats de Go...
SEARCH Y - Aymeric Bouillat - "Mystères et Associés" dans les résultats de Go...SEARCH Y - Aymeric Bouillat - "Mystères et Associés" dans les résultats de Go...
SEARCH Y - Aymeric Bouillat - "Mystères et Associés" dans les résultats de Go...SEARCH Y - Philippe Yonnet Evénements
 
La mise en cache et ses secrets
La mise en cache et ses secretsLa mise en cache et ses secrets
La mise en cache et ses secretsAymeric Bouillat
 
Cocon, metamots et plus si affinités sémantiques. Seo campus-03-2017
Cocon, metamots et plus si affinités sémantiques. Seo campus-03-2017Cocon, metamots et plus si affinités sémantiques. Seo campus-03-2017
Cocon, metamots et plus si affinités sémantiques. Seo campus-03-2017Olivier Andrieu
 
Recherche & SEO / Aujourd'hui & Demain QueDuWeb
Recherche & SEO / Aujourd'hui & Demain QueDuWebRecherche & SEO / Aujourd'hui & Demain QueDuWeb
Recherche & SEO / Aujourd'hui & Demain QueDuWebAysun Akarsu
 
SEO breakfast Toulouse - Analyse de logs
SEO breakfast Toulouse - Analyse de logsSEO breakfast Toulouse - Analyse de logs
SEO breakfast Toulouse - Analyse de logsCogniteev
 
SEO Campus 2016 Oncrawl Open Source Log Analysis
SEO Campus 2016 Oncrawl Open Source Log AnalysisSEO Campus 2016 Oncrawl Open Source Log Analysis
SEO Campus 2016 Oncrawl Open Source Log AnalysisCogniteev
 
OnCrawl Breakfast Paris 10/12/15
OnCrawl Breakfast Paris 10/12/15OnCrawl Breakfast Paris 10/12/15
OnCrawl Breakfast Paris 10/12/15Cogniteev
 
La guerre SEO du CMS : WordPress VS Drupal
La guerre SEO du CMS : WordPress VS DrupalLa guerre SEO du CMS : WordPress VS Drupal
La guerre SEO du CMS : WordPress VS DrupalDaniel Roch - SeoMix
 
Référencement avancé de WordPress : structure en silos et maillage interne
Référencement avancé de WordPress : structure en silos et maillage interneRéférencement avancé de WordPress : structure en silos et maillage interne
Référencement avancé de WordPress : structure en silos et maillage interneDaniel Roch - SeoMix
 
Synodiance > SEO - Tendances SEO - French Web - 01/12/2014
Synodiance > SEO - Tendances SEO - French Web - 01/12/2014Synodiance > SEO - Tendances SEO - French Web - 01/12/2014
Synodiance > SEO - Tendances SEO - French Web - 01/12/2014Search Foresight
 
Seo camp'us 2018 - cloaking is not a crime : Patrick Valibus
Seo camp'us 2018 - cloaking is not a crime : Patrick ValibusSeo camp'us 2018 - cloaking is not a crime : Patrick Valibus
Seo camp'us 2018 - cloaking is not a crime : Patrick ValibusPatrick Valibus
 
Optimiser son SEO avec Google Tag Manager
Optimiser son SEO avec Google Tag ManagerOptimiser son SEO avec Google Tag Manager
Optimiser son SEO avec Google Tag ManageriProspect France
 
Intégrer Yandex dans sa stratégie Search Marketing - SEO Camp'us 2016
Intégrer Yandex dans sa stratégie Search Marketing - SEO Camp'us 2016Intégrer Yandex dans sa stratégie Search Marketing - SEO Camp'us 2016
Intégrer Yandex dans sa stratégie Search Marketing - SEO Camp'us 2016iProspect France
 
Le référencement naturel de cas complexes sur WordPress
Le référencement naturel de cas complexes sur WordPressLe référencement naturel de cas complexes sur WordPress
Le référencement naturel de cas complexes sur WordPressDaniel Roch - SeoMix
 

Tendances (14)

SEARCH Y - Aymeric Bouillat - "Mystères et Associés" dans les résultats de Go...
SEARCH Y - Aymeric Bouillat - "Mystères et Associés" dans les résultats de Go...SEARCH Y - Aymeric Bouillat - "Mystères et Associés" dans les résultats de Go...
SEARCH Y - Aymeric Bouillat - "Mystères et Associés" dans les résultats de Go...
 
La mise en cache et ses secrets
La mise en cache et ses secretsLa mise en cache et ses secrets
La mise en cache et ses secrets
 
Cocon, metamots et plus si affinités sémantiques. Seo campus-03-2017
Cocon, metamots et plus si affinités sémantiques. Seo campus-03-2017Cocon, metamots et plus si affinités sémantiques. Seo campus-03-2017
Cocon, metamots et plus si affinités sémantiques. Seo campus-03-2017
 
Recherche & SEO / Aujourd'hui & Demain QueDuWeb
Recherche & SEO / Aujourd'hui & Demain QueDuWebRecherche & SEO / Aujourd'hui & Demain QueDuWeb
Recherche & SEO / Aujourd'hui & Demain QueDuWeb
 
SEO breakfast Toulouse - Analyse de logs
SEO breakfast Toulouse - Analyse de logsSEO breakfast Toulouse - Analyse de logs
SEO breakfast Toulouse - Analyse de logs
 
SEO Campus 2016 Oncrawl Open Source Log Analysis
SEO Campus 2016 Oncrawl Open Source Log AnalysisSEO Campus 2016 Oncrawl Open Source Log Analysis
SEO Campus 2016 Oncrawl Open Source Log Analysis
 
OnCrawl Breakfast Paris 10/12/15
OnCrawl Breakfast Paris 10/12/15OnCrawl Breakfast Paris 10/12/15
OnCrawl Breakfast Paris 10/12/15
 
La guerre SEO du CMS : WordPress VS Drupal
La guerre SEO du CMS : WordPress VS DrupalLa guerre SEO du CMS : WordPress VS Drupal
La guerre SEO du CMS : WordPress VS Drupal
 
Référencement avancé de WordPress : structure en silos et maillage interne
Référencement avancé de WordPress : structure en silos et maillage interneRéférencement avancé de WordPress : structure en silos et maillage interne
Référencement avancé de WordPress : structure en silos et maillage interne
 
Synodiance > SEO - Tendances SEO - French Web - 01/12/2014
Synodiance > SEO - Tendances SEO - French Web - 01/12/2014Synodiance > SEO - Tendances SEO - French Web - 01/12/2014
Synodiance > SEO - Tendances SEO - French Web - 01/12/2014
 
Seo camp'us 2018 - cloaking is not a crime : Patrick Valibus
Seo camp'us 2018 - cloaking is not a crime : Patrick ValibusSeo camp'us 2018 - cloaking is not a crime : Patrick Valibus
Seo camp'us 2018 - cloaking is not a crime : Patrick Valibus
 
Optimiser son SEO avec Google Tag Manager
Optimiser son SEO avec Google Tag ManagerOptimiser son SEO avec Google Tag Manager
Optimiser son SEO avec Google Tag Manager
 
Intégrer Yandex dans sa stratégie Search Marketing - SEO Camp'us 2016
Intégrer Yandex dans sa stratégie Search Marketing - SEO Camp'us 2016Intégrer Yandex dans sa stratégie Search Marketing - SEO Camp'us 2016
Intégrer Yandex dans sa stratégie Search Marketing - SEO Camp'us 2016
 
Le référencement naturel de cas complexes sur WordPress
Le référencement naturel de cas complexes sur WordPressLe référencement naturel de cas complexes sur WordPress
Le référencement naturel de cas complexes sur WordPress
 

En vedette

Les algorithmes de Facebook - seocampus 2015
Les algorithmes de Facebook - seocampus 2015Les algorithmes de Facebook - seocampus 2015
Les algorithmes de Facebook - seocampus 2015Guillaume Peyronnet
 
Synodiance > SEO et Speech Processing : Futur enjeu SEO ? - SEO Campus 2015 -...
Synodiance > SEO et Speech Processing : Futur enjeu SEO ? - SEO Campus 2015 -...Synodiance > SEO et Speech Processing : Futur enjeu SEO ? - SEO Campus 2015 -...
Synodiance > SEO et Speech Processing : Futur enjeu SEO ? - SEO Campus 2015 -...Search Foresight
 
SEO Camp'us 2015 - Atelier pratique Digital Analytics
SEO Camp'us 2015 - Atelier pratique Digital AnalyticsSEO Camp'us 2015 - Atelier pratique Digital Analytics
SEO Camp'us 2015 - Atelier pratique Digital AnalyticsNicolas Malo
 
Confiance et linking en 2015 - En 5 minutes - Frères Peyronnet
Confiance et linking en 2015 - En 5 minutes - Frères PeyronnetConfiance et linking en 2015 - En 5 minutes - Frères Peyronnet
Confiance et linking en 2015 - En 5 minutes - Frères PeyronnetGuillaume Peyronnet
 
La #landingquitue par @valvert
La #landingquitue par @valvertLa #landingquitue par @valvert
La #landingquitue par @valvertHervé Bourdon
 
Backlinks : pépites et pommes pourries - SEO Camp'us 2015
Backlinks : pépites et pommes pourries - SEO Camp'us 2015Backlinks : pépites et pommes pourries - SEO Camp'us 2015
Backlinks : pépites et pommes pourries - SEO Camp'us 2015512banque
 
Faites votre propre Knowledge Graph - L'extraction d'information et la fouill...
Faites votre propre Knowledge Graph - L'extraction d'information et la fouill...Faites votre propre Knowledge Graph - L'extraction d'information et la fouill...
Faites votre propre Knowledge Graph - L'extraction d'information et la fouill...Philippe YONNET
 
SEO : comment obtenir des liens puissants grâce à un contenu décalé
SEO : comment obtenir des liens puissants grâce à un contenu décaléSEO : comment obtenir des liens puissants grâce à un contenu décalé
SEO : comment obtenir des liens puissants grâce à un contenu décaléLaurent Peyrat
 
Designing Creative Content: How visualising data helps us see
Designing Creative Content: How visualising data helps us seeDesigning Creative Content: How visualising data helps us see
Designing Creative Content: How visualising data helps us seeVicke Cheung
 
HTTPS The Road To A More Secure Web / SEOCamp Paris
HTTPS The Road To A More Secure Web / SEOCamp ParisHTTPS The Road To A More Secure Web / SEOCamp Paris
HTTPS The Road To A More Secure Web / SEOCamp ParisAysun Akarsu
 
Google AMP 1 an après : quel bilan, quelles perspectives ?
Google AMP 1 an après : quel bilan, quelles perspectives ?Google AMP 1 an après : quel bilan, quelles perspectives ?
Google AMP 1 an après : quel bilan, quelles perspectives ?Virginie Clève - largow ☕️
 
SEO et ecommerce sur Magento: retour d’expérience
SEO et ecommerce sur Magento: retour d’expérienceSEO et ecommerce sur Magento: retour d’expérience
SEO et ecommerce sur Magento: retour d’expérienceAurélien Lavorel
 
Les défauts de WordPress pour le SEO
Les défauts de WordPress pour le SEOLes défauts de WordPress pour le SEO
Les défauts de WordPress pour le SEODaniel Roch - SeoMix
 
Measuring Content Marketing
Measuring Content MarketingMeasuring Content Marketing
Measuring Content MarketingDavid Iwanow
 
#Seocamp Paris 2015 Google Adwords: Domptez le et vous Convertirez !
#Seocamp Paris 2015 Google Adwords: Domptez le et vous Convertirez ! #Seocamp Paris 2015 Google Adwords: Domptez le et vous Convertirez !
#Seocamp Paris 2015 Google Adwords: Domptez le et vous Convertirez ! Guillaume Eouzan
 
#SeoCamp 2015 Google Adwords: Innovez et Améliorez votre Visibilité
#SeoCamp 2015 Google Adwords: Innovez et Améliorez votre Visibilité#SeoCamp 2015 Google Adwords: Innovez et Améliorez votre Visibilité
#SeoCamp 2015 Google Adwords: Innovez et Améliorez votre VisibilitéGuillaume Eouzan
 
Les bonnes pratiques SEO avec les frameworks javascript - SEO CAMPUS 9 mars 2017
Les bonnes pratiques SEO avec les frameworks javascript - SEO CAMPUS 9 mars 2017Les bonnes pratiques SEO avec les frameworks javascript - SEO CAMPUS 9 mars 2017
Les bonnes pratiques SEO avec les frameworks javascript - SEO CAMPUS 9 mars 2017Peak Ace
 
Pourquoi mes clients n'appliquent pas mes recommandations SEO (mais pas que ...)
Pourquoi mes clients n'appliquent pas mes recommandations SEO (mais pas que ...)Pourquoi mes clients n'appliquent pas mes recommandations SEO (mais pas que ...)
Pourquoi mes clients n'appliquent pas mes recommandations SEO (mais pas que ...)Thomas BART
 

En vedette (20)

Les algorithmes de Facebook - seocampus 2015
Les algorithmes de Facebook - seocampus 2015Les algorithmes de Facebook - seocampus 2015
Les algorithmes de Facebook - seocampus 2015
 
Synodiance > SEO et Speech Processing : Futur enjeu SEO ? - SEO Campus 2015 -...
Synodiance > SEO et Speech Processing : Futur enjeu SEO ? - SEO Campus 2015 -...Synodiance > SEO et Speech Processing : Futur enjeu SEO ? - SEO Campus 2015 -...
Synodiance > SEO et Speech Processing : Futur enjeu SEO ? - SEO Campus 2015 -...
 
SEO Camp'us 2015 - Atelier pratique Digital Analytics
SEO Camp'us 2015 - Atelier pratique Digital AnalyticsSEO Camp'us 2015 - Atelier pratique Digital Analytics
SEO Camp'us 2015 - Atelier pratique Digital Analytics
 
Confiance et linking en 2015 - En 5 minutes - Frères Peyronnet
Confiance et linking en 2015 - En 5 minutes - Frères PeyronnetConfiance et linking en 2015 - En 5 minutes - Frères Peyronnet
Confiance et linking en 2015 - En 5 minutes - Frères Peyronnet
 
La #landingquitue par @valvert
La #landingquitue par @valvertLa #landingquitue par @valvert
La #landingquitue par @valvert
 
Backlinks : pépites et pommes pourries - SEO Camp'us 2015
Backlinks : pépites et pommes pourries - SEO Camp'us 2015Backlinks : pépites et pommes pourries - SEO Camp'us 2015
Backlinks : pépites et pommes pourries - SEO Camp'us 2015
 
Faites votre propre Knowledge Graph - L'extraction d'information et la fouill...
Faites votre propre Knowledge Graph - L'extraction d'information et la fouill...Faites votre propre Knowledge Graph - L'extraction d'information et la fouill...
Faites votre propre Knowledge Graph - L'extraction d'information et la fouill...
 
2015 seo-campus-mobile1
2015 seo-campus-mobile12015 seo-campus-mobile1
2015 seo-campus-mobile1
 
SEO : comment obtenir des liens puissants grâce à un contenu décalé
SEO : comment obtenir des liens puissants grâce à un contenu décaléSEO : comment obtenir des liens puissants grâce à un contenu décalé
SEO : comment obtenir des liens puissants grâce à un contenu décalé
 
Designing Creative Content: How visualising data helps us see
Designing Creative Content: How visualising data helps us seeDesigning Creative Content: How visualising data helps us see
Designing Creative Content: How visualising data helps us see
 
HTTPS The Road To A More Secure Web / SEOCamp Paris
HTTPS The Road To A More Secure Web / SEOCamp ParisHTTPS The Road To A More Secure Web / SEOCamp Paris
HTTPS The Road To A More Secure Web / SEOCamp Paris
 
Google AMP 1 an après : quel bilan, quelles perspectives ?
Google AMP 1 an après : quel bilan, quelles perspectives ?Google AMP 1 an après : quel bilan, quelles perspectives ?
Google AMP 1 an après : quel bilan, quelles perspectives ?
 
SEO et ecommerce sur Magento: retour d’expérience
SEO et ecommerce sur Magento: retour d’expérienceSEO et ecommerce sur Magento: retour d’expérience
SEO et ecommerce sur Magento: retour d’expérience
 
Les défauts de WordPress pour le SEO
Les défauts de WordPress pour le SEOLes défauts de WordPress pour le SEO
Les défauts de WordPress pour le SEO
 
Measuring Content Marketing
Measuring Content MarketingMeasuring Content Marketing
Measuring Content Marketing
 
#Seocamp Paris 2015 Google Adwords: Domptez le et vous Convertirez !
#Seocamp Paris 2015 Google Adwords: Domptez le et vous Convertirez ! #Seocamp Paris 2015 Google Adwords: Domptez le et vous Convertirez !
#Seocamp Paris 2015 Google Adwords: Domptez le et vous Convertirez !
 
#SeoCamp 2015 Google Adwords: Innovez et Améliorez votre Visibilité
#SeoCamp 2015 Google Adwords: Innovez et Améliorez votre Visibilité#SeoCamp 2015 Google Adwords: Innovez et Améliorez votre Visibilité
#SeoCamp 2015 Google Adwords: Innovez et Améliorez votre Visibilité
 
Les bonnes pratiques SEO avec les frameworks javascript - SEO CAMPUS 9 mars 2017
Les bonnes pratiques SEO avec les frameworks javascript - SEO CAMPUS 9 mars 2017Les bonnes pratiques SEO avec les frameworks javascript - SEO CAMPUS 9 mars 2017
Les bonnes pratiques SEO avec les frameworks javascript - SEO CAMPUS 9 mars 2017
 
Pourquoi mes clients n'appliquent pas mes recommandations SEO (mais pas que ...)
Pourquoi mes clients n'appliquent pas mes recommandations SEO (mais pas que ...)Pourquoi mes clients n'appliquent pas mes recommandations SEO (mais pas que ...)
Pourquoi mes clients n'appliquent pas mes recommandations SEO (mais pas que ...)
 
Mots-clés, au delà du volume de recherche
Mots-clés, au delà du volume de rechercheMots-clés, au delà du volume de recherche
Mots-clés, au delà du volume de recherche
 

Similaire à Utilisation avancée d'un crawler - SEO Camp'us 2015

Tuni'SEO 2014 : Utiliser un crawler pour optimiser son site pour le SEO
Tuni'SEO 2014 : Utiliser un crawler pour optimiser son site pour le SEOTuni'SEO 2014 : Utiliser un crawler pour optimiser son site pour le SEO
Tuni'SEO 2014 : Utiliser un crawler pour optimiser son site pour le SEOTuni' SEO
 
Being Googlebot - de nouvelles clés pour optimiser le SEO
Being Googlebot - de nouvelles clés pour optimiser le SEOBeing Googlebot - de nouvelles clés pour optimiser le SEO
Being Googlebot - de nouvelles clés pour optimiser le SEODigimood - Agence SEO / SEA
 
Screaming frog - l'outil ne fait pas l'artisan
Screaming frog - l'outil ne fait pas l'artisanScreaming frog - l'outil ne fait pas l'artisan
Screaming frog - l'outil ne fait pas l'artisanAymeric Bouillat
 
Analyse de Logs et SEO : Comment utiliser les logs pour optimiser son site po...
Analyse de Logs et SEO : Comment utiliser les logs pour optimiser son site po...Analyse de Logs et SEO : Comment utiliser les logs pour optimiser son site po...
Analyse de Logs et SEO : Comment utiliser les logs pour optimiser son site po...Marc Akoley
 
Cours SEO / Référencement Naturel - août 2013
Cours SEO / Référencement Naturel - août 2013Cours SEO / Référencement Naturel - août 2013
Cours SEO / Référencement Naturel - août 2013Pierre Ammeloot
 
Comment effectuer le diagnostic SEO de votre site ?
Comment effectuer le diagnostic SEO de votre site ?Comment effectuer le diagnostic SEO de votre site ?
Comment effectuer le diagnostic SEO de votre site ?CibleWeb
 
Maîtriser les bases du Référencement Naturel (SEO) " Première partie"
Maîtriser les bases du Référencement  Naturel (SEO) " Première partie"Maîtriser les bases du Référencement  Naturel (SEO) " Première partie"
Maîtriser les bases du Référencement Naturel (SEO) " Première partie"Olivier kra kouassi
 
Stratégies de Netlinking avancées
Stratégies de Netlinking avancéesStratégies de Netlinking avancées
Stratégies de Netlinking avancéesMajed Ayari
 
Cours SEO débutant Polycom Lausanne
Cours SEO débutant Polycom LausanneCours SEO débutant Polycom Lausanne
Cours SEO débutant Polycom LausannePierre Ammeloot
 
Référencement et analyse site internet doc de travail
Référencement et analyse site internet doc de travailRéférencement et analyse site internet doc de travail
Référencement et analyse site internet doc de travailSéverine Alix
 
Seo 10 clés pour plaire à Google
Seo   10 clés pour plaire à GoogleSeo   10 clés pour plaire à Google
Seo 10 clés pour plaire à GoogleKeyweo
 
Analyse et comparaison des principaux outils SEO disponible sur le marché
Analyse et comparaison des principaux outils SEO disponible sur le marchéAnalyse et comparaison des principaux outils SEO disponible sur le marché
Analyse et comparaison des principaux outils SEO disponible sur le marchéBarbara Czmil-Ruello
 
Du seo d'hier au référencement de demain un avenir plein de ressources (m...
Du seo d'hier au référencement de demain   un avenir plein de ressources (m...Du seo d'hier au référencement de demain   un avenir plein de ressources (m...
Du seo d'hier au référencement de demain un avenir plein de ressources (m...semrush_webinars
 
Le référencement naturel ou SEO
Le référencement naturel ou SEOLe référencement naturel ou SEO
Le référencement naturel ou SEOForestier Mégane
 
Synodiance > La nouvelle donne du SEO - 13/02/2015
Synodiance > La nouvelle donne du SEO - 13/02/2015Synodiance > La nouvelle donne du SEO - 13/02/2015
Synodiance > La nouvelle donne du SEO - 13/02/2015Search Foresight
 
Seo Camp'us 2018 - SEO & FRAMEWORK JAVASCRIPT - Philippe Yonnet - Directeur G...
Seo Camp'us 2018 - SEO & FRAMEWORK JAVASCRIPT - Philippe Yonnet - Directeur G...Seo Camp'us 2018 - SEO & FRAMEWORK JAVASCRIPT - Philippe Yonnet - Directeur G...
Seo Camp'us 2018 - SEO & FRAMEWORK JAVASCRIPT - Philippe Yonnet - Directeur G...Peak Ace
 

Similaire à Utilisation avancée d'un crawler - SEO Camp'us 2015 (20)

Tuni'SEO 2014 : Utiliser un crawler pour optimiser son site pour le SEO
Tuni'SEO 2014 : Utiliser un crawler pour optimiser son site pour le SEOTuni'SEO 2014 : Utiliser un crawler pour optimiser son site pour le SEO
Tuni'SEO 2014 : Utiliser un crawler pour optimiser son site pour le SEO
 
Being Googlebot - de nouvelles clés pour optimiser le SEO
Being Googlebot - de nouvelles clés pour optimiser le SEOBeing Googlebot - de nouvelles clés pour optimiser le SEO
Being Googlebot - de nouvelles clés pour optimiser le SEO
 
Screaming frog - l'outil ne fait pas l'artisan
Screaming frog - l'outil ne fait pas l'artisanScreaming frog - l'outil ne fait pas l'artisan
Screaming frog - l'outil ne fait pas l'artisan
 
Analyse de Logs et SEO : Comment utiliser les logs pour optimiser son site po...
Analyse de Logs et SEO : Comment utiliser les logs pour optimiser son site po...Analyse de Logs et SEO : Comment utiliser les logs pour optimiser son site po...
Analyse de Logs et SEO : Comment utiliser les logs pour optimiser son site po...
 
Se faire connaitre sur le web
Se faire connaitre sur le webSe faire connaitre sur le web
Se faire connaitre sur le web
 
Cours SEO / Référencement Naturel - août 2013
Cours SEO / Référencement Naturel - août 2013Cours SEO / Référencement Naturel - août 2013
Cours SEO / Référencement Naturel - août 2013
 
Comment effectuer le diagnostic SEO de votre site ?
Comment effectuer le diagnostic SEO de votre site ?Comment effectuer le diagnostic SEO de votre site ?
Comment effectuer le diagnostic SEO de votre site ?
 
Maîtriser les bases du Référencement Naturel (SEO) " Première partie"
Maîtriser les bases du Référencement  Naturel (SEO) " Première partie"Maîtriser les bases du Référencement  Naturel (SEO) " Première partie"
Maîtriser les bases du Référencement Naturel (SEO) " Première partie"
 
Stratégies de Netlinking avancées
Stratégies de Netlinking avancéesStratégies de Netlinking avancées
Stratégies de Netlinking avancées
 
Cours SEO débutant Polycom Lausanne
Cours SEO débutant Polycom LausanneCours SEO débutant Polycom Lausanne
Cours SEO débutant Polycom Lausanne
 
Référencement et analyse site internet doc de travail
Référencement et analyse site internet doc de travailRéférencement et analyse site internet doc de travail
Référencement et analyse site internet doc de travail
 
Désindexation
DésindexationDésindexation
Désindexation
 
Seo 10 clés pour plaire à Google
Seo   10 clés pour plaire à GoogleSeo   10 clés pour plaire à Google
Seo 10 clés pour plaire à Google
 
Analyse et comparaison des principaux outils SEO disponible sur le marché
Analyse et comparaison des principaux outils SEO disponible sur le marchéAnalyse et comparaison des principaux outils SEO disponible sur le marché
Analyse et comparaison des principaux outils SEO disponible sur le marché
 
Du seo d'hier au référencement de demain un avenir plein de ressources (m...
Du seo d'hier au référencement de demain   un avenir plein de ressources (m...Du seo d'hier au référencement de demain   un avenir plein de ressources (m...
Du seo d'hier au référencement de demain un avenir plein de ressources (m...
 
Le référencement naturel ou SEO
Le référencement naturel ou SEOLe référencement naturel ou SEO
Le référencement naturel ou SEO
 
Le Searchdexing
Le SearchdexingLe Searchdexing
Le Searchdexing
 
Synodiance > La nouvelle donne du SEO - 13/02/2015
Synodiance > La nouvelle donne du SEO - 13/02/2015Synodiance > La nouvelle donne du SEO - 13/02/2015
Synodiance > La nouvelle donne du SEO - 13/02/2015
 
Seo Camp'us 2018 - SEO & FRAMEWORK JAVASCRIPT - Philippe Yonnet - Directeur G...
Seo Camp'us 2018 - SEO & FRAMEWORK JAVASCRIPT - Philippe Yonnet - Directeur G...Seo Camp'us 2018 - SEO & FRAMEWORK JAVASCRIPT - Philippe Yonnet - Directeur G...
Seo Camp'us 2018 - SEO & FRAMEWORK JAVASCRIPT - Philippe Yonnet - Directeur G...
 
Tout trouver sur le web : les bonnes techniques de recherche !
Tout trouver sur le web : les bonnes techniques de recherche !Tout trouver sur le web : les bonnes techniques de recherche !
Tout trouver sur le web : les bonnes techniques de recherche !
 

Plus de Philippe YONNET

WEBINAR TOPICAL CLUSTERS 9 JUIN 2022.pptx
WEBINAR TOPICAL CLUSTERS 9 JUIN 2022.pptxWEBINAR TOPICAL CLUSTERS 9 JUIN 2022.pptx
WEBINAR TOPICAL CLUSTERS 9 JUIN 2022.pptxPhilippe YONNET
 
WEBINAR SEO INTERNATIONAL 5 mai 2022.pptx
WEBINAR SEO INTERNATIONAL 5 mai 2022.pptxWEBINAR SEO INTERNATIONAL 5 mai 2022.pptx
WEBINAR SEO INTERNATIONAL 5 mai 2022.pptxPhilippe YONNET
 
IMPACT DE L'IA SUR LE SEO.pptx
IMPACT DE L'IA SUR LE SEO.pptxIMPACT DE L'IA SUR LE SEO.pptx
IMPACT DE L'IA SUR LE SEO.pptxPhilippe YONNET
 
IA DANS L'ALGORITHME DE GOOGLE.pptx
IA DANS L'ALGORITHME DE GOOGLE.pptxIA DANS L'ALGORITHME DE GOOGLE.pptx
IA DANS L'ALGORITHME DE GOOGLE.pptxPhilippe YONNET
 
No Code et SEO sont ils compatibles ? Philippe Yonnet Neper
No Code et SEO sont ils compatibles ? Philippe Yonnet NeperNo Code et SEO sont ils compatibles ? Philippe Yonnet Neper
No Code et SEO sont ils compatibles ? Philippe Yonnet NeperPhilippe YONNET
 
Webinar marketplace 9 mars 2022
Webinar marketplace 9 mars 2022Webinar marketplace 9 mars 2022
Webinar marketplace 9 mars 2022Philippe YONNET
 
Apprenons à faire des SEO Split Tests
Apprenons à faire des SEO Split TestsApprenons à faire des SEO Split Tests
Apprenons à faire des SEO Split TestsPhilippe YONNET
 
L'IA dans l'algorithme de Google - Matin neperien 7 juillet 2021
L'IA dans l'algorithme de Google - Matin neperien 7 juillet 2021L'IA dans l'algorithme de Google - Matin neperien 7 juillet 2021
L'IA dans l'algorithme de Google - Matin neperien 7 juillet 2021Philippe YONNET
 
Nouvelles architectures de sites web et SEO
Nouvelles architectures de sites web et SEONouvelles architectures de sites web et SEO
Nouvelles architectures de sites web et SEOPhilippe YONNET
 
Matin neperien : quelles actions lancer en digital en 2021
Matin neperien : quelles actions lancer en digital en 2021Matin neperien : quelles actions lancer en digital en 2021
Matin neperien : quelles actions lancer en digital en 2021Philippe YONNET
 
Ab testing seo 22 dec 2020
Ab testing seo   22 dec 2020Ab testing seo   22 dec 2020
Ab testing seo 22 dec 2020Philippe YONNET
 
Core web vitals - Webinar Neper du 3 décembre 2020
Core web vitals - Webinar Neper du 3 décembre 2020Core web vitals - Webinar Neper du 3 décembre 2020
Core web vitals - Webinar Neper du 3 décembre 2020Philippe YONNET
 
Webinar Semrush Neper - quel ROI pour les pages amp
Webinar Semrush Neper - quel ROI pour les pages  ampWebinar Semrush Neper - quel ROI pour les pages  amp
Webinar Semrush Neper - quel ROI pour les pages ampPhilippe YONNET
 
L'impact sur le SEO de Googlebot Evergreen
L'impact sur le SEO de Googlebot EvergreenL'impact sur le SEO de Googlebot Evergreen
L'impact sur le SEO de Googlebot EvergreenPhilippe YONNET
 
Le Edge SEO : comment faire du SEO dans le Cloud quand tout le reste a échoué
Le Edge SEO : comment faire du SEO dans le Cloud quand tout le reste a échouéLe Edge SEO : comment faire du SEO dans le Cloud quand tout le reste a échoué
Le Edge SEO : comment faire du SEO dans le Cloud quand tout le reste a échouéPhilippe YONNET
 
2018 le seo à l heure du mobile first index
2018 le seo à l heure du mobile first index2018 le seo à l heure du mobile first index
2018 le seo à l heure du mobile first indexPhilippe YONNET
 
Tuniseo 2017 année charnière pour le SEO ?
Tuniseo  2017 année charnière pour le SEO ?Tuniseo  2017 année charnière pour le SEO ?
Tuniseo 2017 année charnière pour le SEO ?Philippe YONNET
 
Search Foresight - Word Embeddings - 2017 avril lyon
Search Foresight - Word Embeddings - 2017 avril lyonSearch Foresight - Word Embeddings - 2017 avril lyon
Search Foresight - Word Embeddings - 2017 avril lyonPhilippe YONNET
 
Accelerated Mobile Pages
Accelerated Mobile PagesAccelerated Mobile Pages
Accelerated Mobile PagesPhilippe YONNET
 
Les critères de qualité de vos pages web selon Google
Les critères de qualité de vos pages web selon GoogleLes critères de qualité de vos pages web selon Google
Les critères de qualité de vos pages web selon GooglePhilippe YONNET
 

Plus de Philippe YONNET (20)

WEBINAR TOPICAL CLUSTERS 9 JUIN 2022.pptx
WEBINAR TOPICAL CLUSTERS 9 JUIN 2022.pptxWEBINAR TOPICAL CLUSTERS 9 JUIN 2022.pptx
WEBINAR TOPICAL CLUSTERS 9 JUIN 2022.pptx
 
WEBINAR SEO INTERNATIONAL 5 mai 2022.pptx
WEBINAR SEO INTERNATIONAL 5 mai 2022.pptxWEBINAR SEO INTERNATIONAL 5 mai 2022.pptx
WEBINAR SEO INTERNATIONAL 5 mai 2022.pptx
 
IMPACT DE L'IA SUR LE SEO.pptx
IMPACT DE L'IA SUR LE SEO.pptxIMPACT DE L'IA SUR LE SEO.pptx
IMPACT DE L'IA SUR LE SEO.pptx
 
IA DANS L'ALGORITHME DE GOOGLE.pptx
IA DANS L'ALGORITHME DE GOOGLE.pptxIA DANS L'ALGORITHME DE GOOGLE.pptx
IA DANS L'ALGORITHME DE GOOGLE.pptx
 
No Code et SEO sont ils compatibles ? Philippe Yonnet Neper
No Code et SEO sont ils compatibles ? Philippe Yonnet NeperNo Code et SEO sont ils compatibles ? Philippe Yonnet Neper
No Code et SEO sont ils compatibles ? Philippe Yonnet Neper
 
Webinar marketplace 9 mars 2022
Webinar marketplace 9 mars 2022Webinar marketplace 9 mars 2022
Webinar marketplace 9 mars 2022
 
Apprenons à faire des SEO Split Tests
Apprenons à faire des SEO Split TestsApprenons à faire des SEO Split Tests
Apprenons à faire des SEO Split Tests
 
L'IA dans l'algorithme de Google - Matin neperien 7 juillet 2021
L'IA dans l'algorithme de Google - Matin neperien 7 juillet 2021L'IA dans l'algorithme de Google - Matin neperien 7 juillet 2021
L'IA dans l'algorithme de Google - Matin neperien 7 juillet 2021
 
Nouvelles architectures de sites web et SEO
Nouvelles architectures de sites web et SEONouvelles architectures de sites web et SEO
Nouvelles architectures de sites web et SEO
 
Matin neperien : quelles actions lancer en digital en 2021
Matin neperien : quelles actions lancer en digital en 2021Matin neperien : quelles actions lancer en digital en 2021
Matin neperien : quelles actions lancer en digital en 2021
 
Ab testing seo 22 dec 2020
Ab testing seo   22 dec 2020Ab testing seo   22 dec 2020
Ab testing seo 22 dec 2020
 
Core web vitals - Webinar Neper du 3 décembre 2020
Core web vitals - Webinar Neper du 3 décembre 2020Core web vitals - Webinar Neper du 3 décembre 2020
Core web vitals - Webinar Neper du 3 décembre 2020
 
Webinar Semrush Neper - quel ROI pour les pages amp
Webinar Semrush Neper - quel ROI pour les pages  ampWebinar Semrush Neper - quel ROI pour les pages  amp
Webinar Semrush Neper - quel ROI pour les pages amp
 
L'impact sur le SEO de Googlebot Evergreen
L'impact sur le SEO de Googlebot EvergreenL'impact sur le SEO de Googlebot Evergreen
L'impact sur le SEO de Googlebot Evergreen
 
Le Edge SEO : comment faire du SEO dans le Cloud quand tout le reste a échoué
Le Edge SEO : comment faire du SEO dans le Cloud quand tout le reste a échouéLe Edge SEO : comment faire du SEO dans le Cloud quand tout le reste a échoué
Le Edge SEO : comment faire du SEO dans le Cloud quand tout le reste a échoué
 
2018 le seo à l heure du mobile first index
2018 le seo à l heure du mobile first index2018 le seo à l heure du mobile first index
2018 le seo à l heure du mobile first index
 
Tuniseo 2017 année charnière pour le SEO ?
Tuniseo  2017 année charnière pour le SEO ?Tuniseo  2017 année charnière pour le SEO ?
Tuniseo 2017 année charnière pour le SEO ?
 
Search Foresight - Word Embeddings - 2017 avril lyon
Search Foresight - Word Embeddings - 2017 avril lyonSearch Foresight - Word Embeddings - 2017 avril lyon
Search Foresight - Word Embeddings - 2017 avril lyon
 
Accelerated Mobile Pages
Accelerated Mobile PagesAccelerated Mobile Pages
Accelerated Mobile Pages
 
Les critères de qualité de vos pages web selon Google
Les critères de qualité de vos pages web selon GoogleLes critères de qualité de vos pages web selon Google
Les critères de qualité de vos pages web selon Google
 

Utilisation avancée d'un crawler - SEO Camp'us 2015

  • 1. Agence Conseil en stratégie digitale SEO, CRO, Inbound Marketing, Analytics Philippe YONNET Agence Search Foresight – Groupe My Media Les usages avancés d’un crawler pour le SEO
  • 2. / PHILIPPE YONNET – DIRECTEUR ASSOCIE SF  Philippe YONNET, 49 ans, a aujourd’hui douze années d’expérience en référencement naturel. • Il a conseillé plus d’une centaine de sites, dont un grand nombre de sites à forte audience (Pages Jaunes, Rue du Commerce, Pixmania, Dailymotion, AuFeminin, LeGuide, Twenga, Allociné, Ebay, Nokia, Fnac, SFR, Facebook, La Redoute…) • Il a été notamment Directeur métier puis Directeur Général Adjoint d’Aposition-Isobar de 2007 à 2010. Il est ensuite revenu chez l'annonceur, pour travailler à Londres et New-York pendant deux ans, en tant que Directeur SEO International de Vivastreet, puis en tant que Directeur SEO International et Directeur Merchandising du comparateur de prix Twenga. • Philippe YONNET est le fondateur de l’association SEO Camp, qui regroupe les professionnels du référencement des pays francophones.  Il est un contributeur régulier de la lettre professionnelle d’Abondance, et a contribué à plusieurs chapitres du livre « réussir son référencement » chez Eyrolles  Il a fondé le principal évènement sur le référencement en France, les SEO Camp’us  Il a créé la certification CESEO, qui valide les connaissances des experts en SEO L’ORATEUR
  • 3.
  • 4. / Définition 4 C’est quoi un crawler ? Un robot d'indexation (en anglais web crawler ou web spider) est un logiciel qui explore automatiquement le Web. Il est généralement conçu pour collecter les ressources (pages Web, images, vidéos, documents Word, PDF ou PostScript, etc.), afin de permettre à un moteur de recherche de les indexer. On les appelle aussi familièrement des « bots » (d’où Googlebot, Bingbot) etc…
  • 5. / Comment un crawler découvre les pages - 5 - Le processus de « crawl » Search Foresight 2015 © Agence Conseil en Stratégie Digitale Source : http://www.definitions-webmarketing.com/
  • 6. Connaître une url et savoir ce qu’elle contient sont deux choses différentes 6 WEB URLs crawlées téléchargées et analysées Frontière des urls Zone inexplorée (urls inconnues) Pages Seed Urls connues mais non téléchargées Le processus de crawl
  • 7. / Les principaux composants 7 Anatomie d’un crawler
  • 8. Les deux modes Deux modes : aspirateur / spider Aspirateur : on fournit au crawler une liste d’urls, que le robot « aspire » (télécharge) pour alimenter une base de données Spider : on fournit une url de départ au robot, qui analyse le contenu de la page web, trouve les liens à l’intérieur, les stocke dans une file d’attente. Puis il télécharge les nouvelles urls trouvées, trouve d’autres liens à l’intérieur et ainsi de suite…
  • 9. / Breadth first Le processus de crawl : les 2 façons de crawler un site • En mode breadth first, le robot explore d’abord toutes les urls situées à la profondeur 1, puis à la profondeur 2 etc… • Inconvénient : il faut attendre que toutes les pages du niveau N soit explorées, téléchargées et analysées pour pouvoir passer au niveau suivant • Avantage : si le crawl s’arrête en cours d’exploration, l’arborescence est parfaitement connue jusqu’à un certain niveau.
  • 10. / Depth first Le processus de crawl : les 2 façons de crawler un site En mode depth first, le robot cherche à explorer le maximum d’urls dans le minimum de temps • Avantage : cela va plus vite, car si des modèles de pages sont lents, ou si certaines pages envoient des erreurs 500. On peut paralléliser le crawl sans avoir à synchroniser les différents threads… • Inconvénient : si on arrête le crawl en cours de route, l’arborescence obtenue est inexploitable (les indicateurs utiles sont faussés : profondeur, indegree, outdegree…) La plupart des crawlers du marché fonctionnent sur ce mode, attention.
  • 11. / Les principaux composants 11 Anatomie d’un crawler
  • 12. / 12 Pourquoi utiliser un outil de crawl ? Objectif : simuler le comportement d’un bot de moteur de recherche sur votre site pour identifier ce qui peut bloquer ou gêner l’exploration de vos pages web par le moteur. Votre crawler simulant Googlebot
  • 14. Les crawlers « basiques »
  • 15. Xenu Link Sleuth  http://home.snafu.de/tilman/xenulink.html
  • 20. Les solutions pour crawler de gros volumes de page… - 20 - Search Foresight 2015 © Agence Conseil en Stratégie Digitale
  • 25. Quelques solution externes Et/ou en mode SAS - 25 - Search Foresight 2015 © Agence Conseil en Stratégie Digitale
  • 30. / La détection des pages 404 Détection des liens brisés
  • 31. / ex : analyse avec Botify Volumétrie des codes http: non 200
  • 32. / Identification et estimation des volumétries L’analyse des redirections  Détection des erreurs 30x  Détection des redirections en cascade, ou en boucle  Objectif : diminuer le volume de 301  Eliminer les 302
  • 34. / Ce qu’un bon crawler pour le SEO doit permettre de faire 34 Les prérequis pour une utilisation avancée  Respect ou non du robots.txt  Possibilité de paramétrer le user-agent  Paramétrage du rythme de crawl  Respect ou non des x-robots-tag, des directions noindex, nofollow  Respect ou non de l’attribut nofollow  Prise en compte ou non des canonical  Détection des hreflang, des rel next/prev  Crawl des sous-domaines ou limité à un host  Crawl limité à un pattern d’url, ou excluant ce pattern  Comptage de l’indegree et de l’outdegree  Analyse correcte de la profondeur des pages  Aspiration de la base des liens, avec les anchor texts  Collecte des balises seo : title, h1, desc, meta robots etc…  Possibilité de reconnaître un pattern dans la page  Collecte du temps de téléchargement  Mode spider et mode liste  Capacité à parser le flash, les pdf, et les javascript
  • 35. / Suite… 35 Les prérequis pour une utilisation avancée  Capacité à gérer http vs https://  Capacité à simuler une visite d’un device mobile / tablette / desktop  Collecte des rescodes, des redirections (y compris successives)  Capacité à convertir un pattern d’url rewriting (permet de matcher avec les urls contenues dans les logs)  Capacité à crawler le web invisible (pages protégées par login/mdp)  Support de proxies (pour simuler le crawl depuis un autre pays) +  La capacité d’exporter les infos récoltées dans des formats réutilisables :  Base des ressources (url => pages / images)  Base des liens (url + anchor text) Nota Bene : il manque quelques unes de ces fonctionnalités aux crawlers du marché
  • 36. Tester les performances du site  Le temps de téléchargement du code a une influence sur l’exploration de Google
  • 37. Tester les performances du site  Google webmaster tools ne fournit que des temps « moyens »  Un crawler permettra de comprendre quelles sont les « scripts » lents et d’identifier les causes de ralentissement
  • 38. Détection des duplicate title et description  Exemple avec Screaming Frog
  • 40. Vérification de l’efficacité de la mise en cache  Extraction de patterns : – timestamp de génération de la page vs horodatage du téléchargement de la page – Test de requêtes conditionnelles (If modified since et renvoi de codes 304) – Etc.
  • 41. Analyse de la profondeur  Profondeur : nb de clics nécessaires pour atteindre une page en cliquant sur des liens – Exemple ci-dessous : Botify
  • 42. Pourquoi mesurer la profondeur ? 0 20000 40000 60000 80000 100000 120000 140000 Prof0 Prof1 Prof2 Prof3 Prof4 Prof5 Prof6 Prof7 Prof8 nb urls crawlables non crawlées nb urls crawlées Plus une url est profonde, moins elle reçoit de linkjuice Plus une url est profonde, moins elle a de Pagerank, moins elle est crawlée
  • 43. Le rythme de crawl sur Google est fonction du PR (et d’autres facteurs)
  • 44. Les prérequis pour le crawler  Respect du robots.txt  Gestion du nofollow sur les liens  Gestion du nofollow dans les balises meta  Gestion du x-robots-tag dans les en-têtes http://  Gestion des canonical comme des redirections
  • 45. Analyse des link rel=canonical
  • 46. Analyse des liens sortants  Ex : botify
  • 47. Diagnostic complet  Ex avec Botify (tableau de bord)
  • 48. L’analyse combinée crawl+logs  Urls crawlables => données par votre crawler  Urls crawlées par Googlebot => découvertes dans les logs serveur (User Agent : googlebot) Home Cat 1 P1 P2 P3 Cat 2 P1 P2 P3 P4 Cat 3 P1 P2 Votre version Home Cat 1 P1 P2 P3 Cat 2 P1 P1bis P2 P2bis P3 P4 Cat2bis Cat 3 Version vue par Googlebot Des urls en moins Des urls en +
  • 49. L’analyse combinée logs + crawl Identifier le problème du duplicate vu par google  Ce que vous montrez (crawl) vs  Ce que le moteur de recherche voit et fait (logs) Votre site Votre site + du duplicate
  • 50. Principe de l’analyse des deux versions Urls crawlées par Google, non présentes sur le site : URLS parasites, à bloquer dans le robots.txt Urls présentes sur le site, non explorées par Google : identifier la cause Urls OK présentes et crawlées
  • 51. L’analyse du maillage interne  Objectif : mesurer les ratios – Nb de liens entrants vs liens sortants – Nb de liens sortants internes vs externes  Indegree = nombre de liens entrants  La hiérarchie des indegrees doit être conforme à l’importance des pages
  • 52. L’analyse du maillage interne  Objectif : mesurer les ratios – Nb de liens entrants vs liens sortants – Nb de liens sortants internes vs externes  Indegree = nombre de liens entrants  La hiérarchie des indegrees doit être conforme à l’importance des pages
  • 53. / Le tag de tracking est-il présent ? 53 Vérification d’un plan de taggage  Recherche d’un pattern (expression régulière)
  • 55. / Est-ce que la nouvelle version du site est ok ? 55 Outil de recette  Recherche d’anomalies dans l’inventaire des pages  Les CTO qui ont essayé la recette à l’aide d’un crawler l’adoptent souvent systématiquement ensuite
  • 56. / Que se passerait-il si ? 56 Simuler un changement sur le site Tester la structure d’un site en cas de changement dans l’inventaire des pages ou dans son maillage. Home Cat 1 P1 P2 P3 Cat 2 P1 P2 P3 P4 Cat 3 P1 P2 Home P1 P2 P3 P1 P2 P3 P4 Cat 3 P1 P2 Structure en ligne Structure envisagée à tester
  • 57. / Le crawler, c’est le couteau suisse du référenceur 57 Conclusion  Outil de collecte de données  Outil d’audit  Outil de recette  Outil de simulation Outil de collecte de données
  • 58. / Crawlez toujours, crawlez encore, vous finirez par découvrir quelque chose d’important…  58 Conclusion Outil de collecte de données Devise du SEO Shadok : il vaut mieux crawler même s’il ne se passe rien que de risquer qu’il se passe quelque chose de pire en ne crawlant pas ! (remarque : la devise est programmée dans l’ordonnanceur de Googlebot ;-) )