SlideShare ist ein Scribd-Unternehmen logo
1 von 43
Headline
Subheadline
TA Trust Agents Internet GmbH
Neue Schönhauser Straße 19
10178 Berlin
Referent: Max Mustermann
14. September 2012
SEO-Beratung aus Berlin
TA Trust Agents Internet GmbH
Neue Schönhauser Straße 19
10178 Berlin
SEO-Beratung aus Berlin
Crawling-Analyse
Wo ver(sch)wendet Google
Crawling-Ressourcen?
SEO Campixx 2014, Stephan Czysch
2
Über mich
 Seit 2012 Trust Agents CEO
 2011-2012 Head of SEO Wimdu
 2009-2011 Rocket Internet
 Autor diverser Fachartikel & Google
Webmaster Tools E-Book
 Stephan Czysch
Agenda
 Grundlegendes
 Was crawlt Google?
 Crawling-Analyse: Schritt für Schritt Anleitung mit
Excel
3
GRUNDLEGENDES
4
Allgemeines
 Suchmaschinen crawlen Inhalte, die
 aufgrund von Verweisen oder Anmeldung bekannt
sind
 verfügbar und nicht-verfügbar sind
 weitergeleitet werden
 und nicht vom Crawling ausgeschlossen wurden
 Hinweis: Speziell Google „rät“ manchmal URLs und
folgt Erwähnungen von URLs bzw. URL-Fragmenten
5
Crawling-Ablauf
6
robots.txt vs. robots Tag
 Wichtig: Crawling ≠ Indexierung
 Crawling:
 Automatische Analyse von URLs
 Beeinflusst durch robots.txt
 Indexierung:
 Sollen Inhalte im Index erscheinen?
 Beeinflusst durch robots Tag
 Ohne eine Seite zu crawlen, weiß Google nicht, ob eine
Seite eventuell nicht indexiert werden soll!
7
robots Tag kann Indexierung beeinflussen
 Meta robots
 Steht im Quelltext
 <meta name="robots" content="noindex" />
 <meta name="googlebot" content="noindex" />
 X-robots
 Wird über den HTTP Header übertragen
 HTTP/1.1 200 OK Date: Tue, 25 May 2013 21:11:43
GMT (…) X-Robots-Tag: noindex (…)
 Speziell für nicht HTML-Dokumente gedacht
8
Tipp: Seerobots Browserplugin
 robots-Angabe direkt im Browser anzeigen lassen
 Download:
 Firefox |Chrome
 Weitere sinnvolle SEO-Plugins: trustagents.de/seo-
browserplugins
9
robots.txt beeinflusst das Crawling
 Blockierung findet über die Angabe des User Agent
statt
 Wie bei robots Angaben: Alles was nicht „negiert“
ist, ist automatisch erlaubt
10
User Agent?
 Kennung eines Clients, der an den Server übertragen
wird
 Problem: User Agent kann modifiziert werden
11
User Agent
 Wie schön wäre es doch, sich als Googlebot
auszuweisen
12
Übersicht robots.txt, Canonical & robots Tag
robots.txt Canonical robots Tag
URL darf gecrawlt
werden
Nein Ja Ja
Anwendungsfall Seite soll nicht
gecrawlt werden
Seiteninhalt
entspricht zu
großem Teil einer
anderen Seite
Eine Seite soll
gecrawlt werden,
aber nicht im Index
erscheinen
Seite erscheint im
Google-Index?
Ohne Snippet
(siehe Beispiel)
Unter Umständen Nein
13
Tipp: roboxt! Plugin
 Zeigt an, ob die aktuell geöffnete URL durch die
robots.txt blockiert wird
 Download: Firefox
14
robots.txt testen
 WMT: Crawling => blockierte URLs
15
Das würden wir gerne vermeiden
 URLs gone wild
16
Und das natürlich auch
17
Grund: Neue, nicht indexierte
URLs entstehen.
Vermutung: Keine neuen Inhalte
sondern alte unter neuen URLs?
Und eventuell auch das
18
Sowohl der Anstieg als auch Abfall kann ein Problem sein 
WAS CRAWLT GOOGLE?
19
Wir erinnern uns
 Gecrawlt wird,
 Was nicht von robots.txt blockiert ist
 und bekannt ist
 meta robots hat erstmal wenig mit Crawling zu tun!
20
Infos über Google Webmaster Tools
21
 Crawling-Fehler
 URL-Parameter
 Interne Links
 Suchanfragen
 Content-Keywords
 HTML-Verbesserungen
 Strukturierte Daten
 Google Webmaster Tools Nachrichten
 Problem: Wir wissen, dass eine URL gecrawlt wurde,
aber nicht (immer) wann und wie häufig
Beispiel: URL-Parameter
22
 Google könnte uns ohne Crawling nicht sagen, dass
XYZ vorliegt
Die beste Quelle: Logfiles
 Apache und Co. (können) Zugriffe abspeichern
 Die Datei enthält Zugriffe von Bots und Nutzern
 Pro Tag kann es mehrere Dateien geben
23
Logfile-Beispiel
 Bei großen Seiten fallen pro Tag mehrere Gigabyte an
Daten an
 Inhalt der Beispieldatei:
24
Datum Statuscode
Zeit Übertragene Dateigröße
Anfrage User Agent
Referrer …
Problem: Daten aufbereiten
 Wie bekommt man die Daten in eine analysierbare
Form?
25
Ja, aber ich nutze doch Onpage-Tools
 Onpage-Tools (z.B. Screaming-Frog) analysieren nur
aktuell INTERN verlinkte URLs
 Keine von externen Seiten verlinkte URLs
 Keine alten URL-Strukturen
 Kein „URL-guessing“
 Onpage-Tools bilden nur ihr eigenes Crawling ab und
analysieren Seiten i.d.R. nicht mehrfach
 Google hingegen vergisst nichts!
26
SCHRITT FÜR SCHRITT ANLEITUNG
MIT EXCEL
27
Was brauchen wir?
28
 Logfile
 Microsoft Excel
 Optional: SEO Tools für Excel
 Bisschen Zeit
 Hinweis: Bei großen Logfiles ist Excel nicht zu
gebrauchen
 maximal 1.048.576 Zeilen werden von Excel
unterstützt
Schritt 1: Daten in Excel importieren
 Kleine Logfiles können mit Excel geöffnet werden
 Daten => Aus Text => Alle Dateien
29
Schritt 1: Daten in Excel importieren
 Kodierung auf UTF-8 stellen
 Trennzeichen: Leerzeichen
 Fertigstellen
30
Schritt 1: Ergebnis
 Im Erfolgsfall sieht es ungefähr so aus
 Zu sehen:
 Wichtig: Eure eigenen Logfiles können ein anderen
Aufbau haben!
31
IP Größe
Datum Referrer
Uhrzeit User Agent
Anfrage
Statuscode
Schritt 2: Spalten anpassen
 Spalten ohne Werte fliegen raus, der Referrer
interessiert uns bei der Crawling-Analyse auch nicht
 Wichtig: Googlebot sendet keinen Referrer!
32
Schritt 3: „Falsche“ Googlebots rauswerfen
 Über die IPs finden wir „falsche“ Googlebots von
Scrapern & Co.
 66.249.*.* ist in aller Regel wirklich der Googlebot
33
Schritt 4: Daten aufbereiten
 HTTP 1.1 und ähnliche Infos aus URL Anfrage löschen
 URLs einfügen
 =VERKETTEN(„http://www.domain.de“&C2)
 Auf Wunsch: Link mit =HYPERLINK(ZELLE) einfügen
 Ab hier liegt es an euch, die Daten weiter
aufzubereiten
34
Schritt 4: Daten aufbereiten
 Was ich immer mache:
 Ordner rausziehen (SEO Tools for Excel)
 =URLPROPERTY(Zelle,“path“)
 301 Redirect-Ziele hinzuziehen (SEO Tools for Excel)
 =HTTPSTATUS(Zelle)
 URLs mit Query-Parameter markieren
 ….
35
Beispielfragen
 Wie häufig wird eine URL in einem beliebigen
Zeitraum gecrawlt?
 Welche Ordner werden besonders häufig gecrawlt?
 Welche URLs werden aufgerufen?
 Wie viel Zeit vergeht zwischen einem Crawl einer
Seite?
 Welche URLs wurden nicht gecrawlt?
36
Beispielergebnis der Analyse
 Setup des Kunden
 URLs mit Parameter (via Filter) sind nicht SEO
relevant
 Canonical auf URL ohne Parameter
 Mehrfachfilterung nach einer Facette möglich
 Hier sollte der Bot eigentlich nicht so häufig
hinkommen, da vorher der Canonical greifen sollte
37
Crawling-Auswertung
38
98% 98%
92% 89%
8%
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
Einzigartige
URLs
URLs mit 1
Crawl
mit Parameter mit 2
Parametern
Relevante URLs
Abgeleitete Maßnahme
 Crawling-Restriktionen über robots.txt verschärft
 Keine Ranking-Verschlechterung
39
Andere Analyse
 Für mehr als 50% der täglichen Crawls war eine
einzelne Ressource verantwortlich!
 Problem: JavaScript-Datei mit Zeitstempel 
meinjavascript.js?timestap=1328215921
40
Bonus
 Für die Crawling-Analyse interessieren uns bestimmt
nur User Agents: Warum also alles importieren?
 Abhilfe: Mit GREP (Linux) oder FINDSTR
(Windows) könnt ihr die Datei vorab durchsuchen
und die für euch relevanten Zugriffe in eine eigene
Datei schreiben
41
Immer dran denken
42
Indexierungsmanagement ist
wichtig, kümmert euch aber erstmal
um ein effizientes Crawling!
Fragen im Nachgang?
43
Stephan Czysch
e-mail: sc@trustagents.de
xing: Stephan_Czysch
G+: https://plus.google.com/+StephanCzysch
web: www.trustagents.de
blog: www.trustagents.de/blog

Weitere ähnliche Inhalte

Was ist angesagt?

SEOday Köln 2020 - Surprise, Surprise - 5 SEO secrets
SEOday Köln 2020 - Surprise, Surprise - 5 SEO secretsSEOday Köln 2020 - Surprise, Surprise - 5 SEO secrets
SEOday Köln 2020 - Surprise, Surprise - 5 SEO secretsBastian Grimm
 
PageSpeed Extreme für das große Speed Update 2021
PageSpeed Extreme für das große Speed Update 2021PageSpeed Extreme für das große Speed Update 2021
PageSpeed Extreme für das große Speed Update 2021SEARCH ONE
 
Crawl-Budget Optimierung - SEOday 2015
Crawl-Budget Optimierung - SEOday 2015Crawl-Budget Optimierung - SEOday 2015
Crawl-Budget Optimierung - SEOday 2015Bastian Grimm
 
Site Speed EXTREME - SEOkomm 2014
Site Speed EXTREME - SEOkomm 2014Site Speed EXTREME - SEOkomm 2014
Site Speed EXTREME - SEOkomm 2014Bastian Grimm
 
HTTPs Migration How To - SMX München 2017
HTTPs Migration How To - SMX München 2017HTTPs Migration How To - SMX München 2017
HTTPs Migration How To - SMX München 2017Bastian Grimm
 
Seokomm 2016 Vortrag - Räume deine Website auf
Seokomm 2016 Vortrag - Räume deine Website auf Seokomm 2016 Vortrag - Räume deine Website auf
Seokomm 2016 Vortrag - Räume deine Website auf Dominik Wojcik
 
Migration Best-Practices: So gelingt der erfolgreiche Relaunch - SEOkomm 2017
Migration Best-Practices: So gelingt der erfolgreiche Relaunch - SEOkomm 2017Migration Best-Practices: So gelingt der erfolgreiche Relaunch - SEOkomm 2017
Migration Best-Practices: So gelingt der erfolgreiche Relaunch - SEOkomm 2017Bastian Grimm
 
Digitale Assistenten - OMX 2017
Digitale Assistenten - OMX 2017Digitale Assistenten - OMX 2017
Digitale Assistenten - OMX 2017Bastian Grimm
 
Screaming Frog Tricks | SEOKomm 2015
Screaming Frog Tricks | SEOKomm 2015Screaming Frog Tricks | SEOKomm 2015
Screaming Frog Tricks | SEOKomm 2015Mario Träger
 
Hacks für mehr Traktion: Pragmatische Tipps für Low Effort und High Reward
Hacks für mehr Traktion: Pragmatische Tipps für Low Effort und High RewardHacks für mehr Traktion: Pragmatische Tipps für Low Effort und High Reward
Hacks für mehr Traktion: Pragmatische Tipps für Low Effort und High Rewardget traction GmbH
 
SEO: OnPage Optimierungen erfolgreicher Webseiten, Gastvortrag Uni Bayreuth 2013
SEO: OnPage Optimierungen erfolgreicher Webseiten, Gastvortrag Uni Bayreuth 2013SEO: OnPage Optimierungen erfolgreicher Webseiten, Gastvortrag Uni Bayreuth 2013
SEO: OnPage Optimierungen erfolgreicher Webseiten, Gastvortrag Uni Bayreuth 2013Jan Hendrik Merlin Jacob
 
Site Speed am Limit - Campixx 2015
Site Speed am Limit - Campixx 2015Site Speed am Limit - Campixx 2015
Site Speed am Limit - Campixx 2015Walter Andreas Pucko
 
hreflang SMX München 2016 Eoghan Henn
hreflang SMX München 2016 Eoghan Hennhreflang SMX München 2016 Eoghan Henn
hreflang SMX München 2016 Eoghan HennEoghan Henn
 
Bing Webmaster Tools SMX Munich 2014
Bing Webmaster Tools SMX Munich 2014Bing Webmaster Tools SMX Munich 2014
Bing Webmaster Tools SMX Munich 2014Stephan F. Walcher
 
Linkrisiko Management - SEOkomm 2013
Linkrisiko Management - SEOkomm 2013Linkrisiko Management - SEOkomm 2013
Linkrisiko Management - SEOkomm 2013Bastian Grimm
 
Voice search - "Next Big SEO Thing"? oder klassischer Hype?
Voice search - "Next Big SEO Thing"? oder klassischer Hype?Voice search - "Next Big SEO Thing"? oder klassischer Hype?
Voice search - "Next Big SEO Thing"? oder klassischer Hype?Fabian Meister
 
Onpage optimierung mit dem seo screaming frog
Onpage optimierung mit dem seo screaming frogOnpage optimierung mit dem seo screaming frog
Onpage optimierung mit dem seo screaming frogStephan F. Walcher
 
SEO Day 2016: Perfekte Ladezeiten und SEO-Hosting für Speed-Freaks
SEO Day 2016: Perfekte Ladezeiten und SEO-Hosting für Speed-FreaksSEO Day 2016: Perfekte Ladezeiten und SEO-Hosting für Speed-Freaks
SEO Day 2016: Perfekte Ladezeiten und SEO-Hosting für Speed-FreaksSEARCH ONE
 
Welcome to a New Reality - SEO goes Mobile First in 2017
Welcome to a New Reality - SEO goes Mobile First in 2017Welcome to a New Reality - SEO goes Mobile First in 2017
Welcome to a New Reality - SEO goes Mobile First in 2017Bastian Grimm
 
Keyword Strategie: Do's & Don'ts bei der Keyword Recherche - SMX München 2017
Keyword Strategie: Do's & Don'ts bei der Keyword Recherche - SMX München 2017Keyword Strategie: Do's & Don'ts bei der Keyword Recherche - SMX München 2017
Keyword Strategie: Do's & Don'ts bei der Keyword Recherche - SMX München 2017Bastian Grimm
 

Was ist angesagt? (20)

SEOday Köln 2020 - Surprise, Surprise - 5 SEO secrets
SEOday Köln 2020 - Surprise, Surprise - 5 SEO secretsSEOday Köln 2020 - Surprise, Surprise - 5 SEO secrets
SEOday Köln 2020 - Surprise, Surprise - 5 SEO secrets
 
PageSpeed Extreme für das große Speed Update 2021
PageSpeed Extreme für das große Speed Update 2021PageSpeed Extreme für das große Speed Update 2021
PageSpeed Extreme für das große Speed Update 2021
 
Crawl-Budget Optimierung - SEOday 2015
Crawl-Budget Optimierung - SEOday 2015Crawl-Budget Optimierung - SEOday 2015
Crawl-Budget Optimierung - SEOday 2015
 
Site Speed EXTREME - SEOkomm 2014
Site Speed EXTREME - SEOkomm 2014Site Speed EXTREME - SEOkomm 2014
Site Speed EXTREME - SEOkomm 2014
 
HTTPs Migration How To - SMX München 2017
HTTPs Migration How To - SMX München 2017HTTPs Migration How To - SMX München 2017
HTTPs Migration How To - SMX München 2017
 
Seokomm 2016 Vortrag - Räume deine Website auf
Seokomm 2016 Vortrag - Räume deine Website auf Seokomm 2016 Vortrag - Räume deine Website auf
Seokomm 2016 Vortrag - Räume deine Website auf
 
Migration Best-Practices: So gelingt der erfolgreiche Relaunch - SEOkomm 2017
Migration Best-Practices: So gelingt der erfolgreiche Relaunch - SEOkomm 2017Migration Best-Practices: So gelingt der erfolgreiche Relaunch - SEOkomm 2017
Migration Best-Practices: So gelingt der erfolgreiche Relaunch - SEOkomm 2017
 
Digitale Assistenten - OMX 2017
Digitale Assistenten - OMX 2017Digitale Assistenten - OMX 2017
Digitale Assistenten - OMX 2017
 
Screaming Frog Tricks | SEOKomm 2015
Screaming Frog Tricks | SEOKomm 2015Screaming Frog Tricks | SEOKomm 2015
Screaming Frog Tricks | SEOKomm 2015
 
Hacks für mehr Traktion: Pragmatische Tipps für Low Effort und High Reward
Hacks für mehr Traktion: Pragmatische Tipps für Low Effort und High RewardHacks für mehr Traktion: Pragmatische Tipps für Low Effort und High Reward
Hacks für mehr Traktion: Pragmatische Tipps für Low Effort und High Reward
 
SEO: OnPage Optimierungen erfolgreicher Webseiten, Gastvortrag Uni Bayreuth 2013
SEO: OnPage Optimierungen erfolgreicher Webseiten, Gastvortrag Uni Bayreuth 2013SEO: OnPage Optimierungen erfolgreicher Webseiten, Gastvortrag Uni Bayreuth 2013
SEO: OnPage Optimierungen erfolgreicher Webseiten, Gastvortrag Uni Bayreuth 2013
 
Site Speed am Limit - Campixx 2015
Site Speed am Limit - Campixx 2015Site Speed am Limit - Campixx 2015
Site Speed am Limit - Campixx 2015
 
hreflang SMX München 2016 Eoghan Henn
hreflang SMX München 2016 Eoghan Hennhreflang SMX München 2016 Eoghan Henn
hreflang SMX München 2016 Eoghan Henn
 
Bing Webmaster Tools SMX Munich 2014
Bing Webmaster Tools SMX Munich 2014Bing Webmaster Tools SMX Munich 2014
Bing Webmaster Tools SMX Munich 2014
 
Linkrisiko Management - SEOkomm 2013
Linkrisiko Management - SEOkomm 2013Linkrisiko Management - SEOkomm 2013
Linkrisiko Management - SEOkomm 2013
 
Voice search - "Next Big SEO Thing"? oder klassischer Hype?
Voice search - "Next Big SEO Thing"? oder klassischer Hype?Voice search - "Next Big SEO Thing"? oder klassischer Hype?
Voice search - "Next Big SEO Thing"? oder klassischer Hype?
 
Onpage optimierung mit dem seo screaming frog
Onpage optimierung mit dem seo screaming frogOnpage optimierung mit dem seo screaming frog
Onpage optimierung mit dem seo screaming frog
 
SEO Day 2016: Perfekte Ladezeiten und SEO-Hosting für Speed-Freaks
SEO Day 2016: Perfekte Ladezeiten und SEO-Hosting für Speed-FreaksSEO Day 2016: Perfekte Ladezeiten und SEO-Hosting für Speed-Freaks
SEO Day 2016: Perfekte Ladezeiten und SEO-Hosting für Speed-Freaks
 
Welcome to a New Reality - SEO goes Mobile First in 2017
Welcome to a New Reality - SEO goes Mobile First in 2017Welcome to a New Reality - SEO goes Mobile First in 2017
Welcome to a New Reality - SEO goes Mobile First in 2017
 
Keyword Strategie: Do's & Don'ts bei der Keyword Recherche - SMX München 2017
Keyword Strategie: Do's & Don'ts bei der Keyword Recherche - SMX München 2017Keyword Strategie: Do's & Don'ts bei der Keyword Recherche - SMX München 2017
Keyword Strategie: Do's & Don'ts bei der Keyword Recherche - SMX München 2017
 

Andere mochten auch

Seocampixx 2016 - Data Mining Reloaded - In 30 Minuten zum eigenen Scraper
Seocampixx 2016 - Data Mining Reloaded - In 30 Minuten zum eigenen ScraperSeocampixx 2016 - Data Mining Reloaded - In 30 Minuten zum eigenen Scraper
Seocampixx 2016 - Data Mining Reloaded - In 30 Minuten zum eigenen ScraperJens Bonerz
 
Best practise 5 anwendungsfälle der google analytics api
Best practise 5 anwendungsfälle der google analytics apiBest practise 5 anwendungsfälle der google analytics api
Best practise 5 anwendungsfälle der google analytics apie-dialog GmbH
 
Google Analytics Measurement Protocol: Einführung, Transaktionen & Stornos
Google Analytics Measurement Protocol: Einführung, Transaktionen & StornosGoogle Analytics Measurement Protocol: Einführung, Transaktionen & Stornos
Google Analytics Measurement Protocol: Einführung, Transaktionen & Stornos📊 Markus Baersch
 
Lifelogging mit IFTTT und dem GA Measurement Protocol
Lifelogging mit IFTTT und dem GA Measurement ProtocolLifelogging mit IFTTT und dem GA Measurement Protocol
Lifelogging mit IFTTT und dem GA Measurement Protocol📊 Markus Baersch
 
Exploring the Google Analytics API
Exploring the Google Analytics APIExploring the Google Analytics API
Exploring the Google Analytics APIVanessa Sabino
 
SEO Potentialabschätzung - Campixx 2012 Workshop by explido
SEO Potentialabschätzung - Campixx 2012 Workshop by explidoSEO Potentialabschätzung - Campixx 2012 Workshop by explido
SEO Potentialabschätzung - Campixx 2012 Workshop by explidoexplido GmbH & Co. KG
 
Google Tag Manager, SEOkomm 2016
Google Tag Manager, SEOkomm 2016Google Tag Manager, SEOkomm 2016
Google Tag Manager, SEOkomm 2016Stefan David
 
PPC zur Contentqualifizierung - SEOCampixx 2017
PPC zur Contentqualifizierung - SEOCampixx 2017PPC zur Contentqualifizierung - SEOCampixx 2017
PPC zur Contentqualifizierung - SEOCampixx 2017Thomas Hertkorn
 
The Yellow Submarine Project
The Yellow Submarine ProjectThe Yellow Submarine Project
The Yellow Submarine ProjectMari Carmen MM
 
Zoeken in notarisarchieven 26 nov 2016
Zoeken in notarisarchieven 26 nov 2016Zoeken in notarisarchieven 26 nov 2016
Zoeken in notarisarchieven 26 nov 2016Eric Hennekam
 
Las sociedades del aprendizaje
Las sociedades del aprendizajeLas sociedades del aprendizaje
Las sociedades del aprendizajepsique24
 
Christian Gericke - BCM 2016 - 3 Dinge, die Content Marketing ruinieren - oh...
Christian Gericke - BCM 2016 - 3 Dinge, die Content Marketing ruinieren -  oh...Christian Gericke - BCM 2016 - 3 Dinge, die Content Marketing ruinieren -  oh...
Christian Gericke - BCM 2016 - 3 Dinge, die Content Marketing ruinieren - oh...Christian Gericke
 
grey-and-dubious-areas-of-us-drone-program-in-pakistan
 grey-and-dubious-areas-of-us-drone-program-in-pakistan grey-and-dubious-areas-of-us-drone-program-in-pakistan
grey-and-dubious-areas-of-us-drone-program-in-pakistanAgha A
 
Pinguin 4.0 Negative SEO & Positive SEO Test und Antworten auf die Fragen
Pinguin 4.0 Negative SEO & Positive SEO Test und Antworten auf die FragenPinguin 4.0 Negative SEO & Positive SEO Test und Antworten auf die Fragen
Pinguin 4.0 Negative SEO & Positive SEO Test und Antworten auf die FragenEvgeni Sereda
 
портфоліо троян а.о.
портфоліо троян а.о.портфоліо троян а.о.
портфоліо троян а.о.lika1308
 
How to Oracle Ravello Cloud 200% utilize and use case
How to Oracle Ravello Cloud 200% utilize and use case How to Oracle Ravello Cloud 200% utilize and use case
How to Oracle Ravello Cloud 200% utilize and use case suk kim
 
Trade Show Objectives 2017
Trade Show Objectives 2017Trade Show Objectives 2017
Trade Show Objectives 2017Richard Meza
 

Andere mochten auch (20)

Seocampixx 2016 - Data Mining Reloaded - In 30 Minuten zum eigenen Scraper
Seocampixx 2016 - Data Mining Reloaded - In 30 Minuten zum eigenen ScraperSeocampixx 2016 - Data Mining Reloaded - In 30 Minuten zum eigenen Scraper
Seocampixx 2016 - Data Mining Reloaded - In 30 Minuten zum eigenen Scraper
 
Best practise 5 anwendungsfälle der google analytics api
Best practise 5 anwendungsfälle der google analytics apiBest practise 5 anwendungsfälle der google analytics api
Best practise 5 anwendungsfälle der google analytics api
 
Google Analytics Measurement Protocol: Einführung, Transaktionen & Stornos
Google Analytics Measurement Protocol: Einführung, Transaktionen & StornosGoogle Analytics Measurement Protocol: Einführung, Transaktionen & Stornos
Google Analytics Measurement Protocol: Einführung, Transaktionen & Stornos
 
Lifelogging mit IFTTT und dem GA Measurement Protocol
Lifelogging mit IFTTT und dem GA Measurement ProtocolLifelogging mit IFTTT und dem GA Measurement Protocol
Lifelogging mit IFTTT und dem GA Measurement Protocol
 
Stop Spam in Google Analytics
Stop Spam in Google Analytics Stop Spam in Google Analytics
Stop Spam in Google Analytics
 
Exploring the Google Analytics API
Exploring the Google Analytics APIExploring the Google Analytics API
Exploring the Google Analytics API
 
App Indexing, Campixx 2016 Workshop
App Indexing, Campixx 2016 WorkshopApp Indexing, Campixx 2016 Workshop
App Indexing, Campixx 2016 Workshop
 
SEO Potentialabschätzung - Campixx 2012 Workshop by explido
SEO Potentialabschätzung - Campixx 2012 Workshop by explidoSEO Potentialabschätzung - Campixx 2012 Workshop by explido
SEO Potentialabschätzung - Campixx 2012 Workshop by explido
 
Google Tag Manager, SEOkomm 2016
Google Tag Manager, SEOkomm 2016Google Tag Manager, SEOkomm 2016
Google Tag Manager, SEOkomm 2016
 
PPC zur Contentqualifizierung - SEOCampixx 2017
PPC zur Contentqualifizierung - SEOCampixx 2017PPC zur Contentqualifizierung - SEOCampixx 2017
PPC zur Contentqualifizierung - SEOCampixx 2017
 
The Yellow Submarine Project
The Yellow Submarine ProjectThe Yellow Submarine Project
The Yellow Submarine Project
 
Zoeken in notarisarchieven 26 nov 2016
Zoeken in notarisarchieven 26 nov 2016Zoeken in notarisarchieven 26 nov 2016
Zoeken in notarisarchieven 26 nov 2016
 
Las sociedades del aprendizaje
Las sociedades del aprendizajeLas sociedades del aprendizaje
Las sociedades del aprendizaje
 
Christian Gericke - BCM 2016 - 3 Dinge, die Content Marketing ruinieren - oh...
Christian Gericke - BCM 2016 - 3 Dinge, die Content Marketing ruinieren -  oh...Christian Gericke - BCM 2016 - 3 Dinge, die Content Marketing ruinieren -  oh...
Christian Gericke - BCM 2016 - 3 Dinge, die Content Marketing ruinieren - oh...
 
grey-and-dubious-areas-of-us-drone-program-in-pakistan
 grey-and-dubious-areas-of-us-drone-program-in-pakistan grey-and-dubious-areas-of-us-drone-program-in-pakistan
grey-and-dubious-areas-of-us-drone-program-in-pakistan
 
Pinguin 4.0 Negative SEO & Positive SEO Test und Antworten auf die Fragen
Pinguin 4.0 Negative SEO & Positive SEO Test und Antworten auf die FragenPinguin 4.0 Negative SEO & Positive SEO Test und Antworten auf die Fragen
Pinguin 4.0 Negative SEO & Positive SEO Test und Antworten auf die Fragen
 
портфоліо троян а.о.
портфоліо троян а.о.портфоліо троян а.о.
портфоліо троян а.о.
 
How to Oracle Ravello Cloud 200% utilize and use case
How to Oracle Ravello Cloud 200% utilize and use case How to Oracle Ravello Cloud 200% utilize and use case
How to Oracle Ravello Cloud 200% utilize and use case
 
Trade Show Objectives 2017
Trade Show Objectives 2017Trade Show Objectives 2017
Trade Show Objectives 2017
 
SEO internacional
SEO internacionalSEO internacional
SEO internacional
 

Ähnlich wie Logfile-Analyse: Wo ver(sch)wendet Google Crawling-Ressourcen? | Stephan Czysch | SEOCampixx 2014

SeoDay 2017: Mikroprozesse im SEO
SeoDay 2017: Mikroprozesse im SEOSeoDay 2017: Mikroprozesse im SEO
SeoDay 2017: Mikroprozesse im SEOget traction GmbH
 
SEOkomm 2019 - André Goldmann - User-Experience-Optimierung für SEOs - Wie du...
SEOkomm 2019 - André Goldmann - User-Experience-Optimierung für SEOs - Wie du...SEOkomm 2019 - André Goldmann - User-Experience-Optimierung für SEOs - Wie du...
SEOkomm 2019 - André Goldmann - User-Experience-Optimierung für SEOs - Wie du...André Goldmann
 
OMWest Barcamp 2018: Onpage SEO im Griff: Alerting und Monitoring für SEOs
OMWest Barcamp 2018: Onpage SEO im Griff: Alerting und Monitoring für SEOsOMWest Barcamp 2018: Onpage SEO im Griff: Alerting und Monitoring für SEOs
OMWest Barcamp 2018: Onpage SEO im Griff: Alerting und Monitoring für SEOsget traction GmbH
 
SEO-Basics: Die 9 häufigsten SEO-Anfänger-Fehler
SEO-Basics: Die 9 häufigsten SEO-Anfänger-FehlerSEO-Basics: Die 9 häufigsten SEO-Anfänger-Fehler
SEO-Basics: Die 9 häufigsten SEO-Anfänger-FehlerHanns Kronenberg
 
JavaScript SEO - Crawling, Indexierung und Auditing von JavaScript-Websites -...
JavaScript SEO - Crawling, Indexierung und Auditing von JavaScript-Websites -...JavaScript SEO - Crawling, Indexierung und Auditing von JavaScript-Websites -...
JavaScript SEO - Crawling, Indexierung und Auditing von JavaScript-Websites -...Artur Kosch
 
SEO-Workshop - by Heiko Stammel
SEO-Workshop - by Heiko StammelSEO-Workshop - by Heiko Stammel
SEO-Workshop - by Heiko StammelBlogfamilia
 
Technisches SEO Campixx 2015 - Knut Barth und Matthias Plankl
Technisches SEO Campixx 2015 - Knut Barth und Matthias PlanklTechnisches SEO Campixx 2015 - Knut Barth und Matthias Plankl
Technisches SEO Campixx 2015 - Knut Barth und Matthias PlanklKnut Barth
 
JavaScript SEO - Crawling, Indexierung und Auditing von JavaScript-Websites -...
JavaScript SEO - Crawling, Indexierung und Auditing von JavaScript-Websites -...JavaScript SEO - Crawling, Indexierung und Auditing von JavaScript-Websites -...
JavaScript SEO - Crawling, Indexierung und Auditing von JavaScript-Websites -...Artur Kosch
 
Onpage SEO im Griff: Alerting und Monitoring für SEOs
Onpage SEO im Griff: Alerting und Monitoring für SEOsOnpage SEO im Griff: Alerting und Monitoring für SEOs
Onpage SEO im Griff: Alerting und Monitoring für SEOsget traction GmbH
 
15 sehr coole kostenlose SEO Tools
15 sehr coole kostenlose SEO Tools15 sehr coole kostenlose SEO Tools
15 sehr coole kostenlose SEO ToolsAndreas Schudey
 
JavaScript SEO - Crawling, Indexierung und Auditing von JavaScript-Websites -...
JavaScript SEO - Crawling, Indexierung und Auditing von JavaScript-Websites -...JavaScript SEO - Crawling, Indexierung und Auditing von JavaScript-Websites -...
JavaScript SEO - Crawling, Indexierung und Auditing von JavaScript-Websites -...Artur Kosch
 
hallo.digital: Content Relaunch
hallo.digital: Content Relaunchhallo.digital: Content Relaunch
hallo.digital: Content RelaunchEric Kubitz
 
SEMrush Übersicht von allen Tools Stand 03.2019
SEMrush Übersicht von allen Tools  Stand 03.2019SEMrush Übersicht von allen Tools  Stand 03.2019
SEMrush Übersicht von allen Tools Stand 03.2019Evgeni Sereda
 
SEMrush Overview Präsentation auf der DiMarEx
SEMrush Overview Präsentation auf der DiMarExSEMrush Overview Präsentation auf der DiMarEx
SEMrush Overview Präsentation auf der DiMarExEvgeni Sereda
 

Ähnlich wie Logfile-Analyse: Wo ver(sch)wendet Google Crawling-Ressourcen? | Stephan Czysch | SEOCampixx 2014 (20)

SeoDay 2017: Mikroprozesse im SEO
SeoDay 2017: Mikroprozesse im SEOSeoDay 2017: Mikroprozesse im SEO
SeoDay 2017: Mikroprozesse im SEO
 
Google Search Console für SEO einsetzen!
Google Search Console für SEO einsetzen!Google Search Console für SEO einsetzen!
Google Search Console für SEO einsetzen!
 
SEOkomm 2019 - André Goldmann - User-Experience-Optimierung für SEOs - Wie du...
SEOkomm 2019 - André Goldmann - User-Experience-Optimierung für SEOs - Wie du...SEOkomm 2019 - André Goldmann - User-Experience-Optimierung für SEOs - Wie du...
SEOkomm 2019 - André Goldmann - User-Experience-Optimierung für SEOs - Wie du...
 
Seo Hilfe
Seo HilfeSeo Hilfe
Seo Hilfe
 
OMWest Barcamp 2018: Onpage SEO im Griff: Alerting und Monitoring für SEOs
OMWest Barcamp 2018: Onpage SEO im Griff: Alerting und Monitoring für SEOsOMWest Barcamp 2018: Onpage SEO im Griff: Alerting und Monitoring für SEOs
OMWest Barcamp 2018: Onpage SEO im Griff: Alerting und Monitoring für SEOs
 
SEO Maintenance - SEODay 2015
SEO Maintenance - SEODay 2015SEO Maintenance - SEODay 2015
SEO Maintenance - SEODay 2015
 
SEO-Basics: Die 9 häufigsten SEO-Anfänger-Fehler
SEO-Basics: Die 9 häufigsten SEO-Anfänger-FehlerSEO-Basics: Die 9 häufigsten SEO-Anfänger-Fehler
SEO-Basics: Die 9 häufigsten SEO-Anfänger-Fehler
 
Ist die Webseite suchmaschinenoptimiert? Vorstellung eines Online-Tools zur A...
Ist die Webseite suchmaschinenoptimiert? Vorstellung eines Online-Tools zur A...Ist die Webseite suchmaschinenoptimiert? Vorstellung eines Online-Tools zur A...
Ist die Webseite suchmaschinenoptimiert? Vorstellung eines Online-Tools zur A...
 
Seo mythen & legenden
Seo mythen & legendenSeo mythen & legenden
Seo mythen & legenden
 
JavaScript SEO - Crawling, Indexierung und Auditing von JavaScript-Websites -...
JavaScript SEO - Crawling, Indexierung und Auditing von JavaScript-Websites -...JavaScript SEO - Crawling, Indexierung und Auditing von JavaScript-Websites -...
JavaScript SEO - Crawling, Indexierung und Auditing von JavaScript-Websites -...
 
SEO-Workshop - by Heiko Stammel
SEO-Workshop - by Heiko StammelSEO-Workshop - by Heiko Stammel
SEO-Workshop - by Heiko Stammel
 
Technisches SEO Campixx 2015 - Knut Barth und Matthias Plankl
Technisches SEO Campixx 2015 - Knut Barth und Matthias PlanklTechnisches SEO Campixx 2015 - Knut Barth und Matthias Plankl
Technisches SEO Campixx 2015 - Knut Barth und Matthias Plankl
 
JavaScript SEO - Crawling, Indexierung und Auditing von JavaScript-Websites -...
JavaScript SEO - Crawling, Indexierung und Auditing von JavaScript-Websites -...JavaScript SEO - Crawling, Indexierung und Auditing von JavaScript-Websites -...
JavaScript SEO - Crawling, Indexierung und Auditing von JavaScript-Websites -...
 
Zecplus de 2020_07_27
Zecplus de 2020_07_27Zecplus de 2020_07_27
Zecplus de 2020_07_27
 
Onpage SEO im Griff: Alerting und Monitoring für SEOs
Onpage SEO im Griff: Alerting und Monitoring für SEOsOnpage SEO im Griff: Alerting und Monitoring für SEOs
Onpage SEO im Griff: Alerting und Monitoring für SEOs
 
15 sehr coole kostenlose SEO Tools
15 sehr coole kostenlose SEO Tools15 sehr coole kostenlose SEO Tools
15 sehr coole kostenlose SEO Tools
 
JavaScript SEO - Crawling, Indexierung und Auditing von JavaScript-Websites -...
JavaScript SEO - Crawling, Indexierung und Auditing von JavaScript-Websites -...JavaScript SEO - Crawling, Indexierung und Auditing von JavaScript-Websites -...
JavaScript SEO - Crawling, Indexierung und Auditing von JavaScript-Websites -...
 
hallo.digital: Content Relaunch
hallo.digital: Content Relaunchhallo.digital: Content Relaunch
hallo.digital: Content Relaunch
 
SEMrush Übersicht von allen Tools Stand 03.2019
SEMrush Übersicht von allen Tools  Stand 03.2019SEMrush Übersicht von allen Tools  Stand 03.2019
SEMrush Übersicht von allen Tools Stand 03.2019
 
SEMrush Overview Präsentation auf der DiMarEx
SEMrush Overview Präsentation auf der DiMarExSEMrush Overview Präsentation auf der DiMarEx
SEMrush Overview Präsentation auf der DiMarEx
 

Mehr von TA Trust Agents Internet GmbH

SEO mit kostenlosen Tools | Suchmaschinenoptimierung OMT 2018
SEO mit kostenlosen Tools | Suchmaschinenoptimierung OMT 2018SEO mit kostenlosen Tools | Suchmaschinenoptimierung OMT 2018
SEO mit kostenlosen Tools | Suchmaschinenoptimierung OMT 2018TA Trust Agents Internet GmbH
 
Räume deine Webseite auf! | Dominik Wojcik | SEOkomm 2016
Räume deine Webseite auf! | Dominik Wojcik | SEOkomm 2016Räume deine Webseite auf! | Dominik Wojcik | SEOkomm 2016
Räume deine Webseite auf! | Dominik Wojcik | SEOkomm 2016TA Trust Agents Internet GmbH
 
Crawling analysis to the fullest | J.Giesche & E.Protzel | SEOcampixx 2018
Crawling analysis to the fullest | J.Giesche & E.Protzel | SEOcampixx 2018Crawling analysis to the fullest | J.Giesche & E.Protzel | SEOcampixx 2018
Crawling analysis to the fullest | J.Giesche & E.Protzel | SEOcampixx 2018TA Trust Agents Internet GmbH
 
10 technische SEO Hacks | Dominik Wojcik | SEOkomm 2017
10 technische SEO Hacks | Dominik Wojcik | SEOkomm 201710 technische SEO Hacks | Dominik Wojcik | SEOkomm 2017
10 technische SEO Hacks | Dominik Wojcik | SEOkomm 2017TA Trust Agents Internet GmbH
 
SEO-Skalierung - von 0 auf 100 in Rekordtempo | Dominik Wojcik & Benedikt Ill...
SEO-Skalierung - von 0 auf 100 in Rekordtempo | Dominik Wojcik & Benedikt Ill...SEO-Skalierung - von 0 auf 100 in Rekordtempo | Dominik Wojcik & Benedikt Ill...
SEO-Skalierung - von 0 auf 100 in Rekordtempo | Dominik Wojcik & Benedikt Ill...TA Trust Agents Internet GmbH
 

Mehr von TA Trust Agents Internet GmbH (9)

Präsentation zum Meetup - Hands-on SEO
Präsentation zum Meetup - Hands-on SEOPräsentation zum Meetup - Hands-on SEO
Präsentation zum Meetup - Hands-on SEO
 
Meetup | Data-Driven Marketing
Meetup | Data-Driven MarketingMeetup | Data-Driven Marketing
Meetup | Data-Driven Marketing
 
SEO mit kostenlosen Tools | Suchmaschinenoptimierung OMT 2018
SEO mit kostenlosen Tools | Suchmaschinenoptimierung OMT 2018SEO mit kostenlosen Tools | Suchmaschinenoptimierung OMT 2018
SEO mit kostenlosen Tools | Suchmaschinenoptimierung OMT 2018
 
Content Seeding - Meetup @ Trust Agents
Content Seeding - Meetup @ Trust AgentsContent Seeding - Meetup @ Trust Agents
Content Seeding - Meetup @ Trust Agents
 
Räume deine Webseite auf! | Dominik Wojcik | SEOkomm 2016
Räume deine Webseite auf! | Dominik Wojcik | SEOkomm 2016Räume deine Webseite auf! | Dominik Wojcik | SEOkomm 2016
Räume deine Webseite auf! | Dominik Wojcik | SEOkomm 2016
 
Crawling analysis to the fullest | J.Giesche & E.Protzel | SEOcampixx 2018
Crawling analysis to the fullest | J.Giesche & E.Protzel | SEOcampixx 2018Crawling analysis to the fullest | J.Giesche & E.Protzel | SEOcampixx 2018
Crawling analysis to the fullest | J.Giesche & E.Protzel | SEOcampixx 2018
 
10 technische SEO Hacks | Dominik Wojcik | SEOkomm 2017
10 technische SEO Hacks | Dominik Wojcik | SEOkomm 201710 technische SEO Hacks | Dominik Wojcik | SEOkomm 2017
10 technische SEO Hacks | Dominik Wojcik | SEOkomm 2017
 
Next Level Tech SEO | Dominik Wojcik | SEO Day 2017
Next Level Tech SEO | Dominik Wojcik | SEO Day 2017Next Level Tech SEO | Dominik Wojcik | SEO Day 2017
Next Level Tech SEO | Dominik Wojcik | SEO Day 2017
 
SEO-Skalierung - von 0 auf 100 in Rekordtempo | Dominik Wojcik & Benedikt Ill...
SEO-Skalierung - von 0 auf 100 in Rekordtempo | Dominik Wojcik & Benedikt Ill...SEO-Skalierung - von 0 auf 100 in Rekordtempo | Dominik Wojcik & Benedikt Ill...
SEO-Skalierung - von 0 auf 100 in Rekordtempo | Dominik Wojcik & Benedikt Ill...
 

Logfile-Analyse: Wo ver(sch)wendet Google Crawling-Ressourcen? | Stephan Czysch | SEOCampixx 2014

  • 1. Headline Subheadline TA Trust Agents Internet GmbH Neue Schönhauser Straße 19 10178 Berlin Referent: Max Mustermann 14. September 2012 SEO-Beratung aus Berlin TA Trust Agents Internet GmbH Neue Schönhauser Straße 19 10178 Berlin SEO-Beratung aus Berlin Crawling-Analyse Wo ver(sch)wendet Google Crawling-Ressourcen? SEO Campixx 2014, Stephan Czysch
  • 2. 2 Über mich  Seit 2012 Trust Agents CEO  2011-2012 Head of SEO Wimdu  2009-2011 Rocket Internet  Autor diverser Fachartikel & Google Webmaster Tools E-Book  Stephan Czysch
  • 3. Agenda  Grundlegendes  Was crawlt Google?  Crawling-Analyse: Schritt für Schritt Anleitung mit Excel 3
  • 5. Allgemeines  Suchmaschinen crawlen Inhalte, die  aufgrund von Verweisen oder Anmeldung bekannt sind  verfügbar und nicht-verfügbar sind  weitergeleitet werden  und nicht vom Crawling ausgeschlossen wurden  Hinweis: Speziell Google „rät“ manchmal URLs und folgt Erwähnungen von URLs bzw. URL-Fragmenten 5
  • 7. robots.txt vs. robots Tag  Wichtig: Crawling ≠ Indexierung  Crawling:  Automatische Analyse von URLs  Beeinflusst durch robots.txt  Indexierung:  Sollen Inhalte im Index erscheinen?  Beeinflusst durch robots Tag  Ohne eine Seite zu crawlen, weiß Google nicht, ob eine Seite eventuell nicht indexiert werden soll! 7
  • 8. robots Tag kann Indexierung beeinflussen  Meta robots  Steht im Quelltext  <meta name="robots" content="noindex" />  <meta name="googlebot" content="noindex" />  X-robots  Wird über den HTTP Header übertragen  HTTP/1.1 200 OK Date: Tue, 25 May 2013 21:11:43 GMT (…) X-Robots-Tag: noindex (…)  Speziell für nicht HTML-Dokumente gedacht 8
  • 9. Tipp: Seerobots Browserplugin  robots-Angabe direkt im Browser anzeigen lassen  Download:  Firefox |Chrome  Weitere sinnvolle SEO-Plugins: trustagents.de/seo- browserplugins 9
  • 10. robots.txt beeinflusst das Crawling  Blockierung findet über die Angabe des User Agent statt  Wie bei robots Angaben: Alles was nicht „negiert“ ist, ist automatisch erlaubt 10
  • 11. User Agent?  Kennung eines Clients, der an den Server übertragen wird  Problem: User Agent kann modifiziert werden 11
  • 12. User Agent  Wie schön wäre es doch, sich als Googlebot auszuweisen 12
  • 13. Übersicht robots.txt, Canonical & robots Tag robots.txt Canonical robots Tag URL darf gecrawlt werden Nein Ja Ja Anwendungsfall Seite soll nicht gecrawlt werden Seiteninhalt entspricht zu großem Teil einer anderen Seite Eine Seite soll gecrawlt werden, aber nicht im Index erscheinen Seite erscheint im Google-Index? Ohne Snippet (siehe Beispiel) Unter Umständen Nein 13
  • 14. Tipp: roboxt! Plugin  Zeigt an, ob die aktuell geöffnete URL durch die robots.txt blockiert wird  Download: Firefox 14
  • 15. robots.txt testen  WMT: Crawling => blockierte URLs 15
  • 16. Das würden wir gerne vermeiden  URLs gone wild 16
  • 17. Und das natürlich auch 17 Grund: Neue, nicht indexierte URLs entstehen. Vermutung: Keine neuen Inhalte sondern alte unter neuen URLs?
  • 18. Und eventuell auch das 18 Sowohl der Anstieg als auch Abfall kann ein Problem sein 
  • 20. Wir erinnern uns  Gecrawlt wird,  Was nicht von robots.txt blockiert ist  und bekannt ist  meta robots hat erstmal wenig mit Crawling zu tun! 20
  • 21. Infos über Google Webmaster Tools 21  Crawling-Fehler  URL-Parameter  Interne Links  Suchanfragen  Content-Keywords  HTML-Verbesserungen  Strukturierte Daten  Google Webmaster Tools Nachrichten  Problem: Wir wissen, dass eine URL gecrawlt wurde, aber nicht (immer) wann und wie häufig
  • 22. Beispiel: URL-Parameter 22  Google könnte uns ohne Crawling nicht sagen, dass XYZ vorliegt
  • 23. Die beste Quelle: Logfiles  Apache und Co. (können) Zugriffe abspeichern  Die Datei enthält Zugriffe von Bots und Nutzern  Pro Tag kann es mehrere Dateien geben 23
  • 24. Logfile-Beispiel  Bei großen Seiten fallen pro Tag mehrere Gigabyte an Daten an  Inhalt der Beispieldatei: 24 Datum Statuscode Zeit Übertragene Dateigröße Anfrage User Agent Referrer …
  • 25. Problem: Daten aufbereiten  Wie bekommt man die Daten in eine analysierbare Form? 25
  • 26. Ja, aber ich nutze doch Onpage-Tools  Onpage-Tools (z.B. Screaming-Frog) analysieren nur aktuell INTERN verlinkte URLs  Keine von externen Seiten verlinkte URLs  Keine alten URL-Strukturen  Kein „URL-guessing“  Onpage-Tools bilden nur ihr eigenes Crawling ab und analysieren Seiten i.d.R. nicht mehrfach  Google hingegen vergisst nichts! 26
  • 27. SCHRITT FÜR SCHRITT ANLEITUNG MIT EXCEL 27
  • 28. Was brauchen wir? 28  Logfile  Microsoft Excel  Optional: SEO Tools für Excel  Bisschen Zeit  Hinweis: Bei großen Logfiles ist Excel nicht zu gebrauchen  maximal 1.048.576 Zeilen werden von Excel unterstützt
  • 29. Schritt 1: Daten in Excel importieren  Kleine Logfiles können mit Excel geöffnet werden  Daten => Aus Text => Alle Dateien 29
  • 30. Schritt 1: Daten in Excel importieren  Kodierung auf UTF-8 stellen  Trennzeichen: Leerzeichen  Fertigstellen 30
  • 31. Schritt 1: Ergebnis  Im Erfolgsfall sieht es ungefähr so aus  Zu sehen:  Wichtig: Eure eigenen Logfiles können ein anderen Aufbau haben! 31 IP Größe Datum Referrer Uhrzeit User Agent Anfrage Statuscode
  • 32. Schritt 2: Spalten anpassen  Spalten ohne Werte fliegen raus, der Referrer interessiert uns bei der Crawling-Analyse auch nicht  Wichtig: Googlebot sendet keinen Referrer! 32
  • 33. Schritt 3: „Falsche“ Googlebots rauswerfen  Über die IPs finden wir „falsche“ Googlebots von Scrapern & Co.  66.249.*.* ist in aller Regel wirklich der Googlebot 33
  • 34. Schritt 4: Daten aufbereiten  HTTP 1.1 und ähnliche Infos aus URL Anfrage löschen  URLs einfügen  =VERKETTEN(„http://www.domain.de“&C2)  Auf Wunsch: Link mit =HYPERLINK(ZELLE) einfügen  Ab hier liegt es an euch, die Daten weiter aufzubereiten 34
  • 35. Schritt 4: Daten aufbereiten  Was ich immer mache:  Ordner rausziehen (SEO Tools for Excel)  =URLPROPERTY(Zelle,“path“)  301 Redirect-Ziele hinzuziehen (SEO Tools for Excel)  =HTTPSTATUS(Zelle)  URLs mit Query-Parameter markieren  …. 35
  • 36. Beispielfragen  Wie häufig wird eine URL in einem beliebigen Zeitraum gecrawlt?  Welche Ordner werden besonders häufig gecrawlt?  Welche URLs werden aufgerufen?  Wie viel Zeit vergeht zwischen einem Crawl einer Seite?  Welche URLs wurden nicht gecrawlt? 36
  • 37. Beispielergebnis der Analyse  Setup des Kunden  URLs mit Parameter (via Filter) sind nicht SEO relevant  Canonical auf URL ohne Parameter  Mehrfachfilterung nach einer Facette möglich  Hier sollte der Bot eigentlich nicht so häufig hinkommen, da vorher der Canonical greifen sollte 37
  • 39. Abgeleitete Maßnahme  Crawling-Restriktionen über robots.txt verschärft  Keine Ranking-Verschlechterung 39
  • 40. Andere Analyse  Für mehr als 50% der täglichen Crawls war eine einzelne Ressource verantwortlich!  Problem: JavaScript-Datei mit Zeitstempel  meinjavascript.js?timestap=1328215921 40
  • 41. Bonus  Für die Crawling-Analyse interessieren uns bestimmt nur User Agents: Warum also alles importieren?  Abhilfe: Mit GREP (Linux) oder FINDSTR (Windows) könnt ihr die Datei vorab durchsuchen und die für euch relevanten Zugriffe in eine eigene Datei schreiben 41
  • 42. Immer dran denken 42 Indexierungsmanagement ist wichtig, kümmert euch aber erstmal um ein effizientes Crawling!
  • 43. Fragen im Nachgang? 43 Stephan Czysch e-mail: sc@trustagents.de xing: Stephan_Czysch G+: https://plus.google.com/+StephanCzysch web: www.trustagents.de blog: www.trustagents.de/blog