Headline
Subheadline
TA Trust Agents Internet GmbH
Neue Schönhauser Straße 19
10178 Berlin
Referent: Max Mustermann
14. Se...
2
Über mich
 Seit 2012 Trust Agents CEO
 2011-2012 Head of SEO Wimdu
 2009-2011 Rocket Internet
 Autor diverser Fachar...
Agenda
 Grundlegendes
 Was crawlt Google?
 Crawling-Analyse: Schritt für Schritt Anleitung mit
Excel
3
GRUNDLEGENDES
4
Allgemeines
 Suchmaschinen crawlen Inhalte, die
 aufgrund von Verweisen oder Anmeldung bekannt
sind
 verfügbar und nich...
Crawling-Ablauf
6
robots.txt vs. robots Tag
 Wichtig: Crawling ≠ Indexierung
 Crawling:
 Automatische Analyse von URLs
 Beeinflusst durc...
robots Tag kann Indexierung beeinflussen
 Meta robots
 Steht im Quelltext
 <meta name="robots" content="noindex" />
 <...
Tipp: Seerobots Browserplugin
 robots-Angabe direkt im Browser anzeigen lassen
 Download:
 Firefox |Chrome
 Weitere si...
robots.txt beeinflusst das Crawling
 Blockierung findet über die Angabe des User Agent
statt
 Wie bei robots Angaben: Al...
User Agent?
 Kennung eines Clients, der an den Server übertragen
wird
 Problem: User Agent kann modifiziert werden
11
User Agent
 Wie schön wäre es doch, sich als Googlebot
auszuweisen
12
Übersicht robots.txt, Canonical & robots Tag
robots.txt Canonical robots Tag
URL darf gecrawlt
werden
Nein Ja Ja
Anwendung...
Tipp: roboxt! Plugin
 Zeigt an, ob die aktuell geöffnete URL durch die
robots.txt blockiert wird
 Download: Firefox
14
robots.txt testen
 WMT: Crawling => blockierte URLs
15
Das würden wir gerne vermeiden
 URLs gone wild
16
Und das natürlich auch
17
Grund: Neue, nicht indexierte
URLs entstehen.
Vermutung: Keine neuen Inhalte
sondern alte unter ...
Und eventuell auch das
18
Sowohl der Anstieg als auch Abfall kann ein Problem sein 
WAS CRAWLT GOOGLE?
19
Wir erinnern uns
 Gecrawlt wird,
 Was nicht von robots.txt blockiert ist
 und bekannt ist
 meta robots hat erstmal wen...
Infos über Google Webmaster Tools
21
 Crawling-Fehler
 URL-Parameter
 Interne Links
 Suchanfragen
 Content-Keywords
...
Beispiel: URL-Parameter
22
 Google könnte uns ohne Crawling nicht sagen, dass
XYZ vorliegt
Die beste Quelle: Logfiles
 Apache und Co. (können) Zugriffe abspeichern
 Die Datei enthält Zugriffe von Bots und Nutzer...
Logfile-Beispiel
 Bei großen Seiten fallen pro Tag mehrere Gigabyte an
Daten an
 Inhalt der Beispieldatei:
24
Datum Stat...
Problem: Daten aufbereiten
 Wie bekommt man die Daten in eine analysierbare
Form?
25
Ja, aber ich nutze doch Onpage-Tools
 Onpage-Tools (z.B. Screaming-Frog) analysieren nur
aktuell INTERN verlinkte URLs
 ...
SCHRITT FÜR SCHRITT ANLEITUNG
MIT EXCEL
27
Was brauchen wir?
28
 Logfile
 Microsoft Excel
 Optional: SEO Tools für Excel
 Bisschen Zeit
 Hinweis: Bei großen Log...
Schritt 1: Daten in Excel importieren
 Kleine Logfiles können mit Excel geöffnet werden
 Daten => Aus Text => Alle Datei...
Schritt 1: Daten in Excel importieren
 Kodierung auf UTF-8 stellen
 Trennzeichen: Leerzeichen
 Fertigstellen
30
Schritt 1: Ergebnis
 Im Erfolgsfall sieht es ungefähr so aus
 Zu sehen:
 Wichtig: Eure eigenen Logfiles können ein ande...
Schritt 2: Spalten anpassen
 Spalten ohne Werte fliegen raus, der Referrer
interessiert uns bei der Crawling-Analyse auch...
Schritt 3: „Falsche“ Googlebots rauswerfen
 Über die IPs finden wir „falsche“ Googlebots von
Scrapern & Co.
 66.249.*.* ...
Schritt 4: Daten aufbereiten
 HTTP 1.1 und ähnliche Infos aus URL Anfrage löschen
 URLs einfügen
 =VERKETTEN(„http://ww...
Schritt 4: Daten aufbereiten
 Was ich immer mache:
 Ordner rausziehen (SEO Tools for Excel)
 =URLPROPERTY(Zelle,“path“)...
Beispielfragen
 Wie häufig wird eine URL in einem beliebigen
Zeitraum gecrawlt?
 Welche Ordner werden besonders häufig g...
Beispielergebnis der Analyse
 Setup des Kunden
 URLs mit Parameter (via Filter) sind nicht SEO
relevant
 Canonical auf ...
Crawling-Auswertung
38
98% 98%
92% 89%
8%
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
Einzigartige
URLs
URLs mit 1
Crawl
m...
Abgeleitete Maßnahme
 Crawling-Restriktionen über robots.txt verschärft
 Keine Ranking-Verschlechterung
39
Andere Analyse
 Für mehr als 50% der täglichen Crawls war eine
einzelne Ressource verantwortlich!
 Problem: JavaScript-D...
Bonus
 Für die Crawling-Analyse interessieren uns bestimmt
nur User Agents: Warum also alles importieren?
 Abhilfe: Mit ...
Immer dran denken
42
Indexierungsmanagement ist
wichtig, kümmert euch aber erstmal
um ein effizientes Crawling!
Fragen im Nachgang?
43
Stephan Czysch
e-mail: sc@trustagents.de
xing: Stephan_Czysch
G+: https://plus.google.com/+StephanC...
Nächste SlideShare
Wird geladen in …5
×

Logfile-Analyse: Wo ver(sch)wendet Google Crawling-Ressourcen?

2.464 Aufrufe

Veröffentlicht am

Vortrag von Stephan Czysch zum Thema Logfile-Analysen auf der SEO Campixx 2014.

Aus dem Inhalt:
Was ist der Unterschied zwischen robots.txt und meta robots?
Was ist der Unterschied zwischen Crawling und Indexierung?
Welche Inhalte crawlt Google?
Wie kann das Crawling optimiert werden?

Weitere Informationen zum Vortrag gibt es unter http://www.trustagents.de/blog/logfile-analyse-seo-campixx

Veröffentlicht in: Marketing
0 Kommentare
8 Gefällt mir
Statistik
Notizen
  • Als Erste(r) kommentieren

Keine Downloads
Aufrufe
Aufrufe insgesamt
2.464
Auf SlideShare
0
Aus Einbettungen
0
Anzahl an Einbettungen
920
Aktionen
Geteilt
0
Downloads
0
Kommentare
0
Gefällt mir
8
Einbettungen 0
Keine Einbettungen

Keine Notizen für die Folie

Logfile-Analyse: Wo ver(sch)wendet Google Crawling-Ressourcen?

  1. 1. Headline Subheadline TA Trust Agents Internet GmbH Neue Schönhauser Straße 19 10178 Berlin Referent: Max Mustermann 14. September 2012 SEO-Beratung aus Berlin TA Trust Agents Internet GmbH Neue Schönhauser Straße 19 10178 Berlin SEO-Beratung aus Berlin Crawling-Analyse Wo ver(sch)wendet Google Crawling-Ressourcen? SEO Campixx 2014, Stephan Czysch
  2. 2. 2 Über mich  Seit 2012 Trust Agents CEO  2011-2012 Head of SEO Wimdu  2009-2011 Rocket Internet  Autor diverser Fachartikel & Google Webmaster Tools E-Book  Stephan Czysch
  3. 3. Agenda  Grundlegendes  Was crawlt Google?  Crawling-Analyse: Schritt für Schritt Anleitung mit Excel 3
  4. 4. GRUNDLEGENDES 4
  5. 5. Allgemeines  Suchmaschinen crawlen Inhalte, die  aufgrund von Verweisen oder Anmeldung bekannt sind  verfügbar und nicht-verfügbar sind  weitergeleitet werden  und nicht vom Crawling ausgeschlossen wurden  Hinweis: Speziell Google „rät“ manchmal URLs und folgt Erwähnungen von URLs bzw. URL-Fragmenten 5
  6. 6. Crawling-Ablauf 6
  7. 7. robots.txt vs. robots Tag  Wichtig: Crawling ≠ Indexierung  Crawling:  Automatische Analyse von URLs  Beeinflusst durch robots.txt  Indexierung:  Sollen Inhalte im Index erscheinen?  Beeinflusst durch robots Tag  Ohne eine Seite zu crawlen, weiß Google nicht, ob eine Seite eventuell nicht indexiert werden soll! 7
  8. 8. robots Tag kann Indexierung beeinflussen  Meta robots  Steht im Quelltext  <meta name="robots" content="noindex" />  <meta name="googlebot" content="noindex" />  X-robots  Wird über den HTTP Header übertragen  HTTP/1.1 200 OK Date: Tue, 25 May 2013 21:11:43 GMT (…) X-Robots-Tag: noindex (…)  Speziell für nicht HTML-Dokumente gedacht 8
  9. 9. Tipp: Seerobots Browserplugin  robots-Angabe direkt im Browser anzeigen lassen  Download:  Firefox |Chrome  Weitere sinnvolle SEO-Plugins: trustagents.de/seo- browserplugins 9
  10. 10. robots.txt beeinflusst das Crawling  Blockierung findet über die Angabe des User Agent statt  Wie bei robots Angaben: Alles was nicht „negiert“ ist, ist automatisch erlaubt 10
  11. 11. User Agent?  Kennung eines Clients, der an den Server übertragen wird  Problem: User Agent kann modifiziert werden 11
  12. 12. User Agent  Wie schön wäre es doch, sich als Googlebot auszuweisen 12
  13. 13. Übersicht robots.txt, Canonical & robots Tag robots.txt Canonical robots Tag URL darf gecrawlt werden Nein Ja Ja Anwendungsfall Seite soll nicht gecrawlt werden Seiteninhalt entspricht zu großem Teil einer anderen Seite Eine Seite soll gecrawlt werden, aber nicht im Index erscheinen Seite erscheint im Google-Index? Ohne Snippet (siehe Beispiel) Unter Umständen Nein 13
  14. 14. Tipp: roboxt! Plugin  Zeigt an, ob die aktuell geöffnete URL durch die robots.txt blockiert wird  Download: Firefox 14
  15. 15. robots.txt testen  WMT: Crawling => blockierte URLs 15
  16. 16. Das würden wir gerne vermeiden  URLs gone wild 16
  17. 17. Und das natürlich auch 17 Grund: Neue, nicht indexierte URLs entstehen. Vermutung: Keine neuen Inhalte sondern alte unter neuen URLs?
  18. 18. Und eventuell auch das 18 Sowohl der Anstieg als auch Abfall kann ein Problem sein 
  19. 19. WAS CRAWLT GOOGLE? 19
  20. 20. Wir erinnern uns  Gecrawlt wird,  Was nicht von robots.txt blockiert ist  und bekannt ist  meta robots hat erstmal wenig mit Crawling zu tun! 20
  21. 21. Infos über Google Webmaster Tools 21  Crawling-Fehler  URL-Parameter  Interne Links  Suchanfragen  Content-Keywords  HTML-Verbesserungen  Strukturierte Daten  Google Webmaster Tools Nachrichten  Problem: Wir wissen, dass eine URL gecrawlt wurde, aber nicht (immer) wann und wie häufig
  22. 22. Beispiel: URL-Parameter 22  Google könnte uns ohne Crawling nicht sagen, dass XYZ vorliegt
  23. 23. Die beste Quelle: Logfiles  Apache und Co. (können) Zugriffe abspeichern  Die Datei enthält Zugriffe von Bots und Nutzern  Pro Tag kann es mehrere Dateien geben 23
  24. 24. Logfile-Beispiel  Bei großen Seiten fallen pro Tag mehrere Gigabyte an Daten an  Inhalt der Beispieldatei: 24 Datum Statuscode Zeit Übertragene Dateigröße Anfrage User Agent Referrer …
  25. 25. Problem: Daten aufbereiten  Wie bekommt man die Daten in eine analysierbare Form? 25
  26. 26. Ja, aber ich nutze doch Onpage-Tools  Onpage-Tools (z.B. Screaming-Frog) analysieren nur aktuell INTERN verlinkte URLs  Keine von externen Seiten verlinkte URLs  Keine alten URL-Strukturen  Kein „URL-guessing“  Onpage-Tools bilden nur ihr eigenes Crawling ab und analysieren Seiten i.d.R. nicht mehrfach  Google hingegen vergisst nichts! 26
  27. 27. SCHRITT FÜR SCHRITT ANLEITUNG MIT EXCEL 27
  28. 28. Was brauchen wir? 28  Logfile  Microsoft Excel  Optional: SEO Tools für Excel  Bisschen Zeit  Hinweis: Bei großen Logfiles ist Excel nicht zu gebrauchen  maximal 1.048.576 Zeilen werden von Excel unterstützt
  29. 29. Schritt 1: Daten in Excel importieren  Kleine Logfiles können mit Excel geöffnet werden  Daten => Aus Text => Alle Dateien 29
  30. 30. Schritt 1: Daten in Excel importieren  Kodierung auf UTF-8 stellen  Trennzeichen: Leerzeichen  Fertigstellen 30
  31. 31. Schritt 1: Ergebnis  Im Erfolgsfall sieht es ungefähr so aus  Zu sehen:  Wichtig: Eure eigenen Logfiles können ein anderen Aufbau haben! 31 IP Größe Datum Referrer Uhrzeit User Agent Anfrage Statuscode
  32. 32. Schritt 2: Spalten anpassen  Spalten ohne Werte fliegen raus, der Referrer interessiert uns bei der Crawling-Analyse auch nicht  Wichtig: Googlebot sendet keinen Referrer! 32
  33. 33. Schritt 3: „Falsche“ Googlebots rauswerfen  Über die IPs finden wir „falsche“ Googlebots von Scrapern & Co.  66.249.*.* ist in aller Regel wirklich der Googlebot 33
  34. 34. Schritt 4: Daten aufbereiten  HTTP 1.1 und ähnliche Infos aus URL Anfrage löschen  URLs einfügen  =VERKETTEN(„http://www.domain.de“&C2)  Auf Wunsch: Link mit =HYPERLINK(ZELLE) einfügen  Ab hier liegt es an euch, die Daten weiter aufzubereiten 34
  35. 35. Schritt 4: Daten aufbereiten  Was ich immer mache:  Ordner rausziehen (SEO Tools for Excel)  =URLPROPERTY(Zelle,“path“)  301 Redirect-Ziele hinzuziehen (SEO Tools for Excel)  =HTTPSTATUS(Zelle)  URLs mit Query-Parameter markieren  …. 35
  36. 36. Beispielfragen  Wie häufig wird eine URL in einem beliebigen Zeitraum gecrawlt?  Welche Ordner werden besonders häufig gecrawlt?  Welche URLs werden aufgerufen?  Wie viel Zeit vergeht zwischen einem Crawl einer Seite?  Welche URLs wurden nicht gecrawlt? 36
  37. 37. Beispielergebnis der Analyse  Setup des Kunden  URLs mit Parameter (via Filter) sind nicht SEO relevant  Canonical auf URL ohne Parameter  Mehrfachfilterung nach einer Facette möglich  Hier sollte der Bot eigentlich nicht so häufig hinkommen, da vorher der Canonical greifen sollte 37
  38. 38. Crawling-Auswertung 38 98% 98% 92% 89% 8% 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% Einzigartige URLs URLs mit 1 Crawl mit Parameter mit 2 Parametern Relevante URLs
  39. 39. Abgeleitete Maßnahme  Crawling-Restriktionen über robots.txt verschärft  Keine Ranking-Verschlechterung 39
  40. 40. Andere Analyse  Für mehr als 50% der täglichen Crawls war eine einzelne Ressource verantwortlich!  Problem: JavaScript-Datei mit Zeitstempel  meinjavascript.js?timestap=1328215921 40
  41. 41. Bonus  Für die Crawling-Analyse interessieren uns bestimmt nur User Agents: Warum also alles importieren?  Abhilfe: Mit GREP (Linux) oder FINDSTR (Windows) könnt ihr die Datei vorab durchsuchen und die für euch relevanten Zugriffe in eine eigene Datei schreiben 41
  42. 42. Immer dran denken 42 Indexierungsmanagement ist wichtig, kümmert euch aber erstmal um ein effizientes Crawling!
  43. 43. Fragen im Nachgang? 43 Stephan Czysch e-mail: sc@trustagents.de xing: Stephan_Czysch G+: https://plus.google.com/+StephanCzysch web: www.trustagents.de blog: www.trustagents.de/blog

×