Was ist der Unterschied zwischen robots.txt und meta robots?
Was ist der Unterschied zwischen Crawling und Indexierung?
Welche Inhalte crawlt Google?
Wie kann das Crawling optimiert werden?
Vortrag von Stephan Czysch zum Thema Logfile-Analysen auf der SEO Campixx 2014.
SEO-Skalierung - von 0 auf 100 in Rekordtempo | Dominik Wojcik & Benedikt Ill...
Logfile-Analyse: Wo ver(sch)wendet Google Crawling-Ressourcen? | Stephan Czysch | SEOCampixx 2014
1. Headline
Subheadline
TA Trust Agents Internet GmbH
Neue Schönhauser Straße 19
10178 Berlin
Referent: Max Mustermann
14. September 2012
SEO-Beratung aus Berlin
TA Trust Agents Internet GmbH
Neue Schönhauser Straße 19
10178 Berlin
SEO-Beratung aus Berlin
Crawling-Analyse
Wo ver(sch)wendet Google
Crawling-Ressourcen?
SEO Campixx 2014, Stephan Czysch
2. 2
Über mich
Seit 2012 Trust Agents CEO
2011-2012 Head of SEO Wimdu
2009-2011 Rocket Internet
Autor diverser Fachartikel & Google
Webmaster Tools E-Book
Stephan Czysch
5. Allgemeines
Suchmaschinen crawlen Inhalte, die
aufgrund von Verweisen oder Anmeldung bekannt
sind
verfügbar und nicht-verfügbar sind
weitergeleitet werden
und nicht vom Crawling ausgeschlossen wurden
Hinweis: Speziell Google „rät“ manchmal URLs und
folgt Erwähnungen von URLs bzw. URL-Fragmenten
5
7. robots.txt vs. robots Tag
Wichtig: Crawling ≠ Indexierung
Crawling:
Automatische Analyse von URLs
Beeinflusst durch robots.txt
Indexierung:
Sollen Inhalte im Index erscheinen?
Beeinflusst durch robots Tag
Ohne eine Seite zu crawlen, weiß Google nicht, ob eine
Seite eventuell nicht indexiert werden soll!
7
8. robots Tag kann Indexierung beeinflussen
Meta robots
Steht im Quelltext
<meta name="robots" content="noindex" />
<meta name="googlebot" content="noindex" />
X-robots
Wird über den HTTP Header übertragen
HTTP/1.1 200 OK Date: Tue, 25 May 2013 21:11:43
GMT (…) X-Robots-Tag: noindex (…)
Speziell für nicht HTML-Dokumente gedacht
8
9. Tipp: Seerobots Browserplugin
robots-Angabe direkt im Browser anzeigen lassen
Download:
Firefox |Chrome
Weitere sinnvolle SEO-Plugins: trustagents.de/seo-
browserplugins
9
10. robots.txt beeinflusst das Crawling
Blockierung findet über die Angabe des User Agent
statt
Wie bei robots Angaben: Alles was nicht „negiert“
ist, ist automatisch erlaubt
10
11. User Agent?
Kennung eines Clients, der an den Server übertragen
wird
Problem: User Agent kann modifiziert werden
11
12. User Agent
Wie schön wäre es doch, sich als Googlebot
auszuweisen
12
13. Übersicht robots.txt, Canonical & robots Tag
robots.txt Canonical robots Tag
URL darf gecrawlt
werden
Nein Ja Ja
Anwendungsfall Seite soll nicht
gecrawlt werden
Seiteninhalt
entspricht zu
großem Teil einer
anderen Seite
Eine Seite soll
gecrawlt werden,
aber nicht im Index
erscheinen
Seite erscheint im
Google-Index?
Ohne Snippet
(siehe Beispiel)
Unter Umständen Nein
13
14. Tipp: roboxt! Plugin
Zeigt an, ob die aktuell geöffnete URL durch die
robots.txt blockiert wird
Download: Firefox
14
20. Wir erinnern uns
Gecrawlt wird,
Was nicht von robots.txt blockiert ist
und bekannt ist
meta robots hat erstmal wenig mit Crawling zu tun!
20
21. Infos über Google Webmaster Tools
21
Crawling-Fehler
URL-Parameter
Interne Links
Suchanfragen
Content-Keywords
HTML-Verbesserungen
Strukturierte Daten
Google Webmaster Tools Nachrichten
Problem: Wir wissen, dass eine URL gecrawlt wurde,
aber nicht (immer) wann und wie häufig
23. Die beste Quelle: Logfiles
Apache und Co. (können) Zugriffe abspeichern
Die Datei enthält Zugriffe von Bots und Nutzern
Pro Tag kann es mehrere Dateien geben
23
24. Logfile-Beispiel
Bei großen Seiten fallen pro Tag mehrere Gigabyte an
Daten an
Inhalt der Beispieldatei:
24
Datum Statuscode
Zeit Übertragene Dateigröße
Anfrage User Agent
Referrer …
26. Ja, aber ich nutze doch Onpage-Tools
Onpage-Tools (z.B. Screaming-Frog) analysieren nur
aktuell INTERN verlinkte URLs
Keine von externen Seiten verlinkte URLs
Keine alten URL-Strukturen
Kein „URL-guessing“
Onpage-Tools bilden nur ihr eigenes Crawling ab und
analysieren Seiten i.d.R. nicht mehrfach
Google hingegen vergisst nichts!
26
28. Was brauchen wir?
28
Logfile
Microsoft Excel
Optional: SEO Tools für Excel
Bisschen Zeit
Hinweis: Bei großen Logfiles ist Excel nicht zu
gebrauchen
maximal 1.048.576 Zeilen werden von Excel
unterstützt
29. Schritt 1: Daten in Excel importieren
Kleine Logfiles können mit Excel geöffnet werden
Daten => Aus Text => Alle Dateien
29
30. Schritt 1: Daten in Excel importieren
Kodierung auf UTF-8 stellen
Trennzeichen: Leerzeichen
Fertigstellen
30
31. Schritt 1: Ergebnis
Im Erfolgsfall sieht es ungefähr so aus
Zu sehen:
Wichtig: Eure eigenen Logfiles können ein anderen
Aufbau haben!
31
IP Größe
Datum Referrer
Uhrzeit User Agent
Anfrage
Statuscode
32. Schritt 2: Spalten anpassen
Spalten ohne Werte fliegen raus, der Referrer
interessiert uns bei der Crawling-Analyse auch nicht
Wichtig: Googlebot sendet keinen Referrer!
32
33. Schritt 3: „Falsche“ Googlebots rauswerfen
Über die IPs finden wir „falsche“ Googlebots von
Scrapern & Co.
66.249.*.* ist in aller Regel wirklich der Googlebot
33
34. Schritt 4: Daten aufbereiten
HTTP 1.1 und ähnliche Infos aus URL Anfrage löschen
URLs einfügen
=VERKETTEN(„http://www.domain.de“&C2)
Auf Wunsch: Link mit =HYPERLINK(ZELLE) einfügen
Ab hier liegt es an euch, die Daten weiter
aufzubereiten
34
35. Schritt 4: Daten aufbereiten
Was ich immer mache:
Ordner rausziehen (SEO Tools for Excel)
=URLPROPERTY(Zelle,“path“)
301 Redirect-Ziele hinzuziehen (SEO Tools for Excel)
=HTTPSTATUS(Zelle)
URLs mit Query-Parameter markieren
….
35
36. Beispielfragen
Wie häufig wird eine URL in einem beliebigen
Zeitraum gecrawlt?
Welche Ordner werden besonders häufig gecrawlt?
Welche URLs werden aufgerufen?
Wie viel Zeit vergeht zwischen einem Crawl einer
Seite?
Welche URLs wurden nicht gecrawlt?
36
37. Beispielergebnis der Analyse
Setup des Kunden
URLs mit Parameter (via Filter) sind nicht SEO
relevant
Canonical auf URL ohne Parameter
Mehrfachfilterung nach einer Facette möglich
Hier sollte der Bot eigentlich nicht so häufig
hinkommen, da vorher der Canonical greifen sollte
37
40. Andere Analyse
Für mehr als 50% der täglichen Crawls war eine
einzelne Ressource verantwortlich!
Problem: JavaScript-Datei mit Zeitstempel
meinjavascript.js?timestap=1328215921
40
41. Bonus
Für die Crawling-Analyse interessieren uns bestimmt
nur User Agents: Warum also alles importieren?
Abhilfe: Mit GREP (Linux) oder FINDSTR
(Windows) könnt ihr die Datei vorab durchsuchen
und die für euch relevanten Zugriffe in eine eigene
Datei schreiben
41