Logfile-Analyse: Wo ver(sch)wendet Google Crawling-Ressourcen? | Stephan Czysch | SEOCampixx 2014

Headline
Subheadline
TA Trust Agents Internet GmbH
Neue Schönhauser Straße 19
10178 Berlin
Referent: Max Mustermann
14. September 2012
SEO-Beratung aus Berlin
TA Trust Agents Internet GmbH
Neue Schönhauser Straße 19
10178 Berlin
SEO-Beratung aus Berlin
Crawling-Analyse
Wo ver(sch)wendet Google
Crawling-Ressourcen?
SEO Campixx 2014, Stephan Czysch

2
Über mich
 Seit 2012 Trust Agents CEO
 2011-2012 Head of SEO Wimdu
 2009-2011 Rocket Internet
 Autor diverser Fachartikel & Google
Webmaster Tools E-Book
 Stephan Czysch

Agenda
 Grundlegendes
 Was crawlt Google?
 Crawling-Analyse: Schritt für Schritt Anleitung mit
Excel
3

Allgemeines
 Suchmaschinen crawlen Inhalte, die
 aufgrund von Verweisen oder Anmeldung bekannt
sind
 verfügbar und nicht-verfügbar sind
 weitergeleitet werden
 und nicht vom Crawling ausgeschlossen wurden
 Hinweis: Speziell Google „rät“ manchmal URLs und
folgt Erwähnungen von URLs bzw. URL-Fragmenten
5

robots.txt vs. robots Tag
 Wichtig: Crawling ≠ Indexierung
 Crawling:
 Automatische Analyse von URLs
 Beeinflusst durch robots.txt
 Indexierung:
 Sollen Inhalte im Index erscheinen?
 Beeinflusst durch robots Tag
 Ohne eine Seite zu crawlen, weiß Google nicht, ob eine
Seite eventuell nicht indexiert werden soll!
7

robots Tag kann Indexierung beeinflussen
 Meta robots
 Steht im Quelltext
 <meta name="robots" content="noindex" />
 <meta name="googlebot" content="noindex" />
 X-robots
 Wird über den HTTP Header übertragen
 HTTP/1.1 200 OK Date: Tue, 25 May 2013 21:11:43
GMT (…) X-Robots-Tag: noindex (…)
 Speziell für nicht HTML-Dokumente gedacht
8

Tipp: Seerobots Browserplugin
 robots-Angabe direkt im Browser anzeigen lassen
 Download:
 Firefox |Chrome
 Weitere sinnvolle SEO-Plugins: trustagents.de/seo-
browserplugins
9

robots.txt beeinflusst das Crawling
 Blockierung findet über die Angabe des User Agent
statt
 Wie bei robots Angaben: Alles was nicht „negiert“
ist, ist automatisch erlaubt
10

User Agent?
 Kennung eines Clients, der an den Server übertragen
wird
 Problem: User Agent kann modifiziert werden
11

User Agent
 Wie schön wäre es doch, sich als Googlebot
auszuweisen
12

Übersicht robots.txt, Canonical & robots Tag
robots.txt Canonical robots Tag
URL darf gecrawlt
werden
Nein Ja Ja
Anwendungsfall Seite soll nicht
gecrawlt werden
Seiteninhalt
entspricht zu
großem Teil einer
anderen Seite
Eine Seite soll
gecrawlt werden,
aber nicht im Index
erscheinen
Seite erscheint im
Google-Index?
Ohne Snippet
(siehe Beispiel)
Unter Umständen Nein
13

Tipp: roboxt! Plugin
 Zeigt an, ob die aktuell geöffnete URL durch die
robots.txt blockiert wird
 Download: Firefox
14

robots.txt testen
 WMT: Crawling => blockierte URLs
15

Das würden wir gerne vermeiden
 URLs gone wild
16

Und das natürlich auch
17
Grund: Neue, nicht indexierte
URLs entstehen.
Vermutung: Keine neuen Inhalte
sondern alte unter neuen URLs?

Und eventuell auch das
18
Sowohl der Anstieg als auch Abfall kann ein Problem sein 

Wir erinnern uns
 Gecrawlt wird,
 Was nicht von robots.txt blockiert ist
 und bekannt ist
 meta robots hat erstmal wenig mit Crawling zu tun!
20

Infos über Google Webmaster Tools
21
 Crawling-Fehler
 URL-Parameter
 Interne Links
 Suchanfragen
 Content-Keywords
 HTML-Verbesserungen
 Strukturierte Daten
 Google Webmaster Tools Nachrichten
 Problem: Wir wissen, dass eine URL gecrawlt wurde,
aber nicht (immer) wann und wie häufig

Beispiel: URL-Parameter
22
 Google könnte uns ohne Crawling nicht sagen, dass
XYZ vorliegt

Die beste Quelle: Logfiles
 Apache und Co. (können) Zugriffe abspeichern
 Die Datei enthält Zugriffe von Bots und Nutzern
 Pro Tag kann es mehrere Dateien geben
23

Logfile-Beispiel
 Bei großen Seiten fallen pro Tag mehrere Gigabyte an
Daten an
 Inhalt der Beispieldatei:
24
Datum Statuscode
Zeit Übertragene Dateigröße
Anfrage User Agent
Referrer …

Problem: Daten aufbereiten
 Wie bekommt man die Daten in eine analysierbare
Form?
25

Ja, aber ich nutze doch Onpage-Tools
 Onpage-Tools (z.B. Screaming-Frog) analysieren nur
aktuell INTERN verlinkte URLs
 Keine von externen Seiten verlinkte URLs
 Keine alten URL-Strukturen
 Kein „URL-guessing“
 Onpage-Tools bilden nur ihr eigenes Crawling ab und
analysieren Seiten i.d.R. nicht mehrfach
 Google hingegen vergisst nichts!
26

SCHRITT FÜR SCHRITT ANLEITUNG
MIT EXCEL
27

Was brauchen wir?
28
 Logfile
 Microsoft Excel
 Optional: SEO Tools für Excel
 Bisschen Zeit
 Hinweis: Bei großen Logfiles ist Excel nicht zu
gebrauchen
 maximal 1.048.576 Zeilen werden von Excel
unterstützt

Schritt 1: Daten in Excel importieren
 Kleine Logfiles können mit Excel geöffnet werden
 Daten => Aus Text => Alle Dateien
29

Schritt 1: Daten in Excel importieren
 Kodierung auf UTF-8 stellen
 Trennzeichen: Leerzeichen
 Fertigstellen
30

Schritt 1: Ergebnis
 Im Erfolgsfall sieht es ungefähr so aus
 Zu sehen:
 Wichtig: Eure eigenen Logfiles können ein anderen
Aufbau haben!
31
IP Größe
Datum Referrer
Uhrzeit User Agent
Anfrage
Statuscode

Schritt 2: Spalten anpassen
 Spalten ohne Werte fliegen raus, der Referrer
interessiert uns bei der Crawling-Analyse auch nicht
 Wichtig: Googlebot sendet keinen Referrer!
32

Schritt 3: „Falsche“ Googlebots rauswerfen
 Über die IPs finden wir „falsche“ Googlebots von
Scrapern & Co.
 66.249.*.* ist in aller Regel wirklich der Googlebot
33

Schritt 4: Daten aufbereiten
 HTTP 1.1 und ähnliche Infos aus URL Anfrage löschen
 URLs einfügen
 =VERKETTEN(„http://www.domain.de“&C2)
 Auf Wunsch: Link mit =HYPERLINK(ZELLE) einfügen
 Ab hier liegt es an euch, die Daten weiter
aufzubereiten
34

Schritt 4: Daten aufbereiten
 Was ich immer mache:
 Ordner rausziehen (SEO Tools for Excel)
 =URLPROPERTY(Zelle,“path“)
 301 Redirect-Ziele hinzuziehen (SEO Tools for Excel)
 =HTTPSTATUS(Zelle)
 URLs mit Query-Parameter markieren
 ….
35

Beispielfragen
 Wie häufig wird eine URL in einem beliebigen
Zeitraum gecrawlt?
 Welche Ordner werden besonders häufig gecrawlt?
 Welche URLs werden aufgerufen?
 Wie viel Zeit vergeht zwischen einem Crawl einer
Seite?
 Welche URLs wurden nicht gecrawlt?
36

Beispielergebnis der Analyse
 Setup des Kunden
 URLs mit Parameter (via Filter) sind nicht SEO
relevant
 Canonical auf URL ohne Parameter
 Mehrfachfilterung nach einer Facette möglich
 Hier sollte der Bot eigentlich nicht so häufig
hinkommen, da vorher der Canonical greifen sollte
37

Crawling-Auswertung
38
98% 98%
92% 89%
8%
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
Einzigartige
URLs
URLs mit 1
Crawl
mit Parameter mit 2
Parametern
Relevante URLs

Abgeleitete Maßnahme
 Crawling-Restriktionen über robots.txt verschärft
 Keine Ranking-Verschlechterung
39

Andere Analyse
 Für mehr als 50% der täglichen Crawls war eine
einzelne Ressource verantwortlich!
 Problem: JavaScript-Datei mit Zeitstempel 
meinjavascript.js?timestap=1328215921
40

Bonus
 Für die Crawling-Analyse interessieren uns bestimmt
nur User Agents: Warum also alles importieren?
 Abhilfe: Mit GREP (Linux) oder FINDSTR
(Windows) könnt ihr die Datei vorab durchsuchen
und die für euch relevanten Zugriffe in eine eigene
Datei schreiben
41

Immer dran denken
42
Indexierungsmanagement ist
wichtig, kümmert euch aber erstmal
um ein effizientes Crawling!

Fragen im Nachgang?
43
Stephan Czysch
e-mail: sc@trustagents.de
xing: Stephan_Czysch
G+: https://plus.google.com/+StephanCzysch
web: www.trustagents.de
blog: www.trustagents.de/blog

Logfile-Analyse: Wo ver(sch)wendet Google Crawling-Ressourcen? | Stephan Czysch | SEOCampixx 2014

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Andere mochten auch

Andere mochten auch (20)

Ähnlich wie Logfile-Analyse: Wo ver(sch)wendet Google Crawling-Ressourcen? | Stephan Czysch | SEOCampixx 2014

Ähnlich wie Logfile-Analyse: Wo ver(sch)wendet Google Crawling-Ressourcen? | Stephan Czysch | SEOCampixx 2014 (20)

Mehr von TA Trust Agents Internet GmbH

Mehr von TA Trust Agents Internet GmbH (9)

Logfile-Analyse: Wo ver(sch)wendet Google Crawling-Ressourcen? | Stephan Czysch | SEOCampixx 2014