SEODAY 2013 - Daniel Wette - Analyse von Crawlingproblemen mit Logfiles
1. Gefällt mir
396
Analyse
von
Crawlingproblemen
mit
Logfiles
und
BI-‐Tools
Daniel
We>e
FAIRRANK SE
SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette
Seite 1
Oktober 2013
2. SEODAY
2013
-‐
Analyse
von
Crawlingproblemen
Welche
Datenquellen
können
mir
bei
der
Analyse
von
Crawling-‐Problemen
helfen?
FAIRRANK SE
SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette
Seite 2
Oktober 2013
3. SEODAY
2013
-‐
Analyse
von
Crawlingproblemen
FAIRRANK SE
SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette
Server-‐Logs
GWT
Crawler
Linkdatenbanken
Sistrix
und
Co.
Vorhandene
Datenquellen
/
Datensilos
Seite 3
Oktober 2013
4. SEODAY
2013
-‐
Analyse
von
Crawlingproblemen
Verfügbare
Datenquellen
Google-‐Crawling-‐Daten
•
•
FAIRRANK SE
URLs
von
platzierten
Seiten
Anzahl
Indexierter
Seiten
SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette
Seite 4
Oktober 2013
5. SEODAY
2013
-‐
Analyse
von
Crawlingproblemen
Verfügbare
Datenquellen
Google-‐Crawling-‐Daten
• URLs
von
platzierten
Seiten
Teilweise
hilfreich
zum
Aufspüren
von
URLs,
welche
eigentlich
nicht
im
Index
sein
sollten,
Infos
aber
auch
in
den
Logs
vorhanden
• Anzahl
Indexierter
Seiten
Nur
bedingt
nutzbar
...
Besser
GWT
FAIRRANK SE
SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette
Seite 5
Oktober 2013
6. SEODAY
2013
-‐
Analyse
von
Crawlingproblemen
Verfügbare
Datenquellen
Google-‐Crawling-‐Daten
FAZIT:
Diese
Daten
helfen
uns
nur
wenig
weiter
bzw.
bringen
bei
der
Analyse
keinen
großen
Mehrwert
FAIRRANK SE
SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette
Seite 6
Oktober 2013
7. SEODAY
2013
-‐
Analyse
von
Crawlingproblemen
Verfügbare
Datenquellen
Linkdatenbanken
•
FAIRRANK SE
Ziel-‐URLs
von
eingehenden
Links
SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette
Seite 7
Oktober 2013
8. SEODAY
2013
-‐
Analyse
von
Crawlingproblemen
Verfügbare
Datenquellen
Linkdatenbanken
• Ziel-‐URLs
von
eingehenden
Links
Teilweise
hilfreich
zum
Aufspüren
von
URLs,
welche
eigentlich
nicht
im
Index
sein
sollten,
Infos
aber
auch
in
den
Logs
vorhanden
FAIRRANK SE
SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette
Seite 8
Oktober 2013
9. SEODAY
2013
-‐
Analyse
von
Crawlingproblemen
Verfügbare
Datenquellen
Linkdatenbanken
FAZIT:
Diese
Daten
helfen
uns
nur
wenig
weiter
bzw.
bringen
bei
der
Analyse
keinen
großen
Mehrwert
FAIRRANK SE
SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette
Seite 9
Oktober 2013
10. SEODAY
2013
-‐
Analyse
von
Crawlingproblemen
Verfügbare
Datenquellen
Crawler
•
•
•
•
•
FAIRRANK SE
Status
Codes
Ladezeiten
URL-‐Struktur
/
Klickebenen
HTML-‐Fehler
(im
HEAD
und
im
BODY)
Interne
Pagerank-‐Berechnung
SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette
Seite 10
Oktober 2013
11. SEODAY
2013
-‐
Analyse
von
Crawlingproblemen
Verfügbare
Datenquellen
Crawler
Abbild
einer
„perfekten
Welt“
bzw.
eines
aktuellen
Status
Der
Google-‐Bot
nutzt
aber
eine
Vielzahl
weiterer
Informa`onsquellen
um
Unterseiten
zu
finden
(Chrome,
Toolbar,
Verlinkungen,
historische
Daten
etc.)
FAIRRANK SE
SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette
Seite 11
Oktober 2013
12. SEODAY
2013
-‐
Analyse
von
Crawlingproblemen
Verfügbare
Datenquellen
Crawler
FAZIT:
Diese
Informa`onen
helfen
dabei
die
Struktur
einer
Seite
zu
verbessern,
sie
lassen
dabei
aber
die
Historie
der
Domain
außer
acht.
Weiterhin
habe
ich
keine
Informa`onen
darüber
was
der
Googlebot
wirklich
auf
der
Seite
macht.
FAIRRANK SE
SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette
Seite 12
Oktober 2013
13. SEODAY
2013
-‐
Analyse
von
Crawlingproblemen
Verfügbare
Datenquellen
Google
Webmaster
Tools
•
Crawling
Fehler
–
–
–
–
–
–
–
•
Crawling
Sta`s`ken
–
–
–
•
DNS
Fehler
Serververbindung
Robots.txt
Serverfehler
404
Soc
404
Zugriff
verweigert
Gecrawlte
Seiten
pro
Tag
Heruntergeladene
Kilobyte
pro
Tag
Durchschni>liche
Seitenladezeit
Sitemaps
–
Eingereicht
vs.
Indexiert
FAIRRANK SE
SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette
Seite 13
Oktober 2013
14. SEODAY
2013
-‐
Analyse
von
Crawlingproblemen
Verfügbare
Datenquellen
Google
Webmaster
Tools
• Crawling
Fehler
Google
liefert
hier
leider
in
vielen
Fällen
nur
„Auszüge“
von
Problemen
• Crawling
Sta`s`ken
Diese
Daten
sind
soweit
hochaggregiert,
dass
sie
nur
noch
grobe
Anhaltspunkte
liefern
und
damit
auch
nur
wenig
helfen
• Sitemaps
Auch
hier
erhalte
ich
keine
Detail-‐
Informa`onen
FAIRRANK SE
SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette
Seite 14
Oktober 2013
15. SEODAY
2013
-‐
Analyse
von
Crawlingproblemen
Verfügbare
Datenquellen
Google
Webmaster
Tools
Fazit:
Die
GWT
helfen
bei
der
Analyse
von
Crawling-‐Fehlern,
leider
sind
die
Informa`onen
oc
lückenhac
und
zu
hoch
aggregiert
und
teilweise
auch
einfach
nur
FALSCH!
FAIRRANK SE
SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette
Seite 15
Oktober 2013
16. SEODAY
2013
-‐
Analyse
von
Crawlingproblemen
Verfügbare
Datenquellen
Server-‐Logs
•
•
•
•
•
•
FAIRRANK SE
Gesamtbild
über
die
Crawling-‐Ak`vitäten
des
Google-‐Bots
Datum/Uhrzeit
Bot
Aufgerufene
URL
Referrer
Status
Code
SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette
Seite 16
Oktober 2013
17. SEODAY
2013
-‐
Analyse
von
Crawlingproblemen
Verfügbare
Datenquellen
Server-‐Logs
•
•
•
•
FAIRRANK SE
Große
Datenmengen
Daten
müssen
umgeformt
und
in
Datenbanken
eingespielt
werden
Daten
müssen
gefiltert
werden
Fazit:
Interessante
Daten
...
aber
was
kann
ich
genau
damit
machen?
Helfen
sie
mir
wirklich?
SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette
Seite 17
Oktober 2013
18. SEODAY
2013
-‐
Analyse
von
Crawlingproblemen
Coole
Daten
Crawler
Server-‐Logs
Zusammenführung
von
Server-‐Logs
mit
Crawling-‐Daten
FAIRRANK SE
SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette
Seite 18
Oktober 2013
19. SEODAY
2013
-‐
Analyse
von
Crawlingproblemen
Coole
Daten
Zusammenführung
von
Server-‐Logs
mit
Crawling-‐Daten
FAIRRANK SE
SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette
Seite 19
Oktober 2013
20. SEODAY
2013
-‐
Analyse
von
Crawlingproblemen
Analysemöglichkeiten
durch
die
Nutzung
von
Logfiles
mit
Crawling-‐Daten
•
•
•
•
•
•
•
•
•
•
Welche
URLs
meiner
Seite
wurden
die
letzten
4
Wochen
gecrawlt?
Wie
verteilt
sich
das
auf
die
Klick`efe
in
meinem
Projekt?
Wie
hoch
ist
die
durchschni>liche
Crawlrate
von
einzelnen
Seiten
und
von
Seitentypen/
Kategorien?
ak`ve
URLs
nach
Status
Code
Wie
viel
Prozent
der
Crawlrate
wird
für
nicht
ak`ve
Seiten
verwendet?
URLs
welche
nicht
ak`v
sind
(also
im
eigenen
Crawl
nicht
vorhanden)
jedoch
einen
Status
200
für
den
Googlebot
zurückliefern
Welche
ak`ven
URLs
wurden
nicht
gecrawlt?
Mi>lerer
Zeitraum
zwischen
Veröffentlichung
und
erstem
Crawl?
.
.
FAIRRANK SE
SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette
Seite 20
Oktober 2013
21. SEODAY
2013
-‐
Analyse
von
Crawlingproblemen
Auswertungen
eines
echten
Kundenprojektes
FAIRRANK SE
SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette
Seite 21
Oktober 2013
22. SEODAY
2013
-‐
Analyse
von
Crawlingproblemen
Auswertungen
eines
echten
Kundenprojektes
STRUCR:
Keine
wesentlichen
Fehler
gefunden
Gesamt
:
2785
Seiten
Status
200
:
2687
Status
301
:
48
Status
302
:
21
Status
404
:
32
FAIRRANK SE
SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette
Seite 22
Oktober 2013
23. SEODAY
2013
-‐
Analyse
von
Crawlingproblemen
Auswertungen
eines
echten
Kundenprojektes
STRUCR:
Keine
wesentlichen
Fehler
gefunden
Gesamt
:
2785
Seiten
Status
200
:
2687
Status
301
:
48
…
und
nun
die
Logfiles
J
Status
302
:
21
Status
404
:
32
FAIRRANK SE
SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette
Seite 23
Oktober 2013
24. SEODAY
2013
-‐
Analyse
von
Crawlingproblemen
Auswertungen
eines
echten
Kundenprojektes
STRUCR:
Keine
wesentlichen
Fehler
gefunden
Gesamt
:
2785
Seiten
Status
200
:
2687
Status
301
:
48
…
und
nun
die
Logfiles
Status
302
:
21
Status
404
:
32
Gesamt
:
50.136
Unique
URLs!
Status
200
:
25.400!
Status
301
:
23.197
Status
30X
:
822
Status
404
:
1.640
FAIRRANK SE
SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette
Seite 24
Oktober 2013
25. SEODAY
2013
-‐
Analyse
von
Crawlingproblemen
Auswertungen
eines
echten
Kundenprojektes
FAIRRANK SE
SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette
Seite 25
Oktober 2013
26. SEODAY
2013
-‐
Analyse
von
Crawlingproblemen
Auswertungen
eines
echten
Kundenprojektes
Google:
50136
Unique
URLs
vs.
STRUCR:
2.785
Unique
URLs
94,45
%
der
von
Google
gecrawlten
URLs
sind
nicht
teil
der
aktuellen
Seitenstruktur
FAIRRANK SE
SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette
Seite 26
Oktober 2013
27. SEODAY
2013
-‐
Analyse
von
Crawlingproblemen
Auswertungen
eines
echten
Kundenprojektes
FAIRRANK SE
75,74
%
der
von
Google
gecrawlten
URLs
wurden
in
dem
Monat
nur
1mal
gecrawlt
SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette
Seite 27
Oktober 2013
28. SEODAY
2013
-‐
Analyse
von
Crawlingproblemen
Auswertungen
eines
echten
Kundenprojektes
FAIRRANK SE
600mal
wurde
die
Startseite
gecrawled
SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette
Seite 28
Oktober 2013
29. SEODAY
2013
-‐
Analyse
von
Crawlingproblemen
Auswertungen
eines
echten
Kundenprojektes
Anzahl
Crawls
pro
Monat
(Top
20)
600
500
400
300
200
100
0
1
FAIRRANK SE
2
3
4
5
6
7
8
9
10
11
12
SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette
13
14
15
16
Seite 29
17
18
19
20
Oktober 2013
30. SEODAY
2013
-‐
Analyse
von
Crawlingproblemen
Auswertungen
eines
echten
Kundenprojektes
Crawlrate
vs.
Klickebene
100%
90%
80%
70%
60%
50%
40%
30%
20%
10%
0%
0
1
Crawled
by
Google
FAIRRANK SE
2
3
4
Not
crawled
by
Google
SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette
Seite 30
Oktober 2013
31. SEODAY
2013
-‐
Analyse
von
Crawlingproblemen
Auswertungen
eines
echten
Kundenprojektes
Durchschni>liche
Crawls
pro
Monat
je
Seite
je
Klickebene
625
125
25
9
5
10
5
2
1
0
FAIRRANK SE
1
2
SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette
3
4
Seite 31
Oktober 2013
32. SEODAY
2013
-‐
Analyse
von
Crawlingproblemen
Auswertungen
eines
echten
Kundenprojektes
Visits
vs.
Klickebene
100%
90%
80%
70%
60%
50%
40%
30%
20%
10%
0%
0
1
Seiten
mit
Besuchen
FAIRRANK SE
2
3
4
Seiten
ohne
Besuche
SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette
Seite 32
Oktober 2013
33. SEODAY
2013
-‐
Analyse
von
Crawlingproblemen
Auswertungen
eines
echten
Kundenprojektes
Anzahl
eingehender
Links
vs.
SEO
Visits
250
90
80
80
200
70
60
150
100
50
40
205
30
20
50
12
0
Kategorieseiten
Durchschni>lich
eingehende
Links
FAIRRANK SE
10
16
0
Produktseiten
Durchschni>liche
Anzahl
SEO
Visits
SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette
Seite 33
Oktober 2013
34. SEODAY
2013
-‐
Analyse
von
Crawlingproblemen
Kommende
Maßnahmen
bei
dem
konkreten
Projekt
•
•
•
•
•
•
Veraltete
URLs
ohne
eingehende
Links,
welche
aktuell
per
301
redirected
werden
für
den
Bot
gesperrt
oder
vor
einer
Sperrung
noch
einige
Zeit
per
410
antworten.
Bes`mmte
URL-‐Parameter
generell
für
den
Bot
sperren
(in
diesem
Fall
„recommenda`on-‐Ids“)
URLs
welche
per
Canonical
„umgebogen“
sind
und
keine
eingehenden
Links
haben
für
den
Bot
sperren
Interne
Linkstruktur
überarbeiten
Englische
Version
in
eigene
Domain
„abspalten“
404
Seiten
ggf.
durch
410
ersetzen.
FAIRRANK SE
SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette
Seite 34
Oktober 2013
35. SEODAY
2013
-‐
Analyse
von
Crawlingproblemen
Fazit
•
•
Google
vergisst
nichts
…
GAR
NICHTS!
Google
besucht
auch
über
1,5
Jahre
später
noch
URLs,
welche
per
301
umgeleitet
werden,
oder
einen
404
liefern
•
Der
Googlebot
hat
im
gleichen
Zeitraum
250%
mehr
Unique
URLs
gecrawlt
als
der
Bingbot
Google
arbeitet
sehr
ineffizient!
•
• 41,54%
der
„Googlebot“
Requests
kamen
nicht
von
Google
J
FAIRRANK SE
SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette
Seite 35
Oktober 2013