Wir haben uns ganz konkret der Frage gewidmet, was das Crawl-Budget eigentlich ist und wie dieses ausgewertet werden kann.
Johannes Giesche und Eduard Protzel von der Online-Marketing-Agentur Trust Agents aus Berlin auf der SEO Campixx 2018
4. WAS IST CRAWLING-BUDGET?
CRAWLING-BEDARF + =CRAWLING-FREQUENZ CRAWLING-BUDGET
https://webmaster-de.googleblog.com/2017/01/was-crawl-budget-fuer-googlebot-bedeutet.html
5. PROBLEME MIT DEM CRAWLING-BUDGET?
„WENN NEUE SEITEN TENDENZIELL AM TAG IHRER
VERÖFFENTLICHUNG GECRAWLT WERDEN, MUSS SICH DER
WEBMASTER NICHT UM DAS CRAWLING-BUDGET KÜMMERN.
AUSSERDEM WIRD EINE WEBSITE MIT WENIGER ALS EIN PAAR
TAUSEND URLS MEISTENS EFFIZIENT GECRAWLT.“
https://webmaster-de.googleblog.com/2017/01/was-crawl-budget-fuer-googlebot-bedeutet.html
6. CRAWLING-ANALYSEN
1 ABRUF WIE DURCH GOOGLE
2 GOOGLE CACHE ANSICHT
3 ROBOTS.TXT
4 SITEMAP-UNTERSUCHUNG
5 CRAWLING-FEHLER
6 SIMULIERTE CRAWLING-ANALYSEN
7 LOGFILE-ANALYSEN
ACCESSIBILITY
GSC-ANALYSE
TOOL-ANALYSE
7. GOOGLE CACHE ANSICHT / ABRUF WIE DURCH GOOGLE
• SICHERSTELLUNG ACCESSIBILITY
• GOOGLE CACHE ANSICHT
• „NUR-TEXT-VERSION“ BZW. „&STRIP=1“ ANHÄNGEN
• ABRUF WIE DURCH GOOGLE ÜBER DIE GOOGLE SEARCH
CONSOLE
8. GOOGLE SEARCH CONSOLE
• GOOGLE SEARCH CONSOLE BIETET VIELE INFORMATIONEN
• SITEMAPS
• ROBOTS.TXT TESTER
• CRAWLING-STATISTIKEN
• CRAWLING-FEHLER
11. SIMULIERTE CRAWLING-ANALYSEN VS. LOGFILE-ANALYSEN
• SIMULATION EINES CRAWLERS
• FINDET NUR INTERN VERLINKTE (HTML-
LINKS) RESSOURCEN
• CRAWLT ALLES IN GLEICHER PRIORITÄT
• CRAWLING-BUDGET ALLOKATION NICHT
ERSICHTLICH
SIMULIERTE CRAWLING-ANALYSEN LOGFILE-ANALYSEN
• „GENAUE“ BEWEGUNG DER CRAWLER
• DARSTELLUNG ALLER AUFGERUFENEN
RESSOURCEN
• UNTERSCHIEDLICHE CRAWL-PRIORITÄTEN
• CRAWLING-BUDGET ALLOKATION LEICHT
ERKENNBAR
12. LOGFILE-ANALYSE & MOBILE FIRST
„I THINK YOU WOULD PROBABLY RECOGNIZE IT IN THE LOG FILES.
IF YOU SEE, IF YOU LOOK NOW PROBABLY SOMETHING LIKE 80%
OF THE CRAWLING IS WITH THE GOOGLEBOT DESKTOP AND
MAYBE 20% IS WITH MOBILE WITH THE SMARTPHONE
GOOGLEBOT. AND PROBABLY THAT WILL SHIFT OVER AND THAT
MOST OF THE CRAWLING WILL BE DONE WITH THE SMARTPHONE
GOOGLEBOT AND LESS CRAWLING WITH THE DESKTOP
GOOGLEBOT. SO IF YOU LIKE REALLY WATCH OUT FOR YOUR LOG
FILES PROBABLY YOU CAN NOTICE THAT FAIRLY OBVIOUSLY.“
- JOHANNES MÜLLER -
13. AUFBEREITUNG LOGFILES
ANATOMIE EINER LOGFILEZEILE BEI ABRUF DURCH GOOGLE (OHNE REFERRER)
66.249.69.127 - - [16/NOV/2014:23:50:29 +0100] "GET /IMAGES/LOGO.JPG HTTP/1.1" 200 24532 "-"
"MOZILLA/5.0 (COMPATIBLE; GOOGLEBOT/2.1; +HTTP://WWW.GOOGLE.COM/BOT.HTML)“
• IP- ODER DNS-ADRESSE DES RECHNERS, DER DIE SEITE AUFGERUFEN HAT
• ZEITPUNKT DES ZUGRIFFS
• BEFEHL DER VOM SERVER VERLANGT WIRD (MEISTENS WIRD MIT DEM BEFEHL GET EINE DATEI
ANGEFORDERT)
• ANGEFORDERTE URL: DATEINAME UND -PFAD (IM BEISPIEL HANDELT ES SICH UM EINE
BILDDATEI)
• ART DES ÜBERTRAGUNGSPROTOKOLLS
• DIE ANTWORT DES SERVERS, HTTP-STATUSCODE (IM BEISPIEL 200: ÜBERTRAGUNG ERFOLGREICH)
• ÜBERTRAGENE BYTES
• BROWSER UND BETRIEBSSYSTEM DES NUTZERS, DER DIE SEITE AUFGERUFEN HAT / USERAGENT
14. AUFBEREITUNG LOGFILES
NOTWENDIGE SCHRITTE ZUR WEITEREN BEARBEITUNG VON LOGFILES
• LOGFILES BEINHALTEN ALLE ZUGRIFFE AUF EINEN SERVER
• ZUR AUSWERTUNG MÜSSEN ZUGRIFFE DURCH SUCHMASCHINEN VORAB
HERAUSGEFILTERT WERDEN
• ERFAHRUNGSGEMÄSS REICHT DIE VORAUSWAHL NACH DER IP-RANGE
66.249.*.* VOM GOOGLEBOT
15. AUFBEREITUNG LOGFILES
AUFBEREITUNG MITTELS WINDOWS CONSOLE
1. PER CD ZUM ENTSPRECHENDEN VERZEICHNIS NAVIGIEREN
2. OPTIONAL: DATEIEN ZUSAMMENFASSEN:
COPY *.[DATEITYP] [NEUE-DATEI.DATEITYP]
3. FINDSTR 66.249.* [DATEIBEZEICHNUNG.DATEITYP] > [NEUE-DATEI.DATEITYP]
16. AUFBEREITUNG LOGFILES
NOTWENDIGE SCHRITTE ZUR WEITEREN BEARBEITUNG IN EXCEL
• ZERLEGEN DER ABFRAGE IN EINZELNE TEILE ZUR VERARBEITUNG MITTELS PIVOT TABLE
• AUSGANGSBASIS SIND DIE NATÜRLICH VORHANDENEN INFORMATIONEN
ZUGRIFFSDATUM UND ZEIT
VOLLSTÄNDIGE ANFRAGE
STATUSCODE
GRÖSSE
USERAGENT
66.249.69.127 - - [16/NOV/2014:23:50:29 +0100] "GET /IMAGES/LOGO.JPG HTTP/1.1" 200 24532 "-"
"MOZILLA/5.0 (COMPATIBLE; GOOGLEBOT/2.1; +HTTP://WWW.GOOGLE.COM/BOT.HTML)“
17. AUFBEREITUNG LOGFILES
NOTWENDIGE SCHRITTE ZUR WEITEREN BEARBEITUNG IN EXCEL
.. DETAILLIERTE ZERLEGUNG IST EMPFEHLENSWERT:
URL OHNE PARAMETER
QUERY STRING
ANZAHL PARAMETER / ERSTER PARAMETER
TOP LEVEL ORDNER
PFAD
PFADTIEFE
…
.. EXTERNE DATEN:
CRAWL-DATEN
BACKLINK-DATEN
TRAFFIC-DATEN
18. AUFBEREITUNG LOGFILES
EXCELFORMELN CHEAT SHEET
URL STRING AUS ANFRAGE ZERLEGEN BESTEHEND AUS
GET /IMAGES/LOGO.JPG HTTP/1.1
FALLS HTTP/1.1 FEHLT MUSS "-13“ ENTFERNT WERDEN
=TEIL([ANFRAGE];5;LÄNGE()-13)
URL =["[DOMAIN]"]&[URLSTRING]
PFAD (SEOTOOLSFOREXCEL) =URLPROPERTY([URL]; "PATH")
PFADTIEFE (SEOTOOLSFOREXCEL) =URLPROPERTY([URL]; "DEPTH")
DATEITYP (SEOTOOLSFOREXCEL) =URLPROPERTY([URL);"FILE")
QUERY STRING =WENNFEHLER((TEIL([URLSTRING];FINDEN("?";[URLSTR
ING])+1;LÄNGE([URLSTRING])));"")
ERSTER PARAMETER =WENNFEHLER((LINKS([QUERYSTRING];FINDEN("=";
[QUERYSTRING];)-1));"")
ANZAHL PARAMETER =WENNFEHLER((LINKS([QUERYSTRING];FINDEN("=";
[QUERYSTRING])-1));"")
URL OHNE PARAMETER =WENNFEHLER((LINKS([URL];FINDEN("?";[URL])-1));D4)
TOPLEVEL ORDNER. FALLS DIE DATEI/RESSOURCE IM
ROOT LIEGT, WIRD „ROOTURL“ AUSGEGEBEN
=WENNFEHLER(LINKS([URLSTRING];FINDEN("/";M4;2));
"ROOTURL")
20. UNSERE 11 TOP-LEARNINGS
1. VORSICHT BEI URL FINGERPRINTING ( BILDER)
2. WAS „AUSSIEHT“ WIE EINE URL WIRD AUCH GECRAWLT!
3. VORSICHT BEI RESSOURCEN, DIE DEN SEITENINHALT NICHT VERÄNDERN!
4. NACH RELAUNCHES LOHNT SICH EINE LOGFILE-ANALYSE ERST RECHT
5. LADEZEITOPTIMIERUNG LOHNT SICH IMMER
6. AUCH NON-HTMLS BEACHTEN (X-ROBOTS-TAG)
21. UNSERE 11 TOP-LEARNINGS
7. 301-WEITERLEITUNGEN MÜSSEN NICHT IMMER DER RICHTIGE WEG
SEIN
8. QUALITY VS. QUANTITY
9. LÖSCHE UNNÖTIGEN BALLAST
10. SEI MUTIG MIT DER ROBOTS.TXT-DATEI
11. KEIN EINSATZ VON CANONICAL-TAG OHNE “NOINDEX,FOLLOW” IM
HTML-HEAD
22. ONPAGE-MONITORING-TOOL MIT GOOGLE TABELLEN
• MONITORING IST ALLES!!
• KOSTENFREIES SEO-MONITORING-TOOL:
• GOOGLE DRIVE TABELLE
• QUELLTEXT UND HTTP-HEADER VON BIS ZU
100 URLS
• ANWENDUNGSFÄLLE:
• ENTSPRICHT DER SEITENTITEL DEM
GEWÜNSCHTEN TEXT?
• ZEIGT DIE CANONICAL-URL WEITERHIN AUF
DIE GEWÜNSCHTE ADRESSE?
• IST DIE PAGINIERUNG VON DER
INDEXIERUNG AUSGESCHLOSSEN?
• USW.
https://www.trustagents.de/unternehmen/tools/onpage-monitoring-tool
23. ONPAGE-MONITORING-TOOL ALS SOFTWARE-LÖSUNG
• EINSATZ EINER SELBST PROGRAMMIERTEN SOFTWARE-LÖSUNG, UM VERÄNDERUNGEN BEI KUNDENPROJEKTEN
SCHNELL ZU ERKENNEN
WER MEHR WISSEN MÖCHTE ODER INTERESSE HAT, KONTAKTIERT UNS EINFACH ☺
24. UNSERE SEO STÄRKEN
SEO MONITORING
ALLES BLEIBT STETS IM BLICK, AUCH AUSSERGEWÖHNLICHE AKTIVITÄTEN
SEO REPORTING
KONTROLLE UND EFFEKTIVITÄT ÜBER ALLE SEO MASSNAHMEN
SEO ALERTING
SOFORTIGE ALAMINERUNG ÜBER KRITISCHE KENNZAHLEN