SlideShare ist ein Scribd-Unternehmen logo
1 von 25
Downloaden Sie, um offline zu lesen
WER WIR SIND?
Johannes Giesche
Teamlead SEO Consulting
E-MAIL
Eduard Protzel
SEO Consultant
E-MAIL
AGENDA
CRAWLING-ANALYSEN LOGFILES & LOGFILE-ANALYSEN UNSERE SET-UPS
WAS IST CRAWLING-BUDGET?
CRAWLING-BEDARF + =CRAWLING-FREQUENZ CRAWLING-BUDGET
https://webmaster-de.googleblog.com/2017/01/was-crawl-budget-fuer-googlebot-bedeutet.html
PROBLEME MIT DEM CRAWLING-BUDGET?
„WENN NEUE SEITEN TENDENZIELL AM TAG IHRER
VERÖFFENTLICHUNG GECRAWLT WERDEN, MUSS SICH DER
WEBMASTER NICHT UM DAS CRAWLING-BUDGET KÜMMERN.
AUSSERDEM WIRD EINE WEBSITE MIT WENIGER ALS EIN PAAR
TAUSEND URLS MEISTENS EFFIZIENT GECRAWLT.“
https://webmaster-de.googleblog.com/2017/01/was-crawl-budget-fuer-googlebot-bedeutet.html
CRAWLING-ANALYSEN
1 ABRUF WIE DURCH GOOGLE
2 GOOGLE CACHE ANSICHT
3 ROBOTS.TXT
4 SITEMAP-UNTERSUCHUNG
5 CRAWLING-FEHLER
6 SIMULIERTE CRAWLING-ANALYSEN
7 LOGFILE-ANALYSEN
ACCESSIBILITY
GSC-ANALYSE
TOOL-ANALYSE
GOOGLE CACHE ANSICHT / ABRUF WIE DURCH GOOGLE
• SICHERSTELLUNG ACCESSIBILITY
• GOOGLE CACHE ANSICHT
• „NUR-TEXT-VERSION“ BZW. „&STRIP=1“ ANHÄNGEN
• ABRUF WIE DURCH GOOGLE ÜBER DIE GOOGLE SEARCH
CONSOLE
GOOGLE SEARCH CONSOLE
• GOOGLE SEARCH CONSOLE BIETET VIELE INFORMATIONEN
• SITEMAPS
• ROBOTS.TXT TESTER
• CRAWLING-STATISTIKEN
• CRAWLING-FEHLER
KOMPLEXITÄT NIMMT STETIG ZU
SIMULIERTE CRAWLING-ANALYSEN
SIMULIERTE CRAWLING-ANALYSEN VS. LOGFILE-ANALYSEN
• SIMULATION EINES CRAWLERS
• FINDET NUR INTERN VERLINKTE (HTML-
LINKS) RESSOURCEN
• CRAWLT ALLES IN GLEICHER PRIORITÄT
• CRAWLING-BUDGET ALLOKATION NICHT
ERSICHTLICH
SIMULIERTE CRAWLING-ANALYSEN LOGFILE-ANALYSEN
• „GENAUE“ BEWEGUNG DER CRAWLER
• DARSTELLUNG ALLER AUFGERUFENEN
RESSOURCEN
• UNTERSCHIEDLICHE CRAWL-PRIORITÄTEN
• CRAWLING-BUDGET ALLOKATION LEICHT
ERKENNBAR
LOGFILE-ANALYSE & MOBILE FIRST
„I THINK YOU WOULD PROBABLY RECOGNIZE IT IN THE LOG FILES.
IF YOU SEE, IF YOU LOOK NOW PROBABLY SOMETHING LIKE 80%
OF THE CRAWLING IS WITH THE GOOGLEBOT DESKTOP AND
MAYBE 20% IS WITH MOBILE WITH THE SMARTPHONE
GOOGLEBOT. AND PROBABLY THAT WILL SHIFT OVER AND THAT
MOST OF THE CRAWLING WILL BE DONE WITH THE SMARTPHONE
GOOGLEBOT AND LESS CRAWLING WITH THE DESKTOP
GOOGLEBOT. SO IF YOU LIKE REALLY WATCH OUT FOR YOUR LOG
FILES PROBABLY YOU CAN NOTICE THAT FAIRLY OBVIOUSLY.“
- JOHANNES MÜLLER -
AUFBEREITUNG LOGFILES
ANATOMIE EINER LOGFILEZEILE BEI ABRUF DURCH GOOGLE (OHNE REFERRER)
66.249.69.127 - - [16/NOV/2014:23:50:29 +0100] "GET /IMAGES/LOGO.JPG HTTP/1.1" 200 24532 "-"
"MOZILLA/5.0 (COMPATIBLE; GOOGLEBOT/2.1; +HTTP://WWW.GOOGLE.COM/BOT.HTML)“
• IP- ODER DNS-ADRESSE DES RECHNERS, DER DIE SEITE AUFGERUFEN HAT
• ZEITPUNKT DES ZUGRIFFS
• BEFEHL DER VOM SERVER VERLANGT WIRD (MEISTENS WIRD MIT DEM BEFEHL GET EINE DATEI
ANGEFORDERT)
• ANGEFORDERTE URL: DATEINAME UND -PFAD (IM BEISPIEL HANDELT ES SICH UM EINE
BILDDATEI)
• ART DES ÜBERTRAGUNGSPROTOKOLLS
• DIE ANTWORT DES SERVERS, HTTP-STATUSCODE (IM BEISPIEL 200: ÜBERTRAGUNG ERFOLGREICH)
• ÜBERTRAGENE BYTES
• BROWSER UND BETRIEBSSYSTEM DES NUTZERS, DER DIE SEITE AUFGERUFEN HAT / USERAGENT
AUFBEREITUNG LOGFILES
NOTWENDIGE SCHRITTE ZUR WEITEREN BEARBEITUNG VON LOGFILES
• LOGFILES BEINHALTEN ALLE ZUGRIFFE AUF EINEN SERVER
• ZUR AUSWERTUNG MÜSSEN ZUGRIFFE DURCH SUCHMASCHINEN VORAB
HERAUSGEFILTERT WERDEN
• ERFAHRUNGSGEMÄSS REICHT DIE VORAUSWAHL NACH DER IP-RANGE
66.249.*.* VOM GOOGLEBOT
AUFBEREITUNG LOGFILES
AUFBEREITUNG MITTELS WINDOWS CONSOLE
1. PER CD ZUM ENTSPRECHENDEN VERZEICHNIS NAVIGIEREN
2. OPTIONAL: DATEIEN ZUSAMMENFASSEN:
COPY *.[DATEITYP] [NEUE-DATEI.DATEITYP]
3. FINDSTR 66.249.* [DATEIBEZEICHNUNG.DATEITYP] > [NEUE-DATEI.DATEITYP]
AUFBEREITUNG LOGFILES
NOTWENDIGE SCHRITTE ZUR WEITEREN BEARBEITUNG IN EXCEL
• ZERLEGEN DER ABFRAGE IN EINZELNE TEILE ZUR VERARBEITUNG MITTELS PIVOT TABLE
• AUSGANGSBASIS SIND DIE NATÜRLICH VORHANDENEN INFORMATIONEN
ZUGRIFFSDATUM UND ZEIT
VOLLSTÄNDIGE ANFRAGE
STATUSCODE
GRÖSSE
USERAGENT
66.249.69.127 - - [16/NOV/2014:23:50:29 +0100] "GET /IMAGES/LOGO.JPG HTTP/1.1" 200 24532 "-"
"MOZILLA/5.0 (COMPATIBLE; GOOGLEBOT/2.1; +HTTP://WWW.GOOGLE.COM/BOT.HTML)“
AUFBEREITUNG LOGFILES
NOTWENDIGE SCHRITTE ZUR WEITEREN BEARBEITUNG IN EXCEL
.. DETAILLIERTE ZERLEGUNG IST EMPFEHLENSWERT:
URL OHNE PARAMETER
QUERY STRING
ANZAHL PARAMETER / ERSTER PARAMETER
TOP LEVEL ORDNER
PFAD
PFADTIEFE
…
.. EXTERNE DATEN:
CRAWL-DATEN
BACKLINK-DATEN
TRAFFIC-DATEN
AUFBEREITUNG LOGFILES
EXCELFORMELN CHEAT SHEET
URL STRING AUS ANFRAGE ZERLEGEN BESTEHEND AUS
GET /IMAGES/LOGO.JPG HTTP/1.1
FALLS HTTP/1.1 FEHLT MUSS "-13“ ENTFERNT WERDEN
=TEIL([ANFRAGE];5;LÄNGE()-13)
URL =["[DOMAIN]"]&[URLSTRING]
PFAD (SEOTOOLSFOREXCEL) =URLPROPERTY([URL]; "PATH")
PFADTIEFE (SEOTOOLSFOREXCEL) =URLPROPERTY([URL]; "DEPTH")
DATEITYP (SEOTOOLSFOREXCEL) =URLPROPERTY([URL);"FILE")
QUERY STRING =WENNFEHLER((TEIL([URLSTRING];FINDEN("?";[URLSTR
ING])+1;LÄNGE([URLSTRING])));"")
ERSTER PARAMETER =WENNFEHLER((LINKS([QUERYSTRING];FINDEN("=";
[QUERYSTRING];)-1));"")
ANZAHL PARAMETER =WENNFEHLER((LINKS([QUERYSTRING];FINDEN("=";
[QUERYSTRING])-1));"")
URL OHNE PARAMETER =WENNFEHLER((LINKS([URL];FINDEN("?";[URL])-1));D4)
TOPLEVEL ORDNER. FALLS DIE DATEI/RESSOURCE IM
ROOT LIEGT, WIRD „ROOTURL“ AUSGEGEBEN
=WENNFEHLER(LINKS([URLSTRING];FINDEN("/";M4;2));
"ROOTURL")
AUFBEREITUNG LOGFILES MIT GOOGLE DATA STUDIO
UNSERE 11 TOP-LEARNINGS
1. VORSICHT BEI URL FINGERPRINTING (  BILDER)
2. WAS „AUSSIEHT“ WIE EINE URL WIRD AUCH GECRAWLT!
3. VORSICHT BEI RESSOURCEN, DIE DEN SEITENINHALT NICHT VERÄNDERN!
4. NACH RELAUNCHES LOHNT SICH EINE LOGFILE-ANALYSE ERST RECHT
5. LADEZEITOPTIMIERUNG LOHNT SICH IMMER
6. AUCH NON-HTMLS BEACHTEN (X-ROBOTS-TAG)
UNSERE 11 TOP-LEARNINGS
7. 301-WEITERLEITUNGEN MÜSSEN NICHT IMMER DER RICHTIGE WEG
SEIN
8. QUALITY VS. QUANTITY
9. LÖSCHE UNNÖTIGEN BALLAST
10. SEI MUTIG MIT DER ROBOTS.TXT-DATEI
11. KEIN EINSATZ VON CANONICAL-TAG OHNE “NOINDEX,FOLLOW” IM
HTML-HEAD
ONPAGE-MONITORING-TOOL MIT GOOGLE TABELLEN
• MONITORING IST ALLES!!
• KOSTENFREIES SEO-MONITORING-TOOL:
• GOOGLE DRIVE TABELLE
• QUELLTEXT UND HTTP-HEADER VON BIS ZU
100 URLS
• ANWENDUNGSFÄLLE:
• ENTSPRICHT DER SEITENTITEL DEM
GEWÜNSCHTEN TEXT?
• ZEIGT DIE CANONICAL-URL WEITERHIN AUF
DIE GEWÜNSCHTE ADRESSE?
• IST DIE PAGINIERUNG VON DER
INDEXIERUNG AUSGESCHLOSSEN?
• USW.
https://www.trustagents.de/unternehmen/tools/onpage-monitoring-tool
ONPAGE-MONITORING-TOOL ALS SOFTWARE-LÖSUNG
• EINSATZ EINER SELBST PROGRAMMIERTEN SOFTWARE-LÖSUNG, UM VERÄNDERUNGEN BEI KUNDENPROJEKTEN
SCHNELL ZU ERKENNEN
WER MEHR WISSEN MÖCHTE ODER INTERESSE HAT, KONTAKTIERT UNS EINFACH ☺
UNSERE SEO STÄRKEN
SEO MONITORING
ALLES BLEIBT STETS IM BLICK, AUCH AUSSERGEWÖHNLICHE AKTIVITÄTEN
SEO REPORTING
KONTROLLE UND EFFEKTIVITÄT ÜBER ALLE SEO MASSNAHMEN
SEO ALERTING
SOFORTIGE ALAMINERUNG ÜBER KRITISCHE KENNZAHLEN
VIELEN DANK!

Weitere ähnliche Inhalte

Ähnlich wie Crawling analysis to the fullest | J.Giesche & E.Protzel | SEOcampixx 2018

Performance Optimierung - Barrierefreiheit beginnt mit Ladezeiten
Performance Optimierung - Barrierefreiheit beginnt mit LadezeitenPerformance Optimierung - Barrierefreiheit beginnt mit Ladezeiten
Performance Optimierung - Barrierefreiheit beginnt mit Ladezeiten
David Maciejewski
 
Die Zukunft der Webstandards - Webinale 31.05.2010
Die Zukunft der Webstandards - Webinale 31.05.2010Die Zukunft der Webstandards - Webinale 31.05.2010
Die Zukunft der Webstandards - Webinale 31.05.2010
Patrick Lauke
 
Frontend-Architektur der 1&1 Bestellsysteme
Frontend-Architektur der 1&1 BestellsystemeFrontend-Architektur der 1&1 Bestellsysteme
Frontend-Architektur der 1&1 Bestellsysteme
Nico Steiner
 
z-push PHPUnconference 2009
z-push PHPUnconference 2009z-push PHPUnconference 2009
z-push PHPUnconference 2009
Ingo Reinhart
 

Ähnlich wie Crawling analysis to the fullest | J.Giesche & E.Protzel | SEOcampixx 2018 (20)

SDC2011: Web Performance Optimization
SDC2011: Web Performance OptimizationSDC2011: Web Performance Optimization
SDC2011: Web Performance Optimization
 
Frontend Performance
Frontend PerformanceFrontend Performance
Frontend Performance
 
Informationsarchitektur & Verlinkung - SMX München 2014
Informationsarchitektur & Verlinkung - SMX München 2014Informationsarchitektur & Verlinkung - SMX München 2014
Informationsarchitektur & Verlinkung - SMX München 2014
 
Frontend Performance @ Hochschule der Medien Stuttgart
Frontend Performance @ Hochschule der Medien StuttgartFrontend Performance @ Hochschule der Medien Stuttgart
Frontend Performance @ Hochschule der Medien Stuttgart
 
WordPress-Webseiten umziehen / online stellen
WordPress-Webseiten umziehen / online stellenWordPress-Webseiten umziehen / online stellen
WordPress-Webseiten umziehen / online stellen
 
HTTPs Migration How To - SMX München 2017
HTTPs Migration How To - SMX München 2017HTTPs Migration How To - SMX München 2017
HTTPs Migration How To - SMX München 2017
 
Räume deine Webseite auf! | Dominik Wojcik | SEOkomm 2016
Räume deine Webseite auf! | Dominik Wojcik | SEOkomm 2016Räume deine Webseite auf! | Dominik Wojcik | SEOkomm 2016
Räume deine Webseite auf! | Dominik Wojcik | SEOkomm 2016
 
Data Scraping with Excel - Campixx 2013 - Maik Schmidt
Data Scraping with Excel - Campixx 2013 - Maik SchmidtData Scraping with Excel - Campixx 2013 - Maik Schmidt
Data Scraping with Excel - Campixx 2013 - Maik Schmidt
 
Performance Optimierung - Barrierefreiheit beginnt mit Ladezeiten
Performance Optimierung - Barrierefreiheit beginnt mit LadezeitenPerformance Optimierung - Barrierefreiheit beginnt mit Ladezeiten
Performance Optimierung - Barrierefreiheit beginnt mit Ladezeiten
 
Site Speed EXTREME - SEOkomm 2014
Site Speed EXTREME - SEOkomm 2014Site Speed EXTREME - SEOkomm 2014
Site Speed EXTREME - SEOkomm 2014
 
Von Protocol Buffer und anderen Dingen
Von Protocol Buffer und anderen DingenVon Protocol Buffer und anderen Dingen
Von Protocol Buffer und anderen Dingen
 
Linkrisiko Management - SEOkomm 2013
Linkrisiko Management - SEOkomm 2013Linkrisiko Management - SEOkomm 2013
Linkrisiko Management - SEOkomm 2013
 
Die Zukunft der Webstandards - Webinale 31.05.2010
Die Zukunft der Webstandards - Webinale 31.05.2010Die Zukunft der Webstandards - Webinale 31.05.2010
Die Zukunft der Webstandards - Webinale 31.05.2010
 
Frontend-Architektur der 1&1 Bestellsysteme
Frontend-Architektur der 1&1 BestellsystemeFrontend-Architektur der 1&1 Bestellsysteme
Frontend-Architektur der 1&1 Bestellsysteme
 
PHP Kongress 2010 - Web-Performance
PHP Kongress 2010 - Web-PerformancePHP Kongress 2010 - Web-Performance
PHP Kongress 2010 - Web-Performance
 
3) TRANSCONNECT®-Webschnittstellen für die Cloud, IoT & Co. - TRANSCONNECT-Ta...
3) TRANSCONNECT®-Webschnittstellen für die Cloud, IoT & Co. - TRANSCONNECT-Ta...3) TRANSCONNECT®-Webschnittstellen für die Cloud, IoT & Co. - TRANSCONNECT-Ta...
3) TRANSCONNECT®-Webschnittstellen für die Cloud, IoT & Co. - TRANSCONNECT-Ta...
 
z-push PHPUnconference 2009
z-push PHPUnconference 2009z-push PHPUnconference 2009
z-push PHPUnconference 2009
 
Oracle12c für Entwickler
Oracle12c für EntwicklerOracle12c für Entwickler
Oracle12c für Entwickler
 
Oracle12c für Entwickler
Oracle12c für EntwicklerOracle12c für Entwickler
Oracle12c für Entwickler
 
Ist GraphQL das bessere REST
Ist GraphQL das bessere RESTIst GraphQL das bessere REST
Ist GraphQL das bessere REST
 

Mehr von TA Trust Agents Internet GmbH

Mehr von TA Trust Agents Internet GmbH (9)

Meetup | Data-Driven Marketing
Meetup | Data-Driven MarketingMeetup | Data-Driven Marketing
Meetup | Data-Driven Marketing
 
SEO mit kostenlosen Tools | Suchmaschinenoptimierung OMT 2018
SEO mit kostenlosen Tools | Suchmaschinenoptimierung OMT 2018SEO mit kostenlosen Tools | Suchmaschinenoptimierung OMT 2018
SEO mit kostenlosen Tools | Suchmaschinenoptimierung OMT 2018
 
Content Seeding - Meetup @ Trust Agents
Content Seeding - Meetup @ Trust AgentsContent Seeding - Meetup @ Trust Agents
Content Seeding - Meetup @ Trust Agents
 
10 technische SEO Hacks | Dominik Wojcik | SEOkomm 2017
10 technische SEO Hacks | Dominik Wojcik | SEOkomm 201710 technische SEO Hacks | Dominik Wojcik | SEOkomm 2017
10 technische SEO Hacks | Dominik Wojcik | SEOkomm 2017
 
Next Level Tech SEO | Dominik Wojcik | SEO Day 2017
Next Level Tech SEO | Dominik Wojcik | SEO Day 2017Next Level Tech SEO | Dominik Wojcik | SEO Day 2017
Next Level Tech SEO | Dominik Wojcik | SEO Day 2017
 
SEO-Basics: Worauf es bei Suchmaschinenoptimierung wirklich ankommt | Stephan...
SEO-Basics: Worauf es bei Suchmaschinenoptimierung wirklich ankommt | Stephan...SEO-Basics: Worauf es bei Suchmaschinenoptimierung wirklich ankommt | Stephan...
SEO-Basics: Worauf es bei Suchmaschinenoptimierung wirklich ankommt | Stephan...
 
Google Search Console: Dateninterpretation & API | Stephan Czysch | OMX 2015
Google Search Console: Dateninterpretation & API | Stephan Czysch | OMX 2015Google Search Console: Dateninterpretation & API | Stephan Czysch | OMX 2015
Google Search Console: Dateninterpretation & API | Stephan Czysch | OMX 2015
 
Logfile-Analyse: Wo ver(sch)wendet Google Crawling-Ressourcen? | Stephan Czys...
Logfile-Analyse: Wo ver(sch)wendet Google Crawling-Ressourcen? | Stephan Czys...Logfile-Analyse: Wo ver(sch)wendet Google Crawling-Ressourcen? | Stephan Czys...
Logfile-Analyse: Wo ver(sch)wendet Google Crawling-Ressourcen? | Stephan Czys...
 
SEO-Skalierung - von 0 auf 100 in Rekordtempo | Dominik Wojcik & Benedikt Ill...
SEO-Skalierung - von 0 auf 100 in Rekordtempo | Dominik Wojcik & Benedikt Ill...SEO-Skalierung - von 0 auf 100 in Rekordtempo | Dominik Wojcik & Benedikt Ill...
SEO-Skalierung - von 0 auf 100 in Rekordtempo | Dominik Wojcik & Benedikt Ill...
 

Crawling analysis to the fullest | J.Giesche & E.Protzel | SEOcampixx 2018

  • 1.
  • 2. WER WIR SIND? Johannes Giesche Teamlead SEO Consulting E-MAIL Eduard Protzel SEO Consultant E-MAIL
  • 3. AGENDA CRAWLING-ANALYSEN LOGFILES & LOGFILE-ANALYSEN UNSERE SET-UPS
  • 4. WAS IST CRAWLING-BUDGET? CRAWLING-BEDARF + =CRAWLING-FREQUENZ CRAWLING-BUDGET https://webmaster-de.googleblog.com/2017/01/was-crawl-budget-fuer-googlebot-bedeutet.html
  • 5. PROBLEME MIT DEM CRAWLING-BUDGET? „WENN NEUE SEITEN TENDENZIELL AM TAG IHRER VERÖFFENTLICHUNG GECRAWLT WERDEN, MUSS SICH DER WEBMASTER NICHT UM DAS CRAWLING-BUDGET KÜMMERN. AUSSERDEM WIRD EINE WEBSITE MIT WENIGER ALS EIN PAAR TAUSEND URLS MEISTENS EFFIZIENT GECRAWLT.“ https://webmaster-de.googleblog.com/2017/01/was-crawl-budget-fuer-googlebot-bedeutet.html
  • 6. CRAWLING-ANALYSEN 1 ABRUF WIE DURCH GOOGLE 2 GOOGLE CACHE ANSICHT 3 ROBOTS.TXT 4 SITEMAP-UNTERSUCHUNG 5 CRAWLING-FEHLER 6 SIMULIERTE CRAWLING-ANALYSEN 7 LOGFILE-ANALYSEN ACCESSIBILITY GSC-ANALYSE TOOL-ANALYSE
  • 7. GOOGLE CACHE ANSICHT / ABRUF WIE DURCH GOOGLE • SICHERSTELLUNG ACCESSIBILITY • GOOGLE CACHE ANSICHT • „NUR-TEXT-VERSION“ BZW. „&STRIP=1“ ANHÄNGEN • ABRUF WIE DURCH GOOGLE ÜBER DIE GOOGLE SEARCH CONSOLE
  • 8. GOOGLE SEARCH CONSOLE • GOOGLE SEARCH CONSOLE BIETET VIELE INFORMATIONEN • SITEMAPS • ROBOTS.TXT TESTER • CRAWLING-STATISTIKEN • CRAWLING-FEHLER
  • 11. SIMULIERTE CRAWLING-ANALYSEN VS. LOGFILE-ANALYSEN • SIMULATION EINES CRAWLERS • FINDET NUR INTERN VERLINKTE (HTML- LINKS) RESSOURCEN • CRAWLT ALLES IN GLEICHER PRIORITÄT • CRAWLING-BUDGET ALLOKATION NICHT ERSICHTLICH SIMULIERTE CRAWLING-ANALYSEN LOGFILE-ANALYSEN • „GENAUE“ BEWEGUNG DER CRAWLER • DARSTELLUNG ALLER AUFGERUFENEN RESSOURCEN • UNTERSCHIEDLICHE CRAWL-PRIORITÄTEN • CRAWLING-BUDGET ALLOKATION LEICHT ERKENNBAR
  • 12. LOGFILE-ANALYSE & MOBILE FIRST „I THINK YOU WOULD PROBABLY RECOGNIZE IT IN THE LOG FILES. IF YOU SEE, IF YOU LOOK NOW PROBABLY SOMETHING LIKE 80% OF THE CRAWLING IS WITH THE GOOGLEBOT DESKTOP AND MAYBE 20% IS WITH MOBILE WITH THE SMARTPHONE GOOGLEBOT. AND PROBABLY THAT WILL SHIFT OVER AND THAT MOST OF THE CRAWLING WILL BE DONE WITH THE SMARTPHONE GOOGLEBOT AND LESS CRAWLING WITH THE DESKTOP GOOGLEBOT. SO IF YOU LIKE REALLY WATCH OUT FOR YOUR LOG FILES PROBABLY YOU CAN NOTICE THAT FAIRLY OBVIOUSLY.“ - JOHANNES MÜLLER -
  • 13. AUFBEREITUNG LOGFILES ANATOMIE EINER LOGFILEZEILE BEI ABRUF DURCH GOOGLE (OHNE REFERRER) 66.249.69.127 - - [16/NOV/2014:23:50:29 +0100] "GET /IMAGES/LOGO.JPG HTTP/1.1" 200 24532 "-" "MOZILLA/5.0 (COMPATIBLE; GOOGLEBOT/2.1; +HTTP://WWW.GOOGLE.COM/BOT.HTML)“ • IP- ODER DNS-ADRESSE DES RECHNERS, DER DIE SEITE AUFGERUFEN HAT • ZEITPUNKT DES ZUGRIFFS • BEFEHL DER VOM SERVER VERLANGT WIRD (MEISTENS WIRD MIT DEM BEFEHL GET EINE DATEI ANGEFORDERT) • ANGEFORDERTE URL: DATEINAME UND -PFAD (IM BEISPIEL HANDELT ES SICH UM EINE BILDDATEI) • ART DES ÜBERTRAGUNGSPROTOKOLLS • DIE ANTWORT DES SERVERS, HTTP-STATUSCODE (IM BEISPIEL 200: ÜBERTRAGUNG ERFOLGREICH) • ÜBERTRAGENE BYTES • BROWSER UND BETRIEBSSYSTEM DES NUTZERS, DER DIE SEITE AUFGERUFEN HAT / USERAGENT
  • 14. AUFBEREITUNG LOGFILES NOTWENDIGE SCHRITTE ZUR WEITEREN BEARBEITUNG VON LOGFILES • LOGFILES BEINHALTEN ALLE ZUGRIFFE AUF EINEN SERVER • ZUR AUSWERTUNG MÜSSEN ZUGRIFFE DURCH SUCHMASCHINEN VORAB HERAUSGEFILTERT WERDEN • ERFAHRUNGSGEMÄSS REICHT DIE VORAUSWAHL NACH DER IP-RANGE 66.249.*.* VOM GOOGLEBOT
  • 15. AUFBEREITUNG LOGFILES AUFBEREITUNG MITTELS WINDOWS CONSOLE 1. PER CD ZUM ENTSPRECHENDEN VERZEICHNIS NAVIGIEREN 2. OPTIONAL: DATEIEN ZUSAMMENFASSEN: COPY *.[DATEITYP] [NEUE-DATEI.DATEITYP] 3. FINDSTR 66.249.* [DATEIBEZEICHNUNG.DATEITYP] > [NEUE-DATEI.DATEITYP]
  • 16. AUFBEREITUNG LOGFILES NOTWENDIGE SCHRITTE ZUR WEITEREN BEARBEITUNG IN EXCEL • ZERLEGEN DER ABFRAGE IN EINZELNE TEILE ZUR VERARBEITUNG MITTELS PIVOT TABLE • AUSGANGSBASIS SIND DIE NATÜRLICH VORHANDENEN INFORMATIONEN ZUGRIFFSDATUM UND ZEIT VOLLSTÄNDIGE ANFRAGE STATUSCODE GRÖSSE USERAGENT 66.249.69.127 - - [16/NOV/2014:23:50:29 +0100] "GET /IMAGES/LOGO.JPG HTTP/1.1" 200 24532 "-" "MOZILLA/5.0 (COMPATIBLE; GOOGLEBOT/2.1; +HTTP://WWW.GOOGLE.COM/BOT.HTML)“
  • 17. AUFBEREITUNG LOGFILES NOTWENDIGE SCHRITTE ZUR WEITEREN BEARBEITUNG IN EXCEL .. DETAILLIERTE ZERLEGUNG IST EMPFEHLENSWERT: URL OHNE PARAMETER QUERY STRING ANZAHL PARAMETER / ERSTER PARAMETER TOP LEVEL ORDNER PFAD PFADTIEFE … .. EXTERNE DATEN: CRAWL-DATEN BACKLINK-DATEN TRAFFIC-DATEN
  • 18. AUFBEREITUNG LOGFILES EXCELFORMELN CHEAT SHEET URL STRING AUS ANFRAGE ZERLEGEN BESTEHEND AUS GET /IMAGES/LOGO.JPG HTTP/1.1 FALLS HTTP/1.1 FEHLT MUSS "-13“ ENTFERNT WERDEN =TEIL([ANFRAGE];5;LÄNGE()-13) URL =["[DOMAIN]"]&[URLSTRING] PFAD (SEOTOOLSFOREXCEL) =URLPROPERTY([URL]; "PATH") PFADTIEFE (SEOTOOLSFOREXCEL) =URLPROPERTY([URL]; "DEPTH") DATEITYP (SEOTOOLSFOREXCEL) =URLPROPERTY([URL);"FILE") QUERY STRING =WENNFEHLER((TEIL([URLSTRING];FINDEN("?";[URLSTR ING])+1;LÄNGE([URLSTRING])));"") ERSTER PARAMETER =WENNFEHLER((LINKS([QUERYSTRING];FINDEN("="; [QUERYSTRING];)-1));"") ANZAHL PARAMETER =WENNFEHLER((LINKS([QUERYSTRING];FINDEN("="; [QUERYSTRING])-1));"") URL OHNE PARAMETER =WENNFEHLER((LINKS([URL];FINDEN("?";[URL])-1));D4) TOPLEVEL ORDNER. FALLS DIE DATEI/RESSOURCE IM ROOT LIEGT, WIRD „ROOTURL“ AUSGEGEBEN =WENNFEHLER(LINKS([URLSTRING];FINDEN("/";M4;2)); "ROOTURL")
  • 19. AUFBEREITUNG LOGFILES MIT GOOGLE DATA STUDIO
  • 20. UNSERE 11 TOP-LEARNINGS 1. VORSICHT BEI URL FINGERPRINTING (  BILDER) 2. WAS „AUSSIEHT“ WIE EINE URL WIRD AUCH GECRAWLT! 3. VORSICHT BEI RESSOURCEN, DIE DEN SEITENINHALT NICHT VERÄNDERN! 4. NACH RELAUNCHES LOHNT SICH EINE LOGFILE-ANALYSE ERST RECHT 5. LADEZEITOPTIMIERUNG LOHNT SICH IMMER 6. AUCH NON-HTMLS BEACHTEN (X-ROBOTS-TAG)
  • 21. UNSERE 11 TOP-LEARNINGS 7. 301-WEITERLEITUNGEN MÜSSEN NICHT IMMER DER RICHTIGE WEG SEIN 8. QUALITY VS. QUANTITY 9. LÖSCHE UNNÖTIGEN BALLAST 10. SEI MUTIG MIT DER ROBOTS.TXT-DATEI 11. KEIN EINSATZ VON CANONICAL-TAG OHNE “NOINDEX,FOLLOW” IM HTML-HEAD
  • 22. ONPAGE-MONITORING-TOOL MIT GOOGLE TABELLEN • MONITORING IST ALLES!! • KOSTENFREIES SEO-MONITORING-TOOL: • GOOGLE DRIVE TABELLE • QUELLTEXT UND HTTP-HEADER VON BIS ZU 100 URLS • ANWENDUNGSFÄLLE: • ENTSPRICHT DER SEITENTITEL DEM GEWÜNSCHTEN TEXT? • ZEIGT DIE CANONICAL-URL WEITERHIN AUF DIE GEWÜNSCHTE ADRESSE? • IST DIE PAGINIERUNG VON DER INDEXIERUNG AUSGESCHLOSSEN? • USW. https://www.trustagents.de/unternehmen/tools/onpage-monitoring-tool
  • 23. ONPAGE-MONITORING-TOOL ALS SOFTWARE-LÖSUNG • EINSATZ EINER SELBST PROGRAMMIERTEN SOFTWARE-LÖSUNG, UM VERÄNDERUNGEN BEI KUNDENPROJEKTEN SCHNELL ZU ERKENNEN WER MEHR WISSEN MÖCHTE ODER INTERESSE HAT, KONTAKTIERT UNS EINFACH ☺
  • 24. UNSERE SEO STÄRKEN SEO MONITORING ALLES BLEIBT STETS IM BLICK, AUCH AUSSERGEWÖHNLICHE AKTIVITÄTEN SEO REPORTING KONTROLLE UND EFFEKTIVITÄT ÜBER ALLE SEO MASSNAHMEN SEO ALERTING SOFORTIGE ALAMINERUNG ÜBER KRITISCHE KENNZAHLEN