SlideShare ist ein Scribd-Unternehmen logo
1 von 11
Downloaden Sie, um offline zu lesen
Googlebot Analyse
mit Elasticsearch, Logstash & Kibana
Wer ich bin
2 Googlebot Analyse | Valentin Pletzer | BurdaForward
Valentin Pletzer
Senior Search Analyst @ BurdaForward
https://twitter.com/VorticonCmdr
https://www.xing.com/profile/Valentin_Pletzer
https://plus.google.com/+ValentinPletzer
valentin.pletzer@burda-forward.de
http://www.chip.de/
http://www.focus.de/
http://www.netmoms.de/
http://www.finanzen100.de/
http://www.huffingtonpost.de/
Warum das Ganze?
3 Googlebot Analyse | Valentin Pletzer | BurdaForward
•  Informations-Lücken schließen (Google Search Console)
•  Informationen ergänzen (wie verhält sich der „echte“ Googlebot)
•  Weil es cool ist ;-)
Agenda
4 Googlebot Analyse | Valentin Pletzer | BurdaForward
Installation
Tuning des Mappings
1
2
Daten reinladen3
Dashboard einrichten4
Analyse5
Installation
5 Googlebot Analyse | Valentin Pletzer | BurdaForward
•  Elasticsearch als Datenhalde
•  evtl. noch das Head-Plugin
•  Logstash zum Parsen der Logfiles
•  Kibana zur Visualisierung
•  Alle müssen nur entpackt werden
•  elasticsearch.yml anpassen
•  cluster.name
•  path.data
•  path.log
•  ES_HEAP_SIZE (Hälfte des Arbeitsspeichers)
•  zum Starten: bin/elasticsearch
Tuning des Mappings
6 Googlebot Analyse | Valentin Pletzer | BurdaForward
•  URLs können sehr lang sein daher sollte
man die 256 Zeichen Beschränkung
aufheben
•  Zahlen will man tendenziell auch als solche
behandeln (Durchschnitt etc) und sollten
daher auch als solche gemappt sein
Daten reinladen
7 Googlebot Analyse | Valentin Pletzer | BurdaForward
•  (Apache) Logfiles besorgen
•  evtl Pre-Processing (nur Bots?)
•  Logstash Input-Filter-Output Skript
•  bin/logstash agent -f stdin-es.conf < /logs/googlebot.log
Mögliche Inputs und Filter
8 Googlebot Analyse | Valentin Pletzer | BurdaForward
•  Inputs
•  stdin
•  file
•  http
•  RabbitMQ, ZeroMQ
•  ...
•  Filter
•  dns (reverse lookup)
•  geoip (Karte)
•  grok (Parser mit Regex)
•  mutate (Replace, Split etc)
•  useragent
•  ...
Dashboard einrichten
9 Googlebot Analyse | Valentin Pletzer | BurdaForward
•  Kibana starten (bin/kibana)
•  Kibana öffnen (http://localhost:5601/)
•  Visualisierungen anlegen & speichern
•  Dashboard anlegen & speichern
Mögliche Fragestellungen
10 Googlebot Analyse | Valentin Pletzer | BurdaForward
•  Welche URL wird am häufigsten gecrawlt?
•  Kann die robots.txt immer einwandfrei gecrawlt werden?
•  Wie groß ist das größte File und brauche ich das?
•  Wie groß ist die durchschnittliche HTML-Filegröße?
•  Wird mein HTML größer oder kleiner?
•  Wann wurde ein bestimmte URL zum letzten Mal gecrawlt?
•  Wie viele 404, 301 etc liefere ich dem Bot aus?
•  Welche Googlebots kommen überhaupt?
•  Wie viele (unique) URLs wurden gecrawlt?
•  Wann waren Ausfälle (5xx) und wird wieder normal gecrawlt?
•  Drosselt der Googlebot zu bestimmten Tageszeiten?
Fragen?
Danke!

Weitere ähnliche Inhalte

Was ist angesagt?

Seocampixx 2016 - Data Mining Reloaded - In 30 Minuten zum eigenen Scraper
Seocampixx 2016 - Data Mining Reloaded - In 30 Minuten zum eigenen ScraperSeocampixx 2016 - Data Mining Reloaded - In 30 Minuten zum eigenen Scraper
Seocampixx 2016 - Data Mining Reloaded - In 30 Minuten zum eigenen ScraperJens Bonerz
 
Google Tag Manager, SEOkomm 2016
Google Tag Manager, SEOkomm 2016Google Tag Manager, SEOkomm 2016
Google Tag Manager, SEOkomm 2016Stefan David
 
JavaScript SEO - Crawling, Indexierung und Auditing von JavaScript-Websites -...
JavaScript SEO - Crawling, Indexierung und Auditing von JavaScript-Websites -...JavaScript SEO - Crawling, Indexierung und Auditing von JavaScript-Websites -...
JavaScript SEO - Crawling, Indexierung und Auditing von JavaScript-Websites -...Artur Kosch
 
Migration Best-Practices: So gelingt der erfolgreiche Relaunch - SEOkomm 2017
Migration Best-Practices: So gelingt der erfolgreiche Relaunch - SEOkomm 2017Migration Best-Practices: So gelingt der erfolgreiche Relaunch - SEOkomm 2017
Migration Best-Practices: So gelingt der erfolgreiche Relaunch - SEOkomm 2017Bastian Grimm
 
Relaunch & SEO: Best Practice, Checklists, Stolpersteine
Relaunch & SEO: Best Practice, Checklists, StolpersteineRelaunch & SEO: Best Practice, Checklists, Stolpersteine
Relaunch & SEO: Best Practice, Checklists, StolpersteinePhilipp Klöckner
 
Welcome to a New Reality - SEO goes Mobile First in 2017
Welcome to a New Reality - SEO goes Mobile First in 2017Welcome to a New Reality - SEO goes Mobile First in 2017
Welcome to a New Reality - SEO goes Mobile First in 2017Bastian Grimm
 
Logfile-Analyse: Wo ver(sch)wendet Google Crawling-Ressourcen? | Stephan Czys...
Logfile-Analyse: Wo ver(sch)wendet Google Crawling-Ressourcen? | Stephan Czys...Logfile-Analyse: Wo ver(sch)wendet Google Crawling-Ressourcen? | Stephan Czys...
Logfile-Analyse: Wo ver(sch)wendet Google Crawling-Ressourcen? | Stephan Czys...TA Trust Agents Internet GmbH
 
Informationsarchitektur & Verlinkung - SMX München 2014
Informationsarchitektur & Verlinkung - SMX München 2014Informationsarchitektur & Verlinkung - SMX München 2014
Informationsarchitektur & Verlinkung - SMX München 2014Bastian Grimm
 
Mehr Pagespeed geht nicht - SEOkomm 2015
Mehr Pagespeed geht nicht - SEOkomm 2015Mehr Pagespeed geht nicht - SEOkomm 2015
Mehr Pagespeed geht nicht - SEOkomm 2015Bastian Grimm
 

Was ist angesagt? (9)

Seocampixx 2016 - Data Mining Reloaded - In 30 Minuten zum eigenen Scraper
Seocampixx 2016 - Data Mining Reloaded - In 30 Minuten zum eigenen ScraperSeocampixx 2016 - Data Mining Reloaded - In 30 Minuten zum eigenen Scraper
Seocampixx 2016 - Data Mining Reloaded - In 30 Minuten zum eigenen Scraper
 
Google Tag Manager, SEOkomm 2016
Google Tag Manager, SEOkomm 2016Google Tag Manager, SEOkomm 2016
Google Tag Manager, SEOkomm 2016
 
JavaScript SEO - Crawling, Indexierung und Auditing von JavaScript-Websites -...
JavaScript SEO - Crawling, Indexierung und Auditing von JavaScript-Websites -...JavaScript SEO - Crawling, Indexierung und Auditing von JavaScript-Websites -...
JavaScript SEO - Crawling, Indexierung und Auditing von JavaScript-Websites -...
 
Migration Best-Practices: So gelingt der erfolgreiche Relaunch - SEOkomm 2017
Migration Best-Practices: So gelingt der erfolgreiche Relaunch - SEOkomm 2017Migration Best-Practices: So gelingt der erfolgreiche Relaunch - SEOkomm 2017
Migration Best-Practices: So gelingt der erfolgreiche Relaunch - SEOkomm 2017
 
Relaunch & SEO: Best Practice, Checklists, Stolpersteine
Relaunch & SEO: Best Practice, Checklists, StolpersteineRelaunch & SEO: Best Practice, Checklists, Stolpersteine
Relaunch & SEO: Best Practice, Checklists, Stolpersteine
 
Welcome to a New Reality - SEO goes Mobile First in 2017
Welcome to a New Reality - SEO goes Mobile First in 2017Welcome to a New Reality - SEO goes Mobile First in 2017
Welcome to a New Reality - SEO goes Mobile First in 2017
 
Logfile-Analyse: Wo ver(sch)wendet Google Crawling-Ressourcen? | Stephan Czys...
Logfile-Analyse: Wo ver(sch)wendet Google Crawling-Ressourcen? | Stephan Czys...Logfile-Analyse: Wo ver(sch)wendet Google Crawling-Ressourcen? | Stephan Czys...
Logfile-Analyse: Wo ver(sch)wendet Google Crawling-Ressourcen? | Stephan Czys...
 
Informationsarchitektur & Verlinkung - SMX München 2014
Informationsarchitektur & Verlinkung - SMX München 2014Informationsarchitektur & Verlinkung - SMX München 2014
Informationsarchitektur & Verlinkung - SMX München 2014
 
Mehr Pagespeed geht nicht - SEOkomm 2015
Mehr Pagespeed geht nicht - SEOkomm 2015Mehr Pagespeed geht nicht - SEOkomm 2015
Mehr Pagespeed geht nicht - SEOkomm 2015
 

Andere mochten auch

Content Kannibalismus & Relevanzprobleme
Content Kannibalismus & RelevanzproblemeContent Kannibalismus & Relevanzprobleme
Content Kannibalismus & RelevanzproblemeSören Bendig
 
Campixx 2017 SEO für KMU
Campixx 2017 SEO für KMUCampixx 2017 SEO für KMU
Campixx 2017 SEO für KMUHeiko Hoehn
 
Google Tag Manager Advanced - SEO CAMPIXX 2016
Google Tag Manager Advanced - SEO CAMPIXX 2016Google Tag Manager Advanced - SEO CAMPIXX 2016
Google Tag Manager Advanced - SEO CAMPIXX 2016Thomas Czernik
 
WordPress SEO | Campixx 2016 | Hans Jung
WordPress SEO | Campixx 2016 | Hans JungWordPress SEO | Campixx 2016 | Hans Jung
WordPress SEO | Campixx 2016 | Hans JungHans Jung
 
Content Marketing in der Praxis - Warum nicht immer alles nach Lehrbuch verlä...
Content Marketing in der Praxis - Warum nicht immer alles nach Lehrbuch verlä...Content Marketing in der Praxis - Warum nicht immer alles nach Lehrbuch verlä...
Content Marketing in der Praxis - Warum nicht immer alles nach Lehrbuch verlä...Ronny Stöck
 
From Keyword to Topic Research - Von der Keywordrecherche zur Themenrecherche
From Keyword to Topic Research - Von der Keywordrecherche zur ThemenrechercheFrom Keyword to Topic Research - Von der Keywordrecherche zur Themenrecherche
From Keyword to Topic Research - Von der Keywordrecherche zur ThemenrechercheFlorian Stelzner
 
Online Shop SEO Audits mit Screaming Frog & URL Profiler | SEO Campixx 2016
Online Shop SEO Audits mit Screaming Frog & URL Profiler | SEO Campixx 2016Online Shop SEO Audits mit Screaming Frog & URL Profiler | SEO Campixx 2016
Online Shop SEO Audits mit Screaming Frog & URL Profiler | SEO Campixx 2016Mario Träger
 
Lean Startup and mobile development at the AXA Digital Agency
Lean Startup and mobile development at the AXA Digital AgencyLean Startup and mobile development at the AXA Digital Agency
Lean Startup and mobile development at the AXA Digital AgencyStephane Delbecque
 
Quo Vadis SEO (Die Zukunft des SEO) - SEOkomm Salzburg 2016
Quo Vadis SEO (Die Zukunft des SEO) - SEOkomm Salzburg 2016Quo Vadis SEO (Die Zukunft des SEO) - SEOkomm Salzburg 2016
Quo Vadis SEO (Die Zukunft des SEO) - SEOkomm Salzburg 2016Bastian Grimm
 
Content Audits - Inhalte datenbasiert optimieren - Contentixx 2017
Content Audits - Inhalte datenbasiert optimieren - Contentixx 2017Content Audits - Inhalte datenbasiert optimieren - Contentixx 2017
Content Audits - Inhalte datenbasiert optimieren - Contentixx 2017luna-park GmbH
 
Getting Data with import.io | SEO CAMPIXX 2016
Getting Data with import.io | SEO CAMPIXX 2016Getting Data with import.io | SEO CAMPIXX 2016
Getting Data with import.io | SEO CAMPIXX 2016Kerstin Reichert
 
Fast Growing Companies: 10 SEO Lessons Learned
Fast Growing Companies: 10 SEO Lessons LearnedFast Growing Companies: 10 SEO Lessons Learned
Fast Growing Companies: 10 SEO Lessons LearnedPhilipp Klöckner
 
WordPress Professional III
WordPress Professional IIIWordPress Professional III
WordPress Professional IIISebastian Blum
 
Durch puren Inhalt dem Wettbewerb Traffic klauen
Durch puren Inhalt dem Wettbewerb Traffic klauenDurch puren Inhalt dem Wettbewerb Traffic klauen
Durch puren Inhalt dem Wettbewerb Traffic klauenEffektX
 
Das Ende der Contentstrategie, wie wir sie kennen: Was Marken jetzt tun müsse...
Das Ende der Contentstrategie, wie wir sie kennen: Was Marken jetzt tun müsse...Das Ende der Contentstrategie, wie wir sie kennen: Was Marken jetzt tun müsse...
Das Ende der Contentstrategie, wie wir sie kennen: Was Marken jetzt tun müsse...Dr. Kerstin Hoffmann
 
Agile Content Strategy: developing and implementing a content strategy with f...
Agile Content Strategy: developing and implementing a content strategy with f...Agile Content Strategy: developing and implementing a content strategy with f...
Agile Content Strategy: developing and implementing a content strategy with f...Babak Zand
 

Andere mochten auch (20)

Content Kannibalismus & Relevanzprobleme
Content Kannibalismus & RelevanzproblemeContent Kannibalismus & Relevanzprobleme
Content Kannibalismus & Relevanzprobleme
 
Campixx 2017 SEO für KMU
Campixx 2017 SEO für KMUCampixx 2017 SEO für KMU
Campixx 2017 SEO für KMU
 
Google Tag Manager Advanced - SEO CAMPIXX 2016
Google Tag Manager Advanced - SEO CAMPIXX 2016Google Tag Manager Advanced - SEO CAMPIXX 2016
Google Tag Manager Advanced - SEO CAMPIXX 2016
 
WordPress SEO | Campixx 2016 | Hans Jung
WordPress SEO | Campixx 2016 | Hans JungWordPress SEO | Campixx 2016 | Hans Jung
WordPress SEO | Campixx 2016 | Hans Jung
 
Content Marketing in der Praxis - Warum nicht immer alles nach Lehrbuch verlä...
Content Marketing in der Praxis - Warum nicht immer alles nach Lehrbuch verlä...Content Marketing in der Praxis - Warum nicht immer alles nach Lehrbuch verlä...
Content Marketing in der Praxis - Warum nicht immer alles nach Lehrbuch verlä...
 
SERPrio - Campixx 2016
SERPrio - Campixx 2016SERPrio - Campixx 2016
SERPrio - Campixx 2016
 
From Keyword to Topic Research - Von der Keywordrecherche zur Themenrecherche
From Keyword to Topic Research - Von der Keywordrecherche zur ThemenrechercheFrom Keyword to Topic Research - Von der Keywordrecherche zur Themenrecherche
From Keyword to Topic Research - Von der Keywordrecherche zur Themenrecherche
 
WordStream & SiteTuners: The A/B Testing Myth [Webinar]
WordStream & SiteTuners: The A/B Testing Myth [Webinar]WordStream & SiteTuners: The A/B Testing Myth [Webinar]
WordStream & SiteTuners: The A/B Testing Myth [Webinar]
 
Online Shop SEO Audits mit Screaming Frog & URL Profiler | SEO Campixx 2016
Online Shop SEO Audits mit Screaming Frog & URL Profiler | SEO Campixx 2016Online Shop SEO Audits mit Screaming Frog & URL Profiler | SEO Campixx 2016
Online Shop SEO Audits mit Screaming Frog & URL Profiler | SEO Campixx 2016
 
Lean Startup and mobile development at the AXA Digital Agency
Lean Startup and mobile development at the AXA Digital AgencyLean Startup and mobile development at the AXA Digital Agency
Lean Startup and mobile development at the AXA Digital Agency
 
Sucool Tİ Start Up Marketing Roadmap
Sucool Tİ Start Up Marketing RoadmapSucool Tİ Start Up Marketing Roadmap
Sucool Tİ Start Up Marketing Roadmap
 
Quo Vadis SEO (Die Zukunft des SEO) - SEOkomm Salzburg 2016
Quo Vadis SEO (Die Zukunft des SEO) - SEOkomm Salzburg 2016Quo Vadis SEO (Die Zukunft des SEO) - SEOkomm Salzburg 2016
Quo Vadis SEO (Die Zukunft des SEO) - SEOkomm Salzburg 2016
 
Content Audits - Inhalte datenbasiert optimieren - Contentixx 2017
Content Audits - Inhalte datenbasiert optimieren - Contentixx 2017Content Audits - Inhalte datenbasiert optimieren - Contentixx 2017
Content Audits - Inhalte datenbasiert optimieren - Contentixx 2017
 
Getting Data with import.io | SEO CAMPIXX 2016
Getting Data with import.io | SEO CAMPIXX 2016Getting Data with import.io | SEO CAMPIXX 2016
Getting Data with import.io | SEO CAMPIXX 2016
 
Fast Growing Companies: 10 SEO Lessons Learned
Fast Growing Companies: 10 SEO Lessons LearnedFast Growing Companies: 10 SEO Lessons Learned
Fast Growing Companies: 10 SEO Lessons Learned
 
WordPress Professional III
WordPress Professional IIIWordPress Professional III
WordPress Professional III
 
Content Marketing Day Session @ Campixx Week 2016
Content Marketing Day Session @ Campixx Week 2016Content Marketing Day Session @ Campixx Week 2016
Content Marketing Day Session @ Campixx Week 2016
 
Durch puren Inhalt dem Wettbewerb Traffic klauen
Durch puren Inhalt dem Wettbewerb Traffic klauenDurch puren Inhalt dem Wettbewerb Traffic klauen
Durch puren Inhalt dem Wettbewerb Traffic klauen
 
Das Ende der Contentstrategie, wie wir sie kennen: Was Marken jetzt tun müsse...
Das Ende der Contentstrategie, wie wir sie kennen: Was Marken jetzt tun müsse...Das Ende der Contentstrategie, wie wir sie kennen: Was Marken jetzt tun müsse...
Das Ende der Contentstrategie, wie wir sie kennen: Was Marken jetzt tun müsse...
 
Agile Content Strategy: developing and implementing a content strategy with f...
Agile Content Strategy: developing and implementing a content strategy with f...Agile Content Strategy: developing and implementing a content strategy with f...
Agile Content Strategy: developing and implementing a content strategy with f...
 

Ähnlich wie Googlebot Analyse mit Elasticsearch

Workshop Logfile Analyse mit Splunk
Workshop Logfile Analyse mit SplunkWorkshop Logfile Analyse mit Splunk
Workshop Logfile Analyse mit SplunkHannes Richter
 
PageSpeed Extreme für das große Speed Update 2021
PageSpeed Extreme für das große Speed Update 2021PageSpeed Extreme für das große Speed Update 2021
PageSpeed Extreme für das große Speed Update 2021SEARCH ONE
 
Seo Campixx 2015 - Technical SEO for Beginners
Seo Campixx 2015 - Technical SEO for BeginnersSeo Campixx 2015 - Technical SEO for Beginners
Seo Campixx 2015 - Technical SEO for BeginnersJan Berens
 
Google Analytics & Seo @seosixt wiesn 2014
Google Analytics & Seo @seosixt wiesn 2014Google Analytics & Seo @seosixt wiesn 2014
Google Analytics & Seo @seosixt wiesn 2014121WATT GmbH
 
Data Scraping with Excel - Campixx 2013 - Maik Schmidt
Data Scraping with Excel - Campixx 2013 - Maik SchmidtData Scraping with Excel - Campixx 2013 - Maik Schmidt
Data Scraping with Excel - Campixx 2013 - Maik SchmidtMaik Schmidt
 
TYPO3 Monitoring mit t3monitoring
TYPO3 Monitoring mit t3monitoringTYPO3 Monitoring mit t3monitoring
TYPO3 Monitoring mit t3monitoringPeter Kraume
 
SharePoint Community Mittelland - GARAIO : Enterprise Search
SharePoint Community Mittelland - GARAIO : Enterprise SearchSharePoint Community Mittelland - GARAIO : Enterprise Search
SharePoint Community Mittelland - GARAIO : Enterprise SearchPatrick Maeschli
 
zmon.io – Not yet another Prometheus Talk
zmon.io – Not yet another Prometheus Talkzmon.io – Not yet another Prometheus Talk
zmon.io – Not yet another Prometheus Talkinovex GmbH
 
SEO Day 2016: Perfekte Ladezeiten und SEO-Hosting für Speed-Freaks
SEO Day 2016: Perfekte Ladezeiten und SEO-Hosting für Speed-FreaksSEO Day 2016: Perfekte Ladezeiten und SEO-Hosting für Speed-Freaks
SEO Day 2016: Perfekte Ladezeiten und SEO-Hosting für Speed-FreaksSEARCH ONE
 
GMP-Con 2019 - GTM Hacks - Maik Bruns (Metrika)
GMP-Con 2019 - GTM Hacks - Maik Bruns (Metrika)GMP-Con 2019 - GTM Hacks - Maik Bruns (Metrika)
GMP-Con 2019 - GTM Hacks - Maik Bruns (Metrika)e-dialog GmbH
 
Google Analytics Konferenz 2019_Google Tag Manager Hacks - für jeden etwas da...
Google Analytics Konferenz 2019_Google Tag Manager Hacks - für jeden etwas da...Google Analytics Konferenz 2019_Google Tag Manager Hacks - für jeden etwas da...
Google Analytics Konferenz 2019_Google Tag Manager Hacks - für jeden etwas da...e-dialog GmbH
 
Google Analytics Einführung: 5 Tipps wie Du Google Analytics effektiv einsetz...
Google Analytics Einführung: 5 Tipps wie Du Google Analytics effektiv einsetz...Google Analytics Einführung: 5 Tipps wie Du Google Analytics effektiv einsetz...
Google Analytics Einführung: 5 Tipps wie Du Google Analytics effektiv einsetz...121WATT GmbH
 
Frontend-Performance @ IPC
Frontend-Performance @ IPCFrontend-Performance @ IPC
Frontend-Performance @ IPCNico Steiner
 
Frontend-Performance mit PHP
Frontend-Performance mit PHPFrontend-Performance mit PHP
Frontend-Performance mit PHPFrank Kleine
 
Javascript done right
Javascript done rightJavascript done right
Javascript done rightDirk Ginader
 

Ähnlich wie Googlebot Analyse mit Elasticsearch (20)

Workshop Logfile Analyse mit Splunk
Workshop Logfile Analyse mit SplunkWorkshop Logfile Analyse mit Splunk
Workshop Logfile Analyse mit Splunk
 
PageSpeed Extreme für das große Speed Update 2021
PageSpeed Extreme für das große Speed Update 2021PageSpeed Extreme für das große Speed Update 2021
PageSpeed Extreme für das große Speed Update 2021
 
Seo Campixx 2015 - Technical SEO for Beginners
Seo Campixx 2015 - Technical SEO for BeginnersSeo Campixx 2015 - Technical SEO for Beginners
Seo Campixx 2015 - Technical SEO for Beginners
 
Tracking-Herausforderungen 2020
Tracking-Herausforderungen 2020Tracking-Herausforderungen 2020
Tracking-Herausforderungen 2020
 
Google Analytics & Seo @seosixt wiesn 2014
Google Analytics & Seo @seosixt wiesn 2014Google Analytics & Seo @seosixt wiesn 2014
Google Analytics & Seo @seosixt wiesn 2014
 
Data Scraping with Excel - Campixx 2013 - Maik Schmidt
Data Scraping with Excel - Campixx 2013 - Maik SchmidtData Scraping with Excel - Campixx 2013 - Maik Schmidt
Data Scraping with Excel - Campixx 2013 - Maik Schmidt
 
TYPO3 Monitoring mit t3monitoring
TYPO3 Monitoring mit t3monitoringTYPO3 Monitoring mit t3monitoring
TYPO3 Monitoring mit t3monitoring
 
SharePoint Community Mittelland - GARAIO : Enterprise Search
SharePoint Community Mittelland - GARAIO : Enterprise SearchSharePoint Community Mittelland - GARAIO : Enterprise Search
SharePoint Community Mittelland - GARAIO : Enterprise Search
 
zmon.io – Not yet another Prometheus Talk
zmon.io – Not yet another Prometheus Talkzmon.io – Not yet another Prometheus Talk
zmon.io – Not yet another Prometheus Talk
 
SEO Day 2016: Perfekte Ladezeiten und SEO-Hosting für Speed-Freaks
SEO Day 2016: Perfekte Ladezeiten und SEO-Hosting für Speed-FreaksSEO Day 2016: Perfekte Ladezeiten und SEO-Hosting für Speed-Freaks
SEO Day 2016: Perfekte Ladezeiten und SEO-Hosting für Speed-Freaks
 
Deployment
DeploymentDeployment
Deployment
 
GMP-Con 2019 - GTM Hacks - Maik Bruns (Metrika)
GMP-Con 2019 - GTM Hacks - Maik Bruns (Metrika)GMP-Con 2019 - GTM Hacks - Maik Bruns (Metrika)
GMP-Con 2019 - GTM Hacks - Maik Bruns (Metrika)
 
Google Analytics Konferenz 2019_Google Tag Manager Hacks - für jeden etwas da...
Google Analytics Konferenz 2019_Google Tag Manager Hacks - für jeden etwas da...Google Analytics Konferenz 2019_Google Tag Manager Hacks - für jeden etwas da...
Google Analytics Konferenz 2019_Google Tag Manager Hacks - für jeden etwas da...
 
Chatbot Hackathon Slidedeck
Chatbot Hackathon SlidedeckChatbot Hackathon Slidedeck
Chatbot Hackathon Slidedeck
 
Google Analytics Einführung: 5 Tipps wie Du Google Analytics effektiv einsetz...
Google Analytics Einführung: 5 Tipps wie Du Google Analytics effektiv einsetz...Google Analytics Einführung: 5 Tipps wie Du Google Analytics effektiv einsetz...
Google Analytics Einführung: 5 Tipps wie Du Google Analytics effektiv einsetz...
 
Frontend-Performance @ IPC
Frontend-Performance @ IPCFrontend-Performance @ IPC
Frontend-Performance @ IPC
 
Frontend-Performance mit PHP
Frontend-Performance mit PHPFrontend-Performance mit PHP
Frontend-Performance mit PHP
 
Javascript done right
Javascript done rightJavascript done right
Javascript done right
 
AMP: Inhaltliche und technische Vor- und Nachteile der neuen Google-Strategie
AMP: Inhaltliche und technische Vor- und Nachteile der neuen Google-StrategieAMP: Inhaltliche und technische Vor- und Nachteile der neuen Google-Strategie
AMP: Inhaltliche und technische Vor- und Nachteile der neuen Google-Strategie
 
Suchen und Finden im Netz
Suchen und Finden im NetzSuchen und Finden im Netz
Suchen und Finden im Netz
 

Googlebot Analyse mit Elasticsearch

  • 2. Wer ich bin 2 Googlebot Analyse | Valentin Pletzer | BurdaForward Valentin Pletzer Senior Search Analyst @ BurdaForward https://twitter.com/VorticonCmdr https://www.xing.com/profile/Valentin_Pletzer https://plus.google.com/+ValentinPletzer valentin.pletzer@burda-forward.de http://www.chip.de/ http://www.focus.de/ http://www.netmoms.de/ http://www.finanzen100.de/ http://www.huffingtonpost.de/
  • 3. Warum das Ganze? 3 Googlebot Analyse | Valentin Pletzer | BurdaForward •  Informations-Lücken schließen (Google Search Console) •  Informationen ergänzen (wie verhält sich der „echte“ Googlebot) •  Weil es cool ist ;-)
  • 4. Agenda 4 Googlebot Analyse | Valentin Pletzer | BurdaForward Installation Tuning des Mappings 1 2 Daten reinladen3 Dashboard einrichten4 Analyse5
  • 5. Installation 5 Googlebot Analyse | Valentin Pletzer | BurdaForward •  Elasticsearch als Datenhalde •  evtl. noch das Head-Plugin •  Logstash zum Parsen der Logfiles •  Kibana zur Visualisierung •  Alle müssen nur entpackt werden •  elasticsearch.yml anpassen •  cluster.name •  path.data •  path.log •  ES_HEAP_SIZE (Hälfte des Arbeitsspeichers) •  zum Starten: bin/elasticsearch
  • 6. Tuning des Mappings 6 Googlebot Analyse | Valentin Pletzer | BurdaForward •  URLs können sehr lang sein daher sollte man die 256 Zeichen Beschränkung aufheben •  Zahlen will man tendenziell auch als solche behandeln (Durchschnitt etc) und sollten daher auch als solche gemappt sein
  • 7. Daten reinladen 7 Googlebot Analyse | Valentin Pletzer | BurdaForward •  (Apache) Logfiles besorgen •  evtl Pre-Processing (nur Bots?) •  Logstash Input-Filter-Output Skript •  bin/logstash agent -f stdin-es.conf < /logs/googlebot.log
  • 8. Mögliche Inputs und Filter 8 Googlebot Analyse | Valentin Pletzer | BurdaForward •  Inputs •  stdin •  file •  http •  RabbitMQ, ZeroMQ •  ... •  Filter •  dns (reverse lookup) •  geoip (Karte) •  grok (Parser mit Regex) •  mutate (Replace, Split etc) •  useragent •  ...
  • 9. Dashboard einrichten 9 Googlebot Analyse | Valentin Pletzer | BurdaForward •  Kibana starten (bin/kibana) •  Kibana öffnen (http://localhost:5601/) •  Visualisierungen anlegen & speichern •  Dashboard anlegen & speichern
  • 10. Mögliche Fragestellungen 10 Googlebot Analyse | Valentin Pletzer | BurdaForward •  Welche URL wird am häufigsten gecrawlt? •  Kann die robots.txt immer einwandfrei gecrawlt werden? •  Wie groß ist das größte File und brauche ich das? •  Wie groß ist die durchschnittliche HTML-Filegröße? •  Wird mein HTML größer oder kleiner? •  Wann wurde ein bestimmte URL zum letzten Mal gecrawlt? •  Wie viele 404, 301 etc liefere ich dem Bot aus? •  Welche Googlebots kommen überhaupt? •  Wie viele (unique) URLs wurden gecrawlt? •  Wann waren Ausfälle (5xx) und wird wieder normal gecrawlt? •  Drosselt der Googlebot zu bestimmten Tageszeiten?