SlideShare ist ein Scribd-Unternehmen logo
Data Scraping with Excel – by Maik Schmidt
17.03.2013 – Berlin - SEO Campixx
Wer ich bin


              • Maik Schmidt
              • SEO Consultant bei Catbird Seat (2010)
              • SEO-Contest „KubaSEOTräume“ Gewinner

                   @chillboyy

                   facebook.com/chillboy.de

                   xing.com/profile/Maik_Schmidt11
Was scrapen wir heute?



•   Standard KPIs
•   Malware Checker
•   Index Checker
•   Google SERPs
•   Google Suggest
Warum Excel?


• Weil ich nicht programmieren kann




Nachteile:
• Langsam
                             ?
• Begrenzte Datenmengen
Was benötige ich?


• Excel
• Niels Bosma SEO Tools for Excel




      http://nielsbosma.se/projects/seotools/
Niels Bosma SEO Tools (1/4)

Onpage                  Content
• LinkCount             • FindDuplicatedContent
• HtmlTitle             • CountWords
• HtmlMetaDescription   • LCS
• HtmlMetaKeywords      • SpinText
• HtmlMeta              Backlinks
• HtmlFirst             • CheckBacklink
• HtmlH1                • GooglePageRank
• HtmlH2                • GoogleResultCount
• HtmlH3                • GoogleIndexCount
• HtmlCanonical         • GoogleLinkCount
• W3CValidate           • AlexaReach
• PageCodeToTextRatio   • AlexaPopularity
• PageSize              • AlexaLinkCount
• PageTextSize          • DmozEntries
• PageCodeSize          • WikipediaLinks
• HttpStatus
• HttpHeader
                        Social
                        • FacebookLikes           u.v.m.
• ResponseTime          • GooglePlusCount
• PageEncoding          • TwitterCount
• IsFoundOnPage
Niels Bosma SEO Tools (2/4)

                      SEOlytics
                      • Backlinks
                      • SVR (Sichtbarkeit)
                      • Keyword Rankings
                      • Domain Metriken
                      • LinkCount/URL
                      • Link History
Niels Bosma SEO Tools (3/4)

                      MajesticSEO
                      • Größte Backlink DB
                      • Fresh Index
                      • Historischer Index
                      • Trust/Citation Flow
Niels Bosma SEO Tools (4/4)

                      Google Analytics
                      • Ähnlich:
                          http://ga-dev-tools.appspot.com/explorer/
                      •   =GoogleAnalytics(
                          string id,
                          string metrics,
                          string startDate,
                          string endDate,
                          [string dimensions,
                          string segment,
                          string filter,
                          string sort,
                          integer startIndex,
                          integer maxResults,
                          bool excludeHeaderInResult,
                          bool excludeDimensionsInResult]) :
                          {string}
X-Path Basics

Mit X-Path kann man bestimmte Teile innerhalb eines XML-Dokumentes adressieren

Beispiele:                                Um Sichtbarkeitsindex.de zu scrapen

Document root node:                         /html/body/div/div/div/h3[position()=1
/
Direct child element:                     Holt sich in diesem Pfad den Inhalt des ersten H3 Tags
XML_element_name
Direct child of the root node:
/XML_element_name
Child of a child:                         Um Google SERPs zu scrapen
XML_element_name/XML_element_name
Descendant of the root:                              //h3[@class='x']/a);"href"
//XML_element_name                        Holt sich alle Links innerhalb H3 Tags mit der Class „X“
Descendant of a node:
XML_element_name//XML_element_name
Parent of a node:
../
A far cousin of a node
../../XML_element_name/XML_element_name
X-Path easy rausfinden

Mit dem Firefox Plugin Firebug (und FirePath) lässt sich der X-Path ziemlich
schnell und leicht finden:
Standard KPIs

QUELLEN:
Free SI: Sichtbarkeitsindex.de/deinedomain.de
SI API: http://api.sistrix.net/domain.sichtbarkeitsindex?api_key=xy&domain=deinewebseite.de
Alexa Rank: http://www.alexa.com/siteinfo/deinedomain.de
                                                                =XPathOnUrl([Alexa
=XPathOnUrl[URL];"/html/body/                          URL];"//table[@id='siteStats']/tbody/
 div/div/div/h3[position()=1]")                                   tr[1]/td[2]/div")




                                                     =XPathOnUrl([SI API
                                      URL];"response/answer/sichtbarkeitsindex";"value")
Google Save Browsing API

Quelle:
http://safebrowsing.clients.google.com/safebrowsing/diagnostic?site=domain.de

               =UrlProperty([URL];"domain")




                     =XPathOnUrl([Google SafeBrowsing URL];
              "/html/body/center/div/div/blockquote/p[position()=1]")
Index Checker

Quelle:
http://www.google.de/search?gcx=c&sourceid=chrome&ie=UTF-8&pws=0&
q=info:deinewebseite.de
                                           =WENN(HtmlCanonical(A2)=A2;"self
  =HttpStatus([USER URL])                    canonical";HtmlCanonical(A2))




  =WENN(ISTFEHLER(IDENTISCH(TEIL(XPathOnUrl("http://www.google.de/search?gc
                      x=c&sourceid=chrome&ie=UTF-8&q=
  "&("info:"&(A2))&"&pws=0";"//li[@class='g']//h3[@class='r']//a";"href");8;LÄNGE
                       (A2));A2));"not indexed";"indexed")
Google Suggest Scrapen


                     • Quelle:
                       http://google.de/complete/sear
                       ch?output=toolbar&hl=de&q=
                     • Scraped das KW + mit/ohne
                       Leerzeichen und einem
                       Buchstaben
                     • Matrix Funktion um 10er
                       Ergebnisse zu scrapen
                     • 2. Iteration der Top 10


                         Über 600 suggested Keywords!
Google SERPs scrapen


Quelle:
    http://www.google.de/search?q=deinkeyword&num=100&start=0&pws=0

Formel:
     =XPathOnUrl([URL];"(//h3[@class='r']/a)["&A1&"]";"href")

Ergebnis:
    /url?q=http://de.wikipedia.org/wiki/Suchmaschinenoptimierung&sa
    =U&ei=bTU2UP6sPMfNsgbAnoHYBQ&ved=0CB0QFjAA&us
    g=AFQjCNHwx6lcRxVC0-eBeDJ6GgHBiHGtFQ




                                              =RECHTS(C1;LÄNGE(C1)-
     =RECHTS(B1;LÄNGE(B1)-7)           &      SUCHEN("&amp";C1))
Google SERPs scrapen
Watt noch?


             Analytics for Twitter
             von Microsoft

                      &
             Power Pivot
Ende


       Mit gezeigten Beispielen & Tools kann man theoretisch jede x-
       beliebige Webseite abscrapen und in Excel verarbeiten




           Be Creative!
       Die live gezeigte Excel-Dateien werden auf dem Blog von
       www.catbirdseat.de als Download zur Verfügung stehen

Weitere ähnliche Inhalte

Ähnlich wie Data Scraping with Excel - Campixx 2013 - Maik Schmidt

SEO-Workshop - by Heiko Stammel
SEO-Workshop - by Heiko StammelSEO-Workshop - by Heiko Stammel
SEO-Workshop - by Heiko StammelBlogfamilia
 
Infopark CMS Fiona mit Ruby on Rails
Infopark CMS Fiona mit Ruby on RailsInfopark CMS Fiona mit Ruby on Rails
Infopark CMS Fiona mit Ruby on RailsJustRelate
 
CAMPIXX 2016 Internationales SEO mit seinen Höhen und Tiefen
CAMPIXX 2016 Internationales SEO mit seinen Höhen und TiefenCAMPIXX 2016 Internationales SEO mit seinen Höhen und Tiefen
CAMPIXX 2016 Internationales SEO mit seinen Höhen und TiefenAlona Demchyk (Hakel)
 
Google Tools für Fotografen
Google Tools für FotografenGoogle Tools für Fotografen
Google Tools für FotografenPARX
 
SharePoint Community Mittelland - GARAIO : Enterprise Search
SharePoint Community Mittelland - GARAIO : Enterprise SearchSharePoint Community Mittelland - GARAIO : Enterprise Search
SharePoint Community Mittelland - GARAIO : Enterprise SearchPatrick Maeschli
 
Schema.org 101: 
Warum die neuen Meta Daten wichtig sind - Mini FAQ & Impleme...
Schema.org 101: 
Warum die neuen Meta Daten wichtig sind - Mini FAQ & Impleme...Schema.org 101: 
Warum die neuen Meta Daten wichtig sind - Mini FAQ & Impleme...
Schema.org 101: 
Warum die neuen Meta Daten wichtig sind - Mini FAQ & Impleme...Timon Hartung
 
Nicolai Schwarz: Einführung in SEO
Nicolai Schwarz: Einführung in SEONicolai Schwarz: Einführung in SEO
Nicolai Schwarz: Einführung in SEONicolai Schwarz
 
Mein Betrieb im Internet: So findet mich der Gast
Mein Betrieb im Internet: So findet mich der GastMein Betrieb im Internet: So findet mich der Gast
Mein Betrieb im Internet: So findet mich der GastChristina Steinkellner
 
Suchmaschinen-Optimierung
Suchmaschinen-OptimierungSuchmaschinen-Optimierung
Suchmaschinen-OptimierungFH Joanneum
 
Django - The Web framework for perfectionists with deadlines
Django - The Web framework for perfectionists with deadlinesDjango - The Web framework for perfectionists with deadlines
Django - The Web framework for perfectionists with deadlinesMarkus Zapke-Gründemann
 
Google Analytics & Seo @seosixt wiesn 2014
Google Analytics & Seo @seosixt wiesn 2014Google Analytics & Seo @seosixt wiesn 2014
Google Analytics & Seo @seosixt wiesn 2014121WATT GmbH
 
HTTPs Migration How To - SMX München 2017
HTTPs Migration How To - SMX München 2017HTTPs Migration How To - SMX München 2017
HTTPs Migration How To - SMX München 2017Bastian Grimm
 
Suchmaschinenoptimierung für Professoren
Suchmaschinenoptimierung für ProfessorenSuchmaschinenoptimierung für Professoren
Suchmaschinenoptimierung für ProfessorenPascal Kremp
 
Einstieg in Xpath für SEO (Campixx2021)
Einstieg in Xpath für SEO (Campixx2021)Einstieg in Xpath für SEO (Campixx2021)
Einstieg in Xpath für SEO (Campixx2021)Sebastian Adler
 
Crawl-Budget Optimierung - SEOday 2015
Crawl-Budget Optimierung - SEOday 2015Crawl-Budget Optimierung - SEOday 2015
Crawl-Budget Optimierung - SEOday 2015Bastian Grimm
 
SEMrush Übersicht von allen Tools Stand 03.2019
SEMrush Übersicht von allen Tools  Stand 03.2019SEMrush Übersicht von allen Tools  Stand 03.2019
SEMrush Übersicht von allen Tools Stand 03.2019Evgeni Sereda
 
HTML5 - presentation at W3C-Tag 2009
HTML5 - presentation at W3C-Tag 2009HTML5 - presentation at W3C-Tag 2009
HTML5 - presentation at W3C-Tag 2009Felix Sasaki
 
Logfile-Analyse: Wo ver(sch)wendet Google Crawling-Ressourcen? | Stephan Czys...
Logfile-Analyse: Wo ver(sch)wendet Google Crawling-Ressourcen? | Stephan Czys...Logfile-Analyse: Wo ver(sch)wendet Google Crawling-Ressourcen? | Stephan Czys...
Logfile-Analyse: Wo ver(sch)wendet Google Crawling-Ressourcen? | Stephan Czys...TA Trust Agents Internet GmbH
 
Potenzialanalysen im Content Marketing - Peak Ace
Potenzialanalysen im Content Marketing - Peak AcePotenzialanalysen im Content Marketing - Peak Ace
Potenzialanalysen im Content Marketing - Peak AceDominique Seppelt
 

Ähnlich wie Data Scraping with Excel - Campixx 2013 - Maik Schmidt (20)

SEO-Workshop - by Heiko Stammel
SEO-Workshop - by Heiko StammelSEO-Workshop - by Heiko Stammel
SEO-Workshop - by Heiko Stammel
 
Infopark CMS Fiona mit Ruby on Rails
Infopark CMS Fiona mit Ruby on RailsInfopark CMS Fiona mit Ruby on Rails
Infopark CMS Fiona mit Ruby on Rails
 
CAMPIXX 2016 Internationales SEO mit seinen Höhen und Tiefen
CAMPIXX 2016 Internationales SEO mit seinen Höhen und TiefenCAMPIXX 2016 Internationales SEO mit seinen Höhen und Tiefen
CAMPIXX 2016 Internationales SEO mit seinen Höhen und Tiefen
 
Google Tools für Fotografen
Google Tools für FotografenGoogle Tools für Fotografen
Google Tools für Fotografen
 
SharePoint Community Mittelland - GARAIO : Enterprise Search
SharePoint Community Mittelland - GARAIO : Enterprise SearchSharePoint Community Mittelland - GARAIO : Enterprise Search
SharePoint Community Mittelland - GARAIO : Enterprise Search
 
Baustein 07 grundlagen-html-css-php
Baustein 07 grundlagen-html-css-phpBaustein 07 grundlagen-html-css-php
Baustein 07 grundlagen-html-css-php
 
Schema.org 101: 
Warum die neuen Meta Daten wichtig sind - Mini FAQ & Impleme...
Schema.org 101: 
Warum die neuen Meta Daten wichtig sind - Mini FAQ & Impleme...Schema.org 101: 
Warum die neuen Meta Daten wichtig sind - Mini FAQ & Impleme...
Schema.org 101: 
Warum die neuen Meta Daten wichtig sind - Mini FAQ & Impleme...
 
Nicolai Schwarz: Einführung in SEO
Nicolai Schwarz: Einführung in SEONicolai Schwarz: Einführung in SEO
Nicolai Schwarz: Einführung in SEO
 
Mein Betrieb im Internet: So findet mich der Gast
Mein Betrieb im Internet: So findet mich der GastMein Betrieb im Internet: So findet mich der Gast
Mein Betrieb im Internet: So findet mich der Gast
 
Suchmaschinen-Optimierung
Suchmaschinen-OptimierungSuchmaschinen-Optimierung
Suchmaschinen-Optimierung
 
Django - The Web framework for perfectionists with deadlines
Django - The Web framework for perfectionists with deadlinesDjango - The Web framework for perfectionists with deadlines
Django - The Web framework for perfectionists with deadlines
 
Google Analytics & Seo @seosixt wiesn 2014
Google Analytics & Seo @seosixt wiesn 2014Google Analytics & Seo @seosixt wiesn 2014
Google Analytics & Seo @seosixt wiesn 2014
 
HTTPs Migration How To - SMX München 2017
HTTPs Migration How To - SMX München 2017HTTPs Migration How To - SMX München 2017
HTTPs Migration How To - SMX München 2017
 
Suchmaschinenoptimierung für Professoren
Suchmaschinenoptimierung für ProfessorenSuchmaschinenoptimierung für Professoren
Suchmaschinenoptimierung für Professoren
 
Einstieg in Xpath für SEO (Campixx2021)
Einstieg in Xpath für SEO (Campixx2021)Einstieg in Xpath für SEO (Campixx2021)
Einstieg in Xpath für SEO (Campixx2021)
 
Crawl-Budget Optimierung - SEOday 2015
Crawl-Budget Optimierung - SEOday 2015Crawl-Budget Optimierung - SEOday 2015
Crawl-Budget Optimierung - SEOday 2015
 
SEMrush Übersicht von allen Tools Stand 03.2019
SEMrush Übersicht von allen Tools  Stand 03.2019SEMrush Übersicht von allen Tools  Stand 03.2019
SEMrush Übersicht von allen Tools Stand 03.2019
 
HTML5 - presentation at W3C-Tag 2009
HTML5 - presentation at W3C-Tag 2009HTML5 - presentation at W3C-Tag 2009
HTML5 - presentation at W3C-Tag 2009
 
Logfile-Analyse: Wo ver(sch)wendet Google Crawling-Ressourcen? | Stephan Czys...
Logfile-Analyse: Wo ver(sch)wendet Google Crawling-Ressourcen? | Stephan Czys...Logfile-Analyse: Wo ver(sch)wendet Google Crawling-Ressourcen? | Stephan Czys...
Logfile-Analyse: Wo ver(sch)wendet Google Crawling-Ressourcen? | Stephan Czys...
 
Potenzialanalysen im Content Marketing - Peak Ace
Potenzialanalysen im Content Marketing - Peak AcePotenzialanalysen im Content Marketing - Peak Ace
Potenzialanalysen im Content Marketing - Peak Ace
 

Data Scraping with Excel - Campixx 2013 - Maik Schmidt

  • 1. Data Scraping with Excel – by Maik Schmidt 17.03.2013 – Berlin - SEO Campixx
  • 2. Wer ich bin • Maik Schmidt • SEO Consultant bei Catbird Seat (2010) • SEO-Contest „KubaSEOTräume“ Gewinner @chillboyy facebook.com/chillboy.de xing.com/profile/Maik_Schmidt11
  • 3. Was scrapen wir heute? • Standard KPIs • Malware Checker • Index Checker • Google SERPs • Google Suggest
  • 4. Warum Excel? • Weil ich nicht programmieren kann Nachteile: • Langsam ? • Begrenzte Datenmengen
  • 5. Was benötige ich? • Excel • Niels Bosma SEO Tools for Excel http://nielsbosma.se/projects/seotools/
  • 6. Niels Bosma SEO Tools (1/4) Onpage Content • LinkCount • FindDuplicatedContent • HtmlTitle • CountWords • HtmlMetaDescription • LCS • HtmlMetaKeywords • SpinText • HtmlMeta Backlinks • HtmlFirst • CheckBacklink • HtmlH1 • GooglePageRank • HtmlH2 • GoogleResultCount • HtmlH3 • GoogleIndexCount • HtmlCanonical • GoogleLinkCount • W3CValidate • AlexaReach • PageCodeToTextRatio • AlexaPopularity • PageSize • AlexaLinkCount • PageTextSize • DmozEntries • PageCodeSize • WikipediaLinks • HttpStatus • HttpHeader Social • FacebookLikes u.v.m. • ResponseTime • GooglePlusCount • PageEncoding • TwitterCount • IsFoundOnPage
  • 7. Niels Bosma SEO Tools (2/4) SEOlytics • Backlinks • SVR (Sichtbarkeit) • Keyword Rankings • Domain Metriken • LinkCount/URL • Link History
  • 8. Niels Bosma SEO Tools (3/4) MajesticSEO • Größte Backlink DB • Fresh Index • Historischer Index • Trust/Citation Flow
  • 9. Niels Bosma SEO Tools (4/4) Google Analytics • Ähnlich: http://ga-dev-tools.appspot.com/explorer/ • =GoogleAnalytics( string id, string metrics, string startDate, string endDate, [string dimensions, string segment, string filter, string sort, integer startIndex, integer maxResults, bool excludeHeaderInResult, bool excludeDimensionsInResult]) : {string}
  • 10. X-Path Basics Mit X-Path kann man bestimmte Teile innerhalb eines XML-Dokumentes adressieren Beispiele: Um Sichtbarkeitsindex.de zu scrapen Document root node: /html/body/div/div/div/h3[position()=1 / Direct child element: Holt sich in diesem Pfad den Inhalt des ersten H3 Tags XML_element_name Direct child of the root node: /XML_element_name Child of a child: Um Google SERPs zu scrapen XML_element_name/XML_element_name Descendant of the root: //h3[@class='x']/a);"href" //XML_element_name Holt sich alle Links innerhalb H3 Tags mit der Class „X“ Descendant of a node: XML_element_name//XML_element_name Parent of a node: ../ A far cousin of a node ../../XML_element_name/XML_element_name
  • 11. X-Path easy rausfinden Mit dem Firefox Plugin Firebug (und FirePath) lässt sich der X-Path ziemlich schnell und leicht finden:
  • 12. Standard KPIs QUELLEN: Free SI: Sichtbarkeitsindex.de/deinedomain.de SI API: http://api.sistrix.net/domain.sichtbarkeitsindex?api_key=xy&domain=deinewebseite.de Alexa Rank: http://www.alexa.com/siteinfo/deinedomain.de =XPathOnUrl([Alexa =XPathOnUrl[URL];"/html/body/ URL];"//table[@id='siteStats']/tbody/ div/div/div/h3[position()=1]") tr[1]/td[2]/div") =XPathOnUrl([SI API URL];"response/answer/sichtbarkeitsindex";"value")
  • 13. Google Save Browsing API Quelle: http://safebrowsing.clients.google.com/safebrowsing/diagnostic?site=domain.de =UrlProperty([URL];"domain") =XPathOnUrl([Google SafeBrowsing URL]; "/html/body/center/div/div/blockquote/p[position()=1]")
  • 14. Index Checker Quelle: http://www.google.de/search?gcx=c&sourceid=chrome&ie=UTF-8&pws=0& q=info:deinewebseite.de =WENN(HtmlCanonical(A2)=A2;"self =HttpStatus([USER URL]) canonical";HtmlCanonical(A2)) =WENN(ISTFEHLER(IDENTISCH(TEIL(XPathOnUrl("http://www.google.de/search?gc x=c&sourceid=chrome&ie=UTF-8&q= "&("info:"&(A2))&"&pws=0";"//li[@class='g']//h3[@class='r']//a";"href");8;LÄNGE (A2));A2));"not indexed";"indexed")
  • 15. Google Suggest Scrapen • Quelle: http://google.de/complete/sear ch?output=toolbar&hl=de&q= • Scraped das KW + mit/ohne Leerzeichen und einem Buchstaben • Matrix Funktion um 10er Ergebnisse zu scrapen • 2. Iteration der Top 10 Über 600 suggested Keywords!
  • 16. Google SERPs scrapen Quelle: http://www.google.de/search?q=deinkeyword&num=100&start=0&pws=0 Formel: =XPathOnUrl([URL];"(//h3[@class='r']/a)["&A1&"]";"href") Ergebnis: /url?q=http://de.wikipedia.org/wiki/Suchmaschinenoptimierung&sa =U&ei=bTU2UP6sPMfNsgbAnoHYBQ&ved=0CB0QFjAA&us g=AFQjCNHwx6lcRxVC0-eBeDJ6GgHBiHGtFQ =RECHTS(C1;LÄNGE(C1)- =RECHTS(B1;LÄNGE(B1)-7) & SUCHEN("&amp";C1))
  • 18. Watt noch? Analytics for Twitter von Microsoft & Power Pivot
  • 19. Ende Mit gezeigten Beispielen & Tools kann man theoretisch jede x- beliebige Webseite abscrapen und in Excel verarbeiten Be Creative! Die live gezeigte Excel-Dateien werden auf dem Blog von www.catbirdseat.de als Download zur Verfügung stehen