Auf meiner Campixx Session habe ich gezeigt, wie man mit Hilfe von Excel und X-Path Daten aus dem Web scrapen kann. u.a. wurden gescraped: Standard KPIs, Malware Checker, Index Checker, Google SERPs, Google Suggest
Data Scraping with Excel - Campixx 2013 - Maik Schmidt
1. Data Scraping with Excel – by Maik Schmidt
17.03.2013 – Berlin - SEO Campixx
2. Wer ich bin
• Maik Schmidt
• SEO Consultant bei Catbird Seat (2010)
• SEO-Contest „KubaSEOTräume“ Gewinner
@chillboyy
facebook.com/chillboy.de
xing.com/profile/Maik_Schmidt11
3. Was scrapen wir heute?
• Standard KPIs
• Malware Checker
• Index Checker
• Google SERPs
• Google Suggest
4. Warum Excel?
• Weil ich nicht programmieren kann
Nachteile:
• Langsam
?
• Begrenzte Datenmengen
5. Was benötige ich?
• Excel
• Niels Bosma SEO Tools for Excel
http://nielsbosma.se/projects/seotools/
10. X-Path Basics
Mit X-Path kann man bestimmte Teile innerhalb eines XML-Dokumentes adressieren
Beispiele: Um Sichtbarkeitsindex.de zu scrapen
Document root node: /html/body/div/div/div/h3[position()=1
/
Direct child element: Holt sich in diesem Pfad den Inhalt des ersten H3 Tags
XML_element_name
Direct child of the root node:
/XML_element_name
Child of a child: Um Google SERPs zu scrapen
XML_element_name/XML_element_name
Descendant of the root: //h3[@class='x']/a);"href"
//XML_element_name Holt sich alle Links innerhalb H3 Tags mit der Class „X“
Descendant of a node:
XML_element_name//XML_element_name
Parent of a node:
../
A far cousin of a node
../../XML_element_name/XML_element_name
11. X-Path easy rausfinden
Mit dem Firefox Plugin Firebug (und FirePath) lässt sich der X-Path ziemlich
schnell und leicht finden:
12. Standard KPIs
QUELLEN:
Free SI: Sichtbarkeitsindex.de/deinedomain.de
SI API: http://api.sistrix.net/domain.sichtbarkeitsindex?api_key=xy&domain=deinewebseite.de
Alexa Rank: http://www.alexa.com/siteinfo/deinedomain.de
=XPathOnUrl([Alexa
=XPathOnUrl[URL];"/html/body/ URL];"//table[@id='siteStats']/tbody/
div/div/div/h3[position()=1]") tr[1]/td[2]/div")
=XPathOnUrl([SI API
URL];"response/answer/sichtbarkeitsindex";"value")
13. Google Save Browsing API
Quelle:
http://safebrowsing.clients.google.com/safebrowsing/diagnostic?site=domain.de
=UrlProperty([URL];"domain")
=XPathOnUrl([Google SafeBrowsing URL];
"/html/body/center/div/div/blockquote/p[position()=1]")
15. Google Suggest Scrapen
• Quelle:
http://google.de/complete/sear
ch?output=toolbar&hl=de&q=
• Scraped das KW + mit/ohne
Leerzeichen und einem
Buchstaben
• Matrix Funktion um 10er
Ergebnisse zu scrapen
• 2. Iteration der Top 10
Über 600 suggested Keywords!
18. Watt noch?
Analytics for Twitter
von Microsoft
&
Power Pivot
19. Ende
Mit gezeigten Beispielen & Tools kann man theoretisch jede x-
beliebige Webseite abscrapen und in Excel verarbeiten
Be Creative!
Die live gezeigte Excel-Dateien werden auf dem Blog von
www.catbirdseat.de als Download zur Verfügung stehen