© Copyright 2015 STI INNSBRUCK www.sti-innsbruck.at
Elias Kärle – 17. April 2015 – Tourism Fast Forward 2015, Mayrhofen, T...
www.sti-innsbruck.at
Inhalt
1. Motivation
2. Daten
3. Analyse
www.sti-innsbruck.at
1. Motivation
3
www.sti-innsbruck.at
1. Motivation
• Dieter Fensel hat einen Wikipedia Eintrag
4
www.sti-innsbruck.at
1. Motivation
• Italienischer Schwimmer VS. @cyberandy
• Wie hat er das gemacht?
5
www.sti-innsbruck.at
1. Motivation
• Schema.org annotation
• Hotellerie und Tourismus
 werden Annotationen verwendet?
6
www.sti-innsbruck.at
1. Motivation
1) Wie viele Hotels verwenden schema.org?
2) Wie wird schema.org verwendet?
1) Welche K...
www.sti-innsbruck.at
2. Daten
Was ist schema.org?
• Initiative geründet 2011
• Ontologie zur Strukturierung von Daten auf ...
www.sti-innsbruck.at
2. Daten
Analyse aller Webseiten:
• Gegründet 2007
• Non-Profit Organisation
• Erfasst (crawlt) Inter...
www.sti-innsbruck.at
2. Daten
Reduktion auf Strukturierte Daten:
WebDataCommons:
• 2012 Freie Universität Berlin & KIT
• D...
www.sti-innsbruck.at
2. Daten
• November 2013 Datensatz
• Subset: schema.org/Hotel
– 35GB
– 127 Mio. Triples
• OWLIM-SE Re...
www.sti-innsbruck.at
3. Analyse
1) Wie viele Hotels sind schema.org annotiert?
4.841.353
• Hotels doppelt annotiert
– Eige...
www.sti-innsbruck.at
3. Analyse
Hotel
4.841.353
Adresse
3.035.000
Land
1.904.000
Name
1.125.000
Region
1.902.000
PLZ
2.011...
www.sti-innsbruck.at
3. Analyse
Hotels pro Land
Österreich: 148
Tirol: 287
Innsbruck: 63
1.US 1021513
2.CA 52360
3.CN 2064...
www.sti-innsbruck.at
3. Analyse
Hotels nach Postleitzahlen in Tirol
18%
10%
8%
4%
4%
3%
2%2%2%2%
45%
6020 6370 6100 6450 6...
www.sti-innsbruck.at
3. Analyse
Welche Kategorien von Hotels sind annotiert?
http://schema.org/Rating
16
www.sti-innsbruck.at
3. Analyse
Hotel
4.841.353
Adresse
3.035.000
Land
1.904.000
Name
1.125.000
Region
1.902.000
PLZ
2.011...
www.sti-innsbruck.at
3. Analyse
Hotel
4.841.353
Adress
3.035.00
Land
1.904.000
Name
1.125.000
Region
1.902.000
Rating
2.37...
www.sti-innsbruck.at
3. Analyse
Welche Kategorien von Hotels sind annotiert?
866.932
651.606
426.925
176.800
135.958
35.07...
www.sti-innsbruck.at
3. Analyse
2) Wie wird schema.org verwendet?
15%
14%
13%
9%
8%
7%
7%
5%
5%
4%
13%
schema.org Verwendu...
www.sti-innsbruck.at
3. Analyse
3) Wer verwendet schema.org im touristischen Bereich
Hypothese:
„Schema.org wird überwiege...
www.sti-innsbruck.at
3. Analyse
Ansatz:
• Hotels auf Booking- & Ratingseiten
suche nach annotation auf eigener Webseite
•...
www.sti-innsbruck.at
3. Analyse
Resymee:
• Hauptanwender von schema.org/Hotel:
Buchungs- und Ratingseiten
Fehler:
Unvoll...
www.sti-innsbruck.at
3. Analyse
www.sti-innsbruck.at
3. Analyse
Annotation „Hotel“ richtig  aber auf JEDER Unterseite!
www.sti-innsbruck.at
3. Analyse
Schema.org verwenden, richtig annotieren:
• RFDa, Microdata, JSON-LD
• Dokumentation: http...
Nächste SlideShare
Wird geladen in …5
×

TFF2015, Elias Kärle, STI Innsbruck, "Verbreitung von schema.org auf Hotelwebseiten"

775 Aufrufe

Veröffentlicht am

Nach mehrjähriger Tätigkeit als Softwareentwickler für mobile Anwendungen im Bereich eTourismus arbeitet Elias Kärle seit kurzem als wissenschaftlicher Mitarbeiter am STI der Universität Innsbruck. Im Rahmen seiner Doktorarbeit erforscht er unter anderem die Verbreitung von semantischem Vokabular auf touristischen Webseiten und geht in seinem Vortrag der Frage nach, wie schnell die Tourismusbranche auf Internettrends wie schema.org reagiert.

Veröffentlicht in: Präsentationen & Vorträge
0 Kommentare
0 Gefällt mir
Statistik
Notizen
  • Als Erste(r) kommentieren

  • Gehören Sie zu den Ersten, denen das gefällt!

Keine Downloads
Aufrufe
Aufrufe insgesamt
775
Auf SlideShare
0
Aus Einbettungen
0
Anzahl an Einbettungen
4
Aktionen
Geteilt
0
Downloads
7
Kommentare
0
Gefällt mir
0
Einbettungen 0
Keine Einbettungen

Keine Notizen für die Folie

TFF2015, Elias Kärle, STI Innsbruck, "Verbreitung von schema.org auf Hotelwebseiten"

  1. 1. © Copyright 2015 STI INNSBRUCK www.sti-innsbruck.at Elias Kärle – 17. April 2015 – Tourism Fast Forward 2015, Mayrhofen, Tirol schema.org auf Hotelwebseiten @eliaska #tff_15
  2. 2. www.sti-innsbruck.at Inhalt 1. Motivation 2. Daten 3. Analyse
  3. 3. www.sti-innsbruck.at 1. Motivation 3
  4. 4. www.sti-innsbruck.at 1. Motivation • Dieter Fensel hat einen Wikipedia Eintrag 4
  5. 5. www.sti-innsbruck.at 1. Motivation • Italienischer Schwimmer VS. @cyberandy • Wie hat er das gemacht? 5
  6. 6. www.sti-innsbruck.at 1. Motivation • Schema.org annotation • Hotellerie und Tourismus  werden Annotationen verwendet? 6
  7. 7. www.sti-innsbruck.at 1. Motivation 1) Wie viele Hotels verwenden schema.org? 2) Wie wird schema.org verwendet? 1) Welche Klassen? 2) Welche Attribute? 3) Wird schema.org richtig eingesetzt? 3) Wer verwendet schema.org im touristischen Bereich? 7
  8. 8. www.sti-innsbruck.at 2. Daten Was ist schema.org? • Initiative geründet 2011 • Ontologie zur Strukturierung von Daten auf Webseiten • In HTML eingebunden – Microdata – RDFa – JSON-LD Source: http://www.schema.org 8
  9. 9. www.sti-innsbruck.at 2. Daten Analyse aller Webseiten: • Gegründet 2007 • Non-Profit Organisation • Erfasst (crawlt) Internet 4 mal pro Jahr • Datensätze frei zugänglich • November 2013: 2,3 Milliarden Webseiten, 148TB • Dezember 2014: 2,1 Milliarden Webseiten, 160TB Source: http://commoncrawl.org/the-data/get-started/ 9
  10. 10. www.sti-innsbruck.at 2. Daten Reduktion auf Strukturierte Daten: WebDataCommons: • 2012 Freie Universität Berlin & KIT • Derzeit Uni Mannheim • Leitung: Chris Bizer • Extrahieren aller strukturierter Daten aus Common Crawl – Web Tabellen: 147 Mio. relationale Tab. (11 Mrd. HTML Tab.) – Hyperlink Graph: 3,5 Mrd. Webseiten, 128 Mrd. Links – Semantisch annotierte Daten: • November 2013: 44TB, 2.2 Mrd. URLs • Dezember 2014: 160TB, 2 Mrd. URLs Source: http://webdatacommons.org/structureddata/ 10
  11. 11. www.sti-innsbruck.at 2. Daten • November 2013 Datensatz • Subset: schema.org/Hotel – 35GB – 127 Mio. Triples • OWLIM-SE Repository • SPARQL Anfragen • Linux Debian 3.2, STI 11
  12. 12. www.sti-innsbruck.at 3. Analyse 1) Wie viele Hotels sind schema.org annotiert? 4.841.353 • Hotels doppelt annotiert – Eigene Webseite – Buchungs Webseite 740.298 • Alle Hotels mit gleichem Namen verloren – Adler, Post, ...  An Adresse binden! 12
  13. 13. www.sti-innsbruck.at 3. Analyse Hotel 4.841.353 Adresse 3.035.000 Land 1.904.000 Name 1.125.000 Region 1.902.000 PLZ 2.011.000 Straße 2.284.000 13
  14. 14. www.sti-innsbruck.at 3. Analyse Hotels pro Land Österreich: 148 Tirol: 287 Innsbruck: 63 1.US 1021513 2.CA 52360 3.CN 20648 4.GB 11580 5.DE 3163 6.MX 1921 7.PR 1250 8.AR 1016 9.PH 765 10.IN 699 11.TR 681 12.AE 391 13.KR 377 14.RO 373 15.QA 343 16.PA 299 17.SA 292 18.AU 290 19.BR 258 20.CH 238 21.TH 234 22.SR 217 23.HK 156 24.EC 150 25.AT 148 26.CO 143 27.PE 129 28.BE 127 29.ID 109 30.BH 93  Offensichtlich nicht korrekt annotiert 14
  15. 15. www.sti-innsbruck.at 3. Analyse Hotels nach Postleitzahlen in Tirol 18% 10% 8% 4% 4% 3% 2%2%2%2% 45% 6020 6370 6100 6450 6580 6456 6215 6213 6365 6010 Andere Innsbruck Kitzbühel Seefeld Sölden St. Anton Obergurgl Achenkirch Pertisau Kirchberg 15
  16. 16. www.sti-innsbruck.at 3. Analyse Welche Kategorien von Hotels sind annotiert? http://schema.org/Rating 16
  17. 17. www.sti-innsbruck.at 3. Analyse Hotel 4.841.353 Adresse 3.035.000 Land 1.904.000 Name 1.125.000 Region 1.902.000 PLZ 2.011.000 Straße 2.284.000 17
  18. 18. www.sti-innsbruck.at 3. Analyse Hotel 4.841.353 Adress 3.035.00 Land 1.904.000 Name 1.125.000 Region 1.902.000 Rating 2.377.000 RatingValue 2.375.000 18
  19. 19. www.sti-innsbruck.at 3. Analyse Welche Kategorien von Hotels sind annotiert? 866.932 651.606 426.925 176.800 135.958 35.079 66.208 15.476 941 19
  20. 20. www.sti-innsbruck.at 3. Analyse 2) Wie wird schema.org verwendet? 15% 14% 13% 9% 8% 7% 7% 5% 5% 4% 13% schema.org Verwendung http://schema.org/Hotel/name http://schema.org/Hotel/review http://www.w3.org/1999/02/22-rdf-syntax-ns#type http://schema.org/Hotel/image http://schema.org/Hotel/address http://schema.org/Hotel/aggregateRating http://schema.org/Hotel/rating http://schema.org/Hotel/description http://schema.org/Hotel/url http://schema.org/Hotel/geo Other 20
  21. 21. www.sti-innsbruck.at 3. Analyse 3) Wer verwendet schema.org im touristischen Bereich Hypothese: „Schema.org wird überwiegend von Booking- und Ratingseiten verwendet, kaum auf Hotelseiten direkt.“ 21
  22. 22. www.sti-innsbruck.at 3. Analyse Ansatz: • Hotels auf Booking- & Ratingseiten suche nach annotation auf eigener Webseite • Gegenprobe mit annotierten Hotelswebseiten Mehrfache Vorkommen im Datensatz? Dezeit: exemplarisch (Top-Buchungsseiten) Nächster Schritt: vollständiger Datensatz 22
  23. 23. www.sti-innsbruck.at 3. Analyse Resymee: • Hauptanwender von schema.org/Hotel: Buchungs- und Ratingseiten Fehler: Unvollständig Falsche Klassen Falsche Attribute Falsche Datentypen Vollständige Fehleranalyse: Uni Mannheim (R. Meusel & H. Paulheim) [1] [1] http://dws.informatik.uni-mannheim.de/fileadmin/lehrstuehle/ki/pub/MeuselPaulheim-HeuristicsForFixingCommonErrorsInDeployedSchemaOrgMicrodata-ESWC2015.pdf 23
  24. 24. www.sti-innsbruck.at 3. Analyse
  25. 25. www.sti-innsbruck.at 3. Analyse Annotation „Hotel“ richtig  aber auf JEDER Unterseite!
  26. 26. www.sti-innsbruck.at 3. Analyse Schema.org verwenden, richtig annotieren: • RFDa, Microdata, JSON-LD • Dokumentation: http://www.schema.org • Testen: https://developers.google.com/structured-data/testing-tool/ „Be part of the graph!“ Google, Bing, Yahoo! & Yandex 26

×