Semantik auf Knopfdruck?Qualität von CMS-generierten semantischenDatenHannes Mühleisen, AG NBI / WBSGXinnovations 2012
Fahrplan   2
Fahrplan• Eingebette strukturierte Daten auf  Webseiten                   2
Fahrplan• Eingebette strukturierte Daten auf  Webseiten• Daten in Content-Management-  Systemen                   2
Fahrplan• Eingebette strukturierte Daten auf  Webseiten• Daten in Content-Management-  Systemen• Resultate einer Analyse s...
Eine typische              Webseite...My name is Horst Mustermann, here is my home page:<a href="http://www.horst.example"...
... mit impliziten     Informationen          Name     WebseitePerson    Ort    Titel   Organisation             4
Lösung: zusätzliche          Tags• Populäre Vokabulare • schema.org, Open Graph   protocol, ...• Unterschiedliche Formate ...
Beispiel: Microdata +               schema.org<div itemscope itemtype="http://data-vocabulary.org/Person"> My name is <spa...
Beispiel: Microdata +          schema.orgStrukturierte                                 Daten!Item  Type = http://data-voca...
Content-Management-        Systeme• ~ 30 % der   Top-1Mio-Webseiten   benutzen CMS-   Software• Wordpress...Quelle: http:/...
Datenmodelle von CMS• Generisch: Seite, Objekt, Feld, Datum • Drupal, Typo3, ...• Blog: Artikel, Kommentare • Wordpress, ....
Semantik auf                Knopfdruck? Semantik          Typen                 z.B.                Spezialisierte   Inhal...
Beispiel: Drupal       11
Beispiel: DrupalDatenmodell frei, Semantik der Felder aber unklar                        11
Beispiel: Wordpress         12
Beispiel: WordpressTitel               URL                          Blogartikel                          Datum        Text...
Beispiel: WordpressTitel               URL                                   Blogartikel                                  ...
Beispiel: Magento        13
Beispiel: MagentoDaten strukturiert, Publikation “auf Knopfdruck”?                        13
• Common-Crawl Datensatz, ~1 % “des  Web”                14
• Common-Crawl Datensatz, ~1 % “des  Web”• Verfügbare Daten • Index 02-12: 1.7 Mrd. URLs (21 TB) • Index 09/12: 2.8 Mrd. U...
• Common-Crawl Datensatz, ~1 % “des  Web”• Verfügbare Daten • Index 02-12: 1.7 Mrd. URLs (21 TB) • Index 09/12: 2.8 Mrd. U...
Analyse - Formate• URLs mit  strukturierten Daten:                                                                        ...
Analyse - Formate• URLs mit  strukturierten Daten:                                                                        ...
Analyse - Formate• URLs mit    strukturierten Daten:                                                                      ...
Analyse - Datenarten                                                                   Microdata 02/2012                  ...
Detailgrad (Beispiele)               Durchsch   Typ            n.                Populäre Properties               Propert...
Datenqualität (Beispiel)Item  Type = http://schema.org/Product  name = Werkzeug AKKU für Makita Werkzeuge     7,2V 2100 mA...
Datenqualität (Beispiel)Item  Type = http://schema.org/Product  name = Werkzeug AKKU für Makita Werkzeuge     7,2V 2100 mA...
Datenqualität (Beispiel)Item  Type = http://schema.org/Product  name = Werkzeug AKKU für Makita Werkzeuge     7,2V 2100 mA...
Zusammenfassung       19
Zusammenfassung• Spezialisierte CMS bieten ideale  Voraussetzungen für die Publikation  strukturierter Daten (“Knopfdruck”...
Zusammenfassung• Spezialisierte CMS bieten ideale  Voraussetzungen für die Publikation  strukturierter Daten (“Knopfdruck”...
Zusammenfassung• Spezialisierte CMS bieten ideale  Voraussetzungen für die Publikation  strukturierter Daten (“Knopfdruck”...
Vielen Dank für Ihre Aufmerksamkeit!              Fragen?        Twitter: @hfmuehleisen   Web: http://webdatacommons.org  ...
Nächste SlideShare
Wird geladen in …5
×

Semantik auf Knopfdruck - Qualität von CMS-generierten semantischen Daten

1.075 Aufrufe

Veröffentlicht am

Veröffentlicht in: Technologie
  • Als Erste(r) kommentieren

  • Gehören Sie zu den Ersten, denen das gefällt!

Semantik auf Knopfdruck - Qualität von CMS-generierten semantischen Daten

  1. 1. Semantik auf Knopfdruck?Qualität von CMS-generierten semantischenDatenHannes Mühleisen, AG NBI / WBSGXinnovations 2012
  2. 2. Fahrplan 2
  3. 3. Fahrplan• Eingebette strukturierte Daten auf Webseiten 2
  4. 4. Fahrplan• Eingebette strukturierte Daten auf Webseiten• Daten in Content-Management- Systemen 2
  5. 5. Fahrplan• Eingebette strukturierte Daten auf Webseiten• Daten in Content-Management- Systemen• Resultate einer Analyse strukturierter Daten im Web 2
  6. 6. Eine typische Webseite...My name is Horst Mustermann, here is my home page:<a href="http://www.horst.example">www.horst.example</a>. I live in Berlin, where Iwork as a Researcher at Freie Universität Berlin. 3
  7. 7. ... mit impliziten Informationen Name WebseitePerson Ort Titel Organisation 4
  8. 8. Lösung: zusätzliche Tags• Populäre Vokabulare • schema.org, Open Graph protocol, ...• Unterschiedliche Formate • μFormats, RDFa, Microdata 5
  9. 9. Beispiel: Microdata + schema.org<div itemscope itemtype="http://data-vocabulary.org/Person"> My name is <span itemprop="name">Horst Mustermann</span>, here is my homepage: <a href="http://www.horst.example" itemprop="url">www.horst.example</a>. I live in <span itemprop="address" itemscope itemtype="http://data-vocabulary.org/Address"> <span itemprop="locality">Berlin</span> </span> where I work as a <span itemprop="title">Researcher</span> at <span itemprop="affiliation">Freie Universität Berlin </span>.</div> 6
  10. 10. Beispiel: Microdata + schema.orgStrukturierte Daten!Item Type = http://data-vocabulary.org/person name = Horst Mustermann title = Researcher affiliation = Freie Universität Berlin url text = www.horst.example href = http://www.horst.example/ address = Item Type = http://data-vocabulary.org/address locality = Berlin 7
  11. 11. Content-Management- Systeme• ~ 30 % der Top-1Mio-Webseiten benutzen CMS- Software• Wordpress...Quelle: http://w3techs.com/technologies/overview/content_management/all 8
  12. 12. Datenmodelle von CMS• Generisch: Seite, Objekt, Feld, Datum • Drupal, Typo3, ...• Blog: Artikel, Kommentare • Wordpress, ...• Shop: Produkte, Bewertungen • osCommerce, ... 9
  13. 13. Semantik auf Knopfdruck? Semantik Typen z.B. Spezialisierte Inhalt CMS / Produkte Manuell Qualität Metadaten Alle CMS AutorSeitenstruktu Alle CMS Navigation r 10
  14. 14. Beispiel: Drupal 11
  15. 15. Beispiel: DrupalDatenmodell frei, Semantik der Felder aber unklar 11
  16. 16. Beispiel: Wordpress 12
  17. 17. Beispiel: WordpressTitel URL Blogartikel Datum Text (!) 12
  18. 18. Beispiel: WordpressTitel URL Blogartikel Datum Text (!) Weitere Daten nicht strukturiert vorhanden! 12
  19. 19. Beispiel: Magento 13
  20. 20. Beispiel: MagentoDaten strukturiert, Publikation “auf Knopfdruck”? 13
  21. 21. • Common-Crawl Datensatz, ~1 % “des Web” 14
  22. 22. • Common-Crawl Datensatz, ~1 % “des Web”• Verfügbare Daten • Index 02-12: 1.7 Mrd. URLs (21 TB) • Index 09/12: 2.8 Mrd. URLs (29 TB) 14
  23. 23. • Common-Crawl Datensatz, ~1 % “des Web”• Verfügbare Daten • Index 02-12: 1.7 Mrd. URLs (21 TB) • Index 09/12: 2.8 Mrd. URLs (29 TB)• Alle strukturierten Daten wurden extrahiert und nach RDF konvertiert 14
  24. 24. Analyse - Formate• URLs mit strukturierten Daten: 2009/2010 4 +6% 02−2012 Percentage of URLs 3 2 1 0 RDFa Microdata geo hcalendar hcard hreview XFN Format 15
  25. 25. Analyse - Formate• URLs mit strukturierten Daten: 2009/2010 4 +6% 02−2012 Percentage of URLs 3• Microdata +14% 2 1 (schema.org?) 0 RDFa Microdata geo hcalendar hcard hreview XFN Format 15
  26. 26. Analyse - Formate• URLs mit strukturierten Daten: 2009/2010 4 +6% 02−2012 Percentage of URLs 3• Microdata +14% 2 1 (schema.org?) 0• RDFa Microdata geo hcalendar hcard hreview XFN RDFa +26% Format (Facebook?) 15
  27. 27. Analyse - Datenarten Microdata 02/2012 RDFa 02/2012 5e+06 RDFa 2009/2010 Microdata 2009/2010Entity Count (log) 5e+05 5e+04 5e+03 0 50 100 150 200 Type Webseiten-Struktur 23 % Produkte & Bewertungen 19 % Medien (Filme, Musik,...) 15 % Personen & 15 % Organisationen 2012-Microdata 16
  28. 28. Detailgrad (Beispiele) Durchsch Typ n. Populäre Properties Propertie s name, description, image, price, Product 6.9 priceCurrency, availability name, url, image, foundingDate,Organization 7.9 addressLocality, postalCode, addressRegion Stichprobe, ca. ~6 Mio Tripel, Datensatz 2012-Microdata 17
  29. 29. Datenqualität (Beispiel)Item Type = http://schema.org/Product name = Werkzeug AKKU für Makita Werkzeuge 7,2V 2100 mAh Ni-MH 4071D 4073D description = Ersatz für folgende Modelle: MAKITA 3000 Serie MAKITA 3000DW,[...] availability = http://schema.org/InStock price = 27,90 priceCurrency = EUR 18
  30. 30. Datenqualität (Beispiel)Item Type = http://schema.org/Product name = Werkzeug AKKU für Makita Werkzeuge 7,2V 2100 mAh Ni-MH 4071D 4073D description = Ersatz für folgende Modelle: MAKITA 3000 Serie MAKITA 3000DW,[...] availability = http://schema.org/InStock price = 27,90 priceCurrency = EURItem Type = http://schema.org/Product description = Isolierte Gefahrstoff- Container zur sicheren, frostfreien Lagerung von Gefahrstoffen. [...] 18
  31. 31. Datenqualität (Beispiel)Item Type = http://schema.org/Product name = Werkzeug AKKU für Makita Werkzeuge 7,2V 2100 mAh Ni-MH 4071D 4073D description = Ersatz für folgende Modelle: Super! MAKITA 3000 Serie MAKITA 3000DW,[...] availability = http://schema.org/InStock price = 27,90 priceCurrency = EURItem Type = http://schema.org/Product description = Isolierte Gefahrstoff- Nicht so Container zur sicheren, frostfreien Lagerung von Gefahrstoffen. [...] super 18
  32. 32. Zusammenfassung 19
  33. 33. Zusammenfassung• Spezialisierte CMS bieten ideale Voraussetzungen für die Publikation strukturierter Daten (“Knopfdruck”) 19
  34. 34. Zusammenfassung• Spezialisierte CMS bieten ideale Voraussetzungen für die Publikation strukturierter Daten (“Knopfdruck”)• Strukturierte Daten aus CM-Systemen eingebettet in HTML-Seiten weit verbreitet 19
  35. 35. Zusammenfassung• Spezialisierte CMS bieten ideale Voraussetzungen für die Publikation strukturierter Daten (“Knopfdruck”)• Strukturierte Daten aus CM-Systemen eingebettet in HTML-Seiten weit verbreitet• Bisher begrenzter Nutzungsbereich 19
  36. 36. Vielen Dank für Ihre Aufmerksamkeit! Fragen? Twitter: @hfmuehleisen Web: http://webdatacommons.org http://hannes.muehleisen.org

×