Semantik auf Knopfdruck?Qualität von CMS-generierten semantischenDatenHannes Mühleisen, AG NBI / WBSGXinnovations 2012
Fahrplan   2
Fahrplan• Eingebette strukturierte Daten auf  Webseiten                   2
Fahrplan• Eingebette strukturierte Daten auf  Webseiten• Daten in Content-Management-  Systemen                   2
Fahrplan• Eingebette strukturierte Daten auf  Webseiten• Daten in Content-Management-  Systemen• Resultate einer Analyse s...
Eine typische              Webseite...My name is Horst Mustermann, here is my home page:<a href="http://www.horst.example"...
... mit impliziten     Informationen          Name     WebseitePerson    Ort    Titel   Organisation             4
Lösung: zusätzliche          Tags• Populäre Vokabulare • schema.org, Open Graph   protocol, ...• Unterschiedliche Formate ...
Beispiel: Microdata +               schema.org<div itemscope itemtype="http://data-vocabulary.org/Person"> My name is <spa...
Beispiel: Microdata +          schema.orgStrukturierte                                 Daten!Item  Type = http://data-voca...
Content-Management-        Systeme• ~ 30 % der   Top-1Mio-Webseiten   benutzen CMS-   Software• Wordpress...Quelle: http:/...
Datenmodelle von CMS• Generisch: Seite, Objekt, Feld, Datum • Drupal, Typo3, ...• Blog: Artikel, Kommentare • Wordpress, ....
Semantik auf                Knopfdruck? Semantik          Typen                 z.B.                Spezialisierte   Inhal...
Beispiel: Drupal       11
Beispiel: DrupalDatenmodell frei, Semantik der Felder aber unklar                        11
Beispiel: Wordpress         12
Beispiel: WordpressTitel               URL                          Blogartikel                          Datum        Text...
Beispiel: WordpressTitel               URL                                   Blogartikel                                  ...
Beispiel: Magento        13
Beispiel: MagentoDaten strukturiert, Publikation “auf Knopfdruck”?                        13
• Common-Crawl Datensatz, ~1 % “des  Web”                14
• Common-Crawl Datensatz, ~1 % “des  Web”• Verfügbare Daten • Index 02-12: 1.7 Mrd. URLs (21 TB) • Index 09/12: 2.8 Mrd. U...
• Common-Crawl Datensatz, ~1 % “des  Web”• Verfügbare Daten • Index 02-12: 1.7 Mrd. URLs (21 TB) • Index 09/12: 2.8 Mrd. U...
Analyse - Formate• URLs mit  strukturierten Daten:                                                                        ...
Analyse - Formate• URLs mit  strukturierten Daten:                                                                        ...
Analyse - Formate• URLs mit    strukturierten Daten:                                                                      ...
Analyse - Datenarten                                                                   Microdata 02/2012                  ...
Detailgrad (Beispiele)               Durchsch   Typ            n.                Populäre Properties               Propert...
Datenqualität (Beispiel)Item  Type = http://schema.org/Product  name = Werkzeug AKKU für Makita Werkzeuge     7,2V 2100 mA...
Datenqualität (Beispiel)Item  Type = http://schema.org/Product  name = Werkzeug AKKU für Makita Werkzeuge     7,2V 2100 mA...
Datenqualität (Beispiel)Item  Type = http://schema.org/Product  name = Werkzeug AKKU für Makita Werkzeuge     7,2V 2100 mA...
Zusammenfassung       19
Zusammenfassung• Spezialisierte CMS bieten ideale  Voraussetzungen für die Publikation  strukturierter Daten (“Knopfdruck”...
Zusammenfassung• Spezialisierte CMS bieten ideale  Voraussetzungen für die Publikation  strukturierter Daten (“Knopfdruck”...
Zusammenfassung• Spezialisierte CMS bieten ideale  Voraussetzungen für die Publikation  strukturierter Daten (“Knopfdruck”...
Vielen Dank für Ihre Aufmerksamkeit!              Fragen?        Twitter: @hfmuehleisen   Web: http://webdatacommons.org  ...
Nächste SlideShare
Wird geladen in …5
×

Semantik auf Knopfdruck - Qualität von CMS-generierten semantischen Daten

1.002 Aufrufe

Veröffentlicht am

Veröffentlicht in: Technologie
0 Kommentare
0 Gefällt mir
Statistik
Notizen
  • Als Erste(r) kommentieren

  • Gehören Sie zu den Ersten, denen das gefällt!

Keine Downloads
Aufrufe
Aufrufe insgesamt
1.002
Auf SlideShare
0
Aus Einbettungen
0
Anzahl an Einbettungen
2
Aktionen
Geteilt
0
Downloads
0
Kommentare
0
Gefällt mir
0
Einbettungen 0
Keine Einbettungen

Keine Notizen für die Folie
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • First: Our UseCase is not suitable to Hadoop, so EMR is out, since it was too slow\nInput data split in 100 MB parts, yes\n- EC2 c1.xlarge instances: 8 CPUs, current spot price : ca. 0.17 EUR per hour (most of the time)\n- so, with 100 instances we get 800 CPUs and we could expect to do it in around three days for around 1000 EUR (BIG WIN!) and in 55 hours!\n\n\n
  • First: Our UseCase is not suitable to Hadoop, so EMR is out, since it was too slow\nInput data split in 100 MB parts, yes\n- EC2 c1.xlarge instances: 8 CPUs, current spot price : ca. 0.17 EUR per hour (most of the time)\n- so, with 100 instances we get 800 CPUs and we could expect to do it in around three days for around 1000 EUR (BIG WIN!) and in 55 hours!\n\n\n
  • First: Our UseCase is not suitable to Hadoop, so EMR is out, since it was too slow\nInput data split in 100 MB parts, yes\n- EC2 c1.xlarge instances: 8 CPUs, current spot price : ca. 0.17 EUR per hour (most of the time)\n- so, with 100 instances we get 800 CPUs and we could expect to do it in around three days for around 1000 EUR (BIG WIN!) and in 55 hours!\n\n\n
  • First: Our UseCase is not suitable to Hadoop, so EMR is out, since it was too slow\nInput data split in 100 MB parts, yes\n- EC2 c1.xlarge instances: 8 CPUs, current spot price : ca. 0.17 EUR per hour (most of the time)\n- so, with 100 instances we get 800 CPUs and we could expect to do it in around three days for around 1000 EUR (BIG WIN!) and in 55 hours!\n\n\n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • Semantik auf Knopfdruck - Qualität von CMS-generierten semantischen Daten

    1. 1. Semantik auf Knopfdruck?Qualität von CMS-generierten semantischenDatenHannes Mühleisen, AG NBI / WBSGXinnovations 2012
    2. 2. Fahrplan 2
    3. 3. Fahrplan• Eingebette strukturierte Daten auf Webseiten 2
    4. 4. Fahrplan• Eingebette strukturierte Daten auf Webseiten• Daten in Content-Management- Systemen 2
    5. 5. Fahrplan• Eingebette strukturierte Daten auf Webseiten• Daten in Content-Management- Systemen• Resultate einer Analyse strukturierter Daten im Web 2
    6. 6. Eine typische Webseite...My name is Horst Mustermann, here is my home page:<a href="http://www.horst.example">www.horst.example</a>. I live in Berlin, where Iwork as a Researcher at Freie Universität Berlin. 3
    7. 7. ... mit impliziten Informationen Name WebseitePerson Ort Titel Organisation 4
    8. 8. Lösung: zusätzliche Tags• Populäre Vokabulare • schema.org, Open Graph protocol, ...• Unterschiedliche Formate • μFormats, RDFa, Microdata 5
    9. 9. Beispiel: Microdata + schema.org<div itemscope itemtype="http://data-vocabulary.org/Person"> My name is <span itemprop="name">Horst Mustermann</span>, here is my homepage: <a href="http://www.horst.example" itemprop="url">www.horst.example</a>. I live in <span itemprop="address" itemscope itemtype="http://data-vocabulary.org/Address"> <span itemprop="locality">Berlin</span> </span> where I work as a <span itemprop="title">Researcher</span> at <span itemprop="affiliation">Freie Universität Berlin </span>.</div> 6
    10. 10. Beispiel: Microdata + schema.orgStrukturierte Daten!Item Type = http://data-vocabulary.org/person name = Horst Mustermann title = Researcher affiliation = Freie Universität Berlin url text = www.horst.example href = http://www.horst.example/ address = Item Type = http://data-vocabulary.org/address locality = Berlin 7
    11. 11. Content-Management- Systeme• ~ 30 % der Top-1Mio-Webseiten benutzen CMS- Software• Wordpress...Quelle: http://w3techs.com/technologies/overview/content_management/all 8
    12. 12. Datenmodelle von CMS• Generisch: Seite, Objekt, Feld, Datum • Drupal, Typo3, ...• Blog: Artikel, Kommentare • Wordpress, ...• Shop: Produkte, Bewertungen • osCommerce, ... 9
    13. 13. Semantik auf Knopfdruck? Semantik Typen z.B. Spezialisierte Inhalt CMS / Produkte Manuell Qualität Metadaten Alle CMS AutorSeitenstruktu Alle CMS Navigation r 10
    14. 14. Beispiel: Drupal 11
    15. 15. Beispiel: DrupalDatenmodell frei, Semantik der Felder aber unklar 11
    16. 16. Beispiel: Wordpress 12
    17. 17. Beispiel: WordpressTitel URL Blogartikel Datum Text (!) 12
    18. 18. Beispiel: WordpressTitel URL Blogartikel Datum Text (!) Weitere Daten nicht strukturiert vorhanden! 12
    19. 19. Beispiel: Magento 13
    20. 20. Beispiel: MagentoDaten strukturiert, Publikation “auf Knopfdruck”? 13
    21. 21. • Common-Crawl Datensatz, ~1 % “des Web” 14
    22. 22. • Common-Crawl Datensatz, ~1 % “des Web”• Verfügbare Daten • Index 02-12: 1.7 Mrd. URLs (21 TB) • Index 09/12: 2.8 Mrd. URLs (29 TB) 14
    23. 23. • Common-Crawl Datensatz, ~1 % “des Web”• Verfügbare Daten • Index 02-12: 1.7 Mrd. URLs (21 TB) • Index 09/12: 2.8 Mrd. URLs (29 TB)• Alle strukturierten Daten wurden extrahiert und nach RDF konvertiert 14
    24. 24. Analyse - Formate• URLs mit strukturierten Daten: 2009/2010 4 +6% 02−2012 Percentage of URLs 3 2 1 0 RDFa Microdata geo hcalendar hcard hreview XFN Format 15
    25. 25. Analyse - Formate• URLs mit strukturierten Daten: 2009/2010 4 +6% 02−2012 Percentage of URLs 3• Microdata +14% 2 1 (schema.org?) 0 RDFa Microdata geo hcalendar hcard hreview XFN Format 15
    26. 26. Analyse - Formate• URLs mit strukturierten Daten: 2009/2010 4 +6% 02−2012 Percentage of URLs 3• Microdata +14% 2 1 (schema.org?) 0• RDFa Microdata geo hcalendar hcard hreview XFN RDFa +26% Format (Facebook?) 15
    27. 27. Analyse - Datenarten Microdata 02/2012 RDFa 02/2012 5e+06 RDFa 2009/2010 Microdata 2009/2010Entity Count (log) 5e+05 5e+04 5e+03 0 50 100 150 200 Type Webseiten-Struktur 23 % Produkte & Bewertungen 19 % Medien (Filme, Musik,...) 15 % Personen & 15 % Organisationen 2012-Microdata 16
    28. 28. Detailgrad (Beispiele) Durchsch Typ n. Populäre Properties Propertie s name, description, image, price, Product 6.9 priceCurrency, availability name, url, image, foundingDate,Organization 7.9 addressLocality, postalCode, addressRegion Stichprobe, ca. ~6 Mio Tripel, Datensatz 2012-Microdata 17
    29. 29. Datenqualität (Beispiel)Item Type = http://schema.org/Product name = Werkzeug AKKU für Makita Werkzeuge 7,2V 2100 mAh Ni-MH 4071D 4073D description = Ersatz für folgende Modelle: MAKITA 3000 Serie MAKITA 3000DW,[...] availability = http://schema.org/InStock price = 27,90 priceCurrency = EUR 18
    30. 30. Datenqualität (Beispiel)Item Type = http://schema.org/Product name = Werkzeug AKKU für Makita Werkzeuge 7,2V 2100 mAh Ni-MH 4071D 4073D description = Ersatz für folgende Modelle: MAKITA 3000 Serie MAKITA 3000DW,[...] availability = http://schema.org/InStock price = 27,90 priceCurrency = EURItem Type = http://schema.org/Product description = Isolierte Gefahrstoff- Container zur sicheren, frostfreien Lagerung von Gefahrstoffen. [...] 18
    31. 31. Datenqualität (Beispiel)Item Type = http://schema.org/Product name = Werkzeug AKKU für Makita Werkzeuge 7,2V 2100 mAh Ni-MH 4071D 4073D description = Ersatz für folgende Modelle: Super! MAKITA 3000 Serie MAKITA 3000DW,[...] availability = http://schema.org/InStock price = 27,90 priceCurrency = EURItem Type = http://schema.org/Product description = Isolierte Gefahrstoff- Nicht so Container zur sicheren, frostfreien Lagerung von Gefahrstoffen. [...] super 18
    32. 32. Zusammenfassung 19
    33. 33. Zusammenfassung• Spezialisierte CMS bieten ideale Voraussetzungen für die Publikation strukturierter Daten (“Knopfdruck”) 19
    34. 34. Zusammenfassung• Spezialisierte CMS bieten ideale Voraussetzungen für die Publikation strukturierter Daten (“Knopfdruck”)• Strukturierte Daten aus CM-Systemen eingebettet in HTML-Seiten weit verbreitet 19
    35. 35. Zusammenfassung• Spezialisierte CMS bieten ideale Voraussetzungen für die Publikation strukturierter Daten (“Knopfdruck”)• Strukturierte Daten aus CM-Systemen eingebettet in HTML-Seiten weit verbreitet• Bisher begrenzter Nutzungsbereich 19
    36. 36. Vielen Dank für Ihre Aufmerksamkeit! Fragen? Twitter: @hfmuehleisen Web: http://webdatacommons.org http://hannes.muehleisen.org

    ×