Herzlich Willkommen!
• Einleitende Gedanken über
„Informationsqualität & Wissensgenerierung“
• Was ist Linked Data?
- Waru...
Über Semantic Web Company (SWC)
SWC wurde 2001 in Wien gegründet
Über 20 Experten im Bereich Linked Data
Produkt: PoolPart...
PoolParty Semantic Suite in 90 Sekunden
1. Werkzeug zur semi-automatischen Erstellung
und Wartung von Wissensgraphen
(Taxo...
Branchen und Kunden
● Credit Suisse
● Daimler
● Roche
● Wolters Kluwer
● World Bank Group
● The Pokémon Company
● Healthdi...
“Informationsqualität” aus
unternehmerischer Sicht
• Information ist oft ‘2nd class citizen’ in Unternehmen
• Informations...
“Informationsqualität” aus
einer Meta-Perspektive
Information ist um so wertvoller,
• wenn schließlich ein
Sinnverstehen b...
“Informationsqualität” aus
einer Meta-Perspektive
Information ist um so wertvoller,
• Je kostengünstiger sie
integriert we...
Das Ende des Dokuments?
Was ist ein Dokument,
was sollte es sein?
● Produktion: Der passende Ort, um neue
Information zu p...
Beispiel: Wie entstand dieses Dokument?
• Artikel in analogen Medien (z.B. ‚Hohe Luft‘)
• Wikipedia  Fakten
• YouTube
• R...
Wissensarbeit bedeutet Vernetzung &
Kontextualisierung von Information!
Produktbeschreibung
Kampagne
Dossier
Tweet
Journal...
...und noch mehr Graphen
Microsoft
„Office Graph“
Facebook
„Social Graph“
Google
„Knowledge Graph“
Was genau aber wird von
‘Wissensarbeitern’ vernetzt?
• Entitäten, nicht
Dokumente!
• Things, not
strings!
PoolParty Tagging Workflow
Lorem ipsum
dolor sit amet,
consetetur
sadipscing elitr,
sed diam
nonumy eirmod
tempor invidunt...
PoolParty PowerTagging:
Integration von Linked Data und CMS
‘Google’s Knowledge Graph’ als Beispiel
für semantische Informationsmaschinen
Mashup aus Wissens-Graphen
und API Calls!
Un...
Linked Data ist ein Datenmodell,
das auf Graphen basiert
● Linked Data ist ein Graph-basiertes
Datenmodell und ist ausdruc...
BBC’s Linked Data Plattform:
Wieviele Informationsquellen sehen Sie?
Individual CMSs are pretty
good at keeping tabs on th...
Case Study: ‘The 100 most influential
people in the world’
http://time.com/time100-2014/
http://mercury.poolparty.biz/time...
SKOS: Taxonomien werden wieder-
verwendbar, integrierbar & verlinkbar
http://www.w3.org/2004/02/skos/
Taxonomie- und Thesaurus-Management
eingebettet im Semantic Web
Schritt 1: Aufbau eines Thesaurus Schritt 2: Verknüpfe Dei...
Annotation / Entity Extraction =
Transformation v. Dokumenten in Graphen
Schritt 4: Komplexe Fragen stellen
PREFIX skos:<h...
Thesauri sind ‘semantische Interfaces’, um
verteilte Inhalte abzufragen, zu vernetzen
EurovocWKD Arbeitsrechts-Thesaurus
S...
Case Study:
Clean Energy Data - Länderprofile
http://www.reegle.info/countries/
Linked Data & Linked Vocabularies können
leicht wieder verwendet werden
● Linked Data basiert auf Standards
und ist so in ...
Linked Open Data Graphen
12.6 Mio. Entitäten
2.46 Mrd. Fakten
119 Sprachen
45 Mio. Links zu anderen Quellen
SKOS Thesauri
● Eurovoc (EU)
● ESCO (EU)
● Jurivoc (SUI)
● ScoT (AUS)
● Agrovoc (UN)
● MeSH (US)
● Getty Vocabularies (US)...
Linked Data verknüpft die Anforderungen
‘Semantic search’ und ‘Business analytics’
● Linked Data basiert auf einem
ausdruc...
Der traditionelle Ansatz zur
Daten- und Informations-Integration
Person 4711
Name
Jeff Bezos
Affiliation
Amazon
Born in
Al...
PersonOrganization Place
affiliated with born in
Ontologie-Graph
Jeff Bezos
Amazon Albuquerque
United States
Wissens-Graph...
SPARQL unterstützt komplexe Abfragen
PREFIX skos:<http://www.w3.org/2004/02/skos/core#>
PREFIX foaf:<http://xmlns.com/foaf...
Case Study:
Linked Life Data
http://linkedlifedata.com/
Interaktive Daten Visualisierungen
Kernfunktion von Linked Data:
Matchmaking
Die Qualität der Meta-
Informationen und Wissens-
Graphen determiniert die
Mögli...
Matchmaking von Usern / von Content
http://www.eip-water.eu/
http://faq.poolparty.biz/
Linked Enterprise Data
Show me the impact of our
campaign for FIFA WC 2014.
Welche Bedeutung hat Linked Data für das
Informationsmanagement?
1. Übersetzung zwischen Anwender und Techniker (“Taxonomi...
Content-Wertschöpfungsketten
mit Open Data
Zusammenfassung:
Daten-Silo (Dokument) öffne Dich!
● Graph-basiertes Datenmodell
● Standard-basiertes Datenmodell
● Ausstr...
Kontakt & Weitere Informationen
Andreas Blumauer, MSc IT
a.blumauer@semantic-web.at
http://at.linkedin.com/in/andreasbluma...
Linked Data - Das Ende des Dokuments?
Linked Data - Das Ende des Dokuments?
Nächste SlideShare
Wird geladen in …5
×

Linked Data - Das Ende des Dokuments?

732 Aufrufe

Veröffentlicht am

Keynote talk was given in May 2014 in Frankfurt at the annual congress of the German Society for Information Science and Information Practice (DGI)

Veröffentlicht in: Daten & Analysen
0 Kommentare
1 Gefällt mir
Statistik
Notizen
  • Als Erste(r) kommentieren

Keine Downloads
Aufrufe
Aufrufe insgesamt
732
Auf SlideShare
0
Aus Einbettungen
0
Anzahl an Einbettungen
2
Aktionen
Geteilt
0
Downloads
15
Kommentare
0
Gefällt mir
1
Einbettungen 0
Keine Einbettungen

Keine Notizen für die Folie

Linked Data - Das Ende des Dokuments?

  1. 1. Herzlich Willkommen! • Einleitende Gedanken über „Informationsqualität & Wissensgenerierung“ • Was ist Linked Data? - Warum „das Ende des Dokuments?“ • Wozu Linked Data? - Anwendungsbeispiele • Die Bedeutung von Linked Data für das Informationsmanagement Andreas Blumauer, MSc IT CEO der Semantic Web Company, Wien Als Wirtschaftsinformatiker seit 2001 in den Bereichen Text Mining, Semantic Web, Wissensmodellierung & Linked Data tätig.
  2. 2. Über Semantic Web Company (SWC) SWC wurde 2001 in Wien gegründet Über 20 Experten im Bereich Linked Data Produkt: PoolParty Suite (seit 2009 am Markt) Kunden aus unterschiedlichen Branchen EU- & US-basiertes Partner Netzwerk
  3. 3. PoolParty Semantic Suite in 90 Sekunden 1. Werkzeug zur semi-automatischen Erstellung und Wartung von Wissensgraphen (Taxonomien, Thesauri, Ontologien) 1. Text-Mining: Analyse umfassender Text- und Datenbestände  Annotation, Extraktion, Vernetzung  Linked Data 2. Business Intelligence & Datenintegration auf Basis offener Semantic Web Standards des W3C (RDF, SKOS, SPARQL) 3. Einfache Bedienbarkeit 4. Enterprise-tauglich: Skalierbar, Secure, Qualitätsgesichert 5. Integrierbarkeit (SharePoint, Confluence, Drupal, FirstSpirit, Wordpress, …) 6. Einfaches Deployment: Als Cloud-Service oder innerhalb der Firewall
  4. 4. Branchen und Kunden ● Credit Suisse ● Daimler ● Roche ● Wolters Kluwer ● World Bank Group ● The Pokémon Company ● Healthdirect Australia ● Ministry of Finance (A) ● Wood Mackenzie ● Council of the European Union ● American Physical Society ● Education Services Australia ● Pearson ● Techtarget ● Norwegian Directorate of Immigration ● REEEP ● GBPN ● City of Vienna ● ... Finanz / Automotive / Verlage & Medien / Gesundheit / Pharma / Verwaltung / Energie / Bildung
  5. 5. “Informationsqualität” aus unternehmerischer Sicht • Information ist oft ‘2nd class citizen’ in Unternehmen • Informationsmanagement liegt bei CTO  Information als technisches Artefakt • Nach wie vor Tendenz zu Informationsinseln, keine Standards • Wert von Kontextinformation und hochwertigen Metadaten wird weiterhin unterschätzt • Geschäftsmodelle (z.B. bei Publishern) beruhen kaum auf Kollaboration  Hypothese 1: “Es wird an den dynamisch wachsenden Informationsbedürfnissen der Endkunden vorbei gewirtschaftet”  Hypothese 2: “Vor allem Europäische Unternehmen geraten deshalb gegenüber Amerikanischen Unternehmen unter Druck”
  6. 6. “Informationsqualität” aus einer Meta-Perspektive Information ist um so wertvoller, • wenn schließlich ein Sinnverstehen bei Menschen ermöglicht wird, und • wenn der Weg dorthin zielgruppengerecht (personalisiert) aufbereitet ist  Hypothese: “Die Fähigkeit der Wissensvermittlung (Kontexte, Zusammenhänge) wird immer wichtiger” Mensch & Information (CIO-Sicht) https://www.ted.com/talks/hans_rosling_on_global_population_growth Hans Rosling: Globales Wachstum der Bevölerung
  7. 7. “Informationsqualität” aus einer Meta-Perspektive Information ist um so wertvoller, • Je kostengünstiger sie integriert werden kann, und somit • einfach in unterschiedliche Kontexte gesetzt werden kann  Hypothese: “Information (Content) unterschiedlichen Formats als Service via APIs verbreiten zu können, ist ein Schlüssel für hohe Informationsqualität aus technischer Sicht” Maschine & Information (CTO-Sicht)
  8. 8. Das Ende des Dokuments? Was ist ein Dokument, was sollte es sein? ● Produktion: Der passende Ort, um neue Information zu produzieren? ● Speicher: Eine Möglichkeit, um Information zu speichern? ● Darstellung: Ein User-Interface, um Information zu visualisieren und zu repräsentieren? ● Interface: Ein technisches Interface (API) bzw. ein Container, um verteilte Information zu verlinken und auffindbar zu machen? ● Kulturtechnik: Ein Medium, um Erzählungen und Emotionen zu transportieren und zu vermitteln? ● ?
  9. 9. Beispiel: Wie entstand dieses Dokument? • Artikel in analogen Medien (z.B. ‚Hohe Luft‘) • Wikipedia  Fakten • YouTube • Recherche auf Datenportalen (zB. Datahub.io) • Recherche auf LinkedIn & Emails • Google Abfragen  Websites (Screenshots), blogs, videos, Bilder → Alle Schritte, um die Informationsinseln zusammen zu ziehen, mussten „manuell“ durchgeführt werden (vgl. Management by Excel)
  10. 10. Wissensarbeit bedeutet Vernetzung & Kontextualisierung von Information! Produktbeschreibung Kampagne Dossier Tweet Journal Artikel Vertrag Hersteller-Spezification News Artikel Social Web Profil Patienten-Akte Gedicht Regulierung Blog Gesetz “Follow your nose (‘nous’)”
  11. 11. ...und noch mehr Graphen Microsoft „Office Graph“ Facebook „Social Graph“ Google „Knowledge Graph“
  12. 12. Was genau aber wird von ‘Wissensarbeitern’ vernetzt? • Entitäten, nicht Dokumente! • Things, not strings!
  13. 13. PoolParty Tagging Workflow Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut. Corpus Analysis Quality Checks sadipscing Aus “strings” werden “things”
  14. 14. PoolParty PowerTagging: Integration von Linked Data und CMS
  15. 15. ‘Google’s Knowledge Graph’ als Beispiel für semantische Informationsmaschinen Mashup aus Wissens-Graphen und API Calls! Unternehmen haben begonnen, ihre eigenen, spezifischen Wissens- Graphen zu entwickeln. Welche neuen Möglichkeiten entstehen damit für die Informationswirtschaft?
  16. 16. Linked Data ist ein Datenmodell, das auf Graphen basiert ● Linked Data ist ein Graph-basiertes Datenmodell und ist ausdrucksstark genug, um ein großes Spektrum von Informationsarten repräsentieren und verarbeiten zu können → Eignung für Daten-Integration & Dynamisches Semantisches Publizieren (DSP) in verteilten Umgebungen (“semantic web”)
  17. 17. BBC’s Linked Data Plattform: Wieviele Informationsquellen sehen Sie? Individual CMSs are pretty good at keeping tabs on the content they create but if you wanted to get hold of the 20 most recent pieces of content from across the BBC (and hence across CMSs) on Burkina Faso, or Jarvis Cocker or global warming it would be very tricky. Oli Bartlett, product manager for the BBC's Linked Data Platform
  18. 18. Case Study: ‘The 100 most influential people in the world’ http://time.com/time100-2014/ http://mercury.poolparty.biz/time100
  19. 19. SKOS: Taxonomien werden wieder- verwendbar, integrierbar & verlinkbar http://www.w3.org/2004/02/skos/
  20. 20. Taxonomie- und Thesaurus-Management eingebettet im Semantic Web Schritt 1: Aufbau eines Thesaurus Schritt 2: Verknüpfe Deine Thesauri mit anderen Wissens-Graphen (zB. DBpedia)
  21. 21. Annotation / Entity Extraction = Transformation v. Dokumenten in Graphen Schritt 4: Komplexe Fragen stellen PREFIX skos:<http://www.w3.org/2004/02/skos/core#> PREFIX foaf:<http://xmlns.com/foaf/0.1/> PREFIX dbpedia:<http://dbpedia.org/ontology/> SELECT DISTINCT ?personname ?timelink WHERE { ?person skos:prefLabel ?personname . ?person a dbpedia:Person . ?person <http://purl.org/dc/terms/subject> <http://dbpedia.org/resource/Category:Princeton_University_alumni> . OPTIONAL { ?person <http://mercury.poolparty.biz/PoolParty/schema/Time#time100page> ?timelink . } } Who of the ‘most influential people in the world’ are Princeton University alumni? Results Carl Cahn http://time.com/70813/ Jeff Bezos http://time.com/70917/ Schritt 3: Entitäten automatisch extrahieren („PowerTagging“)
  22. 22. Thesauri sind ‘semantische Interfaces’, um verteilte Inhalte abzufragen, zu vernetzen EurovocWKD Arbeitsrechts-Thesaurus STW Thesaurus DBpedia
  23. 23. Case Study: Clean Energy Data - Länderprofile http://www.reegle.info/countries/
  24. 24. Linked Data & Linked Vocabularies können leicht wieder verwendet werden ● Linked Data basiert auf Standards und ist so in ein umfassendes Daten-Ökosytem eingebettet → Ontologien, Thesauri, Taxonomien und Wissens-Graphen können zu geringst möglichen Kosten wiederverwendet werden, zumindest technisch betrachtet.
  25. 25. Linked Open Data Graphen 12.6 Mio. Entitäten 2.46 Mrd. Fakten 119 Sprachen 45 Mio. Links zu anderen Quellen
  26. 26. SKOS Thesauri ● Eurovoc (EU) ● ESCO (EU) ● Jurivoc (SUI) ● ScoT (AUS) ● Agrovoc (UN) ● MeSH (US) ● Getty Vocabularies (US) ● GEMET (EEA) ● GeoThesaurus (AT) ● STW Economy (DE) ● Polythematic SH (CZ) ● Canadian Subject Headings (Can) ● LCSH (US) ● Worldbank Taxonomy (WBG) ● Labor Law Germany Thesaurus (DE) ● Reegle Thesaurus (REEEP) ● Austrian Tax Law Thesaurus (AT) ● UNESCO Thesaurus (UN) ● New York Times SH (US) ● RAMEAU subject headings (FR) ● TheSoz (DE) ● The General Finnish Thesaurus (FIN) ● NAL Thesaurus (US) ● Social Semantic Web Thesaurus (AT) ● Courts thesaurus (DE) ● SITC-V4 (UN) ● Google Product Taxonomy (US) ● NAICS 2012 (US) ● Common Procurement Vocabulary (ES) ● UKAT UK Archival Thesaurus (UK) ● NASA taxonomy (US) ● IVOA astronomy vocabularies (UK) ● IPTC News Codes (UK) ● WAND taxonomies (US)
  27. 27. Linked Data verknüpft die Anforderungen ‘Semantic search’ und ‘Business analytics’ ● Linked Data basiert auf einem ausdrucksstarken Datenmodell und kann so unterschiedlichste Informationsarten repräsentieren → Hervorragende Eignung für komplexere Such- und Analyseanwendungen; vereint die Welten der strukturierten & unstrukturierten Informationen
  28. 28. Der traditionelle Ansatz zur Daten- und Informations-Integration Person 4711 Name Jeff Bezos Affiliation Amazon Born in Albuquerque Land 4812 Name USA BIP $ 15.684 billion HDI 0.937 Lösung: Spezielle Anwendung wird entwickelt, um die Daten zu integrieren. Show me the ‘most influential people in the world’ who were born in countries with an HDI less than 0.5?
  29. 29. PersonOrganization Place affiliated with born in Ontologie-Graph Jeff Bezos Amazon Albuquerque United States Wissens-Graph 2 GDP $ 15.684 billion HDI 0,937 Continents U.S. Thesaurus/Taxonomy-Graph America New Mexico Albuquerque South America Wissens-Graph 1 Show me the ‘most influential people in the world’ who were born in countries with an HDI less than 0.5? Lösung: Taxonomien werden verwendet, um Graphen zu verknüpfen
  30. 30. SPARQL unterstützt komplexe Abfragen PREFIX skos:<http://www.w3.org/2004/02/skos/core#> PREFIX foaf:<http://xmlns.com/foaf/0.1/> PREFIX dbpedia:<http://dbpedia.org/ontology/> SELECT DISTINCT ?personname ?picture ?countryname ?hdi ?picture WHERE { ?person skos:prefLabel ?personname . ?country skos:prefLabel ?countryname . ?person a dbpedia:Person . ?country a dbpedia:Country . ?person skos:related ?country . ?country <http://dbpedia.org/property/hdi> ?hdi . FILTER ( ?hdi < 0.6) OPTIONAL { ?person foaf:depiction ?picture . } } ORDER BY DESC(?hdi)
  31. 31. Case Study: Linked Life Data http://linkedlifedata.com/
  32. 32. Interaktive Daten Visualisierungen
  33. 33. Kernfunktion von Linked Data: Matchmaking Die Qualität der Meta- Informationen und Wissens- Graphen determiniert die Möglichkeiten, Informationseinheiten (“chunks”), Produkte & User auf neuartige Weise verknüpfen, und im Verbund abfragbar zu machen.
  34. 34. Matchmaking von Usern / von Content http://www.eip-water.eu/ http://faq.poolparty.biz/
  35. 35. Linked Enterprise Data Show me the impact of our campaign for FIFA WC 2014.
  36. 36. Welche Bedeutung hat Linked Data für das Informationsmanagement? 1. Übersetzung zwischen Anwender und Techniker (“Taxonomist”) 2. Keine technischen Lock-in-Effekte mehr 3. Standard, um Referenzsysteme zu etablieren (zB. GND als LD) 4. Kommunikation zwischen Menschen und Menschen, Menschen und Maschinen, und Maschinen und Maschinen verbessern 5. Ermöglicht komplexere Wertschöpfungsketten in der Content- Industrie (vgl. Software-Industrie)
  37. 37. Content-Wertschöpfungsketten mit Open Data
  38. 38. Zusammenfassung: Daten-Silo (Dokument) öffne Dich! ● Graph-basiertes Datenmodell ● Standard-basiertes Datenmodell ● Ausstrucksstarkes Datenmodell ● SKOS (Simple Knowledge Organization System) als Kernelement ● Suchen  Analysieren ● Lesen  Visualisieren ● Behaupten  Beweisen (Data Journalism) ● Enterprise Linked Data
  39. 39. Kontakt & Weitere Informationen Andreas Blumauer, MSc IT a.blumauer@semantic-web.at http://at.linkedin.com/in/andreasblumauer/ Semantic Web Company GmbH Mariahilfer Strasse 70/8, A-1070 Vienna +43-1-4021235 http://www.semantic-web.at http://www.poolparty-software.com http://slideshare.net/semwebcompany http://youtube.com/semwebcompany

×