Linked Data - Das Ende des Dokuments?

Herzlich Willkommen!
• Einleitende Gedanken über
„Informationsqualität & Wissensgenerierung“
• Was ist Linked Data?
- Warum „das Ende des Dokuments?“
• Wozu Linked Data?
- Anwendungsbeispiele
• Die Bedeutung von Linked Data für das
Informationsmanagement
Andreas Blumauer, MSc IT
CEO der Semantic Web Company, Wien
Als Wirtschaftsinformatiker seit 2001 in den Bereichen
Text Mining, Semantic Web, Wissensmodellierung & Linked
Data tätig.

Über Semantic Web Company (SWC)
SWC wurde 2001 in Wien gegründet
Über 20 Experten im Bereich Linked Data
Produkt: PoolParty Suite (seit 2009 am Markt)
Kunden aus unterschiedlichen Branchen
EU- & US-basiertes Partner Netzwerk

PoolParty Semantic Suite in 90 Sekunden
1. Werkzeug zur semi-automatischen Erstellung
und Wartung von Wissensgraphen
(Taxonomien, Thesauri, Ontologien)
1. Text-Mining: Analyse umfassender Text- und
Datenbestände  Annotation, Extraktion,
Vernetzung  Linked Data
2. Business Intelligence & Datenintegration auf
Basis offener Semantic Web Standards des
W3C (RDF, SKOS, SPARQL)
3. Einfache Bedienbarkeit
4. Enterprise-tauglich: Skalierbar, Secure, Qualitätsgesichert
5. Integrierbarkeit (SharePoint, Confluence, Drupal, FirstSpirit, Wordpress, …)
6. Einfaches Deployment: Als Cloud-Service oder innerhalb der Firewall

Branchen und Kunden
● Credit Suisse
● Daimler
● Roche
● Wolters Kluwer
● World Bank Group
● The Pokémon Company
● Healthdirect Australia
● Ministry of Finance (A)
● Wood Mackenzie
● Council of the European
Union
● American Physical Society
● Education Services Australia
● Pearson
● Techtarget
● Norwegian Directorate of
Immigration
● REEEP
● GBPN
● City of Vienna
● ...
Finanz / Automotive / Verlage & Medien / Gesundheit / Pharma / Verwaltung / Energie / Bildung

“Informationsqualität” aus
unternehmerischer Sicht
• Information ist oft ‘2nd class citizen’ in Unternehmen
• Informationsmanagement liegt bei CTO
 Information als technisches Artefakt
• Nach wie vor Tendenz zu Informationsinseln, keine Standards
• Wert von Kontextinformation und hochwertigen Metadaten wird
weiterhin unterschätzt
• Geschäftsmodelle (z.B. bei Publishern) beruhen kaum auf
Kollaboration
 Hypothese 1: “Es wird an den dynamisch wachsenden Informationsbedürfnissen der
Endkunden vorbei gewirtschaftet”
 Hypothese 2: “Vor allem Europäische Unternehmen geraten deshalb gegenüber
Amerikanischen Unternehmen unter Druck”

einer Meta-Perspektive
Information ist um so wertvoller,
• wenn schließlich ein
Sinnverstehen bei Menschen
ermöglicht wird, und
• wenn der Weg dorthin
zielgruppengerecht
(personalisiert) aufbereitet ist
 Hypothese: “Die Fähigkeit der
Wissensvermittlung (Kontexte,
Zusammenhänge) wird immer wichtiger”
Mensch & Information (CIO-Sicht)
https://www.ted.com/talks/hans_rosling_on_global_population_growth
Hans Rosling: Globales Wachstum der Bevölerung

einer Meta-Perspektive
Information ist um so wertvoller,
• Je kostengünstiger sie
integriert werden kann, und
somit
• einfach in unterschiedliche
Kontexte gesetzt werden kann
 Hypothese: “Information (Content)
unterschiedlichen Formats als Service via
APIs verbreiten zu können, ist ein
Schlüssel für hohe Informationsqualität
aus technischer Sicht”
Maschine & Information (CTO-Sicht)

Das Ende des Dokuments?
Was ist ein Dokument,
was sollte es sein?
● Produktion: Der passende Ort, um neue
Information zu produzieren?
● Speicher: Eine Möglichkeit, um Information zu
speichern?
● Darstellung: Ein User-Interface, um Information zu
visualisieren und zu repräsentieren?
● Interface: Ein technisches Interface (API) bzw. ein
Container, um verteilte Information zu verlinken
und auffindbar zu machen?
● Kulturtechnik: Ein Medium, um Erzählungen und
Emotionen zu transportieren und zu vermitteln?
● ?

Beispiel: Wie entstand dieses Dokument?
• Artikel in analogen Medien (z.B. ‚Hohe Luft‘)
• Wikipedia  Fakten
• YouTube
• Recherche auf Datenportalen (zB. Datahub.io)
• Recherche auf LinkedIn & Emails
• Google Abfragen
 Websites (Screenshots), blogs, videos,
Bilder
→ Alle Schritte, um die Informationsinseln
zusammen zu ziehen, mussten „manuell“
durchgeführt werden (vgl. Management by Excel)

Wissensarbeit bedeutet Vernetzung &
Kontextualisierung von Information!
Produktbeschreibung
Kampagne
Dossier
Tweet
Journal Artikel
Vertrag
Hersteller-Spezification
News Artikel
Social Web Profil Patienten-Akte
Gedicht
Regulierung
Blog
Gesetz
“Follow your nose (‘nous’)”

...und noch mehr Graphen
Microsoft
„Office Graph“
Facebook
„Social Graph“
Google
„Knowledge Graph“

Was genau aber wird von
‘Wissensarbeitern’ vernetzt?
• Entitäten, nicht
Dokumente!
• Things, not
strings!

PoolParty Tagging Workflow
Lorem ipsum
dolor sit amet,
consetetur
sadipscing elitr,
sed diam
nonumy eirmod
tempor invidunt
ut.
Corpus Analysis
Quality Checks
sadipscing
Aus “strings”
werden “things”

PoolParty PowerTagging:
Integration von Linked Data und CMS

‘Google’s Knowledge Graph’ als Beispiel
für semantische Informationsmaschinen
Mashup aus Wissens-Graphen
und API Calls!
Unternehmen haben begonnen, ihre
eigenen, spezifischen Wissens-
Graphen zu entwickeln.
Welche neuen Möglichkeiten entstehen
damit für die Informationswirtschaft?

Linked Data ist ein Datenmodell,
das auf Graphen basiert
● Linked Data ist ein Graph-basiertes
Datenmodell und ist ausdrucksstark
genug, um ein großes Spektrum von
Informationsarten repräsentieren und
verarbeiten zu können
→ Eignung für Daten-Integration & Dynamisches
Semantisches Publizieren (DSP) in verteilten Umgebungen
(“semantic web”)

BBC’s Linked Data Plattform:
Wieviele Informationsquellen sehen Sie?
Individual CMSs are pretty
good at keeping tabs on the
content they create but if
you wanted to get hold of
the 20 most recent pieces of
content from across the BBC
(and hence across CMSs) on
Burkina Faso, or Jarvis
Cocker or global warming it
would be very tricky.
Oli Bartlett, product
manager for the BBC's
Linked Data Platform

Case Study: ‘The 100 most influential
people in the world’
http://time.com/time100-2014/
http://mercury.poolparty.biz/time100

SKOS: Taxonomien werden wieder-
verwendbar, integrierbar & verlinkbar
http://www.w3.org/2004/02/skos/

Taxonomie- und Thesaurus-Management
eingebettet im Semantic Web
Schritt 1: Aufbau eines Thesaurus Schritt 2: Verknüpfe Deine Thesauri mit
anderen Wissens-Graphen (zB. DBpedia)

Annotation / Entity Extraction =
Transformation v. Dokumenten in Graphen
Schritt 4: Komplexe Fragen stellen
PREFIX skos:<http://www.w3.org/2004/02/skos/core#>
PREFIX foaf:<http://xmlns.com/foaf/0.1/>
PREFIX dbpedia:<http://dbpedia.org/ontology/>
SELECT DISTINCT ?personname ?timelink
WHERE
{ ?person skos:prefLabel ?personname .
?person a dbpedia:Person .
?person <http://purl.org/dc/terms/subject>
<http://dbpedia.org/resource/Category:Princeton_University_alumni> .
OPTIONAL
{ ?person
<http://mercury.poolparty.biz/PoolParty/schema/Time#time100page>
?timelink .
} }
Who of the ‘most influential
people in the world’ are
Princeton University alumni?
Results
Carl Cahn http://time.com/70813/
Jeff Bezos http://time.com/70917/
Schritt 3: Entitäten automatisch extrahieren
(„PowerTagging“)

Thesauri sind ‘semantische Interfaces’, um
verteilte Inhalte abzufragen, zu vernetzen
EurovocWKD Arbeitsrechts-Thesaurus
STW
Thesaurus
DBpedia

Case Study:
Clean Energy Data - Länderprofile
http://www.reegle.info/countries/

Linked Data & Linked Vocabularies können
leicht wieder verwendet werden
● Linked Data basiert auf Standards
und ist so in ein umfassendes
Daten-Ökosytem eingebettet
→ Ontologien, Thesauri, Taxonomien und
Wissens-Graphen können zu geringst
möglichen Kosten wiederverwendet werden,
zumindest technisch betrachtet.

Linked Open Data Graphen
12.6 Mio. Entitäten
2.46 Mrd. Fakten
119 Sprachen
45 Mio. Links zu anderen Quellen

SKOS Thesauri
● Eurovoc (EU)
● ESCO (EU)
● Jurivoc (SUI)
● ScoT (AUS)
● Agrovoc (UN)
● MeSH (US)
● Getty Vocabularies (US)
● GEMET (EEA)
● GeoThesaurus (AT)
● STW Economy (DE)
● Polythematic SH (CZ)
● Canadian Subject Headings (Can)
● LCSH (US)
● Worldbank Taxonomy (WBG)
● Labor Law Germany Thesaurus (DE)
● Reegle Thesaurus (REEEP)
● Austrian Tax Law Thesaurus (AT)
● UNESCO Thesaurus (UN)
● New York Times SH (US)
● RAMEAU subject headings (FR)
● TheSoz (DE)
● The General Finnish Thesaurus (FIN)
● NAL Thesaurus (US)
● Social Semantic Web Thesaurus (AT)
● Courts thesaurus (DE)
● SITC-V4 (UN)
● Google Product Taxonomy (US)
● NAICS 2012 (US)
● Common Procurement Vocabulary (ES)
● UKAT UK Archival Thesaurus (UK)
● NASA taxonomy (US)
● IVOA astronomy vocabularies (UK)
● IPTC News Codes (UK)
● WAND taxonomies (US)

Linked Data verknüpft die Anforderungen
‘Semantic search’ und ‘Business analytics’
● Linked Data basiert auf einem
ausdrucksstarken Datenmodell
und kann so unterschiedlichste
Informationsarten repräsentieren
→ Hervorragende Eignung für komplexere
Such- und Analyseanwendungen; vereint die
Welten der strukturierten & unstrukturierten
Informationen

Der traditionelle Ansatz zur
Daten- und Informations-Integration
Person 4711
Name
Jeff Bezos
Affiliation
Amazon
Born in
Albuquerque
Land 4812
Name
USA
BIP
$ 15.684 billion
HDI
0.937
Lösung: Spezielle Anwendung
wird entwickelt, um die Daten
zu integrieren.
Show me the ‘most influential people
in the world’ who were born in countries
with an HDI less than 0.5?

PersonOrganization Place
affiliated with born in
Ontologie-Graph
Jeff Bezos
Amazon Albuquerque
United States
Wissens-Graph 2
GDP
$ 15.684
billion
HDI
0,937
Continents U.S.
Thesaurus/Taxonomy-Graph
America New Mexico
Albuquerque
South
America
Wissens-Graph 1
Show me the ‘most influential
people in the world’ who were
born in countries
with an HDI less than 0.5?
Lösung: Taxonomien
werden verwendet,
um Graphen zu
verknüpfen

SPARQL unterstützt komplexe Abfragen
PREFIX skos:<http://www.w3.org/2004/02/skos/core#>
PREFIX foaf:<http://xmlns.com/foaf/0.1/>
PREFIX dbpedia:<http://dbpedia.org/ontology/>
SELECT DISTINCT ?personname ?picture ?countryname ?hdi ?picture
WHERE
{
?person skos:prefLabel ?personname .
?country skos:prefLabel ?countryname .
?person a dbpedia:Person .
?country a dbpedia:Country .
?person skos:related ?country .
?country <http://dbpedia.org/property/hdi> ?hdi .
FILTER ( ?hdi < 0.6)
OPTIONAL
{
?person foaf:depiction ?picture .
}
} ORDER BY DESC(?hdi)

Case Study:
Linked Life Data
http://linkedlifedata.com/

Interaktive Daten Visualisierungen

Kernfunktion von Linked Data:
Matchmaking
Die Qualität der Meta-
Informationen und Wissens-
Graphen determiniert die
Möglichkeiten,
Informationseinheiten
(“chunks”), Produkte & User auf
neuartige Weise verknüpfen, und
im Verbund abfragbar zu
machen.

Matchmaking von Usern / von Content
http://www.eip-water.eu/
http://faq.poolparty.biz/

Linked Enterprise Data
Show me the impact of our
campaign for FIFA WC 2014.

Welche Bedeutung hat Linked Data für das
Informationsmanagement?
1. Übersetzung zwischen Anwender und Techniker (“Taxonomist”)
2. Keine technischen Lock-in-Effekte mehr
3. Standard, um Referenzsysteme zu etablieren (zB. GND als LD)
4. Kommunikation zwischen Menschen und Menschen, Menschen
und Maschinen, und Maschinen und Maschinen verbessern
5. Ermöglicht komplexere Wertschöpfungsketten in der Content-
Industrie (vgl. Software-Industrie)

Content-Wertschöpfungsketten
mit Open Data

Zusammenfassung:
Daten-Silo (Dokument) öffne Dich!
● Graph-basiertes Datenmodell
● Standard-basiertes Datenmodell
● Ausstrucksstarkes Datenmodell
● SKOS (Simple Knowledge
Organization System) als
Kernelement
● Suchen  Analysieren
● Lesen  Visualisieren
● Behaupten  Beweisen (Data
Journalism)
● Enterprise Linked Data

Kontakt & Weitere Informationen
Andreas Blumauer, MSc IT
a.blumauer@semantic-web.at
http://at.linkedin.com/in/andreasblumauer/
Semantic Web Company GmbH
Mariahilfer Strasse 70/8,
A-1070 Vienna
+43-1-4021235
http://www.semantic-web.at
http://www.poolparty-software.com
http://slideshare.net/semwebcompany
http://youtube.com/semwebcompany

Linked Data - Das Ende des Dokuments?

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Andere mochten auch

Andere mochten auch (20)

Ähnlich wie Linked Data - Das Ende des Dokuments?

Ähnlich wie Linked Data - Das Ende des Dokuments? (20)

Mehr von Semantic Web Company

Mehr von Semantic Web Company (20)

Linked Data - Das Ende des Dokuments?