Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Wissenstechnologie 2007 - VI
1. Wissenstechnologie VU
SPARQL, Triple Stores, Suche im Semantic Web,
Microformats und RDFa
Peter Scheir
TU Graz & Know-Center
http://kmi.tugraz.at http://www.know-center.at
This work is licensed under the Creative Commons Attribution 2.0 Austria License.
To view a copy of this license, visit http://creativecommons.org/licenses/by/2.0/at/.
2. Inhalt
SPARQL
Triple Stores
Suche im Semantic Web
Microformats und RDFa
2
http://kmi.tugraz.at
November 2007 Wissenstechnologie @ kmi.tugraz.at
3. Semantic Web Stack
SPARQL
3
http://kmi.tugraz.at
November 2007 Wissenstechnologie @ kmi.tugraz.at
4. SPARQL
SPARQL Query Language for RDF
Abfragesprache für RDF Graphen
Ähnlich zu SQL
Kein INSERT, UPDATE, DELETE
Entwicklung durch die RDF Data Access Working Group
Derzeit Proposed Recommendation (12 November 2007)
http://www.w3.org/TR/rdf-sparql-query/
http://thefigtrees.net/lee/sw/sparql-faq
4
http://kmi.tugraz.at
November 2007 Wissenstechnologie @ kmi.tugraz.at
5. SPARQL - Beispiel
Daten:
http://example.org/book/book1
http://purl.org/dc/elements/1.1/title
quot;SPARQL Tutorialquot; .
Abfrage:
SELECT ?title
WHERE {
<http://example.org/book/book1>
<http://purl.org/dc/elements/1.1/title>
?title .
}
Ergebnis:
title
quot;SPARQL Tutorialquot;
5
http://kmi.tugraz.at
November 2007 Wissenstechnologie @ kmi.tugraz.at
7. SPARQL
Abfrage:
PREFIX foaf: http://xmlns.com/foaf/0.1/
SELECT ?name ?mbox
WHERE {
?x foaf:name ?name .
?x foaf:mbox ?mbox
}
Variablen durch ? gekennzeichnet
Alle Statements werden zurückgegeben die auf Muster in
WHERE passen
Prefix um kürzere Queries schreiben zu können
WHERE optional
7
http://kmi.tugraz.at
November 2007 Wissenstechnologie @ kmi.tugraz.at
8. SPARQL
Abfrage:
PREFIX abc: http://example.com/exampleOntologie#
SELECT ?capital ?country
WHERE {
?x abc:cityname ?capital.
?y abc:countryname ?country.
?x abc:isCapitalOf ?y.
?y abc:isInContinent abc:europe.
}
Beispiel von: http://de.wikipedia.org/wiki/SPARQL
Einfach Joins zu beschreiben (im Vergleich zu SQL)
8
http://kmi.tugraz.at
November 2007 Wissenstechnologie @ kmi.tugraz.at
9. Was ist mit XPath?
9
http://kmi.tugraz.at
November 2007 Wissenstechnologie @ kmi.tugraz.at
10. Inhalt
SPARQL
Triple Stores
Suche im Semantic Web
Microformats und RDFa
10
http://kmi.tugraz.at
November 2007 Wissenstechnologie @ kmi.tugraz.at
11. Überblick Triple Stores
RDF-Graph (S,P,O)
author
http://book.at/isbn123 http://fussball.de/G. Müller
price title name
11
Ein Leben für die Tore
€15 Gerd Müller
http://kmi.tugraz.at
November 2007 Wissenstechnologie @ kmi.tugraz.at
12. Überblick Triple Stores
Subjekt Prädikat Objekt
http://book.at/isbn123 author http://fussball.de/G. Müller
http://book.at/isbn123 price €15
http://book.at/isbn123 Title Ein Leben für die Tore
http://fussball.de/G. Müller Name Gerd Müller
author
http://book.at/isbn123 http://fussball.de/G. Müller
name
price title
12
Gerd Müller
Ein Leben für die Tore
€15 http://kmi.tugraz.at
November 2007 Wissenstechnologie @ kmi.tugraz.at
13. Überblick Triple Stores
Abfrage: Titel der Bücher von Gerd Müller?
Subjekt Prädikat Objekt
http://book.at/isbn123 author http://fussball.de/G. Müller
http://book.at/isbn123 price €15
http://book.at/isbn123 Title Ein Leben für die Tore
http://fussball.de/G. Müller Name Gerd Müller
13
http://kmi.tugraz.at
November 2007 Wissenstechnologie @ kmi.tugraz.at
14. Abbildung in relationalen
Datenbanken
Abbildung in Form von ein bis 6 Tabellen
Darstellung in Form eines linearisierten Graphs
Zentrale Tabelle: S,P,O Tabelle
Verschiedene Indizes für Zugriff
Mapping von SPARQL Anfragen auf eine Menge von
SQL Anfragen
14
http://kmi.tugraz.at
November 2007 Wissenstechnologie @ kmi.tugraz.at
15. Abbildung in relationalen
Datenbanken
Beispiel Sesame
subject predicate object
1 2 3
1 4 5
1 7 8
Id value
1 http://book.at/isbn123
author
2
3 http://fussball.de/G. Müller
4 price
5 €15
15
7 Titel
8 Ein Leben für die Tore http://kmi.tugraz.at
November 2007 Wissenstechnologie @ kmi.tugraz.at
16. Abbildung in relationalen
Datenbanken
Einfache Repräsentation im RDBMS
Unabhängig vom Schema
Flexibilität
Keine schemaspezifischen Anpassungen
des DBMS
Im Allgemeinen Generik vs. Leistungsfähigkeit
16
http://kmi.tugraz.at
November 2007 Wissenstechnologie @ kmi.tugraz.at
17. Erhöhung der Leistungsfähigkeit
Mapping des Schemas auf eine relationale Struktur
Buch_ID Preis Titel
http://book.at/isbn123 15 Ein Leben für die Tore
Autor_ID Name
http://fussball.de/G. Müller Gerd Müller
Autor_ID Buch_ID
17
http://fussball.de/G. Müller http://book.at/isbn123
http://kmi.tugraz.at
November 2007 Wissenstechnologie @ kmi.tugraz.at
18. Erhöhung der Leistungsfähigkeit
Subject Property Materialized Views (Oracle)
Buch_ID Autor Titel
http://book.at/isbn123 http://fussball.de/G. Müller Ein Leben für die Tore
18
http://kmi.tugraz.at
November 2007 Wissenstechnologie @ kmi.tugraz.at
19. Erhöhung der Leistungsfähigkeit
„Echte“ native RDF Triple Stores
Optimierung durch Verwendung spezialisierter Indizes
(Self-Joint Optimierung)
Indizierung verschiedener Kombinationen von S,P,O
P,S,O
O,P,S
O,S,P
S,O,P
19
http://kmi.tugraz.at
November 2007 Wissenstechnologie @ kmi.tugraz.at
20. Tripel Stores Implementierungen
Jena/Jena 2
Hewlett Packard
Java Open Source
Anbindung an gängige RDBMS
SPARQL als Abfragesprache
RDF/RDFS/OWL
20
http://kmi.tugraz.at
November 2007 Wissenstechnologie @ kmi.tugraz.at
21. Tripel Stores Implementierungen
Sesame
Aduna Technologies
Java Open Source
Anbindung an gängige RDBMS
Eigener native Store
RDQL als Abfragesprache
21
http://kmi.tugraz.at
November 2007 Wissenstechnologie @ kmi.tugraz.at
22. Tripel Stores Implementierungen
Kowari
Tucana Technologies
„Native“ Triple Store
RDQL als Abfragesprache
Volltextsuche integriert
Integrierbar mit Jena
22
http://kmi.tugraz.at
November 2007 Wissenstechnologie @ kmi.tugraz.at
23. Tripel Stores Implementierungen
3Store
University of Southhampton
C Library kombiniert mit MySQL
RDQL als Abfragesprache
Anwendung in unterschiedlichen EU Projekten und
kommerziellen Projekten
23
http://kmi.tugraz.at
November 2007 Wissenstechnologie @ kmi.tugraz.at
24. Tripel Stores Implementierungen
Oracle 10g
Oracle
Ergänzung der Oracle DB um „native“ Triple Store
Kombination Triple Store Query mit SQL (teilw.
SPARQL kompatibel)
Kombinierbar mit anderen Oracle Modulen
Erster Triple Store eines großen kommerziellen
Anbieters
24
http://kmi.tugraz.at
November 2007 Wissenstechnologie @ kmi.tugraz.at
25. Leistungsfähigkeit Open Source
Portwin & Parvatikar (2006) Scaling Jena in a Commercial
Environment: The Ingenta MetaStore Project
Standardtestdatensatz Domäne Universitäten
~200 Millionen Triples (RDF), 11 Millionen Triples (OWL), 4.3
Millionen Dokumente
Kowari: 1 Milliarde Triple
Unoptimiert, 7 Millionen Triples
Einfache Queries im Millisekundenbereich
Inferenzen (RDFS/OWL) je nach Komplexität Sekunden
bis Minutenbereich
25
http://kmi.tugraz.at
November 2007 Wissenstechnologie @ kmi.tugraz.at
27. Leistungsfähigkeit
Zusammenfassung
Trade-off Generik vs. Leistung/Skalierbarkeit
Hohes Optimierungspotential:
Optimierte Strukturen einfach aus generischer Struktur
erzeugbar
Hoher Einfluss des Schemas resp. der Domäne
Nicht skalierbar auf Größe des Internets, jedoch skalierbar
auf Unternehmensgröße
Intelligente Kombination von Retrieval/Inferenz notwendig
27
http://kmi.tugraz.at
November 2007 Wissenstechnologie @ kmi.tugraz.at
28. Inhalt
SPARQL
Triple Stores
Suche im Semantic Web
Microformats und RDFa
28
http://kmi.tugraz.at
November 2007 Wissenstechnologie @ kmi.tugraz.at
29. Suche im Web derzeit
Suche nach Dokumenten
Information Retrieval
Z.B. Suchmaschinen
Dokumente und Anfrage werden auf Basis eines Modells
repräsentiert und verglichen
Unterschiedliche Modelle
Bsp.: Vektorraummodell
29
http://kmi.tugraz.at
November 2007 Wissenstechnologie @ kmi.tugraz.at
30. Vektorraummodell
Repräsentation der Dokumente als Vektoren
Vektor hat so viele Dimensionen
wie Terme (Wörter) im System
Wenn Wort in Dokument vorkommt
ist Komponente in Vektor 1, sonst 0 (vereinfacht!)
Anfrage wird ebenfalls als Vektor repräsentiert
Winkel zwischen Vektoren sagt über
deren Ähnlichkeit aus
Ähnlichstes Dokument zu Anfrage wird
als höchstes gereiht 30
http://kmi.tugraz.at
November 2007 Wissenstechnologie @ kmi.tugraz.at
32. Vektorraummodell
Repräsentation der Dokumente als Vektoren
Komponente in Termvektor = Anzahl des Wortes in
Dokument
Auch reelle Gewichtung der Terme in Vektoren
Termfrequenz (term frequency, tf)
Inverse Dokumentenhäufigkeit (inverse document
frequency, idf)
tfidf (tf*idf, tf/idf, tf-idf)
32
http://kmi.tugraz.at
November 2007 Wissenstechnologie @ kmi.tugraz.at
35. Vektorraummodell
Kosinusmaß
Normalisierung durch L2-Norm (Länge der Vektoren)
Keine Bevorteilung von langem Dokument in denen
viele, unterschiedliche Worte vorkommen
Variationen dieser Maße mit verschiedenen
Normalisierungen
35
http://kmi.tugraz.at
November 2007 Wissenstechnologie @ kmi.tugraz.at
36. Vergleich mit Suche in
wissensbasierten Systemen
Vorweg: Es existieren Ausnahmen und Mischformen
36
http://kmi.tugraz.at
November 2007 Wissenstechnologie @ kmi.tugraz.at
37. Art von Wiedergewonnenem
Information Retrieval
Unsicherheit, Vagheit
Wissensbasierte Systeme
Modelliertes Wissen ist wahr
37
http://kmi.tugraz.at
November 2007 Wissenstechnologie @ kmi.tugraz.at
38. Speicherort
Information Retrieval
Datenbanken
Dokumente auf File-Servern
jetzt Web
Wissensbasierte Systeme
Wissensbasen (Datenbanken),
Zukunft: Verteilte Wissensbasen im Web
38
http://kmi.tugraz.at
November 2007 Wissenstechnologie @ kmi.tugraz.at
39. Abfragen
Information Retrieval
Oft eingeben von Suchtermen
Meist Laien
Wissensbasierte Systeme
Formulierung von komplexeren Anfragen
Meist Experten
39
http://kmi.tugraz.at
November 2007 Wissenstechnologie @ kmi.tugraz.at
40. Ergebnisse
Information Retrieval
Gereiht nach der vermuteten Relevanz
für den Suchenden
Wissensbasierte Systeme
Alle Ergebnisse sind Relevant
40
http://kmi.tugraz.at
November 2007 Wissenstechnologie @ kmi.tugraz.at
41. Repräsentation
Information Retrieval
Unterschiedliche Modelle
Dokumente und Anfrage werden auf Basis des Modells
repräsentiert und verglichen
Bsp.: Vektorraummodell
Wissensbasierte Systeme
Unterschiedliche Repräsentationsformen von Wissen
Formulierung von Anfragen für Repräsentationsform
41
Bsp.: RDF, OWL und SPARQL
http://kmi.tugraz.at
November 2007 Wissenstechnologie @ kmi.tugraz.at
42. Weiter Punkte?
42
http://kmi.tugraz.at
November 2007 Wissenstechnologie @ kmi.tugraz.at
43. Inhalt
SPARQL
Triple Stores
Suche im Semantic Web
Microformats und RDFa
43
http://kmi.tugraz.at
November 2007 Wissenstechnologie @ kmi.tugraz.at
44. Microformats
Einbetten von semantischer Zusatzinformation in
XHTML Seiten
Lowercase semantic web
add semantics to today's web
rather than create a future web
http://www.tantek.com/presentations/2004etech/realw
orldsemanticspres.html
44
http://kmi.tugraz.at
November 2007 Wissenstechnologie @ kmi.tugraz.at
45. Microformats - Nutzen
Extrahieren von Daten aus menschenlesbaren Webseiten
durch Programme (smart scraping)
http://microformats.org/wiki/what-can-you-do-with-
microformats
Um z.B.:
Adressen aus Webseite in Adressbuch zu übertragen
Termin aus Webseite in Kalender zu übertragen
Rezensionen aus unterschiedlichen Quellen zu
aggregieren
Verteiltes soziales Netzwerk aufzubauen
45
http://kmi.tugraz.at
November 2007 Wissenstechnologie @ kmi.tugraz.at
46. Microformats - Beispiel
Kontaktdaten:
Peter Scheir
TU Graz
peter.scheir@TUGraz.at
Inffeldgasse 21a
Graz , 8010 AUSTRIA
In HTML:
<div>Peter Scheir</div>
<div>TU Graz</div>
<div><a
href=quot;mailto:peter.scheir@TUGraz.atquot;>peter.scheir@
TUGraz.at</a></div>
46
<div>Inffeldgasse 21a</div>
<div>Graz, 8010 AUSTRIA</div>
http://kmi.tugraz.at
November 2007 Wissenstechnologie @ kmi.tugraz.at
47. Microformats - Beispiel
Kontaktdaten:
Peter Scheir
TU Graz
peter.scheir@TUGraz.at
Inffeldgasse 21a
Graz , 8010 AUSTRIA
Als Microformat (hcard):
<div id=quot;hcard-Peter-Scheirquot; class=quot;vcardquot;>
<div class=quot;fnquot;>Peter Scheir</div>
<div class=quot;orgquot;>TU Graz</div>
<div><a class=quot;emailquot;
href=quot;mailto:peter.scheir@TUGraz.atquot;>peter.scheir@TUGraz
.at</a></div>
<div class=quot;adrquot;>
<div class=quot;street-addressquot;>Inffeldgasse 21a</div>
<span class=quot;localityquot;>Graz</span>
,<span class=quot;postal-codequot;>8010</span>
<span class=quot;country-namequot;>AUSTRIA</span>
47
</div></div>
http://kmi.tugraz.at
November 2007 Wissenstechnologie @ kmi.tugraz.at
48. Microformats
Verschiedene Microformats für verschieden Zwecke
hCard: Kontaktdaten von Personen und Organisationen
hCalendar: Kalendereinträge
hReview: Bewertung
XFN: Sozial Netzwerke
rel-license: Lizenzen
rel-tag: Tags, Schlüsselwörter, Kategorien
…
http://microformats.org/wiki/Main_Page
48
http://kmi.tugraz.at
November 2007 Wissenstechnologie @ kmi.tugraz.at
49. Microformats
the microformats principles
solve a specific problem
start as simple as possible
design for humans first, machines second
reuse building blocks from widely adopted standards
modularity / embeddability
enable and encourage decentralized development,
content, services
http://microformats.org/about/
49
http://kmi.tugraz.at
November 2007 Wissenstechnologie @ kmi.tugraz.at
51. RDFa
Einbetten von semantischer Zusatzinformation in XHTML
Seiten
Einbetten von RDF in XHTML Seiten
Reuse von RDF (Schema), OWL Vokabularien
RDFa Primer
W3C Working Draft 26 October 2007
http://www.w3.org/TR/xhtml-rdfa-primer/
RDFa in XHTML: Syntax and Processing
Working Draft 18 October 2007
http://www.w3.org/TR/rdfa-syntax/
51
http://kmi.tugraz.at
November 2007 Wissenstechnologie @ kmi.tugraz.at
52. RDFa - Beispiel
Kontaktdaten:
Peter Scheir
TU Graz
peter.scheir@TUGraz.at
Inffeldgasse 21a
Graz , 8010 AUSTRIA
In RDFa:
<div xmlns:contact=quot;http://www.w3.org/2001/vcard-rdf/3.0#quot;
about=quot;http://www.kmi.tugraz.at/staff/peterquot;>
<div property=quot;contact:fnquot;>Peter Scheir</div>
<div property=quot;contact:orgquot;>TU Graz</div>
<div><a rel=quot;contact:emailquot;
href=quot;mailto:peter.scheir@TUGraz.atquot;>peter.scheir@TUGraz.at<
/a>
</div>
<div property=quot;contact:adrquot;>
<div property=quot;contact:Streetquot;>Inffeldgasse 21a</div>
<span property=quot;contact:Localityquot;>Graz</span>
,<span property=quot;contact:Pcodequot;>8010</span>
52
<span property=quot;contact:Countryquot;>AUSTRIA</span>
</div></div>
http://kmi.tugraz.at
November 2007 Wissenstechnologie @ kmi.tugraz.at
53. RDFa
Verwendung von Namespaces
Reuse von RDF (Schema), OWL Vokabularien
Verwendete XHTML Attribute:
@rel – Verbindung zwischen zwei Ressourcen (Prädikat)
@rev – Umgekehrte Verbindung zwischen zwei Ressourcen (Prädikat)
@href – Ziel Ressource einer Verbindung (Objekt)
@src - Ziel Ressource einer Verbindung mit eingebetteter Ressource (Objekt)
Zusätzliche XHTML Attribute von RDFa:
@about – Die Ressource über die etwas ausgesagt wird (Subjekt)
@property – Verbindung zwischen Subjekt und einem Literal (Prädikat)
@resource – Ziel Ressource einer Verbindung – nicht klickbar (Objekt)
@datatype – Datentyp eines Literals
@content – maschinenlesbarer Inhalt eines Literals
53
@instanceof – Ressource ist Instanz von Klasse (Subjekt)
http://kmi.tugraz.at
November 2007 Wissenstechnologie @ kmi.tugraz.at
54. Ende
Danke für die Aufmerksamkeit
Fragen / Kommentare?
peter.scheir@tugraz.at
54
http://kmi.tugraz.at
November 2007 Wissenstechnologie @ kmi.tugraz.at
55. License
This work is licensed under the Creative Commons
Attribution 2.0 Austria License.
To view a copy of this license, visit
http://creativecommons.org/licenses/by/2.0/at/.
Contributors:
Michael Granitzer
Peter Scheir
Klaus Tochtermann
55
http://kmi.tugraz.at
November 2007 Wissenstechnologie @ kmi.tugraz.at