Metadaten
für Medienarchive
Dr. Harald Sack
Hasso-Plattner-Institut Softwaresystemtechnik GmbH
Universität Potsdam
09. Apr...
2
Metadaten für Medienarchive
Dr. Harald Sack
• 1990 Dipl.-Inform., Universität der Bundeswehr, München
• 2002 Dr. rer. na...
http://hpi.uni-potsdam.de/
Hasso Plattner Institute für IT Systems Engineering
Universität Potsdam
Mittwoch, 9. April 14
• Research Topics
• Semantic Web Technologies
• Knowledge Engineering
• Knowledge Mining
• Multimedia Analysis & Retrieval...
5
http://www.yovisto.com/
Mittwoch, 9. April 14
http://semex.hpi.uni-potsdam.de/semex/
Mittwoch, 9. April 14
7
C. Hentschel, H. Sack, et al.,
Open up cultural heritage in video archives with mediaglobe, I2CS 2012
http://semex.hpi.u...
Mittwoch, 9. April 14
Kurze Vorstellungsrunde
• Name, Organisation
• Erfahrung(en) mit
Metadaten?
• Erwartung(en) an das
Seminar?
Mittwoch, 9. A...
Metadaten
für Medienarchive
Mittwoch, 9. April 14
Metadaten
für Medienarchive
Agenda
•Einführung ins Thema
•Metadatenstandards
•semantische Metadaten
•Linked (Open) Data
•B...
Mittwoch, 9. April 14
13
Wie kann ich etwas finden...?
Mittwoch, 9. April 14
14
Wie kann ich etwas wiederfinden...?
Mittwoch, 9. April 14
Turmbau zu Babel, Pieter Brueghel, 1563
Wie beschaffen wir uns eigentlich Informationen....?
Mittwoch, 9. April 14
Turmbau zu Babel, Pieter Brueghel, 1563
16
•Wie beschaffen wir uns eigentlich Informationen über Dinge?
•...über abstrakte...
17
Wir schlagen einfach unter dem jeweiligen NAMEN nach...
Mittwoch, 9. April 14
18
•...Wir schlagen einfach unter den entsprechenden Namen nach
„Rache / Revenge“„Brave New World“
ⓒ Harald Sack
„Der blau...
19
Brave New World
siehe auch Schöne neue Welt
Welt wohin? : ein Roman der
Zukunft
Wackere neue Welt : ein Roman der
Zukun...
20
Information und wie man sie findet
•...früher ging man in die Bibliothek
Brave New World. - Aldous H U X L E Y. -
The A...
21
Information und wie man sie findet
http://www.worldcat.org
•...heute geht man ins WWW
Mittwoch, 9. April 14
22
Information und wie man sie findet
http://www.worldcat.org
•...heute geht man ins WWW
Mittwoch, 9. April 14
Wie finde ich etwas in
einem Medienarchiv?
Mittwoch, 9. April 14
24
Was sind
Metadaten?
Mittwoch, 9. April 14
25
„Metadaten sind Daten, die Informationen über andere Daten
enthalten“ und „Metadaten werden benötigt, um in der Lage zu...
Warum Metadaten?
• Zugang zu Informationen/Objekten ermöglichen
• Automatische Verarbeitung
• Interoperabilität
• Datenaus...
•Einfaches Beispiel:
bibliografische Metadaten
27
Identifikation über
ISBN / ISSN
Autor(en)
Titel
...
Klassifikation über
Kat...
Metadatenarten
28
Grundlegende Metadatenarten im Dokumentenmanagement. vgl. Schütz (2004) Dokumentenmanagement S. 340.
Mit...
Metadatenarten
29
Formen von Metadaten. vgl. Stock (2008) Wissensrepräsentation S. 123 ff.
Mittwoch, 9. April 14
Charakteristika von Metadaten
30
Charakteristika und Eigenschaften von Metadaten. vgl. Gilliland (2008) Setting the Stage ...
Funktionale Einteilung von
Metadaten
31
kashyap und Sheth (1998)
Mittwoch, 9. April 14
Ausprägungsformen von Metadaten
32
• strukturierte Metadaten
• strukturierte typisierte Metadaten
• unstrukturierte Metada...
33
	

 •	

 Title: Namen des Objekts.
	

 •	

 Creator: Personen, Organisationen oder Dienste, die in erster Linie für den...
34
Tierreich (Animalia)
Wirbeltiere
Mensch (Homo)
Moderner Mensch (Homo sapiens)
Menschenartige (Hominidae)
Primaten
Säuge...
35
Hauptklassen
000 Inf.-Wiss., allg. Werke
100 Philosophie
200 Religion
300 Sozialwissenschaften
400 Sprachen
500 Naturwi...
Unstrukturierte Metadaten
• als unstrukturierte Metadaten werden textuelle Metadaten
bezeichnet, deren Semantik nicht durc...
37
Autoritative vs. nicht-autoritative Metadaten
• Autoritative Metadaten
stammen von einer zuverlässigen
(autoritativen) ...
38
Autoritative vs. nicht-autoritative Metadaten
• Nicht-autoritative Metadaten
stammen von einer prinzipiell
unzuverlässi...
39
AutorRessource
Benutzer
autoritative Metadaten
Apfel
Frucht
Apfel
apple
Obst
Frühstück
kaufen
Kollaborative Annotation ...
40
Kollaborative Annotation -- Social Tagging
http://www.wordle.net/
Mittwoch, 9. April 14
Metadaten
für Medienarchive
Agenda
•Einführung ins Thema
•Metadatenstandards
•semantische Metadaten
•Linked (Open) Data
•B...
Standardisierung
Mittwoch, 9. April 14
Warum Standards?
Standards steigern die Effizienz
• Automatisierung
• Modularisierung
• Qualitätssicherung
• Vergleichbarke...
Warum Standards?
Standards können aber auch zu ungewünschter Konformität führen...
Mittwoch, 9. April 14
... gibt es für fast jeden Zweck, Funktion, Domäne oder Community...
AGLS, APPM, DACS, EAC-CPF, EAD, GILS,
ISAAR(CPF), ISA...
Typen und Notation von Metadatenstandards
Typen von Standards
Struktur-Semantik-Standards
standardisieren Struktur und Bed...
Normdaten
GND: Gemeinsame Norm Dateien
/ 106
■ Normdatei für Personen, Körperschaften, Kongresse, Geografika,
Sachschlagwör...
/ 10648
Normdaten
GND: Gemeinsame Normdateien
Mittwoch, 9. April 14
/ 106
UDC: Universale Dezimalklassifikation
■ virtuelle internationale Normdatei für Personendaten
■ Gemeinschaftsprojekt v...
/ 106
Normdaten
DDC: Dewey Decimal Classification
■ 10 Haupttafeln,
■ Alle untergeordneten Klassen erfüllen die Merkmale ih...
/ 106
UDC: Universale Dezimalklassifikation
■ Prinzip der Facettenklassifikation >> +68.000 Klassennamen und Facetten
□ Haup...
Dublin Core
•Metadatenstandards
OAI-ORE
IPTC
MPEG-7
MPEG-21
BBC SMEF
SMPTE 377M
TV-Anytime
REM
EAD
CIDOC-CRM
FIAF Catalogi...
/ 10653
to be continued...
Mittwoch, 9. April 14
Metadaten
für Medienarchive
Agenda
•Einführung ins Thema
•Metadatenstandards
•semantische Metadaten
•Linked (Open) Data
•B...
55
„People can‘t share knowledge if
they don‘t speak a common language“
Thomas Davenport (1997)
Turmbau zu Babel, Pieter B...
56
Wahrheiten
(Truths)
Annahmen
(Beliefs)
Wissen
(Knowledge)
Klassische Definition:
„Wissen ist eine Teilmenge aller wahre...
57
Semantische Metadaten
Mittwoch, 9. April 14
58
Semantische Metadaten
• sind strukturierte/unstrukturierte Metadaten
• Semantik (Bedeutung) der Metadaten ist formal de...
59
3. Wissensrepräsentation und Logik
3.1 Ontologien in Philosophie und Informatik
Raffael: Die Schule von Athen, 1510-11
...
60
Raffael: Die Schule von Athen, 1510-11Christian Wolff: Philosophia prima sive Ontologia, 1729
• ον
 [griech.] Partizip ...
61
3. Wissensrepräsentation und Logik
3.1 Ontologien in Philosophie und Informatik
Raffael: Die Schule von Athen, 1510-11
...
62
3. Wissensrepräsentation und Logik
3.1 Ontologien in Philosophie und Informatik
Raffael: Die Schule von Athen, 1510-11
...
63
3. Wissensrepräsentation und Logik
3.1 Ontologien in Philosophie und Informatik
Raffael: Die Schule von Athen, 1510-11
...
64
3. Wissensrepräsentation und Logik
3.1 Ontologien in Philosophie und Informatik
Raffael: Die Schule von Athen, 1510-11
...
65
Semantische Metadaten
Ontologien
"An ontology is an explicit, formal specification of a
shared conceptualization. The t...
Semantische Metadaten
Semiotisches Dreieck
66
Symbol Gegenstand
steht für
„Golf“
ruft hervor referenziert
Konzept
verwende...
67
Publikation
Buch
ist eine
Zeitschrift
ist eine
Verlag
verlegt
• Titel
• Schlüsselwörter
• ...
Eigenschaften
Autorverfas...
68 • erlauben die Festlegung formaler Axiome
• z.B. „Es ist nicht möglich, dass das Publikationsdatum
vor dem Geburtsdatum...
6916
Ontologietypen
Mittwoch, 9. April 14
allgemeine, bereichsübergreifende Ontologien

 
 (beschreibt sehr generelle Konzepte

 
 wie z.B. Zeit, Raum,Vorgang

 
 u...
7116 allgemeine, bereichsübergreifende Ontologien

 
 (beschreibt sehr generelle Konzepte

 
 wie z.B. Zeit, Raum,Vorgang
...
7216 allgemeine, bereichsübergreifende Ontologien

 
 (beschreibt sehr generelle Konzepte

 
 wie z.B. Zeit, Raum,Vorgang
...
7316 allgemeine, bereichsübergreifende Ontologien

 
 (beschreibt sehr generelle Konzepte

 
 wie z.B. Zeit, Raum,Vorgang
...
Ontologietypen und -kategorien
7416 allgemeine, bereichsübergreifende Ontologien

 
 (beschreibt sehr generelle Konzepte

...
lightweight ontologies heavyweight ontologies
kontrolliertes
Vokabular
(nach Lassila/McGuinnes, 2001)
Thesauri
Begriffe/
G...
Terminologien und Vokabulare
Mittwoch, 9. April 14
Datenbank
Ordnungssystem
• Terminologische Kontrolle: löst Bedeutungsvielfalt durch Hierarchie o. Typisierung
Bank (Sitzge...
• Kontrolliertes Vokabular:
endliche Liste von Begriffen (z.B. Kataloge)
• Glossar:
eine endliche Liste von Begriffen und ...
Thesaurus
Unterhose
Schlüpfer
Synonyme
Slip
Tanga
Liebestöter
Boxershort
Spezialisierungen
Unterwäsche
Oberbegriff
Unterhe...
8016 Taxonomiesysteme
• auch Klassifikationssystem, Nomenklatur, …
• in der Wissenschaft meist Einteilung in (mono-)hierarc...
8116
• Carl v. Linné (um 1740) schafft
ein einfaches, noch heute
gebräuchliches hierarchisches
Klassifikationsschema für Ti...
unterschiedliche Tierkategorien in "einer gewissen chinesischen Enzyklopädie"
nach Jorge Luis Borges:

 - dem Kaiser gehör...
Ontologien und die Wirklichkeit
Mittwoch, 9. April 14
Metadaten
für Medienarchive
Agenda
•Einführung ins Thema
•Metadatenstandards
•semantische Metadaten
•Linked (Open) Data
•B...
4242
42
42
24
4242
42
42
42
42
85
Beispiel aus dem aktuellen HPI-Seminar
A LOD of Movies
Mittwoch, 9. April 14
86
■Du suchst Informationen zu einem Film?
■kein Problem......
Mittwoch, 9. April 14
87
■Du suchst Informationen zu einem Film?
■kein Problem......
■....solange Du den Titel kennst
■....solange Du weißt, wer...
88
Wer war das nochmal, der diesen alten Film
mit der Dings gedreht hat, na dieser
schwedischen Filmdiva, die in dem Film ...
89
Wer war das nochmal, der diesen alten Film
mit der Dings gedreht hat, na dieser
schwedischen Filmdiva, die in dem Film ...
90
Linked Open Data
Mittwoch, 9. April 14
91
dbedia-owl:Film
yyyyyyy
xxxxxxxxx
dbpedia-owl:director
rdf:type
zzzzzzzdbpedia-owl:starring
dbpedia-owl:Actor
rdf:type
...
Mittwoch, 9. April 14
Ernst Lubitsch
Mittwoch, 9. April 14
■Was kann man mit diesen vielen Metadaten anfangen?
□semantische Suche
□explorative Suche
□Fact Retrieval
□Question Answer...
Linked (Open) Data
Metadaten mit einheitlicher Schnittstelle
Dokument
Dokument
Dokument
Dokument
Dokument
Hyperlink
Hyperl...
Linked (Open) Data
Metadaten mit einheitlicher Schnittstelle
•Ist Information heute nicht im WWW vorhanden
(= über einen W...
Linked (Open) Data
Metadaten mit einheitlicher Schnittstelle
•Das WWW ist für die Nutzung durch den Menschen bestimmt
•Das...
Linked (Open) Data
Metadaten mit einheitlicher Schnittstelle
•Daten im WWW sind verschlossen in abgeschirmten
„Datensilos“...
Linked (Open) Data
Metadaten mit einheitlicher Schnittstelle
•Aber es gibt eine ganze Reihe unterschiedlicher (proprietäre...
100
http://www.w3.org/2009/Talks/0204-ted-tbl/#(22)
Die Probleme liegen auf der Hand....
Mittwoch, 9. April 14
Linked (Open) Data
Metadaten mit einheitlicher Schnittstelle
•...Öffnen der proprietären Datensilos
•...Veröffentlichung a...
Linked Data Principles
Database 1 Database 2 Database 3 Database 4
RDF Data RDF Data RDF Data RDF Data
RDF Links
RDF Links...
103
Die Anwendung der Linked Data Prinzipien führt
zur Entstehung eines ,Web of Data‘
Mittwoch, 9. April 14
Linked (Open) Data
Metadaten mit einheitlicher Schnittstelle
http://lod-cloud.net/
http://dbpedia.org/
Mittwoch, 9. April ...
105
DBpedia
□Zentraler Bestandteil: Wikipedia Info-Boxen
Mittwoch, 9. April 14
106
DBpedia
□Zentraler Bestandteil: Wikipedia Info-Boxen
Mittwoch, 9. April 14
107
DBpedia
□Zentraler Bestandteil: Wikipedia Info-Boxen
Mittwoch, 9. April 14
108
DBpedia
□Zentraler Bestandteil: Wikipedia Info-Boxen
Mittwoch, 9. April 14
109
Linked Open Data
■ offen zugängliche Linked Data Ressourcen im WWW, d.h. lizensiert als
„Creative Common CC-BY“
■ 5-St...
110
Linked Data Examples
□ BBC Music
(http://www.bbc.co.uk/music)
Mittwoch, 9. April 14
Linked (Open) Data
Metadaten mit einheitlicher Schnittstelle
Welche Vorteile bietet der Linked Data Ansatz?
• vormals stru...
/ 106112
GND
Person
ULAN
FIAF Corp.
Names
GTAA
Names
VIAF
PlaceTGN
UKAT
FIAF Country
Listings
Geonames
OpenStreetMap
ZBW I...
/ 106113
DTD
SGML
*1986
XML
XLink
XPointer
XPath
XSL
XSLT
XQuery
Schema
*1996
HTML
*1990
XHTML
*2000
RDF
*1997
RDF(S)
*199...
/ 106
■ XML hat sich als Austauschformat für
Metadaten etabliert, weil:
□ Einfacheit/Lesbarkeit
□ Plattform- und Anwendung...
http://swib.org/swib10/vortraege/swib10_gradmann.pdf
RDF: Resource Description Framework
Mittwoch, 9. April 14
□ Aussagen über Web-Ressourcen in Form von Tripeln (Subjekt - Prädikat - Objekt)
□ RDF referenziert Terme in externen Name...
RDF: Resource Description Framework
dbpedia:Greta_Garbo
dbpedia-owl:Actor
rdf:type
dbpedia-owl: SwedishFilmActor
rdf:type
...
mg:hasDepictedObject
"2011-09-24T14:00:00Z"^^xsd:dateTime
owl:SameAs
rdfs:label
mg:Annotation/Ann42
:Annotation
mg:annotat...
Mittwoch, 9. April 14
Metadaten
für Medienarchive
Agenda
•Einführung ins Thema
•Metadatenstandards
•semantische Metadaten
•Linked (Open) Data
•B...
/ 106
SKOS Simple Knowledge Organisation System
121
SKOS http://www.w3.org/2004/02/skos/
Unterstützt:
■ Hierarchie
■ Assoz...
/ 106122
http://www.jenitennison.com/visualisation/offences.html
Mittwoch, 9. April 14
/ 106123
Dublin Core
•Mindestsatz an Metadaten
(Titel,Autor,Thema, Rechte...)
•generisches Format
•Empfehlungen zur Kodier...
/ 106
...und in kleinen Filmarchiven?
□Themen-, Genre- und FormVokabulare oft nur in Englisch
□Vokabulare deutscher Rundfu...
/ 106
■ Auf Grundlage von DC entwickelt
■ Urheber: public broadcasting community (USA)
□ Unterstützt analoge und digitale ...
/ 106126
CWS Cinematographic Works Standard
• CWS (Cinematographic Works Standard)
• Europäische Norm für Filmarchive (EN ...
/ 106127
MPEG-7
• Vorschriften zur Kodierung von AV-Metadaten
• spatio-temporale (Frame, Segment, Streams)
• technische (A...
/ 106128
MPEG-21
MPEG-21
Benutzer
Workflows
Software
...
Gebühr
Region/Ort
Zeit/Dauer
Zugangscode
...
Filme
Metadaten
Lizen...
/ 106129
BMF: Broadcast Metadata exchange Format
•basiert auf FESAD (Fernseharchiv Datenbank)
•Module
•Erwerbung,
•Produkt...
/ 106
Ontology for Media Resources
130
■ W3C standardisiert
Empfehlung für Multimediadaten im Internet
■ simples erweiterb...
/ 106
BBC Program Ontology
131
http://purl.org/ontology/po/
Mittwoch, 9. April 14
/ 106132
OAI-ORE
• OAI-ORE (Open Archives - Object Reuse and Exchange)
• strukturelle Metadaten für Webressourcen
(Zusamme...
/ 106133
Definition of the Europeana Data Model elements
Version 5.2, 30/7/2010
Mittwoch, 9. April 14
/ 106134
Dublin Core
OAI-ORE
BBC SMEF
P_Meta
TV-Anytime
EAD
ISAD(G)*
CIDOC-CRM
WWWBibliotheken
Archive AV Sektor
VRA
FIAF*...
/ 106
EUROPEANA
135
Mittwoch, 9. April 14
/ 106136
Mittwoch, 9. April 14
/ 106137
Mittwoch, 9. April 14
http://semex.hpi.uni-potsdam.de/semex/
Mittwoch, 9. April 14
139
C. Hentschel, H. Sack, et al.,
Open up cultural heritage in video archives with mediaglobe, I2CS 2012
http://semex.hpi...
Mittwoch, 9. April 14
How to Search in
Multimedia Archives?
Mittwoch, 9. April 14
142
Searching the Web
Mittwoch, 9. April 14
143
Searching the Web
Mittwoch, 9. April 14
144
Mittwoch, 9. April 14
145
Google Knowledge Graph
= “search results with semantic-
search information gathered from
a wide variety of sources“
Mi...
Google Multimedia Search
Mittwoch, 9. April 14
‣Google Multimedia Search relies on text-based
metadata and link context
How does Google find Multimedia?
Mittwoch, 9. Apri...
Seach by Media Content
Mittwoch, 9. April 14
The Ordinary Archive is a Small World...
Neil Armstrong
Mittwoch, 9. April 14
But, wouldn‘t it be nice, if.....
Neil Armstrong
...but maybe you are also interested in
- Buzz Aldrin (1 videos)
- John G...
How to Search in
Multimedia Archives?
Mittwoch, 9. April 14
Jörg Waitelonis, Hasso-Plattner-Institut Potsdam
Content-Based Search in Multimedia
Archives relies on text-based Metadata...
image
Visual
Concept
Detection
Text
Recognition
Visual
Analysis
(Selected) Automated Media Analysis
Face
Detection
Face
De...
Structural Video Analysis
• Decomposition of time-based media into meaningful media
fragments of coherent content that can...
Video Optical Character Recognition (OCR)
• Video OCR is much more difficult
than traditional print OCR
• fast detection/fil...
• Face Detection
Detect candidate image regions
in a video frame that depict a
human face
• Face Tracking
Track a detected...
Visual Concept Detection
• Adaption of traditional ,Bag of Words‘
approach from text retrieval
• Image is expressed as vec...
Annotation of Audiovisual Data
Metadata Extraction
Metadata (e.g. MPEG-7)
...
<SpatialDecomposition>
<TextAnnotation>
<Key...
www.yovisto.com
Mittwoch, 9. April 14
• Authoritative Metadata
• structured data
• semi-structured data
• natural language text
• Non-authoritative Metadata
• (...
Neil Armstrong
Astronaut
is a
Person
is a
Science Occupation
subClassOf
Employment
subClassOf
Entities
Ontologies
has an
,...
Where does the knowledge come from...?
Mittwoch, 9. April 14
Astronaut Person
Neil Armstrong
Science Occupation
Employment
is a is a
is a
is a has a
Web of Data
Mittwoch, 9. April 14
Web of Data = Linked Open Data
But what, if there is no trivial unique identification?
Armstrong
user tag
Mittwoch, 9. Apri...
Armstrong
Mittwoch, 9. April 14
Armstrong
Armstrong+
Moon
Mittwoch, 9. April 14
Web of Data = Linked Open Data
Understanding requires Context
Armstrong
Moon
EagleSpace
Mittwoch, 9. April 14
42
42
42
42
24
4242
42
42
42
42
Semantic Analysis
Semantics is determined by Context
Context Item
N.Steinmetz, H.Sack: Sem...
Armstrong
George Armstrong Custer
Neil Armstrong
The Armstrong Twins
Armstrong, Florida
Armstrong, Ontario
Armstrong Autom...
Select matching entities from all possible candidate entities:
• Popularity based strategies
• Linguistical strategies
• S...
Armstrong
George Armstrong Custer
The Armstrong Twins
Armstrong, Florida
Armstrong, Ontario
Armstrong Automobile
Joe Armst...
42
42
42
42
24
4242
42
42
42
42
Jörg Waitelonis, Hasso-Plattner-Institut Potsdam
172
Semantically Annotated Multimedia
Vid...
Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
173
Explorative Search
dbpedia-owl:m...
Exploratory Search and Serendipity
•Find something that you were not looking for on purpose ...
dbpedia:Buzz_Aldrin
dbpedi...
Metadaten
für Medienarchive
Contact:
Dr. Harald Sack
Hasso-Plattner-Institute for IT Systems Engineering
University of Pot...
176
Der Online-Kurs
startet am 26.05.2014
Mittwoch, 9. April 14
Nächste SlideShare
Wird geladen in …5
×

Metadaten für Medienarchive

4.793 Aufrufe

Veröffentlicht am

Archivseminar "Metadaten für Medienarchive" vom 9. April 2014, Potsdam.

Veröffentlicht in: Bildung
0 Kommentare
3 Gefällt mir
Statistik
Notizen
  • Als Erste(r) kommentieren

Keine Downloads
Aufrufe
Aufrufe insgesamt
4.793
Auf SlideShare
0
Aus Einbettungen
0
Anzahl an Einbettungen
11
Aktionen
Geteilt
0
Downloads
23
Kommentare
0
Gefällt mir
3
Einbettungen 0
Keine Einbettungen

Keine Notizen für die Folie

Metadaten für Medienarchive

  1. 1. Metadaten für Medienarchive Dr. Harald Sack Hasso-Plattner-Institut Softwaresystemtechnik GmbH Universität Potsdam 09. April 2014 Mittwoch, 9. April 14
  2. 2. 2 Metadaten für Medienarchive Dr. Harald Sack • 1990 Dipl.-Inform., Universität der Bundeswehr, München • 2002 Dr. rer. nat., Universität Trier • 2003 PostDoc, Universität Jena • 2009 Senior Researcher, Hasso Plattner Institut, Universität Potsdam Mittwoch, 9. April 14
  3. 3. http://hpi.uni-potsdam.de/ Hasso Plattner Institute für IT Systems Engineering Universität Potsdam Mittwoch, 9. April 14
  4. 4. • Research Topics • Semantic Web Technologies • Knowledge Engineering • Knowledge Mining • Multimedia Analysis & Retrieval • Information Retrieval • Data/Information Visualization • Research Projects: Hasso Plattner Institut für IT Systems Engineering Semantic Technologies & Multimedia Retrieval Research Group Mittwoch, 9. April 14
  5. 5. 5 http://www.yovisto.com/ Mittwoch, 9. April 14
  6. 6. http://semex.hpi.uni-potsdam.de/semex/ Mittwoch, 9. April 14
  7. 7. 7 C. Hentschel, H. Sack, et al., Open up cultural heritage in video archives with mediaglobe, I2CS 2012 http://semex.hpi.uni-potsdam.de/semex/ Mittwoch, 9. April 14
  8. 8. Mittwoch, 9. April 14
  9. 9. Kurze Vorstellungsrunde • Name, Organisation • Erfahrung(en) mit Metadaten? • Erwartung(en) an das Seminar? Mittwoch, 9. April 14
  10. 10. Metadaten für Medienarchive Mittwoch, 9. April 14
  11. 11. Metadaten für Medienarchive Agenda •Einführung ins Thema •Metadatenstandards •semantische Metadaten •Linked (Open) Data •Beispiele Mittwoch, 9. April 14
  12. 12. Mittwoch, 9. April 14
  13. 13. 13 Wie kann ich etwas finden...? Mittwoch, 9. April 14
  14. 14. 14 Wie kann ich etwas wiederfinden...? Mittwoch, 9. April 14
  15. 15. Turmbau zu Babel, Pieter Brueghel, 1563 Wie beschaffen wir uns eigentlich Informationen....? Mittwoch, 9. April 14
  16. 16. Turmbau zu Babel, Pieter Brueghel, 1563 16 •Wie beschaffen wir uns eigentlich Informationen über Dinge? •...über abstrakte Konzepte? •...etwa über ein Buch? ⓒ Harald Sack •...über einen Film? ⓒ Friedrich Murnau Stiftung Information und wie man sie findet Mittwoch, 9. April 14
  17. 17. 17 Wir schlagen einfach unter dem jeweiligen NAMEN nach... Mittwoch, 9. April 14
  18. 18. 18 •...Wir schlagen einfach unter den entsprechenden Namen nach „Rache / Revenge“„Brave New World“ ⓒ Harald Sack „Der blaue Engel“ ⓒ Friedrich Murnau Stiftung Information und wie man sie findet Mittwoch, 9. April 14
  19. 19. 19 Brave New World siehe auch Schöne neue Welt Welt wohin? : ein Roman der Zukunft Wackere neue Welt : ein Roman der Zukunft kontrolliertes Vokabular Information und wie man sie findet •...früher ging man in die Bibliothek Mittwoch, 9. April 14
  20. 20. 20 Information und wie man sie findet •...früher ging man in die Bibliothek Brave New World. - Aldous H U X L E Y. - The Albatros Continental Library, 47 (Hamburg usw., Albatros Verlag, 1933) 257 S. 8“ II 1, 2506, 34548 Metadaten Identifier/ Locator Mittwoch, 9. April 14
  21. 21. 21 Information und wie man sie findet http://www.worldcat.org •...heute geht man ins WWW Mittwoch, 9. April 14
  22. 22. 22 Information und wie man sie findet http://www.worldcat.org •...heute geht man ins WWW Mittwoch, 9. April 14
  23. 23. Wie finde ich etwas in einem Medienarchiv? Mittwoch, 9. April 14
  24. 24. 24 Was sind Metadaten? Mittwoch, 9. April 14
  25. 25. 25 „Metadaten sind Daten, die Informationen über andere Daten enthalten“ und „Metadaten werden benötigt, um in der Lage zu sein, einen bestimmten Zweck zu erfüllen (oder) ein bestimmtes Ergebnis zu erreichen“ (informelle Definition, Wikipedia) „Metadaten sind strukturierte, kodierte Daten, die Charakteristika informationstragender Entitäten beschreiben, zum Zweck der Identifikation, Recherche, Beurteilung und der Verwaltung der damit beschriebenen Entitäten.“ (W.R. Durell, 1985) „Metadaten sind maschinenlesbare Informationen über elektronische Ressourcen oder andere Dinge“ (W3C) Metadaten Mittwoch, 9. April 14
  26. 26. Warum Metadaten? • Zugang zu Informationen/Objekten ermöglichen • Automatische Verarbeitung • Interoperabilität • Datenaustausch und Datenintegration • Sichtbarkeit erhöhen (z.B. Search Engine Optimization) • ... Mittwoch, 9. April 14
  27. 27. •Einfaches Beispiel: bibliografische Metadaten 27 Identifikation über ISBN / ISSN Autor(en) Titel ... Klassifikation über Kategorien Schlüsselwörter Abstract / Zusammenfassung ... Mittwoch, 9. April 14
  28. 28. Metadatenarten 28 Grundlegende Metadatenarten im Dokumentenmanagement. vgl. Schütz (2004) Dokumentenmanagement S. 340. Mittwoch, 9. April 14
  29. 29. Metadatenarten 29 Formen von Metadaten. vgl. Stock (2008) Wissensrepräsentation S. 123 ff. Mittwoch, 9. April 14
  30. 30. Charakteristika von Metadaten 30 Charakteristika und Eigenschaften von Metadaten. vgl. Gilliland (2008) Setting the Stage S. 9 ff. Mittwoch, 9. April 14
  31. 31. Funktionale Einteilung von Metadaten 31 kashyap und Sheth (1998) Mittwoch, 9. April 14
  32. 32. Ausprägungsformen von Metadaten 32 • strukturierte Metadaten • strukturierte typisierte Metadaten • unstrukturierte Metadaten • semantische Metadaten bzw. semantisch annotierte Metadaten • autoritative Metadaten • nicht-autoritative Metadaten • kollaborativ erstellte Metadaten • ... Mittwoch, 9. April 14
  33. 33. 33 • Title: Namen des Objekts. • Creator: Personen, Organisationen oder Dienste, die in erster Linie für denInhalt des Objekts verantwortlich sind, z.B. Autorinnen oder Autoren. • Subject: Thema (topic) des Objekts, typischerweise Stichwörter, Deskriptoren oder Elemente eines Klassifikationssystems. • Description: Beschreibung des Inhalts des Objekts als Text, z.B. als Abstract oder Inhaltsverzeichnis. • Publisher: Personen oder Organisationen, die dafür verantwortlich sind, das Objekt zugänglich zu machen. • Contributor: Personen oder Organisationen, die wesentliche Beiträge zumInhalt des Objekts geleistet haben, aber nicht unter Creator genannt sind (Herausgebende, Übersetzerinnen, Illustratoren). .... Strukturierte Metadaten •bestehen aus Name-Werte Paaren (Autor = “Böll, Heinrich“) •sind typisiert (Feld “Autor“ ist vom Typ Zeichenkette) •Semantik strukturierter Daten beruht auf gemeinsamer Vereinbarung (z.B. Standardisierung bei Dublin Core) Mittwoch, 9. April 14
  34. 34. 34 Tierreich (Animalia) Wirbeltiere Mensch (Homo) Moderner Mensch (Homo sapiens) Menschenartige (Hominidae) Primaten Säugetiere (Mammaliae) Mehrzeller (Eukaria) Strukturierte Metadaten •können hierarchisch strukturiert werden (Taxonomie) Mittwoch, 9. April 14
  35. 35. 35 Hauptklassen 000 Inf.-Wiss., allg. Werke 100 Philosophie 200 Religion 300 Sozialwissenschaften 400 Sprachen 500 Naturwissenschaften 600 Technik (Angew. Wiss.) 700 Künste 800 Literatur 900 Geschichte DDC 23 (2011) •4 Bände •4000 Seiten •45.000 Klassen •96.000 Registerbegriffe DDC 1 (1876) •44 Seiten Strukturierte Metadaten • Klassifikationssysteme z.B. Dewey Decimal System Mittwoch, 9. April 14
  36. 36. Unstrukturierte Metadaten • als unstrukturierte Metadaten werden textuelle Metadaten bezeichnet, deren Semantik nicht durch vorherige Vereinbarung festgelegt ist, sondern durch ihren (natürlichsprachlichen) Inhalt. • Bsp.: Inhaltsangabe/abstract 36 Über die Entstehung der Arten von Charles Darwin (englisch: On the Origin of Species), veröffentlicht am 24. November 1859, ist ein wissenschaftliches Buch, das als grundlegendes Werk der Evolutionsbiologie gilt. Sein vollständiger Titel lautet: On the Origin of Species by Means of Natural Selection, or the Preservation of Favoured Races in the Struggle for Life. Als 1872 die sechste Auflage, das war die letzte von Darwin selbst bearbeitete, erschien, wurde der Kurztitel zu: The Origin of Species abgeändert. Darwin stellte in seinem Buch die wissenschaftliche Theorie vor, dass sich Populationen von Lebewesen im Laufe von Generationen durch den Prozess der natürlichen Selektion evolutionär verändern. Er lieferte zahlreiche Belege für die Vorstellung, dass die Vielfalt der heute existierenden Organismen von gemeinsamen Vorfahren abstammt. Auf Darwins Reise mit der HMS Beagle in den 1830er Jahren sammelte er erste Hinweise für seine Vorstellungen und vermehrte diese später durch Experimente und wissenschaftliche Korrespondenz.... Mittwoch, 9. April 14
  37. 37. 37 Autoritative vs. nicht-autoritative Metadaten • Autoritative Metadaten stammen von einer zuverlässigen (autoritativen) Quelle, wie z.B. • dem Autor der Original-Daten • einem ausgewiesenen Experten Mittwoch, 9. April 14
  38. 38. 38 Autoritative vs. nicht-autoritative Metadaten • Nicht-autoritative Metadaten stammen von einer prinzipiell unzuverlässigen Quelle, wie z.B. • den Benutzern • prominentes Beispiel: Social Tagging Systeme Mittwoch, 9. April 14
  39. 39. 39 AutorRessource Benutzer autoritative Metadaten Apfel Frucht Apfel apple Obst Frühstück kaufen Kollaborative Annotation -- Social Tagging © E.C. Publications, Inc. nicht-autoritative Metadaten Mittwoch, 9. April 14
  40. 40. 40 Kollaborative Annotation -- Social Tagging http://www.wordle.net/ Mittwoch, 9. April 14
  41. 41. Metadaten für Medienarchive Agenda •Einführung ins Thema •Metadatenstandards •semantische Metadaten •Linked (Open) Data •Beispiele Mittwoch, 9. April 14
  42. 42. Standardisierung Mittwoch, 9. April 14
  43. 43. Warum Standards? Standards steigern die Effizienz • Automatisierung • Modularisierung • Qualitätssicherung • Vergleichbarkeit • Interoperabilität • ... Mittwoch, 9. April 14
  44. 44. Warum Standards? Standards können aber auch zu ungewünschter Konformität führen... Mittwoch, 9. April 14
  45. 45. ... gibt es für fast jeden Zweck, Funktion, Domäne oder Community... AGLS, APPM, DACS, EAC-CPF, EAD, GILS, ISAAR(CPF), ISAD(G), RAD DTD, LCC, LCSH, MARC, MARCXML, METS, MIX, MODS, OAI-PMH, OAIS, PB Core, PREMIS, SGML, SRU, TGM I, TGM II, TGN, XML, XML Schema, XPath, XQuery, XSLT AES Core Audio, Atom, CIDOC/CRM, DC, DCAM, FGDC/CSDGM, FOAF, FRAD, FRBR, FRSAD, ISO 19115, Linked Data, OAI-ORE, QDC, RDF, RELAX NG, RSS, SKOS, TEI, Topic Maps, VRA Core, XOBIS AACR2, AAT, ADL, CanCore, CDWA, CDWA Lite, DDC, DwC, GEM, IEEE/LOM, indecs, ISBD, KML, MADS, MESH, METS Rights, MPEG-7, ODRL, RDA, SMIL, TextMD, ULAN, VSO Data Model, XMP, XrML, Z39.50 ADL, AES Core Audio, AES Process History, Atom, BISAC, DIF, DIG35, DTD, FOAF, ID3, KML, Linked Data, MathML, MO, MPEG-21 DIDL, MPEG-7, MusicXML, MXF, NewsML, OAIS, ODRL, ONIX, Ontology for Media Resource, PRISM, RDF, RELAX NG, RSS, SCORM, SKOS, SMIL, Topic Maps, XML, XML Schema, XMP, XPath, XQuery, XrML, XSLT AACR2, AGLS, CQL, DDC, FRAD, FRBR, FRSAD, GILS, ISBD, LCC, LCSH, MADS, MARC, MARC Relator Codes, MARCXML, MESH, METS, MIX, MODS, OAI-PMH, OAIS, OpenURL, PREMIS, RDA, Sears List of Subject Headings, SRU, SWAP, TEI, TextMD, TGM I, TGM II, VRA Core, XML, XML Schema, XOBIS, XPath, XSLT, Z39.50 AAT, CCO, CDWA, CDWA Lite, CIDOC/CRM, MuseumDat, SPECTRUM, TGN, ULAN` DTD, OAI-PMH, VRA Core, XML, XMLSchema, XPath, XQuery, XSLT AES Core Audio, AES Process History, CanCore, CCO, DC, DCAM, DTD, FGDC/CSDGM, GEM, IEEE/LOM, MEI, METS Rights, OAI-ORE, PB Core, QDC, RDF, SGML, TGN, XQuery DC, DCAM, EML, FGDC/CSDGM, GEM, GML, IEEE/LOM, indecs, ISO 19115, OAI-ORE, QDC, SGML, VSO Data Model GILS, MEI, MESH, OAI-PMH, SWAP, TEI AGLS, CanCore, CQL, DwC, FRBR, LCSH, METS, MIX, PREMIS, SRU APPM, Atom, CDWA, CDWA Lite, CIDOC/CRM, DACS, DwC, EAC-CPF, EAD, EML, FOAF, indecs, ISAAR(CPF), ISO 19115, Linked Data, MPEG-21 DIDL, ONIX, RELAX NG, RSS, SKOS, Topic Maps, ULAN AAT, ADL, DIF, ID3, ISAD(G), KML, MPEG-7, MusicXML, MXF, ODRL, RAD, SMIL, VSO Data Model, XMP, XRML AACR2, AES Core Audio, AES Process History, APPM, CanCore, DACS, DDC, DwC, EAC-CPF, EAD, FGDC/CSDGM, FRBR, GEM, IEEE/LOM, ISAAR(CPF), ISAD(G), ISO 19115, KML, LCC, LCSH, MADS, MARC Relator Codes, MESH, METS, METS Rights, MPEG-7, ODRL, PB Core, RAD, RDA, RELAX NG, SMIL, SRU, TEI, TextMD, XMP, XOBIS, XrML, Z39.50 Atom, DC, DCAM, FOAF, indecs, Linked Data, MIX, MODS, OAI-ORE, OAIS, PREMIS, QDC, RDF, RSS, SGML, SKOS, TGM I, TGM II, Topic Maps Archives Information Industry Libraries Museums Cultural Objects Visual Resources Geospatial Data Moving Images Musical Materials Scholarly Texts AAT, CCO, CDWA, CDWA Lite, CIDOC/CRM, DC, DTD, METS, MIX, MPEG-21 DIDL, MuseumDat, OAI-PMH, Ontology for Media Resource, QDC, SPECTRUM, TGN, ULAN, VRA Core, XML, XML Schema, XPath, XSLT APPM, DACS, DCAM, EAC-CPF, indecs, Linked Data, MADS, MARC Relator Codes, METS Rights, MODS, OAIS, PREMIS, RAD, RDF, RELAX NG, SGML, SKOS, SRU, XQuery Atom, DDC, EAD, ISAAR(CPF), ISAD(G), ISBD, LCC, LCSH, MARC, MARCXML, OAI-ORE, ODRL, PB Core, RDA, RSS, SCORM, Sears List of Subject Headings, Topic Maps, XrML, Z39.50 AGLS, CanCore, FRBR, GEM, IEEE/LOM, MPEG-7, SMIL, TGM I, TGM II, XOBIS Strong Sem i-Strong Sem i-W eak Weak Strong Semi-Strong Semi-Weak Strong Sem i-Strong Semi-Weak Weak DC, DIF, DTD, EML, METS, MPEG-21 DIDL, OAIS, QDC, VSO Data Model, XML, XML Schema, XPath, XSLT AGLS, DCAM, Linked Data, METS Rights, OAI-ORE, OAI-PMH, ODRL, PREMIS, RDF, RELAX NG, SGML, SKOS, SRU, XQuery, XrML Atom, DwC, GILS, indecs, MODS, RSS, SCORM, Topic Maps, Z39.50 CanCore, DDC, EAC-CPF, FRBR, GEM, IEEE/LOM, ISAAR(CPF), ISBD, LCC, MADS, MARC, MARC Relator Codes, MARCXML, MathML, Ontology for Media Resource, TGN, XMP, XOBIS DC, DTD, FGDC/CSDGM, GML, ISO 19115, KML, OAIS, QDC, TGN, XML, XML Schema, XPath, XSLT AGLS, DCAM, EML, Linked Data, METS, METS Rights, MPEG-21 DIDL, OAI-PMH, ODRL, PREMIS, RDF, RELAX NG, SGML, SKOS, SRU, XQuery, XrML CanCore, DDC, EAC-CPF, FRBR, GEM, IEEE/LOM, ISAAR(CPF), ISBD, LCC, LCSH, MADS, MARC, MARC Relator Codes, MARCXML, Ontology for Media Resource, Sears List of Subject Headings, XMP, XOBIS Datasets DC, DTD, FRBR, LCSH, METS, MPEG-21 DIDL, MXF, Ontology for Media Resource, PB Core, QDC, XML, XML Schema, XPath, XSLT, Z39.50 AACR2, CanCore, DCAM, DDC, GEM, IEEE/LOM, indecs, ISBD, LCC, Linked Data, MADS, MARC, MARC Relator Codes, MARCXML, METS Rights, MODS, MPEG-7, MuseumDat, NewsML, OAI-PMH, OAIS, ODRL, PREMIS, RAD, RDA, RDF, RELAX NG, Sears List of Subject Headings, SGML, SKOS, SMIL, SRU, XMP, XOBIS, XQuery, XrML AGLS, APPM, Atom, CIDOC/CRM, DACS, EAC-CPF, EAD, ISAAR(CPF), ISAD(G), OAI-ORE, RSS, SCORM, TGN, Topic Maps ADL, AES Core Audio, AES Process History, DC, DTD, FRBR, ID3, LCSH, MEI, METS, MO, MPEG-21 DIDL, MusicXML, MXF, Ontology for Media Resource, PB Core, QDC, XML, XML Schema, XPath, XSLT, Z39.50 AACR2, DCAM, DDC, indecs, ISBD, LCC, Linked Data, MADS, MARC, MARC Relator Codes, MARCXML, METS Rights, MODS, OAI-PMH, OAIS, ODRL, PREMIS, RAD, RDA, RDF, RELAX NG, Sears List of Subject Headings, SGML, SKOS, SMIL, SRU, XOBIS, XQuery, XrML AGLS, APPM, Atom, CIDOC/CRM, DACS, EAC-CPF, EAD, ISAAR(CPF), ISAD(G), MPEG-7, OAI-ORE, RSS, SCORM, Topic Maps CanCore, GEM, IEEE/LOM, MIX, MuseumDat, TGN, XMP DC, DTD, ISBD, LCSH, MESH, METS, MPEG-21 DIDL, OAI-ORE, OAI-PMH, OAIS, ONIX, OpenURL, QDC, SRU, SWAP, TEI, TextMD, XML, XML Schema, XPath, XSLT, Z39.50 AACR2, AGLS, Atom, BISAC, DACS, DCAM, DDC, FRBR, indecs, LCC, Linked Data, MADS, MARC, MARC Relator Codes, METS Rights, MODS, PREMIS, PRISM, RDF, RELAX NG, RSS, Sears List of Subject Headings, SGML, SKOS, XMP, XOBIS, XQuery, XrML CanCore, EAC-CPF, EAD, GEM, IEEE/LOM, ISAAR(CPF), ISAD(G), MARCXML, ODRL, Ontology for Media Resource, SCORM, TGN, Topic Maps MathML, MIX AAT, CCO, CDWA, CDWA Lite, DC, DIG35, DTD, METS, MIX, MPEG-21 DIDL, OAI-PMH, OAIS, Ontology for Media Resource, PB Core, QDC, SRU, TGM I, TGM II, TGN, ULAN, VRA Core, XML, XML Schema, XPath, XSLT, Z39.50 AACR2, CanCore, CIDOC/CRM, DCAM, GEM, IEEE/LOM, indecs, ISBD, Linked Data, MADS, MARC Relator Codes, METS Rights, MODS, MPEG-7, MuseumDat, NewsML, ODRL, PREMIS, RAD, RDA, RDF, RELAX NG, SGML, SKOS, SMIL, XMP, XOBIS, XQuery, XrML AGLS, APPM, Atom, DACS, EAC-CPF, EAD, ISAAR(CPF), ISAD(G), LCSH, MARC, MARCXML, OAI-ORE, RSS, SCORM, Sears List of Subject Headings, Topic Maps DDC, FRBR, LCC Domain Atom, DwC, GILS, indecs, MODS, OAI-ORE, RSS, SCORM, Topic Maps, Z39.50 Seeing Standard Domain refers to the types of materials the standard is intended to be used with or could potentially be useful for. The specific categories represented here are not intended to be exhaustive, nor are they mutually exclusive; rather, they are focused on some common material types that are managed by cultural heritage and other information organizations. Cultural Objects refers to works of art, architecture, and other creative endeavor. Datasets refers to collections of primary data, largely before interpretive activities have taken place. They may be collected by scientific instruments, or through research activities in the sciences, social sciences, humanities, or other disciplines. Geospatial Data refers to information relevant to geographic location, either as the data about geographic places themselves or the relationship of a resource to a specific location. Moving Images refers to resources expressed as film, video, or digital moving images. Musical Materials refers to resources expressing music in any form, including as audio, notation, and moving image. Scholarly Texts refers to resources produced as part of a research or scholastic process, and includes both book-length and article-length material. Visual Resources refers to material presented in fixed visual form. These materials may be either artistic or documentary in nature. Community refers to the groups that currently or potentially use the standard. Those that originated a standard or who are the primary audiences are stronger matches, while those that could use the standard effectively but do not frequently do so are weaker matches. Libraries refers to those organizations that collect and preserve both primary and secondary material in support of research, scholarship, teaching, and leisure. Academic, public, special, and corporate libraries are included here. Archives refers to those organizations that collect and preserve the natural outputs of the daily work of individuals and other organizational entities, including traditional records management processes. Their emphasis is frequently on the context of the creation of the materials and their relationship to one another. Museums refers to those organizations that collect and preserve artifacts from a given field with an emphasis on their curation and interpretation. Art, science, natural history, and many other types of museums are included here. Information Industry refers to the diverse organizations that make up both the public and the commercial Web. Technologies that support inventory and knowledge management, e-commerce, and the workings of the Internet are included here. Community AATArchives Libra ries Museums Controlled Vocabulary Descriptive M etadata Cultural Objects VisualResources CCO Libraries Museums Cultural Objects VisualResources ContentStandard Controlled Vocabulary Descriptive M etadata CDWA LiteRights Metadata Structural Metadata Descriptive M etadata Record Format Structure Standard Cultural Objects VisualResources Libraries M useum s Archives AACR2 Libraries M useum s Archives Moving Images Musical Materials Scholarly Texts VisualResources Technical Metadata Rights Metadata Structural Metadata Descriptive M etadata ContentStandard Controlled Vocabulary DACS Libraries M useum s Archives Moving Im ages M usical M aterials Scholarly Texts Vis ualResources Cultural Objects ContentStandard Descriptive Metadata Rights Metadata DublinCore Technical Metadata Rights Metadata Structural Metadata Descriptive M etadata C onte ntSta ndard Controlled Vocabulary Record Format Structure Standard M oving Im ages MusicalMaterials ScholarlyTexts VisualResources Cultural Objects Datasets Geospatial Data Archives Information Industry LibrariesMuseums EAD Libraries M useum s Archives Moving Im ages M usical M aterials Schola rly Texts Vis ualResources Cultural Objects Record Format Structure Standard M arkup Language Rights Metadata Structural Metadata Descriptive M etadata FOAF Descriptive M etadata Record Format Structure Standard Archives Information Industry LibrariesMuseums FRBRArchives Inform ation Industry LibrariesMuseums M oving Im ages MusicalMaterials Scholarly Texts VisualResources Cultural Objects Geospatial Data Datasets ConceptualM odel Technical Metadata Structural Metadata Descriptive M etadata LCSH Descriptive M etadata Controlled Vocabulary M oving Im ages MusicalMaterials Scholarly Texts VisualResources Cultural Objects Geospatial Data Archives Inform ation Industry LibrariesMuseums MADS Libraries M useum s Archives M oving Im ages M usicalM aterials Scholarly Texts VisualResources Cultural Objects Datasets Geospatial Data Record Format Structure Standard Descriptive M etadata MARCTechnical Metadata Rights Metadata Structural Metadata Descriptive M etadata C onte ntSta ndard Record Format Structure Standard M oving Im ages M usicalM aterials Scholarly Texts VisualResources Cultural Objects Geospatial Data Datasets Libraries Archives MARCXMLTechnical Metadata Rights Metadata Structural Metadata Descriptive M etadata C onte ntSta ndard Record Format Structure Standard M oving Im ages M usicalM aterials VisualResources Cultural Objects Geospatial Data Datasets Libraries Archives Scholarly Texts METS Archives Inform ation Industry Museums Libraries M oving Im ages MusicalMaterials ScholarlyTexts VisualResources Cultural Objects Datasets Geospatial Data Record Format Structure Standard Structural Metadata M etadata W rappers MIXArchives Inform ation Industry Museums Libraries M usicalM ate rials ScholarlyTexts VisualResources Cultural Objects Controlled Vocabulary Record Format Structure Standard Technical MetadataPreservation Metadata MODS Archives Museums Libraries M oving Im ages M usicalM aterials Scholarly Texts VisualResources Cultural Objects Datasets Geospatial Data C onte ntSta ndard Controlled Vocabulary Record Format Structure Standard Technical Metadata Rights Metadata Structural Metadata Descriptive M etadata OAI-PMH DescripFra M oving Im ages M usicalM aterials ScholarlyTexts VisualResources Cultural Objects Datasets Geospatial Data Archives Information Industry LibrariesMuseums OAI-OREStructural Metadata D escrip tiv e M etadata Record Form at Structure Standard Fram ew ork/Technology M ovin g Im ages M usic alM ateria ls ScholarlyTexts VisualResources Cultural Objects Datasets Geospatial Data Archives Information Industry LibrariesMuseums A Visualization of th Metadata Univers Weak Content: Jenn Riley Design: Devin Becker Work funded by the Indiana University Libraries’ White Professional Development Award Copyright 2009-2010 Jenn Riley This work is licensed under a Creative Commons Attribution-Noncommercial-Share Alike 3.0 United States License <http://creativecommons.org/licenses/by-nc-sa/3.0/us/>. The sheer number of metadata standards in the cultural heritage sector is overwhelming, and their inter-relationships further complicate the situation. This visual map of the metadata landscape is intended to assist planners with the selection and implementation of metadata standards. Each of the 105 standards listed here is evaluated on its strength of application to defined categories in each of four axes: community, domain, function, and purpose. The strength of a standard in a given category is determined by a mixture of its adoption in that category, its design intent, and its overall appropriateness for use in that category. The standards represented here are among those most heavily used or publicized in the cultural heritage community, though certainly not all standards that might be relevant are included. A small subset of the standards plotted on the main visualization also appear as highlights above the graphic. These represent the most commonly known or discussed standards for cultural heritage metadata. StrongConnection Semi-StrongConnection Semi-WeakConnection WeakConnection T cl of a that conne catego Strength of Standard’s connection indicated by Font Size & Color Saturation Summary and Purpose LEGEND TEIRights Metad ata Structural Metadata D escriptive M eta data Technical Metadata M arkup Language Cont en tSta nd ar d Record Form at ScholarlyTexts Archives In fo rm ation In dustry LibrariesMu seum s Font Siz = Star’s streng given categ Stars represent those standards that are used most often. Strong connection Semi-Strong connection http://www.dlib.indiana.edu/~jenlrile/metadatamap/seeingstandards.pdf Metadatenstandards Mittwoch, 9. April 14
  46. 46. Typen und Notation von Metadatenstandards Typen von Standards Struktur-Semantik-Standards standardisieren Struktur und Bedeutung von Metadatenelementen (z.B. DC, MARC, FOAF, RAK-WB, REM, FRBR, RDA) Normdaten standardisieren die Bezeichnung von Inhalten (z.B. PND, LCSH, DDC, UDC) Protokolle regeln Abruf/Austausch von Metadaten (z.B. HTTP, Z39.50, SRU, OAI, SPARQL) TXT CSV XML RDF OWL Notationsform GradmaschinellerInterpretierbarkeit Mittwoch, 9. April 14
  47. 47. Normdaten GND: Gemeinsame Norm Dateien / 106 ■ Normdatei für Personen, Körperschaften, Kongresse, Geografika, Sachschlagwörter und Werktitel, vor allem zur Erschließung von Literatur in Bibliotheken, zunehmend aber auch von Archiven, Museen, etc. ■ Herausgegeben von der Deutschen Nationalbibliothek □ 4.628.000 Personennamen (nicht individualisiert, keine Typ-Angabe) □ 2.882.000 Personen (individualisiert, Typ p) □ 1.172.000 Körperschaften (Typ k) □ 587.000 Kongresse (Typ v) □ 293.000 Geografika (Typ g) □ 202.000 Sachbegriffe (Typ s) □ 193.000 Werke (Typ w) □ Online Abfrage via Bibliotheksservice-Zentrum Baden Württemberg http://swb.bsz-bw.de/DB=2.104/ □ vergleichbar mit Library of Congress Name Authority File (LCNAF) 47 Mittwoch, 9. April 14
  48. 48. / 10648 Normdaten GND: Gemeinsame Normdateien Mittwoch, 9. April 14
  49. 49. / 106 UDC: Universale Dezimalklassifikation ■ virtuelle internationale Normdatei für Personendaten ■ Gemeinschaftsprojekt von 25 Nationalbibliotheken und Bibliotheksverbünde, ■ betrieben durch Online Computer Library Center (OCLC) 49 Normdaten VIAF: Virtual International Authority File • Bibliotheca Alexandrina, Ägypten • National Library of Australia, Australien • Open VLACC, Belgien • Dansk BiblioteksCenter (DBC), Dänemark • Deutsche Nationalbibliothek, Deutschland • Bibliothèque nationale de France, Frankreich • Système universitaire de documentation, Frankreich • The National Library of Israel, Israel • Istituto Centrale per il Catalogo Unico, Italien • Nationale Parlamentsbibliothek, Japan • Library and Archives Canada, Kanada • Lettische Nationalbibliothek, Lettland • BIBSYS, Norwegen • Biblioteka Narodowa, Polen • Narodowy Uniwersalny Katalog (NUKAT), Polen • Biblioteca Nacional de Portugal, Portugal • Königliche Bibliothek zu Stockholm, Schweden • Schweizerische Nationalbibliothek, Schweiz • RERO, Schweiz • Biblioteca Nacional de España, Spanien • Biblioteca de Catalunya, Spanien • Nationalbibliothek der Tschechischen Republik, Tschechien • Széchényi-Nationalbibliothek, Ungarn • Getty Research Institute, USA • Library of Congress, USA • Biblioteca Apostolica Vaticana, Vatikan • National- und Universitätsbibliothek Zagreb, Kroatien • Königliche Bibliothek der Niederlande, Niederlande • Lebanese National Library, Libanon • Russische Staatsbibliothek, Russland • National Library Board, Singapur • Perseus Project, Vereinigte Staaten • Syriac Reference Portal • International Standard Name Identifier http://www.viaf.org Mittwoch, 9. April 14
  50. 50. / 106 Normdaten DDC: Dewey Decimal Classification ■ 10 Haupttafeln, ■ Alle untergeordneten Klassen erfüllen die Merkmale ihrer Eltern ■ Deutsche variante: http://melvil.d-nb.de/melvilsearch?bs=dnb-portal ■ http://dewey.info (SPARQL Endpoint + Doku) 50 000 Informatik, Informationswissenschaft, allgemeine Werke 100 Philosophie und Psychologie 200 Religion 300 Sozialwissenschaften 400 Sprache 500 Naturwissenschaften und Mathematik 600 Technik, Medizin, angewandte Wissenschaften 700 Künste und Unterhaltung 800 Literatur 900 Geschichte und Geografie Mittwoch, 9. April 14
  51. 51. / 106 UDC: Universale Dezimalklassifikation ■ Prinzip der Facettenklassifikation >> +68.000 Klassennamen und Facetten □ Haupttafeln: Hierarchien wie DDC □ Hilfstafeln: Facettierende Elemente (Sprache, Form, Ort, Abstammung, Zeit und Materialeigenschaften) □ Symbole: Syntax für Verknüpfung von Facetten und Klasse □ http://www.udcc.org/udcsummary/php/index.php 51 Normdaten UDC: Universelle Dezimalklassifikation Mittwoch, 9. April 14
  52. 52. Dublin Core •Metadatenstandards OAI-ORE IPTC MPEG-7 MPEG-21 BBC SMEF SMPTE 377M TV-Anytime REM EAD CIDOC-CRM FIAF Cataloging Rules Cinematographic Works Standard VRA Core UNESCO Thesaurus GND DDC UDC LCSH LCC MARC RDA MAB MODS MXF P_Meta DMS-1BMF Mittwoch, 9. April 14
  53. 53. / 10653 to be continued... Mittwoch, 9. April 14
  54. 54. Metadaten für Medienarchive Agenda •Einführung ins Thema •Metadatenstandards •semantische Metadaten •Linked (Open) Data •Beispiele Mittwoch, 9. April 14
  55. 55. 55 „People can‘t share knowledge if they don‘t speak a common language“ Thomas Davenport (1997) Turmbau zu Babel, Pieter Brueghel, 1563 Mittwoch, 9. April 14
  56. 56. 56 Wahrheiten (Truths) Annahmen (Beliefs) Wissen (Knowledge) Klassische Definition: „Wissen ist eine Teilmenge aller wahren Annahmen“ Was ist Wissen? Mittwoch, 9. April 14
  57. 57. 57 Semantische Metadaten Mittwoch, 9. April 14
  58. 58. 58 Semantische Metadaten • sind strukturierte/unstrukturierte Metadaten • Semantik (Bedeutung) der Metadaten ist formal definiert (Ontologie) und daher maschinenlesbar (und maschinenverstehbar) Mittwoch, 9. April 14
  59. 59. 59 3. Wissensrepräsentation und Logik 3.1 Ontologien in Philosophie und Informatik Raffael: Die Schule von Athen, 1510-11 Ontologie(n) ein kleiner Exkurs... Mittwoch, 9. April 14
  60. 60. 60 Raffael: Die Schule von Athen, 1510-11Christian Wolff: Philosophia prima sive Ontologia, 1729 • ον [griech.] Partizip zu „sein“ λογια [griech.] Lehre Begriffsbestimmung „Philosophische Disziplin, die sich primär mit dem Sein, dem Seienden als solchem und mit den fundamentalen Typen von Entitäten beschäftigt...“ (wikipedia) • „wie sind die Dinge als solches (an sich)?“ allgemeine Metaphysik ⇳ Erkenntnistheorie (Epistemologie) Mittwoch, 9. April 14
  61. 61. 61 3. Wissensrepräsentation und Logik 3.1 Ontologien in Philosophie und Informatik Raffael: Die Schule von Athen, 1510-11 Aristoteles (384-322 v. Chr) Platon (427-347 v. Chr) Sokrates (470-399 v. Chr) Verstand/Vernunft Ideen Gegenstände Sinneswahrnehmung (empeiria) Wiedererinnerung (anamnesis) unveränderlich unvergänglich Urbild veränderlich vergänglich Abbild nach http://upload.wikimedia.org/wikipedia/commons/7/7d/Platon_Ideenlehre.svgMittwoch, 9. April 14
  62. 62. 62 3. Wissensrepräsentation und Logik 3.1 Ontologien in Philosophie und Informatik Raffael: Die Schule von Athen, 1510-11 Platon (427-347 v. Chr) (Abbildung aus: Osborne, Philosophie - Eine Bildergeschichte für Einsteiger) Platons Höhlengleichnis • aus Platons ,Politeia‘, 7. Buch, entstanden um ca. 370 v. Chr. Mittwoch, 9. April 14
  63. 63. 63 3. Wissensrepräsentation und Logik 3.1 Ontologien in Philosophie und Informatik Raffael: Die Schule von Athen, 1510-11 Aristoteles (384-322 v. Chr) Aristoteles stellt ein System von Kategorien auf zur Klassifikation aller Dinge, über die Aussagen getroffen werden können Aristotelische Kategorienlehre Mittwoch, 9. April 14
  64. 64. 64 3. Wissensrepräsentation und Logik 3.1 Ontologien in Philosophie und Informatik Raffael: Die Schule von Athen, 1510-11 Aristoteles (384-322 v. Chr) Aristoteles stellt ein System von Kategorien auf zur Klassifikation aller Dinge, über die Aussagen getroffen werden können Aristotelische Kategorienlehre Mittwoch, 9. April 14
  65. 65. 65 Semantische Metadaten Ontologien "An ontology is an explicit, formal specification of a shared conceptualization. The term is borrowed from philosophy, where an Ontology is a systematic account of Existence. For AI systems, what ‘exists’ is that which can be represented.“ (Thomas R. Gruber, 1993) Konzeptualisierung: abstraktes Modell (Domäne, identifizierte relevante Begriffe, Beziehungen) Explizit: Bedeutungen aller Begriffe definiert Formal: maschinenverstehbar Gemeinsam: Konsens bzgl. Ontologie Mittwoch, 9. April 14
  66. 66. Semantische Metadaten Semiotisches Dreieck 66 Symbol Gegenstand steht für „Golf“ ruft hervor referenziert Konzept verwenden gemeinsames Konzept Ogden, Richards, semiotisches Dreieck, 1923 Mittwoch, 9. April 14
  67. 67. 67 Publikation Buch ist eine Zeitschrift ist eine Verlag verlegt • Titel • Schlüsselwörter • ... Eigenschaften Autorverfasst wird verfasst von Person ist eine Adresse hat eine • Nachname • Vorname • Straße... Eigenschaften Springer Verlag ist ein HaraldSack ist eine Digitale Kommunikation ist ein 1..n 1..n Mann Frau ist eine ist eine ≠ Semantische Metadaten Mittwoch, 9. April 14
  68. 68. 68 • erlauben die Festlegung formaler Axiome • z.B. „Es ist nicht möglich, dass das Publikationsdatum vor dem Geburtsdatum eines Autors der Publikation liegt.“ • erlauben das Ziehen von Schlussfolgerungen • z.B. „Alle Menschen sind sterblich.“ „Sokrates ist ein Mensch.“ „Daher ist Sokrates sterblich.“ Raffael: Die Schule von Athen, 1510 Semantische Metadaten Mittwoch, 9. April 14
  69. 69. 6916 Ontologietypen Mittwoch, 9. April 14
  70. 70. allgemeine, bereichsübergreifende Ontologien (beschreibt sehr generelle Konzepte wie z.B. Zeit, Raum,Vorgang unabhängig von einer bestimmten Domäne oder Problemstellung.) Domain Ontology Task Ontology spezielle, auf eine konkret fokussierte Domäne oder Aufgabe zugeschnittene Ontologie, die in der Regel eine Domain und/oder Task Ontologie spezialisieren. Application Ontology (nach Guarino,1998) grundlegende Konzepte bezogen auf eine allgemeine Aktivität oder Aufgabe. grundlegende Konzepte bezogen auf eine generische Domäne. Top-Level Ontology (Upper Ontology, Foundation Ontology) Ontologietypen und -kategorien Mittwoch, 9. April 14
  71. 71. 7116 allgemeine, bereichsübergreifende Ontologien (beschreibt sehr generelle Konzepte wie z.B. Zeit, Raum,Vorgang unabhängig von einer bestimmten Domäne oder Problemstellung.) (nach Guarino,1998) Domain Ontology Task Ontology spezielle, auf eine konkret fokussierte Domäne oder Aufgabe zugeschnittene Ontologie, die in der Regel eine Domain und/oder Task Ontologie spezialisieren. Application Ontology grundlegende Konzepte bezogen auf eine allgemeine Aktivität oder Aufgabe. grundlegende Konzepte bezogen auf eine generische Domäne. Top-Level Ontology (Upper Ontology, Foundation Ontology) Ontologietypen und -kategorien Mittwoch, 9. April 14
  72. 72. 7216 allgemeine, bereichsübergreifende Ontologien (beschreibt sehr generelle Konzepte wie z.B. Zeit, Raum,Vorgang unabhängig von einer bestimmten Domäne oder Problemstellung.) Domain Ontology Task Ontology spezielle, auf eine konkret fokussierte Domäne oder Aufgabe zugeschnittene Ontologie, die in der Regel eine Domain und/oder Task Ontologie spezialisieren. Application Ontology (nach Guarino,1998) grundlegende Konzepte bezogen auf eine allgemeine Aktivität oder Aufgabe. grundlegende Konzepte bezogen auf eine generische Domäne. Top-Level Ontology (Upper Ontology, Foundation Ontology) Ontologietypen und -kategorien Mittwoch, 9. April 14
  73. 73. 7316 allgemeine, bereichsübergreifende Ontologien (beschreibt sehr generelle Konzepte wie z.B. Zeit, Raum,Vorgang unabhängig von einer bestimmten Domäne oder Problemstellung.) Domain Ontology Task Ontology spezielle, auf eine konkret fokussierte Domäne oder Aufgabe zugeschnittene Ontologie, die in der Regel eine Domain und/oder Task Ontologie spezialisieren. Application Ontology (nach Guarino,1998) grundlegende Konzepte bezogen auf eine allgemeine Aktivität oder Aufgabe. grundlegende Konzepte bezogen auf eine generische Domäne. Top-Level Ontology (Upper Ontology, Foundation Ontology) Ontologietypen und -kategorien Mittwoch, 9. April 14
  74. 74. Ontologietypen und -kategorien 7416 allgemeine, bereichsübergreifende Ontologien (beschreibt sehr generelle Konzepte wie z.B. Zeit, Raum,Vorgang unabhängig von einer bestimmten Domäne oder Problemstellung.) Domain Ontology Task Ontology spezielle, auf eine konkret fokussierte Domäne oder Aufgabe zugeschnittene Ontologie, die in der Regel eine Domain und/oder Task Ontologie spezialisieren. Application Ontology (nach Guarino,1998) grundlegende Konzepte bezogen auf eine allgemeine Aktivität oder Aufgabe. grundlegende Konzepte bezogen auf eine generische Domäne. Top-Level Ontology (Upper Ontology, Foundation Ontology) Mittwoch, 9. April 14
  75. 75. lightweight ontologies heavyweight ontologies kontrolliertes Vokabular (nach Lassila/McGuinnes, 2001) Thesauri Begriffe/ Glossar informales ist-ein formales ist-ein formale Instanz Frames Wert- Restriktionen Allg. logische Constraints Disjunktheit, Inverses, Part-of… Ausdruckstärke +- Ontologietypen und -kategorien Mittwoch, 9. April 14
  76. 76. Terminologien und Vokabulare Mittwoch, 9. April 14
  77. 77. Datenbank Ordnungssystem • Terminologische Kontrolle: löst Bedeutungsvielfalt durch Hierarchie o. Typisierung Bank (Sitzgelegenheit) vs. Bank (Finanzinstitut) • Vokabularkontrolle: führt Benennungsvielfalt durch Äquivalenzrelation zusammen alte oder neue Rechtschreibung, Singular/Plural, Sprache, Dialekt ... Terminologien und Vokabulare Mittwoch, 9. April 14
  78. 78. • Kontrolliertes Vokabular: endliche Liste von Begriffen (z.B. Kataloge) • Glossar: eine endliche Liste von Begriffen und deren zugehörige Bedeutung, formuliert in natürlicher Sprache (informal). • Thesauri: [griech. „Schatz, Schatzhaus“] Kontrolliertes Vokabular, dessen Begriffe durch Relationen miteinander verbunden sind. • Äquivalenz (Synonyme) • Hierarchien (Ober-, Unterbegriffe) • Homographien (Homonyme) • Assoziationen (ähnliche Begriffe) Ontologietypen und -kategorien Mittwoch, 9. April 14
  79. 79. Thesaurus Unterhose Schlüpfer Synonyme Slip Tanga Liebestöter Boxershort Spezialisierungen Unterwäsche Oberbegriff Unterhemd Assoziation Ontologietypen und -kategorien Mittwoch, 9. April 14
  80. 80. 8016 Taxonomiesysteme • auch Klassifikationssystem, Nomenklatur, … • in der Wissenschaft meist Einteilung in (mono-)hierarchisch aufgebaute Klassen (Klassen, Unterklassen, ...) • (auch) Teilgebiet der Biologie: • Erfassung der verwandtschaftlichen Beziehungen von Lebewesen in einem hierarchisch aufgebauten System Taxonomie: Einteilung von Dingen (oder auch Lebewesen) in Gruppen (von [griech]. τασσεῖν (tassein) = klassifizieren und νόµος (nomos) = Gesetz, Wissenschaft) ... Ontologietypen und -kategorien Mittwoch, 9. April 14
  81. 81. 8116 • Carl v. Linné (um 1740) schafft ein einfaches, noch heute gebräuchliches hierarchisches Klassifikationsschema für Tiere/ Pflanzen Carl v. Linné (1707-1778) Des Ritters Carl von Linné vollständiges Natursystem, 1778 Mittwoch, 9. April 14
  82. 82. unterschiedliche Tierkategorien in "einer gewissen chinesischen Enzyklopädie" nach Jorge Luis Borges: - dem Kaiser gehörige, - einbalsamierte, - gezähmte, - Milchschweine, - Sirenen, - Fabeltiere, - streunende Hunde, - in diese Einteilung aufgenommene, - die sich wie toll gebärden, - unzählbare, - mit feinstem Kamelhaarpinsel gezeichnete, - und so weiter, - die den Wasserkrug zerbrochen haben, - die von weitem wie Fliegen aussehen. Jorge Luis Borges (1899-1986) Ontologien und die Wirklichkeit Mittwoch, 9. April 14
  83. 83. Ontologien und die Wirklichkeit Mittwoch, 9. April 14
  84. 84. Metadaten für Medienarchive Agenda •Einführung ins Thema •Metadatenstandards •semantische Metadaten •Linked (Open) Data •Beispiele Mittwoch, 9. April 14
  85. 85. 4242 42 42 24 4242 42 42 42 42 85 Beispiel aus dem aktuellen HPI-Seminar A LOD of Movies Mittwoch, 9. April 14
  86. 86. 86 ■Du suchst Informationen zu einem Film? ■kein Problem...... Mittwoch, 9. April 14
  87. 87. 87 ■Du suchst Informationen zu einem Film? ■kein Problem...... ■....solange Du den Titel kennst ■....solange Du weißt, wer mitspielt ■...oder solange Du weißt, wer Regie geführt hat ■Was aber wenn Du vor folgendem Problem stehst: Mittwoch, 9. April 14
  88. 88. 88 Wer war das nochmal, der diesen alten Film mit der Dings gedreht hat, na dieser schwedischen Filmdiva, die in dem Film eine Kommunistin spielt, die nach Paris geschickt wird, um nach dem Rechten zu sehen, ob die sowjetischen Agenten dort dem kapitalistischen Luxus zum Opfer gefallen sind? Na das ist doch auch der einzige Film, in dem die auch ‘mal richtig lacht... Mittwoch, 9. April 14
  89. 89. 89 Wer war das nochmal, der diesen alten Film mit der Dings gedreht hat, na dieser schwedischen Filmdiva, die in dem Film eine Kommunistin spielt, die nach Paris geschickt wird, um nach dem Rechten zu sehen, ob die sowjetischen Agenten dort dem kapitalistischen Luxus zum Opfer gefallen sind? Na das ist doch auch der einzige Film, in dem die auch ‘mal richtig lacht... Mittwoch, 9. April 14
  90. 90. 90 Linked Open Data Mittwoch, 9. April 14
  91. 91. 91 dbedia-owl:Film yyyyyyy xxxxxxxxx dbpedia-owl:director rdf:type zzzzzzzdbpedia-owl:starring dbpedia-owl:Actor rdf:type dbpedia-owl: SwedishFilmActor rdf:type rdfs:subClassOf category:American_political_satire_films dcterms:subject rdfs:subClassOf category:Films_set_in_Paris dcterms:subject Mittwoch, 9. April 14
  92. 92. Mittwoch, 9. April 14
  93. 93. Ernst Lubitsch Mittwoch, 9. April 14
  94. 94. ■Was kann man mit diesen vielen Metadaten anfangen? □semantische Suche □explorative Suche □Fact Retrieval □Question Answering Systeme □Empfehlungssysteme □... Mittwoch, 9. April 14
  95. 95. Linked (Open) Data Metadaten mit einheitlicher Schnittstelle Dokument Dokument Dokument Dokument Dokument Hyperlink Hyperlink Hyperlink Hyperlink Hyperlink Hyperlink1990: The Web of Documents Today: The Web of Data Mittwoch, 9. April 14
  96. 96. Linked (Open) Data Metadaten mit einheitlicher Schnittstelle •Ist Information heute nicht im WWW vorhanden (= über einen Webserver verfügbar), kann sie nur schwer gefunden werden (wenn überhaupt...) Datenbank Web-Server JDBC HTTP HTML Mittwoch, 9. April 14
  97. 97. Linked (Open) Data Metadaten mit einheitlicher Schnittstelle •Das WWW ist für die Nutzung durch den Menschen bestimmt •Das WWW basiert auf der Markupsprache HTML •HTML beschreibt •wie Informationen dargestellt werden sollen (XHMLT + CSS), •wie Informationen miteinander verknüpft werden können, •aber nicht, was diese Informationen bedeuten…. bedarf der Interpretation durch den Menschen... Mittwoch, 9. April 14
  98. 98. Linked (Open) Data Metadaten mit einheitlicher Schnittstelle •Daten im WWW sind verschlossen in abgeschirmten „Datensilos“ •Andere Applikationen können diese Daten weder zugreifen noch weiterverarbeiten Datenbank Datenbank Datenbank Datenbank Datenbank Datenbank Datenbank Datenbank Datenbank Mittwoch, 9. April 14
  99. 99. Linked (Open) Data Metadaten mit einheitlicher Schnittstelle •Aber es gibt eine ganze Reihe unterschiedlicher (proprietärer) Web-APIs, Austauschdatenformate und darauf aufbauende Mashups Datenbank 1 Web API 1 Web API 2 Web API 3 Web API 4 Datenbank 2 Datenbank 3 Datenbank 4 Mashup Mittwoch, 9. April 14
  100. 100. 100 http://www.w3.org/2009/Talks/0204-ted-tbl/#(22) Die Probleme liegen auf der Hand.... Mittwoch, 9. April 14
  101. 101. Linked (Open) Data Metadaten mit einheitlicher Schnittstelle •...Öffnen der proprietären Datensilos •...Veröffentlichung aller Daten von allgemeinem Interesse •...und zwar so, dass •andere Anwendungen diese Daten zugreifen, benutzen und weiterverarbeiten können und •alle Anwendungen sich zusätzliche (Meta)daten zu den verfügbaren Daten beschaffen können Datenbank 1 Datenbank 2 Datenbank 3 Mittwoch, 9. April 14
  102. 102. Linked Data Principles Database 1 Database 2 Database 3 Database 4 RDF Data RDF Data RDF Data RDF Data RDF Links RDF Links RDF Links • Identifikation individueller Daten über URIs • Zugriff über standardisiertes Webprotokoll HTTP • Kodierung der Daten via Resource Description Framework (RDF) • Verknüpfung der Daten untereinander Mittwoch, 9. April 14
  103. 103. 103 Die Anwendung der Linked Data Prinzipien führt zur Entstehung eines ,Web of Data‘ Mittwoch, 9. April 14
  104. 104. Linked (Open) Data Metadaten mit einheitlicher Schnittstelle http://lod-cloud.net/ http://dbpedia.org/ Mittwoch, 9. April 14
  105. 105. 105 DBpedia □Zentraler Bestandteil: Wikipedia Info-Boxen Mittwoch, 9. April 14
  106. 106. 106 DBpedia □Zentraler Bestandteil: Wikipedia Info-Boxen Mittwoch, 9. April 14
  107. 107. 107 DBpedia □Zentraler Bestandteil: Wikipedia Info-Boxen Mittwoch, 9. April 14
  108. 108. 108 DBpedia □Zentraler Bestandteil: Wikipedia Info-Boxen Mittwoch, 9. April 14
  109. 109. 109 Linked Open Data ■ offen zugängliche Linked Data Ressourcen im WWW, d.h. lizensiert als „Creative Common CC-BY“ ■ 5-Sterne Kriterien für Linked Open Data Available on the web (whatever format) but with an open licence, to be Open Data Available as machine-readable structured data (e.g. excel instead of image scan of a table) as (2) plus non-proprietary format (e.g. CSV instead of excel) All the above plus, Use open standards from W3C (RDF and SPARQL) to identify things, so that people can point at your stuff All the above, plus: Link your data to other people’s data to provide context ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ Mittwoch, 9. April 14
  110. 110. 110 Linked Data Examples □ BBC Music (http://www.bbc.co.uk/music) Mittwoch, 9. April 14
  111. 111. Linked (Open) Data Metadaten mit einheitlicher Schnittstelle Welche Vorteile bietet der Linked Data Ansatz? • vormals strukturierte Daten können mit Ontologien verknüpft werden • ermöglicht Datenintegration • ermöglicht automatisierte Verarbeitung • ermöglicht logische Schlussfolgerungen und Ableitung von neuem Wissen Mittwoch, 9. April 14
  112. 112. / 106112 GND Person ULAN FIAF Corp. Names GTAA Names VIAF PlaceTGN UKAT FIAF Country Listings Geonames OpenStreetMap ZBW ISO 3166 World Gazetteer TVA Place Type Reuters Regions MARC Geogr.Areas MARC CountryCodes Typen BA-Gattungen IPTC NC (Genre) EBU Audience LCSH LCGFT GTAA Genre Topic DDC SWD IPTC Mediatopics BA-Thema ZBW UDC FIAF Subj. Headings DRA/DDR Thesaurus Normdaten und semantische Metadaten Mittwoch, 9. April 14
  113. 113. / 106113 DTD SGML *1986 XML XLink XPointer XPath XSL XSLT XQuery Schema *1996 HTML *1990 XHTML *2000 RDF *1997 RDF(S) *1999 OWL *2004 RDFa *2004 Metadatennotationsformate Mittwoch, 9. April 14
  114. 114. / 106 ■ XML hat sich als Austauschformat für Metadaten etabliert, weil: □ Einfacheit/Lesbarkeit □ Plattform- und Anwendungsunabhängigkeit □ Modularität/Erweiterbarkeit (XML Schema) □ W3C Standardisiert □ Validierbarkeit (wohlgeformt, Gültigkeit) □ lizenzfrei □ gut unterstützt (viele Tools) 114 <?xml version="1.0"?> <sammlung> <film> <titel> Städtereise ... </titel> <stichwort> Kultur </stichwort> </film> <film> ... </film> </sammlung> XML: eXtensible Markup Language Mittwoch, 9. April 14
  115. 115. http://swib.org/swib10/vortraege/swib10_gradmann.pdf RDF: Resource Description Framework Mittwoch, 9. April 14
  116. 116. □ Aussagen über Web-Ressourcen in Form von Tripeln (Subjekt - Prädikat - Objekt) □ RDF referenziert Terme in externen Namespaces (Vokabularen) ... □ ... in denen die Semantik definiert wird (RDFS/OWL) Indentifikation(URI) Semantik (z.B. DC, FOAF, OAI-ORE) Datenmodell Triple => Subjekt, Prädikat, Objekt Syntax RDF/XML, N3, Turtle Don't say "green"! Say "http://example.org/colors#FF0" RDF: Resource Description Framework dbpedia:Greta_Garbo dbpedia-owl:Actor rdf:type dbpedia-owl: SwedishFilmActor rdf:type rdfs:subClassOf Mittwoch, 9. April 14
  117. 117. RDF: Resource Description Framework dbpedia:Greta_Garbo dbpedia-owl:Actor rdf:type dbpedia-owl: SwedishFilmActor rdf:type rdfs:subClassOf @prefix dbpedia: <http://dbpedia.org/resource/>. @prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#>. @prefix rdfs: <http://www.w3.org/2000/01/rdf-schema#>. @prefix dbpedia-owl: <<http://dbpedia.org/ontology/>. dbpedia:Greta_Garbo rdf:type dbpedia-owl:Actor. dbpedia:Greta_Garbo rdf:type dbpedia-owl:SwedishFilmActor. dbpedia-owl:SwedishFilmActor rdfs:subClassOf dbpedia-owl:Actor. Mittwoch, 9. April 14
  118. 118. mg:hasDepictedObject "2011-09-24T14:00:00Z"^^xsd:dateTime owl:SameAs rdfs:label mg:Annotation/Ann42 :Annotation mg:annotationTimestamp mg:resource/Erich_Honecker rdfs:Resource http://dbpedia.org/resource/ Erich_Honecker dbpedia-owl:Person mg:User/User1 foaf:maker mg:isAnnotationFor "Benutzer_xy" mg:film1 mg:FilmWork foaf:Person mg:filmIdentifier "QABSWRGGG" foaf:name dbp-owl:spouse dbp-owl:abstract http://dbpedia.org/resource/ Margot_Honecker dbpedia-owl:Person """Erich Honecker war ein deutscher kommunistischer Politiker. Er war hauptamtlicher Funktionär der KPD und war in der Zeit des Nationalsozial...""" "Erich Honecker"@de Mittwoch, 9. April 14
  119. 119. Mittwoch, 9. April 14
  120. 120. Metadaten für Medienarchive Agenda •Einführung ins Thema •Metadatenstandards •semantische Metadaten •Linked (Open) Data •Beispiele Mittwoch, 9. April 14
  121. 121. / 106 SKOS Simple Knowledge Organisation System 121 SKOS http://www.w3.org/2004/02/skos/ Unterstützt: ■ Hierarchie ■ Assoziation ■ Vorzugsbenennung und Alternativbegriffe ■ Matching (exactMatch, closeMatch) Einfache, flexible, erweiterbare und maschinenlesbare Repräsentation für… ■ Nomenklaturen ■ Klassifikationen ■ Taxonomien ■ Thesauri Mittwoch, 9. April 14
  122. 122. / 106122 http://www.jenitennison.com/visualisation/offences.html Mittwoch, 9. April 14
  123. 123. / 106123 Dublin Core •Mindestsatz an Metadaten (Titel,Autor,Thema, Rechte...) •generisches Format •Empfehlungen zur Kodierung der Elemente z.B. Datum •Integration in (X)HTML/XML/RDF gut dokumentiert •Bewertung sehr generisch sehr verbreitet verbessert 'Sichtbarkeit' für Suchmaschinen Mittwoch, 9. April 14
  124. 124. / 106 ...und in kleinen Filmarchiven? □Themen-, Genre- und FormVokabulare oft nur in Englisch □Vokabulare deutscher Rundfunkanstalten nicht öffentlich □Viele kleinere IuD Einrichtungen nutzen eigeneVokabulare. 124 Name SKOS IPTC Thesaurus International Press Telecommunication Council x TGM Thesaurus for Graphic Materials (Library of Congress) X FIAF GSH FIAF General Subject Headings X MIM Moving Image Materials X LCGFT Moving Image Genre-Form Headings (Library of Congress) X REM ~6 Thesauri der deutschen Rundfunkanstalten - kleine Archive >200 Archive mit eigenen Klassifikationen. Wenige nutzen Thesauri, wenige haben Zugriff auf Verbunddaten der dt. Rundfunkanstalten. - Mittwoch, 9. April 14
  125. 125. / 106 ■ Auf Grundlage von DC entwickelt ■ Urheber: public broadcasting community (USA) □ Unterstützt analoge und digitale Medien □ XML-Schema verfügbar (onlineValidierung: http://pbcorevalidator.org/) □ einzige Obligatorische Elemente: Identifier,Titel, Beschreibung □ Unterstützt Segmente innerhalb eines Assets ■ http://pbcore.org/wp-content/uploads/PBCoreDiagram-v2.jpg 125 Mittwoch, 9. April 14
  126. 126. / 106126 CWS Cinematographic Works Standard • CWS (Cinematographic Works Standard) • Europäische Norm für Filmarchive (EN 15907:2010) • Ausrichtung: Filmdatenbanken/Archivsoftware • Mindestsatz von Elementen und Relationen • Schnittstelle: Filmarchiv Analyse-Service • Bewertung berücksichtigt auch physisches Archivgut generisches Datenformat keine spatio-temporalen Metadaten XML Schema: generisch, erweiterbar Identifikation von Filmen - Verbesserung der Interoperabilität von Metadaten - Elementsätze und Strukturen; Deutsche Fassung EN 15907:2010 Mittwoch, 9. April 14
  127. 127. / 106127 MPEG-7 • Vorschriften zur Kodierung von AV-Metadaten • spatio-temporale (Frame, Segment, Streams) • technische (Audio/Ton-Format, Kodierung, Low-Level-Features) • inhaltserschließende (Abstract, Deskriptoren) • Low-Level Features kodierbar (Textur, Form, Farben) • Bewertung Detaillierte Datentyp Restriktionen mangelnde Kompatibilität mit Schnittprogrammen hohe Komplexität/Abhängigkeiten MPEG-7 Mittwoch, 9. April 14
  128. 128. / 106128 MPEG-21 MPEG-21 Benutzer Workflows Software ... Gebühr Region/Ort Zeit/Dauer Zugangscode ... Filme Metadaten Lizenzen Rechte ... Rights Data Dictionary: Abspielen, Verändern, Einbetten... • Digital Rights Management + Infrastruktur Nutzer, Objekte, Bedingungen • Bewertung umfangreich und erweiterbar Einbettung in MPEG-4 Container möglich übergreifende DRM-Plattform notwendig Mittwoch, 9. April 14
  129. 129. / 106129 BMF: Broadcast Metadata exchange Format •basiert auf FESAD (Fernseharchiv Datenbank) •Module •Erwerbung, •Produktion, •Programmplanung, •Archivierung •Datenaustausch mit Produktionsfirmen,TV-Sendern •starke Ausrichtung öffentlich-rechtliches Fernsehen •unterstützt inhaltserschließende & spatio-temporale Metadaten •53 Wertelisten, die zu großenTeilen aus der Fernseharchivdatenbank (FESAD) übernommen wurden. Mittwoch, 9. April 14
  130. 130. / 106 Ontology for Media Resources 130 ■ W3C standardisiert Empfehlung für Multimediadaten im Internet ■ simples erweiterbares Modell ■ Unterstützt Fragment Identifier ■ Mappings zu vielen Metadatenstandards MPEG-7, EBU-Core, IPTC,TVA, DC ■ Namespace: http://www.w3.org/ns/ma-ont# Mittwoch, 9. April 14
  131. 131. / 106 BBC Program Ontology 131 http://purl.org/ontology/po/ Mittwoch, 9. April 14
  132. 132. / 106132 OAI-ORE • OAI-ORE (Open Archives - Object Reuse and Exchange) • strukturelle Metadaten für Webressourcen (Zusammensetzung, Abgrenzung, Zugehörigkeit) • Ressourcen (URIs) = Collection/Film/Segment/Tag • 'Navigationshilfe' für Metadaten-Harvester • automatisierter Datenaustausch zwischen Repositories Mittwoch, 9. April 14
  133. 133. / 106133 Definition of the Europeana Data Model elements Version 5.2, 30/7/2010 Mittwoch, 9. April 14
  134. 134. / 106134 Dublin Core OAI-ORE BBC SMEF P_Meta TV-Anytime EAD ISAD(G)* CIDOC-CRM WWWBibliotheken Archive AV Sektor VRA FIAF* CWS MODS RDA MARC/MAB BMF REM* MPEG-7 MPEG-21 PBCore DMS-1/MXF Weitere Formate und Regelwerke LIDO EDM OAI SPECTRUM RAK-WB* AACR* EBUcore W3C Mediaontology PREMIS Mittwoch, 9. April 14
  135. 135. / 106 EUROPEANA 135 Mittwoch, 9. April 14
  136. 136. / 106136 Mittwoch, 9. April 14
  137. 137. / 106137 Mittwoch, 9. April 14
  138. 138. http://semex.hpi.uni-potsdam.de/semex/ Mittwoch, 9. April 14
  139. 139. 139 C. Hentschel, H. Sack, et al., Open up cultural heritage in video archives with mediaglobe, I2CS 2012 http://semex.hpi.uni-potsdam.de/semex/ Mittwoch, 9. April 14
  140. 140. Mittwoch, 9. April 14
  141. 141. How to Search in Multimedia Archives? Mittwoch, 9. April 14
  142. 142. 142 Searching the Web Mittwoch, 9. April 14
  143. 143. 143 Searching the Web Mittwoch, 9. April 14
  144. 144. 144 Mittwoch, 9. April 14
  145. 145. 145 Google Knowledge Graph = “search results with semantic- search information gathered from a wide variety of sources“ Mittwoch, 9. April 14
  146. 146. Google Multimedia Search Mittwoch, 9. April 14
  147. 147. ‣Google Multimedia Search relies on text-based metadata and link context How does Google find Multimedia? Mittwoch, 9. April 14
  148. 148. Seach by Media Content Mittwoch, 9. April 14
  149. 149. The Ordinary Archive is a Small World... Neil Armstrong Mittwoch, 9. April 14
  150. 150. But, wouldn‘t it be nice, if..... Neil Armstrong ...but maybe you are also interested in - Buzz Aldrin (1 videos) - John Glen (1 video) - Juri Gagarin (2 videos) - Richard Nixon (3 videos) - Apollo 11 (1 video) - NASA (20 videos) - Moon (14 videos) - space exploration (34 videos) - technology (1.205 videos) Sorry, no results found for ‘Neil Armstrong‘... Mittwoch, 9. April 14
  151. 151. How to Search in Multimedia Archives? Mittwoch, 9. April 14
  152. 152. Jörg Waitelonis, Hasso-Plattner-Institut Potsdam Content-Based Search in Multimedia Archives relies on text-based Metadata Current Solution: Manual Annotation Mittwoch, 9. April 14
  153. 153. image Visual Concept Detection Text Recognition Visual Analysis (Selected) Automated Media Analysis Face Detection Face Detection Logo Detection audio- visual text / images Audio-Mining structural analysis Automated Speech Recognition audio event detection audio Mittwoch, 9. April 14
  154. 154. Structural Video Analysis • Decomposition of time-based media into meaningful media fragments of coherent content that can be used as basic element for indexing and classification scenes shots subshots frames video keyframes Mittwoch, 9. April 14
  155. 155. Video Optical Character Recognition (OCR) • Video OCR is much more difficult than traditional print OCR • fast detection/filtering of text candidates • verification of text candidates • script separation from background • visual quality enhancement • application of standard OCR software • spell correction w.r.t. context and temporal redundancy Mittwoch, 9. April 14
  156. 156. • Face Detection Detect candidate image regions in a video frame that depict a human face • Face Tracking Track a detected face in video over consecutive frames within shot boundaries • Face Clustering Group faces detected and tracked in videos into visually similar sets within a single video • Face Recognition/Identification Reliable identification of detected faces Video Face Detection, Tracking & Clustering person frontal face:90% not a person person profile face:70% Mittwoch, 9. April 14
  157. 157. Visual Concept Detection • Adaption of traditional ,Bag of Words‘ approach from text retrieval • Image is expressed as vector (histogram) of dictionary codeword frequencies • classification via machine learning (Support Vector Machines) Mittwoch, 9. April 14
  158. 158. Annotation of Audiovisual Data Metadata Extraction Metadata (e.g. MPEG-7) ... <SpatialDecomposition> <TextAnnotation> <KeywordAnnotation> <Keyword>Astronaut</Keyword> </KeywordAnnotation> </TextAnnotation> <SpatialMask> <SubRegion> <Polygon> <Coords> 480 150 620 480 </Coords> </Polygon> </SubRegion> </SpatialMask> ... </SpatialDecomposition> ... • Multimedia data with spatiotemporal Annotations Neil Armstrong Mittwoch, 9. April 14
  159. 159. www.yovisto.com Mittwoch, 9. April 14
  160. 160. • Authoritative Metadata • structured data • semi-structured data • natural language text • Non-authoritative Metadata • (free) user tags and comments • restricted vocabularies • (Media) Analysis Metadata • low level features • high level features • etc. How to Determine the Meaning of Metadata? Semantic Analysis reliability context pragmatics location dependency accuracy time dependency level of abstraction Mittwoch, 9. April 14
  161. 161. Neil Armstrong Astronaut is a Person is a Science Occupation subClassOf Employment subClassOf Entities Ontologies has an ,Neil Armstrong‘ is more than just a character string Kosmonaut same as Juri Gagarin is a is NOT a ! Mittwoch, 9. April 14
  162. 162. Where does the knowledge come from...? Mittwoch, 9. April 14
  163. 163. Astronaut Person Neil Armstrong Science Occupation Employment is a is a is a is a has a Web of Data Mittwoch, 9. April 14
  164. 164. Web of Data = Linked Open Data But what, if there is no trivial unique identification? Armstrong user tag Mittwoch, 9. April 14
  165. 165. Armstrong Mittwoch, 9. April 14
  166. 166. Armstrong Armstrong+ Moon Mittwoch, 9. April 14
  167. 167. Web of Data = Linked Open Data Understanding requires Context Armstrong Moon EagleSpace Mittwoch, 9. April 14
  168. 168. 42 42 42 42 24 4242 42 42 42 42 Semantic Analysis Semantics is determined by Context Context Item N.Steinmetz, H.Sack: Semantic Multimedia Information Retrieval Based on Contextual Descriptions, 2013 „Armstrong landed the Eagle on the Moon.“ Text SEMEX Multimedia Context Model Context Dimensions Temporal Context Spatial Context Provenance Context Relevance determines Ambiguity influences Accuracy influences Contextual Description Class Diversity Level of Structure Source Reliability Source Diversity Mittwoch, 9. April 14
  169. 169. Armstrong George Armstrong Custer Neil Armstrong The Armstrong Twins Armstrong, Florida Armstrong, Ontario Armstrong Automobile Joe Armstrong Armstrong County, Texass Armstrong Gun Craig Armstrong Armstrong (Moon Crater) Louis Armstrong Armstrong Tunnel Louis Armstrong International Airport Armstrong‘s Theorem Sir Thomas Armstrong Ian Armstrong Eagle Moon Eagle (Bird) Eagle (heraldry) USCGC Eagle The Eagle (2011 film) Eagle (song) John H. Eagle Eagle (typeface) Eagle Falls (Washington) Eagle (Moon Crater) Eagle (comic) Eagle (lunar module) Eagle TV Armstrong Tunnel The Eagle (Pub) War Eagle The Eagle (newspaper) Eagle (racehorse) Angela Eagle Linda Eagle James Philipp Eagle 95 entities448 entities Armstrong (British Columbia) Karen Armstrong Curtis Armstrong Gillian Armstrong Hilary Armstrong William L. Armstrong 156 entities Man on the Moon (film) Moon (song) Moon Son-Ri C Moon The Moon (Tarot card) Edgar Moon Moon OS Moon (Band) Moon Moon 44 Man on the Moon (soundtrack) William Moon Lottie Moon Mr. Moon (song) Man on the Moon (musical) Darvin Moon Moon 83 Francis Moon Gary Moon Robert Charles Moon Black Moon Allan Moon Ban-Ki Moon Fly me to the Moon (song) Semantic Analysis Named Entity Mapping „Armstrong landed the Eagle on the Moon.“ Consider all entities within the same context Mittwoch, 9. April 14
  170. 170. Select matching entities from all possible candidate entities: • Popularity based strategies • Linguistical strategies • Statistical strategies • Semantic based strategies General Approach 1. Make an assumption 2. Do the strategies support or contradict your assumption 3. Make decision according to logical and probabilistic rules/constraints Semantic Analysis Named Entity Recognition N. Ludwig, H. Sack, “Named entity recognition for user-generated tags,TIR 2011 • reference text corpus (wikipedia) • link graph (wikipedia) • semantic graph (DBpedia) Entity Selection Process Mittwoch, 9. April 14
  171. 171. Armstrong George Armstrong Custer The Armstrong Twins Armstrong, Florida Armstrong, Ontario Armstrong Automobile Joe Armstrong Armstrong County, Texass Armstrong Gun Craig Armstrong Armstrong (Moon Crater) Armstrong Tunnel Louis Armstrong International Airport Armstrong‘s Theorem Sir Thomas Armstrong Ian Armstrong Eagle Moon Eagle (Bird) Eagle (heraldry) USCGC Eagle The Eagle (2011 film) Eagle (song) John H. Eagle Eagle (typeface) Eagle Falls (Washington) Eagle (Moon Crater) Eagle (comic) Eagle TV Armstrong Tunnel The Eagle (Pub) War Eagle The Eagle (newspaper) Eagle (racehorse) Angela Eagle Linda Eagle James Philipp Eagle 95 entities448 entities Armstrong (British Columbia) Karen Armstrong Curtis Armstrong Gillian Armstrong Hilary Armstrong William L. Armstrong 156 entities Man on the Moon (film) Moon (song) Moon Son-Ri C Moon The Moon (Tarot card) Edgar Moon Moon OS Moon (Band) Moon 44 Man on the Moon (soundtrack) William Moon Lottie Moon Mr. Moon (song) Man on the Moon (musical) Darvin Moon Moon 83 Francis Moon Gary Moon Robert Charles Moon Black Moon Allan Moon Ban-Ki Moon Neil Armstrong Eagle (lunar module) Moon Louis Armstrong Fly me to the Moon (song) Semantic Analysis Named Entity Recognition „Armstrong landed the Eagle on the Moon.“ N. Steinmetz, H.Sack: Semantic Multimedia Information Retrieval Based on Contextual Descriptions, 2013 Entity Selection Process (Semantic) Graph Analysis Mittwoch, 9. April 14
  172. 172. 42 42 42 42 24 4242 42 42 42 42 Jörg Waitelonis, Hasso-Plattner-Institut Potsdam 172 Semantically Annotated Multimedia Video Analysis / Metadata Extraction time metadata metadata metadata metadata metadata e.g., person xy location yz event abc e.g., bibliographical data, geographical data, encyclopedic data, .. Entity Recognition/ Mapping N. Ludwig, H. Sack: Named Entity Recognition for User- Generated Tags. In Proc. of the 8th Int. Workshop on Text-based Information Retrieval, IEEE CS Press, 2011 Mittwoch, 9. April 14
  173. 173. Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam 173 Explorative Search dbpedia-owl:mission dbpedia:Neil_Armstrong dbpedia:Apollo_11 dbpedia-owl:mission category:Apollo_program dcterms:subject dbpedia:Apollo_13 dcterms:subject yago:Space_accidents_and_incidents rdf:type rdf:type dbpedia:Space_Shuttle_Challenger dbpedia-owl:mission http://mediaglobe.yovisto.com:8080/ J. Waitelonis, H. Sack: Towards exploratory video search using linked data, MTAP Volume 59, Number 2 (2012), 645-672 dbpedia:Buzz_Aldrin dbpedia:Michael_Collins Mittwoch, 9. April 14
  174. 174. Exploratory Search and Serendipity •Find something that you were not looking for on purpose ... dbpedia:Buzz_Aldrin dbpedia:Cookie_Monster dbpedia:Strictly_Come_Dancing dbpedia:Transformers Mittwoch, 9. April 14
  175. 175. Metadaten für Medienarchive Contact: Dr. Harald Sack Hasso-Plattner-Institute for IT Systems Engineering University of Potsdam Germany harald.sack@hpi.uni-potsdam.de Vielen Dank für Ihre Aufmerksamkeit! Mittwoch, 9. April 14
  176. 176. 176 Der Online-Kurs startet am 26.05.2014 Mittwoch, 9. April 14

×