CUbRIK presented during the Poster session of the Workshop „Mehr Personen – Mehr Daten – Mehr Repositorien“ ("More poeple - more data - more repositories") - 4-6 March in Berlin, at Brandenburg Academy of Sciences
ACMMM12 - LikeLines: Collecting Timecode-level Feedback for Web Videos throug...
CUbRIK and History of Europe
1. Von zweifelhaften Informationen zu
neuen Zusammenhängen
Zum Aufbau eines Personendatenrepositoriums im
Kontext der europäischen Integration
L. Wieneke, F. Clavert, N. Carboni
2.
3. Inhalt
• Hintergrund CUbRIK
• Anforderungen an ein Repositorium für Identitäten
• Praktische Umsetzung
• Ausblick und Erfahrungen
3
5. CUbRIK
36 month large-scale integrating
project started in October 2011
partially funded by the European
Commission’s 7th Framework
ICT Programme for Research
and Technological Development
www.cubrikproject.eu
5
8. CUbRIK: Social Graph
• Gemeinsames Auftreten von
Personen in einem Dokument (Bild)
schafft Verbindung
• Aufbau mit bestehendem Material
• Kontinuierliche Erweiterung
• Angereichert mit Ort, Zeit,
Organisationen und Biographien
• Technische und analytische
Funktion
• Identitäten als Fixpunkte des SG
8
9. CUbRIK: Social Graph
• Time based roles (e.g. • VIAF
president of EU parliament • DBPedia
between XX and YY) Person • WorldCat Person
• Entitypedia
B
• Membership of interest
groups A • GND
• DateTime, Place (Location)
• Controlled Keywords
• Events (e.g. Treaty of Rome …)
9
11. Anforderungen an ein Repositorium für Identitäten
• Leicht-gewichtig
• Erweiterbar
• Modellierung von
o Unsicherheit (1967?, [Paris?])
o Mehrdeutigkeit
o Zuverlässigkeit (Vermutung/Fakt jeweils mit Argumentation)
o Provenienz
o Mehrsprachigkeit
• Raum und Zeit (hierarchisches Raum-Modell)
11
14. Erschließung der Personennamen
• Ist-Situation
– ca. 1800 Personen in 6500 Bildern
– Schwach strukturierte Daten
– Inkohärente Verwendung von Namen
• Francisco Fernández Ordoñez
• Francisco Fernández Ordóñez
• Francisco Fernandez Ordonez
• Francisco Fernandez Ordoñez
– Keine eindeutige Referenzierung (PID)
14
15. Personennamen Workflow
Clement Attlee, Harry Truman, Joseph Staline
Clement Attlee, Harry Truman, Joseph Staline
1. Extraktion von
1. Extraktion von
Personennamen aus
Personennamen aus OpenCalais Python Script
OpenCalais Python Script
Beschriftung
Beschriftung
Clement Attlee
Clement Attlee Harry Truman
Harry Truman Joseph Staline
Joseph Staline
Anker Jørgensen
Anker Jørgensen Google
2. Säuberung der Daten
2. Säuberung der Daten Anker Jørgensen
Anker Jørgensen
Refine
Anker Jorgensen
Anker Jorgensen
3. Verbindung und
3. Verbindung und
Verifizierung Philippe Maystadt Google Philippe Maystadtn
Verifizierung Philippe Maystadt Philippe Maystadtn
(Reconciliation) Refine
(Reconciliation)
15
17. Ausblick
• Umsetzung der bestehenden Daten in den Social
Graph
• Entwicklung eines Toolsets zur Annotation,
automatischen Erkennung und manuellen Korrektur
von Informationen, Verbindung mit Crowdsourcing
Verfahren
• Entwicklung von Tools zur Visualisierung und
Erkundung des Social Graph
17
18. Diskussion
• Wie können wir Quellen und Argumentationen für
Annotationen abbilden?
• PID für Personen, wo ist der Stein von Rosetta?
19