SlideShare ist ein Scribd-Unternehmen logo
1 von 23
Von zweifelhaften Informationen zu
neuen Zusammenhängen
Zum Aufbau eines Personendatenrepositoriums im
Kontext der europäischen Integration




L. Wieneke, F. Clavert, N. Carboni
Inhalt


• Hintergrund CUbRIK

• Anforderungen an ein Repositorium für Identitäten

• Praktische Umsetzung

• Ausblick und Erfahrungen




                                                      3
CUbRIK




29/09/2011 – Title   4
CUbRIK
   36 month large-scale integrating
    project started in October 2011
   partially funded by the European
    Commission’s 7th Framework
    ICT Programme for Research
    and Technological Development


www.cubrikproject.eu




                                       5
CUbRIK: Human Computation




                            6
CUbRIK: Entwicklungsprozess History of Europe




                                                7
CUbRIK: Social Graph

•   Gemeinsames Auftreten von
    Personen in einem Dokument (Bild)
    schafft Verbindung
•   Aufbau mit bestehendem Material
•   Kontinuierliche Erweiterung
•   Angereichert mit Ort, Zeit,
    Organisationen und Biographien
•   Technische und analytische
    Funktion
•   Identitäten als Fixpunkte des SG




                                        8
CUbRIK: Social Graph

• Time based roles (e.g.                •   VIAF
  president of EU parliament            •   DBPedia
  between XX and YY)           Person   •   WorldCat      Person
                                        •   Entitypedia
                                                           B
• Membership of interest
  groups                           A    •   GND




• DateTime, Place (Location)
• Controlled Keywords
• Events (e.g. Treaty of Rome …)




                                                                   9
CUbRIK HoE Repositorium




29/09/2011 – Title        10
Anforderungen an ein Repositorium für Identitäten


•   Leicht-gewichtig
•   Erweiterbar
•   Modellierung von
     o Unsicherheit (1967?, [Paris?])
     o Mehrdeutigkeit
     o Zuverlässigkeit (Vermutung/Fakt jeweils mit Argumentation)
     o Provenienz
     o Mehrsprachigkeit

•   Raum und Zeit (hierarchisches Raum-Modell)

                                                                    11
Medien, Personen, Organisationen




                                   12
Praktische Umsetzung




 29/09/2011 – Title    13
Erschließung der Personennamen


• Ist-Situation
   – ca. 1800 Personen in 6500 Bildern
   – Schwach strukturierte Daten
   – Inkohärente Verwendung von Namen
       • Francisco Fernández Ordoñez
       • Francisco Fernández Ordóñez
       • Francisco Fernandez Ordonez
       • Francisco Fernandez Ordoñez

   – Keine eindeutige Referenzierung (PID)


                                             14
Personennamen Workflow

                               Clement Attlee, Harry Truman, Joseph Staline
                                Clement Attlee, Harry Truman, Joseph Staline
   1. Extraktion von
    1. Extraktion von
 Personennamen aus
  Personennamen aus                     OpenCalais Python Script
                                        OpenCalais Python Script
     Beschriftung
      Beschriftung
                           Clement Attlee
                            Clement Attlee     Harry Truman
                                                Harry Truman     Joseph Staline
                                                                  Joseph Staline


                           Anker Jørgensen
                            Anker Jørgensen         Google
2. Säuberung der Daten
 2. Säuberung der Daten                                            Anker Jørgensen
                                                                    Anker Jørgensen
                                                    Refine
                           Anker Jorgensen
                            Anker Jorgensen


  3. Verbindung und
   3. Verbindung und
      Verifizierung       Philippe Maystadt        Google        Philippe Maystadtn
       Verifizierung       Philippe Maystadt                      Philippe Maystadtn
    (Reconciliation)                               Refine
     (Reconciliation)



                                                                                   15
Ausblick & Diskussion




 29/09/2011 – Title     16
Ausblick


• Umsetzung der bestehenden Daten in den Social
  Graph
• Entwicklung eines Toolsets zur Annotation,
  automatischen Erkennung und manuellen Korrektur
  von Informationen, Verbindung mit Crowdsourcing
  Verfahren
• Entwicklung von Tools zur Visualisierung und
  Erkundung des Social Graph

                                                    17
Diskussion


• Wie können wir Quellen und Argumentationen für
  Annotationen abbilden?
• PID für Personen, wo ist der Stein von Rosetta?




                                                    19
Thank you for listening




29/09/2011 – Title                             20
29/09/2011 – Titre   21
Beispiele Refine: Clustering




                               22
Beispiele Refine: Reconciliation & Matching




                                              23
Beispiele Refine: Reconciliation & Matching




                                              24

Weitere ähnliche Inhalte

Andere mochten auch

Exploiting User Generated Content for Mountain Peak Detection
Exploiting User Generated Content for Mountain Peak DetectionExploiting User Generated Content for Mountain Peak Detection
Exploiting User Generated Content for Mountain Peak DetectionCUbRIK Project
 
histoGraph for historians
histoGraph for historianshistoGraph for historians
histoGraph for historiansCUbRIK Project
 
Prof. Fraternali about Human computation
Prof. Fraternali about Human computationProf. Fraternali about Human computation
Prof. Fraternali about Human computationCUbRIK Project
 
histoGraph: a case study in Digital Humanities
histoGraph: a case study in Digital HumanitieshistoGraph: a case study in Digital Humanities
histoGraph: a case study in Digital HumanitiesCUbRIK Project
 
Building a social graph for the history of Europe: the CUbRIK histoGraph
Building a social graph for the history of Europe: the CUbRIK histoGraphBuilding a social graph for the history of Europe: the CUbRIK histoGraph
Building a social graph for the history of Europe: the CUbRIK histoGraphCUbRIK Project
 
Semantic schema for geonames
Semantic schema for geonamesSemantic schema for geonames
Semantic schema for geonamesCUbRIK Project
 
CUbRIK tutorial at ICWE 2013: part 1 Introduction to Human Computation
CUbRIK tutorial at ICWE 2013: part 1 Introduction to Human ComputationCUbRIK tutorial at ICWE 2013: part 1 Introduction to Human Computation
CUbRIK tutorial at ICWE 2013: part 1 Introduction to Human ComputationCUbRIK Project
 
CUbRIK Research at CIKM 2012: Efficient Jaccard-based Diversity Analysis of L...
CUbRIK Research at CIKM 2012: Efficient Jaccard-based Diversity Analysis of L...CUbRIK Research at CIKM 2012: Efficient Jaccard-based Diversity Analysis of L...
CUbRIK Research at CIKM 2012: Efficient Jaccard-based Diversity Analysis of L...CUbRIK Project
 
histoGraph presented to MMSP 2013
histoGraph presented to MMSP 2013histoGraph presented to MMSP 2013
histoGraph presented to MMSP 2013CUbRIK Project
 

Andere mochten auch (10)

SMILA in CUbRIK
SMILA in CUbRIKSMILA in CUbRIK
SMILA in CUbRIK
 
Exploiting User Generated Content for Mountain Peak Detection
Exploiting User Generated Content for Mountain Peak DetectionExploiting User Generated Content for Mountain Peak Detection
Exploiting User Generated Content for Mountain Peak Detection
 
histoGraph for historians
histoGraph for historianshistoGraph for historians
histoGraph for historians
 
Prof. Fraternali about Human computation
Prof. Fraternali about Human computationProf. Fraternali about Human computation
Prof. Fraternali about Human computation
 
histoGraph: a case study in Digital Humanities
histoGraph: a case study in Digital HumanitieshistoGraph: a case study in Digital Humanities
histoGraph: a case study in Digital Humanities
 
Building a social graph for the history of Europe: the CUbRIK histoGraph
Building a social graph for the history of Europe: the CUbRIK histoGraphBuilding a social graph for the history of Europe: the CUbRIK histoGraph
Building a social graph for the history of Europe: the CUbRIK histoGraph
 
Semantic schema for geonames
Semantic schema for geonamesSemantic schema for geonames
Semantic schema for geonames
 
CUbRIK tutorial at ICWE 2013: part 1 Introduction to Human Computation
CUbRIK tutorial at ICWE 2013: part 1 Introduction to Human ComputationCUbRIK tutorial at ICWE 2013: part 1 Introduction to Human Computation
CUbRIK tutorial at ICWE 2013: part 1 Introduction to Human Computation
 
CUbRIK Research at CIKM 2012: Efficient Jaccard-based Diversity Analysis of L...
CUbRIK Research at CIKM 2012: Efficient Jaccard-based Diversity Analysis of L...CUbRIK Research at CIKM 2012: Efficient Jaccard-based Diversity Analysis of L...
CUbRIK Research at CIKM 2012: Efficient Jaccard-based Diversity Analysis of L...
 
histoGraph presented to MMSP 2013
histoGraph presented to MMSP 2013histoGraph presented to MMSP 2013
histoGraph presented to MMSP 2013
 

Mehr von CUbRIK Project

The CUbRIK histoGraph Factsheet
The CUbRIK histoGraph FactsheetThe CUbRIK histoGraph Factsheet
The CUbRIK histoGraph FactsheetCUbRIK Project
 
Mining Emotions in Short Films: User Comments or Crowdsourcing?
Mining Emotions in Short Films: User Comments or Crowdsourcing?Mining Emotions in Short Films: User Comments or Crowdsourcing?
Mining Emotions in Short Films: User Comments or Crowdsourcing?CUbRIK Project
 
CUbRIK: Open Box. Multimedia and Human Computation approach
CUbRIK: Open Box. Multimedia and Human Computation approachCUbRIK: Open Box. Multimedia and Human Computation approach
CUbRIK: Open Box. Multimedia and Human Computation approachCUbRIK Project
 
ICT 2013: Better Society: empowering Horizon 2020 with trustable social media
ICT 2013: Better Society: empowering Horizon 2020 with trustable social mediaICT 2013: Better Society: empowering Horizon 2020 with trustable social media
ICT 2013: Better Society: empowering Horizon 2020 with trustable social mediaCUbRIK Project
 
How Do We Deep-Link? Leveraging User-Contributed Time-Links for Non-Linear Vi...
How Do We Deep-Link? Leveraging User-Contributed Time-Links for Non-Linear Vi...How Do We Deep-Link? Leveraging User-Contributed Time-Links for Non-Linear Vi...
How Do We Deep-Link? Leveraging User-Contributed Time-Links for Non-Linear Vi...CUbRIK Project
 
CUbRIK research presented at SSMS 2012
CUbRIK research presented at SSMS 2012CUbRIK research presented at SSMS 2012
CUbRIK research presented at SSMS 2012CUbRIK Project
 
CUbRIK research at CIKM 2012: Pic Alert
CUbRIK research at CIKM 2012: Pic AlertCUbRIK research at CIKM 2012: Pic Alert
CUbRIK research at CIKM 2012: Pic AlertCUbRIK Project
 
CUbRIK research at CIKM 2012: Map to Humans and Reduce Error
CUbRIK research at CIKM 2012: Map to Humans and Reduce ErrorCUbRIK research at CIKM 2012: Map to Humans and Reduce Error
CUbRIK research at CIKM 2012: Map to Humans and Reduce ErrorCUbRIK Project
 
CUbRIK research at RecSys 2012
CUbRIK research at RecSys 2012CUbRIK research at RecSys 2012
CUbRIK research at RecSys 2012CUbRIK Project
 
CUbRIK research at SIGMOD 2012
CUbRIK research at SIGMOD 2012CUbRIK research at SIGMOD 2012
CUbRIK research at SIGMOD 2012CUbRIK Project
 
CUbRIK research at CAPS Infoday in PIsa
CUbRIK research at CAPS Infoday in PIsaCUbRIK research at CAPS Infoday in PIsa
CUbRIK research at CAPS Infoday in PIsaCUbRIK Project
 
ACMMM12 - LikeLines: Collecting Timecode-level Feedback for Web Videos throug...
ACMMM12 - LikeLines: Collecting Timecode-level Feedback for Web Videos throug...ACMMM12 - LikeLines: Collecting Timecode-level Feedback for Web Videos throug...
ACMMM12 - LikeLines: Collecting Timecode-level Feedback for Web Videos throug...CUbRIK Project
 

Mehr von CUbRIK Project (12)

The CUbRIK histoGraph Factsheet
The CUbRIK histoGraph FactsheetThe CUbRIK histoGraph Factsheet
The CUbRIK histoGraph Factsheet
 
Mining Emotions in Short Films: User Comments or Crowdsourcing?
Mining Emotions in Short Films: User Comments or Crowdsourcing?Mining Emotions in Short Films: User Comments or Crowdsourcing?
Mining Emotions in Short Films: User Comments or Crowdsourcing?
 
CUbRIK: Open Box. Multimedia and Human Computation approach
CUbRIK: Open Box. Multimedia and Human Computation approachCUbRIK: Open Box. Multimedia and Human Computation approach
CUbRIK: Open Box. Multimedia and Human Computation approach
 
ICT 2013: Better Society: empowering Horizon 2020 with trustable social media
ICT 2013: Better Society: empowering Horizon 2020 with trustable social mediaICT 2013: Better Society: empowering Horizon 2020 with trustable social media
ICT 2013: Better Society: empowering Horizon 2020 with trustable social media
 
How Do We Deep-Link? Leveraging User-Contributed Time-Links for Non-Linear Vi...
How Do We Deep-Link? Leveraging User-Contributed Time-Links for Non-Linear Vi...How Do We Deep-Link? Leveraging User-Contributed Time-Links for Non-Linear Vi...
How Do We Deep-Link? Leveraging User-Contributed Time-Links for Non-Linear Vi...
 
CUbRIK research presented at SSMS 2012
CUbRIK research presented at SSMS 2012CUbRIK research presented at SSMS 2012
CUbRIK research presented at SSMS 2012
 
CUbRIK research at CIKM 2012: Pic Alert
CUbRIK research at CIKM 2012: Pic AlertCUbRIK research at CIKM 2012: Pic Alert
CUbRIK research at CIKM 2012: Pic Alert
 
CUbRIK research at CIKM 2012: Map to Humans and Reduce Error
CUbRIK research at CIKM 2012: Map to Humans and Reduce ErrorCUbRIK research at CIKM 2012: Map to Humans and Reduce Error
CUbRIK research at CIKM 2012: Map to Humans and Reduce Error
 
CUbRIK research at RecSys 2012
CUbRIK research at RecSys 2012CUbRIK research at RecSys 2012
CUbRIK research at RecSys 2012
 
CUbRIK research at SIGMOD 2012
CUbRIK research at SIGMOD 2012CUbRIK research at SIGMOD 2012
CUbRIK research at SIGMOD 2012
 
CUbRIK research at CAPS Infoday in PIsa
CUbRIK research at CAPS Infoday in PIsaCUbRIK research at CAPS Infoday in PIsa
CUbRIK research at CAPS Infoday in PIsa
 
ACMMM12 - LikeLines: Collecting Timecode-level Feedback for Web Videos throug...
ACMMM12 - LikeLines: Collecting Timecode-level Feedback for Web Videos throug...ACMMM12 - LikeLines: Collecting Timecode-level Feedback for Web Videos throug...
ACMMM12 - LikeLines: Collecting Timecode-level Feedback for Web Videos throug...
 

CUbRIK and History of Europe

  • 1. Von zweifelhaften Informationen zu neuen Zusammenhängen Zum Aufbau eines Personendatenrepositoriums im Kontext der europäischen Integration L. Wieneke, F. Clavert, N. Carboni
  • 2.
  • 3. Inhalt • Hintergrund CUbRIK • Anforderungen an ein Repositorium für Identitäten • Praktische Umsetzung • Ausblick und Erfahrungen 3
  • 5. CUbRIK  36 month large-scale integrating project started in October 2011  partially funded by the European Commission’s 7th Framework ICT Programme for Research and Technological Development www.cubrikproject.eu 5
  • 8. CUbRIK: Social Graph • Gemeinsames Auftreten von Personen in einem Dokument (Bild) schafft Verbindung • Aufbau mit bestehendem Material • Kontinuierliche Erweiterung • Angereichert mit Ort, Zeit, Organisationen und Biographien • Technische und analytische Funktion • Identitäten als Fixpunkte des SG 8
  • 9. CUbRIK: Social Graph • Time based roles (e.g. • VIAF president of EU parliament • DBPedia between XX and YY) Person • WorldCat Person • Entitypedia B • Membership of interest groups A • GND • DateTime, Place (Location) • Controlled Keywords • Events (e.g. Treaty of Rome …) 9
  • 11. Anforderungen an ein Repositorium für Identitäten • Leicht-gewichtig • Erweiterbar • Modellierung von o Unsicherheit (1967?, [Paris?]) o Mehrdeutigkeit o Zuverlässigkeit (Vermutung/Fakt jeweils mit Argumentation) o Provenienz o Mehrsprachigkeit • Raum und Zeit (hierarchisches Raum-Modell) 11
  • 14. Erschließung der Personennamen • Ist-Situation – ca. 1800 Personen in 6500 Bildern – Schwach strukturierte Daten – Inkohärente Verwendung von Namen • Francisco Fernández Ordoñez • Francisco Fernández Ordóñez • Francisco Fernandez Ordonez • Francisco Fernandez Ordoñez – Keine eindeutige Referenzierung (PID) 14
  • 15. Personennamen Workflow Clement Attlee, Harry Truman, Joseph Staline Clement Attlee, Harry Truman, Joseph Staline 1. Extraktion von 1. Extraktion von Personennamen aus Personennamen aus OpenCalais Python Script OpenCalais Python Script Beschriftung Beschriftung Clement Attlee Clement Attlee Harry Truman Harry Truman Joseph Staline Joseph Staline Anker Jørgensen Anker Jørgensen Google 2. Säuberung der Daten 2. Säuberung der Daten Anker Jørgensen Anker Jørgensen Refine Anker Jorgensen Anker Jorgensen 3. Verbindung und 3. Verbindung und Verifizierung Philippe Maystadt Google Philippe Maystadtn Verifizierung Philippe Maystadt Philippe Maystadtn (Reconciliation) Refine (Reconciliation) 15
  • 16. Ausblick & Diskussion 29/09/2011 – Title 16
  • 17. Ausblick • Umsetzung der bestehenden Daten in den Social Graph • Entwicklung eines Toolsets zur Annotation, automatischen Erkennung und manuellen Korrektur von Informationen, Verbindung mit Crowdsourcing Verfahren • Entwicklung von Tools zur Visualisierung und Erkundung des Social Graph 17
  • 18. Diskussion • Wie können wir Quellen und Argumentationen für Annotationen abbilden? • PID für Personen, wo ist der Stein von Rosetta? 19
  • 19. Thank you for listening 29/09/2011 – Title 20

Hinweis der Redaktion

  1. Joseph Bech, Johan Beyen, Walter Hallstein, Paul Henri Spaak und [???]