Technologien und Konzepte für multimediale Bibliotheken der nächsten Generation CONTENTUS Dr. Nicolas Flores-Herr
Überblick <ul><li>Hintergrund und Motivation </li></ul><ul><li>Der CONTENTUS-Ansatz </li></ul><ul><li>Inhaltsanalyse  </li...
Hintergrund <ul><li>X </li></ul><ul><ul><li>Gefördert durch das Bundesministerium für Wirtschaft und Technologie </li></ul...
<ul><li>Viele, umfangreiche, aber analoge, multimediale Archive in </li></ul><ul><ul><li>Bibliotheken, Museen </li></ul></...
Medienzerfall  <ul><li>Ursachen </li></ul><ul><ul><li>Unsachgemäße Lagerung </li></ul></ul><ul><ul><li>Materialermüdung </...
Digitalisierung in Bibliotheken <ul><li>Möglicher Qualitätsverlust </li></ul><ul><ul><li>Ungeeignete Hardware </li></ul></...
Metadaten in Bibliotheken <ul><li>Für die spätere Nutzung entscheidend </li></ul><ul><ul><li>Suche </li></ul></ul><ul><ul>...
Zugriff und Nutzung <ul><li>Einschränkungen gegenwärtiger Suchansätze in Bibliotheken </li></ul><ul><ul><li>Suche basiert ...
LÖSUNG Technologien und Konzepte aus CONTENTUS <ul><li>PROBLEM </li></ul><ul><li>Digitalisierung </li></ul><ul><li>Metadat...
Multimediaverarbeitung durch die CONTENTUS-Prozesskette medienspezifisch medienunabhängig
 
 
Digitization 1 Automatic Quality Control 2
Qualitätskontrolle <ul><li>Ziele: Automatisierung und Effizienz </li></ul><ul><ul><li>Manuelle Qualitätskontrolle ist teue...
Quality Control: De-Warping
Quality Control: Newspaper Scans  Original Otsu  Binarization Sauvola  Binarization CONTENTUS Approach + Content- specific...
medienspezifisch Digitization 1 Automatic Quality Control 2 Automatic Content Analysis 3
Inhaltsanalyse <ul><li>Digitalisierung reicht nicht </li></ul><ul><ul><li>Was enthalten die Medien? </li></ul></ul><ul><li...
Inhaltsanalyse: Ablauf am Beispiel Print Digitalisat Struktur- erkennung OCR Entitäten- erkennung & Klassifikation
Inhaltsanalyse: Segmentierung von Seiten <ul><li>Automatische Identifikation von </li></ul><ul><ul><li>Artikeln </li></ul>...
Inhaltsanalyse: Entity Recognition <ul><li>Identifikation von Bedeutungen, Unterscheidung von Entitäten  </li></ul>Über Ko...
Inhaltsanalyse: Disambiguierung Michael Müller  (SPD) SPD-Fraktionschef  Michael Müller  ist erneut in seinem Amt bestätig...
Inhaltsanalyse: Audiovisuelle Medien Speech Speech Speech Non-Speech Non-Speech Mercedes Benz Berlin Segementaiton Classif...
medienspezifisch medienübergreifend Digitization 1 Automatic Quality Control 2 Automatic Content Analysis 3 Semantic Metad...
Semantische Verknüpfungen von Metadaten <ul><li>Integration und Verknüpfung aus verschiedenen Quellen </li></ul><ul><ul><l...
Externe Datenquellen Internes Wissensnetz Lübeck 3:08 Ehrbare Verfinsterung 7 3:45 Bei Tienappels. Und von Hans Castorps …...
Datenintegration <ul><li>Gemeinsame Präsentation zusammengehörender Medien </li></ul><ul><li>Hintergrundinformationen verf...
medienspezifisch medienübergreifend Digitization 1 Automatic Quality Control 2 Automatic Content Analysis 3 Semantic Metad...
CONTENTUS User Interface
Search Area
Search Field breadcrumbs
Result Area
organize and filter media types history collection
refine and filter time-line faceted suggestions
search results
article  audio video location article person video search results
User Interface Detailseite für Bücher Detail View detected entities full page other pages articles on this page text snipp...
<ul><li>Michael Jackson (Sänger) </li></ul><ul><li>Michael Jackson (Journalist) </li></ul><ul><li>Michael Jackson (KFOR Ge...
Anzeige von erkannten Entitäten im Text
 
 
 
 
 
 
Wo stehen wir heute?  Situation Multimedia-Archive 2011    Wissen überwiegend in analoger Form    Verarbeitung und Ersch...
Wo geht es hin?  Das Multimediaarchiv der Zukunft    Archivbestände vollständig digital    Semantische  Vernetzung von M...
CONTENTUS <ul><li>Technologien für Multimedia- Archive der nächsten Generation </li></ul><ul><li>Fokus auf automatische Ve...
Vielen Dank für Ihre Aufmerksamkeit!
Nächste SlideShare
Wird geladen in …5
×

LSWT2011: CONTENTUS: Technologien und Konzepte für multimediale Bibliotheken der nächsten Generation

694 Aufrufe

Veröffentlicht am

Vortrag von Dr. Nicolas Flores-Herr, gehalten am 05.05.2011 auf den 3. Leipziger Semantic Web Tagen

Veröffentlicht in: Technologie, Bildung
0 Kommentare
0 Gefällt mir
Statistik
Notizen
  • Als Erste(r) kommentieren

  • Gehören Sie zu den Ersten, denen das gefällt!

Keine Downloads
Aufrufe
Aufrufe insgesamt
694
Auf SlideShare
0
Aus Einbettungen
0
Anzahl an Einbettungen
1
Aktionen
Geteilt
0
Downloads
0
Kommentare
0
Gefällt mir
0
Einbettungen 0
Keine Einbettungen

Keine Notizen für die Folie
  • Ü bergang auf n ä chste Folie: Datenintegration aus verschiedenen Quellen
  • vgl. Bild von Herrn Dohlus (Einsatz modernster Technik)
  • LSWT2011: CONTENTUS: Technologien und Konzepte für multimediale Bibliotheken der nächsten Generation

    1. 1. Technologien und Konzepte für multimediale Bibliotheken der nächsten Generation CONTENTUS Dr. Nicolas Flores-Herr
    2. 2. Überblick <ul><li>Hintergrund und Motivation </li></ul><ul><li>Der CONTENTUS-Ansatz </li></ul><ul><li>Inhaltsanalyse </li></ul><ul><li>Semantische Verknüpfung </li></ul><ul><li>User Interface </li></ul>
    3. 3. Hintergrund <ul><li>X </li></ul><ul><ul><li>Gefördert durch das Bundesministerium für Wirtschaft und Technologie </li></ul></ul><ul><ul><li>Konsortium von ca. 60 Partnern aus Industrie und Forschung </li></ul></ul><ul><li>X </li></ul><ul><ul><li>„ Use Case“ in THESEUS bestehend aus 7 Partnern </li></ul></ul>
    4. 4. <ul><li>Viele, umfangreiche, aber analoge, multimediale Archive in </li></ul><ul><ul><li>Bibliotheken, Museen </li></ul></ul><ul><ul><li>Sendeanstalten, Medienarchiven </li></ul></ul><ul><ul><li>Onlinearchive </li></ul></ul><ul><li>Großes Potential: Inhalte von großem Wert für Kultur und Wissenschaft </li></ul><ul><li>Typische Probleme bei der Nutzung </li></ul><ul><ul><li>Medien analoger Form kaum nachnutzbar </li></ul></ul><ul><ul><li>Medien vom Zerfall bedroht </li></ul></ul><ul><ul><li>Qualitätsprobleme </li></ul></ul><ul><ul><li>Inhalte schlecht beschrieben </li></ul></ul><ul><ul><li>Zum Teil gewaltiger Umfang der Archive erschwert Suche </li></ul></ul><ul><ul><li>Sinnzusammenhänge zwischen Inhalten sind unklar </li></ul></ul>Motivation
    5. 5. Medienzerfall <ul><li>Ursachen </li></ul><ul><ul><li>Unsachgemäße Lagerung </li></ul></ul><ul><ul><li>Materialermüdung </li></ul></ul><ul><li>Auswirkungen (Beispiele) </li></ul><ul><ul><li>Print: Ausbleichen, Zersetzung durch Säure </li></ul></ul><ul><ul><li>Film: Kratzer, Verschmutzungen, Verzerrungen </li></ul></ul><ul><ul><li>Magnetbänder: Drop-outs </li></ul></ul><ul><ul><li>Optische Medien: Zersetzung der Beschichtungen </li></ul></ul>
    6. 6. Digitalisierung in Bibliotheken <ul><li>Möglicher Qualitätsverlust </li></ul><ul><ul><li>Ungeeignete Hardware </li></ul></ul><ul><ul><li>Fehlerhafte Einstellungen und Bedienung </li></ul></ul><ul><ul><li>Mangelndes Qualitätsbewusstsein </li></ul></ul><ul><li>Ziele </li></ul><ul><ul><li>Teilautomatisierung durch quantitative Qualitätsüberwachung </li></ul></ul><ul><ul><li>Kontinuierliche Qualitätsprüfung während des Auftrags </li></ul></ul>
    7. 7. Metadaten in Bibliotheken <ul><li>Für die spätere Nutzung entscheidend </li></ul><ul><ul><li>Suche </li></ul></ul><ul><ul><li>Abgrenzung von Medien </li></ul></ul><ul><ul><li>Semantische Verknüpfungen und LOD </li></ul></ul><ul><li>Mögliche Probleme mit Multimediainhalten </li></ul><ul><ul><li>Metadaten nicht immer vorhanden / vollständig </li></ul></ul><ul><ul><li>Manuelle Erschließung zeitaufwändig </li></ul></ul><ul><ul><li>Kompatibilität verschiedener Metadatenquellen </li></ul></ul><ul><ul><ul><li>Vokabular, Datenformate, Methodik / Regelwerk </li></ul></ul></ul>
    8. 8. Zugriff und Nutzung <ul><li>Einschränkungen gegenwärtiger Suchansätze in Bibliotheken </li></ul><ul><ul><li>Suche basiert oftmals nur auf Katalogmetadaten </li></ul></ul><ul><ul><li>Katalogmetadaten nur bedingt geeignet für multimediale Inhalte </li></ul></ul><ul><ul><li>Suche und Zugriff oft getrennt </li></ul></ul><ul><ul><li>Zusammenhänge zwischen Medien oft nicht transparent </li></ul></ul>
    9. 9. LÖSUNG Technologien und Konzepte aus CONTENTUS <ul><li>PROBLEM </li></ul><ul><li>Digitalisierung </li></ul><ul><li>Metadatenerzeugung </li></ul><ul><li>Semantische Vernetzung und Suche </li></ul>
    10. 10. Multimediaverarbeitung durch die CONTENTUS-Prozesskette medienspezifisch medienunabhängig
    11. 13. Digitization 1 Automatic Quality Control 2
    12. 14. Qualitätskontrolle <ul><li>Ziele: Automatisierung und Effizienz </li></ul><ul><ul><li>Manuelle Qualitätskontrolle ist teuer (Zeit/Kosten) </li></ul></ul><ul><ul><li>Archive sind u.U. zu groß für manuelle Verarbeitung </li></ul></ul>
    13. 15. Quality Control: De-Warping
    14. 16. Quality Control: Newspaper Scans Original Otsu Binarization Sauvola Binarization CONTENTUS Approach + Content- specific optimization
    15. 17. medienspezifisch Digitization 1 Automatic Quality Control 2 Automatic Content Analysis 3
    16. 18. Inhaltsanalyse <ul><li>Digitalisierung reicht nicht </li></ul><ul><ul><li>Was enthalten die Medien? </li></ul></ul><ul><li>Beschreibende Metadaten helfen bei Suche und Zugriff </li></ul><ul><ul><li>Zielgerichtete Suche </li></ul></ul><ul><ul><li>Für Unterscheidung ähnlicher Inhalte wichtig </li></ul></ul><ul><li>Ziel: Automatisierung </li></ul><ul><ul><li>Manuelle Analyse ist aufwändig: ca. 4-10 Stunden Arbeit für 1 Stunde audiovisuellen Inhalts </li></ul></ul>
    17. 19. Inhaltsanalyse: Ablauf am Beispiel Print Digitalisat Struktur- erkennung OCR Entitäten- erkennung & Klassifikation
    18. 20. Inhaltsanalyse: Segmentierung von Seiten <ul><li>Automatische Identifikation von </li></ul><ul><ul><li>Artikeln </li></ul></ul><ul><ul><li>Überschriften </li></ul></ul><ul><ul><li>Bildern, Bildunterschriften </li></ul></ul><ul><ul><li>Lesereihenfolge </li></ul></ul><ul><li>Wichtig für die Suche </li></ul>
    19. 21. Inhaltsanalyse: Entity Recognition <ul><li>Identifikation von Bedeutungen, Unterscheidung von Entitäten </li></ul>Über Kohl höhnte Strauß: „Er wird nie Kanzler werden“. Die Zeit, 18.7.08 <ul><li>Analyse der Wortumgebung und -kontext </li></ul><ul><ul><li>“ Kohl” in einem Satz mit “Kanzler”  vermutlich eine Person </li></ul></ul><ul><ul><li>“ Kohl” in einem Satz mit “kochen”  eher ein Gemüse </li></ul></ul>Automatische Klassifikation durch Vergleich mit externen Quellen (z.B. Wikipedia) Genauigkeit Trefferquote F-Maß Personen 92.06% (89.4%) 88.85% (88.4%) 90.42% (88.9%) Orte 90.74% (80.2%) 86.21% (71.6%) 88.42% (75.7%) Organisationen 85.81% (79.4%) 74.59% (54.5%) 78.71% (64.6%)
    20. 22. Inhaltsanalyse: Disambiguierung Michael Müller (SPD) SPD-Fraktionschef Michael Müller ist erneut in seinem Amt bestätigt worden. ( www.berlinonline.de ) Michael Müller (Handballspieler) Handball-Nationalspieler Michael Müller vom TV Großwallstadt hat sich für einen Wechsel entschieden. ( www.br-online.de) Das Sachverständigenbüro Michael Müller ist ein Familienunternehmen. (www.presseecho.de) Michael Müller (wikipedia.de) (wikipedia.de) Genauigkeit Trefferquote F-Maß Performanz 92.64% 92.93% 92.79%
    21. 23. Inhaltsanalyse: Audiovisuelle Medien Speech Speech Speech Non-Speech Non-Speech Mercedes Benz Berlin Segementaiton Classification Recognition Sprecher ID 1 Sprecher ID 1 Sprecher ID 2 Metadata Face ID 1 Face ID 1 Face ID 2
    22. 24. medienspezifisch medienübergreifend Digitization 1 Automatic Quality Control 2 Automatic Content Analysis 3 Semantic Metadata Linking 4
    23. 25. Semantische Verknüpfungen von Metadaten <ul><li>Integration und Verknüpfung aus verschiedenen Quellen </li></ul><ul><ul><li>Intellektuell erfasst </li></ul></ul><ul><ul><li>Automatisch erzeugt </li></ul></ul><ul><ul><li>Aus externen Quellen (z. B. LOD) </li></ul></ul><ul><li>Motivation </li></ul><ul><ul><li>Integrierte Präsentation von relevanten Informationen </li></ul></ul><ul><ul><li>Verdeutlichung der Beziehungen zwischen Medien und Entitäten </li></ul></ul>
    24. 26. Externe Datenquellen Internes Wissensnetz Lübeck 3:08 Ehrbare Verfinsterung 7 3:45 Bei Tienappels. Und von Hans Castorps … 6 2:28 Von der Taufschale und vom Großvater in … 5 Wikipedia MusicBrainz Normdaten PND
    25. 27. Datenintegration <ul><li>Gemeinsame Präsentation zusammengehörender Medien </li></ul><ul><li>Hintergrundinformationen verfügbar machen </li></ul><ul><li>Mehrwert für Endnutzer </li></ul>Multimediacontent Interne Metadaten / Wissensbasis Externe Ressourcen / LOD
    26. 28. medienspezifisch medienübergreifend Digitization 1 Automatic Quality Control 2 Automatic Content Analysis 3 Semantic Metadata Linking 4 Open Knowledge Networks 5 Semantic Multimedia Search 6
    27. 29. CONTENTUS User Interface
    28. 30.
    29. 31. Search Area
    30. 32. Search Field breadcrumbs
    31. 33.
    32. 34. Result Area
    33. 35. organize and filter media types history collection
    34. 36. refine and filter time-line faceted suggestions
    35. 37. search results
    36. 38. article audio video location article person video search results
    37. 39.
    38. 40.
    39. 41.
    40. 42.
    41. 43. User Interface Detailseite für Bücher Detail View detected entities full page other pages articles on this page text snippet (OCR)
    42. 44. <ul><li>Michael Jackson (Sänger) </li></ul><ul><li>Michael Jackson (Journalist) </li></ul><ul><li>Michael Jackson (KFOR General) </li></ul>Disambiguierung
    43. 45. Anzeige von erkannten Entitäten im Text
    44. 52. Wo stehen wir heute? Situation Multimedia-Archive 2011  Wissen überwiegend in analoger Form  Verarbeitung und Erschließung digitaler Inhalte teuer  Kaum suchrelevante Metadaten & externe Verlinkung (LOD)  Keine semantische medienübergreifende Suche
    45. 53. Wo geht es hin? Das Multimediaarchiv der Zukunft  Archivbestände vollständig digital  Semantische Vernetzung von Multimediainhalten ist Tagesgeschäft / Einbeziehung externer Wissensquellen  Medienübergreifende Wissensreisen
    46. 54. CONTENTUS <ul><li>Technologien für Multimedia- Archive der nächsten Generation </li></ul><ul><li>Fokus auf automatische Verfahren und Semantik </li></ul><ul><li>Abdeckung der gesamten Prozesskette von der Digitalisierung bis zur Nutzung </li></ul>Digitization Automatic Quality Control Automatic Content Analysis Semantic Metadata Linking Open Knowledge Networks Semantic Multimedia Search
    47. 55. Vielen Dank für Ihre Aufmerksamkeit!

    ×