Europeana Newspapers German infoday - Semantics

381 Aufrufe

Veröffentlicht am

Veröffentlicht in: Technologie
0 Kommentare
0 Gefällt mir
Statistik
Notizen
  • Als Erste(r) kommentieren

  • Gehören Sie zu den Ersten, denen das gefällt!

Keine Downloads
Aufrufe
Aufrufe insgesamt
381
Auf SlideShare
0
Aus Einbettungen
0
Anzahl an Einbettungen
1
Aktionen
Geteilt
0
Downloads
1
Kommentare
0
Gefällt mir
0
Einbettungen 0
Keine Einbettungen

Keine Notizen für die Folie

Europeana Newspapers German infoday - Semantics

  1. 1. Der Einsatz automatisierter Verfahren zur vertieften Erschließung historischer Zeitungsbestände. Ein DFG- Pilotprojekt der ULB Sachsen- Anhalt Europeana Newspapers Project Information Day Berlin, 27. Februar 2014 Kay Heiligenhaus semantics GmbH, Aachen
  2. 2. Einführung Teilprojekt der ULB Sachsen-Anhalt
  3. 3. Digitalisierung des Halleschen Tageblattes ∙Laufzeit von Mai 2013 bis April 2015 ∙Digitalisierung von 117 Bänden unterschiedlichen Formats (vom Original in Farbe) ∙durch Strukturdaten inhaltlich erschlossen ∙durch Fraktur-OCR im Volltext erschlossen ∙persistent adressierbar bis auf Ausgabe-, Artikel- und Seitenebene
  4. 4. Digitalisierung des Halleschen Tageblattes Zeitraum Format Anzahl der Bände Anzahl der Seiten 1799 - 1855 Oktav 68 74.280 1856 - 1864 Quart 9 13.611 1865 -1871 Folio 4° 8 11.586 1872 -1892 Folio 2° 32 42.922 Gesamt 117 142.399
  5. 5. TEIL I Rahmenbedingungen
  6. 6. DFG-Positionspapier (2012): Digitalisierung Ausschuss für Wissen- schaftliche Bibliotheken und Informationssysteme: Die digitale Transformation weiter gestalten – Der Beitrag der Deutschen Forschungs- gemeinschaft zu einer innovativen Informations- infrastruktur für die Forschung, Bonn, 3. Juli 2012. http://www.dfg.de/download/pdf/foerderung/programme/lis/positionspapier_digitale_transformation.pdf
  7. 7. DFG-Positionspapier (2012): Förderschwerpunkte Zur weiteren Umsetzung der digitalen Transformation analoger Überlieferung wird sich der Schwerpunkt der Förderaktivitäten im Bereich Digitalisierung nach und nach von Drucken hin zu historischen Zeitungen und unikalem Material […] verschieben. (S. 10)
  8. 8. DFG-Positionspapier (2012): Pilotprojekt Zeitungen Bei der […] Förderung von Digitalisierungsmaßnahmen im Bereich historischer Zeitungen […] wird es in erster Linie darum gehen, im Rahmen von Pilotphasen methodische, organisatorische und technische Rahmen- bedingungen […] zu definieren. (S. 10)
  9. 9. DFG-Positionspapier (2012): Automatisierung Vor dem Hintergrund technischer Weiterentwicklungen sollte […] eruiert werden, wie automatisierte Verfahren zur vertieften Erschließung […] Anwendung finden können. Dabei soll auch die Entwicklung neuer Methoden, zum Beispiel im Bereich des Machine Learning, gefördert werden. (S. 12)
  10. 10. TEIL II Ziele des Projektes
  11. 11. Herausforderung: Inhaltliche Erschließung aller in Deutschland erschienenen Zeitungen bis 1945 o Zeitungen in der ZDB: ~ 50.000 Titel; o Zeitungen, eingeschränkt auf Deutschland: ~ 30.000 Titel; o Zeitungen, eingeschränkt auf Deutschland vor 1945: ~ 16.000 Titel. http://dispatch.opac.d-nb.de/DB=1.1/ZEITUNG
  12. 12. Mindestanforderung: Von der ZDB zu einer strukturierten Navigation im DFG-Viewer
  13. 13. Umsetzung der Mindestanforderung: Erschließung bis auf Ausgabeebene (Jahr/Monat/Tag)
  14. 14. Ist-Stand: Manuelle Strukturdatenerfassung
  15. 15. Mengengerüst und Kosten: Minimal-Erschließung o Umfang: ~ 160 Mio. Strukturdaten (~ 16.000 Titel, ~ 1 Mrd. Seiten) o Aufwand: ~ 1.000 Personenjahre (80 Strukturdaten/Stunde, 8 Stunden/Tag, 250 Arbeitstage/Jahr) o Kosten: ~ 35 Mio. EUR (~ 2.161 EUR/pro Titel, ~ 0,035 EUR/pro Seite) Herausforderung: Reduktion der Erschließungskosten.
  16. 16. TEIL II Lösungsansätze
  17. 17. Lösungsoption I: Nutzung der Layout-Analyse und Text-Erkennung von Abbyy-Finereader
  18. 18. Lösungsoption I: Kernproblem ist die Erkennung von Frakturschriften
  19. 19. Kosten der Lösungsoption I: Einsatz von Abbyy Finereader o ~ 10 Mio. EUR Lizenzkosten OCR o ~ 0,25 Mio. EUR Verarbeitungskosten (64 Rechenjahre auf aktueller Server-Hardware) o ~ 7 Mio. EUR Personalkosten (80% Effizienzsteigerung) ~ 17,25 Mio. EUR Gesamtkosten (~ 50% Einsparung)
  20. 20. Lösungsoption II: Mustererkennung
  21. 21. Lösungsoption II: Musterwiederholungen bei periodischen Werken
  22. 22. Lösungsoption II: Ermittlung eines Fingerprints
  23. 23. Lösungsoption II: Technische Parameter zur Ermittlung des Fingerprints o Ziel: Identifikation hinreichend eindeutiger Objekte (Pixelhaufen) von bestimmter Größe auf einer Seite, um eine Segmentierung eines Seitenstroms (Jahrgang) in homogene Segmente zur erreichen. o Objektgröße o Erosion/Dilation o Position o Objektanzahl(min/max) o 11 Mio. Kombinationen (50 x 15 x 250 x 600) o ~ 1 Seite/Sekunde pro Core
  24. 24. Einsatz in der Projekt-Praxis: Automatische Segmentierung eines Jahrgangs
  25. 25. Einsatz in der Projekt-Praxis: Qualitätssicherung der segmentierten Jahrgänge
  26. 26. Einsatz in der Projekt-Praxis: Zuweisung von konkreten Datumswerten je Tagesausgabe
  27. 27. Einsatz in der Projekt-Praxis: Zuweisung von konkreten Datumswerten je Tagesausgabe II
  28. 28. Kosten der Lösungsoption II: Einsatz von Mustererkennung o ~ ? EUR Entwicklungs-/Lizenzkosten o ~ ? EUR Verarbeitungskosten o ~ 3,5 Mio. EUR Personalkosten (90% Effizienzsteigerung) ~ ? Mio. EUR Gesamtkosten (> 75% Einsparung)
  29. 29. TEIL IV Ausblick
  30. 30. Ausblick I: Vertiefte Erschließung von Rubriken, Artikeln, Einzelseiten
  31. 31. Ausblick II: Nutzung von OCR / Vertiefte Volltextrecherche (im DFG-Viewer)
  32. 32. Ausblick III: Persistente Adressierung von Artikeln
  33. 33. Ausblick III: Persistente Adressierung von Einzelseiten

×