Anzeige

Más contenido relacionado

Presentaciones para ti(20)

Similar a Europeana Newspapers German infoday - Semantics(20)

Anzeige

Más de Europeana Newspapers(20)

Último(20)

Anzeige

Europeana Newspapers German infoday - Semantics

  1. Der Einsatz automatisierter Verfahren zur vertieften Erschließung historischer Zeitungsbestände. Ein DFG- Pilotprojekt der ULB Sachsen- Anhalt Europeana Newspapers Project Information Day Berlin, 27. Februar 2014 Kay Heiligenhaus semantics GmbH, Aachen
  2. Einführung Teilprojekt der ULB Sachsen-Anhalt
  3. Digitalisierung des Halleschen Tageblattes ∙Laufzeit von Mai 2013 bis April 2015 ∙Digitalisierung von 117 Bänden unterschiedlichen Formats (vom Original in Farbe) ∙durch Strukturdaten inhaltlich erschlossen ∙durch Fraktur-OCR im Volltext erschlossen ∙persistent adressierbar bis auf Ausgabe-, Artikel- und Seitenebene
  4. Digitalisierung des Halleschen Tageblattes Zeitraum Format Anzahl der Bände Anzahl der Seiten 1799 - 1855 Oktav 68 74.280 1856 - 1864 Quart 9 13.611 1865 -1871 Folio 4° 8 11.586 1872 -1892 Folio 2° 32 42.922 Gesamt 117 142.399
  5. TEIL I Rahmenbedingungen
  6. DFG-Positionspapier (2012): Digitalisierung Ausschuss für Wissen- schaftliche Bibliotheken und Informationssysteme: Die digitale Transformation weiter gestalten – Der Beitrag der Deutschen Forschungs- gemeinschaft zu einer innovativen Informations- infrastruktur für die Forschung, Bonn, 3. Juli 2012. http://www.dfg.de/download/pdf/foerderung/programme/lis/positionspapier_digitale_transformation.pdf
  7. DFG-Positionspapier (2012): Förderschwerpunkte Zur weiteren Umsetzung der digitalen Transformation analoger Überlieferung wird sich der Schwerpunkt der Förderaktivitäten im Bereich Digitalisierung nach und nach von Drucken hin zu historischen Zeitungen und unikalem Material […] verschieben. (S. 10)
  8. DFG-Positionspapier (2012): Pilotprojekt Zeitungen Bei der […] Förderung von Digitalisierungsmaßnahmen im Bereich historischer Zeitungen […] wird es in erster Linie darum gehen, im Rahmen von Pilotphasen methodische, organisatorische und technische Rahmen- bedingungen […] zu definieren. (S. 10)
  9. DFG-Positionspapier (2012): Automatisierung Vor dem Hintergrund technischer Weiterentwicklungen sollte […] eruiert werden, wie automatisierte Verfahren zur vertieften Erschließung […] Anwendung finden können. Dabei soll auch die Entwicklung neuer Methoden, zum Beispiel im Bereich des Machine Learning, gefördert werden. (S. 12)
  10. TEIL II Ziele des Projektes
  11. Herausforderung: Inhaltliche Erschließung aller in Deutschland erschienenen Zeitungen bis 1945 o Zeitungen in der ZDB: ~ 50.000 Titel; o Zeitungen, eingeschränkt auf Deutschland: ~ 30.000 Titel; o Zeitungen, eingeschränkt auf Deutschland vor 1945: ~ 16.000 Titel. http://dispatch.opac.d-nb.de/DB=1.1/ZEITUNG
  12. Mindestanforderung: Von der ZDB zu einer strukturierten Navigation im DFG-Viewer
  13. Umsetzung der Mindestanforderung: Erschließung bis auf Ausgabeebene (Jahr/Monat/Tag)
  14. Ist-Stand: Manuelle Strukturdatenerfassung
  15. Mengengerüst und Kosten: Minimal-Erschließung o Umfang: ~ 160 Mio. Strukturdaten (~ 16.000 Titel, ~ 1 Mrd. Seiten) o Aufwand: ~ 1.000 Personenjahre (80 Strukturdaten/Stunde, 8 Stunden/Tag, 250 Arbeitstage/Jahr) o Kosten: ~ 35 Mio. EUR (~ 2.161 EUR/pro Titel, ~ 0,035 EUR/pro Seite) Herausforderung: Reduktion der Erschließungskosten.
  16. TEIL II Lösungsansätze
  17. Lösungsoption I: Nutzung der Layout-Analyse und Text-Erkennung von Abbyy-Finereader
  18. Lösungsoption I: Kernproblem ist die Erkennung von Frakturschriften
  19. Kosten der Lösungsoption I: Einsatz von Abbyy Finereader o ~ 10 Mio. EUR Lizenzkosten OCR o ~ 0,25 Mio. EUR Verarbeitungskosten (64 Rechenjahre auf aktueller Server-Hardware) o ~ 7 Mio. EUR Personalkosten (80% Effizienzsteigerung) ~ 17,25 Mio. EUR Gesamtkosten (~ 50% Einsparung)
  20. Lösungsoption II: Mustererkennung
  21. Lösungsoption II: Musterwiederholungen bei periodischen Werken
  22. Lösungsoption II: Ermittlung eines Fingerprints
  23. Lösungsoption II: Technische Parameter zur Ermittlung des Fingerprints o Ziel: Identifikation hinreichend eindeutiger Objekte (Pixelhaufen) von bestimmter Größe auf einer Seite, um eine Segmentierung eines Seitenstroms (Jahrgang) in homogene Segmente zur erreichen. o Objektgröße o Erosion/Dilation o Position o Objektanzahl(min/max) o 11 Mio. Kombinationen (50 x 15 x 250 x 600) o ~ 1 Seite/Sekunde pro Core
  24. Einsatz in der Projekt-Praxis: Automatische Segmentierung eines Jahrgangs
  25. Einsatz in der Projekt-Praxis: Qualitätssicherung der segmentierten Jahrgänge
  26. Einsatz in der Projekt-Praxis: Zuweisung von konkreten Datumswerten je Tagesausgabe
  27. Einsatz in der Projekt-Praxis: Zuweisung von konkreten Datumswerten je Tagesausgabe II
  28. Kosten der Lösungsoption II: Einsatz von Mustererkennung o ~ ? EUR Entwicklungs-/Lizenzkosten o ~ ? EUR Verarbeitungskosten o ~ 3,5 Mio. EUR Personalkosten (90% Effizienzsteigerung) ~ ? Mio. EUR Gesamtkosten (> 75% Einsparung)
  29. TEIL IV Ausblick
  30. Ausblick I: Vertiefte Erschließung von Rubriken, Artikeln, Einzelseiten
  31. Ausblick II: Nutzung von OCR / Vertiefte Volltextrecherche (im DFG-Viewer)
  32. Ausblick III: Persistente Adressierung von Artikeln
  33. Ausblick III: Persistente Adressierung von Einzelseiten
Anzeige