SlideShare ist ein Scribd-Unternehmen logo

Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten Inhalten

C
cneudecker

Fachtagung Netzwerk maschinelle Verfahren in der Erschliessung, 10-11 Oktober 2019, Frankfurt, Germany

1 von 12
Downloaden Sie, um offline zu lesen
Digitalisate kuratieren mit KI -
von unstrukturierten Daten zu
strukturierten Inhalten
Clemens Neudecker (@cneudecker)
Staatsbibliothek zu Berlin – Preußischer Kulturbesitz
Fachtagung Netzwerk maschinelle Verfahren in der Erschließung
10.-11. Oktober 2019, DNB, Frankfurt am Main
Hintergrund
• > 12 Mio. Dokumente
• Metadaten (METS, MODS)
• Digitalisierte Sammlungen
• https://digital.staatsbibliothek-berlin.de/
• ca. 160,000 Digitalisate
• ca. 5 Mio. Seiten OCR
• Digitalisierte Zeitungen
• http://zefys.staatsbibliothek-berlin.de/
• ca. 7 Mio. Seiten digitalisiert
• ca. 3 Mio. Seiten OCR
• ca. 2,5 PetaBytes Daten
QURATOR @ SBB
• Gemeinsame Projektsteuerung durch Forschungsreferent und
Referatsleiter IT-Anwendungen und Datenmanagement
• 3x FTE Entwicklerstellen E13 FuE (36 Monate)
• SPK-KI Server:
• 2x Nvidia Tesla V100 24GB (VGPU)
• 36x Intel XEON 2.7 Ghz
• 192GB RAM
• Freie Bereitstellung von SBB Daten, Technologien
und Anwendungen: https://github.com/qurator-spk
• Mehr zur SBB in QURATOR:
https://qurator.ai/partner/staatsbibliothek-zu-berlin/
• SBB Blogserie „Künstliche Intelligenz“:
https://blog.sbb.berlin/tag/wissenschaftsjahr-2019/ https://xkcd.com/1838/
Metadatenanalyse
• Analyse von Metadaten (METS/MODS) und bestehenden Volltexten (ALTO)
zur Gewinnung von Informationen über Merkmale und deren Verteilung
https://github.com/qurator-spk/modstool
WC-Analyse Feature Ranking
Metadaten-
Validierung
OCR Evaluation & Qualitätsverbesserung
• OCR Evaluation und Qualitätsverbesserung digitalisierter Dokumente
durch bessere OCR und automatisierte OCR-Nachkorrektur
• https://github.com/qurator-spk/dinglehopper
• https://github.com/qurator-spk/ocrd_calamari (trainiert auf GT4HistOCR)
OCR-Evaluation
Varianten-Voting
in Calamari OCR
OCR Exkurs: OCR-D
• DFG-gefördertes Koordinierungsprojekt + 8 verteilte
Forschungsprojekte zu OCR für historische Drucke
• Webseite: http://ocr-d.de/
• Module: https://ocr-d.github.io/projects
• Source Code: https://github.com/OCR-D
• Dokumentation: https://ocr-d.github.io/
• Ground Truth: http://ocr-d.github.io/gt-repo
• Chat: https://gitter.im/OCR-D/Lobby
Anzeige

Recomendados

Kuratieren mit künstlicher Intelligenz
Kuratieren mit künstlicher IntelligenzKuratieren mit künstlicher Intelligenz
Kuratieren mit künstlicher Intelligenzcneudecker
 
Goobi-Tag 2021: „Am Anfang sah es nach Routine aus“ – DLC goes Goobi, ein Pr...
Goobi-Tag 2021:  „Am Anfang sah es nach Routine aus“ – DLC goes Goobi, ein Pr...Goobi-Tag 2021:  „Am Anfang sah es nach Routine aus“ – DLC goes Goobi, ein Pr...
Goobi-Tag 2021: „Am Anfang sah es nach Routine aus“ – DLC goes Goobi, ein Pr...intranda GmbH
 
Formate für Volltexte
Formate für VolltexteFormate für Volltexte
Formate für Volltextecneudecker
 
Goobi-Tag 2021: Goobi meets OCR4all-libraries
Goobi-Tag 2021: Goobi meets OCR4all-librariesGoobi-Tag 2021: Goobi meets OCR4all-libraries
Goobi-Tag 2021: Goobi meets OCR4all-librariesintranda GmbH
 
Goobi und Dante - die Nutzung der neuen Normdatendienste der VZG bei der Date...
Goobi und Dante - die Nutzung der neuen Normdatendienste der VZG bei der Date...Goobi und Dante - die Nutzung der neuen Normdatendienste der VZG bei der Date...
Goobi und Dante - die Nutzung der neuen Normdatendienste der VZG bei der Date...intranda GmbH
 
OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...
OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...
OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...cneudecker
 
Goobi-Einsatz in der Zentral- und Landesbibliothek Berlin
Goobi-Einsatz in der Zentral- und Landesbibliothek BerlinGoobi-Einsatz in der Zentral- und Landesbibliothek Berlin
Goobi-Einsatz in der Zentral- und Landesbibliothek Berlingoobi_org
 
Georeferenzierung und Veröffentlichung historischer Karten / Dresden, 15th J...
Georeferenzierung und Veröffentlichung historischer Karten / Dresden, 15th J...Georeferenzierung und Veröffentlichung historischer Karten / Dresden, 15th J...
Georeferenzierung und Veröffentlichung historischer Karten / Dresden, 15th J...Petr Pridal
 

Más contenido relacionado

Was ist angesagt?

eAqua und europeana4D - 2009
eAqua und europeana4D - 2009eAqua und europeana4D - 2009
eAqua und europeana4D - 2009Ralf Stockmann
 
FulDig - Fuldaer Digitalisierungsserver der Hochschul- und Landesbibliothek
FulDig - Fuldaer Digitalisierungsserver der Hochschul- und LandesbibliothekFulDig - Fuldaer Digitalisierungsserver der Hochschul- und Landesbibliothek
FulDig - Fuldaer Digitalisierungsserver der Hochschul- und Landesbibliothekgoobi_org
 
Crowdsourcing als Mittel der Datenanreicherung
Crowdsourcing als Mittel der DatenanreicherungCrowdsourcing als Mittel der Datenanreicherung
Crowdsourcing als Mittel der Datenanreicherungintranda GmbH
 
Open Geo Data mit freier Software in Österreich
Open Geo Data mit freier Software in ÖsterreichOpen Geo Data mit freier Software in Österreich
Open Geo Data mit freier Software in ÖsterreichStefan Kasberger
 
Von IIIF zu IPIF? Ein Vorschlag für den Datenaustausch über Personen
Von IIIF zu IPIF? Ein Vorschlag für den Datenaustausch über PersonenVon IIIF zu IPIF? Ein Vorschlag für den Datenaustausch über Personen
Von IIIF zu IPIF? Ein Vorschlag für den Datenaustausch über PersonenGeorg Vogeler
 
Europeana Newspapers German infoday - Semantics
Europeana Newspapers German infoday - SemanticsEuropeana Newspapers German infoday - Semantics
Europeana Newspapers German infoday - SemanticsEuropeana Newspapers
 
Aufbau eines zentralen Indexes im GBV
Aufbau eines zentralen Indexes im GBVAufbau eines zentralen Indexes im GBV
Aufbau eines zentralen Indexes im GBVTill Kinstler
 
Kooperativer Aufbau zentraler Lucene-Indices für lokale Portale
Kooperativer Aufbau zentraler Lucene-Indices für lokale PortaleKooperativer Aufbau zentraler Lucene-Indices für lokale Portale
Kooperativer Aufbau zentraler Lucene-Indices für lokale PortaleTill Kinstler
 
GI2010 symposium-popiolek (breitbandatlas deutschland)
GI2010 symposium-popiolek (breitbandatlas deutschland)GI2010 symposium-popiolek (breitbandatlas deutschland)
GI2010 symposium-popiolek (breitbandatlas deutschland)IGN Vorstand
 
Überblick zum DFG-Projekt OCR-D
Überblick zum DFG-Projekt OCR-DÜberblick zum DFG-Projekt OCR-D
Überblick zum DFG-Projekt OCR-Dcneudecker
 
Aktuelle "Baustellen" und Fragen - Goobi an der Stabi Hamburg
Aktuelle "Baustellen" und Fragen - Goobi an der Stabi HamburgAktuelle "Baustellen" und Fragen - Goobi an der Stabi Hamburg
Aktuelle "Baustellen" und Fragen - Goobi an der Stabi Hamburggoobi_org
 
VuFind - Ein Open Source Projekt
VuFind - Ein Open Source ProjektVuFind - Ein Open Source Projekt
VuFind - Ein Open Source ProjektTill Kinstler
 
Kooperative Angebote von GBV und GDZ im Bereich Digitalisierung
Kooperative Angebote von GBV und GDZ im Bereich DigitalisierungKooperative Angebote von GBV und GDZ im Bereich Digitalisierung
Kooperative Angebote von GBV und GDZ im Bereich DigitalisierungRalf Stockmann
 
Aufbau des Digitalisierungsreferats der UB TU Berlin
Aufbau des Digitalisierungsreferats der UB TU BerlinAufbau des Digitalisierungsreferats der UB TU Berlin
Aufbau des Digitalisierungsreferats der UB TU Berlingoobi_org
 
"Ich weiß was Du letzten Sommer gemappt hast!" Datenspuren im OpenStreetMap P...
"Ich weiß was Du letzten Sommer gemappt hast!" Datenspuren im OpenStreetMap P..."Ich weiß was Du letzten Sommer gemappt hast!" Datenspuren im OpenStreetMap P...
"Ich weiß was Du letzten Sommer gemappt hast!" Datenspuren im OpenStreetMap P...Pascal Neis
 
Wikis und Open Data - KGSt Innovationszirkel Open Data Cities
Wikis und Open Data - KGSt Innovationszirkel Open Data CitiesWikis und Open Data - KGSt Innovationszirkel Open Data Cities
Wikis und Open Data - KGSt Innovationszirkel Open Data CitiesBernhard Krabina
 
3. intranda viewer Tag: Digitale Langzeitarchivierung an der TIB
3. intranda viewer Tag: Digitale Langzeitarchivierung an der TIB3. intranda viewer Tag: Digitale Langzeitarchivierung an der TIB
3. intranda viewer Tag: Digitale Langzeitarchivierung an der TIBintranda GmbH
 
Digitale Landesbibliothek Oberösterreich
Digitale Landesbibliothek OberösterreichDigitale Landesbibliothek Oberösterreich
Digitale Landesbibliothek Oberösterreichintranda GmbH
 
Workshop von gestern für morgen lernen bernsen
Workshop von gestern für morgen lernen bernsenWorkshop von gestern für morgen lernen bernsen
Workshop von gestern für morgen lernen bernsenDaniel Bernsen
 

Was ist angesagt? (19)

eAqua und europeana4D - 2009
eAqua und europeana4D - 2009eAqua und europeana4D - 2009
eAqua und europeana4D - 2009
 
FulDig - Fuldaer Digitalisierungsserver der Hochschul- und Landesbibliothek
FulDig - Fuldaer Digitalisierungsserver der Hochschul- und LandesbibliothekFulDig - Fuldaer Digitalisierungsserver der Hochschul- und Landesbibliothek
FulDig - Fuldaer Digitalisierungsserver der Hochschul- und Landesbibliothek
 
Crowdsourcing als Mittel der Datenanreicherung
Crowdsourcing als Mittel der DatenanreicherungCrowdsourcing als Mittel der Datenanreicherung
Crowdsourcing als Mittel der Datenanreicherung
 
Open Geo Data mit freier Software in Österreich
Open Geo Data mit freier Software in ÖsterreichOpen Geo Data mit freier Software in Österreich
Open Geo Data mit freier Software in Österreich
 
Von IIIF zu IPIF? Ein Vorschlag für den Datenaustausch über Personen
Von IIIF zu IPIF? Ein Vorschlag für den Datenaustausch über PersonenVon IIIF zu IPIF? Ein Vorschlag für den Datenaustausch über Personen
Von IIIF zu IPIF? Ein Vorschlag für den Datenaustausch über Personen
 
Europeana Newspapers German infoday - Semantics
Europeana Newspapers German infoday - SemanticsEuropeana Newspapers German infoday - Semantics
Europeana Newspapers German infoday - Semantics
 
Aufbau eines zentralen Indexes im GBV
Aufbau eines zentralen Indexes im GBVAufbau eines zentralen Indexes im GBV
Aufbau eines zentralen Indexes im GBV
 
Kooperativer Aufbau zentraler Lucene-Indices für lokale Portale
Kooperativer Aufbau zentraler Lucene-Indices für lokale PortaleKooperativer Aufbau zentraler Lucene-Indices für lokale Portale
Kooperativer Aufbau zentraler Lucene-Indices für lokale Portale
 
GI2010 symposium-popiolek (breitbandatlas deutschland)
GI2010 symposium-popiolek (breitbandatlas deutschland)GI2010 symposium-popiolek (breitbandatlas deutschland)
GI2010 symposium-popiolek (breitbandatlas deutschland)
 
Überblick zum DFG-Projekt OCR-D
Überblick zum DFG-Projekt OCR-DÜberblick zum DFG-Projekt OCR-D
Überblick zum DFG-Projekt OCR-D
 
Aktuelle "Baustellen" und Fragen - Goobi an der Stabi Hamburg
Aktuelle "Baustellen" und Fragen - Goobi an der Stabi HamburgAktuelle "Baustellen" und Fragen - Goobi an der Stabi Hamburg
Aktuelle "Baustellen" und Fragen - Goobi an der Stabi Hamburg
 
VuFind - Ein Open Source Projekt
VuFind - Ein Open Source ProjektVuFind - Ein Open Source Projekt
VuFind - Ein Open Source Projekt
 
Kooperative Angebote von GBV und GDZ im Bereich Digitalisierung
Kooperative Angebote von GBV und GDZ im Bereich DigitalisierungKooperative Angebote von GBV und GDZ im Bereich Digitalisierung
Kooperative Angebote von GBV und GDZ im Bereich Digitalisierung
 
Aufbau des Digitalisierungsreferats der UB TU Berlin
Aufbau des Digitalisierungsreferats der UB TU BerlinAufbau des Digitalisierungsreferats der UB TU Berlin
Aufbau des Digitalisierungsreferats der UB TU Berlin
 
"Ich weiß was Du letzten Sommer gemappt hast!" Datenspuren im OpenStreetMap P...
"Ich weiß was Du letzten Sommer gemappt hast!" Datenspuren im OpenStreetMap P..."Ich weiß was Du letzten Sommer gemappt hast!" Datenspuren im OpenStreetMap P...
"Ich weiß was Du letzten Sommer gemappt hast!" Datenspuren im OpenStreetMap P...
 
Wikis und Open Data - KGSt Innovationszirkel Open Data Cities
Wikis und Open Data - KGSt Innovationszirkel Open Data CitiesWikis und Open Data - KGSt Innovationszirkel Open Data Cities
Wikis und Open Data - KGSt Innovationszirkel Open Data Cities
 
3. intranda viewer Tag: Digitale Langzeitarchivierung an der TIB
3. intranda viewer Tag: Digitale Langzeitarchivierung an der TIB3. intranda viewer Tag: Digitale Langzeitarchivierung an der TIB
3. intranda viewer Tag: Digitale Langzeitarchivierung an der TIB
 
Digitale Landesbibliothek Oberösterreich
Digitale Landesbibliothek OberösterreichDigitale Landesbibliothek Oberösterreich
Digitale Landesbibliothek Oberösterreich
 
Workshop von gestern für morgen lernen bernsen
Workshop von gestern für morgen lernen bernsenWorkshop von gestern für morgen lernen bernsen
Workshop von gestern für morgen lernen bernsen
 

Ähnlich wie Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten Inhalten

ALTO, PAGE & Co. Formate für Volltexte
ALTO, PAGE & Co. Formate für VolltexteALTO, PAGE & Co. Formate für Volltexte
ALTO, PAGE & Co. Formate für Volltextecneudecker
 
DURAARK at Bibliotheksymposium Wildau
DURAARK at Bibliotheksymposium WildauDURAARK at Bibliotheksymposium Wildau
DURAARK at Bibliotheksymposium Wildaupanitzm
 
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...ETH-Bibliothek
 
Fit für die digitale Bibliothek? (2007)
Fit für die digitale Bibliothek? (2007)Fit für die digitale Bibliothek? (2007)
Fit für die digitale Bibliothek? (2007)Ralf Stockmann
 
OCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen Edition
OCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen EditionOCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen Edition
OCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen Editioncneudecker
 
Text and Data Mining
Text and Data MiningText and Data Mining
Text and Data Miningcneudecker
 
Austrian Books Online - Digitaler Workflow und Access
Austrian Books Online - Digitaler Workflow und AccessAustrian Books Online - Digitaler Workflow und Access
Austrian Books Online - Digitaler Workflow und AccessMax Kaiser
 
Anforderungen an Thesauri im Semantic Web
Anforderungen an Thesauri im Semantic WebAnforderungen an Thesauri im Semantic Web
Anforderungen an Thesauri im Semantic WebJoachim Neubert
 
OKLab Leipzig - 2023 Update
OKLab Leipzig - 2023 UpdateOKLab Leipzig - 2023 Update
OKLab Leipzig - 2023 Updatejoergreichert
 
Generische Kuratierungstechnologien für spezifische Anwendungsfälle: Hintergr...
Generische Kuratierungstechnologien für spezifische Anwendungsfälle: Hintergr...Generische Kuratierungstechnologien für spezifische Anwendungsfälle: Hintergr...
Generische Kuratierungstechnologien für spezifische Anwendungsfälle: Hintergr...Georg Rehm
 
OCR und Strukturerkennung für Zeitungen
OCR und Strukturerkennung für ZeitungenOCR und Strukturerkennung für Zeitungen
OCR und Strukturerkennung für Zeitungencneudecker
 
Austrian Books Online: Das Google Books-Projekt an der Österreichischen Natio...
Austrian Books Online: Das Google Books-Projekt an der Österreichischen Natio...Austrian Books Online: Das Google Books-Projekt an der Österreichischen Natio...
Austrian Books Online: Das Google Books-Projekt an der Österreichischen Natio...Max Kaiser
 
Kuratieren im Zeitalter der KI
Kuratieren im Zeitalter der KIKuratieren im Zeitalter der KI
Kuratieren im Zeitalter der KIGeorg Rehm
 
TIB DOI-Service und DataCite - PIDs, Best Practices
TIB DOI-Service und DataCite - PIDs, Best PracticesTIB DOI-Service und DataCite - PIDs, Best Practices
TIB DOI-Service und DataCite - PIDs, Best PracticesFrauke Ziedorn
 
QGIS das Opensource GIS at Linuxwochen Wien 2019
QGIS das Opensource GIS at Linuxwochen Wien 2019QGIS das Opensource GIS at Linuxwochen Wien 2019
QGIS das Opensource GIS at Linuxwochen Wien 2019Anita Graser
 
Laudatio Workshop Entwicklersession zu Gemeinsamkeiten in Forschungsdatenrepo...
Laudatio Workshop Entwicklersession zu Gemeinsamkeiten in Forschungsdatenrepo...Laudatio Workshop Entwicklersession zu Gemeinsamkeiten in Forschungsdatenrepo...
Laudatio Workshop Entwicklersession zu Gemeinsamkeiten in Forschungsdatenrepo...Dennis Zielke
 
PBF Online - Überlegungen zur Digitalisierung eines archäologischen Langzeitv...
PBF Online - Überlegungen zur Digitalisierung eines archäologischen Langzeitv...PBF Online - Überlegungen zur Digitalisierung eines archäologischen Langzeitv...
PBF Online - Überlegungen zur Digitalisierung eines archäologischen Langzeitv...AlineDeicke
 

Ähnlich wie Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten Inhalten (20)

ALTO, PAGE & Co. Formate für Volltexte
ALTO, PAGE & Co. Formate für VolltexteALTO, PAGE & Co. Formate für Volltexte
ALTO, PAGE & Co. Formate für Volltexte
 
DURAARK at Bibliotheksymposium Wildau
DURAARK at Bibliotheksymposium WildauDURAARK at Bibliotheksymposium Wildau
DURAARK at Bibliotheksymposium Wildau
 
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...
 
Fit für die digitale Bibliothek? (2007)
Fit für die digitale Bibliothek? (2007)Fit für die digitale Bibliothek? (2007)
Fit für die digitale Bibliothek? (2007)
 
OCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen Edition
OCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen EditionOCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen Edition
OCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen Edition
 
Text and Data Mining
Text and Data MiningText and Data Mining
Text and Data Mining
 
CKAN by Friedrich Lindenberg
CKAN by Friedrich LindenbergCKAN by Friedrich Lindenberg
CKAN by Friedrich Lindenberg
 
Austrian Books Online - Digitaler Workflow und Access
Austrian Books Online - Digitaler Workflow und AccessAustrian Books Online - Digitaler Workflow und Access
Austrian Books Online - Digitaler Workflow und Access
 
Fachliche Vernetzung von Repositories auf europäischer Ebene - das Beispiel N...
Fachliche Vernetzung von Repositories auf europäischer Ebene - das Beispiel N...Fachliche Vernetzung von Repositories auf europäischer Ebene - das Beispiel N...
Fachliche Vernetzung von Repositories auf europäischer Ebene - das Beispiel N...
 
Anforderungen an Thesauri im Semantic Web
Anforderungen an Thesauri im Semantic WebAnforderungen an Thesauri im Semantic Web
Anforderungen an Thesauri im Semantic Web
 
OKLab Leipzig - 2023 Update
OKLab Leipzig - 2023 UpdateOKLab Leipzig - 2023 Update
OKLab Leipzig - 2023 Update
 
Generische Kuratierungstechnologien für spezifische Anwendungsfälle: Hintergr...
Generische Kuratierungstechnologien für spezifische Anwendungsfälle: Hintergr...Generische Kuratierungstechnologien für spezifische Anwendungsfälle: Hintergr...
Generische Kuratierungstechnologien für spezifische Anwendungsfälle: Hintergr...
 
OCR und Strukturerkennung für Zeitungen
OCR und Strukturerkennung für ZeitungenOCR und Strukturerkennung für Zeitungen
OCR und Strukturerkennung für Zeitungen
 
Austrian Books Online: Das Google Books-Projekt an der Österreichischen Natio...
Austrian Books Online: Das Google Books-Projekt an der Österreichischen Natio...Austrian Books Online: Das Google Books-Projekt an der Österreichischen Natio...
Austrian Books Online: Das Google Books-Projekt an der Österreichischen Natio...
 
171211 kitodo
171211 kitodo171211 kitodo
171211 kitodo
 
Kuratieren im Zeitalter der KI
Kuratieren im Zeitalter der KIKuratieren im Zeitalter der KI
Kuratieren im Zeitalter der KI
 
TIB DOI-Service und DataCite - PIDs, Best Practices
TIB DOI-Service und DataCite - PIDs, Best PracticesTIB DOI-Service und DataCite - PIDs, Best Practices
TIB DOI-Service und DataCite - PIDs, Best Practices
 
QGIS das Opensource GIS at Linuxwochen Wien 2019
QGIS das Opensource GIS at Linuxwochen Wien 2019QGIS das Opensource GIS at Linuxwochen Wien 2019
QGIS das Opensource GIS at Linuxwochen Wien 2019
 
Laudatio Workshop Entwicklersession zu Gemeinsamkeiten in Forschungsdatenrepo...
Laudatio Workshop Entwicklersession zu Gemeinsamkeiten in Forschungsdatenrepo...Laudatio Workshop Entwicklersession zu Gemeinsamkeiten in Forschungsdatenrepo...
Laudatio Workshop Entwicklersession zu Gemeinsamkeiten in Forschungsdatenrepo...
 
PBF Online - Überlegungen zur Digitalisierung eines archäologischen Langzeitv...
PBF Online - Überlegungen zur Digitalisierung eines archäologischen Langzeitv...PBF Online - Überlegungen zur Digitalisierung eines archäologischen Langzeitv...
PBF Online - Überlegungen zur Digitalisierung eines archäologischen Langzeitv...
 

Mehr von cneudecker

EuropeanaTech x AI: Qurator.ai @ Berlin State Library
EuropeanaTech x AI: Qurator.ai @ Berlin State LibraryEuropeanaTech x AI: Qurator.ai @ Berlin State Library
EuropeanaTech x AI: Qurator.ai @ Berlin State Librarycneudecker
 
Digitisation and Digital Humanities - what is the role of Libraries?
Digitisation and Digital Humanities - what is the role of Libraries?Digitisation and Digital Humanities - what is the role of Libraries?
Digitisation and Digital Humanities - what is the role of Libraries?cneudecker
 
Multimodal Perspectives for Digitised Historical Newspapers
Multimodal Perspectives for Digitised Historical NewspapersMultimodal Perspectives for Digitised Historical Newspapers
Multimodal Perspectives for Digitised Historical Newspaperscneudecker
 
AI for digitized cultural heritage
AI for digitized cultural heritageAI for digitized cultural heritage
AI for digitized cultural heritagecneudecker
 
The many uses of digitized newspapers
The many uses of digitized newspapersThe many uses of digitized newspapers
The many uses of digitized newspaperscneudecker
 
Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...
Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...
Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...cneudecker
 
OCR-D: An end-to-end open source OCR framework for historical printed documents
OCR-D: An end-to-end open source OCR framework for historical printed documentsOCR-D: An end-to-end open source OCR framework for historical printed documents
OCR-D: An end-to-end open source OCR framework for historical printed documentscneudecker
 
Extrablatt: The Latest News on Newspaper Digitisation in Europe
Extrablatt: The Latest News on Newspaper Digitisation in EuropeExtrablatt: The Latest News on Newspaper Digitisation in Europe
Extrablatt: The Latest News on Newspaper Digitisation in Europecneudecker
 
Reise durch Europeana Collections in 11 Minuten
Reise durch Europeana Collections in 11 MinutenReise durch Europeana Collections in 11 Minuten
Reise durch Europeana Collections in 11 Minutencneudecker
 
Europeana Newspapers in a Nutshell
Europeana Newspapers in a NutshellEuropeana Newspapers in a Nutshell
Europeana Newspapers in a Nutshellcneudecker
 
lab.sbb.berlin
lab.sbb.berlinlab.sbb.berlin
lab.sbb.berlincneudecker
 
Named Entity Recognition for Europeana Newspapers
Named Entity Recognition for Europeana NewspapersNamed Entity Recognition for Europeana Newspapers
Named Entity Recognition for Europeana Newspaperscneudecker
 
What's up, Europeana Newspapers?
What's up, Europeana Newspapers?What's up, Europeana Newspapers?
What's up, Europeana Newspapers?cneudecker
 
Active archives @SBB
Active archives @SBBActive archives @SBB
Active archives @SBBcneudecker
 
Europeana Newspapers Aggregator Forum 2018 Berlin
Europeana Newspapers Aggregator Forum 2018 BerlinEuropeana Newspapers Aggregator Forum 2018 Berlin
Europeana Newspapers Aggregator Forum 2018 Berlincneudecker
 
Europeana Newspapers - Data, Tools & Future Plans
 Europeana Newspapers - Data, Tools & Future Plans  Europeana Newspapers - Data, Tools & Future Plans
Europeana Newspapers - Data, Tools & Future Plans cneudecker
 
Coding da Vinci Berlin 2017 - Europeana Newspapers
Coding da Vinci Berlin 2017 - Europeana NewspapersCoding da Vinci Berlin 2017 - Europeana Newspapers
Coding da Vinci Berlin 2017 - Europeana Newspaperscneudecker
 
Coding da Vinci Berlin 2017 - Europeana Collections 1914-1918
Coding da Vinci Berlin 2017 - Europeana Collections 1914-1918Coding da Vinci Berlin 2017 - Europeana Collections 1914-1918
Coding da Vinci Berlin 2017 - Europeana Collections 1914-1918cneudecker
 
Europeana Newspapers Transcribathon
Europeana Newspapers TranscribathonEuropeana Newspapers Transcribathon
Europeana Newspapers Transcribathoncneudecker
 
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen BibliothekenDigitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliothekencneudecker
 

Mehr von cneudecker (20)

EuropeanaTech x AI: Qurator.ai @ Berlin State Library
EuropeanaTech x AI: Qurator.ai @ Berlin State LibraryEuropeanaTech x AI: Qurator.ai @ Berlin State Library
EuropeanaTech x AI: Qurator.ai @ Berlin State Library
 
Digitisation and Digital Humanities - what is the role of Libraries?
Digitisation and Digital Humanities - what is the role of Libraries?Digitisation and Digital Humanities - what is the role of Libraries?
Digitisation and Digital Humanities - what is the role of Libraries?
 
Multimodal Perspectives for Digitised Historical Newspapers
Multimodal Perspectives for Digitised Historical NewspapersMultimodal Perspectives for Digitised Historical Newspapers
Multimodal Perspectives for Digitised Historical Newspapers
 
AI for digitized cultural heritage
AI for digitized cultural heritageAI for digitized cultural heritage
AI for digitized cultural heritage
 
The many uses of digitized newspapers
The many uses of digitized newspapersThe many uses of digitized newspapers
The many uses of digitized newspapers
 
Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...
Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...
Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...
 
OCR-D: An end-to-end open source OCR framework for historical printed documents
OCR-D: An end-to-end open source OCR framework for historical printed documentsOCR-D: An end-to-end open source OCR framework for historical printed documents
OCR-D: An end-to-end open source OCR framework for historical printed documents
 
Extrablatt: The Latest News on Newspaper Digitisation in Europe
Extrablatt: The Latest News on Newspaper Digitisation in EuropeExtrablatt: The Latest News on Newspaper Digitisation in Europe
Extrablatt: The Latest News on Newspaper Digitisation in Europe
 
Reise durch Europeana Collections in 11 Minuten
Reise durch Europeana Collections in 11 MinutenReise durch Europeana Collections in 11 Minuten
Reise durch Europeana Collections in 11 Minuten
 
Europeana Newspapers in a Nutshell
Europeana Newspapers in a NutshellEuropeana Newspapers in a Nutshell
Europeana Newspapers in a Nutshell
 
lab.sbb.berlin
lab.sbb.berlinlab.sbb.berlin
lab.sbb.berlin
 
Named Entity Recognition for Europeana Newspapers
Named Entity Recognition for Europeana NewspapersNamed Entity Recognition for Europeana Newspapers
Named Entity Recognition for Europeana Newspapers
 
What's up, Europeana Newspapers?
What's up, Europeana Newspapers?What's up, Europeana Newspapers?
What's up, Europeana Newspapers?
 
Active archives @SBB
Active archives @SBBActive archives @SBB
Active archives @SBB
 
Europeana Newspapers Aggregator Forum 2018 Berlin
Europeana Newspapers Aggregator Forum 2018 BerlinEuropeana Newspapers Aggregator Forum 2018 Berlin
Europeana Newspapers Aggregator Forum 2018 Berlin
 
Europeana Newspapers - Data, Tools & Future Plans
 Europeana Newspapers - Data, Tools & Future Plans  Europeana Newspapers - Data, Tools & Future Plans
Europeana Newspapers - Data, Tools & Future Plans
 
Coding da Vinci Berlin 2017 - Europeana Newspapers
Coding da Vinci Berlin 2017 - Europeana NewspapersCoding da Vinci Berlin 2017 - Europeana Newspapers
Coding da Vinci Berlin 2017 - Europeana Newspapers
 
Coding da Vinci Berlin 2017 - Europeana Collections 1914-1918
Coding da Vinci Berlin 2017 - Europeana Collections 1914-1918Coding da Vinci Berlin 2017 - Europeana Collections 1914-1918
Coding da Vinci Berlin 2017 - Europeana Collections 1914-1918
 
Europeana Newspapers Transcribathon
Europeana Newspapers TranscribathonEuropeana Newspapers Transcribathon
Europeana Newspapers Transcribathon
 
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen BibliothekenDigitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
 

Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten Inhalten

  • 1. Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten Inhalten Clemens Neudecker (@cneudecker) Staatsbibliothek zu Berlin – Preußischer Kulturbesitz Fachtagung Netzwerk maschinelle Verfahren in der Erschließung 10.-11. Oktober 2019, DNB, Frankfurt am Main
  • 2. Hintergrund • > 12 Mio. Dokumente • Metadaten (METS, MODS) • Digitalisierte Sammlungen • https://digital.staatsbibliothek-berlin.de/ • ca. 160,000 Digitalisate • ca. 5 Mio. Seiten OCR • Digitalisierte Zeitungen • http://zefys.staatsbibliothek-berlin.de/ • ca. 7 Mio. Seiten digitalisiert • ca. 3 Mio. Seiten OCR • ca. 2,5 PetaBytes Daten
  • 3. QURATOR @ SBB • Gemeinsame Projektsteuerung durch Forschungsreferent und Referatsleiter IT-Anwendungen und Datenmanagement • 3x FTE Entwicklerstellen E13 FuE (36 Monate) • SPK-KI Server: • 2x Nvidia Tesla V100 24GB (VGPU) • 36x Intel XEON 2.7 Ghz • 192GB RAM • Freie Bereitstellung von SBB Daten, Technologien und Anwendungen: https://github.com/qurator-spk • Mehr zur SBB in QURATOR: https://qurator.ai/partner/staatsbibliothek-zu-berlin/ • SBB Blogserie „Künstliche Intelligenz“: https://blog.sbb.berlin/tag/wissenschaftsjahr-2019/ https://xkcd.com/1838/
  • 4. Metadatenanalyse • Analyse von Metadaten (METS/MODS) und bestehenden Volltexten (ALTO) zur Gewinnung von Informationen über Merkmale und deren Verteilung https://github.com/qurator-spk/modstool WC-Analyse Feature Ranking Metadaten- Validierung
  • 5. OCR Evaluation & Qualitätsverbesserung • OCR Evaluation und Qualitätsverbesserung digitalisierter Dokumente durch bessere OCR und automatisierte OCR-Nachkorrektur • https://github.com/qurator-spk/dinglehopper • https://github.com/qurator-spk/ocrd_calamari (trainiert auf GT4HistOCR) OCR-Evaluation Varianten-Voting in Calamari OCR
  • 6. OCR Exkurs: OCR-D • DFG-gefördertes Koordinierungsprojekt + 8 verteilte Forschungsprojekte zu OCR für historische Drucke • Webseite: http://ocr-d.de/ • Module: https://ocr-d.github.io/projects • Source Code: https://github.com/OCR-D • Dokumentation: https://ocr-d.github.io/ • Ground Truth: http://ocr-d.github.io/gt-repo • Chat: https://gitter.im/OCR-D/Lobby
  • 7. Layout- bzw. Strukturerkennung • Erkennung und Klassifikation von Strukturmerkmalen: https://github.com/qurator-spk/pixelwise_segmentation_SBB • Pixel-Labelling mit ResNet50/UNet (CNN) für aktuell 16 Objektklassen • Spalten, Absätze, Separatoren • Überschriften, Fußnoten, Marginalien • Tabellen, Grafiken • usw. • Textzeilenextraktion für die OCR • Erkennung der Lese- bzw. Artikelreihenfolge (Reading Order)
  • 8. Named Entity Recognition • Erkennung und Klassifikation benannter Entitäten in digitalisierten Dokumenten mit BERT: https://github.com/qurator-spk/sbb_ner
  • 9. Named Entity Disambiguation & Linking • Disambiguierung und Verlinkung benannter Entitäten mit einer Knowledge Base (Wikidata, GND) • Erster Ansatz basierend auf Embeddings (Fasttext & Flair) CC BY-SA 4.0 Aparravi
  • 10. Daten & Modelle • https://lab.sbb.berlin/ • https://zenodo.org/communities/stabi/
  • 11. Ausblick • Bildähnlichkeitssuche unter Verwendung von VGG16 und Re-training mit ImageNet • Geolokalisierung durch Kombination von semantischen mit topographischen Merkmalen • Demonstrator basierend auf digitalisierten Sammlungen (SBB Lab)
  • 12. Danke für die Aufmerksamkeit! Fragen? Clemens Neudecker (@cneudecker) Staatsbibliothek zu Berlin – Preußischer Kulturbesitz Fachtagung Netzwerk maschinelle Verfahren in der Erschließung 10.-11. Oktober 2019, DNB, Frankfurt a.M.