SlideShare ist ein Scribd-Unternehmen logo
Digitalisate kuratieren mit KI -
von unstrukturierten Daten zu
strukturierten Inhalten
Clemens Neudecker (@cneudecker)
Staatsbibliothek zu Berlin – Preußischer Kulturbesitz
Fachtagung Netzwerk maschinelle Verfahren in der Erschließung
10.-11. Oktober 2019, DNB, Frankfurt am Main
Hintergrund
• > 12 Mio. Dokumente
• Metadaten (METS, MODS)
• Digitalisierte Sammlungen
• https://digital.staatsbibliothek-berlin.de/
• ca. 160,000 Digitalisate
• ca. 5 Mio. Seiten OCR
• Digitalisierte Zeitungen
• http://zefys.staatsbibliothek-berlin.de/
• ca. 7 Mio. Seiten digitalisiert
• ca. 3 Mio. Seiten OCR
• ca. 2,5 PetaBytes Daten
QURATOR @ SBB
• Gemeinsame Projektsteuerung durch Forschungsreferent und
Referatsleiter IT-Anwendungen und Datenmanagement
• 3x FTE Entwicklerstellen E13 FuE (36 Monate)
• SPK-KI Server:
• 2x Nvidia Tesla V100 24GB (VGPU)
• 36x Intel XEON 2.7 Ghz
• 192GB RAM
• Freie Bereitstellung von SBB Daten, Technologien
und Anwendungen: https://github.com/qurator-spk
• Mehr zur SBB in QURATOR:
https://qurator.ai/partner/staatsbibliothek-zu-berlin/
• SBB Blogserie „Künstliche Intelligenz“:
https://blog.sbb.berlin/tag/wissenschaftsjahr-2019/ https://xkcd.com/1838/
Metadatenanalyse
• Analyse von Metadaten (METS/MODS) und bestehenden Volltexten (ALTO)
zur Gewinnung von Informationen über Merkmale und deren Verteilung
https://github.com/qurator-spk/modstool
WC-Analyse Feature Ranking
Metadaten-
Validierung
OCR Evaluation & Qualitätsverbesserung
• OCR Evaluation und Qualitätsverbesserung digitalisierter Dokumente
durch bessere OCR und automatisierte OCR-Nachkorrektur
• https://github.com/qurator-spk/dinglehopper
• https://github.com/qurator-spk/ocrd_calamari (trainiert auf GT4HistOCR)
OCR-Evaluation
Varianten-Voting
in Calamari OCR
OCR Exkurs: OCR-D
• DFG-gefördertes Koordinierungsprojekt + 8 verteilte
Forschungsprojekte zu OCR für historische Drucke
• Webseite: http://ocr-d.de/
• Module: https://ocr-d.github.io/projects
• Source Code: https://github.com/OCR-D
• Dokumentation: https://ocr-d.github.io/
• Ground Truth: http://ocr-d.github.io/gt-repo
• Chat: https://gitter.im/OCR-D/Lobby
Layout- bzw. Strukturerkennung
• Erkennung und Klassifikation von Strukturmerkmalen:
https://github.com/qurator-spk/pixelwise_segmentation_SBB
• Pixel-Labelling mit ResNet50/UNet
(CNN) für aktuell 16 Objektklassen
• Spalten, Absätze, Separatoren
• Überschriften, Fußnoten,
Marginalien
• Tabellen, Grafiken
• usw.
• Textzeilenextraktion für die OCR
• Erkennung der Lese- bzw.
Artikelreihenfolge (Reading Order)
Named Entity Recognition
• Erkennung und Klassifikation benannter Entitäten in digitalisierten
Dokumenten mit BERT: https://github.com/qurator-spk/sbb_ner
Named Entity Disambiguation & Linking
• Disambiguierung und Verlinkung benannter Entitäten mit einer
Knowledge Base (Wikidata, GND)
• Erster Ansatz basierend auf Embeddings (Fasttext & Flair)
CC BY-SA 4.0 Aparravi
Daten & Modelle
• https://lab.sbb.berlin/
• https://zenodo.org/communities/stabi/
Ausblick
• Bildähnlichkeitssuche
unter Verwendung von
VGG16 und Re-training
mit ImageNet
• Geolokalisierung
durch Kombination
von semantischen
mit topographischen
Merkmalen
• Demonstrator basierend auf digitalisierten Sammlungen (SBB Lab)
Danke für die Aufmerksamkeit!
Fragen?
Clemens Neudecker (@cneudecker)
Staatsbibliothek zu Berlin – Preußischer Kulturbesitz
Fachtagung Netzwerk maschinelle Verfahren in der Erschließung
10.-11. Oktober 2019, DNB, Frankfurt a.M.

Weitere ähnliche Inhalte

Was ist angesagt?

eAqua und europeana4D - 2009
eAqua und europeana4D - 2009eAqua und europeana4D - 2009
eAqua und europeana4D - 2009
Ralf Stockmann
 
FulDig - Fuldaer Digitalisierungsserver der Hochschul- und Landesbibliothek
FulDig - Fuldaer Digitalisierungsserver der Hochschul- und LandesbibliothekFulDig - Fuldaer Digitalisierungsserver der Hochschul- und Landesbibliothek
FulDig - Fuldaer Digitalisierungsserver der Hochschul- und Landesbibliothek
goobi_org
 
Crowdsourcing als Mittel der Datenanreicherung
Crowdsourcing als Mittel der DatenanreicherungCrowdsourcing als Mittel der Datenanreicherung
Crowdsourcing als Mittel der Datenanreicherung
intranda GmbH
 
Open Geo Data mit freier Software in Österreich
Open Geo Data mit freier Software in ÖsterreichOpen Geo Data mit freier Software in Österreich
Open Geo Data mit freier Software in Österreich
Stefan Kasberger
 
Von IIIF zu IPIF? Ein Vorschlag für den Datenaustausch über Personen
Von IIIF zu IPIF? Ein Vorschlag für den Datenaustausch über PersonenVon IIIF zu IPIF? Ein Vorschlag für den Datenaustausch über Personen
Von IIIF zu IPIF? Ein Vorschlag für den Datenaustausch über Personen
Georg Vogeler
 
Europeana Newspapers German infoday - Semantics
Europeana Newspapers German infoday - SemanticsEuropeana Newspapers German infoday - Semantics
Europeana Newspapers German infoday - Semantics
Europeana Newspapers
 
Aufbau eines zentralen Indexes im GBV
Aufbau eines zentralen Indexes im GBVAufbau eines zentralen Indexes im GBV
Aufbau eines zentralen Indexes im GBV
Till Kinstler
 
Kooperativer Aufbau zentraler Lucene-Indices für lokale Portale
Kooperativer Aufbau zentraler Lucene-Indices für lokale PortaleKooperativer Aufbau zentraler Lucene-Indices für lokale Portale
Kooperativer Aufbau zentraler Lucene-Indices für lokale Portale
Till Kinstler
 
GI2010 symposium-popiolek (breitbandatlas deutschland)
GI2010 symposium-popiolek (breitbandatlas deutschland)GI2010 symposium-popiolek (breitbandatlas deutschland)
GI2010 symposium-popiolek (breitbandatlas deutschland)
IGN Vorstand
 
Überblick zum DFG-Projekt OCR-D
Überblick zum DFG-Projekt OCR-DÜberblick zum DFG-Projekt OCR-D
Überblick zum DFG-Projekt OCR-D
cneudecker
 
Aktuelle "Baustellen" und Fragen - Goobi an der Stabi Hamburg
Aktuelle "Baustellen" und Fragen - Goobi an der Stabi HamburgAktuelle "Baustellen" und Fragen - Goobi an der Stabi Hamburg
Aktuelle "Baustellen" und Fragen - Goobi an der Stabi Hamburg
goobi_org
 
VuFind - Ein Open Source Projekt
VuFind - Ein Open Source ProjektVuFind - Ein Open Source Projekt
VuFind - Ein Open Source Projekt
Till Kinstler
 
Kooperative Angebote von GBV und GDZ im Bereich Digitalisierung
Kooperative Angebote von GBV und GDZ im Bereich DigitalisierungKooperative Angebote von GBV und GDZ im Bereich Digitalisierung
Kooperative Angebote von GBV und GDZ im Bereich Digitalisierung
Ralf Stockmann
 
Aufbau des Digitalisierungsreferats der UB TU Berlin
Aufbau des Digitalisierungsreferats der UB TU BerlinAufbau des Digitalisierungsreferats der UB TU Berlin
Aufbau des Digitalisierungsreferats der UB TU Berlin
goobi_org
 
"Ich weiß was Du letzten Sommer gemappt hast!" Datenspuren im OpenStreetMap P...
"Ich weiß was Du letzten Sommer gemappt hast!" Datenspuren im OpenStreetMap P..."Ich weiß was Du letzten Sommer gemappt hast!" Datenspuren im OpenStreetMap P...
"Ich weiß was Du letzten Sommer gemappt hast!" Datenspuren im OpenStreetMap P...
Pascal Neis
 
Wikis und Open Data - KGSt Innovationszirkel Open Data Cities
Wikis und Open Data - KGSt Innovationszirkel Open Data CitiesWikis und Open Data - KGSt Innovationszirkel Open Data Cities
Wikis und Open Data - KGSt Innovationszirkel Open Data Cities
Bernhard Krabina
 
3. intranda viewer Tag: Digitale Langzeitarchivierung an der TIB
3. intranda viewer Tag: Digitale Langzeitarchivierung an der TIB3. intranda viewer Tag: Digitale Langzeitarchivierung an der TIB
3. intranda viewer Tag: Digitale Langzeitarchivierung an der TIB
intranda GmbH
 
Digitale Landesbibliothek Oberösterreich
Digitale Landesbibliothek OberösterreichDigitale Landesbibliothek Oberösterreich
Digitale Landesbibliothek Oberösterreich
intranda GmbH
 
Workshop von gestern für morgen lernen bernsen
Workshop von gestern für morgen lernen bernsenWorkshop von gestern für morgen lernen bernsen
Workshop von gestern für morgen lernen bernsen
Daniel Bernsen
 

Was ist angesagt? (19)

eAqua und europeana4D - 2009
eAqua und europeana4D - 2009eAqua und europeana4D - 2009
eAqua und europeana4D - 2009
 
FulDig - Fuldaer Digitalisierungsserver der Hochschul- und Landesbibliothek
FulDig - Fuldaer Digitalisierungsserver der Hochschul- und LandesbibliothekFulDig - Fuldaer Digitalisierungsserver der Hochschul- und Landesbibliothek
FulDig - Fuldaer Digitalisierungsserver der Hochschul- und Landesbibliothek
 
Crowdsourcing als Mittel der Datenanreicherung
Crowdsourcing als Mittel der DatenanreicherungCrowdsourcing als Mittel der Datenanreicherung
Crowdsourcing als Mittel der Datenanreicherung
 
Open Geo Data mit freier Software in Österreich
Open Geo Data mit freier Software in ÖsterreichOpen Geo Data mit freier Software in Österreich
Open Geo Data mit freier Software in Österreich
 
Von IIIF zu IPIF? Ein Vorschlag für den Datenaustausch über Personen
Von IIIF zu IPIF? Ein Vorschlag für den Datenaustausch über PersonenVon IIIF zu IPIF? Ein Vorschlag für den Datenaustausch über Personen
Von IIIF zu IPIF? Ein Vorschlag für den Datenaustausch über Personen
 
Europeana Newspapers German infoday - Semantics
Europeana Newspapers German infoday - SemanticsEuropeana Newspapers German infoday - Semantics
Europeana Newspapers German infoday - Semantics
 
Aufbau eines zentralen Indexes im GBV
Aufbau eines zentralen Indexes im GBVAufbau eines zentralen Indexes im GBV
Aufbau eines zentralen Indexes im GBV
 
Kooperativer Aufbau zentraler Lucene-Indices für lokale Portale
Kooperativer Aufbau zentraler Lucene-Indices für lokale PortaleKooperativer Aufbau zentraler Lucene-Indices für lokale Portale
Kooperativer Aufbau zentraler Lucene-Indices für lokale Portale
 
GI2010 symposium-popiolek (breitbandatlas deutschland)
GI2010 symposium-popiolek (breitbandatlas deutschland)GI2010 symposium-popiolek (breitbandatlas deutschland)
GI2010 symposium-popiolek (breitbandatlas deutschland)
 
Überblick zum DFG-Projekt OCR-D
Überblick zum DFG-Projekt OCR-DÜberblick zum DFG-Projekt OCR-D
Überblick zum DFG-Projekt OCR-D
 
Aktuelle "Baustellen" und Fragen - Goobi an der Stabi Hamburg
Aktuelle "Baustellen" und Fragen - Goobi an der Stabi HamburgAktuelle "Baustellen" und Fragen - Goobi an der Stabi Hamburg
Aktuelle "Baustellen" und Fragen - Goobi an der Stabi Hamburg
 
VuFind - Ein Open Source Projekt
VuFind - Ein Open Source ProjektVuFind - Ein Open Source Projekt
VuFind - Ein Open Source Projekt
 
Kooperative Angebote von GBV und GDZ im Bereich Digitalisierung
Kooperative Angebote von GBV und GDZ im Bereich DigitalisierungKooperative Angebote von GBV und GDZ im Bereich Digitalisierung
Kooperative Angebote von GBV und GDZ im Bereich Digitalisierung
 
Aufbau des Digitalisierungsreferats der UB TU Berlin
Aufbau des Digitalisierungsreferats der UB TU BerlinAufbau des Digitalisierungsreferats der UB TU Berlin
Aufbau des Digitalisierungsreferats der UB TU Berlin
 
"Ich weiß was Du letzten Sommer gemappt hast!" Datenspuren im OpenStreetMap P...
"Ich weiß was Du letzten Sommer gemappt hast!" Datenspuren im OpenStreetMap P..."Ich weiß was Du letzten Sommer gemappt hast!" Datenspuren im OpenStreetMap P...
"Ich weiß was Du letzten Sommer gemappt hast!" Datenspuren im OpenStreetMap P...
 
Wikis und Open Data - KGSt Innovationszirkel Open Data Cities
Wikis und Open Data - KGSt Innovationszirkel Open Data CitiesWikis und Open Data - KGSt Innovationszirkel Open Data Cities
Wikis und Open Data - KGSt Innovationszirkel Open Data Cities
 
3. intranda viewer Tag: Digitale Langzeitarchivierung an der TIB
3. intranda viewer Tag: Digitale Langzeitarchivierung an der TIB3. intranda viewer Tag: Digitale Langzeitarchivierung an der TIB
3. intranda viewer Tag: Digitale Langzeitarchivierung an der TIB
 
Digitale Landesbibliothek Oberösterreich
Digitale Landesbibliothek OberösterreichDigitale Landesbibliothek Oberösterreich
Digitale Landesbibliothek Oberösterreich
 
Workshop von gestern für morgen lernen bernsen
Workshop von gestern für morgen lernen bernsenWorkshop von gestern für morgen lernen bernsen
Workshop von gestern für morgen lernen bernsen
 

Ähnlich wie Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten Inhalten

ALTO, PAGE & Co. Formate für Volltexte
ALTO, PAGE & Co. Formate für VolltexteALTO, PAGE & Co. Formate für Volltexte
ALTO, PAGE & Co. Formate für Volltexte
cneudecker
 
DURAARK at Bibliotheksymposium Wildau
DURAARK at Bibliotheksymposium WildauDURAARK at Bibliotheksymposium Wildau
DURAARK at Bibliotheksymposium Wildau
panitzm
 
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...
ETH-Bibliothek
 
Fit für die digitale Bibliothek? (2007)
Fit für die digitale Bibliothek? (2007)Fit für die digitale Bibliothek? (2007)
Fit für die digitale Bibliothek? (2007)
Ralf Stockmann
 
OCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen Edition
OCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen EditionOCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen Edition
OCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen Edition
cneudecker
 
Text and Data Mining
Text and Data MiningText and Data Mining
Text and Data Mining
cneudecker
 
CKAN by Friedrich Lindenberg
CKAN by Friedrich LindenbergCKAN by Friedrich Lindenberg
CKAN by Friedrich Lindenberg
Semantic Web Company
 
Austrian Books Online - Digitaler Workflow und Access
Austrian Books Online - Digitaler Workflow und AccessAustrian Books Online - Digitaler Workflow und Access
Austrian Books Online - Digitaler Workflow und Access
Max Kaiser
 
Anforderungen an Thesauri im Semantic Web
Anforderungen an Thesauri im Semantic WebAnforderungen an Thesauri im Semantic Web
Anforderungen an Thesauri im Semantic Web
Joachim Neubert
 
OKLab Leipzig - 2023 Update
OKLab Leipzig - 2023 UpdateOKLab Leipzig - 2023 Update
OKLab Leipzig - 2023 Update
joergreichert
 
Generische Kuratierungstechnologien für spezifische Anwendungsfälle: Hintergr...
Generische Kuratierungstechnologien für spezifische Anwendungsfälle: Hintergr...Generische Kuratierungstechnologien für spezifische Anwendungsfälle: Hintergr...
Generische Kuratierungstechnologien für spezifische Anwendungsfälle: Hintergr...
Georg Rehm
 
OCR und Strukturerkennung für Zeitungen
OCR und Strukturerkennung für ZeitungenOCR und Strukturerkennung für Zeitungen
OCR und Strukturerkennung für Zeitungen
cneudecker
 
Austrian Books Online: Das Google Books-Projekt an der Österreichischen Natio...
Austrian Books Online: Das Google Books-Projekt an der Österreichischen Natio...Austrian Books Online: Das Google Books-Projekt an der Österreichischen Natio...
Austrian Books Online: Das Google Books-Projekt an der Österreichischen Natio...
Max Kaiser
 
171211 kitodo
171211 kitodo171211 kitodo
Kuratieren im Zeitalter der KI
Kuratieren im Zeitalter der KIKuratieren im Zeitalter der KI
Kuratieren im Zeitalter der KI
Georg Rehm
 
Open Knowledge Lab (OKLab) Leipzig - 2024 Update
Open Knowledge Lab (OKLab) Leipzig - 2024 UpdateOpen Knowledge Lab (OKLab) Leipzig - 2024 Update
Open Knowledge Lab (OKLab) Leipzig - 2024 Update
joergreichert
 
TIB DOI-Service und DataCite - PIDs, Best Practices
TIB DOI-Service und DataCite - PIDs, Best PracticesTIB DOI-Service und DataCite - PIDs, Best Practices
TIB DOI-Service und DataCite - PIDs, Best Practices
Frauke Ziedorn
 
QGIS das Opensource GIS at Linuxwochen Wien 2019
QGIS das Opensource GIS at Linuxwochen Wien 2019QGIS das Opensource GIS at Linuxwochen Wien 2019
QGIS das Opensource GIS at Linuxwochen Wien 2019
Anita Graser
 
Laudatio Workshop Entwicklersession zu Gemeinsamkeiten in Forschungsdatenrepo...
Laudatio Workshop Entwicklersession zu Gemeinsamkeiten in Forschungsdatenrepo...Laudatio Workshop Entwicklersession zu Gemeinsamkeiten in Forschungsdatenrepo...
Laudatio Workshop Entwicklersession zu Gemeinsamkeiten in Forschungsdatenrepo...
Dennis Zielke
 

Ähnlich wie Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten Inhalten (20)

ALTO, PAGE & Co. Formate für Volltexte
ALTO, PAGE & Co. Formate für VolltexteALTO, PAGE & Co. Formate für Volltexte
ALTO, PAGE & Co. Formate für Volltexte
 
DURAARK at Bibliotheksymposium Wildau
DURAARK at Bibliotheksymposium WildauDURAARK at Bibliotheksymposium Wildau
DURAARK at Bibliotheksymposium Wildau
 
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...
 
Fit für die digitale Bibliothek? (2007)
Fit für die digitale Bibliothek? (2007)Fit für die digitale Bibliothek? (2007)
Fit für die digitale Bibliothek? (2007)
 
OCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen Edition
OCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen EditionOCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen Edition
OCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen Edition
 
Text and Data Mining
Text and Data MiningText and Data Mining
Text and Data Mining
 
CKAN by Friedrich Lindenberg
CKAN by Friedrich LindenbergCKAN by Friedrich Lindenberg
CKAN by Friedrich Lindenberg
 
Austrian Books Online - Digitaler Workflow und Access
Austrian Books Online - Digitaler Workflow und AccessAustrian Books Online - Digitaler Workflow und Access
Austrian Books Online - Digitaler Workflow und Access
 
Fachliche Vernetzung von Repositories auf europäischer Ebene - das Beispiel N...
Fachliche Vernetzung von Repositories auf europäischer Ebene - das Beispiel N...Fachliche Vernetzung von Repositories auf europäischer Ebene - das Beispiel N...
Fachliche Vernetzung von Repositories auf europäischer Ebene - das Beispiel N...
 
Anforderungen an Thesauri im Semantic Web
Anforderungen an Thesauri im Semantic WebAnforderungen an Thesauri im Semantic Web
Anforderungen an Thesauri im Semantic Web
 
OKLab Leipzig - 2023 Update
OKLab Leipzig - 2023 UpdateOKLab Leipzig - 2023 Update
OKLab Leipzig - 2023 Update
 
Generische Kuratierungstechnologien für spezifische Anwendungsfälle: Hintergr...
Generische Kuratierungstechnologien für spezifische Anwendungsfälle: Hintergr...Generische Kuratierungstechnologien für spezifische Anwendungsfälle: Hintergr...
Generische Kuratierungstechnologien für spezifische Anwendungsfälle: Hintergr...
 
OCR und Strukturerkennung für Zeitungen
OCR und Strukturerkennung für ZeitungenOCR und Strukturerkennung für Zeitungen
OCR und Strukturerkennung für Zeitungen
 
Austrian Books Online: Das Google Books-Projekt an der Österreichischen Natio...
Austrian Books Online: Das Google Books-Projekt an der Österreichischen Natio...Austrian Books Online: Das Google Books-Projekt an der Österreichischen Natio...
Austrian Books Online: Das Google Books-Projekt an der Österreichischen Natio...
 
171211 kitodo
171211 kitodo171211 kitodo
171211 kitodo
 
Kuratieren im Zeitalter der KI
Kuratieren im Zeitalter der KIKuratieren im Zeitalter der KI
Kuratieren im Zeitalter der KI
 
Open Knowledge Lab (OKLab) Leipzig - 2024 Update
Open Knowledge Lab (OKLab) Leipzig - 2024 UpdateOpen Knowledge Lab (OKLab) Leipzig - 2024 Update
Open Knowledge Lab (OKLab) Leipzig - 2024 Update
 
TIB DOI-Service und DataCite - PIDs, Best Practices
TIB DOI-Service und DataCite - PIDs, Best PracticesTIB DOI-Service und DataCite - PIDs, Best Practices
TIB DOI-Service und DataCite - PIDs, Best Practices
 
QGIS das Opensource GIS at Linuxwochen Wien 2019
QGIS das Opensource GIS at Linuxwochen Wien 2019QGIS das Opensource GIS at Linuxwochen Wien 2019
QGIS das Opensource GIS at Linuxwochen Wien 2019
 
Laudatio Workshop Entwicklersession zu Gemeinsamkeiten in Forschungsdatenrepo...
Laudatio Workshop Entwicklersession zu Gemeinsamkeiten in Forschungsdatenrepo...Laudatio Workshop Entwicklersession zu Gemeinsamkeiten in Forschungsdatenrepo...
Laudatio Workshop Entwicklersession zu Gemeinsamkeiten in Forschungsdatenrepo...
 

Mehr von cneudecker

EuropeanaTech x AI: Qurator.ai @ Berlin State Library
EuropeanaTech x AI: Qurator.ai @ Berlin State LibraryEuropeanaTech x AI: Qurator.ai @ Berlin State Library
EuropeanaTech x AI: Qurator.ai @ Berlin State Library
cneudecker
 
Digitisation and Digital Humanities - what is the role of Libraries?
Digitisation and Digital Humanities - what is the role of Libraries?Digitisation and Digital Humanities - what is the role of Libraries?
Digitisation and Digital Humanities - what is the role of Libraries?
cneudecker
 
Multimodal Perspectives for Digitised Historical Newspapers
Multimodal Perspectives for Digitised Historical NewspapersMultimodal Perspectives for Digitised Historical Newspapers
Multimodal Perspectives for Digitised Historical Newspapers
cneudecker
 
AI for digitized cultural heritage
AI for digitized cultural heritageAI for digitized cultural heritage
AI for digitized cultural heritage
cneudecker
 
The many uses of digitized newspapers
The many uses of digitized newspapersThe many uses of digitized newspapers
The many uses of digitized newspapers
cneudecker
 
Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...
Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...
Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...
cneudecker
 
OCR-D: An end-to-end open source OCR framework for historical printed documents
OCR-D: An end-to-end open source OCR framework for historical printed documentsOCR-D: An end-to-end open source OCR framework for historical printed documents
OCR-D: An end-to-end open source OCR framework for historical printed documents
cneudecker
 
Extrablatt: The Latest News on Newspaper Digitisation in Europe
Extrablatt: The Latest News on Newspaper Digitisation in EuropeExtrablatt: The Latest News on Newspaper Digitisation in Europe
Extrablatt: The Latest News on Newspaper Digitisation in Europe
cneudecker
 
Reise durch Europeana Collections in 11 Minuten
Reise durch Europeana Collections in 11 MinutenReise durch Europeana Collections in 11 Minuten
Reise durch Europeana Collections in 11 Minuten
cneudecker
 
Europeana Newspapers in a Nutshell
Europeana Newspapers in a NutshellEuropeana Newspapers in a Nutshell
Europeana Newspapers in a Nutshell
cneudecker
 
lab.sbb.berlin
lab.sbb.berlinlab.sbb.berlin
lab.sbb.berlin
cneudecker
 
Named Entity Recognition for Europeana Newspapers
Named Entity Recognition for Europeana NewspapersNamed Entity Recognition for Europeana Newspapers
Named Entity Recognition for Europeana Newspapers
cneudecker
 
What's up, Europeana Newspapers?
What's up, Europeana Newspapers?What's up, Europeana Newspapers?
What's up, Europeana Newspapers?
cneudecker
 
Active archives @SBB
Active archives @SBBActive archives @SBB
Active archives @SBB
cneudecker
 
Europeana Newspapers Aggregator Forum 2018 Berlin
Europeana Newspapers Aggregator Forum 2018 BerlinEuropeana Newspapers Aggregator Forum 2018 Berlin
Europeana Newspapers Aggregator Forum 2018 Berlin
cneudecker
 
Europeana Newspapers - Data, Tools & Future Plans
 Europeana Newspapers - Data, Tools & Future Plans  Europeana Newspapers - Data, Tools & Future Plans
Europeana Newspapers - Data, Tools & Future Plans
cneudecker
 
Coding da Vinci Berlin 2017 - Europeana Newspapers
Coding da Vinci Berlin 2017 - Europeana NewspapersCoding da Vinci Berlin 2017 - Europeana Newspapers
Coding da Vinci Berlin 2017 - Europeana Newspapers
cneudecker
 
Coding da Vinci Berlin 2017 - Europeana Collections 1914-1918
Coding da Vinci Berlin 2017 - Europeana Collections 1914-1918Coding da Vinci Berlin 2017 - Europeana Collections 1914-1918
Coding da Vinci Berlin 2017 - Europeana Collections 1914-1918
cneudecker
 
Europeana Newspapers Transcribathon
Europeana Newspapers TranscribathonEuropeana Newspapers Transcribathon
Europeana Newspapers Transcribathon
cneudecker
 
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen BibliothekenDigitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
cneudecker
 

Mehr von cneudecker (20)

EuropeanaTech x AI: Qurator.ai @ Berlin State Library
EuropeanaTech x AI: Qurator.ai @ Berlin State LibraryEuropeanaTech x AI: Qurator.ai @ Berlin State Library
EuropeanaTech x AI: Qurator.ai @ Berlin State Library
 
Digitisation and Digital Humanities - what is the role of Libraries?
Digitisation and Digital Humanities - what is the role of Libraries?Digitisation and Digital Humanities - what is the role of Libraries?
Digitisation and Digital Humanities - what is the role of Libraries?
 
Multimodal Perspectives for Digitised Historical Newspapers
Multimodal Perspectives for Digitised Historical NewspapersMultimodal Perspectives for Digitised Historical Newspapers
Multimodal Perspectives for Digitised Historical Newspapers
 
AI for digitized cultural heritage
AI for digitized cultural heritageAI for digitized cultural heritage
AI for digitized cultural heritage
 
The many uses of digitized newspapers
The many uses of digitized newspapersThe many uses of digitized newspapers
The many uses of digitized newspapers
 
Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...
Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...
Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...
 
OCR-D: An end-to-end open source OCR framework for historical printed documents
OCR-D: An end-to-end open source OCR framework for historical printed documentsOCR-D: An end-to-end open source OCR framework for historical printed documents
OCR-D: An end-to-end open source OCR framework for historical printed documents
 
Extrablatt: The Latest News on Newspaper Digitisation in Europe
Extrablatt: The Latest News on Newspaper Digitisation in EuropeExtrablatt: The Latest News on Newspaper Digitisation in Europe
Extrablatt: The Latest News on Newspaper Digitisation in Europe
 
Reise durch Europeana Collections in 11 Minuten
Reise durch Europeana Collections in 11 MinutenReise durch Europeana Collections in 11 Minuten
Reise durch Europeana Collections in 11 Minuten
 
Europeana Newspapers in a Nutshell
Europeana Newspapers in a NutshellEuropeana Newspapers in a Nutshell
Europeana Newspapers in a Nutshell
 
lab.sbb.berlin
lab.sbb.berlinlab.sbb.berlin
lab.sbb.berlin
 
Named Entity Recognition for Europeana Newspapers
Named Entity Recognition for Europeana NewspapersNamed Entity Recognition for Europeana Newspapers
Named Entity Recognition for Europeana Newspapers
 
What's up, Europeana Newspapers?
What's up, Europeana Newspapers?What's up, Europeana Newspapers?
What's up, Europeana Newspapers?
 
Active archives @SBB
Active archives @SBBActive archives @SBB
Active archives @SBB
 
Europeana Newspapers Aggregator Forum 2018 Berlin
Europeana Newspapers Aggregator Forum 2018 BerlinEuropeana Newspapers Aggregator Forum 2018 Berlin
Europeana Newspapers Aggregator Forum 2018 Berlin
 
Europeana Newspapers - Data, Tools & Future Plans
 Europeana Newspapers - Data, Tools & Future Plans  Europeana Newspapers - Data, Tools & Future Plans
Europeana Newspapers - Data, Tools & Future Plans
 
Coding da Vinci Berlin 2017 - Europeana Newspapers
Coding da Vinci Berlin 2017 - Europeana NewspapersCoding da Vinci Berlin 2017 - Europeana Newspapers
Coding da Vinci Berlin 2017 - Europeana Newspapers
 
Coding da Vinci Berlin 2017 - Europeana Collections 1914-1918
Coding da Vinci Berlin 2017 - Europeana Collections 1914-1918Coding da Vinci Berlin 2017 - Europeana Collections 1914-1918
Coding da Vinci Berlin 2017 - Europeana Collections 1914-1918
 
Europeana Newspapers Transcribathon
Europeana Newspapers TranscribathonEuropeana Newspapers Transcribathon
Europeana Newspapers Transcribathon
 
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen BibliothekenDigitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
 

Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten Inhalten

  • 1. Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten Inhalten Clemens Neudecker (@cneudecker) Staatsbibliothek zu Berlin – Preußischer Kulturbesitz Fachtagung Netzwerk maschinelle Verfahren in der Erschließung 10.-11. Oktober 2019, DNB, Frankfurt am Main
  • 2. Hintergrund • > 12 Mio. Dokumente • Metadaten (METS, MODS) • Digitalisierte Sammlungen • https://digital.staatsbibliothek-berlin.de/ • ca. 160,000 Digitalisate • ca. 5 Mio. Seiten OCR • Digitalisierte Zeitungen • http://zefys.staatsbibliothek-berlin.de/ • ca. 7 Mio. Seiten digitalisiert • ca. 3 Mio. Seiten OCR • ca. 2,5 PetaBytes Daten
  • 3. QURATOR @ SBB • Gemeinsame Projektsteuerung durch Forschungsreferent und Referatsleiter IT-Anwendungen und Datenmanagement • 3x FTE Entwicklerstellen E13 FuE (36 Monate) • SPK-KI Server: • 2x Nvidia Tesla V100 24GB (VGPU) • 36x Intel XEON 2.7 Ghz • 192GB RAM • Freie Bereitstellung von SBB Daten, Technologien und Anwendungen: https://github.com/qurator-spk • Mehr zur SBB in QURATOR: https://qurator.ai/partner/staatsbibliothek-zu-berlin/ • SBB Blogserie „Künstliche Intelligenz“: https://blog.sbb.berlin/tag/wissenschaftsjahr-2019/ https://xkcd.com/1838/
  • 4. Metadatenanalyse • Analyse von Metadaten (METS/MODS) und bestehenden Volltexten (ALTO) zur Gewinnung von Informationen über Merkmale und deren Verteilung https://github.com/qurator-spk/modstool WC-Analyse Feature Ranking Metadaten- Validierung
  • 5. OCR Evaluation & Qualitätsverbesserung • OCR Evaluation und Qualitätsverbesserung digitalisierter Dokumente durch bessere OCR und automatisierte OCR-Nachkorrektur • https://github.com/qurator-spk/dinglehopper • https://github.com/qurator-spk/ocrd_calamari (trainiert auf GT4HistOCR) OCR-Evaluation Varianten-Voting in Calamari OCR
  • 6. OCR Exkurs: OCR-D • DFG-gefördertes Koordinierungsprojekt + 8 verteilte Forschungsprojekte zu OCR für historische Drucke • Webseite: http://ocr-d.de/ • Module: https://ocr-d.github.io/projects • Source Code: https://github.com/OCR-D • Dokumentation: https://ocr-d.github.io/ • Ground Truth: http://ocr-d.github.io/gt-repo • Chat: https://gitter.im/OCR-D/Lobby
  • 7. Layout- bzw. Strukturerkennung • Erkennung und Klassifikation von Strukturmerkmalen: https://github.com/qurator-spk/pixelwise_segmentation_SBB • Pixel-Labelling mit ResNet50/UNet (CNN) für aktuell 16 Objektklassen • Spalten, Absätze, Separatoren • Überschriften, Fußnoten, Marginalien • Tabellen, Grafiken • usw. • Textzeilenextraktion für die OCR • Erkennung der Lese- bzw. Artikelreihenfolge (Reading Order)
  • 8. Named Entity Recognition • Erkennung und Klassifikation benannter Entitäten in digitalisierten Dokumenten mit BERT: https://github.com/qurator-spk/sbb_ner
  • 9. Named Entity Disambiguation & Linking • Disambiguierung und Verlinkung benannter Entitäten mit einer Knowledge Base (Wikidata, GND) • Erster Ansatz basierend auf Embeddings (Fasttext & Flair) CC BY-SA 4.0 Aparravi
  • 10. Daten & Modelle • https://lab.sbb.berlin/ • https://zenodo.org/communities/stabi/
  • 11. Ausblick • Bildähnlichkeitssuche unter Verwendung von VGG16 und Re-training mit ImageNet • Geolokalisierung durch Kombination von semantischen mit topographischen Merkmalen • Demonstrator basierend auf digitalisierten Sammlungen (SBB Lab)
  • 12. Danke für die Aufmerksamkeit! Fragen? Clemens Neudecker (@cneudecker) Staatsbibliothek zu Berlin – Preußischer Kulturbesitz Fachtagung Netzwerk maschinelle Verfahren in der Erschließung 10.-11. Oktober 2019, DNB, Frankfurt a.M.