SlideShare ist ein Scribd-Unternehmen logo
1 von 8
Downloaden Sie, um offline zu lesen
Digitalisierte historische Zeitungen
der Staatsbibliothek zu Berlin
Coding da Vinci Berlin 2017
Clemens Neudecker
@cneudecker
Wer?
• Staatsbibliothek zu Berlin –
Preußischer Kulturbesitz
• Europeana Newspapers
• DAHLIE
• ZEFYS Zeitungsinformationsystem
Was?
• 4 Historische Berliner Tageszeitungen
• Zeitraum 1872 – 1930
• Ca. 1,5 Mio. Seiten
• Images (Scans), Volltexte (OCR), Metadaten
• Lizenz: Public Domain, CC0
Wie?
• OCR = Erkennung von Text in Bilddateien (Scans)
67.3%
81.4%
64.0%
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
Gothic Normal Mixed
SuccessRate
Font
Bag of Words OCR Evaluation
Per Font
Wo?
• http://136.243.4.67/index.php/s/hp6TFyqvZ5ZuAlW
• http://www.theeuropeanlibrary.org/tel4/newspapers
/search?provider-id=P01606
• https://www.europeana.eu/portal/de/search?q=
europeana_collectionName%3A92*ewspapers*&
f[DATA_PROVIDER][]=Staatsbibliothek+zu+Berlin+-
+Preu%C3%9Fischer+Kulturbesitz
Wünsche
• OCR Verbesserung
• Anreicherung mit Metadaten
• Extraktion von Bildern
• Extraktion von Themen
• Extraktion von Strukturen
• Verknüpfung mit weiteren Daten
• …und Du?
Häh?
• Kontakt, Fragen
– clemens.neudecker@europeana-newspapers.eu
– @cneudecker
• Dokumentation, Hintergründe
– http://www.europeana-newspapers.eu/
public-materials/deliverables/
– http://europeananewspapers.github.io/
Danke! Fragen?

Weitere ähnliche Inhalte

Was ist angesagt?

Rezensieren im Web_Landes
Rezensieren im Web_LandesRezensieren im Web_Landes
Rezensieren im Web_LandesDHI_Paris
 
Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...
Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...
Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...cneudecker
 
2022_46.OpenDataMeetUp.pdf
2022_46.OpenDataMeetUp.pdf2022_46.OpenDataMeetUp.pdf
2022_46.OpenDataMeetUp.pdfStadt Wien
 
2022_46.OpenDataMeetUp_Publikationsserver_MA9.pdf
2022_46.OpenDataMeetUp_Publikationsserver_MA9.pdf2022_46.OpenDataMeetUp_Publikationsserver_MA9.pdf
2022_46.OpenDataMeetUp_Publikationsserver_MA9.pdfStadt Wien
 
Aufbau eines zentralen Indexes im GBV
Aufbau eines zentralen Indexes im GBVAufbau eines zentralen Indexes im GBV
Aufbau eines zentralen Indexes im GBVTill Kinstler
 
2022_46.OpenDataMeetup_MA13.pdf
2022_46.OpenDataMeetup_MA13.pdf2022_46.OpenDataMeetup_MA13.pdf
2022_46.OpenDataMeetup_MA13.pdfStadt Wien
 
Google als Partner schätzen lernen: Austrian Books Online
Google als Partner schätzen lernen: Austrian Books OnlineGoogle als Partner schätzen lernen: Austrian Books Online
Google als Partner schätzen lernen: Austrian Books OnlineMax Kaiser
 
2022_46.OpenDatMeetUp_vcoe-check.pdf
2022_46.OpenDatMeetUp_vcoe-check.pdf2022_46.OpenDatMeetUp_vcoe-check.pdf
2022_46.OpenDatMeetUp_vcoe-check.pdfStadt Wien
 
GEI digital - Aufbau einer fachlichen Digitalisierungsplattform für externe D...
GEI digital - Aufbau einer fachlichen Digitalisierungsplattform für externe D...GEI digital - Aufbau einer fachlichen Digitalisierungsplattform für externe D...
GEI digital - Aufbau einer fachlichen Digitalisierungsplattform für externe D...goobi_org
 
Einheitliche Normdatendienste der VZG
Einheitliche Normdatendienste der VZGEinheitliche Normdatendienste der VZG
Einheitliche Normdatendienste der VZGJakob .
 
SLUB Geschäftsbericht 2014
SLUB Geschäftsbericht 2014SLUB Geschäftsbericht 2014
SLUB Geschäftsbericht 2014Dr. Achim Bonte
 
2. intranda viewer Tag: Integration von Fremddigitalisaten, Quellenkommentier...
2. intranda viewer Tag: Integration von Fremddigitalisaten, Quellenkommentier...2. intranda viewer Tag: Integration von Fremddigitalisaten, Quellenkommentier...
2. intranda viewer Tag: Integration von Fremddigitalisaten, Quellenkommentier...intranda GmbH
 
10 Jahre Evolution: Digitalisierung an der UB Greifswald
10 Jahre Evolution: Digitalisierung an der UB Greifswald10 Jahre Evolution: Digitalisierung an der UB Greifswald
10 Jahre Evolution: Digitalisierung an der UB Greifswaldintranda GmbH
 
Digitalisieren mit Google
Digitalisieren mit GoogleDigitalisieren mit Google
Digitalisieren mit GoogleMax Kaiser
 

Was ist angesagt? (20)

Ins Gedächtnis der Stadt Wien - Neue Wege für Forschung und Vermittlung / Do ...
Ins Gedächtnis der Stadt Wien - Neue Wege für Forschung und Vermittlung / Do ...Ins Gedächtnis der Stadt Wien - Neue Wege für Forschung und Vermittlung / Do ...
Ins Gedächtnis der Stadt Wien - Neue Wege für Forschung und Vermittlung / Do ...
 
Rezensieren im Web_Landes
Rezensieren im Web_LandesRezensieren im Web_Landes
Rezensieren im Web_Landes
 
Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...
Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...
Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...
 
2022_46.OpenDataMeetUp.pdf
2022_46.OpenDataMeetUp.pdf2022_46.OpenDataMeetUp.pdf
2022_46.OpenDataMeetUp.pdf
 
2022_46.OpenDataMeetUp_Publikationsserver_MA9.pdf
2022_46.OpenDataMeetUp_Publikationsserver_MA9.pdf2022_46.OpenDataMeetUp_Publikationsserver_MA9.pdf
2022_46.OpenDataMeetUp_Publikationsserver_MA9.pdf
 
Aufbau eines zentralen Indexes im GBV
Aufbau eines zentralen Indexes im GBVAufbau eines zentralen Indexes im GBV
Aufbau eines zentralen Indexes im GBV
 
2022_46.OpenDataMeetup_MA13.pdf
2022_46.OpenDataMeetup_MA13.pdf2022_46.OpenDataMeetup_MA13.pdf
2022_46.OpenDataMeetup_MA13.pdf
 
Archivum rhenanum
Archivum rhenanumArchivum rhenanum
Archivum rhenanum
 
Google als Partner schätzen lernen: Austrian Books Online
Google als Partner schätzen lernen: Austrian Books OnlineGoogle als Partner schätzen lernen: Austrian Books Online
Google als Partner schätzen lernen: Austrian Books Online
 
2022_46.OpenDatMeetUp_vcoe-check.pdf
2022_46.OpenDatMeetUp_vcoe-check.pdf2022_46.OpenDatMeetUp_vcoe-check.pdf
2022_46.OpenDatMeetUp_vcoe-check.pdf
 
GEI digital - Aufbau einer fachlichen Digitalisierungsplattform für externe D...
GEI digital - Aufbau einer fachlichen Digitalisierungsplattform für externe D...GEI digital - Aufbau einer fachlichen Digitalisierungsplattform für externe D...
GEI digital - Aufbau einer fachlichen Digitalisierungsplattform für externe D...
 
Einheitliche Normdatendienste der VZG
Einheitliche Normdatendienste der VZGEinheitliche Normdatendienste der VZG
Einheitliche Normdatendienste der VZG
 
ENP_ONB_infoday_Schaller
ENP_ONB_infoday_SchallerENP_ONB_infoday_Schaller
ENP_ONB_infoday_Schaller
 
SLUB Geschäftsbericht 2014
SLUB Geschäftsbericht 2014SLUB Geschäftsbericht 2014
SLUB Geschäftsbericht 2014
 
Servicebaustein FabLab
Servicebaustein FabLabServicebaustein FabLab
Servicebaustein FabLab
 
Digital Archives of the State Regional Archives in Třeboň - building, functio...
Digital Archives of the State Regional Archives in Třeboň - building, functio...Digital Archives of the State Regional Archives in Třeboň - building, functio...
Digital Archives of the State Regional Archives in Třeboň - building, functio...
 
Slub Makerspace
Slub MakerspaceSlub Makerspace
Slub Makerspace
 
2. intranda viewer Tag: Integration von Fremddigitalisaten, Quellenkommentier...
2. intranda viewer Tag: Integration von Fremddigitalisaten, Quellenkommentier...2. intranda viewer Tag: Integration von Fremddigitalisaten, Quellenkommentier...
2. intranda viewer Tag: Integration von Fremddigitalisaten, Quellenkommentier...
 
10 Jahre Evolution: Digitalisierung an der UB Greifswald
10 Jahre Evolution: Digitalisierung an der UB Greifswald10 Jahre Evolution: Digitalisierung an der UB Greifswald
10 Jahre Evolution: Digitalisierung an der UB Greifswald
 
Digitalisieren mit Google
Digitalisieren mit GoogleDigitalisieren mit Google
Digitalisieren mit Google
 

Ähnlich wie Coding da Vinci Berlin 2017 - Europeana Newspapers

OCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen Edition
OCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen EditionOCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen Edition
OCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen Editioncneudecker
 
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen BibliothekenDigitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliothekencneudecker
 
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen BibliothekenDigitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen BibliothekenGeorg Rehm
 
Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...
Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...
Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...cneudecker
 
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...ETH-Bibliothek
 
Hacken Sie schon - oder archivieren Sie noch? Der Kultur-Hackathon "Coding da...
Hacken Sie schon - oder archivieren Sie noch? Der Kultur-Hackathon "Coding da...Hacken Sie schon - oder archivieren Sie noch? Der Kultur-Hackathon "Coding da...
Hacken Sie schon - oder archivieren Sie noch? Der Kultur-Hackathon "Coding da...Joachim Kemper
 
OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...
OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...
OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...cneudecker
 
Zeitungsdigitalisierung: Stand der Technik und Herausforderungen an Layout- u...
Zeitungsdigitalisierung: Stand der Technik und Herausforderungen an Layout- u...Zeitungsdigitalisierung: Stand der Technik und Herausforderungen an Layout- u...
Zeitungsdigitalisierung: Stand der Technik und Herausforderungen an Layout- u...cneudecker
 

Ähnlich wie Coding da Vinci Berlin 2017 - Europeana Newspapers (11)

OCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen Edition
OCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen EditionOCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen Edition
OCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen Edition
 
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen BibliothekenDigitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
 
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen BibliothekenDigitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
 
Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...
Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...
Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...
 
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...
 
Social Media Grundlagen
Social Media GrundlagenSocial Media Grundlagen
Social Media Grundlagen
 
Von Hagel 2004
Von Hagel 2004Von Hagel 2004
Von Hagel 2004
 
Von Hagel 2004
Von Hagel 2004Von Hagel 2004
Von Hagel 2004
 
Hacken Sie schon - oder archivieren Sie noch? Der Kultur-Hackathon "Coding da...
Hacken Sie schon - oder archivieren Sie noch? Der Kultur-Hackathon "Coding da...Hacken Sie schon - oder archivieren Sie noch? Der Kultur-Hackathon "Coding da...
Hacken Sie schon - oder archivieren Sie noch? Der Kultur-Hackathon "Coding da...
 
OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...
OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...
OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...
 
Zeitungsdigitalisierung: Stand der Technik und Herausforderungen an Layout- u...
Zeitungsdigitalisierung: Stand der Technik und Herausforderungen an Layout- u...Zeitungsdigitalisierung: Stand der Technik und Herausforderungen an Layout- u...
Zeitungsdigitalisierung: Stand der Technik und Herausforderungen an Layout- u...
 

Mehr von cneudecker

EuropeanaTech x AI: Qurator.ai @ Berlin State Library
EuropeanaTech x AI: Qurator.ai @ Berlin State LibraryEuropeanaTech x AI: Qurator.ai @ Berlin State Library
EuropeanaTech x AI: Qurator.ai @ Berlin State Librarycneudecker
 
ALTO, PAGE & Co. Formate für Volltexte
ALTO, PAGE & Co. Formate für VolltexteALTO, PAGE & Co. Formate für Volltexte
ALTO, PAGE & Co. Formate für Volltextecneudecker
 
OCR und Strukturerkennung für Zeitungen
OCR und Strukturerkennung für ZeitungenOCR und Strukturerkennung für Zeitungen
OCR und Strukturerkennung für Zeitungencneudecker
 
Digitisation and Digital Humanities - what is the role of Libraries?
Digitisation and Digital Humanities - what is the role of Libraries?Digitisation and Digital Humanities - what is the role of Libraries?
Digitisation and Digital Humanities - what is the role of Libraries?cneudecker
 
Multimodal Perspectives for Digitised Historical Newspapers
Multimodal Perspectives for Digitised Historical NewspapersMultimodal Perspectives for Digitised Historical Newspapers
Multimodal Perspectives for Digitised Historical Newspaperscneudecker
 
AI for digitized cultural heritage
AI for digitized cultural heritageAI for digitized cultural heritage
AI for digitized cultural heritagecneudecker
 
Kuratieren mit künstlicher Intelligenz
Kuratieren mit künstlicher IntelligenzKuratieren mit künstlicher Intelligenz
Kuratieren mit künstlicher Intelligenzcneudecker
 
Überblick zum DFG-Projekt OCR-D
Überblick zum DFG-Projekt OCR-DÜberblick zum DFG-Projekt OCR-D
Überblick zum DFG-Projekt OCR-Dcneudecker
 
The many uses of digitized newspapers
The many uses of digitized newspapersThe many uses of digitized newspapers
The many uses of digitized newspaperscneudecker
 
OCR-D: An end-to-end open source OCR framework for historical printed documents
OCR-D: An end-to-end open source OCR framework for historical printed documentsOCR-D: An end-to-end open source OCR framework for historical printed documents
OCR-D: An end-to-end open source OCR framework for historical printed documentscneudecker
 
Text and Data Mining
Text and Data MiningText and Data Mining
Text and Data Miningcneudecker
 
Formate für Volltexte
Formate für VolltexteFormate für Volltexte
Formate für Volltextecneudecker
 
Extrablatt: The Latest News on Newspaper Digitisation in Europe
Extrablatt: The Latest News on Newspaper Digitisation in EuropeExtrablatt: The Latest News on Newspaper Digitisation in Europe
Extrablatt: The Latest News on Newspaper Digitisation in Europecneudecker
 
Reise durch Europeana Collections in 11 Minuten
Reise durch Europeana Collections in 11 MinutenReise durch Europeana Collections in 11 Minuten
Reise durch Europeana Collections in 11 Minutencneudecker
 
Europeana Newspapers in a Nutshell
Europeana Newspapers in a NutshellEuropeana Newspapers in a Nutshell
Europeana Newspapers in a Nutshellcneudecker
 
lab.sbb.berlin
lab.sbb.berlinlab.sbb.berlin
lab.sbb.berlincneudecker
 
Named Entity Recognition for Europeana Newspapers
Named Entity Recognition for Europeana NewspapersNamed Entity Recognition for Europeana Newspapers
Named Entity Recognition for Europeana Newspaperscneudecker
 
What's up, Europeana Newspapers?
What's up, Europeana Newspapers?What's up, Europeana Newspapers?
What's up, Europeana Newspapers?cneudecker
 
Active archives @SBB
Active archives @SBBActive archives @SBB
Active archives @SBBcneudecker
 
Europeana Newspapers Aggregator Forum 2018 Berlin
Europeana Newspapers Aggregator Forum 2018 BerlinEuropeana Newspapers Aggregator Forum 2018 Berlin
Europeana Newspapers Aggregator Forum 2018 Berlincneudecker
 

Mehr von cneudecker (20)

EuropeanaTech x AI: Qurator.ai @ Berlin State Library
EuropeanaTech x AI: Qurator.ai @ Berlin State LibraryEuropeanaTech x AI: Qurator.ai @ Berlin State Library
EuropeanaTech x AI: Qurator.ai @ Berlin State Library
 
ALTO, PAGE & Co. Formate für Volltexte
ALTO, PAGE & Co. Formate für VolltexteALTO, PAGE & Co. Formate für Volltexte
ALTO, PAGE & Co. Formate für Volltexte
 
OCR und Strukturerkennung für Zeitungen
OCR und Strukturerkennung für ZeitungenOCR und Strukturerkennung für Zeitungen
OCR und Strukturerkennung für Zeitungen
 
Digitisation and Digital Humanities - what is the role of Libraries?
Digitisation and Digital Humanities - what is the role of Libraries?Digitisation and Digital Humanities - what is the role of Libraries?
Digitisation and Digital Humanities - what is the role of Libraries?
 
Multimodal Perspectives for Digitised Historical Newspapers
Multimodal Perspectives for Digitised Historical NewspapersMultimodal Perspectives for Digitised Historical Newspapers
Multimodal Perspectives for Digitised Historical Newspapers
 
AI for digitized cultural heritage
AI for digitized cultural heritageAI for digitized cultural heritage
AI for digitized cultural heritage
 
Kuratieren mit künstlicher Intelligenz
Kuratieren mit künstlicher IntelligenzKuratieren mit künstlicher Intelligenz
Kuratieren mit künstlicher Intelligenz
 
Überblick zum DFG-Projekt OCR-D
Überblick zum DFG-Projekt OCR-DÜberblick zum DFG-Projekt OCR-D
Überblick zum DFG-Projekt OCR-D
 
The many uses of digitized newspapers
The many uses of digitized newspapersThe many uses of digitized newspapers
The many uses of digitized newspapers
 
OCR-D: An end-to-end open source OCR framework for historical printed documents
OCR-D: An end-to-end open source OCR framework for historical printed documentsOCR-D: An end-to-end open source OCR framework for historical printed documents
OCR-D: An end-to-end open source OCR framework for historical printed documents
 
Text and Data Mining
Text and Data MiningText and Data Mining
Text and Data Mining
 
Formate für Volltexte
Formate für VolltexteFormate für Volltexte
Formate für Volltexte
 
Extrablatt: The Latest News on Newspaper Digitisation in Europe
Extrablatt: The Latest News on Newspaper Digitisation in EuropeExtrablatt: The Latest News on Newspaper Digitisation in Europe
Extrablatt: The Latest News on Newspaper Digitisation in Europe
 
Reise durch Europeana Collections in 11 Minuten
Reise durch Europeana Collections in 11 MinutenReise durch Europeana Collections in 11 Minuten
Reise durch Europeana Collections in 11 Minuten
 
Europeana Newspapers in a Nutshell
Europeana Newspapers in a NutshellEuropeana Newspapers in a Nutshell
Europeana Newspapers in a Nutshell
 
lab.sbb.berlin
lab.sbb.berlinlab.sbb.berlin
lab.sbb.berlin
 
Named Entity Recognition for Europeana Newspapers
Named Entity Recognition for Europeana NewspapersNamed Entity Recognition for Europeana Newspapers
Named Entity Recognition for Europeana Newspapers
 
What's up, Europeana Newspapers?
What's up, Europeana Newspapers?What's up, Europeana Newspapers?
What's up, Europeana Newspapers?
 
Active archives @SBB
Active archives @SBBActive archives @SBB
Active archives @SBB
 
Europeana Newspapers Aggregator Forum 2018 Berlin
Europeana Newspapers Aggregator Forum 2018 BerlinEuropeana Newspapers Aggregator Forum 2018 Berlin
Europeana Newspapers Aggregator Forum 2018 Berlin
 

Coding da Vinci Berlin 2017 - Europeana Newspapers