Coding da Vinci Berlin 2017 - Europeana Newspapers

•

2 gefällt mir•706 views

cneudecker

Europeana Newspapers @ Coding da Vinci Berlin 2017

Technologie

Digitalisierte historische Zeitungen
der Staatsbibliothek zu Berlin
Coding da Vinci Berlin 2017
Clemens Neudecker
@cneudecker

Wer?
• Staatsbibliothek zu Berlin –
Preußischer Kulturbesitz
• Europeana Newspapers
• DAHLIE
• ZEFYS Zeitungsinformationsystem

Was?
• 4 Historische Berliner Tageszeitungen
• Zeitraum 1872 – 1930
• Ca. 1,5 Mio. Seiten
• Images (Scans), Volltexte (OCR), Metadaten
• Lizenz: Public Domain, CC0

Wie?
• OCR = Erkennung von Text in Bilddateien (Scans)
67.3%
81.4%
64.0%
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
Gothic Normal Mixed
SuccessRate
Font
Bag of Words OCR Evaluation
Per Font

Wo?
• http://136.243.4.67/index.php/s/hp6TFyqvZ5ZuAlW
• http://www.theeuropeanlibrary.org/tel4/newspapers
/search?provider-id=P01606
• https://www.europeana.eu/portal/de/search?q=
europeana_collectionName%3A92*ewspapers*&
f[DATA_PROVIDER][]=Staatsbibliothek+zu+Berlin+-
+Preu%C3%9Fischer+Kulturbesitz

Wünsche
• OCR Verbesserung
• Anreicherung mit Metadaten
• Extraktion von Bildern
• Extraktion von Themen
• Extraktion von Strukturen
• Verknüpfung mit weiteren Daten
• …und Du?

Häh?
• Kontakt, Fragen
– clemens.neudecker@europeana-newspapers.eu
– @cneudecker
• Dokumentation, Hintergründe
– http://www.europeana-newspapers.eu/
public-materials/deliverables/
– http://europeananewspapers.github.io/

Weitere ähnliche Inhalte

Was ist angesagt?

Ins Gedächtnis der Stadt Wien - Neue Wege für Forschung und Vermittlung / Do ...ICARUS - International Centre for Archival Research

Rezensieren im Web_LandesDHI_Paris

Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...cneudecker

2022_46.OpenDataMeetUp.pdfStadt Wien

2022_46.OpenDataMeetUp_Publikationsserver_MA9.pdfStadt Wien

Aufbau eines zentralen Indexes im GBVTill Kinstler

2022_46.OpenDataMeetup_MA13.pdfStadt Wien

Archivum rhenanumAbteilung Kulturelles Erbe (Stadtarchiv, Museen, Gedenkstätten) Speyer

Google als Partner schätzen lernen: Austrian Books OnlineMax Kaiser

2022_46.OpenDatMeetUp_vcoe-check.pdfStadt Wien

GEI digital - Aufbau einer fachlichen Digitalisierungsplattform für externe D...goobi_org

Einheitliche Normdatendienste der VZGJakob .

ENP_ONB_infoday_SchallerEuropeana Newspapers

SLUB Geschäftsbericht 2014Dr. Achim Bonte

Servicebaustein FabLabDr. Achim Bonte

Digital Archives of the State Regional Archives in Třeboň - building, functio...ICARUS - International Centre for Archival Research

Slub MakerspaceDr. Achim Bonte

2. intranda viewer Tag: Integration von Fremddigitalisaten, Quellenkommentier...intranda GmbH

10 Jahre Evolution: Digitalisierung an der UB Greifswaldintranda GmbH

Digitalisieren mit GoogleMax Kaiser

Was ist angesagt? (20)

Ins Gedächtnis der Stadt Wien - Neue Wege für Forschung und Vermittlung / Do ...

Rezensieren im Web_Landes

Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...

2022_46.OpenDataMeetUp.pdf

2022_46.OpenDataMeetUp_Publikationsserver_MA9.pdf

Aufbau eines zentralen Indexes im GBV

2022_46.OpenDataMeetup_MA13.pdf

Archivum rhenanum

Google als Partner schätzen lernen: Austrian Books Online

2022_46.OpenDatMeetUp_vcoe-check.pdf

GEI digital - Aufbau einer fachlichen Digitalisierungsplattform für externe D...

Einheitliche Normdatendienste der VZG

ENP_ONB_infoday_Schaller

SLUB Geschäftsbericht 2014

Servicebaustein FabLab

Digital Archives of the State Regional Archives in Třeboň - building, functio...

Slub Makerspace

2. intranda viewer Tag: Integration von Fremddigitalisaten, Quellenkommentier...

10 Jahre Evolution: Digitalisierung an der UB Greifswald

Digitalisieren mit Google

Ähnlich wie Coding da Vinci Berlin 2017 - Europeana Newspapers

OCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen Editioncneudecker

Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliothekencneudecker

Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen BibliothekenGeorg Rehm

Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...cneudecker

Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...ETH-Bibliothek

Social Media GrundlagenSybille Greisinger

Von Hagel 2004Frank von Hagel

Hacken Sie schon - oder archivieren Sie noch? Der Kultur-Hackathon "Coding da...Joachim Kemper

OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...cneudecker

Zeitungsdigitalisierung: Stand der Technik und Herausforderungen an Layout- u...cneudecker

Ähnlich wie Coding da Vinci Berlin 2017 - Europeana Newspapers (11)

OCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen Edition

Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken

Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...

Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...

Social Media Grundlagen

Von Hagel 2004

Hacken Sie schon - oder archivieren Sie noch? Der Kultur-Hackathon "Coding da...

OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...

Zeitungsdigitalisierung: Stand der Technik und Herausforderungen an Layout- u...

Mehr von cneudecker

EuropeanaTech x AI: Qurator.ai @ Berlin State Librarycneudecker

ALTO, PAGE & Co. Formate für Volltextecneudecker

OCR und Strukturerkennung für Zeitungencneudecker

Digitisation and Digital Humanities - what is the role of Libraries?cneudecker

Multimodal Perspectives for Digitised Historical Newspaperscneudecker

AI for digitized cultural heritagecneudecker

Kuratieren mit künstlicher Intelligenzcneudecker

Überblick zum DFG-Projekt OCR-Dcneudecker

The many uses of digitized newspaperscneudecker

OCR-D: An end-to-end open source OCR framework for historical printed documentscneudecker

Text and Data Miningcneudecker

Formate für Volltextecneudecker

Extrablatt: The Latest News on Newspaper Digitisation in Europecneudecker

Reise durch Europeana Collections in 11 Minutencneudecker

Europeana Newspapers in a Nutshellcneudecker

lab.sbb.berlincneudecker

Named Entity Recognition for Europeana Newspaperscneudecker

What's up, Europeana Newspapers?cneudecker

Active archives @SBBcneudecker

Europeana Newspapers Aggregator Forum 2018 Berlincneudecker

Mehr von cneudecker (20)

EuropeanaTech x AI: Qurator.ai @ Berlin State Library

ALTO, PAGE & Co. Formate für Volltexte

OCR und Strukturerkennung für Zeitungen

Digitisation and Digital Humanities - what is the role of Libraries?

Multimodal Perspectives for Digitised Historical Newspapers

AI for digitized cultural heritage

Kuratieren mit künstlicher Intelligenz

Überblick zum DFG-Projekt OCR-D

The many uses of digitized newspapers

OCR-D: An end-to-end open source OCR framework for historical printed documents

Text and Data Mining

Formate für Volltexte

Extrablatt: The Latest News on Newspaper Digitisation in Europe

Reise durch Europeana Collections in 11 Minuten

Europeana Newspapers in a Nutshell

lab.sbb.berlin

Named Entity Recognition for Europeana Newspapers

What's up, Europeana Newspapers?

Active archives @SBB

Europeana Newspapers Aggregator Forum 2018 Berlin

Coding da Vinci Berlin 2017 - Europeana Newspapers

1. Digitalisierte historische Zeitungen der Staatsbibliothek zu Berlin Coding da Vinci Berlin 2017 Clemens Neudecker @cneudecker

2. Wer? • Staatsbibliothek zu Berlin – Preußischer Kulturbesitz • Europeana Newspapers • DAHLIE • ZEFYS Zeitungsinformationsystem

3. Was? • 4 Historische Berliner Tageszeitungen • Zeitraum 1872 – 1930 • Ca. 1,5 Mio. Seiten • Images (Scans), Volltexte (OCR), Metadaten • Lizenz: Public Domain, CC0

4. Wie? • OCR = Erkennung von Text in Bilddateien (Scans) 67.3% 81.4% 64.0% 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% Gothic Normal Mixed SuccessRate Font Bag of Words OCR Evaluation Per Font

5. Wo? • http://136.243.4.67/index.php/s/hp6TFyqvZ5ZuAlW • http://www.theeuropeanlibrary.org/tel4/newspapers /search?provider-id=P01606 • https://www.europeana.eu/portal/de/search?q= europeana_collectionName%3A92*ewspapers*& f[DATA_PROVIDER][]=Staatsbibliothek+zu+Berlin+- +Preu%C3%9Fischer+Kulturbesitz

6. Wünsche • OCR Verbesserung • Anreicherung mit Metadaten • Extraktion von Bildern • Extraktion von Themen • Extraktion von Strukturen • Verknüpfung mit weiteren Daten • …und Du?

7. Häh? • Kontakt, Fragen – clemens.neudecker@europeana-newspapers.eu – @cneudecker • Dokumentation, Hintergründe – http://www.europeana-newspapers.eu/ public-materials/deliverables/ – http://europeananewspapers.github.io/

8. Danke! Fragen?

Coding da Vinci Berlin 2017 - Europeana Newspapers

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Ähnlich wie Coding da Vinci Berlin 2017 - Europeana Newspapers

Ähnlich wie Coding da Vinci Berlin 2017 - Europeana Newspapers (11)

Mehr von cneudecker

Mehr von cneudecker (20)

Coding da Vinci Berlin 2017 - Europeana Newspapers