EuropeanaTech x AI: Qurator.ai @ Berlin State Librarycneudecker
The EuropeanaTech Community and Europeana Foundation are delighted to introduce a new webinar series to explore the opportunities and challenges of working with Artificial Intelligence in the cultural heritage and arts sector.
Digitisation and Digital Humanities - what is the role of Libraries?cneudecker
The document discusses the role of libraries in digitization and digital humanities. It provides an overview of the Berlin State Library's digitization efforts including its in-house digitization center that produces 1.7M images annually. It also describes the library's digital collections portal containing over 180,000 digitized documents. Additionally, it outlines several projects involving newspaper digitization, optical character recognition improvement, named entity recognition, and developing an experimental space for digital research.
Multimodal Perspectives for Digitised Historical Newspaperscneudecker
This document discusses challenges and opportunities in analyzing digitized historical newspapers. It describes several projects aimed at improving OCR accuracy using deep learning models, extracting structural information using computer vision and heuristics, and establishing standards for metadata and evaluation. Key challenges include the need for more granular and representative ground truth newspaper data, methods that combine machine learning and domain knowledge, and community efforts around shared tasks, seminars, and an atlas of digitized newspapers to advance interdisciplinary research. The overall goal is to make cultural heritage collections more accessible online through improved digitization and analysis of newspapers.
EuropeanaTech x AI: Qurator.ai @ Berlin State Librarycneudecker
The EuropeanaTech Community and Europeana Foundation are delighted to introduce a new webinar series to explore the opportunities and challenges of working with Artificial Intelligence in the cultural heritage and arts sector.
Digitisation and Digital Humanities - what is the role of Libraries?cneudecker
The document discusses the role of libraries in digitization and digital humanities. It provides an overview of the Berlin State Library's digitization efforts including its in-house digitization center that produces 1.7M images annually. It also describes the library's digital collections portal containing over 180,000 digitized documents. Additionally, it outlines several projects involving newspaper digitization, optical character recognition improvement, named entity recognition, and developing an experimental space for digital research.
Multimodal Perspectives for Digitised Historical Newspaperscneudecker
This document discusses challenges and opportunities in analyzing digitized historical newspapers. It describes several projects aimed at improving OCR accuracy using deep learning models, extracting structural information using computer vision and heuristics, and establishing standards for metadata and evaluation. Key challenges include the need for more granular and representative ground truth newspaper data, methods that combine machine learning and domain knowledge, and community efforts around shared tasks, seminars, and an atlas of digitized newspapers to advance interdisciplinary research. The overall goal is to make cultural heritage collections more accessible online through improved digitization and analysis of newspapers.
OCR-D: An end-to-end open source OCR framework for historical printed documentscneudecker
OCR-D is an open source framework for optical character recognition (OCR) of historical printed documents. It consists of a coordination project and 8 module projects that develop technical solutions for challenges in OCR of historical prints. The goals are to standardize metadata, annotations, and formats to enable large-scale OCR of historical texts. OCR-D provides specifications, reference implementations, ground truth data, and scientific workflows to support development and evaluation of OCR tools and methods for historical documents.
Extrablatt: The Latest News on Newspaper Digitisation in Europecneudecker
This document summarizes recent developments in newspaper digitization projects across Europe. It discusses Germany's efforts to establish a national newspaper portal and increase availability of digitized newspapers through a DFG funding call. It also briefly outlines newspaper digitization work in other countries like the UK, Sweden, Denmark, and Switzerland. Finally, it provides an overview of the Europeana Newspapers project and efforts to find a new home for its 10TB of digitized newspaper data, as well as growing interest from digital humanities researchers in utilizing digitized historical newspapers.
The Europeana Newspapers project digitized over 1,000 newspaper titles containing 3.3 million issues from 12 European libraries in 40 languages from 1618-2016. The newspapers were run through optical character recognition to make 12 million pages searchable by keyword. Metadata and scans were made public domain and searchable through the TEL Historic Newspaper Browser, which allows browsing by newspaper, date, and other facets. Researchers have used the collection for various studies and it will relaunch in 2018 with improved search and an interface directly on Europeana, supporting further annotation and transcription of the newspapers.
Clemens Neudecker presented on active archives and engaging interfaces at the Staatsbibliothek zu Berlin. The Staatsbibliothek is Germany's largest research library with over 12 million volumes and 23 million objects. It has digitized over 2 million pages annually since 2007. The library provides open access to digital collections through various portals and APIs, including OAI-PMH and IIIF, with the goal of encouraging reuse of digitized materials. It also aims to establish an innovation lab for projects involving digitization, presentation, and reuse of cultural works.
Europeana Newspapers Aggregator Forum 2018 Berlincneudecker
This document summarizes Clemens Neudecker's presentation on newspapers and Europeana at the Europeana Aggregator Forum in Spring 2018. It discusses the history of Europeana Newspapers from 2012-2018, current research projects using the collection, and creative reuse works like Berliner Schlagzeilen and Altpapier App. Future plans include drafting an aggregation strategy, harmonizing standards, and fostering cooperation with researchers to develop a roadmap for newspaper digitization in Europe.
This document summarizes Europeana Newspapers, an EU project from 2012-2015 to digitize historical newspapers. It discusses:
1) The project digitized over 1,000 newspaper titles from 1618-2016 containing 3.3 million issues from 12 countries and 40 languages totaling 120 TB of data.
2) The data was processed using OCR and OLR to extract text and metadata, and is available through various portals and downloads under open licenses.
3) The document outlines the tools used for preprocessing, OCR, OLR, and named entity recognition developed through the project.
4) Future plans are discussed to migrate the data to new Europeana collections, improve search/brows
The Europeana Transcribathon Campus 2017 aims to bring people together, who are passionate about transcription, data enrichment and linking of various historical sources, institutional as well user generated content for learning, knowledge sharing and entertainment.
OCR-D: An end-to-end open source OCR framework for historical printed documentscneudecker
OCR-D is an open source framework for optical character recognition (OCR) of historical printed documents. It consists of a coordination project and 8 module projects that develop technical solutions for challenges in OCR of historical prints. The goals are to standardize metadata, annotations, and formats to enable large-scale OCR of historical texts. OCR-D provides specifications, reference implementations, ground truth data, and scientific workflows to support development and evaluation of OCR tools and methods for historical documents.
Extrablatt: The Latest News on Newspaper Digitisation in Europecneudecker
This document summarizes recent developments in newspaper digitization projects across Europe. It discusses Germany's efforts to establish a national newspaper portal and increase availability of digitized newspapers through a DFG funding call. It also briefly outlines newspaper digitization work in other countries like the UK, Sweden, Denmark, and Switzerland. Finally, it provides an overview of the Europeana Newspapers project and efforts to find a new home for its 10TB of digitized newspaper data, as well as growing interest from digital humanities researchers in utilizing digitized historical newspapers.
The Europeana Newspapers project digitized over 1,000 newspaper titles containing 3.3 million issues from 12 European libraries in 40 languages from 1618-2016. The newspapers were run through optical character recognition to make 12 million pages searchable by keyword. Metadata and scans were made public domain and searchable through the TEL Historic Newspaper Browser, which allows browsing by newspaper, date, and other facets. Researchers have used the collection for various studies and it will relaunch in 2018 with improved search and an interface directly on Europeana, supporting further annotation and transcription of the newspapers.
Clemens Neudecker presented on active archives and engaging interfaces at the Staatsbibliothek zu Berlin. The Staatsbibliothek is Germany's largest research library with over 12 million volumes and 23 million objects. It has digitized over 2 million pages annually since 2007. The library provides open access to digital collections through various portals and APIs, including OAI-PMH and IIIF, with the goal of encouraging reuse of digitized materials. It also aims to establish an innovation lab for projects involving digitization, presentation, and reuse of cultural works.
Europeana Newspapers Aggregator Forum 2018 Berlincneudecker
This document summarizes Clemens Neudecker's presentation on newspapers and Europeana at the Europeana Aggregator Forum in Spring 2018. It discusses the history of Europeana Newspapers from 2012-2018, current research projects using the collection, and creative reuse works like Berliner Schlagzeilen and Altpapier App. Future plans include drafting an aggregation strategy, harmonizing standards, and fostering cooperation with researchers to develop a roadmap for newspaper digitization in Europe.
This document summarizes Europeana Newspapers, an EU project from 2012-2015 to digitize historical newspapers. It discusses:
1) The project digitized over 1,000 newspaper titles from 1618-2016 containing 3.3 million issues from 12 countries and 40 languages totaling 120 TB of data.
2) The data was processed using OCR and OLR to extract text and metadata, and is available through various portals and downloads under open licenses.
3) The document outlines the tools used for preprocessing, OCR, OLR, and named entity recognition developed through the project.
4) Future plans are discussed to migrate the data to new Europeana collections, improve search/brows
The Europeana Transcribathon Campus 2017 aims to bring people together, who are passionate about transcription, data enrichment and linking of various historical sources, institutional as well user generated content for learning, knowledge sharing and entertainment.
1. Digitale Kuratierung in Bibliotheken
Aktivitäten und Anforderungen am
Beispiel der Staatsbibliothek zu Berlin
Clemens Neudecker
Staatsbibliothek zu Berlin
@cneudecker
2. Staatsbibliothek zu Berlin
• Gegründet 1661, Pflichtexemplarrecht 1699
• Größte deutsche Forschungsbibliothek mit
ca. 11,5 Mio. Titel, 23 Mio. Objekten
• Bund-Länder finanziert innerhalb der
Stiftung Preußischer Kulturbesitz
• Zwei Standorte in Berlin:
Unter den Linden & Potsdamer Straße
• http://staatsbibliothek-berlin.de/
3. Digitalisierung
• 2007: Aufbau des Digitalisierungszentrum
• 2013: 2-Schicht-System mit 24 Schichten
• 2016: 20 Geräte (A2-A0, Scanroboter,
Thermografiekamera, Grazer Buchtisch, etc.)
• Gesamtproduktion 13 Mio. Images, aktueller
Zuwachs ca. 1,7 Mio. Images pro Jahr
• Digitisation-on-Demand Service:
http://staatsbibliothek-berlin.de/service/
digitalisate-und-reproduktionen/
4. Daten, Daten, Daten
• Kalliope Katalog: 3,2 Mio. Datensätze
• Zeitschriftendatenbank: 1,7 Mio. Titeldaten
• ZEFYS: Ca. 3,3 Mio. Seiten Zeitungen
• Digitalisierte Sammlungen: 7 Mio. Seiten,
pro Jahr um ca. 2,5 Mio. Seiten wachsend
• Gemeinsame Normdatei: 11,3 Mio. Daten
• Deutsche Digitale Bibliothek: 20 Mio. Objekte
• Europeana: 53 Mio. Objekte
7. Test: FREME Workflow Editor
Selbst Gladstone ließ sich ans die
zissermäßige Beweisführung der beiden
Streittheile nicht ein, halte er doch
selbst die beiden irischen Landakte vor
wenigen Jahren im Parlamente durchgesetzt;
allein er stützte seine ganze Rede zu
Gunsten des Planes Parnells darauf, daß
die jetzige Negierung eine Kommission zur
Untersuchung der Lage der irischen Pächter
eingesetzt habe. Dieser Schritt beweise
die Nothwendigkeit von Hilssmaßregeln, und
da seien die von Parnell vorgeschlagenen
ganz zweckdienliche. Es ist kaum große
Aussicht vorhanden, daß das Unterhaus sich
dieser Art von Beweisführung anschließen
wird, und dadurch erledigt sich auch die
Antwort auf die oben gestellte zweite
Frage von selbst. Das Kabinett ist in
keiner Gefahr, gestürzt zu werden, denn
nach allen menschlichen Vorherbcrechnnngen
wird dasselbe eine bedeutende Majorität
heute Nacht erhalten. In Irland werden im
nächsten Winter die Agrar-Greuel sich
furchtbar vermehren, das sagt Parnell mit
allem Gleichmuthe vorher.
Selbst Gladstone ließ sich ans die
zissermäßige Beweisführung der beiden
Streittheile nicht ein, halte er doch
selbst die beiden irischen Landakte vor
wenigen Jahren im Parlamente durchgesetzt;
allein er stützte seine ganze Rede zu
Gunsten des Planes Parnells darauf, daß
die jetzige Negierung eine Kommission zur
Untersuchung der Lage der irischen Pächter
eingesetzt habe. Dieser Schritt beweise
die Nothwendigkeit von Hilssmaßregeln, und
da seien die von Parnell vorgeschlagenen
ganz zweckdienliche. Es ist kaum große
Aussicht vorhanden, daß das Unterhaus sich
dieser Art von Beweisführung anschließen
wird, und dadurch erledigt sich auch die
Antwort auf die oben gestellte zweite
Frage von selbst. Das Kabinett ist in
keiner Gefahr, gestürzt zu werden, denn
nach allen menschlichen Vorherbcrechnnngen
wird dasselbe eine bedeutende Majorität
heute Nacht erhalten. In Irland werden im
nächsten Winter die Agrar-Greuel sich
furchtbar vermehren, das sagt Parnell mit
allem Gleichmuthe vorher.
8. Test: SBB Toolchain
Selbst Gladstone ließ sich ans die
zissermäßige Beweisführung der beiden
Streittheile nicht ein, halte er doch
selbst die beiden irischen Landakte vor
wenigen Jahren im Parlamente durchgesetzt;
allein er stützte seine ganze Rede zu
Gunsten des Planes Parnells darauf, daß
die jetzige Negierung eine Kommission zur
Untersuchung der Lage der irischen Pächter
eingesetzt habe. Dieser Schritt beweise
die Nothwendigkeit von Hilssmaßregeln, und
da seien die von Parnell vorgeschlagenen
ganz zweckdienliche. Es ist kaum große
Aussicht vorhanden, daß das Unterhaus sich
dieser Art von Beweisführung anschließen
wird, und dadurch erledigt sich auch die
Antwort auf die oben gestellte zweite
Frage von selbst. Das Kabinett ist in
keiner Gefahr, gestürzt zu werden, denn
nach allen menschlichen Vorherbcrechnnngen
wird dasselbe eine bedeutende Majorität
heute Nacht erhalten. In Irland werden im
nächsten Winter die Agrar-Greuel sich
furchtbar vermehren, das sagt Parnell mit
allem Gleichmuthe vorher.
Selbst Gladstone ließ sich ans die
zissermäßige Beweisführung der beiden
Streittheile nicht ein, halte er doch
selbst die beiden irischen Landakte vor
wenigen Jahren im Parlamente durchgesetzt;
allein er stützte seine ganze Rede zu
Gunsten des Planes Parnells darauf, daß
die jetzige Negierung eine Kommission zur
Untersuchung der Lage der irischen Pächter
eingesetzt habe. Dieser Schritt beweise
die Nothwendigkeit von Hilssmaßregeln, und
da seien die von Parnell vorgeschlagenen
ganz zweckdienliche. Es ist kaum große
Aussicht vorhanden, daß das Unterhaus sich
dieser Art von Beweisführung anschließen
wird, und dadurch erledigt sich auch die
Antwort auf die oben gestellte zweite
Frage von selbst. Das Kabinett ist in
keiner Gefahr, gestürzt zu werden, denn
nach allen menschlichen Vorherbcrechnnngen
wird dasselbe eine bedeutende Majorität
heute Nacht erhalten. In Irland werden im
nächsten Winter die Agrar-Greuel sich
furchtbar vermehren, das sagt Parnell mit
allem Gleichmuthe vorher.
9. Test: Ground Truth
Selbst Gladstone ließ sich ans die
zissermäßige Beweisführung der beiden
Streittheile nicht ein, halte er doch
selbst die beiden irischen Landakte vor
wenigen Jahren im Parlamente durchgesetzt;
allein er stützte seine ganze Rede zu
Gunsten des Planes Parnells darauf, daß
die jetzige Negierung eine Kommission zur
Untersuchung der Lage der irischen Pächter
eingesetzt habe. Dieser Schritt beweise
die Nothwendigkeit von Hilssmaßregeln, und
da seien die von Parnell vorgeschlagenen
ganz zweckdienliche. Es ist kaum große
Aussicht vorhanden, daß das Unterhaus sich
dieser Art von Beweisführung anschließen
wird, und dadurch erledigt sich auch die
Antwort auf die oben gestellte zweite
Frage von selbst. Das Kabinett ist in
keiner Gefahr, gestürzt zu werden, denn
nach allen menschlichen Vorherbcrechnnngen
wird dasselbe eine bedeutende Majorität
heute Nacht erhalten. In Irland werden im
nächsten Winter die Agrar-Greuel sich
furchtbar vermehren, das sagt Parnell mit
allem Gleichmuthe vorher.
Selbst Gladstone ließ sich auf die
ziffermäßige Beweisführung der beiden
Streittheile nicht ein, halte er doch
selbst die beiden irischen Landakte vor
wenigen Jahren im Parlamente durchgesetzt;
allein er stützte seine ganze Rede zu
Gunsten des Planes Parnells darauf, daß
die jetzige Regierung eine Kommission zur
Untersuchung der Lage der irischen Pächter
eingesetzt habe. Dieser Schritt beweise
die Nothwendigkeit von Hilfsmaßregeln, und
da seien die von Parnell vorgeschlagenen
ganz zweckdienliche. Es ist kaum große
Aussicht vorhanden, daß das Unterhaus sich
dieser Art von Beweisführung anschließen
wird, und dadurch erledigt sich auch die
Antwort auf die oben gestellte zweite
Frage von selbst. Das Kabinett ist in
keiner Gefahr, gestürzt zu werden, denn
nach allen menschlichen Vorherberechnungen
wird dasselbe eine bedeutende Majorität
heute Nacht erhalten. In Irland werden im
nächsten Winter die Agrar-Greuel sich
furchtbar vermehren, das sagt Parnell mit
allem Gleichmuthe vorher.
10. Herausforderungen
• Enormes Volumen
• Heterogene Dokumenttypen
• Qualität der OCR
• Historische Schreibvarianten
• Metadaten ohne Kontext
• Steigende Anforderungen an Qualität und
Datenbereitstellung bei stetig zunehmendem
Umfang der Digitalisierung
11. Potentiale
• Überwiegend freie Nachnutzung möglich
(CC-BY, Public Domain Mark)
• Große Menge und Vielfalt an Digitalisaten
• Zunehmend Bereitstellung über generische
Schnittstellen (API)
• Vernetzung mit Normdaten (inter-)national
• Hohe Qualität der Digitalisierung wird 1:1
an Nutzer weitergegeben
• Nachhaltiges Datenmanagement
12. Anwendungen
Interaktive Zeitleiste zu historischen Erdbeben auf der Basis von digitalisiertem
Kulturerbe im DARIAH Geobrowser, http://geobrowser.de.dariah.eu/
13. Anwendungen
Soziales Netzwerk (Personen, Organisationen) des Mediziners Robert Koch,
dynamisch visualisiert im Kalliope Verbundkatalog, http://kalliope-verbund.info
14. Anwendungen
Europeana, iTunes U Course World War I: A battle of perspectives
http://pro.europeana.eu/blogpost/
europeana-launches-multi-touch-book-and-itunes-u-course-on-the-first-world-war
15. Hollywood
Mr Robot, TV still Photograph:
PR company handout
digital.staatsbibliothek-berlin.de/
werkansicht?PPN=PPN767804341
16. Vielen Dank für ihre
Aufmerksamkeit!
Fragen?
Clemens Neudecker
Staatsbibliothek zu Berlin
@cneudecker