SlideShare ist ein Scribd-Unternehmen logo
Die SBB in Europa:
Europeana 1914-1918,
Europeana Newspapers
& mehr
Clemens Neudecker
Staatsbibliothek zu Berlin
Berliner DH-Rundgang
16. April 2016
@cneudecker
Europeana
• Die europäische Plattform für das digitalisierte
kulturelle Erbe aus Bibliotheken, Museen, Archiven
• Aktuell über 52 Mio. digitale Objekte
• 2016: Relaunch als „Europeana Collections“
mit thematischen Schwerpunkten
• www.europeana.eu/portal/
Europeana Collections 1914-1918
• Förderlinie CIP-ICT-PSP (€5.4 Mio. , €2.7 Mio. EU)
• Laufzeit: Mai 2011 – April 2014
• 12 Projektpartner
• 4 Arbeitspakete
• Koordiniert durch Staatsbibliothek zu Berlin
• www.europeana-collections-1914-1918.eu
Europeana Collections 1914-1918
• Hauptziele
– Digitalisierung von 400.000 Objekten zu WW1
unter Gesichtspunkten wie:
• Hohe Qualität der Digitalisierung
• Auswahl der Objekte in Kooperation mit Experten
und Vertretern relevanter Zielgruppen
• Abdeckung einer großen Vielfalt von Materialien
• Seltene und fragile Bestände
• Zusätzliche Erschließung (z.B. Themengruppen)
Europeana Collections 1914-1918
• Ergebnisse
– 425.000 digitalisierte Objekte, darunter:
• mehr als 10.000 Bücher
• etwa 1.700 Liedertexte und Notenbücher
• etwa 100.000 Zeitschriften und Zeitungen
• 150.000 handschriftliche Objekte (Tagebücher, Briefe)
• 180.00 Plakate, Fotos und Postkarten
– Mehrsprachiges, thematisch geordnetes Portal
– Virtuelle und physische Ausstellungen
– „Unlocking Sources“ Konferenz
Berliner DH Rundgang
Gemeinsames Themenportal:
www.europeana1914-1918.eu
Berliner DH Rundgang
Deutsch
Englisch
Italienisch
Französisch
Niederländisch
Dänisch
Serbisch
Europeana Newspapers
• Förderlinie CIP-ICT-PSP (€5.2 Mio. , €4.1 Mio. EU)
• Laufzeit: Februar 2012 – März 2015
• 18 Projektpartner + 11 assoziierte Partner
• 6 Arbeitspakete
• Koordiniert durch Staatsbibliothek zu Berlin
• www.europeana-newspapers.eu
Europeana Newspapers
• Hauptziele
– Aggregation und Transformation zu EDM von
Metadaten digitalisierter Zeitungen in Europa
– OCR/OLR für 10 Mio. Zeitungsseiten
– Entwicklung eines Webportals für Volltextsuche
– Design eines Meta- und Strukturdatenmodell
– Methoden und Werkzeuge für die Evaluation
– Workshops und Best-Practice Empfehlungen
Europeana Newspapers
• Ergebnisse
– Größter Dateningest seit Bestehen der Europeana:
3.6 Mio. Records, >10 TB Daten
– 10 Mio. Seiten OCR + 2 Mio. Seiten OLR
– Content-browser basierend auf JP2, IIP, IIIF
– ENMAP (METS/ALTO) Datenmodell
– Open Source Software Werkzeuge
– 3 Datensets zur freien Nachnutzung:
Ground truth, Named entities, Text mining
Berliner DH Rundgang
Berliner DH Rundgang
82.4%
85.3%
80.9%
75.9%
67.5%
83.4% 84.1%
68.1%
93.1%
57.6%
87.0%
68.3%
76.1%
82.6%
54.1%
32.7%
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
SuccessRate
Language Setting
Bag of Words OCR Evaluation
Per Language
67.3%
81.4%
64.0%
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
Gothic Normal Mixed
SuccessRate
Font
Bag of Words OCR Evaluation
Per Font
79.1%
62.2%
55.9%
58.8%
94.7%
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
Keyword
search
Phrase search Access via
content
structure
Print/ebook
on demand
Content
based image
retrieval
SuccessRate(harmonic,areabased)
Evaluation Profile
Layout Analysis Performance
Per evaluationprofile
74.35%
75.31%
70%
71%
72%
73%
74%
75%
76%
77%
NCSR Binarisation Original Image
SuccessRate
Image Source
Bag of Words OCR Evaluation
Binarised image vs. original image
75.3%
53.78%
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
SuccessRate(countbased)
OCR Engine
Bag of Words OCR Evaluation
FineReader vs. Tesseract
FineReader Tesseract
http://www.theeuropeanlibrary.org/tel4/newspapers
http://europeananewspapers.github.io
Europeana DSI
• Seit 2015: Finanzierung der Europeana durch
die EU-Kommission als „Digital Service
Infrastructure“ im Rahmen des CEF Programm
• SBB ist Projektpartner in Europeana DSI-2 und
dort zuständig für die Weiterentwicklung und
den Launch einer „Europeana Newspapers
Collection“ (voraussichtlich Q1/2017)
SBB Daten in Europeana: Nutzung
• Brandneu seit 6. April 2016!
• Aktuell:
– 142,612 digitale Objekte der SBB in Europeana
– 99,2% „available for re-use“ (CC-BY-SA, CC-0)
• Europeana Statistics Dashboard SBB-PK
Danke für Ihre Aufmerksamkeit!
Noch Fragen?
Clemens Neudecker
Staatsbibliothek zu Berlin
Berliner DH-Rundgang
16. April 2016
@cneudecker

Weitere ähnliche Inhalte

Was ist angesagt?

Wien Geschichte Wiki (Christian Michlits)
Wien Geschichte Wiki (Christian Michlits)Wien Geschichte Wiki (Christian Michlits)
Wien Geschichte Wiki (Christian Michlits)
Stadt Wien
 
Christian Lüthi (UB Bern) - Historische Forschung und digitale Erschliessung ...
Christian Lüthi (UB Bern) - Historische Forschung und digitale Erschliessung ...Christian Lüthi (UB Bern) - Historische Forschung und digitale Erschliessung ...
Christian Lüthi (UB Bern) - Historische Forschung und digitale Erschliessung ...
infoclio.ch
 
2022_46.OpenDataMeetUp_Parkraumbewirtschaftung_MA46.pdf
2022_46.OpenDataMeetUp_Parkraumbewirtschaftung_MA46.pdf2022_46.OpenDataMeetUp_Parkraumbewirtschaftung_MA46.pdf
2022_46.OpenDataMeetUp_Parkraumbewirtschaftung_MA46.pdf
Stadt Wien
 
Aufbau eines zentralen Indexes im GBV
Aufbau eines zentralen Indexes im GBVAufbau eines zentralen Indexes im GBV
Aufbau eines zentralen Indexes im GBV
Till Kinstler
 
Digitale Bibliothek Mecklenburg-Vorpommern - Stand und Perspektiven
Digitale Bibliothek Mecklenburg-Vorpommern - Stand und PerspektivenDigitale Bibliothek Mecklenburg-Vorpommern - Stand und Perspektiven
Digitale Bibliothek Mecklenburg-Vorpommern - Stand und Perspektiven
intranda GmbH
 
(1) Von der Hofbibliothek zum digitalen Medienzentrum
(1) Von der Hofbibliothek zum digitalen Medienzentrum(1) Von der Hofbibliothek zum digitalen Medienzentrum
(1) Von der Hofbibliothek zum digitalen Medienzentrum
Web@rchive Austria
 
Bedeutung der Webarchivierung am Beispiel von Web@rchiv Österreich
Bedeutung der Webarchivierung am Beispiel von Web@rchiv ÖsterreichBedeutung der Webarchivierung am Beispiel von Web@rchiv Österreich
Bedeutung der Webarchivierung am Beispiel von Web@rchiv Österreich
Web@rchive Austria
 
ENP_ONB_infoday_Schaller
ENP_ONB_infoday_SchallerENP_ONB_infoday_Schaller
ENP_ONB_infoday_Schaller
Europeana Newspapers
 
Musikgeschichtliche Quellen digital. Die Zusammenarbeit zwischen Wissenschaft...
Musikgeschichtliche Quellen digital. Die Zusammenarbeit zwischen Wissenschaft...Musikgeschichtliche Quellen digital. Die Zusammenarbeit zwischen Wissenschaft...
Musikgeschichtliche Quellen digital. Die Zusammenarbeit zwischen Wissenschaft...
Dr. Achim Bonte
 
Sachsen.digital. Digitalisierungsstrategie und -ergebnisse der Bibliotheken i...
Sachsen.digital. Digitalisierungsstrategie und -ergebnisse der Bibliotheken i...Sachsen.digital. Digitalisierungsstrategie und -ergebnisse der Bibliotheken i...
Sachsen.digital. Digitalisierungsstrategie und -ergebnisse der Bibliotheken i...
Dr. Achim Bonte
 
Von Istex, BSN und Co.: auf dem Weg zu einer nationalen wissenschaftliche dig...
Von Istex, BSN und Co.: auf dem Weg zu einer nationalen wissenschaftliche dig...Von Istex, BSN und Co.: auf dem Weg zu einer nationalen wissenschaftliche dig...
Von Istex, BSN und Co.: auf dem Weg zu einer nationalen wissenschaftliche dig...
Frederic Blin
 
(2) Von der Hofbibliothek zum digitalen Medienzentrum
(2) Von der Hofbibliothek zum digitalen Medienzentrum(2) Von der Hofbibliothek zum digitalen Medienzentrum
(2) Von der Hofbibliothek zum digitalen Medienzentrum
Web@rchive Austria
 
Die SLUB 2009. Leistungsstand und Perspektiven
Die SLUB 2009. Leistungsstand und PerspektivenDie SLUB 2009. Leistungsstand und Perspektiven
Die SLUB 2009. Leistungsstand und Perspektiven
Dr. Achim Bonte
 
2. intranda viewer Tag: Integration von Fremddigitalisaten, Quellenkommentier...
2. intranda viewer Tag: Integration von Fremddigitalisaten, Quellenkommentier...2. intranda viewer Tag: Integration von Fremddigitalisaten, Quellenkommentier...
2. intranda viewer Tag: Integration von Fremddigitalisaten, Quellenkommentier...
intranda GmbH
 
Es gibt noch viele Chancen. Das Beispiel SLUB
Es gibt noch viele Chancen. Das Beispiel SLUBEs gibt noch viele Chancen. Das Beispiel SLUB
Es gibt noch viele Chancen. Das Beispiel SLUB
Dr. Achim Bonte
 
10 Jahre Evolution: Digitalisierung an der UB Greifswald
10 Jahre Evolution: Digitalisierung an der UB Greifswald10 Jahre Evolution: Digitalisierung an der UB Greifswald
10 Jahre Evolution: Digitalisierung an der UB Greifswald
intranda GmbH
 
Einheitliche Normdatendienste der VZG
Einheitliche Normdatendienste der VZGEinheitliche Normdatendienste der VZG
Einheitliche Normdatendienste der VZG
Jakob .
 
Die Schulbibliothek als Lernort 2.0
Die Schulbibliothek als Lernort 2.0Die Schulbibliothek als Lernort 2.0
Die Schulbibliothek als Lernort 2.0
Guenter K. Schlamp
 
Metadatenmanagement: die ETH-Bibliothek beschreitet neue Wege
Metadatenmanagement: die ETH-Bibliothek beschreitet neue WegeMetadatenmanagement: die ETH-Bibliothek beschreitet neue Wege
Metadatenmanagement: die ETH-Bibliothek beschreitet neue Wege
ETH-Bibliothek
 

Was ist angesagt? (20)

Wien Geschichte Wiki (Christian Michlits)
Wien Geschichte Wiki (Christian Michlits)Wien Geschichte Wiki (Christian Michlits)
Wien Geschichte Wiki (Christian Michlits)
 
Christian Lüthi (UB Bern) - Historische Forschung und digitale Erschliessung ...
Christian Lüthi (UB Bern) - Historische Forschung und digitale Erschliessung ...Christian Lüthi (UB Bern) - Historische Forschung und digitale Erschliessung ...
Christian Lüthi (UB Bern) - Historische Forschung und digitale Erschliessung ...
 
2022_46.OpenDataMeetUp_Parkraumbewirtschaftung_MA46.pdf
2022_46.OpenDataMeetUp_Parkraumbewirtschaftung_MA46.pdf2022_46.OpenDataMeetUp_Parkraumbewirtschaftung_MA46.pdf
2022_46.OpenDataMeetUp_Parkraumbewirtschaftung_MA46.pdf
 
Aufbau eines zentralen Indexes im GBV
Aufbau eines zentralen Indexes im GBVAufbau eines zentralen Indexes im GBV
Aufbau eines zentralen Indexes im GBV
 
Digitale Bibliothek Mecklenburg-Vorpommern - Stand und Perspektiven
Digitale Bibliothek Mecklenburg-Vorpommern - Stand und PerspektivenDigitale Bibliothek Mecklenburg-Vorpommern - Stand und Perspektiven
Digitale Bibliothek Mecklenburg-Vorpommern - Stand und Perspektiven
 
(1) Von der Hofbibliothek zum digitalen Medienzentrum
(1) Von der Hofbibliothek zum digitalen Medienzentrum(1) Von der Hofbibliothek zum digitalen Medienzentrum
(1) Von der Hofbibliothek zum digitalen Medienzentrum
 
Bedeutung der Webarchivierung am Beispiel von Web@rchiv Österreich
Bedeutung der Webarchivierung am Beispiel von Web@rchiv ÖsterreichBedeutung der Webarchivierung am Beispiel von Web@rchiv Österreich
Bedeutung der Webarchivierung am Beispiel von Web@rchiv Österreich
 
EconStor - ein vernetztes Fach-Repositorium
EconStor - ein vernetztes Fach-RepositoriumEconStor - ein vernetztes Fach-Repositorium
EconStor - ein vernetztes Fach-Repositorium
 
ENP_ONB_infoday_Schaller
ENP_ONB_infoday_SchallerENP_ONB_infoday_Schaller
ENP_ONB_infoday_Schaller
 
Musikgeschichtliche Quellen digital. Die Zusammenarbeit zwischen Wissenschaft...
Musikgeschichtliche Quellen digital. Die Zusammenarbeit zwischen Wissenschaft...Musikgeschichtliche Quellen digital. Die Zusammenarbeit zwischen Wissenschaft...
Musikgeschichtliche Quellen digital. Die Zusammenarbeit zwischen Wissenschaft...
 
Sachsen.digital. Digitalisierungsstrategie und -ergebnisse der Bibliotheken i...
Sachsen.digital. Digitalisierungsstrategie und -ergebnisse der Bibliotheken i...Sachsen.digital. Digitalisierungsstrategie und -ergebnisse der Bibliotheken i...
Sachsen.digital. Digitalisierungsstrategie und -ergebnisse der Bibliotheken i...
 
Von Istex, BSN und Co.: auf dem Weg zu einer nationalen wissenschaftliche dig...
Von Istex, BSN und Co.: auf dem Weg zu einer nationalen wissenschaftliche dig...Von Istex, BSN und Co.: auf dem Weg zu einer nationalen wissenschaftliche dig...
Von Istex, BSN und Co.: auf dem Weg zu einer nationalen wissenschaftliche dig...
 
(2) Von der Hofbibliothek zum digitalen Medienzentrum
(2) Von der Hofbibliothek zum digitalen Medienzentrum(2) Von der Hofbibliothek zum digitalen Medienzentrum
(2) Von der Hofbibliothek zum digitalen Medienzentrum
 
Die SLUB 2009. Leistungsstand und Perspektiven
Die SLUB 2009. Leistungsstand und PerspektivenDie SLUB 2009. Leistungsstand und Perspektiven
Die SLUB 2009. Leistungsstand und Perspektiven
 
2. intranda viewer Tag: Integration von Fremddigitalisaten, Quellenkommentier...
2. intranda viewer Tag: Integration von Fremddigitalisaten, Quellenkommentier...2. intranda viewer Tag: Integration von Fremddigitalisaten, Quellenkommentier...
2. intranda viewer Tag: Integration von Fremddigitalisaten, Quellenkommentier...
 
Es gibt noch viele Chancen. Das Beispiel SLUB
Es gibt noch viele Chancen. Das Beispiel SLUBEs gibt noch viele Chancen. Das Beispiel SLUB
Es gibt noch viele Chancen. Das Beispiel SLUB
 
10 Jahre Evolution: Digitalisierung an der UB Greifswald
10 Jahre Evolution: Digitalisierung an der UB Greifswald10 Jahre Evolution: Digitalisierung an der UB Greifswald
10 Jahre Evolution: Digitalisierung an der UB Greifswald
 
Einheitliche Normdatendienste der VZG
Einheitliche Normdatendienste der VZGEinheitliche Normdatendienste der VZG
Einheitliche Normdatendienste der VZG
 
Die Schulbibliothek als Lernort 2.0
Die Schulbibliothek als Lernort 2.0Die Schulbibliothek als Lernort 2.0
Die Schulbibliothek als Lernort 2.0
 
Metadatenmanagement: die ETH-Bibliothek beschreitet neue Wege
Metadatenmanagement: die ETH-Bibliothek beschreitet neue WegeMetadatenmanagement: die ETH-Bibliothek beschreitet neue Wege
Metadatenmanagement: die ETH-Bibliothek beschreitet neue Wege
 

Ähnlich wie Berliner DH Rundgang

Europeana: Status - Datenlieferungen - Metadaten
Europeana: Status - Datenlieferungen - MetadatenEuropeana: Status - Datenlieferungen - Metadaten
Europeana: Status - Datenlieferungen - Metadaten
Max Kaiser
 
Europeana - Das europäische Kulturportal
Europeana - Das europäische KulturportalEuropeana - Das europäische Kulturportal
Europeana - Das europäische Kulturportal
Max Kaiser
 
EU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACT
EU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACTEU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACT
EU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACT
Max Kaiser
 
EuropeanaConnect
EuropeanaConnectEuropeanaConnect
EuropeanaConnect
Max Kaiser
 
Europeana - Status - Metadaten - Semantische Interoperabilität
Europeana - Status - Metadaten - Semantische InteroperabilitätEuropeana - Status - Metadaten - Semantische Interoperabilität
Europeana - Status - Metadaten - Semantische Interoperabilität
Max Kaiser
 
Katalogisierung mit dem Open-Source-Bibliothekssystem Koha
Katalogisierung mit dem Open-Source-Bibliothekssystem KohaKatalogisierung mit dem Open-Source-Bibliothekssystem Koha
Katalogisierung mit dem Open-Source-Bibliothekssystem Koha
hemmefelix
 
Trier - Digitale Rekonstruktionen mittelalterlicher Bibliotheken- Europeana -...
Trier - Digitale Rekonstruktionen mittelalterlicher Bibliotheken- Europeana -...Trier - Digitale Rekonstruktionen mittelalterlicher Bibliotheken- Europeana -...
Trier - Digitale Rekonstruktionen mittelalterlicher Bibliotheken- Europeana -...
Patrick Peiffer
 
Open Access Publishing in European Networks (OAPEN)
Open Access Publishing in European Networks (OAPEN)Open Access Publishing in European Networks (OAPEN)
Open Access Publishing in European Networks (OAPEN)
Stefan Buddenbohm
 
Europeana Newspapers Project - German infoday
Europeana Newspapers Project - German infoday Europeana Newspapers Project - German infoday
Europeana Newspapers Project - German infoday
Europeana Newspapers
 
Europeana und Deutsche Digitale Bibliothek
Europeana und Deutsche Digitale BibliothekEuropeana und Deutsche Digitale Bibliothek
Europeana und Deutsche Digitale Bibliothek
ICARUS - International Centre for Archival Research
 
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...
ETH-Bibliothek
 
Europeana Newspapers German infoday - Semantics
Europeana Newspapers German infoday - SemanticsEuropeana Newspapers German infoday - Semantics
Europeana Newspapers German infoday - Semantics
Europeana Newspapers
 
Literaturverwaltungssysteme im Überblick (2012)
Literaturverwaltungssysteme im Überblick (2012)Literaturverwaltungssysteme im Überblick (2012)
Literaturverwaltungssysteme im Überblick (2012)
Peter Mayr
 
Europeana - Digitale Bibliothek Europas. Fenster zur Welt für lokale, regiona...
Europeana - Digitale Bibliothek Europas. Fenster zur Welt für lokale, regiona...Europeana - Digitale Bibliothek Europas. Fenster zur Welt für lokale, regiona...
Europeana - Digitale Bibliothek Europas. Fenster zur Welt für lokale, regiona...
EuropeanaConnect
 
3 reasons to use Europeana for your creative projects
3 reasons to use Europeana for your creative projects3 reasons to use Europeana for your creative projects
3 reasons to use Europeana for your creative projects
Europeana
 
Digitalisierte Zeitungen und Digital Humanities - Probleme und Chancen
Digitalisierte Zeitungen und Digital Humanities - Probleme und ChancenDigitalisierte Zeitungen und Digital Humanities - Probleme und Chancen
Digitalisierte Zeitungen und Digital Humanities - Probleme und Chancen
cneudecker
 
ENP_ONB_infoday_Neudecker
ENP_ONB_infoday_NeudeckerENP_ONB_infoday_Neudecker
ENP_ONB_infoday_Neudecker
Europeana Newspapers
 

Ähnlich wie Berliner DH Rundgang (20)

Europeana: Status - Datenlieferungen - Metadaten
Europeana: Status - Datenlieferungen - MetadatenEuropeana: Status - Datenlieferungen - Metadaten
Europeana: Status - Datenlieferungen - Metadaten
 
Europeana - Das europäische Kulturportal
Europeana - Das europäische KulturportalEuropeana - Das europäische Kulturportal
Europeana - Das europäische Kulturportal
 
EU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACT
EU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACTEU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACT
EU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACT
 
EuropeanaConnect
EuropeanaConnectEuropeanaConnect
EuropeanaConnect
 
Europeana - Status - Metadaten - Semantische Interoperabilität
Europeana - Status - Metadaten - Semantische InteroperabilitätEuropeana - Status - Metadaten - Semantische Interoperabilität
Europeana - Status - Metadaten - Semantische Interoperabilität
 
Katalogisierung mit dem Open-Source-Bibliothekssystem Koha
Katalogisierung mit dem Open-Source-Bibliothekssystem KohaKatalogisierung mit dem Open-Source-Bibliothekssystem Koha
Katalogisierung mit dem Open-Source-Bibliothekssystem Koha
 
Trier - Digitale Rekonstruktionen mittelalterlicher Bibliotheken- Europeana -...
Trier - Digitale Rekonstruktionen mittelalterlicher Bibliotheken- Europeana -...Trier - Digitale Rekonstruktionen mittelalterlicher Bibliotheken- Europeana -...
Trier - Digitale Rekonstruktionen mittelalterlicher Bibliotheken- Europeana -...
 
Open Access Publishing in European Networks (OAPEN)
Open Access Publishing in European Networks (OAPEN)Open Access Publishing in European Networks (OAPEN)
Open Access Publishing in European Networks (OAPEN)
 
Europeana Newspapers Project - German infoday
Europeana Newspapers Project - German infoday Europeana Newspapers Project - German infoday
Europeana Newspapers Project - German infoday
 
Europeana und Deutsche Digitale Bibliothek
Europeana und Deutsche Digitale BibliothekEuropeana und Deutsche Digitale Bibliothek
Europeana und Deutsche Digitale Bibliothek
 
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...
 
Wie verbreitet sich die digitale Publikation im Netz?
Wie verbreitet sich die digitale Publikation im Netz?Wie verbreitet sich die digitale Publikation im Netz?
Wie verbreitet sich die digitale Publikation im Netz?
 
Europeana Newspapers German infoday - Semantics
Europeana Newspapers German infoday - SemanticsEuropeana Newspapers German infoday - Semantics
Europeana Newspapers German infoday - Semantics
 
Literaturverwaltungssysteme im Überblick (2012)
Literaturverwaltungssysteme im Überblick (2012)Literaturverwaltungssysteme im Überblick (2012)
Literaturverwaltungssysteme im Überblick (2012)
 
Europeana - Digitale Bibliothek Europas. Fenster zur Welt für lokale, regiona...
Europeana - Digitale Bibliothek Europas. Fenster zur Welt für lokale, regiona...Europeana - Digitale Bibliothek Europas. Fenster zur Welt für lokale, regiona...
Europeana - Digitale Bibliothek Europas. Fenster zur Welt für lokale, regiona...
 
Fachliche Vernetzung von Repositories auf europäischer Ebene - das Beispiel N...
Fachliche Vernetzung von Repositories auf europäischer Ebene - das Beispiel N...Fachliche Vernetzung von Repositories auf europäischer Ebene - das Beispiel N...
Fachliche Vernetzung von Repositories auf europäischer Ebene - das Beispiel N...
 
3 reasons to use Europeana for your creative projects
3 reasons to use Europeana for your creative projects3 reasons to use Europeana for your creative projects
3 reasons to use Europeana for your creative projects
 
Labor Dänemark
Labor DänemarkLabor Dänemark
Labor Dänemark
 
Digitalisierte Zeitungen und Digital Humanities - Probleme und Chancen
Digitalisierte Zeitungen und Digital Humanities - Probleme und ChancenDigitalisierte Zeitungen und Digital Humanities - Probleme und Chancen
Digitalisierte Zeitungen und Digital Humanities - Probleme und Chancen
 
ENP_ONB_infoday_Neudecker
ENP_ONB_infoday_NeudeckerENP_ONB_infoday_Neudecker
ENP_ONB_infoday_Neudecker
 

Mehr von cneudecker

EuropeanaTech x AI: Qurator.ai @ Berlin State Library
EuropeanaTech x AI: Qurator.ai @ Berlin State LibraryEuropeanaTech x AI: Qurator.ai @ Berlin State Library
EuropeanaTech x AI: Qurator.ai @ Berlin State Library
cneudecker
 
ALTO, PAGE & Co. Formate für Volltexte
ALTO, PAGE & Co. Formate für VolltexteALTO, PAGE & Co. Formate für Volltexte
ALTO, PAGE & Co. Formate für Volltexte
cneudecker
 
OCR und Strukturerkennung für Zeitungen
OCR und Strukturerkennung für ZeitungenOCR und Strukturerkennung für Zeitungen
OCR und Strukturerkennung für Zeitungen
cneudecker
 
Digitisation and Digital Humanities - what is the role of Libraries?
Digitisation and Digital Humanities - what is the role of Libraries?Digitisation and Digital Humanities - what is the role of Libraries?
Digitisation and Digital Humanities - what is the role of Libraries?
cneudecker
 
Multimodal Perspectives for Digitised Historical Newspapers
Multimodal Perspectives for Digitised Historical NewspapersMultimodal Perspectives for Digitised Historical Newspapers
Multimodal Perspectives for Digitised Historical Newspapers
cneudecker
 
OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...
OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...
OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...
cneudecker
 
AI for digitized cultural heritage
AI for digitized cultural heritageAI for digitized cultural heritage
AI for digitized cultural heritage
cneudecker
 
Kuratieren mit künstlicher Intelligenz
Kuratieren mit künstlicher IntelligenzKuratieren mit künstlicher Intelligenz
Kuratieren mit künstlicher Intelligenz
cneudecker
 
Überblick zum DFG-Projekt OCR-D
Überblick zum DFG-Projekt OCR-DÜberblick zum DFG-Projekt OCR-D
Überblick zum DFG-Projekt OCR-D
cneudecker
 
The many uses of digitized newspapers
The many uses of digitized newspapersThe many uses of digitized newspapers
The many uses of digitized newspapers
cneudecker
 
Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...
Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...
Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...
cneudecker
 
Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...
Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...
Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...
cneudecker
 
OCR-D: An end-to-end open source OCR framework for historical printed documents
OCR-D: An end-to-end open source OCR framework for historical printed documentsOCR-D: An end-to-end open source OCR framework for historical printed documents
OCR-D: An end-to-end open source OCR framework for historical printed documents
cneudecker
 
Text and Data Mining
Text and Data MiningText and Data Mining
Text and Data Mining
cneudecker
 
Formate für Volltexte
Formate für VolltexteFormate für Volltexte
Formate für Volltexte
cneudecker
 
Extrablatt: The Latest News on Newspaper Digitisation in Europe
Extrablatt: The Latest News on Newspaper Digitisation in EuropeExtrablatt: The Latest News on Newspaper Digitisation in Europe
Extrablatt: The Latest News on Newspaper Digitisation in Europe
cneudecker
 
Reise durch Europeana Collections in 11 Minuten
Reise durch Europeana Collections in 11 MinutenReise durch Europeana Collections in 11 Minuten
Reise durch Europeana Collections in 11 Minuten
cneudecker
 
Europeana Newspapers in a Nutshell
Europeana Newspapers in a NutshellEuropeana Newspapers in a Nutshell
Europeana Newspapers in a Nutshell
cneudecker
 
lab.sbb.berlin
lab.sbb.berlinlab.sbb.berlin
lab.sbb.berlin
cneudecker
 
Named Entity Recognition for Europeana Newspapers
Named Entity Recognition for Europeana NewspapersNamed Entity Recognition for Europeana Newspapers
Named Entity Recognition for Europeana Newspapers
cneudecker
 

Mehr von cneudecker (20)

EuropeanaTech x AI: Qurator.ai @ Berlin State Library
EuropeanaTech x AI: Qurator.ai @ Berlin State LibraryEuropeanaTech x AI: Qurator.ai @ Berlin State Library
EuropeanaTech x AI: Qurator.ai @ Berlin State Library
 
ALTO, PAGE & Co. Formate für Volltexte
ALTO, PAGE & Co. Formate für VolltexteALTO, PAGE & Co. Formate für Volltexte
ALTO, PAGE & Co. Formate für Volltexte
 
OCR und Strukturerkennung für Zeitungen
OCR und Strukturerkennung für ZeitungenOCR und Strukturerkennung für Zeitungen
OCR und Strukturerkennung für Zeitungen
 
Digitisation and Digital Humanities - what is the role of Libraries?
Digitisation and Digital Humanities - what is the role of Libraries?Digitisation and Digital Humanities - what is the role of Libraries?
Digitisation and Digital Humanities - what is the role of Libraries?
 
Multimodal Perspectives for Digitised Historical Newspapers
Multimodal Perspectives for Digitised Historical NewspapersMultimodal Perspectives for Digitised Historical Newspapers
Multimodal Perspectives for Digitised Historical Newspapers
 
OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...
OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...
OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...
 
AI for digitized cultural heritage
AI for digitized cultural heritageAI for digitized cultural heritage
AI for digitized cultural heritage
 
Kuratieren mit künstlicher Intelligenz
Kuratieren mit künstlicher IntelligenzKuratieren mit künstlicher Intelligenz
Kuratieren mit künstlicher Intelligenz
 
Überblick zum DFG-Projekt OCR-D
Überblick zum DFG-Projekt OCR-DÜberblick zum DFG-Projekt OCR-D
Überblick zum DFG-Projekt OCR-D
 
The many uses of digitized newspapers
The many uses of digitized newspapersThe many uses of digitized newspapers
The many uses of digitized newspapers
 
Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...
Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...
Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...
 
Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...
Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...
Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...
 
OCR-D: An end-to-end open source OCR framework for historical printed documents
OCR-D: An end-to-end open source OCR framework for historical printed documentsOCR-D: An end-to-end open source OCR framework for historical printed documents
OCR-D: An end-to-end open source OCR framework for historical printed documents
 
Text and Data Mining
Text and Data MiningText and Data Mining
Text and Data Mining
 
Formate für Volltexte
Formate für VolltexteFormate für Volltexte
Formate für Volltexte
 
Extrablatt: The Latest News on Newspaper Digitisation in Europe
Extrablatt: The Latest News on Newspaper Digitisation in EuropeExtrablatt: The Latest News on Newspaper Digitisation in Europe
Extrablatt: The Latest News on Newspaper Digitisation in Europe
 
Reise durch Europeana Collections in 11 Minuten
Reise durch Europeana Collections in 11 MinutenReise durch Europeana Collections in 11 Minuten
Reise durch Europeana Collections in 11 Minuten
 
Europeana Newspapers in a Nutshell
Europeana Newspapers in a NutshellEuropeana Newspapers in a Nutshell
Europeana Newspapers in a Nutshell
 
lab.sbb.berlin
lab.sbb.berlinlab.sbb.berlin
lab.sbb.berlin
 
Named Entity Recognition for Europeana Newspapers
Named Entity Recognition for Europeana NewspapersNamed Entity Recognition for Europeana Newspapers
Named Entity Recognition for Europeana Newspapers
 

Berliner DH Rundgang

  • 1. Die SBB in Europa: Europeana 1914-1918, Europeana Newspapers & mehr Clemens Neudecker Staatsbibliothek zu Berlin Berliner DH-Rundgang 16. April 2016 @cneudecker
  • 2. Europeana • Die europäische Plattform für das digitalisierte kulturelle Erbe aus Bibliotheken, Museen, Archiven • Aktuell über 52 Mio. digitale Objekte • 2016: Relaunch als „Europeana Collections“ mit thematischen Schwerpunkten • www.europeana.eu/portal/
  • 3. Europeana Collections 1914-1918 • Förderlinie CIP-ICT-PSP (€5.4 Mio. , €2.7 Mio. EU) • Laufzeit: Mai 2011 – April 2014 • 12 Projektpartner • 4 Arbeitspakete • Koordiniert durch Staatsbibliothek zu Berlin • www.europeana-collections-1914-1918.eu
  • 4. Europeana Collections 1914-1918 • Hauptziele – Digitalisierung von 400.000 Objekten zu WW1 unter Gesichtspunkten wie: • Hohe Qualität der Digitalisierung • Auswahl der Objekte in Kooperation mit Experten und Vertretern relevanter Zielgruppen • Abdeckung einer großen Vielfalt von Materialien • Seltene und fragile Bestände • Zusätzliche Erschließung (z.B. Themengruppen)
  • 5. Europeana Collections 1914-1918 • Ergebnisse – 425.000 digitalisierte Objekte, darunter: • mehr als 10.000 Bücher • etwa 1.700 Liedertexte und Notenbücher • etwa 100.000 Zeitschriften und Zeitungen • 150.000 handschriftliche Objekte (Tagebücher, Briefe) • 180.00 Plakate, Fotos und Postkarten – Mehrsprachiges, thematisch geordnetes Portal – Virtuelle und physische Ausstellungen – „Unlocking Sources“ Konferenz
  • 10. Europeana Newspapers • Förderlinie CIP-ICT-PSP (€5.2 Mio. , €4.1 Mio. EU) • Laufzeit: Februar 2012 – März 2015 • 18 Projektpartner + 11 assoziierte Partner • 6 Arbeitspakete • Koordiniert durch Staatsbibliothek zu Berlin • www.europeana-newspapers.eu
  • 11. Europeana Newspapers • Hauptziele – Aggregation und Transformation zu EDM von Metadaten digitalisierter Zeitungen in Europa – OCR/OLR für 10 Mio. Zeitungsseiten – Entwicklung eines Webportals für Volltextsuche – Design eines Meta- und Strukturdatenmodell – Methoden und Werkzeuge für die Evaluation – Workshops und Best-Practice Empfehlungen
  • 12. Europeana Newspapers • Ergebnisse – Größter Dateningest seit Bestehen der Europeana: 3.6 Mio. Records, >10 TB Daten – 10 Mio. Seiten OCR + 2 Mio. Seiten OLR – Content-browser basierend auf JP2, IIP, IIIF – ENMAP (METS/ALTO) Datenmodell – Open Source Software Werkzeuge – 3 Datensets zur freien Nachnutzung: Ground truth, Named entities, Text mining
  • 15. 82.4% 85.3% 80.9% 75.9% 67.5% 83.4% 84.1% 68.1% 93.1% 57.6% 87.0% 68.3% 76.1% 82.6% 54.1% 32.7% 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% SuccessRate Language Setting Bag of Words OCR Evaluation Per Language 67.3% 81.4% 64.0% 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% Gothic Normal Mixed SuccessRate Font Bag of Words OCR Evaluation Per Font 79.1% 62.2% 55.9% 58.8% 94.7% 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% Keyword search Phrase search Access via content structure Print/ebook on demand Content based image retrieval SuccessRate(harmonic,areabased) Evaluation Profile Layout Analysis Performance Per evaluationprofile 74.35% 75.31% 70% 71% 72% 73% 74% 75% 76% 77% NCSR Binarisation Original Image SuccessRate Image Source Bag of Words OCR Evaluation Binarised image vs. original image 75.3% 53.78% 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% SuccessRate(countbased) OCR Engine Bag of Words OCR Evaluation FineReader vs. Tesseract FineReader Tesseract
  • 18. Europeana DSI • Seit 2015: Finanzierung der Europeana durch die EU-Kommission als „Digital Service Infrastructure“ im Rahmen des CEF Programm • SBB ist Projektpartner in Europeana DSI-2 und dort zuständig für die Weiterentwicklung und den Launch einer „Europeana Newspapers Collection“ (voraussichtlich Q1/2017)
  • 19. SBB Daten in Europeana: Nutzung • Brandneu seit 6. April 2016! • Aktuell: – 142,612 digitale Objekte der SBB in Europeana – 99,2% „available for re-use“ (CC-BY-SA, CC-0) • Europeana Statistics Dashboard SBB-PK
  • 20. Danke für Ihre Aufmerksamkeit! Noch Fragen? Clemens Neudecker Staatsbibliothek zu Berlin Berliner DH-Rundgang 16. April 2016 @cneudecker