SlideShare ist ein Scribd-Unternehmen logo
1 von 19
Digitalisierte Zeitungen & 
die Digital Humanities – 
Probleme und Chancen 
Europeana Newspapers Information Day 
16. Oktober 2014, Wien, ÖNB 
Clemens Neudecker, Staatsbibliothek zu Berlin 
@cneudecker
“Big data?” 
Immer größere Mengen an digitalisierten Zeitungen stehen in 
digitaler Form für die Forschung bereit. 
• Chronicling America: 8,148,101 Seiten 
• Trove (Australien): 137,247,947 Zeitungsartikel 
• ANNO: 13 Millionen Seiten 
• Europeana Newspapers: 
• > 10 Millionen Seiten (Volltexte) 
• > 18 Millionen Seiten (Metadaten) 
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the 
Competitiveness and Innovation Framework Programme by the European Community 
http://ec.europa.eu/ict_psp 2
Europeana Newspapers: Drei Portale 
• Europeana Newspapers Content Browser: 
http://www.theeuropeanlibrary.org/tel4/newspapers 
• Europeana Portal: 
http://europeana.eu/portal/ 
• Zeitschriftendatenbank: 
http://www.zeitschriftendatenbank.de/suche/ 
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the 
Competitiveness and Innovation Framework Programme by the European Community 
http://ec.europa.eu/ict_psp 3
Neu! Objektpräsentation direkt in der Europeana 
• http://europeana.eu/portal/record/9200300/BibliographicResource_3000095593453.html 
Neues 
Interface 
für die 
Objektanzeige 
Public 
domain 
Anzeige in 
der Digitalen 
Bibliothek 
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the 
Competitiveness and Innovation Framework Programme by the European Community 
http://ec.europa.eu/ict_psp 4
ABER… 
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the 
Competitiveness and Innovation Framework Programme by the European Community 
http://ec.europa.eu/ict_psp 5
Nur die Spitze des Eisbergs 
Quelle: Enumerate Report, http://www.enumerate.eu/en/surveys/thematic_survey/ 
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the 
Competitiveness and Innovation Framework Programme by the European Community 
http://ec.europa.eu/ict_psp 6
Wieviel ist insgesamt schon digitalisiert? 
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the 
Competitiveness and Innovation Framework Programme by the European Community 
http://ec.europa.eu/ict_psp 7
Digitalisierte Zeitungen 
Quelle: European Newspapers Survey Report 
http://www.europeana-newspapers.eu/wp-content/uploads/2012/04/D4.1-Europeana-newspapers-survey-report.pdf 
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the 
Competitiveness and Innovation Framework Programme by the European Community 
http://ec.europa.eu/ict_psp 8
Mission impossible? 
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the 
Competitiveness and Innovation Framework Programme by the European Community 
http://ec.europa.eu/ict_psp 9
Ein kleiner Vergleich… 
Geschätzte Kosten für die 
Digitalisierung sämtlicher 
Objekte in Bibliotheken, 
Archiven und Museen: 
€100 Milliarden 
Oder €10 Milliarden/Jahr 
für die nächsten 10 Jahre! 
Das Gesamtbudget für die 
Entwicklung des „Joint 
Strike Fighter“ wird auf 
€40 Milliarden geschätzt. 
Für die Digitalisierung des 
Kulturerbes Europas 
würden ca. 40% der 
Entwicklungskosten des 
JSF benötigt. 
Quelle: Nick Poole, Collections Trust, http://nickpoole.org.uk/wp-content/uploads/2011/12/digiti_report.pdf 
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the 
Competitiveness and Innovation Framework Programme by the European Community 
http://ec.europa.eu/ict_psp 10
Problemfelder 
• Unvollständigkeit von Digitalen (Zeitungs-)Sammlungen 
• Keine ausreichenden Ressourcen für die vollständige Digitalisierung 
• Fehler und Probleme bei der Digitalisierung, z.B. 
• Schlechte Qualität der OCR 
• Unvollständige oder fehlerhafte Metadaten 
• Unterschiedliche Lizenzmodelle 
• “Copyright Cliff of Death” (@wragge) 
• Unterschiedliche Granularität der Digitalisate (z.B. Artikel vs. Seiten) 
• Unterschiedliche Anreicherung (z.B. mit/ohne Named Entities) 
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the 
Competitiveness and Innovation Framework Programme by the European Community 
http://ec.europa.eu/ict_psp 11
Wie also damit umgehen? 
• Ist es überhaupt möglich auf dieser Datengrundlage eine 
repräsentative Aussagen z.B. durch ein „random sample“ 
zu treffen? 
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the 
Competitiveness and Innovation Framework Programme by the European Community 
http://ec.europa.eu/ict_psp 
12 
Quelle: http://dilbert.com/strips/comic/2001-10-25/
Labs to the rescue? 
Pieter Francois, Gewinner der British 
Library Labs competition 2013 hat sich 
genau diese Frage gestellt: 
“How representative are the historical 
texts digital humanities scholars study 
of the overall body of ‘surviving’ texts 
that are held in the various library 
labs.bl.uk/Sample+Generator collections?” 
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the 
Competitiveness and Innovation Framework Programme by the European Community 
http://ec.europa.eu/ict_psp 13
Was ist “gut genug”? 
Digging into Data Project “Trading Consequences” 
“Welche Auswirkungen haben OCR Fehler beim Text Mining 
einer großen Sammlungen von digitalisierten Beständen?” 
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the 
Competitiveness and Innovation Framework Programme by the European Community 
http://ec.europa.eu/ict_psp 14
Statistik, Statistik, Statistik 
10 Millione Seiten, 7 Milliarden Wörter – welchen Anteil des 
Korpus ignoriert man wenn man nur mit “guter” OCR arbeitet? 
http://homepages.inf.ed.ac.uk/balex/publications/slides-DATeCH.pdf 
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the 
Competitiveness and Innovation Framework Programme by the European Community 
http://ec.europa.eu/ict_psp 15
Vorbild Trove 
API (Anwendungs-Programmier-Schnittstelle) ermöglicht diverse 
statistische Anwendungen & Präsentationsmöglichkeiten: 
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the 
Competitiveness and Innovation Framework Programme by the European Community 
http://ec.europa.eu/ict_psp 
16 
Trove newspapers word count app
Das „Hathi Trust Model“ 
Hathi Trust Digital Library/Research Center 
(Aggregator aller US Google-Partner) stellt für durch 
Copyright geschütze Materialien nur extrahierte 
„Features“ bereit wie z.B.: 
• Wortfrequenz (pro Seite/Überschriften/Fußnoten) 
• Anzahl Zeilen/Sätze 
• Zeichenanzahl 
Darüber hinaus gibt es auch die Möglichkeit über eine 
geschützte virtuelle Forschungsumgebung (HTRC Sandbox 
Portal) direkt auf den Servern des HTRC Algorithmen auf den 
Daten auszuführen. 
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the 
Competitiveness and Innovation Framework Programme by the European Community 
http://ec.europa.eu/ict_psp 
17
Es gibt viel zu tun…packen wir es an! 
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the 
Competitiveness and Innovation Framework Programme by the European Community 
http://ec.europa.eu/ict_psp 18
Danke für Ihre Aufmerksamkeit! 
@eurnews 
http://www.europeana-newspapers.eu 
http://www.theeuropeanlibrary.org/tel4/newspapers 
http://www.europeana.eu/

Weitere ähnliche Inhalte

Andere mochten auch

0. ex physi
0. ex physi0. ex physi
0. ex physidelwong
 
INSERTAR ELEMENTOS DE FORMULARIO
INSERTAR ELEMENTOS DE FORMULARIOINSERTAR ELEMENTOS DE FORMULARIO
INSERTAR ELEMENTOS DE FORMULARIOinformatica97
 
типы химических связей
типы химических связейтипы химических связей
типы химических связейOlga Pishchik
 
Formularios access 2010
Formularios access 2010Formularios access 2010
Formularios access 2010informatica97
 
IMPACT Demo Dag at KB
IMPACT Demo Dag at KBIMPACT Demo Dag at KB
IMPACT Demo Dag at KBcneudecker
 
Search Technologies for Digital Libraries
Search Technologies for Digital LibrariesSearch Technologies for Digital Libraries
Search Technologies for Digital Librariescneudecker
 
An Experimental Workflow Development Platform for Historical Document Digitis...
An Experimental Workflow Development Platform for Historical Document Digitis...An Experimental Workflow Development Platform for Historical Document Digitis...
An Experimental Workflow Development Platform for Historical Document Digitis...cneudecker
 
User experience presentation
User experience presentationUser experience presentation
User experience presentationbluebottlebiz
 
Team+2 energyt+storage+system final_2013 spring
Team+2 energyt+storage+system final_2013 springTeam+2 energyt+storage+system final_2013 spring
Team+2 energyt+storage+system final_2013 springJaeho Jung
 
Mamiferos por karen burbano
Mamiferos por karen burbanoMamiferos por karen burbano
Mamiferos por karen burbanoKarEn Bl
 
MAKALAH MEKASNIME DAN KONFLIK DALAM APBN
MAKALAH MEKASNIME DAN KONFLIK DALAM APBNMAKALAH MEKASNIME DAN KONFLIK DALAM APBN
MAKALAH MEKASNIME DAN KONFLIK DALAM APBNSolala Halawa
 
MAKALAH TEORI EKOLOGI ADMINISTRASI
MAKALAH TEORI EKOLOGI ADMINISTRASIMAKALAH TEORI EKOLOGI ADMINISTRASI
MAKALAH TEORI EKOLOGI ADMINISTRASISolala Halawa
 

Andere mochten auch (16)

0. ex physi
0. ex physi0. ex physi
0. ex physi
 
INSERTAR ELEMENTOS DE FORMULARIO
INSERTAR ELEMENTOS DE FORMULARIOINSERTAR ELEMENTOS DE FORMULARIO
INSERTAR ELEMENTOS DE FORMULARIO
 
типы химических связей
типы химических связейтипы химических связей
типы химических связей
 
Formularios access 2010
Formularios access 2010Formularios access 2010
Formularios access 2010
 
IMPACT Demo Dag at KB
IMPACT Demo Dag at KBIMPACT Demo Dag at KB
IMPACT Demo Dag at KB
 
Deportes.
Deportes.Deportes.
Deportes.
 
Search Technologies for Digital Libraries
Search Technologies for Digital LibrariesSearch Technologies for Digital Libraries
Search Technologies for Digital Libraries
 
An Experimental Workflow Development Platform for Historical Document Digitis...
An Experimental Workflow Development Platform for Historical Document Digitis...An Experimental Workflow Development Platform for Historical Document Digitis...
An Experimental Workflow Development Platform for Historical Document Digitis...
 
Teaching powerpoint
Teaching powerpointTeaching powerpoint
Teaching powerpoint
 
User experience presentation
User experience presentationUser experience presentation
User experience presentation
 
User experience
User experienceUser experience
User experience
 
Team+2 energyt+storage+system final_2013 spring
Team+2 energyt+storage+system final_2013 springTeam+2 energyt+storage+system final_2013 spring
Team+2 energyt+storage+system final_2013 spring
 
Mamiferos por karen burbano
Mamiferos por karen burbanoMamiferos por karen burbano
Mamiferos por karen burbano
 
MAKALAH MEKASNIME DAN KONFLIK DALAM APBN
MAKALAH MEKASNIME DAN KONFLIK DALAM APBNMAKALAH MEKASNIME DAN KONFLIK DALAM APBN
MAKALAH MEKASNIME DAN KONFLIK DALAM APBN
 
MAKALAH TEORI EKOLOGI ADMINISTRASI
MAKALAH TEORI EKOLOGI ADMINISTRASIMAKALAH TEORI EKOLOGI ADMINISTRASI
MAKALAH TEORI EKOLOGI ADMINISTRASI
 
Construction claims
Construction claimsConstruction claims
Construction claims
 

Ähnlich wie Digitalisierte Zeitungen und Digital Humanities - Probleme und Chancen

Europeana Newpapers LFT Infoday Neudecker
Europeana Newpapers LFT Infoday NeudeckerEuropeana Newpapers LFT Infoday Neudecker
Europeana Newpapers LFT Infoday NeudeckerEuropeana Newspapers
 
Europeana Newspapers German Infoday Quality Assessment
Europeana Newspapers German Infoday Quality AssessmentEuropeana Newspapers German Infoday Quality Assessment
Europeana Newspapers German Infoday Quality AssessmentEuropeana Newspapers
 
EU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACT
EU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACTEU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACT
EU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACTMax Kaiser
 
OkLab Leipzig (state: 2017)
OkLab Leipzig (state: 2017)OkLab Leipzig (state: 2017)
OkLab Leipzig (state: 2017)joergreichert
 
Nachhaltige öffentliche Beschaffungen
Nachhaltige öffentliche BeschaffungenNachhaltige öffentliche Beschaffungen
Nachhaltige öffentliche BeschaffungenMatthias Stürmer
 
Trier - Digitale Rekonstruktionen mittelalterlicher Bibliotheken- Europeana -...
Trier - Digitale Rekonstruktionen mittelalterlicher Bibliotheken- Europeana -...Trier - Digitale Rekonstruktionen mittelalterlicher Bibliotheken- Europeana -...
Trier - Digitale Rekonstruktionen mittelalterlicher Bibliotheken- Europeana -...Patrick Peiffer
 
Eine (kleine) Übersicht über Geodaten-Quellen in der Schweiz
Eine (kleine) Übersicht über Geodaten-Quellen in der SchweizEine (kleine) Übersicht über Geodaten-Quellen in der Schweiz
Eine (kleine) Übersicht über Geodaten-Quellen in der SchweizStefan Keller
 
Jan Freese, Thomas Zergoi (FFG), Christoph Ferch (Preiser Records)
Jan Freese, Thomas Zergoi (FFG), Christoph Ferch (Preiser Records)Jan Freese, Thomas Zergoi (FFG), Christoph Ferch (Preiser Records)
Jan Freese, Thomas Zergoi (FFG), Christoph Ferch (Preiser Records)Praxistage
 
Tragfähige Geschäftsmodelle mit Open Data
Tragfähige Geschäftsmodelle mit Open DataTragfähige Geschäftsmodelle mit Open Data
Tragfähige Geschäftsmodelle mit Open DataWolfgang Ksoll
 
Der Alpenraum auf dem Weg zur innovativen eRegion in Europa
Der Alpenraum auf dem Weg zur innovativen eRegion in EuropaDer Alpenraum auf dem Weg zur innovativen eRegion in Europa
Der Alpenraum auf dem Weg zur innovativen eRegion in EuropaHans-Dieter Zimmermann
 
Lösungen für linguistische Ressourcen im Web — META-NET und META-SHARE
Lösungen für linguistische Ressourcen im Web — META-NET und META-SHARELösungen für linguistische Ressourcen im Web — META-NET und META-SHARE
Lösungen für linguistische Ressourcen im Web — META-NET und META-SHAREGeorg Rehm
 
Berlin – von der geteilten Stadt zur Silicon Alley
Berlin – von der geteilten Stadt zur Silicon AlleyBerlin – von der geteilten Stadt zur Silicon Alley
Berlin – von der geteilten Stadt zur Silicon AlleyProjekt Zukunft Berlin
 
Open Data Portal (ODP) Österreich - Präsentation bei der opendata.ch 2014 in ...
Open Data Portal (ODP) Österreich - Präsentation bei der opendata.ch 2014 in ...Open Data Portal (ODP) Österreich - Präsentation bei der opendata.ch 2014 in ...
Open Data Portal (ODP) Österreich - Präsentation bei der opendata.ch 2014 in ...Martin Kaltenböck
 
Linked Open Data Pilotprojekt Österreich - LOD Pilot AT
Linked Open Data Pilotprojekt Österreich - LOD Pilot ATLinked Open Data Pilotprojekt Österreich - LOD Pilot AT
Linked Open Data Pilotprojekt Österreich - LOD Pilot ATMartin Kaltenböck
 
Europeana: Status - Datenlieferungen - Metadaten
Europeana: Status - Datenlieferungen - MetadatenEuropeana: Status - Datenlieferungen - Metadaten
Europeana: Status - Datenlieferungen - MetadatenMax Kaiser
 
Katharina Hogrebe Herne Digital Days.pdf
 Katharina Hogrebe Herne Digital Days.pdf Katharina Hogrebe Herne Digital Days.pdf
Katharina Hogrebe Herne Digital Days.pdfFIWARE
 
BSB Demo Day - Balk-Pennington de Jongh - Centre of Competence
BSB Demo Day - Balk-Pennington de Jongh - Centre of CompetenceBSB Demo Day - Balk-Pennington de Jongh - Centre of Competence
BSB Demo Day - Balk-Pennington de Jongh - Centre of CompetenceIMPACT Centre of Competence
 
User-Driven Open Source Communities, auch für den Finanzsektor
User-Driven Open Source Communities, auch für den FinanzsektorUser-Driven Open Source Communities, auch für den Finanzsektor
User-Driven Open Source Communities, auch für den FinanzsektorMatthias Stürmer
 

Ähnlich wie Digitalisierte Zeitungen und Digital Humanities - Probleme und Chancen (20)

Europeana Newpapers LFT Infoday Neudecker
Europeana Newpapers LFT Infoday NeudeckerEuropeana Newpapers LFT Infoday Neudecker
Europeana Newpapers LFT Infoday Neudecker
 
Europeana Newspapers German Infoday Quality Assessment
Europeana Newspapers German Infoday Quality AssessmentEuropeana Newspapers German Infoday Quality Assessment
Europeana Newspapers German Infoday Quality Assessment
 
EU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACT
EU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACTEU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACT
EU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACT
 
OkLab Leipzig (state: 2017)
OkLab Leipzig (state: 2017)OkLab Leipzig (state: 2017)
OkLab Leipzig (state: 2017)
 
Nachhaltige öffentliche Beschaffungen
Nachhaltige öffentliche BeschaffungenNachhaltige öffentliche Beschaffungen
Nachhaltige öffentliche Beschaffungen
 
Trier - Digitale Rekonstruktionen mittelalterlicher Bibliotheken- Europeana -...
Trier - Digitale Rekonstruktionen mittelalterlicher Bibliotheken- Europeana -...Trier - Digitale Rekonstruktionen mittelalterlicher Bibliotheken- Europeana -...
Trier - Digitale Rekonstruktionen mittelalterlicher Bibliotheken- Europeana -...
 
Eine (kleine) Übersicht über Geodaten-Quellen in der Schweiz
Eine (kleine) Übersicht über Geodaten-Quellen in der SchweizEine (kleine) Übersicht über Geodaten-Quellen in der Schweiz
Eine (kleine) Übersicht über Geodaten-Quellen in der Schweiz
 
Jan Freese, Thomas Zergoi (FFG), Christoph Ferch (Preiser Records)
Jan Freese, Thomas Zergoi (FFG), Christoph Ferch (Preiser Records)Jan Freese, Thomas Zergoi (FFG), Christoph Ferch (Preiser Records)
Jan Freese, Thomas Zergoi (FFG), Christoph Ferch (Preiser Records)
 
Tragfähige Geschäftsmodelle mit Open Data
Tragfähige Geschäftsmodelle mit Open DataTragfähige Geschäftsmodelle mit Open Data
Tragfähige Geschäftsmodelle mit Open Data
 
Der Alpenraum auf dem Weg zur innovativen eRegion in Europa
Der Alpenraum auf dem Weg zur innovativen eRegion in EuropaDer Alpenraum auf dem Weg zur innovativen eRegion in Europa
Der Alpenraum auf dem Weg zur innovativen eRegion in Europa
 
Lösungen für linguistische Ressourcen im Web — META-NET und META-SHARE
Lösungen für linguistische Ressourcen im Web — META-NET und META-SHARELösungen für linguistische Ressourcen im Web — META-NET und META-SHARE
Lösungen für linguistische Ressourcen im Web — META-NET und META-SHARE
 
Berlin – von der geteilten Stadt zur Silicon Alley
Berlin – von der geteilten Stadt zur Silicon AlleyBerlin – von der geteilten Stadt zur Silicon Alley
Berlin – von der geteilten Stadt zur Silicon Alley
 
Open Data Portal (ODP) Österreich - Präsentation bei der opendata.ch 2014 in ...
Open Data Portal (ODP) Österreich - Präsentation bei der opendata.ch 2014 in ...Open Data Portal (ODP) Österreich - Präsentation bei der opendata.ch 2014 in ...
Open Data Portal (ODP) Österreich - Präsentation bei der opendata.ch 2014 in ...
 
Offene Daten in Europa
Offene Daten in EuropaOffene Daten in Europa
Offene Daten in Europa
 
Linked Open Data Pilotprojekt Österreich - LOD Pilot AT
Linked Open Data Pilotprojekt Österreich - LOD Pilot ATLinked Open Data Pilotprojekt Österreich - LOD Pilot AT
Linked Open Data Pilotprojekt Österreich - LOD Pilot AT
 
Europeana: Status - Datenlieferungen - Metadaten
Europeana: Status - Datenlieferungen - MetadatenEuropeana: Status - Datenlieferungen - Metadaten
Europeana: Status - Datenlieferungen - Metadaten
 
Katharina Hogrebe Herne Digital Days.pdf
 Katharina Hogrebe Herne Digital Days.pdf Katharina Hogrebe Herne Digital Days.pdf
Katharina Hogrebe Herne Digital Days.pdf
 
BSB Demo Day - Balk-Pennington de Jongh - Centre of Competence
BSB Demo Day - Balk-Pennington de Jongh - Centre of CompetenceBSB Demo Day - Balk-Pennington de Jongh - Centre of Competence
BSB Demo Day - Balk-Pennington de Jongh - Centre of Competence
 
User-Driven Open Source Communities, auch für den Finanzsektor
User-Driven Open Source Communities, auch für den FinanzsektorUser-Driven Open Source Communities, auch für den Finanzsektor
User-Driven Open Source Communities, auch für den Finanzsektor
 
Horizon2020 – Förderung von Forschung und Innovation durch die EU
Horizon2020 – Förderung von Forschung und Innovation durch die EUHorizon2020 – Förderung von Forschung und Innovation durch die EU
Horizon2020 – Förderung von Forschung und Innovation durch die EU
 

Mehr von cneudecker

EuropeanaTech x AI: Qurator.ai @ Berlin State Library
EuropeanaTech x AI: Qurator.ai @ Berlin State LibraryEuropeanaTech x AI: Qurator.ai @ Berlin State Library
EuropeanaTech x AI: Qurator.ai @ Berlin State Librarycneudecker
 
ALTO, PAGE & Co. Formate für Volltexte
ALTO, PAGE & Co. Formate für VolltexteALTO, PAGE & Co. Formate für Volltexte
ALTO, PAGE & Co. Formate für Volltextecneudecker
 
OCR und Strukturerkennung für Zeitungen
OCR und Strukturerkennung für ZeitungenOCR und Strukturerkennung für Zeitungen
OCR und Strukturerkennung für Zeitungencneudecker
 
Digitisation and Digital Humanities - what is the role of Libraries?
Digitisation and Digital Humanities - what is the role of Libraries?Digitisation and Digital Humanities - what is the role of Libraries?
Digitisation and Digital Humanities - what is the role of Libraries?cneudecker
 
Multimodal Perspectives for Digitised Historical Newspapers
Multimodal Perspectives for Digitised Historical NewspapersMultimodal Perspectives for Digitised Historical Newspapers
Multimodal Perspectives for Digitised Historical Newspaperscneudecker
 
OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...
OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...
OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...cneudecker
 
AI for digitized cultural heritage
AI for digitized cultural heritageAI for digitized cultural heritage
AI for digitized cultural heritagecneudecker
 
Kuratieren mit künstlicher Intelligenz
Kuratieren mit künstlicher IntelligenzKuratieren mit künstlicher Intelligenz
Kuratieren mit künstlicher Intelligenzcneudecker
 
Überblick zum DFG-Projekt OCR-D
Überblick zum DFG-Projekt OCR-DÜberblick zum DFG-Projekt OCR-D
Überblick zum DFG-Projekt OCR-Dcneudecker
 
The many uses of digitized newspapers
The many uses of digitized newspapersThe many uses of digitized newspapers
The many uses of digitized newspaperscneudecker
 
Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...
Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...
Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...cneudecker
 
Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...
Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...
Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...cneudecker
 
OCR-D: An end-to-end open source OCR framework for historical printed documents
OCR-D: An end-to-end open source OCR framework for historical printed documentsOCR-D: An end-to-end open source OCR framework for historical printed documents
OCR-D: An end-to-end open source OCR framework for historical printed documentscneudecker
 
Text and Data Mining
Text and Data MiningText and Data Mining
Text and Data Miningcneudecker
 
Formate für Volltexte
Formate für VolltexteFormate für Volltexte
Formate für Volltextecneudecker
 
Extrablatt: The Latest News on Newspaper Digitisation in Europe
Extrablatt: The Latest News on Newspaper Digitisation in EuropeExtrablatt: The Latest News on Newspaper Digitisation in Europe
Extrablatt: The Latest News on Newspaper Digitisation in Europecneudecker
 
Reise durch Europeana Collections in 11 Minuten
Reise durch Europeana Collections in 11 MinutenReise durch Europeana Collections in 11 Minuten
Reise durch Europeana Collections in 11 Minutencneudecker
 
Europeana Newspapers in a Nutshell
Europeana Newspapers in a NutshellEuropeana Newspapers in a Nutshell
Europeana Newspapers in a Nutshellcneudecker
 
lab.sbb.berlin
lab.sbb.berlinlab.sbb.berlin
lab.sbb.berlincneudecker
 
Named Entity Recognition for Europeana Newspapers
Named Entity Recognition for Europeana NewspapersNamed Entity Recognition for Europeana Newspapers
Named Entity Recognition for Europeana Newspaperscneudecker
 

Mehr von cneudecker (20)

EuropeanaTech x AI: Qurator.ai @ Berlin State Library
EuropeanaTech x AI: Qurator.ai @ Berlin State LibraryEuropeanaTech x AI: Qurator.ai @ Berlin State Library
EuropeanaTech x AI: Qurator.ai @ Berlin State Library
 
ALTO, PAGE & Co. Formate für Volltexte
ALTO, PAGE & Co. Formate für VolltexteALTO, PAGE & Co. Formate für Volltexte
ALTO, PAGE & Co. Formate für Volltexte
 
OCR und Strukturerkennung für Zeitungen
OCR und Strukturerkennung für ZeitungenOCR und Strukturerkennung für Zeitungen
OCR und Strukturerkennung für Zeitungen
 
Digitisation and Digital Humanities - what is the role of Libraries?
Digitisation and Digital Humanities - what is the role of Libraries?Digitisation and Digital Humanities - what is the role of Libraries?
Digitisation and Digital Humanities - what is the role of Libraries?
 
Multimodal Perspectives for Digitised Historical Newspapers
Multimodal Perspectives for Digitised Historical NewspapersMultimodal Perspectives for Digitised Historical Newspapers
Multimodal Perspectives for Digitised Historical Newspapers
 
OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...
OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...
OCR und Strukturerkennung: Herausforderungen und Ansätze für die Zeitungsdigi...
 
AI for digitized cultural heritage
AI for digitized cultural heritageAI for digitized cultural heritage
AI for digitized cultural heritage
 
Kuratieren mit künstlicher Intelligenz
Kuratieren mit künstlicher IntelligenzKuratieren mit künstlicher Intelligenz
Kuratieren mit künstlicher Intelligenz
 
Überblick zum DFG-Projekt OCR-D
Überblick zum DFG-Projekt OCR-DÜberblick zum DFG-Projekt OCR-D
Überblick zum DFG-Projekt OCR-D
 
The many uses of digitized newspapers
The many uses of digitized newspapersThe many uses of digitized newspapers
The many uses of digitized newspapers
 
Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...
Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...
Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...
 
Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...
Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...
Von der Zeitungsdigitalisierung zu historischen Netzwerken - Methoden und Her...
 
OCR-D: An end-to-end open source OCR framework for historical printed documents
OCR-D: An end-to-end open source OCR framework for historical printed documentsOCR-D: An end-to-end open source OCR framework for historical printed documents
OCR-D: An end-to-end open source OCR framework for historical printed documents
 
Text and Data Mining
Text and Data MiningText and Data Mining
Text and Data Mining
 
Formate für Volltexte
Formate für VolltexteFormate für Volltexte
Formate für Volltexte
 
Extrablatt: The Latest News on Newspaper Digitisation in Europe
Extrablatt: The Latest News on Newspaper Digitisation in EuropeExtrablatt: The Latest News on Newspaper Digitisation in Europe
Extrablatt: The Latest News on Newspaper Digitisation in Europe
 
Reise durch Europeana Collections in 11 Minuten
Reise durch Europeana Collections in 11 MinutenReise durch Europeana Collections in 11 Minuten
Reise durch Europeana Collections in 11 Minuten
 
Europeana Newspapers in a Nutshell
Europeana Newspapers in a NutshellEuropeana Newspapers in a Nutshell
Europeana Newspapers in a Nutshell
 
lab.sbb.berlin
lab.sbb.berlinlab.sbb.berlin
lab.sbb.berlin
 
Named Entity Recognition for Europeana Newspapers
Named Entity Recognition for Europeana NewspapersNamed Entity Recognition for Europeana Newspapers
Named Entity Recognition for Europeana Newspapers
 

Digitalisierte Zeitungen und Digital Humanities - Probleme und Chancen

  • 1. Digitalisierte Zeitungen & die Digital Humanities – Probleme und Chancen Europeana Newspapers Information Day 16. Oktober 2014, Wien, ÖNB Clemens Neudecker, Staatsbibliothek zu Berlin @cneudecker
  • 2. “Big data?” Immer größere Mengen an digitalisierten Zeitungen stehen in digitaler Form für die Forschung bereit. • Chronicling America: 8,148,101 Seiten • Trove (Australien): 137,247,947 Zeitungsartikel • ANNO: 13 Millionen Seiten • Europeana Newspapers: • > 10 Millionen Seiten (Volltexte) • > 18 Millionen Seiten (Metadaten) This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 2
  • 3. Europeana Newspapers: Drei Portale • Europeana Newspapers Content Browser: http://www.theeuropeanlibrary.org/tel4/newspapers • Europeana Portal: http://europeana.eu/portal/ • Zeitschriftendatenbank: http://www.zeitschriftendatenbank.de/suche/ This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 3
  • 4. Neu! Objektpräsentation direkt in der Europeana • http://europeana.eu/portal/record/9200300/BibliographicResource_3000095593453.html Neues Interface für die Objektanzeige Public domain Anzeige in der Digitalen Bibliothek This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 4
  • 5. ABER… This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 5
  • 6. Nur die Spitze des Eisbergs Quelle: Enumerate Report, http://www.enumerate.eu/en/surveys/thematic_survey/ This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 6
  • 7. Wieviel ist insgesamt schon digitalisiert? This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 7
  • 8. Digitalisierte Zeitungen Quelle: European Newspapers Survey Report http://www.europeana-newspapers.eu/wp-content/uploads/2012/04/D4.1-Europeana-newspapers-survey-report.pdf This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 8
  • 9. Mission impossible? This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 9
  • 10. Ein kleiner Vergleich… Geschätzte Kosten für die Digitalisierung sämtlicher Objekte in Bibliotheken, Archiven und Museen: €100 Milliarden Oder €10 Milliarden/Jahr für die nächsten 10 Jahre! Das Gesamtbudget für die Entwicklung des „Joint Strike Fighter“ wird auf €40 Milliarden geschätzt. Für die Digitalisierung des Kulturerbes Europas würden ca. 40% der Entwicklungskosten des JSF benötigt. Quelle: Nick Poole, Collections Trust, http://nickpoole.org.uk/wp-content/uploads/2011/12/digiti_report.pdf This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 10
  • 11. Problemfelder • Unvollständigkeit von Digitalen (Zeitungs-)Sammlungen • Keine ausreichenden Ressourcen für die vollständige Digitalisierung • Fehler und Probleme bei der Digitalisierung, z.B. • Schlechte Qualität der OCR • Unvollständige oder fehlerhafte Metadaten • Unterschiedliche Lizenzmodelle • “Copyright Cliff of Death” (@wragge) • Unterschiedliche Granularität der Digitalisate (z.B. Artikel vs. Seiten) • Unterschiedliche Anreicherung (z.B. mit/ohne Named Entities) This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 11
  • 12. Wie also damit umgehen? • Ist es überhaupt möglich auf dieser Datengrundlage eine repräsentative Aussagen z.B. durch ein „random sample“ zu treffen? This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 12 Quelle: http://dilbert.com/strips/comic/2001-10-25/
  • 13. Labs to the rescue? Pieter Francois, Gewinner der British Library Labs competition 2013 hat sich genau diese Frage gestellt: “How representative are the historical texts digital humanities scholars study of the overall body of ‘surviving’ texts that are held in the various library labs.bl.uk/Sample+Generator collections?” This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 13
  • 14. Was ist “gut genug”? Digging into Data Project “Trading Consequences” “Welche Auswirkungen haben OCR Fehler beim Text Mining einer großen Sammlungen von digitalisierten Beständen?” This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 14
  • 15. Statistik, Statistik, Statistik 10 Millione Seiten, 7 Milliarden Wörter – welchen Anteil des Korpus ignoriert man wenn man nur mit “guter” OCR arbeitet? http://homepages.inf.ed.ac.uk/balex/publications/slides-DATeCH.pdf This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 15
  • 16. Vorbild Trove API (Anwendungs-Programmier-Schnittstelle) ermöglicht diverse statistische Anwendungen & Präsentationsmöglichkeiten: This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 16 Trove newspapers word count app
  • 17. Das „Hathi Trust Model“ Hathi Trust Digital Library/Research Center (Aggregator aller US Google-Partner) stellt für durch Copyright geschütze Materialien nur extrahierte „Features“ bereit wie z.B.: • Wortfrequenz (pro Seite/Überschriften/Fußnoten) • Anzahl Zeilen/Sätze • Zeichenanzahl Darüber hinaus gibt es auch die Möglichkeit über eine geschützte virtuelle Forschungsumgebung (HTRC Sandbox Portal) direkt auf den Servern des HTRC Algorithmen auf den Daten auszuführen. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 17
  • 18. Es gibt viel zu tun…packen wir es an! This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 18
  • 19. Danke für Ihre Aufmerksamkeit! @eurnews http://www.europeana-newspapers.eu http://www.theeuropeanlibrary.org/tel4/newspapers http://www.europeana.eu/