SlideShare ist ein Scribd-Unternehmen logo
1 von 19
Digitalisierte Zeitungen & 
die Digital Humanities – 
Probleme und Chancen 
Europeana Newspapers Information Day 
16. Oktober 2014, Wien, ÖNB 
Clemens Neudecker, Staatsbibliothek zu Berlin 
@cneudecker
“Big data”? 
Immer größere Mengen an digitalisierten Zeitungen stehen in 
digitaler Form für die Forschung bereit. 
• Chronicling America: 8,148,101 Seiten 
• Trove (Australien): 137,247,947 Zeitungsartikel 
• ANNO: 13 Millionen Seiten 
• Europeana Newspapers: 
• > 10 Millionen Seiten (Volltexte) 
• > 18 Millionen Seiten (Metadaten) 
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the 
Competitiveness and Innovation Framework Programme by the European Community 
http://ec.europa.eu/ict_psp 2
Europeana Newspapers: Drei Portale 
• Europeana Newspapers Content Browser: 
http://www.theeuropeanlibrary.org/tel4/newspapers 
• Europeana Portal: 
http://europeana.eu/portal/ 
• Zeitschriftendatenbank: 
http://www.zeitschriftendatenbank.de/suche/ 
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the 
Competitiveness and Innovation Framework Programme by the European Community 
http://ec.europa.eu/ict_psp 3
Neu! Objektpräsentation direkt in der Europeana 
• http://europeana.eu/portal/record/9200300/BibliographicResource_3000095593453.html 
Neues 
Interface 
für die 
Objektanzeige 
Public 
domain 
Anzeige in 
der Digitalen 
Bibliothek 
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the 
Competitiveness and Innovation Framework Programme by the European Community 
http://ec.europa.eu/ict_psp 4
ABER… 
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the 
Competitiveness and Innovation Framework Programme by the European Community 
http://ec.europa.eu/ict_psp 5
Nur die Spitze des Eisbergs 
Quelle: Enumerate Report, http://www.enumerate.eu/en/surveys/thematic_survey/ 
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the 
Competitiveness and Innovation Framework Programme by the European Community 
http://ec.europa.eu/ict_psp 6
Wieviel ist insgesamt schon digitalisiert? 
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the 
Competitiveness and Innovation Framework Programme by the European Community 
http://ec.europa.eu/ict_psp 7
Digitalisierte Zeitungen 
Quelle: European Newspapers Survey Report 
http://www.europeana-newspapers.eu/wp-content/uploads/2012/04/D4.1-Europeana-newspapers-survey-report.pdf 
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the 
Competitiveness and Innovation Framework Programme by the European Community 
http://ec.europa.eu/ict_psp 8
Mission impossible? 
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the 
Competitiveness and Innovation Framework Programme by the European Community 
http://ec.europa.eu/ict_psp 9
Ein kleiner Vergleich… 
Geschätzte Kosten für die 
Digitalisierung sämtlicher 
Objekte in Bibliotheken, 
Archiven und Museen: 
€100 Milliarden 
Oder €10 Milliarden/Jahr 
für die nächsten 10 Jahre! 
Das Gesamtbudget für die 
Entwicklung des „Joint 
Strike Fighter“ wird auf 
€40 Milliarden geschätzt. 
Für die Digitalisierung des 
Kulturerbes Europas 
würden ca. 250% der 
Entwicklungskosten des 
JSF benötigt. 
Quelle: Nick Poole, Collections Trust, http://nickpoole.org.uk/wp-content/uploads/2011/12/digiti_report.pdf 
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the 
Competitiveness and Innovation Framework Programme by the European Community 
http://ec.europa.eu/ict_psp 10
Problemfelder 
• Unvollständigkeit von Digitalen (Zeitungs-)Sammlungen 
• Keine ausreichenden Ressourcen für die vollständige Digitalisierung 
• Fehler und Probleme bei der Digitalisierung, z.B. 
• Schlechte Qualität der OCR 
• Unvollständige oder fehlerhafte Metadaten 
• Unterschiedliche Lizenzmodelle 
• “Copyright Cliff of Death” (@wragge) 
• Unterschiedliche Granularität der Digitalisate (z.B. Artikel vs. Seiten) 
• Unterschiedliche Anreicherung (z.B. mit/ohne Named Entities) 
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the 
Competitiveness and Innovation Framework Programme by the European Community 
http://ec.europa.eu/ict_psp 11
Wie also damit umgehen? 
• Ist es überhaupt möglich auf dieser Datengrundlage eine 
repräsentative Aussagen z.B. durch ein „random sample“ 
zu treffen? 
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the 
Competitiveness and Innovation Framework Programme by the European Community 
http://ec.europa.eu/ict_psp 
12 
Quelle: http://dilbert.com/strips/comic/2001-10-25/
Labs to the rescue? 
Pieter Francois, Gewinner der British 
Library Labs competition 2013 hat sich 
genau diese Frage gestellt: 
“How representative are the historical 
texts digital humanities scholars study 
of the overall body of ‘surviving’ texts 
that are held in the various library 
labs.bl.uk/Sample+Generator collections?” 
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the 
Competitiveness and Innovation Framework Programme by the European Community 
http://ec.europa.eu/ict_psp 13
Was ist “gut genug”? 
Digging into Data Project “Trading Consequences” 
“Welche Auswirkungen haben OCR Fehler beim Text Mining 
einer großen Sammlungen von digitalisierten Beständen?” 
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the 
Competitiveness and Innovation Framework Programme by the European Community 
http://ec.europa.eu/ict_psp 14
Statistik, Statistik, Statistik 
10 Millione Seiten, 7 Milliarden Wörter – welchen Anteil des 
Korpus ignoriert man wenn man nur mit “guter” OCR arbeitet? 
http://homepages.inf.ed.ac.uk/balex/publications/slides-DATeCH.pdf 
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the 
Competitiveness and Innovation Framework Programme by the European Community 
http://ec.europa.eu/ict_psp 15
Vorbild Trove 
API (Anwendungs-Programmier-Schnittstelle) ermöglicht diverse 
statistische Anwendungen & Präsentationsmöglichkeiten: 
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the 
Competitiveness and Innovation Framework Programme by the European Community 
http://ec.europa.eu/ict_psp 
16 
Trove newspapers word count app
Das „Hathi Trust Model“ 
Hathi Trust Digital Library/Research Center 
(Aggregator aller US Google-Partner) stellt für durch 
Copyright geschütze Materialien nur extrahierte 
„Features“ bereit wie z.B.: 
• Wortfrequenz (pro Seite/Überschriften/Fußnoten) 
• Anzahl Zeilen/Sätze 
• Zeichenanzahl 
Darüber hinaus gibt es auch die Möglichkeit über eine 
geschützte virtuelle Forschungsumgebung (HTRC Sandbox 
Portal) direkt auf den Servern des HTRC Algorithmen auf den 
Daten auszuführen. 
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the 
Competitiveness and Innovation Framework Programme by the European Community 
http://ec.europa.eu/ict_psp 
17
Es gibt viel zu tun…packen wir es an! 
http://www.europeana-newspapers.eu/digital-newspapers-illustration/ 
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the 
Competitiveness and Innovation Framework Programme by the European Community 
http://ec.europa.eu/ict_psp 18
Danke für Ihre Aufmerksamkeit! 
@eurnews 
http://www.europeana-newspapers.eu 
http://www.theeuropeanlibrary.org/tel4/newspapers 
http://www.europeana.eu/

Weitere ähnliche Inhalte

Ähnlich wie ENP_ONB_infoday_Neudecker

Europeana Newspapers German Infoday Quality Assessment
Europeana Newspapers German Infoday Quality AssessmentEuropeana Newspapers German Infoday Quality Assessment
Europeana Newspapers German Infoday Quality Assessment
Europeana Newspapers
 
EU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACT
EU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACTEU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACT
EU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACT
Max Kaiser
 
Trier - Digitale Rekonstruktionen mittelalterlicher Bibliotheken- Europeana -...
Trier - Digitale Rekonstruktionen mittelalterlicher Bibliotheken- Europeana -...Trier - Digitale Rekonstruktionen mittelalterlicher Bibliotheken- Europeana -...
Trier - Digitale Rekonstruktionen mittelalterlicher Bibliotheken- Europeana -...
Patrick Peiffer
 
Europeana: Status - Datenlieferungen - Metadaten
Europeana: Status - Datenlieferungen - MetadatenEuropeana: Status - Datenlieferungen - Metadaten
Europeana: Status - Datenlieferungen - Metadaten
Max Kaiser
 
BSB Demo Day - Balk-Pennington de Jongh - Centre of Competence
BSB Demo Day - Balk-Pennington de Jongh - Centre of CompetenceBSB Demo Day - Balk-Pennington de Jongh - Centre of Competence
BSB Demo Day - Balk-Pennington de Jongh - Centre of Competence
IMPACT Centre of Competence
 

Ähnlich wie ENP_ONB_infoday_Neudecker (20)

Europeana Newpapers LFT Infoday Neudecker
Europeana Newpapers LFT Infoday NeudeckerEuropeana Newpapers LFT Infoday Neudecker
Europeana Newpapers LFT Infoday Neudecker
 
Europeana Newspapers German Infoday Quality Assessment
Europeana Newspapers German Infoday Quality AssessmentEuropeana Newspapers German Infoday Quality Assessment
Europeana Newspapers German Infoday Quality Assessment
 
EU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACT
EU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACTEU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACT
EU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACT
 
OkLab Leipzig (state: 2017)
OkLab Leipzig (state: 2017)OkLab Leipzig (state: 2017)
OkLab Leipzig (state: 2017)
 
Nachhaltige öffentliche Beschaffungen
Nachhaltige öffentliche BeschaffungenNachhaltige öffentliche Beschaffungen
Nachhaltige öffentliche Beschaffungen
 
Trier - Digitale Rekonstruktionen mittelalterlicher Bibliotheken- Europeana -...
Trier - Digitale Rekonstruktionen mittelalterlicher Bibliotheken- Europeana -...Trier - Digitale Rekonstruktionen mittelalterlicher Bibliotheken- Europeana -...
Trier - Digitale Rekonstruktionen mittelalterlicher Bibliotheken- Europeana -...
 
Jan Freese, Thomas Zergoi (FFG), Christoph Ferch (Preiser Records)
Jan Freese, Thomas Zergoi (FFG), Christoph Ferch (Preiser Records)Jan Freese, Thomas Zergoi (FFG), Christoph Ferch (Preiser Records)
Jan Freese, Thomas Zergoi (FFG), Christoph Ferch (Preiser Records)
 
Eine (kleine) Übersicht über Geodaten-Quellen in der Schweiz
Eine (kleine) Übersicht über Geodaten-Quellen in der SchweizEine (kleine) Übersicht über Geodaten-Quellen in der Schweiz
Eine (kleine) Übersicht über Geodaten-Quellen in der Schweiz
 
Tragfähige Geschäftsmodelle mit Open Data
Tragfähige Geschäftsmodelle mit Open DataTragfähige Geschäftsmodelle mit Open Data
Tragfähige Geschäftsmodelle mit Open Data
 
Der Alpenraum auf dem Weg zur innovativen eRegion in Europa
Der Alpenraum auf dem Weg zur innovativen eRegion in EuropaDer Alpenraum auf dem Weg zur innovativen eRegion in Europa
Der Alpenraum auf dem Weg zur innovativen eRegion in Europa
 
Lösungen für linguistische Ressourcen im Web — META-NET und META-SHARE
Lösungen für linguistische Ressourcen im Web — META-NET und META-SHARELösungen für linguistische Ressourcen im Web — META-NET und META-SHARE
Lösungen für linguistische Ressourcen im Web — META-NET und META-SHARE
 
Berlin – von der geteilten Stadt zur Silicon Alley
Berlin – von der geteilten Stadt zur Silicon AlleyBerlin – von der geteilten Stadt zur Silicon Alley
Berlin – von der geteilten Stadt zur Silicon Alley
 
Open Data Portal (ODP) Österreich - Präsentation bei der opendata.ch 2014 in ...
Open Data Portal (ODP) Österreich - Präsentation bei der opendata.ch 2014 in ...Open Data Portal (ODP) Österreich - Präsentation bei der opendata.ch 2014 in ...
Open Data Portal (ODP) Österreich - Präsentation bei der opendata.ch 2014 in ...
 
Offene Daten in Europa
Offene Daten in EuropaOffene Daten in Europa
Offene Daten in Europa
 
Linked Open Data Pilotprojekt Österreich - LOD Pilot AT
Linked Open Data Pilotprojekt Österreich - LOD Pilot ATLinked Open Data Pilotprojekt Österreich - LOD Pilot AT
Linked Open Data Pilotprojekt Österreich - LOD Pilot AT
 
Europeana: Status - Datenlieferungen - Metadaten
Europeana: Status - Datenlieferungen - MetadatenEuropeana: Status - Datenlieferungen - Metadaten
Europeana: Status - Datenlieferungen - Metadaten
 
Katharina Hogrebe Herne Digital Days.pdf
 Katharina Hogrebe Herne Digital Days.pdf Katharina Hogrebe Herne Digital Days.pdf
Katharina Hogrebe Herne Digital Days.pdf
 
BSB Demo Day - Balk-Pennington de Jongh - Centre of Competence
BSB Demo Day - Balk-Pennington de Jongh - Centre of CompetenceBSB Demo Day - Balk-Pennington de Jongh - Centre of Competence
BSB Demo Day - Balk-Pennington de Jongh - Centre of Competence
 
User-Driven Open Source Communities, auch für den Finanzsektor
User-Driven Open Source Communities, auch für den FinanzsektorUser-Driven Open Source Communities, auch für den Finanzsektor
User-Driven Open Source Communities, auch für den Finanzsektor
 
Dr. Harald Gruber (Leiter Digitale Infrastruktur EIB)
Dr. Harald Gruber (Leiter Digitale Infrastruktur EIB)Dr. Harald Gruber (Leiter Digitale Infrastruktur EIB)
Dr. Harald Gruber (Leiter Digitale Infrastruktur EIB)
 

Mehr von Europeana Newspapers

Présentation Günter Mühlberger, BnF Information Day
Présentation Günter Mühlberger, BnF Information DayPrésentation Günter Mühlberger, BnF Information Day
Présentation Günter Mühlberger, BnF Information Day
Europeana Newspapers
 

Mehr von Europeana Newspapers (20)

Presentation of Philippe Mezzasalma at the BnF Information Day in Paris
Presentation of Philippe Mezzasalma at the BnF Information Day in ParisPresentation of Philippe Mezzasalma at the BnF Information Day in Paris
Presentation of Philippe Mezzasalma at the BnF Information Day in Paris
 
Presentation of Ioannis Anagnostopoulos at BnF Information Day
Presentation of Ioannis Anagnostopoulos at BnF Information DayPresentation of Ioannis Anagnostopoulos at BnF Information Day
Presentation of Ioannis Anagnostopoulos at BnF Information Day
 
Presentation of Clemens Neudecker, BnF Information Day
Presentation of Clemens Neudecker, BnF Information DayPresentation of Clemens Neudecker, BnF Information Day
Presentation of Clemens Neudecker, BnF Information Day
 
Presentation of Hans-Jörg Lieder, BnF Information Day
Presentation of Hans-Jörg Lieder, BnF Information DayPresentation of Hans-Jörg Lieder, BnF Information Day
Presentation of Hans-Jörg Lieder, BnF Information Day
 
Présentation Günter Mühlberger, BnF Information Day
Présentation Günter Mühlberger, BnF Information DayPrésentation Günter Mühlberger, BnF Information Day
Présentation Günter Mühlberger, BnF Information Day
 
Presentation of Claus Gravenhorst, BnF Information Day
Presentation of Claus Gravenhorst, BnF Information DayPresentation of Claus Gravenhorst, BnF Information Day
Presentation of Claus Gravenhorst, BnF Information Day
 
Presentation of Alaa Abi Haidar at the BnF Information Day
Presentation of Alaa Abi Haidar at the BnF Information DayPresentation of Alaa Abi Haidar at the BnF Information Day
Presentation of Alaa Abi Haidar at the BnF Information Day
 
IFLA 2014 Europeana Newspapers Rossitza Atanassova
IFLA 2014 Europeana Newspapers Rossitza AtanassovaIFLA 2014 Europeana Newspapers Rossitza Atanassova
IFLA 2014 Europeana Newspapers Rossitza Atanassova
 
Europeana Newspapers Estonian Infoday Ragne Kouts
Europeana Newspapers Estonian Infoday Ragne KoutsEuropeana Newspapers Estonian Infoday Ragne Kouts
Europeana Newspapers Estonian Infoday Ragne Kouts
 
Europeana Newspapers Estonian Infoday Kristel Veimann
Europeana Newspapers Estonian Infoday Kristel VeimannEuropeana Newspapers Estonian Infoday Kristel Veimann
Europeana Newspapers Estonian Infoday Kristel Veimann
 
Europeana Newspapers Estonian Infoday Krista Kiisa
Europeana Newspapers Estonian Infoday Krista KiisaEuropeana Newspapers Estonian Infoday Krista Kiisa
Europeana Newspapers Estonian Infoday Krista Kiisa
 
Europeana Newspapers Estonian Infoday Krista Aru
Europeana Newspapers Estonian Infoday Krista AruEuropeana Newspapers Estonian Infoday Krista Aru
Europeana Newspapers Estonian Infoday Krista Aru
 
Europeana Newspapers Estonian Infoday Fred Puss
Europeana Newspapers Estonian Infoday Fred PussEuropeana Newspapers Estonian Infoday Fred Puss
Europeana Newspapers Estonian Infoday Fred Puss
 
Europeana Newspapers LFT Infoday Thompson
Europeana Newspapers LFT Infoday ThompsonEuropeana Newspapers LFT Infoday Thompson
Europeana Newspapers LFT Infoday Thompson
 
Europeana Newspapers LFT Infoday Rossi
Europeana Newspapers LFT Infoday RossiEuropeana Newspapers LFT Infoday Rossi
Europeana Newspapers LFT Infoday Rossi
 
Europeana Newspapers LFT Infoday Muehlberger
Europeana Newspapers LFT Infoday MuehlbergerEuropeana Newspapers LFT Infoday Muehlberger
Europeana Newspapers LFT Infoday Muehlberger
 
Europeana Newspapers LFT Infoday Messina
Europeana Newspapers LFT Infoday MessinaEuropeana Newspapers LFT Infoday Messina
Europeana Newspapers LFT Infoday Messina
 
Europeana Newspapers Infoday Marchetti
Europeana Newspapers Infoday MarchettiEuropeana Newspapers Infoday Marchetti
Europeana Newspapers Infoday Marchetti
 
Europeana Newspapers LFT Infoday Kempf
Europeana Newspapers LFT Infoday KempfEuropeana Newspapers LFT Infoday Kempf
Europeana Newspapers LFT Infoday Kempf
 
Europeana Newspapers LFT Infoday Genereux
Europeana Newspapers LFT Infoday GenereuxEuropeana Newspapers LFT Infoday Genereux
Europeana Newspapers LFT Infoday Genereux
 

Kürzlich hochgeladen

Kürzlich hochgeladen (6)

Wirtschaftsingenieurwesen an der Universität Duisburg-Essen
Wirtschaftsingenieurwesen an der Universität Duisburg-EssenWirtschaftsingenieurwesen an der Universität Duisburg-Essen
Wirtschaftsingenieurwesen an der Universität Duisburg-Essen
 
Angewandte Kognitions- und Medienwissenschaft an der Universität Duisburg_Essen
Angewandte Kognitions- und Medienwissenschaft an der Universität Duisburg_EssenAngewandte Kognitions- und Medienwissenschaft an der Universität Duisburg_Essen
Angewandte Kognitions- und Medienwissenschaft an der Universität Duisburg_Essen
 
Betriebswirtschaftslehre (B.Sc.) an der Universität Duisburg Essen
Betriebswirtschaftslehre (B.Sc.) an der Universität Duisburg EssenBetriebswirtschaftslehre (B.Sc.) an der Universität Duisburg Essen
Betriebswirtschaftslehre (B.Sc.) an der Universität Duisburg Essen
 
Religion_Unterrichtsstunde zum Kölner Dom.pdf
Religion_Unterrichtsstunde zum Kölner Dom.pdfReligion_Unterrichtsstunde zum Kölner Dom.pdf
Religion_Unterrichtsstunde zum Kölner Dom.pdf
 
Angewandte Philosophie an der Universität Duisburg-Essen.
Angewandte Philosophie an der Universität Duisburg-Essen.Angewandte Philosophie an der Universität Duisburg-Essen.
Angewandte Philosophie an der Universität Duisburg-Essen.
 
Chemie (B.Sc.) und Water Science (B.Sc.) uni DUE
Chemie (B.Sc.) und Water Science (B.Sc.) uni DUEChemie (B.Sc.) und Water Science (B.Sc.) uni DUE
Chemie (B.Sc.) und Water Science (B.Sc.) uni DUE
 

ENP_ONB_infoday_Neudecker

  • 1. Digitalisierte Zeitungen & die Digital Humanities – Probleme und Chancen Europeana Newspapers Information Day 16. Oktober 2014, Wien, ÖNB Clemens Neudecker, Staatsbibliothek zu Berlin @cneudecker
  • 2. “Big data”? Immer größere Mengen an digitalisierten Zeitungen stehen in digitaler Form für die Forschung bereit. • Chronicling America: 8,148,101 Seiten • Trove (Australien): 137,247,947 Zeitungsartikel • ANNO: 13 Millionen Seiten • Europeana Newspapers: • > 10 Millionen Seiten (Volltexte) • > 18 Millionen Seiten (Metadaten) This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 2
  • 3. Europeana Newspapers: Drei Portale • Europeana Newspapers Content Browser: http://www.theeuropeanlibrary.org/tel4/newspapers • Europeana Portal: http://europeana.eu/portal/ • Zeitschriftendatenbank: http://www.zeitschriftendatenbank.de/suche/ This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 3
  • 4. Neu! Objektpräsentation direkt in der Europeana • http://europeana.eu/portal/record/9200300/BibliographicResource_3000095593453.html Neues Interface für die Objektanzeige Public domain Anzeige in der Digitalen Bibliothek This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 4
  • 5. ABER… This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 5
  • 6. Nur die Spitze des Eisbergs Quelle: Enumerate Report, http://www.enumerate.eu/en/surveys/thematic_survey/ This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 6
  • 7. Wieviel ist insgesamt schon digitalisiert? This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 7
  • 8. Digitalisierte Zeitungen Quelle: European Newspapers Survey Report http://www.europeana-newspapers.eu/wp-content/uploads/2012/04/D4.1-Europeana-newspapers-survey-report.pdf This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 8
  • 9. Mission impossible? This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 9
  • 10. Ein kleiner Vergleich… Geschätzte Kosten für die Digitalisierung sämtlicher Objekte in Bibliotheken, Archiven und Museen: €100 Milliarden Oder €10 Milliarden/Jahr für die nächsten 10 Jahre! Das Gesamtbudget für die Entwicklung des „Joint Strike Fighter“ wird auf €40 Milliarden geschätzt. Für die Digitalisierung des Kulturerbes Europas würden ca. 250% der Entwicklungskosten des JSF benötigt. Quelle: Nick Poole, Collections Trust, http://nickpoole.org.uk/wp-content/uploads/2011/12/digiti_report.pdf This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 10
  • 11. Problemfelder • Unvollständigkeit von Digitalen (Zeitungs-)Sammlungen • Keine ausreichenden Ressourcen für die vollständige Digitalisierung • Fehler und Probleme bei der Digitalisierung, z.B. • Schlechte Qualität der OCR • Unvollständige oder fehlerhafte Metadaten • Unterschiedliche Lizenzmodelle • “Copyright Cliff of Death” (@wragge) • Unterschiedliche Granularität der Digitalisate (z.B. Artikel vs. Seiten) • Unterschiedliche Anreicherung (z.B. mit/ohne Named Entities) This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 11
  • 12. Wie also damit umgehen? • Ist es überhaupt möglich auf dieser Datengrundlage eine repräsentative Aussagen z.B. durch ein „random sample“ zu treffen? This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 12 Quelle: http://dilbert.com/strips/comic/2001-10-25/
  • 13. Labs to the rescue? Pieter Francois, Gewinner der British Library Labs competition 2013 hat sich genau diese Frage gestellt: “How representative are the historical texts digital humanities scholars study of the overall body of ‘surviving’ texts that are held in the various library labs.bl.uk/Sample+Generator collections?” This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 13
  • 14. Was ist “gut genug”? Digging into Data Project “Trading Consequences” “Welche Auswirkungen haben OCR Fehler beim Text Mining einer großen Sammlungen von digitalisierten Beständen?” This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 14
  • 15. Statistik, Statistik, Statistik 10 Millione Seiten, 7 Milliarden Wörter – welchen Anteil des Korpus ignoriert man wenn man nur mit “guter” OCR arbeitet? http://homepages.inf.ed.ac.uk/balex/publications/slides-DATeCH.pdf This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 15
  • 16. Vorbild Trove API (Anwendungs-Programmier-Schnittstelle) ermöglicht diverse statistische Anwendungen & Präsentationsmöglichkeiten: This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 16 Trove newspapers word count app
  • 17. Das „Hathi Trust Model“ Hathi Trust Digital Library/Research Center (Aggregator aller US Google-Partner) stellt für durch Copyright geschütze Materialien nur extrahierte „Features“ bereit wie z.B.: • Wortfrequenz (pro Seite/Überschriften/Fußnoten) • Anzahl Zeilen/Sätze • Zeichenanzahl Darüber hinaus gibt es auch die Möglichkeit über eine geschützte virtuelle Forschungsumgebung (HTRC Sandbox Portal) direkt auf den Servern des HTRC Algorithmen auf den Daten auszuführen. This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 17
  • 18. Es gibt viel zu tun…packen wir es an! http://www.europeana-newspapers.eu/digital-newspapers-illustration/ This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 18
  • 19. Danke für Ihre Aufmerksamkeit! @eurnews http://www.europeana-newspapers.eu http://www.theeuropeanlibrary.org/tel4/newspapers http://www.europeana.eu/