SlideShare ist ein Scribd-Unternehmen logo
1 von 53
Downloaden Sie, um offline zu lesen
Digitalisierung von Büchern
Rückerts Werke in 12 Bänden
ein Erfahrungsbericht
Who? Peter Koppatz
From? Supported Distance Learning – Besser lehren
Beratung, Konzeption, Schulung
When? Linuxtag in Chemnitz am 16. März, 2013
1 / 49
Inhalt des Vortrags
Projekt: rueckert.gesammelte-werke.org
1 Idee und Motivation für das Projekt
2 Stand der Dinge: ein Blick in andere Projekte
3 Stärken und Schwächen von Digitalisierungsprojekten
4 Ziele des Rückert-Projektes
5 Die Umsetzung
6 Was ist noch zu tun?
7 Diskussion und ggf. Demonstration einiger
Arbeitsschritte
2 / 49
Lesen bildet. . .
3 / 49
Idee und Motivation für das Projekt
Eine Radiosendung und ihre Folgen:
1 www.dradio.de/dlf/sendungen/dasfeature/1705152/
2 Ein Gang ins Antiquariat . . . Treffer!
3 Eine zwölfbändige Ausgabe mit nur elf Bänden
geht in meinen Besitz über.
4 Experimentieren mit neuer Software
5 Ein Trick, die Bücher nicht nur ins Regal zu stellen,
sondern auch zu lesen.
6 Das Angebot kostenloser Literatur erweitern.
7 Eine qualitativ hochwertige Ausgabe, die Lust aufs
Stöbern macht.
4 / 49
Ich bin schon da . . .
Hase & Igel
oder
Es gibt doch schon andere Anbieter!
5 / 49
Es gibt doch schon andere Anbieter!
Als da wären . . .
GoogleBooks
6 / 49
Es gibt doch schon andere Anbieter!
Als da wären . . .
GoogleBooks
Gutenberg [org]
6 / 49
Es gibt doch schon andere Anbieter!
Als da wären . . .
GoogleBooks
Gutenberg [org]
Gutenberg [de]
6 / 49
Es gibt doch schon andere Anbieter!
Als da wären . . .
GoogleBooks
Gutenberg [org]
Gutenberg [de]
OpenLibrary
6 / 49
Es gibt doch schon andere Anbieter!
Als da wären . . .
GoogleBooks
Gutenberg [org]
Gutenberg [de]
OpenLibrary
OpenArchive
6 / 49
Das aktuelle Angebot (2013)
Angebotene Titel insgesamt und in deutscher Sprache
Anteile verschiedener Genres deutschsprachiger Literatur
auf gutenberg.org
Wo findet man Friedrich Rückert bei anderen Anbietern?
7 / 49
Recherche vor dem Kauf!
Angebotene Titel insgesamt und in deutscher Sprache
Anbieter Anzahl
gesamt deutschsprachig
gutenberg.org 42.000 731
projekt.gutenberg.de 6746 6746
archive.org 3.907.235 227
openlibrary.org 1.000.000 12.665
8 / 49
Rubriken
Anteile verschiedener Genres deutschsprachiger Literatur auf
gutenberg.org
Rubrik Anzahl
Drama 23
Märchen 69
Lyrik 39
Prosa 365
Sachbücher 235
Summe 731
9 / 49
Friedrich Rückert
Wo ist er zu finden?
Rubrik Anzahl
gutenberg.org 1
projekt.gutenberg.de 5
archive.org 57
openlibrary.org 43
Doppelte Einträge und suchmaschinenabhängige
Ergebnisse sind möglich.
10 / 49
Was geht – was geht nicht?
Am Beispiel von Kafkas „Die Verwandlung“
Nutzungsbedingungen
Nur als eBook und doch nur halboffen?
11 / 49
Ausgabeformate/Export
Am Beispiel von Kafkas „Die Verwandlung“
gutenberg.org (1), projekt.gutenberg.de (2),
archive.org (3), openlibrary.org (4)
Format 1 2 3 4
online x x x x
html x - - -
Text x - - x
PDF - - - x
epub x - x x
kindle x - - x
Plucker x - x -
QiOO Mobil x - - -
DAISY - - - x
MOBI - - - x
DjVu - - - x
12 / 49
Bayerische StaatsBibliothek
Nutzungsbedingungen:
Warum die Frage, wenn ich es einmalig als PDF
speichern will?
13 / 49
Quelltext herunterladen
Nur als e-Book und doch nur halboffen?
14 / 49
Online lesen
auf archive.org
auf projekt.gutenberg.de
auf gutenberg.org
15 / 49
Online lesen
archive.org
16 / 49
Online lesen
in kleinem Fenster? (projekt.gutenberg.de)
17 / 49
Online lesen
in kleinem Fenster? (gutenberg.org)
18 / 49
Suchen . . .
Beispiel: Bayerische StaatsBibliothek
Beispiel: archive.org
19 / 49
Volltextsuche in ...
Beispiel: Bayerische StaatsBibliothek
20 / 49
Volltextsuche in ...
Volltextsuche: archive.org
21 / 49
Ziele für gesammelte-werke.org
Gute Volltextsuche
Gute Lesbarkeit (online)
Quellen im REST-Format
Export in diverse Formate
22 / 49
Ziele für gesammelte-werke.org
Gute Volltextsuche
23 / 49
Ziele für gesammelte-werke.org
Gute Lesbarkeit (online)
24 / 49
Ziele für gesammelte-werke.org
Quellen im REST-Format
25 / 49
Ziele für gesammelte-werke.org
Export in diverse Formate
26 / 49
Umsetzung . . .
Scannen
Texterkennung mit der Software: Tesseract
Texterkennung in GoogleDocs
Texterkennung auf eigenem Rechner
Der Kommandozeilenaufruf
Tesseract-Installation
Tesseract für MacOS
OCR für Fraktur
Formatieren im REST-Format
Transformation
Datensicherung
Kleine Helfer in Python
Index
Korrekturlesen
27 / 49
Die Realisierung/Umsetzung
Scannen
Bilder mit 300 DPI + Nachbearbeitung
Ausschneiden der Gedichte, um Speicherplatz zu sparen
Drehen, falls schräg eingescannt
Dateiname vergeben: s001.jpg, s002.jpg, s003.jpg . . .
28 / 49
Texterkennung
mit der Software: Tesseract
„Wir sind die Guten . . . “
Website: http://code.google.com/p/tesseract-ocr/
Frakturschrift wird nicht direkt unterstützt, es gibt aber
Erweiterungen.
29 / 49
Texterkennung I von III
Texterkennung in GoogleDocs
Ergebnis in Googelbooks (online)
Kleines Flauenlob Frauen sind genannt vom Freuen Weil
sich sreuen kann kein Mann Ohn ein Weib das stets vom
neuen Seel und Leib ersreuen kann Wohlgesraut ist wohl-
gesreuet Ungesreut ist ungesraut Wer der Frauen Auge
scheuet Hat die Freude nie geschaut Wie ersreulich wo
so sraulich Eine Frau geberdet sich So getreulich und so
traulich Wie sich eine schmiegt an mich
30 / 49
Texterkennung II von III
Texterkennung auf eigenem Rechner
Ergebnis Tesseract auf eigenem Rechner
Kleines Franks-lob.
Frauen find genannt vom Neuen,
Weil sich freuen kann sein Mann
Ohn’ ein Weib, dag stets von: neuen
SeeP und Leib erfreuen sann.
Wohlgcfraut ist wohlgefreueh
Ungefreut ist ungefrauy
Wer der Frauen Auge schenkt,
Hat die Freude nie geschaut.
Wie erfreulich, wo so fraulich
Eine Frau geberdet sich,
So getreulich und so traulich,
Wie fich eine schntiegt an mich.
31 / 49
Texterkennung III von III
Der Kommandozeilenaufruf
Aufruf mit:
tesseract frauenlob.png -l deu frauenlob
32 / 49
Tesseract-Installation
http://code.google.com/p/tesseract-ocr/wiki/Compiling
Abhängigkeiten prüfen, am Beispiel von Debian:
sudo apt-get install autoconf automake libtool
sudo apt-get install libpng12-dev
sudo apt-get install libjpeg62-dev
sudo apt-get install libtiff4-dev
sudo apt-get install zlib1g-dev
Zusätzlich muss Leptonica installiert sein.
33 / 49
Tesseract-Installation
http://code.google.com/p/tesseract-ocr/wiki/Compiling
Installations-Dreisatz
./autogen.sh
./configure –prefix=$HOME/local/
make install
34 / 49
Tesseract für MacOS
http://code.google.com/p/tesseract-ocr/wiki/Compiling
Mit Unterstützung von «Homebrew»
install tesseract
ls /usr/local/Cellar/tesseract/<version>/share/tessdata
deu.traineddata
eng.traineddata
35 / 49
Tesseract für MacOS
Ein GUI von http://www.malcolmhardie.com/ocr/index.html
36 / 49
OCR für Fraktur
http://code.google.com/p/tesseract-ocr/downloads/list
deu.traindeddata kopieren
cp deu.traineddata <mein tesseract-Ordner>/tessdata
37 / 49
Formatieren im REST-Format
http://sphinx-doc.org/rest.html
38 / 49
Transformation
Aufruf mit make
39 / 49
Datensicherung
Mercurial/Rhodecode
40 / 49
Kleine Helfer in Python
Indexerstellung und Seiten mit den gescannten Bildern
41 / 49
Index
REST-Format
42 / 49
Index
Spezialindex neben der Volltextsuche
43 / 49
Scan-Vorlage
Korrekturlesen
44 / 49
Zusammenfassung
Software, die im Rückert-Projekt benutzt wird
Wie man helfen kann . . .
Ich hab schon eine Idee – Kontakt/Infos
45 / 49
Zusammenfassung
Software, die im Rückert-Projekt benutzt wird
1 OCR/Texterkennung inklusive Fraktur-Schrift mit
tesseract
2 Rohtexte im REST-Format erstellen und speichern
3 Transformation mit Sphinx
4 Datensicherung mit einem verteilten
Versions-Kontroll-System (Git, Bazaar, Mercurial)
5 Publizieren auf gutenberg.org, openlibrary.org, eigener
Website
6 Automatisierte Verarbeitung mit einer Sprache der Wahl,
z. B. Python
46 / 49
Was man selbst tun kann,
um Alternativen anzubieten
1 Spenden an Projekte, die Infrastruktur zur Verfügung
stellen und unterhalten
2 Wer sein Lieblingsbuch anderen zugänglich machen will,
ist herzlich eingeladen, es selbst zu digitalisieren.
3 Werden Sie Korrekturleser («Distributed Proofreader»,
http://www.pgdp.net)
4 Erzählen Sie jedem, dass es solche Projekte gibt.
5 Lesen Sie wieder einmal ein Buch, ein Gedicht oder
andere Nicht-Fachliteratur .
47 / 49
Ich hab schon eine Idee
Kontakt/Infos
Kontakt: Peter Koppatz
Web: http://rueckert.gesammelte-werke.org
Web: http://www.sudile.com
E-Mail: pkoppatz@web.de
Tel: (0)331 200 297 17
Postanschrift
Sudile GbR
Jägerstraße 36
14467 Potsdam
48 / 49
Nachbetrachtung
Erfahrungsaustausch ist die billigste Investition.
In der Diskussion kamen wichtige Hinweise von
Zuhörern, die es zu beachten gilt bzw. zu testen lohnt.
1 Bilder mit mindestens 400 DPI scannen
2 Schief gescannte Bilder gerade rücken:
http://ortyl.org/pgmangle.html
3 Bevorzugte Bildformate für die Weiterverarbeitung durch
eine OCR-Software ist PNG oder TIFF, JPG eher nicht
verwenden, weil die Kanten weichgezeichnet werden.
4 Für bessere Ergebnisse sollte Tesseract «trainiert»
werden.
49 / 49

Weitere ähnliche Inhalte

Andere mochten auch

Equran2a
Equran2aEquran2a
Equran2aazraq
 
Los bichos de mi jardn
Los bichos de mi jardnLos bichos de mi jardn
Los bichos de mi jardngonansa99
 
Code for Germany – Slidedeck Dez. 2014
Code for Germany – Slidedeck Dez. 2014Code for Germany – Slidedeck Dez. 2014
Code for Germany – Slidedeck Dez. 2014codeforde
 
Bratz Colouring Pages and Kids Colouring Activities
Bratz Colouring Pages and Kids Colouring ActivitiesBratz Colouring Pages and Kids Colouring Activities
Bratz Colouring Pages and Kids Colouring Activitiescolouringpages
 
GoverBreak Bonn: Impuls Open Data
GoverBreak Bonn: Impuls Open DataGoverBreak Bonn: Impuls Open Data
GoverBreak Bonn: Impuls Open DataGoverBreak
 
La publicidad
La publicidadLa publicidad
La publicidadleidy95
 
Morriondo Presentacion
Morriondo PresentacionMorriondo Presentacion
Morriondo Presentacionbenjamin9696
 
Legalizacion y organizacion
Legalizacion y organizacionLegalizacion y organizacion
Legalizacion y organizacionleidy95
 
1228415718 actividades ahorro_secundaria_eramac_ii
1228415718 actividades ahorro_secundaria_eramac_ii1228415718 actividades ahorro_secundaria_eramac_ii
1228415718 actividades ahorro_secundaria_eramac_iiPepa Pepa
 
30. mantenimiento-del_embrague
30.  mantenimiento-del_embrague30.  mantenimiento-del_embrague
30. mantenimiento-del_embragueGrupo Los Moteros
 

Andere mochten auch (19)

P200C Banner 2
P200C Banner 2P200C Banner 2
P200C Banner 2
 
Exhibition Banners
Exhibition BannersExhibition Banners
Exhibition Banners
 
Equran2a
Equran2aEquran2a
Equran2a
 
Los bichos de mi jardn
Los bichos de mi jardnLos bichos de mi jardn
Los bichos de mi jardn
 
Code for Germany – Slidedeck Dez. 2014
Code for Germany – Slidedeck Dez. 2014Code for Germany – Slidedeck Dez. 2014
Code for Germany – Slidedeck Dez. 2014
 
Bratz Colouring Pages and Kids Colouring Activities
Bratz Colouring Pages and Kids Colouring ActivitiesBratz Colouring Pages and Kids Colouring Activities
Bratz Colouring Pages and Kids Colouring Activities
 
Stalls
StallsStalls
Stalls
 
GoverBreak Bonn: Impuls Open Data
GoverBreak Bonn: Impuls Open DataGoverBreak Bonn: Impuls Open Data
GoverBreak Bonn: Impuls Open Data
 
Topologias
TopologiasTopologias
Topologias
 
La publicidad
La publicidadLa publicidad
La publicidad
 
Monocordio de pitágoras
Monocordio de pitágorasMonocordio de pitágoras
Monocordio de pitágoras
 
Huu Tung
Huu TungHuu Tung
Huu Tung
 
Morriondo Presentacion
Morriondo PresentacionMorriondo Presentacion
Morriondo Presentacion
 
Topologias
TopologiasTopologias
Topologias
 
Legalizacion y organizacion
Legalizacion y organizacionLegalizacion y organizacion
Legalizacion y organizacion
 
1228415718 actividades ahorro_secundaria_eramac_ii
1228415718 actividades ahorro_secundaria_eramac_ii1228415718 actividades ahorro_secundaria_eramac_ii
1228415718 actividades ahorro_secundaria_eramac_ii
 
Fractales
FractalesFractales
Fractales
 
30. mantenimiento-del_embrague
30.  mantenimiento-del_embrague30.  mantenimiento-del_embrague
30. mantenimiento-del_embrague
 
Las tics
Las ticsLas tics
Las tics
 

Ähnlich wie Digitalisierung von Büchern

Multicore Parallele Programmierung Kng617
Multicore Parallele Programmierung Kng617Multicore Parallele Programmierung Kng617
Multicore Parallele Programmierung Kng617guest465f28
 
Multicore Parallele Programmierung Kng617
Multicore Parallele Programmierung Kng617Multicore Parallele Programmierung Kng617
Multicore Parallele Programmierung Kng617guest465f28
 
Überblick zum DFG-Projekt OCR-D
Überblick zum DFG-Projekt OCR-DÜberblick zum DFG-Projekt OCR-D
Überblick zum DFG-Projekt OCR-Dcneudecker
 
.NET Datenzugriff einfach und performant mit Micro O/R Mappern
.NET Datenzugriff einfach und performant mit Micro O/R Mappern .NET Datenzugriff einfach und performant mit Micro O/R Mappern
.NET Datenzugriff einfach und performant mit Micro O/R Mappern André Krämer
 
Docbook: Textverarbeitung mit XML
Docbook: Textverarbeitung mit XMLDocbook: Textverarbeitung mit XML
Docbook: Textverarbeitung mit XMLPeter Eisentraut
 
Dart (Teil II der Tour de Dart)
Dart (Teil II der Tour de Dart)Dart (Teil II der Tour de Dart)
Dart (Teil II der Tour de Dart)Nane Kratzke
 
DURAARK at Bibliotheksymposium Wildau
DURAARK at Bibliotheksymposium WildauDURAARK at Bibliotheksymposium Wildau
DURAARK at Bibliotheksymposium Wildaupanitzm
 
Sdv 0405 design-pattern_thc_jps_skript
Sdv 0405 design-pattern_thc_jps_skriptSdv 0405 design-pattern_thc_jps_skript
Sdv 0405 design-pattern_thc_jps_skriptTomasz Waszczyk
 
Sdv 0405 design-pattern_thc_jps_skript
Sdv 0405 design-pattern_thc_jps_skriptSdv 0405 design-pattern_thc_jps_skript
Sdv 0405 design-pattern_thc_jps_skriptTomasz Waszczyk
 
JavaScript und Security - JavaScript Days 2013 Berlin
JavaScript und Security - JavaScript Days 2013 BerlinJavaScript und Security - JavaScript Days 2013 Berlin
JavaScript und Security - JavaScript Days 2013 BerlinJohann-Peter Hartmann
 
Text and Data Mining
Text and Data MiningText and Data Mining
Text and Data Miningcneudecker
 
Eine Stunde was mit Api First!
Eine Stunde was mit Api First!Eine Stunde was mit Api First!
Eine Stunde was mit Api First!JanWeinschenker
 
OCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen Edition
OCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen EditionOCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen Edition
OCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen Editioncneudecker
 
Der gesamte Redaktionsprozess mit Open Source
Der gesamte Redaktionsprozess mit Open SourceDer gesamte Redaktionsprozess mit Open Source
Der gesamte Redaktionsprozess mit Open Sourceyellowcow
 
Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...
Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...
Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...cneudecker
 
Python Mike Müller
Python Mike MüllerPython Mike Müller
Python Mike MüllerAberla
 

Ähnlich wie Digitalisierung von Büchern (20)

Multicore Parallele Programmierung Kng617
Multicore Parallele Programmierung Kng617Multicore Parallele Programmierung Kng617
Multicore Parallele Programmierung Kng617
 
Multicore Parallele Programmierung Kng617
Multicore Parallele Programmierung Kng617Multicore Parallele Programmierung Kng617
Multicore Parallele Programmierung Kng617
 
Überblick zum DFG-Projekt OCR-D
Überblick zum DFG-Projekt OCR-DÜberblick zum DFG-Projekt OCR-D
Überblick zum DFG-Projekt OCR-D
 
Dev + Ops = Go
Dev + Ops = GoDev + Ops = Go
Dev + Ops = Go
 
.NET Datenzugriff einfach und performant mit Micro O/R Mappern
.NET Datenzugriff einfach und performant mit Micro O/R Mappern .NET Datenzugriff einfach und performant mit Micro O/R Mappern
.NET Datenzugriff einfach und performant mit Micro O/R Mappern
 
Docbook: Textverarbeitung mit XML
Docbook: Textverarbeitung mit XMLDocbook: Textverarbeitung mit XML
Docbook: Textverarbeitung mit XML
 
Dart (Teil II der Tour de Dart)
Dart (Teil II der Tour de Dart)Dart (Teil II der Tour de Dart)
Dart (Teil II der Tour de Dart)
 
NRWConf2013_T4CodeGeneration
NRWConf2013_T4CodeGenerationNRWConf2013_T4CodeGeneration
NRWConf2013_T4CodeGeneration
 
DURAARK at Bibliotheksymposium Wildau
DURAARK at Bibliotheksymposium WildauDURAARK at Bibliotheksymposium Wildau
DURAARK at Bibliotheksymposium Wildau
 
Sdv 0405 design-pattern_thc_jps_skript
Sdv 0405 design-pattern_thc_jps_skriptSdv 0405 design-pattern_thc_jps_skript
Sdv 0405 design-pattern_thc_jps_skript
 
Sdv 0405 design-pattern_thc_jps_skript
Sdv 0405 design-pattern_thc_jps_skriptSdv 0405 design-pattern_thc_jps_skript
Sdv 0405 design-pattern_thc_jps_skript
 
JavaScript und Security - JavaScript Days 2013 Berlin
JavaScript und Security - JavaScript Days 2013 BerlinJavaScript und Security - JavaScript Days 2013 Berlin
JavaScript und Security - JavaScript Days 2013 Berlin
 
Text and Data Mining
Text and Data MiningText and Data Mining
Text and Data Mining
 
Eine Stunde was mit Api First!
Eine Stunde was mit Api First!Eine Stunde was mit Api First!
Eine Stunde was mit Api First!
 
Xm b
Xm bXm b
Xm b
 
OCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen Edition
OCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen EditionOCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen Edition
OCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen Edition
 
Der gesamte Redaktionsprozess mit Open Source
Der gesamte Redaktionsprozess mit Open SourceDer gesamte Redaktionsprozess mit Open Source
Der gesamte Redaktionsprozess mit Open Source
 
Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...
Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...
Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...
 
Findability
FindabilityFindability
Findability
 
Python Mike Müller
Python Mike MüllerPython Mike Müller
Python Mike Müller
 

Mehr von pyhasse

Folien: Linuxtage Chemnitz 2018
Folien: Linuxtage Chemnitz 2018Folien: Linuxtage Chemnitz 2018
Folien: Linuxtage Chemnitz 2018pyhasse
 
PyMove3D CodeWeek 2017
PyMove3D CodeWeek 2017PyMove3D CodeWeek 2017
PyMove3D CodeWeek 2017pyhasse
 
Exkursion Pflanzenbestimmung
Exkursion PflanzenbestimmungExkursion Pflanzenbestimmung
Exkursion Pflanzenbestimmungpyhasse
 
Blender at school
Blender at schoolBlender at school
Blender at schoolpyhasse
 
Blender 3D für die Schule
Blender 3D für die SchuleBlender 3D für die Schule
Blender 3D für die Schulepyhasse
 
Hasse diagram in 3D
Hasse diagram in 3DHasse diagram in 3D
Hasse diagram in 3Dpyhasse
 
Hasse Diagramme in 3D
Hasse Diagramme in 3DHasse Diagramme in 3D
Hasse Diagramme in 3Dpyhasse
 
Tutorial: Chain
Tutorial: ChainTutorial: Chain
Tutorial: Chainpyhasse
 
Tutorial spyout
Tutorial spyoutTutorial spyout
Tutorial spyoutpyhasse
 

Mehr von pyhasse (9)

Folien: Linuxtage Chemnitz 2018
Folien: Linuxtage Chemnitz 2018Folien: Linuxtage Chemnitz 2018
Folien: Linuxtage Chemnitz 2018
 
PyMove3D CodeWeek 2017
PyMove3D CodeWeek 2017PyMove3D CodeWeek 2017
PyMove3D CodeWeek 2017
 
Exkursion Pflanzenbestimmung
Exkursion PflanzenbestimmungExkursion Pflanzenbestimmung
Exkursion Pflanzenbestimmung
 
Blender at school
Blender at schoolBlender at school
Blender at school
 
Blender 3D für die Schule
Blender 3D für die SchuleBlender 3D für die Schule
Blender 3D für die Schule
 
Hasse diagram in 3D
Hasse diagram in 3DHasse diagram in 3D
Hasse diagram in 3D
 
Hasse Diagramme in 3D
Hasse Diagramme in 3DHasse Diagramme in 3D
Hasse Diagramme in 3D
 
Tutorial: Chain
Tutorial: ChainTutorial: Chain
Tutorial: Chain
 
Tutorial spyout
Tutorial spyoutTutorial spyout
Tutorial spyout
 

Digitalisierung von Büchern

  • 1. Digitalisierung von Büchern Rückerts Werke in 12 Bänden ein Erfahrungsbericht Who? Peter Koppatz From? Supported Distance Learning – Besser lehren Beratung, Konzeption, Schulung When? Linuxtag in Chemnitz am 16. März, 2013 1 / 49
  • 2. Inhalt des Vortrags Projekt: rueckert.gesammelte-werke.org 1 Idee und Motivation für das Projekt 2 Stand der Dinge: ein Blick in andere Projekte 3 Stärken und Schwächen von Digitalisierungsprojekten 4 Ziele des Rückert-Projektes 5 Die Umsetzung 6 Was ist noch zu tun? 7 Diskussion und ggf. Demonstration einiger Arbeitsschritte 2 / 49
  • 3. Lesen bildet. . . 3 / 49
  • 4. Idee und Motivation für das Projekt Eine Radiosendung und ihre Folgen: 1 www.dradio.de/dlf/sendungen/dasfeature/1705152/ 2 Ein Gang ins Antiquariat . . . Treffer! 3 Eine zwölfbändige Ausgabe mit nur elf Bänden geht in meinen Besitz über. 4 Experimentieren mit neuer Software 5 Ein Trick, die Bücher nicht nur ins Regal zu stellen, sondern auch zu lesen. 6 Das Angebot kostenloser Literatur erweitern. 7 Eine qualitativ hochwertige Ausgabe, die Lust aufs Stöbern macht. 4 / 49
  • 5. Ich bin schon da . . . Hase & Igel oder Es gibt doch schon andere Anbieter! 5 / 49
  • 6. Es gibt doch schon andere Anbieter! Als da wären . . . GoogleBooks 6 / 49
  • 7. Es gibt doch schon andere Anbieter! Als da wären . . . GoogleBooks Gutenberg [org] 6 / 49
  • 8. Es gibt doch schon andere Anbieter! Als da wären . . . GoogleBooks Gutenberg [org] Gutenberg [de] 6 / 49
  • 9. Es gibt doch schon andere Anbieter! Als da wären . . . GoogleBooks Gutenberg [org] Gutenberg [de] OpenLibrary 6 / 49
  • 10. Es gibt doch schon andere Anbieter! Als da wären . . . GoogleBooks Gutenberg [org] Gutenberg [de] OpenLibrary OpenArchive 6 / 49
  • 11. Das aktuelle Angebot (2013) Angebotene Titel insgesamt und in deutscher Sprache Anteile verschiedener Genres deutschsprachiger Literatur auf gutenberg.org Wo findet man Friedrich Rückert bei anderen Anbietern? 7 / 49
  • 12. Recherche vor dem Kauf! Angebotene Titel insgesamt und in deutscher Sprache Anbieter Anzahl gesamt deutschsprachig gutenberg.org 42.000 731 projekt.gutenberg.de 6746 6746 archive.org 3.907.235 227 openlibrary.org 1.000.000 12.665 8 / 49
  • 13. Rubriken Anteile verschiedener Genres deutschsprachiger Literatur auf gutenberg.org Rubrik Anzahl Drama 23 Märchen 69 Lyrik 39 Prosa 365 Sachbücher 235 Summe 731 9 / 49
  • 14. Friedrich Rückert Wo ist er zu finden? Rubrik Anzahl gutenberg.org 1 projekt.gutenberg.de 5 archive.org 57 openlibrary.org 43 Doppelte Einträge und suchmaschinenabhängige Ergebnisse sind möglich. 10 / 49
  • 15. Was geht – was geht nicht? Am Beispiel von Kafkas „Die Verwandlung“ Nutzungsbedingungen Nur als eBook und doch nur halboffen? 11 / 49
  • 16. Ausgabeformate/Export Am Beispiel von Kafkas „Die Verwandlung“ gutenberg.org (1), projekt.gutenberg.de (2), archive.org (3), openlibrary.org (4) Format 1 2 3 4 online x x x x html x - - - Text x - - x PDF - - - x epub x - x x kindle x - - x Plucker x - x - QiOO Mobil x - - - DAISY - - - x MOBI - - - x DjVu - - - x 12 / 49
  • 17. Bayerische StaatsBibliothek Nutzungsbedingungen: Warum die Frage, wenn ich es einmalig als PDF speichern will? 13 / 49
  • 18. Quelltext herunterladen Nur als e-Book und doch nur halboffen? 14 / 49
  • 19. Online lesen auf archive.org auf projekt.gutenberg.de auf gutenberg.org 15 / 49
  • 21. Online lesen in kleinem Fenster? (projekt.gutenberg.de) 17 / 49
  • 22. Online lesen in kleinem Fenster? (gutenberg.org) 18 / 49
  • 23. Suchen . . . Beispiel: Bayerische StaatsBibliothek Beispiel: archive.org 19 / 49
  • 24. Volltextsuche in ... Beispiel: Bayerische StaatsBibliothek 20 / 49
  • 25. Volltextsuche in ... Volltextsuche: archive.org 21 / 49
  • 26. Ziele für gesammelte-werke.org Gute Volltextsuche Gute Lesbarkeit (online) Quellen im REST-Format Export in diverse Formate 22 / 49
  • 27. Ziele für gesammelte-werke.org Gute Volltextsuche 23 / 49
  • 28. Ziele für gesammelte-werke.org Gute Lesbarkeit (online) 24 / 49
  • 29. Ziele für gesammelte-werke.org Quellen im REST-Format 25 / 49
  • 30. Ziele für gesammelte-werke.org Export in diverse Formate 26 / 49
  • 31. Umsetzung . . . Scannen Texterkennung mit der Software: Tesseract Texterkennung in GoogleDocs Texterkennung auf eigenem Rechner Der Kommandozeilenaufruf Tesseract-Installation Tesseract für MacOS OCR für Fraktur Formatieren im REST-Format Transformation Datensicherung Kleine Helfer in Python Index Korrekturlesen 27 / 49
  • 32. Die Realisierung/Umsetzung Scannen Bilder mit 300 DPI + Nachbearbeitung Ausschneiden der Gedichte, um Speicherplatz zu sparen Drehen, falls schräg eingescannt Dateiname vergeben: s001.jpg, s002.jpg, s003.jpg . . . 28 / 49
  • 33. Texterkennung mit der Software: Tesseract „Wir sind die Guten . . . “ Website: http://code.google.com/p/tesseract-ocr/ Frakturschrift wird nicht direkt unterstützt, es gibt aber Erweiterungen. 29 / 49
  • 34. Texterkennung I von III Texterkennung in GoogleDocs Ergebnis in Googelbooks (online) Kleines Flauenlob Frauen sind genannt vom Freuen Weil sich sreuen kann kein Mann Ohn ein Weib das stets vom neuen Seel und Leib ersreuen kann Wohlgesraut ist wohl- gesreuet Ungesreut ist ungesraut Wer der Frauen Auge scheuet Hat die Freude nie geschaut Wie ersreulich wo so sraulich Eine Frau geberdet sich So getreulich und so traulich Wie sich eine schmiegt an mich 30 / 49
  • 35. Texterkennung II von III Texterkennung auf eigenem Rechner Ergebnis Tesseract auf eigenem Rechner Kleines Franks-lob. Frauen find genannt vom Neuen, Weil sich freuen kann sein Mann Ohn’ ein Weib, dag stets von: neuen SeeP und Leib erfreuen sann. Wohlgcfraut ist wohlgefreueh Ungefreut ist ungefrauy Wer der Frauen Auge schenkt, Hat die Freude nie geschaut. Wie erfreulich, wo so fraulich Eine Frau geberdet sich, So getreulich und so traulich, Wie fich eine schntiegt an mich. 31 / 49
  • 36. Texterkennung III von III Der Kommandozeilenaufruf Aufruf mit: tesseract frauenlob.png -l deu frauenlob 32 / 49
  • 37. Tesseract-Installation http://code.google.com/p/tesseract-ocr/wiki/Compiling Abhängigkeiten prüfen, am Beispiel von Debian: sudo apt-get install autoconf automake libtool sudo apt-get install libpng12-dev sudo apt-get install libjpeg62-dev sudo apt-get install libtiff4-dev sudo apt-get install zlib1g-dev Zusätzlich muss Leptonica installiert sein. 33 / 49
  • 39. Tesseract für MacOS http://code.google.com/p/tesseract-ocr/wiki/Compiling Mit Unterstützung von «Homebrew» install tesseract ls /usr/local/Cellar/tesseract/<version>/share/tessdata deu.traineddata eng.traineddata 35 / 49
  • 40. Tesseract für MacOS Ein GUI von http://www.malcolmhardie.com/ocr/index.html 36 / 49
  • 41. OCR für Fraktur http://code.google.com/p/tesseract-ocr/downloads/list deu.traindeddata kopieren cp deu.traineddata <mein tesseract-Ordner>/tessdata 37 / 49
  • 45. Kleine Helfer in Python Indexerstellung und Seiten mit den gescannten Bildern 41 / 49
  • 47. Index Spezialindex neben der Volltextsuche 43 / 49
  • 49. Zusammenfassung Software, die im Rückert-Projekt benutzt wird Wie man helfen kann . . . Ich hab schon eine Idee – Kontakt/Infos 45 / 49
  • 50. Zusammenfassung Software, die im Rückert-Projekt benutzt wird 1 OCR/Texterkennung inklusive Fraktur-Schrift mit tesseract 2 Rohtexte im REST-Format erstellen und speichern 3 Transformation mit Sphinx 4 Datensicherung mit einem verteilten Versions-Kontroll-System (Git, Bazaar, Mercurial) 5 Publizieren auf gutenberg.org, openlibrary.org, eigener Website 6 Automatisierte Verarbeitung mit einer Sprache der Wahl, z. B. Python 46 / 49
  • 51. Was man selbst tun kann, um Alternativen anzubieten 1 Spenden an Projekte, die Infrastruktur zur Verfügung stellen und unterhalten 2 Wer sein Lieblingsbuch anderen zugänglich machen will, ist herzlich eingeladen, es selbst zu digitalisieren. 3 Werden Sie Korrekturleser («Distributed Proofreader», http://www.pgdp.net) 4 Erzählen Sie jedem, dass es solche Projekte gibt. 5 Lesen Sie wieder einmal ein Buch, ein Gedicht oder andere Nicht-Fachliteratur . 47 / 49
  • 52. Ich hab schon eine Idee Kontakt/Infos Kontakt: Peter Koppatz Web: http://rueckert.gesammelte-werke.org Web: http://www.sudile.com E-Mail: pkoppatz@web.de Tel: (0)331 200 297 17 Postanschrift Sudile GbR Jägerstraße 36 14467 Potsdam 48 / 49
  • 53. Nachbetrachtung Erfahrungsaustausch ist die billigste Investition. In der Diskussion kamen wichtige Hinweise von Zuhörern, die es zu beachten gilt bzw. zu testen lohnt. 1 Bilder mit mindestens 400 DPI scannen 2 Schief gescannte Bilder gerade rücken: http://ortyl.org/pgmangle.html 3 Bevorzugte Bildformate für die Weiterverarbeitung durch eine OCR-Software ist PNG oder TIFF, JPG eher nicht verwenden, weil die Kanten weichgezeichnet werden. 4 Für bessere Ergebnisse sollte Tesseract «trainiert» werden. 49 / 49