1. Digitalisierung von Büchern
Rückerts Werke in 12 Bänden
ein Erfahrungsbericht
Who? Peter Koppatz
From? Supported Distance Learning – Besser lehren
Beratung, Konzeption, Schulung
When? Linuxtag in Chemnitz am 16. März, 2013
1 / 49
2. Inhalt des Vortrags
Projekt: rueckert.gesammelte-werke.org
1 Idee und Motivation für das Projekt
2 Stand der Dinge: ein Blick in andere Projekte
3 Stärken und Schwächen von Digitalisierungsprojekten
4 Ziele des Rückert-Projektes
5 Die Umsetzung
6 Was ist noch zu tun?
7 Diskussion und ggf. Demonstration einiger
Arbeitsschritte
2 / 49
4. Idee und Motivation für das Projekt
Eine Radiosendung und ihre Folgen:
1 www.dradio.de/dlf/sendungen/dasfeature/1705152/
2 Ein Gang ins Antiquariat . . . Treffer!
3 Eine zwölfbändige Ausgabe mit nur elf Bänden
geht in meinen Besitz über.
4 Experimentieren mit neuer Software
5 Ein Trick, die Bücher nicht nur ins Regal zu stellen,
sondern auch zu lesen.
6 Das Angebot kostenloser Literatur erweitern.
7 Eine qualitativ hochwertige Ausgabe, die Lust aufs
Stöbern macht.
4 / 49
5. Ich bin schon da . . .
Hase & Igel
oder
Es gibt doch schon andere Anbieter!
5 / 49
6. Es gibt doch schon andere Anbieter!
Als da wären . . .
GoogleBooks
6 / 49
7. Es gibt doch schon andere Anbieter!
Als da wären . . .
GoogleBooks
Gutenberg [org]
6 / 49
8. Es gibt doch schon andere Anbieter!
Als da wären . . .
GoogleBooks
Gutenberg [org]
Gutenberg [de]
6 / 49
9. Es gibt doch schon andere Anbieter!
Als da wären . . .
GoogleBooks
Gutenberg [org]
Gutenberg [de]
OpenLibrary
6 / 49
10. Es gibt doch schon andere Anbieter!
Als da wären . . .
GoogleBooks
Gutenberg [org]
Gutenberg [de]
OpenLibrary
OpenArchive
6 / 49
11. Das aktuelle Angebot (2013)
Angebotene Titel insgesamt und in deutscher Sprache
Anteile verschiedener Genres deutschsprachiger Literatur
auf gutenberg.org
Wo findet man Friedrich Rückert bei anderen Anbietern?
7 / 49
12. Recherche vor dem Kauf!
Angebotene Titel insgesamt und in deutscher Sprache
Anbieter Anzahl
gesamt deutschsprachig
gutenberg.org 42.000 731
projekt.gutenberg.de 6746 6746
archive.org 3.907.235 227
openlibrary.org 1.000.000 12.665
8 / 49
14. Friedrich Rückert
Wo ist er zu finden?
Rubrik Anzahl
gutenberg.org 1
projekt.gutenberg.de 5
archive.org 57
openlibrary.org 43
Doppelte Einträge und suchmaschinenabhängige
Ergebnisse sind möglich.
10 / 49
15. Was geht – was geht nicht?
Am Beispiel von Kafkas „Die Verwandlung“
Nutzungsbedingungen
Nur als eBook und doch nur halboffen?
11 / 49
16. Ausgabeformate/Export
Am Beispiel von Kafkas „Die Verwandlung“
gutenberg.org (1), projekt.gutenberg.de (2),
archive.org (3), openlibrary.org (4)
Format 1 2 3 4
online x x x x
html x - - -
Text x - - x
PDF - - - x
epub x - x x
kindle x - - x
Plucker x - x -
QiOO Mobil x - - -
DAISY - - - x
MOBI - - - x
DjVu - - - x
12 / 49
31. Umsetzung . . .
Scannen
Texterkennung mit der Software: Tesseract
Texterkennung in GoogleDocs
Texterkennung auf eigenem Rechner
Der Kommandozeilenaufruf
Tesseract-Installation
Tesseract für MacOS
OCR für Fraktur
Formatieren im REST-Format
Transformation
Datensicherung
Kleine Helfer in Python
Index
Korrekturlesen
27 / 49
32. Die Realisierung/Umsetzung
Scannen
Bilder mit 300 DPI + Nachbearbeitung
Ausschneiden der Gedichte, um Speicherplatz zu sparen
Drehen, falls schräg eingescannt
Dateiname vergeben: s001.jpg, s002.jpg, s003.jpg . . .
28 / 49
33. Texterkennung
mit der Software: Tesseract
„Wir sind die Guten . . . “
Website: http://code.google.com/p/tesseract-ocr/
Frakturschrift wird nicht direkt unterstützt, es gibt aber
Erweiterungen.
29 / 49
34. Texterkennung I von III
Texterkennung in GoogleDocs
Ergebnis in Googelbooks (online)
Kleines Flauenlob Frauen sind genannt vom Freuen Weil
sich sreuen kann kein Mann Ohn ein Weib das stets vom
neuen Seel und Leib ersreuen kann Wohlgesraut ist wohl-
gesreuet Ungesreut ist ungesraut Wer der Frauen Auge
scheuet Hat die Freude nie geschaut Wie ersreulich wo
so sraulich Eine Frau geberdet sich So getreulich und so
traulich Wie sich eine schmiegt an mich
30 / 49
35. Texterkennung II von III
Texterkennung auf eigenem Rechner
Ergebnis Tesseract auf eigenem Rechner
Kleines Franks-lob.
Frauen find genannt vom Neuen,
Weil sich freuen kann sein Mann
Ohn’ ein Weib, dag stets von: neuen
SeeP und Leib erfreuen sann.
Wohlgcfraut ist wohlgefreueh
Ungefreut ist ungefrauy
Wer der Frauen Auge schenkt,
Hat die Freude nie geschaut.
Wie erfreulich, wo so fraulich
Eine Frau geberdet sich,
So getreulich und so traulich,
Wie fich eine schntiegt an mich.
31 / 49
36. Texterkennung III von III
Der Kommandozeilenaufruf
Aufruf mit:
tesseract frauenlob.png -l deu frauenlob
32 / 49
49. Zusammenfassung
Software, die im Rückert-Projekt benutzt wird
Wie man helfen kann . . .
Ich hab schon eine Idee – Kontakt/Infos
45 / 49
50. Zusammenfassung
Software, die im Rückert-Projekt benutzt wird
1 OCR/Texterkennung inklusive Fraktur-Schrift mit
tesseract
2 Rohtexte im REST-Format erstellen und speichern
3 Transformation mit Sphinx
4 Datensicherung mit einem verteilten
Versions-Kontroll-System (Git, Bazaar, Mercurial)
5 Publizieren auf gutenberg.org, openlibrary.org, eigener
Website
6 Automatisierte Verarbeitung mit einer Sprache der Wahl,
z. B. Python
46 / 49
51. Was man selbst tun kann,
um Alternativen anzubieten
1 Spenden an Projekte, die Infrastruktur zur Verfügung
stellen und unterhalten
2 Wer sein Lieblingsbuch anderen zugänglich machen will,
ist herzlich eingeladen, es selbst zu digitalisieren.
3 Werden Sie Korrekturleser («Distributed Proofreader»,
http://www.pgdp.net)
4 Erzählen Sie jedem, dass es solche Projekte gibt.
5 Lesen Sie wieder einmal ein Buch, ein Gedicht oder
andere Nicht-Fachliteratur .
47 / 49
52. Ich hab schon eine Idee
Kontakt/Infos
Kontakt: Peter Koppatz
Web: http://rueckert.gesammelte-werke.org
Web: http://www.sudile.com
E-Mail: pkoppatz@web.de
Tel: (0)331 200 297 17
Postanschrift
Sudile GbR
Jägerstraße 36
14467 Potsdam
48 / 49
53. Nachbetrachtung
Erfahrungsaustausch ist die billigste Investition.
In der Diskussion kamen wichtige Hinweise von
Zuhörern, die es zu beachten gilt bzw. zu testen lohnt.
1 Bilder mit mindestens 400 DPI scannen
2 Schief gescannte Bilder gerade rücken:
http://ortyl.org/pgmangle.html
3 Bevorzugte Bildformate für die Weiterverarbeitung durch
eine OCR-Software ist PNG oder TIFF, JPG eher nicht
verwenden, weil die Kanten weichgezeichnet werden.
4 Für bessere Ergebnisse sollte Tesseract «trainiert»
werden.
49 / 49