»Arme Nachlassverwalter…« –
Herausforderungen, Erkenntnisse
und Lösungsansätze bei der Aufbereitung
komplexer digitaler Da...
D-Archiv 1.0: ca. 2003 bis 2013
Digitale Nach- und Vorlassteile
insgesamt bis 2013 (ohne
Friedrich Kittler):
• 35 Bestände...
D-Archiv 1.0: ca. 2003 bis 2013
Digitale Nach- und Vorlassteile
insgesamt bis 2013 (ohne
Friedrich Kittler):
• 35 Bestände...
Friedrich Kittler: Mengen
- Fünf (sieben?) PCs
- Sechs Festplatten(-Images) mit
10 Partitionen (»hd«)
- 336 Disketten (»fd...
»arme Nachlaßverwalter…«
FK: Anzahl Datenträger
FK: 444
Bisher: 281
FK: Anzahl Dateien (ohne Mediendok.)
FK: ca. 1,7 Millionen
Bisher: ca. 26.700
DLA Workflow 1.0: Grenzen
Der bisherige Workflow skaliert nicht:
1. Eine implizite Relevanzzuschreibung für das gesamte di...
Lösungsansatz
Ironmaiden
»Intelligent Read-Only Media Identification Engine«
»Intelligent Recursive Online Metadata and In...
Ziel
Werkzeug zur Erfassung unstrukturierter digitaler
Datenbestände in der Vorstufe zur Archivierung
• Niederschwelliger ...
Niederschwelliger Zugang
• Webfrontend
• Einfacher Zugang
• Nutzbarkeit mit verschiedenen Komplexitätsebenen
Niederschwelliger Zugang
Niederschwelliger Zugang
Hoher Automatisierungsgrad /
Leichte Erweiterbarkeit
• Logisches Vorgehen
• Dateistruktur in Datenbank einlesen
• Prüfsumm...
Dateisystem / Prüfsumme
libmagic
Gvfs-info
application/octet-stream
Apache Tika
Image Magick
avconv/ffmpeg
Weitere Volltexte
Erkennungs-
resultate
(MySQL)
Indexer
IndexerErkennungs-
kaskade
Dateisystem-
indizierung
Volltextindex
(SOLR)
Webserver
W...
Webfrontend
Autocomplete
Facette
Webfrontend
Webfrontend
Anzahl Dauer
SOLR
Query
Paging
Webfrontend
MIME-Type
Dateigröße
Dateiname
Interne
SignaturDatenträger
Änderungs-
datum
Gefundene
Textstelle(n)
Webfrontend
#4078.1749383, text/x-csrc (1990-07-06T02:00:00Z). CALLTEST.C,
in: Bestand A:Kittler/DLA Marbach. fd077:// [fd...
Webfrontend
National Software Reference Library
sessionid 4078 =
Floppy 077, 3,5“, vfat,
ca. 1992
Mögliche Fragestellungen (Beispiele)
- Welche Dateien sind binäridentisch (lt. Prüfsumme) und können als
Dubletten ausgesc...
Mögliche Fragestellungen (Beispiele)
- Welche Quelltexte tragen typische Kittler-Spuren (z.B. das Kürzel
»FAK« im Volltext...
Download
Download
Destillation der relevanten Dateien
Fazit
Ironmaiden aka Indexer
• Einfach erweiterbar
• Robust
• Skalierbar
• Benötigt einfaches Refactoring
• Einfacher Zugr...
Zusammenfassung und Ausblick
Bitstream Preservation:
Dateiformatanalyse:
Bewertung, Erschließung:
Dateiformat-Migration:
E...
»Arme Nachlassverwalter…« Herausforderungen, Erkenntnisse und Lösungsansätze bei der Aufbereitung komplexer digitaler Date...
»Arme Nachlassverwalter…« Herausforderungen, Erkenntnisse und Lösungsansätze bei der Aufbereitung komplexer digitaler Date...
»Arme Nachlassverwalter…« Herausforderungen, Erkenntnisse und Lösungsansätze bei der Aufbereitung komplexer digitaler Date...
Nächste SlideShare
Wird geladen in …5
×

»Arme Nachlassverwalter…« Herausforderungen, Erkenntnisse und Lösungsansätze bei der Aufbereitung komplexer digitaler Datensammlungen

280 Aufrufe

Veröffentlicht am

»Bisher haben wir es mit sehr überschaubaren Datenmengen
zu tun, weil die Kapazität der überlieferten Medien gering ist. Was aber, wenn in künftigen Nachlässen externe Festplatten mit hunderten von Gigabyte auftauchen, auf denen ein ganzes literarisches Leben auch in Bildern und Videodateien dokumentiert ist?«

Veröffentlicht in: Wissenschaft
0 Kommentare
0 Gefällt mir
Statistik
Notizen
  • Als Erste(r) kommentieren

  • Gehören Sie zu den Ersten, denen das gefällt!

Keine Downloads
Aufrufe
Aufrufe insgesamt
280
Auf SlideShare
0
Aus Einbettungen
0
Anzahl an Einbettungen
3
Aktionen
Geteilt
0
Downloads
2
Kommentare
0
Gefällt mir
0
Einbettungen 0
Keine Einbettungen

Keine Notizen für die Folie

»Arme Nachlassverwalter…« Herausforderungen, Erkenntnisse und Lösungsansätze bei der Aufbereitung komplexer digitaler Datensammlungen

  1. 1. »Arme Nachlassverwalter…« – Herausforderungen, Erkenntnisse und Lösungsansätze bei der Aufbereitung komplexer digitaler Datensammlungen Weimar, 11. März 2014 juergen.enge@hawk-hhg.de heinz.werner.kramski@dla-marbach.de
  2. 2. D-Archiv 1.0: ca. 2003 bis 2013 Digitale Nach- und Vorlassteile insgesamt bis 2013 (ohne Friedrich Kittler): • 35 Bestände, 281 Disketten, 15 CD-Rs etc., 14 Zugänge via E-Mail/USB-Stick etc. • 26.700 Originaldateien mit 14 GB
  3. 3. D-Archiv 1.0: ca. 2003 bis 2013 Digitale Nach- und Vorlassteile insgesamt bis 2013 (ohne Friedrich Kittler): • 35 Bestände, 281 Disketten, 15 CD-Rs etc., 14 Zugänge via E-Mail/USB-Stick etc. • 26.700 Originaldateien mit 14 GB Adler, Hans Günther; Berbig, Roland; Claudius, Hermann; Delius, Friedrich Christian; Domin, Hilde; Elias, Norbert; Gadamer, Hans-Georg; Goldschmidt, Georges-Arthur; Gumbrecht, Hans Ulrich; Hentig, Hartmut von; Iser, Wolfgang; Jauss, Hans Robert; Kaufmann, Hans; Koselleck, Reinhart; Kronauer, Brigitte; Lengemann, Jochen ; Lübbe, Hermann; Mattenklott, Gert; Mickel, Karl; Naumann, Manfred; Novak, Helga M.; Olden, Balder; Pastior, Oskar; Richartz, Walter Erich; Ritter, Henning; Rowohlt-Verlag; Rüegg, Walter; Rühmkorf, Peter; Schlöndorff, Volker; Schnabel, Ernst; Schumann, Michael; Schwarz, Egon; Schwenger, Hannes; Strittmatter, Thomas; Zimmer, Heinrich;
  4. 4. Friedrich Kittler: Mengen - Fünf (sieben?) PCs - Sechs Festplatten(-Images) mit 10 Partitionen (»hd«) - 336 Disketten (»fd«) - 104 optische Medien (CD-R, »od«) - 4 Dateisammlungen auf externen [DLA-]Medien, »xd«) - ca. 250 Dateien mit Video- Mitschnitten (DV, AVI) Ca. 1,7 Mio. Dateien, ca. 1,1 TB
  5. 5. »arme Nachlaßverwalter…«
  6. 6. FK: Anzahl Datenträger FK: 444 Bisher: 281
  7. 7. FK: Anzahl Dateien (ohne Mediendok.) FK: ca. 1,7 Millionen Bisher: ca. 26.700
  8. 8. DLA Workflow 1.0: Grenzen Der bisherige Workflow skaliert nicht: 1. Eine implizite Relevanzzuschreibung für das gesamte digitale Material existiert nicht. 2. Kittlers unkonventionelle Arbeitsweise (root) und kreative Benennungsschemata lassen einfache Schlüsse jedoch nicht zu (so ist z.B. /home idR. irrelevant, /usr/ich aber sehr relevant). 3. Eine Dateiformatmigration für alle Dateien ist wegen des Umfangs unmöglich, eine Auswahl muss getroffen werden.
  9. 9. Lösungsansatz Ironmaiden »Intelligent Read-Only Media Identification Engine« »Intelligent Recursive Online Metadata and Indexing Engine« (aka »Indexer«) Autor: Jürgen Enge, ZIMT (HAWK Hildesheim/Holzminden/Göttingen) Status: reifer Prototyp auf VM des DLA, alle (ca. 300) mountbaren Datenträger-Images als Loopback-Devices im Zugriff, Dateianalyse und Volltext-Indexierung nahezu abgeschlossen; nur (sehr) interner Zugang wg. sehr privater Dokumente.
  10. 10. Ziel Werkzeug zur Erfassung unstrukturierter digitaler Datenbestände in der Vorstufe zur Archivierung • Niederschwelliger Zugang • Hoher Automatisierungsgrad • Leichte Erweiterbarkeit • Performanz • Transparente Systematik
  11. 11. Niederschwelliger Zugang • Webfrontend • Einfacher Zugang • Nutzbarkeit mit verschiedenen Komplexitätsebenen
  12. 12. Niederschwelliger Zugang
  13. 13. Niederschwelliger Zugang
  14. 14. Hoher Automatisierungsgrad / Leichte Erweiterbarkeit • Logisches Vorgehen • Dateistruktur in Datenbank einlesen • Prüfsummen erstellen • Identifizieren • Libmagic • Gvfs-info • Tika • Detex
  15. 15. Dateisystem / Prüfsumme
  16. 16. libmagic
  17. 17. Gvfs-info application/octet-stream
  18. 18. Apache Tika
  19. 19. Image Magick
  20. 20. avconv/ffmpeg
  21. 21. Weitere Volltexte
  22. 22. Erkennungs- resultate (MySQL) Indexer IndexerErkennungs- kaskade Dateisystem- indizierung Volltextindex (SOLR) Webserver Webclient Autonomes Subsystem Systemarchitektur Sektor- Images (Quelle) Mountpoints (Ordner) Cache
  23. 23. Webfrontend Autocomplete Facette
  24. 24. Webfrontend
  25. 25. Webfrontend Anzahl Dauer SOLR Query Paging
  26. 26. Webfrontend MIME-Type Dateigröße Dateiname Interne SignaturDatenträger Änderungs- datum Gefundene Textstelle(n)
  27. 27. Webfrontend #4078.1749383, text/x-csrc (1990-07-06T02:00:00Z). CALLTEST.C, in: Bestand A:Kittler/DLA Marbach. fd077:// [fd, 389 B].
  28. 28. Webfrontend
  29. 29. National Software Reference Library sessionid 4078 = Floppy 077, 3,5“, vfat, ca. 1992
  30. 30. Mögliche Fragestellungen (Beispiele) - Welche Dateien sind binäridentisch (lt. Prüfsumme) und können als Dubletten ausgeschieden werden? - Welche Dateien haben die Größe 0 Bytes und können/müssen nicht weiter bearbeitet werden? [live] - Welche Bilder gibt es im Datenträger-Nachlass? Audio-Dateien? Videos? [live1, live2, live3] - Welche Textverarbeitungsprogramme hat Kittler benutzt? - Auf welchen Datenträgern gibt es Ordner des Namens »ich«? [live] - Welche Dateien sind MS-Word-Dateien, obwohl sie nicht den Typ ».doc« tragen? [live] - Welche E-Mails vom, an das oder über das DLA Marbach hat Kittler aufgehoben? [live]
  31. 31. Mögliche Fragestellungen (Beispiele) - Welche Quelltexte tragen typische Kittler-Spuren (z.B. das Kürzel »FAK« im Volltext), obwohl sie in typischen Systemordnern liegen? [live] - In welchen Varianten kommt die Datei »komment« in den verschiedenen Backup-Medien und Festplattengenerationen vor? [live] - Ist die SGI-Workstation-Festplatte hd06 wirklich komplett irrelevant? - (Wann) hat Kittler einen Vortrag beim Chaos Computer Club Hamburg gehalten? (Und worüber hat er gesprochen? Ist der Text erhalten?) [live1, live2, live3, weiter]
  32. 32. Download
  33. 33. Download
  34. 34. Destillation der relevanten Dateien
  35. 35. Fazit Ironmaiden aka Indexer • Einfach erweiterbar • Robust • Skalierbar • Benötigt einfaches Refactoring • Einfacher Zugriff auf Inhalte • Ist KEIN Archiv
  36. 36. Zusammenfassung und Ausblick Bitstream Preservation: Dateiformatanalyse: Bewertung, Erschließung: Dateiformat-Migration: Emulation: Benutzung:

×