Vortrag im Rahmen der Lehrveranstaltung der erstsemestrigen Masterstudierenden im Studiengang Informationswissenschaften am 15.05.2017 an der Fachhochsule Potsdam.
Im Vortrag werden schwerpunktmäßig die Kuratierung von Forschungsdaten thematisiert, die Herausforderungen zur Erhaltung sowie zur langfristigen Nachnutzbarkeit von digitalen Informationen beschrieben und Lösungen, die im Rahmen des IANUS-Projektes erarbeitet wurden, präsentiert. Neben den Erfahrungen der DatenkuratorInnen werden auch der Daten-Lebenszyklus sowie das OAIS-Referenzmodell behandelt.
4. 4
1. IANUS
»» DFG-finanziertes Projekt,
am Deutschen Archäologischen Institut (Berlin) koordiniert
»» 1. Phase / 2011–2014: Bedarfsanalyse, Begehungen, Konzeption
2. Phase / 2015–2017: Umsetzung, Testbetrieb, erste Archivierung
»» Regelbetrieb: ab 2018 (angestrebt)
»» Etablierung einer nationalen, fachspezifischen Adresse für alle
Archäologien & Altertumswissenschaften in Deutschland,
›› die beim nachhaltigen Umgang mit Forschungsdaten
unterstützt
›› die langfristige Lösungen für digitale Daten anbietet
›› die dauerhaft eine technische Infrastruktur betreibt
6. 6
1. IANUS
Dienstleistungen
»» Langfristige Archivierung, Kuratierung und
(Online)-Bereitstellung von digitalen Daten
»» Nachweiskatalog über Datenbestände in IANUS
sowie aus anderen Einrichtungen & Systemen
»» Veröffentlichung von „IT-Empfehlungen zum nachhaltigen
Umgang mit digitalen Daten in den Altertumswissenschaften
»» Unterstützung beim Forschungsdatenmanagement
»» Angebote zur Schulung und Weiterbildung
8. 8
2. ALTERTUMSWISSENSCHAFTEN – HEUTE
archäologische/altertumswissenschaftliche Forschung ist
geprägt von komplexen digitalen Daten, die
»» von (Einzel-)Disziplinen wie Archäologie, Philologie, Alte
Geschichte, Anthropologie, Archäometrie etc. erzeugt werden
»» auf unterschiedlichen Methoden wie Ausgrabungen, Surveys,
Bauforschung, Paläogenetik, Knochenanalyse, Materialunter-
suchungen, Fernerkundung, Geodäsie, Textanalyse etc. basieren
3D-Scan der Hathorkapelle http://www.trigonart.
com/3d-scannen-statt-zeichnen-6797
Screenshot der Webdatenbank Papyri.info, http://papyri.info/
search?STRING=(praetorium)&no_caps=on&no_marks=on&target=text&DATE_
MODE=LOOSE&DOCS_PER_PAGE=15
9. 9
2. ALTERTUMSWISSENSCHAFTEN – HEUTE
»» komplexe Fragestellungen zu anspruchsvollen Konzepten (z. B.
Raum, Erinnerung, Gedächtnis, Landschaft, Macht) beantworten
»» sich auf geographische & regionale Schwerpunkte (Afrika,
Germanen, Kelten, Monumentalität, Limes etc.) beziehen
»» Schnittmengen zur Ethnologie, Anthropologie, den Sozial-,
Geschichts-, Geo- und Naturwissenschaften, Baugeschichte,
Denkmalpflege etc. haben
»» das kulturelle Erbe der Vorgeschichte & der Antike dokumentieren
Screenshot CodexSinaiticus, http://www.denkst-
roeme.de/heft-1/s_115-122_schneider/content-
pic_115-122_schneider-1.jpg
Oktogon, Triforium, Südost-Joch. Befunderhebung über Handauf-
maß, http://baugeschichte.a.tu-berlin.de/bg/grafik/forschung/pro-
jekte/mittelalter/trondheim/Tro05TriSOBefund.jpgGeomagnetische Aufnahme der Ipf Unter-
burg: http://www.fuerstensitze.de/1175_
Laufende-Arbeiten-52639.html
10. 10
Altertumswissenschaftliche Forschungsdaten sind
›› inhaltlich und technisch heterogen
›› einmalig, weil oft nicht reproduzierbar
›› für lange Zeiträume forschungsrelevant
›› institutionell verteilt und disparat
›› zum größten Teil unpubliziert
›› für Dritte nur selten nachnutzbar
›› häufig nur basal dokumentiert & mit Metadaten versehen
›› gefährdet, da ein Daten- und Wissensverlust droht
2. ALTERTUMSWISSENSCHAFTEN – HEUTE
12. 12
2. ALTERTUMSWISSENSCHAFTEN – HEUTE
Datenvielfalt
»» Audio
»» Vektordaten / CAD
»» Datenbanken
»» Fernerkundung / Satelliten
»» Filme
»» Geophysik
»» GIS / Vermessung
»» Laserscanning
»» Mark-Up Text
»» Photogrammetrie
»» Rasterbilder
»» Tabellen
»» Statistik
»» (Frei-)Texte
»» 3D / Virtual Reality
»» Webseiten
Mumie im CT-Scan, https://news.usc.edu/files/2013/03/
Mummy-CT-Scan.jpg
Plan Fürstengrabhügel am Glauberg, http://dna.fuers-
tensitze.de/dna_media/Grabhuegel4327bd971c0af.jpg
13. 13
2. ALTERTUMSWISSENSCHAFTEN – HEUTE
Wie sieht ein durchschnittliches archäologisches Projekt aus?
»» 20 altertumswissenschaftliche Datensammlungen
»» aus verschieden Disziplinen & Institutionen
»» aus laufenden & abgeschlossenen Projekten
»» nicht explizit für die Archivierung aufbereitet
›› keine Auswahl, Formatvalidierung, Qualitsätsicherung etc.
›› unvollständige Dokumentation, Metadaten, Lizenzen etc.
›› oft nur Teile aus größeren Datenbeständen
15. 15
2. ALTERTUMSWISSENSCHAFTEN – HEUTE
Quantitäten Insgesamt
»» 684,9 GB Speicher
»» 237.403 Dateien in 7.537 Ordnern
»» max. Ordnertiefe: 12 Ebenen
»» 462 Dateiformate
Durchschnitt
»» 38 GB Speicher
»» 12.425 Dateien in 380 Ordner
»» max. Ordnertiefe: vier Ebenen
»» 40 Dateiformate
16. 16
Projekte als lineare Forschungsprozesse produzieren häufig
(unpublizierte) Original-Daten, die
»» selten mit Forschern geteilt werden
»» meist nicht offen zur Nachnutzung zur Verfügung stehen
»» der künftigen Forschung weitgehend entzogen sind
2. ALTERTUMSWISSENSCHAFTEN – HEUTE
AnalyseErstellung PublikationVerarbeitung
18. 18
FAZIT
»» Im Sinne der guten wissenschaftlichen Praxis sollten
digitale Forschungsdaten
›› ausreichend dokumentiert sein
›› von Datenkuratoren gepflegt werden
›› nachhaltig und langfristig archiviert werden
›› niedrigschwellig und online zur Verfügung gestellt werden
›› in der Nachnutzung immer kostenfrei sein
›› über eine möglichst offene Lizenz verfügen
2. ALTERTUMSWISSENSCHAFTEN – MORGEN
20. 20
3. GRUNDLAGE OAIS
»» OAIS (Open Archival Information System) ist ein Referenzmodell
für Aufbau und Betrieb einer Archivinfrastruktur
»» ISO-Standard 14721 im 08/2012 veröffentlicht (Version 1: 2003)
»» Der wichtigste Standard für die elektronische Archivierung
Nestor-Materialien16,ReferenzmodellfüreinOffenesArchiv-Informations-System-DeutscheÜbersetzung,Version2,S.32,urn:nbn:de:0008-2013082706
22. 22
3. GRUNDLAGE OAIS
Nestor-Materialien 16, Referenzmodell für ein Offenes Archiv-
Informations-System - Deutsche Übersetzung, Version 2, S. 24,
urn:nbn:de:0008-2013082706
29. 29
4. WORKFLOW PRE-INGEST
AIP -
Archivierungsformate
DIP -
Präsentationsformate
PDF/A-1 pdf präferiert pdf/A-2 pdf/A
PDF/A-2 pdf präferiert pdf/A-2 pdf/A
PDF/A-3 pdf akzeptiert pdf/A-2 + weitere Dateien pdf/A
andere PDF-Varianten pdf akzeptiert pdf/A-2 pdf/A
Portable Document Format (PDF/A) pdf präferiert pdf/A pdf/A
andere PDF-Varianten pdf akzeptiert pdf/A-2 pdf/A
OpenDocument Format odt präferiert odt + pdf/A odt, pdf/A
Microsoft Office XML docx präferiert docx + pdf/A docx, pdf/A
Microsoft Word doc akzeptiert docx + pdf/A docx, pdf/A
Rich Text Format rtf akzeptiert docx + pdf/A docx, pdf/A
Open Office XML sxw akzeptiert odt + pdf/A odt, pdf/A
Reiner Text, plain text txt präferiert txt txt
Strukturierter Text, Markup
xml, sgml, html etc. +
dtd, xsd etc.
präferiert xml, sgml, html etc. + dtd, xsd etc. xml, sgml, html etc. + dtd, xsd etc.
Baseline TIFF v. 6, unkomprimiert tiff, tif präferiert tiff (unkomprimiert v.6) jpeg
Adobe Digital Negative dng präferiert dng dng, jpeg
Portable Network Graphics png akzeptiert tiff (unkomprimiert v.6) png
Joint Photographic Expert Group jpeg, jpg akzeptiert tiff (unkomprimiert v.6) jpeg
Graphics Interchange Format gif akzeptiert tiff (unkomprimiert v.6) png
Windows Bitmap bmp akzeptiert tiff (unkomprimiert v.6) png
Photoshop (Adobe) psd akzeptiert tiff (unkomprimiert v.6) png, jpeg
CorelPaint cpt akzeptiert tiff (unkomprimiert v.6) png, jpeg
JPEG2000 jp2, jpx akzeptiert tiff (unkomprimiert v.6) jp2, jpx, jpeg
RAW image format nef, crw etc. akzeptiert dng jpeg
Comma Separated Values csv präferiert csv csv
Tab Separated Values tsv präferiert csv csv
OpenDocument Format ods präferiert ods ods
Microsoft Office XML xlsx präferiert xlsx xlsx
Strukturierter Text, Markup
xml, html etc. + dtd,
xsd etc.
präferiert xml, html etc. + dtd, xsd etc. xml, html etc. + dtd, xsd etc.
Portable Document Format (PDF/A) pdf akzeptiert pdf/A pdf/A
Open Office XML sxc akzeptiert ods ods
RASTERGRAFIKEN
DATEIFORMATE UND DATENMIGRATION
– Januar 2016 –
SIP - Abgabeformate
PDF-
DOKUMENTE
TEXTE/DOKUMENTETABELLEN
30. 30
4. WORKFLOW PRE-INGEST
Bezeichnung Kurzdefinition
Identifizierung -
Projekttitel
Verbindliche Kurzbezeichnung des Projektes.
Identifizierung -
Alternativtitel
Ggf. alternative Titel für ein Projekt.
Identifizierung -
Projektnummer(n)
Nummern oder Kennungen, die z.B. innerhalb der durchführenden Organisation oder von Mittelgebern
verwendet wird, um das Projekt eindeutig identifizieren zu können.
Kurzbeschreibung
Knappe Angaben zur Fragestellung, zum Verlauf und Ergebnis des Projektes sowie Skizzierung der
Datensammlung (insgesamt ca. 100-300 Worte).
Schlagworte -
Fachdisziplinen
Stichworte, die die beteiligten Disziplinen und Fächer benennen. Sofern die Stichworte auf publizierten
Standards oder internen Thesauri beruhen, müssen diese mitangegeben werden.
Schlagworte -
Inhalt
Stichworte, die den Inhalt der Datensammlung benennen., z. B. zu Materialgruppen, Fundstellen-
Klassifizierung, Quellenarten, Kulturgruppen etc. Sofern die Stichworte auf publizierten Standards oder
internen Thesauri beruhen, müssen diese mitangegeben werden.
Schlagworte -
Methoden
Stichworte, die die eingesetzten Forschungsmethoden beschreiben. Sofern die Stichworte auf publizierten
Standards oder internen Thesauri beruhen, müssen diese mitangegeben werden.
Ausdehnung –
Geografisch-1
Detaillierte Angaben zur räumlichen Ausdehnung oder zum Fundort des untersuchten Gegenstandes
mittels geografischer Koordinaten. Die maximale Ausdehnung kann als Bounding Box angegeben werden.
Ausdehnung –
Geografisch-2
Sprachliche Beschreibung des untersuchten Gegenstandes mittels Ortsangaben mit Land, Stadt, Kreis,
Straße, Gemarkung etc. Sofern Namen sich im Lauf der Zeit geändert haben, dies gesondert vermerken.
Sofern eine Referenz zu einer Geo-Ressource oder einem Gazetteer existiert, sollte diese ebenfalls
angegeben werden.
Ausdehnung –
zeitlich
Chronologische Angaben zum untersuchten Gegenstand, entweder als Periodenbezeichnung und/oder mit
groben/genauen Jahresangaben. Sofern die Stichworte auf publizierten Standards oder internen Thesauri
beruhen, müssen diese mitangegeben werden.
Primärforscher -
Person
Personen, die entweder für das Projekt als Ganzes, für das Datenmanagement oder für die Erzeugung
bestimmter Datenarten zentral bzw. verantwortlich sind. Hier ist eine Kontaktadressen erforderlich und die
aktuelle/letzte institutionelle Zugehörigkeit, damit die Personen bei Rückfragen erreicht werden kann.
Eigentümer -
Organisation
Organisation, der die unter "Primärforscher" genannten Personen angehören, oder die nach Ausscheiden
derselben für die Daten verantwortlich ist, im weitesten Sinne also Eigentümer der Daten ist. Hier ist eine
Kontaktadresse erforderlich, damit die Organisation bei Rückfragen erreicht werden kann.
Finanzierung
Nennung der Organisation(en) / (Dritt-)Mittelgeber, durch die das Projekt finanziert wurde. Es sollte jeweils
der Zeitraum der Finanzierung angegeben werden.
Veröffentlichung -
Projektdaten
Wenn die hier beschriebene Datensammlung des Projektes bereits an anderer Stelle veröffentlicht / online
gestellt wurde, bitte entsprechende Angaben machen, z. B. durch Nennung der Organisationen,
Datenarchive, Online-Ressourcen etc.
Veröffentlichung
– Ergebnisse
Analoge oder digitale Publikationen zu Ergebnissen des Projektes oder zur Datensammlung des Projektes,
ausführliche bibliographische Angaben (ohne fachspezifische Abkürzungen) unter Nennung des Verlages
erforderlich.
Dauer - Projekt Anfangs- und Enddatum des Projektes.
PROJEKTBEZOGENE METADATEN
– vorläufiger Stand –
33. 33
5. WORKFLOW INGEST
»» Festlegung signifikante Eigenschaften
»» Festlegung Erhaltungsstragie (Preservation Planing)
»» Kurartierung von Forschungsdaten
›› Anpassung / Migration Dateiformate
›› Anreicherung von Metadaten
›› Dokumenation
»» Erzeugung AIP für Bitstream Preservation bei externem Partnern
»» Erzeugung DIP für Präsentation auf IANUS-Datenportal
34. 34
Beispiel Datensammlung
Holozängeschichte der Tierwelt Europas
»» Projektdauer: 1995–1998
»» Autoren: Norbert Benecke,
Angela von den Driesch, and Dirk Heinrich
»» All published finds of animal remains from
Europe were collected in a database:
›› 4.511 Publikationen
›› 8.258 Fundstellen
›› 100 Arten
5. WORKFLOW INGEST
35. 35
5. WORKFLOW INGEST
Datensammlung – SIP
Transferpaket:
»» Sechs Ordner mit 179 Dateien
»» Formate
›› doc
›› docx
›› xls
›› xlsx
Benecke 1999, Holocene History of European Vertebrate Fauna, 152 fig. 1
36. 36
5. WORKFLOW INGEST
Kuratierung vom SIP zum AIP
»» Formatvalidierung mit
XML-SDK 2.0 Productivity-Tool
»» Formatmigrationen
›› doc à docx mit doc2docx v. 1.4.3.0
›› docx + pdf/a mit Adobe Acrobat X
›› xls à xlsx
›› xlsx + csv mit bytescout spreadsheet v. 1.10.0.21
›› Umlaute & Leerzeichen umgewandelt mit Bulk Rename Utility
40. 40
Monitoring Datenkuratierung (seit 2016)
»» Kategorien
›› Kommunikation mit DG vor Übernahme à 0,85 %
›› Bewertung und Übernahme à 2,6 %
›› Kommunikation mit DG ab Vertrag à 6,76 %
›› Gesamtstrategie Datensammlung à 5,51 %
›› Erschließung à 31,25 %
›› Erstellung Archivpakete (SIP) à 6,94 %
›› Erstellung Archivpakete (AIP) à 19,58 %
›› Erstellung Archivpakete (DIP) à 18,60 %
›› Dokumentation à 1,99 %
›› Qualitätssicherung à 5,92 %
7. FAZIT
41. 41
7. FAZIT
Empfehlungen für DatenmanagerInnen in Projekten
des kulturellen Erbes
»» Relevanz von digitalen Forschungsdaten erkennen
»» Verständnis für fachspezifische IT-Methoden entwicklen
»» frühzeitig informatische Erfahrungen sammeln
»» IT-Kurse / -Workshops besuchen
»» existierende Best Practices und Standards konsultieren
»» Vorteile:
›› effizientere Abwicklung fachspezifischer Projekte
›› Verbesserung der Jobchancen
43. http://www.ianus-fdz.de
IANUS
c/o Deutsches Archäologisches Institut
Podbielskiallee 69-71
D-14195 Berlin
Tel.: +49-(0)30-187711-359
Projektleitung
Prof. Dr. Friederike Fless
Prof. Dr. Ortwin Dally
Projektkoordination
Maurice Heinrich
Dr. Felix F. Schäfer
Weitere Infos
homepage: https://www.ianus-fdz.de
twitter: @Ianus_fdz
facebook: IANUS-Forschungsdatenzentrum
youtube: IANUS-Forschungsdatenzentrum
VIELEN DANK
Forschungsdatenzentrum
Archäologie &
Altertumswissenschaften
Austausch
Digitale Daten
Forschung
Nachnutzung
Archivierung
Planung
Datenerhaltung
Metadaten
Dokumentation
IT-Empfehlungen