Grundlegendes zu Datenformaten und ihrer Standardisierung mit Schwerpunkt auf Microformats. Es werden keine konkreten Formate forgestellt, sondern allgemeine Prinzipien und Kodierungen (XML, JSON etc.)
amsl - Ergebnispräsentation der EFRE-FörderphaseBjörn Muschall
Am 26.09.2014 fand in der SLUB Dresden ein 2. amsl Workshop statt. Neben der Ergebnispräsentation der EFRE-Förderphase hatten die Teilnehmer Gelegenheit, die Anwendung zu nutzen.
Short presentation about comming features of DSpace 5 with a focus on its Linked (Open) Data Support. Talk held during the German DSpace User Group Meeting 2014, October 28, 2014 in Technische Universität Berlin.
Dies ist der zweite Teil der Tour de Dart. Der erste Teil hat die Sprache Dart an sich betrachtet. Dieser zweite Teil betrachtet erweiterte Aspekte wie:
Das Library System von Dart und den zugehörigen Paketmanager pub. Die asynchrone Programmierung mittels Streams, Futures und Isolates. File I/O mit Dart. Zugriff auf den DOM-Tree mittels Selektoren sowie Event Handling (Client side). Server und Client side Programmierung unter Nutzung von HttpServer, dem Dart webframework Start und Websockets. Datenkonvertierungen (HTML escaping, XSS prevention, decoding and encoding of JSON, base64 encoding and decoding, hashfunction (CryptoUtils)).
Laudatio Workshop Entwicklersession zu Gemeinsamkeiten in Forschungsdatenrepo...Dennis Zielke
Innerhalb des LAUDATIO-Workshops fand am 8.Oktober am Institut für deutsche Sprache und Linguistik eine Entwicklersession zu Gemeinsamkeiten und Nachnutzungsmöglichkeiten in Forschungsdatenrepositorien statt.
Vortragende: D.Zielke (CMS HU-Berlin) Technische (Weiter-)Entwicklungen im LAUDATIO-Repository, R.Claussnitzer (SLUB Dresden) Migration und Weiterentwicklung von Qucosa als Grundlage für sächs. Repositorien, D.Withanage (UB Heidelberg) Entwicklung eines Annotations-Frameworks für Bilder
Grundlegendes zu Datenformaten und ihrer Standardisierung mit Schwerpunkt auf Microformats. Es werden keine konkreten Formate forgestellt, sondern allgemeine Prinzipien und Kodierungen (XML, JSON etc.)
amsl - Ergebnispräsentation der EFRE-FörderphaseBjörn Muschall
Am 26.09.2014 fand in der SLUB Dresden ein 2. amsl Workshop statt. Neben der Ergebnispräsentation der EFRE-Förderphase hatten die Teilnehmer Gelegenheit, die Anwendung zu nutzen.
Short presentation about comming features of DSpace 5 with a focus on its Linked (Open) Data Support. Talk held during the German DSpace User Group Meeting 2014, October 28, 2014 in Technische Universität Berlin.
Dies ist der zweite Teil der Tour de Dart. Der erste Teil hat die Sprache Dart an sich betrachtet. Dieser zweite Teil betrachtet erweiterte Aspekte wie:
Das Library System von Dart und den zugehörigen Paketmanager pub. Die asynchrone Programmierung mittels Streams, Futures und Isolates. File I/O mit Dart. Zugriff auf den DOM-Tree mittels Selektoren sowie Event Handling (Client side). Server und Client side Programmierung unter Nutzung von HttpServer, dem Dart webframework Start und Websockets. Datenkonvertierungen (HTML escaping, XSS prevention, decoding and encoding of JSON, base64 encoding and decoding, hashfunction (CryptoUtils)).
Laudatio Workshop Entwicklersession zu Gemeinsamkeiten in Forschungsdatenrepo...Dennis Zielke
Innerhalb des LAUDATIO-Workshops fand am 8.Oktober am Institut für deutsche Sprache und Linguistik eine Entwicklersession zu Gemeinsamkeiten und Nachnutzungsmöglichkeiten in Forschungsdatenrepositorien statt.
Vortragende: D.Zielke (CMS HU-Berlin) Technische (Weiter-)Entwicklungen im LAUDATIO-Repository, R.Claussnitzer (SLUB Dresden) Migration und Weiterentwicklung von Qucosa als Grundlage für sächs. Repositorien, D.Withanage (UB Heidelberg) Entwicklung eines Annotations-Frameworks für Bilder
Vortrag zu Linked Data und Repositorien von der 16. Jahrestagung der DINI am 27. und 28.10.2015 in der Deutschen Nationalbibliothek in Frankfurt am Main.
This german presentation was presented at the 19th "Archivierung von Unterlagen aus digitalen Systemen" conference in Vienna, AT. It introduces the audience into the EU funded research project DURAARK and gives an insight for the preservation planning of three dimensional data.
Add-on für SAP: Das schlanke Ablage- und Archivsystem von inPunctoinPuncto GmbH
Der biz²Archiver ist ein innovatives, internetfähiges Ablage- und Archiv-System für SAP™. Durch die Verwendung leistungsstarker Standard-Komponenten und aufgrund seiner schlanken Architektur bietet das Archivierungstool eine hohe Leistungsfähigkeit zu einem günstigen Preis. Dabei werden Cache-Szenarien und die weitreichende Replikation von Inhalten unterstützt. Der biz²Archiver ist von SAP™ für die HTTP-ArchiveLink-Schnittstelle zertifiziert (Certified Integration with SAP NetWeaver) und eignet sich für alle Archivierungsszenarien wie frühes bzw. spätes Archivieren oder das Ablegen mit bzw. ohne Barcode. So sind sämtliche elektronischen Dokumente bei Bedarf leicht auffindbar und stehen für weitere Bearbeitungsprozesse jederzeit zur Verfügung. Anwender erhalten eine performante Ablage, die unsere Produktpalette optimal vervollständigt.
Speichermedium Tape – Warum es keine Alternative gibt – data://disrupted® 2020data://disrupted®
Leistungsverbesserung in allen Bereichen, Reduzierung der Kosten und überragender Schutz der Daten: Die fortschreitende Digitalisierung sowie neue Gesetze und Richtlinien zur Archivierung von Daten stellen den Ursprung der Datenarchivierung und dem damit verbundenen spektakulären Wachstum dar. Die Tape-Technologie nimmt mit einem Marktanteil von 60% eine dominante Rolle im Bereich der Datenarchivierung ein. Ein jährliches Wachstum von 24% zeigt den ungebrochenen Wachstumstrend der Technologie. Im Vortrag erfahren Sie, welche Hürden Tape-Hersteller überwinden mussten, um die Technologie zukunftssicher zu gestalten. Dabei zeigen wir, wie sich der Speichermarkt in den letzten Jahren zugunsten von Tape entwickelt hat und was wir für die nächsten Jahre prognostizieren können. Weiterhin möchten wir die neuste Tape-Generation LTO9 vorstellen, die bereits in den Startlöchern steht. Sie beweist, welches Potenzial in der Technologie steckt und erweitert die Parameter weiter, um den Nutzern bestmögliche Leistung für Themen der Datenspeicherung an die Hand zu geben: 18 TB Kapazität und 400 MB/s Transferrate sind nur zwei der überzeugenden Eckdaten. Zudem haben wir uns auch den Bedürfnissen von Object-Storage-Anwendern angenommen. Im Vortrag erfahren Sie, wie Fujifilm es nun ermöglicht, auch Ihre Daten objektbasiert auf Tape zu schreiben und Sie so von großen Kostenersparnissen sowie nicht da gewesener Sicherheit im Object Storage Bereich profitieren können.
Florian Brendel begann im Jahr 2016 bei Fujifilm Recording Media im Bereich Business Development für den deutschen Markt. Seit 2017 ist er für die DACH-Region zuständig und berät und betreut Unternehmen in Bereich Speicherlösungen mit Fokus auf Großkunden, welche Speicherkapazitäten im Petabyte-Bereich vorhalten.
This presentation covers the state of the syslog protocol and its standardization as of 2005. It was created for and held at Linuxtag in Germany (and as such is in German).
Ein Blick in die Kristallkugel mit dem Ziel spannende und relevante Online-Trends für das Jahr 2000 hervorzusagen. Auf der Liste sind:
- XML (eXtensible Markup Language)
- J2EE (Java 2, Enterprise Edition)
- PKI (Public Key Infrastructure)
- XHTML
- Macromedia Flash
- Open Book
- MP3
- WAP
- xDSL (Digital Subscriber Line)
- IPv6
KI, Sprachtechnologie und Digital Humanities: Ein (unvollständiger) ÜberblickGeorg Rehm
Georg Rehm. KI, Sprachtechnologie und Digital Humanities: Ein (unvollständiger) Überblick. Interdisziplinärer Forschungsverbund Digital Humanities in Berlin (ifDHb), 23. Berliner DH-Rundgang im Deutschen Forschungszentrum für Künstliche Intelligenz, Berlin, Germany, February 05, 2018.
Vortrag zu Linked Data und Repositorien von der 16. Jahrestagung der DINI am 27. und 28.10.2015 in der Deutschen Nationalbibliothek in Frankfurt am Main.
This german presentation was presented at the 19th "Archivierung von Unterlagen aus digitalen Systemen" conference in Vienna, AT. It introduces the audience into the EU funded research project DURAARK and gives an insight for the preservation planning of three dimensional data.
Add-on für SAP: Das schlanke Ablage- und Archivsystem von inPunctoinPuncto GmbH
Der biz²Archiver ist ein innovatives, internetfähiges Ablage- und Archiv-System für SAP™. Durch die Verwendung leistungsstarker Standard-Komponenten und aufgrund seiner schlanken Architektur bietet das Archivierungstool eine hohe Leistungsfähigkeit zu einem günstigen Preis. Dabei werden Cache-Szenarien und die weitreichende Replikation von Inhalten unterstützt. Der biz²Archiver ist von SAP™ für die HTTP-ArchiveLink-Schnittstelle zertifiziert (Certified Integration with SAP NetWeaver) und eignet sich für alle Archivierungsszenarien wie frühes bzw. spätes Archivieren oder das Ablegen mit bzw. ohne Barcode. So sind sämtliche elektronischen Dokumente bei Bedarf leicht auffindbar und stehen für weitere Bearbeitungsprozesse jederzeit zur Verfügung. Anwender erhalten eine performante Ablage, die unsere Produktpalette optimal vervollständigt.
Speichermedium Tape – Warum es keine Alternative gibt – data://disrupted® 2020data://disrupted®
Leistungsverbesserung in allen Bereichen, Reduzierung der Kosten und überragender Schutz der Daten: Die fortschreitende Digitalisierung sowie neue Gesetze und Richtlinien zur Archivierung von Daten stellen den Ursprung der Datenarchivierung und dem damit verbundenen spektakulären Wachstum dar. Die Tape-Technologie nimmt mit einem Marktanteil von 60% eine dominante Rolle im Bereich der Datenarchivierung ein. Ein jährliches Wachstum von 24% zeigt den ungebrochenen Wachstumstrend der Technologie. Im Vortrag erfahren Sie, welche Hürden Tape-Hersteller überwinden mussten, um die Technologie zukunftssicher zu gestalten. Dabei zeigen wir, wie sich der Speichermarkt in den letzten Jahren zugunsten von Tape entwickelt hat und was wir für die nächsten Jahre prognostizieren können. Weiterhin möchten wir die neuste Tape-Generation LTO9 vorstellen, die bereits in den Startlöchern steht. Sie beweist, welches Potenzial in der Technologie steckt und erweitert die Parameter weiter, um den Nutzern bestmögliche Leistung für Themen der Datenspeicherung an die Hand zu geben: 18 TB Kapazität und 400 MB/s Transferrate sind nur zwei der überzeugenden Eckdaten. Zudem haben wir uns auch den Bedürfnissen von Object-Storage-Anwendern angenommen. Im Vortrag erfahren Sie, wie Fujifilm es nun ermöglicht, auch Ihre Daten objektbasiert auf Tape zu schreiben und Sie so von großen Kostenersparnissen sowie nicht da gewesener Sicherheit im Object Storage Bereich profitieren können.
Florian Brendel begann im Jahr 2016 bei Fujifilm Recording Media im Bereich Business Development für den deutschen Markt. Seit 2017 ist er für die DACH-Region zuständig und berät und betreut Unternehmen in Bereich Speicherlösungen mit Fokus auf Großkunden, welche Speicherkapazitäten im Petabyte-Bereich vorhalten.
This presentation covers the state of the syslog protocol and its standardization as of 2005. It was created for and held at Linuxtag in Germany (and as such is in German).
Ein Blick in die Kristallkugel mit dem Ziel spannende und relevante Online-Trends für das Jahr 2000 hervorzusagen. Auf der Liste sind:
- XML (eXtensible Markup Language)
- J2EE (Java 2, Enterprise Edition)
- PKI (Public Key Infrastructure)
- XHTML
- Macromedia Flash
- Open Book
- MP3
- WAP
- xDSL (Digital Subscriber Line)
- IPv6
KI, Sprachtechnologie und Digital Humanities: Ein (unvollständiger) ÜberblickGeorg Rehm
Georg Rehm. KI, Sprachtechnologie und Digital Humanities: Ein (unvollständiger) Überblick. Interdisziplinärer Forschungsverbund Digital Humanities in Berlin (ifDHb), 23. Berliner DH-Rundgang im Deutschen Forschungszentrum für Künstliche Intelligenz, Berlin, Germany, February 05, 2018.
EAD – Facts & Figures. Grundlagen, Werkzeuge und die Zukunft mit EAD3
SIP specifications at the DIMAG development group
1. SIP specifications at the
DIMAG development group
Boris Kraut, Kai Naumann
Landesarchiv Baden-Württemberg
Stuttgart
2. I. Our SIP and archival culture
II. Our SIP and its technical environment
III. Our present SIP specifications
IV. Our future SIP specifications based on BagIt
17. Our spec and its commands
• https://dimag-wiki.la-bw.de/xwiki/bin/download/
%C3%96ffentliche+Software+und+Informationen/WebHome/Spezifikation_SOAP-Schnittstelle_320.pdf
Operation What it says
importDoc DIMAG (standalone instance), validate and ingest
these SIPs!
getForms DIMAG, ask the catalogue: Which descriptive forms do
you have (e.g. sound recordings, paper files, medieval
charters)!
getFields DIMAG, ask the catalogue: Show me the fields the
catalogue supplies (for e.g. sound recordings description)!
importDocAfis DIMAG, ingest the customized SIPs and create catalogue
entries (for e.g. sound recordings)!
18. What? Upload single files via Web GUI. Client SW for single SIP (folders)
with 1-5.000 files.
Client SW for file collections,
multiple SIPs
Where to? 1-10 files generate one AIP 10-10.000 files
generate one AIP
10-5.000 folders
generate equal numbers of AIPs
How? DIMAG Core Module via browser
access.
DIMAG IngestList client software,
SFTP access to Core Module.
DIMAG IngestTool client software,
SFTP and SOAP access to Core
Module, additional metadata.
Means to generate SIPs
19. 19
Mapping your own SIPs with DIMAG IngestTool
• Input Elements – choose from CSV, XML, XLSX, TXT, file and folder
names
• Output Elements (DIMAG and catalogue software)
• Mapping Elements – choose from concatenation, datetime
conversions, simple math, string extraction, if-then
21. …
single file, optionally load DIMAG control file (XML)
folder with files, IngestList metadata file (XML), hashes
flat folder with files, DIMAG control file (XML), hashes
variants with different folder structure etc.
Status Quo: Multiple similar but distinct SIPs
22. …
single file, optionally load DIMAG control file (XML)
folder with files, IngestList metadata file (XML), hashes
flat folder with files, DIMAG control file (XML), hashes
variants with different folder structure etc.
Status Quo: Multiple similar but distinct SIPs
24. Requirements/Layers
1. metadata
2. primary data
3. primary data file names
4. folder structure
5. additional metadata and process information
6. data integrity
7. SIP serialisation (single file package)
8. data compression
9. data encryption
10. data authenticity
25. 1 2 3 4 5 6
DIMAG Control File ✓ ✓ (✓) (✓)
BagIt (✓) ✓ ✓ (✓) ✓
METS ✓ ✓ (✓) ✓
eCH-0160 ✓ ✓ (✓) ✓ ✓
Evaluating specs and technologies…
Req. 7-10
left out for
shortness
1. metadata
2. primary data
3. primary data file names
4. folder structure
5. additional metadata and process information
6. data integrity
26. TODO: The road to BagIt
• move IngestList metadata to DIMAG control file format
• define DIMAG specific metadata and structures
• normalization of file names
• process information/output of „worker“ tools
• …
• DIMAG KM understands its control file and every folder
structure it comes with, so it can use bagit even if it doesnt
have a deeper understanding
• make DIMAG KM understand and parse BagIt
• move all ingest tools to bagit format
• keep compatibility with old formats for 3.x branch of
DIMAG KM
27. BagIt future of DIMAG SIPs
BagIt Specification IETF RFC 8493 https://tools.ietf.org/html/rfc8493
DIMAG SIPs will be conforming to BagIt, with additional requirements
• fetch.txt not accepted
• required hash algorithms: SHA-512 (recommended), MD5, SHA-1, SHA-256,
required tag-manifest
• required DIMAG control.xml (importDoc SOAP Interface XML)
• required dimag Subfolder
• containing outputs of ingest microservices (today: identify, validate, transfer)
• (plus some minor requirements)
cf. https://gitlab.la-bw.de/dimag/public-info/-/blob/master/dimag-bagit.md
28. DIMAG BagIt example <base directory>/
├── bagit.txt
├── bag-info.txt
├── manifest-sha512.txt
├── tagmanifest-sha512.txt
├── control.xml
├── dimag/
│ ├── identify.xml
│ ├── identify/
│ │ ├── identify.1572814543125.xml
│ │ └── identify.1572814854436.xml
│ ├── validate.xml
│ ├── validate/
│ │ ├── validate.1572814896535.xml
│ │ ├── validate.1572814933255.xml
│ │ └── verapdf-report.txt
│ ├── testdevel.xml
│ ├── testgroups.xml
│ └── testcontrol.xml
└── data/
└── [payload files]
• control.xml is THE central metadata
storage
• worker output (e.g. identify.xml) is
currently for reference only, all vital
information is stored in control.xml
• usage of bag-info.txt (fields, where to
split information between control.xml
and bag-info.txt) is currently in discussion
29. 1. Allgemeine Grundsätze
| 13 | SIP-Format bei der Deutschen
Nationalbibliothek | 10. November 2020
1.1 Es MUSS möglich sein, beliebige digitale
Objekte und Metadaten in ein Informationspaket
aufzunehmen.
Ja, beliebige Dateiarten und -formate.
1.2 Das Informationspaket DARF NICHT die
Mittel, Methoden oder Werkzeuge für den Ingest
einschränken.
Ja.
1.3 Das Paketformat DARF NICHT den logisch-
inhaltlichen Umfang der digitalen Objekte und
Metadaten definieren, die ein Informationspaket
bilden.
Ja, eine oder mehrere Dateien eines logischen
Objekts oder Teilobjekts.
1.4 Das Informationspaket MUSS skalierbar sein. Ja, keine logischen Einschränkungen, allerdings
evtl. technische.
30. 1. Allgemeine Grundsätze
| 13 | SIP-Format bei der Deutschen
Nationalbibliothek | 10. November 2020
1.5 Das Informationspaket MUSS
maschinenlesbar und automatisierbar zu
verarbeiten sein.
Ja, Nutzung von XML-Datei mit Schema.
1.6 Das Informationspaket MUSS interpretierbar
sein, um eine auch für den Menschen inhaltliche
Deutung zu ermöglichen.
Ja, XML in Struktur und Inhalt lesbar.
1.7 Die Spezifikation des Informationspakets
MUSS offen und frei sein.
Ja, SOAP-Spec frei verfügbar.
1.8 Die Komplexität der Spezifikation eines
Informationspakets SOLL angemessen sein.
Ja.
31. | 13 | SIP-Format bei der Deutschen
Nationalbibliothek | 10. November 2020
2. Grundsätze zur Identifikation eines IP
2.1 Jedes Informationspaket MUSS einen im
archivierenden Archiv eindeutigen und
dauerhaften Identifikator haben oder erhalten
Ja, interne Objekt-ID.
2.2 Jedes Informationspaket SOLL einen
Identifikator besitzen, der global eindeutig und
dauerhaft ist.
Ja, externe Objekt-ID des angebundenen
archivischen Katalogsystems (Findmittelsystem).
2.3 Alle Teile eines Informationspakets SOLLEN
einen eindeutigen und dauerhaften Identifikator
haben.
Ja, als XML-Tagnamen.
32. 3. Struktur eines IP
| 13 | SIP-Format bei der Deutschen
Nationalbibliothek | 10. November 2020
3.1 Das Informationspaket MUSS sicherstellen,
dass Daten und Metadaten logisch voneinander
getrennt sind.
Ja.
3.2 Die Struktur des Informationspakets SOLL die
Trennung verschiedener Arten von Metadaten
ermöglichen.
Ja.
3.3 Die Struktur des Informationspakets SOLL die
Erstellung von Daten und Metadaten in mehreren
Repräsentationen ermöglichen.
Ja, es können mehrere R gleichzeitig angelegt
werden.
33. 3. Struktur eines IP
| 13 | SIP-Format bei der Deutschen
Nationalbibliothek | 10. November 2020
3.4 Die Struktur des Informationspakets SOLL die
Möglichkeiten zum Hinzufügen zusätzlicher Daten
zum Informationspaket explizit definieren.
Ja.
3.5 Jedes Informationspaket SOLL seinen
Informationstypen mitteilen.
Noch nicht, aber in der Entwicklung.
34. 4. Metadaten eines IP
| 13 | SIP-Format bei der Deutschen
Nationalbibliothek | 10. November 2020
4.1 Metadaten im Informationspaket SOLLEN
einem etablierten Standard entsprechen.
Nutzung von XML (etabliert) und künftig BagIt.
4.2 Die exakte Verwendung der Metadaten
SOLLTE in Profilen für Informationstypen
erarbeitet werden.
Möglich, aber im SIP noch nicht umgesetzt.
4.3 Jedes Informationspaket KANN
beschreibende Metadaten enthalten.
Ja.
35. 5. Authentizität und Integrität eines IP
| 13 | SIP-Format bei der Deutschen
Nationalbibliothek | 10. November 2020
5.1 Im Informationspaket SOLLEN Möglichkeiten
enthalten sein, die Authentizität sicherzustellen.
Digitale Signaturmechanismen könnten
eingebaut werden, derzeit aber von keinem
DIMAG-Partner gewünscht.
5.2 Im Informationspaket SOLLEN Möglichkeiten
enthalten sein, die Integrität sicherzustellen.
Ja, Checksummen sind Teil der Metadaten.
Geplant ist, Checksummen verpflichtend zu
machen.
36. Comparison to nestor Guideline on SIPs
(and to the E-ARK SIP spec)
• https://d-nb.info/1214014216/34
• Everything fine with DIMAG, except
• our metadata are valid XML, but not valid METS (guideline 4.1)
• we do not yet have true information type profiles (guideline 4.2), but will use
them for a conversion and preservation module
• file objects in SIPs are not yet required to submit fixity information (e.g. an
MD5 value), but will do so in the new BagIt environment
37. Thank you for listening!
Any Questions?
kai dot naumann at la minus bw dot de
0049 711 212 4284