Sven Schlarb of the Austrian National Library presented SCAPE (in German). Besides giving a general overview of SCAPE the presentation also includes descriptions of SCAPE solutions, including tools, software integration, planning, and more.
The presentation was given at the Austrian Library day on ‘National Initiatives on Digital Information. Repositories, Research data and long-term preservation in Austria’ (http://www.obvsg.at/voeb-obvsg-bibliothekstage-2013/programm-410/) on 4 October 2013 in Vienna.
2. Übersicht
• Einführung
• SCAPE Lösungen
• Repositories
• Werkzeuge
• Planung der Langzeitarchivierung
• Anwendungsfälle
•
•
•
•
Web-Archivierung
Repositories
Wissenschaftliche Daten
Datenzentren
• Weiterführende Informationen
This work was partially supported by the SCAPE Project.
The SCAPE project is co‐funded by the European Union under FP7 ICT‐2009.4.1 (Grant Agreement number 270137).
3. SCAPE – Worum gehts im Allgemeinen?
• „Big data“ – Verarbeitung großer Datenmengen
• Skalierbarkeit in mehrerlei Hinsicht
•
•
•
•
Anzahl
der zu verarbeitenden Objekte
Größe
Komplexität
Vielfalt der Datenformate
• IT Umgebungen (Hardware, Software, Systeme) sind für
das Management zunehmender Datenmengen nicht
ausgerichtet
4. SCAPE – Worum gehts konkret?
• Planung und Durchführung rechenintensiver
Maßnahmen der Langzeitarchivierung, zum Beispiel:
• Ingest großer Datenmengen in ein Repository
• Dateiformat-Identifikation und Bestimmung von Dateieigenschaften
• Multi-Terabyte Migration
• Ausarbeitung typischer Anwendungsfälle die skalierbare
Maßnahmen für die Langzeitarchivierung erfordern
• Umsetzung der Anwendungsfälle und Einsatz in
Bibliotheken und Datenzentren
5. SCAPE Projektrahmen
• SCAPE ist ein Nachfolge-Projekt des Planets-Projekts
(FP6)
• Framework Program 7 (FP7) - Collaborative Project
• Laufzeit: 42 44 Monate
• Februar 2011 – Juli September 2014
• Budget: 11.3 12.0 Millionen Euro
• Gefördert: 8.6 9.2 Millionen Euro
8. Skalierbare Datenverarbeitung
• Basis
• Computer-Cluster
• Virtualsierung
(XEN/Eucalyptus)
• Softwareverteilung
• Debian Pakete
• Tool Spezifikation
• Auftragsausführung
• Apache Hadoop (HDFS/MapReduce)
• Apache Oozie (Workflows)
This work was partially supported by the SCAPE Project.
The SCAPE project is co‐funded by the European Union under FP7 ICT‐2009.4.1 (Grant Agreement number 270137).
9. Skalierbare Repositories
• Fedora 4.0.0
•
•
•
•
Nur REST, kein SOAP
Auf der Basis von RDF
JCR 2.0 Implementieriung – ModeShape (Jboss)
Infinispan (Jboss) verteilter NoSQL Datenspeicher
• Lily 2.0
• Basierend auf HBase/HDFS
• Integrierte Datenverarbeitung
und -speicherung
This work was partially supported by the SCAPE Project.
The SCAPE project is co‐funded by the European Union under FP7 ICT‐2009.4.1 (Grant Agreement number 270137).
10. In SCAPE entwickelte Software-Werkzeuge
Matchbox – Duplikat-Bilderkennung
Pagelyzer– Web-Inhalte vergleichen
XCorrSound – Audio-Vergleich
Jpylyzer – JPEG 2000 Validierung
This work was partially supported by the SCAPE Project.
The SCAPE project is co‐funded by the European Union under FP7 ICT‐2009.4.1 (Grant Agreement number 270137).
11. Integration existierender Software-Werkzeuge
• Tool Wrapper
• Integration bestehender Software-Werkzeuge in die SCAPE Platform
• Standard-Namensgebung von Werkzeugen für Dateianalyse, Migration und
Qualitätssicherung
• Standardisierte Ausführung (Kommandozeile)
• Einfache Einrichtung auf dem Cluster dank der Bereitstellung von Debian-Paketen
• Unterstützt Datenströme, die für Hadoop-Verarbeitungsaufträge nützlich sind.
• Generiert Langzeitarchivierungskomponenten
• Taverna Workflow-Komponenten inklusive Metadaten, die das Auffinden erleichtern
• Automatischer Veröffentlichung von Kompmenten auf myExperiment
• Standardisierte Eingabe und Ausgabe, die das Kombinieren der WorkflowKomponenten vereinfacht
• Langzeitarchivierungswerkzeugkasten
• Werkzeugsammlung für die Langzeitarchivierung
• Über 80 Operationen für Migration, Dateianalyse, und Qualitätssicherung
• Einfaches deployment unter Linux (via apt-get)
• apt-get install digital-preservation-tools
This work was partially supported by the SCAPE Project.
The SCAPE project is co‐funded by the European Union under FP7 ICT‐2009.4.1 (Grant Agreement number 270137).
12. Planung der Langzeitarchivierung
• SCOUT: Automatisierte Überwachung der Langzeitarchivierung
• Einbindung externer Informationsquellen der Langzeitarchivierung
• Fall-basierte Benachrichtigungsfunktionen
• c3po: Skalierbare Analyse von Archivinhalten
•
•
•
•
Scale-out MongoDB (Anzahl der Knoten beliebig erweiterbar)
Auswertung von FITS-Datei-Analyseergebnissen
Detaillierte Statistiken
Möglichkeiten der Stichprobenbildung
• PLATO 4.1: scalable preservation planning
• www.ifs.tuwien.ac.at/dp/plato
• Weiterentwicklung der Version aus dem Planets-Projekt
• Neue Funktionalität
• Gemeinsame Planung der Langzeitarchivierung in Gruppen
• Integration maschinenlesbarer Richtlinien
This work was partially supported by the SCAPE Project.
The SCAPE project is co‐funded by the European Union under FP7 ICT‐2009.4.1 (Grant Agreement number 270137).
13. SCAPE Architektur
Pull
API
Automated Watch
Source
Assessment
Adaptor
Automated Watch
Sources
Push
API
Report
API
Knowledge
Plan
Management
API
Client
Service
Automated Planning
Notification API
Plan
Watch Request
API
Component
Lookup
API
Plan
Management
GUI
Digital Object
Repository
PLATO
Component
Catalogue
Execution
Platform
JES API
Component
Registration
API
JES
Digital
Objects/
Metadata
Preservation
Plan Store
Data
Connector API
Data
Loader
Application
Hadoop
LDS3
API
Data
Publication
Platform
This work was partially supported by the SCAPE Project.
The SCAPE project is co‐funded by the European Union under FP7 ICT‐2009.4.1 (Grant Agreement number 270137).
Taverna
Workbench
Component
Profile
Validator
15. Einige Hadoop Grundprinzipien
• Bei großen Datenmengen ist es meist einfacher die
verarbeitende Komponente zu den Daten zu bringen als
umgekehrt, die Daten zur verarbeitenden Komponente
• Feingranulare Parallelisierung: Die Ausführung der
Datenverarbeitung findet auf den zur Verfügung stehenden
Prozessorkernen statt
• Hardware-bedingte Ausfälle sind keine Besonderheit, sondern es
gibt spezielle Vorkehrungen dafür
• Redundanz: Datenblöcke werden redundant gespeichert
(Default: 3x) Ausfallsicherheit, Flexibler Zugriff auf Daten
• Daten-Lokalität: Freier Knoten mit direktem Zugang zu
Datenblock übernimmt die Verarbeitung
This work was partially supported by the SCAPE Project.
The SCAPE project is co‐funded by the European Union under FP7 ICT‐2009.4.1 (Grant Agreement number 270137).
16. Die physische Sicht: Prozessor (CPU)
Beispielkonfiguration einer Quad-Core-CPU Pro Cluster-Knoten
4 physische Kerne
8 Hyperthreading-Kerne (System „sieht“ 8 Kerne)
OS
Reduce
Map
Reduce
Map
Map
Map
Map
This work was partially supported by the SCAPE Project.
The SCAPE project is co‐funded by the European Union under FP7 ICT‐2009.4.1 (Grant Agreement number 270137).
17. Die physische Sicht: Cluster-Knoten
Verteilte Datenverarbeitung (MapReduce)
2 x Quad-Core-CPUs:
10 Map (Parallelisierung)
4 Reduce (Aggregation)
4 x 1 TB Festplatten bei Redundanz 3:
1,33 TB effektiv (rein rechnerisch)
Verteilter Datenspeicher (HDFS)
Hadoop = MapReduce + HDFS
This work was partially supported by the SCAPE Project.
The SCAPE project is co‐funded by the European Union under FP7 ICT‐2009.4.1 (Grant Agreement number 270137).
18. Verteilte Datenverarbeitung (MapReduce)
Task1
Task 2
Aggregated
Result
Output data
Task 3
This work was partially supported by the SCAPE Project.
The SCAPE project is co‐funded by the European Union under FP7 ICT‐2009.4.1 (Grant Agreement number 270137).
Aggregated
Result
19. Skalierbares Open Source Puzzle
Taverna Workflow Server (REST API)
Pig (ETL)
Hive (SQL)
Sqoop (RDBMS)
MapReduce (Job-Ausführung)
Hadoop Distributed File System (HDFS)
Shared Network Attached File System (NAS)
This work was partially supported by the SCAPE Project.
The SCAPE project is co‐funded by the European Union under FP7 ICT‐2009.4.1 (Grant Agreement number 270137).
21. Fragestellungen zur Daten-Vorbereitung
• HDFS als Master oder Temporärspeicher: Müssen die Dateien
für die Verarbeitung erst auf den Cluster kopiert werden?
Widerspricht eigentlich dem Prinzip: Prozessor bei den Daten.
• Daten-Teilbarkeit: Lassen sich die Eingangsdaten für die
Parallelisierung in kleinere Datensegmente unterteilen
(Standard: 64 MB)?
• Das „Kleine Dateien“-Problem: Wenn eine große Menge
kleinerer Dateien vorliegen, lässt es der Anwendungsfall zu, diese
zu einer einzigen großen Datei zusammenzufassen?
• Wahlfreier Datenzugriff: Ist die sequentielle Verarbeitung der
Eingangsdaten ausreichend? Gibt es häufig Änderungen?
This work was partially supported by the SCAPE Project.
The SCAPE project is co‐funded by the European Union under FP7 ICT‐2009.4.1 (Grant Agreement number 270137).
22. SCAPE Anwendungsfälle
• Große digitale Repositories
• Format-Konvertierung umfangreicher Bestände
• Überwiegend Parallelisierung, d.h. vor Allem “Map”
• Schlechte Audio-Qualität automatisiert entdecken
• XCorrSound-Anwendung
• Duplikat-Seiten in großen Buchbeständen
erkennen
• Matchbox-Anwendung
• Duplikate innerhalb eines Buches finden
• Verschiedene Buchversionen miteinander vergleichen
• Wissenschaftliche Daten
• Konvertierung von RAW zu NEXUS
• Große Datenmengen aus Physik-Experimenten
• Herausforderung: Verschiedene Teilchenbeschleuniger
produzieren unterschiedliche RAW Datenformate
from digitalbevaring.dk
23. SCAPE Testbeds
• Web Content
• Datei-Analyse und Datei-Formaterkennung
Statistiken: MapReduce Anwendungsfälle
• Qualitätssicherung in der Web-Archivierung
• Data Centers
• Übertragung medizinischer Daten in Datenzentren
• Voraussetzung: Verschlüsselung und
Anonymisierung
from digitalbevaring.dk