SCAPE

Skalierbare Langzeitarchivierung
04.10.2013
Dr. Sven Schlarb
Österreichische Nationalbibliothek
Abteilung für Forschung und Entwicklung
sven.schlarb@onb.ac.at
Übersicht
• Einführung
• SCAPE Lösungen
• Repositories
• Werkzeuge
• Planung der Langzeitarchivierung

• Anwendungsfälle
•
•
•
•

Web-Archivierung
Repositories
Wissenschaftliche Daten
Datenzentren

• Weiterführende Informationen
This work was partially supported by the SCAPE Project.
The SCAPE project is co‐funded by the European Union under FP7 ICT‐2009.4.1 (Grant Agreement number 270137).
SCAPE – Worum gehts im Allgemeinen?
• „Big data“ – Verarbeitung großer Datenmengen
• Skalierbarkeit in mehrerlei Hinsicht
•
•
•
•

Anzahl
der zu verarbeitenden Objekte
Größe
Komplexität
Vielfalt der Datenformate

• IT Umgebungen (Hardware, Software, Systeme) sind für
das Management zunehmender Datenmengen nicht
ausgerichtet
SCAPE – Worum gehts konkret?
• Planung und Durchführung rechenintensiver
Maßnahmen der Langzeitarchivierung, zum Beispiel:
• Ingest großer Datenmengen in ein Repository
• Dateiformat-Identifikation und Bestimmung von Dateieigenschaften
• Multi-Terabyte Migration

• Ausarbeitung typischer Anwendungsfälle die skalierbare
Maßnahmen für die Langzeitarchivierung erfordern
• Umsetzung der Anwendungsfälle und Einsatz in
Bibliotheken und Datenzentren
SCAPE Projektrahmen
• SCAPE ist ein Nachfolge-Projekt des Planets-Projekts
(FP6)
• Framework Program 7 (FP7) - Collaborative Project
• Laufzeit: 42 44 Monate
• Februar 2011 – Juli September 2014

• Budget: 11.3 12.0 Millionen Euro
• Gefördert: 8.6 9.2 Millionen Euro
SCAPE Consortium
SCAPE Lösungen
Skalierbare Datenverarbeitung
• Basis
• Computer-Cluster
• Virtualsierung
(XEN/Eucalyptus)

• Softwareverteilung
• Debian Pakete
• Tool Spezifikation

• Auftragsausführung
• Apache Hadoop (HDFS/MapReduce)
• Apache Oozie (Workflows)

This work was partially supported by the SCAPE Project.
The SCAPE project is co‐funded by the European Union under FP7 ICT‐2009.4.1 (Grant Agreement number 270137).
Skalierbare Repositories
• Fedora 4.0.0
•
•
•
•

Nur REST, kein SOAP
Auf der Basis von RDF
JCR 2.0 Implementieriung – ModeShape (Jboss)
Infinispan (Jboss) verteilter NoSQL Datenspeicher

• Lily 2.0
• Basierend auf HBase/HDFS
• Integrierte Datenverarbeitung
und -speicherung

This work was partially supported by the SCAPE Project.
The SCAPE project is co‐funded by the European Union under FP7 ICT‐2009.4.1 (Grant Agreement number 270137).
In SCAPE entwickelte Software-Werkzeuge
Matchbox – Duplikat-Bilderkennung

Pagelyzer– Web-Inhalte vergleichen

XCorrSound – Audio-Vergleich

Jpylyzer – JPEG 2000 Validierung

This work was partially supported by the SCAPE Project.
The SCAPE project is co‐funded by the European Union under FP7 ICT‐2009.4.1 (Grant Agreement number 270137).
Integration existierender Software-Werkzeuge
• Tool Wrapper
• Integration bestehender Software-Werkzeuge in die SCAPE Platform
• Standard-Namensgebung von Werkzeugen für Dateianalyse, Migration und
Qualitätssicherung
• Standardisierte Ausführung (Kommandozeile)
• Einfache Einrichtung auf dem Cluster dank der Bereitstellung von Debian-Paketen
• Unterstützt Datenströme, die für Hadoop-Verarbeitungsaufträge nützlich sind.

• Generiert Langzeitarchivierungskomponenten
• Taverna Workflow-Komponenten inklusive Metadaten, die das Auffinden erleichtern
• Automatischer Veröffentlichung von Kompmenten auf myExperiment
• Standardisierte Eingabe und Ausgabe, die das Kombinieren der WorkflowKomponenten vereinfacht

• Langzeitarchivierungswerkzeugkasten
• Werkzeugsammlung für die Langzeitarchivierung
• Über 80 Operationen für Migration, Dateianalyse, und Qualitätssicherung
• Einfaches deployment unter Linux (via apt-get)
• apt-get install digital-preservation-tools

This work was partially supported by the SCAPE Project.
The SCAPE project is co‐funded by the European Union under FP7 ICT‐2009.4.1 (Grant Agreement number 270137).
Planung der Langzeitarchivierung
• SCOUT: Automatisierte Überwachung der Langzeitarchivierung
• Einbindung externer Informationsquellen der Langzeitarchivierung
• Fall-basierte Benachrichtigungsfunktionen

• c3po: Skalierbare Analyse von Archivinhalten
•
•
•
•

Scale-out MongoDB (Anzahl der Knoten beliebig erweiterbar)
Auswertung von FITS-Datei-Analyseergebnissen
Detaillierte Statistiken
Möglichkeiten der Stichprobenbildung

• PLATO 4.1: scalable preservation planning
• www.ifs.tuwien.ac.at/dp/plato
• Weiterentwicklung der Version aus dem Planets-Projekt
• Neue Funktionalität
• Gemeinsame Planung der Langzeitarchivierung in Gruppen
• Integration maschinenlesbarer Richtlinien

This work was partially supported by the SCAPE Project.
The SCAPE project is co‐funded by the European Union under FP7 ICT‐2009.4.1 (Grant Agreement number 270137).
SCAPE Architektur
Pull
API

Automated Watch
Source
Assessment
Adaptor
Automated Watch

Sources
Push
API

Report
API

Knowledge

Plan
Management
API

Client
Service

Automated Planning
Notification API

Plan
Watch Request
API
Component
Lookup
API

Plan
Management
GUI

Digital Object
Repository

PLATO

Component
Catalogue

Execution
Platform

JES API

Component
Registration
API

JES
Digital
Objects/
Metadata

Preservation
Plan Store

Data
Connector API

Data
Loader
Application

Hadoop

LDS3
API
Data
Publication
Platform

This work was partially supported by the SCAPE Project.
The SCAPE project is co‐funded by the European Union under FP7 ICT‐2009.4.1 (Grant Agreement number 270137).

Taverna
Workbench
Component
Profile
Validator
Hadoop/MapReduce-Exkurs
Einige Hadoop Grundprinzipien
• Bei großen Datenmengen ist es meist einfacher die
verarbeitende Komponente zu den Daten zu bringen als
umgekehrt, die Daten zur verarbeitenden Komponente
• Feingranulare Parallelisierung: Die Ausführung der
Datenverarbeitung findet auf den zur Verfügung stehenden
Prozessorkernen statt
• Hardware-bedingte Ausfälle sind keine Besonderheit, sondern es
gibt spezielle Vorkehrungen dafür
• Redundanz: Datenblöcke werden redundant gespeichert
(Default: 3x)  Ausfallsicherheit, Flexibler Zugriff auf Daten
• Daten-Lokalität: Freier Knoten mit direktem Zugang zu
Datenblock übernimmt die Verarbeitung

This work was partially supported by the SCAPE Project.
The SCAPE project is co‐funded by the European Union under FP7 ICT‐2009.4.1 (Grant Agreement number 270137).
Die physische Sicht: Prozessor (CPU)
Beispielkonfiguration einer Quad-Core-CPU Pro Cluster-Knoten
4 physische Kerne
8 Hyperthreading-Kerne (System „sieht“ 8 Kerne)

OS
Reduce

Map

Reduce

Map

Map

Map
Map

This work was partially supported by the SCAPE Project.
The SCAPE project is co‐funded by the European Union under FP7 ICT‐2009.4.1 (Grant Agreement number 270137).
Die physische Sicht: Cluster-Knoten
Verteilte Datenverarbeitung (MapReduce)
2 x Quad-Core-CPUs:
10 Map (Parallelisierung)
4 Reduce (Aggregation)

4 x 1 TB Festplatten bei Redundanz 3:
1,33 TB effektiv (rein rechnerisch)
Verteilter Datenspeicher (HDFS)

Hadoop = MapReduce + HDFS
This work was partially supported by the SCAPE Project.
The SCAPE project is co‐funded by the European Union under FP7 ICT‐2009.4.1 (Grant Agreement number 270137).
Verteilte Datenverarbeitung (MapReduce)

Task1

Task 2

Aggregated
Result

Output data

Task 3

This work was partially supported by the SCAPE Project.
The SCAPE project is co‐funded by the European Union under FP7 ICT‐2009.4.1 (Grant Agreement number 270137).

Aggregated
Result
Skalierbares Open Source Puzzle
Taverna Workflow Server (REST API)
Pig (ETL)

Hive (SQL)

Sqoop (RDBMS)

MapReduce (Job-Ausführung)
Hadoop Distributed File System (HDFS)
Shared Network Attached File System (NAS)
This work was partially supported by the SCAPE Project.
The SCAPE project is co‐funded by the European Union under FP7 ICT‐2009.4.1 (Grant Agreement number 270137).
SCAPE Anwendungsfälle
Fragestellungen zur Daten-Vorbereitung
• HDFS als Master oder Temporärspeicher: Müssen die Dateien
für die Verarbeitung erst auf den Cluster kopiert werden?
 Widerspricht eigentlich dem Prinzip: Prozessor bei den Daten.
• Daten-Teilbarkeit: Lassen sich die Eingangsdaten für die
Parallelisierung in kleinere Datensegmente unterteilen
(Standard: 64 MB)?
• Das „Kleine Dateien“-Problem: Wenn eine große Menge
kleinerer Dateien vorliegen, lässt es der Anwendungsfall zu, diese
zu einer einzigen großen Datei zusammenzufassen?
• Wahlfreier Datenzugriff: Ist die sequentielle Verarbeitung der
Eingangsdaten ausreichend? Gibt es häufig Änderungen?

This work was partially supported by the SCAPE Project.
The SCAPE project is co‐funded by the European Union under FP7 ICT‐2009.4.1 (Grant Agreement number 270137).
SCAPE Anwendungsfälle
• Große digitale Repositories
• Format-Konvertierung umfangreicher Bestände
• Überwiegend Parallelisierung, d.h. vor Allem “Map”

• Schlechte Audio-Qualität automatisiert entdecken
• XCorrSound-Anwendung

• Duplikat-Seiten in großen Buchbeständen
erkennen
• Matchbox-Anwendung
• Duplikate innerhalb eines Buches finden
• Verschiedene Buchversionen miteinander vergleichen

• Wissenschaftliche Daten
• Konvertierung von RAW zu NEXUS
• Große Datenmengen aus Physik-Experimenten
• Herausforderung: Verschiedene Teilchenbeschleuniger
produzieren unterschiedliche RAW Datenformate

from digitalbevaring.dk
SCAPE Testbeds
• Web Content
• Datei-Analyse und Datei-Formaterkennung
 Statistiken: MapReduce Anwendungsfälle
• Qualitätssicherung in der Web-Archivierung

• Data Centers
• Übertragung medizinischer Daten in Datenzentren
• Voraussetzung: Verschlüsselung und
Anonymisierung

from digitalbevaring.dk
Weiterführende Informationen
Weiterführende Informationen
• Entwicklungs-Infrastruktur
• Code-Repository bei der Open Planets Foundation und GitHub
• https://github.com/openplanets/

• Wiki
• http://wiki.opf-labs.org/display/SP/Home

• Veröffentlichungen
• http://www.scape-project.eu/category/publication

• Projektergebnisse:
• http://www.scape-project.eu/category/deliverable

• SCAPE-Werkzeuge:
• http://www.scape-project.eu/tools
SCAPE Hackathon in Wien
• Langzeitarchivierung mit Hadoop:
Hadoop-driven Digital Preservation
• 2. bis 4. Dezember 2013 in Wien
an der
Österreichischen Nationalbibliothek

© Justin Smith / Wikimedia Commons, CC-By-SA-3.0

http://www.openplanetsfoundation.org/events/scape-opf-hackathon-hadoop-driven-digital-preservation
SCAPE Contact Information
•
•
•
•

SCAPE
http://www.scape-project.eu
Twitter: #scapeproject
office@list.scape-project.eu

• Dr. Sven Schlarb
Österreichische Nationalbibliothek
sven.schlarb@onb.ac.at
Danke! Fragen?

SCAPE - Skalierbare Langzeitarchivierung (SCAPE - scalable longterm digital preservation)

  • 1.
    SCAPE Skalierbare Langzeitarchivierung 04.10.2013 Dr. SvenSchlarb Österreichische Nationalbibliothek Abteilung für Forschung und Entwicklung sven.schlarb@onb.ac.at
  • 2.
    Übersicht • Einführung • SCAPELösungen • Repositories • Werkzeuge • Planung der Langzeitarchivierung • Anwendungsfälle • • • • Web-Archivierung Repositories Wissenschaftliche Daten Datenzentren • Weiterführende Informationen This work was partially supported by the SCAPE Project. The SCAPE project is co‐funded by the European Union under FP7 ICT‐2009.4.1 (Grant Agreement number 270137).
  • 3.
    SCAPE – Worumgehts im Allgemeinen? • „Big data“ – Verarbeitung großer Datenmengen • Skalierbarkeit in mehrerlei Hinsicht • • • • Anzahl der zu verarbeitenden Objekte Größe Komplexität Vielfalt der Datenformate • IT Umgebungen (Hardware, Software, Systeme) sind für das Management zunehmender Datenmengen nicht ausgerichtet
  • 4.
    SCAPE – Worumgehts konkret? • Planung und Durchführung rechenintensiver Maßnahmen der Langzeitarchivierung, zum Beispiel: • Ingest großer Datenmengen in ein Repository • Dateiformat-Identifikation und Bestimmung von Dateieigenschaften • Multi-Terabyte Migration • Ausarbeitung typischer Anwendungsfälle die skalierbare Maßnahmen für die Langzeitarchivierung erfordern • Umsetzung der Anwendungsfälle und Einsatz in Bibliotheken und Datenzentren
  • 5.
    SCAPE Projektrahmen • SCAPEist ein Nachfolge-Projekt des Planets-Projekts (FP6) • Framework Program 7 (FP7) - Collaborative Project • Laufzeit: 42 44 Monate • Februar 2011 – Juli September 2014 • Budget: 11.3 12.0 Millionen Euro • Gefördert: 8.6 9.2 Millionen Euro
  • 6.
  • 7.
  • 8.
    Skalierbare Datenverarbeitung • Basis •Computer-Cluster • Virtualsierung (XEN/Eucalyptus) • Softwareverteilung • Debian Pakete • Tool Spezifikation • Auftragsausführung • Apache Hadoop (HDFS/MapReduce) • Apache Oozie (Workflows) This work was partially supported by the SCAPE Project. The SCAPE project is co‐funded by the European Union under FP7 ICT‐2009.4.1 (Grant Agreement number 270137).
  • 9.
    Skalierbare Repositories • Fedora4.0.0 • • • • Nur REST, kein SOAP Auf der Basis von RDF JCR 2.0 Implementieriung – ModeShape (Jboss) Infinispan (Jboss) verteilter NoSQL Datenspeicher • Lily 2.0 • Basierend auf HBase/HDFS • Integrierte Datenverarbeitung und -speicherung This work was partially supported by the SCAPE Project. The SCAPE project is co‐funded by the European Union under FP7 ICT‐2009.4.1 (Grant Agreement number 270137).
  • 10.
    In SCAPE entwickelteSoftware-Werkzeuge Matchbox – Duplikat-Bilderkennung Pagelyzer– Web-Inhalte vergleichen XCorrSound – Audio-Vergleich Jpylyzer – JPEG 2000 Validierung This work was partially supported by the SCAPE Project. The SCAPE project is co‐funded by the European Union under FP7 ICT‐2009.4.1 (Grant Agreement number 270137).
  • 11.
    Integration existierender Software-Werkzeuge •Tool Wrapper • Integration bestehender Software-Werkzeuge in die SCAPE Platform • Standard-Namensgebung von Werkzeugen für Dateianalyse, Migration und Qualitätssicherung • Standardisierte Ausführung (Kommandozeile) • Einfache Einrichtung auf dem Cluster dank der Bereitstellung von Debian-Paketen • Unterstützt Datenströme, die für Hadoop-Verarbeitungsaufträge nützlich sind. • Generiert Langzeitarchivierungskomponenten • Taverna Workflow-Komponenten inklusive Metadaten, die das Auffinden erleichtern • Automatischer Veröffentlichung von Kompmenten auf myExperiment • Standardisierte Eingabe und Ausgabe, die das Kombinieren der WorkflowKomponenten vereinfacht • Langzeitarchivierungswerkzeugkasten • Werkzeugsammlung für die Langzeitarchivierung • Über 80 Operationen für Migration, Dateianalyse, und Qualitätssicherung • Einfaches deployment unter Linux (via apt-get) • apt-get install digital-preservation-tools This work was partially supported by the SCAPE Project. The SCAPE project is co‐funded by the European Union under FP7 ICT‐2009.4.1 (Grant Agreement number 270137).
  • 12.
    Planung der Langzeitarchivierung •SCOUT: Automatisierte Überwachung der Langzeitarchivierung • Einbindung externer Informationsquellen der Langzeitarchivierung • Fall-basierte Benachrichtigungsfunktionen • c3po: Skalierbare Analyse von Archivinhalten • • • • Scale-out MongoDB (Anzahl der Knoten beliebig erweiterbar) Auswertung von FITS-Datei-Analyseergebnissen Detaillierte Statistiken Möglichkeiten der Stichprobenbildung • PLATO 4.1: scalable preservation planning • www.ifs.tuwien.ac.at/dp/plato • Weiterentwicklung der Version aus dem Planets-Projekt • Neue Funktionalität • Gemeinsame Planung der Langzeitarchivierung in Gruppen • Integration maschinenlesbarer Richtlinien This work was partially supported by the SCAPE Project. The SCAPE project is co‐funded by the European Union under FP7 ICT‐2009.4.1 (Grant Agreement number 270137).
  • 13.
    SCAPE Architektur Pull API Automated Watch Source Assessment Adaptor AutomatedWatch Sources Push API Report API Knowledge Plan Management API Client Service Automated Planning Notification API Plan Watch Request API Component Lookup API Plan Management GUI Digital Object Repository PLATO Component Catalogue Execution Platform JES API Component Registration API JES Digital Objects/ Metadata Preservation Plan Store Data Connector API Data Loader Application Hadoop LDS3 API Data Publication Platform This work was partially supported by the SCAPE Project. The SCAPE project is co‐funded by the European Union under FP7 ICT‐2009.4.1 (Grant Agreement number 270137). Taverna Workbench Component Profile Validator
  • 14.
  • 15.
    Einige Hadoop Grundprinzipien •Bei großen Datenmengen ist es meist einfacher die verarbeitende Komponente zu den Daten zu bringen als umgekehrt, die Daten zur verarbeitenden Komponente • Feingranulare Parallelisierung: Die Ausführung der Datenverarbeitung findet auf den zur Verfügung stehenden Prozessorkernen statt • Hardware-bedingte Ausfälle sind keine Besonderheit, sondern es gibt spezielle Vorkehrungen dafür • Redundanz: Datenblöcke werden redundant gespeichert (Default: 3x)  Ausfallsicherheit, Flexibler Zugriff auf Daten • Daten-Lokalität: Freier Knoten mit direktem Zugang zu Datenblock übernimmt die Verarbeitung This work was partially supported by the SCAPE Project. The SCAPE project is co‐funded by the European Union under FP7 ICT‐2009.4.1 (Grant Agreement number 270137).
  • 16.
    Die physische Sicht:Prozessor (CPU) Beispielkonfiguration einer Quad-Core-CPU Pro Cluster-Knoten 4 physische Kerne 8 Hyperthreading-Kerne (System „sieht“ 8 Kerne) OS Reduce Map Reduce Map Map Map Map This work was partially supported by the SCAPE Project. The SCAPE project is co‐funded by the European Union under FP7 ICT‐2009.4.1 (Grant Agreement number 270137).
  • 17.
    Die physische Sicht:Cluster-Knoten Verteilte Datenverarbeitung (MapReduce) 2 x Quad-Core-CPUs: 10 Map (Parallelisierung) 4 Reduce (Aggregation) 4 x 1 TB Festplatten bei Redundanz 3: 1,33 TB effektiv (rein rechnerisch) Verteilter Datenspeicher (HDFS) Hadoop = MapReduce + HDFS This work was partially supported by the SCAPE Project. The SCAPE project is co‐funded by the European Union under FP7 ICT‐2009.4.1 (Grant Agreement number 270137).
  • 18.
    Verteilte Datenverarbeitung (MapReduce) Task1 Task2 Aggregated Result Output data Task 3 This work was partially supported by the SCAPE Project. The SCAPE project is co‐funded by the European Union under FP7 ICT‐2009.4.1 (Grant Agreement number 270137). Aggregated Result
  • 19.
    Skalierbares Open SourcePuzzle Taverna Workflow Server (REST API) Pig (ETL) Hive (SQL) Sqoop (RDBMS) MapReduce (Job-Ausführung) Hadoop Distributed File System (HDFS) Shared Network Attached File System (NAS) This work was partially supported by the SCAPE Project. The SCAPE project is co‐funded by the European Union under FP7 ICT‐2009.4.1 (Grant Agreement number 270137).
  • 20.
  • 21.
    Fragestellungen zur Daten-Vorbereitung •HDFS als Master oder Temporärspeicher: Müssen die Dateien für die Verarbeitung erst auf den Cluster kopiert werden?  Widerspricht eigentlich dem Prinzip: Prozessor bei den Daten. • Daten-Teilbarkeit: Lassen sich die Eingangsdaten für die Parallelisierung in kleinere Datensegmente unterteilen (Standard: 64 MB)? • Das „Kleine Dateien“-Problem: Wenn eine große Menge kleinerer Dateien vorliegen, lässt es der Anwendungsfall zu, diese zu einer einzigen großen Datei zusammenzufassen? • Wahlfreier Datenzugriff: Ist die sequentielle Verarbeitung der Eingangsdaten ausreichend? Gibt es häufig Änderungen? This work was partially supported by the SCAPE Project. The SCAPE project is co‐funded by the European Union under FP7 ICT‐2009.4.1 (Grant Agreement number 270137).
  • 22.
    SCAPE Anwendungsfälle • Großedigitale Repositories • Format-Konvertierung umfangreicher Bestände • Überwiegend Parallelisierung, d.h. vor Allem “Map” • Schlechte Audio-Qualität automatisiert entdecken • XCorrSound-Anwendung • Duplikat-Seiten in großen Buchbeständen erkennen • Matchbox-Anwendung • Duplikate innerhalb eines Buches finden • Verschiedene Buchversionen miteinander vergleichen • Wissenschaftliche Daten • Konvertierung von RAW zu NEXUS • Große Datenmengen aus Physik-Experimenten • Herausforderung: Verschiedene Teilchenbeschleuniger produzieren unterschiedliche RAW Datenformate from digitalbevaring.dk
  • 23.
    SCAPE Testbeds • WebContent • Datei-Analyse und Datei-Formaterkennung  Statistiken: MapReduce Anwendungsfälle • Qualitätssicherung in der Web-Archivierung • Data Centers • Übertragung medizinischer Daten in Datenzentren • Voraussetzung: Verschlüsselung und Anonymisierung from digitalbevaring.dk
  • 24.
  • 25.
    Weiterführende Informationen • Entwicklungs-Infrastruktur •Code-Repository bei der Open Planets Foundation und GitHub • https://github.com/openplanets/ • Wiki • http://wiki.opf-labs.org/display/SP/Home • Veröffentlichungen • http://www.scape-project.eu/category/publication • Projektergebnisse: • http://www.scape-project.eu/category/deliverable • SCAPE-Werkzeuge: • http://www.scape-project.eu/tools
  • 26.
    SCAPE Hackathon inWien • Langzeitarchivierung mit Hadoop: Hadoop-driven Digital Preservation • 2. bis 4. Dezember 2013 in Wien an der Österreichischen Nationalbibliothek © Justin Smith / Wikimedia Commons, CC-By-SA-3.0 http://www.openplanetsfoundation.org/events/scape-opf-hackathon-hadoop-driven-digital-preservation
  • 27.
    SCAPE Contact Information • • • • SCAPE http://www.scape-project.eu Twitter:#scapeproject office@list.scape-project.eu • Dr. Sven Schlarb Österreichische Nationalbibliothek sven.schlarb@onb.ac.at
  • 28.