SlideShare ist ein Scribd-Unternehmen logo
04.10.2013
Dr. Sven Schlarb
Österreichische Nationalbibliothek
Abteilung für Forschung und Entwicklung
sven.schlarb@onb.ac.at
SCAPE
Skalierbare Langzeitarchivierung
• Einführung
• SCAPE Lösungen
• Repositories
• Werkzeuge
• Planung der Langzeitarchivierung
• Anwendungsfälle
• Web-Archivierung
• Repositories
• Wissenschaftliche Daten
• Datenzentren
• Weiterführende Informationen
Übersicht
This work was partially supported by the SCAPE Project.
The SCAPE project is co‐funded by the European Union under FP7 ICT‐2009.4.1 (Grant Agreement number 270137).
SCAPE – Worum gehts im Allgemeinen?
• „Big data“ – Verarbeitung großer Datenmengen
• Skalierbarkeit in mehrerlei Hinsicht
• Anzahl
• Größe
• Komplexität
• Vielfalt der Datenformate
• IT Umgebungen (Hardware, Software, Systeme) sind für
das Management zunehmender Datenmengen nicht
ausgerichtet
der zu verarbeitenden Objekte
SCAPE – Worum gehts konkret?
• Planung und Durchführung rechenintensiver
Maßnahmen der Langzeitarchivierung, zum Beispiel:
• Ingest großer Datenmengen in ein Repository
• Dateiformat-Identifikation und Bestimmung von Dateieigenschaften
• Multi-Terabyte Migration
• Ausarbeitung typischer Anwendungsfälle die skalierbare
Maßnahmen für die Langzeitarchivierung erfordern
• Umsetzung der Anwendungsfälle und Einsatz in
Bibliotheken und Datenzentren
SCAPE Projektrahmen
SCAPE Consortium
SCAPE Lösungen
• Basis
• Computer-Cluster
• Virtualsierung
(XEN/Eucalyptus)
• Softwareverteilung
• Debian Pakete
• Tool Spezifikation
• Auftragsausführung
• Apache Hadoop (HDFS/MapReduce)
• Apache Oozie (Workflows)
Skalierbare Datenverarbeitung
This work was partially supported by the SCAPE Project.
The SCAPE project is co‐funded by the European Union under FP7 ICT‐2009.4.1 (Grant Agreement number 270137).
• Fedora 4.0.0
• Nur REST, kein SOAP
• Auf der Basis von RDF
• JCR 2.0 Implementieriung – ModeShape (Jboss)
• Infinispan (Jboss) verteilter NoSQL Datenspeicher
• Lily 2.0
• Basierend auf HBase/HDFS
• Integrierte Datenverarbeitung
und -speicherung
Skalierbare Repositories
This work was partially supported by the SCAPE Project.
The SCAPE project is co‐funded by the European Union under FP7 ICT‐2009.4.1 (Grant Agreement number 270137).
In SCAPE entwickelte Software-Werkzeuge
This work was partially supported by the SCAPE Project.
The SCAPE project is co‐funded by the European Union under FP7 ICT‐2009.4.1 (Grant Agreement number 270137).
Jpylyzer – JPEG 2000 Validierung
Matchbox – Duplikat-Bilderkennung XCorrSound – Audio-Vergleich
Pagelyzer– Web-Inhalte vergleichen
• Tool Wrapper
• Integration bestehender Software-Werkzeuge in die SCAPE Platform
• Standard-Namensgebung von Werkzeugen für Dateianalyse, Migration und
Qualitätssicherung
• Standardisierte Ausführung (Kommandozeile)
• Einfache Einrichtung auf dem Cluster dank der Bereitstellung von Debian-Paketen
• Unterstützt Datenströme, die für Hadoop-Verarbeitungsaufträge nützlich sind.
• Generiert Langzeitarchivierungskomponenten
• Taverna Workflow-Komponenten inklusive Metadaten, die das Auffinden erleichtern
• Automatischer Veröffentlichung von Kompmenten auf myExperiment
• Standardisierte Eingabe und Ausgabe, die das Kombinieren der Workflow-
Komponenten vereinfacht
• Langzeitarchivierungswerkzeugkasten
• Werkzeugsammlung für die Langzeitarchivierung
• Über 80 Operationen für Migration, Dateianalyse, und Qualitätssicherung
• Einfaches deployment unter Linux (via apt‐get)
• apt-get install digital-preservation-tools
Integration existierender Software-Werkzeuge
This work was partially supported by the SCAPE Project.
The SCAPE project is co‐funded by the European Union under FP7 ICT‐2009.4.1 (Grant Agreement number 270137).
• SCOUT: Automatisierte Überwachung der Langzeitarchivierung
• Einbindung externer Informationsquellen der Langzeitarchivierung
• Fall-basierte Benachrichtigungsfunktionen
• c3po: Skalierbare Analyse von Archivinhalten
• Scale-out MongoDB (Anzahl der Knoten beliebig erweiterbar)
• Auswertung von FITS-Datei-Analyseergebnissen
• Detaillierte Statistiken
• Möglichkeiten der Stichprobenbildung
• PLATO 4.1: scalable preservation planning
• www.ifs.tuwien.ac.at/dp/plato
• Weiterentwicklung der Version aus dem Planets-Projekt
• Neue Funktionalität
• Gemeinsame Planung der Langzeitarchivierung in Gruppen
• Integration maschinenlesbarer Richtlinien
Planung der Langzeitarchivierung
This work was partially supported by the SCAPE Project.
The SCAPE project is co‐funded by the European Union under FP7 ICT‐2009.4.1 (Grant Agreement number 270137).
SCAPE Architektur
This work was partially supported by the SCAPE Project.
The SCAPE project is co‐funded by the European Union under FP7 ICT‐2009.4.1 (Grant Agreement number 270137).
Plan
Management
API
Digital Object
Repository
Execution
Platform
JESJES
HadoopHadoop
JES API
Data
Connector API
Automated Watch
Automated Planning
PLATOPLATO
Plan
Management
GUI
Plan
Management
GUI
Digital
Objects/
Metadata
Preservation
Plan Store
Preservation
Plan Store
PlanPlan
Component
Catalogue
Component
Catalogue
Component
Lookup
API
Taverna
Workbench
Taverna
Workbench
Component
Registration
API
Component
Profile
Validator
Automated Watch
SourcesSources
Push
API
Pull
API
KnowledgeKnowledge
Source
Adaptor
Source
Adaptor
Client
Service
Client
Service
Watch Request
API
Notification API
Report
API
AssessmentAssessment
Data
Publication
Platform
Data
Publication
Platform
LDS3
API
Data
Loader
Application
Data
Loader
Application
Hadoop/MapReduce-Exkurs
• Bei großen Datenmengen ist es meist einfacher die
verarbeitende Komponente zu den Daten zu bringen als
umgekehrt, die Daten zur verarbeitenden Komponente
• Feingranulare Parallelisierung: Die Ausführung der
Datenverarbeitung findet auf den zur Verfügung stehenden
Prozessorkernen statt
• Hardware-bedingte Ausfälle sind keine Besonderheit, sondern es
gibt spezielle Vorkehrungen dafür
• Redundanz: Datenblöcke werden redundant gespeichert
(Default: 3x)  Ausfallsicherheit, Flexibler Zugriff auf Daten
• Daten-Lokalität: Freier Knoten mit direktem Zugang zu
Datenblock übernimmt die Verarbeitung
Einige Hadoop Grundprinzipien
This work was partially supported by the SCAPE Project.
The SCAPE project is co‐funded by the European Union under FP7 ICT‐2009.4.1 (Grant Agreement number 270137).
Die physische Sicht: Prozessor (CPU)
This work was partially supported by the SCAPE Project.
The SCAPE project is co‐funded by the European Union under FP7 ICT‐2009.4.1 (Grant Agreement number 270137).
Beispielkonfiguration einer Quad-Core-CPU Pro Cluster-Knoten
4 physische Kerne
8 Hyperthreading-Kerne (System „sieht“ 8 Kerne)
Die physische Sicht: Cluster-Knoten
This work was partially supported by the SCAPE Project.
The SCAPE project is co‐funded by the European Union under FP7 ICT‐2009.4.1 (Grant Agreement number 270137).
Verteilte Datenverarbeitung (MapReduce)
Verteilter Datenspeicher (HDFS)
Hadoop = MapReduce + HDFS
2 x Quad-Core-CPUs:
10 Map (Parallelisierung)
4 Reduce (Aggregation)
4 x 1 TB Festplatten bei Redundanz 3:
1,33 TB effektiv (rein rechnerisch)
Verteilte Datenverarbeitung (MapReduce)
This work was partially supported by the SCAPE Project.
The SCAPE project is co‐funded by the European Union under FP7 ICT‐2009.4.1 (Grant Agreement number 270137).
Task1
Task 2
Task 3
Output data
Aggregated
Result
Aggregated
Result
Aggregated
Result
Aggregated
Result
Skalierbares Open Source Puzzle
This work was partially supported by the SCAPE Project.
The SCAPE project is co‐funded by the European Union under FP7 ICT‐2009.4.1 (Grant Agreement number 270137).
Taverna Workflow Server (REST API)
SCAPE Anwendungsfälle
• HDFS als Master oder Temporärspeicher: Müssen die Dateien
für die Verarbeitung erst auf den Cluster kopiert werden?
 Widerspricht eigentlich dem Prinzip: Prozessor bei den Daten.
• Daten-Teilbarkeit: Lassen sich die Eingangsdaten für die
Parallelisierung in kleinere Datensegmente unterteilen
(Standard: 64 MB)?
• Das „Kleine Dateien“-Problem: Wenn eine große Menge
kleinerer Dateien vorliegen, lässt es der Anwendungsfall zu, diese
zu einer einzigen großen Datei zusammenzufassen?
• Wahlfreier Datenzugriff: Ist die sequentielle Verarbeitung der
Eingangsdaten ausreichend? Gibt es häufig Änderungen?
Fragestellungen zur Daten-Vorbereitung
This work was partially supported by the SCAPE Project.
The SCAPE project is co‐funded by the European Union under FP7 ICT‐2009.4.1 (Grant Agreement number 270137).
SCAPE Anwendungsfälle
• Große digitale Repositories
• Format-Konvertierung umfangreicher Bestände
• Überwiegend Parallelisierung, d.h. vor Allem “Map”
• Schlechte Audio-Qualität automatisiert entdecken
• XCorrSound-Anwendung
• Duplikat-Seiten in großen Buchbeständen
erkennen
• Matchbox-Anwendung
• Duplikate innerhalb eines Buches finden
• Verschiedene Buchversionen miteinander vergleichen
• Wissenschaftliche Daten
• Konvertierung von RAW zu NEXUS
• Große Datenmengen aus Physik-Experimenten
• Herausforderung: Verschiedene Teilchenbeschleuniger
produzieren unterschiedliche RAW Datenformate
from digitalbevaring.dk
SCAPE Testbeds
• Web Content
• Datei-Analyse und Datei-Formaterkennung
 Statistiken: MapReduce Anwendungsfälle
• Qualitätssicherung in der Web-Archivierung
• Data Centers
• Übertragung medizinischer Daten in Datenzentren
• Voraussetzung: Verschlüsselung und
Anonymisierung
from digitalbevaring.dk
Weiterführende Informationen
Weiterführende Informationen
• Entwicklungs-Infrastruktur
• Code-Repository bei der Open Planets Foundation und GitHub
• https://github.com/openplanets/
• Wiki
• http://wiki.opf-labs.org/display/SP/Home
• Veröffentlichungen
• http://www.scape-project.eu/category/publication
• Projektergebnisse:
• http://www.scape-project.eu/category/deliverable
• SCAPE-Werkzeuge:
• http://www.scape-project.eu/tools
SCAPE Hackathon in Wien
• Langzeitarchivierung mit Hadoop:
Hadoop-driven Digital Preservation
• 2. bis 4. Dezember 2013 in Wien
an der
Österreichischen Nationalbibliothek
© Justin Smith / Wikimedia Commons, CC-By-SA-3.0
http://www.openplanetsfoundation.org/events/scape-opf-hackathon-hadoop-driven-digital-preservation
SCAPE Contact Information
• SCAPE
• http://www.scape-project.eu
• Twitter: #scapeproject
• office@list.scape-project.eu
• Dr. Sven Schlarb
Österreichische Nationalbibliothek
sven.schlarb@onb.ac.at
Danke! Fragen?

Weitere ähnliche Inhalte

Andere mochten auch

Capitulo ix.relación de la mente y el cerebro
Capitulo ix.relación de la mente y el cerebroCapitulo ix.relación de la mente y el cerebro
Capitulo ix.relación de la mente y el cerebro
Francisco Xavier
 
Promocion 30-may-2013
Promocion 30-may-2013Promocion 30-may-2013
Promocion 30-may-2013
Carlos Ojeda
 
CISSP Week 5
CISSP Week 5CISSP Week 5
CISSP Week 5
jemtallon
 
PP New Design
PP New DesignPP New Design
PP New Design
Ahmed Gado
 
Time Value of Money
Time Value of MoneyTime Value of Money
Time Value of Money
Bisneen Achal
 
პერსონალური კომპიუტერი
პერსონალური კომპიუტერიპერსონალური კომპიუტერი
პერსონალური კომპიუტერიoganesavetisyan
 
Discover La Cianella
Discover La CianellaDiscover La Cianella
Discover La Cianella
Bruno Mazzoleni
 
Invest to get
Invest to getInvest to get
Invest to get
Ashish Gautam
 
Tibisay Guédez
Tibisay GuédezTibisay Guédez
Tibisay Guédez
TibisayMaigualida
 
2012 october-1-boe-child-abuse
2012 october-1-boe-child-abuse2012 october-1-boe-child-abuse
2012 october-1-boe-child-abuse
Ladystellas
 
Моя перша презентація - 5 клас
Моя перша презентація - 5 класМоя перша презентація - 5 клас
Моя перша презентація - 5 клас
Irina Genih
 
Show him the door(5)
Show him the door(5)Show him the door(5)
Show him the door(5)
Ladystellas
 
Memories photos
Memories photosMemories photos
Memories photos
Lovely Shine
 
E-ARK-iPRES2016-Bern-October-2016
E-ARK-iPRES2016-Bern-October-2016E-ARK-iPRES2016-Bern-October-2016
E-ARK-iPRES2016-Bern-October-2016
Sven Schlarb
 
Commission on Wartime Contracting in Iraq and Afghanistan
Commission on Wartime Contracting in Iraq and AfghanistanCommission on Wartime Contracting in Iraq and Afghanistan
Commission on Wartime Contracting in Iraq and Afghanistan
jddurso
 
Who is Bulltick
Who is BulltickWho is Bulltick

Andere mochten auch (16)

Capitulo ix.relación de la mente y el cerebro
Capitulo ix.relación de la mente y el cerebroCapitulo ix.relación de la mente y el cerebro
Capitulo ix.relación de la mente y el cerebro
 
Promocion 30-may-2013
Promocion 30-may-2013Promocion 30-may-2013
Promocion 30-may-2013
 
CISSP Week 5
CISSP Week 5CISSP Week 5
CISSP Week 5
 
PP New Design
PP New DesignPP New Design
PP New Design
 
Time Value of Money
Time Value of MoneyTime Value of Money
Time Value of Money
 
პერსონალური კომპიუტერი
პერსონალური კომპიუტერიპერსონალური კომპიუტერი
პერსონალური კომპიუტერი
 
Discover La Cianella
Discover La CianellaDiscover La Cianella
Discover La Cianella
 
Invest to get
Invest to getInvest to get
Invest to get
 
Tibisay Guédez
Tibisay GuédezTibisay Guédez
Tibisay Guédez
 
2012 october-1-boe-child-abuse
2012 october-1-boe-child-abuse2012 october-1-boe-child-abuse
2012 october-1-boe-child-abuse
 
Моя перша презентація - 5 клас
Моя перша презентація - 5 класМоя перша презентація - 5 клас
Моя перша презентація - 5 клас
 
Show him the door(5)
Show him the door(5)Show him the door(5)
Show him the door(5)
 
Memories photos
Memories photosMemories photos
Memories photos
 
E-ARK-iPRES2016-Bern-October-2016
E-ARK-iPRES2016-Bern-October-2016E-ARK-iPRES2016-Bern-October-2016
E-ARK-iPRES2016-Bern-October-2016
 
Commission on Wartime Contracting in Iraq and Afghanistan
Commission on Wartime Contracting in Iraq and AfghanistanCommission on Wartime Contracting in Iraq and Afghanistan
Commission on Wartime Contracting in Iraq and Afghanistan
 
Who is Bulltick
Who is BulltickWho is Bulltick
Who is Bulltick
 

Ähnlich wie SCAPE Skalierbare Langzeitarchivierung

Rbu amanox big_data_intro_infrastruktur
Rbu amanox big_data_intro_infrastrukturRbu amanox big_data_intro_infrastruktur
Rbu amanox big_data_intro_infrastrukturRene Burgener
 
Hadoop Einführung @codecentric
Hadoop Einführung @codecentricHadoop Einführung @codecentric
Hadoop Einführung @codecentric
imalik8088
 
Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?
Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?
Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?
KurtStockinger
 
GWAVACon 2015: SEP - Backuplösungen auf dem Prüfstand
GWAVACon 2015: SEP - Backuplösungen auf dem PrüfstandGWAVACon 2015: SEP - Backuplösungen auf dem Prüfstand
GWAVACon 2015: SEP - Backuplösungen auf dem Prüfstand
GWAVA
 
Private Cloud mit Open Source
Private Cloud mit Open SourcePrivate Cloud mit Open Source
Private Cloud mit Open Source
Daniel Schneller
 
Cloud Computing für die Verarbeitung von Metadaten
Cloud Computing für die Verarbeitung von MetadatenCloud Computing für die Verarbeitung von Metadaten
Cloud Computing für die Verarbeitung von Metadaten
Magnus Pfeffer
 
Big Data Konnektivität
Big Data KonnektivitätBig Data Konnektivität
Big Data Konnektivität
Trivadis
 
DSpace as publication platform
DSpace as publication platformDSpace as publication platform
DSpace as publication platformredsys
 
Suse in der neuen Welt des Rechenzentrums - ein Beispiel
Suse in der neuen Welt des Rechenzentrums - ein BeispielSuse in der neuen Welt des Rechenzentrums - ein Beispiel
Suse in der neuen Welt des Rechenzentrums - ein Beispiel
ATIX AG
 
Hadoop in modernen BI-Infrastrukturen
Hadoop in modernen BI-InfrastrukturenHadoop in modernen BI-Infrastrukturen
Hadoop in modernen BI-Infrastrukturen
inovex GmbH
 
Schweine latein-vortrag
Schweine latein-vortragSchweine latein-vortrag
Schweine latein-vortragRamon Wartala
 
Oracle no sql-doag-datenbank_konferenz_juni_2014
Oracle no sql-doag-datenbank_konferenz_juni_2014Oracle no sql-doag-datenbank_konferenz_juni_2014
Oracle no sql-doag-datenbank_konferenz_juni_2014
Gunther Pippèrr
 
DSpace 5 und Linked (Open) Data
DSpace 5 und Linked (Open) DataDSpace 5 und Linked (Open) Data
DSpace 5 und Linked (Open) Data
Pascal-Nicolas Becker
 
Übersetzungsproduktivität: Der nächste Schritt
Übersetzungsproduktivität: Der nächste SchrittÜbersetzungsproduktivität: Der nächste Schritt
Übersetzungsproduktivität: Der nächste Schritt
SDL Language Technologies
 
GWAVACon - Secure and managed file transfer - deutsch
GWAVACon - Secure and managed file transfer - deutschGWAVACon - Secure and managed file transfer - deutsch
GWAVACon - Secure and managed file transfer - deutsch
GWAVA
 
Seafile Whitepaper: Max-Planck-Langzeitarchiv Keeper
Seafile Whitepaper: Max-Planck-Langzeitarchiv KeeperSeafile Whitepaper: Max-Planck-Langzeitarchiv Keeper
Seafile Whitepaper: Max-Planck-Langzeitarchiv Keeper
Christoph Dyllick-Brenzinger
 
Hadoop 2.0 - The Next Level
Hadoop 2.0 - The Next LevelHadoop 2.0 - The Next Level
Hadoop 2.0 - The Next Level
Sascha Dittmann
 
Big/Smart/Fast Data – a very compact overview
Big/Smart/Fast Data – a very compact overviewBig/Smart/Fast Data – a very compact overview
Big/Smart/Fast Data – a very compact overview
OMM Solutions GmbH
 
digital.bewegungsarchive.de - das Digitalisierungsportal für die Archive von ...
digital.bewegungsarchive.de - das Digitalisierungsportal für die Archive von ...digital.bewegungsarchive.de - das Digitalisierungsportal für die Archive von ...
digital.bewegungsarchive.de - das Digitalisierungsportal für die Archive von ...
ag-digitalisierung
 
Deployment von Entwicklungsumgebungen eines TYPO3-Intranets mit Vagrant
Deployment von Entwicklungsumgebungen eines TYPO3-Intranets mit VagrantDeployment von Entwicklungsumgebungen eines TYPO3-Intranets mit Vagrant
Deployment von Entwicklungsumgebungen eines TYPO3-Intranets mit Vagrant
Christoph Möller
 

Ähnlich wie SCAPE Skalierbare Langzeitarchivierung (20)

Rbu amanox big_data_intro_infrastruktur
Rbu amanox big_data_intro_infrastrukturRbu amanox big_data_intro_infrastruktur
Rbu amanox big_data_intro_infrastruktur
 
Hadoop Einführung @codecentric
Hadoop Einführung @codecentricHadoop Einführung @codecentric
Hadoop Einführung @codecentric
 
Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?
Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?
Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?
 
GWAVACon 2015: SEP - Backuplösungen auf dem Prüfstand
GWAVACon 2015: SEP - Backuplösungen auf dem PrüfstandGWAVACon 2015: SEP - Backuplösungen auf dem Prüfstand
GWAVACon 2015: SEP - Backuplösungen auf dem Prüfstand
 
Private Cloud mit Open Source
Private Cloud mit Open SourcePrivate Cloud mit Open Source
Private Cloud mit Open Source
 
Cloud Computing für die Verarbeitung von Metadaten
Cloud Computing für die Verarbeitung von MetadatenCloud Computing für die Verarbeitung von Metadaten
Cloud Computing für die Verarbeitung von Metadaten
 
Big Data Konnektivität
Big Data KonnektivitätBig Data Konnektivität
Big Data Konnektivität
 
DSpace as publication platform
DSpace as publication platformDSpace as publication platform
DSpace as publication platform
 
Suse in der neuen Welt des Rechenzentrums - ein Beispiel
Suse in der neuen Welt des Rechenzentrums - ein BeispielSuse in der neuen Welt des Rechenzentrums - ein Beispiel
Suse in der neuen Welt des Rechenzentrums - ein Beispiel
 
Hadoop in modernen BI-Infrastrukturen
Hadoop in modernen BI-InfrastrukturenHadoop in modernen BI-Infrastrukturen
Hadoop in modernen BI-Infrastrukturen
 
Schweine latein-vortrag
Schweine latein-vortragSchweine latein-vortrag
Schweine latein-vortrag
 
Oracle no sql-doag-datenbank_konferenz_juni_2014
Oracle no sql-doag-datenbank_konferenz_juni_2014Oracle no sql-doag-datenbank_konferenz_juni_2014
Oracle no sql-doag-datenbank_konferenz_juni_2014
 
DSpace 5 und Linked (Open) Data
DSpace 5 und Linked (Open) DataDSpace 5 und Linked (Open) Data
DSpace 5 und Linked (Open) Data
 
Übersetzungsproduktivität: Der nächste Schritt
Übersetzungsproduktivität: Der nächste SchrittÜbersetzungsproduktivität: Der nächste Schritt
Übersetzungsproduktivität: Der nächste Schritt
 
GWAVACon - Secure and managed file transfer - deutsch
GWAVACon - Secure and managed file transfer - deutschGWAVACon - Secure and managed file transfer - deutsch
GWAVACon - Secure and managed file transfer - deutsch
 
Seafile Whitepaper: Max-Planck-Langzeitarchiv Keeper
Seafile Whitepaper: Max-Planck-Langzeitarchiv KeeperSeafile Whitepaper: Max-Planck-Langzeitarchiv Keeper
Seafile Whitepaper: Max-Planck-Langzeitarchiv Keeper
 
Hadoop 2.0 - The Next Level
Hadoop 2.0 - The Next LevelHadoop 2.0 - The Next Level
Hadoop 2.0 - The Next Level
 
Big/Smart/Fast Data – a very compact overview
Big/Smart/Fast Data – a very compact overviewBig/Smart/Fast Data – a very compact overview
Big/Smart/Fast Data – a very compact overview
 
digital.bewegungsarchive.de - das Digitalisierungsportal für die Archive von ...
digital.bewegungsarchive.de - das Digitalisierungsportal für die Archive von ...digital.bewegungsarchive.de - das Digitalisierungsportal für die Archive von ...
digital.bewegungsarchive.de - das Digitalisierungsportal für die Archive von ...
 
Deployment von Entwicklungsumgebungen eines TYPO3-Intranets mit Vagrant
Deployment von Entwicklungsumgebungen eines TYPO3-Intranets mit VagrantDeployment von Entwicklungsumgebungen eines TYPO3-Intranets mit Vagrant
Deployment von Entwicklungsumgebungen eines TYPO3-Intranets mit Vagrant
 

SCAPE Skalierbare Langzeitarchivierung

  • 1. 04.10.2013 Dr. Sven Schlarb Österreichische Nationalbibliothek Abteilung für Forschung und Entwicklung sven.schlarb@onb.ac.at SCAPE Skalierbare Langzeitarchivierung
  • 2. • Einführung • SCAPE Lösungen • Repositories • Werkzeuge • Planung der Langzeitarchivierung • Anwendungsfälle • Web-Archivierung • Repositories • Wissenschaftliche Daten • Datenzentren • Weiterführende Informationen Übersicht This work was partially supported by the SCAPE Project. The SCAPE project is co‐funded by the European Union under FP7 ICT‐2009.4.1 (Grant Agreement number 270137).
  • 3. SCAPE – Worum gehts im Allgemeinen? • „Big data“ – Verarbeitung großer Datenmengen • Skalierbarkeit in mehrerlei Hinsicht • Anzahl • Größe • Komplexität • Vielfalt der Datenformate • IT Umgebungen (Hardware, Software, Systeme) sind für das Management zunehmender Datenmengen nicht ausgerichtet der zu verarbeitenden Objekte
  • 4. SCAPE – Worum gehts konkret? • Planung und Durchführung rechenintensiver Maßnahmen der Langzeitarchivierung, zum Beispiel: • Ingest großer Datenmengen in ein Repository • Dateiformat-Identifikation und Bestimmung von Dateieigenschaften • Multi-Terabyte Migration • Ausarbeitung typischer Anwendungsfälle die skalierbare Maßnahmen für die Langzeitarchivierung erfordern • Umsetzung der Anwendungsfälle und Einsatz in Bibliotheken und Datenzentren
  • 8. • Basis • Computer-Cluster • Virtualsierung (XEN/Eucalyptus) • Softwareverteilung • Debian Pakete • Tool Spezifikation • Auftragsausführung • Apache Hadoop (HDFS/MapReduce) • Apache Oozie (Workflows) Skalierbare Datenverarbeitung This work was partially supported by the SCAPE Project. The SCAPE project is co‐funded by the European Union under FP7 ICT‐2009.4.1 (Grant Agreement number 270137).
  • 9. • Fedora 4.0.0 • Nur REST, kein SOAP • Auf der Basis von RDF • JCR 2.0 Implementieriung – ModeShape (Jboss) • Infinispan (Jboss) verteilter NoSQL Datenspeicher • Lily 2.0 • Basierend auf HBase/HDFS • Integrierte Datenverarbeitung und -speicherung Skalierbare Repositories This work was partially supported by the SCAPE Project. The SCAPE project is co‐funded by the European Union under FP7 ICT‐2009.4.1 (Grant Agreement number 270137).
  • 10. In SCAPE entwickelte Software-Werkzeuge This work was partially supported by the SCAPE Project. The SCAPE project is co‐funded by the European Union under FP7 ICT‐2009.4.1 (Grant Agreement number 270137). Jpylyzer – JPEG 2000 Validierung Matchbox – Duplikat-Bilderkennung XCorrSound – Audio-Vergleich Pagelyzer– Web-Inhalte vergleichen
  • 11. • Tool Wrapper • Integration bestehender Software-Werkzeuge in die SCAPE Platform • Standard-Namensgebung von Werkzeugen für Dateianalyse, Migration und Qualitätssicherung • Standardisierte Ausführung (Kommandozeile) • Einfache Einrichtung auf dem Cluster dank der Bereitstellung von Debian-Paketen • Unterstützt Datenströme, die für Hadoop-Verarbeitungsaufträge nützlich sind. • Generiert Langzeitarchivierungskomponenten • Taverna Workflow-Komponenten inklusive Metadaten, die das Auffinden erleichtern • Automatischer Veröffentlichung von Kompmenten auf myExperiment • Standardisierte Eingabe und Ausgabe, die das Kombinieren der Workflow- Komponenten vereinfacht • Langzeitarchivierungswerkzeugkasten • Werkzeugsammlung für die Langzeitarchivierung • Über 80 Operationen für Migration, Dateianalyse, und Qualitätssicherung • Einfaches deployment unter Linux (via apt‐get) • apt-get install digital-preservation-tools Integration existierender Software-Werkzeuge This work was partially supported by the SCAPE Project. The SCAPE project is co‐funded by the European Union under FP7 ICT‐2009.4.1 (Grant Agreement number 270137).
  • 12. • SCOUT: Automatisierte Überwachung der Langzeitarchivierung • Einbindung externer Informationsquellen der Langzeitarchivierung • Fall-basierte Benachrichtigungsfunktionen • c3po: Skalierbare Analyse von Archivinhalten • Scale-out MongoDB (Anzahl der Knoten beliebig erweiterbar) • Auswertung von FITS-Datei-Analyseergebnissen • Detaillierte Statistiken • Möglichkeiten der Stichprobenbildung • PLATO 4.1: scalable preservation planning • www.ifs.tuwien.ac.at/dp/plato • Weiterentwicklung der Version aus dem Planets-Projekt • Neue Funktionalität • Gemeinsame Planung der Langzeitarchivierung in Gruppen • Integration maschinenlesbarer Richtlinien Planung der Langzeitarchivierung This work was partially supported by the SCAPE Project. The SCAPE project is co‐funded by the European Union under FP7 ICT‐2009.4.1 (Grant Agreement number 270137).
  • 13. SCAPE Architektur This work was partially supported by the SCAPE Project. The SCAPE project is co‐funded by the European Union under FP7 ICT‐2009.4.1 (Grant Agreement number 270137). Plan Management API Digital Object Repository Execution Platform JESJES HadoopHadoop JES API Data Connector API Automated Watch Automated Planning PLATOPLATO Plan Management GUI Plan Management GUI Digital Objects/ Metadata Preservation Plan Store Preservation Plan Store PlanPlan Component Catalogue Component Catalogue Component Lookup API Taverna Workbench Taverna Workbench Component Registration API Component Profile Validator Automated Watch SourcesSources Push API Pull API KnowledgeKnowledge Source Adaptor Source Adaptor Client Service Client Service Watch Request API Notification API Report API AssessmentAssessment Data Publication Platform Data Publication Platform LDS3 API Data Loader Application Data Loader Application
  • 15. • Bei großen Datenmengen ist es meist einfacher die verarbeitende Komponente zu den Daten zu bringen als umgekehrt, die Daten zur verarbeitenden Komponente • Feingranulare Parallelisierung: Die Ausführung der Datenverarbeitung findet auf den zur Verfügung stehenden Prozessorkernen statt • Hardware-bedingte Ausfälle sind keine Besonderheit, sondern es gibt spezielle Vorkehrungen dafür • Redundanz: Datenblöcke werden redundant gespeichert (Default: 3x)  Ausfallsicherheit, Flexibler Zugriff auf Daten • Daten-Lokalität: Freier Knoten mit direktem Zugang zu Datenblock übernimmt die Verarbeitung Einige Hadoop Grundprinzipien This work was partially supported by the SCAPE Project. The SCAPE project is co‐funded by the European Union under FP7 ICT‐2009.4.1 (Grant Agreement number 270137).
  • 16. Die physische Sicht: Prozessor (CPU) This work was partially supported by the SCAPE Project. The SCAPE project is co‐funded by the European Union under FP7 ICT‐2009.4.1 (Grant Agreement number 270137). Beispielkonfiguration einer Quad-Core-CPU Pro Cluster-Knoten 4 physische Kerne 8 Hyperthreading-Kerne (System „sieht“ 8 Kerne)
  • 17. Die physische Sicht: Cluster-Knoten This work was partially supported by the SCAPE Project. The SCAPE project is co‐funded by the European Union under FP7 ICT‐2009.4.1 (Grant Agreement number 270137). Verteilte Datenverarbeitung (MapReduce) Verteilter Datenspeicher (HDFS) Hadoop = MapReduce + HDFS 2 x Quad-Core-CPUs: 10 Map (Parallelisierung) 4 Reduce (Aggregation) 4 x 1 TB Festplatten bei Redundanz 3: 1,33 TB effektiv (rein rechnerisch)
  • 18. Verteilte Datenverarbeitung (MapReduce) This work was partially supported by the SCAPE Project. The SCAPE project is co‐funded by the European Union under FP7 ICT‐2009.4.1 (Grant Agreement number 270137). Task1 Task 2 Task 3 Output data Aggregated Result Aggregated Result Aggregated Result Aggregated Result
  • 19. Skalierbares Open Source Puzzle This work was partially supported by the SCAPE Project. The SCAPE project is co‐funded by the European Union under FP7 ICT‐2009.4.1 (Grant Agreement number 270137). Taverna Workflow Server (REST API)
  • 21. • HDFS als Master oder Temporärspeicher: Müssen die Dateien für die Verarbeitung erst auf den Cluster kopiert werden?  Widerspricht eigentlich dem Prinzip: Prozessor bei den Daten. • Daten-Teilbarkeit: Lassen sich die Eingangsdaten für die Parallelisierung in kleinere Datensegmente unterteilen (Standard: 64 MB)? • Das „Kleine Dateien“-Problem: Wenn eine große Menge kleinerer Dateien vorliegen, lässt es der Anwendungsfall zu, diese zu einer einzigen großen Datei zusammenzufassen? • Wahlfreier Datenzugriff: Ist die sequentielle Verarbeitung der Eingangsdaten ausreichend? Gibt es häufig Änderungen? Fragestellungen zur Daten-Vorbereitung This work was partially supported by the SCAPE Project. The SCAPE project is co‐funded by the European Union under FP7 ICT‐2009.4.1 (Grant Agreement number 270137).
  • 22. SCAPE Anwendungsfälle • Große digitale Repositories • Format-Konvertierung umfangreicher Bestände • Überwiegend Parallelisierung, d.h. vor Allem “Map” • Schlechte Audio-Qualität automatisiert entdecken • XCorrSound-Anwendung • Duplikat-Seiten in großen Buchbeständen erkennen • Matchbox-Anwendung • Duplikate innerhalb eines Buches finden • Verschiedene Buchversionen miteinander vergleichen • Wissenschaftliche Daten • Konvertierung von RAW zu NEXUS • Große Datenmengen aus Physik-Experimenten • Herausforderung: Verschiedene Teilchenbeschleuniger produzieren unterschiedliche RAW Datenformate from digitalbevaring.dk
  • 23. SCAPE Testbeds • Web Content • Datei-Analyse und Datei-Formaterkennung  Statistiken: MapReduce Anwendungsfälle • Qualitätssicherung in der Web-Archivierung • Data Centers • Übertragung medizinischer Daten in Datenzentren • Voraussetzung: Verschlüsselung und Anonymisierung from digitalbevaring.dk
  • 25. Weiterführende Informationen • Entwicklungs-Infrastruktur • Code-Repository bei der Open Planets Foundation und GitHub • https://github.com/openplanets/ • Wiki • http://wiki.opf-labs.org/display/SP/Home • Veröffentlichungen • http://www.scape-project.eu/category/publication • Projektergebnisse: • http://www.scape-project.eu/category/deliverable • SCAPE-Werkzeuge: • http://www.scape-project.eu/tools
  • 26. SCAPE Hackathon in Wien • Langzeitarchivierung mit Hadoop: Hadoop-driven Digital Preservation • 2. bis 4. Dezember 2013 in Wien an der Österreichischen Nationalbibliothek © Justin Smith / Wikimedia Commons, CC-By-SA-3.0 http://www.openplanetsfoundation.org/events/scape-opf-hackathon-hadoop-driven-digital-preservation
  • 27. SCAPE Contact Information • SCAPE • http://www.scape-project.eu • Twitter: #scapeproject • office@list.scape-project.eu • Dr. Sven Schlarb Österreichische Nationalbibliothek sven.schlarb@onb.ac.at