SlideShare ist ein Scribd-Unternehmen logo
1 von 28
Downloaden Sie, um offline zu lesen
SCAPE

Skalierbare Langzeitarchivierung
04.10.2013
Dr. Sven Schlarb
Österreichische Nationalbibliothek
Abteilung für Forschung und Entwicklung
sven.schlarb@onb.ac.at
Übersicht
• Einführung
• SCAPE Lösungen
• Repositories
• Werkzeuge
• Planung der Langzeitarchivierung

• Anwendungsfälle
•
•
•
•

Web-Archivierung
Repositories
Wissenschaftliche Daten
Datenzentren

• Weiterführende Informationen
This work was partially supported by the SCAPE Project.
The SCAPE project is co‐funded by the European Union under FP7 ICT‐2009.4.1 (Grant Agreement number 270137).
SCAPE – Worum gehts im Allgemeinen?
• „Big data“ – Verarbeitung großer Datenmengen
• Skalierbarkeit in mehrerlei Hinsicht
•
•
•
•

Anzahl
der zu verarbeitenden Objekte
Größe
Komplexität
Vielfalt der Datenformate

• IT Umgebungen (Hardware, Software, Systeme) sind für
das Management zunehmender Datenmengen nicht
ausgerichtet
SCAPE – Worum gehts konkret?
• Planung und Durchführung rechenintensiver
Maßnahmen der Langzeitarchivierung, zum Beispiel:
• Ingest großer Datenmengen in ein Repository
• Dateiformat-Identifikation und Bestimmung von Dateieigenschaften
• Multi-Terabyte Migration

• Ausarbeitung typischer Anwendungsfälle die skalierbare
Maßnahmen für die Langzeitarchivierung erfordern
• Umsetzung der Anwendungsfälle und Einsatz in
Bibliotheken und Datenzentren
SCAPE Projektrahmen
• SCAPE ist ein Nachfolge-Projekt des Planets-Projekts
(FP6)
• Framework Program 7 (FP7) - Collaborative Project
• Laufzeit: 42 44 Monate
• Februar 2011 – Juli September 2014

• Budget: 11.3 12.0 Millionen Euro
• Gefördert: 8.6 9.2 Millionen Euro
SCAPE Consortium
SCAPE Lösungen
Skalierbare Datenverarbeitung
• Basis
• Computer-Cluster
• Virtualsierung
(XEN/Eucalyptus)

• Softwareverteilung
• Debian Pakete
• Tool Spezifikation

• Auftragsausführung
• Apache Hadoop (HDFS/MapReduce)
• Apache Oozie (Workflows)

This work was partially supported by the SCAPE Project.
The SCAPE project is co‐funded by the European Union under FP7 ICT‐2009.4.1 (Grant Agreement number 270137).
Skalierbare Repositories
• Fedora 4.0.0
•
•
•
•

Nur REST, kein SOAP
Auf der Basis von RDF
JCR 2.0 Implementieriung – ModeShape (Jboss)
Infinispan (Jboss) verteilter NoSQL Datenspeicher

• Lily 2.0
• Basierend auf HBase/HDFS
• Integrierte Datenverarbeitung
und -speicherung

This work was partially supported by the SCAPE Project.
The SCAPE project is co‐funded by the European Union under FP7 ICT‐2009.4.1 (Grant Agreement number 270137).
In SCAPE entwickelte Software-Werkzeuge
Matchbox – Duplikat-Bilderkennung

Pagelyzer– Web-Inhalte vergleichen

XCorrSound – Audio-Vergleich

Jpylyzer – JPEG 2000 Validierung

This work was partially supported by the SCAPE Project.
The SCAPE project is co‐funded by the European Union under FP7 ICT‐2009.4.1 (Grant Agreement number 270137).
Integration existierender Software-Werkzeuge
• Tool Wrapper
• Integration bestehender Software-Werkzeuge in die SCAPE Platform
• Standard-Namensgebung von Werkzeugen für Dateianalyse, Migration und
Qualitätssicherung
• Standardisierte Ausführung (Kommandozeile)
• Einfache Einrichtung auf dem Cluster dank der Bereitstellung von Debian-Paketen
• Unterstützt Datenströme, die für Hadoop-Verarbeitungsaufträge nützlich sind.

• Generiert Langzeitarchivierungskomponenten
• Taverna Workflow-Komponenten inklusive Metadaten, die das Auffinden erleichtern
• Automatischer Veröffentlichung von Kompmenten auf myExperiment
• Standardisierte Eingabe und Ausgabe, die das Kombinieren der WorkflowKomponenten vereinfacht

• Langzeitarchivierungswerkzeugkasten
• Werkzeugsammlung für die Langzeitarchivierung
• Über 80 Operationen für Migration, Dateianalyse, und Qualitätssicherung
• Einfaches deployment unter Linux (via apt-get)
• apt-get install digital-preservation-tools

This work was partially supported by the SCAPE Project.
The SCAPE project is co‐funded by the European Union under FP7 ICT‐2009.4.1 (Grant Agreement number 270137).
Planung der Langzeitarchivierung
• SCOUT: Automatisierte Überwachung der Langzeitarchivierung
• Einbindung externer Informationsquellen der Langzeitarchivierung
• Fall-basierte Benachrichtigungsfunktionen

• c3po: Skalierbare Analyse von Archivinhalten
•
•
•
•

Scale-out MongoDB (Anzahl der Knoten beliebig erweiterbar)
Auswertung von FITS-Datei-Analyseergebnissen
Detaillierte Statistiken
Möglichkeiten der Stichprobenbildung

• PLATO 4.1: scalable preservation planning
• www.ifs.tuwien.ac.at/dp/plato
• Weiterentwicklung der Version aus dem Planets-Projekt
• Neue Funktionalität
• Gemeinsame Planung der Langzeitarchivierung in Gruppen
• Integration maschinenlesbarer Richtlinien

This work was partially supported by the SCAPE Project.
The SCAPE project is co‐funded by the European Union under FP7 ICT‐2009.4.1 (Grant Agreement number 270137).
SCAPE Architektur
Pull
API

Automated Watch
Source
Assessment
Adaptor
Automated Watch

Sources
Push
API

Report
API

Knowledge

Plan
Management
API

Client
Service

Automated Planning
Notification API

Plan
Watch Request
API
Component
Lookup
API

Plan
Management
GUI

Digital Object
Repository

PLATO

Component
Catalogue

Execution
Platform

JES API

Component
Registration
API

JES
Digital
Objects/
Metadata

Preservation
Plan Store

Data
Connector API

Data
Loader
Application

Hadoop

LDS3
API
Data
Publication
Platform

This work was partially supported by the SCAPE Project.
The SCAPE project is co‐funded by the European Union under FP7 ICT‐2009.4.1 (Grant Agreement number 270137).

Taverna
Workbench
Component
Profile
Validator
Hadoop/MapReduce-Exkurs
Einige Hadoop Grundprinzipien
• Bei großen Datenmengen ist es meist einfacher die
verarbeitende Komponente zu den Daten zu bringen als
umgekehrt, die Daten zur verarbeitenden Komponente
• Feingranulare Parallelisierung: Die Ausführung der
Datenverarbeitung findet auf den zur Verfügung stehenden
Prozessorkernen statt
• Hardware-bedingte Ausfälle sind keine Besonderheit, sondern es
gibt spezielle Vorkehrungen dafür
• Redundanz: Datenblöcke werden redundant gespeichert
(Default: 3x)  Ausfallsicherheit, Flexibler Zugriff auf Daten
• Daten-Lokalität: Freier Knoten mit direktem Zugang zu
Datenblock übernimmt die Verarbeitung

This work was partially supported by the SCAPE Project.
The SCAPE project is co‐funded by the European Union under FP7 ICT‐2009.4.1 (Grant Agreement number 270137).
Die physische Sicht: Prozessor (CPU)
Beispielkonfiguration einer Quad-Core-CPU Pro Cluster-Knoten
4 physische Kerne
8 Hyperthreading-Kerne (System „sieht“ 8 Kerne)

OS
Reduce

Map

Reduce

Map

Map

Map
Map

This work was partially supported by the SCAPE Project.
The SCAPE project is co‐funded by the European Union under FP7 ICT‐2009.4.1 (Grant Agreement number 270137).
Die physische Sicht: Cluster-Knoten
Verteilte Datenverarbeitung (MapReduce)
2 x Quad-Core-CPUs:
10 Map (Parallelisierung)
4 Reduce (Aggregation)

4 x 1 TB Festplatten bei Redundanz 3:
1,33 TB effektiv (rein rechnerisch)
Verteilter Datenspeicher (HDFS)

Hadoop = MapReduce + HDFS
This work was partially supported by the SCAPE Project.
The SCAPE project is co‐funded by the European Union under FP7 ICT‐2009.4.1 (Grant Agreement number 270137).
Verteilte Datenverarbeitung (MapReduce)

Task1

Task 2

Aggregated
Result

Output data

Task 3

This work was partially supported by the SCAPE Project.
The SCAPE project is co‐funded by the European Union under FP7 ICT‐2009.4.1 (Grant Agreement number 270137).

Aggregated
Result
Skalierbares Open Source Puzzle
Taverna Workflow Server (REST API)
Pig (ETL)

Hive (SQL)

Sqoop (RDBMS)

MapReduce (Job-Ausführung)
Hadoop Distributed File System (HDFS)
Shared Network Attached File System (NAS)
This work was partially supported by the SCAPE Project.
The SCAPE project is co‐funded by the European Union under FP7 ICT‐2009.4.1 (Grant Agreement number 270137).
SCAPE Anwendungsfälle
Fragestellungen zur Daten-Vorbereitung
• HDFS als Master oder Temporärspeicher: Müssen die Dateien
für die Verarbeitung erst auf den Cluster kopiert werden?
 Widerspricht eigentlich dem Prinzip: Prozessor bei den Daten.
• Daten-Teilbarkeit: Lassen sich die Eingangsdaten für die
Parallelisierung in kleinere Datensegmente unterteilen
(Standard: 64 MB)?
• Das „Kleine Dateien“-Problem: Wenn eine große Menge
kleinerer Dateien vorliegen, lässt es der Anwendungsfall zu, diese
zu einer einzigen großen Datei zusammenzufassen?
• Wahlfreier Datenzugriff: Ist die sequentielle Verarbeitung der
Eingangsdaten ausreichend? Gibt es häufig Änderungen?

This work was partially supported by the SCAPE Project.
The SCAPE project is co‐funded by the European Union under FP7 ICT‐2009.4.1 (Grant Agreement number 270137).
SCAPE Anwendungsfälle
• Große digitale Repositories
• Format-Konvertierung umfangreicher Bestände
• Überwiegend Parallelisierung, d.h. vor Allem “Map”

• Schlechte Audio-Qualität automatisiert entdecken
• XCorrSound-Anwendung

• Duplikat-Seiten in großen Buchbeständen
erkennen
• Matchbox-Anwendung
• Duplikate innerhalb eines Buches finden
• Verschiedene Buchversionen miteinander vergleichen

• Wissenschaftliche Daten
• Konvertierung von RAW zu NEXUS
• Große Datenmengen aus Physik-Experimenten
• Herausforderung: Verschiedene Teilchenbeschleuniger
produzieren unterschiedliche RAW Datenformate

from digitalbevaring.dk
SCAPE Testbeds
• Web Content
• Datei-Analyse und Datei-Formaterkennung
 Statistiken: MapReduce Anwendungsfälle
• Qualitätssicherung in der Web-Archivierung

• Data Centers
• Übertragung medizinischer Daten in Datenzentren
• Voraussetzung: Verschlüsselung und
Anonymisierung

from digitalbevaring.dk
Weiterführende Informationen
Weiterführende Informationen
• Entwicklungs-Infrastruktur
• Code-Repository bei der Open Planets Foundation und GitHub
• https://github.com/openplanets/

• Wiki
• http://wiki.opf-labs.org/display/SP/Home

• Veröffentlichungen
• http://www.scape-project.eu/category/publication

• Projektergebnisse:
• http://www.scape-project.eu/category/deliverable

• SCAPE-Werkzeuge:
• http://www.scape-project.eu/tools
SCAPE Hackathon in Wien
• Langzeitarchivierung mit Hadoop:
Hadoop-driven Digital Preservation
• 2. bis 4. Dezember 2013 in Wien
an der
Österreichischen Nationalbibliothek

© Justin Smith / Wikimedia Commons, CC-By-SA-3.0

http://www.openplanetsfoundation.org/events/scape-opf-hackathon-hadoop-driven-digital-preservation
SCAPE Contact Information
•
•
•
•

SCAPE
http://www.scape-project.eu
Twitter: #scapeproject
office@list.scape-project.eu

• Dr. Sven Schlarb
Österreichische Nationalbibliothek
sven.schlarb@onb.ac.at
Danke! Fragen?

Weitere ähnliche Inhalte

Andere mochten auch

Excel2007 nivelbasicoformulasyfunciones
Excel2007 nivelbasicoformulasyfuncionesExcel2007 nivelbasicoformulasyfunciones
Excel2007 nivelbasicoformulasyfuncionesRita Marlene
 
Loopings in wasserrutschen
Loopings in wasserrutschenLoopings in wasserrutschen
Loopings in wasserrutschenPatrick Linker
 
Presentacion betanzos serrato_fernando_aet_202
Presentacion betanzos serrato_fernando_aet_202Presentacion betanzos serrato_fernando_aet_202
Presentacion betanzos serrato_fernando_aet_202fernandoserrato1
 
Case study module2 german
Case study module2 germanCase study module2 german
Case study module2 germansparoad
 
TIC i salut, experiència de Castelldefels
TIC i salut, experiència de CastelldefelsTIC i salut, experiència de Castelldefels
TIC i salut, experiència de CastelldefelsRamon Morera i Castell
 
Präsentation smm #bcruhr6 kurz
Präsentation smm #bcruhr6   kurzPräsentation smm #bcruhr6   kurz
Präsentation smm #bcruhr6 kurzSusanne Ullrich
 
Calidad y motivación en la gestión de la Educación Superior
Calidad y motivación en la gestión de la Educación SuperiorCalidad y motivación en la gestión de la Educación Superior
Calidad y motivación en la gestión de la Educación SuperiorFAMUMendoza
 
La evolución de la comunicación en la actualidad
La evolución de la comunicación en la actualidadLa evolución de la comunicación en la actualidad
La evolución de la comunicación en la actualidadLenny-Rafaela
 
LOS TELEFONOS CELULARES
LOS TELEFONOS CELULARES LOS TELEFONOS CELULARES
LOS TELEFONOS CELULARES cruzcaro
 
Francisco david solis lopez dn13
Francisco david solis lopez dn13Francisco david solis lopez dn13
Francisco david solis lopez dn13Pakito Solis
 
Una bella princesa
Una bella princesaUna bella princesa
Una bella princesaequiporojo
 
Sistema operativo
Sistema operativoSistema operativo
Sistema operativoEvelyn Ruiz
 

Andere mochten auch (20)

Excel2007 nivelbasicoformulasyfunciones
Excel2007 nivelbasicoformulasyfuncionesExcel2007 nivelbasicoformulasyfunciones
Excel2007 nivelbasicoformulasyfunciones
 
Loopings in wasserrutschen
Loopings in wasserrutschenLoopings in wasserrutschen
Loopings in wasserrutschen
 
Presentacion betanzos serrato_fernando_aet_202
Presentacion betanzos serrato_fernando_aet_202Presentacion betanzos serrato_fernando_aet_202
Presentacion betanzos serrato_fernando_aet_202
 
Case study module2 german
Case study module2 germanCase study module2 german
Case study module2 german
 
Patricio1
Patricio1Patricio1
Patricio1
 
TIC i salut, experiència de Castelldefels
TIC i salut, experiència de CastelldefelsTIC i salut, experiència de Castelldefels
TIC i salut, experiència de Castelldefels
 
Van Gogh
Van GoghVan Gogh
Van Gogh
 
Präsentation smm #bcruhr6 kurz
Präsentation smm #bcruhr6   kurzPräsentation smm #bcruhr6   kurz
Präsentation smm #bcruhr6 kurz
 
Calidad y motivación en la gestión de la Educación Superior
Calidad y motivación en la gestión de la Educación SuperiorCalidad y motivación en la gestión de la Educación Superior
Calidad y motivación en la gestión de la Educación Superior
 
Realchange
RealchangeRealchange
Realchange
 
Hardware
HardwareHardware
Hardware
 
IFES: Online-Werbung in Österreich 2012
IFES: Online-Werbung in Österreich 2012IFES: Online-Werbung in Österreich 2012
IFES: Online-Werbung in Österreich 2012
 
La evolución de la comunicación en la actualidad
La evolución de la comunicación en la actualidadLa evolución de la comunicación en la actualidad
La evolución de la comunicación en la actualidad
 
LOS TELEFONOS CELULARES
LOS TELEFONOS CELULARES LOS TELEFONOS CELULARES
LOS TELEFONOS CELULARES
 
Francisco david solis lopez dn13
Francisco david solis lopez dn13Francisco david solis lopez dn13
Francisco david solis lopez dn13
 
deber
deber deber
deber
 
Google apps
Google appsGoogle apps
Google apps
 
Una bella princesa
Una bella princesaUna bella princesa
Una bella princesa
 
Winter Prospekt 2013-14
Winter Prospekt 2013-14Winter Prospekt 2013-14
Winter Prospekt 2013-14
 
Sistema operativo
Sistema operativoSistema operativo
Sistema operativo
 

Ähnlich wie SCAPE - Skalierbare Langzeitarchivierung (SCAPE - scalable longterm digital preservation)

Hadoop Einführung @codecentric
Hadoop Einführung @codecentricHadoop Einführung @codecentric
Hadoop Einführung @codecentricimalik8088
 
GWAVACon 2015: SEP - Backuplösungen auf dem Prüfstand
GWAVACon 2015: SEP - Backuplösungen auf dem PrüfstandGWAVACon 2015: SEP - Backuplösungen auf dem Prüfstand
GWAVACon 2015: SEP - Backuplösungen auf dem PrüfstandGWAVA
 
Rbu amanox big_data_intro_infrastruktur
Rbu amanox big_data_intro_infrastrukturRbu amanox big_data_intro_infrastruktur
Rbu amanox big_data_intro_infrastrukturRene Burgener
 
Private Cloud mit Open Source
Private Cloud mit Open SourcePrivate Cloud mit Open Source
Private Cloud mit Open SourceDaniel Schneller
 
Hadoop in modernen BI-Infrastrukturen
Hadoop in modernen BI-InfrastrukturenHadoop in modernen BI-Infrastrukturen
Hadoop in modernen BI-Infrastruktureninovex GmbH
 
Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?
Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?
Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?KurtStockinger
 
Big Data Konnektivität
Big Data KonnektivitätBig Data Konnektivität
Big Data KonnektivitätTrivadis
 
Seafile Whitepaper: Max-Planck-Langzeitarchiv Keeper
Seafile Whitepaper: Max-Planck-Langzeitarchiv KeeperSeafile Whitepaper: Max-Planck-Langzeitarchiv Keeper
Seafile Whitepaper: Max-Planck-Langzeitarchiv KeeperChristoph Dyllick-Brenzinger
 
Schweine latein-vortrag
Schweine latein-vortragSchweine latein-vortrag
Schweine latein-vortragRamon Wartala
 
DSpace as publication platform
DSpace as publication platformDSpace as publication platform
DSpace as publication platformredsys
 
Hadoop 2.0 - The Next Level
Hadoop 2.0 - The Next LevelHadoop 2.0 - The Next Level
Hadoop 2.0 - The Next LevelSascha Dittmann
 
Fusion der Welten: Hadoop als DWH-Backend bei ProSieben
Fusion der Welten: Hadoop als DWH-Backend bei ProSiebenFusion der Welten: Hadoop als DWH-Backend bei ProSieben
Fusion der Welten: Hadoop als DWH-Backend bei ProSiebeninovex GmbH
 
Oracle no sql-doag-datenbank_konferenz_juni_2014
Oracle no sql-doag-datenbank_konferenz_juni_2014Oracle no sql-doag-datenbank_konferenz_juni_2014
Oracle no sql-doag-datenbank_konferenz_juni_2014Gunther Pippèrr
 
Doag 2104 manuskript_hadoop_oracle_integration_gunther_pipperr_v02
Doag 2104 manuskript_hadoop_oracle_integration_gunther_pipperr_v02Doag 2104 manuskript_hadoop_oracle_integration_gunther_pipperr_v02
Doag 2104 manuskript_hadoop_oracle_integration_gunther_pipperr_v02Gunther Pippèrr
 
Cloud Computing für die Verarbeitung von Metadaten
Cloud Computing für die Verarbeitung von MetadatenCloud Computing für die Verarbeitung von Metadaten
Cloud Computing für die Verarbeitung von MetadatenMagnus Pfeffer
 
GWAVACon - Secure and managed file transfer - deutsch
GWAVACon - Secure and managed file transfer - deutschGWAVACon - Secure and managed file transfer - deutsch
GWAVACon - Secure and managed file transfer - deutschGWAVA
 
3. IPv6 im täglichen Geschäftsleben - Simon Leinen
3. IPv6 im täglichen Geschäftsleben - Simon Leinen3. IPv6 im täglichen Geschäftsleben - Simon Leinen
3. IPv6 im täglichen Geschäftsleben - Simon LeinenDigicomp Academy AG
 
Übersetzungsproduktivität: Der nächste Schritt
Übersetzungsproduktivität: Der nächste SchrittÜbersetzungsproduktivität: Der nächste Schritt
Übersetzungsproduktivität: Der nächste SchrittSDL Language Technologies
 
Deployment von Entwicklungsumgebungen eines TYPO3-Intranets mit Vagrant
Deployment von Entwicklungsumgebungen eines TYPO3-Intranets mit VagrantDeployment von Entwicklungsumgebungen eines TYPO3-Intranets mit Vagrant
Deployment von Entwicklungsumgebungen eines TYPO3-Intranets mit VagrantChristoph Möller
 

Ähnlich wie SCAPE - Skalierbare Langzeitarchivierung (SCAPE - scalable longterm digital preservation) (20)

Hadoop Einführung @codecentric
Hadoop Einführung @codecentricHadoop Einführung @codecentric
Hadoop Einführung @codecentric
 
GWAVACon 2015: SEP - Backuplösungen auf dem Prüfstand
GWAVACon 2015: SEP - Backuplösungen auf dem PrüfstandGWAVACon 2015: SEP - Backuplösungen auf dem Prüfstand
GWAVACon 2015: SEP - Backuplösungen auf dem Prüfstand
 
Rbu amanox big_data_intro_infrastruktur
Rbu amanox big_data_intro_infrastrukturRbu amanox big_data_intro_infrastruktur
Rbu amanox big_data_intro_infrastruktur
 
Private Cloud mit Open Source
Private Cloud mit Open SourcePrivate Cloud mit Open Source
Private Cloud mit Open Source
 
Hadoop in modernen BI-Infrastrukturen
Hadoop in modernen BI-InfrastrukturenHadoop in modernen BI-Infrastrukturen
Hadoop in modernen BI-Infrastrukturen
 
DSpace 5 und Linked (Open) Data
DSpace 5 und Linked (Open) DataDSpace 5 und Linked (Open) Data
DSpace 5 und Linked (Open) Data
 
Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?
Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?
Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?
 
Big Data Konnektivität
Big Data KonnektivitätBig Data Konnektivität
Big Data Konnektivität
 
Seafile Whitepaper: Max-Planck-Langzeitarchiv Keeper
Seafile Whitepaper: Max-Planck-Langzeitarchiv KeeperSeafile Whitepaper: Max-Planck-Langzeitarchiv Keeper
Seafile Whitepaper: Max-Planck-Langzeitarchiv Keeper
 
Schweine latein-vortrag
Schweine latein-vortragSchweine latein-vortrag
Schweine latein-vortrag
 
DSpace as publication platform
DSpace as publication platformDSpace as publication platform
DSpace as publication platform
 
Hadoop 2.0 - The Next Level
Hadoop 2.0 - The Next LevelHadoop 2.0 - The Next Level
Hadoop 2.0 - The Next Level
 
Fusion der Welten: Hadoop als DWH-Backend bei ProSieben
Fusion der Welten: Hadoop als DWH-Backend bei ProSiebenFusion der Welten: Hadoop als DWH-Backend bei ProSieben
Fusion der Welten: Hadoop als DWH-Backend bei ProSieben
 
Oracle no sql-doag-datenbank_konferenz_juni_2014
Oracle no sql-doag-datenbank_konferenz_juni_2014Oracle no sql-doag-datenbank_konferenz_juni_2014
Oracle no sql-doag-datenbank_konferenz_juni_2014
 
Doag 2104 manuskript_hadoop_oracle_integration_gunther_pipperr_v02
Doag 2104 manuskript_hadoop_oracle_integration_gunther_pipperr_v02Doag 2104 manuskript_hadoop_oracle_integration_gunther_pipperr_v02
Doag 2104 manuskript_hadoop_oracle_integration_gunther_pipperr_v02
 
Cloud Computing für die Verarbeitung von Metadaten
Cloud Computing für die Verarbeitung von MetadatenCloud Computing für die Verarbeitung von Metadaten
Cloud Computing für die Verarbeitung von Metadaten
 
GWAVACon - Secure and managed file transfer - deutsch
GWAVACon - Secure and managed file transfer - deutschGWAVACon - Secure and managed file transfer - deutsch
GWAVACon - Secure and managed file transfer - deutsch
 
3. IPv6 im täglichen Geschäftsleben - Simon Leinen
3. IPv6 im täglichen Geschäftsleben - Simon Leinen3. IPv6 im täglichen Geschäftsleben - Simon Leinen
3. IPv6 im täglichen Geschäftsleben - Simon Leinen
 
Übersetzungsproduktivität: Der nächste Schritt
Übersetzungsproduktivität: Der nächste SchrittÜbersetzungsproduktivität: Der nächste Schritt
Übersetzungsproduktivität: Der nächste Schritt
 
Deployment von Entwicklungsumgebungen eines TYPO3-Intranets mit Vagrant
Deployment von Entwicklungsumgebungen eines TYPO3-Intranets mit VagrantDeployment von Entwicklungsumgebungen eines TYPO3-Intranets mit Vagrant
Deployment von Entwicklungsumgebungen eines TYPO3-Intranets mit Vagrant
 

Mehr von SCAPE Project

SCAPE Information Day at BL - Characterising content in web archives with Nanite
SCAPE Information Day at BL - Characterising content in web archives with NaniteSCAPE Information Day at BL - Characterising content in web archives with Nanite
SCAPE Information Day at BL - Characterising content in web archives with NaniteSCAPE Project
 
Scape information day at BL - Using Jpylyzer and Schematron for validating JP...
Scape information day at BL - Using Jpylyzer and Schematron for validating JP...Scape information day at BL - Using Jpylyzer and Schematron for validating JP...
Scape information day at BL - Using Jpylyzer and Schematron for validating JP...SCAPE Project
 
SCAPE Information Day at BL - Some of the SCAPE Outputs Available
SCAPE Information Day at BL - Some of the SCAPE Outputs AvailableSCAPE Information Day at BL - Some of the SCAPE Outputs Available
SCAPE Information Day at BL - Some of the SCAPE Outputs AvailableSCAPE Project
 
SCAPE Information Day at BL - Large Scale Processing with Hadoop
SCAPE Information Day at BL - Large Scale Processing with HadoopSCAPE Information Day at BL - Large Scale Processing with Hadoop
SCAPE Information Day at BL - Large Scale Processing with HadoopSCAPE Project
 
SCAPE Information day at BL - Flint, a Format and File Validation Tool
SCAPE Information day at BL - Flint, a Format and File Validation ToolSCAPE Information day at BL - Flint, a Format and File Validation Tool
SCAPE Information day at BL - Flint, a Format and File Validation ToolSCAPE Project
 
SCAPE Webinar: Tools for uncovering preservation risks in large repositories
SCAPE Webinar: Tools for uncovering preservation risks in large repositoriesSCAPE Webinar: Tools for uncovering preservation risks in large repositories
SCAPE Webinar: Tools for uncovering preservation risks in large repositoriesSCAPE Project
 
SCAPE – Scalable Preservation Environments, SCAPE Information Day, 25 June 20...
SCAPE – Scalable Preservation Environments, SCAPE Information Day, 25 June 20...SCAPE – Scalable Preservation Environments, SCAPE Information Day, 25 June 20...
SCAPE – Scalable Preservation Environments, SCAPE Information Day, 25 June 20...SCAPE Project
 
Policy driven validation of JPEG 2000 files based on Jpylyzer, SCAPE Informat...
Policy driven validation of JPEG 2000 files based on Jpylyzer, SCAPE Informat...Policy driven validation of JPEG 2000 files based on Jpylyzer, SCAPE Informat...
Policy driven validation of JPEG 2000 files based on Jpylyzer, SCAPE Informat...SCAPE Project
 
Migration of audio files using Hadoop, SCAPE Information Day, 25 June 2014
Migration of audio files using Hadoop, SCAPE Information Day, 25 June 2014Migration of audio files using Hadoop, SCAPE Information Day, 25 June 2014
Migration of audio files using Hadoop, SCAPE Information Day, 25 June 2014SCAPE Project
 
Integrating the Fedora based DOMS repository with Hadoop, SCAPE Information D...
Integrating the Fedora based DOMS repository with Hadoop, SCAPE Information D...Integrating the Fedora based DOMS repository with Hadoop, SCAPE Information D...
Integrating the Fedora based DOMS repository with Hadoop, SCAPE Information D...SCAPE Project
 
Hadoop and its applications at the State and University Library, SCAPE Inform...
Hadoop and its applications at the State and University Library, SCAPE Inform...Hadoop and its applications at the State and University Library, SCAPE Inform...
Hadoop and its applications at the State and University Library, SCAPE Inform...SCAPE Project
 
Scape project presentation - Scalable Preservation Environments
Scape project presentation - Scalable Preservation EnvironmentsScape project presentation - Scalable Preservation Environments
Scape project presentation - Scalable Preservation EnvironmentsSCAPE Project
 
LIBER Satellite Event, SCAPE by Sven Schlarb
LIBER Satellite Event, SCAPE by Sven SchlarbLIBER Satellite Event, SCAPE by Sven Schlarb
LIBER Satellite Event, SCAPE by Sven SchlarbSCAPE Project
 
Content profiling and C3PO
Content profiling and C3POContent profiling and C3PO
Content profiling and C3POSCAPE Project
 
Control policy formulation
Control policy formulationControl policy formulation
Control policy formulationSCAPE Project
 
Preservation Policy in SCAPE - Training, Aarhus
Preservation Policy in SCAPE - Training, AarhusPreservation Policy in SCAPE - Training, Aarhus
Preservation Policy in SCAPE - Training, AarhusSCAPE Project
 
An image based approach for content analysis in document collections
An image based approach for content analysis in document collectionsAn image based approach for content analysis in document collections
An image based approach for content analysis in document collectionsSCAPE Project
 
TAVERNA Components - Semantically annotated and sharable units of functionality
TAVERNA Components - Semantically annotated and sharable units of functionalityTAVERNA Components - Semantically annotated and sharable units of functionality
TAVERNA Components - Semantically annotated and sharable units of functionalitySCAPE Project
 
Automatic Preservation Watch
Automatic Preservation WatchAutomatic Preservation Watch
Automatic Preservation WatchSCAPE Project
 

Mehr von SCAPE Project (20)

C sz z6
C sz z6C sz z6
C sz z6
 
SCAPE Information Day at BL - Characterising content in web archives with Nanite
SCAPE Information Day at BL - Characterising content in web archives with NaniteSCAPE Information Day at BL - Characterising content in web archives with Nanite
SCAPE Information Day at BL - Characterising content in web archives with Nanite
 
Scape information day at BL - Using Jpylyzer and Schematron for validating JP...
Scape information day at BL - Using Jpylyzer and Schematron for validating JP...Scape information day at BL - Using Jpylyzer and Schematron for validating JP...
Scape information day at BL - Using Jpylyzer and Schematron for validating JP...
 
SCAPE Information Day at BL - Some of the SCAPE Outputs Available
SCAPE Information Day at BL - Some of the SCAPE Outputs AvailableSCAPE Information Day at BL - Some of the SCAPE Outputs Available
SCAPE Information Day at BL - Some of the SCAPE Outputs Available
 
SCAPE Information Day at BL - Large Scale Processing with Hadoop
SCAPE Information Day at BL - Large Scale Processing with HadoopSCAPE Information Day at BL - Large Scale Processing with Hadoop
SCAPE Information Day at BL - Large Scale Processing with Hadoop
 
SCAPE Information day at BL - Flint, a Format and File Validation Tool
SCAPE Information day at BL - Flint, a Format and File Validation ToolSCAPE Information day at BL - Flint, a Format and File Validation Tool
SCAPE Information day at BL - Flint, a Format and File Validation Tool
 
SCAPE Webinar: Tools for uncovering preservation risks in large repositories
SCAPE Webinar: Tools for uncovering preservation risks in large repositoriesSCAPE Webinar: Tools for uncovering preservation risks in large repositories
SCAPE Webinar: Tools for uncovering preservation risks in large repositories
 
SCAPE – Scalable Preservation Environments, SCAPE Information Day, 25 June 20...
SCAPE – Scalable Preservation Environments, SCAPE Information Day, 25 June 20...SCAPE – Scalable Preservation Environments, SCAPE Information Day, 25 June 20...
SCAPE – Scalable Preservation Environments, SCAPE Information Day, 25 June 20...
 
Policy driven validation of JPEG 2000 files based on Jpylyzer, SCAPE Informat...
Policy driven validation of JPEG 2000 files based on Jpylyzer, SCAPE Informat...Policy driven validation of JPEG 2000 files based on Jpylyzer, SCAPE Informat...
Policy driven validation of JPEG 2000 files based on Jpylyzer, SCAPE Informat...
 
Migration of audio files using Hadoop, SCAPE Information Day, 25 June 2014
Migration of audio files using Hadoop, SCAPE Information Day, 25 June 2014Migration of audio files using Hadoop, SCAPE Information Day, 25 June 2014
Migration of audio files using Hadoop, SCAPE Information Day, 25 June 2014
 
Integrating the Fedora based DOMS repository with Hadoop, SCAPE Information D...
Integrating the Fedora based DOMS repository with Hadoop, SCAPE Information D...Integrating the Fedora based DOMS repository with Hadoop, SCAPE Information D...
Integrating the Fedora based DOMS repository with Hadoop, SCAPE Information D...
 
Hadoop and its applications at the State and University Library, SCAPE Inform...
Hadoop and its applications at the State and University Library, SCAPE Inform...Hadoop and its applications at the State and University Library, SCAPE Inform...
Hadoop and its applications at the State and University Library, SCAPE Inform...
 
Scape project presentation - Scalable Preservation Environments
Scape project presentation - Scalable Preservation EnvironmentsScape project presentation - Scalable Preservation Environments
Scape project presentation - Scalable Preservation Environments
 
LIBER Satellite Event, SCAPE by Sven Schlarb
LIBER Satellite Event, SCAPE by Sven SchlarbLIBER Satellite Event, SCAPE by Sven Schlarb
LIBER Satellite Event, SCAPE by Sven Schlarb
 
Content profiling and C3PO
Content profiling and C3POContent profiling and C3PO
Content profiling and C3PO
 
Control policy formulation
Control policy formulationControl policy formulation
Control policy formulation
 
Preservation Policy in SCAPE - Training, Aarhus
Preservation Policy in SCAPE - Training, AarhusPreservation Policy in SCAPE - Training, Aarhus
Preservation Policy in SCAPE - Training, Aarhus
 
An image based approach for content analysis in document collections
An image based approach for content analysis in document collectionsAn image based approach for content analysis in document collections
An image based approach for content analysis in document collections
 
TAVERNA Components - Semantically annotated and sharable units of functionality
TAVERNA Components - Semantically annotated and sharable units of functionalityTAVERNA Components - Semantically annotated and sharable units of functionality
TAVERNA Components - Semantically annotated and sharable units of functionality
 
Automatic Preservation Watch
Automatic Preservation WatchAutomatic Preservation Watch
Automatic Preservation Watch
 

SCAPE - Skalierbare Langzeitarchivierung (SCAPE - scalable longterm digital preservation)

  • 1. SCAPE Skalierbare Langzeitarchivierung 04.10.2013 Dr. Sven Schlarb Österreichische Nationalbibliothek Abteilung für Forschung und Entwicklung sven.schlarb@onb.ac.at
  • 2. Übersicht • Einführung • SCAPE Lösungen • Repositories • Werkzeuge • Planung der Langzeitarchivierung • Anwendungsfälle • • • • Web-Archivierung Repositories Wissenschaftliche Daten Datenzentren • Weiterführende Informationen This work was partially supported by the SCAPE Project. The SCAPE project is co‐funded by the European Union under FP7 ICT‐2009.4.1 (Grant Agreement number 270137).
  • 3. SCAPE – Worum gehts im Allgemeinen? • „Big data“ – Verarbeitung großer Datenmengen • Skalierbarkeit in mehrerlei Hinsicht • • • • Anzahl der zu verarbeitenden Objekte Größe Komplexität Vielfalt der Datenformate • IT Umgebungen (Hardware, Software, Systeme) sind für das Management zunehmender Datenmengen nicht ausgerichtet
  • 4. SCAPE – Worum gehts konkret? • Planung und Durchführung rechenintensiver Maßnahmen der Langzeitarchivierung, zum Beispiel: • Ingest großer Datenmengen in ein Repository • Dateiformat-Identifikation und Bestimmung von Dateieigenschaften • Multi-Terabyte Migration • Ausarbeitung typischer Anwendungsfälle die skalierbare Maßnahmen für die Langzeitarchivierung erfordern • Umsetzung der Anwendungsfälle und Einsatz in Bibliotheken und Datenzentren
  • 5. SCAPE Projektrahmen • SCAPE ist ein Nachfolge-Projekt des Planets-Projekts (FP6) • Framework Program 7 (FP7) - Collaborative Project • Laufzeit: 42 44 Monate • Februar 2011 – Juli September 2014 • Budget: 11.3 12.0 Millionen Euro • Gefördert: 8.6 9.2 Millionen Euro
  • 8. Skalierbare Datenverarbeitung • Basis • Computer-Cluster • Virtualsierung (XEN/Eucalyptus) • Softwareverteilung • Debian Pakete • Tool Spezifikation • Auftragsausführung • Apache Hadoop (HDFS/MapReduce) • Apache Oozie (Workflows) This work was partially supported by the SCAPE Project. The SCAPE project is co‐funded by the European Union under FP7 ICT‐2009.4.1 (Grant Agreement number 270137).
  • 9. Skalierbare Repositories • Fedora 4.0.0 • • • • Nur REST, kein SOAP Auf der Basis von RDF JCR 2.0 Implementieriung – ModeShape (Jboss) Infinispan (Jboss) verteilter NoSQL Datenspeicher • Lily 2.0 • Basierend auf HBase/HDFS • Integrierte Datenverarbeitung und -speicherung This work was partially supported by the SCAPE Project. The SCAPE project is co‐funded by the European Union under FP7 ICT‐2009.4.1 (Grant Agreement number 270137).
  • 10. In SCAPE entwickelte Software-Werkzeuge Matchbox – Duplikat-Bilderkennung Pagelyzer– Web-Inhalte vergleichen XCorrSound – Audio-Vergleich Jpylyzer – JPEG 2000 Validierung This work was partially supported by the SCAPE Project. The SCAPE project is co‐funded by the European Union under FP7 ICT‐2009.4.1 (Grant Agreement number 270137).
  • 11. Integration existierender Software-Werkzeuge • Tool Wrapper • Integration bestehender Software-Werkzeuge in die SCAPE Platform • Standard-Namensgebung von Werkzeugen für Dateianalyse, Migration und Qualitätssicherung • Standardisierte Ausführung (Kommandozeile) • Einfache Einrichtung auf dem Cluster dank der Bereitstellung von Debian-Paketen • Unterstützt Datenströme, die für Hadoop-Verarbeitungsaufträge nützlich sind. • Generiert Langzeitarchivierungskomponenten • Taverna Workflow-Komponenten inklusive Metadaten, die das Auffinden erleichtern • Automatischer Veröffentlichung von Kompmenten auf myExperiment • Standardisierte Eingabe und Ausgabe, die das Kombinieren der WorkflowKomponenten vereinfacht • Langzeitarchivierungswerkzeugkasten • Werkzeugsammlung für die Langzeitarchivierung • Über 80 Operationen für Migration, Dateianalyse, und Qualitätssicherung • Einfaches deployment unter Linux (via apt-get) • apt-get install digital-preservation-tools This work was partially supported by the SCAPE Project. The SCAPE project is co‐funded by the European Union under FP7 ICT‐2009.4.1 (Grant Agreement number 270137).
  • 12. Planung der Langzeitarchivierung • SCOUT: Automatisierte Überwachung der Langzeitarchivierung • Einbindung externer Informationsquellen der Langzeitarchivierung • Fall-basierte Benachrichtigungsfunktionen • c3po: Skalierbare Analyse von Archivinhalten • • • • Scale-out MongoDB (Anzahl der Knoten beliebig erweiterbar) Auswertung von FITS-Datei-Analyseergebnissen Detaillierte Statistiken Möglichkeiten der Stichprobenbildung • PLATO 4.1: scalable preservation planning • www.ifs.tuwien.ac.at/dp/plato • Weiterentwicklung der Version aus dem Planets-Projekt • Neue Funktionalität • Gemeinsame Planung der Langzeitarchivierung in Gruppen • Integration maschinenlesbarer Richtlinien This work was partially supported by the SCAPE Project. The SCAPE project is co‐funded by the European Union under FP7 ICT‐2009.4.1 (Grant Agreement number 270137).
  • 13. SCAPE Architektur Pull API Automated Watch Source Assessment Adaptor Automated Watch Sources Push API Report API Knowledge Plan Management API Client Service Automated Planning Notification API Plan Watch Request API Component Lookup API Plan Management GUI Digital Object Repository PLATO Component Catalogue Execution Platform JES API Component Registration API JES Digital Objects/ Metadata Preservation Plan Store Data Connector API Data Loader Application Hadoop LDS3 API Data Publication Platform This work was partially supported by the SCAPE Project. The SCAPE project is co‐funded by the European Union under FP7 ICT‐2009.4.1 (Grant Agreement number 270137). Taverna Workbench Component Profile Validator
  • 15. Einige Hadoop Grundprinzipien • Bei großen Datenmengen ist es meist einfacher die verarbeitende Komponente zu den Daten zu bringen als umgekehrt, die Daten zur verarbeitenden Komponente • Feingranulare Parallelisierung: Die Ausführung der Datenverarbeitung findet auf den zur Verfügung stehenden Prozessorkernen statt • Hardware-bedingte Ausfälle sind keine Besonderheit, sondern es gibt spezielle Vorkehrungen dafür • Redundanz: Datenblöcke werden redundant gespeichert (Default: 3x)  Ausfallsicherheit, Flexibler Zugriff auf Daten • Daten-Lokalität: Freier Knoten mit direktem Zugang zu Datenblock übernimmt die Verarbeitung This work was partially supported by the SCAPE Project. The SCAPE project is co‐funded by the European Union under FP7 ICT‐2009.4.1 (Grant Agreement number 270137).
  • 16. Die physische Sicht: Prozessor (CPU) Beispielkonfiguration einer Quad-Core-CPU Pro Cluster-Knoten 4 physische Kerne 8 Hyperthreading-Kerne (System „sieht“ 8 Kerne) OS Reduce Map Reduce Map Map Map Map This work was partially supported by the SCAPE Project. The SCAPE project is co‐funded by the European Union under FP7 ICT‐2009.4.1 (Grant Agreement number 270137).
  • 17. Die physische Sicht: Cluster-Knoten Verteilte Datenverarbeitung (MapReduce) 2 x Quad-Core-CPUs: 10 Map (Parallelisierung) 4 Reduce (Aggregation) 4 x 1 TB Festplatten bei Redundanz 3: 1,33 TB effektiv (rein rechnerisch) Verteilter Datenspeicher (HDFS) Hadoop = MapReduce + HDFS This work was partially supported by the SCAPE Project. The SCAPE project is co‐funded by the European Union under FP7 ICT‐2009.4.1 (Grant Agreement number 270137).
  • 18. Verteilte Datenverarbeitung (MapReduce) Task1 Task 2 Aggregated Result Output data Task 3 This work was partially supported by the SCAPE Project. The SCAPE project is co‐funded by the European Union under FP7 ICT‐2009.4.1 (Grant Agreement number 270137). Aggregated Result
  • 19. Skalierbares Open Source Puzzle Taverna Workflow Server (REST API) Pig (ETL) Hive (SQL) Sqoop (RDBMS) MapReduce (Job-Ausführung) Hadoop Distributed File System (HDFS) Shared Network Attached File System (NAS) This work was partially supported by the SCAPE Project. The SCAPE project is co‐funded by the European Union under FP7 ICT‐2009.4.1 (Grant Agreement number 270137).
  • 21. Fragestellungen zur Daten-Vorbereitung • HDFS als Master oder Temporärspeicher: Müssen die Dateien für die Verarbeitung erst auf den Cluster kopiert werden?  Widerspricht eigentlich dem Prinzip: Prozessor bei den Daten. • Daten-Teilbarkeit: Lassen sich die Eingangsdaten für die Parallelisierung in kleinere Datensegmente unterteilen (Standard: 64 MB)? • Das „Kleine Dateien“-Problem: Wenn eine große Menge kleinerer Dateien vorliegen, lässt es der Anwendungsfall zu, diese zu einer einzigen großen Datei zusammenzufassen? • Wahlfreier Datenzugriff: Ist die sequentielle Verarbeitung der Eingangsdaten ausreichend? Gibt es häufig Änderungen? This work was partially supported by the SCAPE Project. The SCAPE project is co‐funded by the European Union under FP7 ICT‐2009.4.1 (Grant Agreement number 270137).
  • 22. SCAPE Anwendungsfälle • Große digitale Repositories • Format-Konvertierung umfangreicher Bestände • Überwiegend Parallelisierung, d.h. vor Allem “Map” • Schlechte Audio-Qualität automatisiert entdecken • XCorrSound-Anwendung • Duplikat-Seiten in großen Buchbeständen erkennen • Matchbox-Anwendung • Duplikate innerhalb eines Buches finden • Verschiedene Buchversionen miteinander vergleichen • Wissenschaftliche Daten • Konvertierung von RAW zu NEXUS • Große Datenmengen aus Physik-Experimenten • Herausforderung: Verschiedene Teilchenbeschleuniger produzieren unterschiedliche RAW Datenformate from digitalbevaring.dk
  • 23. SCAPE Testbeds • Web Content • Datei-Analyse und Datei-Formaterkennung  Statistiken: MapReduce Anwendungsfälle • Qualitätssicherung in der Web-Archivierung • Data Centers • Übertragung medizinischer Daten in Datenzentren • Voraussetzung: Verschlüsselung und Anonymisierung from digitalbevaring.dk
  • 25. Weiterführende Informationen • Entwicklungs-Infrastruktur • Code-Repository bei der Open Planets Foundation und GitHub • https://github.com/openplanets/ • Wiki • http://wiki.opf-labs.org/display/SP/Home • Veröffentlichungen • http://www.scape-project.eu/category/publication • Projektergebnisse: • http://www.scape-project.eu/category/deliverable • SCAPE-Werkzeuge: • http://www.scape-project.eu/tools
  • 26. SCAPE Hackathon in Wien • Langzeitarchivierung mit Hadoop: Hadoop-driven Digital Preservation • 2. bis 4. Dezember 2013 in Wien an der Österreichischen Nationalbibliothek © Justin Smith / Wikimedia Commons, CC-By-SA-3.0 http://www.openplanetsfoundation.org/events/scape-opf-hackathon-hadoop-driven-digital-preservation
  • 27. SCAPE Contact Information • • • • SCAPE http://www.scape-project.eu Twitter: #scapeproject office@list.scape-project.eu • Dr. Sven Schlarb Österreichische Nationalbibliothek sven.schlarb@onb.ac.at