Cloud Computing für die Verarbeitung von 
Metadaten 
Prof. Magnus Pfeffer 
pfeffer@hdm-stuttgart.de
Überblick 
 Herausforderung Metadatenmanagement 
 Werkzeuge zum Metadatenmanagement 
 Cloud-basierte Dienstleistungen 
...
Herausforderung Metadatenmanagement 
5.12.2014 BI Symposium 2014 3
Früher war alles einfacher... 
 (Online-)Katalog 
 Titelaufnahmen gedruckter Medien mit lokalem Bestand 
 Verknüpfte No...
Und heute? 
 Resource Discovery 
 Elektronischer und gedruckter Bestand 
 Bücher und Zeitschriften 
 Titel- und Aufsat...
Und heute? 
 Datenmanagement 
 Viele Datenformate 
 MAB2, Marc21, Dublin Core, METS/MODS, … 
 Viele Regelwerke 
 RAK,...
Herausforderungen 
 Komplexität der Datenverarbeitung 
 Kenntnis von Formaten 
 Qualitätssicherung 
 Informationsverlu...
Werkzeuge zum Metadatenmanagement 
5.12.2014 BI Symposium 2014 8
Metafacture 
 Entwickelt im Rahmen des Projekts Culturegraph 
 Hauptentwickler: Deutsche Nationalbibliothek und HBZ-NRW ...
Catmandu 
 Sammlung von Werkzeugen zur Datenverarbeitung in 
Bibliotheken 
 Einlesen von Metadaten aus unterschiedlichen...
d:swarm 
 Datenintegrations- und -modellierungswerkzeug 
 Flexibles (elastisches), graphenbasiertes Datenmodell 
 Überf...
Cloud-basierte Dienstleistungen 
5.12.2014 BI Symposium 2014 12
Das Versprechen der „Cloud“ 
 Web-basierte Dienstleistungen 
 Von einfacher Infrastruktur bis zu komplexer Software 
 S...
Cloud: Einfache Dienstleistungen 
 Rechnerkapazität 
 Virtuelle Server in Rechenzentren 
 Auswahl bei Ausstattung und B...
Produkte 
 Rechenkapazität 
 Amazon Elastic Compute Cloud (EC2) 
 Google Compute Engine 
 Microsoft Azure Virtual Mach...
Nutzungsszenarien 
 Wechsel der Arbeitsumgebung 
 Vom eigenen Arbeitsplatzrechner oder lokalen Server zum 
virtuellen Se...
Cloud: Definierte Umgebungen 
 Bereitstellung von Schnittstellen zur Programmierung 
spezifischer Anwendungen 
 Höherer ...
Produkte 
 Google App Engine 
 Plattform für die Entwicklung von Web-Applikationen 
 Programmiersprachen: Java, Python,...
Produkte 
 Hadoop 
 Plattform zur Programmierung verteilter Berechnungen zur 
echten Skalierung für sehr große Datenmeng...
Produkte 
 AWS DynamoDB 
 NoSQL-Datenbankservice 
 NoSQL 
 Speicherung von Schlüssel-Wert-Paaren 
 Speicherung von te...
Nutzungsszenarien 
 Hadoop 
 Verteilte Bearbeitung sehr großer Datenmengen 
 Komplexe Operationen 
 Datenvergleich und...
Cloud: Einzelanwendungen 
 Anwendungen für Endanwender 
 Komplette Abstraktion der technischen Umsetzung 
 Kunde nutzt ...
Aktuelle Projekte 
5.12.2014 BI Symposium 2014 23
Datenaggregation 
 Idee 
 Sammeln von Open-Data Metadatenpaketen 
 Dokumentierte Ablage in Cloud-Speicherdienst 
 Bere...
Toolsets 
 Idee 
 Bereitstellung von Werkzeugen und Programme zur 
Metdatenverarbeitung ohne aufwändige Installation 
 ...
Fazit 
5.12.2014 BI Symposium 2014 26
Es sieht ganz gut aus... 
 Komplexität der Verarbeitung 
 Es gibt gute Werkzeuge zur Vereinfachung häufiger 
Bearbeitung...
Es sieht ganz gut aus... 
 Cloud-Dienste 
 Einfacher Effizienzgewinn und Kostenvorteile durch die 
Umstieg auf IaaS-Ange...
Fragen 
?? 
5.12.2014 BI Symposium 2014 29
Danke für Ihre Aufmerksamkeit! 
Folien online unter 
http://www.slideshare.net/MagnusPfeffer/ 
Dieses Werk bzw. Inhalt ste...
Nächste SlideShare
Wird geladen in …5
×

Cloud Computing für die Verarbeitung von Metadaten

709 Aufrufe

Veröffentlicht am

Presentation given at the BI Symposium on December 5th, 2014.

Veröffentlicht in: Technologie
0 Kommentare
2 Gefällt mir
Statistik
Notizen
  • Als Erste(r) kommentieren

Keine Downloads
Aufrufe
Aufrufe insgesamt
709
Auf SlideShare
0
Aus Einbettungen
0
Anzahl an Einbettungen
3
Aktionen
Geteilt
0
Downloads
5
Kommentare
0
Gefällt mir
2
Einbettungen 0
Keine Einbettungen

Keine Notizen für die Folie

Cloud Computing für die Verarbeitung von Metadaten

  1. 1. Cloud Computing für die Verarbeitung von Metadaten Prof. Magnus Pfeffer pfeffer@hdm-stuttgart.de
  2. 2. Überblick  Herausforderung Metadatenmanagement  Werkzeuge zum Metadatenmanagement  Cloud-basierte Dienstleistungen  Aktuelle Projekte  Fazit
  3. 3. Herausforderung Metadatenmanagement 5.12.2014 BI Symposium 2014 3
  4. 4. Früher war alles einfacher...  (Online-)Katalog  Titelaufnahmen gedruckter Medien mit lokalem Bestand  Verknüpfte Normdaten  Zentrale, kooperative Bearbeitung im Verbund  Datenmanagement  Ein Datenformat (MAB2)  Ein Regelwerk (RAK)  Ein Datenlieferant (Verbund)  Ein Datenempfänger (integriertes Bibliothekssystem oder lokaler OPAC) 5.12.2014 BI Symposium 2014 4
  5. 5. Und heute?  Resource Discovery  Elektronischer und gedruckter Bestand  Bücher und Zeitschriften  Titel- und Aufsatzebene  Konsortial erworbene elektronische Zugänge  Bibliografische Daten  Volltexte  Andere digitale Medien  Bilddatenbanken  Digitalisate  Freie Quellen  Open Access  Nicht lizenzierte Medien  Bibliografischer Nachweis als Ausgangspunkt für Lieferdienste 5.12.2014 BI Symposium 2014 5
  6. 6. Und heute?  Datenmanagement  Viele Datenformate  MAB2, Marc21, Dublin Core, METS/MODS, …  Viele Regelwerke  RAK, AACR, RDA, ...  Viele Datenquellen  Eigene Datenbanken, Verbund, Konsortium, Lieferanten, Anbieter, ...  Mehrere Datenempfänger  Integriertes Bibliothekssystem  Resource Discovery System 5.12.2014 BI Symposium 2014 6
  7. 7. Herausforderungen  Komplexität der Datenverarbeitung  Kenntnis von Formaten  Qualitätssicherung  Informationsverluste  Datenmengen  Mehrere zehn Millionen Einträge nur für lizenzierte Medien möglich  Freie + nichtlizenzierte Medien → mehrere hundert Millionen Einträge 5.12.2014 BI Symposium 2014 7
  8. 8. Werkzeuge zum Metadatenmanagement 5.12.2014 BI Symposium 2014 8
  9. 9. Metafacture  Entwickelt im Rahmen des Projekts Culturegraph  Hauptentwickler: Deutsche Nationalbibliothek und HBZ-NRW  Komponenten  Flux  Skriptsprache zum Aufbau von Verarbeitungs-Pipelines  Umwandlung, Speichern und Analysieren von Daten  Keine Programmiersprachenkenntnisse erforderlich  Morph  Anwendungsspezifische Sprache zur Verarbeitung von Metadaten  Modellierung als „Pipeline“  Konfiguration in XML  Framework  Technische Umsetzung der einzelnen Komponenten in Java  Erweiterbar durch eigene Programme 5.12.2014 BI Symposium 2014 9
  10. 10. Catmandu  Sammlung von Werkzeugen zur Datenverarbeitung in Bibliotheken  Einlesen von Metadaten aus unterschiedlichen Quellen  Speichern von Metadaten  Suchen in Metadaten  Export und Umwandlung in unterschiedliche Formate  Sprache „Fix“  Beschreibung von Transformationen und Bearbeitung von Metadaten  Entwicklung von eigenen Abläufen und Anwendungen durch Kombination der Werkzeuge mit anderen Entwicklungsumgebungen 5.12.2014 BI Symposium 2014 10
  11. 11. d:swarm  Datenintegrations- und -modellierungswerkzeug  Flexibles (elastisches), graphenbasiertes Datenmodell  Überführung von Daten aus heterogenen Datenquellen  Middleware-Lösung  Durchführung aller bibliothekarischen Datenverarbeitungsprozesse  zwischen bestehenden Datenmanagementsystemen und Webanwendungen (z.B. Discovery-System)  Unterstützt u.a.  Analysen zur Verbesserung der Datenqualität  Deduplizierung und Zusammenführen von Titeldaten  FRBRisierung bibliographischer Daten 5.12.2014 BI Symposium 2014 11
  12. 12. Cloud-basierte Dienstleistungen 5.12.2014 BI Symposium 2014 12
  13. 13. Das Versprechen der „Cloud“  Web-basierte Dienstleistungen  Von einfacher Infrastruktur bis zu komplexer Software  Skalierung der Leistung nach Bedarf  Gigantische Speichervolumina  Schnelle Rechenleistung  Nutzungsbasierte Abrechnung  Keine hohen Anschaffungskosten  Planbare laufende Kosten 5.12.2014 BI Symposium 2014 13
  14. 14. Cloud: Einfache Dienstleistungen  Rechnerkapazität  Virtuelle Server in Rechenzentren  Auswahl bei Ausstattung und Betriebssystem  Große Anzahl in kurzer Zeit buchbar  Speicherkapazität  Anteile an großen Festplatten-Verbünden  Auswahl bei Geschwindigkeit und Netzanbindung  Sehr große Datenmengen speicherbar → „Infrastructure-as-a-Service“ (IaaS) 5.12.2014 BI Symposium 2014 14
  15. 15. Produkte  Rechenkapazität  Amazon Elastic Compute Cloud (EC2)  Google Compute Engine  Microsoft Azure Virtual Machines  Speicherkapazität  Amazon Simple Storage Service (S3)  Google Storage  Microsoft Azure Storage 5.12.2014 BI Symposium 2014 15
  16. 16. Nutzungsszenarien  Wechsel der Arbeitsumgebung  Vom eigenen Arbeitsplatzrechner oder lokalen Server zum virtuellen Server beim Cloud-Anbieter  Vorteil: Geringere Kosten bei höherer Kapazität  Beispiel: Amazon EC2 Typ „c3.8xlarge“ mit 32 CPUs und 60 GB RAM: $1,68 pro Stunde  Zentrale Speicherung von großen Datenmengen  Metadaten unter freien Lizenzen („Open Data“)  Vorteil: Schneller Zugriff ohne Last für Netzwerke von Datenanbietern  Beispiel: Google Storage 50GB mit 10GB Transfers: $2,61 pro Monat 5.12.2014 BI Symposium 2014 16
  17. 17. Cloud: Definierte Umgebungen  Bereitstellung von Schnittstellen zur Programmierung spezifischer Anwendungen  Höherer Abstraktionsgrad  Kunde „sieht“ nur die Schnittstellen, nicht mehr die virtuelle Maschine mit Betriebssystem  Umsetzung in Infrastruktur Aufgabe des Diensteanbieters  Angebote für unterschiedliche Zielanwendungen  Wissenschaftliche Datenverarbeitung  Web-basierte Anwendungen  Datenbanken → „Platform-as-a-Service“ (PaaS) 5.12.2014 BI Symposium 2014 17
  18. 18. Produkte  Google App Engine  Plattform für die Entwicklung von Web-Applikationen  Programmiersprachen: Java, Python, PHP, Go  Eigenschaften  Persistente Speicherung von Daten  Automatische Skalierung und Lastverteilung  Programmabläufe, die nicht von Webzugriffen ausgelöst werden  Asynchrone Berechnungen, zeitgesteuerte Läufe  Aber: Kein direkter Zugang zum Server 5.12.2014 BI Symposium 2014 18
  19. 19. Produkte  Hadoop  Plattform zur Programmierung verteilter Berechnungen zur echten Skalierung für sehr große Datenmengen  Eigenschaften  Persistente Speicherung und Datenzugriff über alle Rechner des Verbundes  Automatisiert Aufteilen des Arbeitspakets, Verteilen auf mehrere Rechner, Zusammenführen der Ergebnisse  Programmierung in Java  Zusätzliche Skriptsprachen zur einfacheren Programmierung (z.B. „Pig Latin“) 5.12.2014 BI Symposium 2014 19
  20. 20. Produkte  AWS DynamoDB  NoSQL-Datenbankservice  NoSQL  Speicherung von Schlüssel-Wert-Paaren  Speicherung von teilstrukturierten Daten  Besser geeignet für typische Anwendungen im Metadatenbereich als klassische relationale Datenbanken  Eigenschaften  Sehr schneller schlüsselbasierter Zugriff auf Daten  konsistente Latenz im einstelligen Millisekundenbereich  Skalierung für alle Größenordnungen 5.12.2014 BI Symposium 2014 20
  21. 21. Nutzungsszenarien  Hadoop  Verteilte Bearbeitung sehr großer Datenmengen  Komplexe Operationen  Datenvergleich und Clustering ähnlicher Daten  Datenbereinigung  Unterstützt in Metafacture  NoSQL  Zentrale indexierte Ablage von Daten („Backend“)  Schneller Zugriff über Identifikatoren  Spontane Abfragen und einfache Analysen direkt über die Datenbank möglich  Unterstützt in Catmandu und Metafacture 5.12.2014 BI Symposium 2014 21
  22. 22. Cloud: Einzelanwendungen  Anwendungen für Endanwender  Komplette Abstraktion der technischen Umsetzung  Kunde nutzt nur noch eine web-basierte Schnittstelle  Umsetzung und Skalierung Aufgabe des Anbieters  Zahlreiche Angebote  Dropbox  Google Mail  Microsoft Office 365 online  …  Aber: (Noch) keine für Metadatenverarbeitung → „Software-as-a-Service“ (SaaS) 5.12.2014 BI Symposium 2014 22
  23. 23. Aktuelle Projekte 5.12.2014 BI Symposium 2014 23
  24. 24. Datenaggregation  Idee  Sammeln von Open-Data Metadatenpaketen  Dokumentierte Ablage in Cloud-Speicherdienst  Bereitstellung in mehreren Datenformaten  Erhoffter Nutzen  Zentrale Anlaufstelle für Datennutzer  Vermeidung von Doppelarbeit  Einfache Nachnutzung in virtuellen Servern 5.12.2014 BI Symposium 2014 24
  25. 25. Toolsets  Idee  Bereitstellung von Werkzeugen und Programme zur Metdatenverarbeitung ohne aufwändige Installation  Vorbereitete Server-Einrichtung für Cloud-Dienste  Wenn möglich: Testinstallationen mit web-basiertem Zugang  Erhoffter Nutzen  Niederschwelliger Zugang zu den Werkzeugen  Einfache Evaluation der Möglichkeiten  Nutzung in der Lehre 5.12.2014 BI Symposium 2014 25
  26. 26. Fazit 5.12.2014 BI Symposium 2014 26
  27. 27. Es sieht ganz gut aus...  Komplexität der Verarbeitung  Es gibt gute Werkzeuge zur Vereinfachung häufiger Bearbeitungsschritte  Zahlreiche Projekte  Unterschiedliche Ansätze und Schwerpunkte  Sehr aktive Entwicklung  Anwendungen in der Praxis und Forschung  Bald: Anwendung in der Lehre 5.12.2014 BI Symposium 2014 27
  28. 28. Es sieht ganz gut aus...  Cloud-Dienste  Einfacher Effizienzgewinn und Kostenvorteile durch die Umstieg auf IaaS-Angebote jederzeit realisierbar  Gemeinsame Nutzung von Daten und Werkzeugen durch Bereitstellung in Cloud-Angeboten  Skalierung auch für sehr große Datenmengen durch die Nutzung von PaaS-Angeboten technisch möglich  Und besonders: d:swarm als vielversprechender Ansatz eines SaaS-Angebots im Bereich Metadatenmanagement 5.12.2014 BI Symposium 2014 28
  29. 29. Fragen ?? 5.12.2014 BI Symposium 2014 29
  30. 30. Danke für Ihre Aufmerksamkeit! Folien online unter http://www.slideshare.net/MagnusPfeffer/ Dieses Werk bzw. Inhalt steht unter einer Creative Commons Namensnennung - Weitergabe unter gleichen Bedingungen 3.0 Unported Lizenz. 5.12.2014 BI Symposium 2014 30

×