Diese Präsentation wurde erfolgreich gemeldet.
Wir verwenden Ihre LinkedIn Profilangaben und Informationen zu Ihren Aktivitäten, um Anzeigen zu personalisieren und Ihnen relevantere Inhalte anzuzeigen. Sie können Ihre Anzeigeneinstellungen jederzeit ändern.
Cloud Computing für die Verarbeitung von 
Metadaten 
Prof. Magnus Pfeffer 
pfeffer@hdm-stuttgart.de
Überblick 
 Herausforderung Metadatenmanagement 
 Werkzeuge zum Metadatenmanagement 
 Cloud-basierte Dienstleistungen 
...
Herausforderung Metadatenmanagement 
5.12.2014 BI Symposium 2014 3
Früher war alles einfacher... 
 (Online-)Katalog 
 Titelaufnahmen gedruckter Medien mit lokalem Bestand 
 Verknüpfte No...
Und heute? 
 Resource Discovery 
 Elektronischer und gedruckter Bestand 
 Bücher und Zeitschriften 
 Titel- und Aufsat...
Und heute? 
 Datenmanagement 
 Viele Datenformate 
 MAB2, Marc21, Dublin Core, METS/MODS, … 
 Viele Regelwerke 
 RAK,...
Herausforderungen 
 Komplexität der Datenverarbeitung 
 Kenntnis von Formaten 
 Qualitätssicherung 
 Informationsverlu...
Werkzeuge zum Metadatenmanagement 
5.12.2014 BI Symposium 2014 8
Metafacture 
 Entwickelt im Rahmen des Projekts Culturegraph 
 Hauptentwickler: Deutsche Nationalbibliothek und HBZ-NRW ...
Catmandu 
 Sammlung von Werkzeugen zur Datenverarbeitung in 
Bibliotheken 
 Einlesen von Metadaten aus unterschiedlichen...
d:swarm 
 Datenintegrations- und -modellierungswerkzeug 
 Flexibles (elastisches), graphenbasiertes Datenmodell 
 Überf...
Cloud-basierte Dienstleistungen 
5.12.2014 BI Symposium 2014 12
Das Versprechen der „Cloud“ 
 Web-basierte Dienstleistungen 
 Von einfacher Infrastruktur bis zu komplexer Software 
 S...
Cloud: Einfache Dienstleistungen 
 Rechnerkapazität 
 Virtuelle Server in Rechenzentren 
 Auswahl bei Ausstattung und B...
Produkte 
 Rechenkapazität 
 Amazon Elastic Compute Cloud (EC2) 
 Google Compute Engine 
 Microsoft Azure Virtual Mach...
Nutzungsszenarien 
 Wechsel der Arbeitsumgebung 
 Vom eigenen Arbeitsplatzrechner oder lokalen Server zum 
virtuellen Se...
Cloud: Definierte Umgebungen 
 Bereitstellung von Schnittstellen zur Programmierung 
spezifischer Anwendungen 
 Höherer ...
Produkte 
 Google App Engine 
 Plattform für die Entwicklung von Web-Applikationen 
 Programmiersprachen: Java, Python,...
Produkte 
 Hadoop 
 Plattform zur Programmierung verteilter Berechnungen zur 
echten Skalierung für sehr große Datenmeng...
Produkte 
 AWS DynamoDB 
 NoSQL-Datenbankservice 
 NoSQL 
 Speicherung von Schlüssel-Wert-Paaren 
 Speicherung von te...
Nutzungsszenarien 
 Hadoop 
 Verteilte Bearbeitung sehr großer Datenmengen 
 Komplexe Operationen 
 Datenvergleich und...
Cloud: Einzelanwendungen 
 Anwendungen für Endanwender 
 Komplette Abstraktion der technischen Umsetzung 
 Kunde nutzt ...
Aktuelle Projekte 
5.12.2014 BI Symposium 2014 23
Datenaggregation 
 Idee 
 Sammeln von Open-Data Metadatenpaketen 
 Dokumentierte Ablage in Cloud-Speicherdienst 
 Bere...
Toolsets 
 Idee 
 Bereitstellung von Werkzeugen und Programme zur 
Metdatenverarbeitung ohne aufwändige Installation 
 ...
Fazit 
5.12.2014 BI Symposium 2014 26
Es sieht ganz gut aus... 
 Komplexität der Verarbeitung 
 Es gibt gute Werkzeuge zur Vereinfachung häufiger 
Bearbeitung...
Es sieht ganz gut aus... 
 Cloud-Dienste 
 Einfacher Effizienzgewinn und Kostenvorteile durch die 
Umstieg auf IaaS-Ange...
Fragen 
?? 
5.12.2014 BI Symposium 2014 29
Danke für Ihre Aufmerksamkeit! 
Folien online unter 
http://www.slideshare.net/MagnusPfeffer/ 
Dieses Werk bzw. Inhalt ste...
Nächste SlideShare
Wird geladen in …5
×

Cloud Computing für die Verarbeitung von Metadaten

859 Aufrufe

Veröffentlicht am

Presentation given at the BI Symposium on December 5th, 2014.

Veröffentlicht in: Technologie
  • Als Erste(r) kommentieren

Cloud Computing für die Verarbeitung von Metadaten

  1. 1. Cloud Computing für die Verarbeitung von Metadaten Prof. Magnus Pfeffer pfeffer@hdm-stuttgart.de
  2. 2. Überblick  Herausforderung Metadatenmanagement  Werkzeuge zum Metadatenmanagement  Cloud-basierte Dienstleistungen  Aktuelle Projekte  Fazit
  3. 3. Herausforderung Metadatenmanagement 5.12.2014 BI Symposium 2014 3
  4. 4. Früher war alles einfacher...  (Online-)Katalog  Titelaufnahmen gedruckter Medien mit lokalem Bestand  Verknüpfte Normdaten  Zentrale, kooperative Bearbeitung im Verbund  Datenmanagement  Ein Datenformat (MAB2)  Ein Regelwerk (RAK)  Ein Datenlieferant (Verbund)  Ein Datenempfänger (integriertes Bibliothekssystem oder lokaler OPAC) 5.12.2014 BI Symposium 2014 4
  5. 5. Und heute?  Resource Discovery  Elektronischer und gedruckter Bestand  Bücher und Zeitschriften  Titel- und Aufsatzebene  Konsortial erworbene elektronische Zugänge  Bibliografische Daten  Volltexte  Andere digitale Medien  Bilddatenbanken  Digitalisate  Freie Quellen  Open Access  Nicht lizenzierte Medien  Bibliografischer Nachweis als Ausgangspunkt für Lieferdienste 5.12.2014 BI Symposium 2014 5
  6. 6. Und heute?  Datenmanagement  Viele Datenformate  MAB2, Marc21, Dublin Core, METS/MODS, …  Viele Regelwerke  RAK, AACR, RDA, ...  Viele Datenquellen  Eigene Datenbanken, Verbund, Konsortium, Lieferanten, Anbieter, ...  Mehrere Datenempfänger  Integriertes Bibliothekssystem  Resource Discovery System 5.12.2014 BI Symposium 2014 6
  7. 7. Herausforderungen  Komplexität der Datenverarbeitung  Kenntnis von Formaten  Qualitätssicherung  Informationsverluste  Datenmengen  Mehrere zehn Millionen Einträge nur für lizenzierte Medien möglich  Freie + nichtlizenzierte Medien → mehrere hundert Millionen Einträge 5.12.2014 BI Symposium 2014 7
  8. 8. Werkzeuge zum Metadatenmanagement 5.12.2014 BI Symposium 2014 8
  9. 9. Metafacture  Entwickelt im Rahmen des Projekts Culturegraph  Hauptentwickler: Deutsche Nationalbibliothek und HBZ-NRW  Komponenten  Flux  Skriptsprache zum Aufbau von Verarbeitungs-Pipelines  Umwandlung, Speichern und Analysieren von Daten  Keine Programmiersprachenkenntnisse erforderlich  Morph  Anwendungsspezifische Sprache zur Verarbeitung von Metadaten  Modellierung als „Pipeline“  Konfiguration in XML  Framework  Technische Umsetzung der einzelnen Komponenten in Java  Erweiterbar durch eigene Programme 5.12.2014 BI Symposium 2014 9
  10. 10. Catmandu  Sammlung von Werkzeugen zur Datenverarbeitung in Bibliotheken  Einlesen von Metadaten aus unterschiedlichen Quellen  Speichern von Metadaten  Suchen in Metadaten  Export und Umwandlung in unterschiedliche Formate  Sprache „Fix“  Beschreibung von Transformationen und Bearbeitung von Metadaten  Entwicklung von eigenen Abläufen und Anwendungen durch Kombination der Werkzeuge mit anderen Entwicklungsumgebungen 5.12.2014 BI Symposium 2014 10
  11. 11. d:swarm  Datenintegrations- und -modellierungswerkzeug  Flexibles (elastisches), graphenbasiertes Datenmodell  Überführung von Daten aus heterogenen Datenquellen  Middleware-Lösung  Durchführung aller bibliothekarischen Datenverarbeitungsprozesse  zwischen bestehenden Datenmanagementsystemen und Webanwendungen (z.B. Discovery-System)  Unterstützt u.a.  Analysen zur Verbesserung der Datenqualität  Deduplizierung und Zusammenführen von Titeldaten  FRBRisierung bibliographischer Daten 5.12.2014 BI Symposium 2014 11
  12. 12. Cloud-basierte Dienstleistungen 5.12.2014 BI Symposium 2014 12
  13. 13. Das Versprechen der „Cloud“  Web-basierte Dienstleistungen  Von einfacher Infrastruktur bis zu komplexer Software  Skalierung der Leistung nach Bedarf  Gigantische Speichervolumina  Schnelle Rechenleistung  Nutzungsbasierte Abrechnung  Keine hohen Anschaffungskosten  Planbare laufende Kosten 5.12.2014 BI Symposium 2014 13
  14. 14. Cloud: Einfache Dienstleistungen  Rechnerkapazität  Virtuelle Server in Rechenzentren  Auswahl bei Ausstattung und Betriebssystem  Große Anzahl in kurzer Zeit buchbar  Speicherkapazität  Anteile an großen Festplatten-Verbünden  Auswahl bei Geschwindigkeit und Netzanbindung  Sehr große Datenmengen speicherbar → „Infrastructure-as-a-Service“ (IaaS) 5.12.2014 BI Symposium 2014 14
  15. 15. Produkte  Rechenkapazität  Amazon Elastic Compute Cloud (EC2)  Google Compute Engine  Microsoft Azure Virtual Machines  Speicherkapazität  Amazon Simple Storage Service (S3)  Google Storage  Microsoft Azure Storage 5.12.2014 BI Symposium 2014 15
  16. 16. Nutzungsszenarien  Wechsel der Arbeitsumgebung  Vom eigenen Arbeitsplatzrechner oder lokalen Server zum virtuellen Server beim Cloud-Anbieter  Vorteil: Geringere Kosten bei höherer Kapazität  Beispiel: Amazon EC2 Typ „c3.8xlarge“ mit 32 CPUs und 60 GB RAM: $1,68 pro Stunde  Zentrale Speicherung von großen Datenmengen  Metadaten unter freien Lizenzen („Open Data“)  Vorteil: Schneller Zugriff ohne Last für Netzwerke von Datenanbietern  Beispiel: Google Storage 50GB mit 10GB Transfers: $2,61 pro Monat 5.12.2014 BI Symposium 2014 16
  17. 17. Cloud: Definierte Umgebungen  Bereitstellung von Schnittstellen zur Programmierung spezifischer Anwendungen  Höherer Abstraktionsgrad  Kunde „sieht“ nur die Schnittstellen, nicht mehr die virtuelle Maschine mit Betriebssystem  Umsetzung in Infrastruktur Aufgabe des Diensteanbieters  Angebote für unterschiedliche Zielanwendungen  Wissenschaftliche Datenverarbeitung  Web-basierte Anwendungen  Datenbanken → „Platform-as-a-Service“ (PaaS) 5.12.2014 BI Symposium 2014 17
  18. 18. Produkte  Google App Engine  Plattform für die Entwicklung von Web-Applikationen  Programmiersprachen: Java, Python, PHP, Go  Eigenschaften  Persistente Speicherung von Daten  Automatische Skalierung und Lastverteilung  Programmabläufe, die nicht von Webzugriffen ausgelöst werden  Asynchrone Berechnungen, zeitgesteuerte Läufe  Aber: Kein direkter Zugang zum Server 5.12.2014 BI Symposium 2014 18
  19. 19. Produkte  Hadoop  Plattform zur Programmierung verteilter Berechnungen zur echten Skalierung für sehr große Datenmengen  Eigenschaften  Persistente Speicherung und Datenzugriff über alle Rechner des Verbundes  Automatisiert Aufteilen des Arbeitspakets, Verteilen auf mehrere Rechner, Zusammenführen der Ergebnisse  Programmierung in Java  Zusätzliche Skriptsprachen zur einfacheren Programmierung (z.B. „Pig Latin“) 5.12.2014 BI Symposium 2014 19
  20. 20. Produkte  AWS DynamoDB  NoSQL-Datenbankservice  NoSQL  Speicherung von Schlüssel-Wert-Paaren  Speicherung von teilstrukturierten Daten  Besser geeignet für typische Anwendungen im Metadatenbereich als klassische relationale Datenbanken  Eigenschaften  Sehr schneller schlüsselbasierter Zugriff auf Daten  konsistente Latenz im einstelligen Millisekundenbereich  Skalierung für alle Größenordnungen 5.12.2014 BI Symposium 2014 20
  21. 21. Nutzungsszenarien  Hadoop  Verteilte Bearbeitung sehr großer Datenmengen  Komplexe Operationen  Datenvergleich und Clustering ähnlicher Daten  Datenbereinigung  Unterstützt in Metafacture  NoSQL  Zentrale indexierte Ablage von Daten („Backend“)  Schneller Zugriff über Identifikatoren  Spontane Abfragen und einfache Analysen direkt über die Datenbank möglich  Unterstützt in Catmandu und Metafacture 5.12.2014 BI Symposium 2014 21
  22. 22. Cloud: Einzelanwendungen  Anwendungen für Endanwender  Komplette Abstraktion der technischen Umsetzung  Kunde nutzt nur noch eine web-basierte Schnittstelle  Umsetzung und Skalierung Aufgabe des Anbieters  Zahlreiche Angebote  Dropbox  Google Mail  Microsoft Office 365 online  …  Aber: (Noch) keine für Metadatenverarbeitung → „Software-as-a-Service“ (SaaS) 5.12.2014 BI Symposium 2014 22
  23. 23. Aktuelle Projekte 5.12.2014 BI Symposium 2014 23
  24. 24. Datenaggregation  Idee  Sammeln von Open-Data Metadatenpaketen  Dokumentierte Ablage in Cloud-Speicherdienst  Bereitstellung in mehreren Datenformaten  Erhoffter Nutzen  Zentrale Anlaufstelle für Datennutzer  Vermeidung von Doppelarbeit  Einfache Nachnutzung in virtuellen Servern 5.12.2014 BI Symposium 2014 24
  25. 25. Toolsets  Idee  Bereitstellung von Werkzeugen und Programme zur Metdatenverarbeitung ohne aufwändige Installation  Vorbereitete Server-Einrichtung für Cloud-Dienste  Wenn möglich: Testinstallationen mit web-basiertem Zugang  Erhoffter Nutzen  Niederschwelliger Zugang zu den Werkzeugen  Einfache Evaluation der Möglichkeiten  Nutzung in der Lehre 5.12.2014 BI Symposium 2014 25
  26. 26. Fazit 5.12.2014 BI Symposium 2014 26
  27. 27. Es sieht ganz gut aus...  Komplexität der Verarbeitung  Es gibt gute Werkzeuge zur Vereinfachung häufiger Bearbeitungsschritte  Zahlreiche Projekte  Unterschiedliche Ansätze und Schwerpunkte  Sehr aktive Entwicklung  Anwendungen in der Praxis und Forschung  Bald: Anwendung in der Lehre 5.12.2014 BI Symposium 2014 27
  28. 28. Es sieht ganz gut aus...  Cloud-Dienste  Einfacher Effizienzgewinn und Kostenvorteile durch die Umstieg auf IaaS-Angebote jederzeit realisierbar  Gemeinsame Nutzung von Daten und Werkzeugen durch Bereitstellung in Cloud-Angeboten  Skalierung auch für sehr große Datenmengen durch die Nutzung von PaaS-Angeboten technisch möglich  Und besonders: d:swarm als vielversprechender Ansatz eines SaaS-Angebots im Bereich Metadatenmanagement 5.12.2014 BI Symposium 2014 28
  29. 29. Fragen ?? 5.12.2014 BI Symposium 2014 29
  30. 30. Danke für Ihre Aufmerksamkeit! Folien online unter http://www.slideshare.net/MagnusPfeffer/ Dieses Werk bzw. Inhalt steht unter einer Creative Commons Namensnennung - Weitergabe unter gleichen Bedingungen 3.0 Unported Lizenz. 5.12.2014 BI Symposium 2014 30

×