Anzeige

Cloud Computing für die Verarbeitung von Metadaten

Professor um Stuttgart Media University
7. Dec 2014
Anzeige

Más contenido relacionado

Similar a Cloud Computing für die Verarbeitung von Metadaten(20)

Anzeige

Último(20)

Anzeige

Cloud Computing für die Verarbeitung von Metadaten

  1. Cloud Computing für die Verarbeitung von Metadaten Prof. Magnus Pfeffer pfeffer@hdm-stuttgart.de
  2. Überblick  Herausforderung Metadatenmanagement  Werkzeuge zum Metadatenmanagement  Cloud-basierte Dienstleistungen  Aktuelle Projekte  Fazit
  3. Herausforderung Metadatenmanagement 5.12.2014 BI Symposium 2014 3
  4. Früher war alles einfacher...  (Online-)Katalog  Titelaufnahmen gedruckter Medien mit lokalem Bestand  Verknüpfte Normdaten  Zentrale, kooperative Bearbeitung im Verbund  Datenmanagement  Ein Datenformat (MAB2)  Ein Regelwerk (RAK)  Ein Datenlieferant (Verbund)  Ein Datenempfänger (integriertes Bibliothekssystem oder lokaler OPAC) 5.12.2014 BI Symposium 2014 4
  5. Und heute?  Resource Discovery  Elektronischer und gedruckter Bestand  Bücher und Zeitschriften  Titel- und Aufsatzebene  Konsortial erworbene elektronische Zugänge  Bibliografische Daten  Volltexte  Andere digitale Medien  Bilddatenbanken  Digitalisate  Freie Quellen  Open Access  Nicht lizenzierte Medien  Bibliografischer Nachweis als Ausgangspunkt für Lieferdienste 5.12.2014 BI Symposium 2014 5
  6. Und heute?  Datenmanagement  Viele Datenformate  MAB2, Marc21, Dublin Core, METS/MODS, …  Viele Regelwerke  RAK, AACR, RDA, ...  Viele Datenquellen  Eigene Datenbanken, Verbund, Konsortium, Lieferanten, Anbieter, ...  Mehrere Datenempfänger  Integriertes Bibliothekssystem  Resource Discovery System 5.12.2014 BI Symposium 2014 6
  7. Herausforderungen  Komplexität der Datenverarbeitung  Kenntnis von Formaten  Qualitätssicherung  Informationsverluste  Datenmengen  Mehrere zehn Millionen Einträge nur für lizenzierte Medien möglich  Freie + nichtlizenzierte Medien → mehrere hundert Millionen Einträge 5.12.2014 BI Symposium 2014 7
  8. Werkzeuge zum Metadatenmanagement 5.12.2014 BI Symposium 2014 8
  9. Metafacture  Entwickelt im Rahmen des Projekts Culturegraph  Hauptentwickler: Deutsche Nationalbibliothek und HBZ-NRW  Komponenten  Flux  Skriptsprache zum Aufbau von Verarbeitungs-Pipelines  Umwandlung, Speichern und Analysieren von Daten  Keine Programmiersprachenkenntnisse erforderlich  Morph  Anwendungsspezifische Sprache zur Verarbeitung von Metadaten  Modellierung als „Pipeline“  Konfiguration in XML  Framework  Technische Umsetzung der einzelnen Komponenten in Java  Erweiterbar durch eigene Programme 5.12.2014 BI Symposium 2014 9
  10. Catmandu  Sammlung von Werkzeugen zur Datenverarbeitung in Bibliotheken  Einlesen von Metadaten aus unterschiedlichen Quellen  Speichern von Metadaten  Suchen in Metadaten  Export und Umwandlung in unterschiedliche Formate  Sprache „Fix“  Beschreibung von Transformationen und Bearbeitung von Metadaten  Entwicklung von eigenen Abläufen und Anwendungen durch Kombination der Werkzeuge mit anderen Entwicklungsumgebungen 5.12.2014 BI Symposium 2014 10
  11. d:swarm  Datenintegrations- und -modellierungswerkzeug  Flexibles (elastisches), graphenbasiertes Datenmodell  Überführung von Daten aus heterogenen Datenquellen  Middleware-Lösung  Durchführung aller bibliothekarischen Datenverarbeitungsprozesse  zwischen bestehenden Datenmanagementsystemen und Webanwendungen (z.B. Discovery-System)  Unterstützt u.a.  Analysen zur Verbesserung der Datenqualität  Deduplizierung und Zusammenführen von Titeldaten  FRBRisierung bibliographischer Daten 5.12.2014 BI Symposium 2014 11
  12. Cloud-basierte Dienstleistungen 5.12.2014 BI Symposium 2014 12
  13. Das Versprechen der „Cloud“  Web-basierte Dienstleistungen  Von einfacher Infrastruktur bis zu komplexer Software  Skalierung der Leistung nach Bedarf  Gigantische Speichervolumina  Schnelle Rechenleistung  Nutzungsbasierte Abrechnung  Keine hohen Anschaffungskosten  Planbare laufende Kosten 5.12.2014 BI Symposium 2014 13
  14. Cloud: Einfache Dienstleistungen  Rechnerkapazität  Virtuelle Server in Rechenzentren  Auswahl bei Ausstattung und Betriebssystem  Große Anzahl in kurzer Zeit buchbar  Speicherkapazität  Anteile an großen Festplatten-Verbünden  Auswahl bei Geschwindigkeit und Netzanbindung  Sehr große Datenmengen speicherbar → „Infrastructure-as-a-Service“ (IaaS) 5.12.2014 BI Symposium 2014 14
  15. Produkte  Rechenkapazität  Amazon Elastic Compute Cloud (EC2)  Google Compute Engine  Microsoft Azure Virtual Machines  Speicherkapazität  Amazon Simple Storage Service (S3)  Google Storage  Microsoft Azure Storage 5.12.2014 BI Symposium 2014 15
  16. Nutzungsszenarien  Wechsel der Arbeitsumgebung  Vom eigenen Arbeitsplatzrechner oder lokalen Server zum virtuellen Server beim Cloud-Anbieter  Vorteil: Geringere Kosten bei höherer Kapazität  Beispiel: Amazon EC2 Typ „c3.8xlarge“ mit 32 CPUs und 60 GB RAM: $1,68 pro Stunde  Zentrale Speicherung von großen Datenmengen  Metadaten unter freien Lizenzen („Open Data“)  Vorteil: Schneller Zugriff ohne Last für Netzwerke von Datenanbietern  Beispiel: Google Storage 50GB mit 10GB Transfers: $2,61 pro Monat 5.12.2014 BI Symposium 2014 16
  17. Cloud: Definierte Umgebungen  Bereitstellung von Schnittstellen zur Programmierung spezifischer Anwendungen  Höherer Abstraktionsgrad  Kunde „sieht“ nur die Schnittstellen, nicht mehr die virtuelle Maschine mit Betriebssystem  Umsetzung in Infrastruktur Aufgabe des Diensteanbieters  Angebote für unterschiedliche Zielanwendungen  Wissenschaftliche Datenverarbeitung  Web-basierte Anwendungen  Datenbanken → „Platform-as-a-Service“ (PaaS) 5.12.2014 BI Symposium 2014 17
  18. Produkte  Google App Engine  Plattform für die Entwicklung von Web-Applikationen  Programmiersprachen: Java, Python, PHP, Go  Eigenschaften  Persistente Speicherung von Daten  Automatische Skalierung und Lastverteilung  Programmabläufe, die nicht von Webzugriffen ausgelöst werden  Asynchrone Berechnungen, zeitgesteuerte Läufe  Aber: Kein direkter Zugang zum Server 5.12.2014 BI Symposium 2014 18
  19. Produkte  Hadoop  Plattform zur Programmierung verteilter Berechnungen zur echten Skalierung für sehr große Datenmengen  Eigenschaften  Persistente Speicherung und Datenzugriff über alle Rechner des Verbundes  Automatisiert Aufteilen des Arbeitspakets, Verteilen auf mehrere Rechner, Zusammenführen der Ergebnisse  Programmierung in Java  Zusätzliche Skriptsprachen zur einfacheren Programmierung (z.B. „Pig Latin“) 5.12.2014 BI Symposium 2014 19
  20. Produkte  AWS DynamoDB  NoSQL-Datenbankservice  NoSQL  Speicherung von Schlüssel-Wert-Paaren  Speicherung von teilstrukturierten Daten  Besser geeignet für typische Anwendungen im Metadatenbereich als klassische relationale Datenbanken  Eigenschaften  Sehr schneller schlüsselbasierter Zugriff auf Daten  konsistente Latenz im einstelligen Millisekundenbereich  Skalierung für alle Größenordnungen 5.12.2014 BI Symposium 2014 20
  21. Nutzungsszenarien  Hadoop  Verteilte Bearbeitung sehr großer Datenmengen  Komplexe Operationen  Datenvergleich und Clustering ähnlicher Daten  Datenbereinigung  Unterstützt in Metafacture  NoSQL  Zentrale indexierte Ablage von Daten („Backend“)  Schneller Zugriff über Identifikatoren  Spontane Abfragen und einfache Analysen direkt über die Datenbank möglich  Unterstützt in Catmandu und Metafacture 5.12.2014 BI Symposium 2014 21
  22. Cloud: Einzelanwendungen  Anwendungen für Endanwender  Komplette Abstraktion der technischen Umsetzung  Kunde nutzt nur noch eine web-basierte Schnittstelle  Umsetzung und Skalierung Aufgabe des Anbieters  Zahlreiche Angebote  Dropbox  Google Mail  Microsoft Office 365 online  …  Aber: (Noch) keine für Metadatenverarbeitung → „Software-as-a-Service“ (SaaS) 5.12.2014 BI Symposium 2014 22
  23. Aktuelle Projekte 5.12.2014 BI Symposium 2014 23
  24. Datenaggregation  Idee  Sammeln von Open-Data Metadatenpaketen  Dokumentierte Ablage in Cloud-Speicherdienst  Bereitstellung in mehreren Datenformaten  Erhoffter Nutzen  Zentrale Anlaufstelle für Datennutzer  Vermeidung von Doppelarbeit  Einfache Nachnutzung in virtuellen Servern 5.12.2014 BI Symposium 2014 24
  25. Toolsets  Idee  Bereitstellung von Werkzeugen und Programme zur Metdatenverarbeitung ohne aufwändige Installation  Vorbereitete Server-Einrichtung für Cloud-Dienste  Wenn möglich: Testinstallationen mit web-basiertem Zugang  Erhoffter Nutzen  Niederschwelliger Zugang zu den Werkzeugen  Einfache Evaluation der Möglichkeiten  Nutzung in der Lehre 5.12.2014 BI Symposium 2014 25
  26. Fazit 5.12.2014 BI Symposium 2014 26
  27. Es sieht ganz gut aus...  Komplexität der Verarbeitung  Es gibt gute Werkzeuge zur Vereinfachung häufiger Bearbeitungsschritte  Zahlreiche Projekte  Unterschiedliche Ansätze und Schwerpunkte  Sehr aktive Entwicklung  Anwendungen in der Praxis und Forschung  Bald: Anwendung in der Lehre 5.12.2014 BI Symposium 2014 27
  28. Es sieht ganz gut aus...  Cloud-Dienste  Einfacher Effizienzgewinn und Kostenvorteile durch die Umstieg auf IaaS-Angebote jederzeit realisierbar  Gemeinsame Nutzung von Daten und Werkzeugen durch Bereitstellung in Cloud-Angeboten  Skalierung auch für sehr große Datenmengen durch die Nutzung von PaaS-Angeboten technisch möglich  Und besonders: d:swarm als vielversprechender Ansatz eines SaaS-Angebots im Bereich Metadatenmanagement 5.12.2014 BI Symposium 2014 28
  29. Fragen ?? 5.12.2014 BI Symposium 2014 29
  30. Danke für Ihre Aufmerksamkeit! Folien online unter http://www.slideshare.net/MagnusPfeffer/ Dieses Werk bzw. Inhalt steht unter einer Creative Commons Namensnennung - Weitergabe unter gleichen Bedingungen 3.0 Unported Lizenz. 5.12.2014 BI Symposium 2014 30
Anzeige