Früher war alles einfacher...
(Online-)Katalog
Titelaufnahmen gedruckter Medien mit lokalem Bestand
Verknüpfte Normdaten
Zentrale, kooperative Bearbeitung im Verbund
Datenmanagement
Ein Datenformat (MAB2)
Ein Regelwerk (RAK)
Ein Datenlieferant (Verbund)
Ein Datenempfänger (integriertes Bibliothekssystem oder
lokaler OPAC)
5.12.2014 BI Symposium 2014 4
Und heute?
Resource Discovery
Elektronischer und gedruckter Bestand
Bücher und Zeitschriften
Titel- und Aufsatzebene
Konsortial erworbene elektronische Zugänge
Bibliografische Daten
Volltexte
Andere digitale Medien
Bilddatenbanken
Digitalisate
Freie Quellen
Open Access
Nicht lizenzierte Medien
Bibliografischer Nachweis als Ausgangspunkt für Lieferdienste
5.12.2014 BI Symposium 2014 5
Und heute?
Datenmanagement
Viele Datenformate
MAB2, Marc21, Dublin Core, METS/MODS, …
Viele Regelwerke
RAK, AACR, RDA, ...
Viele Datenquellen
Eigene Datenbanken, Verbund, Konsortium, Lieferanten,
Anbieter, ...
Mehrere Datenempfänger
Integriertes Bibliothekssystem
Resource Discovery System
5.12.2014 BI Symposium 2014 6
Herausforderungen
Komplexität der Datenverarbeitung
Kenntnis von Formaten
Qualitätssicherung
Informationsverluste
Datenmengen
Mehrere zehn Millionen Einträge nur für lizenzierte Medien
möglich
Freie + nichtlizenzierte Medien → mehrere hundert
Millionen Einträge
5.12.2014 BI Symposium 2014 7
Metafacture
Entwickelt im Rahmen des Projekts Culturegraph
Hauptentwickler: Deutsche Nationalbibliothek und HBZ-NRW
Komponenten
Flux
Skriptsprache zum Aufbau von Verarbeitungs-Pipelines
Umwandlung, Speichern und Analysieren von Daten
Keine Programmiersprachenkenntnisse erforderlich
Morph
Anwendungsspezifische Sprache zur Verarbeitung von Metadaten
Modellierung als „Pipeline“
Konfiguration in XML
Framework
Technische Umsetzung der einzelnen Komponenten in Java
Erweiterbar durch eigene Programme
5.12.2014 BI Symposium 2014 9
Catmandu
Sammlung von Werkzeugen zur Datenverarbeitung in
Bibliotheken
Einlesen von Metadaten aus unterschiedlichen Quellen
Speichern von Metadaten
Suchen in Metadaten
Export und Umwandlung in unterschiedliche Formate
Sprache „Fix“
Beschreibung von Transformationen und Bearbeitung von
Metadaten
Entwicklung von eigenen Abläufen und Anwendungen
durch Kombination der Werkzeuge mit anderen
Entwicklungsumgebungen
5.12.2014 BI Symposium 2014 10
d:swarm
Datenintegrations- und -modellierungswerkzeug
Flexibles (elastisches), graphenbasiertes Datenmodell
Überführung von Daten aus heterogenen Datenquellen
Middleware-Lösung
Durchführung aller bibliothekarischen
Datenverarbeitungsprozesse
zwischen bestehenden Datenmanagementsystemen und
Webanwendungen (z.B. Discovery-System)
Unterstützt u.a.
Analysen zur Verbesserung der Datenqualität
Deduplizierung und Zusammenführen von Titeldaten
FRBRisierung bibliographischer Daten
5.12.2014 BI Symposium 2014 11
Das Versprechen der „Cloud“
Web-basierte Dienstleistungen
Von einfacher Infrastruktur bis zu komplexer Software
Skalierung der Leistung nach Bedarf
Gigantische Speichervolumina
Schnelle Rechenleistung
Nutzungsbasierte Abrechnung
Keine hohen Anschaffungskosten
Planbare laufende Kosten
5.12.2014 BI Symposium 2014 13
Cloud: Einfache Dienstleistungen
Rechnerkapazität
Virtuelle Server in Rechenzentren
Auswahl bei Ausstattung und Betriebssystem
Große Anzahl in kurzer Zeit buchbar
Speicherkapazität
Anteile an großen Festplatten-Verbünden
Auswahl bei Geschwindigkeit und Netzanbindung
Sehr große Datenmengen speicherbar
→ „Infrastructure-as-a-Service“ (IaaS)
5.12.2014 BI Symposium 2014 14
Produkte
Rechenkapazität
Amazon Elastic Compute Cloud (EC2)
Google Compute Engine
Microsoft Azure Virtual Machines
Speicherkapazität
Amazon Simple Storage Service (S3)
Google Storage
Microsoft Azure Storage
5.12.2014 BI Symposium 2014 15
Nutzungsszenarien
Wechsel der Arbeitsumgebung
Vom eigenen Arbeitsplatzrechner oder lokalen Server zum
virtuellen Server beim Cloud-Anbieter
Vorteil: Geringere Kosten bei höherer Kapazität
Beispiel: Amazon EC2 Typ „c3.8xlarge“ mit 32 CPUs und 60
GB RAM: $1,68 pro Stunde
Zentrale Speicherung von großen Datenmengen
Metadaten unter freien Lizenzen („Open Data“)
Vorteil: Schneller Zugriff ohne Last für Netzwerke von
Datenanbietern
Beispiel: Google Storage 50GB mit 10GB Transfers:
$2,61 pro Monat
5.12.2014 BI Symposium 2014 16
Cloud: Definierte Umgebungen
Bereitstellung von Schnittstellen zur Programmierung
spezifischer Anwendungen
Höherer Abstraktionsgrad
Kunde „sieht“ nur die Schnittstellen, nicht mehr die virtuelle
Maschine mit Betriebssystem
Umsetzung in Infrastruktur Aufgabe des Diensteanbieters
Angebote für unterschiedliche Zielanwendungen
Wissenschaftliche Datenverarbeitung
Web-basierte Anwendungen
Datenbanken
→ „Platform-as-a-Service“ (PaaS)
5.12.2014 BI Symposium 2014 17
Produkte
Google App Engine
Plattform für die Entwicklung von Web-Applikationen
Programmiersprachen: Java, Python, PHP, Go
Eigenschaften
Persistente Speicherung von Daten
Automatische Skalierung und Lastverteilung
Programmabläufe, die nicht von Webzugriffen ausgelöst
werden
Asynchrone Berechnungen, zeitgesteuerte Läufe
Aber: Kein direkter Zugang zum Server
5.12.2014 BI Symposium 2014 18
Produkte
Hadoop
Plattform zur Programmierung verteilter Berechnungen zur
echten Skalierung für sehr große Datenmengen
Eigenschaften
Persistente Speicherung und Datenzugriff über alle Rechner
des Verbundes
Automatisiert Aufteilen des Arbeitspakets, Verteilen auf
mehrere Rechner, Zusammenführen der Ergebnisse
Programmierung in Java
Zusätzliche Skriptsprachen zur einfacheren Programmierung
(z.B. „Pig Latin“)
5.12.2014 BI Symposium 2014 19
Produkte
AWS DynamoDB
NoSQL-Datenbankservice
NoSQL
Speicherung von Schlüssel-Wert-Paaren
Speicherung von teilstrukturierten Daten
Besser geeignet für typische Anwendungen im Metadatenbereich
als klassische relationale Datenbanken
Eigenschaften
Sehr schneller schlüsselbasierter Zugriff auf Daten
konsistente Latenz im einstelligen Millisekundenbereich
Skalierung für alle Größenordnungen
5.12.2014 BI Symposium 2014 20
Nutzungsszenarien
Hadoop
Verteilte Bearbeitung sehr großer Datenmengen
Komplexe Operationen
Datenvergleich und Clustering ähnlicher Daten
Datenbereinigung
Unterstützt in Metafacture
NoSQL
Zentrale indexierte Ablage von Daten („Backend“)
Schneller Zugriff über Identifikatoren
Spontane Abfragen und einfache Analysen direkt über die
Datenbank möglich
Unterstützt in Catmandu und Metafacture
5.12.2014 BI Symposium 2014 21
Cloud: Einzelanwendungen
Anwendungen für Endanwender
Komplette Abstraktion der technischen Umsetzung
Kunde nutzt nur noch eine web-basierte Schnittstelle
Umsetzung und Skalierung Aufgabe des Anbieters
Zahlreiche Angebote
Dropbox
Google Mail
Microsoft Office 365 online
…
Aber: (Noch) keine für Metadatenverarbeitung
→ „Software-as-a-Service“ (SaaS)
5.12.2014 BI Symposium 2014 22
Datenaggregation
Idee
Sammeln von Open-Data Metadatenpaketen
Dokumentierte Ablage in Cloud-Speicherdienst
Bereitstellung in mehreren Datenformaten
Erhoffter Nutzen
Zentrale Anlaufstelle für Datennutzer
Vermeidung von Doppelarbeit
Einfache Nachnutzung in virtuellen Servern
5.12.2014 BI Symposium 2014 24
Toolsets
Idee
Bereitstellung von Werkzeugen und Programme zur
Metdatenverarbeitung ohne aufwändige Installation
Vorbereitete Server-Einrichtung für Cloud-Dienste
Wenn möglich: Testinstallationen mit web-basiertem
Zugang
Erhoffter Nutzen
Niederschwelliger Zugang zu den Werkzeugen
Einfache Evaluation der Möglichkeiten
Nutzung in der Lehre
5.12.2014 BI Symposium 2014 25
Es sieht ganz gut aus...
Komplexität der Verarbeitung
Es gibt gute Werkzeuge zur Vereinfachung häufiger
Bearbeitungsschritte
Zahlreiche Projekte
Unterschiedliche Ansätze und Schwerpunkte
Sehr aktive Entwicklung
Anwendungen in der Praxis und Forschung
Bald: Anwendung in der Lehre
5.12.2014 BI Symposium 2014 27
Es sieht ganz gut aus...
Cloud-Dienste
Einfacher Effizienzgewinn und Kostenvorteile durch die
Umstieg auf IaaS-Angebote jederzeit realisierbar
Gemeinsame Nutzung von Daten und Werkzeugen durch
Bereitstellung in Cloud-Angeboten
Skalierung auch für sehr große Datenmengen durch die
Nutzung von PaaS-Angeboten technisch möglich
Und besonders: d:swarm als vielversprechender Ansatz
eines SaaS-Angebots im Bereich Metadatenmanagement
5.12.2014 BI Symposium 2014 28
Danke für Ihre Aufmerksamkeit!
Folien online unter
http://www.slideshare.net/MagnusPfeffer/
Dieses Werk bzw. Inhalt steht unter einer
Creative Commons Namensnennung - Weitergabe unter gleichen Bedingungen 3.0 Unported Lizenz.
5.12.2014 BI Symposium 2014 30