Keynote at the KIM-DINI workshop on 30.03.2015. See http://dini.de/veranstaltungen/workshops/kim2015/ for details.
The talk focussed on current issues of integrating IT competences and ideas in the library and information science curriculum at Stuttgart Media University.
Resource Discovery: Herausforderung und Chance für die SacherschließungMagnus Pfeffer
Vortrag im Rahmen der Fortbildungsveranstaltung „Erschließung, Kataloganreicherung und Präsentation juristischer Materialien", Berlin - 08. und 09. November 2012. Organisiert von der Arbeitsgemeinschaft für juristisches Bibliotheks- und Dokumentationswesen (AjBD).
Verbundübergreifende Datenkonsolidierung und wie man damit große Bestände effizient retroklassifiziert.
Vortrag vom 22. Mai 2012 auf dem 101. Bibliothekartag in Hamburg.
Abgleich von Titeldaten zur Übernahme von Sacherschließungsinformationen übe...Magnus Pfeffer
Vortrag im Workshop on Classification and Subject Indexing in Library and
Information Science (LIS'2012)
im Rahmen der Jahrestagung der Deutschen Gesellschaft für Klassifikation vom 1. bis 3. August 2012 in Hildesheim.
Schlanke Discovery-Lösung auf Basis von TYPO3. Der neue Bibliothekskatalog de...Felix Lohmeier
Im Juli 2015 wurde der neue Bibliothekskatalog der SLUB Dresden freigeschaltet. Nach nur drei Monaten Entwicklungszeit konnte auf Basis von einer an der SUB Göttingen entwickelten und von der SLUB Dresden angepassten TYPO3-Erweiterung „Find“ eine moderne, vollständig quelloffene Rechercheoberfläche unter http://katalogbeta.slub-dresden.de veröffentlicht werden. Das Hauptargument für die Eigenentwicklung war die Unzufriedenheit mit der Rückschrittlichkeit kommerzieller Discovery-Lösungen sowie die fehlende Modularität von bestehenden Open-Source-Alternativen wie VuFind. Mit der jetzt geschaffenen Lösung erhält die SLUB Dresden die Möglichkeit schnell auf Wünsche der NutzerInnen zu reagieren. Die ersten Rückmeldungen bestätigen diesen Ansatz. Bis September 2015 sind mehr als 100 konstruktive Entwicklungswünsche eingegangen, von denen bereits mehr als die Hälfte umgesetzt werden konnte. Die Entwicklung steht zur Nachnutzung an anderen Bibliotheken zur Verfügung und ist auch für andere Rechercheoberflächen (wie z.B. digitale Sammlungen) universell einsetzbar. Voraussetzung für die Nutzung der Rechercheoberfläche ist ein Werkzeug für die Datenintegration. Das an der SLUB eingesetzte Discovery-System besteht aus drei quelloffenen Komponenten:
Die an der UB Leipzig im Rahmen eines EFRE-Projektes geschaffene Datenmanagement-Infrastruktur finc
Die an der SLUB Dresden im Rahmen von EFRE-Projekten entwickelten Datenmanagement-Werkzeuge D:SWARM und Tiefenerschließung
Die oben beschriebene Lösung auf Basis von TYPO3 Find
Zusammen entsprechen diese drei Komponenten dem Funktionsumfang von gängigen Discovery-Systemen, wie beispielsweise PRIMO von Ex Libris oder Summon von ProQuest. Die Systemarchitektur ist modular aufgebaut, so dass die Komponenten auch unabhängig voneinander eingesetzt werden können. Im Vortrag wird die dritte Komponente, sowie die zugrunde liegende Discovery-Strategie ausführlicher vorgestellt.
Keynote at the KIM-DINI workshop on 30.03.2015. See http://dini.de/veranstaltungen/workshops/kim2015/ for details.
The talk focussed on current issues of integrating IT competences and ideas in the library and information science curriculum at Stuttgart Media University.
Resource Discovery: Herausforderung und Chance für die SacherschließungMagnus Pfeffer
Vortrag im Rahmen der Fortbildungsveranstaltung „Erschließung, Kataloganreicherung und Präsentation juristischer Materialien", Berlin - 08. und 09. November 2012. Organisiert von der Arbeitsgemeinschaft für juristisches Bibliotheks- und Dokumentationswesen (AjBD).
Verbundübergreifende Datenkonsolidierung und wie man damit große Bestände effizient retroklassifiziert.
Vortrag vom 22. Mai 2012 auf dem 101. Bibliothekartag in Hamburg.
Abgleich von Titeldaten zur Übernahme von Sacherschließungsinformationen übe...Magnus Pfeffer
Vortrag im Workshop on Classification and Subject Indexing in Library and
Information Science (LIS'2012)
im Rahmen der Jahrestagung der Deutschen Gesellschaft für Klassifikation vom 1. bis 3. August 2012 in Hildesheim.
Schlanke Discovery-Lösung auf Basis von TYPO3. Der neue Bibliothekskatalog de...Felix Lohmeier
Im Juli 2015 wurde der neue Bibliothekskatalog der SLUB Dresden freigeschaltet. Nach nur drei Monaten Entwicklungszeit konnte auf Basis von einer an der SUB Göttingen entwickelten und von der SLUB Dresden angepassten TYPO3-Erweiterung „Find“ eine moderne, vollständig quelloffene Rechercheoberfläche unter http://katalogbeta.slub-dresden.de veröffentlicht werden. Das Hauptargument für die Eigenentwicklung war die Unzufriedenheit mit der Rückschrittlichkeit kommerzieller Discovery-Lösungen sowie die fehlende Modularität von bestehenden Open-Source-Alternativen wie VuFind. Mit der jetzt geschaffenen Lösung erhält die SLUB Dresden die Möglichkeit schnell auf Wünsche der NutzerInnen zu reagieren. Die ersten Rückmeldungen bestätigen diesen Ansatz. Bis September 2015 sind mehr als 100 konstruktive Entwicklungswünsche eingegangen, von denen bereits mehr als die Hälfte umgesetzt werden konnte. Die Entwicklung steht zur Nachnutzung an anderen Bibliotheken zur Verfügung und ist auch für andere Rechercheoberflächen (wie z.B. digitale Sammlungen) universell einsetzbar. Voraussetzung für die Nutzung der Rechercheoberfläche ist ein Werkzeug für die Datenintegration. Das an der SLUB eingesetzte Discovery-System besteht aus drei quelloffenen Komponenten:
Die an der UB Leipzig im Rahmen eines EFRE-Projektes geschaffene Datenmanagement-Infrastruktur finc
Die an der SLUB Dresden im Rahmen von EFRE-Projekten entwickelten Datenmanagement-Werkzeuge D:SWARM und Tiefenerschließung
Die oben beschriebene Lösung auf Basis von TYPO3 Find
Zusammen entsprechen diese drei Komponenten dem Funktionsumfang von gängigen Discovery-Systemen, wie beispielsweise PRIMO von Ex Libris oder Summon von ProQuest. Die Systemarchitektur ist modular aufgebaut, so dass die Komponenten auch unabhängig voneinander eingesetzt werden können. Im Vortrag wird die dritte Komponente, sowie die zugrunde liegende Discovery-Strategie ausführlicher vorgestellt.
Vortrag im Rahmen des Workshops "Anwendung von Clustering-Verfahren zur Verbesserung und Analyse von Katalogdaten" auf dem 5. Kongress Bibliothek und Information Deutschland vom 11. bis 14. März 2013 in Leipzig.
Präsentationsfolien zu einem Beitrag auf dem Arbeitstreffen der DINI-AG-KIM-Titeldatengruppe. Frankfurt/Main, 31.10.2013. Siehe auch https://wiki.dnb.de/x/qYCoB.
“VIVO als Forschungsinformationssystem in der Praxis”
Workshop, 9.9.2015, Hannover
http://blogs.tib.eu/wp/vivo/
Felix Lohmeier (SLUB Dresden)
Stefan Wolff (TU Dresden)
Laudatio Workshop Entwicklersession zu Gemeinsamkeiten in Forschungsdatenrepo...Dennis Zielke
Innerhalb des LAUDATIO-Workshops fand am 8.Oktober am Institut für deutsche Sprache und Linguistik eine Entwicklersession zu Gemeinsamkeiten und Nachnutzungsmöglichkeiten in Forschungsdatenrepositorien statt.
Vortragende: D.Zielke (CMS HU-Berlin) Technische (Weiter-)Entwicklungen im LAUDATIO-Repository, R.Claussnitzer (SLUB Dresden) Migration und Weiterentwicklung von Qucosa als Grundlage für sächs. Repositorien, D.Withanage (UB Heidelberg) Entwicklung eines Annotations-Frameworks für Bilder
Offener Katalog - Nachnutzung von Metadaten über eine serviceorientierte Syst...Martin Blenkle
Zwischen den verschiedenen Lern- und Wissensmanagementsystemen im universitären Umfeld steigt der Bedarf an flexiblem Austausch von Informationen untereinander. Bibliothekarische Metadaten sind dabei eine wichtige Datenquelle. Angebote zur direkten Weiternutzung strukturierter bibliographischer Daten werden von unseren Kunden daher für ihre eigene Arbeit heute als selbstverständlich erwartet.
Bibliothekssysteme können solche Anforderungen durch ein Angebot offener Schnittstellen erfüllen, die die Möglichkeit zur Weiternutzung von strukturierten Metadaten eröffnen. Technische Grundlage dieser Dienste ist eine konsequent formal strukturierte Ausgabe aller Rechercheergebnisse.
Vortrag im Rahmen des Workshops "Anwendung von Clustering-Verfahren zur Verbesserung und Analyse von Katalogdaten" auf dem 5. Kongress Bibliothek und Information Deutschland vom 11. bis 14. März 2013 in Leipzig.
Präsentationsfolien zu einem Beitrag auf dem Arbeitstreffen der DINI-AG-KIM-Titeldatengruppe. Frankfurt/Main, 31.10.2013. Siehe auch https://wiki.dnb.de/x/qYCoB.
“VIVO als Forschungsinformationssystem in der Praxis”
Workshop, 9.9.2015, Hannover
http://blogs.tib.eu/wp/vivo/
Felix Lohmeier (SLUB Dresden)
Stefan Wolff (TU Dresden)
Laudatio Workshop Entwicklersession zu Gemeinsamkeiten in Forschungsdatenrepo...Dennis Zielke
Innerhalb des LAUDATIO-Workshops fand am 8.Oktober am Institut für deutsche Sprache und Linguistik eine Entwicklersession zu Gemeinsamkeiten und Nachnutzungsmöglichkeiten in Forschungsdatenrepositorien statt.
Vortragende: D.Zielke (CMS HU-Berlin) Technische (Weiter-)Entwicklungen im LAUDATIO-Repository, R.Claussnitzer (SLUB Dresden) Migration und Weiterentwicklung von Qucosa als Grundlage für sächs. Repositorien, D.Withanage (UB Heidelberg) Entwicklung eines Annotations-Frameworks für Bilder
Offener Katalog - Nachnutzung von Metadaten über eine serviceorientierte Syst...Martin Blenkle
Zwischen den verschiedenen Lern- und Wissensmanagementsystemen im universitären Umfeld steigt der Bedarf an flexiblem Austausch von Informationen untereinander. Bibliothekarische Metadaten sind dabei eine wichtige Datenquelle. Angebote zur direkten Weiternutzung strukturierter bibliographischer Daten werden von unseren Kunden daher für ihre eigene Arbeit heute als selbstverständlich erwartet.
Bibliothekssysteme können solche Anforderungen durch ein Angebot offener Schnittstellen erfüllen, die die Möglichkeit zur Weiternutzung von strukturierten Metadaten eröffnen. Technische Grundlage dieser Dienste ist eine konsequent formal strukturierte Ausgabe aller Rechercheergebnisse.
Die Deutsche Börse wird künftig den Handel mit ausgelagerten Speicher- und Rechenkapazitäten, sogenannten “Cloud Computing”-Ressourcen, betreiben. Das dazu mit der Berliner Zimory GmbH gegründete Joint Venture Deutsche Börse Cloud Exchange AG wird Anfang 2014 den ersten neutralen, sicheren und transparenten Handelsplatz in Betrieb nehmen.
Die vorliegende Präsentation wurde auf der Pressekonferenz am 2. Juli 2013 gezeigt.
Der Vortrag beschreibt die Architektur eines serviceorientierten, modular erweiterbaren DWH-Modells und dem dazu gehörigen Berichtswesens. Er soll außerdem zeigen, wie ein solches Modell in ein bereits existierendes, stark heterogenes Umfeld eingebunden werden kann.
Die verschiedenen Schichten des DWH-Modells sowie die Einbindung in das Umfeld werden dabei detailliert beschrieben. Auf die Vor- und Nachteile der verschiedenen Modellierungsmöglichkeiten (3NF, Stern, Cube), sowie Aspekte der zukünftigen Erweiterung und Veränderung wird ebenfalls eingegangen. Eine kurze Übersicht über Tuning und Sicherheitsaspekte beendet den ersten Teil.
Der zweite Teil besteht aus einer Übersicht über die Einbindung des Berichtswesens in die Gesamtarchitektur. Verschiedene Ansatzmöglichkeiten für die Bedienung der Anforderungen verschiedener Nutzergruppen werden erarbeitet. Zuletzt werden Ideen zur Konsolidierung und Ablösung eines stark zerklüfteten, sich widersprechenden Berichtswesens gegeben.
Der Vortrag soll damit DWH-Architekten Möglichkeiten aufzeigen, wie man ein DWH zukunftssicher und flexibel modellieren und in ein heterogenes Umfeld einbetten kann. OPITZ CONSULTING Berater Arno Tigges hielt diesen Vortrag am 29.06.2010 bei der DOAG SIG BI/DWH in Köln.
Hier können Sie sich die Präsentationsfolien von Daniel Brockmann, Leiter Produktmanagement, SDL Language Technologies, vom 3. SDL Information & Networking Day
in Zürich ansehen.
Die Oracle Datenbank und Apache Hadoop
DOAG -Big Data für Oracle Entwickler: Zweitagesveranstaltung mit Hands-On - 25.09.2014 in Köln
DOAG 2014 -Die größte Anwenderkonferenz rund um alle Oracle Themen, vom 18.11.2014 - 20.11.2014 in Nürnberg
Die Oracle Datenbank in die Welt von Hadoop und NoSQL integrieren
Wie lassen sich die beiden Welten, Oracle RDBMS und der NoSQL Ansatz sinnvoll für die Archivierung und das Datensammeln einsetzen?
Ziel des Vortrags ist es aufzuzeigen, wie die Kombinationen aus den Vorteilen der beiden Welten für die Analyse und Archivierung von Daten eingesetzt werden kann.
Hadoop, mit einer entsprechen Container Datenbank Lösung, eignet sich gut, um im ersten Schritt Daten zu sammeln und/oder im letzten Schritt Daten zu archivieren.
Die eigentliche Oracle RDBMS Datenbank kann dabei schnell und schlank gehalten werden, um Hardware und damit Lizenzkosten einzusparen.
Es werden Architekturansätze aufgezeigt, wie die Integration der Oracle RDBMS und NoSQL Datenbank in das Hadoop Ökosystem dabei erfolgen kann.
Mit den kostenpflichtigen Adaptern der Oracle RDBMS lässt sich zwar einfacher eine tiefe Integration mit Hadoop erreichen, aber auch mit den freien Lösungen kann bereits eine umfangreiche Lösung implementiert werden.
Die Aufzeichnung dieses Webinars steht demnächst hier zur Verfügung: http://aws.amazon.com/de/recorded-webinar/
Big Data ist eines der großen Schlagworte der letzten Jahre. Aber was ist das? In vielen Unternehmen gibt es heute große Datenbestände, die nicht oder nicht ausreichend genutzt werden. Das können Logfiles eines Webservers, Bon-Daten eines Einzelhandelsunternehmens oder Sensordaten einer Produktionsstraße sein. In diesem Webinar geben wir einen Überblick über Big Data und die benutzten Technologien.
amsl - Ergebnispräsentation der EFRE-FörderphaseBjörn Muschall
Am 26.09.2014 fand in der SLUB Dresden ein 2. amsl Workshop statt. Neben der Ergebnispräsentation der EFRE-Förderphase hatten die Teilnehmer Gelegenheit, die Anwendung zu nutzen.
Vortrag zu Linked Data und Repositorien von der 16. Jahrestagung der DINI am 27. und 28.10.2015 in der Deutschen Nationalbibliothek in Frankfurt am Main.
Datenbanken - Eine Übersicht (WPMeetUP München)Dietmar Leher
Datenbanken - Eine kurze Einführung
- Objektrelationales Datenbankmodell
- Nicht-Relationales Datenbankmodell
- NoSQL
- Relationales Datenbankmodell
MySQL und Varianten
Ein paar Worte zur Performance
WordPress und Datenbanken
skilllocation erstellt PowerPoint zu Microsoft Themen. Die Folien können Sie bei uns hier erwerben oder einfach E-Mail an carola.pantenburg@skilllocation.com:
https://www.skilllocation.com/downloads/prs20180101-skilllocation-foliensatz-zu-microsoft-azure/
Ähnlich wie Cloud Computing für die Verarbeitung von Metadaten (20)
Metadata Provenance Tutorial Part 2: Interoperable Metadata ProvenanceMagnus Pfeffer
Tutorial held at the Semantic Web in Libraries conference in Hamburg, Germany, at November 25th 2013. The tutorial was held together with Kai Eckert, who did Part 1.
Abstract:
When metadata is distributed, combined, and enriched as Linked Data, the tracking of its provenance becomes a hard issue. Using data encumbered with licenses that require attribution of authorship may eventually become impracticable as more and more data sets are aggregated - one of the main motivations for the call to open data under permissive licenses like CC0. Nonetheless, there are important scenarios where keeping track of provenance information becomes a necessity. A typical example is the enrichment of existing data with automatically obtained data, for instance as a result of automatic indexing. Ideally, the origins, conditions, rules and other means of production of every statement are known and can be used to put it into the right context.
Part 1 - Metadata Provenance in RDF: In RDF, the mere representation of provenance - i.e., statements about statements - is challenging. We explore the possibilities, from the unloved reification and other proposed alternative Linked Data practices through to named graphs and recent developments regarding the upcoming next version of RDF.
Part 2 - Interoperable Metadata Provenance: As with metadata itself, common vocabularies and data models are needed to express basic provenance information in an interoperable fashion. We investigate the PROV model that is currently developed by the W3C Provenance Working Group and compare it to Dublin Core as a representative of a flat, descriptive metadata schema.
We actively encourage participants to present their own use cases and open challenges at this workshop. Please contact the organizers for details.
Prior experience: The workshop is intended for participants who have mastered the basics of linked data and want to delve into expressing provenance. Beside a basic understanding of RDF, the linked data principles and the use of ontologies (like Dublin Core or Bibo) to express bibliographic metadata no specialised knowledge is required.
Automatic creation of mappings between classification systems for bibliograph...Magnus Pfeffer
Classification systems are an important means to provide topic-based access to large collections. Most library collections, however, are often only partially classified and use local or regional classification systems. Traditionally, manually created mappings between classification systems are used to improve this situation. I propose a different approach to automatically create such mappings: To achieve a large base for the mapping algorithm, bibliographic data from diverse sources that contain items classified by the classification systems is aggregated in a single database. Next, a clustering algorithm is used in order to group individual issues and editions of the same work. The basic idea is that for classification purposes, there is no significant difference across editions. Indexing information can thus be consolidated within the clusters, resulting in a higher proportion of dual-indexed entries. The novel step is that instead of individual catalogue entries, the "work-level" clusters are used for an instance-based matching: Statistical analysis creates a co-occurrence table of pairs of classes and high co-occurance of a given pair indicating a match between the two classification systems. This information is aggregated into a complete mapping The approach is implemented on an open-source infrastructure which was mainly developed by the German National Library: CultureGraph.org. In ongoing projects, mappings between several classification systems are being produced. The talk will discuss the approach, the implementation issues and the preliminary results as well as the challenges of publishing the created mappings as linked data.
Vortrag im Rahmen des Workshops "Anwendung von Clustering-Verfahren zur Verbesserung und Analyse von Katalogdaten" auf dem 5. Kongress Bibliothek und Information Deutschland vom 11. bis 14. März 2013 in Leipzig.
Fallbasierte automatische Klassifikation nach der RVK - k-nearest neighbour a...Magnus Pfeffer
Vortrag auf Einladung der Deutschen Nationalbibliothek zum Workshop des "Petrus" Projekts zur automatischen Erschließung am 21. und 22.3.2011 in Frankfurt.
Ausleihdaten aus Bibliotheken als Linked Open Data publizieren und nutzenMagnus Pfeffer
Vortrag auf der SWIB11 Semantic Web in Bibliotheken Konferenz 28.11. bis 30.11.2011 in Hamburg.
Abstract:
In einem laufenden Projekt untersuche ich gemeinsam mit Kai Eckert von der UB Mannheim und Studierenden an der Hochschule der Medien mögliche Anwendungsfälle für Ausleihdaten aus Bibliothekssystemen als Linked Data.
Use cases sind die Unterstützung im Retrieval und Resource Discovery. Ausleihen können zum einen als Qualitätssignal interpretiert werden und für das Ranking oder die Sortierung verwendet werden. Zum anderen entsteht durch das gemeinsame Ausleihen von Medien ein Indikator für die Zusammengehörigkeit dieser Medien, was für die Anzeige von interessanten Titeln verwendet werden kann.
Die Herausforderung bei der Modellierung in RDF sind die verschiedenen denkbaren Granularitäten, in denen die Daten aufbereitet werden. So ist es möglich, jeden einzelnen Ausleihvorgang zu modellieren und zu beschreiben. Dabei würden nahezu alle Informationen erhalten bleiben, die im Bibliothekssystem erfasst wurden. Für die Anwendungsfälle wäre aber eine gröbere Abbildung, die die Daten auf Titelebene aggregiert, wünschenswert.
Derzeit entstehen die Datenmodelle für die genannten Szenarien und eine beispielhafte Abbildung von Echtdaten aus dem Bibliothekssystem der UB Mannheim. Wir wollen die Modellierung und die Echtdaten im Laufe der nächsten Monate auf dem Linked Data Service der UB Mannheim bereitstellen.
RVK 3.0 - Die Regensburger Verbundklassifikation als Normdatei für Bibliothek...Magnus Pfeffer
Projektbereicht auf dem RVK Anwendertreffen am 18. Oktober 2011 in Regensburg.
Kurzer Überblick über die Anforderungen an Normdaten und Ontologien im Semantic Web und wie die RVK "auf Stand" gebracht werden kann.
Einfürung in Open Data und Linked Data im Kontext bibliografische Daten und Bibliotheken. Inklusive einem Szenario für den Einstieg: Erweiterung eines Katalogs oder Dokumentenservers um eine semantische Komponente.
Vortrag im Rahmen der Veranstaltung "Gegenwart und Zukunft der Sacherschließung". Die interdisziplinäre Fortbildung für Fachreferentinnen und Fachreferenten wurde veranstaltet von der Kommission für Fachreferatsarbeit mit Unterstützung der Deutschen Nationalbibliothek in Leipzig und fand am 6. und 7. Oktober 2011 statt.
Enthält Teile von CC Attribution-ShareAlike Vorträgen Anderer. Vielen Dank an dieser Stelle.
Altbestandserschließung: Automatische Übernahme von RVK und SWD über Verbundg...Magnus Pfeffer
Ein kurzer Bericht über den aktuellen Stand des Projekts zur Altbestandserschließung im Südwestverbund und Hebis.
In diesem Projekt werden über einen im Grunde recht einfachen Vergleichsalgorithmus Titel identifiziert, die aus Sicht der Sacherschließung identischen oder sehr ähnlichen Inhalt haben. Die können u.a. andere Auflagen und Ausgaben sein.
Innerhalb einer solchen Gruppe von äquivalenten Titeln werden die nicht erschlossenen Titel mit den Sacherschließungselementen (hier: RVK und SWD-Schlagwörter) der erschlossenen Titel angereichert.
In den Verbundkataloge von Südwestverbund und Hebis können durch die Übernahme der Informationen jeweils mehr als eine Million Titel mit Sacherschließungselementen angereichert werden.
In Stichproben und systematischen Untersuchungen durch Arbeitsgruppen in beiden Verbünde wurde die hohe Qualität der übernommenen Elemente und die Validität des Verfahrens bestätigt. Beide Verbünde spielen aktuell die Daten ein.
Vortrag im Rahmen der Veranstaltung "Gegenwart und Zukunft der Sacherschließung". Die interdisziplinäre Fortbildung für Fachreferentinnen und Fachreferenten wurde veranstaltet von der Kommission für Fachreferatsarbeit mit Unterstützung der Deutschen Nationalbibliothek in Leipzig und fand am 6. und 7. Oktober 2011 statt.
4. Früher war alles einfacher...
(Online-)Katalog
Titelaufnahmen gedruckter Medien mit lokalem Bestand
Verknüpfte Normdaten
Zentrale, kooperative Bearbeitung im Verbund
Datenmanagement
Ein Datenformat (MAB2)
Ein Regelwerk (RAK)
Ein Datenlieferant (Verbund)
Ein Datenempfänger (integriertes Bibliothekssystem oder
lokaler OPAC)
5.12.2014 BI Symposium 2014 4
5. Und heute?
Resource Discovery
Elektronischer und gedruckter Bestand
Bücher und Zeitschriften
Titel- und Aufsatzebene
Konsortial erworbene elektronische Zugänge
Bibliografische Daten
Volltexte
Andere digitale Medien
Bilddatenbanken
Digitalisate
Freie Quellen
Open Access
Nicht lizenzierte Medien
Bibliografischer Nachweis als Ausgangspunkt für Lieferdienste
5.12.2014 BI Symposium 2014 5
6. Und heute?
Datenmanagement
Viele Datenformate
MAB2, Marc21, Dublin Core, METS/MODS, …
Viele Regelwerke
RAK, AACR, RDA, ...
Viele Datenquellen
Eigene Datenbanken, Verbund, Konsortium, Lieferanten,
Anbieter, ...
Mehrere Datenempfänger
Integriertes Bibliothekssystem
Resource Discovery System
5.12.2014 BI Symposium 2014 6
7. Herausforderungen
Komplexität der Datenverarbeitung
Kenntnis von Formaten
Qualitätssicherung
Informationsverluste
Datenmengen
Mehrere zehn Millionen Einträge nur für lizenzierte Medien
möglich
Freie + nichtlizenzierte Medien → mehrere hundert
Millionen Einträge
5.12.2014 BI Symposium 2014 7
9. Metafacture
Entwickelt im Rahmen des Projekts Culturegraph
Hauptentwickler: Deutsche Nationalbibliothek und HBZ-NRW
Komponenten
Flux
Skriptsprache zum Aufbau von Verarbeitungs-Pipelines
Umwandlung, Speichern und Analysieren von Daten
Keine Programmiersprachenkenntnisse erforderlich
Morph
Anwendungsspezifische Sprache zur Verarbeitung von Metadaten
Modellierung als „Pipeline“
Konfiguration in XML
Framework
Technische Umsetzung der einzelnen Komponenten in Java
Erweiterbar durch eigene Programme
5.12.2014 BI Symposium 2014 9
10. Catmandu
Sammlung von Werkzeugen zur Datenverarbeitung in
Bibliotheken
Einlesen von Metadaten aus unterschiedlichen Quellen
Speichern von Metadaten
Suchen in Metadaten
Export und Umwandlung in unterschiedliche Formate
Sprache „Fix“
Beschreibung von Transformationen und Bearbeitung von
Metadaten
Entwicklung von eigenen Abläufen und Anwendungen
durch Kombination der Werkzeuge mit anderen
Entwicklungsumgebungen
5.12.2014 BI Symposium 2014 10
11. d:swarm
Datenintegrations- und -modellierungswerkzeug
Flexibles (elastisches), graphenbasiertes Datenmodell
Überführung von Daten aus heterogenen Datenquellen
Middleware-Lösung
Durchführung aller bibliothekarischen
Datenverarbeitungsprozesse
zwischen bestehenden Datenmanagementsystemen und
Webanwendungen (z.B. Discovery-System)
Unterstützt u.a.
Analysen zur Verbesserung der Datenqualität
Deduplizierung und Zusammenführen von Titeldaten
FRBRisierung bibliographischer Daten
5.12.2014 BI Symposium 2014 11
13. Das Versprechen der „Cloud“
Web-basierte Dienstleistungen
Von einfacher Infrastruktur bis zu komplexer Software
Skalierung der Leistung nach Bedarf
Gigantische Speichervolumina
Schnelle Rechenleistung
Nutzungsbasierte Abrechnung
Keine hohen Anschaffungskosten
Planbare laufende Kosten
5.12.2014 BI Symposium 2014 13
14. Cloud: Einfache Dienstleistungen
Rechnerkapazität
Virtuelle Server in Rechenzentren
Auswahl bei Ausstattung und Betriebssystem
Große Anzahl in kurzer Zeit buchbar
Speicherkapazität
Anteile an großen Festplatten-Verbünden
Auswahl bei Geschwindigkeit und Netzanbindung
Sehr große Datenmengen speicherbar
→ „Infrastructure-as-a-Service“ (IaaS)
5.12.2014 BI Symposium 2014 14
15. Produkte
Rechenkapazität
Amazon Elastic Compute Cloud (EC2)
Google Compute Engine
Microsoft Azure Virtual Machines
Speicherkapazität
Amazon Simple Storage Service (S3)
Google Storage
Microsoft Azure Storage
5.12.2014 BI Symposium 2014 15
16. Nutzungsszenarien
Wechsel der Arbeitsumgebung
Vom eigenen Arbeitsplatzrechner oder lokalen Server zum
virtuellen Server beim Cloud-Anbieter
Vorteil: Geringere Kosten bei höherer Kapazität
Beispiel: Amazon EC2 Typ „c3.8xlarge“ mit 32 CPUs und 60
GB RAM: $1,68 pro Stunde
Zentrale Speicherung von großen Datenmengen
Metadaten unter freien Lizenzen („Open Data“)
Vorteil: Schneller Zugriff ohne Last für Netzwerke von
Datenanbietern
Beispiel: Google Storage 50GB mit 10GB Transfers:
$2,61 pro Monat
5.12.2014 BI Symposium 2014 16
17. Cloud: Definierte Umgebungen
Bereitstellung von Schnittstellen zur Programmierung
spezifischer Anwendungen
Höherer Abstraktionsgrad
Kunde „sieht“ nur die Schnittstellen, nicht mehr die virtuelle
Maschine mit Betriebssystem
Umsetzung in Infrastruktur Aufgabe des Diensteanbieters
Angebote für unterschiedliche Zielanwendungen
Wissenschaftliche Datenverarbeitung
Web-basierte Anwendungen
Datenbanken
→ „Platform-as-a-Service“ (PaaS)
5.12.2014 BI Symposium 2014 17
18. Produkte
Google App Engine
Plattform für die Entwicklung von Web-Applikationen
Programmiersprachen: Java, Python, PHP, Go
Eigenschaften
Persistente Speicherung von Daten
Automatische Skalierung und Lastverteilung
Programmabläufe, die nicht von Webzugriffen ausgelöst
werden
Asynchrone Berechnungen, zeitgesteuerte Läufe
Aber: Kein direkter Zugang zum Server
5.12.2014 BI Symposium 2014 18
19. Produkte
Hadoop
Plattform zur Programmierung verteilter Berechnungen zur
echten Skalierung für sehr große Datenmengen
Eigenschaften
Persistente Speicherung und Datenzugriff über alle Rechner
des Verbundes
Automatisiert Aufteilen des Arbeitspakets, Verteilen auf
mehrere Rechner, Zusammenführen der Ergebnisse
Programmierung in Java
Zusätzliche Skriptsprachen zur einfacheren Programmierung
(z.B. „Pig Latin“)
5.12.2014 BI Symposium 2014 19
20. Produkte
AWS DynamoDB
NoSQL-Datenbankservice
NoSQL
Speicherung von Schlüssel-Wert-Paaren
Speicherung von teilstrukturierten Daten
Besser geeignet für typische Anwendungen im Metadatenbereich
als klassische relationale Datenbanken
Eigenschaften
Sehr schneller schlüsselbasierter Zugriff auf Daten
konsistente Latenz im einstelligen Millisekundenbereich
Skalierung für alle Größenordnungen
5.12.2014 BI Symposium 2014 20
21. Nutzungsszenarien
Hadoop
Verteilte Bearbeitung sehr großer Datenmengen
Komplexe Operationen
Datenvergleich und Clustering ähnlicher Daten
Datenbereinigung
Unterstützt in Metafacture
NoSQL
Zentrale indexierte Ablage von Daten („Backend“)
Schneller Zugriff über Identifikatoren
Spontane Abfragen und einfache Analysen direkt über die
Datenbank möglich
Unterstützt in Catmandu und Metafacture
5.12.2014 BI Symposium 2014 21
22. Cloud: Einzelanwendungen
Anwendungen für Endanwender
Komplette Abstraktion der technischen Umsetzung
Kunde nutzt nur noch eine web-basierte Schnittstelle
Umsetzung und Skalierung Aufgabe des Anbieters
Zahlreiche Angebote
Dropbox
Google Mail
Microsoft Office 365 online
…
Aber: (Noch) keine für Metadatenverarbeitung
→ „Software-as-a-Service“ (SaaS)
5.12.2014 BI Symposium 2014 22
24. Datenaggregation
Idee
Sammeln von Open-Data Metadatenpaketen
Dokumentierte Ablage in Cloud-Speicherdienst
Bereitstellung in mehreren Datenformaten
Erhoffter Nutzen
Zentrale Anlaufstelle für Datennutzer
Vermeidung von Doppelarbeit
Einfache Nachnutzung in virtuellen Servern
5.12.2014 BI Symposium 2014 24
25. Toolsets
Idee
Bereitstellung von Werkzeugen und Programme zur
Metdatenverarbeitung ohne aufwändige Installation
Vorbereitete Server-Einrichtung für Cloud-Dienste
Wenn möglich: Testinstallationen mit web-basiertem
Zugang
Erhoffter Nutzen
Niederschwelliger Zugang zu den Werkzeugen
Einfache Evaluation der Möglichkeiten
Nutzung in der Lehre
5.12.2014 BI Symposium 2014 25
27. Es sieht ganz gut aus...
Komplexität der Verarbeitung
Es gibt gute Werkzeuge zur Vereinfachung häufiger
Bearbeitungsschritte
Zahlreiche Projekte
Unterschiedliche Ansätze und Schwerpunkte
Sehr aktive Entwicklung
Anwendungen in der Praxis und Forschung
Bald: Anwendung in der Lehre
5.12.2014 BI Symposium 2014 27
28. Es sieht ganz gut aus...
Cloud-Dienste
Einfacher Effizienzgewinn und Kostenvorteile durch die
Umstieg auf IaaS-Angebote jederzeit realisierbar
Gemeinsame Nutzung von Daten und Werkzeugen durch
Bereitstellung in Cloud-Angeboten
Skalierung auch für sehr große Datenmengen durch die
Nutzung von PaaS-Angeboten technisch möglich
Und besonders: d:swarm als vielversprechender Ansatz
eines SaaS-Angebots im Bereich Metadatenmanagement
5.12.2014 BI Symposium 2014 28
30. Danke für Ihre Aufmerksamkeit!
Folien online unter
http://www.slideshare.net/MagnusPfeffer/
Dieses Werk bzw. Inhalt steht unter einer
Creative Commons Namensnennung - Weitergabe unter gleichen Bedingungen 3.0 Unported Lizenz.
5.12.2014 BI Symposium 2014 30