1. WISS Research Group | JudaicaLink und der FID Jüdische Studien - 75 Jahre BI - 8. Dezember 2017 - Hochschule der Medien, Stuttgart
JudaicaLink und der FID
Jüdische Studien
Prof. Dr. Kai Eckert
http://www.judaicalink.org
1
2. WISS Research Group | JudaicaLink und der FID Jüdische Studien - 75 Jahre BI - 8. Dezember 2017 - Hochschule der Medien, Stuttgart
FID Jüdische Studien
Erstellung eines Fach-Informations-Dienstes für Jüdische
Studien und Israel-Studien.
Unsere Aufgabe:
● Metadatenintegration and -anreicherung.
● Multilinguale Datenintegration.
2
Funding by
Consortium
3. WISS Research Group | JudaicaLink und der FID Jüdische Studien - 75 Jahre BI - 8. Dezember 2017 - Hochschule der Medien, Stuttgart
Portal
Ziele:
● Zentraler Anlaufpunkt
● Zugang zu einer umfassenden
Sammlung von Informationen und
Ressourcen.
Auch:
● Kontextualisierung der digitalen
Judaica Sammlungen
● Anreicherung der Metadaten
● Verlinkung mit Linked Open Data
3
4. WISS Research Group | JudaicaLink und der FID Jüdische Studien - 75 Jahre BI - 8. Dezember 2017 - Hochschule der Medien, Stuttgart
Portal
4
5. WISS Research Group | JudaicaLink und der FID Jüdische Studien - 75 Jahre BI - 8. Dezember 2017 - Hochschule der Medien, Stuttgart 5
6. WISS Research Group | JudaicaLink und der FID Jüdische Studien - 75 Jahre BI - 8. Dezember 2017 - Hochschule der Medien, Stuttgart
Portal
6
Ziele:
● Zentraler Anlaufpunkt
● Zugang zu einer umfassenden
Sammlung von Informationen und
Ressourcen.
Auch:
● Kontextualisierung der digitalen
Judaica Sammlungen
● Anreicherung der Metadaten
● Verlinkung mit Linked Open Data
7. WISS Research Group | JudaicaLink und der FID Jüdische Studien - 75 Jahre BI - 8. Dezember 2017 - Hochschule der Medien, Stuttgart
Re-Transliteration
7
● Automatische Retro-Konversion
von romanisiertem hebräischem Text.
● Verbesserte Suche auf Hebräisch.
● Voraussetzung für die Verknüpfung
von Daten über Sprach- und
Schriftgrenzen hinweg.
Aaron Christianson
8. WISS Research Group | JudaicaLink und der FID Jüdische Studien - 75 Jahre BI - 8. Dezember 2017 - Hochschule der Medien, Stuttgart
Retro-Konversion von
romanisiertem hebräischem Text
lĕqahaḥ t teḥ qst ʿivrî bĕ-taʿătîq lātîḥnî
עבוריות לאותיות אותו ולהפוך
8
9. WISS Research Group | JudaicaLink und der FID Jüdische Studien - 75 Jahre BI - 8. Dezember 2017 - Hochschule der Medien, Stuttgart
המלא הסיפור
ֵאל ָמַה רּ וִסַה
9
10. WISS Research Group | JudaicaLink und der FID Jüdische Studien - 75 Jahre BI - 8. Dezember 2017 - Hochschule der Medien, Stuttgart
Probleme
● Kein Hebräisch im Katalog vor 2011
● verschiedene Standards zur Romanisierung
● Mehrdeutigkeiten: Der selbe lateinische Buchstabe kann
sich auf mehrere Hebräische beziehen.
● Datenimporte aus anderen Katalogen
● Die Transliteration ist fehlerbehaftet
(ja, sogar Bibliothekare machen - selten - Fehler)
10
11. WISS Research Group | JudaicaLink und der FID Jüdische Studien - 75 Jahre BI - 8. Dezember 2017 - Hochschule der Medien, Stuttgart
Der Plan
1. Generierung aller möglichen
Kandidaten in “naiver” Weise.
2. Matching mit bekannten
Hebräischen Namen und
Begriffen.
3. Aus Matches Trainingsdaten
für Machine Learning
generieren.
11
12. WISS Research Group | JudaicaLink und der FID Jüdische Studien - 75 Jahre BI - 8. Dezember 2017 - Hochschule der Medien, Stuttgart
Portal
12
Ziele:
● Zentraler Anlaufpunkt
● Zugang zu einer umfassenden
Sammlung von Informationen und
Ressourcen.
Auch:
● Kontextualisierung der digitalen
Judaica Sammlungen
● Anreicherung der Metadaten
● Verlinkung mit Linked Open Data
13. WISS Research Group | JudaicaLink und der FID Jüdische Studien - 75 Jahre BI - 8. Dezember 2017 - Hochschule der Medien, Stuttgart
Kontextualisierung
● Relevante Datenquellen finden
● Darin passende / identische
Ressourcen finden
● Informationen extrahieren
● Informationen zum Portal hinzufügen
13
Maral Dadvar
14. WISS Research Group | JudaicaLink und der FID Jüdische Studien - 75 Jahre BI - 8. Dezember 2017 - Hochschule der Medien, Stuttgart
It’s all about Labels!
● Labels (Bezeichnungen, Zeichenketten) sind
die erste Quelle, um Kandidaten
für das Matching zu generieren.
● Jedes weitere Label ist ein möglicher Einstiegs-
punkt in unsere Daten.
● Problem: Mehr Labels führen auch zu
mehr falschen Treffern. Weitere Daten
sind zur Disambiguierung erforderlich.
14
15. WISS Research Group | JudaicaLink und der FID Jüdische Studien - 75 Jahre BI - 8. Dezember 2017 - Hochschule der Medien, Stuttgart 15
16. WISS Research Group | JudaicaLink und der FID Jüdische Studien - 75 Jahre BI - 8. Dezember 2017 - Hochschule der Medien, Stuttgart
● Unstrukturierte Daten
wie z.B. Online-
Enzyklopädien als
strukturierte Daten
verfügbar machen.
● Relevante Teilmengen
allgemeiner
Wissensbasen wie z.B.
DBpedia identifizieren
und sammeln.
● Als Hub-Funktion und
zentraler Einstieg für
den Kontextualisierungs-
prozess.
16
17. WISS Research Group | JudaicaLink und der FID Jüdische Studien - 75 Jahre BI - 8. Dezember 2017 - Hochschule der Medien, Stuttgart
Hauptaufgaben
1. Neue beschreibende Daten finden - mit Labeln!
2. Neue Label (und andere Daten) für bekannte Ressourcen
finden.
3. Verbindungen und Duplikate innerhalb der bekannten
Ressourcen finden.
4. Die Daten für andere zur Nachnutzung und
Kontextualisierung bereitstellen.
17
18. WISS Research Group | JudaicaLink und der FID Jüdische Studien - 75 Jahre BI - 8. Dezember 2017 - Hochschule der Medien, Stuttgart
Beispiel 1: YIVO Encyclopedia
18
19. WISS Research Group | JudaicaLink und der FID Jüdische Studien - 75 Jahre BI - 8. Dezember 2017 - Hochschule der Medien, Stuttgart
Was gibt es hier an Daten?
● Ein Titel
● Beschreibung
● Links im Text
"Surface form" => Konzept
● Bilder
● Bildbeschreibungen
19
20. WISS Research Group | JudaicaLink und der FID Jüdische Studien - 75 Jahre BI - 8. Dezember 2017 - Hochschule der Medien, Stuttgart
Surface Forms nutzen
Der Artikel über Minsk verlinkt auf Poland before 1795,
nennt es aber Polish-Lithuanian Commonwealth.
Polish-Lithuanian Commonwealth ist ein Unterabschnitt im
Abschnitt Poland before 1795 im Artikel Poland.
Aber das gilt auch für Demography…
Surface forms sind also Hinweise auf Label.
20
21. WISS Research Group | JudaicaLink und der FID Jüdische Studien - 75 Jahre BI - 8. Dezember 2017 - Hochschule der Medien, Stuttgart
Beispiel 2: Biographisches Handbuch der Rabbiner
● Das Biographische Handbuch der Rabbiner ist eine Online-Enzyklopädie des
Salomon L. Steinheim-Institut für Deutsch-Jüdische Geschichte an der
Universität Duisburg-Essen, herausgegeben von Michael Brocke and Julius
Carlebach.
● Das Ziel ist ein komplettes Verzeichnis aller Rabbiner seit der Aufklärung, die
im deutschsprachigen Raum lebten und wirkten oder aus diesem stammten.
● http://www.steinheim-institut.de/wiki/index.php/Biographisches_Handbuch_de
r_Rabbiner_%28BHR%29
21
22. WISS Research Group | JudaicaLink und der FID Jüdische Studien - 75 Jahre BI - 8. Dezember 2017 - Hochschule der Medien, Stuttgart
Verfügbar
als PDF.
22
23. WISS Research Group | JudaicaLink und der FID Jüdische Studien - 75 Jahre BI - 8. Dezember 2017 - Hochschule der Medien, Stuttgart
● PDF ist fantastisch um das visuelle Layout eines Textes
konsistent über Systemgrenzen hinweg darzustellen.
● Für alles andere, insbesondere, was den Zugang zu den
Inhalten angeht, ist es schrecklich.
● Digital-born PDFs (wie in unserem Fall) sind PDFs die
direkt aus einer Software heraus erstellt wurden.
● Noch schlimmer: PDFs aus Scans (mit OCR).
Ein Exkurs zu PDF-Quellen
23
24. WISS Research Group | JudaicaLink und der FID Jüdische Studien - 75 Jahre BI - 8. Dezember 2017 - Hochschule der Medien, Stuttgart 24
25. WISS Research Group | JudaicaLink und der FID Jüdische Studien - 75 Jahre BI - 8. Dezember 2017 - Hochschule der Medien, Stuttgart
Biographisches Portal der Rabbiner
Erfreulicherweise haben Mitarbeiter des Steinheim Instituts eine Datenbank der
Inhalte erstellt:
http://www.steinheim-institut.de:50580/cgi-bin/bhr#i0001
Diese URL ist im Browser sichtbar, wenn man den Eintrag zu Aach, Löb aufruft.
Großartig:
● Semi-strukturierte Form des Eintrags
● “Link” zum Handbuch durch Angabe des Bands und der Seitennummer.
● Referenz auf die Nummer des Eintrags, die auch im Handbuch aufgeführt ist..
● Eine GND-Nummer!!!
Nicht ganz so großartig:
● Wir können auf die Datenbank nicht verlinken wegen der Hash-URL.
25
26. WISS Research Group | JudaicaLink und der FID Jüdische Studien - 75 Jahre BI - 8. Dezember 2017 - Hochschule der Medien, Stuttgart
Lösung
In weiteren Gesprächen stellte sich heraus, dass es eine undokumentierte
Möglichkeit gibt, Einträge über ihre ID (die Nummer bei jedem Eintrag) aufzurufen:
http://steinheim-institut.de:50580/cgi-bin/bhr?id=1
26
27. WISS Research Group | JudaicaLink und der FID Jüdische Studien - 75 Jahre BI - 8. Dezember 2017 - Hochschule der Medien, Stuttgart
Beispiel 3: DBpedia
Erstellung eines DBpedia Teilgraphen.
1. “Focused Crawling” der DBpedia, um
a. “relevante” Ressourcen zu identifizieren und
b. “relevante” Informationen zu extrahieren.
2. Trotzdem weiter die gesamte DBpedia nutzen, um
a. “relevante” Information und Ressourcen zu
extrahieren.
27
28. WISS Research Group | JudaicaLink und der FID Jüdische Studien - 75 Jahre BI - 8. Dezember 2017 - Hochschule der Medien, Stuttgart
Cross-linguale Datenintegration
Je mehr Quellen wir haben, umso mehr Links können wir erstellen - auch indirekt.
28
29. WISS Research Group | JudaicaLink und der FID Jüdische Studien - 75 Jahre BI - 8. Dezember 2017 - Hochschule der Medien, Stuttgart
Architektur und Deployment
Triple Store und SPARQL Endpoint: Apache Jena Fuseki
Linked Data Front-End (URI Dereferenzierung, HTML Ansichten):
Pubby (DM2E Version)
Statische HTML-Seiten der Website: Hugo
Versionierung und Workflow: GitHub
Suche: Elasticsearch (geplant)
29
30. WISS Research Group | JudaicaLink und der FID Jüdische Studien - 75 Jahre BI - 8. Dezember 2017 - Hochschule der Medien, Stuttgart
Datensatz-Beschreibung in Markdown
mit Metadaten im Frontmatter
+++
author = "Kai Eckert"
title = "Yivo Encyclopedia"
website = "http://www.yivoencyclopedia.org"
example = "http://data.judaicalink.org/data/yivo/Moscow"
graph = "http://data.judaicalink.org/data/yivo"
loaded = true
[[files]]
url = "http://data.judaicalink.org/dumps/yivo/current/yivo.n3.gz"
description = "Extraction from YIVO Encyclopediae"
+++
The YIVO Encyclopedia of Jews in Eastern Europe, courtesy of the YIVO Institute of
Jewish Research, NY.
<!--more-->
...
30
31. WISS Research Group | JudaicaLink und der FID Jüdische Studien - 75 Jahre BI - 8. Dezember 2017 - Hochschule der Medien, Stuttgart
Die ganze Website wird über GitHub verwaltet
31
32. WISS Research Group | JudaicaLink und der FID Jüdische Studien - 75 Jahre BI - 8. Dezember 2017 - Hochschule der Medien, Stuttgart
Jeder neue Commit wird auf den Web-Server
gepushed.
Über den Static Site Generator Hugo werden alle HTML-Seiten generiert.
32
+++
author = "Kai Eckert"
title = "Yivo Encyclopedia"
website = "http://www.yivoencyclopedia.org"
example =
"http://data.judaicalink.org/data/yivo/Moscow"
graph = "http://data.judaicalink.org/data/yivo"
loaded = true
[[files]]
url =
"http://data.judaicalink.org/dumps/yivo/current/
yivo.n3.gz"
description = "Extraction from YIVO
Encyclopediae"
+++
The YIVO Encyclopedia of Jews in Eastern Europe,
courtesy of the YIVO Institute of Jewish
Research, NY.
<!--more-->
...
33. WISS Research Group | JudaicaLink und der FID Jüdische Studien - 75 Jahre BI - 8. Dezember 2017 - Hochschule der Medien, Stuttgart
Ein Python-Skript liest die Metadaten der Datensätze
und lädt, bzw. löscht Datensätze automatisch.
Vorteile:
● Niemand braucht Zugang zum Server.
● Schreibzugriff kann über GitHub verwaltet werden.
● Dumps aller Datensätze sind immer verfügbar.
● Beschreibung, Dumps und geladene Daten sind immer synchron.
● Geschichte aller Datensätze ist verfügbar.
● Fehler können leicht korrigiert werden, indem eine vorherige Version
wiederhergestellt wird.
Jeder neue Commit wird auf den Web-Server
gepushed.
33
34. WISS Research Group | JudaicaLink und der FID Jüdische Studien - 75 Jahre BI - 8. Dezember 2017 - Hochschule der Medien, Stuttgart
Vielen Dank.
http://slideshare.net/kaiec
http://www.wisslab.org
34