SlideShare ist ein Scribd-Unternehmen logo
1 von 86
Downloaden Sie, um offline zu lesen
DH-Rundgang – 05. Februar 2018
KI, Sprachtechnologie und
Digital Humanities:
Ein (unvollständiger) Überblick
Georg Rehm
georg.rehm@dfki.de
DFKI GmbH, Berlin
Überblick
• Einführung – Überblick über Forschungsaktivitäten
• Künstliche Intelligenz und Digital Humanities
• Forschungsdaten und Metadaten
• Kuratierungstechnologien
• Beobachtungen und Schlussfolgerungen
Digital Humanities Rundgang – 05. Februar 2018 2
Digital Humanities Rundgang – 05. Februar 2018 3
Digital Humanities Rundgang – 05. Februar 2018 4
Daten Intelligenz
Aktuelle Durchbrüche mit maschinellen Lernverfahren (Deep Learning)
Ebenfalls noch immer im Einsatz: Symbolische, regelbasierte Methoden
Sprachtechnologie
• Sprachtechnologie setzt theoretische Ergebnisse der
sprachorientierten Forschung in praxisgerechte und
technologisch verwertbare Anwendungen um.
• Nutzt Ergebnisse u.a. aus:
– Künstliche Intelligenz + Informatik
– Computerlinguistik
• Natural Language Processing
• Natural Language Understanding
– Psychologie, Psycholinguistik
– Kognitionswissenschaft
• Sprache: The next big thing for AI!
Digital Humanities Rundgang – 05. Februar 2018 5
Beispielanwendungen
• Rechtschreibprüfung
• Diktiersysteme
• Übersetzungssysteme
• Suchmaschinen
• Reportgenerierung
• Expertensysteme
• Dialogsysteme
• Textzusammenfassen
Evolution und Kontext
• Historisch gesehen sehr enge Verbindung zwischen
Digital Humanities und Computerlinguistik
• Journal Computers and the Humanities (erstmalig: 1966)
• Association for Literary and Linguistic Computing (1973)
• Association for Computers and the Humanities (1978)
• Text Encoding Initiative Guidelines (TEI, 1987, P1: 1994)
• Aus TEI entstand der W3C-Standard XML (1998)
Digital Humanities Rundgang – 05. Februar 2018 6
Forschungsdaten
und Metadaten
Digital Humanities Rundgang – 05. Februar 2018 7
•
60 research centres in 34 countries.
Chair of Executive Board: Jan Hajic (CUNI)
Dep.: J. van Genabith (DFKI), A. Vasiljevs (Tilde)
General Secretary: Georg Rehm (DFKI)
•
Multilingual Europe
Technology Alliance.
826 members in
67 countries
(published in 2013) (31 volumes; published in 2012)
T4ME (META-NET) CESAR METANET4UMETA-NORDMultilingual Europe Technology AllianceNET
q META-SHARE adressiert Probleme und Technologie- bzw.
Infrastrukturbedarfe in Bezug auf die
q Sichtbarkeit
q Dokumentation
q Identifizierung
q Verfügbarkeit
q Langzeitspeicherung
q Interoperabilität
von Sprachdaten und -ressourcen sowie Werkzeugen
q Implementiert als Netzwerk dezentraler Repositorys
q Lokale Repositorys
q Zentrale Repositorys
q http://www.meta-share.org
9
META-SHARE: Was ist das?
Digital Humanities Rundgang – 05. Februar 2018 9
META-SHARE: Was ist das?
q META-SHARE ist offen und wächst, interoperabel und sicher, es
legt besonderes Augenmerk auf Rechte und Workflows.
q Zentrale Merkmale:
§ Kostenfrei benutzbar
§ Die zugrundeliegende Software ist frei verfügbar und Open Source
§ Unterstützung durch Helpdesk und Nutzerforum
q META-SHARE favorisiert offene Daten und Open Source
q Kostenpflichtige Ressourcen sind nicht ausgeschlossen
q Die kommerzielle Nutzung von Ressourcen soll stimuliert werden
10Digital Humanities Rundgang – 05. Februar 2018 10
11
Search  /  browse
Reporting/  statisticsMappings
Licence
User  SupportRecommendations
Download
Registration  – authentication  – authorisation
META-­SHARE  portal
Metadata  harvesting
…repo
Local
repo
Local
repo
Local
repo
Local
META-­SHARE  
inventory
META-­SHARE  
inventory
META-­SHARE  
inventory
External  
repos
Architektur
11
Die Seite des Providers
§ Ein META-SHARE-Repository
kann leicht installiert und
angekoppelt werden:
• Open Source Repository Software
• Funktionen für das Dokumen-
tieren, Aktualisieren, Beschreiben
und Verknüpfen von Ressourcen
• Hilfestellung (Helpdesk, Forum,
Knowledge Base)
• Jedes Repository umfasst ein
Verzeichnis aller Metadaten und
exportiert diese
• Eingesammelte Metadaten
werden in synchronisierten
zentralen Servern gespeichert
12Digital Humanities Rundgang – 05. Februar 2018 12
Die Seite des Providers
§ Ein META-SHARE-Repository
kann leicht installiert und
angekoppelt werden:
• Open Source Repository Software
• Funktionen für das Dokumen-
tieren, Aktualisieren, Beschreiben
und Verknüpfen von Ressourcen
• Hilfestellung (Helpdesk, Forum,
Knowledge Base)
• Jedes Repository umfasst ein
Verzeichnis aller Metadaten und
exportiert diese
• Eingesammelte Metadaten
werden in synchronisierten
zentralen Servern gespeichert
13Digital Humanities Rundgang – 05. Februar 2018 13
Die Seite des Konsumenten
§ Nutzer können
§ Ressourcen suchen
§ Durch den Katalog blättern
14Digital Humanities Rundgang – 05. Februar 2018 14
Die Seite des Konsumenten
§ Nutzer können
§ Ressourcen suchen
§ Durch den Katalog blättern
§ Ressourcen zugreifen, indem
sie das Repository auswählen,
die Lizenzen nutzen und die
Ressourcen runterladen
15Digital Humanities Rundgang – 05. Februar 2018 15
Die Seite des Konsumenten
§ Nutzer können
§ Ressourcen suchen
§ Durch den Katalog blättern
§ Ressourcen zugreifen, indem
sie das Repository auswählen,
die Lizenzen nutzen und die
Ressourcen runterladen
16Digital Humanities Rundgang – 05. Februar 2018 16
Die Seite des Konsumenten
§ Nutzer können
§ Ressourcen suchen
§ Durch den Katalog blättern
§ Ressourcen zugreifen, indem
sie das Repository auswählen,
die Lizenzen nutzen und die
Ressourcen runterladen
17Digital Humanities Rundgang – 05. Februar 2018 17
Die Seite des Konsumenten
§ Nutzer können
§ Ressourcen suchen
§ Durch den Katalog blättern
§ Ressourcen zugreifen, indem
sie das Repository auswählen,
die Lizenzen nutzen und die
Ressourcen runterladen
§ Hilfestellung erhalten (Online-
Forum und Helpdesk)
§ Eine Wissensbasis nutzen
18Digital Humanities Rundgang – 05. Februar 2018 18
Metadaten für LRs
q Metadaten unterstützen META-SHARE Nutzer bei allen
Services
§ Beschreibung von Ressourcen (Erzeugung, Speicherung etc.)
§ Browsing, Suche, Retrieval
§ Upload und Download
§ Regelmäßiges Metadaten-Harvesting
§ Monitoring von Ressourcen und verwandten Objekten
q Nutzer sind sowohl Bereitsteller von Daten als auch
Nutzer von Daten
19Digital Humanities Rundgang – 05. Februar 2018 19
Start of the Life Cycle
• Linguistic research question (incl. language documentation and
preservation, creation of a resource in a new language based
on a popular resource in some other language) or
• Technology development goal
• Project goal dictates type of LR to be created (lexicon,
corpus, ontology etc.)
• Project goal also dictates some of the
subsequent phases of the life cycle.
Phase 1: Data Acquisition and Data Collection
• Data source:
– New data (harvested from the web, acquired
using specialised tools, outsourced to
service provider etc.)
– Existing (legacy) data in arbitrary research-
oriented formats (alternative start or
continuation of cycle)
• IPR and legal issues: who is the rightful owner or
copyright holder of the primary data?
Phase 2: Data Curation and Data Annotation
• Selection of linguistic analysis levels
• Formats, tag sets, schemas
– Standards (SGML, XML, TEI, CES, LAF etc.)
– Syntax and semantics registered in recognised
repository
• Tools (GUIs etc.; software has its own life cycle)
• Annotation: manual, semi-automatic, fully automatic
• Definition/identification of objects through PIDs
• Data management (XML databases, editors, revision
control systems etc.)
Phase 3: Linguistic Analysis and Research
• Querying
– Metadata
– Data and their annotations
• Analysis: manual, semi-automatic, fully
automatic
• Visualisation
• Combining data and annotations from
various different sources
– Interoperability standards
Phase 4: Evaluation and Quality Control
• LR evaluation, quality evaluation
• Validation (schema compliance etc.)
• Reviews
• Independent assessments
• Publications
• Experiments
Phase 5: Description
• Metadata records
– Standards (OLAC, IMDI etc.)
• IPR and legal issues: who owns the
annotations?
• Documentation, manuals, scientific
publications
• Software used or implemented to create the LR
Phase 6: Packaging
• Any constraints on the data
and annotations based on
IPR and legal aspects?
• Example: sentence
shuffling
Phase 7: Distribution and Publication of the Language Resource
• IPR and legal issues: license agreement between user/OEM and
distributor
• Distribution through web interface
– Querying: metadata, data annotations, both
– Visualisation
– Optional: distribution as stand-alone package
• Distribution through APIs (Linked data, REST etc.)
• Distribution as stand-alone package
– LR provider distributes through own mechanism/website
– Through a centralised or decentralised distribution infrastructure;
these have their own life cycles: acquisition of LR, management of
LR, maintenance, distribution, support
Life Cycle continues …
• Maintenance checks or user feedback: any errors
in the LR? Corrections or data format upgrades
needed? Release patch or update.
• New version or new research: acquisition of more
data and subsequent annotation and/or
annotation of additional linguistic analysis levels
(sharing and re-use of language resources).
Language Resource
Life Cycle
Heterogeneous situation outside the life cycle dictates
and provides external factors and forces:
• LR/LT ecosystem and landscape with available
resources and technologies for several languages.
• Gaps in terms of resources, technologies, languages.
• Regional, national, international data creation
strategies, initiatives and goals to fill gaps and to
foster research, innovation and development.
Schema und Ontologie
q Entitäten
q core entity – die Sprachressource
q satellite entities – verwandte Objekte, z.B.
- Involvierte actor: persons und organisations, z.B. Erzeuger
der Ressource, Drittmittelgeber, Distributoren etc.
- Per document: werden Dokumente referenziert, z.B. Artikel,
Papiere, Reports, Tagset-Beschreibungen etc.
- Ferner können via project: Projekte beschrieben werden, die
an der Schaffung einer Ressource beteiligt waren oder die
sie nutzen
- licence: zur Distribution einer Ressource
21Digital Humanities Rundgang – 05. Februar 2018 21
22
Ontologie (Auszug)
Digital Humanities Rundgang – 05. Februar 2018 22
Typen von Ressourcen
q Zwei Klassifikationsachsen:
§ resourceType
und
§ mediaType
q Jede Ressource besitzt einen Wert für
resourceType, kann aber mehrere mediaType
Werte umfassen, d.h. Ressourcen können aus
Teilen bestehen, die zu unterschiedlichen Typen
von Medien gehören
23Digital Humanities Rundgang – 05. Februar 2018 23
24
Hauptmerkmale
§ Das minimale Schema:
- Minimales Inventar von obligatorischen Elementen und
Relationen, die für die effektive Suche, Identifizierung und
Retrieval benötigt werden
- Beispiele: Identifizierung (Title, ID), Kontaktdetails, technische
Informationen (Sprache, Inhalte, Format, Größe etc.)
§ Das maximale Schema:
- Alle Elemente und Relationen, die für die Beschreibung einer
Ressource benötigt werden, d.h. ein zusätzliches Set von
empfohlenen und optionalen Elementen und Relationen für den
vollen LR-Lebenszyklus (Produktion, Nutzung)
- Beispiele: Herkunft, Ursprung, Erzeugung, Validierung,
Evaluation, intendierte Nutzung etc.
Digital Humanities Rundgang – 05. Februar 2018 24
mandatory
recommended
optional
corpusTextInfo
Digital Humanities Rundgang – 05. Februar 2018 25
Modul für Annotationen
Digital Humanities Rundgang – 05. Februar 2018 26
mandatory
recommended
optional
Vorlagen für Lizenzen
• Creative Commons Lizenzen, z.B. Creative Commons Zero
(CC-0) und alle möglichen CC-Kombinationen
• META-SHARE Commons Lizenzen, auf CC-basierende
Lizenzen, die es META-SHARE-Mitgliedern erlauben, ihre
Ressourcen nur innerhalb des META-SHARE-Netzwerkes zu
teilen
• META-SHARE “No Redistribution” Lizenzen – erlauben die
Nutzung einer Ressource während der Urheber weiterhin die
volle Kontrolle bzgl. Distribution hat.
• Tools und Web Services werden zur Verfügung gestellt durch
Standard-Open-Source- oder kommerzielle Lizenzen.
Digital Humanities Rundgang – 05. Februar 2018 27
Das neue META-SHARE
28
In fünf Klicks zur Ressource
29
1) Suche
30
2) Auswahl
31
3) Beschreibung
32
4) Lizenz
33
5) Download
34
q 35 META-SHARE-Mitglieder/Organisationen in 25 Ländern
q 28 Repositorys
q 3.000+ Sprachressourcen
q 500.000+ Views
q 22.000+ Downloads von CC-lizenzierten Ressourcen
q Nachhaltigkeit durch das gesamte Netzwerk – die meisten
Mitglieder haben sich zu Betrieb und Pflege verpflichtet
q META-SHARE wird benutzt als Basis des ELRC-SHARE
Repositorys für Public-Sector-Language-Data –
https://www.elrc-share.eu
q META-SHARE inspiriert bzw. wird benutzt für diverse
nationale CLARIN-Infrastrukturen (GR, EE)
META-SHARE heute
Digital Humanities Rundgang – 05. Februar 2018 35
Kuratierungstechnologien
Digital Humanities Rundgang – 05. Februar 2018 36
Was ist digitale Kuratierung?
Digital Humanities Rundgang – 05. Februar 2018
Information
Information
Information
Information
Information
Information
Information
Information
Information
Information
37
Was ist digitale Kuratierung?
Digital Humanities Rundgang – 05. Februar 2018
Information
Information
Information
Information
Information
Information
Information
Information
Information
? ?
?
?Information
38
Was ist digitale Kuratierung?
Digital Humanities Rundgang – 05. Februar 2018
Information
Information
Information
Information
Information
Information
Information
Information
Information
? Information
OutputInput SoftwareProzesse
?
?
?
39
Branchen
Input Prozesse Software Output
Tweet Analysieren Textverarbeitung Zeitungsartikel
Zeitungsartikel Auswählen Präsentationen Multimedia-Website
Agenturmeldung Fokussieren Tabellenkalkulation TV-Beitrag
Facebook-Meldung Überarbeiten Email Ausstellungskatalog
Suchergebnis Einlesen Browser Mobile Applikation
Email Schreiben Groupware Mashup (z.B. Karte)
SMS Gestalten Branchenapplikationen Textbeitrag
Konzept Recherchieren CMS Konzept
Textdateien Bewerten ECMS Zeitstrahl
Video Evaluieren CRM Fachartikel
Karte Ordnen Unternehmens-Software Studie
Stockfotos Sortieren Grafik-/Layout-Software Präsentation
In-house Datenbank Strukturieren Telefonie Faktensammlung
Kalendereintrag Zusammenfassen etc. Exponatsartikel
Spreadsheets Kürzen Analysen
Archiv Übersetzen etc.
etc. Informieren
Kombinieren
Abstrahieren
Einordnen
Visualisieren
Generieren
Annotieren
Referenzieren
etc.
Beobachtungen
• Content: textzentriert, mehrsprachig, multimedial
• Kuratierung: zeit- und wissensintensiv, interdisziplinär,
evtl. durchgeführt in verteilten Teams
• Branche: domänen-/branchenspezifische Anforderungen
• Einschränkung: Traditionelle CMS-Systeme bieten
kaum Unterstützung für Kuratierungsprozesse!
• Sprachtechnologie kann helfen – Kombinierung von
Komponenten zu branchenspezifischen Workflows
DKT Kick-off-Veranstaltung – 25. September 2015
Georg Rehm und Felix Sasaki. “Digital Curation
Technologies.” In Proceedings of the 19th Annual
Conference of the European Association for Machine
Translation (EAMT 2016), Riga, Lettland, Mai 2016
Georg Rehm und Felix Sasaki. “Digitale Kuratierungstechnologien – Verfahren für die
effiziente Verarbeitung, Erstellung und Verteilung qualitativ hochwertiger
Medieninhalte.” In Proceedings der Frühjahrstagung der Gesellschaft für
Sprachtechnologie und Computerlinguistik (GSCL 2015), S. 138-139, Duisburg, 2015
• Unterstützung und Optimierung digitaler Kuratierung durch
Sprach- und Wissenstechnologien.
• Entwicklung innovativer Prototypen bei den KMU-Partnern.
• Weiterentwicklung der DFKI-Technologien und Transfer mittels
Plattform für digitale Kuratierungstechnologien.
Sprach- und Wissenstechnologien
Kuratierungstechnologien
Branchentechnologien
Plattformtechnologie
Branchenlösungen
Branche:
Museen, Showrooms,
Ausstellungen
Branche:
TV, Radio, Web-TV, Medien
Branche:
Öffentliche Archive
Branche:
Journalismus
42
Plattform für digitale Kuratierungstechnologien
Broker REST API
Kuratierungsservice 1
Kuratierungsservice 2
Client nutzt
das API
Externer
Service 1
Externer
Service 2
Client nutzt
das API
Client nutzt
das API
Client nutzt
das API
Kuratierungs-Workflow
Output
@prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> .
@prefix xsd: <http://www.w3.org/2001/XMLSchema#> .
@prefix itsrdf: <http://www.w3.org/2005/11/its/rdf#> .
@prefix rdfs: <http://www.w3.org/2000/01/rdf-schema#> .
@prefix geo: <http://www.w3.org/2003/01/geo/wgs84_pos/> .
@prefix nif: <http://persistence.uni-leipzig.org/nlp2rdf/ontologies/nif-core#> .
<http://link.omitted/documents/document1#char=0,26>
a nif:RFC5147String , nif:String , nif:Context ;
nif:beginIndex "0"^^xsd:nonNegativeInteger ;
nif:endIndex "26"^^xsd:nonNegativeInteger ;
nif:isString "Welcome to Berlin in 2016. "^^xsd:string ;
dfkinif:averageLatitude "52.516666666666666"^^xsd:double ;
dfkinif:averageLongitude "13.383333333333333"^^xsd:double ;
dfkinif:stdDevLatitude "0.0"^^xsd:double ;
dfkinif:stdDevLongitude "0.0"^^xsd:double ;
nif:meanDateRange "20160101010000_20170101010000"^^xsd:string .
<http://link.omitted/documents/document1#char=21,25>
a nif:RFC5147String , nif:String ;
itsrdf:taIdentRef <http://link.omitted/ontologies/nif#date=20160101000000_20170101000000> ;
nif:anchorOf "2016"^^xsd:string ;
nif:beginIndex "21"^^xsd:nonNegativeInteger ;
nif:endIndex "25"^^xsd:nonNegativeInteger ;
nif:entity <http://link.omitted/ontologies/nif#date>.
<http://link.omitted/documents/#char=11,17>
a nif:RFC5147String , nif:String ;
nif:anchorOf "Berlin"^^xsd:string ;
nif:beginIndex "11"^^xsd:nonNegativeInteger ;
nif:endIndex "17"^^xsd:nonNegativeInteger ;
itsrdf:taClassRef <http://dbpedia.org/ontology/Location> ;
nif:referenceContext <http://link.omitted/documents/#char=0,26> ;
geo:lat "52.516666666666666"^^xsd:double ;
geo:long "13.383333333333333"^^xsd:double ;
itsrdf:taIdentRef <http://dbpedia.org/resource/Berlin> .
NLP Interchange
Format (NIF)
“Welcome to Berlin in 2016.”
• RDF/OWL-basiertes Format für NLP-
Anwendungen
• Ermöglicht Interoperabilität
• Durch pures RDF „natürliche“
Integration von Linked-Data-Daten
• Entwickelt von der Universität Leipzig
• Plattform unterstützt neben NIF auch
Web Annotations
Prototypisch implementierte Plattform und Services
• Durch (Semi-)Automatisierung der Kuratierungsprozesse zeitliche
und finanzielle Aufwände reduzieren
• Flexible, robuste, skalierbare Services
• Gemeinsamer Bau von Prototypen (proofs-of-concept)
• Modulare Inhalte in neuen Produktionen aggregieren
• Interoperabilität durch generische APIs
• Human in the loop
Aktueller Stand
• Plattform: Services und Service-Workflows
• Implementierte Kuratierungsservices:
– Named Entity Recognition – e-entityrecognition e-service
– Geolocation – e-entityrecognition, Visualisierung
– Temporal Analyser – e-entityrecognition, Visualisierung
– Classification – e-classification e-service
– Clustering – e-clustering e-service
– Textzusammenfassen– e-summarisation e-service
– Maschinelle Übersetzung – e-translation e-service
– Sentiment Analysis – work in progress
– Event Extraction – work in progress
– Semantic Storytelling – work in progress
• Kuratierungs-Dashboard: Erster Prototyp
Digital Humanities Rundgang – 05. Februar 2018 44
NER, Linking, Geolokalisierung
Digital Humanities Rundgang – 05. Februar 2018
...
In the Viking colony of Iceland,
an extraordinary vernacular
literature blossomed in the 12th
through 14th centuries
...
...
The ships were scuttled there
in the 11th century, to block a
navigation channel and thus
protect Roskilde, then
Copenhagen from seaborne
assault
...
...
Viking Age inscriptions have
also been discovered on the
Manx runestones on the
Isle of Man.
…
Plain Text NIF-Anreicherung Visualisierung
http://api.digitale-kuratierung.de/api/e-nlp/namedEntityRecognition?analysis=ner http://http://dev.digitale-kuratierung.de/admini/pages/geolocalization.php
• Modus 1: Modell-basiert (für Domänen, für
die annotierte Trainingsdaten verfügbar sind)
• Modus 2: Wörterbuch-basiert (für Domänen,
für die lediglich Namenslisten verfügbar sind)
• Basiert auf OpenNLP (mit NIF-Integration)
• Entity-Linking durch SPARQL-Querys auf DBPedia.
• Für Lokationen werden GPS-Koordinaten bezogen.
• Es werden Durchschnittsangaben berechnet auf
Dokumentebene (über alle Lokationen), um diese auf
einer Karte visualisieren zu können.
Geolokalisierung als visuelles Zusammenfassen!
45
Digital Humanities Rundgang – 05. Februar 2018
NE Recognition und Linking
• http://api.digitale-kuratierung.de/api/e-nlp/trainModel?analysis=dict
• Falls lediglich Listen von Namen oder Termen und deren URIs in einer
Ontologie zur Verfügung stehen.
• http://api.digitale-kuratierung.de/api/e-nlp/trainModel?analysis=ner
• Falls annotierte Trainingsdaten zur Verfügung stehen
auf neuem Input nutzbar
(auch gemeinsam)
statistisches
NER-Modell
Datenbank-Dump der
Mendelsohn-Briefe
Hohe Qualität
Benötigt annotierte Daten
Mittlere Qualität
Benötigt weniger annotierte Daten
• Falls – z.B. bei Spezialdomänen – weder das eine (A) noch das andere (B)
vorliegt, können potenzielle Entitäten in Kollektionen berechnet werden.
• Diese Liste kann vom Wissensarbeiter überprüft und anschließend als
Wörterbuch (A) eingesetzt werden.
Mittlere Qualität
Menschliche Intervention notwendig
Benötigt keine annotierten Daten
A B
C
• Linking per Extraktion der DBpedia-URI
• NE-Typspezifische SPARQL-Querys für
Personen (Geburtsdatum), Lokationen
(Koordinaten), Organisationen (Typ)
• Wörterbuch kann URIs enthalten
46
Digital Humanities Rundgang – 05. Februar 2018
Zeitausdrücke
...
The ships were scuttled there
in the 11th century, to block a
navigation channel and thus
protect Roskilde, then
Copenhagen from seaborne
assault
...
...
Viking Age inscriptions have
also been discovered on the
Manx runestones on the
Isle of Man.
...
...
In the Viking colony of Iceland,
an extraordinary vernacular
literature blossomed in the 12th
through 14th centuries
…
900
1600
http://api.digitale-kuratierung.de/api/e-nlp/namedEntityRecognition?analysis=temp
http://dev.digitale-kuratierung.de/admini/pages/timelining.php
Plain-Text NIF-Anreicherung Visualisierung
• Sortiert Dokumente auf einer
chronologischen Skala.
• Regelbasiertes System, um
unsere Zielsprachen
bestmöglich bedienen zu
können (EN, DE).
• Analyse von Zeitausdrücken
in einem Dokument.
• Berechnet Durchschnittswerte
und Intervalle.
• Plan: Mechanismus für
nutzerbasierte Regeln.
• Verwandte Arbeiten: SUTime,
HeidelTime, Tango, Tarsgi.
47
Maschinelle Übersetzung
Digital Humanities Rundgang – 05. Februar 2018
Workflow
Language &
Translation
Models trained
on DGT, News,
Europarl, TED
Herr Modi befindet sich auf einer fünftägigen
Reise nach Japan, um die wirtschaftlichen
Beziehungen mit der drittgrößten
Wirtschaftsnation der Welt zu festigen.
Mr Modi is located on a five-day trip to Japan to
strengthen the economic ties with the third largest
economy in the world.
Named Entity
Recognition
Entity Linking
Temporal
Expressions
Metadata
Processing
Post-Edit
Retraining
Beispiel
• Robuste, adaptierbare MT-Modelle (nutzen Moses, Cdec, Giza++, SRILM etc.)
• Parallele und monolinguale Korpora: Europarl, DGT-TM, TED, UN, Newscrawl u.a.
• Kombination mit anderen DKT-Services (Summariser, NER, Temporal Analyser); ITS 2.0, NIF
• Diverse Linked-Data-Datenquellen unterstützen MT (z.B. Dbpedia, BabelNet, WordNet)
Eleftherios Avramidis, Aljoscha Burchardt, Vivien Macketanz,
Ankit Srivastava. 2016. “DFKI’s System for WMT16 IT-domain
Task, including Analysis of Systematic Errors”. In Proc. of the 1st
Conf. on Machine Translation, Berlin, S. 415-422.
Workflow
Language &
Translation
Models trained
on DGT, News,
Europarl, TED
48
Textzusammenfassen
Digital Humanities Rundgang – 05. Februar 2018
Die Aktie der RWE AG fiel am Donnerstag um 0,21% auf 19,16 EUR und schwankte am
Handelstag zwischen 19,08 und 19,32 EUR. Das Handelsvolumen der Aktie lag bei 1,79
Millionen Aktien und so unter dem 52-Wochen und 150-Tagesvolumen von 3,40 Millionen
bzw. 3,96 Millionen Aktien. Im letzten Monat und den letzten 3 Monaten verlor die RWE-
Aktie 3,79% bzw. 18,95% und in den letzten 3 Tagen 3,55%. Das PE und PB-Verhältnis der
Unternehmensaktie liegt aktuell bei 11,44 bzw. 1,29, während die historischen PE und PB-
Werte jeweils bei 11,77 bzw. 2,13 liegen.
Im letzten Monat und den letzten
3 Monaten verlor die RWE-Aktie
3,79% bzw. 18,95% und in den
letzten 3 Tagen 3,55%.
• Kuratierungsservice rankt Sätze – basierend auf
div. Features – hinsichtlich ihrer Wichtigkeit.
• Beispiel: Artikel über den fallenden Aktienkurs von
RWE (Daten stammen von Condat).
• Integration der Analyseergebnisse anderer DKT-
Services in den Algorithmus.
49
RDF DB
RDF DB
Semantic Storytelling
Backend
Authoring Environment
iOS App Android AppHTML5ePub …
• Input: Self-contained documentcollection
• Example:Mendelsohn letters,2796 documents,
written in German, English,French
• Assists the editor in putting together stories based on
the semantic analyses
• Enables the construction of new stories, for example,
by (1) focussing on the specific requirements of
differenttext types such as biography or travelogue
or (2) through highlighting and recommending to the
human expert specific relationships between entities
• Automatic transformation of RDF database contents
into play-outformats for different channels and media
Semantic Storytelling: Analysis and Annotation Steps
• Language identification (for cross-lingual processing)
• Temporal expression analysis (TimeX)
• Geographic location analysis (GeoX)
• Participants and actors analysis (Person X)
• Coreference analysis
• Event detection (cross-lingual,including German and
French, through machine translation)
• Mode of transportation analysis
• Identification of MovementAction Events out of the set of
identified events (filtering)
Experimental
Storytelling Dashboard
Beispiel: Die Mendelsohn-Briefe
Mit Dank an:
50
Digital Humanities Rundgang – 05. Februar 2018 51
Beispiel: Die Mendelsohn-Briefe
Digital Humanities Rundgang – 05. Februar 2018 52
Beispiel: Die Mendelsohn-Briefe
RDF DB
RDF DB
Semantic Storytelling
Backend
Authoring Environment
iOS App Android AppHTML5ePub …
• Input: Self-contained documentcollection
• Example:Mendelsohn letters,2796 documents,
written in German, English,French
• Assists the editor in putting together stories based on
the semantic analyses
• Enables the construction of new stories, for example,
by (1) focussing on the specific requirements of
differenttext types such as biography or travelogue
or (2) through highlighting and recommending to the
human expert specific relationships between entities
• Automatic transformation of RDF database contents
into play-outformats for different channels and media
Semantic Storytelling: Analysis and Annotation Steps
• Language identification (for cross-lingual processing)
• Temporal expression analysis (TimeX)
• Geographic location analysis (GeoX)
• Participants and actors analysis (Person X)
• Coreference analysis
• Event detection (cross-lingual,including German and
French, through machine translation)
• Mode of transportation analysis
• Identification of MovementAction Events out of the set of
identified events (filtering)
Experimental
Storytelling Dashboard
Beispiel: Die Mendelsohn-Briefe
Mit Dank an:
Diese Komponenten funktionieren teilweise
bereits sehr gut, allerdings noch nicht perfekt!
53
Digital Humanities Rundgang – 05. Februar 2018 54
Beispiel: Die Mendelsohn-Briefe
Digital Humanities Rundgang – 05. Februar 2018 55
Beispiel: Die Mendelsohn-Briefe
Digital Humanities Rundgang – 05. Februar 2018 56
Beispiel: Die Mendelsohn-Briefe
Digital Humanities Rundgang – 05. Februar 2018 57
Beispiel: Die Mendelsohn-Briefe
Digital Humanities Rundgang – 05. Februar 2018 58
Beispiel: Die Mendelsohn-Briefe
Digital Humanities Rundgang – 05. Februar 2018 59
Beispiel: Die Mendelsohn-Briefe
Digital Humanities Rundgang – 05. Februar 2018 60
Beispiel: Die Mendelsohn-Briefe
Digital Humanities Rundgang – 05. Februar 2018 61
Beispiel: Die Mendelsohn-Briefe
Digital Humanities Rundgang – 05. Februar 2018 62
Beispiel: Die Mendelsohn-Briefe
Digital Humanities Rundgang – 05. Februar 2018 63
Beispiel: Die Mendelsohn-Briefe
Digital Humanities Rundgang – 05. Februar 2018 64
Beispiel: Die Mendelsohn-Briefe
Digital Humanities Rundgang – 05. Februar 2018 65
Beispiel: Die Mendelsohn-Briefe
Digital Humanities Rundgang – 05. Februar 2018 66
Beispiel: Die Mendelsohn-Briefe
Digital Humanities Rundgang – 05. Februar 2018 67
Beispiel: Die Mendelsohn-Briefe
Digital Humanities Rundgang – 05. Februar 2018 68
Beispiel: Die Mendelsohn-Briefe
Digital Humanities Rundgang – 05. Februar 2018 69
Beispiel: Die Mendelsohn-Briefe
Digital Humanities Rundgang – 05. Februar 2018 70
Georg Rehm, Julian Moreno Schneider, Peter Bourgonje, Ankit Srivastava, Jan Nehring, Armin Berger, Luca König, Sören Räuchle, and Jens Gerth.
Event Detection and Semantic Storytelling: Generating a Travelogue from a large Collection of Personal Letters. In Tommaso Caselli, Ben Miller,
Marieke van Erp, Piek Vossen, Martha Palmer, Eduard Hovy, and Teruko Mitamura, editors, Proceedings of the Events and Stories in the News
Workshop, Vancouver, Canada, August 2017. Association for Computational Linguistics. Co-located with ACL 2017.
Branche: Öffentliche Archive
Digital Humanities Rundgang – 05. Februar 2018 71
Julian Moreno-Schneider, Ankit Srivastava, Peter Bourgonje, David Wabnitz, and Georg Rehm. Semantic Storytelling, Cross-
lingual Event Detection and other Semantic Services for a Newsroom Content Curation Dashboard. In Octavian Popescu and
Carlo Strapparava, editors, Proceedings of Natural Language Processing meets Journalism - EMNLP 2017 Workshop (NLPMJ
2017), Copenhagen, Denmark, September 2017. 7. September.
Branche: Journalismus
Branche: Museen,
Showrooms, Ausstellungen
Digital Humanities Rundgang – 05. Februar 2018 72
Georg Rehm, Jing He, Julian Moreno Schneider, Jan Nehring, and Joachim Quantz. Designing User Interfaces
for Curation Technologies. In Sakae Yamamoto, editor, Human Interface and the Management of Information:
Information, Knowledge and Interaction Design, 19th International Conference, HCI International 2017, number
10273 in Lecture Notes in Computer Science (LNCS), pages 388-406, Vancouver, Canada, July 2017. Springer.
Digital Humanities Rundgang – 05. Februar 2018 73
Georg Rehm, Julián Moreno Schneider, Peter Bourgonje, Ankit Srivastava, Rolf Fricke, Jan Thomsen, Jing He,
Joachim Quantz, Armin Berger, Luca König, Sören Räuchle, Jens Gerth, and David Wabnitz. Different Types of
Automated and Semi-Automated Semantic Storytelling: Curation Technologies for Different Sectors. In Georg Rehm
and Thierry Declerck, editors, Language Technologies for the Challenges of the Digital Age: Proceedings of the
GSCL Conference 2017, Lecture Notes in Artificial Intelligence (LNAI), Heidelberg etc., September 2017. Gesellschaft
für Sprachtechnologie und Computerlinguistik e.V., Springer. 13.-15. September 2017.
Branche: TV, Web-TV, Medien
Kuratierungstechnologien
für unterschiedliche
Anwendungsfälle
Digital Humanities Rundgang – 05. Februar 2018 74
• BMBF-Projekt Digitale Kuratierungstechnologien:
– Museen, Showrooms, Ausstellungen
– TV, Web-TV, Medien
– Öffentliche Archive
– Journalismus
Digital Humanities Rundgang – 05. Februar 2018 75
• BMBF-Projekt Digitale Kuratierungstechnologien:
– Museen, Showrooms, Ausstellungen
– TV, Web-TV, Medien
– Öffentliche Archive
– Journalismus
• Außerdem Kuratierungstechnologien konzipiert
bzw. in der Entwicklung befindlich für:
– Juristische und regulatorische Inhalte
– Bibliothekswissenschaft und Digital Libraries
– Customer-Relationship-Management
– Medizinische Inhalte
– Film- und Kinobranche
– Digital Humanities
Digital Humanities Rundgang – 05. Februar 2018 76
Clemens Neudecker und Georg Rehm. „Digitale Kuratierungstechnologien für Bibliotheken“.
Zeitschrift für Bibliothekskultur 027.7, Open Access. Nov. 2016.
Georg Rehm. Der Mensch bleibt im Mittelpunkt – Smarte Technologien für alle Branchen. Vitako
Aktuell. Zeitschrift der Bundes-Arbeitsgemeinschaft der Kommunalen IT-Dienstleister e.V., 2-
2016:26-27, 2016.
Georg Rehm. Artificial Intelligence for the Film Industry. FilmTech Meetup Berlin, July 25, 2017.
Georg Rehm. KI für die Kundenkommunikation: Der Markt der Zukunft. Rethink! Connected
Customer 360°. Hamburg, June 22/23, 2017.
?
Kuratierungstechnologien
• Kuratierungstechnologien: Branchenspezifische
Anwendungen, die auf KI-Technologien basieren
• KI-Technologien: Symbolische Verfahren, statistische
Verfahren, maschinelles Lernen, Deep Learning
• Anwendung auf typischerweise hochgradig spezielle
Digital Humanities-Datensammlungen ist ambitioniert
Digital Humanities Rundgang – 05. Februar 2018 77
Kuratierungs-
technologien für
Anforderungen Erste Priorität
Diverse Branchen Eher flache Analyse Hoher Abdeckungsgrad
Humanities Eher tiefe Analyse Hohe Präzision
Beobachtungen und
Schlussfolgerungen
Digital Humanities Rundgang – 05. Februar 2018 78
Schlussfolgerungen
• Kuratierungstechnologien unterstützen Wissensarbeiter
– inkl. DH-Anwender – beim Verarbeiten digitaler Inhalte.
• Kuratierungstechnologien werden eingesetzt, um
digitalen Content semantisch zu erschließen und für den
jeweiligen Anwendungsfall nutzbar zu machen.
• Auch im Bereich Digital Humanities kann durchaus von
„Kuratierungstechnologien“ gesprochen werden.
• Ziele: Bessere Analysen und Nutzbarkeit der Daten;
Findbarkeit; Kontextualisierung und Visualisierung
(Karten, Zeitstrahl, Verknüpfung, LOD etc.).
Digital Humanities Rundgang – 05. Februar 2018 79
KI – Reality Check
• Künstliche Intelligenz
– Beeindruckende
Durchbrüche in den
vergangenen Jahren
– Basieren u.a. auf extrem
großen Datenmengen
– Entwicklung disruptiver,
revolutionärer KI-Tools für
die Arbeit mit DH-Daten ist
eher unwahrscheinlich
– Aber: Standardwerkzeuge
wie NER etc. werden
kontinuierlich verbessert
Digital Humanities Rundgang – 05. Februar 2018 80
• Arbeit mit DH-Daten
– Hochgradig spezifische
Datensammlungen und
Anwendungsfälle
– Anforderungen: Hohe
Präzision der Annotation
sowie der Metadaten
– Eher kleine und sehr
spezielle Datenmengen
– Sehr tiefe und spezifische
Anforderungen bzw.
Annotationen, aufwendig
in der Automatisierung
Prognosen
• Immer präzisere Basistechnologien (NER etc.)
• Entwicklung generischer, adaptiver Daten-Annotations-
und Analyse-Workbenches für DH-Forschung/-Anwender
• Im Hintergrund: „AI-as-a-Service for Digital Humanities“
• KI-Technologien (maschinelle Lernverfahren) in der
Basisinfrastruktur, auch von Nicht-Experten mit
generischen Annotations-Werkzeugen nutzbar
• Domänenspezifische Spezialwerkzeuge, Semantiken,
Metadaten etc. – inhärent vernetzt mit LOD, ORKG etc.
Digital Humanities Rundgang – 05. Februar 2018 81
Beobachtungen
• In der Vergangenheit zahlreiche fragmentierte Digital-
Humanities-Projekte (Deutschland und darüber hinaus)
• Unterschiede bzgl. Software, Plattformen, Datenformate
• Angestrebt werden sollte eine Zusammenführung von:
– Forschung
– Forschungsergebnissen (Dokumentation ggf. standardisiert)
– Forschungsdaten (Annotation ggf. standardisiert)
– Metadaten und Datenformaten (standardisiert)
– Infrastrukturen/Plattformen (Interoperabilität, standardisiert)
– Repositorien von Forschungsdaten und Services
• „Digital Humanities“ allein ist zu kurz gedacht
• Eigentlich sollten wir über „Digital Science“ sprechen
Digital Humanities Rundgang – 05. Februar 2018 82
Wichtige Initiativen
Digital Humanities Rundgang – 05. Februar 2018 83
Open Research Knowledge Graph
Open Science
Linked Open Data Cloud
Semantic Web
Standards
Persistent Identifiers
Gemeinsame Normdatei
Schaffung einer nationalen
Forschungsdateninfrastruktur
European
Open Science
Cloud
DFKI: Schwerpunkte bislang
• Infrastrukturen für Forschungsdaten: META-SHARE
• Generische Sprach- und Wissenstechnologien für
branchenspezifische Kuratierungstechnologien: DKT
• Nutzung, Annotation, Dashboards: DKT
• Metadaten und Standards: W3C, Web Annotations,
Semantic Web, XML, XSLT, SPARQL etc.
• Metadaten, Dokumentation von Forschungsdaten
und Prozesse: Language Resource Life Cycle
Digital Humanities Rundgang – 05. Februar 2018 84
DH am DFKI Berlin: Zukunft
• Am DFKI in Berlin werden wir uns in Zukunft vermehrt
auch um das Thema Digital Humanities kümmern
• Projekte mit Bezügen zu Digital Humanities:
– DKT (BMBF) – abgeschlossen 2015-2017
– Open-Science-Projekt (TUB) Start Q2/2018
– KT/DH-Projekt (Berliner Hochschule) Start Q2/2018
– DKT2 (BMBF) – Förderung empfohlen Start Q4/2018
– DFG-Verbundprojekt – in Vorbereitung Start Q4/2018
• Das DFKI freut sich auf eine intensivere Kooperation mit
if|DH|b und der DH-Forschung in Berlin!
Digital Humanities Rundgang – 05. Februar 2018 85
Vielen Dank!
Digital Humanities Rundgang – 05. Februar 2018 86

Weitere ähnliche Inhalte

Ähnlich wie KI, Sprachtechnologie und Digital Humanities: Ein (unvollständiger) Überblick

BODDy 2014: Ergebnisse Projektgruppe Open Data - Wolfgang Both
BODDy 2014: Ergebnisse Projektgruppe Open Data - Wolfgang BothBODDy 2014: Ergebnisse Projektgruppe Open Data - Wolfgang Both
BODDy 2014: Ergebnisse Projektgruppe Open Data - Wolfgang Both
BerlinOpenDataDay
 
Neue Entwicklungen im Bereich der Suchmaschinen (technologie)
Neue Entwicklungen im Bereich der Suchmaschinen (technologie)Neue Entwicklungen im Bereich der Suchmaschinen (technologie)
Neue Entwicklungen im Bereich der Suchmaschinen (technologie)
Dirk Lewandowski
 
scopeKM: Chancen und Risiken erkennen mit der textanalytischen Lösung Luxid®
scopeKM: Chancen und Risiken erkennen mit der textanalytischen Lösung Luxid® scopeKM: Chancen und Risiken erkennen mit der textanalytischen Lösung Luxid®
scopeKM: Chancen und Risiken erkennen mit der textanalytischen Lösung Luxid®
scopeKM GmbH Knowledge Management
 
Suchmaschinen, Bürde für Informationsspezialisten?
Suchmaschinen, Bürde für Informationsspezialisten?Suchmaschinen, Bürde für Informationsspezialisten?
Suchmaschinen, Bürde für Informationsspezialisten?
Dirk Lewandowski
 
Sitzung 11
Sitzung 11Sitzung 11
Sitzung 11
scuy
 
Neue Entwicklungen bei Suchmaschinen und deren Relevanz für Bibliotheken (1)
Neue Entwicklungen bei Suchmaschinen und deren Relevanz für Bibliotheken (1)Neue Entwicklungen bei Suchmaschinen und deren Relevanz für Bibliotheken (1)
Neue Entwicklungen bei Suchmaschinen und deren Relevanz für Bibliotheken (1)
Dirk Lewandowski
 
Standardisierte Nutzungsstatiken für Repositorien und Linkresolver
Standardisierte Nutzungsstatiken für Repositorien und LinkresolverStandardisierte Nutzungsstatiken für Repositorien und Linkresolver
Standardisierte Nutzungsstatiken für Repositorien und Linkresolver
Daniel Beucke
 

Ähnlich wie KI, Sprachtechnologie und Digital Humanities: Ein (unvollständiger) Überblick (20)

Suche ein effizientes Mittel zur Datenintegration
Suche ein effizientes Mittel zur DatenintegrationSuche ein effizientes Mittel zur Datenintegration
Suche ein effizientes Mittel zur Datenintegration
 
BODDy 2014: Ergebnisse Projektgruppe Open Data - Wolfgang Both
BODDy 2014: Ergebnisse Projektgruppe Open Data - Wolfgang BothBODDy 2014: Ergebnisse Projektgruppe Open Data - Wolfgang Both
BODDy 2014: Ergebnisse Projektgruppe Open Data - Wolfgang Both
 
Forschungsdatenmanagement in den (vergleichenden) Regionalwissenschaften - am...
Forschungsdatenmanagement in den (vergleichenden) Regionalwissenschaften - am...Forschungsdatenmanagement in den (vergleichenden) Regionalwissenschaften - am...
Forschungsdatenmanagement in den (vergleichenden) Regionalwissenschaften - am...
 
Herausforderungen im Datenmanagement von Metadaten
Herausforderungen im Datenmanagement von MetadatenHerausforderungen im Datenmanagement von Metadaten
Herausforderungen im Datenmanagement von Metadaten
 
Zum Social Media Erfolg mit AMPEL
Zum Social Media Erfolg mit AMPELZum Social Media Erfolg mit AMPEL
Zum Social Media Erfolg mit AMPEL
 
Neue Entwicklungen im Bereich der Suchmaschinen (technologie)
Neue Entwicklungen im Bereich der Suchmaschinen (technologie)Neue Entwicklungen im Bereich der Suchmaschinen (technologie)
Neue Entwicklungen im Bereich der Suchmaschinen (technologie)
 
scopeKM: Chancen und Risiken erkennen mit der textanalytischen Lösung Luxid®
scopeKM: Chancen und Risiken erkennen mit der textanalytischen Lösung Luxid® scopeKM: Chancen und Risiken erkennen mit der textanalytischen Lösung Luxid®
scopeKM: Chancen und Risiken erkennen mit der textanalytischen Lösung Luxid®
 
Suchmaschinen, Bürde für Informationsspezialisten?
Suchmaschinen, Bürde für Informationsspezialisten?Suchmaschinen, Bürde für Informationsspezialisten?
Suchmaschinen, Bürde für Informationsspezialisten?
 
Open Data Portal (ODP) Österreich - Präsentation bei der opendata.ch 2014 in ...
Open Data Portal (ODP) Österreich - Präsentation bei der opendata.ch 2014 in ...Open Data Portal (ODP) Österreich - Präsentation bei der opendata.ch 2014 in ...
Open Data Portal (ODP) Österreich - Präsentation bei der opendata.ch 2014 in ...
 
Globale Standards im Web of Things
Globale Standards im Web of ThingsGlobale Standards im Web of Things
Globale Standards im Web of Things
 
OpenAIRE guidelines for data and literature repositories webinar_28022017
OpenAIRE guidelines for data and literature repositories webinar_28022017OpenAIRE guidelines for data and literature repositories webinar_28022017
OpenAIRE guidelines for data and literature repositories webinar_28022017
 
Digitale Methoden in den Sozial- und Geisteswissenschaften: Chancen und Herau...
Digitale Methoden in den Sozial- und Geisteswissenschaften: Chancen und Herau...Digitale Methoden in den Sozial- und Geisteswissenschaften: Chancen und Herau...
Digitale Methoden in den Sozial- und Geisteswissenschaften: Chancen und Herau...
 
Einführung Linked Open Data (LOD) - Introduction to Linked Open Data (LOD)
Einführung Linked Open Data (LOD) - Introduction to Linked Open Data (LOD)Einführung Linked Open Data (LOD) - Introduction to Linked Open Data (LOD)
Einführung Linked Open Data (LOD) - Introduction to Linked Open Data (LOD)
 
Learning Analytics mit Daten mathematischer Tests
Learning Analytics mit Daten mathematischer TestsLearning Analytics mit Daten mathematischer Tests
Learning Analytics mit Daten mathematischer Tests
 
Sitzung 11
Sitzung 11Sitzung 11
Sitzung 11
 
Linked Open Data Pilotprojekt Österreich - LOD Pilot AT
Linked Open Data Pilotprojekt Österreich - LOD Pilot ATLinked Open Data Pilotprojekt Österreich - LOD Pilot AT
Linked Open Data Pilotprojekt Österreich - LOD Pilot AT
 
Neue Entwicklungen bei Suchmaschinen und deren Relevanz für Bibliotheken (1)
Neue Entwicklungen bei Suchmaschinen und deren Relevanz für Bibliotheken (1)Neue Entwicklungen bei Suchmaschinen und deren Relevanz für Bibliotheken (1)
Neue Entwicklungen bei Suchmaschinen und deren Relevanz für Bibliotheken (1)
 
Standardisierte Nutzungsstatiken für Repositorien und Linkresolver
Standardisierte Nutzungsstatiken für Repositorien und LinkresolverStandardisierte Nutzungsstatiken für Repositorien und Linkresolver
Standardisierte Nutzungsstatiken für Repositorien und Linkresolver
 
Wissenserschließung und –Modellierung: Ontologie vs. Volltextsuche am Beispie...
Wissenserschließung und –Modellierung: Ontologie vs. Volltextsuche am Beispie...Wissenserschließung und –Modellierung: Ontologie vs. Volltextsuche am Beispie...
Wissenserschließung und –Modellierung: Ontologie vs. Volltextsuche am Beispie...
 
3. intranda viewer Tag: Digitale Langzeitarchivierung an der TIB
3. intranda viewer Tag: Digitale Langzeitarchivierung an der TIB3. intranda viewer Tag: Digitale Langzeitarchivierung an der TIB
3. intranda viewer Tag: Digitale Langzeitarchivierung an der TIB
 

Mehr von Georg Rehm

Mehr von Georg Rehm (20)

QURATOR: A Flexible AI Platform for the Adaptive Analysis and Creative Genera...
QURATOR: A Flexible AI Platform for the Adaptive Analysis and Creative Genera...QURATOR: A Flexible AI Platform for the Adaptive Analysis and Creative Genera...
QURATOR: A Flexible AI Platform for the Adaptive Analysis and Creative Genera...
 
Observations on Annotations – From Computational Linguistics and the World Wi...
Observations on Annotations – From Computational Linguistics and the World Wi...Observations on Annotations – From Computational Linguistics and the World Wi...
Observations on Annotations – From Computational Linguistics and the World Wi...
 
The Preparation, Impact and Future of the META-NET White Paper Series “Europe...
The Preparation, Impact and Future of the META-NET White Paper Series “Europe...The Preparation, Impact and Future of the META-NET White Paper Series “Europe...
The Preparation, Impact and Future of the META-NET White Paper Series “Europe...
 
AI and Conference Interpretation – From Smart Assistants for the Human Interp...
AI and Conference Interpretation – From Smart Assistants for the Human Interp...AI and Conference Interpretation – From Smart Assistants for the Human Interp...
AI and Conference Interpretation – From Smart Assistants for the Human Interp...
 
Künstliche Intelligenz beim Dolmetschen und Übersetzen
Künstliche Intelligenz beim Dolmetschen und ÜbersetzenKünstliche Intelligenz beim Dolmetschen und Übersetzen
Künstliche Intelligenz beim Dolmetschen und Übersetzen
 
Herausforderungen und Lösungen für die europäische Sprachtechnologie- Forschu...
Herausforderungen und Lösungen für die europäische Sprachtechnologie- Forschu...Herausforderungen und Lösungen für die europäische Sprachtechnologie- Forschu...
Herausforderungen und Lösungen für die europäische Sprachtechnologie- Forschu...
 
European Language Technologies – Past, Present and Future
European Language Technologies – Past, Present and FutureEuropean Language Technologies – Past, Present and Future
European Language Technologies – Past, Present and Future
 
Towards a Human Language Project for Multilingual Europe: AI and Interpretation
Towards a Human Language Project for Multilingual Europe: AI and InterpretationTowards a Human Language Project for Multilingual Europe: AI and Interpretation
Towards a Human Language Project for Multilingual Europe: AI and Interpretation
 
Language Technologies for Multilingual Europe - Towards a Human Language Proj...
Language Technologies for Multilingual Europe - Towards a Human Language Proj...Language Technologies for Multilingual Europe - Towards a Human Language Proj...
Language Technologies for Multilingual Europe - Towards a Human Language Proj...
 
AI for Translation Technologies and Multilingual Europe
AI for Translation Technologies and Multilingual EuropeAI for Translation Technologies and Multilingual Europe
AI for Translation Technologies and Multilingual Europe
 
Kuratieren im Zeitalter der KI
Kuratieren im Zeitalter der KIKuratieren im Zeitalter der KI
Kuratieren im Zeitalter der KI
 
Artificial Intelligence for the Film Industry
Artificial Intelligence for the Film IndustryArtificial Intelligence for the Film Industry
Artificial Intelligence for the Film Industry
 
KI für die Kundenkommunikation
KI für die KundenkommunikationKI für die Kundenkommunikation
KI für die Kundenkommunikation
 
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen BibliothekenDigitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
 
EPUB, quo vadis? Publishing im W3C
EPUB, quo vadis? Publishing im W3CEPUB, quo vadis? Publishing im W3C
EPUB, quo vadis? Publishing im W3C
 
Human Language Technologies in a Multilingual Europe
Human Language Technologies in a Multilingual EuropeHuman Language Technologies in a Multilingual Europe
Human Language Technologies in a Multilingual Europe
 
Language Technologies for Big Data – A Strategic Agenda for the Multilingual ...
Language Technologies for Big Data – A Strategic Agenda for the Multilingual ...Language Technologies for Big Data – A Strategic Agenda for the Multilingual ...
Language Technologies for Big Data – A Strategic Agenda for the Multilingual ...
 
Multilingual Europe in late 2016 – A Strategic Research and Innovation Agenda...
Multilingual Europe in late 2016 – A Strategic Research and Innovation Agenda...Multilingual Europe in late 2016 – A Strategic Research and Innovation Agenda...
Multilingual Europe in late 2016 – A Strategic Research and Innovation Agenda...
 
Multilingualism for Digital Europe
Multilingualism for Digital EuropeMultilingualism for Digital Europe
Multilingualism for Digital Europe
 
Digitale Kuratierungstechnologien für verschiedene Branchen und Anwendungssze...
Digitale Kuratierungstechnologien für verschiedene Branchen und Anwendungssze...Digitale Kuratierungstechnologien für verschiedene Branchen und Anwendungssze...
Digitale Kuratierungstechnologien für verschiedene Branchen und Anwendungssze...
 

KI, Sprachtechnologie und Digital Humanities: Ein (unvollständiger) Überblick

  • 1. DH-Rundgang – 05. Februar 2018 KI, Sprachtechnologie und Digital Humanities: Ein (unvollständiger) Überblick Georg Rehm georg.rehm@dfki.de DFKI GmbH, Berlin
  • 2. Überblick • Einführung – Überblick über Forschungsaktivitäten • Künstliche Intelligenz und Digital Humanities • Forschungsdaten und Metadaten • Kuratierungstechnologien • Beobachtungen und Schlussfolgerungen Digital Humanities Rundgang – 05. Februar 2018 2
  • 3. Digital Humanities Rundgang – 05. Februar 2018 3
  • 4. Digital Humanities Rundgang – 05. Februar 2018 4 Daten Intelligenz Aktuelle Durchbrüche mit maschinellen Lernverfahren (Deep Learning) Ebenfalls noch immer im Einsatz: Symbolische, regelbasierte Methoden
  • 5. Sprachtechnologie • Sprachtechnologie setzt theoretische Ergebnisse der sprachorientierten Forschung in praxisgerechte und technologisch verwertbare Anwendungen um. • Nutzt Ergebnisse u.a. aus: – Künstliche Intelligenz + Informatik – Computerlinguistik • Natural Language Processing • Natural Language Understanding – Psychologie, Psycholinguistik – Kognitionswissenschaft • Sprache: The next big thing for AI! Digital Humanities Rundgang – 05. Februar 2018 5 Beispielanwendungen • Rechtschreibprüfung • Diktiersysteme • Übersetzungssysteme • Suchmaschinen • Reportgenerierung • Expertensysteme • Dialogsysteme • Textzusammenfassen
  • 6. Evolution und Kontext • Historisch gesehen sehr enge Verbindung zwischen Digital Humanities und Computerlinguistik • Journal Computers and the Humanities (erstmalig: 1966) • Association for Literary and Linguistic Computing (1973) • Association for Computers and the Humanities (1978) • Text Encoding Initiative Guidelines (TEI, 1987, P1: 1994) • Aus TEI entstand der W3C-Standard XML (1998) Digital Humanities Rundgang – 05. Februar 2018 6
  • 7. Forschungsdaten und Metadaten Digital Humanities Rundgang – 05. Februar 2018 7
  • 8. • 60 research centres in 34 countries. Chair of Executive Board: Jan Hajic (CUNI) Dep.: J. van Genabith (DFKI), A. Vasiljevs (Tilde) General Secretary: Georg Rehm (DFKI) • Multilingual Europe Technology Alliance. 826 members in 67 countries (published in 2013) (31 volumes; published in 2012) T4ME (META-NET) CESAR METANET4UMETA-NORDMultilingual Europe Technology AllianceNET
  • 9. q META-SHARE adressiert Probleme und Technologie- bzw. Infrastrukturbedarfe in Bezug auf die q Sichtbarkeit q Dokumentation q Identifizierung q Verfügbarkeit q Langzeitspeicherung q Interoperabilität von Sprachdaten und -ressourcen sowie Werkzeugen q Implementiert als Netzwerk dezentraler Repositorys q Lokale Repositorys q Zentrale Repositorys q http://www.meta-share.org 9 META-SHARE: Was ist das? Digital Humanities Rundgang – 05. Februar 2018 9
  • 10. META-SHARE: Was ist das? q META-SHARE ist offen und wächst, interoperabel und sicher, es legt besonderes Augenmerk auf Rechte und Workflows. q Zentrale Merkmale: § Kostenfrei benutzbar § Die zugrundeliegende Software ist frei verfügbar und Open Source § Unterstützung durch Helpdesk und Nutzerforum q META-SHARE favorisiert offene Daten und Open Source q Kostenpflichtige Ressourcen sind nicht ausgeschlossen q Die kommerzielle Nutzung von Ressourcen soll stimuliert werden 10Digital Humanities Rundgang – 05. Februar 2018 10
  • 11. 11 Search  /  browse Reporting/  statisticsMappings Licence User  SupportRecommendations Download Registration  – authentication  – authorisation META-­SHARE  portal Metadata  harvesting …repo Local repo Local repo Local repo Local META-­SHARE   inventory META-­SHARE   inventory META-­SHARE   inventory External   repos Architektur 11
  • 12. Die Seite des Providers § Ein META-SHARE-Repository kann leicht installiert und angekoppelt werden: • Open Source Repository Software • Funktionen für das Dokumen- tieren, Aktualisieren, Beschreiben und Verknüpfen von Ressourcen • Hilfestellung (Helpdesk, Forum, Knowledge Base) • Jedes Repository umfasst ein Verzeichnis aller Metadaten und exportiert diese • Eingesammelte Metadaten werden in synchronisierten zentralen Servern gespeichert 12Digital Humanities Rundgang – 05. Februar 2018 12
  • 13. Die Seite des Providers § Ein META-SHARE-Repository kann leicht installiert und angekoppelt werden: • Open Source Repository Software • Funktionen für das Dokumen- tieren, Aktualisieren, Beschreiben und Verknüpfen von Ressourcen • Hilfestellung (Helpdesk, Forum, Knowledge Base) • Jedes Repository umfasst ein Verzeichnis aller Metadaten und exportiert diese • Eingesammelte Metadaten werden in synchronisierten zentralen Servern gespeichert 13Digital Humanities Rundgang – 05. Februar 2018 13
  • 14. Die Seite des Konsumenten § Nutzer können § Ressourcen suchen § Durch den Katalog blättern 14Digital Humanities Rundgang – 05. Februar 2018 14
  • 15. Die Seite des Konsumenten § Nutzer können § Ressourcen suchen § Durch den Katalog blättern § Ressourcen zugreifen, indem sie das Repository auswählen, die Lizenzen nutzen und die Ressourcen runterladen 15Digital Humanities Rundgang – 05. Februar 2018 15
  • 16. Die Seite des Konsumenten § Nutzer können § Ressourcen suchen § Durch den Katalog blättern § Ressourcen zugreifen, indem sie das Repository auswählen, die Lizenzen nutzen und die Ressourcen runterladen 16Digital Humanities Rundgang – 05. Februar 2018 16
  • 17. Die Seite des Konsumenten § Nutzer können § Ressourcen suchen § Durch den Katalog blättern § Ressourcen zugreifen, indem sie das Repository auswählen, die Lizenzen nutzen und die Ressourcen runterladen 17Digital Humanities Rundgang – 05. Februar 2018 17
  • 18. Die Seite des Konsumenten § Nutzer können § Ressourcen suchen § Durch den Katalog blättern § Ressourcen zugreifen, indem sie das Repository auswählen, die Lizenzen nutzen und die Ressourcen runterladen § Hilfestellung erhalten (Online- Forum und Helpdesk) § Eine Wissensbasis nutzen 18Digital Humanities Rundgang – 05. Februar 2018 18
  • 19. Metadaten für LRs q Metadaten unterstützen META-SHARE Nutzer bei allen Services § Beschreibung von Ressourcen (Erzeugung, Speicherung etc.) § Browsing, Suche, Retrieval § Upload und Download § Regelmäßiges Metadaten-Harvesting § Monitoring von Ressourcen und verwandten Objekten q Nutzer sind sowohl Bereitsteller von Daten als auch Nutzer von Daten 19Digital Humanities Rundgang – 05. Februar 2018 19
  • 20. Start of the Life Cycle • Linguistic research question (incl. language documentation and preservation, creation of a resource in a new language based on a popular resource in some other language) or • Technology development goal • Project goal dictates type of LR to be created (lexicon, corpus, ontology etc.) • Project goal also dictates some of the subsequent phases of the life cycle. Phase 1: Data Acquisition and Data Collection • Data source: – New data (harvested from the web, acquired using specialised tools, outsourced to service provider etc.) – Existing (legacy) data in arbitrary research- oriented formats (alternative start or continuation of cycle) • IPR and legal issues: who is the rightful owner or copyright holder of the primary data? Phase 2: Data Curation and Data Annotation • Selection of linguistic analysis levels • Formats, tag sets, schemas – Standards (SGML, XML, TEI, CES, LAF etc.) – Syntax and semantics registered in recognised repository • Tools (GUIs etc.; software has its own life cycle) • Annotation: manual, semi-automatic, fully automatic • Definition/identification of objects through PIDs • Data management (XML databases, editors, revision control systems etc.) Phase 3: Linguistic Analysis and Research • Querying – Metadata – Data and their annotations • Analysis: manual, semi-automatic, fully automatic • Visualisation • Combining data and annotations from various different sources – Interoperability standards Phase 4: Evaluation and Quality Control • LR evaluation, quality evaluation • Validation (schema compliance etc.) • Reviews • Independent assessments • Publications • Experiments Phase 5: Description • Metadata records – Standards (OLAC, IMDI etc.) • IPR and legal issues: who owns the annotations? • Documentation, manuals, scientific publications • Software used or implemented to create the LR Phase 6: Packaging • Any constraints on the data and annotations based on IPR and legal aspects? • Example: sentence shuffling Phase 7: Distribution and Publication of the Language Resource • IPR and legal issues: license agreement between user/OEM and distributor • Distribution through web interface – Querying: metadata, data annotations, both – Visualisation – Optional: distribution as stand-alone package • Distribution through APIs (Linked data, REST etc.) • Distribution as stand-alone package – LR provider distributes through own mechanism/website – Through a centralised or decentralised distribution infrastructure; these have their own life cycles: acquisition of LR, management of LR, maintenance, distribution, support Life Cycle continues … • Maintenance checks or user feedback: any errors in the LR? Corrections or data format upgrades needed? Release patch or update. • New version or new research: acquisition of more data and subsequent annotation and/or annotation of additional linguistic analysis levels (sharing and re-use of language resources). Language Resource Life Cycle Heterogeneous situation outside the life cycle dictates and provides external factors and forces: • LR/LT ecosystem and landscape with available resources and technologies for several languages. • Gaps in terms of resources, technologies, languages. • Regional, national, international data creation strategies, initiatives and goals to fill gaps and to foster research, innovation and development.
  • 21. Schema und Ontologie q Entitäten q core entity – die Sprachressource q satellite entities – verwandte Objekte, z.B. - Involvierte actor: persons und organisations, z.B. Erzeuger der Ressource, Drittmittelgeber, Distributoren etc. - Per document: werden Dokumente referenziert, z.B. Artikel, Papiere, Reports, Tagset-Beschreibungen etc. - Ferner können via project: Projekte beschrieben werden, die an der Schaffung einer Ressource beteiligt waren oder die sie nutzen - licence: zur Distribution einer Ressource 21Digital Humanities Rundgang – 05. Februar 2018 21
  • 22. 22 Ontologie (Auszug) Digital Humanities Rundgang – 05. Februar 2018 22
  • 23. Typen von Ressourcen q Zwei Klassifikationsachsen: § resourceType und § mediaType q Jede Ressource besitzt einen Wert für resourceType, kann aber mehrere mediaType Werte umfassen, d.h. Ressourcen können aus Teilen bestehen, die zu unterschiedlichen Typen von Medien gehören 23Digital Humanities Rundgang – 05. Februar 2018 23
  • 24. 24 Hauptmerkmale § Das minimale Schema: - Minimales Inventar von obligatorischen Elementen und Relationen, die für die effektive Suche, Identifizierung und Retrieval benötigt werden - Beispiele: Identifizierung (Title, ID), Kontaktdetails, technische Informationen (Sprache, Inhalte, Format, Größe etc.) § Das maximale Schema: - Alle Elemente und Relationen, die für die Beschreibung einer Ressource benötigt werden, d.h. ein zusätzliches Set von empfohlenen und optionalen Elementen und Relationen für den vollen LR-Lebenszyklus (Produktion, Nutzung) - Beispiele: Herkunft, Ursprung, Erzeugung, Validierung, Evaluation, intendierte Nutzung etc. Digital Humanities Rundgang – 05. Februar 2018 24
  • 26. Modul für Annotationen Digital Humanities Rundgang – 05. Februar 2018 26 mandatory recommended optional
  • 27. Vorlagen für Lizenzen • Creative Commons Lizenzen, z.B. Creative Commons Zero (CC-0) und alle möglichen CC-Kombinationen • META-SHARE Commons Lizenzen, auf CC-basierende Lizenzen, die es META-SHARE-Mitgliedern erlauben, ihre Ressourcen nur innerhalb des META-SHARE-Netzwerkes zu teilen • META-SHARE “No Redistribution” Lizenzen – erlauben die Nutzung einer Ressource während der Urheber weiterhin die volle Kontrolle bzgl. Distribution hat. • Tools und Web Services werden zur Verfügung gestellt durch Standard-Open-Source- oder kommerzielle Lizenzen. Digital Humanities Rundgang – 05. Februar 2018 27
  • 29. In fünf Klicks zur Ressource 29
  • 35. q 35 META-SHARE-Mitglieder/Organisationen in 25 Ländern q 28 Repositorys q 3.000+ Sprachressourcen q 500.000+ Views q 22.000+ Downloads von CC-lizenzierten Ressourcen q Nachhaltigkeit durch das gesamte Netzwerk – die meisten Mitglieder haben sich zu Betrieb und Pflege verpflichtet q META-SHARE wird benutzt als Basis des ELRC-SHARE Repositorys für Public-Sector-Language-Data – https://www.elrc-share.eu q META-SHARE inspiriert bzw. wird benutzt für diverse nationale CLARIN-Infrastrukturen (GR, EE) META-SHARE heute Digital Humanities Rundgang – 05. Februar 2018 35
  • 37. Was ist digitale Kuratierung? Digital Humanities Rundgang – 05. Februar 2018 Information Information Information Information Information Information Information Information Information Information 37
  • 38. Was ist digitale Kuratierung? Digital Humanities Rundgang – 05. Februar 2018 Information Information Information Information Information Information Information Information Information ? ? ? ?Information 38
  • 39. Was ist digitale Kuratierung? Digital Humanities Rundgang – 05. Februar 2018 Information Information Information Information Information Information Information Information Information ? Information OutputInput SoftwareProzesse ? ? ? 39
  • 40. Branchen Input Prozesse Software Output Tweet Analysieren Textverarbeitung Zeitungsartikel Zeitungsartikel Auswählen Präsentationen Multimedia-Website Agenturmeldung Fokussieren Tabellenkalkulation TV-Beitrag Facebook-Meldung Überarbeiten Email Ausstellungskatalog Suchergebnis Einlesen Browser Mobile Applikation Email Schreiben Groupware Mashup (z.B. Karte) SMS Gestalten Branchenapplikationen Textbeitrag Konzept Recherchieren CMS Konzept Textdateien Bewerten ECMS Zeitstrahl Video Evaluieren CRM Fachartikel Karte Ordnen Unternehmens-Software Studie Stockfotos Sortieren Grafik-/Layout-Software Präsentation In-house Datenbank Strukturieren Telefonie Faktensammlung Kalendereintrag Zusammenfassen etc. Exponatsartikel Spreadsheets Kürzen Analysen Archiv Übersetzen etc. etc. Informieren Kombinieren Abstrahieren Einordnen Visualisieren Generieren Annotieren Referenzieren etc. Beobachtungen • Content: textzentriert, mehrsprachig, multimedial • Kuratierung: zeit- und wissensintensiv, interdisziplinär, evtl. durchgeführt in verteilten Teams • Branche: domänen-/branchenspezifische Anforderungen • Einschränkung: Traditionelle CMS-Systeme bieten kaum Unterstützung für Kuratierungsprozesse! • Sprachtechnologie kann helfen – Kombinierung von Komponenten zu branchenspezifischen Workflows
  • 41. DKT Kick-off-Veranstaltung – 25. September 2015 Georg Rehm und Felix Sasaki. “Digital Curation Technologies.” In Proceedings of the 19th Annual Conference of the European Association for Machine Translation (EAMT 2016), Riga, Lettland, Mai 2016 Georg Rehm und Felix Sasaki. “Digitale Kuratierungstechnologien – Verfahren für die effiziente Verarbeitung, Erstellung und Verteilung qualitativ hochwertiger Medieninhalte.” In Proceedings der Frühjahrstagung der Gesellschaft für Sprachtechnologie und Computerlinguistik (GSCL 2015), S. 138-139, Duisburg, 2015 • Unterstützung und Optimierung digitaler Kuratierung durch Sprach- und Wissenstechnologien. • Entwicklung innovativer Prototypen bei den KMU-Partnern. • Weiterentwicklung der DFKI-Technologien und Transfer mittels Plattform für digitale Kuratierungstechnologien. Sprach- und Wissenstechnologien Kuratierungstechnologien Branchentechnologien Plattformtechnologie Branchenlösungen
  • 42. Branche: Museen, Showrooms, Ausstellungen Branche: TV, Radio, Web-TV, Medien Branche: Öffentliche Archive Branche: Journalismus 42
  • 43. Plattform für digitale Kuratierungstechnologien Broker REST API Kuratierungsservice 1 Kuratierungsservice 2 Client nutzt das API Externer Service 1 Externer Service 2 Client nutzt das API Client nutzt das API Client nutzt das API Kuratierungs-Workflow Output @prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> . @prefix xsd: <http://www.w3.org/2001/XMLSchema#> . @prefix itsrdf: <http://www.w3.org/2005/11/its/rdf#> . @prefix rdfs: <http://www.w3.org/2000/01/rdf-schema#> . @prefix geo: <http://www.w3.org/2003/01/geo/wgs84_pos/> . @prefix nif: <http://persistence.uni-leipzig.org/nlp2rdf/ontologies/nif-core#> . <http://link.omitted/documents/document1#char=0,26> a nif:RFC5147String , nif:String , nif:Context ; nif:beginIndex "0"^^xsd:nonNegativeInteger ; nif:endIndex "26"^^xsd:nonNegativeInteger ; nif:isString "Welcome to Berlin in 2016. "^^xsd:string ; dfkinif:averageLatitude "52.516666666666666"^^xsd:double ; dfkinif:averageLongitude "13.383333333333333"^^xsd:double ; dfkinif:stdDevLatitude "0.0"^^xsd:double ; dfkinif:stdDevLongitude "0.0"^^xsd:double ; nif:meanDateRange "20160101010000_20170101010000"^^xsd:string . <http://link.omitted/documents/document1#char=21,25> a nif:RFC5147String , nif:String ; itsrdf:taIdentRef <http://link.omitted/ontologies/nif#date=20160101000000_20170101000000> ; nif:anchorOf "2016"^^xsd:string ; nif:beginIndex "21"^^xsd:nonNegativeInteger ; nif:endIndex "25"^^xsd:nonNegativeInteger ; nif:entity <http://link.omitted/ontologies/nif#date>. <http://link.omitted/documents/#char=11,17> a nif:RFC5147String , nif:String ; nif:anchorOf "Berlin"^^xsd:string ; nif:beginIndex "11"^^xsd:nonNegativeInteger ; nif:endIndex "17"^^xsd:nonNegativeInteger ; itsrdf:taClassRef <http://dbpedia.org/ontology/Location> ; nif:referenceContext <http://link.omitted/documents/#char=0,26> ; geo:lat "52.516666666666666"^^xsd:double ; geo:long "13.383333333333333"^^xsd:double ; itsrdf:taIdentRef <http://dbpedia.org/resource/Berlin> . NLP Interchange Format (NIF) “Welcome to Berlin in 2016.” • RDF/OWL-basiertes Format für NLP- Anwendungen • Ermöglicht Interoperabilität • Durch pures RDF „natürliche“ Integration von Linked-Data-Daten • Entwickelt von der Universität Leipzig • Plattform unterstützt neben NIF auch Web Annotations Prototypisch implementierte Plattform und Services • Durch (Semi-)Automatisierung der Kuratierungsprozesse zeitliche und finanzielle Aufwände reduzieren • Flexible, robuste, skalierbare Services • Gemeinsamer Bau von Prototypen (proofs-of-concept) • Modulare Inhalte in neuen Produktionen aggregieren • Interoperabilität durch generische APIs • Human in the loop
  • 44. Aktueller Stand • Plattform: Services und Service-Workflows • Implementierte Kuratierungsservices: – Named Entity Recognition – e-entityrecognition e-service – Geolocation – e-entityrecognition, Visualisierung – Temporal Analyser – e-entityrecognition, Visualisierung – Classification – e-classification e-service – Clustering – e-clustering e-service – Textzusammenfassen– e-summarisation e-service – Maschinelle Übersetzung – e-translation e-service – Sentiment Analysis – work in progress – Event Extraction – work in progress – Semantic Storytelling – work in progress • Kuratierungs-Dashboard: Erster Prototyp Digital Humanities Rundgang – 05. Februar 2018 44
  • 45. NER, Linking, Geolokalisierung Digital Humanities Rundgang – 05. Februar 2018 ... In the Viking colony of Iceland, an extraordinary vernacular literature blossomed in the 12th through 14th centuries ... ... The ships were scuttled there in the 11th century, to block a navigation channel and thus protect Roskilde, then Copenhagen from seaborne assault ... ... Viking Age inscriptions have also been discovered on the Manx runestones on the Isle of Man. … Plain Text NIF-Anreicherung Visualisierung http://api.digitale-kuratierung.de/api/e-nlp/namedEntityRecognition?analysis=ner http://http://dev.digitale-kuratierung.de/admini/pages/geolocalization.php • Modus 1: Modell-basiert (für Domänen, für die annotierte Trainingsdaten verfügbar sind) • Modus 2: Wörterbuch-basiert (für Domänen, für die lediglich Namenslisten verfügbar sind) • Basiert auf OpenNLP (mit NIF-Integration) • Entity-Linking durch SPARQL-Querys auf DBPedia. • Für Lokationen werden GPS-Koordinaten bezogen. • Es werden Durchschnittsangaben berechnet auf Dokumentebene (über alle Lokationen), um diese auf einer Karte visualisieren zu können. Geolokalisierung als visuelles Zusammenfassen! 45
  • 46. Digital Humanities Rundgang – 05. Februar 2018 NE Recognition und Linking • http://api.digitale-kuratierung.de/api/e-nlp/trainModel?analysis=dict • Falls lediglich Listen von Namen oder Termen und deren URIs in einer Ontologie zur Verfügung stehen. • http://api.digitale-kuratierung.de/api/e-nlp/trainModel?analysis=ner • Falls annotierte Trainingsdaten zur Verfügung stehen auf neuem Input nutzbar (auch gemeinsam) statistisches NER-Modell Datenbank-Dump der Mendelsohn-Briefe Hohe Qualität Benötigt annotierte Daten Mittlere Qualität Benötigt weniger annotierte Daten • Falls – z.B. bei Spezialdomänen – weder das eine (A) noch das andere (B) vorliegt, können potenzielle Entitäten in Kollektionen berechnet werden. • Diese Liste kann vom Wissensarbeiter überprüft und anschließend als Wörterbuch (A) eingesetzt werden. Mittlere Qualität Menschliche Intervention notwendig Benötigt keine annotierten Daten A B C • Linking per Extraktion der DBpedia-URI • NE-Typspezifische SPARQL-Querys für Personen (Geburtsdatum), Lokationen (Koordinaten), Organisationen (Typ) • Wörterbuch kann URIs enthalten 46
  • 47. Digital Humanities Rundgang – 05. Februar 2018 Zeitausdrücke ... The ships were scuttled there in the 11th century, to block a navigation channel and thus protect Roskilde, then Copenhagen from seaborne assault ... ... Viking Age inscriptions have also been discovered on the Manx runestones on the Isle of Man. ... ... In the Viking colony of Iceland, an extraordinary vernacular literature blossomed in the 12th through 14th centuries … 900 1600 http://api.digitale-kuratierung.de/api/e-nlp/namedEntityRecognition?analysis=temp http://dev.digitale-kuratierung.de/admini/pages/timelining.php Plain-Text NIF-Anreicherung Visualisierung • Sortiert Dokumente auf einer chronologischen Skala. • Regelbasiertes System, um unsere Zielsprachen bestmöglich bedienen zu können (EN, DE). • Analyse von Zeitausdrücken in einem Dokument. • Berechnet Durchschnittswerte und Intervalle. • Plan: Mechanismus für nutzerbasierte Regeln. • Verwandte Arbeiten: SUTime, HeidelTime, Tango, Tarsgi. 47
  • 48. Maschinelle Übersetzung Digital Humanities Rundgang – 05. Februar 2018 Workflow Language & Translation Models trained on DGT, News, Europarl, TED Herr Modi befindet sich auf einer fünftägigen Reise nach Japan, um die wirtschaftlichen Beziehungen mit der drittgrößten Wirtschaftsnation der Welt zu festigen. Mr Modi is located on a five-day trip to Japan to strengthen the economic ties with the third largest economy in the world. Named Entity Recognition Entity Linking Temporal Expressions Metadata Processing Post-Edit Retraining Beispiel • Robuste, adaptierbare MT-Modelle (nutzen Moses, Cdec, Giza++, SRILM etc.) • Parallele und monolinguale Korpora: Europarl, DGT-TM, TED, UN, Newscrawl u.a. • Kombination mit anderen DKT-Services (Summariser, NER, Temporal Analyser); ITS 2.0, NIF • Diverse Linked-Data-Datenquellen unterstützen MT (z.B. Dbpedia, BabelNet, WordNet) Eleftherios Avramidis, Aljoscha Burchardt, Vivien Macketanz, Ankit Srivastava. 2016. “DFKI’s System for WMT16 IT-domain Task, including Analysis of Systematic Errors”. In Proc. of the 1st Conf. on Machine Translation, Berlin, S. 415-422. Workflow Language & Translation Models trained on DGT, News, Europarl, TED 48
  • 49. Textzusammenfassen Digital Humanities Rundgang – 05. Februar 2018 Die Aktie der RWE AG fiel am Donnerstag um 0,21% auf 19,16 EUR und schwankte am Handelstag zwischen 19,08 und 19,32 EUR. Das Handelsvolumen der Aktie lag bei 1,79 Millionen Aktien und so unter dem 52-Wochen und 150-Tagesvolumen von 3,40 Millionen bzw. 3,96 Millionen Aktien. Im letzten Monat und den letzten 3 Monaten verlor die RWE- Aktie 3,79% bzw. 18,95% und in den letzten 3 Tagen 3,55%. Das PE und PB-Verhältnis der Unternehmensaktie liegt aktuell bei 11,44 bzw. 1,29, während die historischen PE und PB- Werte jeweils bei 11,77 bzw. 2,13 liegen. Im letzten Monat und den letzten 3 Monaten verlor die RWE-Aktie 3,79% bzw. 18,95% und in den letzten 3 Tagen 3,55%. • Kuratierungsservice rankt Sätze – basierend auf div. Features – hinsichtlich ihrer Wichtigkeit. • Beispiel: Artikel über den fallenden Aktienkurs von RWE (Daten stammen von Condat). • Integration der Analyseergebnisse anderer DKT- Services in den Algorithmus. 49
  • 50. RDF DB RDF DB Semantic Storytelling Backend Authoring Environment iOS App Android AppHTML5ePub … • Input: Self-contained documentcollection • Example:Mendelsohn letters,2796 documents, written in German, English,French • Assists the editor in putting together stories based on the semantic analyses • Enables the construction of new stories, for example, by (1) focussing on the specific requirements of differenttext types such as biography or travelogue or (2) through highlighting and recommending to the human expert specific relationships between entities • Automatic transformation of RDF database contents into play-outformats for different channels and media Semantic Storytelling: Analysis and Annotation Steps • Language identification (for cross-lingual processing) • Temporal expression analysis (TimeX) • Geographic location analysis (GeoX) • Participants and actors analysis (Person X) • Coreference analysis • Event detection (cross-lingual,including German and French, through machine translation) • Mode of transportation analysis • Identification of MovementAction Events out of the set of identified events (filtering) Experimental Storytelling Dashboard Beispiel: Die Mendelsohn-Briefe Mit Dank an: 50
  • 51. Digital Humanities Rundgang – 05. Februar 2018 51 Beispiel: Die Mendelsohn-Briefe
  • 52. Digital Humanities Rundgang – 05. Februar 2018 52 Beispiel: Die Mendelsohn-Briefe
  • 53. RDF DB RDF DB Semantic Storytelling Backend Authoring Environment iOS App Android AppHTML5ePub … • Input: Self-contained documentcollection • Example:Mendelsohn letters,2796 documents, written in German, English,French • Assists the editor in putting together stories based on the semantic analyses • Enables the construction of new stories, for example, by (1) focussing on the specific requirements of differenttext types such as biography or travelogue or (2) through highlighting and recommending to the human expert specific relationships between entities • Automatic transformation of RDF database contents into play-outformats for different channels and media Semantic Storytelling: Analysis and Annotation Steps • Language identification (for cross-lingual processing) • Temporal expression analysis (TimeX) • Geographic location analysis (GeoX) • Participants and actors analysis (Person X) • Coreference analysis • Event detection (cross-lingual,including German and French, through machine translation) • Mode of transportation analysis • Identification of MovementAction Events out of the set of identified events (filtering) Experimental Storytelling Dashboard Beispiel: Die Mendelsohn-Briefe Mit Dank an: Diese Komponenten funktionieren teilweise bereits sehr gut, allerdings noch nicht perfekt! 53
  • 54. Digital Humanities Rundgang – 05. Februar 2018 54 Beispiel: Die Mendelsohn-Briefe
  • 55. Digital Humanities Rundgang – 05. Februar 2018 55 Beispiel: Die Mendelsohn-Briefe
  • 56. Digital Humanities Rundgang – 05. Februar 2018 56 Beispiel: Die Mendelsohn-Briefe
  • 57. Digital Humanities Rundgang – 05. Februar 2018 57 Beispiel: Die Mendelsohn-Briefe
  • 58. Digital Humanities Rundgang – 05. Februar 2018 58 Beispiel: Die Mendelsohn-Briefe
  • 59. Digital Humanities Rundgang – 05. Februar 2018 59 Beispiel: Die Mendelsohn-Briefe
  • 60. Digital Humanities Rundgang – 05. Februar 2018 60 Beispiel: Die Mendelsohn-Briefe
  • 61. Digital Humanities Rundgang – 05. Februar 2018 61 Beispiel: Die Mendelsohn-Briefe
  • 62. Digital Humanities Rundgang – 05. Februar 2018 62 Beispiel: Die Mendelsohn-Briefe
  • 63. Digital Humanities Rundgang – 05. Februar 2018 63 Beispiel: Die Mendelsohn-Briefe
  • 64. Digital Humanities Rundgang – 05. Februar 2018 64 Beispiel: Die Mendelsohn-Briefe
  • 65. Digital Humanities Rundgang – 05. Februar 2018 65 Beispiel: Die Mendelsohn-Briefe
  • 66. Digital Humanities Rundgang – 05. Februar 2018 66 Beispiel: Die Mendelsohn-Briefe
  • 67. Digital Humanities Rundgang – 05. Februar 2018 67 Beispiel: Die Mendelsohn-Briefe
  • 68. Digital Humanities Rundgang – 05. Februar 2018 68 Beispiel: Die Mendelsohn-Briefe
  • 69. Digital Humanities Rundgang – 05. Februar 2018 69 Beispiel: Die Mendelsohn-Briefe
  • 70. Digital Humanities Rundgang – 05. Februar 2018 70 Georg Rehm, Julian Moreno Schneider, Peter Bourgonje, Ankit Srivastava, Jan Nehring, Armin Berger, Luca König, Sören Räuchle, and Jens Gerth. Event Detection and Semantic Storytelling: Generating a Travelogue from a large Collection of Personal Letters. In Tommaso Caselli, Ben Miller, Marieke van Erp, Piek Vossen, Martha Palmer, Eduard Hovy, and Teruko Mitamura, editors, Proceedings of the Events and Stories in the News Workshop, Vancouver, Canada, August 2017. Association for Computational Linguistics. Co-located with ACL 2017. Branche: Öffentliche Archive
  • 71. Digital Humanities Rundgang – 05. Februar 2018 71 Julian Moreno-Schneider, Ankit Srivastava, Peter Bourgonje, David Wabnitz, and Georg Rehm. Semantic Storytelling, Cross- lingual Event Detection and other Semantic Services for a Newsroom Content Curation Dashboard. In Octavian Popescu and Carlo Strapparava, editors, Proceedings of Natural Language Processing meets Journalism - EMNLP 2017 Workshop (NLPMJ 2017), Copenhagen, Denmark, September 2017. 7. September. Branche: Journalismus
  • 72. Branche: Museen, Showrooms, Ausstellungen Digital Humanities Rundgang – 05. Februar 2018 72 Georg Rehm, Jing He, Julian Moreno Schneider, Jan Nehring, and Joachim Quantz. Designing User Interfaces for Curation Technologies. In Sakae Yamamoto, editor, Human Interface and the Management of Information: Information, Knowledge and Interaction Design, 19th International Conference, HCI International 2017, number 10273 in Lecture Notes in Computer Science (LNCS), pages 388-406, Vancouver, Canada, July 2017. Springer.
  • 73. Digital Humanities Rundgang – 05. Februar 2018 73 Georg Rehm, Julián Moreno Schneider, Peter Bourgonje, Ankit Srivastava, Rolf Fricke, Jan Thomsen, Jing He, Joachim Quantz, Armin Berger, Luca König, Sören Räuchle, Jens Gerth, and David Wabnitz. Different Types of Automated and Semi-Automated Semantic Storytelling: Curation Technologies for Different Sectors. In Georg Rehm and Thierry Declerck, editors, Language Technologies for the Challenges of the Digital Age: Proceedings of the GSCL Conference 2017, Lecture Notes in Artificial Intelligence (LNAI), Heidelberg etc., September 2017. Gesellschaft für Sprachtechnologie und Computerlinguistik e.V., Springer. 13.-15. September 2017. Branche: TV, Web-TV, Medien
  • 75. • BMBF-Projekt Digitale Kuratierungstechnologien: – Museen, Showrooms, Ausstellungen – TV, Web-TV, Medien – Öffentliche Archive – Journalismus Digital Humanities Rundgang – 05. Februar 2018 75
  • 76. • BMBF-Projekt Digitale Kuratierungstechnologien: – Museen, Showrooms, Ausstellungen – TV, Web-TV, Medien – Öffentliche Archive – Journalismus • Außerdem Kuratierungstechnologien konzipiert bzw. in der Entwicklung befindlich für: – Juristische und regulatorische Inhalte – Bibliothekswissenschaft und Digital Libraries – Customer-Relationship-Management – Medizinische Inhalte – Film- und Kinobranche – Digital Humanities Digital Humanities Rundgang – 05. Februar 2018 76 Clemens Neudecker und Georg Rehm. „Digitale Kuratierungstechnologien für Bibliotheken“. Zeitschrift für Bibliothekskultur 027.7, Open Access. Nov. 2016. Georg Rehm. Der Mensch bleibt im Mittelpunkt – Smarte Technologien für alle Branchen. Vitako Aktuell. Zeitschrift der Bundes-Arbeitsgemeinschaft der Kommunalen IT-Dienstleister e.V., 2- 2016:26-27, 2016. Georg Rehm. Artificial Intelligence for the Film Industry. FilmTech Meetup Berlin, July 25, 2017. Georg Rehm. KI für die Kundenkommunikation: Der Markt der Zukunft. Rethink! Connected Customer 360°. Hamburg, June 22/23, 2017. ?
  • 77. Kuratierungstechnologien • Kuratierungstechnologien: Branchenspezifische Anwendungen, die auf KI-Technologien basieren • KI-Technologien: Symbolische Verfahren, statistische Verfahren, maschinelles Lernen, Deep Learning • Anwendung auf typischerweise hochgradig spezielle Digital Humanities-Datensammlungen ist ambitioniert Digital Humanities Rundgang – 05. Februar 2018 77 Kuratierungs- technologien für Anforderungen Erste Priorität Diverse Branchen Eher flache Analyse Hoher Abdeckungsgrad Humanities Eher tiefe Analyse Hohe Präzision
  • 79. Schlussfolgerungen • Kuratierungstechnologien unterstützen Wissensarbeiter – inkl. DH-Anwender – beim Verarbeiten digitaler Inhalte. • Kuratierungstechnologien werden eingesetzt, um digitalen Content semantisch zu erschließen und für den jeweiligen Anwendungsfall nutzbar zu machen. • Auch im Bereich Digital Humanities kann durchaus von „Kuratierungstechnologien“ gesprochen werden. • Ziele: Bessere Analysen und Nutzbarkeit der Daten; Findbarkeit; Kontextualisierung und Visualisierung (Karten, Zeitstrahl, Verknüpfung, LOD etc.). Digital Humanities Rundgang – 05. Februar 2018 79
  • 80. KI – Reality Check • Künstliche Intelligenz – Beeindruckende Durchbrüche in den vergangenen Jahren – Basieren u.a. auf extrem großen Datenmengen – Entwicklung disruptiver, revolutionärer KI-Tools für die Arbeit mit DH-Daten ist eher unwahrscheinlich – Aber: Standardwerkzeuge wie NER etc. werden kontinuierlich verbessert Digital Humanities Rundgang – 05. Februar 2018 80 • Arbeit mit DH-Daten – Hochgradig spezifische Datensammlungen und Anwendungsfälle – Anforderungen: Hohe Präzision der Annotation sowie der Metadaten – Eher kleine und sehr spezielle Datenmengen – Sehr tiefe und spezifische Anforderungen bzw. Annotationen, aufwendig in der Automatisierung
  • 81. Prognosen • Immer präzisere Basistechnologien (NER etc.) • Entwicklung generischer, adaptiver Daten-Annotations- und Analyse-Workbenches für DH-Forschung/-Anwender • Im Hintergrund: „AI-as-a-Service for Digital Humanities“ • KI-Technologien (maschinelle Lernverfahren) in der Basisinfrastruktur, auch von Nicht-Experten mit generischen Annotations-Werkzeugen nutzbar • Domänenspezifische Spezialwerkzeuge, Semantiken, Metadaten etc. – inhärent vernetzt mit LOD, ORKG etc. Digital Humanities Rundgang – 05. Februar 2018 81
  • 82. Beobachtungen • In der Vergangenheit zahlreiche fragmentierte Digital- Humanities-Projekte (Deutschland und darüber hinaus) • Unterschiede bzgl. Software, Plattformen, Datenformate • Angestrebt werden sollte eine Zusammenführung von: – Forschung – Forschungsergebnissen (Dokumentation ggf. standardisiert) – Forschungsdaten (Annotation ggf. standardisiert) – Metadaten und Datenformaten (standardisiert) – Infrastrukturen/Plattformen (Interoperabilität, standardisiert) – Repositorien von Forschungsdaten und Services • „Digital Humanities“ allein ist zu kurz gedacht • Eigentlich sollten wir über „Digital Science“ sprechen Digital Humanities Rundgang – 05. Februar 2018 82
  • 83. Wichtige Initiativen Digital Humanities Rundgang – 05. Februar 2018 83 Open Research Knowledge Graph Open Science Linked Open Data Cloud Semantic Web Standards Persistent Identifiers Gemeinsame Normdatei Schaffung einer nationalen Forschungsdateninfrastruktur European Open Science Cloud
  • 84. DFKI: Schwerpunkte bislang • Infrastrukturen für Forschungsdaten: META-SHARE • Generische Sprach- und Wissenstechnologien für branchenspezifische Kuratierungstechnologien: DKT • Nutzung, Annotation, Dashboards: DKT • Metadaten und Standards: W3C, Web Annotations, Semantic Web, XML, XSLT, SPARQL etc. • Metadaten, Dokumentation von Forschungsdaten und Prozesse: Language Resource Life Cycle Digital Humanities Rundgang – 05. Februar 2018 84
  • 85. DH am DFKI Berlin: Zukunft • Am DFKI in Berlin werden wir uns in Zukunft vermehrt auch um das Thema Digital Humanities kümmern • Projekte mit Bezügen zu Digital Humanities: – DKT (BMBF) – abgeschlossen 2015-2017 – Open-Science-Projekt (TUB) Start Q2/2018 – KT/DH-Projekt (Berliner Hochschule) Start Q2/2018 – DKT2 (BMBF) – Förderung empfohlen Start Q4/2018 – DFG-Verbundprojekt – in Vorbereitung Start Q4/2018 • Das DFKI freut sich auf eine intensivere Kooperation mit if|DH|b und der DH-Forschung in Berlin! Digital Humanities Rundgang – 05. Februar 2018 85
  • 86. Vielen Dank! Digital Humanities Rundgang – 05. Februar 2018 86