SlideShare ist ein Scribd-Unternehmen logo
1 von 24
Downloaden Sie, um offline zu lesen
KOOP-LITERA International – 20. Juni 2017
Transformieren, Manipulieren, Kuratieren:
Technologien für die Wissensarbeit im Netz
Georg Rehm
georg.rehm@dfki.de
DFKI GmbH, Berlin
KOOP-LITERA
international
Überblick
• Was ist digitale Kuratierung?
• BMBF-Projekt Digitale Kuratierungstechnologien
• Beispiel: Die Mendelsohn-Briefe
• Schlussfolgerungen
• Beobachtungen und Empfehlungen
KOOP-LITERA 2017 – 20. Juni 2017 2
Was ist digitale Kuratierung?
KOOP-LITERA 2017 – 20. Juni 2017
Information
Information
Information
Information
Information
Information
Information
Information
Information
Information
3
Was ist digitale Kuratierung?
KOOP-LITERA 2017 – 20. Juni 2017
Information
Information
Information
Information
Information
Information
Information
Information
Information
? ?
?
?Information
4
Was ist digitale Kuratierung?
KOOP-LITERA 2017 – 20. Juni 2017
Information
Information
Information
Information
Information
Information
Information
Information
Information
? Information
OutputInput SoftwareProzesse
?
?
?
5
Branchen
Input Prozesse Software Output
Tweet Analysieren Textverarbeitung Zeitungsartikel
Zeitungsartikel Auswählen Präsentationen Multimedia-Website
Agenturmeldung Fokussieren Tabellenkalkulation TV-Beitrag
Facebook-Meldung Überarbeiten Email Ausstellungskatalog
Suchergebnis Einlesen Browser Mobile Applikation
Email Schreiben Groupware Mashup (z.B. Karte)
SMS Gestalten Branchenapplikationen Textbeitrag
Konzept Recherchieren CMS Konzept
Textdateien Bewerten ECMS Zeitstrahl
Video Evaluieren CRM Fachartikel
Karte Ordnen Unternehmens-Software Studie
Stockfotos Sortieren Grafik-/Layout-Software Präsentation
In-house Datenbank Strukturieren Telefonie Faktensammlung
Kalendereintrag Zusammenfassen etc. Exponatsartikel
Spreadsheets Kürzen Analysen
Archiv Übersetzen etc.
Nachlass Informieren
etc. Kombinieren
Abstrahieren
Einordnen
Visualisieren
Generieren
Annotieren
Referenzieren
etc.
Beobachtungen
• Inhalte: textzentriert, mehrsprachig, multimedial
• Kuratierung: zeit- und wissensintensiv, interdisziplinär,
evtl. durchgeführt in verteilten Teams
• Branche: domänen-/branchenspezifische Anforderungen
• Einschränkung: Traditionelle CMS-Systeme bieten
kaum Unterstützung für Kuratierungsprozesse!
• Sprachtechnologie kann helfen – Kombinierung von
Komponenten zu branchenspezifischen Workflows
DKT Kick-off-Veranstaltung – 25. September 2015
Georg Rehm und Felix Sasaki. “Digital Curation
Technologies.” In Proceedings of the 19th Annual
Conference of the European Association for Machine
Translation (EAMT 2016), Riga, Lettland, Mai 2016
Georg Rehm und Felix Sasaki. “Digitale Kuratierungstechnologien – Verfahren für die
effiziente Verarbeitung, Erstellung und Verteilung qualitativ hochwertiger
Medieninhalte.” In Proceedings der Frühjahrstagung der Gesellschaft für
Sprachtechnologie und Computerlinguistik (GSCL 2015), S. 138-139, Duisburg, 2015
• Unterstützung und Optimierung digitaler Kuratierung durch
Sprach- und Wissenstechnologien
• Entwicklung innovativer Prototypen bei den KMU-Partnern
• Weiterentwicklung der DFKI-Technologien und Transfer mittels
Plattform für digitale Kuratierungstechnologien
Sprach- und Wissenstechnologien
Kuratierungstechnologien
Branchentechnologien
Plattformtechnologie
Branchenlösungen
Technologieplattform – Ziele
• Durch (Semi-)Automatisierung der Kuratierungsprozesse
zeitliche und finanzielle Aufwände reduzieren
• Flexible, robuste, skalierbare Services
• Gemeinsamer Bau von Prototypen (proofs-of-concept)
• Modulare Inhalte in
neuen Produktionen
aggregieren
• Interoperabilität durch
generische APIs
• Human in the loop
KOOP-LITERA 2017 – 20. Juni 2017
Sprach- und Wissenstechnologien
Kuratierungstechnologien
Branchentechnologien
Plattformtechnologie
Branchenlösungen
8
Aktueller Stand
• Plattform: Services und Service-Workflows
• Implementierte Kuratierungsservices:
– Named Entity Recognition – e-entityrecognition e-service
– Geolocation – e-entityrecognition, Visualisierung
– Temporal Analyser – e-entityrecognition, Visualisierung
– Classification – e-classification e-service
– Clustering – e-clustering e-service
– Textzusammenfassen– e-summarisation e-service
– Maschinelle Übersetzung – e-translation e-service
– Sentiment Analysis – work in progress
– Event Extraction – work in progress
– Semantic Storytelling – work in progress
• Kuratierungs-Dashboard: Erster Prototyp
KOOP-LITERA 2017 – 20. Juni 2017 9
NER, Linking, Geolokalisierung
KOOP-LITERA 2017 – 20. Juni 2017
...
In the Viking colony of Iceland,
an extraordinary vernacular
literature blossomed in the 12th
through 14th centuries
...
...
The ships were scuttled there
in the 11th century, to block a
navigation channel and thus
protect Roskilde, then
Copenhagen from seaborne
assault
...
...
Viking Age inscriptions have
also been discovered on the
Manx runestones on the
Isle of Man.
…
Plain Text NIF-Anreicherung Visualisierung
http://api.digitale-kuratierung.de/api/e-nlp/namedEntityRecognition?analysis=ner http://http://dev.digitale-kuratierung.de/admini/pages/geolocalization.php
• Modus 1: Modell-basiert (für Domänen, für
die annotierte Trainingsdaten verfügbar sind)
• Modus 2: Wörterbuch-basiert (für Domänen,
für die lediglich Namenslisten verfügbar sind)
• Basiert auf OpenNLP (mit NIF-Integration)
• Entity-Linking durch SPARQL-Querys auf DBPedia.
• Für Lokationen werden GPS-Koordinaten bezogen.
• Es werden Durchschnittsangaben berechnet auf
Dokumentebene (über alle Lokationen), um diese auf
einer Karte visualisieren zu können.
Geolokalisierung als visuelles Zusammenfassen!
10
KOOP-LITERA 2017 – 20. Juni 2017
NER und Linking
• http://api.digitale-kuratierung.de/api/e-nlp/trainModel?analysis=dict
• Falls lediglich Listen von Namen oder Termen und deren URIs in einer
Ontologie zur Verfügung stehen.
• http://api.digitale-kuratierung.de/api/e-nlp/trainModel?analysis=ner
• Falls annotierte Trainingsdaten zur Verfügung stehen
auf neuem Input nutzbar
(auch gemeinsam)
statistisches
NER-Modell
Datenbank-Dump der
Mendelsohn-Briefe
Hohe Qualität
Benötigt annotierte Daten
Mittlere Qualität
Benötigt weniger annotierte Daten
• Falls – z.B. bei Spezialdomänen – weder das eine (A) noch das andere (B)
vorliegt, können potenzielle Entitäten in Kollektionen berechnet werden.
• Diese Liste kann vom Wissensarbeiter überprüft und anschließend als
Wörterbuch (A) eingesetzt werden.
Mittlere Qualität
Menschliche Intervention notwendig
Benötigt keine annotierten Daten
A B
C
• Linking per Extraktion der DBpedia-URI
• NE-Typspezifische SPARQL-Querys für
Personen (Geburtsdatum), Lokationen
(Koordinaten), Organisationen (Typ)
• Wörterbuch kann URIs enthalten
11
KOOP-LITERA 2017 – 20. Juni 2017
Zeitausdrücke
...
The ships were scuttled there
in the 11th century, to block a
navigation channel and thus
protect Roskilde, then
Copenhagen from seaborne
assault
...
...
Viking Age inscriptions have
also been discovered on the
Manx runestones on the
Isle of Man.
...
...
In the Viking colony of Iceland,
an extraordinary vernacular
literature blossomed in the 12th
through 14th centuries
…
900
1600
http://api.digitale-kuratierung.de/api/e-nlp/namedEntityRecognition?analysis=temp
http://dev.digitale-kuratierung.de/admini/pages/timelining.php
Plain-Text NIF-Anreicherung Visualisierung
• Sortiert Dokumente auf einer
chronologischen Skala.
• Regelbasiertes System, um
unsere Zielsprachen
bestmöglich bedienen zu
können (EN, DE).
• Analyse von Zeitausdrücken
in einem Dokument.
• Berechnet Durchschnittswerte
und Intervalle.
• Plan: Mechanismus für
nutzerbasierte Regeln.
• Verwandte Arbeiten: SUTime,
HeidelTime, Tango, Tarsgi.
12
Semantic Storytelling
• Wichtige Wunschfunktionalität bei allen KMU-Partnern:
Semantic Storytelling
• Eingabe: Kohärente, in sich geschlossene Kollektion
• Ausgabe: Semantisch angereicherte Kollektion
• Idee: Multiple Rezeptionspfade ermöglichen
• Semantic Storytelling: Identifizierung, Ranking und
Empfehlung sinnvoller Hypertextpfade
• Es gibt noch zahlreiche Herausforderungen ...
KOOP-LITERA 2017 – 20. Juni 2017 13
RDF DB
RDF DB
Semantic Storytelling
Backend
Authoring Environment
iOS App Android AppHTML5ePub …
• Input: Self-contained documentcollection
• Example:Mendelsohn letters,2796 documents,
written in German, English,French
• Assists the editor in putting together stories based on
the semantic analyses
• Enables the construction of new stories, for example,
by (1) focussing on the specific requirements of
differenttext types such as biography or travelogue
or (2) through highlighting and recommending to the
human expert specific relationships between entities
• Automatic transformation of RDF database contents
into play-outformats for different channels and media
Semantic Storytelling: Analysis and Annotation Steps
• Language identification (for cross-lingual processing)
• Temporal expression analysis (TimeX)
• Geographic location analysis (GeoX)
• Participants and actors analysis (Person X)
• Coreference analysis
• Event detection (cross-lingual,including German and
French, through machine translation)
• Mode of transportation analysis
• Identification of MovementAction Events out of the set of
identified events (filtering)
Experimental
Storytelling Dashboard
Beispiel: Die Mendelsohn-Briefe
Mit Dank an:
KOOP-LITERA 2017 – 20. Juni 2017 15
Beispiel: Die Mendelsohn-Briefe
KOOP-LITERA 2017 – 20. Juni 2017 16
Beispiel: Die Mendelsohn-Briefe
RDF DB
RDF DB
Semantic Storytelling
Backend
Authoring Environment
iOS App Android AppHTML5ePub …
• Input: Self-contained documentcollection
• Example:Mendelsohn letters,2796 documents,
written in German, English,French
• Assists the editor in putting together stories based on
the semantic analyses
• Enables the construction of new stories, for example,
by (1) focussing on the specific requirements of
differenttext types such as biography or travelogue
or (2) through highlighting and recommending to the
human expert specific relationships between entities
• Automatic transformation of RDF database contents
into play-outformats for different channels and media
Semantic Storytelling: Analysis and Annotation Steps
• Language identification (for cross-lingual processing)
• Temporal expression analysis (TimeX)
• Geographic location analysis (GeoX)
• Participants and actors analysis (Person X)
• Coreference analysis
• Event detection (cross-lingual,including German and
French, through machine translation)
• Mode of transportation analysis
• Identification of MovementAction Events out of the set of
identified events (filtering)
Experimental
Storytelling Dashboard
Beispiel: Die Mendelsohn-Briefe
Mit Dank an:
Diese Komponenten funktionieren teilweise
bereits sehr gut, allerdings noch nicht perfekt!
Kuratierungstechnologien
• Kuratierungstechnologien: Verfahren zur semantischen
Datenanreicherung, die auf KI-Technologien basieren
• KI-Technologien: Symbolische Verfahren, statistische
Verfahren, maschinelles Lernen, Deep Learning
• Entscheidend für Abdeckung und Präzision: Große
Mengen repräsentativer, hochqualitativer Trainingsdaten
• Anwendung auf inhärent idiosynkratische Daten-
sammlungen wie z.B. Nachlässe ist ambitioniert
• Manuelle Anpassungen und Nacharbeit notwendig, da
Präzision und Performanz eines menschlichen Archivars
nicht erreicht werden können
KOOP-LITERA 2017 – 20. Juni 2017 18
KI – Reality Check
• Künstliche Intelligenz
– Beeindruckende
Durchbrüche in den
vergangenen Jahren
– Basieren u.a. auf sehr
großen Datenmengen
– Entwicklung disruptiver,
revolutionärer KI-Tools für
die Arbeit mit Nachlässen
ist nicht zu erwarten
– Aber: Standardwerkzeuge
wie NER, Mapping werden
kontinuierlich verbessert
• Arbeit mit Nachlässen
– Hochgradig spezifische
Datensammlungen und
Anwendungsfälle
– Anforderung: Hohe
Präzision der Annotation
sowie der Metadaten
– Eher kleine und sehr
spezielle Datenmengen
– Prognose: Mittelfristige
Entwicklung adaptiver
Workbenches für
interaktive Annotationen
KOOP-LITERA 2017 – 20. Juni 2017 19
Schlussfolgerungen
• Kuratierungstechnologien unterstützen Wissensarbeiter
– auch Archivare – beim Verarbeiten digitaler Inhalte.
• Kuratierungstechnologien werden benötigt, um digitale
Nachlässe tief semantisch zu erschließen.
• Ziele: Bessere und einfachere Nutzbarkeit der Daten;
Findbarkeit; Kontextualisierung und Visualisierung
(Karten, Zeitstrahl, Verknüpfung, LOD etc.).
• Prognose: Einbettung von KI in smarte Archiv-Tools, die
die effiziente Bearbeitung (d.h. Kuratierung) generischer
digitaler Nachlässe durch Experten erlauben.
• Dabei wird bis auf Weiteres gelten: Human in the loop.
KOOP-LITERA 2017 – 20. Juni 2017 20
Smarte Archiv-Technologien
KOOP-LITERA 2017 – 20. Juni 2017 21
Digital Humanities (u.a.
Markup-Sprachen, zahlreiche
existierende Prototypen in der
Forschung, Querying,
Metadaten etc.)
Künstliche
Intelligenz
(u.a.
Lernverfahren,
Ontologien
etc.)
Sprach- und
Wissenstechnologien
(u.a. Datenanreicherung,
Linked Open Data, Semantic
Web, Linking von
Datenquellen etc.)
Web-
Technologien
(u.a.
Visualisie-
rungen, Web
Annotations,
Crowd etc.)
Der sweet spot
für smarte Archiv-
technologien
Beobachtungen
• Großer Bedarf an zu entwickelnder Technologie
• Derzeit kaum Fördergelder für Themen wie LZA,
Nachhaltigkeit, Preservation etc.
• LZA wird im DH-Kontext bereits seit Jahren besprochen,
könnte aber selbst noch intensiver agieren
• Lösungen für LZA können Mehrwert generieren, z.B. in
Bezug auf Datenqualität, Apps, Geschäftsmodelle etc.
• LZA ist Ländersache – Räder werden oft neu erfunden
• Selbstverständlich existieren digitale Nachlässe.
Materialität ist kein Kriterium für Qualität.
KOOP-LITERA 2017 – 20. Juni 2017 22
Empfehlungen
• Mut zur Lücke: Nicht die volle inhaltliche Erschließung
z.B. eines Nachlasses anstreben. Stattdessen früh
publizieren und kontinuierlich und gemeinsam mit der
Crowd an der Verbesserung von Annotationen arbeiten.
• Linking, Linking, Linking: Intensive Nutzung verfügbarer
semantischer Vokabulare zur Auszeichnung von Daten,
um die eigenen Digitalisate sichtbar zu machen.
• Allianzen schmieden: LZA als internationale Aufgabe,
Verbindung zu EU-Infrastrukturen und Initiativen
aufbauen (CLARIN, Europeana, META-NET etc.)
• Europa benötigt eine LZA-Digitalstrategie!
• Europäische Web-Archivmaschine – z.B. Archive.eu?
KOOP-LITERA 2017 – 20. Juni 2017 23
Vielen Dank!
http://www.digitale-kuratierung.de
KOOP-LITERA 2017 – 20. Juni 2017 24
Georg Rehm. Eine Strategie zur Förderung der digitalen Langzeitarchivierung.
In: Paul Klimpel, Jürgen Keiper (Hrsg.), Was bleibt? Nachhaltigkeit der Kultur in
der Digitalen Welt. Eine Publikation des Internet und Gesellschaft-Co:llaboratory
e.V., S. 199-214. iRights.Media, Berlin, September 2013. Abschlussbericht der
8. Initiative des Internet und Gesellschaft-Co:llaboratory e.V.

Weitere ähnliche Inhalte

Ähnlich wie Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit im Netz

Digitale Kuratierungstechnologien – Beispiele aus ausgewählten Branchen
Digitale Kuratierungstechnologien – Beispiele aus ausgewählten BranchenDigitale Kuratierungstechnologien – Beispiele aus ausgewählten Branchen
Digitale Kuratierungstechnologien – Beispiele aus ausgewählten BranchenGeorg Rehm
 
KI, Sprachtechnologie und Digital Humanities: Ein (unvollständiger) Überblick
KI, Sprachtechnologie und Digital Humanities: Ein (unvollständiger) ÜberblickKI, Sprachtechnologie und Digital Humanities: Ein (unvollständiger) Überblick
KI, Sprachtechnologie und Digital Humanities: Ein (unvollständiger) ÜberblickGeorg Rehm
 
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...ETH-Bibliothek
 
16. DINI-Jahrestagung: Linked Data und Repositorien
16. DINI-Jahrestagung: Linked Data und Repositorien16. DINI-Jahrestagung: Linked Data und Repositorien
16. DINI-Jahrestagung: Linked Data und RepositorienPascal-Nicolas Becker
 
Standardisierte Nutzungsstatiken für Repositorien und Linkresolver
Standardisierte Nutzungsstatiken für Repositorien und LinkresolverStandardisierte Nutzungsstatiken für Repositorien und Linkresolver
Standardisierte Nutzungsstatiken für Repositorien und LinkresolverDaniel Beucke
 
Open Source Bibliotheksmanagement (mit D:SWARM + AMSL)
Open Source Bibliotheksmanagement (mit D:SWARM + AMSL)Open Source Bibliotheksmanagement (mit D:SWARM + AMSL)
Open Source Bibliotheksmanagement (mit D:SWARM + AMSL)Felix Lohmeier
 
Linked Data - Das Ende des Dokuments?
Linked Data - Das Ende des Dokuments?Linked Data - Das Ende des Dokuments?
Linked Data - Das Ende des Dokuments?Semantic Web Company
 
Publishing in the digital age 1 december 2011 - semantic meetup zürich
Publishing in the digital age   1 december 2011 - semantic meetup zürichPublishing in the digital age   1 december 2011 - semantic meetup zürich
Publishing in the digital age 1 december 2011 - semantic meetup zürichAI4BD GmbH
 
Digitale Kuratierungstechnologien für verschiedene Branchen und Anwendungssze...
Digitale Kuratierungstechnologien für verschiedene Branchen und Anwendungssze...Digitale Kuratierungstechnologien für verschiedene Branchen und Anwendungssze...
Digitale Kuratierungstechnologien für verschiedene Branchen und Anwendungssze...Georg Rehm
 
Horizon Report 2015 Library Edition
Horizon Report 2015 Library EditionHorizon Report 2015 Library Edition
Horizon Report 2015 Library EditionRudolf Mumenthaler
 
tech4comp - Kompetenzmessung durch Datenanalyse für E-Assessment
tech4comp - Kompetenzmessung durch Datenanalyse für E-Assessmenttech4comp - Kompetenzmessung durch Datenanalyse für E-Assessment
tech4comp - Kompetenzmessung durch Datenanalyse für E-AssessmentLeipziger Semantic Web Tag
 
Interoperable IT-Infrastruktur für die öffentliche Verwaltung
Interoperable IT-Infrastruktur für die öffentliche VerwaltungInteroperable IT-Infrastruktur für die öffentliche Verwaltung
Interoperable IT-Infrastruktur für die öffentliche VerwaltungJohann Höchtl
 
Fit für die digitale Bibliothek? (2007)
Fit für die digitale Bibliothek? (2007)Fit für die digitale Bibliothek? (2007)
Fit für die digitale Bibliothek? (2007)Ralf Stockmann
 
Kickoff Workshop zum Projekt amsl mit den sächsischen Hochschulbibliotheken
Kickoff Workshop zum Projekt amsl mit den sächsischen HochschulbibliothekenKickoff Workshop zum Projekt amsl mit den sächsischen Hochschulbibliotheken
Kickoff Workshop zum Projekt amsl mit den sächsischen HochschulbibliothekenLydiaU
 
AMSL Kick-off-Meeting sächsischer Hochschulbibliotheken
AMSL Kick-off-Meeting sächsischer HochschulbibliothekenAMSL Kick-off-Meeting sächsischer Hochschulbibliotheken
AMSL Kick-off-Meeting sächsischer HochschulbibliothekenBjörn Muschall
 
ch.ch 2020
ch.ch 2020 ch.ch 2020
ch.ch 2020 ch.ch
 
Bdk fachforum (gpec) big data und intelligente datenanalyse
Bdk fachforum (gpec)   big data und intelligente datenanalyseBdk fachforum (gpec)   big data und intelligente datenanalyse
Bdk fachforum (gpec) big data und intelligente datenanalyseAI4BD GmbH
 
OkLab Leipzig (state: 2017)
OkLab Leipzig (state: 2017)OkLab Leipzig (state: 2017)
OkLab Leipzig (state: 2017)joergreichert
 

Ähnlich wie Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit im Netz (20)

Digitale Kuratierungstechnologien – Beispiele aus ausgewählten Branchen
Digitale Kuratierungstechnologien – Beispiele aus ausgewählten BranchenDigitale Kuratierungstechnologien – Beispiele aus ausgewählten Branchen
Digitale Kuratierungstechnologien – Beispiele aus ausgewählten Branchen
 
KI, Sprachtechnologie und Digital Humanities: Ein (unvollständiger) Überblick
KI, Sprachtechnologie und Digital Humanities: Ein (unvollständiger) ÜberblickKI, Sprachtechnologie und Digital Humanities: Ein (unvollständiger) Überblick
KI, Sprachtechnologie und Digital Humanities: Ein (unvollständiger) Überblick
 
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...
 
16. DINI-Jahrestagung: Linked Data und Repositorien
16. DINI-Jahrestagung: Linked Data und Repositorien16. DINI-Jahrestagung: Linked Data und Repositorien
16. DINI-Jahrestagung: Linked Data und Repositorien
 
Standardisierte Nutzungsstatiken für Repositorien und Linkresolver
Standardisierte Nutzungsstatiken für Repositorien und LinkresolverStandardisierte Nutzungsstatiken für Repositorien und Linkresolver
Standardisierte Nutzungsstatiken für Repositorien und Linkresolver
 
Open Source Bibliotheksmanagement (mit D:SWARM + AMSL)
Open Source Bibliotheksmanagement (mit D:SWARM + AMSL)Open Source Bibliotheksmanagement (mit D:SWARM + AMSL)
Open Source Bibliotheksmanagement (mit D:SWARM + AMSL)
 
Linked Data - Das Ende des Dokuments?
Linked Data - Das Ende des Dokuments?Linked Data - Das Ende des Dokuments?
Linked Data - Das Ende des Dokuments?
 
Publishing in the digital age 1 december 2011 - semantic meetup zürich
Publishing in the digital age   1 december 2011 - semantic meetup zürichPublishing in the digital age   1 december 2011 - semantic meetup zürich
Publishing in the digital age 1 december 2011 - semantic meetup zürich
 
Digitale Kuratierungstechnologien für verschiedene Branchen und Anwendungssze...
Digitale Kuratierungstechnologien für verschiedene Branchen und Anwendungssze...Digitale Kuratierungstechnologien für verschiedene Branchen und Anwendungssze...
Digitale Kuratierungstechnologien für verschiedene Branchen und Anwendungssze...
 
ENP_ONB_infday_GMuehlberger
ENP_ONB_infday_GMuehlbergerENP_ONB_infday_GMuehlberger
ENP_ONB_infday_GMuehlberger
 
Horizon Report 2015 Library Edition
Horizon Report 2015 Library EditionHorizon Report 2015 Library Edition
Horizon Report 2015 Library Edition
 
tech4comp - Kompetenzmessung durch Datenanalyse für E-Assessment
tech4comp - Kompetenzmessung durch Datenanalyse für E-Assessmenttech4comp - Kompetenzmessung durch Datenanalyse für E-Assessment
tech4comp - Kompetenzmessung durch Datenanalyse für E-Assessment
 
Interoperable IT-Infrastruktur für die öffentliche Verwaltung
Interoperable IT-Infrastruktur für die öffentliche VerwaltungInteroperable IT-Infrastruktur für die öffentliche Verwaltung
Interoperable IT-Infrastruktur für die öffentliche Verwaltung
 
Meyer Project Introduction IMPACT Workshop MUC
Meyer Project Introduction IMPACT Workshop MUCMeyer Project Introduction IMPACT Workshop MUC
Meyer Project Introduction IMPACT Workshop MUC
 
Fit für die digitale Bibliothek? (2007)
Fit für die digitale Bibliothek? (2007)Fit für die digitale Bibliothek? (2007)
Fit für die digitale Bibliothek? (2007)
 
Kickoff Workshop zum Projekt amsl mit den sächsischen Hochschulbibliotheken
Kickoff Workshop zum Projekt amsl mit den sächsischen HochschulbibliothekenKickoff Workshop zum Projekt amsl mit den sächsischen Hochschulbibliotheken
Kickoff Workshop zum Projekt amsl mit den sächsischen Hochschulbibliotheken
 
AMSL Kick-off-Meeting sächsischer Hochschulbibliotheken
AMSL Kick-off-Meeting sächsischer HochschulbibliothekenAMSL Kick-off-Meeting sächsischer Hochschulbibliotheken
AMSL Kick-off-Meeting sächsischer Hochschulbibliotheken
 
ch.ch 2020
ch.ch 2020 ch.ch 2020
ch.ch 2020
 
Bdk fachforum (gpec) big data und intelligente datenanalyse
Bdk fachforum (gpec)   big data und intelligente datenanalyseBdk fachforum (gpec)   big data und intelligente datenanalyse
Bdk fachforum (gpec) big data und intelligente datenanalyse
 
OkLab Leipzig (state: 2017)
OkLab Leipzig (state: 2017)OkLab Leipzig (state: 2017)
OkLab Leipzig (state: 2017)
 

Mehr von Georg Rehm

QURATOR: A Flexible AI Platform for the Adaptive Analysis and Creative Genera...
QURATOR: A Flexible AI Platform for the Adaptive Analysis and Creative Genera...QURATOR: A Flexible AI Platform for the Adaptive Analysis and Creative Genera...
QURATOR: A Flexible AI Platform for the Adaptive Analysis and Creative Genera...Georg Rehm
 
Observations on Annotations – From Computational Linguistics and the World Wi...
Observations on Annotations – From Computational Linguistics and the World Wi...Observations on Annotations – From Computational Linguistics and the World Wi...
Observations on Annotations – From Computational Linguistics and the World Wi...Georg Rehm
 
The Preparation, Impact and Future of the META-NET White Paper Series “Europe...
The Preparation, Impact and Future of the META-NET White Paper Series “Europe...The Preparation, Impact and Future of the META-NET White Paper Series “Europe...
The Preparation, Impact and Future of the META-NET White Paper Series “Europe...Georg Rehm
 
AI and Conference Interpretation – From Smart Assistants for the Human Interp...
AI and Conference Interpretation – From Smart Assistants for the Human Interp...AI and Conference Interpretation – From Smart Assistants for the Human Interp...
AI and Conference Interpretation – From Smart Assistants for the Human Interp...Georg Rehm
 
Künstliche Intelligenz beim Dolmetschen und Übersetzen
Künstliche Intelligenz beim Dolmetschen und ÜbersetzenKünstliche Intelligenz beim Dolmetschen und Übersetzen
Künstliche Intelligenz beim Dolmetschen und ÜbersetzenGeorg Rehm
 
Herausforderungen und Lösungen für die europäische Sprachtechnologie- Forschu...
Herausforderungen und Lösungen für die europäische Sprachtechnologie- Forschu...Herausforderungen und Lösungen für die europäische Sprachtechnologie- Forschu...
Herausforderungen und Lösungen für die europäische Sprachtechnologie- Forschu...Georg Rehm
 
European Language Technologies – Past, Present and Future
European Language Technologies – Past, Present and FutureEuropean Language Technologies – Past, Present and Future
European Language Technologies – Past, Present and FutureGeorg Rehm
 
Towards a Human Language Project for Multilingual Europe: AI and Interpretation
Towards a Human Language Project for Multilingual Europe: AI and InterpretationTowards a Human Language Project for Multilingual Europe: AI and Interpretation
Towards a Human Language Project for Multilingual Europe: AI and InterpretationGeorg Rehm
 
Language Technologies for Multilingual Europe - Towards a Human Language Proj...
Language Technologies for Multilingual Europe - Towards a Human Language Proj...Language Technologies for Multilingual Europe - Towards a Human Language Proj...
Language Technologies for Multilingual Europe - Towards a Human Language Proj...Georg Rehm
 
AI for Translation Technologies and Multilingual Europe
AI for Translation Technologies and Multilingual EuropeAI for Translation Technologies and Multilingual Europe
AI for Translation Technologies and Multilingual EuropeGeorg Rehm
 
Artificial Intelligence for the Film Industry
Artificial Intelligence for the Film IndustryArtificial Intelligence for the Film Industry
Artificial Intelligence for the Film IndustryGeorg Rehm
 
KI für die Kundenkommunikation
KI für die KundenkommunikationKI für die Kundenkommunikation
KI für die KundenkommunikationGeorg Rehm
 
EPUB, quo vadis? Publishing im W3C
EPUB, quo vadis? Publishing im W3CEPUB, quo vadis? Publishing im W3C
EPUB, quo vadis? Publishing im W3CGeorg Rehm
 
Human Language Technologies in a Multilingual Europe
Human Language Technologies in a Multilingual EuropeHuman Language Technologies in a Multilingual Europe
Human Language Technologies in a Multilingual EuropeGeorg Rehm
 
Language Technologies for Big Data – A Strategic Agenda for the Multilingual ...
Language Technologies for Big Data – A Strategic Agenda for the Multilingual ...Language Technologies for Big Data – A Strategic Agenda for the Multilingual ...
Language Technologies for Big Data – A Strategic Agenda for the Multilingual ...Georg Rehm
 
Multilingual Europe in late 2016 – A Strategic Research and Innovation Agenda...
Multilingual Europe in late 2016 – A Strategic Research and Innovation Agenda...Multilingual Europe in late 2016 – A Strategic Research and Innovation Agenda...
Multilingual Europe in late 2016 – A Strategic Research and Innovation Agenda...Georg Rehm
 
Multilingualism for Digital Europe
Multilingualism for Digital EuropeMultilingualism for Digital Europe
Multilingualism for Digital EuropeGeorg Rehm
 
Curation Technologies for Multilingual Europe
Curation Technologies for Multilingual EuropeCuration Technologies for Multilingual Europe
Curation Technologies for Multilingual EuropeGeorg Rehm
 
The Strategic Agenda for the Multilingual Digital Single Market V0.9
The Strategic Agenda for the Multilingual Digital Single Market V0.9The Strategic Agenda for the Multilingual Digital Single Market V0.9
The Strategic Agenda for the Multilingual Digital Single Market V0.9Georg Rehm
 
Web Annotations – A Game Changer for Language Technology?
Web Annotations – A Game Changer for Language Technology?Web Annotations – A Game Changer for Language Technology?
Web Annotations – A Game Changer for Language Technology?Georg Rehm
 

Mehr von Georg Rehm (20)

QURATOR: A Flexible AI Platform for the Adaptive Analysis and Creative Genera...
QURATOR: A Flexible AI Platform for the Adaptive Analysis and Creative Genera...QURATOR: A Flexible AI Platform for the Adaptive Analysis and Creative Genera...
QURATOR: A Flexible AI Platform for the Adaptive Analysis and Creative Genera...
 
Observations on Annotations – From Computational Linguistics and the World Wi...
Observations on Annotations – From Computational Linguistics and the World Wi...Observations on Annotations – From Computational Linguistics and the World Wi...
Observations on Annotations – From Computational Linguistics and the World Wi...
 
The Preparation, Impact and Future of the META-NET White Paper Series “Europe...
The Preparation, Impact and Future of the META-NET White Paper Series “Europe...The Preparation, Impact and Future of the META-NET White Paper Series “Europe...
The Preparation, Impact and Future of the META-NET White Paper Series “Europe...
 
AI and Conference Interpretation – From Smart Assistants for the Human Interp...
AI and Conference Interpretation – From Smart Assistants for the Human Interp...AI and Conference Interpretation – From Smart Assistants for the Human Interp...
AI and Conference Interpretation – From Smart Assistants for the Human Interp...
 
Künstliche Intelligenz beim Dolmetschen und Übersetzen
Künstliche Intelligenz beim Dolmetschen und ÜbersetzenKünstliche Intelligenz beim Dolmetschen und Übersetzen
Künstliche Intelligenz beim Dolmetschen und Übersetzen
 
Herausforderungen und Lösungen für die europäische Sprachtechnologie- Forschu...
Herausforderungen und Lösungen für die europäische Sprachtechnologie- Forschu...Herausforderungen und Lösungen für die europäische Sprachtechnologie- Forschu...
Herausforderungen und Lösungen für die europäische Sprachtechnologie- Forschu...
 
European Language Technologies – Past, Present and Future
European Language Technologies – Past, Present and FutureEuropean Language Technologies – Past, Present and Future
European Language Technologies – Past, Present and Future
 
Towards a Human Language Project for Multilingual Europe: AI and Interpretation
Towards a Human Language Project for Multilingual Europe: AI and InterpretationTowards a Human Language Project for Multilingual Europe: AI and Interpretation
Towards a Human Language Project for Multilingual Europe: AI and Interpretation
 
Language Technologies for Multilingual Europe - Towards a Human Language Proj...
Language Technologies for Multilingual Europe - Towards a Human Language Proj...Language Technologies for Multilingual Europe - Towards a Human Language Proj...
Language Technologies for Multilingual Europe - Towards a Human Language Proj...
 
AI for Translation Technologies and Multilingual Europe
AI for Translation Technologies and Multilingual EuropeAI for Translation Technologies and Multilingual Europe
AI for Translation Technologies and Multilingual Europe
 
Artificial Intelligence for the Film Industry
Artificial Intelligence for the Film IndustryArtificial Intelligence for the Film Industry
Artificial Intelligence for the Film Industry
 
KI für die Kundenkommunikation
KI für die KundenkommunikationKI für die Kundenkommunikation
KI für die Kundenkommunikation
 
EPUB, quo vadis? Publishing im W3C
EPUB, quo vadis? Publishing im W3CEPUB, quo vadis? Publishing im W3C
EPUB, quo vadis? Publishing im W3C
 
Human Language Technologies in a Multilingual Europe
Human Language Technologies in a Multilingual EuropeHuman Language Technologies in a Multilingual Europe
Human Language Technologies in a Multilingual Europe
 
Language Technologies for Big Data – A Strategic Agenda for the Multilingual ...
Language Technologies for Big Data – A Strategic Agenda for the Multilingual ...Language Technologies for Big Data – A Strategic Agenda for the Multilingual ...
Language Technologies for Big Data – A Strategic Agenda for the Multilingual ...
 
Multilingual Europe in late 2016 – A Strategic Research and Innovation Agenda...
Multilingual Europe in late 2016 – A Strategic Research and Innovation Agenda...Multilingual Europe in late 2016 – A Strategic Research and Innovation Agenda...
Multilingual Europe in late 2016 – A Strategic Research and Innovation Agenda...
 
Multilingualism for Digital Europe
Multilingualism for Digital EuropeMultilingualism for Digital Europe
Multilingualism for Digital Europe
 
Curation Technologies for Multilingual Europe
Curation Technologies for Multilingual EuropeCuration Technologies for Multilingual Europe
Curation Technologies for Multilingual Europe
 
The Strategic Agenda for the Multilingual Digital Single Market V0.9
The Strategic Agenda for the Multilingual Digital Single Market V0.9The Strategic Agenda for the Multilingual Digital Single Market V0.9
The Strategic Agenda for the Multilingual Digital Single Market V0.9
 
Web Annotations – A Game Changer for Language Technology?
Web Annotations – A Game Changer for Language Technology?Web Annotations – A Game Changer for Language Technology?
Web Annotations – A Game Changer for Language Technology?
 

Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit im Netz

  • 1. KOOP-LITERA International – 20. Juni 2017 Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit im Netz Georg Rehm georg.rehm@dfki.de DFKI GmbH, Berlin KOOP-LITERA international
  • 2. Überblick • Was ist digitale Kuratierung? • BMBF-Projekt Digitale Kuratierungstechnologien • Beispiel: Die Mendelsohn-Briefe • Schlussfolgerungen • Beobachtungen und Empfehlungen KOOP-LITERA 2017 – 20. Juni 2017 2
  • 3. Was ist digitale Kuratierung? KOOP-LITERA 2017 – 20. Juni 2017 Information Information Information Information Information Information Information Information Information Information 3
  • 4. Was ist digitale Kuratierung? KOOP-LITERA 2017 – 20. Juni 2017 Information Information Information Information Information Information Information Information Information ? ? ? ?Information 4
  • 5. Was ist digitale Kuratierung? KOOP-LITERA 2017 – 20. Juni 2017 Information Information Information Information Information Information Information Information Information ? Information OutputInput SoftwareProzesse ? ? ? 5
  • 6. Branchen Input Prozesse Software Output Tweet Analysieren Textverarbeitung Zeitungsartikel Zeitungsartikel Auswählen Präsentationen Multimedia-Website Agenturmeldung Fokussieren Tabellenkalkulation TV-Beitrag Facebook-Meldung Überarbeiten Email Ausstellungskatalog Suchergebnis Einlesen Browser Mobile Applikation Email Schreiben Groupware Mashup (z.B. Karte) SMS Gestalten Branchenapplikationen Textbeitrag Konzept Recherchieren CMS Konzept Textdateien Bewerten ECMS Zeitstrahl Video Evaluieren CRM Fachartikel Karte Ordnen Unternehmens-Software Studie Stockfotos Sortieren Grafik-/Layout-Software Präsentation In-house Datenbank Strukturieren Telefonie Faktensammlung Kalendereintrag Zusammenfassen etc. Exponatsartikel Spreadsheets Kürzen Analysen Archiv Übersetzen etc. Nachlass Informieren etc. Kombinieren Abstrahieren Einordnen Visualisieren Generieren Annotieren Referenzieren etc. Beobachtungen • Inhalte: textzentriert, mehrsprachig, multimedial • Kuratierung: zeit- und wissensintensiv, interdisziplinär, evtl. durchgeführt in verteilten Teams • Branche: domänen-/branchenspezifische Anforderungen • Einschränkung: Traditionelle CMS-Systeme bieten kaum Unterstützung für Kuratierungsprozesse! • Sprachtechnologie kann helfen – Kombinierung von Komponenten zu branchenspezifischen Workflows
  • 7. DKT Kick-off-Veranstaltung – 25. September 2015 Georg Rehm und Felix Sasaki. “Digital Curation Technologies.” In Proceedings of the 19th Annual Conference of the European Association for Machine Translation (EAMT 2016), Riga, Lettland, Mai 2016 Georg Rehm und Felix Sasaki. “Digitale Kuratierungstechnologien – Verfahren für die effiziente Verarbeitung, Erstellung und Verteilung qualitativ hochwertiger Medieninhalte.” In Proceedings der Frühjahrstagung der Gesellschaft für Sprachtechnologie und Computerlinguistik (GSCL 2015), S. 138-139, Duisburg, 2015 • Unterstützung und Optimierung digitaler Kuratierung durch Sprach- und Wissenstechnologien • Entwicklung innovativer Prototypen bei den KMU-Partnern • Weiterentwicklung der DFKI-Technologien und Transfer mittels Plattform für digitale Kuratierungstechnologien Sprach- und Wissenstechnologien Kuratierungstechnologien Branchentechnologien Plattformtechnologie Branchenlösungen
  • 8. Technologieplattform – Ziele • Durch (Semi-)Automatisierung der Kuratierungsprozesse zeitliche und finanzielle Aufwände reduzieren • Flexible, robuste, skalierbare Services • Gemeinsamer Bau von Prototypen (proofs-of-concept) • Modulare Inhalte in neuen Produktionen aggregieren • Interoperabilität durch generische APIs • Human in the loop KOOP-LITERA 2017 – 20. Juni 2017 Sprach- und Wissenstechnologien Kuratierungstechnologien Branchentechnologien Plattformtechnologie Branchenlösungen 8
  • 9. Aktueller Stand • Plattform: Services und Service-Workflows • Implementierte Kuratierungsservices: – Named Entity Recognition – e-entityrecognition e-service – Geolocation – e-entityrecognition, Visualisierung – Temporal Analyser – e-entityrecognition, Visualisierung – Classification – e-classification e-service – Clustering – e-clustering e-service – Textzusammenfassen– e-summarisation e-service – Maschinelle Übersetzung – e-translation e-service – Sentiment Analysis – work in progress – Event Extraction – work in progress – Semantic Storytelling – work in progress • Kuratierungs-Dashboard: Erster Prototyp KOOP-LITERA 2017 – 20. Juni 2017 9
  • 10. NER, Linking, Geolokalisierung KOOP-LITERA 2017 – 20. Juni 2017 ... In the Viking colony of Iceland, an extraordinary vernacular literature blossomed in the 12th through 14th centuries ... ... The ships were scuttled there in the 11th century, to block a navigation channel and thus protect Roskilde, then Copenhagen from seaborne assault ... ... Viking Age inscriptions have also been discovered on the Manx runestones on the Isle of Man. … Plain Text NIF-Anreicherung Visualisierung http://api.digitale-kuratierung.de/api/e-nlp/namedEntityRecognition?analysis=ner http://http://dev.digitale-kuratierung.de/admini/pages/geolocalization.php • Modus 1: Modell-basiert (für Domänen, für die annotierte Trainingsdaten verfügbar sind) • Modus 2: Wörterbuch-basiert (für Domänen, für die lediglich Namenslisten verfügbar sind) • Basiert auf OpenNLP (mit NIF-Integration) • Entity-Linking durch SPARQL-Querys auf DBPedia. • Für Lokationen werden GPS-Koordinaten bezogen. • Es werden Durchschnittsangaben berechnet auf Dokumentebene (über alle Lokationen), um diese auf einer Karte visualisieren zu können. Geolokalisierung als visuelles Zusammenfassen! 10
  • 11. KOOP-LITERA 2017 – 20. Juni 2017 NER und Linking • http://api.digitale-kuratierung.de/api/e-nlp/trainModel?analysis=dict • Falls lediglich Listen von Namen oder Termen und deren URIs in einer Ontologie zur Verfügung stehen. • http://api.digitale-kuratierung.de/api/e-nlp/trainModel?analysis=ner • Falls annotierte Trainingsdaten zur Verfügung stehen auf neuem Input nutzbar (auch gemeinsam) statistisches NER-Modell Datenbank-Dump der Mendelsohn-Briefe Hohe Qualität Benötigt annotierte Daten Mittlere Qualität Benötigt weniger annotierte Daten • Falls – z.B. bei Spezialdomänen – weder das eine (A) noch das andere (B) vorliegt, können potenzielle Entitäten in Kollektionen berechnet werden. • Diese Liste kann vom Wissensarbeiter überprüft und anschließend als Wörterbuch (A) eingesetzt werden. Mittlere Qualität Menschliche Intervention notwendig Benötigt keine annotierten Daten A B C • Linking per Extraktion der DBpedia-URI • NE-Typspezifische SPARQL-Querys für Personen (Geburtsdatum), Lokationen (Koordinaten), Organisationen (Typ) • Wörterbuch kann URIs enthalten 11
  • 12. KOOP-LITERA 2017 – 20. Juni 2017 Zeitausdrücke ... The ships were scuttled there in the 11th century, to block a navigation channel and thus protect Roskilde, then Copenhagen from seaborne assault ... ... Viking Age inscriptions have also been discovered on the Manx runestones on the Isle of Man. ... ... In the Viking colony of Iceland, an extraordinary vernacular literature blossomed in the 12th through 14th centuries … 900 1600 http://api.digitale-kuratierung.de/api/e-nlp/namedEntityRecognition?analysis=temp http://dev.digitale-kuratierung.de/admini/pages/timelining.php Plain-Text NIF-Anreicherung Visualisierung • Sortiert Dokumente auf einer chronologischen Skala. • Regelbasiertes System, um unsere Zielsprachen bestmöglich bedienen zu können (EN, DE). • Analyse von Zeitausdrücken in einem Dokument. • Berechnet Durchschnittswerte und Intervalle. • Plan: Mechanismus für nutzerbasierte Regeln. • Verwandte Arbeiten: SUTime, HeidelTime, Tango, Tarsgi. 12
  • 13. Semantic Storytelling • Wichtige Wunschfunktionalität bei allen KMU-Partnern: Semantic Storytelling • Eingabe: Kohärente, in sich geschlossene Kollektion • Ausgabe: Semantisch angereicherte Kollektion • Idee: Multiple Rezeptionspfade ermöglichen • Semantic Storytelling: Identifizierung, Ranking und Empfehlung sinnvoller Hypertextpfade • Es gibt noch zahlreiche Herausforderungen ... KOOP-LITERA 2017 – 20. Juni 2017 13
  • 14. RDF DB RDF DB Semantic Storytelling Backend Authoring Environment iOS App Android AppHTML5ePub … • Input: Self-contained documentcollection • Example:Mendelsohn letters,2796 documents, written in German, English,French • Assists the editor in putting together stories based on the semantic analyses • Enables the construction of new stories, for example, by (1) focussing on the specific requirements of differenttext types such as biography or travelogue or (2) through highlighting and recommending to the human expert specific relationships between entities • Automatic transformation of RDF database contents into play-outformats for different channels and media Semantic Storytelling: Analysis and Annotation Steps • Language identification (for cross-lingual processing) • Temporal expression analysis (TimeX) • Geographic location analysis (GeoX) • Participants and actors analysis (Person X) • Coreference analysis • Event detection (cross-lingual,including German and French, through machine translation) • Mode of transportation analysis • Identification of MovementAction Events out of the set of identified events (filtering) Experimental Storytelling Dashboard Beispiel: Die Mendelsohn-Briefe Mit Dank an:
  • 15. KOOP-LITERA 2017 – 20. Juni 2017 15 Beispiel: Die Mendelsohn-Briefe
  • 16. KOOP-LITERA 2017 – 20. Juni 2017 16 Beispiel: Die Mendelsohn-Briefe
  • 17. RDF DB RDF DB Semantic Storytelling Backend Authoring Environment iOS App Android AppHTML5ePub … • Input: Self-contained documentcollection • Example:Mendelsohn letters,2796 documents, written in German, English,French • Assists the editor in putting together stories based on the semantic analyses • Enables the construction of new stories, for example, by (1) focussing on the specific requirements of differenttext types such as biography or travelogue or (2) through highlighting and recommending to the human expert specific relationships between entities • Automatic transformation of RDF database contents into play-outformats for different channels and media Semantic Storytelling: Analysis and Annotation Steps • Language identification (for cross-lingual processing) • Temporal expression analysis (TimeX) • Geographic location analysis (GeoX) • Participants and actors analysis (Person X) • Coreference analysis • Event detection (cross-lingual,including German and French, through machine translation) • Mode of transportation analysis • Identification of MovementAction Events out of the set of identified events (filtering) Experimental Storytelling Dashboard Beispiel: Die Mendelsohn-Briefe Mit Dank an: Diese Komponenten funktionieren teilweise bereits sehr gut, allerdings noch nicht perfekt!
  • 18. Kuratierungstechnologien • Kuratierungstechnologien: Verfahren zur semantischen Datenanreicherung, die auf KI-Technologien basieren • KI-Technologien: Symbolische Verfahren, statistische Verfahren, maschinelles Lernen, Deep Learning • Entscheidend für Abdeckung und Präzision: Große Mengen repräsentativer, hochqualitativer Trainingsdaten • Anwendung auf inhärent idiosynkratische Daten- sammlungen wie z.B. Nachlässe ist ambitioniert • Manuelle Anpassungen und Nacharbeit notwendig, da Präzision und Performanz eines menschlichen Archivars nicht erreicht werden können KOOP-LITERA 2017 – 20. Juni 2017 18
  • 19. KI – Reality Check • Künstliche Intelligenz – Beeindruckende Durchbrüche in den vergangenen Jahren – Basieren u.a. auf sehr großen Datenmengen – Entwicklung disruptiver, revolutionärer KI-Tools für die Arbeit mit Nachlässen ist nicht zu erwarten – Aber: Standardwerkzeuge wie NER, Mapping werden kontinuierlich verbessert • Arbeit mit Nachlässen – Hochgradig spezifische Datensammlungen und Anwendungsfälle – Anforderung: Hohe Präzision der Annotation sowie der Metadaten – Eher kleine und sehr spezielle Datenmengen – Prognose: Mittelfristige Entwicklung adaptiver Workbenches für interaktive Annotationen KOOP-LITERA 2017 – 20. Juni 2017 19
  • 20. Schlussfolgerungen • Kuratierungstechnologien unterstützen Wissensarbeiter – auch Archivare – beim Verarbeiten digitaler Inhalte. • Kuratierungstechnologien werden benötigt, um digitale Nachlässe tief semantisch zu erschließen. • Ziele: Bessere und einfachere Nutzbarkeit der Daten; Findbarkeit; Kontextualisierung und Visualisierung (Karten, Zeitstrahl, Verknüpfung, LOD etc.). • Prognose: Einbettung von KI in smarte Archiv-Tools, die die effiziente Bearbeitung (d.h. Kuratierung) generischer digitaler Nachlässe durch Experten erlauben. • Dabei wird bis auf Weiteres gelten: Human in the loop. KOOP-LITERA 2017 – 20. Juni 2017 20
  • 21. Smarte Archiv-Technologien KOOP-LITERA 2017 – 20. Juni 2017 21 Digital Humanities (u.a. Markup-Sprachen, zahlreiche existierende Prototypen in der Forschung, Querying, Metadaten etc.) Künstliche Intelligenz (u.a. Lernverfahren, Ontologien etc.) Sprach- und Wissenstechnologien (u.a. Datenanreicherung, Linked Open Data, Semantic Web, Linking von Datenquellen etc.) Web- Technologien (u.a. Visualisie- rungen, Web Annotations, Crowd etc.) Der sweet spot für smarte Archiv- technologien
  • 22. Beobachtungen • Großer Bedarf an zu entwickelnder Technologie • Derzeit kaum Fördergelder für Themen wie LZA, Nachhaltigkeit, Preservation etc. • LZA wird im DH-Kontext bereits seit Jahren besprochen, könnte aber selbst noch intensiver agieren • Lösungen für LZA können Mehrwert generieren, z.B. in Bezug auf Datenqualität, Apps, Geschäftsmodelle etc. • LZA ist Ländersache – Räder werden oft neu erfunden • Selbstverständlich existieren digitale Nachlässe. Materialität ist kein Kriterium für Qualität. KOOP-LITERA 2017 – 20. Juni 2017 22
  • 23. Empfehlungen • Mut zur Lücke: Nicht die volle inhaltliche Erschließung z.B. eines Nachlasses anstreben. Stattdessen früh publizieren und kontinuierlich und gemeinsam mit der Crowd an der Verbesserung von Annotationen arbeiten. • Linking, Linking, Linking: Intensive Nutzung verfügbarer semantischer Vokabulare zur Auszeichnung von Daten, um die eigenen Digitalisate sichtbar zu machen. • Allianzen schmieden: LZA als internationale Aufgabe, Verbindung zu EU-Infrastrukturen und Initiativen aufbauen (CLARIN, Europeana, META-NET etc.) • Europa benötigt eine LZA-Digitalstrategie! • Europäische Web-Archivmaschine – z.B. Archive.eu? KOOP-LITERA 2017 – 20. Juni 2017 23
  • 24. Vielen Dank! http://www.digitale-kuratierung.de KOOP-LITERA 2017 – 20. Juni 2017 24 Georg Rehm. Eine Strategie zur Förderung der digitalen Langzeitarchivierung. In: Paul Klimpel, Jürgen Keiper (Hrsg.), Was bleibt? Nachhaltigkeit der Kultur in der Digitalen Welt. Eine Publikation des Internet und Gesellschaft-Co:llaboratory e.V., S. 199-214. iRights.Media, Berlin, September 2013. Abschlussbericht der 8. Initiative des Internet und Gesellschaft-Co:llaboratory e.V.