Georg Rehm and John H. Weitzmann. Lösungen für linguistische Ressourcen im Web - META-NET und META-SHARE. Innovationsforum Semantic Media Web, Berlin, Germany, September 2013. September 26, 2013. Talk.
Digitale Kuratierungstechnologien für verschiedene Branchen und Anwendungssze...
Lösungen für linguistische Ressourcen im Web — META-NET und META-SHARE
1. Lösungen für linguistische Ressourcen
im Web: META-NET und META-SHARE
Georg Rehm
John H. Weitzmann
DFKI GmbH, Berlin
iRights.Law
georg.rehm@dfki.de
j.weitzmann@irights-law.de
Innovationsforum Semantic Media Web
Berlin – 26. September 2013
Co-funded by the 7th Framework Programme and the ICT Policy Support Programme of the European Commission through
the contracts T4ME, CESAR, METANET4U, META-NORD (grant agreements no. 249119, 271022, 270893, 270899).
2. Inhalt
q
META-NET und das mehrsprachige Europa
q
Europas Sprachen im digitalen Zeitalter
q
Sprachressourcen und Sprachtechnologien
q
META-SHARE
q
META-TRUST
q
Schlussfolgerungen
http://www.meta-net.eu
2
3. Das mehrsprachige Europa
q
q
q
Herausforderung: Jeder Sprachgemeinschaft die besten und am
weitesten fortgeschrittenen IKT zur Verfügung zu stellen, so dass
Nutzung und Pflege der Muttersprache keinen Nachteil darstellen.
Forschung: Gute Fortschritte in den letzten Jahren, aber die
Geschwindigkeit des Fortschritts ist nicht schnell genug, um die
Herausforderung in den nächsten 10-20 Jahren zu bewältigen.
Alle Beteiligten – Forscher, LT-Industrie (Nutzer, Anbieter),
Sprachgemeinschaften, Forschungsförderer, Politik, Verwaltungen
etc. – sollten sich in einer strategischen Allianz zusammenschließen,
um für einen großen, dedizierten Push zu sorgen.
http://www.meta-net.eu
3
4. Ziel
META-NET ist ein Exzellenznetzwerk.
Das Ziel: Die technologischen Grundlagen der mehrsprachigen
europäischen Informationsgesellschaft zu unterstützen.
http://www.meta-net.eu
4
5. Vier EU-Projekte
q
q
q
q
q
q
Projekt: T4ME ab Feb. 2010
(FP7; 13 Partner, 10 Länder)
Drei ICT-PSP Konsortien
ab Feb. 2011: CESAR,
METANET4U, META-NORD
Gesamtkosten ca. 19M€
Alle EU-Mitgliedsstaaten und
div. weitere Länder abgedeckt.
META-NET im Sept. 2013:
60 Mitglieder in 34 Ländern.
Die vier Projekte endeten am
31. Januar 2013. Die Initiative
läuft weiter.
http://www.meta-net.eu
http://www.meta-net.eu/members
5
8. Language White Paper Serie
q
“Europe’s Languages in the Digital Age”.
q
Stand der Sprache im digitalen Zeitalter.
q
Unterstützung durch Sprachtechnologie.
q
Gesellschaftliche und technologische
Probleme; Herausforderungen und
Möglichkeiten.
q
Zielgruppe: Entscheider, Journalisten.
q
31 Bände zu 30 Sprachen.
q
>200 nationale/regionale Experten.
q
>8.000 Exemplare an Politiker und
Journalisten verteilt.
http://www.meta-net.eu/whitepapers
http://www.meta-net.eu
8
9. Sprachübergreifender Vergleich
q
Grad der Unterstützung für vier Anwendungsgebiete – von
„exzellenter Support“ bis hin zu „schwacher/kein Support“:
1. Masch. Übersetzung
2. Gesprochene Sprache
3. Text-Analytics
4. Sprachressourcen
q
Ergebnisse finalisiert
bei einem Treffen von
Repräsentanten aller
Sprachen (Okt. 2011).
http://www.meta-net.eu
9
10. Resources
Speech
Text Analysis
MT
excellent
good
moderate
fragmentary
weak or no support
English
moderate
fragmentary
weak or no support
Dutch, French,
German, Italian,
Spanish
Basque, Bulgarian, Catalan, Czech,
Danish, Finnish, Galician, Greek,
Hungarian, Norwegian, Polish,
Portuguese, Romanian, Slovak,
Slovene, Swedish
Croatian, Estonian, Icelandic, Irish,
Latvian, Lithuanian, Maltese, Serbian
good
moderate
fragmentary
weak or no support
Czech, Dutch, Finnish,
French, German,
Italian, Portuguese,
Spanish
Basque, Bulgarian, Catalan, Danish,
Estonian, Galician, Greek,
Hungarian, Irish, Norwegian, Polish,
Serbian, Slovak, Slovene, Swedish
Croatian, Icelandic, Latvian,
Lithuanian, Maltese, Romanian
good
moderate
fragmentary
weak/no support
English
excellent
good
English
excellent
Catalan, Dutch, German, Hungarian,
Italian, Polish, Romanian
English
excellent
French, Spanish
Basque, Bulgarian, Croatian, Czech,
Danish, Estonian, Finnish, Galician,
Greek, Icelandic, Irish, Latvian, Lithuanian, Maltese, Norwegian, Portuguese,
Serbian, Slovak, Slovene, Swedish
Czech, Dutch, French,
German, Hungarian,
Italian, Polish,
Spanish, Swedish
Basque, Bulgarian, Catalan, Croatian,
Danish, Estonian, Finnish, Galician,
Greek, Norwegian, Portuguese,
Romanian, Serbian, Slovak, Slovene
Icelandic, Irish, Latvian,
Lithuanian, Maltese
http://www.meta-net.eu
10
11. Digitales Aussterben
q
Zusammengefasst:
21 europäische Sprachen vom digitalen Aussterben bedroht!
q
PM veröffentlicht am europäischen Tag der Sprachen (26.09.2012).
q
Riesiges Interesse an dem Thema und unseren Ergebnissen.
q
600+ Nennungen in der Presse.
q
50+ Interviews mit Repräsentanten von META-NET (ca. 30
Radiointerviews, ca. 25 Fernsehberichte).
q
Berichte aus 40+ Ländern in 35+ verschiedenen Sprachen.
q
Zwei parlamentarische Anfragen im Europaparlament.
http://www.meta-net.eu
11
12. Strategische Forschungsagenda
q
Drei Prioritätsforschungsthemen.
q
Zielgruppe: Entscheider in EP/EC.
q
>190 Beiträger; >2 Jahre.
q
q
Beiträger: 54% Industrie; 46%
Forschung; 4% nationale und
internationale Institutionen.
Präsentiert und diskutiert bei >80
Konferenzen und Workshops.
q
Publiziert im Januar 2013.
q
http://www.meta-net.eu/sra
http://www.meta-net.eu
12
13. Prioritätsforschungsthemen
q
Drei Prioritätsforschungsthemen:
§ Translingual Cloud
§ Social Intelligence and
e-Participation
§ Socially-Aware
Interactive Assistants
q
Zwei zusätzliche Themen:
§ European Service
Platform for LT
§ Core Technologies
for Language Analysis
and Production
http://www.meta-net.eu
13
15. LRs und LTs
q
Sprachtechnologien (Language Technologies): Software
§ Tools, Module, Frameworks, Pakete, Applikationen etc.
§ Aktuelle Sprachtechnologien basieren auf regelbasierten oder auf
statistischen Verfahren (maschinelles Lernen)
q
Sprachressourcen (Language Resources): Daten
§ Sehr große Datenmengen, Milliarden von Wörtern (GB, tw. TB)
§ Daten werden manuell, semiautomatisch oder vollautomatisch mit
linguistischen Informationen – Metadaten – annotiert (z.B. XML)
§ Nutzung im Rahmen von maschinellen Lernverfahren
http://www.meta-net.eu
15
17. META-SHARE: Überblick
q
q
q
q
Es gibt tausende von Sprachressourcen. Zu geringe Sichtbarkeit ist ein
riesiges Problem. Ihre Entwicklung ist oftmals extrem teuer.
META-SHARE ist eine offene Infrastruktur für den Austausch von
Sprachressourcen und Sprachtechnologien (zentrale Sammelstelle).
Dokumentation, Katalogisierung, Verteilung, Visibilität,
Identifizierung, Verfügbarkeit, Nachhaltigkeit, Interoperabilität.
Peer-to-Peer-Repositorys speichern und verwalten Ressourcen.
Metadaten werden exportiert und zentral gesammelt.
q
Ziel: Forschung, Technologieentwicklung und Innovation fördern.
q
Software-Engineering an 5 Zentren (DFKI, ILSP, CNR, FBK, ELDA).
q
Derzeit 27 Repositorys und 2.300+ Ressourcen.
http://www.meta-net.eu
17
24. META-SHARE: Rechtliches
q
q
q
q
Language Resources Sharing Charter – Plakative Prinzipien,
die sharing and reuse of language resources propagieren.
Licensing Templates – Creative Commons Lizenzen und METASHARE Commons-Lizenzen (öffentlich vs. netzwerkintern).
Depositor’s Agreement – Der Datenlieferant autorisiert das
jeweilige Repository, eine Ressource aufzunehmen und anzubieten.
Memorandum of Understanding – Spezifiziert Mitgliedschaft im
META-SHARE-Netzwerk (Managing Nodes vs. Network Nodes vs.
Depositors vs. Associate Members)
http://www.meta-net.eu
24
26. Rechtliche Mitspieler
q
Sprachressourcen:
§ Primärdaten: Rechteinhaber x (z.B. Verlage, Website-Betreiber etc.)
§ Sekundärdaten Ebene A: Rechteinhaber y (z.B. Forschungszentrum)
§ Sekundärdaten Ebene B: Rechteinhaber z (z.B. Universität)
§ Sekundärdaten Ebene C: ...
q
META-SHARE: Betreiber der Infrastruktur; Betreiber des Knotens
q
Nutzer: Forschung vs. Industrie (kommerziell vs. nicht-komm.)
q
META-TRUST: Rolle des Community-getriebenen Trust-Centers,
das unabhängig von Forschungszentren ist, die jeweils einzelne
Knoten des META-SHARE-Netzwerks betreiben.
http://www.meta-net.eu
26
27. META-TRUST AISBL
q
q
q
q
q
q
q
q
Association internationale sans but lucratif (non-profit organisation)
Rechtliche Person, so dass META-NET Verträge unterzeichnen,
Rechte innehaben und Lizenzen vergeben.
Schlanke Hierarchie und Struktur der Mitgliedschaft (Personen!).
Registriert im September 2012 in Antwerpen, Belgien.
Steering Committee: Fünf Mitglieder.
Advisory Board: META-NET Executive Board.
Fungiert als Trust-Center qua Reputation der Mitglieder.
Steigert die Nachhaltigkeit von META-SHARE und der Ressourcen.
http://www.meta-trust.eu
http://www.meta-net.eu
27
28. Szenario: Datenbereitstellung
entwickelt, implementiert, kontrolliert
Organisation X möchte Sprachressource Y
durch META-SHARE zur Verfügung stellen.
Y besitzt eine Lizenz
http://www.meta-net.eu
wird repräsentiert durch legale Person
Depositor’s Agreement
zwischen X und META-TRUST:
X: „Wir geben META-TRUST das
nicht-exklusive, nicht widerrufbare
Recht, unsere Sprachressource Y
durch META-SHARE für
Forschungszwecke anzubieten.“
META-TRUST: “Wir möchten Y
möglichst nachhaltig anbieten. Wir
garantieren, dass wir Y nur an
diejenigen Nutzer ausliefern, die
eure Lizenzbedingungen explizit
akzeptieren. Eure Bedingungen
werden an die Nutzer durchgereicht,
die sie bestätigen müssen.“
28
29. Szenario: Download von Daten
entwickelt, implementiert, kontrolliert
Datenlieferant X
setzte spezifische
Bedingungen. Nutzer
Z muss zustimmen.
zeichnet
Web-Formular
lädt Y herunter
Nutzer Z möchte Y über
META-SHARE herunuterladen
http://www.meta-net.eu
wird repräsentiert durch legale Person
Nutzungsbedingungen von
META-SHARE:
Z: „Ich habe die Nutzungsbedingungen
gelesen und akzeptiere diese. Ich bin
berechtigt, Y zu beziehen. Ich werde Y
nur für Forschungszwecke einsetzen
und die Nutzungsbedingungen und
Lizenzen von Y berücksichtigen.“
META-TRUST: „Wir sind ein TrustCenter und stellen Sprachressourcen
zur Verfügung – von der Community
für die Community. Wir fungieren
lediglich als Vermittler der
Bedingungen der Datenlieferanten.“
29
31. Schlussfolgerungen
q
q
q
q
q
Ziel von META-SHARE: Sammeln und Anbieten von Ressourcen und
Technologien, um Forschung und Innovation zu stimulieren.
Infrastrukturen wie META-SHARE sind hochgradig komplexe
Herausforderungen mit verschiedenen Dimensionen: technisch,
politisch, kulturell, (wissenschafts)historisch, gesellschaftlich etc.
Eine nachhaltige Lösung benötigt drei bis fünf Jahre – und sehr viele
Diskussionen über rechtliche Aspekte, Metadatenschemata,
Standards, andere Initiativen etc.; Implementierung, Debugging etc.
Spezielle Details unserer Lösung sind noch immer in Diskussion.
Relevante, bereits existierende Organisationen agieren zögerlich und
ängstlich — Überzeugung einiger Kollegen hat Jahre gedauert.
http://www.meta-net.eu
31
32. Q/A
Herzlichen Dank!
http://www.meta-net.eu
Vision Group
Translation and Localisation
Vision Group
Interactive Systems
2010
META-NET Website
Vision Group
Media and Information Services
2011
2012
Language White Paper Series
2013
Strategic
Research
Agenda
http://www.meta-net.eu
http://www.facebook.com/META.Alliance
Horizon 2020
Conne
Deliverin
2014-2020
Transport
Energy
Connect
32