SlideShare ist ein Scribd-Unternehmen logo
1 von 32
Downloaden Sie, um offline zu lesen
Mehrsprachigkeit und 
semantische Technologien! 
Felix Sasaki, Georg Rehm! 
DFKI GmbH! 
Forschungsbereich Sprachtechnologie, Berlin! 
! 
Statusmeeting Semantic Media Web – 6. Oktober 2014, Berlin! 
!
Mehrsprachigkeit – ein Problem?! 
Mehrsprachige Technologien – 6. Oktober 2014! 2!
Übersetzung: Ein Riesengeschäft!! 
Kommerzielle Übersetzung: ein Markt von 
über 20 Milliarden Euro jährlich!! 
Bereitstellung von Inhalten in dutzenden 
von Sprachen immer öfter unverzichtbar! 
Mehrsprachige Technologien – 6. Oktober 2014! 3!
Übersetzung: Ein Riesengeschäft!! 
Wirtschaftlicher Vorteil;! 
Anforderung an öffentliche 
Einrichtungen, insbesondere in Europa! 
Mehrsprachige Technologien – 6. Oktober 2014! 4!
Übersetzung – ein Potential in Europa: 
The Digital Single Market!! 
• 51% der europäischen 
Einzelhändler verkaufen 
Waren über das Internet! 
• Nur 21% unterstützen 
grenzüberschreitende 
Transaktionen! 
• 30% der Europäer haben 
bereits im Internet eingekauft! 
• Nur 7% haben einen Einkauf 
bei einem Händler aus einem 
anderen EU-Mitgliedsstaat 
getätigt! 
Vgl. „Flash Eurobarometer:! 
User language preferences online“! 
5! 
Mehrsprachige Technologien – 6. Oktober 2014!
Die Sprachtechnologie-Community 
in Europa: META-NET! 
• Exzellenznetzwerk! 
• 60 Forschungseinrichtungen 
in 34 Ländern! 
• Ziel: technologische Basis 
für das mehrsprachige 
Europa! 
Mehrsprachige Technologien – 6. Oktober 2014! 6!
7! 
Übersetzung: 
Automatisierung 
ist unverzichtbar!! 
Steigende Anforderungen! 
– Übersetzungsmenge! 
– Sprachabdeckung! 
– Geschwindigkeit! 
– Qualität! 
– Preisdruck! 
– ...! 
Mehrsprachige Technologien – 6. Oktober 2014!
Automatische Übersetzung 
für Jedermann?! 
Online 
Übersetzungstool: 
Google Translate, 
Bing Translate, ...! 
Meine 
Inhalte! 
Alle Sprachen .... ?! 
Mehrsprachige Technologien – 6. Oktober 2014! 8!
Exkurs: Ansätze für MT! 
9! 
Regelbasierter Ansatz! 
– Nutzt Grammatik, 
Lexikon, Überset-zungsregeln 
! 
– Vorteil: leicht 
anpassbar an 
neue Bereiche! 
– Nachteil: sehr 
große Anzahl 
handgeschriebener 
Regeln nötig! 
! 
Mehrsprachige Technologien – 6. Oktober 2014!
Exkurs: Ansätze für MT! 
Statistischer Ansatz! 
– Nutzt Trainingsdaten von existierenden 
Übersetzungen! 
– Vorteil: Neue Zielsprachen sind mit 
Trainingsdaten schnell implementiert! 
– Nachteil: Anpassung in speziellen Domänen 
wegen fehlender Trainingsdaten oft schwierig! 
10! 
Ich mag meine Katze || I like my cat || 7! 
Ich mag meine Katze || I love my cat || 3! 
P (“I like my cat” || “Ich mag meine Katze“) = 0.7! 
Mehrsprachige Technologien – 6. Oktober 2014!
Online MT Services! 
• Basis: typischerweise statistischer Ansatz! 
• Ergebnisse sind schnell verfügbar! 
• Qualität oft schlecht – Gist-Translation! 
– Ziel: grob Inhalte erfassen! 
Mehrsprachige Technologien – 6. Oktober 2014! 11!
WAS BRAUCHEN KMU UM MT 
ERFOLGREICH EINZUSETZEN?! 
Mehrsprachige Technologien – 6. Oktober 2014! 12!
1. Eigene Übersetzungssysteme! 
• System anpassen via 
entsprechender 
Trainingsdaten! 
– Verfügbarkeit variiert 
stark je nach Sprachpaar! 
– Vgl. die META-NET 
Language White 
Paper Serie! 
8IJUF 1BQFS 4FSJFT 
5)& (&3."/ 
-"/(6"(& */ 
5)& %*(*5"- 
"(& 
8FJ•CVDI4FSJF 
%* %654$) 
413$) *. 
%*(*5-/ 
;*5-53 
MKPTDIB #VSDIBSEU 
.BSLVT HH 
,BUISJO JDIMFS 
#SJHJUUF ,SFOO 
+ÚSO ,SFVUFM 
OOFUUF -F•NÚMMNBOO 
(FPSH 3FIN 
.BOGSFE 4UFEF 
)BOT 6T[LPSFJU 
.BSUJO 7PML 
Mehrsprachige Technologien – 6. Oktober 2014! 13!
1. Eigene Übersetzungssysteme! 
• System anpassen via entsprechender 
Trainingsdaten! 
– Anpassung an Domänen! 
14! 
... 
Mehrsprachige Technologien – 6. Oktober 2014!
1. Eigene Übersetzungssysteme! 
• System anpassen via entsprechender 
Trainingsdaten! 
– Eigene Terminologie: (Firmen) spezifische 
Übersetzungsrichtlinien! 
15! 
„Auto  car“! 
„Auto  vehicle“! 
„Auto  ...“! 
Mehrsprachige Technologien – 6. Oktober 2014!
1. Eigene Übersetzungssysteme! 
• Leichte Integration in 
Digital Content 
Management! 
– Workflows zwischen 
CMS, DMS, Enterprise 
CM, Web CMS, ...! 
• Schnittstellen! 
Mehrsprachige Technologien – 6. Oktober 2014! 16!
2. Qualität! 
• Übersetzungsqualität: Was ist das?! 
– Beispiel: Text verständlich, Layout kaputt – 
Zeitersparnis durch Übersetzungssystem geht 
verloren! 
• Maße für Maschinen und den Menschen! 
– Qualität = Ähnlichkeit der Sätze mit 
Beispielübersetzungen! 
– Qualität = passend zu den Anforderungen im 
jeweiligen Übersetzungsauftrag! 
Mehrsprachige Technologien – 6. Oktober 2014! 17!
3. Integration in Workflows! 
• Inhaltserstellung! 
• Übersetzung! 
• Korrektur durch menschliche Übersetzer 
(Post-Editing)! 
• Qualitätsüberprüfung in mehreren 
Zyklen ...! 
• Fertigstellung! 
Mehrsprachige Technologien – 6. Oktober 2014! 18!
4. Nutzung existierender, 
mehrsprachiger Daten! 
• Beispieldatenquelle: Wikipedia/DBpedia! 
– Sprachübergreifende Links! 
• Herausforderung: Datenqualität! 
– Sprachabdeckung! 
– Verifizierung der Übersetzungen! 
– Verfügbarkeit! 
Mehrsprachige Technologien – 6. Oktober 2014! 19!
FORSCHUNGSERGEBNISSE! 
Mehrsprachige Technologien – 6. Oktober 2014! 20!
Forschungsergebnisse 1: MOSES! 
• Open-Source-Übersetzungssystem! 
• Übersetzungssysteme im Eigenbau! 
– Trainingsdaten! 
– Terminologie! 
– ... fertig J! 
• Achtung: Trainingsdaten sind teuer!! 
– Je mehr Qualität, desto mehr Daten nötig! 
Mehrsprachige Technologien – 6. Oktober 2014! 21!
Forschungsergebnisse 2: MQM! 
• Multidimensional Quality Metrics (MQM)! 
• Metamodell zur Definition von Metriken, 
entwickelt im QTLaunchPad Projekt! 
• Modell wird in konkreten Projekten 
instanziiert, in Abhängigkeit von den 
Anforderungen! 
– Beispiel: Layout mehr oder weniger relevant! 
Mehrsprachige Technologien – 6. Oktober 2014! 22!
Forschungsergebnisse 2: MQM! 
• Multidimensional Quality Metrics (MQM)! 
• META-Modell zur Definition von Metriken! 
• Modell wird in konkreten Projekten 
instanziiert, in Abhängigkeit von den 
Anforderungen! 
– Beispiel: Layout mehr oder weniger relevant!
Forschungsergebnisse 3: ITS 2.0! 
• Internationalization Tag Set (ITS) 2.0! 
• Metadaten („data categories“) für 
Übersetzungsworkflows! 
• Beispiel: „Translate“! 
– Ausgewählte Zeichenketten markieren 
als „nicht zu übersetzen“! 
• Mehrwert! 
– Qualität steigt! 
– Zahl von (manuellen) Korrekturen sinkt 
Geschwindigkeit wird erhöht! 
Mehrsprachige Technologien – 6. Oktober 2014! 24!
ITS 2.0 Metadaten und 
automatische Qualitätskontrolle! 
25! 
td class=totrans! 
Canyon X and the Land of the Navajo/td! 
its:domainRule .../! 
its:translateRule .../! 
its:storageSizeRule ... storageSize=30/! 
target ... its:storageSize=30 
its:locQualityIssueComment=Number of bytes in the target 
(using UTF-8) is: 32. Number allowed: 30. ... mrk...Canyon X 
et la terre des Navajos/mrk...! 
Mehrsprachige Technologien – 6. Oktober 2014!
Forschungsergebnisse 4: 
Integration mit mehrsprachigen 
Datenquellen! 
• LIDER Projekt: 
Mehrsprachigkeit trifft 
semantische Technologien! 
• Beispielnutzung:! 
– Sprachübergreifende Links bei 
Wikipedia! 
– Generierung von 
Übersetzungsvorschlägen für 
den menschlichen Übersetzer! 
Mehrsprachige Technologien – 6. Oktober 2014! 26!
Beispiel: Generierung von 
Übersetzungsvorschlägen! 
• Eingabe: DBpedia + Wikidata 
Abfrageergebnisse und ausgezeichnete 
Dokumente! 
p… the home of span! 
its-ta-ident-ref=http://dbpedia.org/resource/ 
Samuel_Beckett! 
...Samuel Beckett/span./p! 
Mehrsprachige Technologien – 6. Oktober 2014! 27!
Beispiel: Generierung von 
Übersetzungsvorschlägen! 
• Ausgabe: Übersetzungsvorschläge 
gespeichert als ITS 2.0 „Localization Note“! 
p… the home of span! 
its-ta-ident-ref=http://dbpedia.org/resource/ 
Samuel_Beckett its-loc-note=TRANSLATION 
SUGGESTIONS: 1) wikidata:サミュエル・ベケット! 
2) dbpedia:サミュエル・ベケット“ ...Samuel Beckett/ 
span./p! 
Mehrsprachige Technologien – 6. Oktober 2014! 28!
Beispiel: Generierung von 
Übersetzungsvorschlägen! 
• Ausgabe: Übersetzungsvorschläge 
gespeichert als ITS 2.0 „Localization Note“! 
p… the home of span! 
its-ta-ident-ref=http://dbpedia.org/resource/ 
Samuel_Beckett its-loc-note=TRANSLATION 
SUGGESTIONS: 1) wikidata:サミュエル・ベケット! 
2) dbpedia:サミュエル・ベケット“ ...Samuel Beckett/ 
span./p! 
29! 
Herausforderung:! 
„Zu viel Information ist keine Information!“! 
Mehrsprachige Technologien – 6. Oktober 2014!
Ziel: Die mehrsprachige Plattform! 
• Open-Source-MT für Jedermann! 
– MOSES-basiert, leicht nutzbare Schnittstellen, 
Trainingsdaten, Terminologie! 
• Qualitätsdefinition! 
– MQM: MT für jedes Projekt neu, so wie benötigt! 
• Workflowintegration! 
– ITS 2.0 Metadaten, Verarbeitung standardisierter 
Formate! 
• Nutzung mehrsprachiger, verlinkter Daten! 
– Verlinkung mit der passenden Information – nicht 
zu viel!! 
Mehrsprachige Technologien – 6. Oktober 2014! 30!
... als Teil der Open Web Platform!! 
31! 
• Open Source MT! 
• Qualitätsdefinition! 
• Workflowintegration! 
• Nutzung mehrsprachiger, 
verlinkter Daten! 
Mehrsprachige Technologien – 6. Oktober 2014!
Mehrsprachigkeit und 
semantische Technologien! 
Felix Sasaki, Georg Rehm! 
DFKI GmbH! 
Forschungsbereich Sprachtechnologie, Berlin! 
! 
Statusmeeting Semantic Media Web – 6. Oktober 2014, Berlin! 
!

Weitere ähnliche Inhalte

Ähnlich wie Mehrsprachigkeit und semantische Technologien

Bernhard Wick - appserver.io - code.talks 2015
 Bernhard Wick - appserver.io - code.talks 2015 Bernhard Wick - appserver.io - code.talks 2015
Bernhard Wick - appserver.io - code.talks 2015AboutYouGmbH
 
Generische Kuratierungstechnologien für spezifische Anwendungsfälle: Hintergr...
Generische Kuratierungstechnologien für spezifische Anwendungsfälle: Hintergr...Generische Kuratierungstechnologien für spezifische Anwendungsfälle: Hintergr...
Generische Kuratierungstechnologien für spezifische Anwendungsfälle: Hintergr...Georg Rehm
 
Digitale Kuratierungstechnologien – Beispiele aus ausgewählten Branchen
Digitale Kuratierungstechnologien – Beispiele aus ausgewählten BranchenDigitale Kuratierungstechnologien – Beispiele aus ausgewählten Branchen
Digitale Kuratierungstechnologien – Beispiele aus ausgewählten BranchenGeorg Rehm
 
Europeana Newspapers German Infoday Quality Assessment
Europeana Newspapers German Infoday Quality AssessmentEuropeana Newspapers German Infoday Quality Assessment
Europeana Newspapers German Infoday Quality AssessmentEuropeana Newspapers
 
PIM und Enterprise Marketing Management
PIM und Enterprise Marketing ManagementPIM und Enterprise Marketing Management
PIM und Enterprise Marketing ManagementStaempfliAG
 
Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für m...
Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für m...Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für m...
Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für m...Georg Rehm
 
Herausforderung „Multi-Channel Architecture”
Herausforderung „Multi-Channel Architecture”Herausforderung „Multi-Channel Architecture”
Herausforderung „Multi-Channel Architecture”OPEN KNOWLEDGE GmbH
 
Lokalisierungs- und Übersetzungsdienstleistungen | Alconost
Lokalisierungs- und Übersetzungsdienstleistungen | AlconostLokalisierungs- und Übersetzungsdienstleistungen | Alconost
Lokalisierungs- und Übersetzungsdienstleistungen | AlconostAlconost
 
Die Internationale Suchmaschinenoptimierung
Die Internationale SuchmaschinenoptimierungDie Internationale Suchmaschinenoptimierung
Die Internationale Suchmaschinenoptimierungavenit AG
 
OCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen Edition
OCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen EditionOCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen Edition
OCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen Editioncneudecker
 
Social Media Monitoring von kostenlosen und kostenpflichtigen Tools
Social Media Monitoring von kostenlosen und kostenpflichtigen ToolsSocial Media Monitoring von kostenlosen und kostenpflichtigen Tools
Social Media Monitoring von kostenlosen und kostenpflichtigen ToolsUbermetrics Technologies GmbH
 
There and back again - Responsive Webdesign mit WordPress
There and back again - Responsive Webdesign mit WordPress There and back again - Responsive Webdesign mit WordPress
There and back again - Responsive Webdesign mit WordPress Michael Oeser
 
Eine Stunde was mit Api First!
Eine Stunde was mit Api First!Eine Stunde was mit Api First!
Eine Stunde was mit Api First!JanWeinschenker
 
Session von Markus Kaußen zum Thema "Übersetzungsmanagement" - Non-Profit Camp
Session von Markus Kaußen zum Thema "Übersetzungsmanagement" - Non-Profit CampSession von Markus Kaußen zum Thema "Übersetzungsmanagement" - Non-Profit Camp
Session von Markus Kaußen zum Thema "Übersetzungsmanagement" - Non-Profit CampNonProfitCamp
 
CCD 2012: Wissensmanagement @MPS - Sören Krasel, Daimler AG
CCD 2012: Wissensmanagement @MPS - Sören Krasel, Daimler AGCCD 2012: Wissensmanagement @MPS - Sören Krasel, Daimler AG
CCD 2012: Wissensmanagement @MPS - Sören Krasel, Daimler AGCommunardo GmbH
 
Workflowmanagement in Übersetzungsprojekten
Workflowmanagement in ÜbersetzungsprojektenWorkflowmanagement in Übersetzungsprojekten
Workflowmanagement in ÜbersetzungsprojektenSDL Language Technologies
 
WordPress und Mehrsprachigkeit
WordPress und MehrsprachigkeitWordPress und Mehrsprachigkeit
WordPress und Mehrsprachigkeitfrankstaude
 
Planung und Gestaltung internationaler Webseiten
Planung und Gestaltung internationaler WebseitenPlanung und Gestaltung internationaler Webseiten
Planung und Gestaltung internationaler Webseitenkernpunkt
 

Ähnlich wie Mehrsprachigkeit und semantische Technologien (20)

Bernhard Wick - appserver.io - code.talks 2015
 Bernhard Wick - appserver.io - code.talks 2015 Bernhard Wick - appserver.io - code.talks 2015
Bernhard Wick - appserver.io - code.talks 2015
 
Generische Kuratierungstechnologien für spezifische Anwendungsfälle: Hintergr...
Generische Kuratierungstechnologien für spezifische Anwendungsfälle: Hintergr...Generische Kuratierungstechnologien für spezifische Anwendungsfälle: Hintergr...
Generische Kuratierungstechnologien für spezifische Anwendungsfälle: Hintergr...
 
Digitale Kuratierungstechnologien – Beispiele aus ausgewählten Branchen
Digitale Kuratierungstechnologien – Beispiele aus ausgewählten BranchenDigitale Kuratierungstechnologien – Beispiele aus ausgewählten Branchen
Digitale Kuratierungstechnologien – Beispiele aus ausgewählten Branchen
 
ENP_ONB_infday_GMuehlberger
ENP_ONB_infday_GMuehlbergerENP_ONB_infday_GMuehlberger
ENP_ONB_infday_GMuehlberger
 
Europeana Newspapers German Infoday Quality Assessment
Europeana Newspapers German Infoday Quality AssessmentEuropeana Newspapers German Infoday Quality Assessment
Europeana Newspapers German Infoday Quality Assessment
 
PIM und Enterprise Marketing Management
PIM und Enterprise Marketing ManagementPIM und Enterprise Marketing Management
PIM und Enterprise Marketing Management
 
Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für m...
Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für m...Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für m...
Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für m...
 
Herausforderung „Multi-Channel Architecture”
Herausforderung „Multi-Channel Architecture”Herausforderung „Multi-Channel Architecture”
Herausforderung „Multi-Channel Architecture”
 
Lokalisierungs- und Übersetzungsdienstleistungen | Alconost
Lokalisierungs- und Übersetzungsdienstleistungen | AlconostLokalisierungs- und Übersetzungsdienstleistungen | Alconost
Lokalisierungs- und Übersetzungsdienstleistungen | Alconost
 
Die Internationale Suchmaschinenoptimierung
Die Internationale SuchmaschinenoptimierungDie Internationale Suchmaschinenoptimierung
Die Internationale Suchmaschinenoptimierung
 
OCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen Edition
OCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen EditionOCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen Edition
OCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen Edition
 
Social Media Monitoring von kostenlosen und kostenpflichtigen Tools
Social Media Monitoring von kostenlosen und kostenpflichtigen ToolsSocial Media Monitoring von kostenlosen und kostenpflichtigen Tools
Social Media Monitoring von kostenlosen und kostenpflichtigen Tools
 
There and back again - Responsive Webdesign mit WordPress
There and back again - Responsive Webdesign mit WordPress There and back again - Responsive Webdesign mit WordPress
There and back again - Responsive Webdesign mit WordPress
 
Eine Stunde was mit Api First!
Eine Stunde was mit Api First!Eine Stunde was mit Api First!
Eine Stunde was mit Api First!
 
Session von Markus Kaußen zum Thema "Übersetzungsmanagement" - Non-Profit Camp
Session von Markus Kaußen zum Thema "Übersetzungsmanagement" - Non-Profit CampSession von Markus Kaußen zum Thema "Übersetzungsmanagement" - Non-Profit Camp
Session von Markus Kaußen zum Thema "Übersetzungsmanagement" - Non-Profit Camp
 
CCD 2012: Wissensmanagement @MPS - Sören Krasel, Daimler AG
CCD 2012: Wissensmanagement @MPS - Sören Krasel, Daimler AGCCD 2012: Wissensmanagement @MPS - Sören Krasel, Daimler AG
CCD 2012: Wissensmanagement @MPS - Sören Krasel, Daimler AG
 
Workflowmanagement in Übersetzungsprojekten
Workflowmanagement in ÜbersetzungsprojektenWorkflowmanagement in Übersetzungsprojekten
Workflowmanagement in Übersetzungsprojekten
 
WordPress und Mehrsprachigkeit
WordPress und MehrsprachigkeitWordPress und Mehrsprachigkeit
WordPress und Mehrsprachigkeit
 
Planung und Gestaltung internationaler Webseiten
Planung und Gestaltung internationaler WebseitenPlanung und Gestaltung internationaler Webseiten
Planung und Gestaltung internationaler Webseiten
 
Kochbuch küche
Kochbuch kücheKochbuch küche
Kochbuch küche
 

Mehr von Georg Rehm

QURATOR: A Flexible AI Platform for the Adaptive Analysis and Creative Genera...
QURATOR: A Flexible AI Platform for the Adaptive Analysis and Creative Genera...QURATOR: A Flexible AI Platform for the Adaptive Analysis and Creative Genera...
QURATOR: A Flexible AI Platform for the Adaptive Analysis and Creative Genera...Georg Rehm
 
Observations on Annotations – From Computational Linguistics and the World Wi...
Observations on Annotations – From Computational Linguistics and the World Wi...Observations on Annotations – From Computational Linguistics and the World Wi...
Observations on Annotations – From Computational Linguistics and the World Wi...Georg Rehm
 
The Preparation, Impact and Future of the META-NET White Paper Series “Europe...
The Preparation, Impact and Future of the META-NET White Paper Series “Europe...The Preparation, Impact and Future of the META-NET White Paper Series “Europe...
The Preparation, Impact and Future of the META-NET White Paper Series “Europe...Georg Rehm
 
AI and Conference Interpretation – From Smart Assistants for the Human Interp...
AI and Conference Interpretation – From Smart Assistants for the Human Interp...AI and Conference Interpretation – From Smart Assistants for the Human Interp...
AI and Conference Interpretation – From Smart Assistants for the Human Interp...Georg Rehm
 
Künstliche Intelligenz beim Dolmetschen und Übersetzen
Künstliche Intelligenz beim Dolmetschen und ÜbersetzenKünstliche Intelligenz beim Dolmetschen und Übersetzen
Künstliche Intelligenz beim Dolmetschen und ÜbersetzenGeorg Rehm
 
Herausforderungen und Lösungen für die europäische Sprachtechnologie- Forschu...
Herausforderungen und Lösungen für die europäische Sprachtechnologie- Forschu...Herausforderungen und Lösungen für die europäische Sprachtechnologie- Forschu...
Herausforderungen und Lösungen für die europäische Sprachtechnologie- Forschu...Georg Rehm
 
European Language Technologies – Past, Present and Future
European Language Technologies – Past, Present and FutureEuropean Language Technologies – Past, Present and Future
European Language Technologies – Past, Present and FutureGeorg Rehm
 
Towards a Human Language Project for Multilingual Europe: AI and Interpretation
Towards a Human Language Project for Multilingual Europe: AI and InterpretationTowards a Human Language Project for Multilingual Europe: AI and Interpretation
Towards a Human Language Project for Multilingual Europe: AI and InterpretationGeorg Rehm
 
KI, Sprachtechnologie und Digital Humanities: Ein (unvollständiger) Überblick
KI, Sprachtechnologie und Digital Humanities: Ein (unvollständiger) ÜberblickKI, Sprachtechnologie und Digital Humanities: Ein (unvollständiger) Überblick
KI, Sprachtechnologie und Digital Humanities: Ein (unvollständiger) ÜberblickGeorg Rehm
 
Language Technologies for Multilingual Europe - Towards a Human Language Proj...
Language Technologies for Multilingual Europe - Towards a Human Language Proj...Language Technologies for Multilingual Europe - Towards a Human Language Proj...
Language Technologies for Multilingual Europe - Towards a Human Language Proj...Georg Rehm
 
AI for Translation Technologies and Multilingual Europe
AI for Translation Technologies and Multilingual EuropeAI for Translation Technologies and Multilingual Europe
AI for Translation Technologies and Multilingual EuropeGeorg Rehm
 
Artificial Intelligence for the Film Industry
Artificial Intelligence for the Film IndustryArtificial Intelligence for the Film Industry
Artificial Intelligence for the Film IndustryGeorg Rehm
 
KI für die Kundenkommunikation
KI für die KundenkommunikationKI für die Kundenkommunikation
KI für die KundenkommunikationGeorg Rehm
 
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen BibliothekenDigitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen BibliothekenGeorg Rehm
 
EPUB, quo vadis? Publishing im W3C
EPUB, quo vadis? Publishing im W3CEPUB, quo vadis? Publishing im W3C
EPUB, quo vadis? Publishing im W3CGeorg Rehm
 
Multilingual Europe in late 2016 – A Strategic Research and Innovation Agenda...
Multilingual Europe in late 2016 – A Strategic Research and Innovation Agenda...Multilingual Europe in late 2016 – A Strategic Research and Innovation Agenda...
Multilingual Europe in late 2016 – A Strategic Research and Innovation Agenda...Georg Rehm
 
Multilingualism for Digital Europe
Multilingualism for Digital EuropeMultilingualism for Digital Europe
Multilingualism for Digital EuropeGeorg Rehm
 
Digitale Kuratierungstechnologien für verschiedene Branchen und Anwendungssze...
Digitale Kuratierungstechnologien für verschiedene Branchen und Anwendungssze...Digitale Kuratierungstechnologien für verschiedene Branchen und Anwendungssze...
Digitale Kuratierungstechnologien für verschiedene Branchen und Anwendungssze...Georg Rehm
 
Curation Technologies for Multilingual Europe
Curation Technologies for Multilingual EuropeCuration Technologies for Multilingual Europe
Curation Technologies for Multilingual EuropeGeorg Rehm
 
The Strategic Agenda for the Multilingual Digital Single Market V0.9
The Strategic Agenda for the Multilingual Digital Single Market V0.9The Strategic Agenda for the Multilingual Digital Single Market V0.9
The Strategic Agenda for the Multilingual Digital Single Market V0.9Georg Rehm
 

Mehr von Georg Rehm (20)

QURATOR: A Flexible AI Platform for the Adaptive Analysis and Creative Genera...
QURATOR: A Flexible AI Platform for the Adaptive Analysis and Creative Genera...QURATOR: A Flexible AI Platform for the Adaptive Analysis and Creative Genera...
QURATOR: A Flexible AI Platform for the Adaptive Analysis and Creative Genera...
 
Observations on Annotations – From Computational Linguistics and the World Wi...
Observations on Annotations – From Computational Linguistics and the World Wi...Observations on Annotations – From Computational Linguistics and the World Wi...
Observations on Annotations – From Computational Linguistics and the World Wi...
 
The Preparation, Impact and Future of the META-NET White Paper Series “Europe...
The Preparation, Impact and Future of the META-NET White Paper Series “Europe...The Preparation, Impact and Future of the META-NET White Paper Series “Europe...
The Preparation, Impact and Future of the META-NET White Paper Series “Europe...
 
AI and Conference Interpretation – From Smart Assistants for the Human Interp...
AI and Conference Interpretation – From Smart Assistants for the Human Interp...AI and Conference Interpretation – From Smart Assistants for the Human Interp...
AI and Conference Interpretation – From Smart Assistants for the Human Interp...
 
Künstliche Intelligenz beim Dolmetschen und Übersetzen
Künstliche Intelligenz beim Dolmetschen und ÜbersetzenKünstliche Intelligenz beim Dolmetschen und Übersetzen
Künstliche Intelligenz beim Dolmetschen und Übersetzen
 
Herausforderungen und Lösungen für die europäische Sprachtechnologie- Forschu...
Herausforderungen und Lösungen für die europäische Sprachtechnologie- Forschu...Herausforderungen und Lösungen für die europäische Sprachtechnologie- Forschu...
Herausforderungen und Lösungen für die europäische Sprachtechnologie- Forschu...
 
European Language Technologies – Past, Present and Future
European Language Technologies – Past, Present and FutureEuropean Language Technologies – Past, Present and Future
European Language Technologies – Past, Present and Future
 
Towards a Human Language Project for Multilingual Europe: AI and Interpretation
Towards a Human Language Project for Multilingual Europe: AI and InterpretationTowards a Human Language Project for Multilingual Europe: AI and Interpretation
Towards a Human Language Project for Multilingual Europe: AI and Interpretation
 
KI, Sprachtechnologie und Digital Humanities: Ein (unvollständiger) Überblick
KI, Sprachtechnologie und Digital Humanities: Ein (unvollständiger) ÜberblickKI, Sprachtechnologie und Digital Humanities: Ein (unvollständiger) Überblick
KI, Sprachtechnologie und Digital Humanities: Ein (unvollständiger) Überblick
 
Language Technologies for Multilingual Europe - Towards a Human Language Proj...
Language Technologies for Multilingual Europe - Towards a Human Language Proj...Language Technologies for Multilingual Europe - Towards a Human Language Proj...
Language Technologies for Multilingual Europe - Towards a Human Language Proj...
 
AI for Translation Technologies and Multilingual Europe
AI for Translation Technologies and Multilingual EuropeAI for Translation Technologies and Multilingual Europe
AI for Translation Technologies and Multilingual Europe
 
Artificial Intelligence for the Film Industry
Artificial Intelligence for the Film IndustryArtificial Intelligence for the Film Industry
Artificial Intelligence for the Film Industry
 
KI für die Kundenkommunikation
KI für die KundenkommunikationKI für die Kundenkommunikation
KI für die Kundenkommunikation
 
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen BibliothekenDigitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
 
EPUB, quo vadis? Publishing im W3C
EPUB, quo vadis? Publishing im W3CEPUB, quo vadis? Publishing im W3C
EPUB, quo vadis? Publishing im W3C
 
Multilingual Europe in late 2016 – A Strategic Research and Innovation Agenda...
Multilingual Europe in late 2016 – A Strategic Research and Innovation Agenda...Multilingual Europe in late 2016 – A Strategic Research and Innovation Agenda...
Multilingual Europe in late 2016 – A Strategic Research and Innovation Agenda...
 
Multilingualism for Digital Europe
Multilingualism for Digital EuropeMultilingualism for Digital Europe
Multilingualism for Digital Europe
 
Digitale Kuratierungstechnologien für verschiedene Branchen und Anwendungssze...
Digitale Kuratierungstechnologien für verschiedene Branchen und Anwendungssze...Digitale Kuratierungstechnologien für verschiedene Branchen und Anwendungssze...
Digitale Kuratierungstechnologien für verschiedene Branchen und Anwendungssze...
 
Curation Technologies for Multilingual Europe
Curation Technologies for Multilingual EuropeCuration Technologies for Multilingual Europe
Curation Technologies for Multilingual Europe
 
The Strategic Agenda for the Multilingual Digital Single Market V0.9
The Strategic Agenda for the Multilingual Digital Single Market V0.9The Strategic Agenda for the Multilingual Digital Single Market V0.9
The Strategic Agenda for the Multilingual Digital Single Market V0.9
 

Mehrsprachigkeit und semantische Technologien

  • 1. Mehrsprachigkeit und semantische Technologien! Felix Sasaki, Georg Rehm! DFKI GmbH! Forschungsbereich Sprachtechnologie, Berlin! ! Statusmeeting Semantic Media Web – 6. Oktober 2014, Berlin! !
  • 2. Mehrsprachigkeit – ein Problem?! Mehrsprachige Technologien – 6. Oktober 2014! 2!
  • 3. Übersetzung: Ein Riesengeschäft!! Kommerzielle Übersetzung: ein Markt von über 20 Milliarden Euro jährlich!! Bereitstellung von Inhalten in dutzenden von Sprachen immer öfter unverzichtbar! Mehrsprachige Technologien – 6. Oktober 2014! 3!
  • 4. Übersetzung: Ein Riesengeschäft!! Wirtschaftlicher Vorteil;! Anforderung an öffentliche Einrichtungen, insbesondere in Europa! Mehrsprachige Technologien – 6. Oktober 2014! 4!
  • 5. Übersetzung – ein Potential in Europa: The Digital Single Market!! • 51% der europäischen Einzelhändler verkaufen Waren über das Internet! • Nur 21% unterstützen grenzüberschreitende Transaktionen! • 30% der Europäer haben bereits im Internet eingekauft! • Nur 7% haben einen Einkauf bei einem Händler aus einem anderen EU-Mitgliedsstaat getätigt! Vgl. „Flash Eurobarometer:! User language preferences online“! 5! Mehrsprachige Technologien – 6. Oktober 2014!
  • 6. Die Sprachtechnologie-Community in Europa: META-NET! • Exzellenznetzwerk! • 60 Forschungseinrichtungen in 34 Ländern! • Ziel: technologische Basis für das mehrsprachige Europa! Mehrsprachige Technologien – 6. Oktober 2014! 6!
  • 7. 7! Übersetzung: Automatisierung ist unverzichtbar!! Steigende Anforderungen! – Übersetzungsmenge! – Sprachabdeckung! – Geschwindigkeit! – Qualität! – Preisdruck! – ...! Mehrsprachige Technologien – 6. Oktober 2014!
  • 8. Automatische Übersetzung für Jedermann?! Online Übersetzungstool: Google Translate, Bing Translate, ...! Meine Inhalte! Alle Sprachen .... ?! Mehrsprachige Technologien – 6. Oktober 2014! 8!
  • 9. Exkurs: Ansätze für MT! 9! Regelbasierter Ansatz! – Nutzt Grammatik, Lexikon, Überset-zungsregeln ! – Vorteil: leicht anpassbar an neue Bereiche! – Nachteil: sehr große Anzahl handgeschriebener Regeln nötig! ! Mehrsprachige Technologien – 6. Oktober 2014!
  • 10. Exkurs: Ansätze für MT! Statistischer Ansatz! – Nutzt Trainingsdaten von existierenden Übersetzungen! – Vorteil: Neue Zielsprachen sind mit Trainingsdaten schnell implementiert! – Nachteil: Anpassung in speziellen Domänen wegen fehlender Trainingsdaten oft schwierig! 10! Ich mag meine Katze || I like my cat || 7! Ich mag meine Katze || I love my cat || 3! P (“I like my cat” || “Ich mag meine Katze“) = 0.7! Mehrsprachige Technologien – 6. Oktober 2014!
  • 11. Online MT Services! • Basis: typischerweise statistischer Ansatz! • Ergebnisse sind schnell verfügbar! • Qualität oft schlecht – Gist-Translation! – Ziel: grob Inhalte erfassen! Mehrsprachige Technologien – 6. Oktober 2014! 11!
  • 12. WAS BRAUCHEN KMU UM MT ERFOLGREICH EINZUSETZEN?! Mehrsprachige Technologien – 6. Oktober 2014! 12!
  • 13. 1. Eigene Übersetzungssysteme! • System anpassen via entsprechender Trainingsdaten! – Verfügbarkeit variiert stark je nach Sprachpaar! – Vgl. die META-NET Language White Paper Serie! 8IJUF 1BQFS 4FSJFT 5)& (&3."/ -"/(6"(& */ 5)& %*(*5"- "(& 8FJ•CVDI4FSJF %* %654$) 413$) *. %*(*5-/ ;*5-53 MKPTDIB #VSDIBSEU .BSLVT HH ,BUISJO JDIMFS #SJHJUUF ,SFOO +ÚSO ,SFVUFM OOFUUF -F•NÚMMNBOO (FPSH 3FIN .BOGSFE 4UFEF )BOT 6T[LPSFJU .BSUJO 7PML Mehrsprachige Technologien – 6. Oktober 2014! 13!
  • 14. 1. Eigene Übersetzungssysteme! • System anpassen via entsprechender Trainingsdaten! – Anpassung an Domänen! 14! ... Mehrsprachige Technologien – 6. Oktober 2014!
  • 15. 1. Eigene Übersetzungssysteme! • System anpassen via entsprechender Trainingsdaten! – Eigene Terminologie: (Firmen) spezifische Übersetzungsrichtlinien! 15! „Auto car“! „Auto vehicle“! „Auto ...“! Mehrsprachige Technologien – 6. Oktober 2014!
  • 16. 1. Eigene Übersetzungssysteme! • Leichte Integration in Digital Content Management! – Workflows zwischen CMS, DMS, Enterprise CM, Web CMS, ...! • Schnittstellen! Mehrsprachige Technologien – 6. Oktober 2014! 16!
  • 17. 2. Qualität! • Übersetzungsqualität: Was ist das?! – Beispiel: Text verständlich, Layout kaputt – Zeitersparnis durch Übersetzungssystem geht verloren! • Maße für Maschinen und den Menschen! – Qualität = Ähnlichkeit der Sätze mit Beispielübersetzungen! – Qualität = passend zu den Anforderungen im jeweiligen Übersetzungsauftrag! Mehrsprachige Technologien – 6. Oktober 2014! 17!
  • 18. 3. Integration in Workflows! • Inhaltserstellung! • Übersetzung! • Korrektur durch menschliche Übersetzer (Post-Editing)! • Qualitätsüberprüfung in mehreren Zyklen ...! • Fertigstellung! Mehrsprachige Technologien – 6. Oktober 2014! 18!
  • 19. 4. Nutzung existierender, mehrsprachiger Daten! • Beispieldatenquelle: Wikipedia/DBpedia! – Sprachübergreifende Links! • Herausforderung: Datenqualität! – Sprachabdeckung! – Verifizierung der Übersetzungen! – Verfügbarkeit! Mehrsprachige Technologien – 6. Oktober 2014! 19!
  • 21. Forschungsergebnisse 1: MOSES! • Open-Source-Übersetzungssystem! • Übersetzungssysteme im Eigenbau! – Trainingsdaten! – Terminologie! – ... fertig J! • Achtung: Trainingsdaten sind teuer!! – Je mehr Qualität, desto mehr Daten nötig! Mehrsprachige Technologien – 6. Oktober 2014! 21!
  • 22. Forschungsergebnisse 2: MQM! • Multidimensional Quality Metrics (MQM)! • Metamodell zur Definition von Metriken, entwickelt im QTLaunchPad Projekt! • Modell wird in konkreten Projekten instanziiert, in Abhängigkeit von den Anforderungen! – Beispiel: Layout mehr oder weniger relevant! Mehrsprachige Technologien – 6. Oktober 2014! 22!
  • 23. Forschungsergebnisse 2: MQM! • Multidimensional Quality Metrics (MQM)! • META-Modell zur Definition von Metriken! • Modell wird in konkreten Projekten instanziiert, in Abhängigkeit von den Anforderungen! – Beispiel: Layout mehr oder weniger relevant!
  • 24. Forschungsergebnisse 3: ITS 2.0! • Internationalization Tag Set (ITS) 2.0! • Metadaten („data categories“) für Übersetzungsworkflows! • Beispiel: „Translate“! – Ausgewählte Zeichenketten markieren als „nicht zu übersetzen“! • Mehrwert! – Qualität steigt! – Zahl von (manuellen) Korrekturen sinkt Geschwindigkeit wird erhöht! Mehrsprachige Technologien – 6. Oktober 2014! 24!
  • 25. ITS 2.0 Metadaten und automatische Qualitätskontrolle! 25! td class=totrans! Canyon X and the Land of the Navajo/td! its:domainRule .../! its:translateRule .../! its:storageSizeRule ... storageSize=30/! target ... its:storageSize=30 its:locQualityIssueComment=Number of bytes in the target (using UTF-8) is: 32. Number allowed: 30. ... mrk...Canyon X et la terre des Navajos/mrk...! Mehrsprachige Technologien – 6. Oktober 2014!
  • 26. Forschungsergebnisse 4: Integration mit mehrsprachigen Datenquellen! • LIDER Projekt: Mehrsprachigkeit trifft semantische Technologien! • Beispielnutzung:! – Sprachübergreifende Links bei Wikipedia! – Generierung von Übersetzungsvorschlägen für den menschlichen Übersetzer! Mehrsprachige Technologien – 6. Oktober 2014! 26!
  • 27. Beispiel: Generierung von Übersetzungsvorschlägen! • Eingabe: DBpedia + Wikidata Abfrageergebnisse und ausgezeichnete Dokumente! p… the home of span! its-ta-ident-ref=http://dbpedia.org/resource/ Samuel_Beckett! ...Samuel Beckett/span./p! Mehrsprachige Technologien – 6. Oktober 2014! 27!
  • 28. Beispiel: Generierung von Übersetzungsvorschlägen! • Ausgabe: Übersetzungsvorschläge gespeichert als ITS 2.0 „Localization Note“! p… the home of span! its-ta-ident-ref=http://dbpedia.org/resource/ Samuel_Beckett its-loc-note=TRANSLATION SUGGESTIONS: 1) wikidata:サミュエル・ベケット! 2) dbpedia:サミュエル・ベケット“ ...Samuel Beckett/ span./p! Mehrsprachige Technologien – 6. Oktober 2014! 28!
  • 29. Beispiel: Generierung von Übersetzungsvorschlägen! • Ausgabe: Übersetzungsvorschläge gespeichert als ITS 2.0 „Localization Note“! p… the home of span! its-ta-ident-ref=http://dbpedia.org/resource/ Samuel_Beckett its-loc-note=TRANSLATION SUGGESTIONS: 1) wikidata:サミュエル・ベケット! 2) dbpedia:サミュエル・ベケット“ ...Samuel Beckett/ span./p! 29! Herausforderung:! „Zu viel Information ist keine Information!“! Mehrsprachige Technologien – 6. Oktober 2014!
  • 30. Ziel: Die mehrsprachige Plattform! • Open-Source-MT für Jedermann! – MOSES-basiert, leicht nutzbare Schnittstellen, Trainingsdaten, Terminologie! • Qualitätsdefinition! – MQM: MT für jedes Projekt neu, so wie benötigt! • Workflowintegration! – ITS 2.0 Metadaten, Verarbeitung standardisierter Formate! • Nutzung mehrsprachiger, verlinkter Daten! – Verlinkung mit der passenden Information – nicht zu viel!! Mehrsprachige Technologien – 6. Oktober 2014! 30!
  • 31. ... als Teil der Open Web Platform!! 31! • Open Source MT! • Qualitätsdefinition! • Workflowintegration! • Nutzung mehrsprachiger, verlinkter Daten! Mehrsprachige Technologien – 6. Oktober 2014!
  • 32. Mehrsprachigkeit und semantische Technologien! Felix Sasaki, Georg Rehm! DFKI GmbH! Forschungsbereich Sprachtechnologie, Berlin! ! Statusmeeting Semantic Media Web – 6. Oktober 2014, Berlin! !