Mehrsprachigkeit und 
semantische Technologien! 
Felix Sasaki, Georg Rehm! 
DFKI GmbH! 
Forschungsbereich Sprachtechnologi...
Mehrsprachigkeit – ein Problem?! 
Mehrsprachige Technologien – 6. Oktober 2014! 2!
Übersetzung: Ein Riesengeschäft!! 
Kommerzielle Übersetzung: ein Markt von 
über 20 Milliarden Euro jährlich!! 
Bereitstel...
Übersetzung: Ein Riesengeschäft!! 
Wirtschaftlicher Vorteil;! 
Anforderung an öffentliche 
Einrichtungen, insbesondere in ...
Übersetzung – ein Potential in Europa: 
The Digital Single Market!! 
• 51% der europäischen 
Einzelhändler verkaufen 
Ware...
Die Sprachtechnologie-Community 
in Europa: META-NET! 
• Exzellenznetzwerk! 
• 60 Forschungseinrichtungen 
in 34 Ländern! ...
7! 
Übersetzung: 
Automatisierung 
ist unverzichtbar!! 
Steigende Anforderungen! 
– Übersetzungsmenge! 
– Sprachabdeckung!...
Automatische Übersetzung 
für Jedermann?! 
Online 
Übersetzungstool: 
Google Translate, 
Bing Translate, ...! 
Meine 
Inha...
Exkurs: Ansätze für MT! 
9! 
Regelbasierter Ansatz! 
– Nutzt Grammatik, 
Lexikon, Überset-zungsregeln 
! 
– Vorteil: leich...
Exkurs: Ansätze für MT! 
Statistischer Ansatz! 
– Nutzt Trainingsdaten von existierenden 
Übersetzungen! 
– Vorteil: Neue ...
Online MT Services! 
• Basis: typischerweise statistischer Ansatz! 
• Ergebnisse sind schnell verfügbar! 
• Qualität oft s...
WAS BRAUCHEN KMU UM MT 
ERFOLGREICH EINZUSETZEN?! 
Mehrsprachige Technologien – 6. Oktober 2014! 12!
1. Eigene Übersetzungssysteme! 
• System anpassen via 
entsprechender 
Trainingsdaten! 
– Verfügbarkeit variiert 
stark je...
1. Eigene Übersetzungssysteme! 
• System anpassen via entsprechender 
Trainingsdaten! 
– Anpassung an Domänen! 
14! 
... 
...
1. Eigene Übersetzungssysteme! 
• System anpassen via entsprechender 
Trainingsdaten! 
– Eigene Terminologie: (Firmen) spe...
1. Eigene Übersetzungssysteme! 
• Leichte Integration in 
Digital Content 
Management! 
– Workflows zwischen 
CMS, DMS, En...
2. Qualität! 
• Übersetzungsqualität: Was ist das?! 
– Beispiel: Text verständlich, Layout kaputt – 
Zeitersparnis durch Ü...
3. Integration in Workflows! 
• Inhaltserstellung! 
• Übersetzung! 
• Korrektur durch menschliche Übersetzer 
(Post-Editin...
4. Nutzung existierender, 
mehrsprachiger Daten! 
• Beispieldatenquelle: Wikipedia/DBpedia! 
– Sprachübergreifende Links! ...
FORSCHUNGSERGEBNISSE! 
Mehrsprachige Technologien – 6. Oktober 2014! 20!
Forschungsergebnisse 1: MOSES! 
• Open-Source-Übersetzungssystem! 
• Übersetzungssysteme im Eigenbau! 
– Trainingsdaten! 
...
Forschungsergebnisse 2: MQM! 
• Multidimensional Quality Metrics (MQM)! 
• Metamodell zur Definition von Metriken, 
entwic...
Forschungsergebnisse 2: MQM! 
• Multidimensional Quality Metrics (MQM)! 
• META-Modell zur Definition von Metriken! 
• Mod...
Forschungsergebnisse 3: ITS 2.0! 
• Internationalization Tag Set (ITS) 2.0! 
• Metadaten („data categories“) für 
Übersetz...
ITS 2.0 Metadaten und 
automatische Qualitätskontrolle! 
25! 
td class=totrans! 
Canyon X and the Land of the Navajo/td! 
...
Forschungsergebnisse 4: 
Integration mit mehrsprachigen 
Datenquellen! 
• LIDER Projekt: 
Mehrsprachigkeit trifft 
semanti...
Beispiel: Generierung von 
Übersetzungsvorschlägen! 
• Eingabe: DBpedia + Wikidata 
Abfrageergebnisse und ausgezeichnete 
...
Beispiel: Generierung von 
Übersetzungsvorschlägen! 
• Ausgabe: Übersetzungsvorschläge 
gespeichert als ITS 2.0 „Localizat...
Beispiel: Generierung von 
Übersetzungsvorschlägen! 
• Ausgabe: Übersetzungsvorschläge 
gespeichert als ITS 2.0 „Localizat...
Ziel: Die mehrsprachige Plattform! 
• Open-Source-MT für Jedermann! 
– MOSES-basiert, leicht nutzbare Schnittstellen, 
Tra...
... als Teil der Open Web Platform!! 
31! 
• Open Source MT! 
• Qualitätsdefinition! 
• Workflowintegration! 
• Nutzung me...
Mehrsprachigkeit und 
semantische Technologien! 
Felix Sasaki, Georg Rehm! 
DFKI GmbH! 
Forschungsbereich Sprachtechnologi...
Nächste SlideShare
Wird geladen in …5
×

Mehrsprachigkeit und semantische Technologien

544 Aufrufe

Veröffentlicht am

Felix Sasaki, Georg Rehm. Mehrsprachigkeit und semantische Technologien. Berlin, Germany. October 2014. October 06, 2014.

Veröffentlicht in: Technologie
0 Kommentare
0 Gefällt mir
Statistik
Notizen
  • Als Erste(r) kommentieren

  • Gehören Sie zu den Ersten, denen das gefällt!

Keine Downloads
Aufrufe
Aufrufe insgesamt
544
Auf SlideShare
0
Aus Einbettungen
0
Anzahl an Einbettungen
6
Aktionen
Geteilt
0
Downloads
1
Kommentare
0
Gefällt mir
0
Einbettungen 0
Keine Einbettungen

Keine Notizen für die Folie

Mehrsprachigkeit und semantische Technologien

  1. 1. Mehrsprachigkeit und semantische Technologien! Felix Sasaki, Georg Rehm! DFKI GmbH! Forschungsbereich Sprachtechnologie, Berlin! ! Statusmeeting Semantic Media Web – 6. Oktober 2014, Berlin! !
  2. 2. Mehrsprachigkeit – ein Problem?! Mehrsprachige Technologien – 6. Oktober 2014! 2!
  3. 3. Übersetzung: Ein Riesengeschäft!! Kommerzielle Übersetzung: ein Markt von über 20 Milliarden Euro jährlich!! Bereitstellung von Inhalten in dutzenden von Sprachen immer öfter unverzichtbar! Mehrsprachige Technologien – 6. Oktober 2014! 3!
  4. 4. Übersetzung: Ein Riesengeschäft!! Wirtschaftlicher Vorteil;! Anforderung an öffentliche Einrichtungen, insbesondere in Europa! Mehrsprachige Technologien – 6. Oktober 2014! 4!
  5. 5. Übersetzung – ein Potential in Europa: The Digital Single Market!! • 51% der europäischen Einzelhändler verkaufen Waren über das Internet! • Nur 21% unterstützen grenzüberschreitende Transaktionen! • 30% der Europäer haben bereits im Internet eingekauft! • Nur 7% haben einen Einkauf bei einem Händler aus einem anderen EU-Mitgliedsstaat getätigt! Vgl. „Flash Eurobarometer:! User language preferences online“! 5! Mehrsprachige Technologien – 6. Oktober 2014!
  6. 6. Die Sprachtechnologie-Community in Europa: META-NET! • Exzellenznetzwerk! • 60 Forschungseinrichtungen in 34 Ländern! • Ziel: technologische Basis für das mehrsprachige Europa! Mehrsprachige Technologien – 6. Oktober 2014! 6!
  7. 7. 7! Übersetzung: Automatisierung ist unverzichtbar!! Steigende Anforderungen! – Übersetzungsmenge! – Sprachabdeckung! – Geschwindigkeit! – Qualität! – Preisdruck! – ...! Mehrsprachige Technologien – 6. Oktober 2014!
  8. 8. Automatische Übersetzung für Jedermann?! Online Übersetzungstool: Google Translate, Bing Translate, ...! Meine Inhalte! Alle Sprachen .... ?! Mehrsprachige Technologien – 6. Oktober 2014! 8!
  9. 9. Exkurs: Ansätze für MT! 9! Regelbasierter Ansatz! – Nutzt Grammatik, Lexikon, Überset-zungsregeln ! – Vorteil: leicht anpassbar an neue Bereiche! – Nachteil: sehr große Anzahl handgeschriebener Regeln nötig! ! Mehrsprachige Technologien – 6. Oktober 2014!
  10. 10. Exkurs: Ansätze für MT! Statistischer Ansatz! – Nutzt Trainingsdaten von existierenden Übersetzungen! – Vorteil: Neue Zielsprachen sind mit Trainingsdaten schnell implementiert! – Nachteil: Anpassung in speziellen Domänen wegen fehlender Trainingsdaten oft schwierig! 10! Ich mag meine Katze || I like my cat || 7! Ich mag meine Katze || I love my cat || 3! P (“I like my cat” || “Ich mag meine Katze“) = 0.7! Mehrsprachige Technologien – 6. Oktober 2014!
  11. 11. Online MT Services! • Basis: typischerweise statistischer Ansatz! • Ergebnisse sind schnell verfügbar! • Qualität oft schlecht – Gist-Translation! – Ziel: grob Inhalte erfassen! Mehrsprachige Technologien – 6. Oktober 2014! 11!
  12. 12. WAS BRAUCHEN KMU UM MT ERFOLGREICH EINZUSETZEN?! Mehrsprachige Technologien – 6. Oktober 2014! 12!
  13. 13. 1. Eigene Übersetzungssysteme! • System anpassen via entsprechender Trainingsdaten! – Verfügbarkeit variiert stark je nach Sprachpaar! – Vgl. die META-NET Language White Paper Serie! 8IJUF 1BQFS 4FSJFT 5)& (&3."/ -"/(6"(& */ 5)& %*(*5"- "(& 8FJ•CVDI4FSJF %* %654$) 413$) *. %*(*5-/ ;*5-53 MKPTDIB #VSDIBSEU .BSLVT HH ,BUISJO JDIMFS #SJHJUUF ,SFOO +ÚSO ,SFVUFM OOFUUF -F•NÚMMNBOO (FPSH 3FIN .BOGSFE 4UFEF )BOT 6T[LPSFJU .BSUJO 7PML Mehrsprachige Technologien – 6. Oktober 2014! 13!
  14. 14. 1. Eigene Übersetzungssysteme! • System anpassen via entsprechender Trainingsdaten! – Anpassung an Domänen! 14! ... Mehrsprachige Technologien – 6. Oktober 2014!
  15. 15. 1. Eigene Übersetzungssysteme! • System anpassen via entsprechender Trainingsdaten! – Eigene Terminologie: (Firmen) spezifische Übersetzungsrichtlinien! 15! „Auto car“! „Auto vehicle“! „Auto ...“! Mehrsprachige Technologien – 6. Oktober 2014!
  16. 16. 1. Eigene Übersetzungssysteme! • Leichte Integration in Digital Content Management! – Workflows zwischen CMS, DMS, Enterprise CM, Web CMS, ...! • Schnittstellen! Mehrsprachige Technologien – 6. Oktober 2014! 16!
  17. 17. 2. Qualität! • Übersetzungsqualität: Was ist das?! – Beispiel: Text verständlich, Layout kaputt – Zeitersparnis durch Übersetzungssystem geht verloren! • Maße für Maschinen und den Menschen! – Qualität = Ähnlichkeit der Sätze mit Beispielübersetzungen! – Qualität = passend zu den Anforderungen im jeweiligen Übersetzungsauftrag! Mehrsprachige Technologien – 6. Oktober 2014! 17!
  18. 18. 3. Integration in Workflows! • Inhaltserstellung! • Übersetzung! • Korrektur durch menschliche Übersetzer (Post-Editing)! • Qualitätsüberprüfung in mehreren Zyklen ...! • Fertigstellung! Mehrsprachige Technologien – 6. Oktober 2014! 18!
  19. 19. 4. Nutzung existierender, mehrsprachiger Daten! • Beispieldatenquelle: Wikipedia/DBpedia! – Sprachübergreifende Links! • Herausforderung: Datenqualität! – Sprachabdeckung! – Verifizierung der Übersetzungen! – Verfügbarkeit! Mehrsprachige Technologien – 6. Oktober 2014! 19!
  20. 20. FORSCHUNGSERGEBNISSE! Mehrsprachige Technologien – 6. Oktober 2014! 20!
  21. 21. Forschungsergebnisse 1: MOSES! • Open-Source-Übersetzungssystem! • Übersetzungssysteme im Eigenbau! – Trainingsdaten! – Terminologie! – ... fertig J! • Achtung: Trainingsdaten sind teuer!! – Je mehr Qualität, desto mehr Daten nötig! Mehrsprachige Technologien – 6. Oktober 2014! 21!
  22. 22. Forschungsergebnisse 2: MQM! • Multidimensional Quality Metrics (MQM)! • Metamodell zur Definition von Metriken, entwickelt im QTLaunchPad Projekt! • Modell wird in konkreten Projekten instanziiert, in Abhängigkeit von den Anforderungen! – Beispiel: Layout mehr oder weniger relevant! Mehrsprachige Technologien – 6. Oktober 2014! 22!
  23. 23. Forschungsergebnisse 2: MQM! • Multidimensional Quality Metrics (MQM)! • META-Modell zur Definition von Metriken! • Modell wird in konkreten Projekten instanziiert, in Abhängigkeit von den Anforderungen! – Beispiel: Layout mehr oder weniger relevant!
  24. 24. Forschungsergebnisse 3: ITS 2.0! • Internationalization Tag Set (ITS) 2.0! • Metadaten („data categories“) für Übersetzungsworkflows! • Beispiel: „Translate“! – Ausgewählte Zeichenketten markieren als „nicht zu übersetzen“! • Mehrwert! – Qualität steigt! – Zahl von (manuellen) Korrekturen sinkt Geschwindigkeit wird erhöht! Mehrsprachige Technologien – 6. Oktober 2014! 24!
  25. 25. ITS 2.0 Metadaten und automatische Qualitätskontrolle! 25! td class=totrans! Canyon X and the Land of the Navajo/td! its:domainRule .../! its:translateRule .../! its:storageSizeRule ... storageSize=30/! target ... its:storageSize=30 its:locQualityIssueComment=Number of bytes in the target (using UTF-8) is: 32. Number allowed: 30. ... mrk...Canyon X et la terre des Navajos/mrk...! Mehrsprachige Technologien – 6. Oktober 2014!
  26. 26. Forschungsergebnisse 4: Integration mit mehrsprachigen Datenquellen! • LIDER Projekt: Mehrsprachigkeit trifft semantische Technologien! • Beispielnutzung:! – Sprachübergreifende Links bei Wikipedia! – Generierung von Übersetzungsvorschlägen für den menschlichen Übersetzer! Mehrsprachige Technologien – 6. Oktober 2014! 26!
  27. 27. Beispiel: Generierung von Übersetzungsvorschlägen! • Eingabe: DBpedia + Wikidata Abfrageergebnisse und ausgezeichnete Dokumente! p… the home of span! its-ta-ident-ref=http://dbpedia.org/resource/ Samuel_Beckett! ...Samuel Beckett/span./p! Mehrsprachige Technologien – 6. Oktober 2014! 27!
  28. 28. Beispiel: Generierung von Übersetzungsvorschlägen! • Ausgabe: Übersetzungsvorschläge gespeichert als ITS 2.0 „Localization Note“! p… the home of span! its-ta-ident-ref=http://dbpedia.org/resource/ Samuel_Beckett its-loc-note=TRANSLATION SUGGESTIONS: 1) wikidata:サミュエル・ベケット! 2) dbpedia:サミュエル・ベケット“ ...Samuel Beckett/ span./p! Mehrsprachige Technologien – 6. Oktober 2014! 28!
  29. 29. Beispiel: Generierung von Übersetzungsvorschlägen! • Ausgabe: Übersetzungsvorschläge gespeichert als ITS 2.0 „Localization Note“! p… the home of span! its-ta-ident-ref=http://dbpedia.org/resource/ Samuel_Beckett its-loc-note=TRANSLATION SUGGESTIONS: 1) wikidata:サミュエル・ベケット! 2) dbpedia:サミュエル・ベケット“ ...Samuel Beckett/ span./p! 29! Herausforderung:! „Zu viel Information ist keine Information!“! Mehrsprachige Technologien – 6. Oktober 2014!
  30. 30. Ziel: Die mehrsprachige Plattform! • Open-Source-MT für Jedermann! – MOSES-basiert, leicht nutzbare Schnittstellen, Trainingsdaten, Terminologie! • Qualitätsdefinition! – MQM: MT für jedes Projekt neu, so wie benötigt! • Workflowintegration! – ITS 2.0 Metadaten, Verarbeitung standardisierter Formate! • Nutzung mehrsprachiger, verlinkter Daten! – Verlinkung mit der passenden Information – nicht zu viel!! Mehrsprachige Technologien – 6. Oktober 2014! 30!
  31. 31. ... als Teil der Open Web Platform!! 31! • Open Source MT! • Qualitätsdefinition! • Workflowintegration! • Nutzung mehrsprachiger, verlinkter Daten! Mehrsprachige Technologien – 6. Oktober 2014!
  32. 32. Mehrsprachigkeit und semantische Technologien! Felix Sasaki, Georg Rehm! DFKI GmbH! Forschungsbereich Sprachtechnologie, Berlin! ! Statusmeeting Semantic Media Web – 6. Oktober 2014, Berlin! !

×