SlideShare ist ein Scribd-Unternehmen logo
1 von 35
Einbindung maschineller Übersetzung in den Erstellprozess
von Displaytexten – ein Use Case
• Wir kennen uns in der Content-Branche aus
• Wir arbeiten unabhängig von Softwareanbietern und Agenturen
• Wir automatisieren und strukturieren Ihre Daten
3Folie Nr.
Welche Daten sich für die maschinelle Übersetzung eignen
Wie ein Editor-Prototyp für den Display-Erstellprozess aussehen
kann
Was man davon hat
Was werde ich heute erfahren?
Was mit diesen Daten unternommen werden muss
4Folie Nr.
HMI-Displaytexte für…
Waschmaschinen
Apps
Navigationssysteme
Kaffeemaschinen
Drucker
Motorrad
Flugzeug-Entertainment
Automobil
Industrielle Automation
5Folie Nr.
Henry
6Folie Nr.
Das Problem
Texte ändern sich bis zu 30 mal
Jedes Mal von neuem an Übersetzer
Und das bei 40 Sprachen
Mann, ist das teuer
Und das dauert!
7Folie Nr.
Vorteile maschineller Übersetzung
mehr Sprachen
als ein Mensch
Texte stehen
sofort zur Verfügung
große Mengen an Daten
in kurzer Zeit
8Folie Nr.
Anforderungen an das Pilot-Projekt
Lokalisierte Display-Prototypen und –Simulationen für
die Entwicklung in Echtzeit
Einhaltung rechtlicher Rahmenbedingungen bei MÜ
Unnötige Übersetzungsloops vermeiden und
Übersetzungskosten senken
Finale Version für die Veröffentlichung wird durch
Humanübersetzer erstellt
9Folie Nr.
Die Lösung
10Folie Nr.
Ja hallo, hier ist blc?
11Folie Nr.
12Folie Nr.
Ok, was brauchen wir
jetzt alles dafür?
13Folie Nr.
Datenbeschaffung
MÜ-Workflow für Displaytext-Daten
14Folie Nr.
Datenbank
(z. B.
Terminologie)
Translation
Memory
Monolinguale
Texte
15Folie Nr.
16Folie Nr.
Datenbeschaffung
Bereinigung
MÜ-Workflow für Displaytext-Daten
17Folie Nr.
18Folie Nr.
Bereinigung
der Daten
vorher: Parkassistent: zurzeit nichtnverfügbar.
vorher: Stabilisierungs-nkontrolle (ESC) ausgeschaltet.
nachher: Parkassistent: zurzeit nicht verfügbar.
nachher: Stabilisierungskontrolle (ESC) ausgeschaltet.
19Folie Nr.
Terminologie
20Folie Nr.
Was ist mit
Daten, die nicht
in die Cloud
sollen?
21Folie Nr.
Datenbeschaffung
Bereinigung
MÜ-Workflow für Displaytext-Daten
Anonymisierung
22Folie Nr.
Beispiel: Ausgangstext
Die Testphase für Ihre MARKENNAME Dienstenläuft zeitnah ab…
Beispiel: Nach Pre-Processing / Anonymisierung
Die Testphase für Ihre [2] Dienste läuft zeitnah ab…
Beispiel: Nach maschineller Übersetzung
The trial period for your [2] services ends soon..
Beispiel: Nach Einsetzen der Ursprungsbenennungen
The trial period for your MARKENNAME services ends soon…
Anonymisierung der Daten
23Folie Nr.
Datenbeschaffung
Bereinigung
Anonymisierung
Training
MÜ-Workflow für Displaytext-Daten
24Folie Nr.
Was heißt denn
Training?!
25Folie Nr.
Datenbeschaffung
Bereinigung
Anonymisierung
Training MS Translator HUB
MÜ-Workflow für Displaytext-Daten
26Folie Nr.
DE-EN DE-ES
Engine
1
Engine
2
Engine
3
Engine
2
Engine
1
Engine
3
DE-IT
Engine
3
Engine
1
Engine
2
27Folie Nr.
Evaluation und Auswahl der Engines
BLEU-Verteilung
20% - 30%
30% - 40%
40% - 50%
50% - 60%
Arabisch
Bulgarisch
Finnisch
Koreanisch
Englisch_UK
Littauisch
Lettisch
Russisch
Frankreich
Italienisch
Slovenisch
Norwegisch
Schwedisch
Chinesisch
Dänisch
Türkisch
Slovakisch
Japanisch
Rumänisch
Polnisch
28Folie Nr.
Und wie wird das
jetzt alles
verbunden?
29Folie Nr.
Datenbeschaffung
Bereinigung
Anonymisierung
Training MS Translator HUB
MÜ-Workflow für Displaytext-Daten
Übersetzung
30Folie Nr.
API
Translation
Memory
DB Kunde
31Folie Nr.
32Folie Nr.
Schnellere
Bereitstellung von
Displaytexten für
Software-Tests
Zwei implementierte
Workflows:
1) MÜ-Workflow
2) Qualitätsworkflow
Effizienz gesteigert,
Kosten gespart
glücklicher Henry
Resultate
Anonymisierung oder
Ausschluss geheimer
Daten
MÜ-Segmente werden
eindeutig
gekennzeichnet
33Folie Nr.
Die Herausforderungen
Kurzfristige vs.
Langfristige Ziele
Cloudlösungen vs.
Datensicherheit
MÜ eindeutig
auskennzeichnen
und von
Publikation
ausschließen
34Folie Nr.
keine redundanten, kostspieligen und zeitintensiven
Humanübersetzungen von ‚Entwicklungsloops‘
MÜ steht ad hoc für Testing in der Entwicklung bereit
Fazit
Entzerrung des gesamten Übersetzungsprozesses
Vielen Dank!
@blcTeam
+49 (0) 211 22 06 77 0
info@berns-language-consulting.de
www.berns-language-consulting.de
www.facebook.com/bernslanguageconsulting

Weitere ähnliche Inhalte

Ähnlich wie Maschinelle Übersetzung im Erstellprozess von Displaytexten

camunda BPM community event Dortmund
camunda BPM community event Dortmundcamunda BPM community event Dortmund
camunda BPM community event Dortmund
camunda services GmbH
 

Ähnlich wie Maschinelle Übersetzung im Erstellprozess von Displaytexten (20)

DevDay 2016 Keynote - Die Evolution agiler Software Entwicklung
DevDay 2016 Keynote - Die Evolution agiler Software EntwicklungDevDay 2016 Keynote - Die Evolution agiler Software Entwicklung
DevDay 2016 Keynote - Die Evolution agiler Software Entwicklung
 
UI Testautomation in der Praxis ... von Lokalisierung bis Nachhaltigkeit (Cod...
UI Testautomation in der Praxis ... von Lokalisierung bis Nachhaltigkeit (Cod...UI Testautomation in der Praxis ... von Lokalisierung bis Nachhaltigkeit (Cod...
UI Testautomation in der Praxis ... von Lokalisierung bis Nachhaltigkeit (Cod...
 
E-Commerce vs Architektur CodeTalks.Commerce_2018
E-Commerce vs Architektur CodeTalks.Commerce_2018E-Commerce vs Architektur CodeTalks.Commerce_2018
E-Commerce vs Architektur CodeTalks.Commerce_2018
 
Firstline Worker mit Teams
Firstline Worker mit TeamsFirstline Worker mit Teams
Firstline Worker mit Teams
 
DWX 2014 - Testmanagement mit Visual Studio 2013
DWX 2014 - Testmanagement mit Visual Studio 2013DWX 2014 - Testmanagement mit Visual Studio 2013
DWX 2014 - Testmanagement mit Visual Studio 2013
 
camunda BPM community event Dortmund
camunda BPM community event Dortmundcamunda BPM community event Dortmund
camunda BPM community event Dortmund
 
2011 05 11 12-15 untersee_11.24 monitore und cockpits
2011 05 11 12-15 untersee_11.24 monitore und cockpits2011 05 11 12-15 untersee_11.24 monitore und cockpits
2011 05 11 12-15 untersee_11.24 monitore und cockpits
 
Webinar: Digital Manufacturing aus der Cloud – Live-Demo SAP Cloud MES
Webinar: Digital Manufacturing aus der Cloud – Live-Demo SAP Cloud MESWebinar: Digital Manufacturing aus der Cloud – Live-Demo SAP Cloud MES
Webinar: Digital Manufacturing aus der Cloud – Live-Demo SAP Cloud MES
 
ULC.Infrastrukturanalyse - Erzielen Sie optimale Leistung mit Ihrer IBM Domin...
ULC.Infrastrukturanalyse - Erzielen Sie optimale Leistung mit Ihrer IBM Domin...ULC.Infrastrukturanalyse - Erzielen Sie optimale Leistung mit Ihrer IBM Domin...
ULC.Infrastrukturanalyse - Erzielen Sie optimale Leistung mit Ihrer IBM Domin...
 
TRANSCONNECT® als Rückgrat für die Industrie 4.0 (TRANSCONNECT®-ANWENDERTAG 2...
TRANSCONNECT® als Rückgrat für die Industrie 4.0 (TRANSCONNECT®-ANWENDERTAG 2...TRANSCONNECT® als Rückgrat für die Industrie 4.0 (TRANSCONNECT®-ANWENDERTAG 2...
TRANSCONNECT® als Rückgrat für die Industrie 4.0 (TRANSCONNECT®-ANWENDERTAG 2...
 
Agile Business Software mit der Enterprise Cloud
Agile Business Software mit der Enterprise CloudAgile Business Software mit der Enterprise Cloud
Agile Business Software mit der Enterprise Cloud
 
AndroMDA - Einführung in eine Open Source Model Driven Architecture Lösung
AndroMDA - Einführung in eine Open Source Model Driven Architecture LösungAndroMDA - Einführung in eine Open Source Model Driven Architecture Lösung
AndroMDA - Einführung in eine Open Source Model Driven Architecture Lösung
 
Top 10 Internet Trends 2005
Top 10 Internet Trends 2005Top 10 Internet Trends 2005
Top 10 Internet Trends 2005
 
Entwicklung mit Volt MX und Co. | Teil 1
Entwicklung mit Volt MX und Co. | Teil 1Entwicklung mit Volt MX und Co. | Teil 1
Entwicklung mit Volt MX und Co. | Teil 1
 
Webinar: BPMN mit camunda
Webinar: BPMN mit camundaWebinar: BPMN mit camunda
Webinar: BPMN mit camunda
 
Der erste Schritt – idealtypische Wege in die Cloud und in der Cloud für Unte...
Der erste Schritt – idealtypische Wege in die Cloud und in der Cloud für Unte...Der erste Schritt – idealtypische Wege in die Cloud und in der Cloud für Unte...
Der erste Schritt – idealtypische Wege in die Cloud und in der Cloud für Unte...
 
Roadshow 2018 - Camunda in der Praxis: So geht's
Roadshow 2018 - Camunda in der Praxis: So geht'sRoadshow 2018 - Camunda in der Praxis: So geht's
Roadshow 2018 - Camunda in der Praxis: So geht's
 
Webinar: Fehlerfreie Varianten-Montage mittels SAP ME
Webinar: Fehlerfreie Varianten-Montage mittels SAP MEWebinar: Fehlerfreie Varianten-Montage mittels SAP ME
Webinar: Fehlerfreie Varianten-Montage mittels SAP ME
 
Kritische Erfolgsfaktoren für die Verknüpfung von BPM und Enterprise Architek...
Kritische Erfolgsfaktoren für die Verknüpfung von BPM und Enterprise Architek...Kritische Erfolgsfaktoren für die Verknüpfung von BPM und Enterprise Architek...
Kritische Erfolgsfaktoren für die Verknüpfung von BPM und Enterprise Architek...
 
Companio: Cpronto Datenblatt
Companio: Cpronto DatenblattCompanio: Cpronto Datenblatt
Companio: Cpronto Datenblatt
 

Mehr von Kerstin Berns

Mehr von Kerstin Berns (8)

Von Benennungen über Begriffssysteme hin zu Ontologien - Ein weiter Weg?
Von Benennungen über Begriffssysteme hin zu Ontologien - Ein weiter Weg?Von Benennungen über Begriffssysteme hin zu Ontologien - Ein weiter Weg?
Von Benennungen über Begriffssysteme hin zu Ontologien - Ein weiter Weg?
 
Algorithms for the content industry
Algorithms for the content industryAlgorithms for the content industry
Algorithms for the content industry
 
Translation Services of the near Future
Translation Services of the near FutureTranslation Services of the near Future
Translation Services of the near Future
 
Methods for Handling Terminology in Machine Translation
Methods for Handling Terminology in Machine TranslationMethods for Handling Terminology in Machine Translation
Methods for Handling Terminology in Machine Translation
 
Die Rolle der Terminologie in der maschinellen Übersetzung
Die Rolle der Terminologie in der maschinellen ÜbersetzungDie Rolle der Terminologie in der maschinellen Übersetzung
Die Rolle der Terminologie in der maschinellen Übersetzung
 
System Change as Opportunity
System Change as OpportunitySystem Change as Opportunity
System Change as Opportunity
 
Terminologiearbeit hört sich schlimmer an, als es ist
Terminologiearbeit hört sich schlimmer an, als es istTerminologiearbeit hört sich schlimmer an, als es ist
Terminologiearbeit hört sich schlimmer an, als es ist
 
Taus rt-vienna-17 kerstin-berns_blc_machine-translation
Taus rt-vienna-17 kerstin-berns_blc_machine-translationTaus rt-vienna-17 kerstin-berns_blc_machine-translation
Taus rt-vienna-17 kerstin-berns_blc_machine-translation
 

Maschinelle Übersetzung im Erstellprozess von Displaytexten

Hinweis der Redaktion

  1. Wir sind ein Beratungsbüro in Düsseldorf und helfen Unternehmen bei der Optimierung ihrer Sprachprozesse. Wir stellen selber keine Übersetzungen her und auch keine Software. Wir haben ein umfangreiches Wissen und beraten Kunden z. B. bei der Einführung von Übersetzungsworkflows, Terminologieverwaltung, integration maschineller Übersetzung etc. Ich arbeite bei blc, einem Beratungsbüro in Düsseldorf. Wir machen selber keine Übersetzungen und verkaufen auch keine Software …sondern wir helfen unseren Kunden dabei, optimale Sprachprozesse zu erreichen. Dafür stehen wir bei der Systemauswahl zur Seite und sind dabei komplett unabhängig von Softwareanbietern.
  2. Was werde ich heute erfahren? Wir werden sehen, wie ein Editor-Prototyp … aussehen kann. Dafür werde ich einen Ausschnitt aus einem echten Kundenprojekt zeigen. Es war ein Riesenprojekt, deshalb muss ich mich hier auf einen kleinen Teil beschränken. Wenn Sie mehr wissen möchten, können Sie mich gerne hinterher ansprechen, oder uns per Mail kontaktieren. Wir werden erfahren, welche Daten sich für das Training einer maschinellen Übersetzungsengine eignen. Wir werden sehen, was mit den Daten geschehen muss Und was das ganze am Ende bringt. Bevor wir jedoch in unseren Beispiel-Fall einsteigen, möchte ich klären, was sich hinter dem Akronym „HMI“ verbirgt. Weiß es jemand?
  3. wo überall Displays vorkommen. Vor allem im Bereich HMI (Human Machine Interface). Auch genannt: Benutzerschnittstelle, Mensch-Maschine-Schnittstelle. HMIs bilden, wie der Name schon vermuten lässt, eine Schnittstelle zwischen Mensch und Maschine. Über ein Display wird die Bedienung der Maschine visuell unterstützt. Das waren ein paar Beispiele. Jetzt kommen wir zu einem Beispiel fall..
  4. Das ist Henry. Henry arbeitet als Projektmanager bei einem Automobilkonzern. Dieser Konzern verkauft seine Fahrzeuge in viele Länder dieser Erde. Und deshalb muss auch das Display, das im Armaturenbrett verbaut ist, auf dementsprechend vielen Sprachen verfügbar sein. In seiner Abteilung ist Henry u. a. verantwortlich für die Erstellung und die Übersetzung von Displaytexten. Dafür muss er eng mit den Programmieren der HMIs zusammenarbeiten. Die ändern während der Entwicklungsphase ständig die Text und benötigen diese auch in anderen Sprachen, um zu sehen, ob die Texte in die Schaltflächen passen etc….denn Sprachen haben ja oft unterschiedliche Längen.
  5. - Henry ist unglücklich. Es stört ihn schon länger, dass die Texte, die noch gar nicht die finale Version sind, jedes Mal von neuem an Übersetzer gegeben werden, obwohl sie sich noch bis zu 30 mal ändern. - Henry mag diese Schleifen nicht, außerdem ist das auch teuer bei 40 Sprachen Das kostet alles Geld und ist sehr aufwändig.
  6. (vor allem in Entwicklungsphasen und Simulation in der Softwareentwicklung)
  7. Verfügbarkeit lokalisierter Prototypen und Simulationen für die Entwicklung in Echtzeit Absichern rechtlicher Rahmenbedingungen bezüglich der Einbindung maschineller Übersetzung im neuen Prozess Reduzieren nicht erforderlicher Übersetzungsloops und Senken der Übersetzungskosten Finale Version durch Humanübersetzer
  8. MÜ! Wäre das nicht was für seine Prozesse? Aber wie kann man die maschinelle Übersetzung für die Displaytext-Erstellung einsetzen? Dafür ruft er blc an
  9. Und zusammen arbeiten sie einen Plan aus.
  10. Video liegt hier: F:\Kunden\Audi\HMI-Displaytexte_MÜ\Machbarkeit_MÜ-Pilot Prototyp Öffen und dann erst erzählen: webbasierte Demonstrationsanwendung Veranschaulicht den Prozess des Datenabgleichs mit 1) einer Datenbank und 2) dem Translation Memory. Wird bei diesem Abgleich keine Übersetzung für den Ausgangssatz gefunden, erfolgt eine Anforderung der maschinellen Übersetzung. Der Prototyp wurde exemplarisch anhand von 11 Sprachen erstellt Man kann einen beliebigen Satz in der Ausgangssprache Deutsch eingeben. TMs lagen nur für Englisch und Französisch vor, daher Wird die eingegebene Zeichenkette im Mustertextkatalog oder im Translation Memory gefunden, wird die Übersetzung in der jeweiligen Zelle der Ergebnistabelle angezeigt. War der Abgleich nicht erfolgreich, wird die Eingabe über die Microsoft Translator API an alle Engines geschickt, welche mit den Daten der im Prototyp angezeigten Sprachpaare trainiert wurden. Nach der Verarbeitung durch die Engines werden die Ergebnisse in den entsprechenden Zellen der Ergebnistabelle angezeigt.
  11. Jetzt arbeiten wir nach und nach die einzelnen Workflow-Schritte ab. Daten für die Bestückung der Datenbanken, aus denen die Übersetzungen ggf. kommen können Daten für das Training der MÜ, die angesprochen wird falls in den Datenbanken nicht die angefragte Übersetzung gefunden wurde. Dieses Schaubild wird sich jetzt im Laufe des Vortrags nach und nach aufbauen. Zuerst müssen wir Daten beschaffen. -> nächste Folie!
  12. Alles, was du da hast, Henry! Daten, die sich für das Training einer MÜ eignen sind z. B. - eine bereits vorhandene Terminologiedatenbank Ein Translation Memory Einsprachige, also monolinguale Texte Nach der Beschaffung wurden die Daten in ein Format umgewandelt, in dem sie sich gut bearbeiten lassen. Z. B. wird aus einer tbx eine Excel-Datei.
  13. Deshalb folgt der nächste Schritt: die Vorverarbeitung und Bereinigung der Daten, auch Pre-Processing genannt.
  14. Dass die Dateien so unordentlich aussehen liegt daran, dass z. B. auch Metadaten wie das Erstelldatum, Quelle, Eigenschaften, Ids.…. enthalten sind. Für das Training der Engines und den Inhalt der Datenbanken sind sie nicht relevant. Nicht nur die Menge der Daten wird reduziert, auch der Inhalt wird bereinigt:
  15. Bereinigung der Daten Zu den problematischen Inhalten und Formatierungen, die bei der Verarbeitung durch das MÜ-System stören: a) Die Verwendung von Zeilenumbruchszeichen (‚\n‘) im Fließtext b) Das Vorkommen von Bindestrichen in Komposita (auch in Verbindung mit dem Zeilenumbruch) Außerdem: Reduzierung mehrfacher Leerzeichen auf ein einzelnes Leerzeichen In den Bestandsdaten gab es Sätze in der Ausgangssprache, für die keine Übersetzung in einer anderen Sprache vorliegen ->entfernen
  16. Auch Terminologie bereinigt bzw. in ein Format gebracht, das von MS Translator verarbeitet werden kann. Tbx ->xls Terminologie wurde in zweispaltigen Exceltabellen benötigt. DE-EN DE-ES DE-IT usw. Wichtig: Iso Norm für .
  17. Henry hat Angst, dass vertrauliche Informationen, der Markenname oder Formulierungen, die auf die Marke hindeuten könnten, in die Cloud gelangen. Was macht man dagegen? Anonymisierung! Hier ein Beispiel… Klassifizierung von geheimen inhalten die auf Dinge schließen lassen. Ja, auch daran haben wir gedacht.
  18. Nach der der Bereinigung der Daten, Anonymisierung!
  19. Henry hat Angst, dass geheime Informationen aus der Cloud gestohlen werden können. Was macht man dagegen? Anonymisierung! Hier ein Beispiel… Platzhalter, wie hier durch die [2] dargestellt. Die Daten wurden für das MÜ Training genutzt UND für die Datenbankeinträge mit denen zuerst abgeglichen wird. Die Anonymisierung sowie das Einsetzen des Markennamens kann automatisiert werden. Nun wissen wir, woher die Daten stammen können, was mit ihnen passiert, bevor sie für die Aufnahme in die Datenbank und für das MÜ-Training verwendet werden können.
  20. Es folgt das Training der maschinellen Übersetzungsengines
  21. Training heißt, dass wir innerhalb eines Übersetzungssystems mehrere Engines trainieren. In unserem Beispiel ist es der Microsoft Translator Hub. Der MS Translator hub …….->
  22. cloud-basiertes maschinelles Übersetzungssystem Wir haben es für unser Projekt gewählt weil einfach zu bedienen und günstig. Gute Mechanismen, Ziele erreicht, aber es gibt natürlich noch viele weitere Systeme, die man hätte nehmen können wie z. B. KantanMT, Systran oder Tilde. Anmeldung über ein Microsoft-Konto API -> kostenpflichtiges MS Azure Abonnement Man kann entweder die generische Übersetzung des MS Translators nutzen oder Systeme, die mit den eignen individuellen Nutzerdaten trainiert wurden mehrere engines für jedes Sprachpaar um zu testen, mit welchen Trainingsdaten die besten Resultate erlangt werden. Paralleltexte, also eigene Sprachdaten aus den Extraktionen Eigene Terminologie MS Models (zusätzliche Sprachdaten von Microsoft) – können helfen, den maschinellen Output flüssiger zu gestalten. Qualität wichtig und Menge auch. Qualität jedoch über Quantität! BLEU- nächste Folie!
  23. Evaluation und Auswahl der Engines So könnte die Auswahl an Sprachen aussehen BLEU! Bilingual Evaluation Understudy Qualitätsmetrik für die SMÜ BLEU-Werte werden vom System mitgeliefert und werden anhand von Testsets aus den Trainingsdaten ermittelt Berechnung: maschinell übersetzte Sätze mit einem Referenzsatz abgeglichen. Lexikalischer Abgleich, Anteil des zielsprachlichen Materials in der Übersetzung. Wortebene. Je ähnlicher die beiden sich sind, desto höher ist der BLEU-Score. Bleu-Score kann helfen, die beste Engine zu wählen, die dann in Betrieb genommen wird. Zweck der Evaluation der Engines: Welches Trainingsmaterial hat welchen Einfluss auf die Qualität der Engines? Welche ist die bestmögliche Engine für ein Sprachpaar? ----------------------------------------------------------------------------------------------------------------------------------------------------------------------- getestete Trainingsfaktoren: Dubletten in den Texten Hinzunahme von MS Models Hinzunahme von Terminologie Wie eben erwähnt wurden pro sprachpaar 3 Engines mit unterschiedlichem Trainingsmaterial erstellt. Die Ergebnisse dieser Trainings lassen folgende Generalisierungen zu: Dubletten in den Trainingstexten keinen Einfluss auf die Qualität der Übersetzung Hinzunahme der MS Models führt nicht zu einer Verbesserung der Ergebnisse. Tatsächlich führen die zusätzlichen Daten tendenziell zu einer Verschlechterung der Übersetzungsqualität Die Hinzunahme der Terminologie führt ebenfalls nicht zu einer Verbesserung der Ergebnisse Erklärung der Resultate Das Vorhandensein von Dubletten in den Trainingstexten Theoretisch sollte dadurch eine höhere Wahrscheinlichkeit im statistischen Modell für die jeweiligen Sätze. Diese Wahrscheinlichkeiten spielen jedoch nur eine Rolle, wenn es für identische Phrasen unterschiedliche Übersetzungen gibt. Das interne Pre-Processing des MS Translators berücksichtigt diese Verhältnisse, indem allzu viele Vorkommen von identischen Sätzen unter Beibehaltung der Wahrscheinlichkeitsverteilung aussortiert werden. Da die MS Models Trainingsdaten aus verschiedensten Themenbereichen enthalten, führen die Daten tendenziell zu Verbesserungen, wenn allgemeinsprachliche Texte übersetzt werden sollen. Mit dem spezifischen Anwendungsbereich der Displaytexte bestehen nur wenige Schnittmengen, sodass die Daten hier nicht zu Verbesserungen führen. Im Falle der Verschlechterungen von Engines mit Daten aus den MS Models können die vorhandenen Überschneidungen dazu geführt haben, dass Übersetzungen aus den Models bevorzugt wurden, für die es in den Trainingsdaten abweichende (und in dieser Domäne) korrekte Übersetzungen gibt. Eine detaillierte Analyse des Einflusses der MS Models ist nur anhand einer Datensichtung der Modelle möglich. Auf diese hat der Nutzer des MS Translator HUBs jedoch keinen Zugriff. Die eingespielte eigene Terminologie weist nur wenig Überschneidung mit den Displaytexten auf. Von insgesamt 1331 Benennungen in der Termbank werden lediglich 219 in den Displaytexten verwendet. Da sich auf Basis der Termübersetzungen in der Termbank keine Verbesserung der Qualität ergibt, kann davon ausgegangen werden, dass die vorhandenen Übersetzungen der betreffenden Terme in den Displaytexten korrekt sind.
  24. Wir haben Daten zusammengetragen Wir haben die Daten bereinigt und anonymisiert Wir haben unsere Engines trainiert, ausgewertet und uns für die entschieden, die einen BLEU-Score über 20% haben. Jetzt können die Engines über die API an unseren Editor angebunden werden.
  25. Anbindung maschineller Übersetzung im Übersetzungsworkflow Jedes MÜ System lässt sich heutzutage über eine API an den Übersetzungsworkflow anbinden. Um die trainierten Engines im MS Translator HUB über externe Anwendungen nutzbar zu machen, stellt Microsoft eine Programmierschnittstelle (API) bereit. ------------------------------------------------------------------------------------------------------------------------------------------------------------------ API = Programmierschnittstelle Python = Programmiersprache JavaScript = Skriptsprache war auch involviert Der API-Aufruf kann (per REST) über verschiedene Programmiersprachen erfolgen und wurde für den vorliegenden Anwendungsfall über ein Python-Skript realisiert. Der Editor-Prototyp wurde zur Demonstration des MÜ-Übersetzungsworkflows im Rahmen des Projekts erstellt. Er implementiert die grundlegenden Funktionalitäten des Datenabgleichs und der API-Anfrage.
  26. Was hat das gebracht?
  27. Erinnern wir uns noch einmal an die Problemstellung und die Anforderungen: Henry benötigte auf schnelle Weise Texte für die Display-Prototypen und Software-Tests – geklappt Für die finale Version sollten Humanübersetzer zum Einsatz kommen, daher zwei WFs: ein MÜ-Workflow, der nur für die Entwicklungsphase verwendet wird und ein Qualitäts-Workflow, bei dem eine qualitativ hochwertige Humanübersetzung für den finalen Displaytext bereitgestellt wird - So konnten überflüssige Humanübersetzungen vermieden werden und Kosten eingedämmt werden. - Geheime Texte werden für MÜ ausgeschlossen oder anonymisiert MÜ-Segmente werden eindeutig über Status und Ausgabezeichen ausgekennzeichnet
  28. Kurzfristige versus langfristige Ziele Für die gesetzten kurzfristigen Ziele wird keine menschliche Übersetzungsqualität von der MÜ-Engine erwartet. Langfristig betrachtet können die Qualitätsansprüche jedoch steigern. Deswegen: Wichtig: bereits zu Beginn eine flexible Systemlandschaft einführen, die später andere MÜ-Systeme oder Qualitätsprozesse wie Pre-Editing und Post-Editing zulässt Laufende Engine-Optimierung durch erneutes Training z. B. mit Terminologie (Bsp: unübersetzte Wörter identifizieren und der Engine „beibringen“) Cloud-Lösungen vs. Datensicherheit Datensicherheit im MÜ-Kontext = Risikofaktor. Cloudlösung eignet sich um Kosten zu reduzieren und den gewünschten Gewinn zu erzielen, muss eine Cloud-Lösung in Erwägung gezogen werden. Wenn jedoch die Alarmglocken beim Stichwort „Cloud“ läuten und die Datensicherheit infrage gestellt wird kann man dem entgegen wirken indem eine klare Auszeichnung geheimer Texte möglich sein, die davor schützt, sensible Daten in die Cloud zu geben. Zudem werden die Daten automatisch anonymisiert. MÜ eindeutig auskennzeichnen und von Publikation ausschließen - Vor allem wenn die MÜ-Qualität – wie hier – keine übergeordnete Rolle spielt, darf die MÜ-Rohübersetzung keinesfalls in die finale Software gelangen. - Deshalb soll ein komplexes Statuskonzept dafür sorgen, dass die Strings, die maschinell übersetzt wurden, eindeutig erkennbar sind. - Zum Schluss wird eine automatische Statuserkennung prüfen, ob MÜ-Strings in den zur Publikation gegebenen Texten enthalten sind. Falls Mü-Strings gefunden werden, gehen diese zurück in die Humanübersetzungsschleife.
  29. Zusammenfassend kann man also sagen, dass.. Wie gesagt, es war ein umfangreiches Projekt