SlideShare ist ein Scribd-Unternehmen logo
Zur Rolle der Terminologie in der maschinellen Übersetzung
Adaption, Integration & Effekte
Redaktions-
prozess
Übersetzungs-
prozess
Publikations-
prozess
Seit 2016 Sprachprozessberater bei berns language consulting
Studium der Computerlinguistik & Sozialpsychologie
Fokus: MÜ-Training & -Evaluation, Terminologiemanagement, Sprachqualitätssicherung
http://www.berns-language-consulting.de
@blcTeam
Christian Eisold
+49 211 22 06 77 15
eisold@berns-language-consulting.de
Begleitend zum Vortag: Kapitel zum Thema im BDÜ-Ratgeber ‚Maschinelle Übersetzung‘ (2017)
• Mehr als zehn Jahre System-Expertise und Kunden-Erfahrung
• Effiziente Textprozesse für Content-Erstellung und -Übersetzung
• Unabhängig von Software- und Übersetzungsanbietern
• Beste System- und Prozess-Lösungen für unsere Kunden
Agenda
 MT-Verfahren im Vergleich
 Domänenadaption & Terminologie-Integration
• in der regelbasierten MT (RBMT)
• in der statistischen MT (SMT)
• in der neuronalen MT (NMT)
 Korpuserstellung & terminologische Ressourcen
 Vorverarbeitung von Trainings- und Übersetzungstexten
 Zusammenfassung & Fazit
Regelbasiert
Hybrid
Korpusbasiert
MT-Verfahren im Vergleich
NMTSMT
201420001960
Datenbasis:
Datenmodell:
Training:
RBMT
Gramm. Merkmale,
Morphologie,
Semantik
Manuelle
Lexikoneinträge
Regeln
Übersetzungsmodell (TM)
Häufigkeiten von Phrasenpaaren
Sprachmodell (LM)
Wortfolgen -> ‚Fluency‘
Auszählung von Phrasen im Korpus
Software Chemie
Wörter -> Vektoren,
Neuronale Netze,
Encoder-Decoder, RNNs,
attentional models, etc.
Anpassung von
Gewichtungen
Software Chemie
Domänenadaption & Terminologie-Integration
Anpassung eines Übersetzungssystems an fachspezifische Texte (Domänen)
Definition
Übersetzung von domänenfremden Texten = unbekannte Terminologie =
schlechte Qualität im Zieltext
Wozu?
• Termverwendung in Trainings- und Ausgangstexten
• Domänenspezifische Wörterbücher / Korpora
• Vorverarbeitung, Filter, Systemanpassungen
Wie?
´Glossaries are the glue of quality´
Tony O'Dowd, Kantan MT
Mir ist ein Fehler aufgefallenAusgangssatz
Domänenadaption in der RBMT
I noticed a mistake.
Fehler
Substantiv
- animiert
Abstraktion
Wörterbuch
Zielsatz D1
Eintrag
Regeln
aufgefallen
Verb
intransitiv
Partizip II
Domänenadaption in der RBMT
Mir ist ein Fehler aufgefallen.
aufgefallen
Verb
intransitiv
Partizip II
I noticed an error.
Fehler
Substantiv
- animiert
Abstraktion
Wörterbuch
Ausgangssatz
Zielsatz D2
Eintrag
Regeln
bug.a
Domänenadaption in der RBMT
Beispiel: Wörterbucheinträge in PROMT
2.
1.
3.
Priorisierung
Domänenadaption in der RBMT
Beispiel: Wörterbucheinträge in PROMT
Screenshot: Eintrag für ‚Fehler‘ im generellen Wörterbuch
 Unbekannte
Terminologie kann über
Termbanken integriert
werden
 Import erübrigt nicht
Codieraufwand
Domänenadaption in der RBMT
Beispiel: Wörterbucheinträge in PROMT
Screenshot: Eintrag für ‚aufgefallen‘ im allgemeinen Wörterbuch
 Wortformen müssen einzeln
angelegt werden
 Entscheidung über
Worteigenschaften nicht
immer leicht zu fällen (z.B.
Argumentrahmen)
He admires your working with such skill.
admire (($SUBJ N1 (TYPE P1))
($DOBJ N1 N0 (ICP ING-SUBJ)))
Bsp. Für Argumentrahmen:
Domänenadaption in der SMT
Software
Software
Single-Domain-
Korpora MT-System
Training einzelner Engines über domänenspezifische Korpora
Domänenadaption in der SMT
Software Chemie
Single-Domain-
Korpora MT-System
Training einzelner Engines über domänenspezifische Korpora
Chemie
Domänenadaption in der SMT
Software
News
Chemie
Single-Domain-
Korpora MT-System
Training einzelner Engines über domänenspezifische Korpora
News
Domänenadaption in der SMT
Software
News
Chemie
Single-Domain-
Korpora MT-System
Chat
Training einzelner Engines über domänenspezifische Korpora
Chat
Software
Systemvoraussetzung
Bitte vor der Installation Systemvoraussetzungen prüfen.
Domänenadaption in der SMT
Mischkorpus
Software
MT-System
Software
DEU
ENG
‚corpus filtering‘
Gigabyte
Startmenü
Korpusfilterung über domänenspezifische Termbanken
Die Anwendung benötigt mindestens 4 Gigabyte RAM.
Starten Sie das Programm über den Eintrag im Startmenü.
Die stärkste der schwachen Bindungen ist die Wasserstoffbrückenbindung.
Mischkorpus
Domänenadaption in der SMT
Software Chemie
Mischkorpus
MT-System
Chemie
DEU
ENG
‚corpus filtering‘
Korpusfilterung über domänenspezifische Termbanken
Chemie
Domänenadaption in der SMT
Software
News
Chemie
Mischkorpus
MT-System
News
DEU
ENG
‚corpus filtering‘
Korpusfilterung über domänenspezifische Termbanken
News
Domänenadaption in der SMT
Software
News
Chemie
Chat
Mischkorpus
MT-System
Chat
DEU
ENG
‚corpus filtering‘
Korpusfilterung über domänenspezifische Termbanken
Chat
MT-System
Domänenadaption in der SMT
Software
Mischkorpus
Allgemeinsprachliche Engines mit Präferenz für domänenspezifische Phrasen über separate,
domänenspezifische Sprachmodelle
Software
Domänenspezifisches Korpus
der Zielsprache
Domänenadaption in der SMT
Software Chemie
MT-System
Mischkorpus
Allgemeinsprachliche Engines mit Präferenz für domänenspezifische Phrasen über separate,
domänenspezifische Sprachmodelle
Chemie
Domänenspezifisches Korpus
der Zielsprache
Domänenadaption in der SMT
Software
News
Chemie
MT-System
Mischkorpus
Allgemeinsprachliche Engines mit Präferenz für domänenspezifische Phrasen über separate,
domänenspezifische Sprachmodelle
News
Domänenspezifisches Korpus
der Zielsprache
Domänenadaption in der SMT
Software
News
Chemie
Chat
MT-System
Mischkorpus
Allgemeinsprachliche Engines mit Präferenz für domänenspezifische Phrasen über separate,
domänenspezifische Sprachmodelle
Chat
Domänenspezifisches Korpus
der Zielsprache
Terminologie-Integration in der SMT
Indirekte Integration in Trainingstexte
... einem Fehler ...
... dieses Fehlers ...
... diesen Fehlern ...
... a bug ...
... this bug ...
... these bugs ...
• Standardfall, Terminologie im Trainingstext
• Je mehr Verwendungskontexte, desto mehr Wortformen sind dem System
bekannt
• Oft benötigte/fehlende Wortformen können dem Korpus im Kontext
hinzugefügt werden  Analyse notwendig
• Teilweise vom Anwender durchführbar
Terminologie-Integration in der SMT
Direkte Integration in Trainingstexte
Term-DB
Fehler
bug
DEU ENG
Vor der Installation bitte folgende Schritte beachten: Please follow these steps before installation:
Bitte Systemvorraussetzungen überprüfen Please check system requirements
Mindestens 4 Gigabyte RAM At least 4 gigabytes ram
Fehler bug
Rechner PC
• Vom Anwender durchführbar
• Bei kanonischen Formen keine Flexion im Zieltext
• Ohne Voranalyse Effekte schwer einzuschätzen
• Integration von flektierten Formen möglich, aber problematisch
• Integration auch in monolinguale Texte für das Sprachmodell nötig
Terminologie-Integration in der SMT
‚phrase table‘-Kombination
Term-DB
+
• Durch den Systembetreiber durchzuführen
• Präferenz für Terme durch separates Übersetzungsmodell
• Bei kanonischen Formen keine Flexion im Zieltext
phrase tables = Liste mit bilingualen Phrasenpaaren + Wahrscheinlichkeiten
Terminologie-Integration in der SMT
XML-Markup im Ausgangstext
... das ist <np translation="a cute place">ein kleines haus</np> ...
... this is a cute place ...
das ist ein kleines <n translation="dwelling||house“
prob="0.8||0.2">haus</n>'
• Standardmethode für dynamische Termintegration
• Schneller Domänenwechsel möglich
• Analyse des Ausgangstextes (Lemmatisierung) nötig
• Benötigt bei stark flektierenden Zielsprachen
Module zur Generierung von Wortendungen
Software
Term-DB
Vorverarbeitung
Domänenadaption in der NMT
1. Lange Trainingszeiten
2. Vokabulargröße ist hardware- u. zeitabhängig
3. Unbekannte Wörter (Out-Of-Vocabulary) vermindern Übersetzungsqualität
4. Bisher keine explizite Methode zur Termintegration
Ausgangslage
1. Adaption über Neutraining wenig flexibel
2. Terme sind nicht zwangsläufig häufig im Korpus vertreten
3. Terme sind dem System nicht bekannt (OOV-Wörter)
4. Terminologie muss über den Trainingstext gelernt werden
Konsequenzen für die Domänenadaption
Vielfältige Lösungsansätze im Forschungsbereich (z.B. morphembasierte NMT)
Lösungen
Terminologische Ressourcen & Korpuserstellung
Seed-Terme
Term (DEU)
Term (ENG)
WWW
Dieser Satz enthält einen [Term].
This sentence contains a [Term].
Just a regular sentence.
Ein ganz gewöhnlicher Satz.
Term-DB
NEWS
SMT/NMT
D1
Crawler
Termextraktion
D1
DEU
ENG
RBMT
Erstellung von Einträgen
dator, persondator, pc – Computer, Rechner, PC
Vorverarbeitung
Computer, Rechner, PC
Software, Anwendung, Programm
Rechner
Anwendung
 Bestimmung von Termvarianten in Nutzerdokumenten
 Keine 1:n / n:1 / n:n – Beziehungen in Trainings- und Ausgangstexten
dator – Computer, Rechner, PC
Eine Form pro Bedeutung!
Keine Synonymie, Homografie
Nutzung von Sprachprüf-Tools und Termbanken bei Texterstellung
Termextraktion
Normalisierung
dator, persondator, pc – Computer
Thank You!
Vielen Dank!
@blcTeam +49 211 22 06 77 22 info@berns-language-consulting.de
www.berns-language-consulting.de

Weitere ähnliche Inhalte

Ähnlich wie Die Rolle der Terminologie in der maschinellen Übersetzung

Terminologie als Baustein der CMS-Einführung
Terminologie als Baustein der CMS-EinführungTerminologie als Baustein der CMS-Einführung
Terminologie als Baustein der CMS-Einführung
Hans Pich
 
AWS Initiate Berlin - Maschinelles Lernen - Chancen, Werkzeuge und Beispiel-A...
AWS Initiate Berlin - Maschinelles Lernen - Chancen, Werkzeuge und Beispiel-A...AWS Initiate Berlin - Maschinelles Lernen - Chancen, Werkzeuge und Beispiel-A...
AWS Initiate Berlin - Maschinelles Lernen - Chancen, Werkzeuge und Beispiel-A...
Amazon Web Services
 
Mehr Produktivität durch motivierte Post Editoren
Mehr Produktivität durch motivierte Post EditorenMehr Produktivität durch motivierte Post Editoren
Mehr Produktivität durch motivierte Post Editoren
Patrick Bessler
 
Mit ChatGPT Dinosaurier besiegen - Möglichkeiten und Grenzen von LLM für die ...
Mit ChatGPT Dinosaurier besiegen - Möglichkeiten und Grenzen von LLM für die ...Mit ChatGPT Dinosaurier besiegen - Möglichkeiten und Grenzen von LLM für die ...
Mit ChatGPT Dinosaurier besiegen - Möglichkeiten und Grenzen von LLM für die ...
QAware GmbH
 
Alles unter Kontrolle? effizientes Übersetzungsmanagement in der P
Alles unter Kontrolle? effizientes Übersetzungsmanagement in der PAlles unter Kontrolle? effizientes Übersetzungsmanagement in der P
Alles unter Kontrolle? effizientes Übersetzungsmanagement in der P
Axel Poestges
 
Analytic powerhouse parallel data warehouse und r
Analytic powerhouse parallel data warehouse und rAnalytic powerhouse parallel data warehouse und r
Analytic powerhouse parallel data warehouse und rMarcel Franke
 
Camunda BPM 7.2 - Deutsch
Camunda BPM 7.2 - DeutschCamunda BPM 7.2 - Deutsch
Camunda BPM 7.2 - Deutsch
camunda services GmbH
 
WordPress sprachfähig machen - Lokalisierung Kür oder Krampf? - WordCamp Deut...
WordPress sprachfähig machen - Lokalisierung Kür oder Krampf? - WordCamp Deut...WordPress sprachfähig machen - Lokalisierung Kür oder Krampf? - WordCamp Deut...
WordPress sprachfähig machen - Lokalisierung Kür oder Krampf? - WordCamp Deut...
David Decker
 
Camunda Community Day_Wiener BPM Offensive
Camunda Community Day_Wiener BPM OffensiveCamunda Community Day_Wiener BPM Offensive
Camunda Community Day_Wiener BPM Offensive
camunda services GmbH
 
Domänenspezifische Sprachen für Ausführbare Spezifikationen
Domänenspezifische Sprachen für Ausführbare SpezifikationenDomänenspezifische Sprachen für Ausführbare Spezifikationen
Domänenspezifische Sprachen für Ausführbare Spezifikationen
Jens Nerche
 
Geschäftsberichte Symposium - Praesentation Geraldine Bariller und Matthias K...
Geschäftsberichte Symposium - Praesentation Geraldine Bariller und Matthias K...Geschäftsberichte Symposium - Praesentation Geraldine Bariller und Matthias K...
Geschäftsberichte Symposium - Praesentation Geraldine Bariller und Matthias K...
CLS Communication
 
Config as Code: Der Weg zu Configuration as Code
Config as Code: Der Weg zu Configuration as CodeConfig as Code: Der Weg zu Configuration as Code
Config as Code: Der Weg zu Configuration as Code
DevOps Meetup Bern
 
Dnug35 ak-dev.071111-cookbook
Dnug35 ak-dev.071111-cookbookDnug35 ak-dev.071111-cookbook
Dnug35 ak-dev.071111-cookbook
Ulrich Krause
 
We4IT LCTY 2013 - x-pages-men - whats next - application modernization roadmap
We4IT LCTY 2013 - x-pages-men - whats next - application modernization roadmapWe4IT LCTY 2013 - x-pages-men - whats next - application modernization roadmap
We4IT LCTY 2013 - x-pages-men - whats next - application modernization roadmapWe4IT Group
 
objectiF extrem
objectiF extremobjectiF extrem
objectiF extrem
Olaf Lewitz
 
WordPress vs. TYPO3
WordPress vs. TYPO3WordPress vs. TYPO3
WordPress vs. TYPO3
webpard UG
 
SAP Plant Connectivity (SAP PCo)
SAP Plant Connectivity (SAP PCo)SAP Plant Connectivity (SAP PCo)
SAP Plant Connectivity (SAP PCo)
SERKEM GmbH
 

Ähnlich wie Die Rolle der Terminologie in der maschinellen Übersetzung (20)

Terminologie als Baustein der CMS-Einführung
Terminologie als Baustein der CMS-EinführungTerminologie als Baustein der CMS-Einführung
Terminologie als Baustein der CMS-Einführung
 
AWS Initiate Berlin - Maschinelles Lernen - Chancen, Werkzeuge und Beispiel-A...
AWS Initiate Berlin - Maschinelles Lernen - Chancen, Werkzeuge und Beispiel-A...AWS Initiate Berlin - Maschinelles Lernen - Chancen, Werkzeuge und Beispiel-A...
AWS Initiate Berlin - Maschinelles Lernen - Chancen, Werkzeuge und Beispiel-A...
 
Webinar: BPMN mit camunda
Webinar: BPMN mit camundaWebinar: BPMN mit camunda
Webinar: BPMN mit camunda
 
Mehr Produktivität durch motivierte Post Editoren
Mehr Produktivität durch motivierte Post EditorenMehr Produktivität durch motivierte Post Editoren
Mehr Produktivität durch motivierte Post Editoren
 
Mit ChatGPT Dinosaurier besiegen - Möglichkeiten und Grenzen von LLM für die ...
Mit ChatGPT Dinosaurier besiegen - Möglichkeiten und Grenzen von LLM für die ...Mit ChatGPT Dinosaurier besiegen - Möglichkeiten und Grenzen von LLM für die ...
Mit ChatGPT Dinosaurier besiegen - Möglichkeiten und Grenzen von LLM für die ...
 
Alles unter Kontrolle? effizientes Übersetzungsmanagement in der P
Alles unter Kontrolle? effizientes Übersetzungsmanagement in der PAlles unter Kontrolle? effizientes Übersetzungsmanagement in der P
Alles unter Kontrolle? effizientes Übersetzungsmanagement in der P
 
Analytic powerhouse parallel data warehouse und r
Analytic powerhouse parallel data warehouse und rAnalytic powerhouse parallel data warehouse und r
Analytic powerhouse parallel data warehouse und r
 
Camunda BPM 7.2 - Deutsch
Camunda BPM 7.2 - DeutschCamunda BPM 7.2 - Deutsch
Camunda BPM 7.2 - Deutsch
 
WordPress sprachfähig machen - Lokalisierung Kür oder Krampf? - WordCamp Deut...
WordPress sprachfähig machen - Lokalisierung Kür oder Krampf? - WordCamp Deut...WordPress sprachfähig machen - Lokalisierung Kür oder Krampf? - WordCamp Deut...
WordPress sprachfähig machen - Lokalisierung Kür oder Krampf? - WordCamp Deut...
 
Camunda Community Day_Wiener BPM Offensive
Camunda Community Day_Wiener BPM OffensiveCamunda Community Day_Wiener BPM Offensive
Camunda Community Day_Wiener BPM Offensive
 
Domänenspezifische Sprachen für Ausführbare Spezifikationen
Domänenspezifische Sprachen für Ausführbare SpezifikationenDomänenspezifische Sprachen für Ausführbare Spezifikationen
Domänenspezifische Sprachen für Ausführbare Spezifikationen
 
Geschäftsberichte Symposium - Praesentation Geraldine Bariller und Matthias K...
Geschäftsberichte Symposium - Praesentation Geraldine Bariller und Matthias K...Geschäftsberichte Symposium - Praesentation Geraldine Bariller und Matthias K...
Geschäftsberichte Symposium - Praesentation Geraldine Bariller und Matthias K...
 
Config as Code: Der Weg zu Configuration as Code
Config as Code: Der Weg zu Configuration as CodeConfig as Code: Der Weg zu Configuration as Code
Config as Code: Der Weg zu Configuration as Code
 
Dnug35 ak-dev.071111-cookbook
Dnug35 ak-dev.071111-cookbookDnug35 ak-dev.071111-cookbook
Dnug35 ak-dev.071111-cookbook
 
We4IT LCTY 2013 - x-pages-men - whats next - application modernization roadmap
We4IT LCTY 2013 - x-pages-men - whats next - application modernization roadmapWe4IT LCTY 2013 - x-pages-men - whats next - application modernization roadmap
We4IT LCTY 2013 - x-pages-men - whats next - application modernization roadmap
 
Team Foundation Server
Team Foundation ServerTeam Foundation Server
Team Foundation Server
 
Moss2009
Moss2009Moss2009
Moss2009
 
objectiF extrem
objectiF extremobjectiF extrem
objectiF extrem
 
WordPress vs. TYPO3
WordPress vs. TYPO3WordPress vs. TYPO3
WordPress vs. TYPO3
 
SAP Plant Connectivity (SAP PCo)
SAP Plant Connectivity (SAP PCo)SAP Plant Connectivity (SAP PCo)
SAP Plant Connectivity (SAP PCo)
 

Mehr von Kerstin Berns

Von Benennungen über Begriffssysteme hin zu Ontologien - Ein weiter Weg?
Von Benennungen über Begriffssysteme hin zu Ontologien - Ein weiter Weg?Von Benennungen über Begriffssysteme hin zu Ontologien - Ein weiter Weg?
Von Benennungen über Begriffssysteme hin zu Ontologien - Ein weiter Weg?
Kerstin Berns
 
DSGVO in der Übersetzungsindustrie
DSGVO in der ÜbersetzungsindustrieDSGVO in der Übersetzungsindustrie
DSGVO in der Übersetzungsindustrie
Kerstin Berns
 
Algorithms for the content industry
Algorithms for the content industryAlgorithms for the content industry
Algorithms for the content industry
Kerstin Berns
 
Translation Services of the near Future
Translation Services of the near FutureTranslation Services of the near Future
Translation Services of the near Future
Kerstin Berns
 
Dashboards gibt’s wie Sand am Meer – aber wozu eigentlich?
Dashboards gibt’s wie Sand am Meer – aber wozu eigentlich?Dashboards gibt’s wie Sand am Meer – aber wozu eigentlich?
Dashboards gibt’s wie Sand am Meer – aber wozu eigentlich?
Kerstin Berns
 
So prägt Terminologie-Abstimmung die Corporate Identity
So prägt Terminologie-Abstimmung die Corporate IdentitySo prägt Terminologie-Abstimmung die Corporate Identity
So prägt Terminologie-Abstimmung die Corporate Identity
Kerstin Berns
 
Methods for Handling Terminology in Machine Translation
Methods for Handling Terminology in Machine TranslationMethods for Handling Terminology in Machine Translation
Methods for Handling Terminology in Machine Translation
Kerstin Berns
 
System Change as Opportunity
System Change as OpportunitySystem Change as Opportunity
System Change as Opportunity
Kerstin Berns
 
Terminologiearbeit hört sich schlimmer an, als es ist
Terminologiearbeit hört sich schlimmer an, als es istTerminologiearbeit hört sich schlimmer an, als es ist
Terminologiearbeit hört sich schlimmer an, als es ist
Kerstin Berns
 
Taus rt-vienna-17 kerstin-berns_blc_machine-translation
Taus rt-vienna-17 kerstin-berns_blc_machine-translationTaus rt-vienna-17 kerstin-berns_blc_machine-translation
Taus rt-vienna-17 kerstin-berns_blc_machine-translation
Kerstin Berns
 

Mehr von Kerstin Berns (10)

Von Benennungen über Begriffssysteme hin zu Ontologien - Ein weiter Weg?
Von Benennungen über Begriffssysteme hin zu Ontologien - Ein weiter Weg?Von Benennungen über Begriffssysteme hin zu Ontologien - Ein weiter Weg?
Von Benennungen über Begriffssysteme hin zu Ontologien - Ein weiter Weg?
 
DSGVO in der Übersetzungsindustrie
DSGVO in der ÜbersetzungsindustrieDSGVO in der Übersetzungsindustrie
DSGVO in der Übersetzungsindustrie
 
Algorithms for the content industry
Algorithms for the content industryAlgorithms for the content industry
Algorithms for the content industry
 
Translation Services of the near Future
Translation Services of the near FutureTranslation Services of the near Future
Translation Services of the near Future
 
Dashboards gibt’s wie Sand am Meer – aber wozu eigentlich?
Dashboards gibt’s wie Sand am Meer – aber wozu eigentlich?Dashboards gibt’s wie Sand am Meer – aber wozu eigentlich?
Dashboards gibt’s wie Sand am Meer – aber wozu eigentlich?
 
So prägt Terminologie-Abstimmung die Corporate Identity
So prägt Terminologie-Abstimmung die Corporate IdentitySo prägt Terminologie-Abstimmung die Corporate Identity
So prägt Terminologie-Abstimmung die Corporate Identity
 
Methods for Handling Terminology in Machine Translation
Methods for Handling Terminology in Machine TranslationMethods for Handling Terminology in Machine Translation
Methods for Handling Terminology in Machine Translation
 
System Change as Opportunity
System Change as OpportunitySystem Change as Opportunity
System Change as Opportunity
 
Terminologiearbeit hört sich schlimmer an, als es ist
Terminologiearbeit hört sich schlimmer an, als es istTerminologiearbeit hört sich schlimmer an, als es ist
Terminologiearbeit hört sich schlimmer an, als es ist
 
Taus rt-vienna-17 kerstin-berns_blc_machine-translation
Taus rt-vienna-17 kerstin-berns_blc_machine-translationTaus rt-vienna-17 kerstin-berns_blc_machine-translation
Taus rt-vienna-17 kerstin-berns_blc_machine-translation
 

Die Rolle der Terminologie in der maschinellen Übersetzung

  • 1. Zur Rolle der Terminologie in der maschinellen Übersetzung Adaption, Integration & Effekte
  • 2. Redaktions- prozess Übersetzungs- prozess Publikations- prozess Seit 2016 Sprachprozessberater bei berns language consulting Studium der Computerlinguistik & Sozialpsychologie Fokus: MÜ-Training & -Evaluation, Terminologiemanagement, Sprachqualitätssicherung http://www.berns-language-consulting.de @blcTeam Christian Eisold +49 211 22 06 77 15 eisold@berns-language-consulting.de Begleitend zum Vortag: Kapitel zum Thema im BDÜ-Ratgeber ‚Maschinelle Übersetzung‘ (2017)
  • 3. • Mehr als zehn Jahre System-Expertise und Kunden-Erfahrung • Effiziente Textprozesse für Content-Erstellung und -Übersetzung • Unabhängig von Software- und Übersetzungsanbietern • Beste System- und Prozess-Lösungen für unsere Kunden
  • 4. Agenda  MT-Verfahren im Vergleich  Domänenadaption & Terminologie-Integration • in der regelbasierten MT (RBMT) • in der statistischen MT (SMT) • in der neuronalen MT (NMT)  Korpuserstellung & terminologische Ressourcen  Vorverarbeitung von Trainings- und Übersetzungstexten  Zusammenfassung & Fazit
  • 5. Regelbasiert Hybrid Korpusbasiert MT-Verfahren im Vergleich NMTSMT 201420001960 Datenbasis: Datenmodell: Training: RBMT Gramm. Merkmale, Morphologie, Semantik Manuelle Lexikoneinträge Regeln Übersetzungsmodell (TM) Häufigkeiten von Phrasenpaaren Sprachmodell (LM) Wortfolgen -> ‚Fluency‘ Auszählung von Phrasen im Korpus Software Chemie Wörter -> Vektoren, Neuronale Netze, Encoder-Decoder, RNNs, attentional models, etc. Anpassung von Gewichtungen Software Chemie
  • 6. Domänenadaption & Terminologie-Integration Anpassung eines Übersetzungssystems an fachspezifische Texte (Domänen) Definition Übersetzung von domänenfremden Texten = unbekannte Terminologie = schlechte Qualität im Zieltext Wozu? • Termverwendung in Trainings- und Ausgangstexten • Domänenspezifische Wörterbücher / Korpora • Vorverarbeitung, Filter, Systemanpassungen Wie? ´Glossaries are the glue of quality´ Tony O'Dowd, Kantan MT
  • 7. Mir ist ein Fehler aufgefallenAusgangssatz Domänenadaption in der RBMT I noticed a mistake. Fehler Substantiv - animiert Abstraktion Wörterbuch Zielsatz D1 Eintrag Regeln aufgefallen Verb intransitiv Partizip II
  • 8. Domänenadaption in der RBMT Mir ist ein Fehler aufgefallen. aufgefallen Verb intransitiv Partizip II I noticed an error. Fehler Substantiv - animiert Abstraktion Wörterbuch Ausgangssatz Zielsatz D2 Eintrag Regeln bug.a
  • 9. Domänenadaption in der RBMT Beispiel: Wörterbucheinträge in PROMT 2. 1. 3. Priorisierung
  • 10. Domänenadaption in der RBMT Beispiel: Wörterbucheinträge in PROMT Screenshot: Eintrag für ‚Fehler‘ im generellen Wörterbuch  Unbekannte Terminologie kann über Termbanken integriert werden  Import erübrigt nicht Codieraufwand
  • 11. Domänenadaption in der RBMT Beispiel: Wörterbucheinträge in PROMT Screenshot: Eintrag für ‚aufgefallen‘ im allgemeinen Wörterbuch  Wortformen müssen einzeln angelegt werden  Entscheidung über Worteigenschaften nicht immer leicht zu fällen (z.B. Argumentrahmen) He admires your working with such skill. admire (($SUBJ N1 (TYPE P1)) ($DOBJ N1 N0 (ICP ING-SUBJ))) Bsp. Für Argumentrahmen:
  • 12. Domänenadaption in der SMT Software Software Single-Domain- Korpora MT-System Training einzelner Engines über domänenspezifische Korpora
  • 13. Domänenadaption in der SMT Software Chemie Single-Domain- Korpora MT-System Training einzelner Engines über domänenspezifische Korpora Chemie
  • 14. Domänenadaption in der SMT Software News Chemie Single-Domain- Korpora MT-System Training einzelner Engines über domänenspezifische Korpora News
  • 15. Domänenadaption in der SMT Software News Chemie Single-Domain- Korpora MT-System Chat Training einzelner Engines über domänenspezifische Korpora Chat
  • 16. Software Systemvoraussetzung Bitte vor der Installation Systemvoraussetzungen prüfen. Domänenadaption in der SMT Mischkorpus Software MT-System Software DEU ENG ‚corpus filtering‘ Gigabyte Startmenü Korpusfilterung über domänenspezifische Termbanken Die Anwendung benötigt mindestens 4 Gigabyte RAM. Starten Sie das Programm über den Eintrag im Startmenü. Die stärkste der schwachen Bindungen ist die Wasserstoffbrückenbindung. Mischkorpus
  • 17. Domänenadaption in der SMT Software Chemie Mischkorpus MT-System Chemie DEU ENG ‚corpus filtering‘ Korpusfilterung über domänenspezifische Termbanken Chemie
  • 18. Domänenadaption in der SMT Software News Chemie Mischkorpus MT-System News DEU ENG ‚corpus filtering‘ Korpusfilterung über domänenspezifische Termbanken News
  • 19. Domänenadaption in der SMT Software News Chemie Chat Mischkorpus MT-System Chat DEU ENG ‚corpus filtering‘ Korpusfilterung über domänenspezifische Termbanken Chat
  • 20. MT-System Domänenadaption in der SMT Software Mischkorpus Allgemeinsprachliche Engines mit Präferenz für domänenspezifische Phrasen über separate, domänenspezifische Sprachmodelle Software Domänenspezifisches Korpus der Zielsprache
  • 21. Domänenadaption in der SMT Software Chemie MT-System Mischkorpus Allgemeinsprachliche Engines mit Präferenz für domänenspezifische Phrasen über separate, domänenspezifische Sprachmodelle Chemie Domänenspezifisches Korpus der Zielsprache
  • 22. Domänenadaption in der SMT Software News Chemie MT-System Mischkorpus Allgemeinsprachliche Engines mit Präferenz für domänenspezifische Phrasen über separate, domänenspezifische Sprachmodelle News Domänenspezifisches Korpus der Zielsprache
  • 23. Domänenadaption in der SMT Software News Chemie Chat MT-System Mischkorpus Allgemeinsprachliche Engines mit Präferenz für domänenspezifische Phrasen über separate, domänenspezifische Sprachmodelle Chat Domänenspezifisches Korpus der Zielsprache
  • 24. Terminologie-Integration in der SMT Indirekte Integration in Trainingstexte ... einem Fehler ... ... dieses Fehlers ... ... diesen Fehlern ... ... a bug ... ... this bug ... ... these bugs ... • Standardfall, Terminologie im Trainingstext • Je mehr Verwendungskontexte, desto mehr Wortformen sind dem System bekannt • Oft benötigte/fehlende Wortformen können dem Korpus im Kontext hinzugefügt werden  Analyse notwendig • Teilweise vom Anwender durchführbar
  • 25. Terminologie-Integration in der SMT Direkte Integration in Trainingstexte Term-DB Fehler bug DEU ENG Vor der Installation bitte folgende Schritte beachten: Please follow these steps before installation: Bitte Systemvorraussetzungen überprüfen Please check system requirements Mindestens 4 Gigabyte RAM At least 4 gigabytes ram Fehler bug Rechner PC • Vom Anwender durchführbar • Bei kanonischen Formen keine Flexion im Zieltext • Ohne Voranalyse Effekte schwer einzuschätzen • Integration von flektierten Formen möglich, aber problematisch • Integration auch in monolinguale Texte für das Sprachmodell nötig
  • 26. Terminologie-Integration in der SMT ‚phrase table‘-Kombination Term-DB + • Durch den Systembetreiber durchzuführen • Präferenz für Terme durch separates Übersetzungsmodell • Bei kanonischen Formen keine Flexion im Zieltext phrase tables = Liste mit bilingualen Phrasenpaaren + Wahrscheinlichkeiten
  • 27. Terminologie-Integration in der SMT XML-Markup im Ausgangstext ... das ist <np translation="a cute place">ein kleines haus</np> ... ... this is a cute place ... das ist ein kleines <n translation="dwelling||house“ prob="0.8||0.2">haus</n>' • Standardmethode für dynamische Termintegration • Schneller Domänenwechsel möglich • Analyse des Ausgangstextes (Lemmatisierung) nötig • Benötigt bei stark flektierenden Zielsprachen Module zur Generierung von Wortendungen Software Term-DB Vorverarbeitung
  • 28. Domänenadaption in der NMT 1. Lange Trainingszeiten 2. Vokabulargröße ist hardware- u. zeitabhängig 3. Unbekannte Wörter (Out-Of-Vocabulary) vermindern Übersetzungsqualität 4. Bisher keine explizite Methode zur Termintegration Ausgangslage 1. Adaption über Neutraining wenig flexibel 2. Terme sind nicht zwangsläufig häufig im Korpus vertreten 3. Terme sind dem System nicht bekannt (OOV-Wörter) 4. Terminologie muss über den Trainingstext gelernt werden Konsequenzen für die Domänenadaption Vielfältige Lösungsansätze im Forschungsbereich (z.B. morphembasierte NMT) Lösungen
  • 29. Terminologische Ressourcen & Korpuserstellung Seed-Terme Term (DEU) Term (ENG) WWW Dieser Satz enthält einen [Term]. This sentence contains a [Term]. Just a regular sentence. Ein ganz gewöhnlicher Satz. Term-DB NEWS SMT/NMT D1 Crawler Termextraktion D1 DEU ENG RBMT Erstellung von Einträgen
  • 30. dator, persondator, pc – Computer, Rechner, PC Vorverarbeitung Computer, Rechner, PC Software, Anwendung, Programm Rechner Anwendung  Bestimmung von Termvarianten in Nutzerdokumenten  Keine 1:n / n:1 / n:n – Beziehungen in Trainings- und Ausgangstexten dator – Computer, Rechner, PC Eine Form pro Bedeutung! Keine Synonymie, Homografie Nutzung von Sprachprüf-Tools und Termbanken bei Texterstellung Termextraktion Normalisierung dator, persondator, pc – Computer
  • 31. Thank You! Vielen Dank! @blcTeam +49 211 22 06 77 22 info@berns-language-consulting.de www.berns-language-consulting.de