SlideShare ist ein Scribd-Unternehmen logo
1 von 23
Hibrīdas mašīntulkošanas risinājuma izveide,
kombinējot dažādu mašīntulkošanas sistēmu rezultātus
Autors: Matīss Rikters
Vadītāja: vad. pētn., Dr. Dat. Inguna Skadiņa
Saturs
• Mašīntulkošanas vēsture, pielietojums
• Galvenie virzieni, tulkojumu vērtēšana
• Hibrīdā mašīntulkošana
• Daudzsistēmu hibrīdā MT
• Daudzsistēmu hibrīdās MT eksperiments
• Daudzvārdu savienojumu apstrāde
Mašīntulkošana
• 1947-1954 – Informācijas teorijā bāzēti MT pamatu pētījumi
– Džordžtaunas IBM eksperiments
• 1954-1966 - Lielas divvalodu vārdnīcas + likumi
• 1966-1980 - ALPAC ziņojums, pētījumi turpinājās
Eiropā un Kanādā
• 1980 - 1990 – Jaunas MT metodes, uz piemēriem bāzētā MT
• 1990 - 2000 – Pētījumi runas tulkošanā
Mašīntulkošanas pielietojums
• Tulkošanas pakalpojumi
– Google Translate, Bing Translator, ...
– Apjomīgu dokumentu tulkošana
• Lokalizācija
– Ebay, Adobe, ...
• Terorisma apkarošana
• Tulkošana no runas runā
– Skype, ...
Mašīntulkošanas pieejas
• Likumos bāzēta MT (LBMT)
– Pārvietojumos bāzētā MT
– Uz vārdnīcām bāzētā MT
– Starpvalodu MT
• Datos bāzēta MT
– Statistiskā MT (SMT)
– Uz piemēriem bāzētā MT
• Hibrīdā MT
Mašīntulkojuma vērtēšana
• BLEU
– Vārdu un n-grammu atbilstība
• METEOR
• NIST
• WER
• Daudz citu
Hibrīdā MT
• Daudzsistēmu hibrīdā MT
• Statistiskā likumu ģenerēšana
• Daudzkārtējā apstrāde (multi-pass)
Daudzsistēmu hibrīdā MT
• Labākā veselā tulkojuma izvēle
• Labāko tulkojuma daļu kombinēšana
• Vienu MT sistēmu darbības principu
apvienošana ar citām sistēmām
Literatūras izpēte
Atslēgvārdi Atrastie raksti
Coupling machine
translation
3
Coupling hybrid
machine-translation
2
Machine-translation
System combination
12
Multi-Engine
machine translation
11
• Tika meklēti raksti par
daudzsistēmu mašīntulkošanu
• Pēc anotāciju izlasīšanas atstāti
14 raksti detalizētai analīzei
• Raksti izanalizēti un savstarpēji
salīdzināti to rezultāti
Literatūras izpēte
• Populārākie apvienošanas paņēmieni izmanto
pārpratumu tīklus (confusion network)
• Pārsvarā apvienotas sistēmas, kas darbojas
vienas iekārtas ietvaros
• Visbiežāk tiek apvienotas SMT un LBMT
• BLEU rezultāts vidēji pieaug par 5 – 10 %
Daudzsistēmu MT metodes
• SMT + LBMT
• Pārpratumu tīkls (confusion network)
• Pārpratumu tīkls + uzlabojumi
• Stara meklēšana (beam search)
• Citas metodes
SMT + LBMT
• Populārākais no sistēmu apvienošanas veidiem
• BLEU pieaug par 10-15%
Analizētie raksti:
• Coupling Statistical Machine Translation with Rule-based Transfer and Generation
• Hybrid architectures for multi-engine machine translation
• Multi-engine machine translation with an open-source decoder for statistical machine translation
• Using Moses to integrate multiple rule-based machine translation engines into a hybrid system
Pārpratumu tīkls
• Vienkāršākais sistēmu apvienošanas veids
• Iespējams apvienot jebkāda veida MT sistēmas
• BLEU pieaug par 4-10%
Analizētie raksti:
• Lattice-based system combination for statistical machine translation
• MANY: Open source machine translation system combination
Pārpratumu tīkls +
N-grammu balstītas iezīmes
• Uzlabo pārpratumu tīkla darbību
• BLEU pieaug par līdz pat 14%
Analizētie raksti:
• Using n-gram based features for machine translation system combinationUsing n-gram based features for machine translation system combination
• Joint optimization for machine translation system combinationJoint optimization for machine translation system combination
Stara meklēšana
• Alternatīva pārpratumu tīklam
• Iespējams apvienot jebkāda veida MT sistēmas
• BLEU pieaug par 10-14%
Analizētie raksti:
• Joint optimization for machine translation system combinationJoint optimization for machine translation system combination
• Combining Machine Translation Output with Open Source: The CarnegieCombining Machine Translation Output with Open Source: The Carnegie
Mellon Multi-Engine Machine Translation SchemeMellon Multi-Engine Machine Translation Scheme
Citas MT apvienošanas metodes
• SMT+EBMT+TM+ NE
• Rekursīvā teikumu dekompozīcija
• Heiristiskā un statistiskā atlase
1-5% BLEU uzlabojums
Analizētie raksti:
• USAAR-DCU Hybrid Machine Translation System for ICON 2014USAAR-DCU Hybrid Machine Translation System for ICON 2014
• Multi-engine machine translation guided by explicit word matchingMulti-engine machine translation guided by explicit word matching
• Multi-engine machine translation by recursive sentence decompositionMulti-engine machine translation by recursive sentence decomposition
• First steps towards multi-engine machine translationFirst steps towards multi-engine machine translation
Daudzsistēmu hibrīdās MT
eksperiments
Tīmekļa MT sistēmas latviešu – angļu valodām
•Google Translate
•Bing Translator
•Tildes Tulkotājs
•Pragma 6
•BabelXL
Daudzvārdu savienojumu apstrāde
Daudzvārdu savienojumu apstrāde
Metode BLEU
Bāzlīnija 62.23
Bāzlīnija + MWE treniņu datos 62.10
Bāzlīnija + 2. tulkošanas tabula 62.04
Bāzlīnija + papildus iezīme 62.37
Līdz šim paveiktais
• Izlasīta pusotra grāmata par MT
• Pieveikts tiešsaistes kurss Barselonas
universitātē - Approaches to Machine Translation
• Veikti eksperimenti ar daudzvārdu savienojumu
apstrādi mašīntulkošanas kvalitātes uzlabošanai
• Veikta literatūras izpēte par mašīntulkošanu,
hibrīdo MT un daudzsistēmu MT
Turpmākie tuvie plāni
• Pabeigt rakstu par daudzsistēmu MT
• Īstenot,aprakstīt un nopublicēt
daudzsistēmu hibrīdās MT eksperimentu
• Vadīt pāris kvalifikācijas darbu
• Izplānot citus tālākus plānus
Izmantotie avoti
• Heafield, Kenneth, and Alon Lavie. "Combining Machine Translation Output with Open Source: The Carnegie Mellon Multi-Engine Machine Translation Scheme." The Prague Bulletin of
Mathematical Linguistics 93 (2010): 27-36.
• Ahsan, A., and P. Kolachina. "Coupling Statistical Machine Translation with Rule-based Transfer and Generation, AMTA-The Ninth Conference of the Association for Machine Translation in the
Americas." Denver, Colorado (2010).
• Eisele, Andreas. "First steps towards multi-engine machine translation." Proceedings of the ACL Workshop on Building and Using Parallel Texts. Association for Computational Linguistics, 2005.
• Eisele, Andreas, et al. "Hybrid architectures for multi-engine machine translation." Proceedings of Translating and the Computer 30 (2008).
• He, Xiaodong, and Kristina Toutanova. "Joint optimization for machine translation system combination." Proceedings of the 2009 Conference on Empirical Methods in Natural Language
Processing: Volume 3-Volume 3. Association for Computational Linguistics, 2009.
• Feng, Yang, et al. "Lattice-based system combination for statistical machine translation." Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing: Volume 3-
Volume 3. Association for Computational Linguistics, 2009.
• Barrault, Loïc. "MANY: Open source machine translation system combination." The Prague Bulletin of Mathematical Linguistics 93 (2010): 147-155.
• Mellebeek, Bart, et al. "Multi-engine machine translation by recursive sentence decomposition." (2006).
• Jayaraman, Shyamsundar, and Alon Lavie. "Multi-engine machine translation guided by explicit word matching." Proceedings of the ACL 2005 on Interactive poster and demonstration sessions.
Association for Computational Linguistics, 2005.
• Chen, Yu, et al. "Multi-engine machine translation with an open-source decoder for statistical machine translation." Proceedings of the Second Workshop on Statistical Machine Translation.
Association for Computational Linguistics, 2007.
• Santanu, Pal, et al. "USAAR-DCU Hybrid Machine Translation System for ICON 2014" The Eleventh International Conference on Natural Language Processing. , 2014.
• Eisele, Andreas, et al. "Using Moses to integrate multiple rule-based machine translation engines into a hybrid system." Proceedings of the Third Workshop on Statistical Machine Translation.
Association for Computational Linguistics, 2008.
• Zhao, Yong, and Xiaodong He. "Using n-gram based features for machine translation system combination." Proceedings of Human Language Technologies: The 2009 Annual Conference of the
North American Chapter of the Association for Computational Linguistics, Companion Volume: Short Papers. Association for Computational Linguistics, 2009.
• Xuan, H. W., W. Li, and G. Y. Tang. "An Advanced Review of Hybrid Machine Translation (HMT)." Procedia Engineering 29 (2012): 3017-3022.
• Rush, Alexander M., Yin-Wen Chang, and Michael Collins. "Optimal Beam Search for Machine Translation." EMNLP. 2013.
• Confusion Networks Decoding - http://www.statmt.org/moses/?n=Moses.ConfusionNetworks
• Commercial MT Users - http://www.amtaweb.org/commercial-mt-users/
Jautājumi?

Weitere ähnliche Inhalte

Mehr von Matīss ‎‎‎‎‎‎‎  

Mehr von Matīss ‎‎‎‎‎‎‎   (20)

日本のお風呂
日本のお風呂日本のお風呂
日本のお風呂
 
Thrifty Food Tweets on a Rainy Day
Thrifty Food Tweets on a Rainy DayThrifty Food Tweets on a Rainy Day
Thrifty Food Tweets on a Rainy Day
 
私の趣味
私の趣味私の趣味
私の趣味
 
How Masterly Are People at Playing with Their Vocabulary?
How Masterly Are People at Playing with Their Vocabulary?How Masterly Are People at Playing with Their Vocabulary?
How Masterly Are People at Playing with Their Vocabulary?
 
私の町リガ
私の町リガ私の町リガ
私の町リガ
 
大学への交通手段
大学への交通手段大学への交通手段
大学への交通手段
 
小学生に 携帯電話
小学生に 携帯電話小学生に 携帯電話
小学生に 携帯電話
 
Tracing multisensory food experience on twitter
Tracing multisensory food experience on twitterTracing multisensory food experience on twitter
Tracing multisensory food experience on twitter
 
ラトビア大学
ラトビア大学ラトビア大学
ラトビア大学
 
私の趣味
私の趣味私の趣味
私の趣味
 
富士山りょこう
富士山りょこう富士山りょこう
富士山りょこう
 
Tips and Tools for NMT
Tips and Tools for NMTTips and Tools for NMT
Tips and Tools for NMT
 
Hybrid Machine Translation by Combining Multiple Machine Translation Systems
Hybrid Machine Translation by Combining Multiple Machine Translation SystemsHybrid Machine Translation by Combining Multiple Machine Translation Systems
Hybrid Machine Translation by Combining Multiple Machine Translation Systems
 
The Impact of Corpora Qulality on Neural Machine Translation
The Impact of Corpora Qulality on Neural Machine TranslationThe Impact of Corpora Qulality on Neural Machine Translation
The Impact of Corpora Qulality on Neural Machine Translation
 
Advancing Estonian Machine Translation
Advancing Estonian Machine TranslationAdvancing Estonian Machine Translation
Advancing Estonian Machine Translation
 
Debugging neural machine translations
Debugging neural machine translationsDebugging neural machine translations
Debugging neural machine translations
 
Effective online learning implementation for statistical machine translation
Effective online learning implementation for statistical machine translationEffective online learning implementation for statistical machine translation
Effective online learning implementation for statistical machine translation
 
Neirontulkojumu atkļūdošana
Neirontulkojumu atkļūdošanaNeirontulkojumu atkļūdošana
Neirontulkojumu atkļūdošana
 
Hybrid machine translation by combining multiple machine translation systems
Hybrid machine translation by combining multiple machine translation systemsHybrid machine translation by combining multiple machine translation systems
Hybrid machine translation by combining multiple machine translation systems
 
Paying attention to MWEs in NMT
Paying attention to MWEs in NMTPaying attention to MWEs in NMT
Paying attention to MWEs in NMT
 

Doktorantūras semināra 1. prezentācija

  • 1. Hibrīdas mašīntulkošanas risinājuma izveide, kombinējot dažādu mašīntulkošanas sistēmu rezultātus Autors: Matīss Rikters Vadītāja: vad. pētn., Dr. Dat. Inguna Skadiņa
  • 2. Saturs • Mašīntulkošanas vēsture, pielietojums • Galvenie virzieni, tulkojumu vērtēšana • Hibrīdā mašīntulkošana • Daudzsistēmu hibrīdā MT • Daudzsistēmu hibrīdās MT eksperiments • Daudzvārdu savienojumu apstrāde
  • 3. Mašīntulkošana • 1947-1954 – Informācijas teorijā bāzēti MT pamatu pētījumi – Džordžtaunas IBM eksperiments • 1954-1966 - Lielas divvalodu vārdnīcas + likumi • 1966-1980 - ALPAC ziņojums, pētījumi turpinājās Eiropā un Kanādā • 1980 - 1990 – Jaunas MT metodes, uz piemēriem bāzētā MT • 1990 - 2000 – Pētījumi runas tulkošanā
  • 4. Mašīntulkošanas pielietojums • Tulkošanas pakalpojumi – Google Translate, Bing Translator, ... – Apjomīgu dokumentu tulkošana • Lokalizācija – Ebay, Adobe, ... • Terorisma apkarošana • Tulkošana no runas runā – Skype, ...
  • 5. Mašīntulkošanas pieejas • Likumos bāzēta MT (LBMT) – Pārvietojumos bāzētā MT – Uz vārdnīcām bāzētā MT – Starpvalodu MT • Datos bāzēta MT – Statistiskā MT (SMT) – Uz piemēriem bāzētā MT • Hibrīdā MT
  • 6. Mašīntulkojuma vērtēšana • BLEU – Vārdu un n-grammu atbilstība • METEOR • NIST • WER • Daudz citu
  • 7. Hibrīdā MT • Daudzsistēmu hibrīdā MT • Statistiskā likumu ģenerēšana • Daudzkārtējā apstrāde (multi-pass)
  • 8. Daudzsistēmu hibrīdā MT • Labākā veselā tulkojuma izvēle • Labāko tulkojuma daļu kombinēšana • Vienu MT sistēmu darbības principu apvienošana ar citām sistēmām
  • 9. Literatūras izpēte Atslēgvārdi Atrastie raksti Coupling machine translation 3 Coupling hybrid machine-translation 2 Machine-translation System combination 12 Multi-Engine machine translation 11 • Tika meklēti raksti par daudzsistēmu mašīntulkošanu • Pēc anotāciju izlasīšanas atstāti 14 raksti detalizētai analīzei • Raksti izanalizēti un savstarpēji salīdzināti to rezultāti
  • 10. Literatūras izpēte • Populārākie apvienošanas paņēmieni izmanto pārpratumu tīklus (confusion network) • Pārsvarā apvienotas sistēmas, kas darbojas vienas iekārtas ietvaros • Visbiežāk tiek apvienotas SMT un LBMT • BLEU rezultāts vidēji pieaug par 5 – 10 %
  • 11. Daudzsistēmu MT metodes • SMT + LBMT • Pārpratumu tīkls (confusion network) • Pārpratumu tīkls + uzlabojumi • Stara meklēšana (beam search) • Citas metodes
  • 12. SMT + LBMT • Populārākais no sistēmu apvienošanas veidiem • BLEU pieaug par 10-15% Analizētie raksti: • Coupling Statistical Machine Translation with Rule-based Transfer and Generation • Hybrid architectures for multi-engine machine translation • Multi-engine machine translation with an open-source decoder for statistical machine translation • Using Moses to integrate multiple rule-based machine translation engines into a hybrid system
  • 13. Pārpratumu tīkls • Vienkāršākais sistēmu apvienošanas veids • Iespējams apvienot jebkāda veida MT sistēmas • BLEU pieaug par 4-10% Analizētie raksti: • Lattice-based system combination for statistical machine translation • MANY: Open source machine translation system combination
  • 14. Pārpratumu tīkls + N-grammu balstītas iezīmes • Uzlabo pārpratumu tīkla darbību • BLEU pieaug par līdz pat 14% Analizētie raksti: • Using n-gram based features for machine translation system combinationUsing n-gram based features for machine translation system combination • Joint optimization for machine translation system combinationJoint optimization for machine translation system combination
  • 15. Stara meklēšana • Alternatīva pārpratumu tīklam • Iespējams apvienot jebkāda veida MT sistēmas • BLEU pieaug par 10-14% Analizētie raksti: • Joint optimization for machine translation system combinationJoint optimization for machine translation system combination • Combining Machine Translation Output with Open Source: The CarnegieCombining Machine Translation Output with Open Source: The Carnegie Mellon Multi-Engine Machine Translation SchemeMellon Multi-Engine Machine Translation Scheme
  • 16. Citas MT apvienošanas metodes • SMT+EBMT+TM+ NE • Rekursīvā teikumu dekompozīcija • Heiristiskā un statistiskā atlase 1-5% BLEU uzlabojums Analizētie raksti: • USAAR-DCU Hybrid Machine Translation System for ICON 2014USAAR-DCU Hybrid Machine Translation System for ICON 2014 • Multi-engine machine translation guided by explicit word matchingMulti-engine machine translation guided by explicit word matching • Multi-engine machine translation by recursive sentence decompositionMulti-engine machine translation by recursive sentence decomposition • First steps towards multi-engine machine translationFirst steps towards multi-engine machine translation
  • 17. Daudzsistēmu hibrīdās MT eksperiments Tīmekļa MT sistēmas latviešu – angļu valodām •Google Translate •Bing Translator •Tildes Tulkotājs •Pragma 6 •BabelXL
  • 19. Daudzvārdu savienojumu apstrāde Metode BLEU Bāzlīnija 62.23 Bāzlīnija + MWE treniņu datos 62.10 Bāzlīnija + 2. tulkošanas tabula 62.04 Bāzlīnija + papildus iezīme 62.37
  • 20. Līdz šim paveiktais • Izlasīta pusotra grāmata par MT • Pieveikts tiešsaistes kurss Barselonas universitātē - Approaches to Machine Translation • Veikti eksperimenti ar daudzvārdu savienojumu apstrādi mašīntulkošanas kvalitātes uzlabošanai • Veikta literatūras izpēte par mašīntulkošanu, hibrīdo MT un daudzsistēmu MT
  • 21. Turpmākie tuvie plāni • Pabeigt rakstu par daudzsistēmu MT • Īstenot,aprakstīt un nopublicēt daudzsistēmu hibrīdās MT eksperimentu • Vadīt pāris kvalifikācijas darbu • Izplānot citus tālākus plānus
  • 22. Izmantotie avoti • Heafield, Kenneth, and Alon Lavie. "Combining Machine Translation Output with Open Source: The Carnegie Mellon Multi-Engine Machine Translation Scheme." The Prague Bulletin of Mathematical Linguistics 93 (2010): 27-36. • Ahsan, A., and P. Kolachina. "Coupling Statistical Machine Translation with Rule-based Transfer and Generation, AMTA-The Ninth Conference of the Association for Machine Translation in the Americas." Denver, Colorado (2010). • Eisele, Andreas. "First steps towards multi-engine machine translation." Proceedings of the ACL Workshop on Building and Using Parallel Texts. Association for Computational Linguistics, 2005. • Eisele, Andreas, et al. "Hybrid architectures for multi-engine machine translation." Proceedings of Translating and the Computer 30 (2008). • He, Xiaodong, and Kristina Toutanova. "Joint optimization for machine translation system combination." Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing: Volume 3-Volume 3. Association for Computational Linguistics, 2009. • Feng, Yang, et al. "Lattice-based system combination for statistical machine translation." Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing: Volume 3- Volume 3. Association for Computational Linguistics, 2009. • Barrault, Loïc. "MANY: Open source machine translation system combination." The Prague Bulletin of Mathematical Linguistics 93 (2010): 147-155. • Mellebeek, Bart, et al. "Multi-engine machine translation by recursive sentence decomposition." (2006). • Jayaraman, Shyamsundar, and Alon Lavie. "Multi-engine machine translation guided by explicit word matching." Proceedings of the ACL 2005 on Interactive poster and demonstration sessions. Association for Computational Linguistics, 2005. • Chen, Yu, et al. "Multi-engine machine translation with an open-source decoder for statistical machine translation." Proceedings of the Second Workshop on Statistical Machine Translation. Association for Computational Linguistics, 2007. • Santanu, Pal, et al. "USAAR-DCU Hybrid Machine Translation System for ICON 2014" The Eleventh International Conference on Natural Language Processing. , 2014. • Eisele, Andreas, et al. "Using Moses to integrate multiple rule-based machine translation engines into a hybrid system." Proceedings of the Third Workshop on Statistical Machine Translation. Association for Computational Linguistics, 2008. • Zhao, Yong, and Xiaodong He. "Using n-gram based features for machine translation system combination." Proceedings of Human Language Technologies: The 2009 Annual Conference of the North American Chapter of the Association for Computational Linguistics, Companion Volume: Short Papers. Association for Computational Linguistics, 2009. • Xuan, H. W., W. Li, and G. Y. Tang. "An Advanced Review of Hybrid Machine Translation (HMT)." Procedia Engineering 29 (2012): 3017-3022. • Rush, Alexander M., Yin-Wen Chang, and Michael Collins. "Optimal Beam Search for Machine Translation." EMNLP. 2013. • Confusion Networks Decoding - http://www.statmt.org/moses/?n=Moses.ConfusionNetworks • Commercial MT Users - http://www.amtaweb.org/commercial-mt-users/

Hinweis der Redaktion

  1. Coupling Statistical Machine Translation with Rule-based Transfer and Generation Hybrid architectures for multi-engine machine translation Multi-engine machine translation with an open-source decoder for statistical machine translation Using Moses to integrate multiple rule-based machine translation engines into a hybrid system
  2. Lattice-based system combination for statistical machine translation MANY: Open source machine translation system combination
  3. Using n-gram based features for machine translation system combination Joint optimization for machine translation system combination
  4. Joint optimization for machine translation system combination Combining Machine Translation Output with Open Source: The Carnegie Mellon Multi-Engine Machine Translation Scheme
  5. USAAR-DCU Hybrid Machine Translation System for ICON 2014 Multi-engine machine translation guided by explicit word matching Multi-engine machine translation by recursive sentence decomposition First steps towards multi-engine machine translation