Hibrīdas mašīntulkošanas risinājuma izveide, kombinējot dažādu mašīntulkošanas sistēmu rezultātus. Prezentācija par mašīntulkošanu doktorantūras skolas semināram 25.03.2015
1. Hibrīdas mašīntulkošanas risinājuma izveide,
kombinējot dažādu mašīntulkošanas sistēmu rezultātus
Autors: Matīss Rikters
Vadītāja: vad. pētn., Dr. Dat. Inguna Skadiņa
3. Mašīntulkošana
• 1947-1954 – Informācijas teorijā bāzēti MT pamatu pētījumi
– Džordžtaunas IBM eksperiments
• 1954-1966 - Lielas divvalodu vārdnīcas + likumi
• 1966-1980 - ALPAC ziņojums, pētījumi turpinājās
Eiropā un Kanādā
• 1980 - 1990 – Jaunas MT metodes, uz piemēriem bāzētā MT
• 1990 - 2000 – Pētījumi runas tulkošanā
8. Daudzsistēmu hibrīdā MT
• Labākā veselā tulkojuma izvēle
• Labāko tulkojuma daļu kombinēšana
• Vienu MT sistēmu darbības principu
apvienošana ar citām sistēmām
9. Literatūras izpēte
Atslēgvārdi Atrastie raksti
Coupling machine
translation
3
Coupling hybrid
machine-translation
2
Machine-translation
System combination
12
Multi-Engine
machine translation
11
• Tika meklēti raksti par
daudzsistēmu mašīntulkošanu
• Pēc anotāciju izlasīšanas atstāti
14 raksti detalizētai analīzei
• Raksti izanalizēti un savstarpēji
salīdzināti to rezultāti
10. Literatūras izpēte
• Populārākie apvienošanas paņēmieni izmanto
pārpratumu tīklus (confusion network)
• Pārsvarā apvienotas sistēmas, kas darbojas
vienas iekārtas ietvaros
• Visbiežāk tiek apvienotas SMT un LBMT
• BLEU rezultāts vidēji pieaug par 5 – 10 %
11. Daudzsistēmu MT metodes
• SMT + LBMT
• Pārpratumu tīkls (confusion network)
• Pārpratumu tīkls + uzlabojumi
• Stara meklēšana (beam search)
• Citas metodes
12. SMT + LBMT
• Populārākais no sistēmu apvienošanas veidiem
• BLEU pieaug par 10-15%
Analizētie raksti:
• Coupling Statistical Machine Translation with Rule-based Transfer and Generation
• Hybrid architectures for multi-engine machine translation
• Multi-engine machine translation with an open-source decoder for statistical machine translation
• Using Moses to integrate multiple rule-based machine translation engines into a hybrid system
13. Pārpratumu tīkls
• Vienkāršākais sistēmu apvienošanas veids
• Iespējams apvienot jebkāda veida MT sistēmas
• BLEU pieaug par 4-10%
Analizētie raksti:
• Lattice-based system combination for statistical machine translation
• MANY: Open source machine translation system combination
14. Pārpratumu tīkls +
N-grammu balstītas iezīmes
• Uzlabo pārpratumu tīkla darbību
• BLEU pieaug par līdz pat 14%
Analizētie raksti:
• Using n-gram based features for machine translation system combinationUsing n-gram based features for machine translation system combination
• Joint optimization for machine translation system combinationJoint optimization for machine translation system combination
15. Stara meklēšana
• Alternatīva pārpratumu tīklam
• Iespējams apvienot jebkāda veida MT sistēmas
• BLEU pieaug par 10-14%
Analizētie raksti:
• Joint optimization for machine translation system combinationJoint optimization for machine translation system combination
• Combining Machine Translation Output with Open Source: The CarnegieCombining Machine Translation Output with Open Source: The Carnegie
Mellon Multi-Engine Machine Translation SchemeMellon Multi-Engine Machine Translation Scheme
16. Citas MT apvienošanas metodes
• SMT+EBMT+TM+ NE
• Rekursīvā teikumu dekompozīcija
• Heiristiskā un statistiskā atlase
1-5% BLEU uzlabojums
Analizētie raksti:
• USAAR-DCU Hybrid Machine Translation System for ICON 2014USAAR-DCU Hybrid Machine Translation System for ICON 2014
• Multi-engine machine translation guided by explicit word matchingMulti-engine machine translation guided by explicit word matching
• Multi-engine machine translation by recursive sentence decompositionMulti-engine machine translation by recursive sentence decomposition
• First steps towards multi-engine machine translationFirst steps towards multi-engine machine translation
19. Daudzvārdu savienojumu apstrāde
Metode BLEU
Bāzlīnija 62.23
Bāzlīnija + MWE treniņu datos 62.10
Bāzlīnija + 2. tulkošanas tabula 62.04
Bāzlīnija + papildus iezīme 62.37
20. Līdz šim paveiktais
• Izlasīta pusotra grāmata par MT
• Pieveikts tiešsaistes kurss Barselonas
universitātē - Approaches to Machine Translation
• Veikti eksperimenti ar daudzvārdu savienojumu
apstrādi mašīntulkošanas kvalitātes uzlabošanai
• Veikta literatūras izpēte par mašīntulkošanu,
hibrīdo MT un daudzsistēmu MT
21. Turpmākie tuvie plāni
• Pabeigt rakstu par daudzsistēmu MT
• Īstenot,aprakstīt un nopublicēt
daudzsistēmu hibrīdās MT eksperimentu
• Vadīt pāris kvalifikācijas darbu
• Izplānot citus tālākus plānus
22. Izmantotie avoti
• Heafield, Kenneth, and Alon Lavie. "Combining Machine Translation Output with Open Source: The Carnegie Mellon Multi-Engine Machine Translation Scheme." The Prague Bulletin of
Mathematical Linguistics 93 (2010): 27-36.
• Ahsan, A., and P. Kolachina. "Coupling Statistical Machine Translation with Rule-based Transfer and Generation, AMTA-The Ninth Conference of the Association for Machine Translation in the
Americas." Denver, Colorado (2010).
• Eisele, Andreas. "First steps towards multi-engine machine translation." Proceedings of the ACL Workshop on Building and Using Parallel Texts. Association for Computational Linguistics, 2005.
• Eisele, Andreas, et al. "Hybrid architectures for multi-engine machine translation." Proceedings of Translating and the Computer 30 (2008).
• He, Xiaodong, and Kristina Toutanova. "Joint optimization for machine translation system combination." Proceedings of the 2009 Conference on Empirical Methods in Natural Language
Processing: Volume 3-Volume 3. Association for Computational Linguistics, 2009.
• Feng, Yang, et al. "Lattice-based system combination for statistical machine translation." Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing: Volume 3-
Volume 3. Association for Computational Linguistics, 2009.
• Barrault, Loïc. "MANY: Open source machine translation system combination." The Prague Bulletin of Mathematical Linguistics 93 (2010): 147-155.
• Mellebeek, Bart, et al. "Multi-engine machine translation by recursive sentence decomposition." (2006).
• Jayaraman, Shyamsundar, and Alon Lavie. "Multi-engine machine translation guided by explicit word matching." Proceedings of the ACL 2005 on Interactive poster and demonstration sessions.
Association for Computational Linguistics, 2005.
• Chen, Yu, et al. "Multi-engine machine translation with an open-source decoder for statistical machine translation." Proceedings of the Second Workshop on Statistical Machine Translation.
Association for Computational Linguistics, 2007.
• Santanu, Pal, et al. "USAAR-DCU Hybrid Machine Translation System for ICON 2014" The Eleventh International Conference on Natural Language Processing. , 2014.
• Eisele, Andreas, et al. "Using Moses to integrate multiple rule-based machine translation engines into a hybrid system." Proceedings of the Third Workshop on Statistical Machine Translation.
Association for Computational Linguistics, 2008.
• Zhao, Yong, and Xiaodong He. "Using n-gram based features for machine translation system combination." Proceedings of Human Language Technologies: The 2009 Annual Conference of the
North American Chapter of the Association for Computational Linguistics, Companion Volume: Short Papers. Association for Computational Linguistics, 2009.
• Xuan, H. W., W. Li, and G. Y. Tang. "An Advanced Review of Hybrid Machine Translation (HMT)." Procedia Engineering 29 (2012): 3017-3022.
• Rush, Alexander M., Yin-Wen Chang, and Michael Collins. "Optimal Beam Search for Machine Translation." EMNLP. 2013.
• Confusion Networks Decoding - http://www.statmt.org/moses/?n=Moses.ConfusionNetworks
• Commercial MT Users - http://www.amtaweb.org/commercial-mt-users/
Coupling Statistical Machine Translation with Rule-based Transfer and Generation
Hybrid architectures for multi-engine machine translation
Multi-engine machine translation with an open-source decoder for statistical machine translation
Using Moses to integrate multiple rule-based machine translation engines into a hybrid system
Lattice-based system combination for statistical machine translation
MANY: Open source machine translation system combination
Using n-gram based features for machine translation system combination
Joint optimization for machine translation system combination
Joint optimization for machine translation system combination
Combining Machine Translation Output with Open Source: The Carnegie Mellon Multi-Engine Machine Translation Scheme
USAAR-DCU Hybrid Machine Translation System for ICON 2014
Multi-engine machine translation guided by explicit word matching
Multi-engine machine translation by recursive sentence decomposition
First steps towards multi-engine machine translation