SlideShare ist ein Scribd-Unternehmen logo
1 von 3
Downloaden Sie, um offline zu lesen
Программа курса Машинный перевод (МП)

  1.  Введение. Мотивация существования МП
  2.  Краткая история МП. Основные этапы. Доклад ALPAC
  3.  Прямой и косвенный МП. Примеры построенных систем МП (СМП)
  4.  Современные СМП в индустрии
  5.  Существующие пакеты для обработки языка и построения СМП
  6.  Два фундаментальных подхода к МП: статистический и традиционный
      (лингвистические правила)
  7. Методы МП
  8. Прямая СМП. Её характеристики
  9. Метод трансфер. Типы трансфера. Характеристики метода
  10. Понятие интерлингвы. Характеристики метода МП, основанного на
      интерлингве. Сравнение с трасфером
  11. Компоненты статистического подхода к МП
  12. Системы МП, основанные на примерах
  13. Теория статистических СМП. Фундаментальное уравнение (теорема
      Байеса). Понятие статистической языковой модели. Модель перевода.
      Вычисление языковой модели
  14. Модель перевода в статистической СМП
  15. Задача выравнивания слов
  16. Характеристики статистических СМП
  17. Существующие компоненты статистических СМП
  18. Оценка качества СМП. Оценка человеком. Автоматические методы оценки,
      их важность в целом
  19. Метрика BLEU
  20. Метрика METEOR
  21. Метрика NIST
  22. Round-trip
  23. Гибридные СМП
  24. Задача переупорядочивания слов в предложении. Классические и
      статистические подходы
  25. Компьютерная семантика русского языка и предпоссылки для построения
      СМП на её основе
  26. Прагматика. Анализ контекста
  27. Детали программных пакетов для машинного перевода: GIZA++, SRILM,
      Moses
  28. Реализация алгоритма переупорядочивания по статье [7]


  Семинар (или темы на реферат):
  1. Математика статистического машинного перевода (по статье [1])
  2. Иерархическая модель для статистического МП (статья [2])
  3. Статистический МП, основанный на фразах (статья [3])
  4. СМП, основанные на правилах (статьи [4,5])
  5. Гибридные СМП, основанные на примерах ([6])
6. Метрика BLEU в деталях (по статье [8])
7. Робастные крупномасштабные СМП, основанные на примерах (по статье
   [9])
Литература
[1] Brown P., Della Petra S., Della Petra V., Mercer R.: The Mathematics of
Statistical Machine Translation: Parameter Estimation, 1993
[2] Chiang D.: A Hierarchical Phrase-Based Model for Statistical Machine
Translation, 2005
[3] Koehn P., Och F., Marcu D.: Statistical Phrase-Based Machine Translation, 2003
[4] Kaplan R., Netter K., Wedekind J., Zaenen A.: Translation By Structural
Correspondences, 1989
[5] Landsbergen J.: The Rosetta Project, 1989
[6] Groves D., Way A.: Hybrid Example-Based SMT: the Best of Both Worlds?
(здесь, как принятно в западной литературе, SMT означает Статистический
Машинный Перевод)
[7] Athanaselis T., Bakamidis S., Dologou I.: Words Reordering based on Statistical
Language Model, 2006
[8] Papineni K., Roukos S., Ward T., Zhu W.-J.: BLEU: a Method for Automatic
Evaluation of Machine Translation, 2002
[9] Gough N., Way A.: Robust Large-Scale EBMT with Marker-Based Segmentation,
2004

Weitere ähnliche Inhalte

Andere mochten auch

Introduction To Machine Translation
Introduction To Machine TranslationIntroduction To Machine Translation
Introduction To Machine Translation
Dmitry Kan
 
Rule based approach to sentiment analysis at ROMIP 2011
Rule based approach to sentiment analysis at ROMIP 2011Rule based approach to sentiment analysis at ROMIP 2011
Rule based approach to sentiment analysis at ROMIP 2011
Dmitry Kan
 
Poster: Method for an automatic generation of a semantic-level contextual tra...
Poster: Method for an automatic generation of a semantic-level contextual tra...Poster: Method for an automatic generation of a semantic-level contextual tra...
Poster: Method for an automatic generation of a semantic-level contextual tra...
Dmitry Kan
 

Andere mochten auch (11)

Machine translation course program (in English)
Machine translation course program (in English)Machine translation course program (in English)
Machine translation course program (in English)
 
Linguistic component Lemmatizer for the Russian language
Linguistic component Lemmatizer for the Russian languageLinguistic component Lemmatizer for the Russian language
Linguistic component Lemmatizer for the Russian language
 
MTEngine: Semantic-level Crowdsourced Machine Translation
MTEngine: Semantic-level Crowdsourced Machine TranslationMTEngine: Semantic-level Crowdsourced Machine Translation
MTEngine: Semantic-level Crowdsourced Machine Translation
 
Introduction To Machine Translation
Introduction To Machine TranslationIntroduction To Machine Translation
Introduction To Machine Translation
 
NoSQL, Apache SOLR and Apache Hadoop
NoSQL, Apache SOLR and Apache HadoopNoSQL, Apache SOLR and Apache Hadoop
NoSQL, Apache SOLR and Apache Hadoop
 
Rule based approach to sentiment analysis at ROMIP 2011
Rule based approach to sentiment analysis at ROMIP 2011Rule based approach to sentiment analysis at ROMIP 2011
Rule based approach to sentiment analysis at ROMIP 2011
 
Poster: Method for an automatic generation of a semantic-level contextual tra...
Poster: Method for an automatic generation of a semantic-level contextual tra...Poster: Method for an automatic generation of a semantic-level contextual tra...
Poster: Method for an automatic generation of a semantic-level contextual tra...
 
Linguistic component Tokenizer for the Russian language
Linguistic component Tokenizer for the Russian languageLinguistic component Tokenizer for the Russian language
Linguistic component Tokenizer for the Russian language
 
Rule based approach to sentiment analysis at romip’11 slides
Rule based approach to sentiment analysis at romip’11 slidesRule based approach to sentiment analysis at romip’11 slides
Rule based approach to sentiment analysis at romip’11 slides
 
Semantic Analysis: theory, applications and use cases
Semantic Analysis: theory, applications and use casesSemantic Analysis: theory, applications and use cases
Semantic Analysis: theory, applications and use cases
 
IR: Open source state
IR: Open source stateIR: Open source state
IR: Open source state
 

Mehr von Dmitry Kan

Mehr von Dmitry Kan (6)

London IR Meetup - Players in Vector Search_ algorithms, software and use cases
London IR Meetup - Players in Vector Search_ algorithms, software and use casesLondon IR Meetup - Players in Vector Search_ algorithms, software and use cases
London IR Meetup - Players in Vector Search_ algorithms, software and use cases
 
Vector databases and neural search
Vector databases and neural searchVector databases and neural search
Vector databases and neural search
 
Haystack LIVE! - 5 ways to increase result diversity at web-scale - Dmitry Ka...
Haystack LIVE! - 5 ways to increase result diversity at web-scale - Dmitry Ka...Haystack LIVE! - 5 ways to increase result diversity at web-scale - Dmitry Ka...
Haystack LIVE! - 5 ways to increase result diversity at web-scale - Dmitry Ka...
 
SentiScan: система автоматической разметки тональности в social media
SentiScan: система автоматической разметки тональности в social mediaSentiScan: система автоматической разметки тональности в social media
SentiScan: система автоматической разметки тональности в social media
 
Icsoft 2011 51_cr
Icsoft 2011 51_crIcsoft 2011 51_cr
Icsoft 2011 51_cr
 
Computer Semantics And Machine Translation
Computer Semantics And Machine TranslationComputer Semantics And Machine Translation
Computer Semantics And Machine Translation
 

Kürzlich hochgeladen

CVE. The Fortra's GoAnywhere MFT [RU].pdf
CVE. The Fortra's GoAnywhere MFT [RU].pdfCVE. The Fortra's GoAnywhere MFT [RU].pdf
CVE. The Fortra's GoAnywhere MFT [RU].pdf
Хроники кибер-безопасника
 
ИСТОЧНИКИ ИННОВАЦИОННОСТИ КИТАЯ (ПО ВЕРСИИ DGAP) | The Sources of China’s Inn...
ИСТОЧНИКИ ИННОВАЦИОННОСТИ КИТАЯ (ПО ВЕРСИИ DGAP) | The Sources of China’s Inn...ИСТОЧНИКИ ИННОВАЦИОННОСТИ КИТАЯ (ПО ВЕРСИИ DGAP) | The Sources of China’s Inn...
ИСТОЧНИКИ ИННОВАЦИОННОСТИ КИТАЯ (ПО ВЕРСИИ DGAP) | The Sources of China’s Inn...
Ирония безопасности
 
Cyberprint. Dark Pink Apt Group [RU].pdf
Cyberprint. Dark Pink Apt Group [RU].pdfCyberprint. Dark Pink Apt Group [RU].pdf
Cyberprint. Dark Pink Apt Group [RU].pdf
Хроники кибер-безопасника
 
СИСТЕМА ОЦЕНКИ УЯЗВИМОСТЕЙ CVSS 4.0 / CVSS v4.0 [RU].pdf
СИСТЕМА ОЦЕНКИ УЯЗВИМОСТЕЙ CVSS 4.0 / CVSS v4.0 [RU].pdfСИСТЕМА ОЦЕНКИ УЯЗВИМОСТЕЙ CVSS 4.0 / CVSS v4.0 [RU].pdf
СИСТЕМА ОЦЕНКИ УЯЗВИМОСТЕЙ CVSS 4.0 / CVSS v4.0 [RU].pdf
Хроники кибер-безопасника
 
2023 Q4. The Ransomware report. [RU].pdf
2023 Q4. The Ransomware report. [RU].pdf2023 Q4. The Ransomware report. [RU].pdf
2023 Q4. The Ransomware report. [RU].pdf
Хроники кибер-безопасника
 
Cyber Defense Doctrine Managing the Risk Full Applied Guide to Organizational...
Cyber Defense Doctrine Managing the Risk Full Applied Guide to Organizational...Cyber Defense Doctrine Managing the Risk Full Applied Guide to Organizational...
Cyber Defense Doctrine Managing the Risk Full Applied Guide to Organizational...
Ирония безопасности
 

Kürzlich hochgeladen (9)

CVE. The Fortra's GoAnywhere MFT [RU].pdf
CVE. The Fortra's GoAnywhere MFT [RU].pdfCVE. The Fortra's GoAnywhere MFT [RU].pdf
CVE. The Fortra's GoAnywhere MFT [RU].pdf
 
ИСТОЧНИКИ ИННОВАЦИОННОСТИ КИТАЯ (ПО ВЕРСИИ DGAP) | The Sources of China’s Inn...
ИСТОЧНИКИ ИННОВАЦИОННОСТИ КИТАЯ (ПО ВЕРСИИ DGAP) | The Sources of China’s Inn...ИСТОЧНИКИ ИННОВАЦИОННОСТИ КИТАЯ (ПО ВЕРСИИ DGAP) | The Sources of China’s Inn...
ИСТОЧНИКИ ИННОВАЦИОННОСТИ КИТАЯ (ПО ВЕРСИИ DGAP) | The Sources of China’s Inn...
 
Cyberprint. Dark Pink Apt Group [RU].pdf
Cyberprint. Dark Pink Apt Group [RU].pdfCyberprint. Dark Pink Apt Group [RU].pdf
Cyberprint. Dark Pink Apt Group [RU].pdf
 
СИСТЕМА ОЦЕНКИ УЯЗВИМОСТЕЙ CVSS 4.0 / CVSS v4.0 [RU].pdf
СИСТЕМА ОЦЕНКИ УЯЗВИМОСТЕЙ CVSS 4.0 / CVSS v4.0 [RU].pdfСИСТЕМА ОЦЕНКИ УЯЗВИМОСТЕЙ CVSS 4.0 / CVSS v4.0 [RU].pdf
СИСТЕМА ОЦЕНКИ УЯЗВИМОСТЕЙ CVSS 4.0 / CVSS v4.0 [RU].pdf
 
2023 Q4. The Ransomware report. [RU].pdf
2023 Q4. The Ransomware report. [RU].pdf2023 Q4. The Ransomware report. [RU].pdf
2023 Q4. The Ransomware report. [RU].pdf
 
MS Navigating Incident Response [RU].pdf
MS Navigating Incident Response [RU].pdfMS Navigating Incident Response [RU].pdf
MS Navigating Incident Response [RU].pdf
 
Cyber Defense Doctrine Managing the Risk Full Applied Guide to Organizational...
Cyber Defense Doctrine Managing the Risk Full Applied Guide to Organizational...Cyber Defense Doctrine Managing the Risk Full Applied Guide to Organizational...
Cyber Defense Doctrine Managing the Risk Full Applied Guide to Organizational...
 
Ransomware_Q3 2023. The report [RU].pdf
Ransomware_Q3 2023.  The report [RU].pdfRansomware_Q3 2023.  The report [RU].pdf
Ransomware_Q3 2023. The report [RU].pdf
 
Malware. DCRAT (DARK CRYSTAL RAT) [RU].pdf
Malware. DCRAT (DARK CRYSTAL RAT) [RU].pdfMalware. DCRAT (DARK CRYSTAL RAT) [RU].pdf
Malware. DCRAT (DARK CRYSTAL RAT) [RU].pdf
 

MT course contents (in Russian)

  • 1. Программа курса Машинный перевод (МП) 1. Введение. Мотивация существования МП 2. Краткая история МП. Основные этапы. Доклад ALPAC 3. Прямой и косвенный МП. Примеры построенных систем МП (СМП) 4. Современные СМП в индустрии 5. Существующие пакеты для обработки языка и построения СМП 6. Два фундаментальных подхода к МП: статистический и традиционный (лингвистические правила) 7. Методы МП 8. Прямая СМП. Её характеристики 9. Метод трансфер. Типы трансфера. Характеристики метода 10. Понятие интерлингвы. Характеристики метода МП, основанного на интерлингве. Сравнение с трасфером 11. Компоненты статистического подхода к МП 12. Системы МП, основанные на примерах 13. Теория статистических СМП. Фундаментальное уравнение (теорема Байеса). Понятие статистической языковой модели. Модель перевода. Вычисление языковой модели 14. Модель перевода в статистической СМП 15. Задача выравнивания слов 16. Характеристики статистических СМП 17. Существующие компоненты статистических СМП 18. Оценка качества СМП. Оценка человеком. Автоматические методы оценки, их важность в целом 19. Метрика BLEU 20. Метрика METEOR 21. Метрика NIST 22. Round-trip 23. Гибридные СМП 24. Задача переупорядочивания слов в предложении. Классические и статистические подходы 25. Компьютерная семантика русского языка и предпоссылки для построения СМП на её основе 26. Прагматика. Анализ контекста 27. Детали программных пакетов для машинного перевода: GIZA++, SRILM, Moses 28. Реализация алгоритма переупорядочивания по статье [7] Семинар (или темы на реферат): 1. Математика статистического машинного перевода (по статье [1]) 2. Иерархическая модель для статистического МП (статья [2]) 3. Статистический МП, основанный на фразах (статья [3]) 4. СМП, основанные на правилах (статьи [4,5]) 5. Гибридные СМП, основанные на примерах ([6])
  • 2. 6. Метрика BLEU в деталях (по статье [8]) 7. Робастные крупномасштабные СМП, основанные на примерах (по статье [9])
  • 3. Литература [1] Brown P., Della Petra S., Della Petra V., Mercer R.: The Mathematics of Statistical Machine Translation: Parameter Estimation, 1993 [2] Chiang D.: A Hierarchical Phrase-Based Model for Statistical Machine Translation, 2005 [3] Koehn P., Och F., Marcu D.: Statistical Phrase-Based Machine Translation, 2003 [4] Kaplan R., Netter K., Wedekind J., Zaenen A.: Translation By Structural Correspondences, 1989 [5] Landsbergen J.: The Rosetta Project, 1989 [6] Groves D., Way A.: Hybrid Example-Based SMT: the Best of Both Worlds? (здесь, как принятно в западной литературе, SMT означает Статистический Машинный Перевод) [7] Athanaselis T., Bakamidis S., Dologou I.: Words Reordering based on Statistical Language Model, 2006 [8] Papineni K., Roukos S., Ward T., Zhu W.-J.: BLEU: a Method for Automatic Evaluation of Machine Translation, 2002 [9] Gough N., Way A.: Robust Large-Scale EBMT with Marker-Based Segmentation, 2004