SlideShare ist ein Scribd-Unternehmen logo
1 von 15
Downloaden Sie, um offline zu lesen
Enriching Morphologically Poor Languages
for Statistical Machine Translation
Avramidis, Eleftherios and Koehn, Philipp, Proceedings of ACL-08:
HLT, pp.763-770, 2008
⽂献紹介
2016.11.8
⾃然⾔語処理研究室 修⼠2年 髙橋寛治
概要
• 形態論が乏しい⾔語から豊富な⾔語への統計翻訳
• 乏しい⾔語に(⼊⼒)に⾔語的な情報を構⽂解析をもとに
付与
• 英語からギリシャ語への翻訳で動詞活⽤誤りが19%から
5.4%へ
Enriching Morphologically Poor Languages for Statistical Machine Translation
はじめに
統計翻訳は局所的な単語列を⾒て翻訳する
複雑な⾔語現象をうまく出⼒しにくい
形態論が簡略な⾔語から複雑な⾔語への翻訳は難しい
例えば、英語の名詞とギリシャ語の名詞は振る舞いが対応しない
Factored phrase-based統計翻訳を基に扱う
⼊⼒⾔語の前処理に注⼒し、情報を付加
Enriching Morphologically Poor Languages for Statistical Machine Translation
句ベース統計翻訳での形態論
流暢さには⼀致があり、統計翻訳では2つの⽅法で扱う
性、格、番号、⼈称など
1. 対象⾔語の⾔語モデルで、尤もらしいものを担保する
コーパスから⽂法的に正しい単語列を学習する
2. ⼀つの塊としてうまく扱う
句ベース翻訳では、句と句が⼀致(agreement)をある程度補う
Enriching Morphologically Poor Languages for Statistical Machine Translation
Enriching Morphologically Poor Languages for Statistical
Machine Translation
⾔語モデルやフレーズを超えると、うまく扱えない
関連研究
原⾔語への情報の付与
スペイン語などの動詞の活⽤を扱うためにPOSタグを付与
(Ueffing and Ney 2003)
後編集
原⾔語の⽂法情報を⽤いて後編集を⾏う(Minkov et al. 2007)
Factored翻訳モデル
形態論タグを形態論が豊富な⾔語に品詞と共に付与
(Koehn and Hoang 2007)
Enriching Morphologically Poor Languages for Statistical Machine Translation
⼿法
• 名詞の格の⼀致と動詞の⼈称による活⽤に焦点をあてる
• 基本的に構⽂解析結果から取り出す
Enriching Morphologically Poor Languages for Statistical Machine Translation
名詞の格の⼀致
主格か⽬的格かを構⽂解析結果から取得
Semantic Role Labellingを参考
Sub-treeパターンを定義
ルールベースで格の関係を取得
翻訳モデルでのスパースさを防ぐ
あまり影響しない格はタグ付けしない
Enriching Morphologically Poor Languages for Statistical Machine Translation
動詞の⼈称に関する活⽤を解消
動詞の主語を探す
動詞と主語が直接紐付いているものを取得
タグ付け
代名詞は⼀つのタグとする
普通名詞は単数か複数かをタグ付け
ギリシャ語には名詞の性はないので気にしない
Enriching Morphologically Poor Languages for Statistical Machine Translation
Factored翻訳モデル
Factored翻訳モデル
λはチューニングで決定される重み
hは素性関数
スパースさをさけるために
デコード時に別パスを考慮
Enriching Morphologically Poor Languages for Statistical Machine Translation
実験
翻訳システム
Moses, 5-gram SRILM, MERTチューニング
コーパス
開発セットはEuroparlから2000⽂
テストセットはEuroparlコーパスとニュースから2000⽂
ギリシャ語のモデルは440,082⽂(Europarl v.3)
Enriching Morphologically Poor Languages for Statistical Machine Translation
結果
Enriching Morphologically Poor Languages for Statistical Machine Translation
スパースさを軽減する別パスを持つものが良い
素性が組み合わさるとスパースになる
NISTは有意に良くなった
Enriching Morphologically Poor Languages for Statistical
Machine Translation
エラー分析
⾃動評価尺度では測りにくい
格の妥当性を⼈⼿で評価
格を考慮したモデルは良い
動詞も名詞も妥当性が向上
別パスの追加も良い
未知語が減る
エラーがどの段階の処理で⽣じるか
デコード時が圧倒的、おそらくデータが⾜りない
構⽂の格パターンマッチの改善などでデータ数を増やせる
Enriching Morphologically Poor Languages for Statistical
Machine Translation
エラー分析
まとめ
英語から形態論が豊富な⾔語への翻訳性能の向上
必要な⾔語情報を⼊⼒⽂に前処理として付与した
名詞の格や動詞の⼈称など対象⾔語で必要な情報を⾃動付与
情報を推定し、Factored翻訳モデルとして組み込む
簡単に拡張でき、性能が向上
「英語→形態論が豊富な⾔語」の翻訳時に簡単に利⽤可能
Enriching Morphologically Poor Languages for Statistical Machine Translation

Weitere ähnliche Inhalte

Andere mochten auch

Ikea 2601407 고경민
Ikea 2601407 고경민Ikea 2601407 고경민
Ikea 2601407 고경민
Kenny Go
 

Andere mochten auch (12)

Ikea 2601407 고경민
Ikea 2601407 고경민Ikea 2601407 고경민
Ikea 2601407 고경민
 
PROMOTION OF BREAST FEEDING PRACTICES IN INDIA dr sugandha
PROMOTION OF BREAST FEEDING PRACTICES IN INDIA dr sugandhaPROMOTION OF BREAST FEEDING PRACTICES IN INDIA dr sugandha
PROMOTION OF BREAST FEEDING PRACTICES IN INDIA dr sugandha
 
Rabies fa qs final
Rabies fa qs finalRabies fa qs final
Rabies fa qs final
 
Deploying Accelerators At Datacenter Scale Using Spark
Deploying Accelerators At Datacenter Scale Using SparkDeploying Accelerators At Datacenter Scale Using Spark
Deploying Accelerators At Datacenter Scale Using Spark
 
ぷよぷよAIの新しい探索法
ぷよぷよAIの新しい探索法ぷよぷよAIの新しい探索法
ぷよぷよAIの新しい探索法
 
Big Data in Production: Lessons from Running in the Cloud
Big Data in Production: Lessons from Running in the CloudBig Data in Production: Lessons from Running in the Cloud
Big Data in Production: Lessons from Running in the Cloud
 
모두의 알파고
모두의 알파고모두의 알파고
모두의 알파고
 
Introduction to Metrology
Introduction to Metrology Introduction to Metrology
Introduction to Metrology
 
amr_8431.pdf
amr_8431.pdfamr_8431.pdf
amr_8431.pdf
 
DQN with Differentiable Memory Architectures
DQN with Differentiable Memory ArchitecturesDQN with Differentiable Memory Architectures
DQN with Differentiable Memory Architectures
 
pi962.pdf
pi962.pdfpi962.pdf
pi962.pdf
 
fh-201206.pdf
fh-201206.pdffh-201206.pdf
fh-201206.pdf
 

Mehr von Kanji Takahashi

Mehr von Kanji Takahashi (20)

20180718Eightニュースフィード活性化のための自然言語処理の取り組み
20180718Eightニュースフィード活性化のための自然言語処理の取り組み20180718Eightニュースフィード活性化のための自然言語処理の取り組み
20180718Eightニュースフィード活性化のための自然言語処理の取り組み
 
論文読み会 Creating Speech and Language Data With Amazon’s Mechanical Turk
論文読み会 Creating Speech and Language Data With Amazon’s Mechanical Turk論文読み会 Creating Speech and Language Data With Amazon’s Mechanical Turk
論文読み会 Creating Speech and Language Data With Amazon’s Mechanical Turk
 
論文読み会 Enriching Word Vectors with Subword Information
論文読み会 Enriching Word Vectors with Subword Information論文読み会 Enriching Word Vectors with Subword Information
論文読み会 Enriching Word Vectors with Subword Information
 
第17回Machine Learning 15 minutes!:ビジネスの出会いを科学する
第17回Machine Learning 15 minutes!:ビジネスの出会いを科学する第17回Machine Learning 15 minutes!:ビジネスの出会いを科学する
第17回Machine Learning 15 minutes!:ビジネスの出会いを科学する
 
論文読み会 Data Augmentation for Low-Resource Neural Machine Translation
論文読み会 Data Augmentation for Low-Resource Neural Machine Translation論文読み会 Data Augmentation for Low-Resource Neural Machine Translation
論文読み会 Data Augmentation for Low-Resource Neural Machine Translation
 
言語処理学会第23回年次大会参加報告
言語処理学会第23回年次大会参加報告言語処理学会第23回年次大会参加報告
言語処理学会第23回年次大会参加報告
 
20170203The Effects of Data Size and Frequency Range on Distributional Semant...
20170203The Effects of Data Size and Frequency Range on Distributional Semant...20170203The Effects of Data Size and Frequency Range on Distributional Semant...
20170203The Effects of Data Size and Frequency Range on Distributional Semant...
 
20161215Neural Machine Translation of Rare Words with Subword Units
20161215Neural Machine Translation of Rare Words with Subword Units20161215Neural Machine Translation of Rare Words with Subword Units
20161215Neural Machine Translation of Rare Words with Subword Units
 
A Beam-Search Decoder for Normalization of Social Media Text with Application...
A Beam-Search Decoder for Normalization of Social Media Text with Application...A Beam-Search Decoder for Normalization of Social Media Text with Application...
A Beam-Search Decoder for Normalization of Social Media Text with Application...
 
Reducing the Impact of Data Sparsity in Statistical Machine Translation
Reducing the Impact of Data Sparsity in Statistical Machine TranslationReducing the Impact of Data Sparsity in Statistical Machine Translation
Reducing the Impact of Data Sparsity in Statistical Machine Translation
 
文献紹介:Morphological analysis for Statistical Machine Translation
文献紹介:Morphological analysis for Statistical Machine Translation文献紹介:Morphological analysis for Statistical Machine Translation
文献紹介:Morphological analysis for Statistical Machine Translation
 
Distributed Representations of Words and Phrases and their Compositionally
Distributed Representations of Words and Phrases and their CompositionallyDistributed Representations of Words and Phrases and their Compositionally
Distributed Representations of Words and Phrases and their Compositionally
 
Nlp2016参加報告(高橋)
Nlp2016参加報告(高橋)Nlp2016参加報告(高橋)
Nlp2016参加報告(高橋)
 
Domain-spesific Paraphrase Extraction
Domain-spesific Paraphrase ExtractionDomain-spesific Paraphrase Extraction
Domain-spesific Paraphrase Extraction
 
Vietnamese Word Segmentation with CRFs and SVMs: An Investigation
Vietnamese Word Segmentation with CRFs and SVMs: An InvestigationVietnamese Word Segmentation with CRFs and SVMs: An Investigation
Vietnamese Word Segmentation with CRFs and SVMs: An Investigation
 
Improving vietnamese word segmentation and pos tagging using MEM with various...
Improving vietnamese word segmentation and pos tagging using MEM with various...Improving vietnamese word segmentation and pos tagging using MEM with various...
Improving vietnamese word segmentation and pos tagging using MEM with various...
 
日本語機能表現の自動検出と統計的係り受け解析への応用
日本語機能表現の自動検出と統計的係り受け解析への応用日本語機能表現の自動検出と統計的係り受け解析への応用
日本語機能表現の自動検出と統計的係り受け解析への応用
 
20150916How Far are We from Fully Automatic High Quality Grammatical Error Co...
20150916How Far are We from Fully Automatic High Quality Grammatical Error Co...20150916How Far are We from Fully Automatic High Quality Grammatical Error Co...
20150916How Far are We from Fully Automatic High Quality Grammatical Error Co...
 
20150728So similar and yet incompatible: Toward automated identification of s...
20150728So similar and yet incompatible:Toward automated identification of s...20150728So similar and yet incompatible:Toward automated identification of s...
20150728So similar and yet incompatible: Toward automated identification of s...
 
20150701 Improving SMT quality with morpho-syntactic analysis
20150701 Improving SMT quality with morpho-syntactic analysis20150701 Improving SMT quality with morpho-syntactic analysis
20150701 Improving SMT quality with morpho-syntactic analysis
 

Enriching Morphologically Poor Languages for Statistical Machine Translation