SlideShare ist ein Scribd-Unternehmen logo
1 von 30
Downloaden Sie, um offline zu lesen
ー文献紹介ー
日英機械翻訳のための
日本語長文自動短文分割と主語の補完
金 淵培、江原 暉将(日本放送協会放送技術研究所先端制作技術研究部) 
情報処理学会論文誌、Vol.35, No. 6, pp.1018-1028、1994
長岡技術科学大学 自然言語処理研究室 高橋寛治
日英機械翻訳のための日本語長文自動短文分割と主語の補完 2/30
概要
●
機械翻訳精度の低下の要因
●
文が長すぎて、構文解析ができない。
●
提案
●
日本語の長文を複数の短文に自動的に分割
●
主語がなくなった文に対して自動的に主語を補完
●
結果(約400文のニュース文に対して)
●
約88%の分割点認定率、76%の主語の補完率を得た
日英機械翻訳のための日本語長文自動短文分割と主語の補完 3/30
はじめに
●
長文は機械翻訳の精度を低下させる要因の1つ
●
文が長いと係り受け構造が複雑となり、構文解析に
失敗することが多い
●
トランスファー方式では
●
解析・変換・生成の解析で失敗となる
日英機械翻訳のための日本語長文自動短文分割と主語の補完 4/30
短文分割
日英機械翻訳のための日本語長文自動短文分割と主語の補完 5/30
短文分割の有効性
50文字以上の文の解析は非常に困難
●
80文字以上はほとんど構文解析失敗
●
約500のニュース文に対して人手で分割実験
●
原文と分割後の分割文を機械翻訳
日英機械翻訳のための日本語長文自動短文分割と主語の補完 6/30
短文分割の有効性
●
30単語未満の文
●
分割前22.5%
●
分割後78.5%
●
分割後70単語以上の
文が、ほぼなくなった
日英機械翻訳のための日本語長文自動短文分割と主語の補完 7/30
機械翻訳での結果
●
分割文の翻訳の評価に
ついて
●
1つの文の分割文すべて
が翻訳に成功したとき
●
文意が誤りなく伝わる
かどうか
構文解析
に成功
機械翻訳
に成功
総文数
原文 228 96 378
分割文 295 118 378
日英機械翻訳のための日本語長文自動短文分割と主語の補完 8/30
分割処理の概略フロー
(ア) 形態素解析
(イ) 情報素列の抽出
(ウ) 分割点の認定
(エ) 主語のない文の主語認定
(オ) 形態素列の出力
日英機械翻訳のための日本語長文自動短文分割と主語の補完 9/30
短文への分割
●
長いニュース文は右表のような
接続法を用いて作られている
●
どう分割点を認定するか?
日英機械翻訳のための日本語長文自動短文分割と主語の補完 10/30
連用中止の分割
●
連用中止を「連用中止」、「連用形+て」とする
●
例
●
海部総理大臣はきょうの閣議のあと、吹田自治大臣と会談
し、今後の政治改革への取り組みについて競技しました。
●
海部総理大臣はきょうの閣議の後、吹田自治大臣と会談し
ました。海部総理大臣は今後の政治改革への取り組みについ
て協議しました。
日英機械翻訳のための日本語長文自動短文分割と主語の補完 11/30
連用中止の例外
●
文脈により副詞的性質を表す連用形
●
「をはじめ、に関し、に引き続き・・」など40個
●
連用形に接尾辞や接尾的な述語成分が持続
●
「起きて以来、降りしだい・・」など
●
連用形にすぐ連体形が接続する場合
●
「利用して出かけた人」(連体節の一部の可能性大)
●
主語のない連用節で始まる場合
●
「カムチャッカで大やけどをして札幌医大で治療を受けている・・・」
日英機械翻訳のための日本語長文自動短文分割と主語の補完 12/30
●
分割対象文を形態素解析
●
分割点のパターン・マッチ
ングを効率よくかつ、効果的
にするため形態素情報を工夫
分割点の認定手順
日英機械翻訳のための日本語長文自動短文分割と主語の補完 13/30
情報素列の抽出
「記号素列」は「品詞」に相当
日英機械翻訳のための日本語長文自動短文分割と主語の補完 14/30
パターンマッチング
●
パターンの仕組み
●
ポインタと組み合わせ検索
●
I :表面素列
●
%:標準素列
●
Null:記号素列
●
&:短文素列
日英機械翻訳のための日本語長文自動短文分割と主語の補完 15/30
パターンマッチング
●
Nパターン(分割不可)
●
「合わせて+凡そ+数詞」
●
「連用形+以来」
●
「連用形+副詞」
●
「連用形+接尾辞」
●
Yパターン(分割可)
●
「連体形+際+に」
●
「終止形+と+共+に+“,”」
●
「連用形+”,”」
●
「連用形」
パターンの長さ優先でマッチング
2重判断「Nパターンにマッチしない」かつ「Yパターンにマッチ」
日英機械翻訳のための日本語長文自動短文分割と主語の補完 16/30
主語補完
日英機械翻訳のための日本語長文自動短文分割と主語の補完 17/30
主語の補完
●
必要性
●
主語がない場合、受動形化して機械翻訳を行う
→英語は受動形より能動形が選好される傾向がある
●
分割文の構文分析の失敗の大きな原因は主語省略
→分割文の翻訳に、主語補完は必要
日英機械翻訳のための日本語長文自動短文分割と主語の補完 18/30
主語補完の前提
●
主語は補完対象述語の左側にある
●
主語は分割対象文内にある
●
主語は「は、では、が、には、を、の、も、
に、で」のいずれかを持つ名詞である
日英機械翻訳のための日本語長文自動短文分割と主語の補完 19/30
主語補完手法(統計的)
●
「主語・述語」と「非主語・述語」のベクトル化
●
主語になれる名詞、なれない名詞の特徴ベクトルの分布を推定
●
特徴ベクトルの確率分布が多次元正規分布と仮定
●
各主語候補が主語になれる確率値を主語になれない確
率値で割った値を判断基準とする
日英機械翻訳のための日本語長文自動短文分割と主語の補完 20/30
主語・述語間の特徴と数量化
●
7つの特徴に分けて捉える
1.主語候補に付属する格助詞の種別
2.連体節との関係
3.主語候補と補完対象述語の意味的整合度
 ・主語候補と補完対象述語間の距離
4.主語候補と述語との間にある「は」格要素の数
5.主語候補と述語との間にある「が」格の要素の数
6.主語候補と述語との間にある「は」と「が」以外の格要素の数
7.主語候補と述語との間にある動詞の数
日英機械翻訳のための日本語長文自動短文分割と主語の補完 21/30
統計処理による主語の認定手法
●
学習データ
●
処理対象から標本文を抽出し、各標本内のすべての述語
に対する主語候補から主語と非主語を人手で分離
●
主語になる名詞の特徴ベクトルの確率分布を求める
●
平均値ベクトルと分散共分散行列を学習データを用
いて推定
日英機械翻訳のための日本語長文自動短文分割と主語の補完 22/30
統計処理による主語の認定手法
●
これらを用いて、ある特定の候補が主語になれ
る確率密度 P を算出
●
主語になれない確率密度 Q も算出
●
P / Q を評価関数として利用
●
その値が最大となる候補を主語として補完
日英機械翻訳のための日本語長文自動短文分割と主語の補完 23/30
評価
日英機械翻訳のための日本語長文自動短文分割と主語の補完 24/30
短文分割実験
●
テスト文
●
テレビニュース文381文をランダムに選択
●
23文は短文で分割点がないため、実験の対象外
●
実験
●
人手と機械による分割の比較
●
両者のすべての分割点が完全一致する文を成功とする
日英機械翻訳のための日本語長文自動短文分割と主語の補完 25/30
短文分割実験
●
結果
●
358文中、315文が成功(87.9%)
●
失敗例
●
「連用形+て」が副詞的に使用
●
「2年連続して全国で最も高い・・・」
●
パターン追加で解決
日英機械翻訳のための日本語長文自動短文分割と主語の補完 26/30
短文分割実験
●
連用節が連体節の一部分になる場合
●
到着ロビーは、スキーや海水浴などで日焼けし、お
みやげをいっぱい抱えた家族連れなどで、ごったがえ
し、宅急便の窓口や都心に向かうバス乗り場に一日
中、長い列ができてしまいました。
●
これは今後の課題
日英機械翻訳のための日本語長文自動短文分割と主語の補完 27/30
主語補完の実験
分割によって主語のなくなった108個の分割文に対
して実験し、主語補完法の精度を評価
●
補完対象文の数が少ないため、75%を学習データ
として利用
●
残り25%を試験データとして利用
●
これを4回繰り返し、結果の平均値を精度評価の対象に
日英機械翻訳のための日本語長文自動短文分割と主語の補完 28/30
主語補完の実験
日英機械翻訳のための日本語長文自動短文分割と主語の補完 29/30
おわりに
●
日英機械翻訳のための分割法を提案
●
長いニュース文の分割点の認定手法
●
主語のない分割文の主語補完手法
●
まだ長い分割文が頻繁に生成
●
長い連体節の分割が難しい
日英機械翻訳のための日本語長文自動短文分割と主語の補完 30/30
おわりに
●
Nパターンの数が多くなる可能性あり
●
どう効率的にパターンを記述するか
●
主語補完は統計的アプローチで良い結果を得た
●
より的確な主語認定結果を得るために検討すべきこと
●
提案した主語・述語の特徴で充分か?
●
提案した数量化方式より効果的な方式は?
●
提案した学習モデルより優れたモデルは?

Weitere ähnliche Inhalte

Andere mochten auch

Tugas akhir nurul ulfa 120420120005
Tugas akhir nurul ulfa 120420120005Tugas akhir nurul ulfa 120420120005
Tugas akhir nurul ulfa 120420120005
Ulfa Kudo
 
QM-002-6 sigma for service
QM-002-6 sigma for serviceQM-002-6 sigma for service
QM-002-6 sigma for service
handbook
 

Andere mochten auch (14)

2016年職務経歴書
2016年職務経歴書2016年職務経歴書
2016年職務経歴書
 
It job interview summary 2017
It job interview summary 2017It job interview summary 2017
It job interview summary 2017
 
履歴書書き方_手引き版
履歴書書き方_手引き版履歴書書き方_手引き版
履歴書書き方_手引き版
 
【DELPHI / C++BUILDER STARTER チュートリアルシリーズ】 シーズン2 Delphi の部 第4回 「Function と Pro...
【DELPHI / C++BUILDER STARTER チュートリアルシリーズ】 シーズン2 Delphi の部 第4回 「Function と Pro...【DELPHI / C++BUILDER STARTER チュートリアルシリーズ】 シーズン2 Delphi の部 第4回 「Function と Pro...
【DELPHI / C++BUILDER STARTER チュートリアルシリーズ】 シーズン2 Delphi の部 第4回 「Function と Pro...
 
【DELPHI / C++BUILDER STARTER チュートリアルシリーズ】 シーズン2 Delphi の部 第1回 ‟シューティングゲームのプロ...
【DELPHI / C++BUILDER STARTER チュートリアルシリーズ】  シーズン2 Delphi の部 第1回 ‟シューティングゲームのプロ...【DELPHI / C++BUILDER STARTER チュートリアルシリーズ】  シーズン2 Delphi の部 第1回 ‟シューティングゲームのプロ...
【DELPHI / C++BUILDER STARTER チュートリアルシリーズ】 シーズン2 Delphi の部 第1回 ‟シューティングゲームのプロ...
 
My Project "Sistem Database (MySQL) : Pemesanan Makanan dan Minuman Online"
My Project "Sistem Database (MySQL) : Pemesanan Makanan dan Minuman Online"My Project "Sistem Database (MySQL) : Pemesanan Makanan dan Minuman Online"
My Project "Sistem Database (MySQL) : Pemesanan Makanan dan Minuman Online"
 
【DELPHI / C++BUILDER STARTER チュートリアルシリーズ】 シーズン2 Delphi の部 第2回 ‟変数と型„
【DELPHI / C++BUILDER STARTER チュートリアルシリーズ】 シーズン2 Delphi の部 第2回 ‟変数と型„【DELPHI / C++BUILDER STARTER チュートリアルシリーズ】 シーズン2 Delphi の部 第2回 ‟変数と型„
【DELPHI / C++BUILDER STARTER チュートリアルシリーズ】 シーズン2 Delphi の部 第2回 ‟変数と型„
 
Erd pemesanan menu by Fokusta Arif STIMATA TI 2013
Erd pemesanan menu by Fokusta Arif STIMATA TI 2013Erd pemesanan menu by Fokusta Arif STIMATA TI 2013
Erd pemesanan menu by Fokusta Arif STIMATA TI 2013
 
Delphi Innovations from Delphi 1 through Delphi XE5
Delphi Innovations from Delphi 1 through Delphi XE5Delphi Innovations from Delphi 1 through Delphi XE5
Delphi Innovations from Delphi 1 through Delphi XE5
 
【平成27年度】ISO14001:2015の概要及び主な変更点
【平成27年度】ISO14001:2015の概要及び主な変更点【平成27年度】ISO14001:2015の概要及び主な変更点
【平成27年度】ISO14001:2015の概要及び主な変更点
 
自己PRプレゼンテーション
自己PRプレゼンテーション自己PRプレゼンテーション
自己PRプレゼンテーション
 
Tugas akhir nurul ulfa 120420120005
Tugas akhir nurul ulfa 120420120005Tugas akhir nurul ulfa 120420120005
Tugas akhir nurul ulfa 120420120005
 
第3回アジア翻訳ワークショップの人手評価結果の分析
第3回アジア翻訳ワークショップの人手評価結果の分析第3回アジア翻訳ワークショップの人手評価結果の分析
第3回アジア翻訳ワークショップの人手評価結果の分析
 
QM-002-6 sigma for service
QM-002-6 sigma for serviceQM-002-6 sigma for service
QM-002-6 sigma for service
 

Mehr von Kanji Takahashi

Mehr von Kanji Takahashi (20)

20180718Eightニュースフィード活性化のための自然言語処理の取り組み
20180718Eightニュースフィード活性化のための自然言語処理の取り組み20180718Eightニュースフィード活性化のための自然言語処理の取り組み
20180718Eightニュースフィード活性化のための自然言語処理の取り組み
 
論文読み会 Creating Speech and Language Data With Amazon’s Mechanical Turk
論文読み会 Creating Speech and Language Data With Amazon’s Mechanical Turk論文読み会 Creating Speech and Language Data With Amazon’s Mechanical Turk
論文読み会 Creating Speech and Language Data With Amazon’s Mechanical Turk
 
論文読み会 Enriching Word Vectors with Subword Information
論文読み会 Enriching Word Vectors with Subword Information論文読み会 Enriching Word Vectors with Subword Information
論文読み会 Enriching Word Vectors with Subword Information
 
第17回Machine Learning 15 minutes!:ビジネスの出会いを科学する
第17回Machine Learning 15 minutes!:ビジネスの出会いを科学する第17回Machine Learning 15 minutes!:ビジネスの出会いを科学する
第17回Machine Learning 15 minutes!:ビジネスの出会いを科学する
 
論文読み会 Data Augmentation for Low-Resource Neural Machine Translation
論文読み会 Data Augmentation for Low-Resource Neural Machine Translation論文読み会 Data Augmentation for Low-Resource Neural Machine Translation
論文読み会 Data Augmentation for Low-Resource Neural Machine Translation
 
言語処理学会第23回年次大会参加報告
言語処理学会第23回年次大会参加報告言語処理学会第23回年次大会参加報告
言語処理学会第23回年次大会参加報告
 
20170203The Effects of Data Size and Frequency Range on Distributional Semant...
20170203The Effects of Data Size and Frequency Range on Distributional Semant...20170203The Effects of Data Size and Frequency Range on Distributional Semant...
20170203The Effects of Data Size and Frequency Range on Distributional Semant...
 
20161215Neural Machine Translation of Rare Words with Subword Units
20161215Neural Machine Translation of Rare Words with Subword Units20161215Neural Machine Translation of Rare Words with Subword Units
20161215Neural Machine Translation of Rare Words with Subword Units
 
Enriching Morphologically Poor Languages for Statistical Machine Translation
Enriching Morphologically Poor Languages for Statistical Machine TranslationEnriching Morphologically Poor Languages for Statistical Machine Translation
Enriching Morphologically Poor Languages for Statistical Machine Translation
 
A Beam-Search Decoder for Normalization of Social Media Text with Application...
A Beam-Search Decoder for Normalization of Social Media Text with Application...A Beam-Search Decoder for Normalization of Social Media Text with Application...
A Beam-Search Decoder for Normalization of Social Media Text with Application...
 
Reducing the Impact of Data Sparsity in Statistical Machine Translation
Reducing the Impact of Data Sparsity in Statistical Machine TranslationReducing the Impact of Data Sparsity in Statistical Machine Translation
Reducing the Impact of Data Sparsity in Statistical Machine Translation
 
文献紹介:Morphological analysis for Statistical Machine Translation
文献紹介:Morphological analysis for Statistical Machine Translation文献紹介:Morphological analysis for Statistical Machine Translation
文献紹介:Morphological analysis for Statistical Machine Translation
 
Distributed Representations of Words and Phrases and their Compositionally
Distributed Representations of Words and Phrases and their CompositionallyDistributed Representations of Words and Phrases and their Compositionally
Distributed Representations of Words and Phrases and their Compositionally
 
Nlp2016参加報告(高橋)
Nlp2016参加報告(高橋)Nlp2016参加報告(高橋)
Nlp2016参加報告(高橋)
 
Domain-spesific Paraphrase Extraction
Domain-spesific Paraphrase ExtractionDomain-spesific Paraphrase Extraction
Domain-spesific Paraphrase Extraction
 
Vietnamese Word Segmentation with CRFs and SVMs: An Investigation
Vietnamese Word Segmentation with CRFs and SVMs: An InvestigationVietnamese Word Segmentation with CRFs and SVMs: An Investigation
Vietnamese Word Segmentation with CRFs and SVMs: An Investigation
 
Improving vietnamese word segmentation and pos tagging using MEM with various...
Improving vietnamese word segmentation and pos tagging using MEM with various...Improving vietnamese word segmentation and pos tagging using MEM with various...
Improving vietnamese word segmentation and pos tagging using MEM with various...
 
日本語機能表現の自動検出と統計的係り受け解析への応用
日本語機能表現の自動検出と統計的係り受け解析への応用日本語機能表現の自動検出と統計的係り受け解析への応用
日本語機能表現の自動検出と統計的係り受け解析への応用
 
20150916How Far are We from Fully Automatic High Quality Grammatical Error Co...
20150916How Far are We from Fully Automatic High Quality Grammatical Error Co...20150916How Far are We from Fully Automatic High Quality Grammatical Error Co...
20150916How Far are We from Fully Automatic High Quality Grammatical Error Co...
 
20150728So similar and yet incompatible: Toward automated identification of s...
20150728So similar and yet incompatible:Toward automated identification of s...20150728So similar and yet incompatible:Toward automated identification of s...
20150728So similar and yet incompatible: Toward automated identification of s...
 

Kürzlich hochgeladen

TokyoTechGraduateExaminationPresentation
TokyoTechGraduateExaminationPresentationTokyoTechGraduateExaminationPresentation
TokyoTechGraduateExaminationPresentation
YukiTerazawa
 
The_Five_Books_Overview_Presentation_2024
The_Five_Books_Overview_Presentation_2024The_Five_Books_Overview_Presentation_2024
The_Five_Books_Overview_Presentation_2024
koheioishi1
 

Kürzlich hochgeladen (8)

2024年度 東京工業大学 工学院 機械系 大学院 修士課程 入試 説明会 資料
2024年度 東京工業大学 工学院 機械系 大学院 修士課程 入試 説明会 資料2024年度 東京工業大学 工学院 機械系 大学院 修士課程 入試 説明会 資料
2024年度 東京工業大学 工学院 機械系 大学院 修士課程 入試 説明会 資料
 
世界を変えるクレーンを生み出そう! 高知エンジニアリングキャンプ2024プログラム
世界を変えるクレーンを生み出そう! 高知エンジニアリングキャンプ2024プログラム世界を変えるクレーンを生み出そう! 高知エンジニアリングキャンプ2024プログラム
世界を変えるクレーンを生み出そう! 高知エンジニアリングキャンプ2024プログラム
 
TokyoTechGraduateExaminationPresentation
TokyoTechGraduateExaminationPresentationTokyoTechGraduateExaminationPresentation
TokyoTechGraduateExaminationPresentation
 
生成AIの回答内容の修正を課題としたレポートについて:お茶の水女子大学「授業・研究における生成系AIの活用事例」での講演資料
生成AIの回答内容の修正を課題としたレポートについて:お茶の水女子大学「授業・研究における生成系AIの活用事例」での講演資料生成AIの回答内容の修正を課題としたレポートについて:お茶の水女子大学「授業・研究における生成系AIの活用事例」での講演資料
生成AIの回答内容の修正を課題としたレポートについて:お茶の水女子大学「授業・研究における生成系AIの活用事例」での講演資料
 
The_Five_Books_Overview_Presentation_2024
The_Five_Books_Overview_Presentation_2024The_Five_Books_Overview_Presentation_2024
The_Five_Books_Overview_Presentation_2024
 
ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学
 
東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2
東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2
東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2
 
次世代機の製品コンセプトを描く ~未来の機械を創造してみよう~
次世代機の製品コンセプトを描く ~未来の機械を創造してみよう~次世代機の製品コンセプトを描く ~未来の機械を創造してみよう~
次世代機の製品コンセプトを描く ~未来の機械を創造してみよう~
 

第4回 日英機械翻訳のための日本語長文自動短文分割と主語の補完