SlideShare ist ein Scribd-Unternehmen logo
1 von 12
Downloaden Sie, um offline zu lesen
Paraphrasing	
  Rules	
  for	
  
	
  Automa4c	
  Evalua4on	
  of	
  
	
  Transla4on	
  into	
  Japanese	
Hiroshi	
  Kanayama.	
  	
  
	
  In	
  Proceedings	
  of	
  the	
  Second	
  Interna4onal	
  
Workshop	
  on	
  Paraphrasing,	
  pp.88–93,	
  2003.	
  
	
  
プレゼンテーション:野口真人	
1	
  
Paraphrasing	
  Rules	
  for	
  Automa4c	
  Evalua4on	
  of	
  
Transla4on	
  into	
  Japanese	
•  どのような問題を解いたのか	
  
• 目的言語が日本語のときの自動翻訳評価方法(BLEU)の改善	
  
•  どうやって解いたのか	
  
• 言い換え規則を適用することで日本語の表記の揺れを吸収
する	
  
•  どのような結果を達成したか	
• 人手で行った評価との相関係数が0.80(従来手法)から
0.93(提案手法)となった
2	
  
自動評価BLEU:pn	
• 翻訳の自動評価方法	
  
• 英語への翻訳で人手の評価との高い相関関係がある
(Papineni	
  et	
  al	
  2002a)	
  
• 原言語と目的言語のパラレルコーパスを使用	
  
• 以下のような式に基づく	
  
	
  
cand:候補文(生成された文) s:文 ngr:n-­‐gram	
  
C:候補文でのカウント数	
  
	
  Cr:参照文(パラレルコーパスの目的言語側)でのカウント数	
  
3	
  
pnの計算の例	
•  以下のような参照文と候補文があるとする	
  
• 参照文1:I	
  had	
  my	
  watch	
  repaired	
  by	
  an	
  office	
  worker.	
  
• 参照文2:A	
  person	
  in	
  the	
  office	
  repaired	
  my	
  watch.	
  
• 候補文1:I	
  had	
  a	
  man	
  in	
  the	
  office	
  repair	
  a	
  watch.	
  
• 候補文2:I	
  had	
  the	
  person	
  of	
  an	
  office	
  correct	
  a	
  clock.	
  
•  候補文1の中には11のunigramがある	
  
• そのうち参照文(1	
  	
  or	
  2)に出現するunigramは8つ→ 8/11	
•  ‘I’,	
  ‘had’	
  ,	
  ‘a’	
  ,	
  ‘in’	
  ,	
  ‘the’	
  ,	
  ‘office’	
  ,	
  ‘watch’,	
  ‘.’	
  
•  同じように,bigramが	
  4/10,	
  trygramが	
  1/9となる	
  
•  候補文2も同じように見ると,unigramが	
  8/11,	
  bigramが
2/10,	
  trygramが	
  0/9となる→英訳の良さ候補文1>候補文2	
4	
  
罰則	
• n-­‐gram精度には弱点がある	
  
• 頻繁に使用される単語だけからなる短い候補文で高い精度
を出してしまう	
  
• 例)候補文が”the”	
  だけで参照文に’the’という単語が入ってる
場合,精度は1.0になってしまう	
  
• BLEUは短い文への罰則によりこの弱点を克服	
  
	
  BP:罰則 c:候補文の総単語数 r:参照文の総単語数	
  
• 候補文が参照文より短いときに点数が減る	
5	
  
BLEUの計算	
• BLEUスコアは以下のように求められる	
  
• BLEU得点は0から1の間となる	
  
• Nを大きくすると,文の正しさより流暢さを重視すること
になる	
  
• 目的言語が英語の場合,N	
  =	
  4のとき人の評価との相
関関係が高くなる(Papineni	
  et	
  al	
  2002b)	
  
6	
  
日本語でのBLEU計算のために	
• 日本語を目的言語とする場合にBLEU評価をするため
には以下のことが必要	
  
1.  形態的な解析の利用	
  
2.  異なる品詞の区別	
  
3.  規則を用いた言い換え(提案手法)	
  
1.  形態的な解析の利用	
  
• 日本語には単語間の隙間がないので,形態素解析で切り離
す必要がある	
  
彼が本を読みました。	
  
	
  
彼 が 本 を 読 み まし た 。	
7	
  
日本語でのBLEU計算のために	
2.  異なる品詞の区別	
  
•  同じ表層でも意味の違う単語がある	
  
•  例)接続詞の「が」と格助詞の「が」	
  
•  形態素解析で品詞情報を得られるのでそれを利用	
  
3.  規則を用いた言い換え(提案手法)	
  
•  日本語では,同じ内容を表すのにも様々な表現方法がある	
•  彼が本を読みました。	
  
•  彼が本を読んだ.	
  
•  これらの表記の揺れを吸収する必要がある	
  
8	
  
•  以下の場合,同じ内容の文なのにBLEU値は低くなってしまう	
  
•  参照文1:彼 が 本 を 読 み まし た 。	
  
•  候補文1:彼 が 本 を 読 ん だ 。	
  
•  Pnはunigram:6/8,	
  bigram:4/7,	
  trigram:3/6,	
  4gram:2/5	
  
  (本来ならすべてほぼ 1	
  になるはず)	
  
•  参照文に以下のような言い換え規則を適用する	
  
•  新たな文を言い換えで生成して参照文に追加	
  
       →正当なBLEU値が算出される	
•  参照文2:彼 が 本 を 読 ん だ 。	
規則を用いた言い換え	
9	
  
A	
 $1(verb-c) : ん : だ ↔ $1: み : まし : た 	
  
B 	
ない(adj) : 。 ↔ あり : ませ : ん : 。 	
  
C 	
$1(noun) : だ ↔ $1 : である 	
  
D 	
に : よ : っ : て ↔ に : よ : り 	
  
実験	
• 日英の対訳コーパス6,871文からランダムに100文を
抜き出し翻訳を行い評価	
  
• 自動翻訳システムS1〜S5と人手の翻訳H1を評価する	
  
• 評価システムは以下の5つ(B1〜B4はBLEUで評価)	
  
• B1:「1. 形態的な解析の利用」のみを行う	
  
• B2:B1に加え,「2.	
  異なる品詞の区別」を行う	
  
• B3:B2に加え,51種類言い換えルールを用いた言い換えを
行ったもの(前の表のA・Bのようにより上品な表現にする)	
  
• B4:B3に加え,他の言い換えを行ったもの(C・Dのような)	
  
• M1:人手による評価(1〜5で評価)	
10	
  
結果	
• 結果は以下の通り	
  
• B1とB2から,品詞情報は評価を改善することがわかる	
  
• 言い換え規則を用いた言い換えを行うことで人の評価との相
関度が0.803→0.931に改善した	
言い換えにより評価が改善することがわかる	
  
11	
  
B1	
  	
 B2	
  	
 B3	
  	
 B4	
  	
 M1	
  	
S1	
  	
 0.115	
  	
 0.114	
  	
 0.132	
  	
 0.135	
  	
 2.38	
  	
S2	
  	
 0.130	
  	
 0.129	
  	
 0.149	
  	
 0.151	
  	
 2.74	
  	
S3	
  	
 0.134	
  	
 0.132	
  	
 0.148	
  	
 0.152	
  	
 2.77	
  	
S4	
  	
 0.137	
  	
 0.135	
  	
 0.148	
  	
 0.158	
  	
 3.16	
  	
S5	
  	
 0.183	
  	
 0.177	
  	
 0.179	
  	
 0.180	
  	
 3.38	
  	
H1	
  	
 0.170	
  	
 0.166	
  	
 0.179	
  	
 0.187	
  	
 4.40	
  	
correl	
  	
   0.797	
  	
 0.803	
  	
 0.865	
  	
 0.931	
  	
 (1.0)	
  
終わりに	
• 言い換え規則を適用したBLEU評価によって,日本語を
目的言語としたときの評価が改善した	
  
• 人手の評価との相関関係が0.80から0.93に	
  
• これにより今まで難しかった翻訳の品質の客観的な
評価が可能となる	
  
• 課題:他の言い換え規則の開発	
  
• 言い換え規則の自動取得をすることがこれからの研究方針	
12	
  

Weitere ähnliche Inhalte

Andere mochten auch

20組勉強会20130125v1
20組勉強会20130125v120組勉強会20130125v1
20組勉強会20130125v1
Masahiro Ito
 
【建築特化型クラウドソーシング Cloud Design】サービスご案内資料 │ 株式会社クラウドデザイン
【建築特化型クラウドソーシング Cloud Design】サービスご案内資料 │ 株式会社クラウドデザイン【建築特化型クラウドソーシング Cloud Design】サービスご案内資料 │ 株式会社クラウドデザイン
【建築特化型クラウドソーシング Cloud Design】サービスご案内資料 │ 株式会社クラウドデザイン
clouddesign
 
第7回こども病院移転計画調査委員会資料
第7回こども病院移転計画調査委員会資料第7回こども病院移転計画調査委員会資料
第7回こども病院移転計画調査委員会資料
f_kodomo
 
Bangkok media book 2013
Bangkok media book 2013Bangkok media book 2013
Bangkok media book 2013
C-media
 
Presentation by Takayuki Itimura @ TWS Round Table(3/24)
Presentation by Takayuki Itimura @ TWS Round Table(3/24)Presentation by Takayuki Itimura @ TWS Round Table(3/24)
Presentation by Takayuki Itimura @ TWS Round Table(3/24)
So Sugita
 

Andere mochten auch (20)

クラウドEXPO 2011春資料 20110418
クラウドEXPO 2011春資料 20110418クラウドEXPO 2011春資料 20110418
クラウドEXPO 2011春資料 20110418
 
20組勉強会20130125v1
20組勉強会20130125v120組勉強会20130125v1
20組勉強会20130125v1
 
20141024 地域で立ち上げるCivic Tech 〜生駒ではじまった挑戦〜
20141024 地域で立ち上げるCivic Tech 〜生駒ではじまった挑戦〜20141024 地域で立ち上げるCivic Tech 〜生駒ではじまった挑戦〜
20141024 地域で立ち上げるCivic Tech 〜生駒ではじまった挑戦〜
 
【建築特化型クラウドソーシング Cloud Design】サービスご案内資料 │ 株式会社クラウドデザイン
【建築特化型クラウドソーシング Cloud Design】サービスご案内資料 │ 株式会社クラウドデザイン【建築特化型クラウドソーシング Cloud Design】サービスご案内資料 │ 株式会社クラウドデザイン
【建築特化型クラウドソーシング Cloud Design】サービスご案内資料 │ 株式会社クラウドデザイン
 
第7回こども病院移転計画調査委員会資料
第7回こども病院移転計画調査委員会資料第7回こども病院移転計画調査委員会資料
第7回こども病院移転計画調査委員会資料
 
Cassandra(no sql)によるシステム提案と開発
Cassandra(no sql)によるシステム提案と開発Cassandra(no sql)によるシステム提案と開発
Cassandra(no sql)によるシステム提案と開発
 
[data security showcase Sapporo 2015] D22:今求められるセキュリティレベルとFireEye適応型防御 by ファイ...
[data security showcase Sapporo 2015] D22:今求められるセキュリティレベルとFireEye適応型防御 by ファイ...[data security showcase Sapporo 2015] D22:今求められるセキュリティレベルとFireEye適応型防御 by ファイ...
[data security showcase Sapporo 2015] D22:今求められるセキュリティレベルとFireEye適応型防御 by ファイ...
 
座談会概要 20141213
座談会概要 20141213座談会概要 20141213
座談会概要 20141213
 
[DDBJing29]NBDC ヒトデータベースを介した Japanese Genotype-phenotype Archive のデータ共有の審査過程と...
[DDBJing29]NBDC ヒトデータベースを介した Japanese Genotype-phenotype Archive のデータ共有の審査過程と...[DDBJing29]NBDC ヒトデータベースを介した Japanese Genotype-phenotype Archive のデータ共有の審査過程と...
[DDBJing29]NBDC ヒトデータベースを介した Japanese Genotype-phenotype Archive のデータ共有の審査過程と...
 
ABN Newswire Platform Brochure 2012 Japanese
ABN Newswire Platform Brochure 2012 JapaneseABN Newswire Platform Brochure 2012 Japanese
ABN Newswire Platform Brochure 2012 Japanese
 
OWASP ASVS Project review 2.0 and 3.0
OWASP ASVS Project review 2.0 and 3.0OWASP ASVS Project review 2.0 and 3.0
OWASP ASVS Project review 2.0 and 3.0
 
コンテンツ分析レポートサンプル
コンテンツ分析レポートサンプルコンテンツ分析レポートサンプル
コンテンツ分析レポートサンプル
 
DBpedia Japaneseとは?
DBpedia Japaneseとは?DBpedia Japaneseとは?
DBpedia Japaneseとは?
 
cloudpack導入資料(2011/09/01版)
cloudpack導入資料(2011/09/01版)cloudpack導入資料(2011/09/01版)
cloudpack導入資料(2011/09/01版)
 
クラウドネイティブ時代のアプリケーション運用をもっと簡単に!
クラウドネイティブ時代のアプリケーション運用をもっと簡単に!クラウドネイティブ時代のアプリケーション運用をもっと簡単に!
クラウドネイティブ時代のアプリケーション運用をもっと簡単に!
 
DynamoDB MyNA・JPUG合同DB勉強会 in 東京
DynamoDB   MyNA・JPUG合同DB勉強会 in 東京DynamoDB   MyNA・JPUG合同DB勉強会 in 東京
DynamoDB MyNA・JPUG合同DB勉強会 in 東京
 
The value of getting CEO succession right
The value of getting CEO succession rightThe value of getting CEO succession right
The value of getting CEO succession right
 
Bangkok media book 2013
Bangkok media book 2013Bangkok media book 2013
Bangkok media book 2013
 
-英文校正エナゴが教える-論文執筆のポイント・超基本編
-英文校正エナゴが教える-論文執筆のポイント・超基本編-英文校正エナゴが教える-論文執筆のポイント・超基本編
-英文校正エナゴが教える-論文執筆のポイント・超基本編
 
Presentation by Takayuki Itimura @ TWS Round Table(3/24)
Presentation by Takayuki Itimura @ TWS Round Table(3/24)Presentation by Takayuki Itimura @ TWS Round Table(3/24)
Presentation by Takayuki Itimura @ TWS Round Table(3/24)
 

Ähnlich wie Paraphrasing rules for automatic evaluation of translation into japanese

Ähnlich wie Paraphrasing rules for automatic evaluation of translation into japanese (7)

Improving translation via targeted paraphrasing
Improving translation via targeted paraphrasingImproving translation via targeted paraphrasing
Improving translation via targeted paraphrasing
 
Pennington, Socher, and Manning. (2014) GloVe: Global vectors for word repres...
Pennington, Socher, and Manning. (2014) GloVe: Global vectors for word repres...Pennington, Socher, and Manning. (2014) GloVe: Global vectors for word repres...
Pennington, Socher, and Manning. (2014) GloVe: Global vectors for word repres...
 
言語モデル入門
言語モデル入門言語モデル入門
言語モデル入門
 
役所からの公的文書に対する「やさしい日本語」への変換システムの構築
役所からの公的文書に対する「やさしい日本語」への変換システムの構築役所からの公的文書に対する「やさしい日本語」への変換システムの構築
役所からの公的文書に対する「やさしい日本語」への変換システムの構築
 
役所からの公的文書に対する「やさしい日本語」への変換システムへの構築
役所からの公的文書に対する「やさしい日本語」への変換システムへの構築役所からの公的文書に対する「やさしい日本語」への変換システムへの構築
役所からの公的文書に対する「やさしい日本語」への変換システムへの構築
 
言い換えを用いたテキスト要約の自動評価
言い換えを用いたテキスト要約の自動評価言い換えを用いたテキスト要約の自動評価
言い換えを用いたテキスト要約の自動評価
 
読解支援7 3
読解支援7 3読解支援7 3
読解支援7 3
 

Mehr von swenbe

Text simplification for reading assistance
Text simplification for reading assistanceText simplification for reading assistance
Text simplification for reading assistance
swenbe
 

Mehr von swenbe (9)

Text simplification for reading assistance
Text simplification for reading assistanceText simplification for reading assistance
Text simplification for reading assistance
 
論文紹介:語釈文を用いた小学生のための語彙平易化
論文紹介:語釈文を用いた小学生のための語彙平易化論文紹介:語釈文を用いた小学生のための語彙平易化
論文紹介:語釈文を用いた小学生のための語彙平易化
 
論文紹介 : Inducing lexical style properties for paraphrase and genre differentia...
論文紹介 : Inducing lexical style properties for paraphrase and genre differentia...論文紹介 : Inducing lexical style properties for paraphrase and genre differentia...
論文紹介 : Inducing lexical style properties for paraphrase and genre differentia...
 
論文紹介:WWWからの大規模動詞含意知識の獲得
論文紹介:WWWからの大規模動詞含意知識の獲得論文紹介:WWWからの大規模動詞含意知識の獲得
論文紹介:WWWからの大規模動詞含意知識の獲得
 
論文紹介:Improve smt quality with automatically extracted paraphrase rules
論文紹介:Improve smt quality with automatically extracted paraphrase rules論文紹介:Improve smt quality with automatically extracted paraphrase rules
論文紹介:Improve smt quality with automatically extracted paraphrase rules
 
Learning a lexical simplifier using wikipedia
Learning a lexical simplifier  using wikipediaLearning a lexical simplifier  using wikipedia
Learning a lexical simplifier using wikipedia
 
平易な表現への言い換えに必要なテキスト修正処理
平易な表現への言い換えに必要なテキスト修正処理平易な表現への言い換えに必要なテキスト修正処理
平易な表現への言い換えに必要なテキスト修正処理
 
言い換え認識技術の評価に適した言い換えコーパスの構築指針
言い換え認識技術の評価に適した言い換えコーパスの構築指針言い換え認識技術の評価に適した言い換えコーパスの構築指針
言い換え認識技術の評価に適した言い換えコーパスの構築指針
 
放送ニュースの動詞連用形名詞の平易化
放送ニュースの動詞連用形名詞の平易化放送ニュースの動詞連用形名詞の平易化
放送ニュースの動詞連用形名詞の平易化
 

Paraphrasing rules for automatic evaluation of translation into japanese