Weitere ähnliche Inhalte
Mehr von 奈良先端大 情報科学研究科 (20)
Kürzlich hochgeladen (11)
同時通訳データを利用した自動同時通訳システムの構築
- 3. 同時通訳とは
通訳の種類
逐次通訳: 発話終了後に通訳を開始
通訳
同時通訳: 発話途中に通訳を開始
同時通訳の特徴:時間の制約が強い環境下
1)長い発話を分割 [Jones 02]
2)並び替えが少ない訳出 [遠山+ 03]
翻訳:
原言語:
同時通訳:
B
だから
A because
A
B
A なぜならば B
2013©Hiroaki Shimizu AHC-Lab, IS, NAIST
3 /16
- 4. 関連研究と問題点
発話の分割 [Ryu+ 04][Bangalore+ 12][Fujita+ 13]
- 同時通訳者のように長い発話を分割する手法
音声認識
翻訳
翻訳
合成
関連研究の問題点
翻訳
合成
合成
時間
機械翻訳システム
原言語文
目的言語文
翻訳データ
学習
学習に翻訳データ(翻訳者が作成したデータ)の使用
2013©Hiroaki Shimizu AHC-Lab, IS, NAIST
4 /16
- 7. 同時通訳データの例
同時通訳データの書き起こし例
0001 - 00:44:107 - 00:45:043
本日は<H>
0002 - 00:45:552 - 00:49:206
みなさまに(F え)難しい話題についてお話したいと思います。
通訳経験年数の異なる同時通訳データ
(原言語) you have been digitally preserved in about four minute
Sランク:
4分間ほどみなさんの様子がデジタル的に記録されています
Aランク:
デジタルで皆さん保存されました 本当に数分の内にです
Bランク:
皆さんはデジタル的に数分間の間に保全されたのです
2013©Hiroaki Shimizu AHC-Lab, IS, NAIST
7 /16
- 9. 適応2:文分割法の学習
右確率を用いた文分割法 [Fujita+ 13]
- 右確率を用いて、分割位置を自動的に決定する手法
- 閾値によって分割位置を調整
- 閾値1.0のときは、文単位
- 閾値0.0のときは、フレーズ単位
右確率の学習に同時通訳データを用いる理由
翻訳:
原言語:
同時通訳:
B
だから
A because
A
B
A なぜならば B
[遠山+ 03]
精度の維持と分割位置の増加による
遅延時間短縮の期待
2013©Hiroaki Shimizu AHC-Lab, IS, NAIST
9 /16
- 10. 実験設定
実験手法
- 適応1:機械翻訳システムの学習
- 適応2:右確率の学習
- 同時通訳者と同時通訳システムの比較
タスク
- TED講演(英語⇒日本語)
評価方法
- 翻訳精度 BLEU:一般的に広く使用されている尺度
RIBES:文全体の大局的な単語の並びに注目した尺度
- 遅延時間 :発話の開始から翻訳の開始までの処理時間
(音声認識、音声合成の処理時間は考慮せず)
データ
- 正解データは同時通訳データ
- 同時通訳データはSランクのデータのみを使用
2013©Hiroaki Shimizu AHC-Lab, IS, NAIST
10 /16
- 16. まとめ
本発表
- 通訳者のように訳出する自動同時通訳システムの構築
提案
- 同時通訳データの収集
- 学習に同時通訳データの使用
結果
- 遅延時間が短縮し,同時通訳者に近い訳出
- 通訳経験年数1年の同時通訳者と同等の性能
今後
- 自動同時通訳システムの主観評価
2013©Hiroaki Shimizu AHC-Lab, IS, NAIST
16 /16
- 19. 翻訳例
原言語
the next slide i show you will be a rapid fast forward
of what’s happened over the last 25 years
正解文
この25年間に何が起こったかというのを早送りで見せた
(Sランクの いと思います
同時通訳)
Baseline
次のスライドをお見せしますが急速に進んで何が起こっ
(右確率 1.0) たのです過去25年間
TM+LM+Tu 次のスライドをお見せしますがこの25年間に起こったの
(右確率 1.0) です
2013©Hiroaki Shimizu AHC-Lab, IS, NAIST
19 /16