Weitere ähnliche Inhalte
Ähnlich wie 機械翻訳 (MT) の品質評価を考える | 第29回 JTF翻訳祭2019@パシフィコ横浜 (20)
Kürzlich hochgeladen (11)
機械翻訳 (MT) の品質評価を考える | 第29回 JTF翻訳祭2019@パシフィコ横浜
- 5. MTの性能と品質
• MTは良くなったと言われている
– AI技術と研究開発
• 何をもってMT出力の「品質」を評価する?
– 多数決?
– 専門家の意見?
– 人々の評判?
– スペック?
– BLEUスコア?
– TOEIC OOO点相当?
© ASCA Corporation 20195
Cited from: https://ai.googleblog.com/2016/09/a-neural-network-for-machine.html
- 6. Which is better MT?
MT strings
source In Tokyo, the storm had passed about midnight, leaving behind branches,
broken umbrellas and other debris on the streets, floodwaters in parts
of the capital, and much damage still being assessed.
RBMT 東京に、嵐は真夜中ごろに通過し、まだ、評価されて、枝、壊された傘、お
よび通り、首都、および多くの損害の部分の洪水の他のがれきを置いていっ
ていた。
PBSMT 東京では、嵐は、路上での支店、壊れた傘や他の破片を残し、真夜中につい
て資本の一部で洪水を通過した、と多くの被害がまだ評価されています。
NMT 東京では、嵐は夜中に過ぎて、枝や壊れた傘などの破片が道に残り、首都の
一部では洪水が起こり、多くの被害がまだ評価されています。
© ASCA Corporation 20196
Citation: The Washington Post. Oct. 13, 2019, “Nineteen dead, 16 missing in Japan after Typhoon Hagibis drenches Tokyo.”
- 7. Neural MT
• NMTになって翻訳出力は改善したように見える
– 自然な文章に見える
– 語彙も適切なように見える
– 意味もよく捉えているように見える
• 一方で特徴的なエラーも
– 訳抜け (under-generation)
– 湧き出し (over-generation)
– 旧来の問題点も完全に
なくなったわけではない
化学物質名の翻訳における統計的機械翻訳とニューラル機械翻訳の比較および併用
入力文: 1-Morpholino-1,3-diphenyl-2-propynyldiethoxyphosphine oxide
参照訳: 1-モルホリノ-1,3-ジフェニル-2-プロピニルジエトキシホスフィンオキシド
出力文: 1-モルホリノホスフィンオキシド
© ASCA Corporation 20197
- 10. Evaluation of MT: manual or automatic
• 人手評価
– 人間の評価者が翻訳出力の
優劣を判断
– スキルを持った人 (翻訳者など)
が評価者になる
– 時間とコストがそれなりにかかる
– バイアスを防ぐ方法論が必要
• 自動評価
– 機械的計算によって
スコアを算出
– 評価基準 (reference) とするための
正しい翻訳文が必要
• 多くの場合は人間の翻訳を
referenceとする
– 時間とコストを節約できる
© ASCA Corporation 201910
- 11. Evaluation of MT: manual eval. (1)
• 主観的評価
– (MTの) 翻訳文と原文を見て、翻訳として適切かどうかを自分の主観で評価
– 評価基準
• Preference (選択式)
– 容認できる/できない で選択
– 2つ(以上)の翻訳文のうち優れたものを選ぶ
• Likert スコア*
– 5段階評価 (「非常に悪い」~「非常に良い」など) で翻訳文を採点する
• チェックリスト方式
– 所定の品質項目について○×や点数をつける
© ASCA Corporation 201911
Cohen, L., Manion, L., & Morrison, K. (2002). Research methods in education. routledge.
- 12. Evaluation of MT: manual eval. (2)
• Adequacy/Fluency*
– Adequacy (正確性)
• “the degree to which the translation communicates information present in the
original source language text.”
• 原文テキストの情報がいかに正しく翻訳先の言語で表されているか
– Fluency (流暢さ)
• “the degree to which the translation is well-formed according to the grammar of
the target language.”
• いかに翻訳先言語のテキストらしい表現ができているか
© ASCA Corporation 201912
Linguistic Data Consortium. (2005). Linguistic Data Annotation Specification: Assessment of Fluency and Adequacy in Translations. Technical report.
- 13. Evaluation of MT: manual eval. (3)
• DQF-MQM*
– 翻訳のエラー分類基準
– 2種類のエラー評価基準を統合
• DQF: エラーの大分類+重大度
• MQM: 詳細なエラー分類+階層化
– もともとは人間の翻訳の評価用に開発された
ものをMTに適用 (QT21)
– 翻訳産業の統一的な評価基準のひとつ
• JTF翻訳品質評価ガイドライン
にも採用
© ASCA Corporation 201913
Lommel, A., & Melby, A. (2018, March). Tutorial: MQM-DQF: A Good Marriage (Translation Quality for the 21st Century). In Proceedings of the 13th Conference of the Association for Machine Translation in the Americas (Volume 2: User Papers).
Cited from: http://www.qt21.eu/mqm-definition/definition-2015-12-30.html
- 14. Evaluation of MT: automatic eval. (1)
• BLEU*
– 連続する単語(n-gram)の一致度を計算
– 文長の相違に対してペナルティをかける
– もっともよく使われている指標
• METEOR**
– 厳密な一致度ではなく類似語彙との一致も許容する
– BLEUよりは柔軟な指標
© ASCA Corporation 201914
Papineni, K., Roukos, S., Ward, T., & Zhu, W. J. (2002, July). BLEU: a method for automatic evaluation of machine translation. In Proceedings of the 40th annual meeting on association for computational linguistics (pp. 311-318). Association for Computational Linguistics.
Banerjee, S., & Lavie, A. (2005, June). METEOR: An automatic metric for MT evaluation with improved correlation with human judgments. In Proceedings of the acl workshop on intrinsic and extrinsic evaluation measures for machine translation and/or summarization (pp. 65-72).
𝑃𝑛 =
σ 𝑆∈𝐶 σ 𝑛𝑔𝑟𝑎𝑚∈𝑆 𝐶𝑜𝑢𝑛𝑡 𝑚𝑎𝑡𝑐ℎ𝑒𝑑(𝑛𝑔𝑟𝑎𝑚)
σ 𝑆∈𝐶 σ 𝑛𝑔𝑟𝑎𝑚∈𝑆 𝐶𝑜𝑢𝑛𝑡(𝑛𝑔𝑟𝑎𝑚)
𝐵𝑃 = ൝
1 𝑖𝑓 𝑐 > 𝑟
𝑒1−𝑟/𝑐
𝑖𝑓 𝑐 ≤ 𝑟
𝐵𝐿𝐸𝑈 = 𝐵𝑃 × exp
𝑛=1
𝑁
𝑤 𝑛 log 𝑃 𝑛
- 15. Evaluation of MT: automatic eval. (2)
• RIBES*
– 単語の一致度だけではなく並び順を加味した評価
– 日本語-英語など文構造の異なる言語間で有効
• Levenshtein distance、WER、TER**
– MT出力を正解文に一致させるためのアクション(距離)を計算
• Insertion, substitution, deletion
– Levenshtein distance:文字単位での距離
– WER:単語単位での誤り率
– TER:単語の誤り+単語移動(並び替え)の率
© ASCA Corporation 201915
平尾努, 磯崎秀樹, 須藤克仁, 塚田元, & 永田昌明. (2014). 語順の相関に基づく機械翻訳の自動評価法. 自然言語処理, 21(3), 421-444.
Levenshtein, V. (1965). Leveinshtein distance.
- 16. Evaluation of MT: automatic eval. (3)
• EDR (Edit Distance Ratio)
– 人間が翻訳文 (MT出力) をどの程度修正したかを比率で表したもの(=hTER*)
• 考え方は Levenshtein distance、WER、TER と同様
– 参考訳に依存せず、翻訳としての正確さを測定できる
– ポストエディット作業の直接的な指標になる
– 実際にポストエディット作業を行うため、作業コストがかかる
– EDRの応用形
• 修正にどこまで時間がかかったか(time to edit)
• 修正箇所のエラー分類(error frequency)
© ASCA Corporation 201916
Snover, M., Dorr, B., Schwartz, R., Micciulla, L., & Makhoul, J. (2006, August). A study of translation edit rate with targeted human annotation. In Proceedings of association for machine translation in the Americas (Vol. 200, No. 6).
- 17. Evaluation of MT: automatic eval. (4)
• Quality Estimation
– 参考訳を使用せずにMT出力の品質を推定する試み
– (MTと同じ) 機械学習のフレームワークを使って推定
– Quality Estimation の目的
• 低コストでMTの性能を評価する
• リアルタイムで品質推定し、ポストエディットが必要か
どうかの意思決定を支援する
• 自動ポストエディットへの発展
© ASCA Corporation 201917
Specia, L., & Soricut, R. (2013). Quality estimation for machine translation. Machine Translation, 27(3-4), 167-170.
- 18. Evaluation of MT: Statistical approach
• 統計解析
– スコアの集計と統計量の算出
• ある程度のボリュームが必要(>100~200文)
• 文単位でスコアを出し平均値、標準偏差などを算出
• 検定でMTシステム間の比較を出すことも可能
• レビュー
– 記述的な分析
• 定量的に測れなかった問題の検出
© ASCA Corporation 201918
- 20. 品質評価で誤訳は防げるか?
• この訳文の評価は?
原文:高塚川の周辺に避難勧告が出ました。
誤 :Foi emiitido aviso para se refugiar proximidades do rio Takatsuka.
正 :Foi emiitido alerta de refugio nas proximidades do rio Takatsuka.
© ASCA Corporation 201920
静岡新聞 2019/10/17 17:04配信 https://www.at-s.com/news/article/social/shizuoka/694852.html
- 21. MT品質評価の課題 (1)
• 品質評価の対象
– システムとしてのMTが評価の対象
• システム間の比較には有効
– (特に自動評価は)1文ずつの評価には使いにくい
• エラーの「重大さ」は評価できない
• 評価の内容の妥当性
– 評価者がいいと思ったものが「良い」翻訳なのか?
– 参考訳に近いものが「良い」翻訳なのか?
– エラーのない翻訳が「良い」翻訳なのか?
© ASCA Corporation 201921
- 22. MT品質評価の課題 (2)
• 評価フレームワークの妥当性
– 評価手法の多くはSMT → NMTで同じものが使われている
– SMTには自明な問題があったが・・・NMTでは?
• 翻訳と言語の多様性
– もともと言語は多様性を持つもの
• 翻訳の解は一意には決まらない
• 品質評価の意義
– いろいろな制限があるなかでどう使えばよいのか?
© ASCA Corporation 201922
- 23. Purpose of Translation
• スコポス (Skopos) 理論
– スコポス=目的
• 翻訳は目的があって初めていかに何をすべきかが決まる
• Aim, purpose, intention and function
• 翻訳の目的はユーザー (受け手) との関係性の中で決まる
• ユーザーにとっての目的とは?
– 正確性?
– 情報の可読性?
– メッセージ性?
– ユーザーエクスペリエンス?
© ASCA Corporation 201923
Du, X. (2012). A Brief Introduction of Skopos Theory. Theory & Practice in Language Studies, 2(10).
- 24. Design of MT evaluation
• MT評価の目的
– MTの評価もまた目的ベースで考える
• ユーザー (顧客) の業務に使えるかどうか知りたい
• 複数のMTでどれが優れているかを知りたい
• ユーザー (顧客) の仕事を効率化できるか知りたい
– 目的からアウトカムを考える
• エラーの少なさ?
• MT間での有意差?
• 処理速度の速さや安定性?
• ポストエディットの手間の少なさ?
© ASCA Corporation 201924
- 26. Implications of MT evaluation
• 品質評価結果をどう使うか
– 100点が出なければすべて却下?
– 80点のMTをどう使う?
– 70点や50点のMTは不要?
– 1年後も優劣差はそのまま?
© ASCA Corporation 201926
80点!
70点 50点
- 27. ポストエディット
• ポストエディット(post-editing)
– MTの後に行う人手の修正工程
– 期待品質とMT出力との差(100点ー80点)を埋める工程
• ポストエディットの課題
– それほど簡単な仕事ではない
• 原文との突合が必要で一定の手間がかかる
– 翻訳作業より作業負荷が低いと考えられるが、その改善を可視化しにくい
• ニューラルMT(NMT)は自然な訳文を出力するため、
かえってどこが間違っているのかわかりにくい
• 作業量がMT出力のクオリティに依存するため予測が難しい
© ASCA Corporation 201927
- 29. Goal of MT System and Translation Service
• MTを「活かす」システムの構築
– もともと翻訳は連続的なプロセスの中で行われるもの
– MTが完璧でもほかのプロセスがうまく機能しないと失敗に終わる
– 逆に他のプロセスでMTの不足点を補うことができる
– ポストエディットに依存せず相補的な仕組みを考える
© ASCA Corporation 201929
原文書
前処理
CATツール
プリエ
ディット
MT
ポストエ
ディット
QC
QA
フォー
マッティ
ング
ユーザー
レビュー
翻訳文書
- 32. ASCAのMT活用事例 (1): CIOMS
• CIOMS Form(安全性報告)の作成
– 特定の薬剤に対して、予想される有害事象や症例経過をもとに
MTをカスタマイズするためのデータセットを作成
– 個別症例報告からテキストデータを抽出し、機械的に言語
変換処理
– MTを含め周辺処理を自動化
32 © ASCA Corporation 2019
- 33. ASCAのMT活用事例 (2): ASCA Trans Lab
• プリエディットの実装によるMTシステムの拡張
– MTと人手作業をパッケージ化した弊社の新サービス
– 事前の編集作業により、AI翻訳の性能を
大きく底上げ(プリエディット)
– MTが生じるエラーを人の目で
チェック、修正(ポストエディット)
– 編集作業を最小限にするためのワークフロー
© ASCA Corporation 201933
- 34. ポストエディットの概念と役割
• ガイドライン(手順書)
– ISO 18587の要件を満たす
– 国際的組織(TAUS)のガイドラインに準拠
• プロジェクトごとの手順書
– カスタマイズされた工程
– 文書タイプに応じた編集パターン
• コンセプトの徹底
– 最小限の修正で最大限の効果を生む
– 周辺工程を含めて意義を理解する
– 専門性を持つ人間にしかできないことに集中する
© ASCA Corporation 201934
- 38. Thank you
© ASCA Corporation 201938
Contact:
早川威士 (Takeshi Hayakawa)
株式会社アスカコーポレーション takeshi.hayakawa@asca-co.com
大阪大学大学院 情報科学研究科 @taquecih