機械翻訳 (MT) の品質評価を考える | 第29回 JTF翻訳祭2019@パシフィコ横浜

機械翻訳 (MT) の品質評価を考える
株式会社アスカコーポレーション
研究開発部早川威士
営業制作部小野眞帆
於第29回 JTF翻訳祭2019@パシフィコ横浜
© ASCA Corporation 2019

目次
• MTの性能と課題
• MTの品質評価指標
• MT品質評価指標の使い方
• プロセス構築についてのASCAの取り組み

本日の議論で目指すこと
• 本当の意味で「役立つ」MTは何かを考える
– MTの真のメリットはなにか？
– そのために品質評価をどう使うか？
• MTを使いこなすための取り組みを考える
– 人間の仕事はなくなるだけなのか？
– ポストエディットはもうちょっとなんとかならないか？

MTの性能と課題

MTの性能と品質
• MTは良くなったと言われている
– AI技術と研究開発
• 何をもってMT出力の「品質」を評価する？
– 多数決？
– 専門家の意見？
– 人々の評判？
– スペック？
– BLEUスコア？
– TOEIC OOO点相当？
Cited from: https://ai.googleblog.com/2016/09/a-neural-network-for-machine.html

Which is better MT?
MT strings
source In Tokyo, the storm had passed about midnight, leaving behind branches,
broken umbrellas and other debris on the streets, floodwaters in parts
of the capital, and much damage still being assessed.
RBMT 東京に、嵐は真夜中ごろに通過し、まだ、評価されて、枝、壊された傘、お
よび通り、首都、および多くの損害の部分の洪水の他のがれきを置いていっ
ていた。
PBSMT 東京では、嵐は、路上での支店、壊れた傘や他の破片を残し、真夜中につい
て資本の一部で洪水を通過した、と多くの被害がまだ評価されています。
NMT 東京では、嵐は夜中に過ぎて、枝や壊れた傘などの破片が道に残り、首都の
一部では洪水が起こり、多くの被害がまだ評価されています。
Citation: The Washington Post. Oct. 13, 2019, “Nineteen dead, 16 missing in Japan after Typhoon Hagibis drenches Tokyo.”

Neural MT
• NMTになって翻訳出力は改善したように見える
– 自然な文章に見える
– 語彙も適切なように見える
– 意味もよく捉えているように見える
• 一方で特徴的なエラーも
– 訳抜け (under-generation)
– 湧き出し (over-generation)
– 旧来の問題点も完全に
なくなったわけではない
化学物質名の翻訳における統計的機械翻訳とニューラル機械翻訳の比較および併用
入力文: 1-Morpholino-1,3-diphenyl-2-propynyldiethoxyphosphine oxide
参照訳: 1-モルホリノ-1,3-ジフェニル-2-プロピニルジエトキシホスフィンオキシド
出力文: 1-モルホリノホスフィンオキシド

MTの課題
• MTはベストエフォート型サービス
– どれだけ技術が進歩しても、カバーできない部分は残る
• 言語処理技術の課題
• 言語そのものの複雑性
• 原文のクオリティ
– 人間ですら言語の運用は難しい
• 人工知能が人間の知能を超える部分はまだ大きくない
• MTは間違える
– なのでどこまでできるのか、どの程度間違えるのか
評価が必要！

MTの品質評価指標

Evaluation of MT: manual or automatic
• 人手評価
– 人間の評価者が翻訳出力の
優劣を判断
– スキルを持った人 (翻訳者など)
が評価者になる
– 時間とコストがそれなりにかかる
– バイアスを防ぐ方法論が必要
• 自動評価
– 機械的計算によって
スコアを算出
– 評価基準 (reference) とするための
正しい翻訳文が必要
• 多くの場合は人間の翻訳を
referenceとする
– 時間とコストを節約できる

Evaluation of MT: manual eval. (1)
• 主観的評価
– (MTの) 翻訳文と原文を見て、翻訳として適切かどうかを自分の主観で評価
– 評価基準
• Preference (選択式)
– 容認できる／できないで選択
– 2つ(以上)の翻訳文のうち優れたものを選ぶ
• Likert スコア*
– 5段階評価 (「非常に悪い」～「非常に良い」など) で翻訳文を採点する
• チェックリスト方式
– 所定の品質項目について○×や点数をつける
Cohen, L., Manion, L., & Morrison, K. (2002). Research methods in education. routledge.

• Adequacy/Fluency*
– Adequacy (正確性)
• “the degree to which the translation communicates information present in the
original source language text.”
• 原文テキストの情報がいかに正しく翻訳先の言語で表されているか
– Fluency (流暢さ)
• “the degree to which the translation is well-formed according to the grammar of
the target language.”
• いかに翻訳先言語のテキストらしい表現ができているか
Linguistic Data Consortium. (2005). Linguistic Data Annotation Specification: Assessment of Fluency and Adequacy in Translations. Technical report.

• DQF-MQM*
– 翻訳のエラー分類基準
– 2種類のエラー評価基準を統合
• DQF: エラーの大分類＋重大度
• MQM: 詳細なエラー分類＋階層化
– もともとは人間の翻訳の評価用に開発された
ものをMTに適用 (QT21)
– 翻訳産業の統一的な評価基準のひとつ
• JTF翻訳品質評価ガイドライン
にも採用
Lommel, A., & Melby, A. (2018, March). Tutorial: MQM-DQF: A Good Marriage (Translation Quality for the 21st Century). In Proceedings of the 13th Conference of the Association for Machine Translation in the Americas (Volume 2: User Papers).
Cited from: http://www.qt21.eu/mqm-definition/definition-2015-12-30.html

Evaluation of MT: automatic eval. (1)
• BLEU*
– 連続する単語（n-gram）の一致度を計算
– 文長の相違に対してペナルティをかける
– もっともよく使われている指標
• METEOR**
– 厳密な一致度ではなく類似語彙との一致も許容する
– BLEUよりは柔軟な指標
Papineni, K., Roukos, S., Ward, T., & Zhu, W. J. (2002, July). BLEU: a method for automatic evaluation of machine translation. In Proceedings of the 40th annual meeting on association for computational linguistics (pp. 311-318). Association for Computational Linguistics.
Banerjee, S., & Lavie, A. (2005, June). METEOR: An automatic metric for MT evaluation with improved correlation with human judgments. In Proceedings of the acl workshop on intrinsic and extrinsic evaluation measures for machine translation and/or summarization (pp. 65-72).
𝑃𝑛 =
σ 𝑆∈𝐶 σ 𝑛𝑔𝑟𝑎𝑚∈𝑆 𝐶𝑜𝑢𝑛𝑡 𝑚𝑎𝑡𝑐ℎ𝑒𝑑(𝑛𝑔𝑟𝑎𝑚)
σ 𝑆∈𝐶 σ 𝑛𝑔𝑟𝑎𝑚∈𝑆 𝐶𝑜𝑢𝑛𝑡(𝑛𝑔𝑟𝑎𝑚)
𝐵𝑃 = ൝
1 𝑖𝑓 𝑐 > 𝑟
𝑒1−𝑟/𝑐
𝑖𝑓 𝑐 ≤ 𝑟
𝐵𝐿𝐸𝑈 = 𝐵𝑃 × exp ෍
𝑛=1
𝑁
𝑤 𝑛 log 𝑃 𝑛

• RIBES*
– 単語の一致度だけではなく並び順を加味した評価
– 日本語-英語など文構造の異なる言語間で有効
• Levenshtein distance、WER、TER**
– MT出力を正解文に一致させるためのアクション（距離）を計算
• Insertion, substitution, deletion
– Levenshtein distance：文字単位での距離
– WER：単語単位での誤り率
– TER：単語の誤り＋単語移動（並び替え）の率
平尾努, 磯崎秀樹, 須藤克仁, 塚田元, & 永田昌明. (2014). 語順の相関に基づく機械翻訳の自動評価法. 自然言語処理, 21(3), 421-444.
Levenshtein, V. (1965). Leveinshtein distance.

• EDR (Edit Distance Ratio)
– 人間が翻訳文 (MT出力) をどの程度修正したかを比率で表したもの（＝hTER*）
• 考え方は Levenshtein distance、WER、TER と同様
– 参考訳に依存せず、翻訳としての正確さを測定できる
– ポストエディット作業の直接的な指標になる
– 実際にポストエディット作業を行うため、作業コストがかかる
– EDRの応用形
• 修正にどこまで時間がかかったか（time to edit）
• 修正箇所のエラー分類（error frequency）
Snover, M., Dorr, B., Schwartz, R., Micciulla, L., & Makhoul, J. (2006, August). A study of translation edit rate with targeted human annotation. In Proceedings of association for machine translation in the Americas (Vol. 200, No. 6).

• Quality Estimation
– 参考訳を使用せずにMT出力の品質を推定する試み
– (MTと同じ) 機械学習のフレームワークを使って推定
– Quality Estimation の目的
• 低コストでMTの性能を評価する
• リアルタイムで品質推定し、ポストエディットが必要か
どうかの意思決定を支援する
• 自動ポストエディットへの発展
Specia, L., & Soricut, R. (2013). Quality estimation for machine translation. Machine Translation, 27(3-4), 167-170.

Evaluation of MT: Statistical approach
• 統計解析
– スコアの集計と統計量の算出
• ある程度のボリュームが必要（＞100～200文）
• 文単位でスコアを出し平均値、標準偏差などを算出
• 検定でMTシステム間の比較を出すことも可能
• レビュー
– 記述的な分析
• 定量的に測れなかった問題の検出

品質評価の使い方

品質評価で誤訳は防げるか？
• この訳文の評価は？
原文：高塚川の周辺に避難勧告が出ました。
誤：Foi emiitido aviso para se refugiar proximidades do rio Takatsuka.
正：Foi emiitido alerta de refugio nas proximidades do rio Takatsuka.
静岡新聞 2019/10/17 17:04配信 https://www.at-s.com/news/article/social/shizuoka/694852.html

MT品質評価の課題 (1)
• 品質評価の対象
– システムとしてのMTが評価の対象
• システム間の比較には有効
– （特に自動評価は）1文ずつの評価には使いにくい
• エラーの「重大さ」は評価できない
• 評価の内容の妥当性
– 評価者がいいと思ったものが「良い」翻訳なのか？
– 参考訳に近いものが「良い」翻訳なのか？
– エラーのない翻訳が「良い」翻訳なのか？

MT品質評価の課題 (2)
• 評価フレームワークの妥当性
– 評価手法の多くはSMT → NMTで同じものが使われている
– SMTには自明な問題があったが・・・NMTでは？
• 翻訳と言語の多様性
– もともと言語は多様性を持つもの
• 翻訳の解は一意には決まらない
• 品質評価の意義
– いろいろな制限があるなかでどう使えばよいのか？

Purpose of Translation
• スコポス (Skopos) 理論
– スコポス=目的
• 翻訳は目的があって初めていかに何をすべきかが決まる
• Aim, purpose, intention and function
• 翻訳の目的はユーザー (受け手) との関係性の中で決まる
• ユーザーにとっての目的とは？
– 正確性？
– 情報の可読性？
– メッセージ性？
– ユーザーエクスペリエンス？
Du, X. (2012). A Brief Introduction of Skopos Theory. Theory & Practice in Language Studies, 2(10).

Design of MT evaluation
• MT評価の目的
– MTの評価もまた目的ベースで考える
• ユーザー (顧客) の業務に使えるかどうか知りたい
• 複数のMTでどれが優れているかを知りたい
• ユーザー (顧客) の仕事を効率化できるか知りたい
– 目的からアウトカムを考える
• エラーの少なさ？
• MT間での有意差？
• 処理速度の速さや安定性？
• ポストエディットの手間の少なさ？

品質評価から品質管理へ

Implications of MT evaluation
• 品質評価結果をどう使うか
– 100点が出なければすべて却下？
– 80点のMTをどう使う？
– 70点や50点のMTは不要？
– 1年後も優劣差はそのまま？
80点!
70点 50点

ポストエディット
• ポストエディット（post-editing）
– MTの後に行う人手の修正工程
– 期待品質とMT出力との差（100点ー80点）を埋める工程
• ポストエディットの課題
– それほど簡単な仕事ではない
• 原文との突合が必要で一定の手間がかかる
– 翻訳作業より作業負荷が低いと考えられるが、その改善を可視化しにくい
• ニューラルMT（NMT）は自然な訳文を出力するため、
かえってどこが間違っているのかわかりにくい
• 作業量がMT出力のクオリティに依存するため予測が難しい

MTとポストエディット
• MT品質の底上げとポストエディットの効率化
– ベースラインの品質が高ければポストエディットは楽になる (はず)
– MTの品質を底上げするための処理をシステムに組み込む
• 辞書機能の実装
• プリエディット
• ポストエディットのための品質評価
– ポストエディットの負荷を可視化できる指標を使う
– MTの具体的な問題点を洗い出す
• 訳抜けが多い、専門用語が出ない・・・

Goal of MT System and Translation Service
• MTを「活かす」システムの構築
– もともと翻訳は連続的なプロセスの中で行われるもの
– MTが完璧でもほかのプロセスがうまく機能しないと失敗に終わる
– 逆に他のプロセスでMTの不足点を補うことができる
– ポストエディットに依存せず相補的な仕組みを考える
原文書
前処理
CATツール
プリエ
ディット
MT
ポストエ
ディット
QC
QA
フォー
マッティ
ング
ユーザー
レビュー
翻訳文書

持続性のあるシステム
• フィードバックの仕組みづくり
– 顧客フィードバックの検証
– QCでのエラーや作業データの蓄積
– 定期的な品質評価、エラー傾向の把握
• システムの改善
– MTのチューニング
• アダプテーション
– プリ／ポストエディットのガイドライン
– 自動処理の追加
Evaluation
FeedbackImprovement

プロセス構築についての
ASCAの取り組み

ASCAのMT活用事例 (1): CIOMS
• CIOMS Form（安全性報告）の作成
– 特定の薬剤に対して、予想される有害事象や症例経過をもとに
MTをカスタマイズするためのデータセットを作成
– 個別症例報告からテキストデータを抽出し、機械的に言語
変換処理
– MTを含め周辺処理を自動化
32 © ASCA Corporation 2019

ASCAのMT活用事例 (2): ASCA Trans Lab
• プリエディットの実装によるMTシステムの拡張
– MTと人手作業をパッケージ化した弊社の新サービス
– 事前の編集作業により、AI翻訳の性能を
大きく底上げ（プリエディット）
– MTが生じるエラーを人の目で
チェック、修正（ポストエディット）
– 編集作業を最小限にするためのワークフロー

ポストエディットの概念と役割
• ガイドライン（手順書）
– ISO 18587の要件を満たす
– 国際的組織（TAUS）のガイドラインに準拠
• プロジェクトごとの手順書
– カスタマイズされた工程
– 文書タイプに応じた編集パターン
• コンセプトの徹底
– 最小限の修正で最大限の効果を生む
– 周辺工程を含めて意義を理解する
– 専門性を持つ人間にしかできないことに集中する

最後に

MTはツールである
• MTに使われるのではなくMTを使う
– MTはCATツールや辞書と同じ、人間が楽をするためのツール
– 人工知能をもつNMTはうまく使えば大きな力を発揮してくれる
– うまく使うには長所と短所の把握＝品質評価が必要
– 「目的」を考えることによってMTは最適化できる

人間と機械のインテグレーション
• 役割に特化する
– 人間もMTも役割を理解してそこに資源を集中させる
– 翻訳を「最も生産性の高い仕事」にする
– 新しい顧客-翻訳会社-翻訳者の役割を考える

Thank you
Contact:
早川威士 (Takeshi Hayakawa)
株式会社アスカコーポレーション takeshi.hayakawa@asca-co.com
大阪大学大学院情報科学研究科 @taquecih

機械翻訳 (MT) の品質評価を考える | 第29回 JTF翻訳祭2019@パシフィコ横浜

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Ähnlich wie 機械翻訳 (MT) の品質評価を考える | 第29回 JTF翻訳祭2019@パシフィコ横浜

Ähnlich wie 機械翻訳 (MT) の品質評価を考える | 第29回 JTF翻訳祭2019@パシフィコ横浜 (20)

Kürzlich hochgeladen

Kürzlich hochgeladen (11)

機械翻訳 (MT) の品質評価を考える | 第29回 JTF翻訳祭2019@パシフィコ横浜