All That’s ‘Human’ Is Not Gold Evaluating Human Evaluation of Generated Text

Copyright © 2020 調和系工学研究室 - 北海道大学大学院情報科学研究院情報理工学部門複合情報工学分野 – All rights reserved.
All That’s ‘Human’ Is Not Gold
Evaluating Human Evaluation of
Generated Text
北海道大学大学院情報科学研究院
情報理工学部門複合情報工学分野調和系工学研究室
平田航大

• タイトル
– “All That’s ‘Human’ Is Not Gold Evaluating Human Evaluation
of Generated Text”
• 著者
– Elizabeth Clark, Tal August, Sofia Serrano, Nikita Haduong,
Suchin Gururangan, Noah A. Smith
• 発表
– Association for Computational Linguistics 2021
• 論文URL
– https://aclanthology.org/2021.acl-long.565.pdf
– 著者による発表：https://aclanthology.org/2021.acl-
long.565.mp4
• 一部スライドの構成を参考にしました
• 実装
– モデルの提案論文ではないためなし
論文情報 2

3
概要
• Natural Language Generation における
非エキスパートな人間の評価をメタ評価
• Amazon Mechanical Turk を使った大規模調査
• 調査前に被験者を訓練
• 被験者は GPT3[1] の書いた文章を見分けられているとは言えなかった
• いくつかの訓練を被験者に施したが，有意な結果の改善は見られなかった
SOTA レベルの言語モデルでは、人間が評価を
する際の実施方法を検討すべきであると主張
[1]: Language models are few-shot learners., Brown et al., 2020, Advances in Neural Information Processing Systems

1. 非エキスパートは人間作とモデル作の文章を
見分けられるのか？
– 言語モデルの発展により、文法レベルのエラーは
なくなってきている
– クラウドワーカーは必ずしも現代の AI 技術に明
るくなく、文章内容を評価できているのか不明
2. 事前の訓練によって、意図した評価実験を
達成できるか？
– 適切な指示や説明を与えることで、研究者が欲し
い結果を得られるか
問題提起 4

Figure1 同じ文章に対して起こりうる、解釈の違い 5

6
行った実験
1. 人間作とモデル作（GPT2[2], GPT3）の文章
を見分けられるかを調査
– Amazon Mechanical Turk 上で人間作とモデル作
をランダムに提示
– 多重比較法などによる検定の実施して結果を分析
2. 事前に訓練を施し、1．と同様のアンケート
調査
– 人間作とモデル作を見分けるヒントや、問題例な
どを事前に提示
– 結果の改善を訓練前と訓練後で比較
[2]: Language models are unsupervised multitask learners, Alec Radford, Jeff Wu, Rewon Child, David Luan,
Dario Amodei, and Ilya Sutskever, 2019, OpenAI Blog

7
行った実験
1. 人間作とモデル作（GPT2[2], GPT3）の文章
を見分けられるかを調査
– Amazon Mechanical Turk 上で人間作とモデル作
をランダムに提示
– 多重比較法などによる検定の実施して結果を分析

• タスク
– Passage が提示され、人間作 or 機械作を判断
1. Definitely human-written
2. Possibly human-written
3. Possibly machine-generated
4. Definitely machine-generated
– 根拠について以下の質問
• １．を選んだ場合
– なぜその選択肢を選んだか？
• それ以外の場合
– 何を変えればより人間らしくなるか？
• 対象ドメイン
– Story, News, Recipe
• データ数合計：3,900 texts (780 名)
実験設定 8
それぞれ50％で提示される

Copyright © 2020 Laboratory of Harmonious Systems Engineering Research Group of Synergetic Information Engineering
Division of Computer Science and Information Technology Faculty of Information Science and Technology Hokkaido University – All rights reserved.
9
Figure2 実際のタスクのスクリーンショット
タスクの説明
本文
質問部
コメント部

• チャンスレベルに対し、GPT2は有意差あり、
GPT3は有意差なし
– 被験者は人間が書いた文章と GPT3 の書いた文章
を見分けられているとは言えない
実験結果、分析 10
Table1: モデルごとの正しく判別できた割合

• 被験者のコメントを3つにカテゴリ分け
コメント分析 11
Form Content Machine abilities
文法、フォーマット文章の意味モデルの能力対する認識
Table: カテゴリごとの言及内容
I would make the
text more
grammatical by
adding more
punctuation where
necessary.
Repeating “or some
would say” seemed
very unnatural.
The text is thorough
and tries to cover all
basis of the
situation. It is very
inclusive and
humans worry
about being
inclusive not
machines.

• 被験者のコメントを3つにカテゴリ分け
文法、フォーマット文章の意味モデルの能力対する認識
47 25 28
0 10 20 30 40 50 60 70 80 90 100
GPT3 v.s. 人間
コメントの割合(%)
Figure: 各カテゴリの割合
表面上の Form に注目
している人が多い

13
行った実験
2. 事前に訓練を施し、1．と同様のアンケート
調査
– 人間作とモデル作を見分けるヒントや、問題例な
どを事前に提示
– 結果の改善を訓練前と訓練後で比較

• タスク
– 同様の調査だが、実施前に以下の訓練の中から
1つを実施
1. Training with Instructions
– 着目すべき点についてのヒントを説明
2. Training with Example
– 問題の例と解答・解説
3. Training with Comparison
– 人間作、モデル作を両方見せて解答・解説
• 対象ドメイン
– Story, News, Recipe
• データ数合計：5,850 texts (1,190 名)
実験設定 14

• Examples のみ有意な差がある
– ただしドメインごとに見ると有意差のあるものはなし
実験結果 15
Table2 施した訓練とその実験結果(GPT3)

• Examples に関してはコメントの割合が変化
• 評価観点の変化がみられる
• より内容重視の評価になっている
• モデル作の文章のレベル感が訓練により伝わった
可能性
• ただし、正答率の増加にはつながっていない
考察
約2倍

17
今後に対する提案
• 今後は内容やモデルの利用価値を測る評価
方法に移行すべき
– Powered by AI の中で、利用価値を評価する
Ex.) 問題のあるシチュエーションに対し、適切な
アドバイスを生成できるかを評価 [3]
• AMT などで同様の調査を行わなければ
ならない場合
– 被験者に見るべき観点を伝える
• 事前に例を示す方法が最も効果的と考えられる
– 選択肢を選んだ理由を説明させる
• 被験者は研究者が意図しない観点で意思決定をしている
可能性がある
[3]: TuringAdvice: A generative and dynamic evaluation of language use, Rowan Zellers, Ari Holtzman, Elizabeth Clark,
Lianhui Qin, Ali Farhadi, Yejin Choi, 2021, NAACL

• SOTA レベルのモデルを評価する場合、評価
方法を検討すべきである
– 「人間らしさ」ではなく、内容や利用価値を評価
できる方法へ
• クラウドワーカーに訓練を実施しても、研究
者が意図した結果を得られない可能性がある
– 最も効果的だった Examples も訓練前と有意差は
見られなかった
まとめ 18

All That’s ‘Human’ Is Not Gold Evaluating Human Evaluation of Generated Text

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Ähnlich wie All That’s ‘Human’ Is Not Gold Evaluating Human Evaluation of Generated Text

Ähnlich wie All That’s ‘Human’ Is Not Gold Evaluating Human Evaluation of Generated Text (20)

Mehr von harmonylab

Mehr von harmonylab (20)

Kürzlich hochgeladen

Kürzlich hochgeladen (11)

All That’s ‘Human’ Is Not Gold Evaluating Human Evaluation of Generated Text