Weitere ähnliche Inhalte
Ähnlich wie MAUVE: Measuring the Gap Between Neural Text and Human Text using Divergence Frontiers (20)
Kürzlich hochgeladen (10)
MAUVE: Measuring the Gap Between Neural Text and Human Text using Divergence Frontiers
- 1. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
MAUVE: Measuring the Gap
Between Neural Text and Human
Text using Divergence Frontiers
北海道大学 大学院情報科学研究院
情報理工学部門 複合情報工学分野 調和系工学研究室
修士1年 花野愛里咲
- 2. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
• 著者
– Krishna Pillutla,Swabha Swayamdipta,Rowan
Zellers,John Thickstun,Sean Welleck,Yejin
Choi,Zaid Harchaoui
• 発表
– NeurIPS(2021)
• 論文URL
– https://arxiv.org/pdf/2102.01454.pdf
• コード
– https://github.com/krishnap25/mauve
論文情報 2
- 3. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
• オープンエンドテキスト生成のための
評価指標MAUVEの提案
• モデルによるテキストの分布と人間が書いた
テキストの分布の近さをKL divergenceを
用いて定量化
• 既存の評価指標よりも人間による評価との
相関が確認された
概要 3
- 4. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
• 大規模テキスト生成モデルは高品質・一貫性を
持つ人間のようなテキストの生成が可能
• モデルが生成したテキストと人間の言語の近さ
を測定することは依然として未解決
• 人間が書いたテキストの分布とモデルによる
テキスト分布のギャップの測定を目的とする
背景 4
- 5. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
• 人間のテキスト分布とモデルによるテキスト
分布のギャップは2種類のエラーから生じる
– タイプ1エラー:生成モデルが人間が書きそうも
ないテキストを生成する
– タイプ2エラー:生成モデルが人間が書きそうな
テキストを生成できない
• これらをKL divergenceを用いて定式化
提案手法 5
- 6. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
• モデルによるテキスト分布Qと人間による
テキスト分布Pの混合分布𝑅𝜆をとる
• MAUVEは𝜆を(0, 1)で動かして得られた
ダイバージェンス曲線下の面積
• MAUVEの値が大きいほどQはPに近いことを示す
提案手法 6
𝑅𝜆 = 𝜆𝑃 + 1 − 𝜆 𝑄 𝜆 ∈ (0, 1)
横軸:タイプ1エラー
縦軸:タイプ2エラー
𝑐:スケーリングのための
ハイパーパラメータ
- 7. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
• 問題点
– 人間のテキスト分布が未知
– 典型的なモデル分布では次元が高すぎる
• 推定手順
1. 人間のテキストとモデルのテキストをサンプリング
2. 言語モデルを用いて各テキスト列の埋め込みベクトル
を得る(GPT-2を使用)
3. 埋め込まれたサンプルを量子化(k-means法を使用)
• ベクトル量子化:データ集合をk個のクラスタに分割し,
各クラスタをk個の代表ベクトルで近似
4. 各クラスタ内のデータ数をカウントしてヒストグラム
を形成
• 高次元のテキスト分布を低次元の離散分布に
変換
提案手法 7
- 8. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
関連研究 8
• 他の評価指標の問題点
– 2つのエラーを考慮していない
– ダイバージェンス曲線上のある1点しか考慮していない
オープンエンドテキスト生成のための自動評価指標
- 9. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
• タスク
– 与えられたテキストの続きを生成
• ドメイン:ウェブテキスト,ニュース,物語
• モデル
– ウェブテキストデータセットで事前学習したGPT-2
• デコーディングアルゴリズム
– ancestral sampling:言語モデルのステップごとの分布
から直接サンプリング
– greedy decoding:次の単語として最も確率の高い単語
を選択
– nucleus sampling:確率の合計がpを超えるような最小の
個数の候補を動的に決定
実験設定 9
- 10. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
1. 生成されたテキスト長,デコーディングアル
ゴリズム,モデルサイズの違いによる特性を
どのように定量化するのか
2. 埋め込みモデル,量子化アルゴリズム,
ハイパーパラメータの違いによらずロバスト
であるか
3. 人間の判断と相関があるか
実験 10
- 11. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
11
実験1-1
• 生成されたテキストの長さによる質の違いを
定量化できるか
– 生成するテキストの長さが長いほど質が悪化する[1]
• 比較指標の中でMAUVEだけがテキストの長さが
長いほど質が低下することを捉えている
– モデルサイズによらず一貫した傾向あり
[1] H. Rashkin, A. Celikyilmaz, Y. Choi, and J. Gao. PlotTMachines: Outline-Conditioned Generation with Dynamic
Plot State Tracking. arXiv Preprint, 2020.
- 12. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
12
実験1-2
• デコーディングアルゴリズムによる質の違いを
捉えられるか
– Greedy sampling < Ancestral sampling < Nucleus
sampling の順にテキストの質が高い[2][3][4][5]
• MAUVEはデコーディングアルゴリズムの特徴を
捉えることができている
[2] A. Holtzman, J. Buys, M. Forbes, and Y. Choi. The Curious Case of Neural Text Degeneration. In Proc. of ICLR, 2020.
[3] S. Welleck, I. Kulikov, S. Roller, E. Dinan, K. Cho, and J. Weston. Neural Text Generation With Unlikelihood Training. In Proc. of ICLR, 2020.
[4] S. Welleck, I. Kulikov, J. Kim, R. Y. Pang, and K. Cho. Consistency of a Recurrent Language Model With Respect to Incomplete Decoding. In
Proc. of EMNLP, pages 5553–5568, 2020.
[5] A. Fan, M. Lewis, and Y. N. Dauphin. Hierarchical Neural Story Generation. In Proc. of ACL, pages 889–898, 2018.
- 13. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
13
実験1-3
• モデルサイズによる質の違いを捉えられるか
– モデルサイズは大きいほどテキストの質が高い[6][7]
• MAUVEはモデルサイズの特徴を捉えることが
できている
[6] A. Radford, J. Wu, R. Child, D. Luan, D. Amodei, and I. Sutskever. Language Models are Unsupervised Multitask Learners. OpenAI
blog, 1(8):9, 2019.
[7] T. B. Brown, B. Mann, N. Ryder, M. Subbiah, J. Kaplan, P. Dhariwal, A. Neelakantan, P. Shyam, G. Sastry, A. Askell, S. Agarwal, A.
Herbert-Voss, G. Krueger, T. Henighan, R. Child, A. Ramesh, D. M. Ziegler, J. Wu, C. Winter, C. Hesse, M. Chen, E. Sigler, M. Litwin, S.
Gray, B. Chess, J. Clark, C. Berner, S. McCandlish, A. Radford, I. Sutskever, and D. Amodei. Language Models are Few-Shot Learners. In
Proc. of NeurIPS, 2020.
- 14. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
• 異なる埋め込みモデルでも同じ傾向を示すか
– RoBERTa largeとGPT-2 largeを比較
実験2-1 14
• 異なる埋め込みモデルでもMAUVEは以下の既知の
特性を示した
– モデルサイズが大きいほどテキストの質が高い
– Greedy sampling < Ancestral sampling < Nucleus sampling
の順にテキストの質が高い
- 15. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
• 異なる量子化アルゴリズムを用いてもロバストで
あるか
– K-means法,Deep Residual Mixture Models(DRMM),
格子量子化を比較
• K=100から5000までの K-means法で計算された
MAUVEはデフォルトのK=500のときとほぼ完全
に相関する(相関係数は0.99または1.00)
• DRMMまたは格子量子化で計算されたMAUVEは
K-means法とほぼ完全な相関を持つ(相関係数は
0.99以上)
実験2-2 15
- 16. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
• スケーリングパラメータcの値によらず
ロバストであるか
実験2-3 16
𝐶 𝑃, 𝑄 = {(exp −𝑐𝐾𝐿 𝑄 𝑅𝜆 , exp −𝑐𝐾𝐿 𝑃 𝑅𝜆
𝑅𝜆 = 𝜆𝑃 + 1 − 𝜆 𝑄, 𝜆 ∈ (0, 1)}
• cの値はダイバージェンス曲線の相対的な順序
には影響を与えない
- 17. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
• 人間の判断と相関があるか
– 評価者は与えられた文章に続く文章を5段階の
リッカート尺度でペアから1つを選択
• Human-like:どちらの文章が人間が書いた可能性が高いか
• Interesting:どちらの文章がより面白いか
• Sensible:どちらの文章が論理的に正しいか
実験3 17
GPT-2のモデル
サイズ4種類
• small
• medium
• large
• xl
デコーディング
アルゴリズム2種類
• pure sampling
• nucleus sampling
人間が書いた
テキスト(継続文)
× +
• 文章は9種類あるためペアは36組
– 各組に対して90のアノテーションを取得
- 18. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
18
- 19. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
• 1対1の比較からランキングに変換するために
Bradley-Terryモデルを使用
実験3 19
• Bradley-Terryスコアと各評価指標の相関係数
を算出
Bradley-Terryスコア
(Bradley-Terryスコアは値が大きいほど評価者からの選好が強いことを示す)
- 20. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
• 人間の判断と相関があるか
– 「human-like」「interesting」「sensible」の3つ
の指標を評価
• MAUVEは他の評価指標よりも人間の評価との
相関が大幅に高い
実験3 20
- 21. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
• モデルのテキストと人間のテキストを識別する
分類器の精度との相関
– 分類器の精度が低いほど生成されたテキストは
人間のテキストとの識別が難しい
• 使用する分類モデル
– ニュース生成:Grover mega
– 物語生成:GPT-2
実験3 21
• MAUVEは他の比較指標よりも識別精度との相関
が最も高い
- 22. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
• モデルによるテキストと人間のテキストの
ギャップを測る自動評価指標MAUVEを提案
• MAUVEはテキストの生成長,デコーディング
アルゴリズム,モデルサイズの違いを捉え,
人間の判断と相関することが確認された
• 今後の展望:翻訳や要約などのクローズド
エンドなタスクへの拡張
まとめ 22