【論文読み会】MAUVE: Measuring the Gap Between Neural Text and Human Text using Divergence Frontiers

ARISE analytics
ARISE analyticsARISE analytics
MAUVE: Measuring the Gap
Between Neural Text and Human
Text using Divergence Frontiers
Customer Analytics Division
奥井 恒
2022/03/10
目次
©2022 ARISE analytics Reserved. 1
1. 導入
2. MAUVE
3. 実験
4. まとめ
背景・目的
©2022 ARISE analytics Reserved. 2
最近の大規模テキスト生成モデルは、顕著な品質と一貫性を持つ人間のようなテキストを
生成する能力を示している。
AIが高度な日本語文章を自動で生成 りんなのrinna社、日本語GPT-2/BERTの事前学習モデルを開発 GitHub等で公開 - ロボスタ
(robotstart.info)
機械が生成したテキストは、人間が生成したテキストにどのくらい近いのか?
自然言語処理モデル「GPT-3」の紹介 | NTTデータ先端技術株式会社 (intellilink.co.jp)
未解決問題
©2022 ARISE analytics Reserved. 3
機械が生成したテキストが人間が生成したテキストに対して、どれだけ近いかを測定する方
法は確立していない。
機械生成テキストの評価を定量化することは困難
(テキスト分布は高次元で離散的で、サンプルや効果のモデル評価を通してのみアクセスできるため)
To-Be
現在のゴールドスタンダードは
人間による評価
自動・定量的に評価できる
指標が欲しい。。。
As-Is
©2022 ARISE analytics Reserved. 4
1. 導入
2. MAUVE
3. 実験
4. まとめ
MAUVE:概要
©2022 ARISE analytics Reserved. 5
※ 個人の所感。
MAUVEは人間が生成したテキストと機械が生成したテキストの分布を比較することで、客
観的な言語生成モデルの性能を評価する。
人間が生成したテキストと機械が生成したテキスト
の分布を比較 情報量曲線下の分布をMAUVEとする。
(PR曲線のAUCを出すのと同じノリ ※)
Track: Oral Session
1: Deep Learning
(neurips.cc)より引用
論文より引用
2種類のエラー
©2022 ARISE analytics Reserved. 6
人間が生成したテキストの分布をP、機械が生成したテキストの分布をQとするとき、2種類
のエラーがある。
Type I error :
Q(機械)では確率が高いが、P(人間)では確率が低い場合のエラー
Type II error :
P(人間)では確率が高いが、Q(機械)では確率が低い場合のエラー
論文より引用
MAUVE
©2022 ARISE analytics Reserved. 7
情報量曲線の c (c>0) は、スケーリングのためのハイパーパラメータ
KL情報量によってエラーを表現し、情報量曲線下の面積をMAUVEとする。
Track: Oral Session 1: Deep Learning
(neurips.cc) より引用
MAUVE:曲線下の面積(0~1の値)を算出
𝑅𝜆 = 𝜆 𝑃 + 1 − 𝜆 𝑄, 𝜆 ∈ (0,1)
KL(Q|P), KL(P|Q)とすると、∞になる可
能性があるため、混合Rを定義
Type I error :
Q(機械)では確率が高いが、P(人間)では確率が低い場合のエラー
Type II error :
P(人間)では確率が高いが、Q(機械)では確率が低い場合のえラー
𝐶 = exp(−𝑐 KL(𝑄|𝑅𝜆)) , exp(−𝑐 KL(𝑃|𝑅𝜆))
情報量曲線
©2022 ARISE analytics Reserved. 8
1. 導入
2. MAUVE
3. 実験
4. まとめ
実験:
©2022 ARISE analytics Reserved. 9
3つの実験を通して、MAUVEの性能が検証できた。
データセット
タスク 文脈xが与えられたとき、後続のテキストを生成
正解:真の確率分布Pからのサンプル
競合:機械による生成分布Qからのサンプル
実験 実験①:生成する文章の長さ、デコードアルゴリズム、モデルサイズの違いを見る
実験②:埋め込みモデルM(x)と量子化アルゴリズムの違いを見る
実験③:人間の評価との相関を見る
論文より引用
実験① ~生成する文章の長さ~
©2022 ARISE analytics Reserved. 10
※ 既知の性質:生成するテキストが長くなると、支離滅裂になる。
生成の長さによる品質の違いを定量化した。MAUVEは既知の性質※を示す挙動をした。
他の指標は好ましくない傾向を示している。
フレシェ距離 世代パープレキシティ スパースマックススコア
実験① ~デコードアルゴリズム、モデルサイズの違い~
©2022 ARISE analytics Reserved. 11
デコードアルゴリズムの品質、モデルサイズによる品質においても望ましい傾向を示している。
Greedy < Ancestral < Nucleusと
なるのが理想らしい。
モデルサイズが大きくなるにつれて
良くなるのが理想。
デコードアルゴリズムによる品質の違い モデルサイズによる品質の違い
論文より引用 論文より引用
実験②
©2022 ARISE analytics Reserved. 12
量子化についても、k-means, DRMM (Deep Residual Mixture Models), 格子量子化の三つの量子
化を試してみたが、結果は大きく変わらなかったらしい。
埋め込みモデル、定数を変えてみても、性質に大きな違いは見られなかった。
埋め込みモデルによる品質の違い
RoBERTaとGPT2は似た傾向を示す。 cの選択は曲線の相対的な順序に影響しない。
定数cによる違い
𝐶 = exp(−𝑐 KL(𝑄|𝑅𝜆)) , exp(−𝑐 KL(𝑃|𝑅𝜆))
実験③
©2022 ARISE analytics Reserved. 13
MAUVEは人間の評価とよく相関している。
様々な類似性尺度が利用可能な場合の人間の判断との相関
MAUVEは良い性質を持ちつつ、人間に近い評価ができていることがわかった。
論文より引用
利用方法
©2022 ARISE analytics Reserved. 14
人間が生成したテキストと機械が生成したテキストを入れると、MAUVE(0~1の値)が
算出される。
Github
krishnap25/mauve: Package to compute Mauve, a similarity score between neural text and human text. Install with `pip install mauve-text`. (github.com)
and krishnap25/mauve-experiments (github.com)
Input
Output
(0~1の値)
Track: Oral Session 1: Deep Learning
(neurips.cc)
©2022 ARISE analytics Reserved. 15
1. 導入
2. MAUVE
3. 実験
4. まとめ
まとめ
©2022 ARISE analytics Reserved. 16
論文サマリーの内容
• テキスト生成において、人間が作成したテキストと機械が作成したテキストがどれだけ近いのかを評価するための定量的
な指標を提案している。
• 人間の判断と相関もあり、先行研究による指標では捉えにくい、生成長・デコードアルゴリズム・モデルサイズによる品質
の違いも特定できた。
• 今後は、MAUVEを要約や翻訳などの特定タスクでの評価に使用できるか検討していきたいらしい。
Best Partner for innovation, Best Creator for the future.
References
©2022 ARISE analytics Reserved. 18
• Paper
MAUVE: Measuring the Gap Between Neural Text and
Human Text using Divergence Frontiers | OpenReview
• Video in NeurIPS2021
Track: Oral Session 1: Deep Learning (neurips.cc)
• Github
• krishnap25/mauve: Package to compute Mauve, a
similarity score between neural text and human text.
Install with `pip install mauve-text`. (github.com)
• krishnap25/mauve-experiments (github.com)
おまけ
©2022 ARISE analytics Reserved. 19
(機械が生成する確率が低いテキストの)例で出ていた内容について調べてみた。
ウトキアグヴィク - Wikipedia
春の訪れを祝うお祭りらしい。
Nuchalawoyya - YouTube
1 von 20

Recomendados

MAUVE: Measuring the Gap Between Neural Text and Human Text using Divergence ... von
MAUVE: Measuring the Gap Between Neural Text and Human Text using Divergence ...MAUVE: Measuring the Gap Between Neural Text and Human Text using Divergence ...
MAUVE: Measuring the Gap Between Neural Text and Human Text using Divergence ...harmonylab
510 views22 Folien
第11回 全日本コンピュータビジョン勉強会(前編)_TableFormer_carnavi.pdf von
第11回 全日本コンピュータビジョン勉強会(前編)_TableFormer_carnavi.pdf第11回 全日本コンピュータビジョン勉強会(前編)_TableFormer_carnavi.pdf
第11回 全日本コンピュータビジョン勉強会(前編)_TableFormer_carnavi.pdfRyoKawanami
801 views20 Folien
SSII2021 [TS3] 機械学習のアノテーションにおける データ収集​ 〜 精度向上のための仕組み・倫理や社会性バイアス 〜 von
SSII2021 [TS3] 機械学習のアノテーションにおける データ収集​ 〜 精度向上のための仕組み・倫理や社会性バイアス 〜SSII2021 [TS3] 機械学習のアノテーションにおける データ収集​ 〜 精度向上のための仕組み・倫理や社会性バイアス 〜
SSII2021 [TS3] 機械学習のアノテーションにおける データ収集​ 〜 精度向上のための仕組み・倫理や社会性バイアス 〜SSII
1.9K views75 Folien
異常検知と変化検知 7章方向データの異常検知 von
異常検知と変化検知 7章方向データの異常検知異常検知と変化検知 7章方向データの異常検知
異常検知と変化検知 7章方向データの異常検知智文 中野
3.8K views19 Folien
Iclr2016 vaeまとめ von
Iclr2016 vaeまとめIclr2016 vaeまとめ
Iclr2016 vaeまとめDeep Learning JP
6K views36 Folien
IIBMP2016 深層生成モデルによる表現学習 von
IIBMP2016 深層生成モデルによる表現学習IIBMP2016 深層生成モデルによる表現学習
IIBMP2016 深層生成モデルによる表現学習Preferred Networks
51.4K views68 Folien

Más contenido relacionado

Was ist angesagt?

[DL輪読会]StarGAN: Unified Generative Adversarial Networks for Multi-Domain Ima... von
 [DL輪読会]StarGAN: Unified Generative Adversarial Networks for Multi-Domain Ima... [DL輪読会]StarGAN: Unified Generative Adversarial Networks for Multi-Domain Ima...
[DL輪読会]StarGAN: Unified Generative Adversarial Networks for Multi-Domain Ima...Deep Learning JP
4.6K views20 Folien
GAN(と強化学習との関係) von
GAN(と強化学習との関係)GAN(と強化学習との関係)
GAN(と強化学習との関係)Masahiro Suzuki
83K views77 Folien
ドメイン適応の原理と応用 von
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用Yoshitaka Ushiku
5.5K views50 Folien
【DL輪読会】時系列予測 Transfomers の精度向上手法 von
【DL輪読会】時系列予測 Transfomers の精度向上手法【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法Deep Learning JP
3.1K views48 Folien
Transformerを多層にする際の勾配消失問題と解決法について von
Transformerを多層にする際の勾配消失問題と解決法についてTransformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてSho Takase
4.8K views16 Folien
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc) von
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)Deep Learning JP
3.7K views52 Folien

Was ist angesagt?(20)

[DL輪読会]StarGAN: Unified Generative Adversarial Networks for Multi-Domain Ima... von Deep Learning JP
 [DL輪読会]StarGAN: Unified Generative Adversarial Networks for Multi-Domain Ima... [DL輪読会]StarGAN: Unified Generative Adversarial Networks for Multi-Domain Ima...
[DL輪読会]StarGAN: Unified Generative Adversarial Networks for Multi-Domain Ima...
Deep Learning JP4.6K views
GAN(と強化学習との関係) von Masahiro Suzuki
GAN(と強化学習との関係)GAN(と強化学習との関係)
GAN(と強化学習との関係)
Masahiro Suzuki83K views
ドメイン適応の原理と応用 von Yoshitaka Ushiku
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用
Yoshitaka Ushiku5.5K views
【DL輪読会】時系列予測 Transfomers の精度向上手法 von Deep Learning JP
【DL輪読会】時系列予測 Transfomers の精度向上手法【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法
Deep Learning JP3.1K views
Transformerを多層にする際の勾配消失問題と解決法について von Sho Takase
Transformerを多層にする際の勾配消失問題と解決法についてTransformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法について
Sho Takase4.8K views
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc) von Deep Learning JP
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
Deep Learning JP3.7K views
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem... von joisino
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
joisino3.4K views
[DL輪読会]ドメイン転移と不変表現に関するサーベイ von Deep Learning JP
[DL輪読会]ドメイン転移と不変表現に関するサーベイ[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
Deep Learning JP6.8K views
ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat... von 西岡 賢一郎
ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...
ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...
西岡 賢一郎1.9K views
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute... von SSII
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2.8K views
Bayesian Neural Networks : Survey von tmtm otm
Bayesian Neural Networks : SurveyBayesian Neural Networks : Survey
Bayesian Neural Networks : Survey
tmtm otm5K views
[DL輪読会]When Does Label Smoothing Help? von Deep Learning JP
[DL輪読会]When Does Label Smoothing Help?[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?
Deep Learning JP11.1K views
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​ von SSII
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII3.2K views
Generative Adversarial Networks (GAN) の学習方法進展・画像生成・教師なし画像変換 von Koichi Hamada
Generative Adversarial Networks (GAN) の学習方法進展・画像生成・教師なし画像変換Generative Adversarial Networks (GAN) の学習方法進展・画像生成・教師なし画像変換
Generative Adversarial Networks (GAN) の学習方法進展・画像生成・教師なし画像変換
Koichi Hamada28.2K views
Disentanglement Survey:Can You Explain How Much Are Generative models Disenta... von Hideki Tsunashima
Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...
Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...
Hideki Tsunashima6.9K views
Domain Adaptation 発展と動向まとめ(サーベイ資料) von Yamato OKAMOTO
Domain Adaptation 発展と動向まとめ(サーベイ資料)Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)
Yamato OKAMOTO8.5K views
[DL輪読会]End-to-End Object Detection with Transformers von Deep Learning JP
[DL輪読会]End-to-End Object Detection with Transformers[DL輪読会]End-to-End Object Detection with Transformers
[DL輪読会]End-to-End Object Detection with Transformers
Deep Learning JP4.3K views
【DL輪読会】Representational Continuity for Unsupervised Continual Learning ( ICLR... von Deep Learning JP
【DL輪読会】Representational Continuity for Unsupervised Continual Learning ( ICLR...【DL輪読会】Representational Continuity for Unsupervised Continual Learning ( ICLR...
【DL輪読会】Representational Continuity for Unsupervised Continual Learning ( ICLR...
Deep Learning JP489 views
Word2vecの理論背景 von Masato Nakai
Word2vecの理論背景Word2vecの理論背景
Word2vecの理論背景
Masato Nakai6.8K views

Similar a 【論文読み会】MAUVE: Measuring the Gap Between Neural Text and Human Text using Divergence Frontiers

深層生成モデルと世界モデル, 深層生成モデルライブラリPixyzについて von
深層生成モデルと世界モデル,深層生成モデルライブラリPixyzについて深層生成モデルと世界モデル,深層生成モデルライブラリPixyzについて
深層生成モデルと世界モデル, 深層生成モデルライブラリPixyzについてMasahiro Suzuki
5.1K views43 Folien
Jubatus: 分散協調をキーとした大規模リアルタイム機械学習プラットフォーム von
Jubatus: 分散協調をキーとした大規模リアルタイム機械学習プラットフォームJubatus: 分散協調をキーとした大規模リアルタイム機械学習プラットフォーム
Jubatus: 分散協調をキーとした大規模リアルタイム機械学習プラットフォームPreferred Networks
9.7K views50 Folien
MapReduceによる大規模データを利用した機械学習 von
MapReduceによる大規模データを利用した機械学習MapReduceによる大規模データを利用した機械学習
MapReduceによる大規模データを利用した機械学習Preferred Networks
15.8K views33 Folien
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平 von
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平Preferred Networks
7.4K views33 Folien
ちゃんとした C# プログラムを書けるようになる実践的な方法~ Visual Studio を使った 高品質・低コスト・保守性の高い開発 von
ちゃんとした C# プログラムを書けるようになる実践的な方法~ Visual Studio を使った 高品質・低コスト・保守性の高い開発ちゃんとした C# プログラムを書けるようになる実践的な方法~ Visual Studio を使った 高品質・低コスト・保守性の高い開発
ちゃんとした C# プログラムを書けるようになる実践的な方法~ Visual Studio を使った 高品質・低コスト・保守性の高い開発慎一 古賀
86K views84 Folien
【DL輪読会】StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-I... von
【DL輪読会】StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-I...【DL輪読会】StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-I...
【DL輪読会】StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-I...Deep Learning JP
673 views20 Folien

Similar a 【論文読み会】MAUVE: Measuring the Gap Between Neural Text and Human Text using Divergence Frontiers (20)

深層生成モデルと世界モデル, 深層生成モデルライブラリPixyzについて von Masahiro Suzuki
深層生成モデルと世界モデル,深層生成モデルライブラリPixyzについて深層生成モデルと世界モデル,深層生成モデルライブラリPixyzについて
深層生成モデルと世界モデル, 深層生成モデルライブラリPixyzについて
Masahiro Suzuki5.1K views
Jubatus: 分散協調をキーとした大規模リアルタイム機械学習プラットフォーム von Preferred Networks
Jubatus: 分散協調をキーとした大規模リアルタイム機械学習プラットフォームJubatus: 分散協調をキーとした大規模リアルタイム機械学習プラットフォーム
Jubatus: 分散協調をキーとした大規模リアルタイム機械学習プラットフォーム
Preferred Networks9.7K views
MapReduceによる大規模データを利用した機械学習 von Preferred Networks
MapReduceによる大規模データを利用した機械学習MapReduceによる大規模データを利用した機械学習
MapReduceによる大規模データを利用した機械学習
Preferred Networks15.8K views
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平 von Preferred Networks
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
Preferred Networks7.4K views
ちゃんとした C# プログラムを書けるようになる実践的な方法~ Visual Studio を使った 高品質・低コスト・保守性の高い開発 von 慎一 古賀
ちゃんとした C# プログラムを書けるようになる実践的な方法~ Visual Studio を使った 高品質・低コスト・保守性の高い開発ちゃんとした C# プログラムを書けるようになる実践的な方法~ Visual Studio を使った 高品質・低コスト・保守性の高い開発
ちゃんとした C# プログラムを書けるようになる実践的な方法~ Visual Studio を使った 高品質・低コスト・保守性の高い開発
慎一 古賀86K views
【DL輪読会】StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-I... von Deep Learning JP
【DL輪読会】StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-I...【DL輪読会】StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-I...
【DL輪読会】StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-I...
Deep Learning JP673 views
深層生成モデルと世界モデル(2020/11/20版) von Masahiro Suzuki
深層生成モデルと世界モデル(2020/11/20版)深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)
Masahiro Suzuki7.1K views
Jubatusにおける大規模分散オンライン機械学習 von Preferred Networks
Jubatusにおける大規模分散オンライン機械学習Jubatusにおける大規模分散オンライン機械学習
Jubatusにおける大規模分散オンライン機械学習
Preferred Networks14.4K views
Approximate Scalable Bounded Space Sketch for Large Data NLP von Koji Matsuda
Approximate Scalable Bounded Space Sketch for Large Data NLPApproximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLP
Koji Matsuda2.1K views
CNNの構造最適化手法(第3回3D勉強会) von MasanoriSuganuma
CNNの構造最適化手法(第3回3D勉強会)CNNの構造最適化手法(第3回3D勉強会)
CNNの構造最適化手法(第3回3D勉強会)
MasanoriSuganuma971 views
論文紹介 Identifying Implementation Bugs in Machine Learning based Image Classifi... von y-uti
論文紹介 Identifying Implementation Bugs in Machine Learning based Image Classifi...論文紹介 Identifying Implementation Bugs in Machine Learning based Image Classifi...
論文紹介 Identifying Implementation Bugs in Machine Learning based Image Classifi...
y-uti1.7K views
ヒンシツ大学セミナー ゴール指向の測定と品質保証活動 -メトリクス解説およびGqm法のワークショップ- von Hironori Washizaki
ヒンシツ大学セミナー ゴール指向の測定と品質保証活動 -メトリクス解説およびGqm法のワークショップ-ヒンシツ大学セミナー ゴール指向の測定と品質保証活動 -メトリクス解説およびGqm法のワークショップ-
ヒンシツ大学セミナー ゴール指向の測定と品質保証活動 -メトリクス解説およびGqm法のワークショップ-
Hironori Washizaki3.7K views
オブジェクトストレージの適用領域とCloudianの位置づけ (Cloudian Summit 2012) von CLOUDIAN KK
オブジェクトストレージの適用領域とCloudianの位置づけ (Cloudian Summit 2012)オブジェクトストレージの適用領域とCloudianの位置づけ (Cloudian Summit 2012)
オブジェクトストレージの適用領域とCloudianの位置づけ (Cloudian Summit 2012)
CLOUDIAN KK1.1K views
機械学習 - MNIST の次のステップ von Daiyu Hatakeyama
機械学習 - MNIST の次のステップ機械学習 - MNIST の次のステップ
機械学習 - MNIST の次のステップ
Daiyu Hatakeyama992 views
CNNの構造最適化手法について von MasanoriSuganuma
CNNの構造最適化手法についてCNNの構造最適化手法について
CNNの構造最適化手法について
MasanoriSuganuma3.7K views
Interop2017 von tak9029
Interop2017Interop2017
Interop2017
tak90291.2K views
マトリックス型テキスト編集モデルによる編集操作ログの実際と分析方針 von yamahige
マトリックス型テキスト編集モデルによる編集操作ログの実際と分析方針マトリックス型テキスト編集モデルによる編集操作ログの実際と分析方針
マトリックス型テキスト編集モデルによる編集操作ログの実際と分析方針
yamahige 744 views

Más de ARISE analytics

【論文レベルで理解しよう!】​ 欠測値処理編​ von
【論文レベルで理解しよう!】​ 欠測値処理編​【論文レベルで理解しよう!】​ 欠測値処理編​
【論文レベルで理解しよう!】​ 欠測値処理編​ARISE analytics
83 views19 Folien
【論文レベルで理解しよう!】​ 大規模言語モデル(LLM)編​ von
【論文レベルで理解しよう!】​ 大規模言語モデル(LLM)編​【論文レベルで理解しよう!】​ 大規模言語モデル(LLM)編​
【論文レベルで理解しよう!】​ 大規模言語モデル(LLM)編​ARISE analytics
112 views20 Folien
【論文読み会】Signing at Scale: Learning to Co-Articulate Signs for Large-Scale Pho... von
【論文読み会】Signing at Scale: Learning to Co-Articulate  Signs for Large-Scale Pho...【論文読み会】Signing at Scale: Learning to Co-Articulate  Signs for Large-Scale Pho...
【論文読み会】Signing at Scale: Learning to Co-Articulate Signs for Large-Scale Pho...ARISE analytics
183 views32 Folien
Hierarchical Metadata-Aware Document Categorization under Weak Supervision​ (... von
Hierarchical Metadata-Aware Document Categorization under Weak Supervision​ (...Hierarchical Metadata-Aware Document Categorization under Weak Supervision​ (...
Hierarchical Metadata-Aware Document Categorization under Weak Supervision​ (...ARISE analytics
122 views24 Folien
教師なしGNNによるIoTデバイスの異常通信検知の検討 von
教師なしGNNによるIoTデバイスの異常通信検知の検討教師なしGNNによるIoTデバイスの異常通信検知の検討
教師なしGNNによるIoTデバイスの異常通信検知の検討ARISE analytics
1K views21 Folien
【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri... von
【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri...【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri...
【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri...ARISE analytics
574 views18 Folien

Más de ARISE analytics(18)

【論文レベルで理解しよう!】​ 欠測値処理編​ von ARISE analytics
【論文レベルで理解しよう!】​ 欠測値処理編​【論文レベルで理解しよう!】​ 欠測値処理編​
【論文レベルで理解しよう!】​ 欠測値処理編​
ARISE analytics83 views
【論文レベルで理解しよう!】​ 大規模言語モデル(LLM)編​ von ARISE analytics
【論文レベルで理解しよう!】​ 大規模言語モデル(LLM)編​【論文レベルで理解しよう!】​ 大規模言語モデル(LLM)編​
【論文レベルで理解しよう!】​ 大規模言語モデル(LLM)編​
ARISE analytics112 views
【論文読み会】Signing at Scale: Learning to Co-Articulate Signs for Large-Scale Pho... von ARISE analytics
【論文読み会】Signing at Scale: Learning to Co-Articulate  Signs for Large-Scale Pho...【論文読み会】Signing at Scale: Learning to Co-Articulate  Signs for Large-Scale Pho...
【論文読み会】Signing at Scale: Learning to Co-Articulate Signs for Large-Scale Pho...
ARISE analytics183 views
Hierarchical Metadata-Aware Document Categorization under Weak Supervision​ (... von ARISE analytics
Hierarchical Metadata-Aware Document Categorization under Weak Supervision​ (...Hierarchical Metadata-Aware Document Categorization under Weak Supervision​ (...
Hierarchical Metadata-Aware Document Categorization under Weak Supervision​ (...
ARISE analytics122 views
教師なしGNNによるIoTデバイスの異常通信検知の検討 von ARISE analytics
教師なしGNNによるIoTデバイスの異常通信検知の検討教師なしGNNによるIoTデバイスの異常通信検知の検討
教師なしGNNによるIoTデバイスの異常通信検知の検討
ARISE analytics1K views
【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri... von ARISE analytics
【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri...【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri...
【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri...
ARISE analytics574 views
【論文読み会】Analytic-DPM_an Analytic Estimate of the Optimal Reverse Variance in D... von ARISE analytics
【論文読み会】Analytic-DPM_an Analytic Estimate of the Optimal Reverse Variance in D...【論文読み会】Analytic-DPM_an Analytic Estimate of the Optimal Reverse Variance in D...
【論文読み会】Analytic-DPM_an Analytic Estimate of the Optimal Reverse Variance in D...
ARISE analytics464 views
【論文読み会】Autoregressive Diffusion Models.pptx von ARISE analytics
【論文読み会】Autoregressive Diffusion Models.pptx【論文読み会】Autoregressive Diffusion Models.pptx
【論文読み会】Autoregressive Diffusion Models.pptx
ARISE analytics5.3K views
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx von ARISE analytics
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx
ARISE analytics552 views
【論文読み会】PiCO_Contrastive Label Disambiguation for Partial Label Learning.pptx von ARISE analytics
【論文読み会】PiCO_Contrastive Label Disambiguation for Partial Label Learning.pptx【論文読み会】PiCO_Contrastive Label Disambiguation for Partial Label Learning.pptx
【論文読み会】PiCO_Contrastive Label Disambiguation for Partial Label Learning.pptx
ARISE analytics494 views
【論文読み会】Deep Reinforcement Learning at the Edge of the Statistical Precipice von ARISE analytics
【論文読み会】Deep Reinforcement Learning at the Edge of the Statistical Precipice【論文読み会】Deep Reinforcement Learning at the Edge of the Statistical Precipice
【論文読み会】Deep Reinforcement Learning at the Edge of the Statistical Precipice
ARISE analytics698 views
【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3) von ARISE analytics
【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)
【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)
ARISE analytics2.7K views
【論文読み会】On the Expressivity of Markov Reward von ARISE analytics
【論文読み会】On the Expressivity of Markov Reward【論文読み会】On the Expressivity of Markov Reward
【論文読み会】On the Expressivity of Markov Reward
ARISE analytics583 views
【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds von ARISE analytics
【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds
【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds
ARISE analytics699 views
Counterfaual Machine Learning(CFML)のサーベイ von ARISE analytics
Counterfaual Machine Learning(CFML)のサーベイCounterfaual Machine Learning(CFML)のサーベイ
Counterfaual Machine Learning(CFML)のサーベイ
ARISE analytics29.7K views
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features von ARISE analytics
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
ARISE analytics7.8K views
【論文読み会】Self-Attention Generative Adversarial Networks von ARISE analytics
【論文読み会】Self-Attention Generative  Adversarial Networks【論文読み会】Self-Attention Generative  Adversarial Networks
【論文読み会】Self-Attention Generative Adversarial Networks
ARISE analytics5.3K views
【論文読み会】Universal Language Model Fine-tuning for Text Classification von ARISE analytics
【論文読み会】Universal Language Model Fine-tuning for Text Classification【論文読み会】Universal Language Model Fine-tuning for Text Classification
【論文読み会】Universal Language Model Fine-tuning for Text Classification
ARISE analytics1.9K views

【論文読み会】MAUVE: Measuring the Gap Between Neural Text and Human Text using Divergence Frontiers

  • 1. MAUVE: Measuring the Gap Between Neural Text and Human Text using Divergence Frontiers Customer Analytics Division 奥井 恒 2022/03/10
  • 2. 目次 ©2022 ARISE analytics Reserved. 1 1. 導入 2. MAUVE 3. 実験 4. まとめ
  • 3. 背景・目的 ©2022 ARISE analytics Reserved. 2 最近の大規模テキスト生成モデルは、顕著な品質と一貫性を持つ人間のようなテキストを 生成する能力を示している。 AIが高度な日本語文章を自動で生成 りんなのrinna社、日本語GPT-2/BERTの事前学習モデルを開発 GitHub等で公開 - ロボスタ (robotstart.info) 機械が生成したテキストは、人間が生成したテキストにどのくらい近いのか? 自然言語処理モデル「GPT-3」の紹介 | NTTデータ先端技術株式会社 (intellilink.co.jp)
  • 4. 未解決問題 ©2022 ARISE analytics Reserved. 3 機械が生成したテキストが人間が生成したテキストに対して、どれだけ近いかを測定する方 法は確立していない。 機械生成テキストの評価を定量化することは困難 (テキスト分布は高次元で離散的で、サンプルや効果のモデル評価を通してのみアクセスできるため) To-Be 現在のゴールドスタンダードは 人間による評価 自動・定量的に評価できる 指標が欲しい。。。 As-Is
  • 5. ©2022 ARISE analytics Reserved. 4 1. 導入 2. MAUVE 3. 実験 4. まとめ
  • 6. MAUVE:概要 ©2022 ARISE analytics Reserved. 5 ※ 個人の所感。 MAUVEは人間が生成したテキストと機械が生成したテキストの分布を比較することで、客 観的な言語生成モデルの性能を評価する。 人間が生成したテキストと機械が生成したテキスト の分布を比較 情報量曲線下の分布をMAUVEとする。 (PR曲線のAUCを出すのと同じノリ ※) Track: Oral Session 1: Deep Learning (neurips.cc)より引用 論文より引用
  • 7. 2種類のエラー ©2022 ARISE analytics Reserved. 6 人間が生成したテキストの分布をP、機械が生成したテキストの分布をQとするとき、2種類 のエラーがある。 Type I error : Q(機械)では確率が高いが、P(人間)では確率が低い場合のエラー Type II error : P(人間)では確率が高いが、Q(機械)では確率が低い場合のエラー 論文より引用
  • 8. MAUVE ©2022 ARISE analytics Reserved. 7 情報量曲線の c (c>0) は、スケーリングのためのハイパーパラメータ KL情報量によってエラーを表現し、情報量曲線下の面積をMAUVEとする。 Track: Oral Session 1: Deep Learning (neurips.cc) より引用 MAUVE:曲線下の面積(0~1の値)を算出 𝑅𝜆 = 𝜆 𝑃 + 1 − 𝜆 𝑄, 𝜆 ∈ (0,1) KL(Q|P), KL(P|Q)とすると、∞になる可 能性があるため、混合Rを定義 Type I error : Q(機械)では確率が高いが、P(人間)では確率が低い場合のエラー Type II error : P(人間)では確率が高いが、Q(機械)では確率が低い場合のえラー 𝐶 = exp(−𝑐 KL(𝑄|𝑅𝜆)) , exp(−𝑐 KL(𝑃|𝑅𝜆)) 情報量曲線
  • 9. ©2022 ARISE analytics Reserved. 8 1. 導入 2. MAUVE 3. 実験 4. まとめ
  • 10. 実験: ©2022 ARISE analytics Reserved. 9 3つの実験を通して、MAUVEの性能が検証できた。 データセット タスク 文脈xが与えられたとき、後続のテキストを生成 正解:真の確率分布Pからのサンプル 競合:機械による生成分布Qからのサンプル 実験 実験①:生成する文章の長さ、デコードアルゴリズム、モデルサイズの違いを見る 実験②:埋め込みモデルM(x)と量子化アルゴリズムの違いを見る 実験③:人間の評価との相関を見る 論文より引用
  • 11. 実験① ~生成する文章の長さ~ ©2022 ARISE analytics Reserved. 10 ※ 既知の性質:生成するテキストが長くなると、支離滅裂になる。 生成の長さによる品質の違いを定量化した。MAUVEは既知の性質※を示す挙動をした。 他の指標は好ましくない傾向を示している。 フレシェ距離 世代パープレキシティ スパースマックススコア
  • 12. 実験① ~デコードアルゴリズム、モデルサイズの違い~ ©2022 ARISE analytics Reserved. 11 デコードアルゴリズムの品質、モデルサイズによる品質においても望ましい傾向を示している。 Greedy < Ancestral < Nucleusと なるのが理想らしい。 モデルサイズが大きくなるにつれて 良くなるのが理想。 デコードアルゴリズムによる品質の違い モデルサイズによる品質の違い 論文より引用 論文より引用
  • 13. 実験② ©2022 ARISE analytics Reserved. 12 量子化についても、k-means, DRMM (Deep Residual Mixture Models), 格子量子化の三つの量子 化を試してみたが、結果は大きく変わらなかったらしい。 埋め込みモデル、定数を変えてみても、性質に大きな違いは見られなかった。 埋め込みモデルによる品質の違い RoBERTaとGPT2は似た傾向を示す。 cの選択は曲線の相対的な順序に影響しない。 定数cによる違い 𝐶 = exp(−𝑐 KL(𝑄|𝑅𝜆)) , exp(−𝑐 KL(𝑃|𝑅𝜆))
  • 14. 実験③ ©2022 ARISE analytics Reserved. 13 MAUVEは人間の評価とよく相関している。 様々な類似性尺度が利用可能な場合の人間の判断との相関 MAUVEは良い性質を持ちつつ、人間に近い評価ができていることがわかった。 論文より引用
  • 15. 利用方法 ©2022 ARISE analytics Reserved. 14 人間が生成したテキストと機械が生成したテキストを入れると、MAUVE(0~1の値)が 算出される。 Github krishnap25/mauve: Package to compute Mauve, a similarity score between neural text and human text. Install with `pip install mauve-text`. (github.com) and krishnap25/mauve-experiments (github.com) Input Output (0~1の値) Track: Oral Session 1: Deep Learning (neurips.cc)
  • 16. ©2022 ARISE analytics Reserved. 15 1. 導入 2. MAUVE 3. 実験 4. まとめ
  • 17. まとめ ©2022 ARISE analytics Reserved. 16 論文サマリーの内容 • テキスト生成において、人間が作成したテキストと機械が作成したテキストがどれだけ近いのかを評価するための定量的 な指標を提案している。 • 人間の判断と相関もあり、先行研究による指標では捉えにくい、生成長・デコードアルゴリズム・モデルサイズによる品質 の違いも特定できた。 • 今後は、MAUVEを要約や翻訳などの特定タスクでの評価に使用できるか検討していきたいらしい。
  • 18. Best Partner for innovation, Best Creator for the future.
  • 19. References ©2022 ARISE analytics Reserved. 18 • Paper MAUVE: Measuring the Gap Between Neural Text and Human Text using Divergence Frontiers | OpenReview • Video in NeurIPS2021 Track: Oral Session 1: Deep Learning (neurips.cc) • Github • krishnap25/mauve: Package to compute Mauve, a similarity score between neural text and human text. Install with `pip install mauve-text`. (github.com) • krishnap25/mauve-experiments (github.com)
  • 20. おまけ ©2022 ARISE analytics Reserved. 19 (機械が生成する確率が低いテキストの)例で出ていた内容について調べてみた。 ウトキアグヴィク - Wikipedia 春の訪れを祝うお祭りらしい。 Nuchalawoyya - YouTube