Dataset cartography mapping and diagnosing datasets with training dynamics

Dataset Cartography:
Mapping and Diagnosing Datasets
with Training Dynamics
2020/10/19
1

背景・目的
関連研究
Information
Dataset Cartography: Mapping and Diagnosing
Datasets with Training Dynamics
Swayamdipta, S.1, Schwartz, R. 2, Lourie, N. 1,
Wang, Y. 3, Hajishirzi, H. 3, Smith, N. A. 3, & Choi, Y. 3
1: Allen Institute for Artificial Intelligence, Seattle
2: The Hebrew University of Jerusalem, Israel
3: Paul G. Allen School of Computer Science & Engineering, University of Washington, Seattle
https://arxiv.org/pdf/2009.10795.pdf
https://github.com/allenai/cartography
2
Allen AI は OSS の活動で有名

背景・目的
関連研究
【背景・目的】
• 大規模なデータセットの利用が盛んとなる
一方，データの質の保持は困難に・・・
• データセットの性格や質を簡単に分析したい
3
【概要】
epoch 毎の予測の変化を見ることで各 instance に対する
confidence, variability を定義し，可視化・分析
【感想】
手法は誰でも一度は思いつくレベルだが
直感的に自明であることをどう分析するか
は参考になる
【分析項目】
◆ 3 regions への大まかな分類
easy-to-learn, ambiguous, hard-to-learn
◆ Ｄata selection
◆ Easy-to-Learn instance の影響
◆ Mislabeled example の検知
◆ Uncertainty との関係性
✓ Confidence: epoch を跨いだ予測確率
✓ Variability: epoch を跨いだ予測のばらつき

背景・目的
関連研究
提案手法の目的
4
何を知りたいか
In- and Out-Of-Distribution (OOD) の関係や影響
◆サンプルは学習・予測に対して均一に貢献しない[1]
◆Pre-trained model は IOD, OOD の GAP を緩和[2]
Pre-trained model を用いたモデルベースの分析により
自動的に（容易に）モデル・データセットの両性質を把握
➢ 今回は NLP なので，ROBERTa を使用
BERT の Next Sentence Prediction なし
➢ Out-of-Distribution がかなり少ない
supervised な学習を挟んでおらずとも
関連した情報は含まれているはず

提案手法
実験
関連研究
提案手法：概要（分析含む）
5
1. Training Dynamics
Epoch 毎の学習精度から2軸を抽出，可視化
2. 重要なのは可視化の後，何を見るか
3 regions への大まかな分類
◆easy-to-learn
◆ambiguous
◆hard-to-learn
あくまで人による分析
⇒ +𝛼 で何がわかるか

背景・目的
関連研究
何を見るか
◆Ｄata selection
3 regions のうち，1つの region だけ集めると？
◆Easy-to-Learn instance の影響
Easy-to-Learn はどの程度必要か
◆Mislabeled example の検知
怪しいラベル，間違ったラベルを検知できるか
◆Uncertainty との関係性
confidence, variability はどのように関係するか
6
クラスタリングや異常検知に近い点が多い
⇒ そもそも議論対象が難しく，主観的になりやすい

提案手法
実験
関連研究
提案手法： Training Dynamics
✓ Confidence: epoch を跨いだ予測確率
ො
𝜇𝑖 =
1
𝐸
σ𝑒=1
𝐸
𝑝𝜽 𝑒 (𝑦𝑖
∗
|𝒙𝑖)
✓ Variability: epoch を跨いだ予測のばらつき
ො
𝜎𝑖 =
σ𝑒=1
𝐸 𝑝𝜽 𝑒 𝑦𝑖
∗
𝒙𝑖 −ෞ
𝜇𝑖
2
𝐸
𝑁: training dataset size, 𝒟 = 𝒙, 𝑦∗
𝑖 𝑖=1
𝑁
,
𝑥𝑖: 𝑖 番目の instance, 𝑦𝑖
∗
: 𝑖 番目の true label
𝐸: 𝑒𝑝𝑜𝑐ℎ ※ step への置き換えや early stopping も化
7
sampling ⇒ 予測確率（softmax 値）

提案手法
実験
関連研究
提案手法： Data Maps
あくまで相対的に見て
Easy-, Hard-to-Learn を定義
⇒ 結局，正解がわからん
8
※論文中では，appendix を含めて4つ
SNLI[3] の Data Map
残念な点：特にグループ化（閾値）の議論がない
2つのデータセット（※）について可視化し分析
Confidence, variability に加え
学習過程での正解率を
plot することでグループを確認

実験
まとめ
提案手法
実験設定
モデル
◆Bag-of-Words, eSim
◆LSTM, BERT, RoBERTa[3]
9
データセット In-, Out- の区切りも気になる所

提案手法
実験
関連研究
Data Maps
10
SNLI[4] の Data Map WinoGrande[5] の Data Map
データセットの比較： Hrad-to-Learn の密度が異なる

提案手法
実験
関連研究
Data Maps
11
SNLI における RoBERTa SNLI における LSTM
モデルの比較：モデルサイズで variability が変化？

背景・目的
関連研究
具体例を見ると
WinoGrade の場合
12
橙： global standard
正解ラベル
青： correct+
ラベルエラー？
緑： equaly plausible
文章的にはどちらでも良い
文章中の情報から
導けない答えが存在

実験
まとめ
提案手法
Data Selection using Data Maps
データセットの33%使って学習し，test を予測
⇒ 精度の向上に必要な instance を取得可能か
13
Ambiguous から
収集するのがベスト
⇒ ambiguous だけでよい？
100%学習したものが
最高精度ではない
⇒ 他のデータでも同様

実験
まとめ
提案手法
Role of Easy-to-Learn
Easy-to-Learn の効果を確かめるために3つ実験
（左，中）ambiguous の割合を調整して学習
（右）ambiguous に対して Easy-to-Learn の割合を増加
14
Ambiguous だけでも学習できるが
学習量が少ないと精度は低下
Easy-to-Learn の割合次第で
Top(best score) を上回る

実験
まとめ
提案手法
Detecting Mislabeled Examples
クラウドソースによるデータセットはミスラベルを含有
⇒ 誤ったラベルの学習は汎化性能を低下[]
15
実際に，1%のノイズを含めることで，学習が不安定に
安定していた instance の
評価も大きく変化
Confidence を特徴量としてミスラベルを検知（2値分類）
ノイズ率（1%, 4,039/49,399） ⇒ 13個をノイズと判定
ノイズ率（33%, 50/155) ⇒ 67%をノイズと判定
あまり意味のない実験に思うが

実験
まとめ
提案手法
Training Dynamics as Uncertainty Measures
Uncertainty について検証
➢Intrinsic uncertainty: instance に由来
➢Model uncertainty: model に由来 ⇒ variability
16
Human agreement:
Annotator 内での一致度
⇒ confidence と強い関連
Intrinsic uncertainty に該当？
論文では触れられていないが
variability が高いと human
agreement の推定も困難に？

関連研究
提案手法
背景・目的
関連研究１
◆ Xing ら[7]
➢ 着目点： SGD による最適化の loss の軌跡
➢ 分析項目：バッチサイズに起因するノイズ
◆ Toneva ら[8]: forgetting
➢ 着目点：数 epoch 後に忘れられる ‘forgotten’ instance
➢ 分析項目： training set に含む instance の影響
◆ LeBras ら[9]: AFLite
➢ 着目点：単純な分類器の ensemble による予測可能性
➢ 分析項目： dataset がもつ bias によるモデルの過大評価
17
LeBras らやその他の研究ではEasy-to-Learn は除くべきと主張
WinoGrande[5] で始めて提案

関連研究
提案手法
背景・目的
関連研究２
◆ Joshi ら[10]: AL-uncertainty
➢ 着目点： SVM (margin based model) における不確かさ
➢ 分析項目： active learning での効用
◆ Sener and Savarese ら[11]: AL-greedyK
➢ 着目点：データ集合の中における k 個の center （≈cluster）
と各 center のデータ集合全体への影響度
➢ 分析項目： active learning に効果的な部分集合
18
同様の視点から adversarial （データに誤りのある）シナリオでの
学習安定化・精度向上とも関連があるそう

参考文献
まとめ
参考文献１
[1] Kailas Vodrahalli, Ke Li, and Jitendra Malik. 2018. Are all training
examples created equal? an empirical study. ArXiv:1811.12569.
[2] Dan Hendrycks, Xiaoyuan Liu, Eric Wallace, Adam Dziedzic, Rishabh
Krishnan, and Dawn Song. 2020. Pretrained transformers improve out-of-
distribution robustness. ArXiv preprint arXiv:2004.06100.
[3] Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar S. Joshi, Danqi
Chen, Omer Levy, Mike Lewis, Luke S. Zettlemoyer, and Veselin Stoyanov.
2019. RoBERTa: A robustly optimized BERT pretraining approach.
ArXiv:1907.11692.
[4] Samuel R. Bowman, Gabor Angeli, Christopher Potts, and Christopher D.
Manning. 2015. A large annotated corpus for learning natural language
inference. In Proceedings of the 2015 Conference on Empirical Methods in
Natural Language Processing, pages 632–642, Lisbon, Portugal.
Association for Computational Linguistics.
[5] Keisuke Sakaguchi, Ronan Le Bras, Chandra Bhagavatula, and Yejin Choi.
2020. Winogrande: An adversarial winograd schema challenge at scale. In
AAAI.
19

参考文献
まとめ
参考文献２
[6] Wei Hu, Zhiyuan Li, and Dingli Yu. 2020. Simple and effective
regularization methods for training on noisily labeled data with
generalization guarantee. In ICLR. OpenReview.net.
[7] Chen Xing, Devansh Arpit, Christos Tsirigotis, and Yoshua Bengio. 2018.
A walk with SGD.
[8] Mariya Toneva, Alessandro Sordoni, Remi Tachet des Combes, Adam
Trischler, Yoshua Bengio, and Geoffrey J Gordon. 2018. An empirical study
of example forgetting during deep neural network learning. In ICLR.
[9] Ronan LeBras, Swabha Swayamdipta, Chandra Bhagavatula, Rowan
Zellers, Matthew E. Peters, Ashish Sabharwal, and Yejin Choi. 2020.
Adversarial filters of dataset biases. In ICML.
[10] Ajay J Joshi, Fatih Porikli, and Nikolaos Papanikolopoulos. 2009. Multi-
class active learning for image classification. In CVPR, pages 2372– 2379.
IEEE.
[11] Ozan Sener and Silvio Savarese. 2018. Active learning for
convolutional neural networks: A core-set approach. In ICLR.
20

Dataset cartography mapping and diagnosing datasets with training dynamics

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Ähnlich wie Dataset cartography mapping and diagnosing datasets with training dynamics

Ähnlich wie Dataset cartography mapping and diagnosing datasets with training dynamics (17)

Mehr von 禎晃山崎

Mehr von 禎晃山崎 (8)