Diese Präsentation wurde erfolgreich gemeldet.
Wir verwenden Ihre LinkedIn Profilangaben und Informationen zu Ihren Aktivitäten, um Anzeigen zu personalisieren und Ihnen relevantere Inhalte anzuzeigen. Sie können Ihre Anzeigeneinstellungen jederzeit ändern.

Not all unlabeled data are equal

833 Aufrufe

Veröffentlicht am

通常,半教師あり学習ではラベルなしデータに対して一様な重みで学習を行います.しかし,ラベルなしのデータはイコールではありません.例えば,推定を間違えている場合などはそのデータは悪影響を与えることになります.そこで,この論文では個々のラベルなしデータに対する重みを学習する方法を提案しています.ラベルなしデータの重みを固定して,トレーニングデータを用いてモデルパラメータを更新することと,モデルパラメータを固定して,バリデーションデータを用いてラベルなしデータの重みを更新することを繰り返します.既存の半教師あり学習の手法に組み込むことで,精度が向上することが確認されました.

Veröffentlicht in: Technologie
  • Als Erste(r) kommentieren

  • Gehören Sie zu den Ersten, denen das gefällt!

Not all unlabeled data are equal

  1. 1. Not All Unlabeled Data are Equal: Learning to Weight Data in Semi-supervised Learning 2020/09/22 神戸瑞樹 Zhongzheng Ren∗ , Raymond A. Yeh∗ , Alexander G. Schwing University of Illinois at Urbana-Champaign {zr5, yeh17, aschwing}@illinois.edu ∗ Indicates equal contribution https://arxiv.org/abs/2007.01293
  2. 2. 概要 • 通常、半教師あり学習でラベルなしは一様の重 みで学習 • 個々のデータの重みを自動で決定する手法を提 案 • 有意に精度を向上 2
  3. 3. Introduction • ラベルなしデータは教師なし学習のコストを下げる • 特にアノテーションコストが高い場面で • 生物医学など専門知識が必要な分野 • 動画に細かくつけるなら何フレームも見る必要がある • 一般的にラベルなしデータは同一の重みで学習 • ラベルなしのデータはイコールではない • 推定を間違えてたら悪影響 • 個別に重み付けする方法を検討する • 影響関数を用いる • 影響関数はラベルなしデータの重要度を推測 • 個別の重み付けは計算コストがでかい • 計算量を抑える工夫 • 効率的な勾配計算のアルゴリズム • ディープネットの影響関数に特化した効果的な近似法 3
  4. 4. 半教師あり学習 • ラベル付きのデータを大量に用意することは困難 • データだけなら比較的容易 • 少量のラベル付きデータと大量のラベルなしデー タから学習する • 半教師あり学習のロス • Entropy loss • Consistency loss • Regularization loss 4
  5. 5. 半教師あり学習 • ラベルありのロス(教師あり)とラベルなしのロ スの線形和を最小化 • ラベルありのロス • クロスエントロピーなど • ラベルなしのロス • Consistency loss など • 同じデータに違うノイズを加えても同じ出力になるようにする 5
  6. 6. 影響関数 • モデルが特定の訓練データにどれだけ依存して いるかを測定 6
  7. 7. 個別の重み付け • 手動やグリッドサーチでは無理 • 重みを学習するためのアルゴリズムを設計 • 2段階の最適化問題として形式化される • Λ:ラベルなしデータの重みの集合 • θ:モデルの重み • Λを固定したときにトレーニングロスを最小化する θを探索 • θを固定したときにバリデーションロスを最小化す るΛを探索 7
  8. 8. 最適化 • モデルの重みθの更新 • ラベルなしの重みΛの更新 • は以下の式で近似するとうまくいくことが多い • ここで、 は影響関数を使って近似されている • ただ、ディープネットでこれを使うのは厳しい • 各データの勾配の評価と高次元ヘシアンの逆行列が必要 8 Hはヘシアン
  9. 9. 最適化アルゴリズム 9
  10. 10. 個々のデータの勾配計算 • バックプロパゲーションでは、個々の勾配では なくミニバッチでの統計量を使っている • 素朴な解決策はバッチサイズを1にすることだが、 遅すぎる • 標準の自動微分ツールでは各データに対して layer activation h 𝑢の勾配を保存 • このとき、モデルパラメータθに対する勾配は • を保存しておけば、 を通常のバック プロパゲーションで計算すればいい 10
  11. 11. 影響関数の近似 • 最終層だけが学習可能であると仮定して、近似 を行う • θ全てでなく最終層のθだけを対象としてヘシアン を計算 • 次元が小さくなるので楽に計算できる 11
  12. 12. 実験(決定境界の学習) • ラベルつきは10、ラベルなしは1000 • 全結合層で学習 12
  13. 13. 実験(決定境界の学習) • 境界の近くだが、間違っているものの重みが最も小さくなる • 繰り返すとそこの境界が移動する 13
  14. 14. 画像分類 • 今までの半教師に組み込むことで精度向上 14
  15. 15. テキスト分類 • IMDbデータセット • 映画レビューのデータセット • 訓練:25k、テスト:25k、ラベルなし:50k 15
  16. 16. 単一の重みと比較 • 個別の重みにしたほうが良い精度 • 全てのデータはイコールでない 16
  17. 17. バリデーションサイズ • バリデーションを使って重みを更新してる • バリデーションサイズは重要 • バリデーションサイズが大きくなるほど性能向上 17
  18. 18. まとめ • 半教師あり学習において、ラベルなしの個々の データの重みを自動で決定する手法を提案 • 既存の半教師あり学習に組み込むことが出来る • 画像分類、テキスト分類で精度向上 18

×