Diese Präsentation wurde erfolgreich gemeldet.
Wir verwenden Ihre LinkedIn Profilangaben und Informationen zu Ihren Aktivitäten, um Anzeigen zu personalisieren und Ihnen relevantere Inhalte anzuzeigen. Sie können Ihre Anzeigeneinstellungen jederzeit ändern.

MixMatch: A Holistic Approach to Semi- Supervised Learning

3.752 Aufrufe

Veröffentlicht am

半教師あり学習の手法であるMixMatchを提案。これまでの半教師あり学習のアプローチをひとまとめにした。Cifar-10(250label)のエラー率を38%から11%まで改善。

Veröffentlicht in: Technologie
  • Login to see the comments

MixMatch: A Holistic Approach to Semi- Supervised Learning

  1. 1. MixMatch: A Holistic Approach to Semi- Supervised Learning 05/20 神戸瑞樹 Nicholas Carlini Google Research ncarlini@google.com Ian Goodfellow Work done at Google ian-academic@mailfence.com Avital Oliver Google Research avitalo@google.com Nicolas Papernot Google Research papernot@google.com Colin Raffel Google Research craffel@google.com David Berthelot Google Research dberth@google.com https://arxiv.org/pdf/1905.02249.pdf
  2. 2. 概要 • 半教師あり学習の手法であるMixMatchを提案 • これまでの半教師あり学習のアプローチをひとまと めにした • CIFAR-10(250label)のエラー率を38%から11% に 2
  3. 3. 半教師あり学習 • ラベル付きの画像を大量に用意することは困難 • 画像だけなら比較的容易 • 少量のラベル付き画像と大量のラベルなし画像 から学習する • 半教師あり学習のロス • Entropy loss • Consistency loss • Regularization loss 3
  4. 4. Consistency loss • 同じ画像に違うノイズを加えてその差をなくす • VAT • Adversarial exampleで使うノイズを加える • Mean teacher • ノイズは同じだけどモデルの片方の重みを移動指数 を用いたものにする 4
  5. 5. Entropy loss • モデルの出力をラベルなし画像のラベルとする • Pseudo-Label • VAT 5 Regularization loss • 普通の正則化 • L2 loss • Mix up
  6. 6. Mix up 6 • 2つのデータに対して、ラベルとデータの双方 を線形補間してデータを増やす • 半教師あり学習で画像のみ増やすのに使う場合 もある http://wazalabo.com/mixup_1.html より https://arxiv.org/pdf/1903.03825.pdf より
  7. 7. MixMatch • ラベルなしにK通りのaugmentationを行って平 均を取った後sharpenしたものを擬似ラベルに • ラベルと疑似ラベルを混ぜてMixup 7
  8. 8. Sharpen • ラベルの分布のエントロピーを小さくする • 温度T→0でワンホットに近づく 8
  9. 9. Mix up • 一回は必ず近い方になるようにmax() 9
  10. 10. MixMatchアルゴリズム 10
  11. 11. Loss function • L:class数 11
  12. 12. ハイパーパラメータ • ハイパーパラメータが多く存在 • T(sharpenの温度), • K(ラベルなしのaugmentation数) • α(Mixupにおけるベータ分布のパラメータ) • λU (半教師の重み) • それでも、殆どが固定値で良い精度になる • T = 0.5 , K = 2で固定 • α=0.75, λU =100から探索 12
  13. 13. 実験 • Wide Resnet-28を使用 • 2^16のサンプルごとにモデル保存 • 最後の20個のモデルにおける精度の平均をレ ポート • バリデーションで最も低いエラー率のものを使 用するなどでもっと良い精度になるかも 13
  14. 14. Cifar-10への適用 • α=0.75, λU=75 • ラベル数を250から 4000まで変化 • 250labelでエラー率が 11.08%まで改善(次 点でVATの36.03%) • 250labelで他の手法の 4000labelと同程度 14
  15. 15. SVHNへの適用 • α=0.75, λU=250 • ラベル数を250から 4000まで変化 • 250labelでエラー率 3.78% 15
  16. 16. STL-10への適用 • 10class • 96*96のカラー画像 • 各クラス訓練500、テスト800 • 100000のラベルなし画像 • 画像はimagenetから • α=0.75, λU=50 16
  17. 17. Ablation Study • 各要素を足したり消したりしてその影響を調査 • Cifar-10 の250label、4000labelで調査 17
  18. 18. まとめ • 半教師あり学習の手法であるMixMatchを提案 • これまでの半教師あり学習のアプローチをひとまと めにした • CIFAR-10(250label)のエラー率を11%に • 半教師あり学習は画像でばかり評価されている ので、他のドメインでも試したい 18

×