MixMatch: A Holistic Approach to Semi- Supervised Learning

•

4 gefällt mir•8,751 views

harmonylab

半教師あり学習の手法であるMixMatchを提案。これまでの半教師あり学習のアプローチをひとまとめにした。Cifar-10（250label）のエラー率を38%から11%まで改善。

Technologie

MixMatch: A Holistic Approach to Semi-
Supervised Learning
05/20
神戸瑞樹
Nicholas Carlini
Google Research
ncarlini@google.com
Ian Goodfellow
Work done at Google
ian-academic@mailfence.com
Avital Oliver
Google Research
avitalo@google.com
Nicolas Papernot
Google Research
papernot@google.com
Colin Raffel
Google Research
craffel@google.com
David Berthelot
Google Research
dberth@google.com
https://arxiv.org/pdf/1905.02249.pdf

概要
• 半教師あり学習の手法であるMixMatchを提案
• これまでの半教師あり学習のアプローチをひとまと
めにした
• CIFAR-10(250label)のエラー率を38％から11％
に
2

半教師あり学習
• ラベル付きの画像を大量に用意することは困難
• 画像だけなら比較的容易
• 少量のラベル付き画像と大量のラベルなし画像
から学習する
• 半教師あり学習のロス
• Entropy loss
• Consistency loss
• Regularization loss
3

Consistency loss
• 同じ画像に違うノイズを加えてその差をなくす
• VAT
• Adversarial exampleで使うノイズを加える
• Mean teacher
• ノイズは同じだけどモデルの片方の重みを移動指数
を用いたものにする
4

Entropy loss
• モデルの出力をラベルなし画像のラベルとする
• Pseudo-Label
• VAT
5
Regularization loss
• 普通の正則化
• L2 loss
• Mix up

Mix up
6
• 2つのデータに対して、ラベルとデータの双方
を線形補間してデータを増やす
• 半教師あり学習で画像のみ増やすのに使う場合
もある
http://wazalabo.com/mixup_1.html より
https://arxiv.org/pdf/1903.03825.pdf より

MixMatch
• ラベルなしにK通りのaugmentationを行って平
均を取った後sharpenしたものを擬似ラベルに
• ラベルと疑似ラベルを混ぜてMixup
7

Sharpen
• ラベルの分布のエントロピーを小さくする
• 温度T→0でワンホットに近づく
8

ハイパーパラメータ
• ハイパーパラメータが多く存在
• T(sharpenの温度),
• K（ラベルなしのaugmentation数）
• α（Mixupにおけるベータ分布のパラメータ）
• λU （半教師の重み）
• それでも、殆どが固定値で良い精度になる
• T = 0.5 , K = 2で固定
• α=0.75, λU =100から探索
12

実験
• Wide Resnet-28を使用
• 2^16のサンプルごとにモデル保存
• 最後の20個のモデルにおける精度の平均をレ
ポート
• バリデーションで最も低いエラー率のものを使
用するなどでもっと良い精度になるかも
13

Cifar-10への適用
• α=0.75, λU=75
• ラベル数を250から
4000まで変化
• 250labelでエラー率が
11.08%まで改善（次
点でVATの36.03％）
• 250labelで他の手法の
4000labelと同程度
14

SVHNへの適用
• α=0.75, λU=250
• ラベル数を250から
4000まで変化
• 250labelでエラー率
3.78％
15

STL-10への適用
• 10class
• 96*96のカラー画像
• 各クラス訓練500、テスト800
• 100000のラベルなし画像
• 画像はimagenetから
• α=0.75, λU=50
16

Ablation Study
• 各要素を足したり消したりしてその影響を調査
• Cifar-10 の250label、4000labelで調査
17

まとめ
• 半教師あり学習の手法であるMixMatchを提案
• これまでの半教師あり学習のアプローチをひとまと
めにした
• CIFAR-10(250label)のエラー率を11％に
• 半教師あり学習は画像でばかり評価されている
ので、他のドメインでも試したい
18

Weitere ähnliche Inhalte

Was ist angesagt?

[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing

Deep Learning JP

【DL輪読会】The Forward-Forward Algorithm: Some Preliminary

Deep Learning JP

[DL輪読会]A closer look at few shot classification

Deep Learning JP

[論文紹介] LSTM (LONG SHORT-TERM MEMORY)

Tomoyuki Hioki

[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...

Deep Learning JP

Noisy Labels と戦う深層学習

Plot Hong

Semi supervised, weakly-supervised, unsupervised, and active learning

Yusuke Uchida

[DL輪読会]ドメイン転移と不変表現に関するサーベイ

Deep Learning JP

Transformerを多層にする際の勾配消失問題と解決法について

Sho Takase

Curriculum Learning （関東CV勉強会）

Yoshitaka Ushiku

NLP コロキウム https://nlp-colloquium-jp.github.io/ で発表した際のスライドです。論文: https://arxiv.org/abs/2205.01954 GitHub: https://github.com/joisino/wordtour 概要単語埋め込みは現代の自然言語処理の中核技術のひとつで、文書分類や類似度測定をはじめとして、さまざまな場面で使用されていることは知っての通りです。しかし、ふつう埋め込み先は何百という高次元であり、使用する時には多くの時間やメモリを消費するうえに、高次元埋め込みを視覚的に表現できないため解釈が難しいことが問題です。そこで本研究では、【一次元】の単語埋め込みを教師なしで得る方法を提案します。とはいえ、単語のあらゆる側面を一次元で捉えるのは不可能であるので、本研究ではまず単語埋め込みが満たすべき性質を健全性と完全性という二つに分解します。提案法の WordTour は、完全性はあきらめ、健全性のみを課すことで一次元埋め込みを可能にし、それでいて、全ての、とまでは言わないまでも、いくつかの応用において有用な一次元埋め込みを得ることに成功しました。

Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...

joisino

Active Learning 入門

Shuyo Nakatani

Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料

Yusuke Uchida

【メタサーベイ】Vision and Language のトップ研究室/研究者

cvpaper. challenge

2017年1月21日開催の第8回ステアラボ人工知能セミナーにて講演する内容です。 https://stair.connpass.com/event/47714/ 【概要】スマートフォン/ウェブカメラの普及や動画共有サイトの登場により動画像を利用する機会は増加しているが、コンピュータビジョン分野において動画認識が活発に議論されるようになったのは2000年代になってからである。本講演では動画認識の現在に至るまでの一連の流れを紹介するとともに、将来展望においても議論する。【キーワード】コンピュータビジョン、動画認識、行動認識、モーション表現、時系列モデル、STIP、DT/IDT、Two-Stream CNN、TDD、TSN、ST-ResNet、行動予測、行動検出

【チュートリアル】コンピュータビジョンによる動画認識

Hirokatsu Kataoka

近年のHierarchical Vision Transformer

Yusuke Uchida

日本心理学会第83回大会のチュートリアル「機械学習と心理学との接点」での講演資料です。 word2vecの背後で使われているSkip-gramやCBoWのようなユークリッド空間での埋め込み手法を導入し、次いで、双曲空間のようなもっと構造を持った空間へ埋め込むことのメリットについて説明します。Poincaré Embeddingやh-MDSのような双曲空間への埋め込み手法も紹介しています。最後にさまざまな空間の積空間を考え、その空間自体を最適化することでデータの詳細な構造を捉えるという、という考え方を紹介します。

データに内在する構造をみるための埋め込み手法

Tatsuya Shirakawa

CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東)

Tenki Lee

【DL輪読会】ViT + Self Supervised Learningまとめ

Deep Learning JP

ResNetの仕組み

Kota Nagasato

Was ist angesagt? (20)

[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing

【DL輪読会】The Forward-Forward Algorithm: Some Preliminary

[DL輪読会]A closer look at few shot classification

[論文紹介] LSTM (LONG SHORT-TERM MEMORY)

[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...

Noisy Labels と戦う深層学習

Semi supervised, weakly-supervised, unsupervised, and active learning

[DL輪読会]ドメイン転移と不変表現に関するサーベイ

Transformerを多層にする際の勾配消失問題と解決法について

Curriculum Learning （関東CV勉強会）

Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...

Active Learning 入門

Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料

【メタサーベイ】Vision and Language のトップ研究室/研究者

【チュートリアル】コンピュータビジョンによる動画認識

近年のHierarchical Vision Transformer

データに内在する構造をみるための埋め込み手法

CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東)

【DL輪読会】ViT + Self Supervised Learningまとめ

ResNetの仕組み

Mehr von harmonylab

シフト勤務制の職場における従業員の急な欠勤は業務に支障をきたし，顧客などに対する信頼の失墜などにより，事業そのものに深刻な支障をきたす恐れがある．このような急な欠勤に対し，管理者は代わりの出勤を他の従業員に依頼し，代替出勤者の選定を行う必要がある．この代替出勤者の選定業務における従来手法では，代替出勤者の選定後に発生した勤務表制約違反を解消するために勤務表全体を再作成するアプローチがとられてきた．このアプローチは厳しい勤務表制約条件が課される病院のような職場では有効とされてきたが，管理者は再作成した勤務表を再度全従業員に周知する必要があり，従業員側からしても自分以外の従業員の欠勤により自身の勤務予定が変更される可能性があるため，欠勤者が多発する職場では扱いにくい．そのため欠勤者が多発する職場では，代替出勤を行っても勤務表制約条件に違反しない従業員を事前に割り出しておき，それらの従業員に対し代替出勤依頼を行う手法がとられている．この手法では管理者の従業員に対する依頼順が業務の安定性，管理者や従業員の負担に直結する．以上より本研究では管理者による従業員の代替出勤依頼の依頼順決定方法を提案し，代替出勤シミュレーターを構築して評価を行う．シミュレーターでは，従業員の休み希望のもと，複数の制約条件に基づき勤務表を作成し，勤務表上で確率的に欠勤を発生させ，管理者による代替出勤依頼をシミュレーションする．各従業員は管理者からの依頼に対し，確率的に可否を応答するものとする．本研究ではこのシミュレーター上で複数のパラメータセットに対し，従業員の受諾確率に基づいた方法，各従業員の代替出勤した回数に基づいた方法，代替出勤可能な日数に基づいた方法の提案、評価を行う．

【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究　　　千坂知也

harmonylab

本研究では，ドライバーの細街路に対する選好を考慮した経路探索における道路ネットワークの階層化手法を提案する．提案手法では，ネットワーク分析の中心性指標の一つである媒介中心性の高いノードを特定して，各階層の非連結なサブネットワークを連結する．提案手法の有効性を検証するために，複数のドライバーの細街路への選好を用意し，札幌市の中心市街14km四方の道路ネットワークを対象とした計算機実験をおこなう．提案手法および先行手法における経路探索にかかる計算時間と得られた経路のコストを比較した結果，提案手法の優位性が確認された．

【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究

harmonylab

This study focuses on addressing the challenges associated with decision-making in winter road snow removal operations, aiming to alleviate the burden on snow removal personnel. Specifically, we propose an approach to develop a system that collects and visualizes information on road snow conditions and weather data to support decision-making by personnel. Additionally, by sharing the collected information, we aim to facilitate the sharing of premonitions about changes in decision-making among snow removal personnel, reducing the need for physical inspections.We have validated the effectiveness of the system and confirmed its efficacy.

A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...

harmonylab

オーダーメイド服は個性を表現できる利点があるが、専門家以外は希望やこだわりが曖昧であったり、想像しているデザインの説明が難しかったりするために、デザインの注文が難しいという課題がある。そこで、印象タグを元に衣服画像を作成する、対話型の衣服画像生成システムの開発を行い、個人の好みを反映した衣服のデザイン画を専門家以外が作成する場合の支援を試みた。本研究ではシステムの構築を行い、性能評価として被験者に実際に操作してもらうことで、ユーザーの発想やデザインの伝達に関する支援が可能であることを示した。

【卒業論文】印象タグを用いた衣服画像生成システムに関する研究

harmonylab

マニュアルに記載する文章では，読み手が内容を素早く明確に理解できることが重要である．そのための文章表現の技術を習得することは容易ではない．本論文では，マニュアルに適する文章を作成する支援のために，入力文章にライティングルールを適用する文章変換の手法を提案する．結果として，ライティングルールに基づく修正箇所の指摘と，修正候補の文章の生成ができた．これによって，マニュアルに適した文章を書きやすくなる．

【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究

harmonylab

DLゼミ：Primitive Generation and Semantic-related Alignment for Universal Zero-S...

harmonylab

公開URL：https://openaccess.thecvf.com/content/CVPR2023/html/Vasu_MobileOne_An_Improved_One_Millisecond_Mobile_Backbone_CVPR_2023_paper.html 出典：Vasu, Pavan Kumar Anasosalu, et al.: MobileOne: An Improved One Millisecond Mobile Backbone, Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (2023) 概要：モバイル端末向けのニューラルネットワークは多くの場合、FLOPsやパラメータ数で最適化されています。しかし、これらの最適化は実際のモバイルデバイスで実行した場合のネットワークの応答時間に相関しない場合があります。我々は昨今のニューラルネットワークの最適化のボトルネックを特定・分析し、その結果をもとにした新たな効率的なバックボーンMobileOneを設計しました。結果はMobileFormerと同等の性能を得ながら、38倍高速であり、最先端の効率性を達成しました。

DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone

harmonylab

公開URL：https://arxiv.org/pdf/2307.09288.pdf 出典：Touvron Hugo, et al.: Llama 2: Open foundation and fine-tuned chat models, arXiv preprint arXiv:2307.09288 (2023) 概要：70億から700億のパラメータを持つ大規模言語モデル（LLM）の事前学習であるLlama 2を開発し、リリースしました。Llama 2-Chatと呼ばれるファインチューニングされたLLMは、対話のユースケースに最適化されています。提案モデルは、検証したほとんどのベンチマークにおいて、オープンソースのチャットモデルを凌駕しており、有用性と安全性に関する人間による評価に基づいて、クローズドソースのモデルの適切な代替となる可能性があります。コミュニティが我々の研究を基に、LLMの責任ある開発に貢献できるようにすることも目的にあります。

DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models

harmonylab

公開URL：https://proceedings.neurips.cc/paper_files/paper/2022/file/fbb10d319d44f8c3b4720873e4177c65-Paper-Conference.pdf 出典：Yufei Xu, Jing Zhang, Qiming Zhang, Dacheng Tao : ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation, Advances in Neural Information Processing Systems 35 (NeurIPS 2022), pp. 38571-38584 (2022) 概要：姿勢推定はコンピュータビジョンの1タスクとして知られています。本論文ではプレーンなVision Transformerを使った姿勢推定手法「ViTPose」を提案します。ViTPoseは非階層的なVision Transformerを特徴抽出のために使用し、100Mから1Bのパラメータにスケールアップ可能です。このモデルは事前学習や、複数のポーズタスク対応などにおいて柔軟性を持ち、大規模モデルの知識を小規模モデルに転送することも可能です。実験結果は、ViTPoseがMS COCO Keypoint DetectionベンチマークにおいてSoTAを達成しました。

DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation

harmonylab

公開URL：https://arxiv.org/abs/2305.16291 出典：Guanzhi Wang, Yuqi Xie, Yunfan Jiang, Ajay Mandlekar, Chaowei Xiao, Yuke Zhu, Linxi Fan, Anima Anandkumar : Voyager: An Open-Ended Embodied Agent with Large Language Models, arXiv: 2305.16291 (2023) 概要：本論文では、Minecraftの世界を持続的に探索し、多様なスキルを獲得し、新たな発見を人間の介入なく行う最初の大規模言語モデル（LLM）を駆使した具現化エージェントであるVoyagerを紹介する。Voyagerは、探索を最大化する自動カリキュラム、複雑な行動を格納・取得するためのスキルライブラリ、そして環境のフィードバック、実行エラー、プログラム改善のための自己確認を組み込む新たな反復的なプロンプトメカニズムの3つの主要なコンポーネントから成り立つ。

Voyager: An Open-Ended Embodied Agent with Large Language Models

harmonylab

公開URL：https://arxiv.org/abs/2212.04636 出典：Jiaman Li, C. Karen Liu, Jiajun Wu : Ego-Body Pose Estimation via Ego-Head Pose Estimation, arXiv preprint arXiv:2212.04636 (2022) 概要：人間の行動理解やVR/ARへの応用において、一人称映像から人の3次元姿勢 (3D human motion)を推定することは重要である。提案手法EgoEgoは、中間表現として頭部モーションを採用した新たな手法である。問題を2分割したことにより、既存のデータセットが活用でき、他のSoTA手法より優れた性能を示した。さらにベンチマークのための一人称映像と人の3次元推定データセットARESを開発した。

DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation

harmonylab

公開URL：https://arxiv.org/abs/2210.03629 出典：Shunyu Yao, Jeffrey Zhao, Dian Yu, Nan Du, Izhak Shafran, Karthik Narasimhan, Yuan Cao : ReAct: Synergizing Reasoning and Acting in Language Models, arXiv: 2210.03629 (2022) 概要：本論文では大規模言語モデルにおいて推論(Reasoning)と行動(Acting)を組合わせるprompt手法であるReActを提案した。知識集約型の推論タスク（QAタスク・事実検証タスク）と意思決定タスク（テキストゲーム、ウェブナビゲーション）でReActの性能を評価した。推論タスクにおいてReActはWikipedia APIとの対話によりChain of ThoughtのHallucinationを軽減し、意思決定タスクにおいては模倣学習や強化学習による手法を上回る性能を示した。

ReAct: Synergizing Reasoning and Acting in Language Models

harmonylab

対話形式議事録は，口語での会話内容が記録されており，言語研究において重要な資料となる．対話形式議事録の1つである帝国議会議事速記録は，記録期間が長く分量も多いという特徴があり，近代における言語表現の変化を分析するのに適した資料であるといえる．このようなテキストデータに対して分析の第一段階である表現抽出を自動で行う手法については知見が少なく，抽出作業のほとんどが手作業で行われているのが現状である．大規模なデータに対して手作業での該当表現の抽出を行うのには多大な労力がかかり，見逃しも発生しやすく，分析を行う上でのボトルネックとなる．本研究では，抽出段階の自動化を目的とし，可能の意味を表す可能表現について，品詞の組み合わせマッチングによる自動抽出を試みた．さらに，可能表現の出現頻度や変遷と会議の話題の関係性を分析するための先駆けとして，重要単語抽出による話題の自動タグ付けを行った．話題タグの自動付与においては，TF-IDFを用いたシンプルな特徴単語の抽出を試みた．可能表現の抽出においては，文型に注目した品詞のパターンマッチングによる抽出を試みた．

形態素解析を用いた帝国議会議事速記録の変遷に関する研究

harmonylab

【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究

harmonylab

近年，家庭への灯油配送においてリモートセンシング化が進んでおり，灯油タンク内の残量計測が可能な通信型レーザセンサの開発が進んでいる．しかし，屋外にある灯油タンクにセンサを設置するため計測環境が不安定で，コスト面から導入可能なデバイスの性能にも制約があるため，センサの故障や異常値の計測が多く発生する．このような背景を踏まえて，本論文では，センサを管理・運用するための運用手法の確立を目的として，2つの異常検知手法と1つの残量推定手法を提案し，実データを用いた有効性の検証を行う．

灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究

harmonylab

論文では，人工知能による創作の第一歩として俳句，その中でも特に一般的な有季定型句を対象とし，深層学習モデルを用いた生成と評価を行う. 既存の俳句や日本語テキストを用いてモデルを学習し，俳句生成器を構築する. また，作成したモデルの俳句生成器としての性能を評価するために，俳人による評価済みの俳句からなる評価用データセットを作成して，有季定型句の生成における各モデルの性能を比較する. 評価用データセットの作成においてはまず，有季定型句の評価項目として句会における評価方式と俳句内の句節のつながりに着目し，これらを段階的評価の階層構造として定義した. 定義した階層構造に基づくラベル付を複数の俳人に依頼し，モデル間の性能評価に用いる. また，各モデルが生成した文字列に対するアンケート調査を行い，現状のモデルの到達点を明らかにする.

深層自己回帰モデルを用いた俳句の生成と評価に関する研究

harmonylab

本研究では，競輪のレース結果予測の初心者が車券を購入する際の意思決定を補助することを目的として，レース結果を予測して，予測結果を用いた選手紹介文を生成するシステムを構築する．選手の戦績から的確に反映する特徴量を算出する手法として，多数人の同時対戦を考慮した拡張イロレーティングシステムを提案して，競輪のレース結果予測に適用する．実際の競輪のレース結果を用いた検証実験において，既存のレース結果予測手法に比べて，拡張イロレーティングシステムを用いることで予測精度を向上可能であることを確認した．さらに，拡張イロレーティングシステムを紹介文生成に用いることで，既存の手法に比べて，初心者の車券購入により有用な文章を生成可能であることを示す．

競輪におけるレーティングシステムを用いた予想記事生成に関する研究

harmonylab

中古ブランド品の B2B オークションでは，多数のアイテムのオークションが並列して実施されるため，参加者はすべてのアイテムの価値を検討することが困難であり，入札するアイテムの選択や，留保価格の適切な設定が課題である．本稿では，こうした課題を入札アイテムの推薦や留保価格に対する不落札率の推定により解決するため，オークションにおける多関係推薦モデル MultiRec を用いたユーザ別入札行動予測をオークションデータに適用し，その精度から利用可能性を検証した．

【卒業論文】B2Bオークションにおけるユーザ別入札行動予測に関する研究

harmonylab

Kerosene is a very important source for heating in many areas. In cold regions of Japan, delivery companies regularly visit household oil tanks to replenish them so that they do not run out of fuel. However, it is hard to make a good delivery plan, since the delivery companies do not know how much kerosene is left in the kerosene tank. And most of the existing methods about energy consumption estimation are focused on one target. Little work has been done in kerosene consumption with many users. We present Deep learning based model to estimate the consumption and mean consumption of one time span. The model includes time series augmentation to extract more information from the time span and attention mechanism to extract inner connection between each time step. The experimental results indicate that our proposed approaches have MAE around 50L for refuel recordings and MAE around 4L for daily consumption. In order to evaluate our model in a realistic way, the estimation result is applied to an inventory routing algorithm. The result using our estimation is close to the result using real consumption data.

A Study on Estimation of Household Kerosene Consumption for Optimization of D...

harmonylab

マルチエージェント深層強化学習を用いて、自動運転車の追越行動の獲得をした。片側1車線の道路で低速走行車、追越車、対向車が存在する状況において、シングルエージェントの学習では困難な協調的な走行を学習させた。学習後の走行とルールベースの走行をシミュレータを用いて比較し、走行効率性と安全性を検証した。

マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究

harmonylab

Mehr von harmonylab (20)

【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究　　　千坂知也

【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究

A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...

【卒業論文】印象タグを用いた衣服画像生成システムに関する研究

【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究

DLゼミ：Primitive Generation and Semantic-related Alignment for Universal Zero-S...

DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone

DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models

DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation

Voyager: An Open-Ended Embodied Agent with Large Language Models

DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation

ReAct: Synergizing Reasoning and Acting in Language Models

形態素解析を用いた帝国議会議事速記録の変遷に関する研究

【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究

灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究

深層自己回帰モデルを用いた俳句の生成と評価に関する研究

競輪におけるレーティングシステムを用いた予想記事生成に関する研究

【卒業論文】B2Bオークションにおけるユーザ別入札行動予測に関する研究

A Study on Estimation of Household Kerosene Consumption for Optimization of D...

マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究

MixMatch: A Holistic Approach to Semi- Supervised Learning

1. MixMatch: A Holistic Approach to Semi- Supervised Learning 05/20 神戸瑞樹 Nicholas Carlini Google Research ncarlini@google.com Ian Goodfellow Work done at Google ian-academic@mailfence.com Avital Oliver Google Research avitalo@google.com Nicolas Papernot Google Research papernot@google.com Colin Raffel Google Research craffel@google.com David Berthelot Google Research dberth@google.com https://arxiv.org/pdf/1905.02249.pdf

2. 概要 • 半教師あり学習の手法であるMixMatchを提案 • これまでの半教師あり学習のアプローチをひとまとめにした • CIFAR-10(250label)のエラー率を38％から11％に 2

3. 半教師あり学習 • ラベル付きの画像を大量に用意することは困難 • 画像だけなら比較的容易 • 少量のラベル付き画像と大量のラベルなし画像から学習する • 半教師あり学習のロス • Entropy loss • Consistency loss • Regularization loss 3

4. Consistency loss • 同じ画像に違うノイズを加えてその差をなくす • VAT • Adversarial exampleで使うノイズを加える • Mean teacher • ノイズは同じだけどモデルの片方の重みを移動指数を用いたものにする 4

5. Entropy loss • モデルの出力をラベルなし画像のラベルとする • Pseudo-Label • VAT 5 Regularization loss • 普通の正則化 • L2 loss • Mix up

6. Mix up 6 • 2つのデータに対して、ラベルとデータの双方を線形補間してデータを増やす • 半教師あり学習で画像のみ増やすのに使う場合もある http://wazalabo.com/mixup_1.html より https://arxiv.org/pdf/1903.03825.pdf より

7. MixMatch • ラベルなしにK通りのaugmentationを行って平均を取った後sharpenしたものを擬似ラベルに • ラベルと疑似ラベルを混ぜてMixup 7

8. Sharpen • ラベルの分布のエントロピーを小さくする • 温度T→0でワンホットに近づく 8

9. Mix up • 一回は必ず近い方になるようにmax() 9

10. MixMatchアルゴリズム 10

11. Loss function • L:class数 11

12. ハイパーパラメータ • ハイパーパラメータが多く存在 • T(sharpenの温度), • K（ラベルなしのaugmentation数） • α（Mixupにおけるベータ分布のパラメータ） • λU （半教師の重み） • それでも、殆どが固定値で良い精度になる • T = 0.5 , K = 2で固定 • α=0.75, λU =100から探索 12

13. 実験 • Wide Resnet-28を使用 • 2^16のサンプルごとにモデル保存 • 最後の20個のモデルにおける精度の平均をレポート • バリデーションで最も低いエラー率のものを使用するなどでもっと良い精度になるかも 13

14. Cifar-10への適用 • α=0.75, λU=75 • ラベル数を250から 4000まで変化 • 250labelでエラー率が 11.08%まで改善（次点でVATの36.03％） • 250labelで他の手法の 4000labelと同程度 14

15. SVHNへの適用 • α=0.75, λU=250 • ラベル数を250から 4000まで変化 • 250labelでエラー率 3.78％ 15

16. STL-10への適用 • 10class • 96*96のカラー画像 • 各クラス訓練500、テスト800 • 100000のラベルなし画像 • 画像はimagenetから • α=0.75, λU=50 16

17. Ablation Study • 各要素を足したり消したりしてその影響を調査 • Cifar-10 の250label、4000labelで調査 17

18. まとめ • 半教師あり学習の手法であるMixMatchを提案 • これまでの半教師あり学習のアプローチをひとまとめにした • CIFAR-10(250label)のエラー率を11％に • 半教師あり学習は画像でばかり評価されているので、他のドメインでも試したい 18

MixMatch: A Holistic Approach to Semi- Supervised Learning

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Mehr von harmonylab

Mehr von harmonylab (20)

MixMatch: A Holistic Approach to Semi- Supervised Learning