SlideShare a Scribd company logo
1 of 22
1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
AutoDropout: Learning Dropout Patterns to Regularize
Deep Networks
Jun Hozumi, Matsuo Lab
書誌情報
• Title: AutoDropout: Learning Dropout Patterns to Regularize Deep Networks
• Author: Hieu Pham and Quoc V. Le
• Google Research, Brain Team
• Date: 5 Jan 2021
• Conf.: AAAI 2021 (Accepted)
• Paper: https://arxiv.org/abs/2101.01761v1
• スライド中の図表は本論文から引用
• 詳細な議論は元論文やgithub上のコードを参照してください
2
背景
• 近年のNNは過学習を避けるための正則化が必要で、その一般的なものがDropout
• Dropoutの仕方を特定のパターンにすることで、ランダムより高い性能を発揮することが
知られている
• その事例によって、その適したパターンは異なる
• たとえば、多層LSTMでは垂直に接続されたニューロンのみをDropすべき
• Variational Dropoutでは時間次元に沿ってDropパターンを共有
• だけど、どっちもTransformerでは用いられない
• 一方で、画像分野ではVanilla DropoutはConvNetの全結合層のみ用いられる
• Stochastic DepthやDropPath、DropBrockなど特定の構造でDropする手法もある
• などなど…
3
目的
• 過去の研究を調査するだけで最適なDropoutパターンを設計することは困難である
• ならば、それ自体を学習させてしまえばいいのではないか?
• 本研究では対象とするモデルやタスク、ドメインに特化したDropOutパターンを自動で設
計するAutoDropoutを提案する
4
目的
• AutoDropoutの主な貢献として構造化されたDropOutパターンの探索空間の提案がある
• その探索空間によって、多くの既存のDropOutパターンを一般化する
• AutoDropoutは強化学習で訓練されたコントローラを持つ
• その報酬は対象とするモデルでのvalidationスコア
• 分散強化学習ベースの探索アルゴリズム
• AutoAugmentと同様、既存のパイプラインに埋め込めるようにする
5
関連研究(本研究の位置づけ)
• 本研究はNeural Architecture SerachやAutoAugmentと同じ系列の研究
• 探索空間を設計して、そこから強化学習で探索するアプローチ
• また、AutoDropoutは隠れ状態のデータ拡張の研究であるとも捉えられる
• ドメイン固有のデータ拡張ではなく、画像と文章でも同じ哲学で設計される
6
本研究での記法
• 本研究ではDropOutパターンは既存研究と同様に、要素ごとの乗算マスクで表現する
• ℎ層へDropoutするために、ℎと同サイズのバイナリマスク𝑚を適用し、スケールする
• 本研究では、テンソルを(𝑁, 𝑑1, 𝑑2, … , 𝑑𝑘, 𝐶)と表現する
• 𝑁はバッチの次元、𝐶は特徴量の次元、𝑑は時空間の次元
• ConvNetは(𝑁, 𝐻, 𝑊, 𝐶)、𝐻と𝑊は層の高さと幅
• Transformerの出力は(𝑁, 𝑇, 𝐶)、𝑇はトークン数を表す時間次元
• ConvNetとTransformerでテンソル表現が異なるので、前者から考えていく
7
ConvNetでのDropoutパターン
• 隣接する長方形からなる基本パターンを作成し、それに幾何学的変換を行う
• そのパターンをどの位置に適用するか決定し、バッチ正規化層の出力に適用する
• 他の位置で適用すると、検索時に訓練が不安定になるため
• Residualコネクションに適用するかもコントローラで選択する
8
Dropoutパターンを決めるパラメータ
• パターンを決めるパラメータは以下の通り
9
パターンの探索アルゴリズム(1)
• コントローラをTransformerネットワークでパラメータ(𝜃)化し、訓練する
• 移動平均を用いたREINFORCEアルゴリズムで探索する
10
パターンの探索アルゴリズム(2)
• 𝜃をモンテカルロ勾配推定で最適化する
• 𝑏は移動平均ベースライン、𝑀はバッチサイズ(𝑀 = 16)
• Perf(𝑟)はDropoutパターン𝑟でプロキシタスクの検証セットを学習することで測定する
• 全データセットを使うと時間がかかるので、一部データのみを使用したプロキシタスクを用いる
11
コントローラの並行訓練のための工夫
• 探索を効率よく並行して行えるようにするために、Importance Samplingを行う
• 従来手法では𝑀個のDropoutパターンのミニバッチ学習を待ってから𝜃を更新するが、学習に時間
がかかったり失敗したりするので、そこがボトルネックになることがあるため
12
Transformerの場合
• 対象がTransformerの場合は、以下のように変わる
• sizeは適用トークン数、strideはスキップされるトークン数
• share_tはsize数のトークン間で、share_cはチャネル間でパターンを共有するか否か
• Word Dropoutは「share_c=True」、VariationalDropoutは「size=𝑇」と「share_t=True」で実現する
13
Dropoutパターンの適用箇所
• TransformerはConvNetと異なり、Dropoutパターンが様々なサブレイヤーに適用できる
• それぞれに独立したDropoutパターンを適用する
• そのパターンのサイズが0となった場合、そこにはDropoutが適用されない
14
実験概要
• AutoDropoutをConvNetとTransformerの両方に適用して実験を行う
• ConvNet: 教師あり画像分類、半教師あり画像分類
• Transformer: 言語モデリング、機械翻訳
• 最後に、パターン探索性能をランダムサーチと比較する
15
結果: ConvNet(教師あり学習)
• AutoDropoutは他の正則化手法に比べて高いパフォーマンスを示した
• 他のデータ拡張手法と組み合わせた場合、AutoDropout+RandAugmentが、CIFAR-10と
ImageNetの両方のパフォーマンスを向上させた
16
Dropoutパターンの定性分析
• 得られたDropOutパターンを可視化したところ、最初と最後に異なるパターンのDropout
をかけると有効であることが分かった
• マスクされる場所を変えると精度が1%低下した(ResNet-50)
17
結果: ConvNet(半教師あり学習)
• 半教師あり学習でもAutoDropoutの効果を検証した
• CIFAR-10では4000、ImageNetでは10%のみラベルを付与
• Unpervised Data Augmentation(UDA)と組み合わせたところ、最も良い結果を示した
18
実験: Transformer
• PennTreebankデータセットを用いたTransformer-XLの言語モデリングにAutoDropoutを
適用した
• そのモデルをWikitext-2の言語モデリングや他データセットの機械翻訳に転移させた
• いずれの実験においても高いパフォーマンスを記録した
19
Dropoutパターンの定性分析
• 得られたパターンはVariational Dropoutに類似しているが、少し異なる
• 全レイヤーにVariational Dropoutを適用するとPerprexityが59.8となり性能は悪化する
20
探索手法の比較
• Neural Architecture Searchにおいては、ランダムサーチが良いベースラインであることが
知られている
• AutoDropoutの探索とランダムサーチでパターンのサンプリングを比較した
• AutoDropOutで発見されたパターンのほうが高いパフォーマンスを示した
21
結論
• 本研究ではDropOutパターンを自動設計するAutoDropoutを提案した
• 本手法によりConvNetやTransformerに適したDropoutパターンを発見できた
• AutoDropoutの弱点は計算量が多くなることであるため、今後の方向性としては、より効
率的な検索アプローチが求められる
• 計算コストが高くても、AutoAugmentと同様に、発見されたパターンをSOTAモデルに適
用することで簡単に利用できる
• Autoaugmentで発見した拡張パターンはCIFAR-10やImageNetのSOTAモデルに使用されている
22

More Related Content

More from Deep Learning JP

More from Deep Learning JP (20)

【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
 
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
 
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
 
【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】マルチモーダル 基盤モデル【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】マルチモーダル 基盤モデル
 
【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...
【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...
【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...
 
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
 
【DL輪読会】大量API・ツールの扱いに特化したLLM
【DL輪読会】大量API・ツールの扱いに特化したLLM【DL輪読会】大量API・ツールの扱いに特化したLLM
【DL輪読会】大量API・ツールの扱いに特化したLLM
 
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
 
【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...
【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...
【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...
 

Recently uploaded

Recently uploaded (20)

Connector Corner: Accelerate revenue generation using UiPath API-centric busi...
Connector Corner: Accelerate revenue generation using UiPath API-centric busi...Connector Corner: Accelerate revenue generation using UiPath API-centric busi...
Connector Corner: Accelerate revenue generation using UiPath API-centric busi...
 
"I see eyes in my soup": How Delivery Hero implemented the safety system for ...
"I see eyes in my soup": How Delivery Hero implemented the safety system for ..."I see eyes in my soup": How Delivery Hero implemented the safety system for ...
"I see eyes in my soup": How Delivery Hero implemented the safety system for ...
 
Apidays New York 2024 - The value of a flexible API Management solution for O...
Apidays New York 2024 - The value of a flexible API Management solution for O...Apidays New York 2024 - The value of a flexible API Management solution for O...
Apidays New York 2024 - The value of a flexible API Management solution for O...
 
Strategies for Unlocking Knowledge Management in Microsoft 365 in the Copilot...
Strategies for Unlocking Knowledge Management in Microsoft 365 in the Copilot...Strategies for Unlocking Knowledge Management in Microsoft 365 in the Copilot...
Strategies for Unlocking Knowledge Management in Microsoft 365 in the Copilot...
 
ICT role in 21st century education and its challenges
ICT role in 21st century education and its challengesICT role in 21st century education and its challenges
ICT role in 21st century education and its challenges
 
2024: Domino Containers - The Next Step. News from the Domino Container commu...
2024: Domino Containers - The Next Step. News from the Domino Container commu...2024: Domino Containers - The Next Step. News from the Domino Container commu...
2024: Domino Containers - The Next Step. News from the Domino Container commu...
 
AWS Community Day CPH - Three problems of Terraform
AWS Community Day CPH - Three problems of TerraformAWS Community Day CPH - Three problems of Terraform
AWS Community Day CPH - Three problems of Terraform
 
Apidays Singapore 2024 - Modernizing Securities Finance by Madhu Subbu
Apidays Singapore 2024 - Modernizing Securities Finance by Madhu SubbuApidays Singapore 2024 - Modernizing Securities Finance by Madhu Subbu
Apidays Singapore 2024 - Modernizing Securities Finance by Madhu Subbu
 
Exploring the Future Potential of AI-Enabled Smartphone Processors
Exploring the Future Potential of AI-Enabled Smartphone ProcessorsExploring the Future Potential of AI-Enabled Smartphone Processors
Exploring the Future Potential of AI-Enabled Smartphone Processors
 
Strategies for Landing an Oracle DBA Job as a Fresher
Strategies for Landing an Oracle DBA Job as a FresherStrategies for Landing an Oracle DBA Job as a Fresher
Strategies for Landing an Oracle DBA Job as a Fresher
 
Apidays New York 2024 - Scaling API-first by Ian Reasor and Radu Cotescu, Adobe
Apidays New York 2024 - Scaling API-first by Ian Reasor and Radu Cotescu, AdobeApidays New York 2024 - Scaling API-first by Ian Reasor and Radu Cotescu, Adobe
Apidays New York 2024 - Scaling API-first by Ian Reasor and Radu Cotescu, Adobe
 
Automating Google Workspace (GWS) & more with Apps Script
Automating Google Workspace (GWS) & more with Apps ScriptAutomating Google Workspace (GWS) & more with Apps Script
Automating Google Workspace (GWS) & more with Apps Script
 
Ransomware_Q4_2023. The report. [EN].pdf
Ransomware_Q4_2023. The report. [EN].pdfRansomware_Q4_2023. The report. [EN].pdf
Ransomware_Q4_2023. The report. [EN].pdf
 
A Beginners Guide to Building a RAG App Using Open Source Milvus
A Beginners Guide to Building a RAG App Using Open Source MilvusA Beginners Guide to Building a RAG App Using Open Source Milvus
A Beginners Guide to Building a RAG App Using Open Source Milvus
 
Apidays Singapore 2024 - Building Digital Trust in a Digital Economy by Veron...
Apidays Singapore 2024 - Building Digital Trust in a Digital Economy by Veron...Apidays Singapore 2024 - Building Digital Trust in a Digital Economy by Veron...
Apidays Singapore 2024 - Building Digital Trust in a Digital Economy by Veron...
 
Data Cloud, More than a CDP by Matt Robison
Data Cloud, More than a CDP by Matt RobisonData Cloud, More than a CDP by Matt Robison
Data Cloud, More than a CDP by Matt Robison
 
Boost Fertility New Invention Ups Success Rates.pdf
Boost Fertility New Invention Ups Success Rates.pdfBoost Fertility New Invention Ups Success Rates.pdf
Boost Fertility New Invention Ups Success Rates.pdf
 
Corporate and higher education May webinar.pptx
Corporate and higher education May webinar.pptxCorporate and higher education May webinar.pptx
Corporate and higher education May webinar.pptx
 
Emergent Methods: Multi-lingual narrative tracking in the news - real-time ex...
Emergent Methods: Multi-lingual narrative tracking in the news - real-time ex...Emergent Methods: Multi-lingual narrative tracking in the news - real-time ex...
Emergent Methods: Multi-lingual narrative tracking in the news - real-time ex...
 
Apidays Singapore 2024 - Scalable LLM APIs for AI and Generative AI Applicati...
Apidays Singapore 2024 - Scalable LLM APIs for AI and Generative AI Applicati...Apidays Singapore 2024 - Scalable LLM APIs for AI and Generative AI Applicati...
Apidays Singapore 2024 - Scalable LLM APIs for AI and Generative AI Applicati...
 

【DL輪読会】AutoDropout: Learning Dropout Patterns to Regularize Deep Networks