Optuna: A Define-by-Run Hyperparameter Optimization Framework

•

3 likes•3,076 views

Preferred Networks

【講演資料】東工大で8/5-6開催の「第1回ディープラーニング分散学習ハッカソン」で、PFNエンジニアの柳瀬利彦がTSUBAME3.0上でのOptunaの利用方法を紹介しました。

Technology

https://bit.ly/t3-optuna
Optuna
A Define-by-Run Hyperparameter Optimization Framework
第1回ディープラーニング分散ハッカソン@東工大
2019年8月5日
柳瀬利彦, Preferred Networks

https://bit.ly/t3-optuna
Materials
• Optuna Tutorial
• 公式Examples
• 本ハッカソン向け Optuna Examples
2
https://bit.ly/t3-optuna

https://bit.ly/t3-optuna
Hyperparameter Tuning
First, I want to try
this:
• LR: 0.1
• Dropout: 0.5
… Done!
Accuracy: 0.6
Trial 1
Then, How about
this?:
• LR: 0.01
• Dropout: 0.0
… Done!
Accuracy: 0.5
Trial 2
So, I want to try
this:
• LR: 0.05
• Dropout: 0.3
… Done!
Accuracy: 0.8
Trial 3
4

https://bit.ly/t3-optuna
環境構築
• Python 2.7, 3.5+ をサポート
• TensorFlowでも使えます！
• Install Optuna by pip:
$ pip install optuna
7

https://bit.ly/t3-optuna
MNIST Training (Optunaなし)
8
MLPの構造を最適化!

https://bit.ly/t3-optuna9
1
2
3
3箇所変更
MNIST Training (Optunaあり)

https://bit.ly/t3-optuna10
1. 学習・評価ロジックを目的関数とし
て定義．評価値をreturnする．

https://bit.ly/t3-optuna11
2. suggest() でハイパーパラメタを取得

https://bit.ly/t3-optuna12
3. Study は実験を管理するオブジェクト
Study.optimize() でサーチ開始

https://bit.ly/t3-optuna
Pandasで最適化結果を分析
13

https://bit.ly/t3-optuna
ニューラルネットの最適化ポイント
• ネットワークの形状
– CNNのカーネルサイズ
trial.suggest_categorical(‘ksize’, [3, 5, 7])
– CNNのチャンネル数
trial.suggest_int(‘n_channels’, 2, 128)
• 学習設定
– 学習率
trial.suggest_loguniform(‘lr’, 1e-9, 1e-1)
– 正則化
trial.suggest_uniform(‘dropout_rate’, 0.0, 1.0)
14

https://bit.ly/t3-optuna16
• 訓練の各イテレーションで:
– report() と should_prune() を呼ぶ.
Pruningの設定
Chainer, TFはExtensionを使うと1行で設定可
TF向けは@sfujiwaraさん制作！
中間結果を報告.
枝刈りの判定.

https://bit.ly/t3-optuna
• 見込みのなさそうなTrialを自動的に停止
• 例） Validationスコアが過去のTrialのMedianより悪ければ打ち
切る
17

https://bit.ly/t3-optuna
半分の時間で同等のエラー率
各地点でMedian値を基準
に，それより悪ければ止め
る
Median Pruning
Banditベースのアルゴリズ
ム枝刈りの間隔に特徴（指
数関数的に変化）.
Successive Halving
18

https://bit.ly/t3-optuna
Optimization of
Distributed Deep Learning

https://bit.ly/t3-optuna
Optunaの分散最適化機能
20

https://bit.ly/t3-optuna
分散深層学習（データ並列）のチューニング
ChainerMN: ChainerMNStudyを使う
Tensorflow + Horovod: MPIStudyを使う
22

https://bit.ly/t3-optuna
TSUBAMEでOptunaを実行するには
23
Tensorflow/Chainer対応のexampleを提供
• シングルノードでOptuna
• マルチノードでOptuna
https://bit.ly/t3-optuna

What's hot

[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models

Deep Learning JP

一般化線形モデル (GLM) & 一般化加法モデル(GAM)

Deep Learning Lab（ディープラーニング・ラボ）

機械学習による統計的実験計画（ベイズ最適化を中心に）

Kota Matsui

深層学習の不確実性 - Uncertainty in Deep Neural Networks -

tmtm otm

以下の二つの論文の紹介を中心に、グラフニューラルネットワークとグラフ組合せ問題の交わりについて解説しました。 SIG-FPAI での招待講演の内容に少し修正を加えたものです。 * Learning Combinatorial Optimization Algorithm over Graphs (NIPS 2017) * Approximation Ratios of Graph Neural Networks for Combinatorial Problems (NeurIPS 2019)

グラフニューラルネットワークとグラフ組合せ問題

joisino

PRML第６章「カーネル法」

Keisuke Sugawara

PRML上巻勉強会 at 東京大学の資料です。この資料はChristopher M. Bishop 著「Pattern Recognition and Machine Learning」の日本語版「パターン認識と機械学習上 - ベイズ理論による統計的予測」について補足説明を入れた上でなるべくわかりやすくしたものです。本資料では第３章の前半、特に3.1節を中心に解説しています。詳しくはこちらのサイト（外部）を御覧ください。 http://ibisforest.org/index.php?PRML

PRMLの線形回帰モデル（線形基底関数モデル）

Yasunori Ozaki

研究室における研究・実装ノウハウの共有

Naoaki Okazaki

Gradient Boostingは近年Kaggleなどのコンペティションで注目を集めている分類や回帰問題に対するアルゴリズムの一つである。XGBoost, LightGBM, CatBoostなどが有名ではあるが、それらを土台にして近年はDeepGBMやNGBoostといった新規アルゴリズムの登場、汎化理論解析の進展、モデル解釈性の付与方法の多様化など、理論から応用まで多岐にわたる研究が行われている。本チュートリアルでは、Gradient Boostingに関する近年の研究動向やテクニックを、それらの社会実装までを見据えながら紹介していく。

勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)

RyuichiKanoh

Pythonの理解を試みる〜バイトコードインタプリタを作成する〜

Preferred Networks

【DL輪読会】AUTOGT: AUTOMATED GRAPH TRANSFORMER ARCHITECTURE SEARCH

深層生成モデルと世界モデル

ようやく分かった！最尤推定とベイズ推定

グラフニューラルネットワーク入門

ベイズ統計学の基礎概念からW理論まで概論的に紹介するスライドです．数理・計算科学チュートリアル実践のチュートリアル資料です．引用しているipynbは * http://nhayashi.main.jp/codes/BayesStatAbstIntro.zip * https://github.com/chijan-nh/BayesStatAbstIntro を参照ください．以下，エラッタ． * 52 of 80：KL(q||p)≠KL(q||p)ではなくKL(q||p)≠KL(p||q). * 67 of 80：2ν=E[V_n]ではなくE[V_n] → 2ν (n→∞). * 70 of 80：AICの第2項は d/2n ではなく d/n. * 76 of 80：βH(w)ではなくβ log P(X^n|w) + log φ(w). 　　- レプリカ交換MCと異なり、逆温度を尤度にのみ乗することはWBIC導出では本質的な仮定となる.

ベイズ統計学の概論的紹介

Naoki Hayashi

基礎からのベイズ統計学輪読会資料第4章メトロポリス・ヘイスティングス法

Ken'ichi Matsui

Bayesian Neural Networks : Survey

tmtm otm

「第5回プログラマのための数学勉強会発表資料 (2015/11/21[sat])」内容は統計学の素養がある方には基本的な事項ですが、ベクトルと内積で見方を変えてみたという点と、あまり統計学に親しみがない方にも理解してもらえるようなまとめになっている、というところに本スライドの独自性があると考えていますので、その辺り良ければご覧ください＾＾

「内積が見えると統計学も見える」第5回プログラマのための数学勉強会発表資料

Ken'ichi Matsui

PyMCがあれば，ベイズ推定でもう泣いたりなんかしない

Toshihiro Kamishima

[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De...

Deep Learning JP

What's hot (20)

[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models

一般化線形モデル (GLM) & 一般化加法モデル(GAM)

機械学習による統計的実験計画（ベイズ最適化を中心に）

深層学習の不確実性 - Uncertainty in Deep Neural Networks -

グラフニューラルネットワークとグラフ組合せ問題

PRML第６章「カーネル法」

PRMLの線形回帰モデル（線形基底関数モデル）

研究室における研究・実装ノウハウの共有

勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)

Pythonの理解を試みる〜バイトコードインタプリタを作成する〜

【DL輪読会】AUTOGT: AUTOMATED GRAPH TRANSFORMER ARCHITECTURE SEARCH

深層生成モデルと世界モデル

ようやく分かった！最尤推定とベイズ推定

グラフニューラルネットワーク入門

ベイズ統計学の概論的紹介

基礎からのベイズ統計学輪読会資料第4章メトロポリス・ヘイスティングス法

Bayesian Neural Networks : Survey

「内積が見えると統計学も見える」第5回プログラマのための数学勉強会発表資料

PyMCがあれば，ベイズ推定でもう泣いたりなんかしない

[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De...

More from Preferred Networks

PodSecurityPolicy からGatekeeper に移行しました / Kubernetes Meetup Tokyo #57

Preferred Networks

Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3

Preferred Networks

Kubernetes + containerd で cgroup v2 に移行したら "failed to create fsnotify watcher...

Preferred Networks

深層学習の新しい応用と、それを支える計算機の進化 - Preferred Networks CEO 西川徹 (SEMICON Japan 2022 Ke...

Preferred Networks

Kubernetes ControllerをScale-Outさせる方法 / Kubernetes Meetup Tokyo #55

Preferred Networks

Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2

Preferred Networks

Optuna Dashboardの紹介と設計解説 - 2022/12/10 Optuna Meetup #2

Preferred Networks

スタートアップが提案する2030年の材料開発 - 2022/11/11 QPARC講演

Preferred Networks

Deep Learningのための専用プロセッサ「MN-Core」の開発と活用（2022/10/19東大大学院「融合情報学特別講義Ⅲ」）

Preferred Networks

PFNにおける研究開発（2022/10/19 東大大学院「融合情報学特別講義Ⅲ」）

Preferred Networks

自然言語処理を役立てるのはなぜ難しいのか（2022/10/25東大大学院「自然言語処理応用」）

Preferred Networks

Kubernetes にこれから入るかもしれない注目機能！（2022年11月版） / TechFeed Experts Night #7 〜コンテナ技術を語る

Preferred Networks

汎用原子レベルシミュレータMatlantis™ (https://matlantis.com)のコア技術に相当するニューラルネットワークポテンシャル「PFP」について、開発段階からバージョン3までの発展の過程を紹介します。本資料は2022年9月に行われた第83回応用物理学会秋季学術講演会で発表した資料を一部差し替えたものです(https://meeting.jsap.or.jp/)。

Matlantis™のニューラルネットワークポテンシャルPFPの適用範囲拡張

Preferred Networks

第55回情報科学若手の会（2022年9月24日開催）でのPFNの講演資料を公開しました。 PFNエンジニアの薮内が、クラスタを使いやすく、効率的かつ公平に使い、信頼性高く運用するためのノウハウや、PFNのクラスタ開発・運用のおもしろさについてご紹介しました。 PFNでは計算基盤関連のポジション採用を行っています（2022年9月現在） https://apply.workable.com/preferred-networks/j/D85B7B005E/ https://apply.workable.com/preferred-networks/j/6CDF8CA1A8/ こんな環境にワクワクする方、ぜひご応募ください！ ○ 日進月歩で進化している機械学習にフォーカスした計算技術を低レイヤーから高レイヤーまでトータルに吸収できる ○ 大規模な機械学習クラスタの開発・運用が経験できる ○ Kubernetes を始めとする OSS コミュニティでも活躍できるチャンスがある ○ HPC と Cloud Native の境界領域というますます重要になる分野の経験ができる ○ 多様な要求・ユーザーリテラシをサポートするプラットフォーム設計を経験できる

PFNのオンプレ計算機クラスタの取り組み_第55回情報科学若手の会

Preferred Networks

PFN は、「現実世界を計算可能にする」を Vision として，膨大な計算量を必要とするシミュレーションや深層学習などの計算ワークロードを実行するためのオンプレ ML 基盤を持っています。この発表では、「オンプレクラスタの概要」と最近のトピックとして「新しく構築した「MN-2b」」、「Pod のリソース要求量の最適化を助けるしくみ」、「Kubernetes クラスタのアップグレード」についてお話します。本イベント「オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜」では、オンプレミスの Kubernetes クラスタ上に構築された機械学習基盤を持つ PFN とヤフーのエンジニアが自社での取り組みについて語り尽くします！イベントサイト: https://ml-kubernetes.connpass.com/event/255797/

続・PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜 #2

Preferred Networks

Kubernetes Service Account As Multi-Cloud Identity / Cloud Native Security Co...

Preferred Networks

KubeCon + CloudNativeCon Europe 2022 Recap / Kubernetes Meetup Tokyo #51 / #k...

Preferred Networks

KubeCon + CloudNativeCon Europe 2022 Recap - Batch/HPCの潮流とScheduler拡張事例 / Kub...

Preferred Networks

独断と偏見で選んだ Kubernetes 1.24 の注目機能と今後! / Kubernetes Meetup Tokyo 50

Preferred Networks

Topology Managerについて / Kubernetes Meetup Tokyo 50

Preferred Networks

More from Preferred Networks (20)

PodSecurityPolicy からGatekeeper に移行しました / Kubernetes Meetup Tokyo #57

Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3

Kubernetes + containerd で cgroup v2 に移行したら "failed to create fsnotify watcher...

深層学習の新しい応用と、それを支える計算機の進化 - Preferred Networks CEO 西川徹 (SEMICON Japan 2022 Ke...

Kubernetes ControllerをScale-Outさせる方法 / Kubernetes Meetup Tokyo #55

Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2

Optuna Dashboardの紹介と設計解説 - 2022/12/10 Optuna Meetup #2

スタートアップが提案する2030年の材料開発 - 2022/11/11 QPARC講演

Deep Learningのための専用プロセッサ「MN-Core」の開発と活用（2022/10/19東大大学院「融合情報学特別講義Ⅲ」）

PFNにおける研究開発（2022/10/19 東大大学院「融合情報学特別講義Ⅲ」）

自然言語処理を役立てるのはなぜ難しいのか（2022/10/25東大大学院「自然言語処理応用」）

Kubernetes にこれから入るかもしれない注目機能！（2022年11月版） / TechFeed Experts Night #7 〜コンテナ技術を語る

Matlantis™のニューラルネットワークポテンシャルPFPの適用範囲拡張

PFNのオンプレ計算機クラスタの取り組み_第55回情報科学若手の会

続・PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜 #2

Kubernetes Service Account As Multi-Cloud Identity / Cloud Native Security Co...

KubeCon + CloudNativeCon Europe 2022 Recap / Kubernetes Meetup Tokyo #51 / #k...

KubeCon + CloudNativeCon Europe 2022 Recap - Batch/HPCの潮流とScheduler拡張事例 / Kub...

独断と偏見で選んだ Kubernetes 1.24 の注目機能と今後! / Kubernetes Meetup Tokyo 50

Topology Managerについて / Kubernetes Meetup Tokyo 50

Recently uploaded

Amazon SES を勉強してみるその２2024/04/26の勉強会で発表されたものです。

iPride Co., Ltd.

Utilizing Ballerina for Cloud Native Integrations

WSO2

論文紹介：Selective Structured State-Spaces for Long-Form Video Understanding

Toru Tamaki

論文紹介：Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...

Toru Tamaki

Amazon SES を勉強してみるその３2024/04/26の勉強会で発表されたものです。

iPride Co., Ltd.

新人研修　後半 2024/04/26の勉強会で発表されたものです。

iPride Co., Ltd.

LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル

CRI Japan, Inc.

LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス

CRI Japan, Inc.

論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games

atsushi061452

知識ゼロの営業マンでもできた！超速で初心者を脱する、悪魔的学習ステップ3選.pptx

sn679259

Recently uploaded (10)

Amazon SES を勉強してみるその２2024/04/26の勉強会で発表されたものです。

Utilizing Ballerina for Cloud Native Integrations

論文紹介：Selective Structured State-Spaces for Long-Form Video Understanding

論文紹介：Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...

Amazon SES を勉強してみるその３2024/04/26の勉強会で発表されたものです。

新人研修　後半 2024/04/26の勉強会で発表されたものです。

LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル

LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス

論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games

知識ゼロの営業マンでもできた！超速で初心者を脱する、悪魔的学習ステップ3選.pptx

Optuna: A Define-by-Run Hyperparameter Optimization Framework

1. https://bit.ly/t3-optuna Optuna A Define-by-Run Hyperparameter Optimization Framework 第1回ディープラーニング分散ハッカソン@東工大 2019年8月5日柳瀬利彦, Preferred Networks

2. https://bit.ly/t3-optuna Materials • Optuna Tutorial • 公式Examples • 本ハッカソン向け Optuna Examples 2 https://bit.ly/t3-optuna

3. https://bit.ly/t3-optuna3

4. https://bit.ly/t3-optuna Hyperparameter Tuning First, I want to try this: • LR: 0.1 • Dropout: 0.5 … Done! Accuracy: 0.6 Trial 1 Then, How about this?: • LR: 0.01 • Dropout: 0.0 … Done! Accuracy: 0.5 Trial 2 So, I want to try this: • LR: 0.05 • Dropout: 0.3 … Done! Accuracy: 0.8 Trial 3 4

5. https://bit.ly/t3-optuna Hyperparameter Tuning First, I want to try this: • LR: 0.1 • Dropout: 0.5 … Done! Accuracy: 0.6 Trial 1 Then, How about this?: • LR: 0.01 • Dropout: 0.0 … Done! Accuracy: 0.5 Trial 2 So, I want to try this: • LR: 0.05 • Dropout: 0.3 … Done! Accuracy: 0.8 Trial 3 5

6. https://bit.ly/t3-optuna Quick Start

7. https://bit.ly/t3-optuna 環境構築 • Python 2.7, 3.5+ をサポート • TensorFlowでも使えます！ • Install Optuna by pip: $ pip install optuna 7

8. https://bit.ly/t3-optuna MNIST Training (Optunaなし) 8 MLPの構造を最適化!

9. https://bit.ly/t3-optuna9 1 2 3 3箇所変更 MNIST Training (Optunaあり)

10. https://bit.ly/t3-optuna10 1. 学習・評価ロジックを目的関数として定義．評価値をreturnする．

11. https://bit.ly/t3-optuna11 2. suggest() でハイパーパラメタを取得

12. https://bit.ly/t3-optuna12 3. Study は実験を管理するオブジェクト Study.optimize() でサーチ開始

13. https://bit.ly/t3-optuna Pandasで最適化結果を分析 13

14. https://bit.ly/t3-optuna ニューラルネットの最適化ポイント • ネットワークの形状 – CNNのカーネルサイズ trial.suggest_categorical(‘ksize’, [3, 5, 7]) – CNNのチャンネル数 trial.suggest_int(‘n_channels’, 2, 128) • 学習設定 – 学習率 trial.suggest_loguniform(‘lr’, 1e-9, 1e-1) – 正則化 trial.suggest_uniform(‘dropout_rate’, 0.0, 1.0) 14

15. https://bit.ly/t3-optuna Pruning

16. https://bit.ly/t3-optuna16 • 訓練の各イテレーションで: – report() と should_prune() を呼ぶ. Pruningの設定 Chainer, TFはExtensionを使うと1行で設定可 TF向けは@sfujiwaraさん制作！中間結果を報告. 枝刈りの判定.

17. https://bit.ly/t3-optuna • 見込みのなさそうなTrialを自動的に停止 • 例） Validationスコアが過去のTrialのMedianより悪ければ打ち切る 17

18. https://bit.ly/t3-optuna 半分の時間で同等のエラー率各地点でMedian値を基準に，それより悪ければ止める Median Pruning Banditベースのアルゴリズム枝刈りの間隔に特徴（指数関数的に変化）. Successive Halving 18

19. https://bit.ly/t3-optuna Optimization of Distributed Deep Learning

20. https://bit.ly/t3-optuna Optunaの分散最適化機能 20

21. https://bit.ly/t3-optuna ほぼ線形にスケール 21

22. https://bit.ly/t3-optuna 分散深層学習（データ並列）のチューニング ChainerMN: ChainerMNStudyを使う Tensorflow + Horovod: MPIStudyを使う 22

23. https://bit.ly/t3-optuna TSUBAMEでOptunaを実行するには 23 Tensorflow/Chainer対応のexampleを提供 • シングルノードでOptuna • マルチノードでOptuna https://bit.ly/t3-optuna