Submit Search
Upload
160924 Deep Learning Tuningathon
•
91 likes
•
9,307 views
Takanori Ogata
Follow
Deep Learning Tuningathonの講義資料
Read less
Read more
Technology
Report
Share
Report
Share
1 of 36
Recommended
DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相
Takuya Yoshioka
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
Deep Learning JP
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
Deep Learning JP
Dropout Distillation
Dropout Distillation
Shotaro Sano
実装ディープラーニング
実装ディープラーニング
Yurie Oka
[DL輪読会]大規模分散強化学習の難しい問題設定への適用
[DL輪読会]大規模分散強化学習の難しい問題設定への適用
Deep Learning JP
Getting Started with Deep Learning using Scala
Getting Started with Deep Learning using Scala
Taisuke Oe
[DL輪読会]Meta Reinforcement Learning
[DL輪読会]Meta Reinforcement Learning
Deep Learning JP
Recommended
DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相
Takuya Yoshioka
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
Deep Learning JP
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
Deep Learning JP
Dropout Distillation
Dropout Distillation
Shotaro Sano
実装ディープラーニング
実装ディープラーニング
Yurie Oka
[DL輪読会]大規模分散強化学習の難しい問題設定への適用
[DL輪読会]大規模分散強化学習の難しい問題設定への適用
Deep Learning JP
Getting Started with Deep Learning using Scala
Getting Started with Deep Learning using Scala
Taisuke Oe
[DL輪読会]Meta Reinforcement Learning
[DL輪読会]Meta Reinforcement Learning
Deep Learning JP
Using Deep Learning for Recommendation
Using Deep Learning for Recommendation
Eduardo Gonzalez
第9回ACRiウェビナー_日立/島田様ご講演資料
第9回ACRiウェビナー_日立/島田様ご講演資料
直久 住川
Example of exiting legacy system
Example of exiting legacy system
TakamchiTanaka
BERT+XLNet+RoBERTa
BERT+XLNet+RoBERTa
禎晃 山崎
[db analytics showcase Sapporo 2018] A33 AI社内実装の試み~ソニーNNCを非技術者に使わせてみる~
[db analytics showcase Sapporo 2018] A33 AI社内実装の試み~ソニーNNCを非技術者に使わせてみる~
Insight Technology, Inc.
MySQLの運用でありがちなこと
MySQLの運用でありがちなこと
Hiroaki Sano
第1回 Jubatusハンズオン
第1回 Jubatusハンズオン
JubatusOfficial
第1回 Jubatusハンズオン
第1回 Jubatusハンズオン
Yuya Unno
TDDを一年やってみました ~シロート集団がTDDをやってはまったこと~
TDDを一年やってみました ~シロート集団がTDDをやってはまったこと~
Tomomi Kajita
Learning structured embeddings of knowledge bases 文献講読
Learning structured embeddings of knowledge bases 文献講読
poppyuri
OSS強化学習フレームワークの比較
OSS強化学習フレームワークの比較
gree_tech
2014/5/29 東大相澤山崎研勉強会:パターン認識とニューラルネットワーク,Deep Learningまで
2014/5/29 東大相澤山崎研勉強会:パターン認識とニューラルネットワーク,Deep Learningまで
Hokuto Kagaya
提案に役に立つ情報 (teianlab 勉強会)
提案に役に立つ情報 (teianlab 勉強会)
MKT International Inc.
[DL輪読会]SoftTriple Loss: Deep Metric Learning Without Triplet Sampling (ICCV2019)
[DL輪読会]SoftTriple Loss: Deep Metric Learning Without Triplet Sampling (ICCV2019)
Deep Learning JP
20190604 aws well-architected_tool_seminar_detail
20190604 aws well-architected_tool_seminar_detail
Yoshii Ryo
Okuyama説明資料 20120119 ss
Okuyama説明資料 20120119 ss
Takahiro Iwase
SSII2018TS: 大規模深層学習
SSII2018TS: 大規模深層学習
SSII
2020/11/19 Global AI on Tour - Toyama プログラマーのための機械学習入門
2020/11/19 Global AI on Tour - Toyama プログラマーのための機械学習入門
Daiyu Hatakeyama
Ansibleで構成管理始める人のモチベーションをあげたい! (Cloudera World Tokyo 2014LT講演資料)
Ansibleで構成管理始める人のモチベーションをあげたい! (Cloudera World Tokyo 2014LT講演資料)
NTT DATA OSS Professional Services
【基礎編】社内向けMySQL勉強会
【基礎編】社内向けMySQL勉強会
Yuji Otani
20210108 Tread: Circuits
20210108 Tread: Circuits
Takanori Ogata
20200704 Deep Snake for Real-Time Instance Segmentation
20200704 Deep Snake for Real-Time Instance Segmentation
Takanori Ogata
More Related Content
Similar to 160924 Deep Learning Tuningathon
Using Deep Learning for Recommendation
Using Deep Learning for Recommendation
Eduardo Gonzalez
第9回ACRiウェビナー_日立/島田様ご講演資料
第9回ACRiウェビナー_日立/島田様ご講演資料
直久 住川
Example of exiting legacy system
Example of exiting legacy system
TakamchiTanaka
BERT+XLNet+RoBERTa
BERT+XLNet+RoBERTa
禎晃 山崎
[db analytics showcase Sapporo 2018] A33 AI社内実装の試み~ソニーNNCを非技術者に使わせてみる~
[db analytics showcase Sapporo 2018] A33 AI社内実装の試み~ソニーNNCを非技術者に使わせてみる~
Insight Technology, Inc.
MySQLの運用でありがちなこと
MySQLの運用でありがちなこと
Hiroaki Sano
第1回 Jubatusハンズオン
第1回 Jubatusハンズオン
JubatusOfficial
第1回 Jubatusハンズオン
第1回 Jubatusハンズオン
Yuya Unno
TDDを一年やってみました ~シロート集団がTDDをやってはまったこと~
TDDを一年やってみました ~シロート集団がTDDをやってはまったこと~
Tomomi Kajita
Learning structured embeddings of knowledge bases 文献講読
Learning structured embeddings of knowledge bases 文献講読
poppyuri
OSS強化学習フレームワークの比較
OSS強化学習フレームワークの比較
gree_tech
2014/5/29 東大相澤山崎研勉強会:パターン認識とニューラルネットワーク,Deep Learningまで
2014/5/29 東大相澤山崎研勉強会:パターン認識とニューラルネットワーク,Deep Learningまで
Hokuto Kagaya
提案に役に立つ情報 (teianlab 勉強会)
提案に役に立つ情報 (teianlab 勉強会)
MKT International Inc.
[DL輪読会]SoftTriple Loss: Deep Metric Learning Without Triplet Sampling (ICCV2019)
[DL輪読会]SoftTriple Loss: Deep Metric Learning Without Triplet Sampling (ICCV2019)
Deep Learning JP
20190604 aws well-architected_tool_seminar_detail
20190604 aws well-architected_tool_seminar_detail
Yoshii Ryo
Okuyama説明資料 20120119 ss
Okuyama説明資料 20120119 ss
Takahiro Iwase
SSII2018TS: 大規模深層学習
SSII2018TS: 大規模深層学習
SSII
2020/11/19 Global AI on Tour - Toyama プログラマーのための機械学習入門
2020/11/19 Global AI on Tour - Toyama プログラマーのための機械学習入門
Daiyu Hatakeyama
Ansibleで構成管理始める人のモチベーションをあげたい! (Cloudera World Tokyo 2014LT講演資料)
Ansibleで構成管理始める人のモチベーションをあげたい! (Cloudera World Tokyo 2014LT講演資料)
NTT DATA OSS Professional Services
【基礎編】社内向けMySQL勉強会
【基礎編】社内向けMySQL勉強会
Yuji Otani
Similar to 160924 Deep Learning Tuningathon
(20)
Using Deep Learning for Recommendation
Using Deep Learning for Recommendation
第9回ACRiウェビナー_日立/島田様ご講演資料
第9回ACRiウェビナー_日立/島田様ご講演資料
Example of exiting legacy system
Example of exiting legacy system
BERT+XLNet+RoBERTa
BERT+XLNet+RoBERTa
[db analytics showcase Sapporo 2018] A33 AI社内実装の試み~ソニーNNCを非技術者に使わせてみる~
[db analytics showcase Sapporo 2018] A33 AI社内実装の試み~ソニーNNCを非技術者に使わせてみる~
MySQLの運用でありがちなこと
MySQLの運用でありがちなこと
第1回 Jubatusハンズオン
第1回 Jubatusハンズオン
第1回 Jubatusハンズオン
第1回 Jubatusハンズオン
TDDを一年やってみました ~シロート集団がTDDをやってはまったこと~
TDDを一年やってみました ~シロート集団がTDDをやってはまったこと~
Learning structured embeddings of knowledge bases 文献講読
Learning structured embeddings of knowledge bases 文献講読
OSS強化学習フレームワークの比較
OSS強化学習フレームワークの比較
2014/5/29 東大相澤山崎研勉強会:パターン認識とニューラルネットワーク,Deep Learningまで
2014/5/29 東大相澤山崎研勉強会:パターン認識とニューラルネットワーク,Deep Learningまで
提案に役に立つ情報 (teianlab 勉強会)
提案に役に立つ情報 (teianlab 勉強会)
[DL輪読会]SoftTriple Loss: Deep Metric Learning Without Triplet Sampling (ICCV2019)
[DL輪読会]SoftTriple Loss: Deep Metric Learning Without Triplet Sampling (ICCV2019)
20190604 aws well-architected_tool_seminar_detail
20190604 aws well-architected_tool_seminar_detail
Okuyama説明資料 20120119 ss
Okuyama説明資料 20120119 ss
SSII2018TS: 大規模深層学習
SSII2018TS: 大規模深層学習
2020/11/19 Global AI on Tour - Toyama プログラマーのための機械学習入門
2020/11/19 Global AI on Tour - Toyama プログラマーのための機械学習入門
Ansibleで構成管理始める人のモチベーションをあげたい! (Cloudera World Tokyo 2014LT講演資料)
Ansibleで構成管理始める人のモチベーションをあげたい! (Cloudera World Tokyo 2014LT講演資料)
【基礎編】社内向けMySQL勉強会
【基礎編】社内向けMySQL勉強会
More from Takanori Ogata
20210108 Tread: Circuits
20210108 Tread: Circuits
Takanori Ogata
20200704 Deep Snake for Real-Time Instance Segmentation
20200704 Deep Snake for Real-Time Instance Segmentation
Takanori Ogata
CVPR2019読み会@関東CV
CVPR2019読み会@関東CV
Takanori Ogata
190412 Annotation Survey@関東CV勉強会
190412 Annotation Survey@関東CV勉強会
Takanori Ogata
190410 ML@LOFT
190410 ML@LOFT
Takanori Ogata
180204 Attention-aware Deep Reinforcement Learning for Video Face Recognition
180204 Attention-aware Deep Reinforcement Learning for Video Face Recognition
Takanori Ogata
Unsupervised learning of object landmarks by factorized spatial embeddings
Unsupervised learning of object landmarks by factorized spatial embeddings
Takanori Ogata
Annotating object instances with a polygon rnn
Annotating object instances with a polygon rnn
Takanori Ogata
Training object class detectors with click supervision
Training object class detectors with click supervision
Takanori Ogata
SSD: Single Shot MultiBox Detector (ECCV2016)
SSD: Single Shot MultiBox Detector (ECCV2016)
Takanori Ogata
Convolutional Pose Machines
Convolutional Pose Machines
Takanori Ogata
Deep Learningライブラリ 色々つかってみた感想まとめ
Deep Learningライブラリ 色々つかってみた感想まとめ
Takanori Ogata
Cv20160205
Cv20160205
Takanori Ogata
10分でわかる主成分分析(PCA)
10分でわかる主成分分析(PCA)
Takanori Ogata
DeepAKB
DeepAKB
Takanori Ogata
More from Takanori Ogata
(15)
20210108 Tread: Circuits
20210108 Tread: Circuits
20200704 Deep Snake for Real-Time Instance Segmentation
20200704 Deep Snake for Real-Time Instance Segmentation
CVPR2019読み会@関東CV
CVPR2019読み会@関東CV
190412 Annotation Survey@関東CV勉強会
190412 Annotation Survey@関東CV勉強会
190410 ML@LOFT
190410 ML@LOFT
180204 Attention-aware Deep Reinforcement Learning for Video Face Recognition
180204 Attention-aware Deep Reinforcement Learning for Video Face Recognition
Unsupervised learning of object landmarks by factorized spatial embeddings
Unsupervised learning of object landmarks by factorized spatial embeddings
Annotating object instances with a polygon rnn
Annotating object instances with a polygon rnn
Training object class detectors with click supervision
Training object class detectors with click supervision
SSD: Single Shot MultiBox Detector (ECCV2016)
SSD: Single Shot MultiBox Detector (ECCV2016)
Convolutional Pose Machines
Convolutional Pose Machines
Deep Learningライブラリ 色々つかってみた感想まとめ
Deep Learningライブラリ 色々つかってみた感想まとめ
Cv20160205
Cv20160205
10分でわかる主成分分析(PCA)
10分でわかる主成分分析(PCA)
DeepAKB
DeepAKB
Recently uploaded
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
iPride Co., Ltd.
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
CRI Japan, Inc.
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
Toru Tamaki
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NTT DATA Technology & Innovation
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Hiroshi Tomioka
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
Toru Tamaki
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
iPride Co., Ltd.
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
atsushi061452
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
iPride Co., Ltd.
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
sn679259
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
CRI Japan, Inc.
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
WSO2
Recently uploaded
(12)
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
160924 Deep Learning Tuningathon
1.
Deep Learning 勉強会 パラメーターチューニングの極意 Takanori
OGATA ABEJA Inc.
2.
© ABEJA, Inc. Deep
Learningのパラメータを理解し、チューニングを実践することで Deep Learningに関する理解を深める ■学べること ・どのパラメータを変えると実行速度や学習速度がどう変わるのか? ・ネットワークの構築方法を変えるとどう精度にインパクトするのか? ■対象 Deep Learningはある程度使ったことあるが、ネットワークの細かな チューニングはどうすればいいかわからない 目的
3.
© ABEJA, Inc. Deep
Learningに対する初学者以上の知識 Deep Learningで自分でネットワークを書いたことがある Python(numpy, tensorflow)に関する知識 Linux, SSH, AWSに関する知識 今回の勉強会の対象者
4.
Deep Learningをマスターするためには?
5.
ネットワークの気持ちを理解することが重要
6.
ネットワークの気持ちを理解するためには?
7.
© ABEJA, Inc. •
実践あるのみ • 問題設定や、ネットワークの構造でチューニングの仕方は異なるので、 量をこなすことが重要 • 色々なデータセットでTrainingしてみる • パラメータを変えて結果がどう変わるか計測してみる • 様々な論文を読んで、ある問題に対してどのようなアーキテクチャやパ ラメータを使っているか読み解く ネットワークの気持ちを理解するためには?
8.
© ABEJA, Inc. ・Ubuntu
16.04 on AWS ・Tensorflow + Keras(https://keras.io/) 今回使う環境 Kerasを使ったCNNのSample
9.
© ABEJA, Inc. 全結合層 畳み込み層 プーリング層 ネットワークの深さ 活性化関数 出力の正規化 Dropout 重みの正則化 Deep
Learningのパラメーター ❶モデル系 ❷最適化系 ❸その他 学習率 (最適化のアルゴリズム) Batch Size Epoch数 Data Augmentation Weight Initialization データの事前処理 *今回は主要なところのみ紹介
10.
© ABEJA, Inc. 全結合層 畳み込み層 プーリング層 ネットワークの深さ 活性化関数 出力の正規化 Dropout 重みの正則化 Deep
Learningのパラメーター 学習率 (最適化のアルゴリズム) Batch Size Epoch数 Data Augmentation Weight Initialization データの事前処理 ❶モデル系 ❷最適化系 ❸その他 *今回は主要なところのみ紹介
11.
© ABEJA, Inc. 全結合層(Fully
Connected Layer) ■主要パラメータ ・隠れ層の数 ■学習パラメータの総数 パラメータの総数は Input * hidden + bias 入力が4096次元、hiddenが512だと 4096*512+512 = 2,097,664 *少ないほうが速度、イテレーション数ともに速く学習できる事が多い
12.
© ABEJA, Inc. 全結合層(Fully
Connected Layer) 大 Hidden layerの数 小 Pros 表現力が高い 省パラメータ 学習が早い Cons 過学習しやすい 学習が遅い 少なすぎると精度が落ちる 学習できないことがある
13.
© ABEJA, Inc. 畳み込み層(Convolutional
Layer) ■主要パラメータ ・カーネルサイズ ・フィルタの数 ■学習パラメータの総数 Weightsの総数(≒パラメータの総数, Biasは除く)は Channel * Height * Width * Filters 入力が(ch, h, w) = (32, 32, 32), カーネルサイズが(h, w) = (3, 3), フィルタ数 f = 64とすると 32 * 3 * 3 * 64 = 18,432 *全結層と比べると意外と少なくなる、CNNがうまくいく理由の1つ
14.
© ABEJA, Inc. 畳み込み層(Convolutional
Layer) 大 カーネルサイズ 小 Pros より広い範囲の領域から 影響を受けることができる 省パラメータ 実行速度は早い Cons パラメータ大 実行速度が遅くなる 局所的な影響しか受けない * 最初の層は大きめのカーネル(ex, 7x7)、最後の方は3x3, 1x1のカーネルを使うのが主流 大 フィルタの数 小 * 全結合層の隠れ層と同じような雰囲気 Pros 表現力が高い 省パラメータ 学習が早い Cons 過学習しやすい 学習が遅い 少なすぎると精度が落ちる 学習できないことがある
15.
© ABEJA, Inc. ネットワークの深さ ■主要パラメータ 何段、全結合や畳込みを積むか? ■学習パラメータの総数 積んだ分だけ増える
16.
© ABEJA, Inc. ネットワークの深さ 大 ネットワークの深さ 小 Pros
表現力が高い 省パラメータ 学習が早い Cons 過学習しやすい 勾配消失問題が発生する 学習が遅い 少なすぎると精度が落ちる 学習できないことがある *勾配が消えないような工夫をして、 3x3, 1x1の畳み込みを多段に重ねるのが主流 *どのくらい深いほうがいいのかは、研究でも注目されている、奥が深い
17.
© ABEJA, Inc. 活性化関数(Activation
Function) ■主要パラメータ ・活性化関数の種類(relu, pleru, elu, sigmoid, tanh, etc…) とりあえず始めは、畳み込みにはReLU使って置けば良い。 Outputの層だけ、タスクに応じて変更する必要あり (クラス分類ならSoftmax, RegressionならSigmoid, tanh等)
18.
© ABEJA, Inc. 出力の正規化(Normalization) ■主要パラメータ Local
Response Normalization (LRN), Batch Normalization, etc… ■コメント かなり重要だが、最初は気にしなくて良いので サーバーが学習してくれてる間に、みなさんはBatch Normalization[1]を学習しましょう。
19.
© ABEJA, Inc. Dropout ■主要パラメータ Dropoutの確率
p (0.0 – 1.0) Dropoutをどの層の間に挟むか(入れる or not) Pros 過学習しにくくなる 省パラメータ 学習が早い Cons 学習が遅い (たくさんIterationを 回さないといけない) 過学習しやすくなる 大 生起確率 小
20.
© ABEJA, Inc. 重みの正則化(Weight
Decay) Overfittingを避けるためにLossに重みの正則化項を加える つまり、トータルのコスト = タスクに設定したロス + 重みλ *Ω(θ) ■主要パラメータ ・L1 or L2の正則化の選択(or ブレンド) ・重みλ Pros 過学習しにくくなる 省パラメータ 学習が早い Cons 学習が遅い (たくさんIterationを 回さないといけない) 過学習しやすくなる 大 重み 小 Overfittingの例[3] where [2]
21.
© ABEJA, Inc. 全結合層 畳み込み層 プーリング層 ネットワークの深さ 活性化関数 出力の正規化 Dropout 重みの正則化 Deep
Learningのパラメーター 学習率 (最適化のアルゴリズム) Batch Size Epoch数 Data Augmentation Weight Initialization データの事前処理 ❶モデル系 ❷最適化系 ❸その他 *今回は主要なところのみ紹介
22.
© ABEJA, Inc. 学習率(Learning
Rate) ■主要パラメータ *SGDの場合 学習率(Learning Late) モーメンタム(Momentum, Nestrov option) 減衰率(Decay)
23.
© ABEJA, Inc. 学習率(Learning
Rate) 学習率λ(Learning Late) θ = θ - λ∇θ 一回のバッチ更新でどのぐらいパラメータをアップデートするか *学習時にLossの推移を見るのは非常に重要 ■決め方 データ、ロス関数に大きく依存 *学習中にLearning Late, Momentum, 減衰率について調べて みましょう [5] ■自動的に決めてくれないの。。。? Adagrad, Adadelta, Adam等様々なアルゴリズムが考案されている が今回は使わない 学習率の初期値によるLossの推移 [4]
24.
© ABEJA, Inc. Batch
Size & Epoch *省略 口頭で説明します
25.
© ABEJA, Inc. 全結合層 畳み込み層 プーリング層 ネットワークの深さ 活性化関数 出力の正規化 Dropout 重みの正則化 Deep
Learningのパラメーター 学習率 (最適化のアルゴリズム) Batch Size Epoch数 Data Augmentation Weight Initialization データの事前処理 ❶モデル系 ❷最適化系 ❸その他 *今回は主要なところのみ紹介
26.
© ABEJA, Inc. Data
Augmentation ■主要パラメータ 増やし方(回転、反転、スケーリング、ノイズの追加 etc…) 増やす枚数 *基本的には増やしたほうがベター http://www.slideshare.net/KenChatfield/chatfield14-devil Pros 過学習しにくくなる 精度向上 *じっくりチューニングする場合 はこちら 学習が早い *Try and Errorの際はこちら Cons 学習が遅くなる 過学習しやすくなる 大 データ枚数 小
27.
© ABEJA, Inc. Weight
Initialization *省略 口頭で説明します
28.
© ABEJA, Inc. データの前処理 Inputデータを学習しやすくするために加工する *データに依存するが基本的にやったほうが良い ■主要パラメータ 前処理の方法 ・データ範囲を全て[0.0,
1.0]に変換 ・データを中心化 ・PCA Whitening ・ZCA Whitening Etc…
29.
© ABEJA, Inc. チューニングのコツ ・一度の学習でパラメータの変更は1つまで ・毎回の学習方法と結果を記録しておく ・Train-Validation
Lossを見て過学習していないかチェック ・TrainingデータとTestingデータはきちんと分けておく、毎回同じものを 使う
30.
© ABEJA, Inc. BackendでTensorflowを使っているので、Tensorboardを利用すると効果的に学習結果を 表示できます *Train-Validation
Lossを可視化するのはかなり重要! その他 https://www.tensorflow.org/versions/r0.10/how_tos/summaries_and_tensorboard/index.html
31.
ルール説明
32.
© ABEJA, Inc. みんなでパラメーター調整によりCifar10の精度を競います ■評価 ・精度 ・改良したコードのオシャレ度 ■縛り ・複雑なネットワーク(GoogleNet,
ResNet, etc..)は使わない (難しいことしたい場合は要相談) ・今回はネットワークの気持ちを理解するために、最適化はSGDのみを利用 ・エポック数はMax200まで ルール説明
33.
© ABEJA, Inc. みなさんがチューニングに注力できるようベースのコードを用意しています 下記コマンドを実行してテンプレをGet! ソースコード(テンプレ) git
clone git@github.com:abeja-inc/deep_learning_tuningathon.git
34.
© ABEJA, Inc. 空き時間を利用して、 ・資料内の分からないキーワードを調査&学習 ・実行内容と結果をまとめていく ・最終発表の準備 機械が学習している間に。。。
35.
Enjoy Deep Learning!
36.
© ABEJA, Inc. [1]
S. Ioffe and C. Szegedy. Batch normalization: Accelerating deepnetwork training by reducing internal covariate shift. In ICML, 2015. [2] http://deeplearning.net/tutorial/gettingstarted.html [3] Ian Goodfellow, Yoshua Bengio, and Aaron Courville. Deep learning. Book in preparation for MIT Press, 2016 [4] http://cs231n.github.io/neural-networks-3/ [5] http://sebastianruder.com/optimizing-gradient-descent/ 引用文献