Suche senden
Hochladen
勾配降下法の最適化アルゴリズム
•
Als PPTX, PDF herunterladen
•
64 gefällt mir
•
48,244 views
N
nishio
Folgen
モメンタム、Nesterov accelerated gradientとAdagrad, Adadelta, Adamについて解説しました。
Weniger lesen
Mehr lesen
Bildung
Diashow-Anzeige
Melden
Teilen
Diashow-Anzeige
Melden
Teilen
1 von 32
Jetzt herunterladen
Empfohlen
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門
tmtm otm
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
Deep Learning JP
Optimizer入門&最新動向
Optimizer入門&最新動向
Motokawa Tetsuya
画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ
cvpaper. challenge
Triplet Loss 徹底解説
Triplet Loss 徹底解説
tancoro
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
Deep Learning JP
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII
Empfohlen
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門
tmtm otm
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
Deep Learning JP
Optimizer入門&最新動向
Optimizer入門&最新動向
Motokawa Tetsuya
画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ
cvpaper. challenge
Triplet Loss 徹底解説
Triplet Loss 徹底解説
tancoro
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
Deep Learning JP
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
Yusuke Uchida
強化学習その3
強化学習その3
nishio
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜
SSII
深層生成モデルと世界モデル
深層生成モデルと世界モデル
Masahiro Suzuki
画像認識の初歩、SIFT,SURF特徴量
画像認識の初歩、SIFT,SURF特徴量
takaya imai
【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models
Deep Learning JP
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習
Eiji Uchibe
【DL輪読会】"A Generalist Agent"
【DL輪読会】"A Generalist Agent"
Deep Learning JP
[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANs
Deep Learning JP
トピックモデルの評価指標 Perplexity とは何なのか?
トピックモデルの評価指標 Perplexity とは何なのか?
hoxo_m
【DL輪読会】DayDreamer: World Models for Physical Robot Learning
【DL輪読会】DayDreamer: World Models for Physical Robot Learning
Deep Learning JP
AHC-Lab M1勉強会 論文の読み方・書き方
AHC-Lab M1勉強会 論文の読み方・書き方
Shinagawa Seitaro
backbone としての timm 入門
backbone としての timm 入門
Takuji Tahara
Generative Adversarial Imitation Learningの紹介(RLアーキテクチャ勉強会)
Generative Adversarial Imitation Learningの紹介(RLアーキテクチャ勉強会)
Yusuke Nakata
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder
Sho Tatsuno
Active Learning 入門
Active Learning 入門
Shuyo Nakatani
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning
Deep Learning JP
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた
Katsuya Ito
生成モデルの Deep Learning
生成モデルの Deep Learning
Seiya Tokui
Transformerを雰囲気で理解する
Transformerを雰囲気で理解する
AtsukiYamaguchi1
SGD+α: 確率的勾配降下法の現在と未来
SGD+α: 確率的勾配降下法の現在と未来
Hidekazu Oiwa
機械学習プロフェッショナルシリーズ 深層学習 chapter3 確率的勾配降下法
機械学習プロフェッショナルシリーズ 深層学習 chapter3 確率的勾配降下法
zakktakk
Weitere ähnliche Inhalte
Was ist angesagt?
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
Yusuke Uchida
強化学習その3
強化学習その3
nishio
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜
SSII
深層生成モデルと世界モデル
深層生成モデルと世界モデル
Masahiro Suzuki
画像認識の初歩、SIFT,SURF特徴量
画像認識の初歩、SIFT,SURF特徴量
takaya imai
【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models
Deep Learning JP
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習
Eiji Uchibe
【DL輪読会】"A Generalist Agent"
【DL輪読会】"A Generalist Agent"
Deep Learning JP
[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANs
Deep Learning JP
トピックモデルの評価指標 Perplexity とは何なのか?
トピックモデルの評価指標 Perplexity とは何なのか?
hoxo_m
【DL輪読会】DayDreamer: World Models for Physical Robot Learning
【DL輪読会】DayDreamer: World Models for Physical Robot Learning
Deep Learning JP
AHC-Lab M1勉強会 論文の読み方・書き方
AHC-Lab M1勉強会 論文の読み方・書き方
Shinagawa Seitaro
backbone としての timm 入門
backbone としての timm 入門
Takuji Tahara
Generative Adversarial Imitation Learningの紹介(RLアーキテクチャ勉強会)
Generative Adversarial Imitation Learningの紹介(RLアーキテクチャ勉強会)
Yusuke Nakata
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder
Sho Tatsuno
Active Learning 入門
Active Learning 入門
Shuyo Nakatani
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning
Deep Learning JP
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた
Katsuya Ito
生成モデルの Deep Learning
生成モデルの Deep Learning
Seiya Tokui
Transformerを雰囲気で理解する
Transformerを雰囲気で理解する
AtsukiYamaguchi1
Was ist angesagt?
(20)
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
強化学習その3
強化学習その3
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜
深層生成モデルと世界モデル
深層生成モデルと世界モデル
画像認識の初歩、SIFT,SURF特徴量
画像認識の初歩、SIFT,SURF特徴量
【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習
【DL輪読会】"A Generalist Agent"
【DL輪読会】"A Generalist Agent"
[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANs
トピックモデルの評価指標 Perplexity とは何なのか?
トピックモデルの評価指標 Perplexity とは何なのか?
【DL輪読会】DayDreamer: World Models for Physical Robot Learning
【DL輪読会】DayDreamer: World Models for Physical Robot Learning
AHC-Lab M1勉強会 論文の読み方・書き方
AHC-Lab M1勉強会 論文の読み方・書き方
backbone としての timm 入門
backbone としての timm 入門
Generative Adversarial Imitation Learningの紹介(RLアーキテクチャ勉強会)
Generative Adversarial Imitation Learningの紹介(RLアーキテクチャ勉強会)
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder
Active Learning 入門
Active Learning 入門
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた
生成モデルの Deep Learning
生成モデルの Deep Learning
Transformerを雰囲気で理解する
Transformerを雰囲気で理解する
Andere mochten auch
SGD+α: 確率的勾配降下法の現在と未来
SGD+α: 確率的勾配降下法の現在と未来
Hidekazu Oiwa
機械学習プロフェッショナルシリーズ 深層学習 chapter3 確率的勾配降下法
機械学習プロフェッショナルシリーズ 深層学習 chapter3 確率的勾配降下法
zakktakk
クラシックな機械学習の入門 6. 最適化と学習アルゴリズム
クラシックな機械学習の入門 6. 最適化と学習アルゴリズム
Hiroshi Nakagawa
20151112 kutech lecture_ishizaki_public
20151112 kutech lecture_ishizaki_public
Kazuaki Ishizaki
はじめてのパターン認識 第5章 k最近傍法(k_nn法)
はじめてのパターン認識 第5章 k最近傍法(k_nn法)
Motoya Wakiyama
Prml4.4 ラプラス近似~ベイズロジスティック回帰
Prml4.4 ラプラス近似~ベイズロジスティック回帰
Yuki Matsubara
PRMLの線形回帰モデル(線形基底関数モデル)
PRMLの線形回帰モデル(線形基底関数モデル)
Yasunori Ozaki
線形?非線形?
線形?非線形?
nishio
グラフィカルモデル入門
グラフィカルモデル入門
Kawamoto_Kazuhiko
Deep learning実装の基礎と実践
Deep learning実装の基礎と実践
Seiya Tokui
サルでもわかるディープラーニング入門 (2017年) (In Japanese)
サルでもわかるディープラーニング入門 (2017年) (In Japanese)
Toshihiko Yamakami
Deep Convolutional Generative Adversarial Networks - Nextremer勉強会資料
Deep Convolutional Generative Adversarial Networks - Nextremer勉強会資料
tm_2648
IIBMP2016 深層生成モデルによる表現学習
IIBMP2016 深層生成モデルによる表現学習
Preferred Networks
機械学習の理論と実践
機械学習の理論と実践
Preferred Networks
Andere mochten auch
(14)
SGD+α: 確率的勾配降下法の現在と未来
SGD+α: 確率的勾配降下法の現在と未来
機械学習プロフェッショナルシリーズ 深層学習 chapter3 確率的勾配降下法
機械学習プロフェッショナルシリーズ 深層学習 chapter3 確率的勾配降下法
クラシックな機械学習の入門 6. 最適化と学習アルゴリズム
クラシックな機械学習の入門 6. 最適化と学習アルゴリズム
20151112 kutech lecture_ishizaki_public
20151112 kutech lecture_ishizaki_public
はじめてのパターン認識 第5章 k最近傍法(k_nn法)
はじめてのパターン認識 第5章 k最近傍法(k_nn法)
Prml4.4 ラプラス近似~ベイズロジスティック回帰
Prml4.4 ラプラス近似~ベイズロジスティック回帰
PRMLの線形回帰モデル(線形基底関数モデル)
PRMLの線形回帰モデル(線形基底関数モデル)
線形?非線形?
線形?非線形?
グラフィカルモデル入門
グラフィカルモデル入門
Deep learning実装の基礎と実践
Deep learning実装の基礎と実践
サルでもわかるディープラーニング入門 (2017年) (In Japanese)
サルでもわかるディープラーニング入門 (2017年) (In Japanese)
Deep Convolutional Generative Adversarial Networks - Nextremer勉強会資料
Deep Convolutional Generative Adversarial Networks - Nextremer勉強会資料
IIBMP2016 深層生成モデルによる表現学習
IIBMP2016 深層生成モデルによる表現学習
機械学習の理論と実践
機械学習の理論と実践
Mehr von nishio
量子アニーリングマシンのプログラミング
量子アニーリングマシンのプログラミング
nishio
夏プロ報告
夏プロ報告
nishio
ITと経営
ITと経営
nishio
部分観測モンテカルロ計画法を用いたガイスターAI
部分観測モンテカルロ計画法を用いたガイスターAI
nishio
交渉力について
交渉力について
nishio
If文から機械学習への道
If文から機械学習への道
nishio
組織横断型研究室構想
組織横断型研究室構想
nishio
2017首都大学東京情報通信特別講義
2017首都大学東京情報通信特別講義
nishio
強化学習その5
強化学習その5
nishio
良いアイデアを出すための方法
良いアイデアを出すための方法
nishio
強化学習その4
強化学習その4
nishio
強化学習その2
強化学習その2
nishio
強化学習その1
強化学習その1
nishio
機械学習キャンバス0.1
機械学習キャンバス0.1
nishio
首都大学東京「情報通信特別講義」2016年西尾担当分
首都大学東京「情報通信特別講義」2016年西尾担当分
nishio
Wifiで位置推定
Wifiで位置推定
nishio
ESP8266EXで位置推定
ESP8266EXで位置推定
nishio
Raspberry PiでWifiルータを作る
Raspberry PiでWifiルータを作る
nishio
Wifiにつながるデバイス(ESP8266EX, ESP-WROOM-02, ESPr Developerなど)
Wifiにつながるデバイス(ESP8266EX, ESP-WROOM-02, ESPr Developerなど)
nishio
「ネットワークを作る」ってどういうこと?
「ネットワークを作る」ってどういうこと?
nishio
Mehr von nishio
(20)
量子アニーリングマシンのプログラミング
量子アニーリングマシンのプログラミング
夏プロ報告
夏プロ報告
ITと経営
ITと経営
部分観測モンテカルロ計画法を用いたガイスターAI
部分観測モンテカルロ計画法を用いたガイスターAI
交渉力について
交渉力について
If文から機械学習への道
If文から機械学習への道
組織横断型研究室構想
組織横断型研究室構想
2017首都大学東京情報通信特別講義
2017首都大学東京情報通信特別講義
強化学習その5
強化学習その5
良いアイデアを出すための方法
良いアイデアを出すための方法
強化学習その4
強化学習その4
強化学習その2
強化学習その2
強化学習その1
強化学習その1
機械学習キャンバス0.1
機械学習キャンバス0.1
首都大学東京「情報通信特別講義」2016年西尾担当分
首都大学東京「情報通信特別講義」2016年西尾担当分
Wifiで位置推定
Wifiで位置推定
ESP8266EXで位置推定
ESP8266EXで位置推定
Raspberry PiでWifiルータを作る
Raspberry PiでWifiルータを作る
Wifiにつながるデバイス(ESP8266EX, ESP-WROOM-02, ESPr Developerなど)
Wifiにつながるデバイス(ESP8266EX, ESP-WROOM-02, ESPr Developerなど)
「ネットワークを作る」ってどういうこと?
「ネットワークを作る」ってどういうこと?
Kürzlich hochgeladen
東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2
東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2
Tokyo Institute of Technology
2024年度 東京工業大学 工学院 機械系 大学院 修士課程 入試 説明会 資料
2024年度 東京工業大学 工学院 機械系 大学院 修士課程 入試 説明会 資料
Tokyo Institute of Technology
世界を変えるクレーンを生み出そう! 高知エンジニアリングキャンプ2024プログラム
世界を変えるクレーンを生み出そう! 高知エンジニアリングキャンプ2024プログラム
Kochi Eng Camp
次世代機の製品コンセプトを描く ~未来の機械を創造してみよう~
次世代機の製品コンセプトを描く ~未来の機械を創造してみよう~
Kochi Eng Camp
生成AIの回答内容の修正を課題としたレポートについて:お茶の水女子大学「授業・研究における生成系AIの活用事例」での講演資料
生成AIの回答内容の修正を課題としたレポートについて:お茶の水女子大学「授業・研究における生成系AIの活用事例」での講演資料
Takayuki Itoh
ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学
ssusere0a682
Kürzlich hochgeladen
(6)
東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2
東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2
2024年度 東京工業大学 工学院 機械系 大学院 修士課程 入試 説明会 資料
2024年度 東京工業大学 工学院 機械系 大学院 修士課程 入試 説明会 資料
世界を変えるクレーンを生み出そう! 高知エンジニアリングキャンプ2024プログラム
世界を変えるクレーンを生み出そう! 高知エンジニアリングキャンプ2024プログラム
次世代機の製品コンセプトを描く ~未来の機械を創造してみよう~
次世代機の製品コンセプトを描く ~未来の機械を創造してみよう~
生成AIの回答内容の修正を課題としたレポートについて:お茶の水女子大学「授業・研究における生成系AIの活用事例」での講演資料
生成AIの回答内容の修正を課題としたレポートについて:お茶の水女子大学「授業・研究における生成系AIの活用事例」での講演資料
ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学
勾配降下法の最適化アルゴリズム
1.
勾配降下法の 最適化アルゴリズム (Adagrad, Adadelta, Adam) 2016-10-07 サイボウズ・ラボ 西尾泰和
2.
このスライドの目的 • 勾配降下法はDeep Learningの学習で重要な役 割を果たす最適化手法 •
Deep Leaningに限らず応用分野の広いツール • ここ数年でアルゴリズムの改良が提案されて いるのでそれについて整理する 2
3.
勾配降下法 最適化(関数の最小値を求めること)の方法の一つ 関数が微分できることが条件 各点での微分(=勾配)をみて、一番勾配が急な方 向に降りていく* 3 * 一番原始的な「最急降下法」の場合
4.
勾配が0の点 3通りある 4
5.
すべての軸で二回微分が負 勾配0の点から遠ざかる 方向に動くので、 この点にハマって動けな くなることは確率的には とても起こりにくい。 5
6.
すべての軸で二回微分が正 勾配0の点に近づく方向 に動き、ここに集まる。 この点が関数の定義域 全体で最小値なのかは わからないのだけど、 それは勾配法ではどう しようもないので気に しない* 6 * 対処法:焼きなまし法とか初期値を変えて何度も計算とか
7.
二回微分の符号が異なる 関数の定義域が高次元 の場合、このパターン が圧倒的に多い。* これをうまく避けたい 7 * 10次元の時、99.8%ぐらい Identifying and
attacking the saddle point problem in high-dimensional non-convex optimization https://arxiv.org/pdf/1406.2572v1.pdf
8.
Alec Radfordによる可視化 8
9.
Alec Radfordによる可視化 9
10.
各アルゴリズム解説 • 最急降下法 • モメンタム •
Nesterov accelerated gradient • Adagrad • Adadelta • Adam 10
11.
最急降下法 1. 現在位置𝑥𝑡での勾配𝑔(𝑥𝑡)を計算 2. その勾配に学習率𝜂を掛けたもので位置を更新 11 𝑥
𝑡+1 = 𝑥 𝑡 − 𝜂𝑔(𝑥 𝑡)
12.
モメンタム アイデア「慣性を付けたらいいんじゃない?」 1. 現在位置𝑥𝑡での勾配𝑔(𝑥𝑡)に学習率を掛ける 2. 前回の更新量に0.9ぐらいの減衰率を掛ける 3.
両方使って位置を更新 12 𝑥 𝑡+1 = 𝑥 𝑡 + 𝛾(𝑥 𝑡 − 𝑥 𝑡−1) − 𝜂𝑔(𝑥 𝑡)
13.
Nesterov accelerated gradient アイデア「一歩先の地点の勾配を使おう」 13 上:
モメンタム 下: NAG 青矢印が矢印根元 での勾配 図の簡略化のため 学習率や減衰率は 1にした
14.
Nesterov accelerated gradient 数式的には
𝑣𝑡 = 𝛾 𝑥𝑡 − 𝑥𝑡−1 として モメンタム 𝑥𝑡+1 = 𝑥𝑡 + 𝑣𝑡 − 𝜂𝑔(𝑥𝑡) NAG 𝑥𝑡+1 = 𝑥𝑡 + 𝑣𝑡 − 𝜂𝑔(𝑥𝑡 + 𝑣𝑡) 14
15.
Adagrad ここまでの話はいったん全部忘れて 「そもそも学習率がどの軸でも同じって おかしいんじゃないの?」 特に確率的勾配降下法と組み合わせて 使うことを考えた場合 「まれにしか観測されない特徴」 →「その軸方向の勾配が多くの場合ゼロ」 まれな特徴が観測されたときには その軸方向には大きく学習したい 15
16.
Adagrad そこで各軸方向の勾配の二乗和を溜めておいて 学習率をその平方根*で割ることで まれな特徴に対して学習率を高めにする。 学習率は他の方法と比べて10倍くらい大きくし ておく。ゼロ除算を避けるために分母に小さい値 を足す。 16 * RMS: Root
mean square
17.
Adagradの問題点 勾配の二乗は常に非負なので 学習率は単調非増加。 学習初期に勾配のきついところを通ると それ以降ずっとその軸方向の学習率が 小さくなってしまう。 これでいいのか? 17
18.
Adadelta アイデア1「過去の勾配の二乗和全部を使うん じゃなくて、最近のだけ使おう」 最近n件を取っておくのはメモリ消費が大きいの で指数平滑移動平均を使う 18 ADADELTA: AN ADAPTIVE
LEARNING RATE METHOD https://arxiv.org/pdf/1212.5701v1.pdf
19.
Adadelta アイデア2「単位を合わそう」 Adagradに限らず、SGDやモメンタムでも 「単位があっていない」 19
20.
単位とは? 例えば1次元の関数fで、xの単位がメートル(m) yの単位がキログラム(kg)である場合を考える。 fの勾配の単位はもちろん kg/m SGDの更新式ではmにkg/mを足していておかし い。Adagradではkg/mをkg/mで割って無単位量 になっててやっぱりおかしい。 20
21.
ニュートン法 ニュートン法の場合は 「yの値をfの勾配で割ったもの」 をxの更新に使う。 先ほどの例なら「kg を kg/m
で割ったもの」 でmの値の更新をすることになる。 これなら単位はおかしくない。 21
22.
Adadeltaの単位合わせ 「過去のxの更新差分の平均」を 「過去の勾配の平均」で割って 今の勾配を掛けたものを xの更新差分とする。→単位OK 22 * RMS: Root
mean square
23.
単位合わせのメリット 単位のあってないSGDでは関数fの最適化と fを単に10倍した関数の最適化とで 振る舞いが違う(後者が10倍大きい幅で更新する) この差を吸収するのが「学習率」なる値で 後者の関数の最適化において 更新幅が大きくなりすぎないようにするためには 10倍小さい学習率にする必要がある。 Adadeltaではyの単位が影響しないので、この目 的で学習率をチューニングする必要がない 23
24.
学習率不要 論文中の数式、上から最急降下法、モメンタム、 Adagrad、Adadelta。Adadeltaだけ学習率ηがな いことに注目。 24
25.
Adam adaptive moment estimation 勾配の1乗を溜めこむモメンタム 勾配の2乗を溜めこむAdagrad これって要するに1次と2次のモーメント推定 じゃないか!というのがAdamのアイデア 25 ADAM:
A METHOD FOR STOCHASTIC OPTIMIZATION https://arxiv.org/pdf/1412.6980v8.pdf
26.
アルゴリズム 26
27.
抜粋 𝑚 𝑡 ←
𝛽1 𝑚 𝑡−1 + 1 − 𝛽1 𝑔𝑡 𝑣𝑡 ← 𝛽2 𝑣𝑡−1 + 1 − 𝛽2 𝑔𝑡 2 𝜃𝑡 ← 𝜃𝑡−1 − 𝛼 𝑚 𝑡 𝑣𝑡 + 𝜖 27 mが1次のモーメント(モメンタム相当) vが2次のモーメント、これの平方を分母に置くのが Adagradの「勾配のRMSを分母に置く」に相当。 * RMS: Root mean square
28.
Adamは単位おかしい AdamはAdagradとRMSPropから派生しているの で、Adadeltaが指摘した「単位おかしい」問題は そのまま引き継いでしまっている。 28
29.
実験 Adam著者ら「AdaDeltaよりNesterovがよい」 29
30.
Adam筆者らによる解釈 なぜNesterovがAdagradよりよいのか? CNNの実験では2次のモーメントがゼロにvanish 2次のモーメントしか使ってないAdagradは無力 1次のモーメントが収束の高速化に寄与したので はないか。 一方1次のモーメントを使っているNesterovより もさらに性能が良いのは「軸ごとの学習率」が効 いているのではないか 30
31.
疑問点 「 CNNの実験では2次のモーメントがゼロに vanish」 それβが小さいとかαとεの比がおかしいとかじゃ ないのか……? βが小さいと過去のデータを素早く忘れすぎる。 2次のモーメントがεに比べて小さい件は、εを小 さくしてαも同率で小さくすれば済む話。 そもそも初期値依存の激しい問題で1回の実験結 果を見て議論してもアレなので初期値とパラメー タを変えて何度も実験してほしい。 31
32.
感想 Adamはモメンタム系とAdagradの「各軸ごとの 学習率」の良いとこどりをしているが、Adadelta の「単位正しく」は取り込んでいない。 そこも取り込んだ手法が今後生まれるのかもしれ ない。 32
Jetzt herunterladen