SlideShare ist ein Scribd-Unternehmen logo
1 von 62
1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
Flow-based Deep Generative Models
Presenter: Masahiro Suzuki, Matsuo Lab
発表内容について
• フローベース生成モデルのまとめ
– フローベース生成モデル:深層生成モデルのアプローチの一つ
– 他の深層生成モデル(VAE,GAN)にはない利点を持っている(尤度が求められる,逆変換ができる,
など)
• 選定理由
– あまりフローベースをまとめている資料がなかったので
– 最近フローの進歩が目覚ましいので
– 先日の講義の資料が使い回せるので
• 参考にしたページ・サイト
– https://lilianweng.github.io/lil-log/2018/10/13/flow-based-deep-generative-models.html,
Lilian Weng (正直このページ見れば充分)
– https://blog.evjang.com/2018/01/nf1.html, Eric Jang(正規化フローのチュートリアル)
– この2つのサイトから図もお借りしています.
• フローベース研究の頭のおかしさ(いい意味で)が伝われば幸いです.
2
深層生成モデル(おさらい)
3
生成モデル
• データの生成過程を数理的にモデル化したもの
– 数理モデルは確率分布によって表される
– 𝑥𝑖が確率𝑝 𝑥; 𝜃 から生成されるときは𝑥𝑖 ~𝑝 𝑥; 𝜃 と表記する.
– 𝑝 𝑥; 𝜃 を𝑝 𝜃 𝑥 と書くこともある
観測データ
𝑝 𝑥; 𝜃
生成モデル生成
学習
パラメータ
観測データはある数理モデルから
生成されたとする
4
生成モデルの学習
• 真の分布(データ分布)𝑝 𝑑𝑎𝑡𝑎(𝑥)と近いモデル分布(生成モデル)𝑝 𝜃(𝑥)を求めたい
– つまり適切な 𝜃を求めたい
– データ分布は実際にはわからないことにも注意
• カルバック・ライブラー(KL)ダイバージェンスで分布間の「距離」を測る.
• したがって,対数尤度関数の期待値を最大化するようなパラメータを選べば良い(最尤推定).
– 実際にはデータ分布は得られないので,サンプル近似(訓練データ)で推定.
𝑝 𝜃(𝑥)𝑝 𝑑𝑎𝑡𝑎(𝑥)
𝐷 𝐾𝐿[𝑝 𝑑𝑎𝑡𝑎(𝑥)||𝑝 𝜃(𝑥)]
= 𝑝 𝑑𝑎𝑡𝑎(𝑥) log
𝑝 𝑑𝑎𝑡𝑎(𝑥)
𝑝 𝜃(𝑥)
𝑑𝑥 = 𝐸 𝑝 𝑑𝑎𝑡𝑎(𝑥) log 𝑝 𝑑𝑎𝑡𝑎(𝑥) − 𝐸 𝑝 𝑑𝑎𝑡𝑎(𝑥) log 𝑝 𝜃(𝑥)
対数尤度関数
𝐸 𝑝 𝑑𝑎𝑡𝑎(𝑥) log 𝑝 𝜃(𝑥) ≅
1
𝑁
𝑛=1
𝑁
log 𝑝 𝜃 𝑥 𝑛 , ただし𝑥 𝑛~𝑝 𝑑𝑎𝑡𝑎(𝑥)
5
深層生成モデル
• 生成モデルを深層ニューラルネットワーク(DNN)によって表現する(深層生成モデル).
– 従来の確率分布だと,複雑な入力を直接扱えない.
– DNNで表現することで,より複雑な入力xを扱えるようになる.
• 一般物体画像のような複雑な画像も生成できる
• DNNによるモデル化には次のようなアプローチがある(有向モデルの場合).
– 𝑝(𝑥|𝑧) (生成器,generator)をモデル化する.
• 𝑧を入力,𝑥を出力とするDNN𝑥 = 𝑓(𝑧)によって表現.
• VAE,GAN,フローベースなど.
– 𝑝(𝑥)を直接モデル化する(自己回帰モデル).
• 𝑝 𝑥 = 𝑖 𝑝(𝑥𝑖|𝑥1, … , 𝑥𝑖−1)として,各条件付き分布をモデル化.
• NADE[Larochelle+ 11],PixelRNN(CNN)[Oord+ 16] など.
生成器 𝑥𝑧
https://deepmind.com/blog/wavenet-generative-model-raw-audio/
6
深層生成モデルの分類
• 一部例外あり(例えばエンコーダを持つGANなど)
• (項目は独断と偏見)
7
有向 or
無向
確率密度関数が
明示的or暗黙的
学習するモデル 学習方法 サンプリング
(生成)
潜在変数への推論
エネルギーベース
(RBM)
無向 明示的 エネルギー関数 𝐸(𝑥, 𝑧) 対数尤度の最大化
(CD法)
低コスト 可能
VAE 有向 明示的 生成モデル 𝑝 𝑥 𝑧
推論モデル 𝑞 𝑧 𝑥
ELBOの最大化 低コスト 近似事後分布(推論分
布)によって可能
自己回帰モデル 有向 明示的 条件付きモデル(の積)
𝑖
𝑝(𝑥𝑖|𝑥1, … , 𝑥𝑖−1)
対数尤度の最大化 高コスト 潜在変数自体がない
フローベース
(可逆な生成モデル)
有向 明示的 フロー 𝑥 = 𝑓(𝑧) 対数尤度の最大化 低コスト フローの逆変換で可能
GAN 有向 暗黙的 生成器 𝐺(𝑧)
識別器 𝐷(𝑥)
敵対的学習 低コスト 推論はモデル化されない
有向 or
無向
確率密度関数が
明示的or暗黙的
学習するモデル 学習方法 サンプリング
(生成)
潜在変数への推論
エネルギーベース
(RBM)
無向 明示的 エネルギー関数 𝐸(𝑥, 𝑧) 対数尤度の最大化
(CD法)
低コスト 可能
VAE 有向 明示的 生成モデル 𝑝 𝑥 𝑧
推論モデル 𝑞 𝑧 𝑥
ELBOの最大化 低コスト 近似事後分布(推論分
布)によって可能
自己回帰モデル 有向 明示的 条件付きモデル(の積)
𝑖
𝑝(𝑥𝑖|𝑥1, … , 𝑥𝑖−1)
対数尤度の最大化 高コスト 潜在変数自体がない
フローベース
(可逆な生成モデル)
有向 明示的 フロー 𝑥 = 𝑓(𝑧) 対数尤度の最大化 低コスト フローの逆変換で可能
GAN 有向 暗黙的 生成器 𝐺(𝑧)
識別器 𝐷(𝑥)
敵対的学習 低コスト 推論はモデル化されない
深層生成モデルの分類
• 一部例外あり(例えばエンコーダを持つGANなど)
• (項目は独断と偏見)
フローベース生成モデル
8
フローベース生成モデル
9
潜在空間を含んだモデル
• 次のような潜在変数𝑧~𝑝 𝑧(𝑧)を持つ確率モデルを考える.
• 𝑝𝑧(𝑧)は尤度やサンプリングが容易な確率分布とする.
• 𝑧から𝑥については決定論的な写像𝑥 = 𝑓(𝑧)を用いるとする.
– なお,写像𝑓は可逆(𝑧 = 𝑓−1
(𝑥))とする(=全単射).
– また,𝑥と𝑧の次元は同じとする.
-> 𝑥についての確率密度関数𝑝 𝑥(𝑥)を求めるには ?
𝑥
𝑧
𝑥 = 𝑓(𝑧)
𝑧~ 𝑝 𝑧(𝑧)
10
確率密度関数における変数変換
• 確率密度関数の変数変換の公式より,𝑥における確率密度関数は以下のように計算できる.
– 𝑥が1次元(スカラー)のとき
– 𝑥が多次元(多変量)のとき
• det
𝑑𝑓−1(𝐱)
𝑑𝐱
はヤコビ行列式(ヤコビアン,Jacobian)
𝑝 𝑥 𝑥 = 𝑝 𝑧 𝑧
𝑑𝑧
𝑑𝑥
= 𝑝 𝑧 𝑓−1(𝑥)
𝑑𝑓−1
(𝑥)
𝑑𝑥
𝑝 𝑥 𝐱 = 𝑝 𝑧 𝐳 det
𝑑𝐳
𝑑𝐱
= 𝑝 𝑧 𝑓−1(𝐱) det
𝑑𝑓−1(𝐱)
𝑑𝐱
11
変数変換の直感的なイメージ
• 確率密度関数の積分(微小区間では四角形の面積)は変数変換前後で等しくなければならない
• 分布を保つ上では,変化の「量」だけを気にすればいいので,変換後の確率密度関数は,
– 変数が2次元や3次元になると,微小量変化の比は「面積」や「体積」になる(行列式になる理由)
𝑝 𝑦 = 𝑝 𝑥
𝑑𝑥
𝑑𝑦
𝑝 𝑥 𝑑𝑥 = 𝑝 𝑦 𝑑𝑦
12
変数変換による対数尤度関数
• 変数変換によって,対数尤度関数(生成モデルの目的関数)は,
となる.
𝑥
𝑧
𝑥 = 𝑓(𝑧)
𝑧~ 𝑝 𝑧(𝑧)
log 𝑝 𝑥 𝐱 = log 𝑝 𝑧 𝑓−1(𝐱) + log det
𝑑𝑓−1(𝐱)
𝑑𝐱
13
正規化フロー
• 式より,𝑓は「可逆」かつ「ヤコビ行列式が簡単に計算できなればならない」.
• しかし,そのような𝑓は単純な変換しかできない.
– これまでの深層生成モデルように,複雑な関数で変数間の関係をモデル化したい.
• そこで,𝑓を繰り返し適用する(関数の合成)ことで複雑な分布を表現することを考える.
可逆な写像𝑓による𝑧~ 𝑝 𝑧(𝑧)からの合成変換の流れのことをフロー(flow)といい,フローに
よって有効な分布が構成される場合は正規化フロー(normalizing flow)という.
𝐱 = 𝐳 𝐾 = 𝑓𝐾 ∘ 𝑓𝐾−1 ∘ ⋯ ∘ 𝑓1(𝐳0)
14
フローのポイント
• 可逆な写像で構成されているので,そのフローの合成関数も可逆となる.
• 𝑝(𝐱)からのサンプリングのためには,𝑝0(𝐳0)だけサンプリングすればいい.
• したがって,任意の関数ℎの𝑝(𝐱)における期待値計算も,𝑝0(𝐳0)における期待値になる.
𝔼 𝐱~𝑝(𝐱)
ℎ 𝐱 = 𝔼 𝐳0~𝑝0 𝐳0
[ℎ(𝑓𝐾 ∘ 𝑓𝐾−1 ∘ ⋯ ∘ 𝑓1(𝐳0))]
𝑓𝐾 ∘ 𝑓𝐾−1 ∘ ⋯ ∘ 𝑓1 𝐳0
−1
= 𝑓1
−1
∘ ⋯ ∘ 𝑓𝐾−1
−1
∘ 𝑓𝐾
−1
𝐳 𝐾
15
フローの対数尤度関数
• ある時点𝑖の分布𝑝𝑖(𝐳𝑖)は,
• よって,
𝑝𝑖 𝐳𝑖 = 𝑝𝑖−1(𝑓𝑖
−1
𝐳𝑖 ) det
𝑑𝑓𝑖
−1
𝑑𝑧𝑖
= 𝑝𝑖−1(𝐳𝑖−1) det
𝑑𝑓𝑖
𝑑𝐳𝑖−1
−1
= 𝑝𝑖−1(𝐳𝑖−1) det
𝑑𝑓𝑖
𝑑𝐳𝑖−1
−1
det 𝑀−1
= det 𝑀 −1
𝑥 = 𝑓(𝑧), 𝑧 = 𝑓−1
(𝑥)のとき
𝑑𝑓−1
𝑑𝑥
=
𝑑𝑧
𝑑𝑥
=
𝑑𝑥
𝑑𝑧
−1
=
𝑑𝑓
𝑑𝑧
−1
log 𝑝𝑖 𝐳𝑖 = log 𝑝𝑖−1(𝐳𝑖−1) − log det
𝑑𝑓𝑖
𝑑𝐳𝑖−1
16
フローの対数尤度関数
• したがって,フローの対数尤度関数は
log 𝑝 (𝐱) = log 𝑝 𝐾(𝐳 𝐾) = log 𝑝 𝐾−1 𝐳 𝐾−1 − log det
𝑑𝑓𝐾
𝑑𝐳 𝐾−1
= (log 𝑝 𝐾−2 𝐳 𝐾−2 − log det
𝑑𝑓𝐾−1
𝑑𝐳 𝐾−2
) − log det
𝑑𝑓𝐾
𝑑𝐳 𝐾−1
= log 𝑝0 𝐳0 −
𝑖=1
𝐾
log det
𝑑𝑓𝑖
𝑑𝐳𝑖−1
= ⋯
各層でlog-Jacobianを計算する
17
フローベース生成モデルの種類
• 「フローベース」と一言で言っても,使われ方などで次の3種類に分類することができる.
1. 可逆な生成モデル:フローによって潜在変数を持つ生成モデルを設計
2. 自己回帰フロー:自己回帰モデルの条件付きモデルにフローを用いる
3. フローによる変分推論:フローを変分推論の近似事後分布を柔軟にするために利用
– 各分類の名前は適当につけた.
[Grathwohl+ 18]では,それぞれ
1. Partitioned transformations
2. Autoregressive transformations
3. Normalizing flows
と呼んでいる(これらの総称をreversible generative modelsとしている).
– 実際はそれぞれ独立ではない.
• IAFのように,2と3の両方のモデルとかある
18
フローによる可逆な生成モデル
19
可逆な生成モデル
• フローベースでは,従来の深層生成モデルで困難だった推論は逆変換によって直ちに計算できる.
-> 可逆な生成モデル (invertible generative model)
• フローを用いて可逆な生成モデルを設計するためには,各層の𝑓のヤコビ行列式(Jacobian)が簡
単に計算できることが必要
– 各層に対応する複数のヤコビ行列式があるので,計算コストとメモリコストが重要
注:この図では推論を𝑓,生成を𝑓−1
としています(その場合ヤコビアンの項の符号が逆になる)
20
深層生成モデルの比較
• VAEでは推論のために推論モデル(エンコーダ)が必要だったが,フローベースでは単一の
モデルでできる.
21
ヤコビ行列式
• 𝑓: ℝ 𝑛
→ ℝ 𝑛
のヤコビ行列式は,
次元𝑛が大きくなるほど,ヤコビ行列式の計算は困難になる.
• なるべくヤコビ行列式の計算を節約するには?
det
𝑑𝑓1
𝑑𝑥1
⋯
𝑑𝑓1
𝑑𝑥 𝑛
⋮ ⋱ ⋮
𝑑𝑓𝑛
𝑑𝑥1
⋯
𝑑𝑓𝑛
𝑑𝑥 𝑛
22
三角行列と行列式の計算
• 三角行列の行列式は,
となり,対角成分の積で計算できる.
– 上の例は,上三角行列.
– 任意の正則行列は,LU分解で2つの三角行列(上三角と下三角)に分解できる.
• フローのヤコビ行列式の計算も,なんらかの方法で三角行列に制約してコスト削減したい.
– しかし,写像𝑓の「重み」自体を三角行列に制約するのは,アーキテクチャが限定されすぎる.
-> 重みではなく,ヤコビ行列式が三角行列になる可逆変換𝑓を考える.
det
𝑎11 ⋯ 𝑎1𝑛
⋮ ⋱ ⋮
0 ⋯ 𝑎 𝑛𝑛
= 𝑎11 ⋯ 𝑎 𝑛𝑛
23
カップリング層
• 入力𝑥 ∈ ℝ 𝐷を2つのブロックに分ける.
– 𝑥 = 𝑥1:d: 𝑥 𝑑+1:𝐷 = [𝑥𝐼1
: 𝑥𝐼2
]
• それぞれのブロックに対して,次のような変換を考える(カップリング層)
– ただし,𝑔: ℝ 𝐷−𝑑 × 𝑚 ℝ 𝑑 → ℝ 𝐷−𝑑は可逆関数, 𝑚は任意の関数(ニューラルネットワークなど,
カップリング関数という)
𝑦𝐼1
= 𝑥𝐼1
𝑦𝐼2
= 𝑔(𝑥𝐼2
; 𝑚 𝑥𝐼1
)
24
カップリング層のヤコビ行列式
• カップリング層のヤコビ行列は,
𝑑𝑦 𝐼1
𝑑𝑥 𝐼1
= 𝐼 𝑑,
𝑑𝑦 𝐼1
𝑑𝑥 𝐼2
= 0より,
• 三角行列になるので,ヤコビ行列式は,
となる.
𝑑𝑦
𝑑𝑥
=
𝑑𝑦𝐼1
𝑑𝑥𝐼1
𝑑𝑦𝐼1
𝑑𝑥𝐼2
𝑑𝑦𝐼2
𝑑𝑥𝐼1
𝑑𝑦𝐼2
𝑑𝑥𝐼2
=
𝐼 𝑑 0
𝑑𝑦𝐼2
𝑑𝑥𝐼1
𝑑𝑦𝐼2
𝑑𝑥𝐼2
𝑦𝐼1
= 𝑥𝐼1
𝑦𝐼2
= 𝑔(𝑥𝐼2
; 𝑚 𝑥𝐼1
)
det
𝑑𝑦
𝑑𝑥
= det
𝑑𝑦𝐼2
𝑑𝑥𝐼2
->𝐷 × 𝐷の行列式から, (𝐷 − 𝑑) × (𝐷 − 𝑑)の行列式になる
25
カップリング層の逆変換
• カップリング層
• 𝑔は可逆写像なので,カップリング層の逆変換は,
となる.
– 𝑚は逆変換の必要がないことに注意
𝑦𝐼1
= 𝑥𝐼1
𝑦𝐼2
= 𝑔(𝑥𝐼2
; 𝑚 𝑥𝐼1
)
𝑥𝐼1
= 𝑦𝐼1
𝑥𝐼2
= 𝑔−1(𝑦𝐼2
; 𝑚 𝑦𝐼1
)
26
NICE
• Non-linear Independent Component Estimation(NICE)[Dinh+ 14]
– 𝑔に加法カップリング(additive coupling)を利用:𝑔(𝑎; 𝑏) = 𝑎 + 𝑏
– カップリング層は,
– このとき,逆変換は
– また,ヤコビ行列式は
となり,変換前後で体積が不変(volume preserving)となる.
• したがって,対数尤度関数は単にフロー𝑧 = 𝑓(𝑥)によって
𝑦𝐼1
= 𝑥𝐼1
𝑦𝐼2
= 𝑥𝐼2
+ 𝑚 𝑥𝐼1
𝑥𝐼1
= 𝑦𝐼1
𝑥𝐼2
= 𝑦𝐼2
− 𝑚 𝑦𝐼1
det
𝑑𝑦
𝑑𝑥
= det
𝑑𝑦𝐼2
𝑑𝑥𝐼2
= 1
log 𝑝 𝑥(𝑥) = log 𝑝 𝑧 𝑓 𝑥
27
NICEにおける工夫
• カップリング層の結合
– 変換していない入力に変換をかけるように,ブロックを交換して次のカップリング層に入力する(後ほ
ど説明)
– 全ての次元間での関係性を含めるには,少なくとも3層のカップリング層が必要
• スケーリング行列の導入
– 尤度計算は簡単になるが,分布もヤコビ行列式が1になるように制約されるため,変化しないという問題
がある.
– そこでスケーリング行列として対角行列𝑆を導入し,最上層にかける
– このとき,対数尤度は次のようになる(対角行列なので,行列式は対角成分の積)
• 事前分布𝑝 𝑧(𝑧)
– 各次元で独立とし,ロジスティック分布やガウス分布を利用
log 𝑝 𝑥 𝑥 =
𝑖=1
𝐷
[log 𝑝 𝑧𝑖 𝑓𝑖 𝑥 + log |𝑆𝑖𝑖|]
28
画像生成(NICE)
• 潜在変数からランダムにサンプリングして画像生成
29
Real NVP
• Real-valued Non-Volume Preserving(Real NVP)[Dinh+ 17]
– アフィンカップリング(affine coupling)を利用
– 𝑔 𝑎; 𝑏 = 𝑎⨀𝑏𝑠 + 𝑏𝑡, 𝑏𝑠 = exp 𝑠 𝑥𝐼1 ,𝑏𝑡 = 𝑡(𝑥𝐼1)
– ただし, 𝑠: ℝ 𝑑 → ℝ 𝐷−𝑑,𝑡: ℝ 𝑑 → ℝ 𝐷−𝑑.
• ヤコビ行列式は,
– NICEと異なり,行列式が1ではない(変換前後で体積が変わる(non-volume preserving) )
– 𝑑𝑖𝑎𝑔(exp(𝑠(𝑥𝐼1)))は対角行列なので,簡単に行列式が計算できる.
• 𝑠や𝑡についてのヤコビ行列式は計算しなくていい.
det
𝑑𝑦
𝑑𝑥
= det
𝐼 𝑑 0
𝑑𝑦𝐼2
𝑑𝑥𝐼1
𝑑𝑖𝑎𝑔(exp(𝑠(𝑥𝐼1)))
= 𝑑𝑖𝑎𝑔(exp(𝑠(𝑥𝐼1))) = exp(
𝑖=1
𝐷−𝑑
𝑠 𝑥𝐼1 𝑖
)
30
Real NVP
• カップリング層の変換は
• 逆変換は,
• 逆変換でも,𝑠や𝑡の逆変換を計算する必要がない
– Real NVPなどでは,𝑠や𝑡に畳み込みResNetを用いる.
𝑦𝐼1
= 𝑥𝐼1
𝑦𝐼2
= 𝑥𝐼2
⨀ exp 𝑠 𝑥𝐼1 + 𝑡 𝑥𝐼1
𝑥𝐼1
= 𝑦𝐼1
𝑥𝐼2
= (𝑦𝐼2
− 𝑡(𝑦𝐼1))⨀ exp −𝑠 𝑥𝐼1
31
マスキングによるカップリング
• マスク𝑏 ∈ {0,1}を用いると,カップリング層の変換は次のようにまとめて書ける
• 画像における全次元・チャネルの関係性を考慮するため,
1. 市松模様(左図)のマスク
2. スクイーズ(𝑠 × 𝑠 × 𝑐 →
𝑠
2
×
𝑠
2
× 4𝑐)
3. チャネルごと(前半と後半で分ける,右図)のマスク
を行う.
32
カップリング層の結合
• カップリング層では,一方のブロック 𝑥𝐼1
については変換されない( 𝑦𝐼1
= 𝑥𝐼1
)
• よって,カップリング変換していない部分については,次の層で変換することにする.
– 変換が互い違いになるイメージ
33
Multi-scale architecture
• 交互のカップリングK回(市松模様マスク)->スクイーズ->交互のカップリングK回(チャネル
ごとマスク)->逆スクイーズを1層とする(下図の𝑓) .
– 各カップリング処理では,畳み込みResNet+重み正規化+バッチ正規化
• それを多層にして全体を構成する.
– ただし各層でこの処理を行うのは計算コスト的に辛いので,層が増えたら,入力次元を半分減らすよう
にする(下図).
-> multi-scale architecture
34
画像生成(Real NVP)
NICEと比べて大幅に綺麗な画像を生成できるようになった.
35
Glow
• Glow[Kingma+ 2018]
– Real NVPのフローを改良した手法
• Glowでは次の2つの新たな工夫がある.
– Activation normalization(actnorm)
• バッチ正規化とほぼ同じだが,バッチサイズが1でも正規化可能
– Invertible 1×1 conv
• Glowではカップリング層の前に1×1の畳み込み処理を入れることで,チャネル間全体の依存関係を捉える.
-> Real NVPのような交互のマスクや,シャッフルなどをしなくてもいい.
• ただし1×1 convなので,次元間(画素間)については全ての関係性を捉えられない(なのでスクイーズは必要)
• 逆変換の際は,𝐖の逆行列の計算が必要だが,サイズが小さいので比較的簡単.
36
Glowのアーキテクチャ
• 基本的にはReal NVPと同じ.
• ただし,1×1 convのおかげで交互にマスクする話が出てこない
• 実験では,K(1層のフロー数)=32,L(層の数)=3などとしている
37
画像生成(Glow)
はるかに綺麗に生成できるようになった.
※Glowについて,より詳しくは河野くんの発表([DL輪読会]Glow: Generative Flow with Invertible 1×1
Convolutions)を参照 38
VideoFlow
• VideoFlow [Kumar+ 19]
– 4日前に出た論文(著者がめっちゃオールスター)
– ビデオ生成するフローベースモデル.
• 各時間ステップでの生成𝐱 𝑡 = 𝑓(𝐳 𝑡)にフローを利用
– Glowのmulti-scale architectureを用いる(𝐿層)
• 一方,対数尤度 𝑝(𝐱)の計算のために, 𝑝(𝐳) (事前分布)として,自己回帰的な因数分解を考える.
• 各時間ステップは潜在変数の階層で以下のように因数分解されるとする
– これは単純に , のようにパラメータ化
39
生成動画(VideoFlow)
• BAIR robot pushing dataset [Ebert+ 17]
• 温度パラメータは,事前分布の分散を調整 [Kingma+ 18]
• パラメータが大きい方が,よく動く一方ノイズが入りやすい.
• 動画は https://sites.google.com/view/videoflow/home に掲載されている.
40
フローによる可逆な生成モデルの利点・欠点
• 利点:
– 厳密な推論と,対数尤度の評価ができる.
• 既存の手法では,RBM系以外はできなかった.
• 画像生成以外にも,異常検知など,幅広い分野での利用が期待できる.
– 推論と生成の両方が効率的.
– 潜在変数内での操作ができる.
– メモリ使用量を層に対して抑えられる.
• 欠点:
– アーキテクチャに制限がある.
• 層を増やしても次元は変わらない.
• 逆変換やヤコビ行列式の計算が容易である層を利用する必要
– 各フローでヤコビ行列式などを取っておく必要から,全体としてはメモリコストがかかる.
41
自己回帰フロー
42
自己回帰モデル
• 𝑥 = [𝑥1, … , 𝑥 𝐷]について,尤度を各次元における条件付き分布の積で構成する.
– フローベースのように厳密に尤度を評価できる.
• 自己回帰モデルでは,どのように条件付き分布を効率的に計算できるかがポイント
– 1次元ごとに愚直に条件付き分布からサンプリングしていくと,計算コストが膨大になる.
𝑝 𝑥 =
𝑖=1
𝐷
𝑝 𝑥𝑖 𝑥1, … , 𝑥𝑖−1
-> 自己回帰生成モデル
43
MADE
• Masked Autoencoder for Distribution Estimation(MADE)[Germain+ 15]
– オートエンコーダの各層にマスクをかけて,先の要素以外から条件づけられるように構成する.
• 隠れ層に適当な番号をつける.
• その番号より大きいユニットからのユニットを遮断するようにマスクを1にする
-> 一回の順伝播で,自己回帰の全条件付き分布の出力を得ることができる.
– クロスエントロピー損失が負の尤度に対応
44
− log 𝑝 𝐱 =
𝑑
𝐷
−𝑥 𝑑 log 𝑝 𝑥 𝑑 = 1 𝐱<𝑑 − 1 − 𝑥 𝑑 log 𝑝 𝑥 𝑑 = 0 𝐱<𝑑
=
𝑑
𝐷
−𝑥 𝑑log 𝑥 𝑑 − 1 − 𝑥 𝑑 log(1 − 𝑥 𝑑)
フローとしての自己回帰
• 条件付き分布𝑝(𝑥𝑖|𝑥1:𝑖−1)がガウス分布でモデル化された自己回帰モデルを考える.
– 平均と分散はVAEと同様に,DNNによって定義
• 条件付き分布からのサンプリングは,再パラメータ化トリック(アフィン変換)によって,
-> この自己回帰モデルは𝐱 = 𝑓 𝐮 (𝐮~𝑁(𝟎, 𝐈) )という変換とみなすことができる
45
Masked Autoregressive Flow
• この写像𝑥 = 𝑓(𝑢)の各要素の逆変換は,
のように求められる.
• また,ヤコビ行列式は
のように簡単に計算することができる.
• したがって,この変換𝑓をフローと見なすことができる.
-> Masked Autoregressive Flow(MAF) [Papamakarios+ 17]
det
𝑑𝑢1
𝑑𝑥1
⋯
𝑑𝑢1
𝑑𝑥 𝐷
⋮ ⋱ ⋮
𝑑𝑢 𝐷
𝑑𝑥1
⋯
𝑑𝑢 𝐷
𝑑𝑥 𝐷
= det
exp(−𝛼1) ⋯ 0
⋮ ⋱ ⋮
𝑑𝑢 𝐷
𝑑𝑥1
⋯ exp(−𝛼 𝐷)
= exp(−
𝑖=1
𝐷
𝛼𝑖)
46
Masked Autoregressive Flow
• この写像𝐱 = 𝑓(𝐮)の各要素の逆変換は,
のように求められる.
• また,ヤコビ行列式は
のように簡単に計算することができる.
• したがって,この変換𝑓をフローと見なすことができる.
-> Masked Autoregressive Flow(MAF) [Papamakarios+ 17]
det
𝑑𝑢1
𝑑𝑥1
⋯
𝑑𝑢1
𝑑𝑥 𝐷
⋮ ⋱ ⋮
𝑑𝑢 𝐷
𝑑𝑥1
⋯
𝑑𝑢 𝐷
𝑑𝑥 𝐷
= det
exp(−𝛼1) ⋯ 0
⋮ ⋱ ⋮
𝑑𝑢 𝐷
𝑑𝑥1
⋯ exp(−𝛼 𝐷)
= exp(−
𝑖=1
𝐷
𝛼𝑖)
自己回帰の性質と逆変換の式(上式)より
𝑖 < 𝑗のとき
𝑑𝑢 𝑖
𝑑𝑥 𝑗
= (𝑥𝑖 − 𝜇𝑖)
𝑑exp(− 𝑓𝑎 𝑖
𝑥1:𝑖−1 )
𝑑𝑥 𝑗
= 0
逆変換の式より
𝑖 = 𝑗のとき
𝑑𝑢 𝑖
𝑑𝑥 𝑗
= exp(− 𝑓𝑎 𝑖
𝑥1:𝑖−1 )
𝑑𝑥 𝑖
𝑑𝑥 𝑗
= exp(− 𝑓𝑎 𝑖
𝑥1:𝑖−1 )
47
MAFにおけるMADEの利用
• MAFの密度推定には,逆変換(推論) 𝐮 = 𝑓−1(𝐱)が必要
– 𝜇𝑖 = 𝑓𝜇 𝑖
(𝑥1:𝑖−1)と𝛼𝑖 = 𝑓𝛼 𝑖
(𝑥1:𝑖−1)は𝐮に依存しないので,ベクトル𝝁と𝜶を𝐱から一気に求めることができれ
ば,𝐮 = 𝐱 − 𝝁 exp(−𝜶)で高速に推論できる.
• パラメータネットワーク(𝑓𝛼と𝑓𝜇)の設計にMADEを使う.
– すると,1つのパスだけで𝐱から𝝁と𝜶を一気に求めることができる.
• ただし生成𝐱 = 𝑓 (𝐮) は, 𝜇𝑖 や𝛼𝑖が𝑥1:𝑖−1に依存するので,一気にできない(D次元分かかる).
48
Inverse Autoregressive Flow
• Inverse Autoregressive Flow(IAF)[Kingma+ 16]
– MAFとほとんど同じだが,パラメータネットワーク(MADE)の入力が ノイズ𝐮 になっている点が異なる.
• MAFでは,データ𝐱が入力だった.
– そのため,MAFとは異なり,高速にサンプリング(生成)することができる
• 元論文では,変分推論における柔軟な推論のために導入されている(フローによる変分推論).
• 推論のフローがサンプリングとなる.
– その一方で,尤度の推定(つまり訓練)は遅くなる.
MAF IAF
49
MAF vs IAF
50
Parallel WaveNet
• Parallel WaveNet [Oord+ 17]
– WaveNetは自己回帰モデルなのでサンプリングは遅い(が高性能).
– そこで,サンプリングが高速なParallel WaveNetを自己回帰のWaveNetに近づける.
• Parallel WaveNetとして生成が高速な(しかし訓練が遅い)IAFを用いる(生徒).
– 近づける方法としては,確率密度蒸留(probability density distillation)を提案している.
※ParallelWavenetについて,より詳しくは阿久澤くんの発表([DL輪読会]Parallel WaveNet: Fast High-Fidelity
Speech Synthesis)を参照 51
Neural Autoregressive Flow
• Neural Autoregressive Flow(NAF)[Huang+ 18]
– IAFやMAFのアフィン変換を特殊なDNNに置き換えた手法
• 自己回帰フロー(ここではIAF)をconditioner 𝑐とtransformer 𝜏に分解する.
– これまでは,𝑐をMADE,𝜏をアフィン変換(再パラ)と考えていた.
• NAFでは,DNNによってこれを次のようにモデル化する.
– ただし𝜙はDNNの重み.
– つまり,conditionerを𝐮1:𝑡−1 から得られるtransformerの重み(擬似パラメータ)と考える.
• transformer は入力と出力が両方1次元とするDNN.
𝐱 𝑡 = 𝑓 𝐮1:𝑡 = 𝜏(𝑐 𝐮1:𝑡−1 , 𝐮 𝑡)
𝜏 𝑐 𝐮1:𝑡−1 , 𝐮 𝑡 = 𝐷𝑁𝑁(𝐮 𝑡; 𝜙 = 𝑐(𝐮1:𝑡−1))
※図では,uがx,xがyとなっている
52
Transformerの種類と性能
• Deep Sigmoidal Flow(DSF)とDeep Dense Sigmoidal Flows(DDSF)を提案.
– 従来の変換(アフィン変換)よりも柔軟な変換を実現
– いずれも可逆で,ヤコビ行列式も連鎖律で容易に計算できる.
• 実験では,密度推定とサンプリングの両方でアフィン変換のMAF/IAFよりも高い性能
サンプリング 密度推定
真の分布 IAF-affine NAF(IAF-DSF) 真の分布 MAF-affine NAF(MAF-DSF)
53
フローによる変分推論
54
変分推論
• 背景:潜在変数を持つ確率モデル(例えば𝑝 𝐱, 𝐳 = 𝑝 𝐱 𝐳 𝑝(𝐳))の周辺対数尤度log 𝑝 𝐱 =
log 𝑝 𝐱, 𝐳 𝑑𝐳は通常計算困難なため,直接最大化できない.
• 近似事後分布𝑞(𝐳|𝐱)を導入(amortized variational inference)して,イェンセンの不等式より
ℒ(𝐱)はエビデンス下界(evidence lower bound, ELBO)
– 対数尤度の代わりにELBOを最大化する.
• ここで,対数尤度とELBOの差は,
• したがって,ELBOが対数尤度となるべく等しくなるためには,KLダイバージェンスがなるべく
小さくなるような柔軟な近似事後分布を設計することが重要
55
log 𝑝 𝐱 ≥ 𝑞(𝐳|𝐱)log
𝑝 𝐱, 𝐳
𝑞 𝐳|𝐱
𝑑𝑧 ≡ ℒ(𝐱)
log 𝑝 𝐱 − ℒ 𝐱 = 𝑞 𝐳|𝐱 log 𝑝 𝐱 𝑑𝐳 − 𝑞 𝐳|𝐱 log
𝑝 𝐱, 𝐳
𝑞 𝐳|𝐱
𝑑𝐳 = 𝐷 𝐾𝐿 [𝑞 𝐳|𝐱 ||𝑝 𝐳|𝐱 ]
フローによる変分推論
• 事後分布𝑞(𝐳|𝐱)は再パラメータ化トリックの都合上,パラメータ化が容易な分布(ガウス分布と
か)しか使えない.
• そこで,フローによってシンプルな分布をより柔軟な事後分布に変換することを考える.
-> フローによる変分推論
• フローによる事後分布𝑞(𝐳|𝐱) = 𝑞 𝐾(𝐳 𝐾), 𝐳 𝐾 = 𝑓𝐾 ∘ 𝑓𝐾−1 ∘ ⋯ ∘ 𝑓1(𝐳0) (パラメータ化容易な初期分
布は𝑞0(𝐳0) )によって,ELBOは,
• これまでと同様,ヤコビ行列式が簡単に計算できる必要がある
– ただし可逆な生成モデルと異なり,入力データから直接学習する必要はないことに注意.
56
𝑞(𝐳|𝐱)log
𝑝 𝐱, 𝐳
𝑞(𝐳|𝐱)
𝑑𝐳 = 𝑞0 𝐳0 log𝑝(𝐱, 𝐳 𝐾)𝑑𝑧 − 𝑞0 𝐳0 log𝑞 𝐾(𝐳 𝐾)𝑑𝐳
= 𝑞0 𝐳0 log𝑝(𝐱, 𝐳 𝐾)𝑑𝐳
−𝔼 𝑞0 𝐳0
[log𝑞0 𝐳0 −
𝑖=1
𝐾
log det
𝑑𝑓𝑖
𝑑𝐳𝑖−1
]
Planar Flow
• Planar Flow [Rezende+ 15]
– この研究で初めてNormalizing flowという単語が登場
– 次のような変換を考える
ただし,𝐮, 𝒘 ∈ ℝ 𝐷, ℎはtanhなどの活性化関数
– この変換は, tanhのとき,𝐮 𝑇
𝐰 ≥ −1ならば可逆.
– ℎ(𝐰 𝑇
𝐳 + 𝑏)の出力はスカラーとなることに注意(出力ユニットが1のMLP)
• Matrix determinant lemmaを用いて,ヤコビ行列式は
ただし,ℎ′はℎの導関数
– したがって,このフローは𝑂(𝐷)のオーダーで計算できる.
57
𝐳′ = 𝐳 + 𝐮ℎ(𝐰 𝑇 𝐳 + 𝑏)
Matrix determinant lemma
𝐀が可逆行列のとき
det 𝐀 + 𝐮𝐯 𝑇
= 1 + 𝐯 𝑇
𝐀−1
𝐮 det 𝐀
が成り立つ.
det 𝐈 + 𝐮ℎ′ 𝐰 𝑇 𝐳 + 𝑏 𝐰 𝑇 = 1 + 𝐮ℎ′ 𝐰 𝑇 𝐳 + 𝑏 𝐰 𝑇
Sylvester normalizing flow
• Sylvester normalizing flow(SNF)[Berg+ 18]
– MLPの出力をスカラーではなく𝑀( ≤ 𝐷)次元に一般化したフロー
– 𝐀 ∈ ℝD×𝑀, 𝐁 ∈ ℝM×𝐷, 𝐛 ∈ ℝMのとき,単層のMLP + Residual connectionを考える.
– しかしこのフローは一般的に可逆ではない&ヤコビ行列式も困難
• そこで,上三角行列𝐑, 𝐑と直交行列𝐐によって𝐀 = 𝐐𝐑と𝐁 = 𝐑𝐐 𝑇
のように制約する.
• Sylvester’s determinant identityより,ヤコビ行列式は
となり, 𝑂(𝐷)のオーダーで計算できる.また,一定の条件の下(Theorem 2参照)で可逆になる.
58
Sylvester’s determinant identity
𝐳′ = 𝐳 + 𝐀ℎ(𝐁𝐳 + 𝐛)
𝐳′ = 𝐳 + 𝐐𝐑ℎ( 𝐑𝐐 𝑇 𝐳 + 𝐛)
det(𝐈 𝑀 + 𝑑𝑖𝑎𝑔(ℎ′ 𝐑𝐐 𝑇 𝐳 + 𝐛 ) 𝐑𝐑)
det(𝐈 𝐷 + 𝐀𝐁) = det(𝐈 𝑀 + 𝐁𝐀)
直交行列Qの計算とIAFとの関係
• 直交行列Qの計算は困難なので,次の3つの方法を提案(詳細は省略)
– Orthogonal SNF:直交行列に収束するように反復的に更新する
– Householder SNF:計算が容易なハウスホルダー鏡映の積で表現
– Triangular SNF:フローごとに交互に,単位行列あるいはそれを列方向に反転したものをQとする
• IAF(𝑧𝑖
𝑡
= 𝜇𝑖
𝑡
𝐳1:𝑖−1
𝑡−1
+ 𝜎𝑖
𝑡
(𝐳1:𝑡−1
𝑡−1
)・𝑧𝑖
𝑡−1
)との比較
– SNFは,IAFの分散を1に固定した場合(mean-only IAF)とみなせる.
– mean-only IAFはヤコビ行列式が1となるが,SNFでは1ではない
– またIAFでは,全てのフローでパラメータが固定となるが,SNFではフローごとに推論する.
59
IAFSNF
実験結果(SNF)
• PlanarやIAFよりも良い結果
60
まとめ
• フローは,密度関数の評価・逆変換可能という大きな利点がある.
• しかし可逆とヤコビアンの制約があるため,解きたい問題設定に応じた手法が提案されている.
– 可逆な生成モデルは,アーキテクチャにかなり制約があるものの,フローだけで潜在変数を含んだ生成
モデルを記述できる.
– 自己回帰フローは,密度推定とサンプリングのトレードオフがあるものの,ヤコビ行列式を効率よく計
算できる.
• Neural Ordinary Differential Equation[Chen+ 18]の登場
– FFJORD(Free-Form Jacobian of Reversible Dynamics)[Greathwohl+ 19]
– これの登場によって,フローにおける諸々の制約が外れた
• フローのダイナミクスが離散から連続的になった.
• (それに関連して)モデルのパラメータ数が大幅に減った.
• ヤコビ行列式の計算コストが低くなった.
• 密度推定とサンプリングの両方が効率的.
※詳しくは冨山くんの発表([DL輪読会]Neural Ordinary Differential Equations)を参照
61
感想
• やばい人たちがやばいモデルを提案しまくっている印象
• 今後は
– 表現学習としてのフロー
– 系列情報とフロー(VideoFlow)
– 他の深層生成モデルとの組み合わせ(すでにflow-GAN[Grover+ 17]などいくつかある)
– フローの実応用
あたりが重要になりそう.
• 個人的には,単独で使われる技術にはならずに,世界モデルの一部として組み込まれる感じがい
い気がしている.
• 可逆な性質は,階層間に双方向結合がある脳的にも興味深い.
62

Weitere ähnliche Inhalte

Was ist angesagt?

[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence ModelingDeep Learning JP
 
Deeplearning輪読会
Deeplearning輪読会Deeplearning輪読会
Deeplearning輪読会正志 坪坂
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised LearningまとめDeep Learning JP
 
変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)Takao Yamanaka
 
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational AutoencoderDeep Learning JP
 
[DL輪読会]近年のエネルギーベースモデルの進展
[DL輪読会]近年のエネルギーベースモデルの進展[DL輪読会]近年のエネルギーベースモデルの進展
[DL輪読会]近年のエネルギーベースモデルの進展Deep Learning JP
 
最適輸送の解き方
最適輸送の解き方最適輸送の解き方
最適輸送の解き方joisino
 
グラフィカルモデル入門
グラフィカルモデル入門グラフィカルモデル入門
グラフィカルモデル入門Kawamoto_Kazuhiko
 
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
[DL輪読会]Temporal DifferenceVariationalAuto-EncoderDeep Learning JP
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習cvpaper. challenge
 
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State SpacesDeep Learning JP
 
【DL輪読会】Perceiver io a general architecture for structured inputs &amp; outputs
【DL輪読会】Perceiver io  a general architecture for structured inputs &amp; outputs 【DL輪読会】Perceiver io  a general architecture for structured inputs &amp; outputs
【DL輪読会】Perceiver io a general architecture for structured inputs &amp; outputs Deep Learning JP
 
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習Eiji Uchibe
 
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Yoshitaka Ushiku
 
【DL輪読会】Data-Efficient Reinforcement Learning with Self-Predictive Representat...
【DL輪読会】Data-Efficient Reinforcement Learning with Self-Predictive Representat...【DL輪読会】Data-Efficient Reinforcement Learning with Self-Predictive Representat...
【DL輪読会】Data-Efficient Reinforcement Learning with Self-Predictive Representat...Deep Learning JP
 
変分ベイズ法の説明
変分ベイズ法の説明変分ベイズ法の説明
変分ベイズ法の説明Haruka Ozaki
 
最適化超入門
最適化超入門最適化超入門
最適化超入門Takami Sato
 
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
【DL輪読会】The Forward-Forward Algorithm: Some PreliminaryDeep Learning JP
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Yusuke Uchida
 

Was ist angesagt? (20)

[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
 
Deeplearning輪読会
Deeplearning輪読会Deeplearning輪読会
Deeplearning輪読会
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
 
変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)
 
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
 
[DL輪読会]近年のエネルギーベースモデルの進展
[DL輪読会]近年のエネルギーベースモデルの進展[DL輪読会]近年のエネルギーベースモデルの進展
[DL輪読会]近年のエネルギーベースモデルの進展
 
最適輸送の解き方
最適輸送の解き方最適輸送の解き方
最適輸送の解き方
 
グラフィカルモデル入門
グラフィカルモデル入門グラフィカルモデル入門
グラフィカルモデル入門
 
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
 
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
 
【DL輪読会】Perceiver io a general architecture for structured inputs &amp; outputs
【DL輪読会】Perceiver io  a general architecture for structured inputs &amp; outputs 【DL輪読会】Perceiver io  a general architecture for structured inputs &amp; outputs
【DL輪読会】Perceiver io a general architecture for structured inputs &amp; outputs
 
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習
 
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
 
【DL輪読会】Data-Efficient Reinforcement Learning with Self-Predictive Representat...
【DL輪読会】Data-Efficient Reinforcement Learning with Self-Predictive Representat...【DL輪読会】Data-Efficient Reinforcement Learning with Self-Predictive Representat...
【DL輪読会】Data-Efficient Reinforcement Learning with Self-Predictive Representat...
 
変分ベイズ法の説明
変分ベイズ法の説明変分ベイズ法の説明
変分ベイズ法の説明
 
実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE
 
最適化超入門
最適化超入門最適化超入門
最適化超入門
 
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
 

Ähnlich wie [DL輪読会]Flow-based Deep Generative Models

[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係についてDeep Learning JP
 
[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...
[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...
[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...Deep Learning JP
 
関西CVPRML勉強会 kernel PCA
関西CVPRML勉強会 kernel PCA関西CVPRML勉強会 kernel PCA
関西CVPRML勉強会 kernel PCAAkisato Kimura
 
Tokyo r12 - R言語による回帰分析入門
Tokyo r12 - R言語による回帰分析入門Tokyo r12 - R言語による回帰分析入門
Tokyo r12 - R言語による回帰分析入門Yohei Sato
 
attention_is_all_you_need_nips17_論文紹介
attention_is_all_you_need_nips17_論文紹介attention_is_all_you_need_nips17_論文紹介
attention_is_all_you_need_nips17_論文紹介Masayoshi Kondo
 
AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...
AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...
AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...T T
 
Large scale gan training for high fidelity natural
Large scale gan training for high fidelity naturalLarge scale gan training for high fidelity natural
Large scale gan training for high fidelity naturalKCS Keio Computer Society
 
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】Naoki Hayashi
 
変分推論と Normalizing Flow
変分推論と Normalizing Flow変分推論と Normalizing Flow
変分推論と Normalizing FlowAkihiro Nitta
 
関東CV勉強会 Kernel PCA (2011.2.19)
関東CV勉強会 Kernel PCA (2011.2.19)関東CV勉強会 Kernel PCA (2011.2.19)
関東CV勉強会 Kernel PCA (2011.2.19)Akisato Kimura
 
あなたの心にBridgeSampling
あなたの心にBridgeSamplingあなたの心にBridgeSampling
あなたの心にBridgeSamplingdaiki hojo
 
PRML復々習レーン#9 6.3-6.3.1
PRML復々習レーン#9 6.3-6.3.1PRML復々習レーン#9 6.3-6.3.1
PRML復々習レーン#9 6.3-6.3.1sleepy_yoshi
 
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)Morpho, Inc.
 
(DL hacks輪読) Variational Dropout and the Local Reparameterization Trick
(DL hacks輪読) Variational Dropout and the Local Reparameterization Trick(DL hacks輪読) Variational Dropout and the Local Reparameterization Trick
(DL hacks輪読) Variational Dropout and the Local Reparameterization TrickMasahiro Suzuki
 
PyTorch, PixyzによるGenerative Query Networkの実装
PyTorch, PixyzによるGenerative Query Networkの実装PyTorch, PixyzによるGenerative Query Networkの実装
PyTorch, PixyzによるGenerative Query Networkの実装Shohei Taniguchi
 
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted WindowsDeep Learning JP
 
Prml Reading Group 10 8.3
Prml Reading Group 10 8.3Prml Reading Group 10 8.3
Prml Reading Group 10 8.3正志 坪坂
 
【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds
【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds
【論文読み会】Moser Flow: Divergence-based Generative Modeling on ManifoldsARISE analytics
 

Ähnlich wie [DL輪読会]Flow-based Deep Generative Models (20)

[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について
 
[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...
[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...
[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...
 
関西CVPRML勉強会 kernel PCA
関西CVPRML勉強会 kernel PCA関西CVPRML勉強会 kernel PCA
関西CVPRML勉強会 kernel PCA
 
Tokyo r12 - R言語による回帰分析入門
Tokyo r12 - R言語による回帰分析入門Tokyo r12 - R言語による回帰分析入門
Tokyo r12 - R言語による回帰分析入門
 
attention_is_all_you_need_nips17_論文紹介
attention_is_all_you_need_nips17_論文紹介attention_is_all_you_need_nips17_論文紹介
attention_is_all_you_need_nips17_論文紹介
 
AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...
AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...
AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...
 
Large scale gan training for high fidelity natural
Large scale gan training for high fidelity naturalLarge scale gan training for high fidelity natural
Large scale gan training for high fidelity natural
 
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】
 
変分推論と Normalizing Flow
変分推論と Normalizing Flow変分推論と Normalizing Flow
変分推論と Normalizing Flow
 
関東CV勉強会 Kernel PCA (2011.2.19)
関東CV勉強会 Kernel PCA (2011.2.19)関東CV勉強会 Kernel PCA (2011.2.19)
関東CV勉強会 Kernel PCA (2011.2.19)
 
あなたの心にBridgeSampling
あなたの心にBridgeSamplingあなたの心にBridgeSampling
あなたの心にBridgeSampling
 
PRML復々習レーン#9 6.3-6.3.1
PRML復々習レーン#9 6.3-6.3.1PRML復々習レーン#9 6.3-6.3.1
PRML復々習レーン#9 6.3-6.3.1
 
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
 
(DL hacks輪読) Variational Dropout and the Local Reparameterization Trick
(DL hacks輪読) Variational Dropout and the Local Reparameterization Trick(DL hacks輪読) Variational Dropout and the Local Reparameterization Trick
(DL hacks輪読) Variational Dropout and the Local Reparameterization Trick
 
PyTorch, PixyzによるGenerative Query Networkの実装
PyTorch, PixyzによるGenerative Query Networkの実装PyTorch, PixyzによるGenerative Query Networkの実装
PyTorch, PixyzによるGenerative Query Networkの実装
 
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
 
Prml Reading Group 10 8.3
Prml Reading Group 10 8.3Prml Reading Group 10 8.3
Prml Reading Group 10 8.3
 
【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds
【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds
【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds
 
PRML_titech 8.1 - 8.2
PRML_titech 8.1 - 8.2PRML_titech 8.1 - 8.2
PRML_titech 8.1 - 8.2
 
KDD2014 勉強会
KDD2014 勉強会KDD2014 勉強会
KDD2014 勉強会
 

Mehr von Deep Learning JP

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving PlannersDeep Learning JP
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについてDeep Learning JP
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...Deep Learning JP
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-ResolutionDeep Learning JP
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxivDeep Learning JP
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLMDeep Learning JP
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...Deep Learning JP
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place RecognitionDeep Learning JP
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?Deep Learning JP
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究についてDeep Learning JP
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )Deep Learning JP
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...Deep Learning JP
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"Deep Learning JP
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "Deep Learning JP
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat ModelsDeep Learning JP
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"Deep Learning JP
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...Deep Learning JP
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...Deep Learning JP
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...Deep Learning JP
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...Deep Learning JP
 

Mehr von Deep Learning JP (20)

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
 

Kürzlich hochgeladen

LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイスCRI Japan, Inc.
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...Toru Tamaki
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptxsn679259
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Hiroshi Tomioka
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video UnderstandingToru Tamaki
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsWSO2
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルCRI Japan, Inc.
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Gamesatsushi061452
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 

Kürzlich hochgeladen (11)

LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 

[DL輪読会]Flow-based Deep Generative Models

  • 1. 1 DEEP LEARNING JP [DL Papers] http://deeplearning.jp/ Flow-based Deep Generative Models Presenter: Masahiro Suzuki, Matsuo Lab
  • 2. 発表内容について • フローベース生成モデルのまとめ – フローベース生成モデル:深層生成モデルのアプローチの一つ – 他の深層生成モデル(VAE,GAN)にはない利点を持っている(尤度が求められる,逆変換ができる, など) • 選定理由 – あまりフローベースをまとめている資料がなかったので – 最近フローの進歩が目覚ましいので – 先日の講義の資料が使い回せるので • 参考にしたページ・サイト – https://lilianweng.github.io/lil-log/2018/10/13/flow-based-deep-generative-models.html, Lilian Weng (正直このページ見れば充分) – https://blog.evjang.com/2018/01/nf1.html, Eric Jang(正規化フローのチュートリアル) – この2つのサイトから図もお借りしています. • フローベース研究の頭のおかしさ(いい意味で)が伝われば幸いです. 2
  • 4. 生成モデル • データの生成過程を数理的にモデル化したもの – 数理モデルは確率分布によって表される – 𝑥𝑖が確率𝑝 𝑥; 𝜃 から生成されるときは𝑥𝑖 ~𝑝 𝑥; 𝜃 と表記する. – 𝑝 𝑥; 𝜃 を𝑝 𝜃 𝑥 と書くこともある 観測データ 𝑝 𝑥; 𝜃 生成モデル生成 学習 パラメータ 観測データはある数理モデルから 生成されたとする 4
  • 5. 生成モデルの学習 • 真の分布(データ分布)𝑝 𝑑𝑎𝑡𝑎(𝑥)と近いモデル分布(生成モデル)𝑝 𝜃(𝑥)を求めたい – つまり適切な 𝜃を求めたい – データ分布は実際にはわからないことにも注意 • カルバック・ライブラー(KL)ダイバージェンスで分布間の「距離」を測る. • したがって,対数尤度関数の期待値を最大化するようなパラメータを選べば良い(最尤推定). – 実際にはデータ分布は得られないので,サンプル近似(訓練データ)で推定. 𝑝 𝜃(𝑥)𝑝 𝑑𝑎𝑡𝑎(𝑥) 𝐷 𝐾𝐿[𝑝 𝑑𝑎𝑡𝑎(𝑥)||𝑝 𝜃(𝑥)] = 𝑝 𝑑𝑎𝑡𝑎(𝑥) log 𝑝 𝑑𝑎𝑡𝑎(𝑥) 𝑝 𝜃(𝑥) 𝑑𝑥 = 𝐸 𝑝 𝑑𝑎𝑡𝑎(𝑥) log 𝑝 𝑑𝑎𝑡𝑎(𝑥) − 𝐸 𝑝 𝑑𝑎𝑡𝑎(𝑥) log 𝑝 𝜃(𝑥) 対数尤度関数 𝐸 𝑝 𝑑𝑎𝑡𝑎(𝑥) log 𝑝 𝜃(𝑥) ≅ 1 𝑁 𝑛=1 𝑁 log 𝑝 𝜃 𝑥 𝑛 , ただし𝑥 𝑛~𝑝 𝑑𝑎𝑡𝑎(𝑥) 5
  • 6. 深層生成モデル • 生成モデルを深層ニューラルネットワーク(DNN)によって表現する(深層生成モデル). – 従来の確率分布だと,複雑な入力を直接扱えない. – DNNで表現することで,より複雑な入力xを扱えるようになる. • 一般物体画像のような複雑な画像も生成できる • DNNによるモデル化には次のようなアプローチがある(有向モデルの場合). – 𝑝(𝑥|𝑧) (生成器,generator)をモデル化する. • 𝑧を入力,𝑥を出力とするDNN𝑥 = 𝑓(𝑧)によって表現. • VAE,GAN,フローベースなど. – 𝑝(𝑥)を直接モデル化する(自己回帰モデル). • 𝑝 𝑥 = 𝑖 𝑝(𝑥𝑖|𝑥1, … , 𝑥𝑖−1)として,各条件付き分布をモデル化. • NADE[Larochelle+ 11],PixelRNN(CNN)[Oord+ 16] など. 生成器 𝑥𝑧 https://deepmind.com/blog/wavenet-generative-model-raw-audio/ 6
  • 7. 深層生成モデルの分類 • 一部例外あり(例えばエンコーダを持つGANなど) • (項目は独断と偏見) 7 有向 or 無向 確率密度関数が 明示的or暗黙的 学習するモデル 学習方法 サンプリング (生成) 潜在変数への推論 エネルギーベース (RBM) 無向 明示的 エネルギー関数 𝐸(𝑥, 𝑧) 対数尤度の最大化 (CD法) 低コスト 可能 VAE 有向 明示的 生成モデル 𝑝 𝑥 𝑧 推論モデル 𝑞 𝑧 𝑥 ELBOの最大化 低コスト 近似事後分布(推論分 布)によって可能 自己回帰モデル 有向 明示的 条件付きモデル(の積) 𝑖 𝑝(𝑥𝑖|𝑥1, … , 𝑥𝑖−1) 対数尤度の最大化 高コスト 潜在変数自体がない フローベース (可逆な生成モデル) 有向 明示的 フロー 𝑥 = 𝑓(𝑧) 対数尤度の最大化 低コスト フローの逆変換で可能 GAN 有向 暗黙的 生成器 𝐺(𝑧) 識別器 𝐷(𝑥) 敵対的学習 低コスト 推論はモデル化されない
  • 8. 有向 or 無向 確率密度関数が 明示的or暗黙的 学習するモデル 学習方法 サンプリング (生成) 潜在変数への推論 エネルギーベース (RBM) 無向 明示的 エネルギー関数 𝐸(𝑥, 𝑧) 対数尤度の最大化 (CD法) 低コスト 可能 VAE 有向 明示的 生成モデル 𝑝 𝑥 𝑧 推論モデル 𝑞 𝑧 𝑥 ELBOの最大化 低コスト 近似事後分布(推論分 布)によって可能 自己回帰モデル 有向 明示的 条件付きモデル(の積) 𝑖 𝑝(𝑥𝑖|𝑥1, … , 𝑥𝑖−1) 対数尤度の最大化 高コスト 潜在変数自体がない フローベース (可逆な生成モデル) 有向 明示的 フロー 𝑥 = 𝑓(𝑧) 対数尤度の最大化 低コスト フローの逆変換で可能 GAN 有向 暗黙的 生成器 𝐺(𝑧) 識別器 𝐷(𝑥) 敵対的学習 低コスト 推論はモデル化されない 深層生成モデルの分類 • 一部例外あり(例えばエンコーダを持つGANなど) • (項目は独断と偏見) フローベース生成モデル 8
  • 10. 潜在空間を含んだモデル • 次のような潜在変数𝑧~𝑝 𝑧(𝑧)を持つ確率モデルを考える. • 𝑝𝑧(𝑧)は尤度やサンプリングが容易な確率分布とする. • 𝑧から𝑥については決定論的な写像𝑥 = 𝑓(𝑧)を用いるとする. – なお,写像𝑓は可逆(𝑧 = 𝑓−1 (𝑥))とする(=全単射). – また,𝑥と𝑧の次元は同じとする. -> 𝑥についての確率密度関数𝑝 𝑥(𝑥)を求めるには ? 𝑥 𝑧 𝑥 = 𝑓(𝑧) 𝑧~ 𝑝 𝑧(𝑧) 10
  • 11. 確率密度関数における変数変換 • 確率密度関数の変数変換の公式より,𝑥における確率密度関数は以下のように計算できる. – 𝑥が1次元(スカラー)のとき – 𝑥が多次元(多変量)のとき • det 𝑑𝑓−1(𝐱) 𝑑𝐱 はヤコビ行列式(ヤコビアン,Jacobian) 𝑝 𝑥 𝑥 = 𝑝 𝑧 𝑧 𝑑𝑧 𝑑𝑥 = 𝑝 𝑧 𝑓−1(𝑥) 𝑑𝑓−1 (𝑥) 𝑑𝑥 𝑝 𝑥 𝐱 = 𝑝 𝑧 𝐳 det 𝑑𝐳 𝑑𝐱 = 𝑝 𝑧 𝑓−1(𝐱) det 𝑑𝑓−1(𝐱) 𝑑𝐱 11
  • 12. 変数変換の直感的なイメージ • 確率密度関数の積分(微小区間では四角形の面積)は変数変換前後で等しくなければならない • 分布を保つ上では,変化の「量」だけを気にすればいいので,変換後の確率密度関数は, – 変数が2次元や3次元になると,微小量変化の比は「面積」や「体積」になる(行列式になる理由) 𝑝 𝑦 = 𝑝 𝑥 𝑑𝑥 𝑑𝑦 𝑝 𝑥 𝑑𝑥 = 𝑝 𝑦 𝑑𝑦 12
  • 13. 変数変換による対数尤度関数 • 変数変換によって,対数尤度関数(生成モデルの目的関数)は, となる. 𝑥 𝑧 𝑥 = 𝑓(𝑧) 𝑧~ 𝑝 𝑧(𝑧) log 𝑝 𝑥 𝐱 = log 𝑝 𝑧 𝑓−1(𝐱) + log det 𝑑𝑓−1(𝐱) 𝑑𝐱 13
  • 14. 正規化フロー • 式より,𝑓は「可逆」かつ「ヤコビ行列式が簡単に計算できなればならない」. • しかし,そのような𝑓は単純な変換しかできない. – これまでの深層生成モデルように,複雑な関数で変数間の関係をモデル化したい. • そこで,𝑓を繰り返し適用する(関数の合成)ことで複雑な分布を表現することを考える. 可逆な写像𝑓による𝑧~ 𝑝 𝑧(𝑧)からの合成変換の流れのことをフロー(flow)といい,フローに よって有効な分布が構成される場合は正規化フロー(normalizing flow)という. 𝐱 = 𝐳 𝐾 = 𝑓𝐾 ∘ 𝑓𝐾−1 ∘ ⋯ ∘ 𝑓1(𝐳0) 14
  • 15. フローのポイント • 可逆な写像で構成されているので,そのフローの合成関数も可逆となる. • 𝑝(𝐱)からのサンプリングのためには,𝑝0(𝐳0)だけサンプリングすればいい. • したがって,任意の関数ℎの𝑝(𝐱)における期待値計算も,𝑝0(𝐳0)における期待値になる. 𝔼 𝐱~𝑝(𝐱) ℎ 𝐱 = 𝔼 𝐳0~𝑝0 𝐳0 [ℎ(𝑓𝐾 ∘ 𝑓𝐾−1 ∘ ⋯ ∘ 𝑓1(𝐳0))] 𝑓𝐾 ∘ 𝑓𝐾−1 ∘ ⋯ ∘ 𝑓1 𝐳0 −1 = 𝑓1 −1 ∘ ⋯ ∘ 𝑓𝐾−1 −1 ∘ 𝑓𝐾 −1 𝐳 𝐾 15
  • 16. フローの対数尤度関数 • ある時点𝑖の分布𝑝𝑖(𝐳𝑖)は, • よって, 𝑝𝑖 𝐳𝑖 = 𝑝𝑖−1(𝑓𝑖 −1 𝐳𝑖 ) det 𝑑𝑓𝑖 −1 𝑑𝑧𝑖 = 𝑝𝑖−1(𝐳𝑖−1) det 𝑑𝑓𝑖 𝑑𝐳𝑖−1 −1 = 𝑝𝑖−1(𝐳𝑖−1) det 𝑑𝑓𝑖 𝑑𝐳𝑖−1 −1 det 𝑀−1 = det 𝑀 −1 𝑥 = 𝑓(𝑧), 𝑧 = 𝑓−1 (𝑥)のとき 𝑑𝑓−1 𝑑𝑥 = 𝑑𝑧 𝑑𝑥 = 𝑑𝑥 𝑑𝑧 −1 = 𝑑𝑓 𝑑𝑧 −1 log 𝑝𝑖 𝐳𝑖 = log 𝑝𝑖−1(𝐳𝑖−1) − log det 𝑑𝑓𝑖 𝑑𝐳𝑖−1 16
  • 17. フローの対数尤度関数 • したがって,フローの対数尤度関数は log 𝑝 (𝐱) = log 𝑝 𝐾(𝐳 𝐾) = log 𝑝 𝐾−1 𝐳 𝐾−1 − log det 𝑑𝑓𝐾 𝑑𝐳 𝐾−1 = (log 𝑝 𝐾−2 𝐳 𝐾−2 − log det 𝑑𝑓𝐾−1 𝑑𝐳 𝐾−2 ) − log det 𝑑𝑓𝐾 𝑑𝐳 𝐾−1 = log 𝑝0 𝐳0 − 𝑖=1 𝐾 log det 𝑑𝑓𝑖 𝑑𝐳𝑖−1 = ⋯ 各層でlog-Jacobianを計算する 17
  • 18. フローベース生成モデルの種類 • 「フローベース」と一言で言っても,使われ方などで次の3種類に分類することができる. 1. 可逆な生成モデル:フローによって潜在変数を持つ生成モデルを設計 2. 自己回帰フロー:自己回帰モデルの条件付きモデルにフローを用いる 3. フローによる変分推論:フローを変分推論の近似事後分布を柔軟にするために利用 – 各分類の名前は適当につけた. [Grathwohl+ 18]では,それぞれ 1. Partitioned transformations 2. Autoregressive transformations 3. Normalizing flows と呼んでいる(これらの総称をreversible generative modelsとしている). – 実際はそれぞれ独立ではない. • IAFのように,2と3の両方のモデルとかある 18
  • 20. 可逆な生成モデル • フローベースでは,従来の深層生成モデルで困難だった推論は逆変換によって直ちに計算できる. -> 可逆な生成モデル (invertible generative model) • フローを用いて可逆な生成モデルを設計するためには,各層の𝑓のヤコビ行列式(Jacobian)が簡 単に計算できることが必要 – 各層に対応する複数のヤコビ行列式があるので,計算コストとメモリコストが重要 注:この図では推論を𝑓,生成を𝑓−1 としています(その場合ヤコビアンの項の符号が逆になる) 20
  • 22. ヤコビ行列式 • 𝑓: ℝ 𝑛 → ℝ 𝑛 のヤコビ行列式は, 次元𝑛が大きくなるほど,ヤコビ行列式の計算は困難になる. • なるべくヤコビ行列式の計算を節約するには? det 𝑑𝑓1 𝑑𝑥1 ⋯ 𝑑𝑓1 𝑑𝑥 𝑛 ⋮ ⋱ ⋮ 𝑑𝑓𝑛 𝑑𝑥1 ⋯ 𝑑𝑓𝑛 𝑑𝑥 𝑛 22
  • 23. 三角行列と行列式の計算 • 三角行列の行列式は, となり,対角成分の積で計算できる. – 上の例は,上三角行列. – 任意の正則行列は,LU分解で2つの三角行列(上三角と下三角)に分解できる. • フローのヤコビ行列式の計算も,なんらかの方法で三角行列に制約してコスト削減したい. – しかし,写像𝑓の「重み」自体を三角行列に制約するのは,アーキテクチャが限定されすぎる. -> 重みではなく,ヤコビ行列式が三角行列になる可逆変換𝑓を考える. det 𝑎11 ⋯ 𝑎1𝑛 ⋮ ⋱ ⋮ 0 ⋯ 𝑎 𝑛𝑛 = 𝑎11 ⋯ 𝑎 𝑛𝑛 23
  • 24. カップリング層 • 入力𝑥 ∈ ℝ 𝐷を2つのブロックに分ける. – 𝑥 = 𝑥1:d: 𝑥 𝑑+1:𝐷 = [𝑥𝐼1 : 𝑥𝐼2 ] • それぞれのブロックに対して,次のような変換を考える(カップリング層) – ただし,𝑔: ℝ 𝐷−𝑑 × 𝑚 ℝ 𝑑 → ℝ 𝐷−𝑑は可逆関数, 𝑚は任意の関数(ニューラルネットワークなど, カップリング関数という) 𝑦𝐼1 = 𝑥𝐼1 𝑦𝐼2 = 𝑔(𝑥𝐼2 ; 𝑚 𝑥𝐼1 ) 24
  • 25. カップリング層のヤコビ行列式 • カップリング層のヤコビ行列は, 𝑑𝑦 𝐼1 𝑑𝑥 𝐼1 = 𝐼 𝑑, 𝑑𝑦 𝐼1 𝑑𝑥 𝐼2 = 0より, • 三角行列になるので,ヤコビ行列式は, となる. 𝑑𝑦 𝑑𝑥 = 𝑑𝑦𝐼1 𝑑𝑥𝐼1 𝑑𝑦𝐼1 𝑑𝑥𝐼2 𝑑𝑦𝐼2 𝑑𝑥𝐼1 𝑑𝑦𝐼2 𝑑𝑥𝐼2 = 𝐼 𝑑 0 𝑑𝑦𝐼2 𝑑𝑥𝐼1 𝑑𝑦𝐼2 𝑑𝑥𝐼2 𝑦𝐼1 = 𝑥𝐼1 𝑦𝐼2 = 𝑔(𝑥𝐼2 ; 𝑚 𝑥𝐼1 ) det 𝑑𝑦 𝑑𝑥 = det 𝑑𝑦𝐼2 𝑑𝑥𝐼2 ->𝐷 × 𝐷の行列式から, (𝐷 − 𝑑) × (𝐷 − 𝑑)の行列式になる 25
  • 26. カップリング層の逆変換 • カップリング層 • 𝑔は可逆写像なので,カップリング層の逆変換は, となる. – 𝑚は逆変換の必要がないことに注意 𝑦𝐼1 = 𝑥𝐼1 𝑦𝐼2 = 𝑔(𝑥𝐼2 ; 𝑚 𝑥𝐼1 ) 𝑥𝐼1 = 𝑦𝐼1 𝑥𝐼2 = 𝑔−1(𝑦𝐼2 ; 𝑚 𝑦𝐼1 ) 26
  • 27. NICE • Non-linear Independent Component Estimation(NICE)[Dinh+ 14] – 𝑔に加法カップリング(additive coupling)を利用:𝑔(𝑎; 𝑏) = 𝑎 + 𝑏 – カップリング層は, – このとき,逆変換は – また,ヤコビ行列式は となり,変換前後で体積が不変(volume preserving)となる. • したがって,対数尤度関数は単にフロー𝑧 = 𝑓(𝑥)によって 𝑦𝐼1 = 𝑥𝐼1 𝑦𝐼2 = 𝑥𝐼2 + 𝑚 𝑥𝐼1 𝑥𝐼1 = 𝑦𝐼1 𝑥𝐼2 = 𝑦𝐼2 − 𝑚 𝑦𝐼1 det 𝑑𝑦 𝑑𝑥 = det 𝑑𝑦𝐼2 𝑑𝑥𝐼2 = 1 log 𝑝 𝑥(𝑥) = log 𝑝 𝑧 𝑓 𝑥 27
  • 28. NICEにおける工夫 • カップリング層の結合 – 変換していない入力に変換をかけるように,ブロックを交換して次のカップリング層に入力する(後ほ ど説明) – 全ての次元間での関係性を含めるには,少なくとも3層のカップリング層が必要 • スケーリング行列の導入 – 尤度計算は簡単になるが,分布もヤコビ行列式が1になるように制約されるため,変化しないという問題 がある. – そこでスケーリング行列として対角行列𝑆を導入し,最上層にかける – このとき,対数尤度は次のようになる(対角行列なので,行列式は対角成分の積) • 事前分布𝑝 𝑧(𝑧) – 各次元で独立とし,ロジスティック分布やガウス分布を利用 log 𝑝 𝑥 𝑥 = 𝑖=1 𝐷 [log 𝑝 𝑧𝑖 𝑓𝑖 𝑥 + log |𝑆𝑖𝑖|] 28
  • 30. Real NVP • Real-valued Non-Volume Preserving(Real NVP)[Dinh+ 17] – アフィンカップリング(affine coupling)を利用 – 𝑔 𝑎; 𝑏 = 𝑎⨀𝑏𝑠 + 𝑏𝑡, 𝑏𝑠 = exp 𝑠 𝑥𝐼1 ,𝑏𝑡 = 𝑡(𝑥𝐼1) – ただし, 𝑠: ℝ 𝑑 → ℝ 𝐷−𝑑,𝑡: ℝ 𝑑 → ℝ 𝐷−𝑑. • ヤコビ行列式は, – NICEと異なり,行列式が1ではない(変換前後で体積が変わる(non-volume preserving) ) – 𝑑𝑖𝑎𝑔(exp(𝑠(𝑥𝐼1)))は対角行列なので,簡単に行列式が計算できる. • 𝑠や𝑡についてのヤコビ行列式は計算しなくていい. det 𝑑𝑦 𝑑𝑥 = det 𝐼 𝑑 0 𝑑𝑦𝐼2 𝑑𝑥𝐼1 𝑑𝑖𝑎𝑔(exp(𝑠(𝑥𝐼1))) = 𝑑𝑖𝑎𝑔(exp(𝑠(𝑥𝐼1))) = exp( 𝑖=1 𝐷−𝑑 𝑠 𝑥𝐼1 𝑖 ) 30
  • 31. Real NVP • カップリング層の変換は • 逆変換は, • 逆変換でも,𝑠や𝑡の逆変換を計算する必要がない – Real NVPなどでは,𝑠や𝑡に畳み込みResNetを用いる. 𝑦𝐼1 = 𝑥𝐼1 𝑦𝐼2 = 𝑥𝐼2 ⨀ exp 𝑠 𝑥𝐼1 + 𝑡 𝑥𝐼1 𝑥𝐼1 = 𝑦𝐼1 𝑥𝐼2 = (𝑦𝐼2 − 𝑡(𝑦𝐼1))⨀ exp −𝑠 𝑥𝐼1 31
  • 32. マスキングによるカップリング • マスク𝑏 ∈ {0,1}を用いると,カップリング層の変換は次のようにまとめて書ける • 画像における全次元・チャネルの関係性を考慮するため, 1. 市松模様(左図)のマスク 2. スクイーズ(𝑠 × 𝑠 × 𝑐 → 𝑠 2 × 𝑠 2 × 4𝑐) 3. チャネルごと(前半と後半で分ける,右図)のマスク を行う. 32
  • 33. カップリング層の結合 • カップリング層では,一方のブロック 𝑥𝐼1 については変換されない( 𝑦𝐼1 = 𝑥𝐼1 ) • よって,カップリング変換していない部分については,次の層で変換することにする. – 変換が互い違いになるイメージ 33
  • 34. Multi-scale architecture • 交互のカップリングK回(市松模様マスク)->スクイーズ->交互のカップリングK回(チャネル ごとマスク)->逆スクイーズを1層とする(下図の𝑓) . – 各カップリング処理では,畳み込みResNet+重み正規化+バッチ正規化 • それを多層にして全体を構成する. – ただし各層でこの処理を行うのは計算コスト的に辛いので,層が増えたら,入力次元を半分減らすよう にする(下図). -> multi-scale architecture 34
  • 36. Glow • Glow[Kingma+ 2018] – Real NVPのフローを改良した手法 • Glowでは次の2つの新たな工夫がある. – Activation normalization(actnorm) • バッチ正規化とほぼ同じだが,バッチサイズが1でも正規化可能 – Invertible 1×1 conv • Glowではカップリング層の前に1×1の畳み込み処理を入れることで,チャネル間全体の依存関係を捉える. -> Real NVPのような交互のマスクや,シャッフルなどをしなくてもいい. • ただし1×1 convなので,次元間(画素間)については全ての関係性を捉えられない(なのでスクイーズは必要) • 逆変換の際は,𝐖の逆行列の計算が必要だが,サイズが小さいので比較的簡単. 36
  • 37. Glowのアーキテクチャ • 基本的にはReal NVPと同じ. • ただし,1×1 convのおかげで交互にマスクする話が出てこない • 実験では,K(1層のフロー数)=32,L(層の数)=3などとしている 37
  • 39. VideoFlow • VideoFlow [Kumar+ 19] – 4日前に出た論文(著者がめっちゃオールスター) – ビデオ生成するフローベースモデル. • 各時間ステップでの生成𝐱 𝑡 = 𝑓(𝐳 𝑡)にフローを利用 – Glowのmulti-scale architectureを用いる(𝐿層) • 一方,対数尤度 𝑝(𝐱)の計算のために, 𝑝(𝐳) (事前分布)として,自己回帰的な因数分解を考える. • 各時間ステップは潜在変数の階層で以下のように因数分解されるとする – これは単純に , のようにパラメータ化 39
  • 40. 生成動画(VideoFlow) • BAIR robot pushing dataset [Ebert+ 17] • 温度パラメータは,事前分布の分散を調整 [Kingma+ 18] • パラメータが大きい方が,よく動く一方ノイズが入りやすい. • 動画は https://sites.google.com/view/videoflow/home に掲載されている. 40
  • 41. フローによる可逆な生成モデルの利点・欠点 • 利点: – 厳密な推論と,対数尤度の評価ができる. • 既存の手法では,RBM系以外はできなかった. • 画像生成以外にも,異常検知など,幅広い分野での利用が期待できる. – 推論と生成の両方が効率的. – 潜在変数内での操作ができる. – メモリ使用量を層に対して抑えられる. • 欠点: – アーキテクチャに制限がある. • 層を増やしても次元は変わらない. • 逆変換やヤコビ行列式の計算が容易である層を利用する必要 – 各フローでヤコビ行列式などを取っておく必要から,全体としてはメモリコストがかかる. 41
  • 43. 自己回帰モデル • 𝑥 = [𝑥1, … , 𝑥 𝐷]について,尤度を各次元における条件付き分布の積で構成する. – フローベースのように厳密に尤度を評価できる. • 自己回帰モデルでは,どのように条件付き分布を効率的に計算できるかがポイント – 1次元ごとに愚直に条件付き分布からサンプリングしていくと,計算コストが膨大になる. 𝑝 𝑥 = 𝑖=1 𝐷 𝑝 𝑥𝑖 𝑥1, … , 𝑥𝑖−1 -> 自己回帰生成モデル 43
  • 44. MADE • Masked Autoencoder for Distribution Estimation(MADE)[Germain+ 15] – オートエンコーダの各層にマスクをかけて,先の要素以外から条件づけられるように構成する. • 隠れ層に適当な番号をつける. • その番号より大きいユニットからのユニットを遮断するようにマスクを1にする -> 一回の順伝播で,自己回帰の全条件付き分布の出力を得ることができる. – クロスエントロピー損失が負の尤度に対応 44 − log 𝑝 𝐱 = 𝑑 𝐷 −𝑥 𝑑 log 𝑝 𝑥 𝑑 = 1 𝐱<𝑑 − 1 − 𝑥 𝑑 log 𝑝 𝑥 𝑑 = 0 𝐱<𝑑 = 𝑑 𝐷 −𝑥 𝑑log 𝑥 𝑑 − 1 − 𝑥 𝑑 log(1 − 𝑥 𝑑)
  • 45. フローとしての自己回帰 • 条件付き分布𝑝(𝑥𝑖|𝑥1:𝑖−1)がガウス分布でモデル化された自己回帰モデルを考える. – 平均と分散はVAEと同様に,DNNによって定義 • 条件付き分布からのサンプリングは,再パラメータ化トリック(アフィン変換)によって, -> この自己回帰モデルは𝐱 = 𝑓 𝐮 (𝐮~𝑁(𝟎, 𝐈) )という変換とみなすことができる 45
  • 46. Masked Autoregressive Flow • この写像𝑥 = 𝑓(𝑢)の各要素の逆変換は, のように求められる. • また,ヤコビ行列式は のように簡単に計算することができる. • したがって,この変換𝑓をフローと見なすことができる. -> Masked Autoregressive Flow(MAF) [Papamakarios+ 17] det 𝑑𝑢1 𝑑𝑥1 ⋯ 𝑑𝑢1 𝑑𝑥 𝐷 ⋮ ⋱ ⋮ 𝑑𝑢 𝐷 𝑑𝑥1 ⋯ 𝑑𝑢 𝐷 𝑑𝑥 𝐷 = det exp(−𝛼1) ⋯ 0 ⋮ ⋱ ⋮ 𝑑𝑢 𝐷 𝑑𝑥1 ⋯ exp(−𝛼 𝐷) = exp(− 𝑖=1 𝐷 𝛼𝑖) 46
  • 47. Masked Autoregressive Flow • この写像𝐱 = 𝑓(𝐮)の各要素の逆変換は, のように求められる. • また,ヤコビ行列式は のように簡単に計算することができる. • したがって,この変換𝑓をフローと見なすことができる. -> Masked Autoregressive Flow(MAF) [Papamakarios+ 17] det 𝑑𝑢1 𝑑𝑥1 ⋯ 𝑑𝑢1 𝑑𝑥 𝐷 ⋮ ⋱ ⋮ 𝑑𝑢 𝐷 𝑑𝑥1 ⋯ 𝑑𝑢 𝐷 𝑑𝑥 𝐷 = det exp(−𝛼1) ⋯ 0 ⋮ ⋱ ⋮ 𝑑𝑢 𝐷 𝑑𝑥1 ⋯ exp(−𝛼 𝐷) = exp(− 𝑖=1 𝐷 𝛼𝑖) 自己回帰の性質と逆変換の式(上式)より 𝑖 < 𝑗のとき 𝑑𝑢 𝑖 𝑑𝑥 𝑗 = (𝑥𝑖 − 𝜇𝑖) 𝑑exp(− 𝑓𝑎 𝑖 𝑥1:𝑖−1 ) 𝑑𝑥 𝑗 = 0 逆変換の式より 𝑖 = 𝑗のとき 𝑑𝑢 𝑖 𝑑𝑥 𝑗 = exp(− 𝑓𝑎 𝑖 𝑥1:𝑖−1 ) 𝑑𝑥 𝑖 𝑑𝑥 𝑗 = exp(− 𝑓𝑎 𝑖 𝑥1:𝑖−1 ) 47
  • 48. MAFにおけるMADEの利用 • MAFの密度推定には,逆変換(推論) 𝐮 = 𝑓−1(𝐱)が必要 – 𝜇𝑖 = 𝑓𝜇 𝑖 (𝑥1:𝑖−1)と𝛼𝑖 = 𝑓𝛼 𝑖 (𝑥1:𝑖−1)は𝐮に依存しないので,ベクトル𝝁と𝜶を𝐱から一気に求めることができれ ば,𝐮 = 𝐱 − 𝝁 exp(−𝜶)で高速に推論できる. • パラメータネットワーク(𝑓𝛼と𝑓𝜇)の設計にMADEを使う. – すると,1つのパスだけで𝐱から𝝁と𝜶を一気に求めることができる. • ただし生成𝐱 = 𝑓 (𝐮) は, 𝜇𝑖 や𝛼𝑖が𝑥1:𝑖−1に依存するので,一気にできない(D次元分かかる). 48
  • 49. Inverse Autoregressive Flow • Inverse Autoregressive Flow(IAF)[Kingma+ 16] – MAFとほとんど同じだが,パラメータネットワーク(MADE)の入力が ノイズ𝐮 になっている点が異なる. • MAFでは,データ𝐱が入力だった. – そのため,MAFとは異なり,高速にサンプリング(生成)することができる • 元論文では,変分推論における柔軟な推論のために導入されている(フローによる変分推論). • 推論のフローがサンプリングとなる. – その一方で,尤度の推定(つまり訓練)は遅くなる. MAF IAF 49
  • 51. Parallel WaveNet • Parallel WaveNet [Oord+ 17] – WaveNetは自己回帰モデルなのでサンプリングは遅い(が高性能). – そこで,サンプリングが高速なParallel WaveNetを自己回帰のWaveNetに近づける. • Parallel WaveNetとして生成が高速な(しかし訓練が遅い)IAFを用いる(生徒). – 近づける方法としては,確率密度蒸留(probability density distillation)を提案している. ※ParallelWavenetについて,より詳しくは阿久澤くんの発表([DL輪読会]Parallel WaveNet: Fast High-Fidelity Speech Synthesis)を参照 51
  • 52. Neural Autoregressive Flow • Neural Autoregressive Flow(NAF)[Huang+ 18] – IAFやMAFのアフィン変換を特殊なDNNに置き換えた手法 • 自己回帰フロー(ここではIAF)をconditioner 𝑐とtransformer 𝜏に分解する. – これまでは,𝑐をMADE,𝜏をアフィン変換(再パラ)と考えていた. • NAFでは,DNNによってこれを次のようにモデル化する. – ただし𝜙はDNNの重み. – つまり,conditionerを𝐮1:𝑡−1 から得られるtransformerの重み(擬似パラメータ)と考える. • transformer は入力と出力が両方1次元とするDNN. 𝐱 𝑡 = 𝑓 𝐮1:𝑡 = 𝜏(𝑐 𝐮1:𝑡−1 , 𝐮 𝑡) 𝜏 𝑐 𝐮1:𝑡−1 , 𝐮 𝑡 = 𝐷𝑁𝑁(𝐮 𝑡; 𝜙 = 𝑐(𝐮1:𝑡−1)) ※図では,uがx,xがyとなっている 52
  • 53. Transformerの種類と性能 • Deep Sigmoidal Flow(DSF)とDeep Dense Sigmoidal Flows(DDSF)を提案. – 従来の変換(アフィン変換)よりも柔軟な変換を実現 – いずれも可逆で,ヤコビ行列式も連鎖律で容易に計算できる. • 実験では,密度推定とサンプリングの両方でアフィン変換のMAF/IAFよりも高い性能 サンプリング 密度推定 真の分布 IAF-affine NAF(IAF-DSF) 真の分布 MAF-affine NAF(MAF-DSF) 53
  • 55. 変分推論 • 背景:潜在変数を持つ確率モデル(例えば𝑝 𝐱, 𝐳 = 𝑝 𝐱 𝐳 𝑝(𝐳))の周辺対数尤度log 𝑝 𝐱 = log 𝑝 𝐱, 𝐳 𝑑𝐳は通常計算困難なため,直接最大化できない. • 近似事後分布𝑞(𝐳|𝐱)を導入(amortized variational inference)して,イェンセンの不等式より ℒ(𝐱)はエビデンス下界(evidence lower bound, ELBO) – 対数尤度の代わりにELBOを最大化する. • ここで,対数尤度とELBOの差は, • したがって,ELBOが対数尤度となるべく等しくなるためには,KLダイバージェンスがなるべく 小さくなるような柔軟な近似事後分布を設計することが重要 55 log 𝑝 𝐱 ≥ 𝑞(𝐳|𝐱)log 𝑝 𝐱, 𝐳 𝑞 𝐳|𝐱 𝑑𝑧 ≡ ℒ(𝐱) log 𝑝 𝐱 − ℒ 𝐱 = 𝑞 𝐳|𝐱 log 𝑝 𝐱 𝑑𝐳 − 𝑞 𝐳|𝐱 log 𝑝 𝐱, 𝐳 𝑞 𝐳|𝐱 𝑑𝐳 = 𝐷 𝐾𝐿 [𝑞 𝐳|𝐱 ||𝑝 𝐳|𝐱 ]
  • 56. フローによる変分推論 • 事後分布𝑞(𝐳|𝐱)は再パラメータ化トリックの都合上,パラメータ化が容易な分布(ガウス分布と か)しか使えない. • そこで,フローによってシンプルな分布をより柔軟な事後分布に変換することを考える. -> フローによる変分推論 • フローによる事後分布𝑞(𝐳|𝐱) = 𝑞 𝐾(𝐳 𝐾), 𝐳 𝐾 = 𝑓𝐾 ∘ 𝑓𝐾−1 ∘ ⋯ ∘ 𝑓1(𝐳0) (パラメータ化容易な初期分 布は𝑞0(𝐳0) )によって,ELBOは, • これまでと同様,ヤコビ行列式が簡単に計算できる必要がある – ただし可逆な生成モデルと異なり,入力データから直接学習する必要はないことに注意. 56 𝑞(𝐳|𝐱)log 𝑝 𝐱, 𝐳 𝑞(𝐳|𝐱) 𝑑𝐳 = 𝑞0 𝐳0 log𝑝(𝐱, 𝐳 𝐾)𝑑𝑧 − 𝑞0 𝐳0 log𝑞 𝐾(𝐳 𝐾)𝑑𝐳 = 𝑞0 𝐳0 log𝑝(𝐱, 𝐳 𝐾)𝑑𝐳 −𝔼 𝑞0 𝐳0 [log𝑞0 𝐳0 − 𝑖=1 𝐾 log det 𝑑𝑓𝑖 𝑑𝐳𝑖−1 ]
  • 57. Planar Flow • Planar Flow [Rezende+ 15] – この研究で初めてNormalizing flowという単語が登場 – 次のような変換を考える ただし,𝐮, 𝒘 ∈ ℝ 𝐷, ℎはtanhなどの活性化関数 – この変換は, tanhのとき,𝐮 𝑇 𝐰 ≥ −1ならば可逆. – ℎ(𝐰 𝑇 𝐳 + 𝑏)の出力はスカラーとなることに注意(出力ユニットが1のMLP) • Matrix determinant lemmaを用いて,ヤコビ行列式は ただし,ℎ′はℎの導関数 – したがって,このフローは𝑂(𝐷)のオーダーで計算できる. 57 𝐳′ = 𝐳 + 𝐮ℎ(𝐰 𝑇 𝐳 + 𝑏) Matrix determinant lemma 𝐀が可逆行列のとき det 𝐀 + 𝐮𝐯 𝑇 = 1 + 𝐯 𝑇 𝐀−1 𝐮 det 𝐀 が成り立つ. det 𝐈 + 𝐮ℎ′ 𝐰 𝑇 𝐳 + 𝑏 𝐰 𝑇 = 1 + 𝐮ℎ′ 𝐰 𝑇 𝐳 + 𝑏 𝐰 𝑇
  • 58. Sylvester normalizing flow • Sylvester normalizing flow(SNF)[Berg+ 18] – MLPの出力をスカラーではなく𝑀( ≤ 𝐷)次元に一般化したフロー – 𝐀 ∈ ℝD×𝑀, 𝐁 ∈ ℝM×𝐷, 𝐛 ∈ ℝMのとき,単層のMLP + Residual connectionを考える. – しかしこのフローは一般的に可逆ではない&ヤコビ行列式も困難 • そこで,上三角行列𝐑, 𝐑と直交行列𝐐によって𝐀 = 𝐐𝐑と𝐁 = 𝐑𝐐 𝑇 のように制約する. • Sylvester’s determinant identityより,ヤコビ行列式は となり, 𝑂(𝐷)のオーダーで計算できる.また,一定の条件の下(Theorem 2参照)で可逆になる. 58 Sylvester’s determinant identity 𝐳′ = 𝐳 + 𝐀ℎ(𝐁𝐳 + 𝐛) 𝐳′ = 𝐳 + 𝐐𝐑ℎ( 𝐑𝐐 𝑇 𝐳 + 𝐛) det(𝐈 𝑀 + 𝑑𝑖𝑎𝑔(ℎ′ 𝐑𝐐 𝑇 𝐳 + 𝐛 ) 𝐑𝐑) det(𝐈 𝐷 + 𝐀𝐁) = det(𝐈 𝑀 + 𝐁𝐀)
  • 59. 直交行列Qの計算とIAFとの関係 • 直交行列Qの計算は困難なので,次の3つの方法を提案(詳細は省略) – Orthogonal SNF:直交行列に収束するように反復的に更新する – Householder SNF:計算が容易なハウスホルダー鏡映の積で表現 – Triangular SNF:フローごとに交互に,単位行列あるいはそれを列方向に反転したものをQとする • IAF(𝑧𝑖 𝑡 = 𝜇𝑖 𝑡 𝐳1:𝑖−1 𝑡−1 + 𝜎𝑖 𝑡 (𝐳1:𝑡−1 𝑡−1 )・𝑧𝑖 𝑡−1 )との比較 – SNFは,IAFの分散を1に固定した場合(mean-only IAF)とみなせる. – mean-only IAFはヤコビ行列式が1となるが,SNFでは1ではない – またIAFでは,全てのフローでパラメータが固定となるが,SNFではフローごとに推論する. 59 IAFSNF
  • 61. まとめ • フローは,密度関数の評価・逆変換可能という大きな利点がある. • しかし可逆とヤコビアンの制約があるため,解きたい問題設定に応じた手法が提案されている. – 可逆な生成モデルは,アーキテクチャにかなり制約があるものの,フローだけで潜在変数を含んだ生成 モデルを記述できる. – 自己回帰フローは,密度推定とサンプリングのトレードオフがあるものの,ヤコビ行列式を効率よく計 算できる. • Neural Ordinary Differential Equation[Chen+ 18]の登場 – FFJORD(Free-Form Jacobian of Reversible Dynamics)[Greathwohl+ 19] – これの登場によって,フローにおける諸々の制約が外れた • フローのダイナミクスが離散から連続的になった. • (それに関連して)モデルのパラメータ数が大幅に減った. • ヤコビ行列式の計算コストが低くなった. • 密度推定とサンプリングの両方が効率的. ※詳しくは冨山くんの発表([DL輪読会]Neural Ordinary Differential Equations)を参照 61
  • 62. 感想 • やばい人たちがやばいモデルを提案しまくっている印象 • 今後は – 表現学習としてのフロー – 系列情報とフロー(VideoFlow) – 他の深層生成モデルとの組み合わせ(すでにflow-GAN[Grover+ 17]などいくつかある) – フローの実応用 あたりが重要になりそう. • 個人的には,単独で使われる技術にはならずに,世界モデルの一部として組み込まれる感じがい い気がしている. • 可逆な性質は,階層間に双方向結合がある脳的にも興味深い. 62

Hinweis der Redaktion

  1. 流体における粒子の動きの概念を定式化したもの
  2. 逆関数定理
  3. ヤコビアンが0にならないこと