【論文読み会】Autoregressive Diffusion Models.pptx

ARISE analytics
ARISE analyticsARISE analytics
Autoregressive Diffusion
Models
CAD DTU 技統支援T
奥井 恒
2022/07/15
©2022 ARISE analytics Reserved.
ICLR2022論文読み会
Introduction
©2022 ARISE analytics Reserved
Autoregressive Diffusion Model (ARDM)
©2022 ARISE analytics Reserved. 2
自己回帰モデルと拡散モデルを一般化したモデル。
性能を大幅に低下させることなく、同時に複数のトークンを生成するために
並列化することができる。
Autoregressive Diffusion Model (ARDM)
©2022 ARISE analytics Reserved. 3
今回紹介する論文は生成モデルについての論文。任意の順番で複数のピクセ
ルを同時に生成できる。
ARDMによる生成プロ
セス
この論文の位置づけ
©2022 ARISE analytics Reserved. 4
※正確には、OA-ARM, Discrete Diffusion model を一般化
ARDMは、自己回帰モデルと拡散モデルを一般化したモデル※
Autoregressive Diffusion Model
• Autoregressive Model を改善
• 順序に依存しない
• Diffusion Model を効率化
• 少ないステップで同程度の精度を担保
Generative Model
Deep Generative Model
VAE
GAN
Flow
Autoregressive Model
Diffusion Model
生成モデル (Generative models)
©2022 ARISE analytics Reserved. 5
※ 参考(A.L.Yullie et.al, 2006)
生成モデルとは、学習データからそのデータの特徴を学習し、類似したデータ
を生成することができるモデル
学習データの背後にある確率分布を推定し獲得する。
学習対象のデータ分
布
生成モデルの確率分布
近づける
:学習データ
使い道の例
生成モデル
対象ドメインのデータを生成
• 画像、音声、化合物を生成する
• シミュレーターを作る
対象ドメインのデータを生成
• 生成された候補が正しいか評価できる
• 異常検知に利用する
データを詳細に解析
• Analysis by Synthesis(生成による解析)※
• 認識モデルの汎化性能を向上
深層生成モデル (Deep generative models)
©2022 ARISE analytics Reserved. 6
表は「ディープラーニングを支える技術2」から引用
ニューラルネットワークを使って、生成過程を近似しモデル化する。表現力が
高く、複雑な生成対象を扱うことができる。
①抽象化表
現が得られ
る
②尤度が評
価できる
③学習が安
定している
④高忠実な
生成ができ
る
⑤高速に
生成できる
VAE 〇 △(下限) 〇 △ 〇
GAN △ × × 〇 〇
Flow △ 〇 △ △ 〇
ARM × 〇 〇 〇 ×
DM △ 〇 〇 〇 ×
①抽象化表現が得られる
データを要約したような表現ができるか
②尤度が評価できる
尤度(もしくは下限)を表現できるか
③学習が安定している
学習が常に成功するか、ハイパーパラメー
タの調整が難しくないか
④高忠実な生成ができる
元のデータに高忠実な生成できるか
⑤高速に生成できる
対象ドメインのデータを高速に生成できる
か
VAE, GAN, Flow
©2022 ARISE analytics Reserved. 7
VAE、GAN、Flowモデルは以下のような構造。
詳細はそのほかの資料をご参考ください。
日本語の記事もある。
Flow-based Deep Generative Models | Lil‘Log (lilianweng.github.io) より
自己回帰モデル (Autoregressive models)
©2022 ARISE analytics Reserved. 8
※ 高速化の方法として、Causal CNN(マスク付きCNN)やDilated Convolutionなども提案されてい
る。
推論の並列化を行う研究もある (参考)
自分が過去に出力した結果を条件とした条件付き確率モデルを使って、データを
次々と出力するようなモデル
𝑝 𝑥1, 𝑥2, 𝑥3, ⋯ , 𝑥𝑑
= 𝑝 𝑥1 𝑝 𝑥2 𝑥1 𝑝 𝑥3 𝑥1𝑥2 , ⋯ 𝑝 𝑥𝑑 𝑥1 … 𝑥𝑑−1
=
𝑖=1
𝑑
𝑝(𝑥𝑖|𝑥<𝑖)
複雑な同時確立を条件付き確率として
表し、各条件付き確率をモデル化する
例
• GPT3(自然言語)
• WaveNet(音声合成)
メリッ
ト
デメ
リット
• 精度が良い(VAEや正規化フ
ローと比較して、尤度が高く出
ている)
• データを生成する順番を事前に
指定する必要がある。
• 生成が遅い※ (各次元を一つずつ
逐次的に生成するため)
• 解釈性が低い(潜在因子を見つ
けることはできない:VAE,GAN
では可能)
特徴
概要
拡散モデル (Diffusion models)
©2022 ARISE analytics Reserved. 9
自己回帰モデルと特徴が似ているが、学習・生成過程が異なる。
(拡散モデルは各時刻にノイズを加えたり・戻したりして、次の時刻の
ノイズからスタートし、徐々にノイズを除去していくことでデータを生成する
モデル
• 生成品質が高く、多様なデータ
を生成できる
• 最尤推定で安定して学習できる
(参考)
• 生成に時間がかかる
J.Ho, et.al.(2020) より引用
逆拡散過程
→
←
拡散過程
各時刻で、拡散過程 𝑞 によって、𝑥𝑡−1 から
𝑥𝑡 へのノイズが加えられたデータが、逆拡
散過程で 𝑥𝑡 から 𝑥𝑡−1 に戻る確率が高くなる
ようにしていく。
メリッ
ト
デメ
リット
特徴
概要
ARDMs (Autoregressive Diffusion Models)
©2022 ARISE analytics Reserved. 10
ARDMは、自己回帰モデル・拡散モデルを一般化した、任意の順番で生成が可能な生
成モデル
ARM
DM
• 順序に依存しない
• 少ないステップで実行、並列処理も可能
• データを生成する順番を事前に
指定する必要がある
• 生成が遅い※ (各次元を一つず
つ逐次的に生成するため)
• 生成に時間がかかる
特徴
改善したポイント
ARDMについて
©2022 ARISE analytics Reserved
ARDMs (Autoregressive Diffusion Models)
©2022 ARISE analytics Reserved. 12
ARDMは、自己回帰モデル・拡散モデルを一般化した、任意の順番で生成が可能な生
成モデル
特徴
ARDMの概要
• ランダムな順序で変数を生成
• 複数の変数に対する分布が同時に生成され
るので、並列化が可能(動的計画法を使う)
• 順序に依存しない
• 少ないステップで実行、並列処理も可能
前のページの改善イメージ
©2022 ARISE analytics Reserved. 13
変数の生成
• ランダムな順序で変数を生成
• 複数の変数に対する分布が同時に生成され
るので、並列化が可能(動的計画法を使う)
ARDMの特徴
ランダムな順序の変数を生成し、尤度の要素をサンプリングして最適化する。
tに関する総和を適切に再重み
付けされた期待値で置き換え
る
Lt項はステップtの尤度成分を表す。
データポイントの全てのLt項を同時に最適化
する必要はない
ランダム順序での変数生成アルゴリズム
©2022 ARISE analytics Reserved. 14
参考:Autoregressive Diffusion Models (Machine Learning Research Paper Explained) - YouTube
生成順序σ=(3,1,2,4)の自己回帰拡散モデルの生成を示す。
サンプルのベクトル
通常は順序に従っ
decode このモデルで
は最初は空
最初の予測機
同時にあらゆ
る変数につい
て分布を予測
その中から
デコードし
たいものを
選ぶ
一つを除いて同じサンプル
(一つはデコード、その他は
空)
同時に全体の
イメージを予
測
その中からデ
コードしたいも
のを選ぶ
第1層と第3層の塗りつぶされた円はそれぞれ入力変数と出力変数を表し、中間層はネットワー
クの内部活性化を表す。中間層はネットワークの内部活性化を表す。
ランダム順序での変数生成の学習アルゴリズム
©2022 ARISE analytics Reserved. 15
ARDM学習ステップを示す。
このステップでは、σ(1)=3を満たすすべての可能な並べ換
えσについて、同時にステップt=2で最適化する。
サンプリングでは、1ステップにつき1つの出力しか使用されてい
ないのに対し、学習ステップではマスクされたすべての次元が同
時に予測される
ARDMs (Autoregressive Diffusion Models)
©2022 ARISE analytics Reserved. 16
Watson et.al. 2021 のアイデアを基にしている
複数変数の分布が同時に生成され、並列化が可能
ARDMの概要
基本的には、xσ(<t)のみを条件としなが
ら、正のkに対するxσ(t+k)に対する分布
が欲しい。
将来の変数の予測と尤度の項との
関係
モデルがどのステップt + kを予測するかは問題
ではなく、期待的にはこれらはすべて同じ関連
尤度を持つ
その結果、順序にとらわれず、t番目の変数から始め
てk個のトークンを独立に生成すると、1ステップで
k・Ltの対数確率の寄与が得られる
(従来のアプローチではk回のステップを要する。)
並列化
• ランダムな順序で変数を生成
• 複数の変数に対する分布が同時に生成され
るので、並列化が可能(動的計画法を使う)
並列化
©2022 ARISE analytics Reserved. 17
動的計画法アルゴリズムを利用することで,どのステップを並列化すべきかを
求めることができる。
動的計画法から抽出された並列化された
方針。同じ高さの成分は同時にモデル化
されるため、並行して推論・生成される。
20ステップの問題に対して、5ステップで並列化ARDMの損失成分
各ステップの個別損失
成分
実験結果
©2022 ARISE analytics Reserved
実験
©2022 ARISE analytics Reserved. 19
少ないステップで同程度の性能が得られている。
NLL : negative-log-likelihood
bpc : bit per character
実験
©2022 ARISE analytics Reserved. 20
画像圧縮で良い性能をだし、音声・画像の性能も確認している。
bpd : bit per dimension
ARDMの限界
©2022 ARISE analytics Reserved. 21
ARDMの限界がいくつか紹介されている。
• めちゃくちゃ精度が良いとは言えない。
• 一階自己回帰モデルの性能にはまだギャップがある。予備実験では、言語用のアップ
スケール版では、順序にとらわれないバージョンより良い性能は得られなかった。
• 連続分布はまだ。
• ARDMは離散変数をモデル化している。原理的には、連続分布に対する吸収過程も定
義可能
• 異なるアーキテクチャがいい場合もある。
• 本研究では、対数尤度が可逆圧縮における符号化長に直接対応するため、対数尤度の
最適化に重点を置いている。しかし、サンプルの品質など他の目的に対して最適化す
る場合、異なるアーキテクチャの選択がより良い結果を与える可能性がある。
まとめ
©2022 ARISE analytics Reserved
まとめ
©2022 ARISE analytics Reserved. 23
自己回帰モデルと拡散モデルを一般化したARDMを紹介した。
• メリット
• ARDMは、同じ性能を達成するために必要なステップ数が大幅に減少する。
• 拡散モデルのために開発された動的計画法を用いて、ARDMは性能を大幅に低下させることな
く、同時に複数のトークンを生成するために並列化することができる。
• ARDMは離散拡散モデルと同等かそれ以上の性能を持ち、かつモデリングステップの効率性が
高い。
• 限界
• 限界もある。
• めちゃくちゃ精度が良いとは言えない。
• 連続分布はまだ。
• 異なるアーキテクチャがいい場合もある
Best Partner for innovation, Best Creator for the future.
References
©2022 ARISE analytics Reserved. 25
• 論文
• Autoregressive Diffusion Models | OpenReview
• コード
• https://openreview.net/pdf?id=Lm8T39vLDTE
• 参考書籍
• ディープラーニングを支える技術2 ニューラルネットワーク最大の謎
関連論文
©2022 ARISE analytics Reserved. 26
• Autoregressive model
• 定式化(Bengio & Bengio, 2000; Larochelle & Murray, 2011)
• 画像(van den Oord et al., 2016b; Child et al., 2019, i.a.)
• 音声(van den Oord et al., 2016a; Kalchbrenner et al, 2018, i.a.)
• テキスト(Bengio et al., 2003; Graves, 2013; Melis et al., 2018; Merity et al., 2018; Brown et al., 2020, i.a.)
• 順序に依存しない
• (Uria et al., 2014)
• Transformers(Yang et al., 2019; Alcorn & Nguyen, 2021)
• 尤度に基づくタスクで限られた成功しか残していない。
• マスク予測法(Ghazvininejad et al., 2019)
• グラフ(Jain et al.,2020)。Liu et al., 2018)
• Diffusion model
• Denoizing(Song & Ermon, 2019; Sohl-Dickstein et al.,2015; Ho et al., 2020)
• マッチングスコア
• 画像(Dhariwal & Nichol,2021)
• 音声(Chen et al. ,2020; Kong et al. ,2021)
• 変分解釈による尤度の改善(Kingma et al. ,2021; Huang et al. ,2021)
• 連続拡散モデルへの高速化(Jolicoeur-Martineau et al. ,2021; Kong & Ping ,2021)
• 離散拡散モデル
• バイナリデータ(Sohl Dickstein ,2015)
• カテゴリデータ(Hoogeboom et al. ,2021; Austin,2021)
• その他の離散拡散過程(Johnson et al. ,2021)
1 von 27

Recomendados

[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder von
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational AutoencoderDeep Learning JP
1.9K views22 Folien
[DL輪読会]Flow-based Deep Generative Models von
[DL輪読会]Flow-based Deep Generative Models[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative ModelsDeep Learning JP
14.6K views62 Folien
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models von
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion ModelsDeep Learning JP
2.6K views15 Folien
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces von
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State SpacesDeep Learning JP
4.8K views34 Folien
深層生成モデルと世界モデル(2020/11/20版) von
深層生成モデルと世界モデル(2020/11/20版)深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)Masahiro Suzuki
7.1K views62 Folien
近年のHierarchical Vision Transformer von
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision TransformerYusuke Uchida
13.8K views46 Folien

Más contenido relacionado

Was ist angesagt?

【DL輪読会】マルチモーダル 基盤モデル von
【DL輪読会】マルチモーダル 基盤モデル【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】マルチモーダル 基盤モデルDeep Learning JP
1.1K views38 Folien
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing von
[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and EditingDeep Learning JP
3K views21 Folien
Iclr2016 vaeまとめ von
Iclr2016 vaeまとめIclr2016 vaeまとめ
Iclr2016 vaeまとめDeep Learning JP
6K views36 Folien
畳み込みニューラルネットワークの高精度化と高速化 von
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化Yusuke Uchida
64.5K views133 Folien
変分推論と Normalizing Flow von
変分推論と Normalizing Flow変分推論と Normalizing Flow
変分推論と Normalizing FlowAkihiro Nitta
5.5K views33 Folien
全力解説!Transformer von
全力解説!Transformer全力解説!Transformer
全力解説!TransformerArithmer Inc.
9.5K views43 Folien

Was ist angesagt?(20)

【DL輪読会】マルチモーダル 基盤モデル von Deep Learning JP
【DL輪読会】マルチモーダル 基盤モデル【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】マルチモーダル 基盤モデル
Deep Learning JP1.1K views
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing von Deep Learning JP
[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
Deep Learning JP3K views
畳み込みニューラルネットワークの高精度化と高速化 von Yusuke Uchida
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化
Yusuke Uchida64.5K views
変分推論と Normalizing Flow von Akihiro Nitta
変分推論と Normalizing Flow変分推論と Normalizing Flow
変分推論と Normalizing Flow
Akihiro Nitta5.5K views
全力解説!Transformer von Arithmer Inc.
全力解説!Transformer全力解説!Transformer
全力解説!Transformer
Arithmer Inc.9.5K views
[DL輪読会]Focal Loss for Dense Object Detection von Deep Learning JP
[DL輪読会]Focal Loss for Dense Object Detection[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection
Deep Learning JP14.3K views
SSII2022 [OS3-02] Federated Learningの基礎と応用 von SSII
SSII2022 [OS3-02] Federated Learningの基礎と応用SSII2022 [OS3-02] Federated Learningの基礎と応用
SSII2022 [OS3-02] Federated Learningの基礎と応用
SSII2.4K views
【DL輪読会】Scaling Laws for Neural Language Models von Deep Learning JP
【DL輪読会】Scaling Laws for Neural Language Models【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models
Deep Learning JP3.5K views
数学で解き明かす深層学習の原理 von Taiji Suzuki
数学で解き明かす深層学習の原理数学で解き明かす深層学習の原理
数学で解き明かす深層学習の原理
Taiji Suzuki3.8K views
劣モジュラ最適化と機械学習1章 von Hakky St
劣モジュラ最適化と機械学習1章劣モジュラ最適化と機械学習1章
劣モジュラ最適化と機械学習1章
Hakky St14.9K views
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法 von SSII
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII3.8K views
[DL輪読会]Neural Ordinary Differential Equations von Deep Learning JP
[DL輪読会]Neural Ordinary Differential Equations[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential Equations
Deep Learning JP29.2K views
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features von ARISE analytics
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
ARISE analytics7.8K views
[DL輪読会]相互情報量最大化による表現学習 von Deep Learning JP
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
Deep Learning JP7.6K views
PRML学習者から入る深層生成モデル入門 von tmtm otm
PRML学習者から入る深層生成モデル入門PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門
tmtm otm5.7K views
2014 3 13(テンソル分解の基礎) von Tatsuya Yokota
2014 3 13(テンソル分解の基礎)2014 3 13(テンソル分解の基礎)
2014 3 13(テンソル分解の基礎)
Tatsuya Yokota40.5K views
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜 von SSII
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2.3K views

Más de ARISE analytics

【論文レベルで理解しよう!】​ 欠測値処理編​ von
【論文レベルで理解しよう!】​ 欠測値処理編​【論文レベルで理解しよう!】​ 欠測値処理編​
【論文レベルで理解しよう!】​ 欠測値処理編​ARISE analytics
83 views19 Folien
【論文レベルで理解しよう!】​ 大規模言語モデル(LLM)編​ von
【論文レベルで理解しよう!】​ 大規模言語モデル(LLM)編​【論文レベルで理解しよう!】​ 大規模言語モデル(LLM)編​
【論文レベルで理解しよう!】​ 大規模言語モデル(LLM)編​ARISE analytics
112 views20 Folien
【論文読み会】Signing at Scale: Learning to Co-Articulate Signs for Large-Scale Pho... von
【論文読み会】Signing at Scale: Learning to Co-Articulate  Signs for Large-Scale Pho...【論文読み会】Signing at Scale: Learning to Co-Articulate  Signs for Large-Scale Pho...
【論文読み会】Signing at Scale: Learning to Co-Articulate Signs for Large-Scale Pho...ARISE analytics
183 views32 Folien
Hierarchical Metadata-Aware Document Categorization under Weak Supervision​ (... von
Hierarchical Metadata-Aware Document Categorization under Weak Supervision​ (...Hierarchical Metadata-Aware Document Categorization under Weak Supervision​ (...
Hierarchical Metadata-Aware Document Categorization under Weak Supervision​ (...ARISE analytics
122 views24 Folien
教師なしGNNによるIoTデバイスの異常通信検知の検討 von
教師なしGNNによるIoTデバイスの異常通信検知の検討教師なしGNNによるIoTデバイスの異常通信検知の検討
教師なしGNNによるIoTデバイスの異常通信検知の検討ARISE analytics
1K views21 Folien
【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri... von
【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri...【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri...
【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri...ARISE analytics
574 views18 Folien

Más de ARISE analytics(17)

【論文レベルで理解しよう!】​ 欠測値処理編​ von ARISE analytics
【論文レベルで理解しよう!】​ 欠測値処理編​【論文レベルで理解しよう!】​ 欠測値処理編​
【論文レベルで理解しよう!】​ 欠測値処理編​
ARISE analytics83 views
【論文レベルで理解しよう!】​ 大規模言語モデル(LLM)編​ von ARISE analytics
【論文レベルで理解しよう!】​ 大規模言語モデル(LLM)編​【論文レベルで理解しよう!】​ 大規模言語モデル(LLM)編​
【論文レベルで理解しよう!】​ 大規模言語モデル(LLM)編​
ARISE analytics112 views
【論文読み会】Signing at Scale: Learning to Co-Articulate Signs for Large-Scale Pho... von ARISE analytics
【論文読み会】Signing at Scale: Learning to Co-Articulate  Signs for Large-Scale Pho...【論文読み会】Signing at Scale: Learning to Co-Articulate  Signs for Large-Scale Pho...
【論文読み会】Signing at Scale: Learning to Co-Articulate Signs for Large-Scale Pho...
ARISE analytics183 views
Hierarchical Metadata-Aware Document Categorization under Weak Supervision​ (... von ARISE analytics
Hierarchical Metadata-Aware Document Categorization under Weak Supervision​ (...Hierarchical Metadata-Aware Document Categorization under Weak Supervision​ (...
Hierarchical Metadata-Aware Document Categorization under Weak Supervision​ (...
ARISE analytics122 views
教師なしGNNによるIoTデバイスの異常通信検知の検討 von ARISE analytics
教師なしGNNによるIoTデバイスの異常通信検知の検討教師なしGNNによるIoTデバイスの異常通信検知の検討
教師なしGNNによるIoTデバイスの異常通信検知の検討
ARISE analytics1K views
【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri... von ARISE analytics
【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri...【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri...
【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri...
ARISE analytics574 views
【論文読み会】Analytic-DPM_an Analytic Estimate of the Optimal Reverse Variance in D... von ARISE analytics
【論文読み会】Analytic-DPM_an Analytic Estimate of the Optimal Reverse Variance in D...【論文読み会】Analytic-DPM_an Analytic Estimate of the Optimal Reverse Variance in D...
【論文読み会】Analytic-DPM_an Analytic Estimate of the Optimal Reverse Variance in D...
ARISE analytics464 views
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx von ARISE analytics
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx
ARISE analytics552 views
【論文読み会】PiCO_Contrastive Label Disambiguation for Partial Label Learning.pptx von ARISE analytics
【論文読み会】PiCO_Contrastive Label Disambiguation for Partial Label Learning.pptx【論文読み会】PiCO_Contrastive Label Disambiguation for Partial Label Learning.pptx
【論文読み会】PiCO_Contrastive Label Disambiguation for Partial Label Learning.pptx
ARISE analytics494 views
【論文読み会】Deep Reinforcement Learning at the Edge of the Statistical Precipice von ARISE analytics
【論文読み会】Deep Reinforcement Learning at the Edge of the Statistical Precipice【論文読み会】Deep Reinforcement Learning at the Edge of the Statistical Precipice
【論文読み会】Deep Reinforcement Learning at the Edge of the Statistical Precipice
ARISE analytics698 views
【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3) von ARISE analytics
【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)
【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)
ARISE analytics2.7K views
【論文読み会】On the Expressivity of Markov Reward von ARISE analytics
【論文読み会】On the Expressivity of Markov Reward【論文読み会】On the Expressivity of Markov Reward
【論文読み会】On the Expressivity of Markov Reward
ARISE analytics583 views
【論文読み会】MAUVE: Measuring the Gap Between Neural Text and Human Text using Dive... von ARISE analytics
【論文読み会】MAUVE: Measuring the Gap Between Neural Text and Human Text using Dive...【論文読み会】MAUVE: Measuring the Gap Between Neural Text and Human Text using Dive...
【論文読み会】MAUVE: Measuring the Gap Between Neural Text and Human Text using Dive...
ARISE analytics698 views
【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds von ARISE analytics
【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds
【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds
ARISE analytics699 views
Counterfaual Machine Learning(CFML)のサーベイ von ARISE analytics
Counterfaual Machine Learning(CFML)のサーベイCounterfaual Machine Learning(CFML)のサーベイ
Counterfaual Machine Learning(CFML)のサーベイ
ARISE analytics29.7K views
【論文読み会】Self-Attention Generative Adversarial Networks von ARISE analytics
【論文読み会】Self-Attention Generative  Adversarial Networks【論文読み会】Self-Attention Generative  Adversarial Networks
【論文読み会】Self-Attention Generative Adversarial Networks
ARISE analytics5.3K views
【論文読み会】Universal Language Model Fine-tuning for Text Classification von ARISE analytics
【論文読み会】Universal Language Model Fine-tuning for Text Classification【論文読み会】Universal Language Model Fine-tuning for Text Classification
【論文読み会】Universal Language Model Fine-tuning for Text Classification
ARISE analytics1.9K views

Último

速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料) von
速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料)速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料)
速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料)NTT DATA Technology & Innovation
10 views38 Folien
pgvectorを使ってChatGPTとPostgreSQLを連携してみよう!(PostgreSQL Conference Japan 2023 発表資料) von
pgvectorを使ってChatGPTとPostgreSQLを連携してみよう!(PostgreSQL Conference Japan 2023 発表資料)pgvectorを使ってChatGPTとPostgreSQLを連携してみよう!(PostgreSQL Conference Japan 2023 発表資料)
pgvectorを使ってChatGPTとPostgreSQLを連携してみよう!(PostgreSQL Conference Japan 2023 発表資料)NTT DATA Technology & Innovation
185 views63 Folien
「概念モデリング自動化に向けた第一歩」 ~ ChatGPT・Open AI 活用による開発対象のモデル化 von
「概念モデリング自動化に向けた第一歩」 ~ ChatGPT・Open AI 活用による開発対象のモデル化「概念モデリング自動化に向けた第一歩」 ~ ChatGPT・Open AI 活用による開発対象のモデル化
「概念モデリング自動化に向けた第一歩」 ~ ChatGPT・Open AI 活用による開発対象のモデル化Knowledge & Experience
8 views34 Folien
The Things Stack説明資料 by The Things Industries von
The Things Stack説明資料 by The Things IndustriesThe Things Stack説明資料 by The Things Industries
The Things Stack説明資料 by The Things IndustriesCRI Japan, Inc.
19 views29 Folien
SNMPセキュリティ超入門 von
SNMPセキュリティ超入門SNMPセキュリティ超入門
SNMPセキュリティ超入門mkoda
31 views15 Folien
01Booster Studio ご紹介資料 von
01Booster Studio ご紹介資料01Booster Studio ご紹介資料
01Booster Studio ご紹介資料ssusere7a2172
220 views19 Folien

Último(12)

速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料) von NTT DATA Technology & Innovation
速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料)速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料)
速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料)
pgvectorを使ってChatGPTとPostgreSQLを連携してみよう!(PostgreSQL Conference Japan 2023 発表資料) von NTT DATA Technology & Innovation
pgvectorを使ってChatGPTとPostgreSQLを連携してみよう!(PostgreSQL Conference Japan 2023 発表資料)pgvectorを使ってChatGPTとPostgreSQLを連携してみよう!(PostgreSQL Conference Japan 2023 発表資料)
pgvectorを使ってChatGPTとPostgreSQLを連携してみよう!(PostgreSQL Conference Japan 2023 発表資料)
「概念モデリング自動化に向けた第一歩」 ~ ChatGPT・Open AI 活用による開発対象のモデル化 von Knowledge & Experience
「概念モデリング自動化に向けた第一歩」 ~ ChatGPT・Open AI 活用による開発対象のモデル化「概念モデリング自動化に向けた第一歩」 ~ ChatGPT・Open AI 活用による開発対象のモデル化
「概念モデリング自動化に向けた第一歩」 ~ ChatGPT・Open AI 活用による開発対象のモデル化
The Things Stack説明資料 by The Things Industries von CRI Japan, Inc.
The Things Stack説明資料 by The Things IndustriesThe Things Stack説明資料 by The Things Industries
The Things Stack説明資料 by The Things Industries
CRI Japan, Inc.19 views
SNMPセキュリティ超入門 von mkoda
SNMPセキュリティ超入門SNMPセキュリティ超入門
SNMPセキュリティ超入門
mkoda31 views
01Booster Studio ご紹介資料 von ssusere7a2172
01Booster Studio ご紹介資料01Booster Studio ご紹介資料
01Booster Studio ご紹介資料
ssusere7a2172220 views
さくらのひやおろし2023 von 法林浩之
さくらのひやおろし2023さくらのひやおろし2023
さくらのひやおろし2023
法林浩之83 views
Windows 11 information that can be used at the development site von Atomu Hidaka
Windows 11 information that can be used at the development siteWindows 11 information that can be used at the development site
Windows 11 information that can be used at the development site
Atomu Hidaka21 views
今、改めて考えるPostgreSQLプラットフォーム - マルチクラウドとポータビリティ -(PostgreSQL Conference Japan 20... von NTT DATA Technology & Innovation
今、改めて考えるPostgreSQLプラットフォーム - マルチクラウドとポータビリティ -(PostgreSQL Conference Japan 20...今、改めて考えるPostgreSQLプラットフォーム - マルチクラウドとポータビリティ -(PostgreSQL Conference Japan 20...
今、改めて考えるPostgreSQLプラットフォーム - マルチクラウドとポータビリティ -(PostgreSQL Conference Japan 20...
Web3 Career_クレデン資料 .pdf von nanamatsuo
Web3 Career_クレデン資料 .pdfWeb3 Career_クレデン資料 .pdf
Web3 Career_クレデン資料 .pdf
nanamatsuo8 views
SSH応用編_20231129.pdf von icebreaker4
SSH応用編_20231129.pdfSSH応用編_20231129.pdf
SSH応用編_20231129.pdf
icebreaker430 views

【論文読み会】Autoregressive Diffusion Models.pptx

  • 1. Autoregressive Diffusion Models CAD DTU 技統支援T 奥井 恒 2022/07/15 ©2022 ARISE analytics Reserved. ICLR2022論文読み会
  • 3. Autoregressive Diffusion Model (ARDM) ©2022 ARISE analytics Reserved. 2 自己回帰モデルと拡散モデルを一般化したモデル。 性能を大幅に低下させることなく、同時に複数のトークンを生成するために 並列化することができる。
  • 4. Autoregressive Diffusion Model (ARDM) ©2022 ARISE analytics Reserved. 3 今回紹介する論文は生成モデルについての論文。任意の順番で複数のピクセ ルを同時に生成できる。 ARDMによる生成プロ セス
  • 5. この論文の位置づけ ©2022 ARISE analytics Reserved. 4 ※正確には、OA-ARM, Discrete Diffusion model を一般化 ARDMは、自己回帰モデルと拡散モデルを一般化したモデル※ Autoregressive Diffusion Model • Autoregressive Model を改善 • 順序に依存しない • Diffusion Model を効率化 • 少ないステップで同程度の精度を担保 Generative Model Deep Generative Model VAE GAN Flow Autoregressive Model Diffusion Model
  • 6. 生成モデル (Generative models) ©2022 ARISE analytics Reserved. 5 ※ 参考(A.L.Yullie et.al, 2006) 生成モデルとは、学習データからそのデータの特徴を学習し、類似したデータ を生成することができるモデル 学習データの背後にある確率分布を推定し獲得する。 学習対象のデータ分 布 生成モデルの確率分布 近づける :学習データ 使い道の例 生成モデル 対象ドメインのデータを生成 • 画像、音声、化合物を生成する • シミュレーターを作る 対象ドメインのデータを生成 • 生成された候補が正しいか評価できる • 異常検知に利用する データを詳細に解析 • Analysis by Synthesis(生成による解析)※ • 認識モデルの汎化性能を向上
  • 7. 深層生成モデル (Deep generative models) ©2022 ARISE analytics Reserved. 6 表は「ディープラーニングを支える技術2」から引用 ニューラルネットワークを使って、生成過程を近似しモデル化する。表現力が 高く、複雑な生成対象を扱うことができる。 ①抽象化表 現が得られ る ②尤度が評 価できる ③学習が安 定している ④高忠実な 生成ができ る ⑤高速に 生成できる VAE 〇 △(下限) 〇 △ 〇 GAN △ × × 〇 〇 Flow △ 〇 △ △ 〇 ARM × 〇 〇 〇 × DM △ 〇 〇 〇 × ①抽象化表現が得られる データを要約したような表現ができるか ②尤度が評価できる 尤度(もしくは下限)を表現できるか ③学習が安定している 学習が常に成功するか、ハイパーパラメー タの調整が難しくないか ④高忠実な生成ができる 元のデータに高忠実な生成できるか ⑤高速に生成できる 対象ドメインのデータを高速に生成できる か
  • 8. VAE, GAN, Flow ©2022 ARISE analytics Reserved. 7 VAE、GAN、Flowモデルは以下のような構造。 詳細はそのほかの資料をご参考ください。 日本語の記事もある。 Flow-based Deep Generative Models | Lil‘Log (lilianweng.github.io) より
  • 9. 自己回帰モデル (Autoregressive models) ©2022 ARISE analytics Reserved. 8 ※ 高速化の方法として、Causal CNN(マスク付きCNN)やDilated Convolutionなども提案されてい る。 推論の並列化を行う研究もある (参考) 自分が過去に出力した結果を条件とした条件付き確率モデルを使って、データを 次々と出力するようなモデル 𝑝 𝑥1, 𝑥2, 𝑥3, ⋯ , 𝑥𝑑 = 𝑝 𝑥1 𝑝 𝑥2 𝑥1 𝑝 𝑥3 𝑥1𝑥2 , ⋯ 𝑝 𝑥𝑑 𝑥1 … 𝑥𝑑−1 = 𝑖=1 𝑑 𝑝(𝑥𝑖|𝑥<𝑖) 複雑な同時確立を条件付き確率として 表し、各条件付き確率をモデル化する 例 • GPT3(自然言語) • WaveNet(音声合成) メリッ ト デメ リット • 精度が良い(VAEや正規化フ ローと比較して、尤度が高く出 ている) • データを生成する順番を事前に 指定する必要がある。 • 生成が遅い※ (各次元を一つずつ 逐次的に生成するため) • 解釈性が低い(潜在因子を見つ けることはできない:VAE,GAN では可能) 特徴 概要
  • 10. 拡散モデル (Diffusion models) ©2022 ARISE analytics Reserved. 9 自己回帰モデルと特徴が似ているが、学習・生成過程が異なる。 (拡散モデルは各時刻にノイズを加えたり・戻したりして、次の時刻の ノイズからスタートし、徐々にノイズを除去していくことでデータを生成する モデル • 生成品質が高く、多様なデータ を生成できる • 最尤推定で安定して学習できる (参考) • 生成に時間がかかる J.Ho, et.al.(2020) より引用 逆拡散過程 → ← 拡散過程 各時刻で、拡散過程 𝑞 によって、𝑥𝑡−1 から 𝑥𝑡 へのノイズが加えられたデータが、逆拡 散過程で 𝑥𝑡 から 𝑥𝑡−1 に戻る確率が高くなる ようにしていく。 メリッ ト デメ リット 特徴 概要
  • 11. ARDMs (Autoregressive Diffusion Models) ©2022 ARISE analytics Reserved. 10 ARDMは、自己回帰モデル・拡散モデルを一般化した、任意の順番で生成が可能な生 成モデル ARM DM • 順序に依存しない • 少ないステップで実行、並列処理も可能 • データを生成する順番を事前に 指定する必要がある • 生成が遅い※ (各次元を一つず つ逐次的に生成するため) • 生成に時間がかかる 特徴 改善したポイント
  • 13. ARDMs (Autoregressive Diffusion Models) ©2022 ARISE analytics Reserved. 12 ARDMは、自己回帰モデル・拡散モデルを一般化した、任意の順番で生成が可能な生 成モデル 特徴 ARDMの概要 • ランダムな順序で変数を生成 • 複数の変数に対する分布が同時に生成され るので、並列化が可能(動的計画法を使う) • 順序に依存しない • 少ないステップで実行、並列処理も可能
  • 14. 前のページの改善イメージ ©2022 ARISE analytics Reserved. 13 変数の生成 • ランダムな順序で変数を生成 • 複数の変数に対する分布が同時に生成され るので、並列化が可能(動的計画法を使う) ARDMの特徴 ランダムな順序の変数を生成し、尤度の要素をサンプリングして最適化する。 tに関する総和を適切に再重み 付けされた期待値で置き換え る Lt項はステップtの尤度成分を表す。 データポイントの全てのLt項を同時に最適化 する必要はない
  • 15. ランダム順序での変数生成アルゴリズム ©2022 ARISE analytics Reserved. 14 参考:Autoregressive Diffusion Models (Machine Learning Research Paper Explained) - YouTube 生成順序σ=(3,1,2,4)の自己回帰拡散モデルの生成を示す。 サンプルのベクトル 通常は順序に従っ decode このモデルで は最初は空 最初の予測機 同時にあらゆ る変数につい て分布を予測 その中から デコードし たいものを 選ぶ 一つを除いて同じサンプル (一つはデコード、その他は 空) 同時に全体の イメージを予 測 その中からデ コードしたいも のを選ぶ 第1層と第3層の塗りつぶされた円はそれぞれ入力変数と出力変数を表し、中間層はネットワー クの内部活性化を表す。中間層はネットワークの内部活性化を表す。
  • 16. ランダム順序での変数生成の学習アルゴリズム ©2022 ARISE analytics Reserved. 15 ARDM学習ステップを示す。 このステップでは、σ(1)=3を満たすすべての可能な並べ換 えσについて、同時にステップt=2で最適化する。 サンプリングでは、1ステップにつき1つの出力しか使用されてい ないのに対し、学習ステップではマスクされたすべての次元が同 時に予測される
  • 17. ARDMs (Autoregressive Diffusion Models) ©2022 ARISE analytics Reserved. 16 Watson et.al. 2021 のアイデアを基にしている 複数変数の分布が同時に生成され、並列化が可能 ARDMの概要 基本的には、xσ(<t)のみを条件としなが ら、正のkに対するxσ(t+k)に対する分布 が欲しい。 将来の変数の予測と尤度の項との 関係 モデルがどのステップt + kを予測するかは問題 ではなく、期待的にはこれらはすべて同じ関連 尤度を持つ その結果、順序にとらわれず、t番目の変数から始め てk個のトークンを独立に生成すると、1ステップで k・Ltの対数確率の寄与が得られる (従来のアプローチではk回のステップを要する。) 並列化 • ランダムな順序で変数を生成 • 複数の変数に対する分布が同時に生成され るので、並列化が可能(動的計画法を使う)
  • 18. 並列化 ©2022 ARISE analytics Reserved. 17 動的計画法アルゴリズムを利用することで,どのステップを並列化すべきかを 求めることができる。 動的計画法から抽出された並列化された 方針。同じ高さの成分は同時にモデル化 されるため、並行して推論・生成される。 20ステップの問題に対して、5ステップで並列化ARDMの損失成分 各ステップの個別損失 成分
  • 20. 実験 ©2022 ARISE analytics Reserved. 19 少ないステップで同程度の性能が得られている。 NLL : negative-log-likelihood bpc : bit per character
  • 21. 実験 ©2022 ARISE analytics Reserved. 20 画像圧縮で良い性能をだし、音声・画像の性能も確認している。 bpd : bit per dimension
  • 22. ARDMの限界 ©2022 ARISE analytics Reserved. 21 ARDMの限界がいくつか紹介されている。 • めちゃくちゃ精度が良いとは言えない。 • 一階自己回帰モデルの性能にはまだギャップがある。予備実験では、言語用のアップ スケール版では、順序にとらわれないバージョンより良い性能は得られなかった。 • 連続分布はまだ。 • ARDMは離散変数をモデル化している。原理的には、連続分布に対する吸収過程も定 義可能 • 異なるアーキテクチャがいい場合もある。 • 本研究では、対数尤度が可逆圧縮における符号化長に直接対応するため、対数尤度の 最適化に重点を置いている。しかし、サンプルの品質など他の目的に対して最適化す る場合、異なるアーキテクチャの選択がより良い結果を与える可能性がある。
  • 24. まとめ ©2022 ARISE analytics Reserved. 23 自己回帰モデルと拡散モデルを一般化したARDMを紹介した。 • メリット • ARDMは、同じ性能を達成するために必要なステップ数が大幅に減少する。 • 拡散モデルのために開発された動的計画法を用いて、ARDMは性能を大幅に低下させることな く、同時に複数のトークンを生成するために並列化することができる。 • ARDMは離散拡散モデルと同等かそれ以上の性能を持ち、かつモデリングステップの効率性が 高い。 • 限界 • 限界もある。 • めちゃくちゃ精度が良いとは言えない。 • 連続分布はまだ。 • 異なるアーキテクチャがいい場合もある
  • 25. Best Partner for innovation, Best Creator for the future.
  • 26. References ©2022 ARISE analytics Reserved. 25 • 論文 • Autoregressive Diffusion Models | OpenReview • コード • https://openreview.net/pdf?id=Lm8T39vLDTE • 参考書籍 • ディープラーニングを支える技術2 ニューラルネットワーク最大の謎
  • 27. 関連論文 ©2022 ARISE analytics Reserved. 26 • Autoregressive model • 定式化(Bengio & Bengio, 2000; Larochelle & Murray, 2011) • 画像(van den Oord et al., 2016b; Child et al., 2019, i.a.) • 音声(van den Oord et al., 2016a; Kalchbrenner et al, 2018, i.a.) • テキスト(Bengio et al., 2003; Graves, 2013; Melis et al., 2018; Merity et al., 2018; Brown et al., 2020, i.a.) • 順序に依存しない • (Uria et al., 2014) • Transformers(Yang et al., 2019; Alcorn & Nguyen, 2021) • 尤度に基づくタスクで限られた成功しか残していない。 • マスク予測法(Ghazvininejad et al., 2019) • グラフ(Jain et al.,2020)。Liu et al., 2018) • Diffusion model • Denoizing(Song & Ermon, 2019; Sohl-Dickstein et al.,2015; Ho et al., 2020) • マッチングスコア • 画像(Dhariwal & Nichol,2021) • 音声(Chen et al. ,2020; Kong et al. ,2021) • 変分解釈による尤度の改善(Kingma et al. ,2021; Huang et al. ,2021) • 連続拡散モデルへの高速化(Jolicoeur-Martineau et al. ,2021; Kong & Ping ,2021) • 離散拡散モデル • バイナリデータ(Sohl Dickstein ,2015) • カテゴリデータ(Hoogeboom et al. ,2021; Austin,2021) • その他の離散拡散過程(Johnson et al. ,2021)