SlideShare a Scribd company logo
Suche senden
Hochladen
【論文読み会】Autoregressive Diffusion Models.pptx
Melden
Teilen
ARISE analytics
ARISE analytics
Folgen
•
0 gefällt mir
•
5,322 views
1
von
27
【論文読み会】Autoregressive Diffusion Models.pptx
•
0 gefällt mir
•
5,322 views
Melden
Teilen
Jetzt herunterladen
Downloaden Sie, um offline zu lesen
Technologie
社内で行った「International Conference on Learning Represantation (ICLR)2022読み会」でまとめた資料です。
Mehr lesen
ARISE analytics
ARISE analytics
Folgen
Recomendados
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder von
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
Deep Learning JP
1.9K views
•
22 Folien
[DL輪読会]Flow-based Deep Generative Models von
[DL輪読会]Flow-based Deep Generative Models
Deep Learning JP
14.6K views
•
62 Folien
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models von
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
Deep Learning JP
2.6K views
•
15 Folien
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces von
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
Deep Learning JP
4.8K views
•
34 Folien
深層生成モデルと世界モデル(2020/11/20版) von
深層生成モデルと世界モデル(2020/11/20版)
Masahiro Suzuki
7.1K views
•
62 Folien
近年のHierarchical Vision Transformer von
近年のHierarchical Vision Transformer
Yusuke Uchida
13.8K views
•
46 Folien
Más contenido relacionado
Was ist angesagt?
【DL輪読会】マルチモーダル 基盤モデル von
【DL輪読会】マルチモーダル 基盤モデル
Deep Learning JP
1.1K views
•
38 Folien
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing von
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
Deep Learning JP
3K views
•
21 Folien
Iclr2016 vaeまとめ von
Iclr2016 vaeまとめ
Deep Learning JP
6K views
•
36 Folien
畳み込みニューラルネットワークの高精度化と高速化 von
畳み込みニューラルネットワークの高精度化と高速化
Yusuke Uchida
64.5K views
•
133 Folien
変分推論と Normalizing Flow von
変分推論と Normalizing Flow
Akihiro Nitta
5.5K views
•
33 Folien
全力解説!Transformer von
全力解説!Transformer
Arithmer Inc.
9.5K views
•
43 Folien
Was ist angesagt?
(20)
【DL輪読会】マルチモーダル 基盤モデル von Deep Learning JP
【DL輪読会】マルチモーダル 基盤モデル
Deep Learning JP
•
1.1K views
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing von Deep Learning JP
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
Deep Learning JP
•
3K views
Iclr2016 vaeまとめ von Deep Learning JP
Iclr2016 vaeまとめ
Deep Learning JP
•
6K views
畳み込みニューラルネットワークの高精度化と高速化 von Yusuke Uchida
畳み込みニューラルネットワークの高精度化と高速化
Yusuke Uchida
•
64.5K views
変分推論と Normalizing Flow von Akihiro Nitta
変分推論と Normalizing Flow
Akihiro Nitta
•
5.5K views
全力解説!Transformer von Arithmer Inc.
全力解説!Transformer
Arithmer Inc.
•
9.5K views
[DL輪読会]Focal Loss for Dense Object Detection von Deep Learning JP
[DL輪読会]Focal Loss for Dense Object Detection
Deep Learning JP
•
14.3K views
SSII2022 [OS3-02] Federated Learningの基礎と応用 von SSII
SSII2022 [OS3-02] Federated Learningの基礎と応用
SSII
•
2.4K views
ELBO型VAEのダメなところ von KCS Keio Computer Society
ELBO型VAEのダメなところ
KCS Keio Computer Society
•
2.7K views
【DL輪読会】Scaling Laws for Neural Language Models von Deep Learning JP
【DL輪読会】Scaling Laws for Neural Language Models
Deep Learning JP
•
3.5K views
数学で解き明かす深層学習の原理 von Taiji Suzuki
数学で解き明かす深層学習の原理
Taiji Suzuki
•
3.8K views
劣モジュラ最適化と機械学習1章 von Hakky St
劣モジュラ最適化と機械学習1章
Hakky St
•
14.9K views
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法 von SSII
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII
•
3.8K views
[DL輪読会]Neural Ordinary Differential Equations von Deep Learning JP
[DL輪読会]Neural Ordinary Differential Equations
Deep Learning JP
•
29.2K views
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features von ARISE analytics
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
ARISE analytics
•
7.8K views
[DL輪読会]相互情報量最大化による表現学習 von Deep Learning JP
[DL輪読会]相互情報量最大化による表現学習
Deep Learning JP
•
7.6K views
Active Learning 入門 von Shuyo Nakatani
Active Learning 入門
Shuyo Nakatani
•
51.8K views
PRML学習者から入る深層生成モデル入門 von tmtm otm
PRML学習者から入る深層生成モデル入門
tmtm otm
•
5.7K views
2014 3 13(テンソル分解の基礎) von Tatsuya Yokota
2014 3 13(テンソル分解の基礎)
Tatsuya Yokota
•
40.5K views
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜 von SSII
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII
•
2.3K views
Más de ARISE analytics
【論文レベルで理解しよう!】 欠測値処理編 von
【論文レベルで理解しよう!】 欠測値処理編
ARISE analytics
83 views
•
19 Folien
【論文レベルで理解しよう!】 大規模言語モデル(LLM)編 von
【論文レベルで理解しよう!】 大規模言語モデル(LLM)編
ARISE analytics
112 views
•
20 Folien
【論文読み会】Signing at Scale: Learning to Co-Articulate Signs for Large-Scale Pho... von
【論文読み会】Signing at Scale: Learning to Co-Articulate Signs for Large-Scale Pho...
ARISE analytics
183 views
•
32 Folien
Hierarchical Metadata-Aware Document Categorization under Weak Supervision (... von
Hierarchical Metadata-Aware Document Categorization under Weak Supervision (...
ARISE analytics
122 views
•
24 Folien
教師なしGNNによるIoTデバイスの異常通信検知の検討 von
教師なしGNNによるIoTデバイスの異常通信検知の検討
ARISE analytics
1K views
•
21 Folien
【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri... von
【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri...
ARISE analytics
574 views
•
18 Folien
Más de ARISE analytics
(17)
【論文レベルで理解しよう!】 欠測値処理編 von ARISE analytics
【論文レベルで理解しよう!】 欠測値処理編
ARISE analytics
•
83 views
【論文レベルで理解しよう!】 大規模言語モデル(LLM)編 von ARISE analytics
【論文レベルで理解しよう!】 大規模言語モデル(LLM)編
ARISE analytics
•
112 views
【論文読み会】Signing at Scale: Learning to Co-Articulate Signs for Large-Scale Pho... von ARISE analytics
【論文読み会】Signing at Scale: Learning to Co-Articulate Signs for Large-Scale Pho...
ARISE analytics
•
183 views
Hierarchical Metadata-Aware Document Categorization under Weak Supervision (... von ARISE analytics
Hierarchical Metadata-Aware Document Categorization under Weak Supervision (...
ARISE analytics
•
122 views
教師なしGNNによるIoTデバイスの異常通信検知の検討 von ARISE analytics
教師なしGNNによるIoTデバイスの異常通信検知の検討
ARISE analytics
•
1K views
【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri... von ARISE analytics
【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri...
ARISE analytics
•
574 views
【論文読み会】Analytic-DPM_an Analytic Estimate of the Optimal Reverse Variance in D... von ARISE analytics
【論文読み会】Analytic-DPM_an Analytic Estimate of the Optimal Reverse Variance in D...
ARISE analytics
•
464 views
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx von ARISE analytics
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx
ARISE analytics
•
552 views
【論文読み会】PiCO_Contrastive Label Disambiguation for Partial Label Learning.pptx von ARISE analytics
【論文読み会】PiCO_Contrastive Label Disambiguation for Partial Label Learning.pptx
ARISE analytics
•
494 views
【論文読み会】Deep Reinforcement Learning at the Edge of the Statistical Precipice von ARISE analytics
【論文読み会】Deep Reinforcement Learning at the Edge of the Statistical Precipice
ARISE analytics
•
698 views
【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3) von ARISE analytics
【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)
ARISE analytics
•
2.7K views
【論文読み会】On the Expressivity of Markov Reward von ARISE analytics
【論文読み会】On the Expressivity of Markov Reward
ARISE analytics
•
583 views
【論文読み会】MAUVE: Measuring the Gap Between Neural Text and Human Text using Dive... von ARISE analytics
【論文読み会】MAUVE: Measuring the Gap Between Neural Text and Human Text using Dive...
ARISE analytics
•
698 views
【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds von ARISE analytics
【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds
ARISE analytics
•
699 views
Counterfaual Machine Learning(CFML)のサーベイ von ARISE analytics
Counterfaual Machine Learning(CFML)のサーベイ
ARISE analytics
•
29.7K views
【論文読み会】Self-Attention Generative Adversarial Networks von ARISE analytics
【論文読み会】Self-Attention Generative Adversarial Networks
ARISE analytics
•
5.3K views
【論文読み会】Universal Language Model Fine-tuning for Text Classification von ARISE analytics
【論文読み会】Universal Language Model Fine-tuning for Text Classification
ARISE analytics
•
1.9K views
Último
速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料) von
速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料)
NTT DATA Technology & Innovation
10 views
•
38 Folien
pgvectorを使ってChatGPTとPostgreSQLを連携してみよう!(PostgreSQL Conference Japan 2023 発表資料) von
pgvectorを使ってChatGPTとPostgreSQLを連携してみよう!(PostgreSQL Conference Japan 2023 発表資料)
NTT DATA Technology & Innovation
185 views
•
63 Folien
「概念モデリング自動化に向けた第一歩」 ~ ChatGPT・Open AI 活用による開発対象のモデル化 von
「概念モデリング自動化に向けた第一歩」 ~ ChatGPT・Open AI 活用による開発対象のモデル化
Knowledge & Experience
8 views
•
34 Folien
The Things Stack説明資料 by The Things Industries von
The Things Stack説明資料 by The Things Industries
CRI Japan, Inc.
19 views
•
29 Folien
SNMPセキュリティ超入門 von
SNMPセキュリティ超入門
mkoda
31 views
•
15 Folien
01Booster Studio ご紹介資料 von
01Booster Studio ご紹介資料
ssusere7a2172
220 views
•
19 Folien
Último
(12)
速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料) von NTT DATA Technology & Innovation
速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料)
NTT DATA Technology & Innovation
•
10 views
pgvectorを使ってChatGPTとPostgreSQLを連携してみよう!(PostgreSQL Conference Japan 2023 発表資料) von NTT DATA Technology & Innovation
pgvectorを使ってChatGPTとPostgreSQLを連携してみよう!(PostgreSQL Conference Japan 2023 発表資料)
NTT DATA Technology & Innovation
•
185 views
「概念モデリング自動化に向けた第一歩」 ~ ChatGPT・Open AI 活用による開発対象のモデル化 von Knowledge & Experience
「概念モデリング自動化に向けた第一歩」 ~ ChatGPT・Open AI 活用による開発対象のモデル化
Knowledge & Experience
•
8 views
The Things Stack説明資料 by The Things Industries von CRI Japan, Inc.
The Things Stack説明資料 by The Things Industries
CRI Japan, Inc.
•
19 views
SNMPセキュリティ超入門 von mkoda
SNMPセキュリティ超入門
mkoda
•
31 views
01Booster Studio ご紹介資料 von ssusere7a2172
01Booster Studio ご紹介資料
ssusere7a2172
•
220 views
JJUG CCC.pptx von Kanta Sasaki
JJUG CCC.pptx
Kanta Sasaki
•
6 views
さくらのひやおろし2023 von 法林浩之
さくらのひやおろし2023
法林浩之
•
83 views
Windows 11 information that can be used at the development site von Atomu Hidaka
Windows 11 information that can be used at the development site
Atomu Hidaka
•
21 views
今、改めて考えるPostgreSQLプラットフォーム - マルチクラウドとポータビリティ -(PostgreSQL Conference Japan 20... von NTT DATA Technology & Innovation
今、改めて考えるPostgreSQLプラットフォーム - マルチクラウドとポータビリティ -(PostgreSQL Conference Japan 20...
NTT DATA Technology & Innovation
•
13 views
Web3 Career_クレデン資料 .pdf von nanamatsuo
Web3 Career_クレデン資料 .pdf
nanamatsuo
•
8 views
SSH応用編_20231129.pdf von icebreaker4
SSH応用編_20231129.pdf
icebreaker4
•
30 views
【論文読み会】Autoregressive Diffusion Models.pptx
1.
Autoregressive Diffusion Models CAD DTU
技統支援T 奥井 恒 2022/07/15 ©2022 ARISE analytics Reserved. ICLR2022論文読み会
2.
Introduction ©2022 ARISE analytics
Reserved
3.
Autoregressive Diffusion Model
(ARDM) ©2022 ARISE analytics Reserved. 2 自己回帰モデルと拡散モデルを一般化したモデル。 性能を大幅に低下させることなく、同時に複数のトークンを生成するために 並列化することができる。
4.
Autoregressive Diffusion Model
(ARDM) ©2022 ARISE analytics Reserved. 3 今回紹介する論文は生成モデルについての論文。任意の順番で複数のピクセ ルを同時に生成できる。 ARDMによる生成プロ セス
5.
この論文の位置づけ ©2022 ARISE analytics
Reserved. 4 ※正確には、OA-ARM, Discrete Diffusion model を一般化 ARDMは、自己回帰モデルと拡散モデルを一般化したモデル※ Autoregressive Diffusion Model • Autoregressive Model を改善 • 順序に依存しない • Diffusion Model を効率化 • 少ないステップで同程度の精度を担保 Generative Model Deep Generative Model VAE GAN Flow Autoregressive Model Diffusion Model
6.
生成モデル (Generative models) ©2022
ARISE analytics Reserved. 5 ※ 参考(A.L.Yullie et.al, 2006) 生成モデルとは、学習データからそのデータの特徴を学習し、類似したデータ を生成することができるモデル 学習データの背後にある確率分布を推定し獲得する。 学習対象のデータ分 布 生成モデルの確率分布 近づける :学習データ 使い道の例 生成モデル 対象ドメインのデータを生成 • 画像、音声、化合物を生成する • シミュレーターを作る 対象ドメインのデータを生成 • 生成された候補が正しいか評価できる • 異常検知に利用する データを詳細に解析 • Analysis by Synthesis(生成による解析)※ • 認識モデルの汎化性能を向上
7.
深層生成モデル (Deep generative
models) ©2022 ARISE analytics Reserved. 6 表は「ディープラーニングを支える技術2」から引用 ニューラルネットワークを使って、生成過程を近似しモデル化する。表現力が 高く、複雑な生成対象を扱うことができる。 ①抽象化表 現が得られ る ②尤度が評 価できる ③学習が安 定している ④高忠実な 生成ができ る ⑤高速に 生成できる VAE 〇 △(下限) 〇 △ 〇 GAN △ × × 〇 〇 Flow △ 〇 △ △ 〇 ARM × 〇 〇 〇 × DM △ 〇 〇 〇 × ①抽象化表現が得られる データを要約したような表現ができるか ②尤度が評価できる 尤度(もしくは下限)を表現できるか ③学習が安定している 学習が常に成功するか、ハイパーパラメー タの調整が難しくないか ④高忠実な生成ができる 元のデータに高忠実な生成できるか ⑤高速に生成できる 対象ドメインのデータを高速に生成できる か
8.
VAE, GAN, Flow ©2022
ARISE analytics Reserved. 7 VAE、GAN、Flowモデルは以下のような構造。 詳細はそのほかの資料をご参考ください。 日本語の記事もある。 Flow-based Deep Generative Models | Lil‘Log (lilianweng.github.io) より
9.
自己回帰モデル (Autoregressive models) ©2022
ARISE analytics Reserved. 8 ※ 高速化の方法として、Causal CNN(マスク付きCNN)やDilated Convolutionなども提案されてい る。 推論の並列化を行う研究もある (参考) 自分が過去に出力した結果を条件とした条件付き確率モデルを使って、データを 次々と出力するようなモデル 𝑝 𝑥1, 𝑥2, 𝑥3, ⋯ , 𝑥𝑑 = 𝑝 𝑥1 𝑝 𝑥2 𝑥1 𝑝 𝑥3 𝑥1𝑥2 , ⋯ 𝑝 𝑥𝑑 𝑥1 … 𝑥𝑑−1 = 𝑖=1 𝑑 𝑝(𝑥𝑖|𝑥<𝑖) 複雑な同時確立を条件付き確率として 表し、各条件付き確率をモデル化する 例 • GPT3(自然言語) • WaveNet(音声合成) メリッ ト デメ リット • 精度が良い(VAEや正規化フ ローと比較して、尤度が高く出 ている) • データを生成する順番を事前に 指定する必要がある。 • 生成が遅い※ (各次元を一つずつ 逐次的に生成するため) • 解釈性が低い(潜在因子を見つ けることはできない:VAE,GAN では可能) 特徴 概要
10.
拡散モデル (Diffusion models) ©2022
ARISE analytics Reserved. 9 自己回帰モデルと特徴が似ているが、学習・生成過程が異なる。 (拡散モデルは各時刻にノイズを加えたり・戻したりして、次の時刻の ノイズからスタートし、徐々にノイズを除去していくことでデータを生成する モデル • 生成品質が高く、多様なデータ を生成できる • 最尤推定で安定して学習できる (参考) • 生成に時間がかかる J.Ho, et.al.(2020) より引用 逆拡散過程 → ← 拡散過程 各時刻で、拡散過程 𝑞 によって、𝑥𝑡−1 から 𝑥𝑡 へのノイズが加えられたデータが、逆拡 散過程で 𝑥𝑡 から 𝑥𝑡−1 に戻る確率が高くなる ようにしていく。 メリッ ト デメ リット 特徴 概要
11.
ARDMs (Autoregressive Diffusion
Models) ©2022 ARISE analytics Reserved. 10 ARDMは、自己回帰モデル・拡散モデルを一般化した、任意の順番で生成が可能な生 成モデル ARM DM • 順序に依存しない • 少ないステップで実行、並列処理も可能 • データを生成する順番を事前に 指定する必要がある • 生成が遅い※ (各次元を一つず つ逐次的に生成するため) • 生成に時間がかかる 特徴 改善したポイント
12.
ARDMについて ©2022 ARISE analytics
Reserved
13.
ARDMs (Autoregressive Diffusion
Models) ©2022 ARISE analytics Reserved. 12 ARDMは、自己回帰モデル・拡散モデルを一般化した、任意の順番で生成が可能な生 成モデル 特徴 ARDMの概要 • ランダムな順序で変数を生成 • 複数の変数に対する分布が同時に生成され るので、並列化が可能(動的計画法を使う) • 順序に依存しない • 少ないステップで実行、並列処理も可能
14.
前のページの改善イメージ ©2022 ARISE analytics
Reserved. 13 変数の生成 • ランダムな順序で変数を生成 • 複数の変数に対する分布が同時に生成され るので、並列化が可能(動的計画法を使う) ARDMの特徴 ランダムな順序の変数を生成し、尤度の要素をサンプリングして最適化する。 tに関する総和を適切に再重み 付けされた期待値で置き換え る Lt項はステップtの尤度成分を表す。 データポイントの全てのLt項を同時に最適化 する必要はない
15.
ランダム順序での変数生成アルゴリズム ©2022 ARISE analytics
Reserved. 14 参考:Autoregressive Diffusion Models (Machine Learning Research Paper Explained) - YouTube 生成順序σ=(3,1,2,4)の自己回帰拡散モデルの生成を示す。 サンプルのベクトル 通常は順序に従っ decode このモデルで は最初は空 最初の予測機 同時にあらゆ る変数につい て分布を予測 その中から デコードし たいものを 選ぶ 一つを除いて同じサンプル (一つはデコード、その他は 空) 同時に全体の イメージを予 測 その中からデ コードしたいも のを選ぶ 第1層と第3層の塗りつぶされた円はそれぞれ入力変数と出力変数を表し、中間層はネットワー クの内部活性化を表す。中間層はネットワークの内部活性化を表す。
16.
ランダム順序での変数生成の学習アルゴリズム ©2022 ARISE analytics
Reserved. 15 ARDM学習ステップを示す。 このステップでは、σ(1)=3を満たすすべての可能な並べ換 えσについて、同時にステップt=2で最適化する。 サンプリングでは、1ステップにつき1つの出力しか使用されてい ないのに対し、学習ステップではマスクされたすべての次元が同 時に予測される
17.
ARDMs (Autoregressive Diffusion
Models) ©2022 ARISE analytics Reserved. 16 Watson et.al. 2021 のアイデアを基にしている 複数変数の分布が同時に生成され、並列化が可能 ARDMの概要 基本的には、xσ(<t)のみを条件としなが ら、正のkに対するxσ(t+k)に対する分布 が欲しい。 将来の変数の予測と尤度の項との 関係 モデルがどのステップt + kを予測するかは問題 ではなく、期待的にはこれらはすべて同じ関連 尤度を持つ その結果、順序にとらわれず、t番目の変数から始め てk個のトークンを独立に生成すると、1ステップで k・Ltの対数確率の寄与が得られる (従来のアプローチではk回のステップを要する。) 並列化 • ランダムな順序で変数を生成 • 複数の変数に対する分布が同時に生成され るので、並列化が可能(動的計画法を使う)
18.
並列化 ©2022 ARISE analytics
Reserved. 17 動的計画法アルゴリズムを利用することで,どのステップを並列化すべきかを 求めることができる。 動的計画法から抽出された並列化された 方針。同じ高さの成分は同時にモデル化 されるため、並行して推論・生成される。 20ステップの問題に対して、5ステップで並列化ARDMの損失成分 各ステップの個別損失 成分
19.
実験結果 ©2022 ARISE analytics
Reserved
20.
実験 ©2022 ARISE analytics
Reserved. 19 少ないステップで同程度の性能が得られている。 NLL : negative-log-likelihood bpc : bit per character
21.
実験 ©2022 ARISE analytics
Reserved. 20 画像圧縮で良い性能をだし、音声・画像の性能も確認している。 bpd : bit per dimension
22.
ARDMの限界 ©2022 ARISE analytics
Reserved. 21 ARDMの限界がいくつか紹介されている。 • めちゃくちゃ精度が良いとは言えない。 • 一階自己回帰モデルの性能にはまだギャップがある。予備実験では、言語用のアップ スケール版では、順序にとらわれないバージョンより良い性能は得られなかった。 • 連続分布はまだ。 • ARDMは離散変数をモデル化している。原理的には、連続分布に対する吸収過程も定 義可能 • 異なるアーキテクチャがいい場合もある。 • 本研究では、対数尤度が可逆圧縮における符号化長に直接対応するため、対数尤度の 最適化に重点を置いている。しかし、サンプルの品質など他の目的に対して最適化す る場合、異なるアーキテクチャの選択がより良い結果を与える可能性がある。
23.
まとめ ©2022 ARISE analytics
Reserved
24.
まとめ ©2022 ARISE analytics
Reserved. 23 自己回帰モデルと拡散モデルを一般化したARDMを紹介した。 • メリット • ARDMは、同じ性能を達成するために必要なステップ数が大幅に減少する。 • 拡散モデルのために開発された動的計画法を用いて、ARDMは性能を大幅に低下させることな く、同時に複数のトークンを生成するために並列化することができる。 • ARDMは離散拡散モデルと同等かそれ以上の性能を持ち、かつモデリングステップの効率性が 高い。 • 限界 • 限界もある。 • めちゃくちゃ精度が良いとは言えない。 • 連続分布はまだ。 • 異なるアーキテクチャがいい場合もある
25.
Best Partner for
innovation, Best Creator for the future.
26.
References ©2022 ARISE analytics
Reserved. 25 • 論文 • Autoregressive Diffusion Models | OpenReview • コード • https://openreview.net/pdf?id=Lm8T39vLDTE • 参考書籍 • ディープラーニングを支える技術2 ニューラルネットワーク最大の謎
27.
関連論文 ©2022 ARISE analytics
Reserved. 26 • Autoregressive model • 定式化(Bengio & Bengio, 2000; Larochelle & Murray, 2011) • 画像(van den Oord et al., 2016b; Child et al., 2019, i.a.) • 音声(van den Oord et al., 2016a; Kalchbrenner et al, 2018, i.a.) • テキスト(Bengio et al., 2003; Graves, 2013; Melis et al., 2018; Merity et al., 2018; Brown et al., 2020, i.a.) • 順序に依存しない • (Uria et al., 2014) • Transformers(Yang et al., 2019; Alcorn & Nguyen, 2021) • 尤度に基づくタスクで限られた成功しか残していない。 • マスク予測法(Ghazvininejad et al., 2019) • グラフ(Jain et al.,2020)。Liu et al., 2018) • Diffusion model • Denoizing(Song & Ermon, 2019; Sohl-Dickstein et al.,2015; Ho et al., 2020) • マッチングスコア • 画像(Dhariwal & Nichol,2021) • 音声(Chen et al. ,2020; Kong et al. ,2021) • 変分解釈による尤度の改善(Kingma et al. ,2021; Huang et al. ,2021) • 連続拡散モデルへの高速化(Jolicoeur-Martineau et al. ,2021; Kong & Ping ,2021) • 離散拡散モデル • バイナリデータ(Sohl Dickstein ,2015) • カテゴリデータ(Hoogeboom et al. ,2021; Austin,2021) • その他の離散拡散過程(Johnson et al. ,2021)