SlideShare ist ein Scribd-Unternehmen logo
1 von 14
Downloaden Sie, um offline zu lesen
Diffusion model 概要
2022/09/23 機械学習の社会実装勉強会第15回
岩澤 幸太朗
➢ Diffusion modelの概要と実例紹介
➢ 拡散過程の定義および逆拡散過程の定式化
➢ 逆拡散過程の学習
今回の内容
Diffusion Model
➢ 2020年ごろから急速に注目された生成モデル (初出は2015年)
○ 生成品質が高い
○ 多様なデータが生成できる(画像、音楽、条件づけ、自然言語)
○ 安定した学習
○ 生成に時間がかかるのが難点
“Diffusion Models Beat GANs on Image Synthesis” (Prafulla Dhariwal and Alex Nichol, NeurIPS 2021, arXiv: 2112.10741)
Textから画像生成: GLIDE
Text to image Image editing by text
“GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models” (Alex Nichol and et al., 2021, arXiv: 2112.10741)
➢ ノイズからデータへの変換を学習
○ GAN, VAE
➢ データからノイズへの変換の逆変換を学習
○ Diffusion model
他の生成モデルとの違い
❖ “Deep Unsupervised Learning using Nonequilibrium Thermodynamics” (Sohl-Dickstein and et al., 2015, arXiv: 1503.03585) : 初出
❖ “Denoising diffusion probabilistic models” (Ho and et al., 2020, NeurIPS, arXiv: 2006.11239): 多くの論文のベースライン
❖ “Understanding Diffusion Models: A Unified Perspective” (Calvin Luo, 2022, arXiv: 2208.11970) : 最近の解説
本スライドは以下の論文をベースに解説
GAN
Diffusion Model 概要
➢ 拡散過程に基づく生成モデル
○ 徐々に拡散する(ノイズが追加される)過程を考える
○ その逆過程を辿ることによりデータを生成する
○ 時刻0: 生成データ, 時刻T: 完全なノイズ
図は“Denoising diffusion probabilistic models” arXiv: 2006.11239より引用
{xi} (i = 1,2,...,T) , x0と同じ次元を持つ潜在変数
徐々にノイズを除去
ガウシアンノイズ
微弱なノイズを追加
生成データ
T >> 1
Δt << 1
逆拡散過程
拡散過程
繰り返すことで
ノイズをデータに変換
繰り返すことで
データをノイズに変換
拡散過程とその逆過程
図は“Denoising diffusion probabilistic models” arXiv: 2006.11239より引用
学習の過程
● 拡散過程を定義
○ データからノイズへの変換を定義
● 逆拡散過程を定式化
○ ノイズからデータへの変換を定式化
● 逆拡散過程の学習
○ 対数尤度の最大化
ガウシアンノイズ 微弱なノイズを追加
生成データ
拡散過程
拡散過程の定義
- 完全なデータ⇨完全なガウシアンノイズ に置きかわる過程
- 元のデータを 1−βt だけ小さくして、その分ノイズ √βt εに置き換える
- 任意の時刻tにおいて時刻 t のデータ は データ x0 とノイズの和
: 時刻tで残っているデータ信号の強度
以下のマルコフ過程を定義
q(x1:T) は{xi} (i = 1,2,...,T) となる同
時分布を持つ確率
ガウシアンノイズ
徐々にノイズを削除
生成データ
逆拡散過程
逆拡散過程の定式化
Jonathan Hoらの工夫
“Denoising diffusion probabilistic models” (Ho and et al., 2020,
NeurIPS, arXiv: 2006.11239):
データを生成するための逆方向の過程
→ β << 1 の時、逆過程もガウス分布となる
→ 平均と分散をモデルで推定する
→ 今のデータ xtとの差分 としての ϵθ(xt ,t)を学習(この時 ϵ はノイズそのものと見做せる)
拡散過程と逆拡散過程のまとめ
十分小さい変化量で徐々にガウス分布になる以下のような過程
の逆過程は同様にガウス分布となり、以下のようにモデル化できる
それぞれのステップの平均と分散を推定するモデルによって生成モデルを得る
次のステップ:対数尤度をθについて最大化する
逆拡散過程の学習
対数尤度 を最大化⇨下限を定式化
各時刻tにおける拡散過程qによってxt−1からxtへのノイズが加えられたデータ
逆拡散過程pによって xt から xt−1 に戻る確率が高くなるよう最適化
→逆拡散過程はノイズが加えられたデータからノイズを取り除くデノイジングを学習
データ x0の尤度は潜在変数を周辺化して求まる
最適化
(イェンセンの不等式: )
学習の過程 (再掲)
● 拡散過程を定義
○ データからノイズへの変換を定義
● 逆拡散過程を定式化
○ ノイズからデータへの変換を定式化
● 逆拡散過程の学習
○ 対数尤度の最大化
- “Deep Unsupervised Learning using Nonequilibrium Thermodynamics” (Sohl-Dickstein and et al., 2015, arXiv: 1503.03585)
- “Denoising diffusion probabilistic models” (Ho and et al., 2020, NeurIPS, arXiv: 2006.11239)
- “Understanding Diffusion Models: A Unified Perspective” (Calvin Luo, 2022, arXiv: 2208.11970)
- What are Diffusion Models?
- https://zenn.dev/nakky/articles/09fb1804001ff8
- 【論文解説】Diffusion Modelを理解する (-> ELBOの最適化についての計算を詳細に解説)
- https://data-analytics.fun/2022/02/03/understanding-diffusion-model
- 【Deep Learning研修(発展)】データ生成・変換のための機械学習 第7回前編「Diffusion models」
- https://www.youtube.com/watch?v=10ki2IS55Q4
参考資料

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

深層学習の数理
深層学習の数理深層学習の数理
深層学習の数理
 
動画認識サーベイv1(メタサーベイ )
動画認識サーベイv1(メタサーベイ )動画認識サーベイv1(メタサーベイ )
動画認識サーベイv1(メタサーベイ )
 
【DL輪読会】Perceiver io a general architecture for structured inputs &amp; outputs
【DL輪読会】Perceiver io  a general architecture for structured inputs &amp; outputs 【DL輪読会】Perceiver io  a general architecture for structured inputs &amp; outputs
【DL輪読会】Perceiver io a general architecture for structured inputs &amp; outputs
 
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
 
[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection
 
Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!Transformer
 
【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fields【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fields
 
深層生成モデルと世界モデル
深層生成モデルと世界モデル深層生成モデルと世界モデル
深層生成モデルと世界モデル
 
【DL輪読会】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Dri...
【DL輪読会】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Dri...【DL輪読会】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Dri...
【DL輪読会】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Dri...
 
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化
 
モデルアーキテクチャ観点からのDeep Neural Network高速化
モデルアーキテクチャ観点からのDeep Neural Network高速化モデルアーキテクチャ観点からのDeep Neural Network高速化
モデルアーキテクチャ観点からのDeep Neural Network高速化
 
方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用
 
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
 
ConvNetの歴史とResNet亜種、ベストプラクティス
ConvNetの歴史とResNet亜種、ベストプラクティスConvNetの歴史とResNet亜種、ベストプラクティス
ConvNetの歴史とResNet亜種、ベストプラクティス
 
画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ
 
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)
 
ドメイン適応の原理と応用
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用
 
【DL輪読会】Reward Design with Language Models
【DL輪読会】Reward Design with Language Models【DL輪読会】Reward Design with Language Models
【DL輪読会】Reward Design with Language Models
 
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
 

Ähnlich wie 12. Diffusion Model の数学的基礎.pdf

大規模画像認識とその周辺
大規模画像認識とその周辺大規模画像認識とその周辺
大規模画像認識とその周辺
n_hidekey
 

Ähnlich wie 12. Diffusion Model の数学的基礎.pdf (20)

文献紹介:PolyViT: Co-training Vision Transformers on Images, Videos and Audio
文献紹介:PolyViT: Co-training Vision Transformers on Images, Videos and Audio文献紹介:PolyViT: Co-training Vision Transformers on Images, Videos and Audio
文献紹介:PolyViT: Co-training Vision Transformers on Images, Videos and Audio
 
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation 「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
20150930
2015093020150930
20150930
 
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
 
PredCNN: Predictive Learning with Cascade Convolutions
PredCNN: Predictive Learning with Cascade ConvolutionsPredCNN: Predictive Learning with Cascade Convolutions
PredCNN: Predictive Learning with Cascade Convolutions
 
[DL輪読会]HoloGAN: Unsupervised learning of 3D representations from natural images
[DL輪読会]HoloGAN: Unsupervised learning of 3D representations from natural images[DL輪読会]HoloGAN: Unsupervised learning of 3D representations from natural images
[DL輪読会]HoloGAN: Unsupervised learning of 3D representations from natural images
 
NVIDIA Seminar ディープラーニングによる画像認識と応用事例
NVIDIA Seminar ディープラーニングによる画像認識と応用事例NVIDIA Seminar ディープラーニングによる画像認識と応用事例
NVIDIA Seminar ディープラーニングによる画像認識と応用事例
 
文献紹介:Toward Multimodal Image-to-Image Translation
文献紹介:Toward Multimodal Image-to-Image Translation文献紹介:Toward Multimodal Image-to-Image Translation
文献紹介:Toward Multimodal Image-to-Image Translation
 
大規模画像認識とその周辺
大規模画像認識とその周辺大規模画像認識とその周辺
大規模画像認識とその周辺
 
HoloGAN: Unsupervised Learning of 3D Representations from Natural Images
HoloGAN: Unsupervised Learning of 3D Representations from Natural ImagesHoloGAN: Unsupervised Learning of 3D Representations from Natural Images
HoloGAN: Unsupervised Learning of 3D Representations from Natural Images
 
先端技術とメディア表現 第4回レポートまとめ
先端技術とメディア表現 第4回レポートまとめ先端技術とメディア表現 第4回レポートまとめ
先端技術とメディア表現 第4回レポートまとめ
 
Rethinking and Beyond ImageNet
Rethinking and Beyond ImageNetRethinking and Beyond ImageNet
Rethinking and Beyond ImageNet
 
Deep learningの概要とドメインモデルの変遷
Deep learningの概要とドメインモデルの変遷Deep learningの概要とドメインモデルの変遷
Deep learningの概要とドメインモデルの変遷
 
コンピュータビジョンの今を映す-CVPR 2017 速報より- (夏のトップカンファレンス論文読み会)
コンピュータビジョンの今を映す-CVPR 2017 速報より- (夏のトップカンファレンス論文読み会)コンピュータビジョンの今を映す-CVPR 2017 速報より- (夏のトップカンファレンス論文読み会)
コンピュータビジョンの今を映す-CVPR 2017 速報より- (夏のトップカンファレンス論文読み会)
 
B3スタートアップ コンピュータビジョンの現在と未来にやるべきこと(東京電機大学講演)
B3スタートアップ コンピュータビジョンの現在と未来にやるべきこと(東京電機大学講演)B3スタートアップ コンピュータビジョンの現在と未来にやるべきこと(東京電機大学講演)
B3スタートアップ コンピュータビジョンの現在と未来にやるべきこと(東京電機大学講演)
 
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
 
(2021年8月版)深層学習によるImage Classificaitonの発展
(2021年8月版)深層学習によるImage Classificaitonの発展(2021年8月版)深層学習によるImage Classificaitonの発展
(2021年8月版)深層学習によるImage Classificaitonの発展
 
[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models
[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models
[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models
 
コンピュータビジョンの研究開発状況
コンピュータビジョンの研究開発状況コンピュータビジョンの研究開発状況
コンピュータビジョンの研究開発状況
 

Mehr von 幸太朗 岩澤

Mehr von 幸太朗 岩澤 (14)

15. Transformerを用いた言語処理技術の発展.pdf
15. Transformerを用いた言語処理技術の発展.pdf15. Transformerを用いた言語処理技術の発展.pdf
15. Transformerを用いた言語処理技術の発展.pdf
 
14. BigQuery ML を用いた多変量時系列データの解析.pdf
14. BigQuery ML を用いた多変量時系列データの解析.pdf14. BigQuery ML を用いた多変量時系列データの解析.pdf
14. BigQuery ML を用いた多変量時系列データの解析.pdf
 
BigQuery ML for unstructured data
BigQuery ML for unstructured dataBigQuery ML for unstructured data
BigQuery ML for unstructured data
 
行列分解の数学的基礎.pdf
行列分解の数学的基礎.pdf行列分解の数学的基礎.pdf
行列分解の数学的基礎.pdf
 
BigQuery MLの行列分解モデルを 用いた推薦システムの基礎
BigQuery MLの行列分解モデルを 用いた推薦システムの基礎BigQuery MLの行列分解モデルを 用いた推薦システムの基礎
BigQuery MLの行列分解モデルを 用いた推薦システムの基礎
 
Vertex AI Pipelinesで BigQuery MLのワークフローを管理 (ETL ~ デプロイまで)
Vertex AI Pipelinesで BigQuery MLのワークフローを管理 (ETL ~ デプロイまで)Vertex AI Pipelinesで BigQuery MLのワークフローを管理 (ETL ~ デプロイまで)
Vertex AI Pipelinesで BigQuery MLのワークフローを管理 (ETL ~ デプロイまで)
 
Vertex AI Pipelinesで BigQuery MLのワークフローを管理
Vertex AI Pipelinesで BigQuery MLのワークフローを管理Vertex AI Pipelinesで BigQuery MLのワークフローを管理
Vertex AI Pipelinesで BigQuery MLのワークフローを管理
 
7. Vertex AI Model Registryで BigQuery MLのモデルを管理する
7. Vertex AI Model Registryで BigQuery MLのモデルを管理する7. Vertex AI Model Registryで BigQuery MLのモデルを管理する
7. Vertex AI Model Registryで BigQuery MLのモデルを管理する
 
6. Vertex AI Workbench による Notebook 環境.pdf
6. Vertex AI Workbench による Notebook 環境.pdf6. Vertex AI Workbench による Notebook 環境.pdf
6. Vertex AI Workbench による Notebook 環境.pdf
 
5. Big Query Explainable AIの紹介
5. Big Query Explainable AIの紹介5. Big Query Explainable AIの紹介
5. Big Query Explainable AIの紹介
 
4. CycleGANの画像変換と現代美術への応用
4. CycleGANの画像変換と現代美術への応用4. CycleGANの画像変換と現代美術への応用
4. CycleGANの画像変換と現代美術への応用
 
3. Vertex AIを用いた時系列データの解析
3. Vertex AIを用いた時系列データの解析3. Vertex AIを用いた時系列データの解析
3. Vertex AIを用いた時系列データの解析
 
2. BigQuery ML を用いた時系列データの解析 (ARIMA model)
2. BigQuery ML を用いた時系列データの解析 (ARIMA model)2. BigQuery ML を用いた時系列データの解析 (ARIMA model)
2. BigQuery ML を用いた時系列データの解析 (ARIMA model)
 
1. BigQueryを中心にした ML datapipelineの概要
1. BigQueryを中心にした ML datapipelineの概要1. BigQueryを中心にした ML datapipelineの概要
1. BigQueryを中心にした ML datapipelineの概要
 

Kürzlich hochgeladen

Kürzlich hochgeladen (10)

LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 

12. Diffusion Model の数学的基礎.pdf