SlideShare ist ein Scribd-Unternehmen logo
1 von 28
DEEP LEARNING JP
[DL Papers]
DiffRF: Rendering-guided 3D Radiance Field Diffusion
Presenter: Yuki Kondo
(Toyota Motor Corporation, Frontier Research Center)
http://deeplearning.jp/
2023.04.14
1
Yuki Kondo @ TOYOTA, Frontier Research Center
2
1.書誌情報・概要
2.先行研究
3.提案手法
4.実験結果
5.結論・所感
Section
1.書誌情報・概要
2.先行研究
3.提案手法
4.実験結果
5.結論・所感
Section
3
書誌情報
• 論文名
DiffRF: Rendering-guided 3D Radiance Field Diffusion (CVPR2023 Highlight)
• 著者
Norman Muller1,2, Yawar Siddiqui1,2, Lorenzo Porzi2, Samuel Rota Bulo2, Peter Kontschieder2,
Matthias Nießner1
Technical University of Munich1, Meta Reality Labs Zurich2
• URL
論文※:https://sirwyver.github.io/DiffRF/static/assets/DiffRF.pdf
プロジェクトページ:https://sirwyver.github.io/DiffRF/
コード:非公開
Video : https://www.youtube.com/watch?v=qETBcLu8SUk
4
※出典が明記されていない図表は当論文および上記プロジェクトページより引用
論文概要
• Diffusion model + Radiance Field
• Volumetric radiance fieldを直接操作する初のDiffusion model
⇒ 微細なフォトメトリック, ジオメトリックを表現したRadiance field priorを獲得.
https://sirwyver.github.io/DiffRF/static/method/method_cut.mov (最終閲覧日:2023/4/11) 5
実験結果概要
合成データセットでの無条件生成
https://sirwyver.github.io/DiffRF/static/results/abo_res.mov
(最終閲覧日:2023/4/11)
3次元マスク補間 (新タスク)
https://sirwyver.github.io/DiffRF/static/masking/masking_examples.mov
(最終閲覧日:2023/4/11)
単一画像からのボリューム合成
https://sirwyver.github.io/DiffRF/static/real/real0.mov (最終閲覧日:2023/4/11) 6
本論文の貢献
1. 3D radiance fieldを直接操作する初めてのDiffusion modelを提案
⇒ 高品質かつリアリスティックな3Dジオメトリと画像合成を実現
2. 3D radiance field上でのマスク補間の新たな応用の紹介
⇒ Image inpaintingタスクを3D空間に拡張したものと解釈可能
3. 難易度の高いPhotoShape Chairs データセット [K. Park+ ACM Trans.
Graph. 2018] において,画質 (FID)および形状合成 (MMD)で,GAN
ベースのアプローチを超えるスコアを達成.
7
1.書誌情報・概要
2.先行研究
3.提案手法
4.実験結果
5.結論・所感
Section
8
Diffusion model
• Denoising Score Matching (DSM) [Y. Song+ NeurIPS2020] や
Denoising Diffusion Probabilistic Models (DDPM) [J. Ho+ arXiv2020] などの総称.
• データからノイズに変換する拡散過程と,ノイズを除去し,データを復元する逆拡散過程によって,
潜在変数モデルに基づく生成モデルを得る.
• ホットトピックで多くの説明資料があるため,詳細は割愛.参考文献として以下を挙げる.
• L. Yang et al. Diffusion Models: A Comprehensive Survey of Methods and Applications. arXiv2022.
• F. A. Croitoru et al. Diffusion Models in Vision: A Survey. TPAMI2023.
• 岡野原 大輔. 拡散モデル データ生成技術の数理. 岩波書店.
• nnabla. 【Deep Learning研修(発展)】データ生成・変換のための機械学習 第7回
• https://www.youtube.com/watch?v=10ki2IS55Q4 (最終閲覧日:2023/4/11)
• https://www.youtube.com/watch?v=9Eu8WvKmkRA (最終閲覧日:2023/4/11)
9
DDPM [J. Ho+ arXiv2020]
[ ガイド付き画像生成 ]
[ その他の応用 ]
Diffusion modelの応用
10
GANと比較し,学習が安定的で生成品質も高い研究事例が多数報告
SDEdit [C. Meng+ ICLR2022]
大羽さんの輪読会資料:https://www.slideshare.net/DeepLearningJP2016/dlsdedit-guided-
image-synthesis-and-editing-with-stochastic-differential-equations (最終閲覧日:2023/4/11)
GLIDE [A. Nichol+ arXiv2021]
Zhangさんの輪読会資料:https://www.slideshare.net/DeepLearningJP2016/dlglide-
guided-language-to-image-diffusion-for-generation-and-editing
(最終閲覧日:2023/4/11)
分子予測: DGSM [S. Luo+ NeurIPS2021]
動画生成: Video Diffusion Models [J. Ho+ arXiv2022]
https://video-diffusion.github.io/ (最終閲覧日:2023/4/11)
3D生成
11
提案手法:Regiance fieldで直接拡散モデルが動作
⇒ 形状補間タスクを直接可能にする
Radiance Fieldを用いた
Volumetric rendering
GAN
生成モデル
Diffusion
model
NeRF [B. Mildenhall+ ECCV2020]
土井さんの輪読会資料:https://www.slideshare.net/DeepLearningJP2016/dlnerf-
representing-scenes-as-neural-radiance-fields-for-view-synthesis
(最終閲覧日:2023/4/11)
Direct Voxel Grid Optimization
[C. Sun+ CVPR2022]
[ Implicit neural representation ]
[ Explicit voxel grid representation ]
𝜋-GAN [E. Chan+ CVPR2021]
GAUDI [M. A. Bautista+ NeurIPS2022] (赤点線を追加)
いずれも,Radiance fieldを形成するための因子にノイズを加え
(赤点線内),拡散,逆拡散を適用.
RenderDiffusion [T. Anciukevicius+ arXiv2022] (赤線を追加)
ホットトピックで多くの説明資料が
あるため,詳細は割愛
12
1.書誌情報・概要
2.先行研究
3.提案手法
4.実験結果
5.結論・所感
Section
提案手法概要
• DDPM [J. Ho+ arXiv2020] をベースとした3Dオブジェクト生成モデル
1. Radiance field : Voxel gridベースでRadiance fieldを生成
2. Radiance fieldの生成モデル化 : Radiance fieldに直接,拡散・逆拡散過程を処理.
3. 損失関数: 拡散モデルに用いられるノイズ除去の損失に加え,
Photometricなレンダリング画像への損失関数を追加.
13
1. Radiance field
• 明示的なVoxel grid表現を利用.
• 高速な学習・推論が可能
• 良好なレンダリング品質を実現
• Voxel gridの次元:4次元 (グリッド空間(3次元)+色・密度インデックス (1次元))
• Voxel grid (離散化)表現に対する連続表現の値要求:
• バイリニア補間で獲得 † .
14
† Related worksでは,先行研究のCNNによるアップサンプリングは,畳み込みが同じオブジェクトの異なるビューに対し,
異なる処理をするため,ジオメトリの不整合が生じると論じている.
2. Radiance fieldの生成モデル化 [拡散過程]
• 「固定サイズの平坦化された4次元テンソル」として表現される,全ての可能な事前活性化
Radiance field の状態空間 𝑭 上で定義される離散時間マルコフ連鎖に支配されるとする
(赤字が従来手法の問題設定との違い) .
• 𝑓0から𝑓𝑡へ徐々にノイズが印加される.すなわち下図において, 𝑓0 = 𝑥0, 𝑓𝑡 = 𝑥𝑡.
• 従来のDiffusion modelと同様に,徐々にデータにノイズを追加するマルコフ過程を考える.
𝛼𝑡 = 1 − 𝛽𝑡, 0 ≤ 𝛽𝑡≤ 1はノイズ変動スケジュールを設定するハイパーパラメータ.
• こちらも従来と同様,正規分布の再生性より,任意の時刻 𝑡 のノイズサンプリングが可能.
𝛼𝑡 = 𝑖=1
𝑡
𝛼𝑖はノイズ変動スケジュールを設定するハイパーパラメータ.
.
15
2. Radiance fieldの生成モデル化 [逆拡散過程]
• 用いるネットワークは3D-UNet [P. Dhariwal and A. Nichol NeurIPS2021].
• 逆拡散過程も従来手法に踏襲.共分散行列Σ𝑡 =
𝛽𝑡
2
2𝛼𝑡 1−𝛼𝑡
は多くの手法と同様に固定値として
事前定義し,ネットワークは𝜖𝑡を求めることで,平均 𝜃𝑡が得られる.また𝑎𝑡 =
1
𝛼𝑡
, 𝑏𝑡 =
𝛽𝑡
1−𝛼𝑡
とする.
16
3. 損失関数 [Radiance field generation loss]
• DDPM [J. Ho+ arXiv2020]に従い,ELBO最大化による最尤推定で最適化する.
• ここで𝜙(𝜖) = 𝒩(𝜖|0, 𝐼)はノイズの多変量正規分布を示す.
17
• 生成されたRadiance fieldのレンダリング品質向上のため,Radiance field rendering lossを追加.
⇒ 実際,Radiance field generation lossだけでは,レンダリング時のアーティファクト抑制を
保証しきれない.
• 𝐿𝑅𝐺𝐵
𝑡
(𝑓0|𝜃)について
• 視点𝑣からRadiance field 𝑓をボリュームレンダリングした画像𝑅(𝑣, 𝑓)とGT画像𝐼とのユークリッド距離を求める.
• しかし,拡散,逆拡散過程で計算量が多いため, 𝐿𝑅𝐹
𝑡
の定義より を仮定し,
近似値 を導ける.これに基づき, 𝐿𝑅𝐺𝐵
𝑡
(𝑓0|𝜃)を以下とする.
3.損失関数 [Radiance field rendering loss]
18
3. 損失関数 [最終的な損失関数]
• 最終的な損失関数:Radiance field rendering lossとRadiance field generation lossの線形結合.
• 一様分布𝜅からステップ𝑡をサンプリングした期待値と比例関係にある.
19
20
1.書誌情報・概要
2.先行研究
3.提案手法
4.実験結果
5.結論・所感
Section
実験概要
• データセット
• PhotoShape Chairs : 200ビューから15,576の椅子をレンダリング.
• Amazon Berkeley Objects (ABO) Tables dataset : 1,676枚のテーブル画像 (ビューは不明).
• 主なハイパーパラメータ
• Voxel grid の解像度:323
⇒ 出力画像解像度:128x128
• ステップ数:1000
• 評価指標
• 画像品質
• Frechet Inception Distance (FID)
• Kernel Inception Distance (KID)
• ジオメトリ品質
• Coverage Score (COV) : サンプルのジオメトリの多様性を計測.
• Chamfer Distance (CD) を用いたMinimum Matching Distance (MMD) : サンプルのジオメトリ品質を評価.
21
無条件のRadiance field 合成 [定量評価]
• GANベースの手法と比較し,明示的にRadiance field 表現を得るため,
• 幾何学的な品質と多様性を飛躍的に向上.
• Rendering lossはFIDに顕著な影響を与える (w/o 2Dと比較) .
22
無条件のRadiance field 合成 [定性評価]
• PhotoShape Chairs の結果のみ抜粋.
• EG3D は良好な画質を実現するが,不正確な形状やアーティファクトを発生させる.
• DiffRFは微細なフォトメトリック, ジオメトリックを持つRadiance fieldを生成する.
23
条件付き生成 [マスクされたRadiance fieldの補間]
• Diffusion modelの追加学習をせずに条件付けできる特性を用い,新たなタスク
「マスクされたRadiance fieldの補間」を評価する.
• RePaint [A. Lugmayr+ CVPR2022]に触発され,サンプリングプロセスを介して,徐々に既知の
Radiance fieldに誘導することで,条件付き補間を行う.
24
𝑚: バイナリマスク,⊙∶ 要素積
条件付き生成 [マスクされたRadiance fieldの補間:結果]
• 実験概要:様々なマスクレベルの200サンプルに対してテスト.FIDと非マスク領域の
PSNR (mPSNR)を評価.
• 定量評価結果:EG3Dは単一の潜在変数表現で非マスク領域の構造を保持することが難しい.
全体表現を 壊さないためには正則化 (明示的なVoxel grid表現など)が重要.
• 定性評価:非マスク領域の構造がDiffRFでは保持されている.
25
条件付き生成 [単一画像からのボリューム合成]
• [ P. Dhariwal and A. Nichol NeurIPS2021 ]のClassifer Guidanceの定式化を採用し,オブジェク
トマスクを持つ画像に,レンダリングエラーを最小化するよう,逆拡散過程をガイドする.
• 左図:ScanNetの椅子を使た単一画像再構成結果.
• 右図:CLIP-embeddingsで条件付けとしたモデル結果.
26
27
1.書誌情報・概要
2.先行研究
3.提案手法
4.実験結果
5.結論・所感
Section
結論・所感
[ Limitation ]
• GANベースの手法と比較し,十分な数のビューポーズが必要.
• 対処:より高速なサンプリング手法の活用.
• 学習時のメモリ制約により,グリッド解像度に制約がある.
• 対処:適応的または疎なグリッド構造の活用, Factorized neural fields representationsの活用.
[ 結論 ]
• Diffusion modelのノイズ除去に基づく3D Radiance field合成のためのDiffRFを提案.
DiffRFはVolumetric radiance fieldを直接操作する最初の生成的拡散ベースの手法.
• GANベースのアプローチと比較し,条件付きおよび無条件の3D生成タスクで有効性を示した
[ 所感 ]
• シンプルな手法のため,3次元空間を扱う他のタスクへの応用・拡張可能性が高い.
• 近日公開されたGeNVS [E. R. Chen+ arXiv2023]も非常に高品質な3D表現を生成しており,
この手法は2D画像空間でDiffusion modelを適用している.どの表現にDiffusion modelを
適用するべきかという議論が,これからさらに活発になっていくと予想される.
28

Weitere ähnliche Inhalte

Was ist angesagt?

【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion ModelsDeep Learning JP
 
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
【DL輪読会】Perceiver io  a general architecture for structured inputs & outputs 【DL輪読会】Perceiver io  a general architecture for structured inputs & outputs
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs Deep Learning JP
 
【DL輪読会】Novel View Synthesis with Diffusion Models
【DL輪読会】Novel View Synthesis with Diffusion Models【DL輪読会】Novel View Synthesis with Diffusion Models
【DL輪読会】Novel View Synthesis with Diffusion ModelsDeep Learning JP
 
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)Deep Learning JP
 
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision TransformerYusuke Uchida
 
[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.
[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.
[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.Deep Learning JP
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習cvpaper. challenge
 
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)Masahiro Suzuki
 
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and EditingDeep Learning JP
 
【DL輪読会】NeRF-VAE: A Geometry Aware 3D Scene Generative Model
【DL輪読会】NeRF-VAE: A Geometry Aware 3D Scene Generative Model【DL輪読会】NeRF-VAE: A Geometry Aware 3D Scene Generative Model
【DL輪読会】NeRF-VAE: A Geometry Aware 3D Scene Generative ModelDeep Learning JP
 
20190706cvpr2019_3d_shape_representation
20190706cvpr2019_3d_shape_representation20190706cvpr2019_3d_shape_representation
20190706cvpr2019_3d_shape_representationTakuya Minagawa
 
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてTransformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてSho Takase
 
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative ModelsDeep Learning JP
 
[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential Equations[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential EquationsDeep Learning JP
 
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII
 
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...SSII
 
Layer Normalization@NIPS+読み会・関西
Layer Normalization@NIPS+読み会・関西Layer Normalization@NIPS+読み会・関西
Layer Normalization@NIPS+読み会・関西Keigo Nishida
 
IIBMP2016 深層生成モデルによる表現学習
IIBMP2016 深層生成モデルによる表現学習IIBMP2016 深層生成モデルによる表現学習
IIBMP2016 深層生成モデルによる表現学習Preferred Networks
 
畳み込みニューラルネットワークの研究動向
畳み込みニューラルネットワークの研究動向畳み込みニューラルネットワークの研究動向
畳み込みニューラルネットワークの研究動向Yusuke Uchida
 

Was ist angesagt? (20)

[DL輪読会]World Models
[DL輪読会]World Models[DL輪読会]World Models
[DL輪読会]World Models
 
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
 
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
【DL輪読会】Perceiver io  a general architecture for structured inputs & outputs 【DL輪読会】Perceiver io  a general architecture for structured inputs & outputs
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
 
【DL輪読会】Novel View Synthesis with Diffusion Models
【DL輪読会】Novel View Synthesis with Diffusion Models【DL輪読会】Novel View Synthesis with Diffusion Models
【DL輪読会】Novel View Synthesis with Diffusion Models
 
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
 
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
 
[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.
[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.
[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
 
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)
 
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
 
【DL輪読会】NeRF-VAE: A Geometry Aware 3D Scene Generative Model
【DL輪読会】NeRF-VAE: A Geometry Aware 3D Scene Generative Model【DL輪読会】NeRF-VAE: A Geometry Aware 3D Scene Generative Model
【DL輪読会】NeRF-VAE: A Geometry Aware 3D Scene Generative Model
 
20190706cvpr2019_3d_shape_representation
20190706cvpr2019_3d_shape_representation20190706cvpr2019_3d_shape_representation
20190706cvpr2019_3d_shape_representation
 
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてTransformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法について
 
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models
 
[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential Equations[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential Equations
 
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
 
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
 
Layer Normalization@NIPS+読み会・関西
Layer Normalization@NIPS+読み会・関西Layer Normalization@NIPS+読み会・関西
Layer Normalization@NIPS+読み会・関西
 
IIBMP2016 深層生成モデルによる表現学習
IIBMP2016 深層生成モデルによる表現学習IIBMP2016 深層生成モデルによる表現学習
IIBMP2016 深層生成モデルによる表現学習
 
畳み込みニューラルネットワークの研究動向
畳み込みニューラルネットワークの研究動向畳み込みニューラルネットワークの研究動向
畳み込みニューラルネットワークの研究動向
 

Ähnlich wie 【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2023]

[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos
[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos
[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual VideosDeep Learning JP
 
点群深層学習 Meta-study
点群深層学習 Meta-study点群深層学習 Meta-study
点群深層学習 Meta-studyNaoya Chiba
 
Scan Registration for Autonomous Mining Vehicles Using 3D-NDT
Scan Registration for Autonomous Mining Vehicles Using 3D-NDTScan Registration for Autonomous Mining Vehicles Using 3D-NDT
Scan Registration for Autonomous Mining Vehicles Using 3D-NDTKitsukawa Yuki
 
【DL輪読会】DreamFusion: Text-to-3D using 2D Diffusion
【DL輪読会】DreamFusion: Text-to-3D using 2D Diffusion【DL輪読会】DreamFusion: Text-to-3D using 2D Diffusion
【DL輪読会】DreamFusion: Text-to-3D using 2D DiffusionDeep Learning JP
 
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...Deep Learning JP
 
200604material ozaki
200604material ozaki200604material ozaki
200604material ozakiRCCSRENKEI
 
[DL Hacks] Deterministic Variational Inference for RobustBayesian Neural Netw...
[DL Hacks] Deterministic Variational Inference for RobustBayesian Neural Netw...[DL Hacks] Deterministic Variational Inference for RobustBayesian Neural Netw...
[DL Hacks] Deterministic Variational Inference for RobustBayesian Neural Netw...Deep Learning JP
 
深層学習の数理:カーネル法, スパース推定との接点
深層学習の数理:カーネル法, スパース推定との接点深層学習の数理:カーネル法, スパース推定との接点
深層学習の数理:カーネル法, スパース推定との接点Taiji Suzuki
 
どうやって量子コンピューターをつくるのか
どうやって量子コンピューターをつくるのかどうやって量子コンピューターをつくるのか
どうやって量子コンピューターをつくるのかAkimasa Nakamoto
 
夏のトップカンファレンス論文読み会 / Realtime Multi-Person 2D Pose Estimation using Part Affin...
夏のトップカンファレンス論文読み会 / Realtime Multi-Person 2D Pose Estimation using Part Affin...夏のトップカンファレンス論文読み会 / Realtime Multi-Person 2D Pose Estimation using Part Affin...
夏のトップカンファレンス論文読み会 / Realtime Multi-Person 2D Pose Estimation using Part Affin...Shunsuke Ono
 
藤吉研究室10周年記念「これまで10年,ここから10年」
藤吉研究室10周年記念「これまで10年,ここから10年」藤吉研究室10周年記念「これまで10年,ここから10年」
藤吉研究室10周年記念「これまで10年,ここから10年」Hironobu Fujiyoshi
 
WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響NU_I_TODALAB
 
[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object DetectionDeep Learning JP
 
Image net classification with Deep Convolutional Neural Networks
Image net classification with Deep Convolutional Neural NetworksImage net classification with Deep Convolutional Neural Networks
Image net classification with Deep Convolutional Neural NetworksShingo Horiuchi
 
第126回 ロボット工学セミナー 三次元点群と深層学習
第126回 ロボット工学セミナー 三次元点群と深層学習第126回 ロボット工学セミナー 三次元点群と深層学習
第126回 ロボット工学セミナー 三次元点群と深層学習Naoya Chiba
 
論文紹介:DF-Net: Unsupervised Joint Learning of Depth and Flow using Cross-Networ...
論文紹介:DF-Net: Unsupervised Joint Learning of Depth and Flow using Cross-Networ...論文紹介:DF-Net: Unsupervised Joint Learning of Depth and Flow using Cross-Networ...
論文紹介:DF-Net: Unsupervised Joint Learning of Depth and Flow using Cross-Networ...matsunoh
 
[DL輪読会]Factorized Variational Autoencoders for Modeling Audience Reactions to...
[DL輪読会]Factorized Variational Autoencoders for Modeling Audience Reactions to...[DL輪読会]Factorized Variational Autoencoders for Modeling Audience Reactions to...
[DL輪読会]Factorized Variational Autoencoders for Modeling Audience Reactions to...Deep Learning JP
 

Ähnlich wie 【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2023] (20)

[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos
[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos
[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos
 
点群深層学習 Meta-study
点群深層学習 Meta-study点群深層学習 Meta-study
点群深層学習 Meta-study
 
Scan Registration for Autonomous Mining Vehicles Using 3D-NDT
Scan Registration for Autonomous Mining Vehicles Using 3D-NDTScan Registration for Autonomous Mining Vehicles Using 3D-NDT
Scan Registration for Autonomous Mining Vehicles Using 3D-NDT
 
SFUMATO workshop #2
SFUMATO workshop #2SFUMATO workshop #2
SFUMATO workshop #2
 
【DL輪読会】DreamFusion: Text-to-3D using 2D Diffusion
【DL輪読会】DreamFusion: Text-to-3D using 2D Diffusion【DL輪読会】DreamFusion: Text-to-3D using 2D Diffusion
【DL輪読会】DreamFusion: Text-to-3D using 2D Diffusion
 
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
 
200604material ozaki
200604material ozaki200604material ozaki
200604material ozaki
 
[DL Hacks] Deterministic Variational Inference for RobustBayesian Neural Netw...
[DL Hacks] Deterministic Variational Inference for RobustBayesian Neural Netw...[DL Hacks] Deterministic Variational Inference for RobustBayesian Neural Netw...
[DL Hacks] Deterministic Variational Inference for RobustBayesian Neural Netw...
 
深層学習の数理:カーネル法, スパース推定との接点
深層学習の数理:カーネル法, スパース推定との接点深層学習の数理:カーネル法, スパース推定との接点
深層学習の数理:カーネル法, スパース推定との接点
 
どうやって量子コンピューターをつくるのか
どうやって量子コンピューターをつくるのかどうやって量子コンピューターをつくるのか
どうやって量子コンピューターをつくるのか
 
夏のトップカンファレンス論文読み会 / Realtime Multi-Person 2D Pose Estimation using Part Affin...
夏のトップカンファレンス論文読み会 / Realtime Multi-Person 2D Pose Estimation using Part Affin...夏のトップカンファレンス論文読み会 / Realtime Multi-Person 2D Pose Estimation using Part Affin...
夏のトップカンファレンス論文読み会 / Realtime Multi-Person 2D Pose Estimation using Part Affin...
 
藤吉研究室10周年記念「これまで10年,ここから10年」
藤吉研究室10周年記念「これまで10年,ここから10年」藤吉研究室10周年記念「これまで10年,ここから10年」
藤吉研究室10周年記念「これまで10年,ここから10年」
 
WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響
 
[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection
 
Image net classification with Deep Convolutional Neural Networks
Image net classification with Deep Convolutional Neural NetworksImage net classification with Deep Convolutional Neural Networks
Image net classification with Deep Convolutional Neural Networks
 
第126回 ロボット工学セミナー 三次元点群と深層学習
第126回 ロボット工学セミナー 三次元点群と深層学習第126回 ロボット工学セミナー 三次元点群と深層学習
第126回 ロボット工学セミナー 三次元点群と深層学習
 
論文紹介:DF-Net: Unsupervised Joint Learning of Depth and Flow using Cross-Networ...
論文紹介:DF-Net: Unsupervised Joint Learning of Depth and Flow using Cross-Networ...論文紹介:DF-Net: Unsupervised Joint Learning of Depth and Flow using Cross-Networ...
論文紹介:DF-Net: Unsupervised Joint Learning of Depth and Flow using Cross-Networ...
 
CMSI計算科学技術特論B(8) オーダーN法1
 CMSI計算科学技術特論B(8) オーダーN法1 CMSI計算科学技術特論B(8) オーダーN法1
CMSI計算科学技術特論B(8) オーダーN法1
 
[DL輪読会]Factorized Variational Autoencoders for Modeling Audience Reactions to...
[DL輪読会]Factorized Variational Autoencoders for Modeling Audience Reactions to...[DL輪読会]Factorized Variational Autoencoders for Modeling Audience Reactions to...
[DL輪読会]Factorized Variational Autoencoders for Modeling Audience Reactions to...
 
DeepCas
DeepCasDeepCas
DeepCas
 

Mehr von Deep Learning JP

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving PlannersDeep Learning JP
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについてDeep Learning JP
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...Deep Learning JP
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-ResolutionDeep Learning JP
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxivDeep Learning JP
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLMDeep Learning JP
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...Deep Learning JP
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place RecognitionDeep Learning JP
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?Deep Learning JP
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究についてDeep Learning JP
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )Deep Learning JP
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...Deep Learning JP
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"Deep Learning JP
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "Deep Learning JP
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat ModelsDeep Learning JP
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"Deep Learning JP
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...Deep Learning JP
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...Deep Learning JP
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...Deep Learning JP
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...Deep Learning JP
 

Mehr von Deep Learning JP (20)

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
 

Kürzlich hochgeladen

Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptxsn679259
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Hiroshi Tomioka
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video UnderstandingToru Tamaki
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイスCRI Japan, Inc.
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...Toru Tamaki
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Gamesatsushi061452
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルCRI Japan, Inc.
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NTT DATA Technology & Innovation
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsWSO2
 

Kürzlich hochgeladen (12)

Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 

【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2023]

  • 1. DEEP LEARNING JP [DL Papers] DiffRF: Rendering-guided 3D Radiance Field Diffusion Presenter: Yuki Kondo (Toyota Motor Corporation, Frontier Research Center) http://deeplearning.jp/ 2023.04.14 1 Yuki Kondo @ TOYOTA, Frontier Research Center
  • 4. 書誌情報 • 論文名 DiffRF: Rendering-guided 3D Radiance Field Diffusion (CVPR2023 Highlight) • 著者 Norman Muller1,2, Yawar Siddiqui1,2, Lorenzo Porzi2, Samuel Rota Bulo2, Peter Kontschieder2, Matthias Nießner1 Technical University of Munich1, Meta Reality Labs Zurich2 • URL 論文※:https://sirwyver.github.io/DiffRF/static/assets/DiffRF.pdf プロジェクトページ:https://sirwyver.github.io/DiffRF/ コード:非公開 Video : https://www.youtube.com/watch?v=qETBcLu8SUk 4 ※出典が明記されていない図表は当論文および上記プロジェクトページより引用
  • 5. 論文概要 • Diffusion model + Radiance Field • Volumetric radiance fieldを直接操作する初のDiffusion model ⇒ 微細なフォトメトリック, ジオメトリックを表現したRadiance field priorを獲得. https://sirwyver.github.io/DiffRF/static/method/method_cut.mov (最終閲覧日:2023/4/11) 5
  • 7. 本論文の貢献 1. 3D radiance fieldを直接操作する初めてのDiffusion modelを提案 ⇒ 高品質かつリアリスティックな3Dジオメトリと画像合成を実現 2. 3D radiance field上でのマスク補間の新たな応用の紹介 ⇒ Image inpaintingタスクを3D空間に拡張したものと解釈可能 3. 難易度の高いPhotoShape Chairs データセット [K. Park+ ACM Trans. Graph. 2018] において,画質 (FID)および形状合成 (MMD)で,GAN ベースのアプローチを超えるスコアを達成. 7
  • 9. Diffusion model • Denoising Score Matching (DSM) [Y. Song+ NeurIPS2020] や Denoising Diffusion Probabilistic Models (DDPM) [J. Ho+ arXiv2020] などの総称. • データからノイズに変換する拡散過程と,ノイズを除去し,データを復元する逆拡散過程によって, 潜在変数モデルに基づく生成モデルを得る. • ホットトピックで多くの説明資料があるため,詳細は割愛.参考文献として以下を挙げる. • L. Yang et al. Diffusion Models: A Comprehensive Survey of Methods and Applications. arXiv2022. • F. A. Croitoru et al. Diffusion Models in Vision: A Survey. TPAMI2023. • 岡野原 大輔. 拡散モデル データ生成技術の数理. 岩波書店. • nnabla. 【Deep Learning研修(発展)】データ生成・変換のための機械学習 第7回 • https://www.youtube.com/watch?v=10ki2IS55Q4 (最終閲覧日:2023/4/11) • https://www.youtube.com/watch?v=9Eu8WvKmkRA (最終閲覧日:2023/4/11) 9 DDPM [J. Ho+ arXiv2020]
  • 10. [ ガイド付き画像生成 ] [ その他の応用 ] Diffusion modelの応用 10 GANと比較し,学習が安定的で生成品質も高い研究事例が多数報告 SDEdit [C. Meng+ ICLR2022] 大羽さんの輪読会資料:https://www.slideshare.net/DeepLearningJP2016/dlsdedit-guided- image-synthesis-and-editing-with-stochastic-differential-equations (最終閲覧日:2023/4/11) GLIDE [A. Nichol+ arXiv2021] Zhangさんの輪読会資料:https://www.slideshare.net/DeepLearningJP2016/dlglide- guided-language-to-image-diffusion-for-generation-and-editing (最終閲覧日:2023/4/11) 分子予測: DGSM [S. Luo+ NeurIPS2021] 動画生成: Video Diffusion Models [J. Ho+ arXiv2022] https://video-diffusion.github.io/ (最終閲覧日:2023/4/11)
  • 11. 3D生成 11 提案手法:Regiance fieldで直接拡散モデルが動作 ⇒ 形状補間タスクを直接可能にする Radiance Fieldを用いた Volumetric rendering GAN 生成モデル Diffusion model NeRF [B. Mildenhall+ ECCV2020] 土井さんの輪読会資料:https://www.slideshare.net/DeepLearningJP2016/dlnerf- representing-scenes-as-neural-radiance-fields-for-view-synthesis (最終閲覧日:2023/4/11) Direct Voxel Grid Optimization [C. Sun+ CVPR2022] [ Implicit neural representation ] [ Explicit voxel grid representation ] 𝜋-GAN [E. Chan+ CVPR2021] GAUDI [M. A. Bautista+ NeurIPS2022] (赤点線を追加) いずれも,Radiance fieldを形成するための因子にノイズを加え (赤点線内),拡散,逆拡散を適用. RenderDiffusion [T. Anciukevicius+ arXiv2022] (赤線を追加) ホットトピックで多くの説明資料が あるため,詳細は割愛
  • 13. 提案手法概要 • DDPM [J. Ho+ arXiv2020] をベースとした3Dオブジェクト生成モデル 1. Radiance field : Voxel gridベースでRadiance fieldを生成 2. Radiance fieldの生成モデル化 : Radiance fieldに直接,拡散・逆拡散過程を処理. 3. 損失関数: 拡散モデルに用いられるノイズ除去の損失に加え, Photometricなレンダリング画像への損失関数を追加. 13
  • 14. 1. Radiance field • 明示的なVoxel grid表現を利用. • 高速な学習・推論が可能 • 良好なレンダリング品質を実現 • Voxel gridの次元:4次元 (グリッド空間(3次元)+色・密度インデックス (1次元)) • Voxel grid (離散化)表現に対する連続表現の値要求: • バイリニア補間で獲得 † . 14 † Related worksでは,先行研究のCNNによるアップサンプリングは,畳み込みが同じオブジェクトの異なるビューに対し, 異なる処理をするため,ジオメトリの不整合が生じると論じている.
  • 15. 2. Radiance fieldの生成モデル化 [拡散過程] • 「固定サイズの平坦化された4次元テンソル」として表現される,全ての可能な事前活性化 Radiance field の状態空間 𝑭 上で定義される離散時間マルコフ連鎖に支配されるとする (赤字が従来手法の問題設定との違い) . • 𝑓0から𝑓𝑡へ徐々にノイズが印加される.すなわち下図において, 𝑓0 = 𝑥0, 𝑓𝑡 = 𝑥𝑡. • 従来のDiffusion modelと同様に,徐々にデータにノイズを追加するマルコフ過程を考える. 𝛼𝑡 = 1 − 𝛽𝑡, 0 ≤ 𝛽𝑡≤ 1はノイズ変動スケジュールを設定するハイパーパラメータ. • こちらも従来と同様,正規分布の再生性より,任意の時刻 𝑡 のノイズサンプリングが可能. 𝛼𝑡 = 𝑖=1 𝑡 𝛼𝑖はノイズ変動スケジュールを設定するハイパーパラメータ. . 15
  • 16. 2. Radiance fieldの生成モデル化 [逆拡散過程] • 用いるネットワークは3D-UNet [P. Dhariwal and A. Nichol NeurIPS2021]. • 逆拡散過程も従来手法に踏襲.共分散行列Σ𝑡 = 𝛽𝑡 2 2𝛼𝑡 1−𝛼𝑡 は多くの手法と同様に固定値として 事前定義し,ネットワークは𝜖𝑡を求めることで,平均 𝜃𝑡が得られる.また𝑎𝑡 = 1 𝛼𝑡 , 𝑏𝑡 = 𝛽𝑡 1−𝛼𝑡 とする. 16
  • 17. 3. 損失関数 [Radiance field generation loss] • DDPM [J. Ho+ arXiv2020]に従い,ELBO最大化による最尤推定で最適化する. • ここで𝜙(𝜖) = 𝒩(𝜖|0, 𝐼)はノイズの多変量正規分布を示す. 17
  • 18. • 生成されたRadiance fieldのレンダリング品質向上のため,Radiance field rendering lossを追加. ⇒ 実際,Radiance field generation lossだけでは,レンダリング時のアーティファクト抑制を 保証しきれない. • 𝐿𝑅𝐺𝐵 𝑡 (𝑓0|𝜃)について • 視点𝑣からRadiance field 𝑓をボリュームレンダリングした画像𝑅(𝑣, 𝑓)とGT画像𝐼とのユークリッド距離を求める. • しかし,拡散,逆拡散過程で計算量が多いため, 𝐿𝑅𝐹 𝑡 の定義より を仮定し, 近似値 を導ける.これに基づき, 𝐿𝑅𝐺𝐵 𝑡 (𝑓0|𝜃)を以下とする. 3.損失関数 [Radiance field rendering loss] 18
  • 19. 3. 損失関数 [最終的な損失関数] • 最終的な損失関数:Radiance field rendering lossとRadiance field generation lossの線形結合. • 一様分布𝜅からステップ𝑡をサンプリングした期待値と比例関係にある. 19
  • 21. 実験概要 • データセット • PhotoShape Chairs : 200ビューから15,576の椅子をレンダリング. • Amazon Berkeley Objects (ABO) Tables dataset : 1,676枚のテーブル画像 (ビューは不明). • 主なハイパーパラメータ • Voxel grid の解像度:323 ⇒ 出力画像解像度:128x128 • ステップ数:1000 • 評価指標 • 画像品質 • Frechet Inception Distance (FID) • Kernel Inception Distance (KID) • ジオメトリ品質 • Coverage Score (COV) : サンプルのジオメトリの多様性を計測. • Chamfer Distance (CD) を用いたMinimum Matching Distance (MMD) : サンプルのジオメトリ品質を評価. 21
  • 22. 無条件のRadiance field 合成 [定量評価] • GANベースの手法と比較し,明示的にRadiance field 表現を得るため, • 幾何学的な品質と多様性を飛躍的に向上. • Rendering lossはFIDに顕著な影響を与える (w/o 2Dと比較) . 22
  • 23. 無条件のRadiance field 合成 [定性評価] • PhotoShape Chairs の結果のみ抜粋. • EG3D は良好な画質を実現するが,不正確な形状やアーティファクトを発生させる. • DiffRFは微細なフォトメトリック, ジオメトリックを持つRadiance fieldを生成する. 23
  • 24. 条件付き生成 [マスクされたRadiance fieldの補間] • Diffusion modelの追加学習をせずに条件付けできる特性を用い,新たなタスク 「マスクされたRadiance fieldの補間」を評価する. • RePaint [A. Lugmayr+ CVPR2022]に触発され,サンプリングプロセスを介して,徐々に既知の Radiance fieldに誘導することで,条件付き補間を行う. 24 𝑚: バイナリマスク,⊙∶ 要素積
  • 25. 条件付き生成 [マスクされたRadiance fieldの補間:結果] • 実験概要:様々なマスクレベルの200サンプルに対してテスト.FIDと非マスク領域の PSNR (mPSNR)を評価. • 定量評価結果:EG3Dは単一の潜在変数表現で非マスク領域の構造を保持することが難しい. 全体表現を 壊さないためには正則化 (明示的なVoxel grid表現など)が重要. • 定性評価:非マスク領域の構造がDiffRFでは保持されている. 25
  • 26. 条件付き生成 [単一画像からのボリューム合成] • [ P. Dhariwal and A. Nichol NeurIPS2021 ]のClassifer Guidanceの定式化を採用し,オブジェク トマスクを持つ画像に,レンダリングエラーを最小化するよう,逆拡散過程をガイドする. • 左図:ScanNetの椅子を使た単一画像再構成結果. • 右図:CLIP-embeddingsで条件付けとしたモデル結果. 26
  • 28. 結論・所感 [ Limitation ] • GANベースの手法と比較し,十分な数のビューポーズが必要. • 対処:より高速なサンプリング手法の活用. • 学習時のメモリ制約により,グリッド解像度に制約がある. • 対処:適応的または疎なグリッド構造の活用, Factorized neural fields representationsの活用. [ 結論 ] • Diffusion modelのノイズ除去に基づく3D Radiance field合成のためのDiffRFを提案. DiffRFはVolumetric radiance fieldを直接操作する最初の生成的拡散ベースの手法. • GANベースのアプローチと比較し,条件付きおよび無条件の3D生成タスクで有効性を示した [ 所感 ] • シンプルな手法のため,3次元空間を扱う他のタスクへの応用・拡張可能性が高い. • 近日公開されたGeNVS [E. R. Chen+ arXiv2023]も非常に高品質な3D表現を生成しており, この手法は2D画像空間でDiffusion modelを適用している.どの表現にDiffusion modelを 適用するべきかという議論が,これからさらに活発になっていくと予想される. 28