SlideShare ist ein Scribd-Unternehmen logo
1 von 23
NeRF: Representing Scenes as Neural
Radiance Fields for View Synthesis
概要: 何がすごいか??
• 複数の視点と画像のペアからMulti layer perceptron (MLP) を学習することにより、新規視点生
成のタスクで非常に素晴らしい結果を達成
• 新規視点生成とは … あるシーンを観測する視点を与えたときに、その視点に対応する画像を生成する
こと
• まずはproject pageからダウンロードした結果を見てください
• http://www.matthewtancik.com/nerf
B. Midenhall et al. “NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis”, arxiv prepring, 2020.
書誌情報、選定理由など
• UC Berkeley, Google Research, UC San Diegoの研究者が著者
• equal contributionが3人!!
• 論文のフォーマットからECCV2020への投稿と思われる
• 選定理由
• 結果の動画を見て、非常に高精細な画像が生成できていると驚いた
• 画像生成形の論文情報はroadrunnerさんが早い (Twitter: @ak92501)
• 生成結果のインパクトが大きく各所で話題になっていた
• 軽く読んでみてアイデアが (自分にとって) 新しく面白かったため
概要: どうやって実現している?
• MLPでNeural Radiance Field (NeRF) を学習
• Neural Radiance Fieldとは
• 三次元空間のある点の位置と視線方向 (角度) を与えると、その点の密
度 (density) と色が定まるNNにより表現された「場」
• 場とは … 時空の各点に関する物理量で、座標と時間を指定すると一つの
物理量が定まる。数学的には空間座標が独立変数となる関数で表現可能*
• 密度 (density) とは … 光をどれくらい透過するかを表すパラメーター
(densityが高いほど光を通しにくいということだと思います)
• カメラレイから定まる空間の各点の位置と視線の方向をクエリにして、
古典的なレンダリング手法 (volume rendering) を用いて視点に対応す
る画像をレンダリングできる
• volume renderingが微分可能なので画像を使ってend-to-endで学習できる
• 複数の観測 (画像と視点のペア) でNeRFを訓練する方法を提案
*https://www.wikiwand.com/ja/%E5%A0%B4 http://www.matthewtancik.com/nerf
レンダリングの手順
1. カメラレイをシーンの中を進ませ、三次元点をサンプル
• カメラに入ってくる光を逆向きに進ませるイメージ
• その光が通る点を考慮して画像をレンダリングする
2. サンプルした点と対応する視線の方向をNNに入力し各点の色と密度を生成
3. 古典的なボリュームレンダリングの技術で色と密度から画像を合成
• カメラレイを逆向きに辿り密度を考慮しながら色を足し合わせていくイメージ
B. Midenhall et al. “NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis”, arxiv prepring, 2020.
技術的な貢献
• 複雑な幾何形状を持つシーンをMLPでパラメタライズしたneural radiance field
で表現したこと
• 古典的なボリュームレンダリングの手法に基づく微分可能なレンダリング手法の
提案
• MLPのキャパシティを考慮した三次元点の階層的なサンプリング手法も提案
• 複雑な形状を持つシーンを表現するために5D (三次元位置、視線方向) を高次元
空間に埋め込むテクニックの提案
新規視点合成の既存手法と比較しstate-of-the-artの結果を得た
次のスライドから詳細について説明します
NeRFによるシーン表現の獲得
• シーンを5Dベクトル (三次元位置、視線方向) を入力として、とvolume density
を出力する関数として表現
• 三次元位置: x = (x, y, z)
• 視線方向: (θ, φ)
• 色: c = (r, g, b)
• volume density: σ
• volume densityは、xのみにより定まる値
• 色はxと (θ, φ) により定まる値
• 上の制約からMLPは2つに分かれる
1. xを入力としσと256次元のベクトルを出力
2. 1の出力の256次元のベクトルと(θ, φ)からc = (r, g, b)を出力
• 色を視線方向に依存するように設計する理由
 鏡面反射など、方向に依存する現象 (non-Lambertian) を考慮できるようにするため
視点に依存する効果のモデリング
• (a), (b) 同じ箇所を異なる方向から見ると、色が変わるということが再現できて
いる
• (c) あらゆる方向から同じ箇所を見た場合の色の変化を可視化
• 半球状のあらゆる視点から同じ箇所を見ようとした場合の色を円の中に表示している
B. Midenhall et al. “NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis”, arxiv prepring, 2020.
Radiance fieldからのボリュームレンダリング 1
• 古典的なボリュームレンダリングの原理に基づいた方法を使用
• 1984年にKajitaらが提案した手法 (Ray Tracing Volume Densities) を引用していた
• Ray Tracingとは、カメラに届く光線を逆方向に辿ることにより画像を生成する手法のこと
• 本物の写真に近い画像をレンダリングできる手法として知られている
• レイトレーシングによるボリュームレンダリングでは、光線を逆方向に辿りながら、物体のvolume
density (透過率) を考慮しつつ各点の色を足し合わせ2D画像のあるピクセルの色を計算するイメー
ジ (私の理解です)
• 連続的なradiance fieldを考えるとボリュームレンダリングの以下のようになる
• カメラの光線を表すベクトル (oを通りdの方向に伸びる) :
• t_n, t_fは仮想的に設定した最も近い点と遠い点
• T(t)はt_nからtまでの光線に沿って積分した透過率 (volume density) を表し、光線がt_nからtまで
粒子にぶつかることなく移動する確率を表す
Radiance fieldからのボリュームレンダリング 2
• 実際にはradiance fieldを連続関数として積分するのではなくサンプルした点を用
いて区分求積法に基づいた近似計算を行う
• この方法についてはMaxのボリュームレンダリングのレビュー論文で議論されている
• サンプルする点の間隔は学習時には毎回ランダムに変化させている
NeRFの最適化 1: Positional encoding
• xyzθφをMLPにそのまま入力しても画像の高周波成分は再現できない
• DNNは低周波成分ばかりを学習してしまうバイアスがある (Rahaman et al. 2018)
• 入力を一旦、高周波関数(high frequency functions)で高次元空間にマッピングしてからDNN
に入力すると高周波成分を持つデータにfitしやすいらしい
• 以下の埋め込み関数を用いて入力のベクトルを高次元空間に写像
• 三次元位置を表すベクトルx = (x, y, z)の各成分をこの関数に入力
• 視線方向 (θ, φ) については(x, y, z)成分を持つ単位ベクトルに変換し上の関数に入力
• このテクニックはTransformer (Vaswani et al. 2017) でも使われているらしい
• 詳しい人教えてください
NeRFの最適化 2 : 階層的ボリュームサンプリング
• 光線に沿って点を密にサンプルするのは計算効率が悪いので、重要度を考慮して、
出力画像により寄与する点を選ぶのが良い
階層的サンプリングという手法を提案
• 発想自体はボリュームレンダリングの研究で既出 (Levoy, 1990)
1. “corse”と”fine“の2つのネットワークを準備
2. 光線に沿って粗くサンプルした点を”coarse”ネットワークに入力し色と密度を
得たのちレンダリング
3. 得られた各点の重要度を用いて再度点をサンプルしなおす
4. 全ての点から”fine”ネットワークで色と密度を計算し画像をレンダリング
実装詳細
• データセットは画像と視点のペア、カメラ内部パラメータ、シーンの境界 (範囲)
• シミュレーションデータのデータセットからは自明に得られる
• 実データでは三次元復元のソフトウェアを用い推定したパラメータを使用
• 各イテレーションでランダムに光線をサンプルし、その後階層的サンプリングで三次元点を
サンプルした
• ボリュームレンダリングによりそれぞれの光線に対応するピクセルの色を計算
• 計算したピクセル値とGTとの二乗誤差を計算
• Rは光線の集合を表す, Cはピクセル値 (色), 添字のc, rはcoarse, fine networkに対応
• 光線は4096個サンプル, 三次元点は64 (coarse), 128 (fine) 個を階層的にサンプル
• 10~30万iteration, NVIDIA V100 1個を用いて1~2日間学習
実験 : dataset
• 合成データ
• Deep Voxels dataset (Sitzmann et al. 2019)
• 複雑ではない形状の物体をあらゆる視点からレンダリングしたデータセット
• 鏡面反射なし
• 画像のサイズは512x512
• 新しくCGでデータセットを作成
• 8種類のオブジェクト
• 学習用に100視点、テスト用に200視点レンダリング
• 画像のサイズは800x800
• 実データ
• 8つのシーンを携帯電話のカメラでいろいろな視点から撮影したデータ
• 一部はMildenhallらが作成したデータ
• 20~62枚撮影
• 学習:テスト = 8:2
• 画像のサイズは1008x756
実験: 比較手法
• Neural Volumes (NV) (S. Lombardi et al. 2019.)
• ダイナミックな3Dシーンをモデリング
• 観測からRGBαボクセルグリッドとそのワープを推定
• クエリ視点でレイマーチング (カメラに入る光線を逆方向に辿るレンダリング手法)
により新規視点のビューをレンダリング
• Scene Representation Networks (SRN) (V. Sitzmann et al. 2019.)
• シーンを不透明な表面として表現
• MLPで各点 (x, y, z) のfeatureを計算
• RNNで光線を進む幅を計算する→計算した分だけ進む を繰り返す
• 最終ステップの時の位置を物体の表面とし、色をfeatureからデコードする
• Local Light Field Fusion (LLFF) (B. Mildenhall et al. 2019)
• 3D convolution により入力の各視点のRGBαグリッド (multiplane image (MPI))を
直接推定
• クエリ視点でに対応する画像を複数のMPIから合成する
実験: 定量評価
• 3つの画質評価指標を用いて、新規視点画像合成のパフォーマンスを比較
• LPIPSはpretrained-CNNから抽出したfeatureの距離だったと思います (詳しい人
教えてください)
実験: 定性評価
• 提案手法とLLFFは細かく復元ができ
ている
• LLFFは観測画像を再利用するような手
法であることが大きい
• SRNとNVは細かい画像を生成する表現
力がない
• NVではシーン表現が粗いボクセルなの
が原因
• SRNはちょっとわかりません。。。
実験: 定性評価
artifactが出やすい、視点間の一貫性がない場合がある
視点間の一貫性はあるが、解像度が低い
細かい形状を合成できない、視点間の一貫性がない
引用元 : https://www.youtube.com/watch?v=JuH79E8rdKc
詳しい結果は上記リンクからYouTubeの動画をご
覧ください
実験: 定量評価
• シーン表現を計算するのにかかる時間
• 提案手法は1つのシーンを表現するのにモデルを最低でも12時間学習する必要
がある
• LLFFなど、事前に色々なシーンでモデルを学習しておくことで推論に時間が
かからないものもある
• 計算コスト
• 提案手法は、ネットワークの重みが5MBでマシンの負荷が少ない
• LLFFでは観測した画像データをメモリに保持するので15GBと負荷が大きい
実験: Ablation study
• CGのシーンで色々条件を変えた結果を比較
• 提案手法でどこが結果に効いているか
• Positional encoding, view dependenceは結果にかなり効く
• 階層サンプリングは性能にはそこまで効かない (計算量の効率化に寄与)
• 画像の枚数が少なすぎると性能が低下
• positional encoding時の周波数の数が少なすぎると性能が低下
• この辺りは順当な結果
まとめ
• 提案手法まとめ
• MLPを訓練することで、ある点の三次元空間の座標と視線方向を入力すると
色と密度を出力する Neural Radiance Field (NeRF)を獲得
• NeRFから古典的なボリュームレンダリングの手法を用いて新たな視点の
ビューを生成することができる
• 新規視点画像合成のタスクでSoTA
• Future work
• よりサンプル効率の高い方法 (学習時も推論時も)
• 解釈性の問題
• シーン表現をMLPの重みという形式で獲得しているため直接解釈できない
色々なシーンにおける結果
YouTubeの動画の後半をご覧ください
参考文献
• B. Midenhall et al.: NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis.
arxiv prepring, 2020.
• J. T. Kajiya et al.: Ray Tracing Volume Densities. Computer Graphics, 1984.
• N. Max: Optical models for direct volume rendering. IEEE Transactions on Visualization and
Computer Graphics 1995.
• M. Levoy: Efficient ray tracing of volume data. ACM Transactions on Graphics 1990.
• N. Rahaman et al.: On the spectral bias of neural networks. in ICML 2018.
• A. Vaswani et al.: Attention is all you need. in NeurIPS 2018.
• S. Lombardi et al.: Neural volumes: Learning dynamic renderable volumes from images.
SIGGRAPH 2019.
• V. Sitzmann et al.: Scene Representation Networks: Continuous 3D-Structure-Aware Neural
Scene Representations. in NurIPS, 2019.
• B. Mildenhall et al.: Local light field fusion: Practical view synthesis with prescriptive sampling
guidelines. SIGGRAPH 2019.

Weitere ähnliche Inhalte

Was ist angesagt?

畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化Yusuke Uchida
 
[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos
[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos
[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual VideosDeep Learning JP
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised LearningまとめDeep Learning JP
 
backbone としての timm 入門
backbone としての timm 入門backbone としての timm 入門
backbone としての timm 入門Takuji Tahara
 
[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video Processing (NeRF...
[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video  Processing (NeRF...[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video  Processing (NeRF...
[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video Processing (NeRF...Deep Learning JP
 
画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイcvpaper. challenge
 
30th コンピュータビジョン勉強会@関東 DynamicFusion
30th コンピュータビジョン勉強会@関東 DynamicFusion30th コンピュータビジョン勉強会@関東 DynamicFusion
30th コンピュータビジョン勉強会@関東 DynamicFusionHiroki Mizuno
 
Neural scene representation and rendering の解説(第3回3D勉強会@関東)
Neural scene representation and rendering の解説(第3回3D勉強会@関東)Neural scene representation and rendering の解説(第3回3D勉強会@関東)
Neural scene representation and rendering の解説(第3回3D勉強会@関東)Masaya Kaneko
 
3次元レジストレーション(PCLデモとコード付き)
3次元レジストレーション(PCLデモとコード付き)3次元レジストレーション(PCLデモとコード付き)
3次元レジストレーション(PCLデモとコード付き)Toru Tamaki
 
[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for Vision[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for VisionDeep Learning JP
 
Transformer メタサーベイ
Transformer メタサーベイTransformer メタサーベイ
Transformer メタサーベイcvpaper. challenge
 
MIRU2013チュートリアル:SIFTとそれ以降のアプローチ
MIRU2013チュートリアル:SIFTとそれ以降のアプローチMIRU2013チュートリアル:SIFTとそれ以降のアプローチ
MIRU2013チュートリアル:SIFTとそれ以降のアプローチHironobu Fujiyoshi
 
Triplet Loss 徹底解説
Triplet Loss 徹底解説Triplet Loss 徹底解説
Triplet Loss 徹底解説tancoro
 
【メタサーベイ】Video Transformer
 【メタサーベイ】Video Transformer 【メタサーベイ】Video Transformer
【メタサーベイ】Video Transformercvpaper. challenge
 
[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報Deep Learning JP
 
三次元表現まとめ(深層学習を中心に)
三次元表現まとめ(深層学習を中心に)三次元表現まとめ(深層学習を中心に)
三次元表現まとめ(深層学習を中心に)Tomohiro Motoda
 
【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fields【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fieldscvpaper. challenge
 
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)cvpaper. challenge
 

Was ist angesagt? (20)

Point net
Point netPoint net
Point net
 
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化
 
[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos
[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos
[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
 
backbone としての timm 入門
backbone としての timm 入門backbone としての timm 入門
backbone としての timm 入門
 
[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video Processing (NeRF...
[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video  Processing (NeRF...[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video  Processing (NeRF...
[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video Processing (NeRF...
 
画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ
 
30th コンピュータビジョン勉強会@関東 DynamicFusion
30th コンピュータビジョン勉強会@関東 DynamicFusion30th コンピュータビジョン勉強会@関東 DynamicFusion
30th コンピュータビジョン勉強会@関東 DynamicFusion
 
実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE
 
Neural scene representation and rendering の解説(第3回3D勉強会@関東)
Neural scene representation and rendering の解説(第3回3D勉強会@関東)Neural scene representation and rendering の解説(第3回3D勉強会@関東)
Neural scene representation and rendering の解説(第3回3D勉強会@関東)
 
3次元レジストレーション(PCLデモとコード付き)
3次元レジストレーション(PCLデモとコード付き)3次元レジストレーション(PCLデモとコード付き)
3次元レジストレーション(PCLデモとコード付き)
 
[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for Vision[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for Vision
 
Transformer メタサーベイ
Transformer メタサーベイTransformer メタサーベイ
Transformer メタサーベイ
 
MIRU2013チュートリアル:SIFTとそれ以降のアプローチ
MIRU2013チュートリアル:SIFTとそれ以降のアプローチMIRU2013チュートリアル:SIFTとそれ以降のアプローチ
MIRU2013チュートリアル:SIFTとそれ以降のアプローチ
 
Triplet Loss 徹底解説
Triplet Loss 徹底解説Triplet Loss 徹底解説
Triplet Loss 徹底解説
 
【メタサーベイ】Video Transformer
 【メタサーベイ】Video Transformer 【メタサーベイ】Video Transformer
【メタサーベイ】Video Transformer
 
[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報
 
三次元表現まとめ(深層学習を中心に)
三次元表現まとめ(深層学習を中心に)三次元表現まとめ(深層学習を中心に)
三次元表現まとめ(深層学習を中心に)
 
【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fields【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fields
 
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)
 

Ähnlich wie [解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
Learning Spatial Common Sense with Geometry-Aware Recurrent NetworksLearning Spatial Common Sense with Geometry-Aware Recurrent Networks
Learning Spatial Common Sense with Geometry-Aware Recurrent NetworksKento Doi
 
[DL輪読会]Dense Captioning分野のまとめ
[DL輪読会]Dense Captioning分野のまとめ[DL輪読会]Dense Captioning分野のまとめ
[DL輪読会]Dense Captioning分野のまとめDeep Learning JP
 
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...Deep Learning JP
 
Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...
Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...
Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...Yoshitaka Ushiku
 
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~SSII
 
[DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
[DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields [DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
[DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields Deep Learning JP
 
CVPR2019読み会 "A Theory of Fermat Paths for Non-Line-of-Sight Shape Reconstruc...
CVPR2019読み会 "A Theory of Fermat Paths  for Non-Line-of-Sight Shape Reconstruc...CVPR2019読み会 "A Theory of Fermat Paths  for Non-Line-of-Sight Shape Reconstruc...
CVPR2019読み会 "A Theory of Fermat Paths for Non-Line-of-Sight Shape Reconstruc...Hajime Mihara
 
20150328 cv関東勉強会 sumisumithパート_v1.3
20150328 cv関東勉強会 sumisumithパート_v1.320150328 cv関東勉強会 sumisumithパート_v1.3
20150328 cv関東勉強会 sumisumithパート_v1.3sumisumith
 
[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会
[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会
[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会S_aiueo32
 
ECCV読み会 "Materials for Masses: SVBRDF Acquisition with a Single Mobile Phone ...
ECCV読み会 "Materials for Masses: SVBRDF Acquisition with a Single Mobile Phone ...ECCV読み会 "Materials for Masses: SVBRDF Acquisition with a Single Mobile Phone ...
ECCV読み会 "Materials for Masses: SVBRDF Acquisition with a Single Mobile Phone ...Hajime Mihara
 
カーセンサーで深層学習を使ってUX改善を行った事例とそこからの学び
カーセンサーで深層学習を使ってUX改善を行った事例とそこからの学びカーセンサーで深層学習を使ってUX改善を行った事例とそこからの学び
カーセンサーで深層学習を使ってUX改善を行った事例とそこからの学びRecruit Technologies
 
Slideshare unsupervised learning of depth and ego motion from video
Slideshare unsupervised learning of depth and ego motion from videoSlideshare unsupervised learning of depth and ego motion from video
Slideshare unsupervised learning of depth and ego motion from videoishii yasunori
 
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...cvpaper. challenge
 
輝度変化による運動錯視を用いたSSVEPベースBCI
輝度変化による運動錯視を用いたSSVEPベースBCI輝度変化による運動錯視を用いたSSVEPベースBCI
輝度変化による運動錯視を用いたSSVEPベースBCITomokiFurihara
 
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...Deep Learning JP
 
[DL輪読会]Few-Shot Unsupervised Image-to-Image Translation
[DL輪読会]Few-Shot Unsupervised Image-to-Image Translation[DL輪読会]Few-Shot Unsupervised Image-to-Image Translation
[DL輪読会]Few-Shot Unsupervised Image-to-Image TranslationDeep Learning JP
 
Few-Shot Unsupervised Image-to-Image Translation
Few-Shot Unsupervised Image-to-Image TranslationFew-Shot Unsupervised Image-to-Image Translation
Few-Shot Unsupervised Image-to-Image TranslationKento Doi
 
2018 07 02_dense_pose
2018 07 02_dense_pose2018 07 02_dense_pose
2018 07 02_dense_poseharmonylab
 

Ähnlich wie [解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis (20)

Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
Learning Spatial Common Sense with Geometry-Aware Recurrent NetworksLearning Spatial Common Sense with Geometry-Aware Recurrent Networks
Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
 
[DL輪読会]Dense Captioning分野のまとめ
[DL輪読会]Dense Captioning分野のまとめ[DL輪読会]Dense Captioning分野のまとめ
[DL輪読会]Dense Captioning分野のまとめ
 
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
 
Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...
Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...
Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...
 
Eccv2018 report day3
Eccv2018 report day3Eccv2018 report day3
Eccv2018 report day3
 
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
 
[DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
[DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields [DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
[DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
 
CVPR2019読み会 "A Theory of Fermat Paths for Non-Line-of-Sight Shape Reconstruc...
CVPR2019読み会 "A Theory of Fermat Paths  for Non-Line-of-Sight Shape Reconstruc...CVPR2019読み会 "A Theory of Fermat Paths  for Non-Line-of-Sight Shape Reconstruc...
CVPR2019読み会 "A Theory of Fermat Paths for Non-Line-of-Sight Shape Reconstruc...
 
DeepLearningDay2016Summer
DeepLearningDay2016SummerDeepLearningDay2016Summer
DeepLearningDay2016Summer
 
20150328 cv関東勉強会 sumisumithパート_v1.3
20150328 cv関東勉強会 sumisumithパート_v1.320150328 cv関東勉強会 sumisumithパート_v1.3
20150328 cv関東勉強会 sumisumithパート_v1.3
 
[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会
[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会
[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会
 
ECCV読み会 "Materials for Masses: SVBRDF Acquisition with a Single Mobile Phone ...
ECCV読み会 "Materials for Masses: SVBRDF Acquisition with a Single Mobile Phone ...ECCV読み会 "Materials for Masses: SVBRDF Acquisition with a Single Mobile Phone ...
ECCV読み会 "Materials for Masses: SVBRDF Acquisition with a Single Mobile Phone ...
 
カーセンサーで深層学習を使ってUX改善を行った事例とそこからの学び
カーセンサーで深層学習を使ってUX改善を行った事例とそこからの学びカーセンサーで深層学習を使ってUX改善を行った事例とそこからの学び
カーセンサーで深層学習を使ってUX改善を行った事例とそこからの学び
 
Slideshare unsupervised learning of depth and ego motion from video
Slideshare unsupervised learning of depth and ego motion from videoSlideshare unsupervised learning of depth and ego motion from video
Slideshare unsupervised learning of depth and ego motion from video
 
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
 
輝度変化による運動錯視を用いたSSVEPベースBCI
輝度変化による運動錯視を用いたSSVEPベースBCI輝度変化による運動錯視を用いたSSVEPベースBCI
輝度変化による運動錯視を用いたSSVEPベースBCI
 
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
 
[DL輪読会]Few-Shot Unsupervised Image-to-Image Translation
[DL輪読会]Few-Shot Unsupervised Image-to-Image Translation[DL輪読会]Few-Shot Unsupervised Image-to-Image Translation
[DL輪読会]Few-Shot Unsupervised Image-to-Image Translation
 
Few-Shot Unsupervised Image-to-Image Translation
Few-Shot Unsupervised Image-to-Image TranslationFew-Shot Unsupervised Image-to-Image Translation
Few-Shot Unsupervised Image-to-Image Translation
 
2018 07 02_dense_pose
2018 07 02_dense_pose2018 07 02_dense_pose
2018 07 02_dense_pose
 

Mehr von Kento Doi

Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images...
Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images...Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images...
Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images...Kento Doi
 
GENESIS: Generative Scene Inference and Sampling with Object-Centric Latent R...
GENESIS: Generative Scene Inference and Sampling with Object-Centric Latent R...GENESIS: Generative Scene Inference and Sampling with Object-Centric Latent R...
GENESIS: Generative Scene Inference and Sampling with Object-Centric Latent R...Kento Doi
 
HoloGAN: Unsupervised Learning of 3D Representations from Natural Images
HoloGAN: Unsupervised Learning of 3D Representations from Natural ImagesHoloGAN: Unsupervised Learning of 3D Representations from Natural Images
HoloGAN: Unsupervised Learning of 3D Representations from Natural ImagesKento Doi
 
StyleGAN解説 CVPR2019読み会@DeNA
StyleGAN解説 CVPR2019読み会@DeNAStyleGAN解説 CVPR2019読み会@DeNA
StyleGAN解説 CVPR2019読み会@DeNAKento Doi
 
20190406_nlp/cv_勉強会
20190406_nlp/cv_勉強会20190406_nlp/cv_勉強会
20190406_nlp/cv_勉強会Kento Doi
 
Semi-convolutional Operators for Instance Segmentation
Semi-convolutional Operators for Instance SegmentationSemi-convolutional Operators for Instance Segmentation
Semi-convolutional Operators for Instance SegmentationKento Doi
 
カメラキャリブレーション
カメラキャリブレーションカメラキャリブレーション
カメラキャリブレーションKento Doi
 
CVPR2018読み会_20180701
CVPR2018読み会_20180701CVPR2018読み会_20180701
CVPR2018読み会_20180701Kento Doi
 
“Domain Adaptive Faster R-CNN for Object Detection in theWild (CVPR 2018) 他
 “Domain Adaptive Faster R-CNN for Object Detection in theWild (CVPR 2018)  他 “Domain Adaptive Faster R-CNN for Object Detection in theWild (CVPR 2018)  他
“Domain Adaptive Faster R-CNN for Object Detection in theWild (CVPR 2018) 他Kento Doi
 

Mehr von Kento Doi (10)

Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images...
Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images...Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images...
Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images...
 
GENESIS: Generative Scene Inference and Sampling with Object-Centric Latent R...
GENESIS: Generative Scene Inference and Sampling with Object-Centric Latent R...GENESIS: Generative Scene Inference and Sampling with Object-Centric Latent R...
GENESIS: Generative Scene Inference and Sampling with Object-Centric Latent R...
 
HoloGAN: Unsupervised Learning of 3D Representations from Natural Images
HoloGAN: Unsupervised Learning of 3D Representations from Natural ImagesHoloGAN: Unsupervised Learning of 3D Representations from Natural Images
HoloGAN: Unsupervised Learning of 3D Representations from Natural Images
 
StyleGAN解説 CVPR2019読み会@DeNA
StyleGAN解説 CVPR2019読み会@DeNAStyleGAN解説 CVPR2019読み会@DeNA
StyleGAN解説 CVPR2019読み会@DeNA
 
20190406_nlp/cv_勉強会
20190406_nlp/cv_勉強会20190406_nlp/cv_勉強会
20190406_nlp/cv_勉強会
 
Semi-convolutional Operators for Instance Segmentation
Semi-convolutional Operators for Instance SegmentationSemi-convolutional Operators for Instance Segmentation
Semi-convolutional Operators for Instance Segmentation
 
Style-GAN
Style-GANStyle-GAN
Style-GAN
 
カメラキャリブレーション
カメラキャリブレーションカメラキャリブレーション
カメラキャリブレーション
 
CVPR2018読み会_20180701
CVPR2018読み会_20180701CVPR2018読み会_20180701
CVPR2018読み会_20180701
 
“Domain Adaptive Faster R-CNN for Object Detection in theWild (CVPR 2018) 他
 “Domain Adaptive Faster R-CNN for Object Detection in theWild (CVPR 2018)  他 “Domain Adaptive Faster R-CNN for Object Detection in theWild (CVPR 2018)  他
“Domain Adaptive Faster R-CNN for Object Detection in theWild (CVPR 2018) 他
 

Kürzlich hochgeladen

Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。iPride Co., Ltd.
 
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
新人研修のまとめ       2024/04/12の勉強会で発表されたものです。新人研修のまとめ       2024/04/12の勉強会で発表されたものです。
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。iPride Co., Ltd.
 
プレイマットのパターン生成支援ツールの評価
プレイマットのパターン生成支援ツールの評価プレイマットのパターン生成支援ツールの評価
プレイマットのパターン生成支援ツールの評価sugiuralab
 
PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000Shota Ito
 
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Danieldanielhu54
 
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxIoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxAtomu Hidaka
 
プレイマットのパターン生成支援ツール
プレイマットのパターン生成支援ツールプレイマットのパターン生成支援ツール
プレイマットのパターン生成支援ツールsugiuralab
 
20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directoryosamut
 

Kürzlich hochgeladen (8)

Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
 
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
新人研修のまとめ       2024/04/12の勉強会で発表されたものです。新人研修のまとめ       2024/04/12の勉強会で発表されたものです。
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
 
プレイマットのパターン生成支援ツールの評価
プレイマットのパターン生成支援ツールの評価プレイマットのパターン生成支援ツールの評価
プレイマットのパターン生成支援ツールの評価
 
PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000
 
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Daniel
 
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxIoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
 
プレイマットのパターン生成支援ツール
プレイマットのパターン生成支援ツールプレイマットのパターン生成支援ツール
プレイマットのパターン生成支援ツール
 
20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory
 

[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

  • 1. NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
  • 2. 概要: 何がすごいか?? • 複数の視点と画像のペアからMulti layer perceptron (MLP) を学習することにより、新規視点生 成のタスクで非常に素晴らしい結果を達成 • 新規視点生成とは … あるシーンを観測する視点を与えたときに、その視点に対応する画像を生成する こと • まずはproject pageからダウンロードした結果を見てください • http://www.matthewtancik.com/nerf B. Midenhall et al. “NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis”, arxiv prepring, 2020.
  • 3. 書誌情報、選定理由など • UC Berkeley, Google Research, UC San Diegoの研究者が著者 • equal contributionが3人!! • 論文のフォーマットからECCV2020への投稿と思われる • 選定理由 • 結果の動画を見て、非常に高精細な画像が生成できていると驚いた • 画像生成形の論文情報はroadrunnerさんが早い (Twitter: @ak92501) • 生成結果のインパクトが大きく各所で話題になっていた • 軽く読んでみてアイデアが (自分にとって) 新しく面白かったため
  • 4. 概要: どうやって実現している? • MLPでNeural Radiance Field (NeRF) を学習 • Neural Radiance Fieldとは • 三次元空間のある点の位置と視線方向 (角度) を与えると、その点の密 度 (density) と色が定まるNNにより表現された「場」 • 場とは … 時空の各点に関する物理量で、座標と時間を指定すると一つの 物理量が定まる。数学的には空間座標が独立変数となる関数で表現可能* • 密度 (density) とは … 光をどれくらい透過するかを表すパラメーター (densityが高いほど光を通しにくいということだと思います) • カメラレイから定まる空間の各点の位置と視線の方向をクエリにして、 古典的なレンダリング手法 (volume rendering) を用いて視点に対応す る画像をレンダリングできる • volume renderingが微分可能なので画像を使ってend-to-endで学習できる • 複数の観測 (画像と視点のペア) でNeRFを訓練する方法を提案 *https://www.wikiwand.com/ja/%E5%A0%B4 http://www.matthewtancik.com/nerf
  • 5. レンダリングの手順 1. カメラレイをシーンの中を進ませ、三次元点をサンプル • カメラに入ってくる光を逆向きに進ませるイメージ • その光が通る点を考慮して画像をレンダリングする 2. サンプルした点と対応する視線の方向をNNに入力し各点の色と密度を生成 3. 古典的なボリュームレンダリングの技術で色と密度から画像を合成 • カメラレイを逆向きに辿り密度を考慮しながら色を足し合わせていくイメージ B. Midenhall et al. “NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis”, arxiv prepring, 2020.
  • 6. 技術的な貢献 • 複雑な幾何形状を持つシーンをMLPでパラメタライズしたneural radiance field で表現したこと • 古典的なボリュームレンダリングの手法に基づく微分可能なレンダリング手法の 提案 • MLPのキャパシティを考慮した三次元点の階層的なサンプリング手法も提案 • 複雑な形状を持つシーンを表現するために5D (三次元位置、視線方向) を高次元 空間に埋め込むテクニックの提案 新規視点合成の既存手法と比較しstate-of-the-artの結果を得た 次のスライドから詳細について説明します
  • 7. NeRFによるシーン表現の獲得 • シーンを5Dベクトル (三次元位置、視線方向) を入力として、とvolume density を出力する関数として表現 • 三次元位置: x = (x, y, z) • 視線方向: (θ, φ) • 色: c = (r, g, b) • volume density: σ • volume densityは、xのみにより定まる値 • 色はxと (θ, φ) により定まる値 • 上の制約からMLPは2つに分かれる 1. xを入力としσと256次元のベクトルを出力 2. 1の出力の256次元のベクトルと(θ, φ)からc = (r, g, b)を出力 • 色を視線方向に依存するように設計する理由  鏡面反射など、方向に依存する現象 (non-Lambertian) を考慮できるようにするため
  • 8. 視点に依存する効果のモデリング • (a), (b) 同じ箇所を異なる方向から見ると、色が変わるということが再現できて いる • (c) あらゆる方向から同じ箇所を見た場合の色の変化を可視化 • 半球状のあらゆる視点から同じ箇所を見ようとした場合の色を円の中に表示している B. Midenhall et al. “NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis”, arxiv prepring, 2020.
  • 9. Radiance fieldからのボリュームレンダリング 1 • 古典的なボリュームレンダリングの原理に基づいた方法を使用 • 1984年にKajitaらが提案した手法 (Ray Tracing Volume Densities) を引用していた • Ray Tracingとは、カメラに届く光線を逆方向に辿ることにより画像を生成する手法のこと • 本物の写真に近い画像をレンダリングできる手法として知られている • レイトレーシングによるボリュームレンダリングでは、光線を逆方向に辿りながら、物体のvolume density (透過率) を考慮しつつ各点の色を足し合わせ2D画像のあるピクセルの色を計算するイメー ジ (私の理解です) • 連続的なradiance fieldを考えるとボリュームレンダリングの以下のようになる • カメラの光線を表すベクトル (oを通りdの方向に伸びる) : • t_n, t_fは仮想的に設定した最も近い点と遠い点 • T(t)はt_nからtまでの光線に沿って積分した透過率 (volume density) を表し、光線がt_nからtまで 粒子にぶつかることなく移動する確率を表す
  • 10. Radiance fieldからのボリュームレンダリング 2 • 実際にはradiance fieldを連続関数として積分するのではなくサンプルした点を用 いて区分求積法に基づいた近似計算を行う • この方法についてはMaxのボリュームレンダリングのレビュー論文で議論されている • サンプルする点の間隔は学習時には毎回ランダムに変化させている
  • 11. NeRFの最適化 1: Positional encoding • xyzθφをMLPにそのまま入力しても画像の高周波成分は再現できない • DNNは低周波成分ばかりを学習してしまうバイアスがある (Rahaman et al. 2018) • 入力を一旦、高周波関数(high frequency functions)で高次元空間にマッピングしてからDNN に入力すると高周波成分を持つデータにfitしやすいらしい • 以下の埋め込み関数を用いて入力のベクトルを高次元空間に写像 • 三次元位置を表すベクトルx = (x, y, z)の各成分をこの関数に入力 • 視線方向 (θ, φ) については(x, y, z)成分を持つ単位ベクトルに変換し上の関数に入力 • このテクニックはTransformer (Vaswani et al. 2017) でも使われているらしい • 詳しい人教えてください
  • 12. NeRFの最適化 2 : 階層的ボリュームサンプリング • 光線に沿って点を密にサンプルするのは計算効率が悪いので、重要度を考慮して、 出力画像により寄与する点を選ぶのが良い 階層的サンプリングという手法を提案 • 発想自体はボリュームレンダリングの研究で既出 (Levoy, 1990) 1. “corse”と”fine“の2つのネットワークを準備 2. 光線に沿って粗くサンプルした点を”coarse”ネットワークに入力し色と密度を 得たのちレンダリング 3. 得られた各点の重要度を用いて再度点をサンプルしなおす 4. 全ての点から”fine”ネットワークで色と密度を計算し画像をレンダリング
  • 13. 実装詳細 • データセットは画像と視点のペア、カメラ内部パラメータ、シーンの境界 (範囲) • シミュレーションデータのデータセットからは自明に得られる • 実データでは三次元復元のソフトウェアを用い推定したパラメータを使用 • 各イテレーションでランダムに光線をサンプルし、その後階層的サンプリングで三次元点を サンプルした • ボリュームレンダリングによりそれぞれの光線に対応するピクセルの色を計算 • 計算したピクセル値とGTとの二乗誤差を計算 • Rは光線の集合を表す, Cはピクセル値 (色), 添字のc, rはcoarse, fine networkに対応 • 光線は4096個サンプル, 三次元点は64 (coarse), 128 (fine) 個を階層的にサンプル • 10~30万iteration, NVIDIA V100 1個を用いて1~2日間学習
  • 14. 実験 : dataset • 合成データ • Deep Voxels dataset (Sitzmann et al. 2019) • 複雑ではない形状の物体をあらゆる視点からレンダリングしたデータセット • 鏡面反射なし • 画像のサイズは512x512 • 新しくCGでデータセットを作成 • 8種類のオブジェクト • 学習用に100視点、テスト用に200視点レンダリング • 画像のサイズは800x800 • 実データ • 8つのシーンを携帯電話のカメラでいろいろな視点から撮影したデータ • 一部はMildenhallらが作成したデータ • 20~62枚撮影 • 学習:テスト = 8:2 • 画像のサイズは1008x756
  • 15. 実験: 比較手法 • Neural Volumes (NV) (S. Lombardi et al. 2019.) • ダイナミックな3Dシーンをモデリング • 観測からRGBαボクセルグリッドとそのワープを推定 • クエリ視点でレイマーチング (カメラに入る光線を逆方向に辿るレンダリング手法) により新規視点のビューをレンダリング • Scene Representation Networks (SRN) (V. Sitzmann et al. 2019.) • シーンを不透明な表面として表現 • MLPで各点 (x, y, z) のfeatureを計算 • RNNで光線を進む幅を計算する→計算した分だけ進む を繰り返す • 最終ステップの時の位置を物体の表面とし、色をfeatureからデコードする • Local Light Field Fusion (LLFF) (B. Mildenhall et al. 2019) • 3D convolution により入力の各視点のRGBαグリッド (multiplane image (MPI))を 直接推定 • クエリ視点でに対応する画像を複数のMPIから合成する
  • 16. 実験: 定量評価 • 3つの画質評価指標を用いて、新規視点画像合成のパフォーマンスを比較 • LPIPSはpretrained-CNNから抽出したfeatureの距離だったと思います (詳しい人 教えてください)
  • 17. 実験: 定性評価 • 提案手法とLLFFは細かく復元ができ ている • LLFFは観測画像を再利用するような手 法であることが大きい • SRNとNVは細かい画像を生成する表現 力がない • NVではシーン表現が粗いボクセルなの が原因 • SRNはちょっとわかりません。。。
  • 19. 実験: 定量評価 • シーン表現を計算するのにかかる時間 • 提案手法は1つのシーンを表現するのにモデルを最低でも12時間学習する必要 がある • LLFFなど、事前に色々なシーンでモデルを学習しておくことで推論に時間が かからないものもある • 計算コスト • 提案手法は、ネットワークの重みが5MBでマシンの負荷が少ない • LLFFでは観測した画像データをメモリに保持するので15GBと負荷が大きい
  • 20. 実験: Ablation study • CGのシーンで色々条件を変えた結果を比較 • 提案手法でどこが結果に効いているか • Positional encoding, view dependenceは結果にかなり効く • 階層サンプリングは性能にはそこまで効かない (計算量の効率化に寄与) • 画像の枚数が少なすぎると性能が低下 • positional encoding時の周波数の数が少なすぎると性能が低下 • この辺りは順当な結果
  • 21. まとめ • 提案手法まとめ • MLPを訓練することで、ある点の三次元空間の座標と視線方向を入力すると 色と密度を出力する Neural Radiance Field (NeRF)を獲得 • NeRFから古典的なボリュームレンダリングの手法を用いて新たな視点の ビューを生成することができる • 新規視点画像合成のタスクでSoTA • Future work • よりサンプル効率の高い方法 (学習時も推論時も) • 解釈性の問題 • シーン表現をMLPの重みという形式で獲得しているため直接解釈できない
  • 23. 参考文献 • B. Midenhall et al.: NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis. arxiv prepring, 2020. • J. T. Kajiya et al.: Ray Tracing Volume Densities. Computer Graphics, 1984. • N. Max: Optical models for direct volume rendering. IEEE Transactions on Visualization and Computer Graphics 1995. • M. Levoy: Efficient ray tracing of volume data. ACM Transactions on Graphics 1990. • N. Rahaman et al.: On the spectral bias of neural networks. in ICML 2018. • A. Vaswani et al.: Attention is all you need. in NeurIPS 2018. • S. Lombardi et al.: Neural volumes: Learning dynamic renderable volumes from images. SIGGRAPH 2019. • V. Sitzmann et al.: Scene Representation Networks: Continuous 3D-Structure-Aware Neural Scene Representations. in NurIPS, 2019. • B. Mildenhall et al.: Local light field fusion: Practical view synthesis with prescriptive sampling guidelines. SIGGRAPH 2019.

Hinweis der Redaktion

  1. SRN : 幾何形状とテクスチャが滑らかすぎる NV : 細かい形状が捉えられている シーン表現を128^3のボクセルにしているため解像度が粗く詳細を表現しきれない LLFF : 視差が大きいと幾何形状を復元するのが難しい、視点間の一貫性がない