SlideShare ist ein Scribd-Unternehmen logo
1 von 24
1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
Unsupervised Learning of Probably Symmetric
Deformable 3D Objects from Images in the Wild
Kento Doi, D1, Matsuo Lab
書誌情報
• CVPR2020 Best Paper
• 今年のbest paperは3D系ばかりでしたね!
• OxfordのVisual Geometry Groupによる研究
• 選定理由
• この論文の前身となる論文を読んだはずだがスルーしてしまっていたので、
best paperに選ばれたタイミングで再度読み直そうと思った
• デモが面白いので試してみてください
• http://www.robots.ox.ac.uk/~vgg/blog/unsupervised-learning-of-
probably-symmetric-deformable-3d-objects-from-images-in-the-
wild.html?image=037_abstract&type=cat
論文概要
• 単一視点画像のみから教師なしで3Dの非剛体オブジェクトを学習
• 具体的には、画像からデプス、アルベド、カメラ姿勢、照明を推定
• 教師なしで学習するために物体の対称性を利用
• 人間の顔、動物の顔、車など左右対称な物体は非常に多い
• 対称性は特に照明の推定と密接に関わる
Symmetry in 3D Vision
• 本研究では不良設定問題の制約として、物体の対称性を利用
• 物体の対称性は、有用な制約として活用できる
• 例) 対称性を利用したステレオマッチング (François+ 2003)
• 物体の対称性を仮定すると、画像の反転により別視点の画像が作れる
François et al. Mirror Symmetry ⇒ 2-View Stereo Geometry.
Image and Vision Computing, 2003.
Symmetry in 3D Vision
• 前述のように、対称性の活用が鍵
• しかし、非対称性への対処をする必要がある
1. 形状の非対称性 (e.g. 人間の髪型)
2. アルベドの非対称性 (e.g. 猫の模様の違い)
3. 照明条件による非対称性
• 2つのアプローチで対処
1. 照明の明示的なモデリング
• shapeを復元するのにも役立つ
2. 各ピクセルが線対称である確率を推論する
ここまでが、基本的なアイデアの話
次のスライドから詳細を説明します
Deep Learning x 3D
• 既存手法との比較
• この表を精査したわけではな
いですが、画像のみから4つの
パラメータを推定する問題設
定はかなりチャレンジングに
見えます
提案手法: 全体図
• AutoEncoder型のネッ
トワークで、デプス、
アルベド、カメラ姿勢、
照明を推定
• 推定した値から元の画
像を復元
再構成誤差で学習
提案手法: Photo-geometric autoencoders
• 入力画像: (3 x W x H) のテンソル
• 物体がだいたい中央にあるように撮影
• 画像から次の4つの要素を推定
• 𝑑 : デプスマップ
• 𝑎 : アルベド画像
• 𝑙 : 照明の方向 (global light direction)
(2自由度)
• 𝑤 : カメラ姿勢 (6自由度)
• アルベドとは、入射光に対する反射
光の比
• 各ピクセルのRGBカラーは (入射光の
強さ) x (アルベド) で決まる
DNNで4つの要素を推定
提案手法: Photo-geometric autoencoders
• 4つの要素から以下の関数で画像を復元
• Λ : lighting function
• Π : reprojection
• Λ, Πには以下のような役割がある
• Λは、デプス、照明、アルベドから正面画
像 (canonical view) を復元する
• Πは、デプス、カメラ視点を用いて、正面
画像を目的の視点に再投影する
Λ, Πの詳細は後ほど説明します Λにより正面画像
の復元
Πで正面画像を
元の画像のview
に再投影
Image formation model: Reprojection
• Π, Λの詳細についての説明
• Πはデプス、カメラ視点を用いて、正
面画像を目的の視点に再投影する
• カメラの内部パラメータK
• R, tは外部パラメータ
• 上の式は、各ピクセルを三次元空間に逆
投影→三次元空間上で変換→二次元平面
上に再投影、という処理を表している
• カメラ幾何については産総研櫻田先生や
京大延原先生&NTT高橋さんの資料がわ
かりやすいと思います
ここ
• 櫻田健, SLAMの概要と画像を用いた3Dモデリングの基礎,
https://www.slideshare.net/KenSakurada/slam3d
• 延原章平&高橋康輔, SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世
界計測の基礎と応用~, https://www.slideshare.net/SSII_Slides/ssii2019ts3-149136612
Image formation model: lighting function
• Λは、デプス、照明、アルベドから正
面画像 (canonical view) を復元する
• 𝑘 𝑠, 𝑘 𝑑 : アンビエント光とデフューズ光
の係数
• 𝑙 : 照明の方向ベクトル
• 𝑛 𝑢𝑣 : デプスから算出した法線ベクトル
• 𝑎 𝑢𝑣 : アルベド光
• 照明と法線の内積によりデフューズ
の強さが決まる
照明による画像の非対称性をモデリング
できる ここ
補足: シェーディング
• シェーディングとは
光の角度と光源からの距離を考慮して色を変化させ、実写のような効果を得る処理
(Wikipedia)
• アンビエント光
• シーン内の物体を等しく照らす光
• 色々な物体に
• ディフューズ光
• 物体の表面で拡散反射をする光
• 光の向きと表面の法線ベクトルの角度で強度が決まる
• スペキュラ光
• 物体表面で鏡面反射をする光
• 本研究では考慮されなかった光 (人の顔や動物の顔では鏡面反射が起こりにくいとい
うことだと思います)
(参照) 光源と物体, Atelier Blue, http://www.atelier-blue.com/program/mdirectx/3d/3d01-14.htm
提案手法: Probably symmetric objects
• 対称性を活用するためには、対称の軸
をうまく発見する必要がある
• 本研究では、これを暗黙的に解いた
• 入力画像からデプス、アルベドを推定す
る時に左右対称の正面画像として推定
• 推定したデプス、アルベドを反転させて
も同じ画像が復元されるように学習
左右対称を保証するため
デプスとアルベドを左右対称
の正面画像として推定
提案手法: 損失関数
• モデルは以下の損失学習で訓練
• confidence 𝜎 で重み付けしたL1 loss (ラプラス分布のnegative loss
likelihoodと等価)
• confidenceについては次のスライドで説明します
• 反転させたデプスとアルベドから再構成した画像についても同じ損失を計算
• 左右対称なデプス、アルベドの学習を促進
• 反転なし + 反転あり の合計を最終的な損失とする
再構成誤差 反転画像の再構成誤差
提案手法: Probably symmetric objects
• 予測の不確かさ・物体の非対称性のモ
デリング
• confidence map 𝜎, 𝜎′ として出力
• 𝜎, 𝜎′
はそれぞれ損失関数の中で用いら
れる
• 特に𝜎′は非対称性をモデリング
• 右図の𝜎′では髪の毛の領域の不確かさが
大きくなっている
• 髪は左右非対称の可能性が高い
モデルの不確かさを推定
提案手法: 全体図 (再掲)
• AutoEncoder型のネッ
トワークで、デプス、
アルベド、カメラ姿勢、
照明を推定
• 推定した値から元の画
像を復元
再構成誤差で学習
左右反転させて同じこと
をやる
実験
• Dataset
• CelebA : 人間の顔のデータセット
• 3DFAW: 人間の顔のデータセット (キーポイント付き)
• BFM : 人間の顔のデータセット (3Dモデルあり)
• cat dataset: 猫の顔のデータセット (一部キーポイントあり)
• ShapeNet: 車の3Dモデルのデータを使用
• Metrics
• scale-invariant depth error (SIDE) : デプスの誤差
• mean angle deviation (MAD) : 法線の誤差
実験: (ベースラインとの比較)
• BFM dataset (人間の顔の3Dモデル)を用いてデプスとカメラ姿勢が
正しく推定できているか検証
• 教師ありで学習した結果よりは悪いがデプスの平均値をで予測するよりは良
い
実験: (Ablation)
• 何が効いているのか確認
• アルベドとデプスのflipはよく効いている
• 照明もよく効いている
実験 (Qualitative Results)
• CelebA, 3DFAW, cat
faces, ShapeNetの結果
• いい感じに三次元形状が
復元されている
• 珍しい表情には対応でき
てない? (2列目)
実験 (symmetry and asymmetry detection)
• 対象の軸の可視化 (左図)
• 非対称領域の可視化 (右図)
• 人間の髪の毛や猫の顔の模様
実験 (Limitation)
• 照明条件が極端な場合 (a)
• 鏡面反射や影を仮定していないため
• テクスチャに暗い色がノイズ的に含まれる場合 (b)
• shadingと暗いテクスチャの区別がつかない
• 物体が学習データにあまりないポーズの時 ©
まとめ
• 単一画像から非剛体物体の3Dモデルを学習
• 推定したパラメータから画像を復元し、再構成誤差により学習
• 対称性と照明が、形状復元の重要な手がかりとなった
• Future work
• 複数の正面画像の生成
• デプスの代わりにメッシュやボクセルの使用
より複雑な形状の物体に対応できるように!
• 感想
• 対称性を活用するというアイデアが面白い
• 適用対象が人間の顔画像が中心だったが、さらに複雑なデータに適用できるように
なるのか(CIFAR-10から復元するとか)
参考文献
• S. Wu et al. Unsupervised Learning of Probably Symmetric Deformable 3D Objects from
Images in the Wild. CVPR, 2020.
• François et al. Mirror Symmetry ⇒ 2-View Stereo Geometry. Image and Vision Computing,
2003.
• 櫻田健, SLAMの概要と画像を用いた3Dモデリングの基礎,
https://www.slideshare.net/KenSakurada/slam3d
• 延原章平&高橋康輔, SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の
基礎と応用~, https://www.slideshare.net/SSII_Slides/ssii2019ts3-149136612
• シェーディング, Wikipedia
(https://ja.wikipedia.org/wiki/%E3%82%B7%E3%82%A7%E3%83%BC%E3%83%87%E3%82%A3
%E3%83%B3%E3%82%B0)
• 光源と物体, Atelier Blue, http://www.atelier-blue.com/program/mdirectx/3d/3d01-14.htm

Weitere ähnliche Inhalte

Was ist angesagt?

CNNの可視化手法Grad-CAMの紹介~CNNさん、あなたはどこを見ているの?~ | OHS勉強会#6
CNNの可視化手法Grad-CAMの紹介~CNNさん、あなたはどこを見ているの?~ | OHS勉強会#6CNNの可視化手法Grad-CAMの紹介~CNNさん、あなたはどこを見ているの?~ | OHS勉強会#6
CNNの可視化手法Grad-CAMの紹介~CNNさん、あなたはどこを見ているの?~ | OHS勉強会#6Toshinori Hanya
 
[DL輪読会]Generative Models of Visually Grounded Imagination
[DL輪読会]Generative Models of Visually Grounded Imagination[DL輪読会]Generative Models of Visually Grounded Imagination
[DL輪読会]Generative Models of Visually Grounded ImaginationDeep Learning JP
 
【DL輪読会】AuthenticAuthentic Volumetric Avatars from a Phone Scan
【DL輪読会】AuthenticAuthentic Volumetric Avatars from a Phone Scan【DL輪読会】AuthenticAuthentic Volumetric Avatars from a Phone Scan
【DL輪読会】AuthenticAuthentic Volumetric Avatars from a Phone ScanDeep Learning JP
 
Prml Reading Group 10 8.3
Prml Reading Group 10 8.3Prml Reading Group 10 8.3
Prml Reading Group 10 8.3正志 坪坂
 
【DL輪読会】EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Pointsfor...
【DL輪読会】EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Pointsfor...【DL輪読会】EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Pointsfor...
【DL輪読会】EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Pointsfor...Deep Learning JP
 
【DL輪読会】SDEdit: Guided Image Synthesis and Editing with Stochastic Differentia...
【DL輪読会】SDEdit: Guided Image Synthesis and Editing with Stochastic Differentia...【DL輪読会】SDEdit: Guided Image Synthesis and Editing with Stochastic Differentia...
【DL輪読会】SDEdit: Guided Image Synthesis and Editing with Stochastic Differentia...Deep Learning JP
 
TransPose: Towards Explainable Human Pose Estimation by Transformer
TransPose: Towards Explainable Human Pose Estimation by TransformerTransPose: Towards Explainable Human Pose Estimation by Transformer
TransPose: Towards Explainable Human Pose Estimation by TransformerYasutomo Kawanishi
 
[DL輪読会]物理学による帰納バイアスを組み込んだダイナミクスモデル作成に関する論文まとめ
[DL輪読会]物理学による帰納バイアスを組み込んだダイナミクスモデル作成に関する論文まとめ[DL輪読会]物理学による帰納バイアスを組み込んだダイナミクスモデル作成に関する論文まとめ
[DL輪読会]物理学による帰納バイアスを組み込んだダイナミクスモデル作成に関する論文まとめDeep Learning JP
 
[DL輪読会]AutoAugment: LearningAugmentation Strategies from Data & Learning Data...
[DL輪読会]AutoAugment: LearningAugmentation Strategies from Data & Learning Data...[DL輪読会]AutoAugment: LearningAugmentation Strategies from Data & Learning Data...
[DL輪読会]AutoAugment: LearningAugmentation Strategies from Data & Learning Data...Deep Learning JP
 
因果探索: 基本から最近の発展までを概説
因果探索: 基本から最近の発展までを概説因果探索: 基本から最近の発展までを概説
因果探索: 基本から最近の発展までを概説Shiga University, RIKEN
 
時系列問題に対するCNNの有用性検証
時系列問題に対するCNNの有用性検証時系列問題に対するCNNの有用性検証
時系列問題に対するCNNの有用性検証Masaharu Kinoshita
 
CycleGANによる異種モダリティ画像生成を用いた股関節MRIの筋骨格セグメンテーション
CycleGANによる異種モダリティ画像生成を用いた股関節MRIの筋骨格セグメンテーションCycleGANによる異種モダリティ画像生成を用いた股関節MRIの筋骨格セグメンテーション
CycleGANによる異種モダリティ画像生成を用いた股関節MRIの筋骨格セグメンテーション奈良先端大 情報科学研究科
 
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
【DL輪読会】The Forward-Forward Algorithm: Some PreliminaryDeep Learning JP
 
Bayesian Neural Networks : Survey
Bayesian Neural Networks : SurveyBayesian Neural Networks : Survey
Bayesian Neural Networks : Surveytmtm otm
 
[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object DetectionDeep Learning JP
 
[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係についてDeep Learning JP
 
【DL輪読会】WIRE: Wavelet Implicit Neural Representations
【DL輪読会】WIRE: Wavelet Implicit Neural Representations【DL輪読会】WIRE: Wavelet Implicit Neural Representations
【DL輪読会】WIRE: Wavelet Implicit Neural RepresentationsDeep Learning JP
 
[DL輪読会]HoloGAN: Unsupervised learning of 3D representations from natural images
[DL輪読会]HoloGAN: Unsupervised learning of 3D representations from natural images[DL輪読会]HoloGAN: Unsupervised learning of 3D representations from natural images
[DL輪読会]HoloGAN: Unsupervised learning of 3D representations from natural imagesDeep Learning JP
 
SSII2020TS: 機械学習モデルの判断根拠の説明​ 〜 Explainable AI 研究の近年の展開 〜​
SSII2020TS: 機械学習モデルの判断根拠の説明​ 〜 Explainable AI 研究の近年の展開 〜​SSII2020TS: 機械学習モデルの判断根拠の説明​ 〜 Explainable AI 研究の近年の展開 〜​
SSII2020TS: 機械学習モデルの判断根拠の説明​ 〜 Explainable AI 研究の近年の展開 〜​SSII
 
Lagrangian Fluid Simulation with Continuous Convolutions
Lagrangian Fluid Simulation with Continuous ConvolutionsLagrangian Fluid Simulation with Continuous Convolutions
Lagrangian Fluid Simulation with Continuous Convolutionsfarukcankaya
 

Was ist angesagt? (20)

CNNの可視化手法Grad-CAMの紹介~CNNさん、あなたはどこを見ているの?~ | OHS勉強会#6
CNNの可視化手法Grad-CAMの紹介~CNNさん、あなたはどこを見ているの?~ | OHS勉強会#6CNNの可視化手法Grad-CAMの紹介~CNNさん、あなたはどこを見ているの?~ | OHS勉強会#6
CNNの可視化手法Grad-CAMの紹介~CNNさん、あなたはどこを見ているの?~ | OHS勉強会#6
 
[DL輪読会]Generative Models of Visually Grounded Imagination
[DL輪読会]Generative Models of Visually Grounded Imagination[DL輪読会]Generative Models of Visually Grounded Imagination
[DL輪読会]Generative Models of Visually Grounded Imagination
 
【DL輪読会】AuthenticAuthentic Volumetric Avatars from a Phone Scan
【DL輪読会】AuthenticAuthentic Volumetric Avatars from a Phone Scan【DL輪読会】AuthenticAuthentic Volumetric Avatars from a Phone Scan
【DL輪読会】AuthenticAuthentic Volumetric Avatars from a Phone Scan
 
Prml Reading Group 10 8.3
Prml Reading Group 10 8.3Prml Reading Group 10 8.3
Prml Reading Group 10 8.3
 
【DL輪読会】EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Pointsfor...
【DL輪読会】EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Pointsfor...【DL輪読会】EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Pointsfor...
【DL輪読会】EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Pointsfor...
 
【DL輪読会】SDEdit: Guided Image Synthesis and Editing with Stochastic Differentia...
【DL輪読会】SDEdit: Guided Image Synthesis and Editing with Stochastic Differentia...【DL輪読会】SDEdit: Guided Image Synthesis and Editing with Stochastic Differentia...
【DL輪読会】SDEdit: Guided Image Synthesis and Editing with Stochastic Differentia...
 
TransPose: Towards Explainable Human Pose Estimation by Transformer
TransPose: Towards Explainable Human Pose Estimation by TransformerTransPose: Towards Explainable Human Pose Estimation by Transformer
TransPose: Towards Explainable Human Pose Estimation by Transformer
 
[DL輪読会]物理学による帰納バイアスを組み込んだダイナミクスモデル作成に関する論文まとめ
[DL輪読会]物理学による帰納バイアスを組み込んだダイナミクスモデル作成に関する論文まとめ[DL輪読会]物理学による帰納バイアスを組み込んだダイナミクスモデル作成に関する論文まとめ
[DL輪読会]物理学による帰納バイアスを組み込んだダイナミクスモデル作成に関する論文まとめ
 
[DL輪読会]AutoAugment: LearningAugmentation Strategies from Data & Learning Data...
[DL輪読会]AutoAugment: LearningAugmentation Strategies from Data & Learning Data...[DL輪読会]AutoAugment: LearningAugmentation Strategies from Data & Learning Data...
[DL輪読会]AutoAugment: LearningAugmentation Strategies from Data & Learning Data...
 
因果探索: 基本から最近の発展までを概説
因果探索: 基本から最近の発展までを概説因果探索: 基本から最近の発展までを概説
因果探索: 基本から最近の発展までを概説
 
時系列問題に対するCNNの有用性検証
時系列問題に対するCNNの有用性検証時系列問題に対するCNNの有用性検証
時系列問題に対するCNNの有用性検証
 
CycleGANによる異種モダリティ画像生成を用いた股関節MRIの筋骨格セグメンテーション
CycleGANによる異種モダリティ画像生成を用いた股関節MRIの筋骨格セグメンテーションCycleGANによる異種モダリティ画像生成を用いた股関節MRIの筋骨格セグメンテーション
CycleGANによる異種モダリティ画像生成を用いた股関節MRIの筋骨格セグメンテーション
 
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
 
Bayesian Neural Networks : Survey
Bayesian Neural Networks : SurveyBayesian Neural Networks : Survey
Bayesian Neural Networks : Survey
 
[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection
 
[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について
 
【DL輪読会】WIRE: Wavelet Implicit Neural Representations
【DL輪読会】WIRE: Wavelet Implicit Neural Representations【DL輪読会】WIRE: Wavelet Implicit Neural Representations
【DL輪読会】WIRE: Wavelet Implicit Neural Representations
 
[DL輪読会]HoloGAN: Unsupervised learning of 3D representations from natural images
[DL輪読会]HoloGAN: Unsupervised learning of 3D representations from natural images[DL輪読会]HoloGAN: Unsupervised learning of 3D representations from natural images
[DL輪読会]HoloGAN: Unsupervised learning of 3D representations from natural images
 
SSII2020TS: 機械学習モデルの判断根拠の説明​ 〜 Explainable AI 研究の近年の展開 〜​
SSII2020TS: 機械学習モデルの判断根拠の説明​ 〜 Explainable AI 研究の近年の展開 〜​SSII2020TS: 機械学習モデルの判断根拠の説明​ 〜 Explainable AI 研究の近年の展開 〜​
SSII2020TS: 機械学習モデルの判断根拠の説明​ 〜 Explainable AI 研究の近年の展開 〜​
 
Lagrangian Fluid Simulation with Continuous Convolutions
Lagrangian Fluid Simulation with Continuous ConvolutionsLagrangian Fluid Simulation with Continuous Convolutions
Lagrangian Fluid Simulation with Continuous Convolutions
 

Mehr von Deep Learning JP

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving PlannersDeep Learning JP
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについてDeep Learning JP
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...Deep Learning JP
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-ResolutionDeep Learning JP
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxivDeep Learning JP
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLMDeep Learning JP
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...Deep Learning JP
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place RecognitionDeep Learning JP
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?Deep Learning JP
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究についてDeep Learning JP
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )Deep Learning JP
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...Deep Learning JP
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"Deep Learning JP
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "Deep Learning JP
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat ModelsDeep Learning JP
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"Deep Learning JP
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...Deep Learning JP
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...Deep Learning JP
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...Deep Learning JP
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...Deep Learning JP
 

Mehr von Deep Learning JP (20)

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
 

Kürzlich hochgeladen

業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)Hiroshi Tomioka
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NTT DATA Technology & Innovation
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?akihisamiyanaga1
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi
 

Kürzlich hochgeladen (8)

業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
 

[DL輪読会]Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images in the Wild

  • 1. 1 DEEP LEARNING JP [DL Papers] http://deeplearning.jp/ Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images in the Wild Kento Doi, D1, Matsuo Lab
  • 2. 書誌情報 • CVPR2020 Best Paper • 今年のbest paperは3D系ばかりでしたね! • OxfordのVisual Geometry Groupによる研究 • 選定理由 • この論文の前身となる論文を読んだはずだがスルーしてしまっていたので、 best paperに選ばれたタイミングで再度読み直そうと思った • デモが面白いので試してみてください • http://www.robots.ox.ac.uk/~vgg/blog/unsupervised-learning-of- probably-symmetric-deformable-3d-objects-from-images-in-the- wild.html?image=037_abstract&type=cat
  • 3. 論文概要 • 単一視点画像のみから教師なしで3Dの非剛体オブジェクトを学習 • 具体的には、画像からデプス、アルベド、カメラ姿勢、照明を推定 • 教師なしで学習するために物体の対称性を利用 • 人間の顔、動物の顔、車など左右対称な物体は非常に多い • 対称性は特に照明の推定と密接に関わる
  • 4. Symmetry in 3D Vision • 本研究では不良設定問題の制約として、物体の対称性を利用 • 物体の対称性は、有用な制約として活用できる • 例) 対称性を利用したステレオマッチング (François+ 2003) • 物体の対称性を仮定すると、画像の反転により別視点の画像が作れる François et al. Mirror Symmetry ⇒ 2-View Stereo Geometry. Image and Vision Computing, 2003.
  • 5. Symmetry in 3D Vision • 前述のように、対称性の活用が鍵 • しかし、非対称性への対処をする必要がある 1. 形状の非対称性 (e.g. 人間の髪型) 2. アルベドの非対称性 (e.g. 猫の模様の違い) 3. 照明条件による非対称性 • 2つのアプローチで対処 1. 照明の明示的なモデリング • shapeを復元するのにも役立つ 2. 各ピクセルが線対称である確率を推論する ここまでが、基本的なアイデアの話 次のスライドから詳細を説明します
  • 6. Deep Learning x 3D • 既存手法との比較 • この表を精査したわけではな いですが、画像のみから4つの パラメータを推定する問題設 定はかなりチャレンジングに 見えます
  • 8. 提案手法: Photo-geometric autoencoders • 入力画像: (3 x W x H) のテンソル • 物体がだいたい中央にあるように撮影 • 画像から次の4つの要素を推定 • 𝑑 : デプスマップ • 𝑎 : アルベド画像 • 𝑙 : 照明の方向 (global light direction) (2自由度) • 𝑤 : カメラ姿勢 (6自由度) • アルベドとは、入射光に対する反射 光の比 • 各ピクセルのRGBカラーは (入射光の 強さ) x (アルベド) で決まる DNNで4つの要素を推定
  • 9. 提案手法: Photo-geometric autoencoders • 4つの要素から以下の関数で画像を復元 • Λ : lighting function • Π : reprojection • Λ, Πには以下のような役割がある • Λは、デプス、照明、アルベドから正面画 像 (canonical view) を復元する • Πは、デプス、カメラ視点を用いて、正面 画像を目的の視点に再投影する Λ, Πの詳細は後ほど説明します Λにより正面画像 の復元 Πで正面画像を 元の画像のview に再投影
  • 10. Image formation model: Reprojection • Π, Λの詳細についての説明 • Πはデプス、カメラ視点を用いて、正 面画像を目的の視点に再投影する • カメラの内部パラメータK • R, tは外部パラメータ • 上の式は、各ピクセルを三次元空間に逆 投影→三次元空間上で変換→二次元平面 上に再投影、という処理を表している • カメラ幾何については産総研櫻田先生や 京大延原先生&NTT高橋さんの資料がわ かりやすいと思います ここ • 櫻田健, SLAMの概要と画像を用いた3Dモデリングの基礎, https://www.slideshare.net/KenSakurada/slam3d • 延原章平&高橋康輔, SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世 界計測の基礎と応用~, https://www.slideshare.net/SSII_Slides/ssii2019ts3-149136612
  • 11. Image formation model: lighting function • Λは、デプス、照明、アルベドから正 面画像 (canonical view) を復元する • 𝑘 𝑠, 𝑘 𝑑 : アンビエント光とデフューズ光 の係数 • 𝑙 : 照明の方向ベクトル • 𝑛 𝑢𝑣 : デプスから算出した法線ベクトル • 𝑎 𝑢𝑣 : アルベド光 • 照明と法線の内積によりデフューズ の強さが決まる 照明による画像の非対称性をモデリング できる ここ
  • 12. 補足: シェーディング • シェーディングとは 光の角度と光源からの距離を考慮して色を変化させ、実写のような効果を得る処理 (Wikipedia) • アンビエント光 • シーン内の物体を等しく照らす光 • 色々な物体に • ディフューズ光 • 物体の表面で拡散反射をする光 • 光の向きと表面の法線ベクトルの角度で強度が決まる • スペキュラ光 • 物体表面で鏡面反射をする光 • 本研究では考慮されなかった光 (人の顔や動物の顔では鏡面反射が起こりにくいとい うことだと思います) (参照) 光源と物体, Atelier Blue, http://www.atelier-blue.com/program/mdirectx/3d/3d01-14.htm
  • 13. 提案手法: Probably symmetric objects • 対称性を活用するためには、対称の軸 をうまく発見する必要がある • 本研究では、これを暗黙的に解いた • 入力画像からデプス、アルベドを推定す る時に左右対称の正面画像として推定 • 推定したデプス、アルベドを反転させて も同じ画像が復元されるように学習 左右対称を保証するため デプスとアルベドを左右対称 の正面画像として推定
  • 14. 提案手法: 損失関数 • モデルは以下の損失学習で訓練 • confidence 𝜎 で重み付けしたL1 loss (ラプラス分布のnegative loss likelihoodと等価) • confidenceについては次のスライドで説明します • 反転させたデプスとアルベドから再構成した画像についても同じ損失を計算 • 左右対称なデプス、アルベドの学習を促進 • 反転なし + 反転あり の合計を最終的な損失とする 再構成誤差 反転画像の再構成誤差
  • 15. 提案手法: Probably symmetric objects • 予測の不確かさ・物体の非対称性のモ デリング • confidence map 𝜎, 𝜎′ として出力 • 𝜎, 𝜎′ はそれぞれ損失関数の中で用いら れる • 特に𝜎′は非対称性をモデリング • 右図の𝜎′では髪の毛の領域の不確かさが 大きくなっている • 髪は左右非対称の可能性が高い モデルの不確かさを推定
  • 16. 提案手法: 全体図 (再掲) • AutoEncoder型のネッ トワークで、デプス、 アルベド、カメラ姿勢、 照明を推定 • 推定した値から元の画 像を復元 再構成誤差で学習 左右反転させて同じこと をやる
  • 17. 実験 • Dataset • CelebA : 人間の顔のデータセット • 3DFAW: 人間の顔のデータセット (キーポイント付き) • BFM : 人間の顔のデータセット (3Dモデルあり) • cat dataset: 猫の顔のデータセット (一部キーポイントあり) • ShapeNet: 車の3Dモデルのデータを使用 • Metrics • scale-invariant depth error (SIDE) : デプスの誤差 • mean angle deviation (MAD) : 法線の誤差
  • 18. 実験: (ベースラインとの比較) • BFM dataset (人間の顔の3Dモデル)を用いてデプスとカメラ姿勢が 正しく推定できているか検証 • 教師ありで学習した結果よりは悪いがデプスの平均値をで予測するよりは良 い
  • 19. 実験: (Ablation) • 何が効いているのか確認 • アルベドとデプスのflipはよく効いている • 照明もよく効いている
  • 20. 実験 (Qualitative Results) • CelebA, 3DFAW, cat faces, ShapeNetの結果 • いい感じに三次元形状が 復元されている • 珍しい表情には対応でき てない? (2列目)
  • 21. 実験 (symmetry and asymmetry detection) • 対象の軸の可視化 (左図) • 非対称領域の可視化 (右図) • 人間の髪の毛や猫の顔の模様
  • 22. 実験 (Limitation) • 照明条件が極端な場合 (a) • 鏡面反射や影を仮定していないため • テクスチャに暗い色がノイズ的に含まれる場合 (b) • shadingと暗いテクスチャの区別がつかない • 物体が学習データにあまりないポーズの時 ©
  • 23. まとめ • 単一画像から非剛体物体の3Dモデルを学習 • 推定したパラメータから画像を復元し、再構成誤差により学習 • 対称性と照明が、形状復元の重要な手がかりとなった • Future work • 複数の正面画像の生成 • デプスの代わりにメッシュやボクセルの使用 より複雑な形状の物体に対応できるように! • 感想 • 対称性を活用するというアイデアが面白い • 適用対象が人間の顔画像が中心だったが、さらに複雑なデータに適用できるように なるのか(CIFAR-10から復元するとか)
  • 24. 参考文献 • S. Wu et al. Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images in the Wild. CVPR, 2020. • François et al. Mirror Symmetry ⇒ 2-View Stereo Geometry. Image and Vision Computing, 2003. • 櫻田健, SLAMの概要と画像を用いた3Dモデリングの基礎, https://www.slideshare.net/KenSakurada/slam3d • 延原章平&高橋康輔, SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の 基礎と応用~, https://www.slideshare.net/SSII_Slides/ssii2019ts3-149136612 • シェーディング, Wikipedia (https://ja.wikipedia.org/wiki/%E3%82%B7%E3%82%A7%E3%83%BC%E3%83%87%E3%82%A3 %E3%83%B3%E3%82%B0) • 光源と物体, Atelier Blue, http://www.atelier-blue.com/program/mdirectx/3d/3d01-14.htm