3. Oral Session 3A
O-3A-01 MVSNet: Depth Inference for Unstructured Multi-view
Stereo
Yao Yao*, The Hong Kong University of Science and
Technology; Zixin Luo, HKUST; Shiwei Li, HKUST; Tian
Fang, HKUST; Long Quan, Hong Kong University of
Science and Technology
O-3A-02 PlaneMatch: Patch Coplanarity Prediction for Robust
RGB-D Registration
Yifei Shi, Princeton University; Kai Xu, Princeton
University and National University of Defense Technology;
Matthias Niessner, Technical University of Munich;
Szymon Rusinkiewicz, Princeton University; Thomas
Funkhouser*, Princeton, USA
O-3A-03 Active Stereo Net: End-to-End Self-Supervised Learning
for Active Stereo Systems
Yinda Zhang*, Princeton University; Sean Fanello, Google;
Sameh Khamis, Google; Christoph Rhemann, Google;
Julien Valentin, Google; Adarsh Kowdle, Google; Vladimir
Tankovich, Google; Shahram Izadi, Google; Thomas
Funkhouser, Princeton, USA
O-3A-04 GAL: Geometric Adversarial Loss for Single-View 3D-
Object Reconstruction
Li Jiang*, The Chinese University of Hong Kong; Xiaojuan
Qi, CUHK; Shaoshuai SHI, The Chinese University of Hong
Kong; Jia Jiaya, Chinese University of Hong Kong
O-3A-05 Deep Virtual Stereo Odometry: Leveraging Deep Depth
Prediction for Monocular Direct Sparse Odometry
Nan Yang*, Technical University of Munich; Rui Wang,
Technical University of Munich; Joerg Stueckler, Technical
University of Munich; Daniel Cremers, TUM
4. MVSNet: Depth Inference for Unstructured
Multi-view Stereo, Yao Yao et al.
• Voxelなどの3D物体の表現を0,1ではなく,[0,1]で確率として出
力するようなCNNを構築するなどしている?
• 今日は3D reconstructionで似たような話が多すぎて記憶が曖昧
…
Oral
6. Active Stereo Net: End-to-End Self-Supervised
Learning for Active Stereo Systems, Yinda Zhang et al.
• ちょっと別件で落ちてました.
Oral
7. GAL: Geometric Adversarial Loss for Single-
View 3D-Object Reconstruction, Li Jiang et al.
• 3DオブジェクトをVoxelではなく,球の集合で表現するモデル
を前提とする.
• 従来手法では,正解との誤差をChamfer距離のみで計算しLoss
として利用
• 必ずしも物体の形状を保持しなかった.
• 新たに,Multi-viewでの見えに基づく誤差や敵対的誤差を導入
Oral
8. Deep Virtual Stereo Odometry: Leveraging Deep
Depth Prediction for Monocular Direct Sparse
Odometry, Nan Yang et al.
• 単眼カメラでもCCNベースでDepthをある程度推定することで,
交通シーンでのカメラの自己位置推定において,従来のステレ
オビジョンによる手法と同程度の精度を達成.
Oral
17. Oral Session 3B
O-3B-01 Unsupervised Geometry-Aware Representation
for 3D Human Pose Estimation
Helge Rhodin*, EPFL; Mathieu Salzmann, EPFL;
Pascal Fua, EPFL, Switzerland
O-3B-02 Dual-Agent Deep Reinforcement Learning for
Deformable Face Tracking
Minghao Guo, Tsinghua University; Jiwen Lu*,
Tsinghua University; Jie Zhou, Tsinghua University,
China
O-3B-03 Deep Autoencoder for Combined Human Pose
Estimation and Body Model Upscaling
Matthew Trumble*, University of Surrey; Andrew
Gilbert, University of Surrey; John Collomosse,
Adobe Research; Adrian Hilton, University of Surrey
O-3B-04 Occlusion-aware Hand Pose Estimation Using
Hierarchical Mixture Density Network
Qi Ye*, Imperial College London; Tae-Kyun Kim,
Imperial College London
O-3B-05 GANimation: Anatomically-aware Facial
Animation from a Single Image
Albert Pumarola*, Institut de Robotica i Informatica
Industrial; Antonio Agudo, Institut de Robotica i
Informatica Industrial, CSIC-UPC; Aleix Martinez,
The Ohio State University; Alberto Sanfeliu,
Industrial Robotics Institute; Francesc Moreno, IRI
18. Unsupervised Geometry-Aware Representation
for 3D Human Pose Estimation
• https://www.youtube.com/watch?v=zFqwwKP0_kA
• 3D系の論文は動画貼っておいた方が言葉のメモよりわかりやす
い気がしてきた….
• CVPR2018であった同じ著者らの発表(skiとかをmultiviewで
とって姿勢推定のpretrainingを教師なしで実現する奴)の続編ら
しい.
• Appearance特徴を姿勢特徴と分離したり,背景を多様にするような工
夫の辺りかな.
Oral
19. Dual-Agent Deep Reinforcement Learning
for Deformable Face Tracking
• 顔を追跡できればland markの特定がしやすい.
• Land markを特定できれば顔を追跡しやすい.
⇢同時に解きたいよね.
• Multi-task Learningが置く仮定は結構きつい.
• 入力X, taskの出力をY1,Y2とすると
p(Y1, Y2|X)を仮定.本来はY1とY2はお互いに依存しあうはず.
• ベイズの定理で考えれば下記のように依存関係を表現できる.
p(Y1|Y2,X)p(Y2|X)=p(Y1|Y2,X)p(Y2|X)
• この発想のもとで,お互いにメッセージをPathする部分を作成
し,左辺と右辺を交互に最適化していくことで精度向上を達成.
Oral
20. Deep Autoencoder for Combined Human
Pose Estimation and Body Model Upscaling
• かなり小さく写ってしまっている人でもなんとかPose
Estimationの精度を上げたい.
• 解像度の高い画像をEnc-Decで復元するような学習をしておく
ことで精度向上
• なんか,PosterとOralの差が本当にわからなくなるよ….
Oral
21. Occlusion-aware Hand Pose Estimation
Using Hierarchical Mixture Density Network
• 手の姿勢推定で,見えない部分をどう扱うか.
1. 正規分布による生成モデルを仮定する場合
2. 混合正規分布による生成モデルを仮定する場合
3. 混合正規分布を生成する正規分布による階層的生成モデルを仮定す
る場合
• 1は全然だめっぽい.2と3はそんなに違わないように見えるが
….
Oral
22.
23. GANimation: Anatomically-aware Facial
Animation from a Single Image
• 従来のGAN: 様々な表情の顔画像を復元可能.
⇢それらの間を滑らかに補間するようなことが出来ない.
• Action Unit間の摂動をパラメタとすることで,表情aと表情bの
線形和として表現可能な表情空間を構築.
• GANで滑らかな変化を実現.
• 映像に適用しても結構滑らかだが,喋っている途中の唇の動き
などはまだ対応できていないので,今後の課題.
• Honorable Mention Award
Oral
30. Oral 3C
O-3C-01 Deterministic Consensus Maximization with Biconvex
Programming
Zhipeng Cai*, The University of Adelaide; Tat-Jun Chin,
University of Adelaide; Huu Le, University of Adelaide;
David Suter, University of Adelaide
O-3C-02 Robust fitting in computer vision: easy or hard? Tat-Jun Chin*, University of Adelaide; Zhipeng Cai, The
University of Adelaide; Frank Neumann, The University of
Adelaide, School of Computer Science, Faculty of
Engineering, Computer and Mathematical Science
O-3C-03 Highly-Economized Multi-View Binary Compression for
Scalable Image Clustering
Zheng Zhang*, Harbin Institute of Technology Shenzhen
Graduate School; Li Liu, the inception institute of artificial
intelligence; Jie Qin, ETH Zurich; Fan Zhu, the inception
institute of artificial intelligence ; Fumin Shen, UESTC;
Yong Xu, Harbin Institute of Technology Shenzhen
Graduate School; Ling Shao, Inception Institute of Artificial
Intelligence; Heng Tao Shen, University of Electronic
Science and Technology of China (UESTC)
O-3C-04 Efficient Semantic Scene Completion Network with Spatial
Group Convolution
Jiahui Zhang*, Tsinghua University; Hao Zhao, Intel Labs
China; Anbang Yao, Intel Labs China; Yurong Chen, Intel
Labs China; Hongen Liao, Tsinghua University
O-3C-05 Asynchronous, Photometric Feature Tracking using Events
and Frames
Daniel Gehrig, University of Zurich; Henri Rebecq*,
University of Zurich; Guillermo Gallego, University of
Zurich; Davide Scaramuzza, University of Zurich& ETH
Zurich, Switzerland
38. Accurate Scene Text Detection through Border
Semantics Awareness and Bootstrapping
• テキストの左右・上下を区別して学習させることで精度向上?
• Bootstrappingの
部分,ノーマークで
流してしまった.
Poster
39. AGIL: Learning Attention from Human for
Visuomotor Tasks
• ポスターと論文のタイトルが違う!
• 人間がAtariとかのゲームをするときの視線の動き=Attentionを
真似ることで,精度向上.
• 行動として,操作だけでなく
認知行動もいれたら良い.
• 認知行動の部分をimitation
learning!
Poster