Eccv2018 report day3

ECCV2018参加速報
(3日目)
橋本敦史
京大美濃研⇢OMRON SINIC X Corp. (OSX)
2018.4より研究職に転職しました

使用上の注意
• これは個人的なメモ資料です．いわば「チラシの裏」です．こ
の資料をみて，なんじゃこりゃ…と思われた方には大変申し訳
ありません．もっと素敵な資料はたくさんあると思いますので，
そっと閉じて，他をあたって頂ければ幸いです．
• この資料は「チラシの裏」ですが，下記はまんまチラシです．
• 弊社ではインターン生を年中募集しています．東京から遠隔にお住ま
いの方でも長期休みを利用してフレキシブルにインターンしていただ
けます．東京にお住まいの方でも，週に数回など，授業・研究の合間
に働きながらスキルを身に着けていただけます．詳しくはこちら(怪
しいURLですが，弊社のスタートアップ感の迸りです)

Oral Session 3A
O-3A-01 MVSNet: Depth Inference for Unstructured Multi-view
Stereo
Yao Yao*, The Hong Kong University of Science and
Technology; Zixin Luo, HKUST; Shiwei Li, HKUST; Tian
Fang, HKUST; Long Quan, Hong Kong University of
Science and Technology
O-3A-02 PlaneMatch: Patch Coplanarity Prediction for Robust
RGB-D Registration
Yifei Shi, Princeton University; Kai Xu, Princeton
University and National University of Defense Technology;
Matthias Niessner, Technical University of Munich;
Szymon Rusinkiewicz, Princeton University; Thomas
Funkhouser*, Princeton, USA
O-3A-03 Active Stereo Net: End-to-End Self-Supervised Learning
for Active Stereo Systems
Yinda Zhang*, Princeton University; Sean Fanello, Google;
Sameh Khamis, Google; Christoph Rhemann, Google;
Julien Valentin, Google; Adarsh Kowdle, Google; Vladimir
Tankovich, Google; Shahram Izadi, Google; Thomas
Funkhouser, Princeton, USA
O-3A-04 GAL: Geometric Adversarial Loss for Single-View 3D-
Object Reconstruction
Li Jiang*, The Chinese University of Hong Kong; Xiaojuan
Qi, CUHK; Shaoshuai SHI, The Chinese University of Hong
Kong; Jia Jiaya, Chinese University of Hong Kong
O-3A-05 Deep Virtual Stereo Odometry: Leveraging Deep Depth
Prediction for Monocular Direct Sparse Odometry
Nan Yang*, Technical University of Munich; Rui Wang,
Technical University of Munich; Joerg Stueckler, Technical
University of Munich; Daniel Cremers, TUM

MVSNet: Depth Inference for Unstructured
Multi-view Stereo, Yao Yao et al.
• Voxelなどの3D物体の表現を0,1ではなく，[0,1]で確率として出
力するようなCNNを構築するなどしている？
• 今日は3D reconstructionで似たような話が多すぎて記憶が曖昧
…
Oral

PlaneMatch: Patch Coplanarity Prediction
for Robust RGB-D Registration, Yifei Shi et al.
• SfMでカメラがぐるっと部屋の壁を一周して戻ってくるとloop
が閉じるところで誤差蓄積の影響がでる．
• Key pointに加えて，3D reconstructionの新たな指標として平
面を導入．
⇢ 同一平面かどうかのマッチングをCNNベースで解く．
(Co-planarity Matching)
• 上記はSelf-supervised で訓練できる←本当??際どいものも？？？
• 部屋は少数の平面で構成されているので，平面をあわせるとズレにく
い．
• もはや計測していないので，実は壁がずれていた場合などには
役に立たないのでは？おもちゃみたいなお手軽モデリングには
良さげ?
Oral

Active Stereo Net: End-to-End Self-Supervised
Learning for Active Stereo Systems, Yinda Zhang et al.
• ちょっと別件で落ちてました．
Oral

GAL: Geometric Adversarial Loss for Single-
View 3D-Object Reconstruction, Li Jiang et al.
• 3DオブジェクトをVoxelではなく，球の集合で表現するモデル
を前提とする．
• 従来手法では，正解との誤差をChamfer距離のみで計算しLoss
として利用
• 必ずしも物体の形状を保持しなかった．
• 新たに，Multi-viewでの見えに基づく誤差や敵対的誤差を導入
Oral

Deep Virtual Stereo Odometry: Leveraging Deep
Depth Prediction for Monocular Direct Sparse
Odometry, Nan Yang et al.
• 単眼カメラでもCCNベースでDepthをある程度推定することで，
交通シーンでのカメラの自己位置推定において，従来のステレ
オビジョンによる手法と同程度の精度を達成．
Oral

A Dataset and Architecture for Visual
Reasoning with a Working Memory
• タイトルが気になったので写真は取ったが発表者が不在だった．
Poster

Unsupervised Image-to-Image Translation with
Stacked Cycle-Consistent Adversarial Network
• Stacked GANをCycle-GANに適用した，という感じ？
Poster

Action Anticipation with RBF Kernelized
Feature Mapping RNN
• これも混雑してたけど多分latent featureをRBFで表現すること
によって精度が向上するよ，という論文．
• RBFを使うというテクニックは強化学習勉強会でも見た．
• 結局VAEと一緒?というあたり，
ちょっと勉強不足．
Poster

Predicting Future Instance Segmentation by
Forecasting Convolutional Features
• 将来のフレームのMasked R-CNNの特徴マップを未来予測する
論文．
• CVPR2016で物体識別の特徴を未来予測する論文があったが，
それとほぼ一緒ぽい．
• こっちの方が実用的かも．
• それ以上の工夫があるかは
未確認
Poster

Joint optimization for compressive video sensing
and reconstruction under hardware constraints
• 撮像素子の露光タイミングを画素ごとにランダムに変える⇢動
いているところがわかりやすい⇢効率よく複数フレームを圧縮
可能（複合などはCNNで学習）
• 実際には撮像素子の回路の制約
でランダムは実現しにくい．
• 縦横の列ごと連動して制御，など．
• 回路の制約化で上手く動くパターン
をDecoderの学習と一緒に
End-to-Endで学習
• 長原先生のところの研究
Poster

Deforming Autoencoders: Unsupervised
Disentangling of Shape and Appearance
• 顔のように「テンプレート」が作成可能な対象に対して，AEで
得られるlatent featureを以下の2つに分離
• Geometricな摂動成分
• その他(Appearance成分)
• 応用は，平均顔に貼った
マーカーを摂動で
個人の顔に適応させられる，
とかかな…．
Poster

Seeing Tree Structure from Vibration
• 木の枝の木構造（真の意味で！！）を抽出！
Poster

Oral Session 3B
O-3B-01 Unsupervised Geometry-Aware Representation
for 3D Human Pose Estimation
Helge Rhodin*, EPFL; Mathieu Salzmann, EPFL;
Pascal Fua, EPFL, Switzerland
O-3B-02 Dual-Agent Deep Reinforcement Learning for
Deformable Face Tracking
Minghao Guo, Tsinghua University; Jiwen Lu*,
Tsinghua University; Jie Zhou, Tsinghua University,
China
O-3B-03 Deep Autoencoder for Combined Human Pose
Estimation and Body Model Upscaling
Matthew Trumble*, University of Surrey; Andrew
Gilbert, University of Surrey; John Collomosse,
Adobe Research; Adrian Hilton, University of Surrey
O-3B-04 Occlusion-aware Hand Pose Estimation Using
Hierarchical Mixture Density Network
Qi Ye*, Imperial College London; Tae-Kyun Kim,
Imperial College London
O-3B-05 GANimation: Anatomically-aware Facial
Animation from a Single Image
Albert Pumarola*, Institut de Robotica i Informatica
Industrial; Antonio Agudo, Institut de Robotica i
Informatica Industrial, CSIC-UPC; Aleix Martinez,
The Ohio State University; Alberto Sanfeliu,
Industrial Robotics Institute; Francesc Moreno, IRI

Unsupervised Geometry-Aware Representation
for 3D Human Pose Estimation
• https://www.youtube.com/watch?v=zFqwwKP0_kA
• 3D系の論文は動画貼っておいた方が言葉のメモよりわかりやす
い気がしてきた…．
• CVPR2018であった同じ著者らの発表(skiとかをmultiviewで
とって姿勢推定のpretrainingを教師なしで実現する奴)の続編ら
しい．
• Appearance特徴を姿勢特徴と分離したり，背景を多様にするような工
夫の辺りかな．
Oral

Dual-Agent Deep Reinforcement Learning
for Deformable Face Tracking
• 顔を追跡できればland markの特定がしやすい．
• Land markを特定できれば顔を追跡しやすい．
⇢同時に解きたいよね．
• Multi-task Learningが置く仮定は結構きつい．
• 入力X, taskの出力をY1,Y2とすると
p(Y1, Y2|X)を仮定．本来はY1とY2はお互いに依存しあうはず．
• ベイズの定理で考えれば下記のように依存関係を表現できる．
p(Y1|Y2,X)p(Y2|X)=p(Y1|Y2,X)p(Y2|X)
• この発想のもとで，お互いにメッセージをPathする部分を作成
し，左辺と右辺を交互に最適化していくことで精度向上を達成．
Oral

Deep Autoencoder for Combined Human
Pose Estimation and Body Model Upscaling
• かなり小さく写ってしまっている人でもなんとかPose
Estimationの精度を上げたい．
• 解像度の高い画像をEnc-Decで復元するような学習をしておく
ことで精度向上
• なんか，PosterとOralの差が本当にわからなくなるよ…．
Oral

Occlusion-aware Hand Pose Estimation
Using Hierarchical Mixture Density Network
• 手の姿勢推定で，見えない部分をどう扱うか．
1. 正規分布による生成モデルを仮定する場合
2. 混合正規分布による生成モデルを仮定する場合
3. 混合正規分布を生成する正規分布による階層的生成モデルを仮定す
る場合
• 1は全然だめっぽい．2と3はそんなに違わないように見えるが
…．
Oral

GANimation: Anatomically-aware Facial
Animation from a Single Image
• 従来のGAN: 様々な表情の顔画像を復元可能．
⇢それらの間を滑らかに補間するようなことが出来ない．
• Action Unit間の摂動をパラメタとすることで，表情aと表情bの
線形和として表現可能な表情空間を構築．
• GANで滑らかな変化を実現．
• 映像に適用しても結構滑らかだが，喋っている途中の唇の動き
などはまだ対応できていないので，今後の課題．
• Honorable Mention Award
Oral

Deep Imbalanced Attribute Classification
using Visual Attention Aggregation
• サンプル数の不均衡に対する手法．
• 積ん読．メモとして残す．
Poster

Coloring with Words: Guiding Image Colorization
Through Text-based Palette Generation
• 色付けするGANの色味を自然言語で指示したい．
• カラーパレットを自然言語から生成し，それを使った彩色をさ
せる．
Poster

Variable Ring Light Imaging: Capturing
Transient Subsurface Scattering with An
Ordinary Camera
• 表面化散乱の計測手法．リング照明を，計測面との距離を変え
ながらあてる．
• リング中央の点の周辺の表面化散乱が（距離を変えたときの輝度の
差）として計算可能になる．
• 京大に新しく来られた西野教授
が筆頭著者．すごい．
Poster

Hand Pose Estimation via Latent 2.5D
Heatmap Regression
• 2.5D⇢3D変換を噛ましてから手の姿勢推定をする．
• 2.5Dで法線方向に近いところがheatmapで値が高くなっていた
ので，その辺りを上手く対処しているのだと思うけど（違うか
も）．
Poster

Conditional Image-Text Embedding
Networks
• メモ．
Poster

Oral 3C
O-3C-01 Deterministic Consensus Maximization with Biconvex
Programming
Zhipeng Cai*, The University of Adelaide; Tat-Jun Chin,
University of Adelaide; Huu Le, University of Adelaide;
David Suter, University of Adelaide
O-3C-02 Robust fitting in computer vision: easy or hard? Tat-Jun Chin*, University of Adelaide; Zhipeng Cai, The
University of Adelaide; Frank Neumann, The University of
Adelaide, School of Computer Science, Faculty of
Engineering, Computer and Mathematical Science
O-3C-03 Highly-Economized Multi-View Binary Compression for
Scalable Image Clustering
Zheng Zhang*, Harbin Institute of Technology Shenzhen
Graduate School; Li Liu, the inception institute of artificial
intelligence; Jie Qin, ETH Zurich; Fan Zhu, the inception
institute of artificial intelligence ; Fumin Shen, UESTC;
Yong Xu, Harbin Institute of Technology Shenzhen
Graduate School; Ling Shao, Inception Institute of Artificial
Intelligence; Heng Tao Shen, University of Electronic
Science and Technology of China (UESTC)
O-3C-04 Efficient Semantic Scene Completion Network with Spatial
Group Convolution
Jiahui Zhang*, Tsinghua University; Hao Zhao, Intel Labs
China; Anbang Yao, Intel Labs China; Yurong Chen, Intel
Labs China; Hongen Liao, Tsinghua University
O-3C-05 Asynchronous, Photometric Feature Tracking using Events
and Frames
Daniel Gehrig, University of Zurich; Henri Rebecq*,
University of Zurich; Guillermo Gallego, University of
Zurich; Davide Scaramuzza, University of Zurich& ETH
Zurich, Switzerland

Deterministic Consensus Maximization with
Biconvex Programming
• RANSACなどが対象としているConsensus Maximization
(MAXCON)に対する新しい近似手法の提案．
• 従来手法が理論的根拠ない，といっているが発表中に提案手法
の理論的根拠も示されていないので（多分論文で証明されてい
る？要確認），差が伝わらない．
• 次の発表も同じ著者で，そっちの方が面白かった．
Oral

Robust fitting in computer vision: easy or
hard?
• MAXCONがLkOS問題(画像)の双対問題であることを手がかりとして，
MAXCONの計算量が下記のクラスであることを証明
• NP-hard
• もはや説明はいるまい．
• W[1]-hard
• 変数の右肩に変数がのるオーダーの形を
解消できない数学的クラス．
• APX-hard
• 任意の近似比(1+ε)を実現する
近似アルゴリズムが存在しない．
• 一応，近似比=
[神のみぞ知る正解が達成するスコア]/
[あるアルゴリズムが達成するWorst case
のスコア]
Oral

Highly-Economized Multi-View Binary
Compression for Scalable Image Clustering
• 様々な視点で独立したクラスタを得たい．
• 画像をbinary vectorとして表現し，クラスタリングする．
• 実は私がやりたいことの一つとちょっと近い．
• しかし，この方法がそんなに良い方法なのか，よくわからな
かった．
Oral

Efficient Semantic Scene Completion
Network with Spatial Group Convolution
• 著者らの作成した従来手法であるSparse Convolutionを3Dに拡
張して，3次元シーンに対する3次元semantic segmentationみ
たいな問題(Semantic Scene Completion)の精度を向上させた．
• 屋内シーンで，シンプルな形状の物体が多いから上手く行って
いる印象．
Oral

Asynchronous, Photometric Feature
Tracking using Events and Frames
• イベントカメラ（紐つけてぐるぐる回したりしているあれ）を
使って，subframe(high speed camera並み)に対するフレーム
間差分のような画像を取得．
• Subframeでの輝度変化の情報を得られるので，物体追跡が容
易になる．
• 普通のカメラの画像(frame)と結果を統合しているが，frameは追跡に
あまり寄与しないらしい．
• Event cameraはdynamic rangeも非常に広い（というか差分だ
から実質dynamic rangeに限界が殆ど無い???）ので，かなり暗
いところでも物体追跡可能．
Oral

Accurate Scene Text Detection through Border
Semantics Awareness and Bootstrapping
• テキストの左右・上下を区別して学習させることで精度向上？
• Bootstrappingの
部分，ノーマークで
流してしまった．
Poster

AGIL: Learning Attention from Human for
Visuomotor Tasks
• ポスターと論文のタイトルが違う！
• 人間がAtariとかのゲームをするときの視線の動き=Attentionを
真似ることで，精度向上．
• 行動として，操作だけでなく
認知行動もいれたら良い．
• 認知行動の部分をimitation
learning!
Poster

RT-GENE: Real-Time Eye Gaze Estimation
in Natural Environments
• がっつり視線計測装置をつけてデータを取得．
• 装置をGANで消して，データセット作成．
• 学習したらいい感じ．
Poster

Out-of-Distribution Detection Using an
Ensemble of Self Supervised Leave-out
Classifiers
• 学習していないサンプル(odd samples)をそれとしてしっかり
検出できるような識別器の作成．
• 学習データにはもちろんそういうサンプルが入っていない．
• 擬似的にodd sampleを仮定して上手く学習する．おもろい．
• Margin-entropyという誤差関数が気になった．
Poster

Recognition in Terra Incognita
• 野生動物の生息数などの監視用の動物識別？
• 某知り合いの先生に知らせたい．
Poster

Deep Regionlets for Object Detection
• Regionletsをだしたい．
• Regionletsってなんだ？って思ったのでメモ．
• 物体領域矩形の中のsubregion．情報量が多い部分って考えたらよいの
か？背景以外をカバーする矩形の集合と考えたらよいのかな？
• Region Selection Networkで，
回転とかも考えることで，
いい感じのregionletsを得る．
• そもそも，従来手法は
Hand-craftedだった．
• なんでRegionletsだしたいんだろ？
Poster

Eccv2018 report day3

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Ähnlich wie Eccv2018 report day3

Ähnlich wie Eccv2018 report day3 (20)

Mehr von Atsushi Hashimoto

Mehr von Atsushi Hashimoto (9)

Eccv2018 report day3