3. Oral Session 2A
O-2A-01 Scaling Egocentric Vision: The E-Kitchens Dataset Dima Damen*, University of Bristol; Hazel Doughty,
University of Bristol; Sanja Fidler, University of Toronto;
Antonino Furnari, University of Catania; Evangelos
Kazakos, University of Bristol; Giovanni Farinella,
University of Catania, Italy; Davide Moltisanti, University of
Bristol; Jonathan Munro, University of Bristol; Toby Perrett,
University of Bristol; Will Price, University of Bristol;
Michael Wray, University of Bristol
O-2A-02 Unsupervised Person Re-identification by Deep Learning
Tracklet Association
Minxian Li*, Nanjing University and Science and
Technology; Xiatian Zhu, Queen Mary University, London,
UK; Shaogang Gong, Queen Mary University of London
O-2A-03 Predicting Gaze in Egocentric Video by Learning Task-
dependent Attention Transition
Yifei Huang*, The University of Tokyo; Minjie Cai, Hunan
University, The University of Tokyo; Zhenqiang Li, The
University of Tokyo; Yoichi Sato,The University of Tokyo
O-2A-04 Instance-level Human Parsing via Part Grouping Network Ke Gong*, SYSU; Xiaodan Liang, Carnegie Mellon
University; Yicheng Li, Sun Yat-sen University; Yimin Chen,
sensetime; Liang Lin, Sun Yat-sen University
O-2A-05 Adversarial Geometry-Aware Human Motion Prediction Liangyan Gui*, Carnegie Mellon University; Yu-Xiong
Wang, Carnegie Mellon University; Xiaodan Liang,
Carnegie Mellon University; José M. F. Moura, Carnegie
Mellon University
5. Unsupervised Person Re-identification by Deep
Learning Tracklet Association, M. Li et al.
• カメラ内Tracking結果を使って,カメラ間Tracking=Person
Re-Identificationを教師なし学習.
• カメラ内Trackingから,確実に本人を追跡しているTrackletを
抽出したい
• 誤りが含まれないようなTrackletで学習⇢見えの多様性が獲得不可
• 見えの多様性を重視したTracklet分割⇢誤った正解データでの学習
• 上記の問題の解き方を聞き逃しました…orz
• Lossか何かを工夫?段階的に学習?
• 教師ありより大体20〜30ポイント程度精度が低いっぽい.
Oral
6. Predicting Gaze in Egocentric Video by Learning
Task-dependent Attention Transition, Y. Huan et al.
• 一人称カメラで,カメラのエゴモーションや物体検出結果など
から,視線を推定する.
• 個人的にはお気に入りの論文.現段階では専用のデータセットが必要
で,視線移動のモデル化などには個人差も大きいために個人適応が必
要かもしれないとはいえ,手軽.
• 視線の動きを予測する時系列モデルと,物体検出結果などを上手く組
み合わせることによって,視線の遷移をCNNでモデル化.
• 東大・佐藤研の研究.MIRUでもポスター発表あり.
Oral
7. Instance-level Human Parsing via Part
Grouping Network, Ke Gong et al.
• Body parts segmentationをInstance毎に行う.
• Instance-aware Edge Detectionの結果に手法が大きく依存してい
る?
• その境界を信頼してラベルの平滑化か特徴の統合かをしているっぽい.
• 水平方向・垂直方向に何かを積算していた
それが何か,ちょっとわからず.
• 会場から質問
• 肩を組んだ場合とかで腕だけ遮蔽で
途切れる(同一人物が複数領域に分かれ
る)場合,うまくいかないのでは?
• 著者,それは今後の課題.
• そもそもOpen Pose等に対する
優位性は?
Oral
8. Adversarial Geometry-Aware Human Motion
Prediction, L. Gui et al.
• Bone Modelで表現された人間の行動の未来予測.
• 従来手法は誤差に間接位置の正解とのEuclid距離を利用
⇢ なめらかな人の動きを評価するなら,関節角度を利用するのが自然?
そこでGeodesic距離(Bone modelの場合は,胴体から末端までの相対
的な角度の誤差の総計がそれにあたる?)を利用.
• 予測された未来の系列に対する敵対的誤差に加えて,過去との
連結性についても敵対的誤差で自然らしさを評価.
• 精度あがるよ!
• 丁寧に作り込んだ印象.むしろ,従来手法が適当だったとも言えるか
もしれない.
Oral
13. Correcting Triplet selection Bias for Triplet
loss
• Triplet lossのhard negativeの選び方に関する論文っぽい.
• 3階通路で話を聞けず,押し流された.
Poster
14. Learning Visual Question Answering by
Bootstrapping Hard Attention
• VQA なので.記録として.ここは一階通路の狭いところかな.
例のごとく押し流されてます.
Poster
15. Oral Session 2B
O-2B-01 Weakly-supervised 3D Hand Pose Estimation from
Monocular RGB Images
Yujun Cai*, Nanyang Technological University; Liuhao
Ge, NTU; Jianfei Cai, Nanyang Technological
University; Junsong Yuan, State University of New
York at Buffalo, USA
O-2B-02 Audio-Visual Scene Analysis with Self-Supervised
Multisensory Features
Andrew Owens*, UC Berkeley; Alexei Efros, UC
Berkeley
O-2B-03 Jointly Discovering Visual Objects and Spoken Words
from Raw Sensory Input
David Harwath*, MIT CSAIL; Adria Recasens,
Massachusetts Institute of Technology; Dídac Surís,
Universitat Politecnica de Catalunya; Galen Chuang,
MIT; Antonio Torralba, MIT; James Glass, MIT
O-2B-04 DeepIM: Deep Iterative Matching for 6D Pose
Estimation
Yi Li*, Tsinghua University; Gu Wang, Tsinghua
University; Xiangyang Ji, Tsinghua University; Yu
Xiang, University of Michigan; Dieter Fox, University
of Washington
O-2B-05 Implicit 3D Orientation Learning for 6D Object
Detection from RGB Images
Martin Sundermeyer*, German Aerospace Center
(DLR); Zoltan Marton, DLR; Maximilian Durner, DLR;
Rudolph Triebel, German Aerospace Center (DLR)
16. Weakly-supervised 3D Hand Pose Estimation
from Monocular RGB Images, Yujun Cai et al.
• RGB画像からの手の三次元姿勢推定
• 従来: 合成データでの学習,どうしても実データだと精度が下がる.
• Depth: 計測誤差の壁を超えられない.
• 改善:
• 合成データはpre-trainingで使用.DepthはMulti-taskとして使用.
Oral
17. Audio-Visual Scene Analysis with Self-
Supervised Multisensory Features, A. Owen et al.
• 映像と音声のマッチングをときたい.
• 話者(音源)が複数いる場合に音源毎の音声を取り出すなど.
• Self-supervised Learning
• 関係ない動画の音声を取ってくるのは簡単過ぎる.欲しいのは動きの
同期性に起因した共通性の同定.
• 同一の動画の音声を少しずらしてNegative サンプルを作り,Real-
Fake学習をするとうまくいく.
Oral
18. Jointly Discovering Visual Objects and Spoken
Words from Raw Sensory Input, D. Harwath et al.
• 人間のWord Segmentの獲得⇢赤ちゃんはSpaceで区切られた
Asciiコードを扱っているわけではない.
• 絵本の読み聞かせからの学習
• そういうデータセットを利用
(名前をメモしてなかった)
• 画像コンテンツと,それの
説明文を読み上げた音声データ
• 時空間ボリュームで共起性に
基づくAttentionのようなものを
計算(右図)
Oral
20. DeepIM: Deep Iterative Matching for 6D
Pose Estimation, Yi Li et al.
• 物体の3次元姿勢推定
• なぜiterationが必要なのかなどがよくわからなかった.
• CADデータをどう回転させたら観測に合うかを出力するCNNモデルを構築.
• 前の結果に合わせてCADモデルを回転,再度,観測に合わせるための習性角
度をCNNで出力⇢反復実行
• 一発で出すわけでも無いが,同じモデルを使っているっぽい?
• 2 stageモデルなら,まだわかる.
• 会場質疑: local minimaに落ちているはずだが,初期値を変えたとき
の安定性は?⇢著者,10回くらいの初期値で大体おなじ?
(ちょっと聞き取れず.というか著者はちゃんと質問を理解してたか
不明).
Oral
21. Implicit 3D Orientation Learning for 6D Object
Detection from RGB Images, M. Sundermeyer et al.
• Enc-Decでbottle-neckをノード数6にして,そこで6D Poseを
推定という力技な手法.
• 入出力はCADベースのCGデータ.
• 入力に様々なノイズを加えることでリアルな画像でも動くようにする
• 出力は同じscaleで姿勢が違うCADベースのCGデータ.
• 最後はICPで位置調整している?
• 事前に二次元の正方形の画像平面上の2D Rotationで予備実験
• 2次元まで圧縮.Cosとsinに相当するパラメタが得られた.
• 実験では3Dでチェック.デモで一つ,上手く行ってない物体が
あったのは残念.
Oral
22. Oral 2C
O-2C-
01
Direct Sparse Odometry With Rolling Shutter David Schubert*, Technical University of
Munich; Vladyslav Usenko, TU Munich;
Nikolaus Demmel, TUM; Joerg Stueckler,
Technical University of Munich; Daniel
Cremers, TUM
O-2C-
02
3D Motion Sensing from 4D Light Field
Gradients
Sizhuo Ma*, University of Wisconsin-Madison;
Brandon Smith, University of Wisconsin-
Madison; Mohit Gupta, University of
Wisconsin-Madison, USA
O-2C-
03
A Style-aware Content Loss for Real-time HD
Style Transfer
Artsiom Sanakoyeu*, Heidelberg University;
Dmytro Kotovenko, Heidelberg University; Bjorn
Ommer, Heidelberg University
O-2C-
04
Scale-Awareness of Light Field Camera based
Visual Odometry
Niclas Zeller*, Karlsruhe University of Applied
Sciences; Franz Quint, Karlsruhe University of
Applied Sciences; Uwe Stilla, Technische
Universitaet Muenchen
O-2C-
05
Burst Image Deblurring Using Permutation
Invariant Convolutional Neural Networks
Miika Aittala*, MIT; Fredo Durand, MIT
23. Direct Sparse Odometry With Rolling
Shutter David Schubert et al.
• スマホのカメラのようなRolling Shutter型のカメラでStructure
from Motion!
• 移動しながらだと画像が歪むので従来の自己位置推定(Global
Shutterを仮定)が使えない.
• ちょっと手法の詳細はマニアック過ぎてスキップ….
• 結果,ゆっくり動いている分にはGlobal Shutterを仮定するよ
り精度向上.早く動く場合も向上はするが,blurなども激しく,
あまりうまくいかない場合がある.
Oral
24. 3D Motion Sensing from 4D Light Field
Gradients Sizhuo Ma et al.
• Scene Flow(Optical Flowの3D版)をLight Field Cameraで撮ろ
う.
• 観測点からカメラに向かう光を並行移動として記述
• エピポーラ幾何っぽい形になる.
• 方程式がUnder Constraintになるので,単独のレンズだと解けない.
• 他のレンズからも拘束条件を得てSfMっぽい計算(?)
• 非常に微細な動きであれば,従来手法より高い精度で計測可能
• ただRGB信号ベースなのでTexture Richじゃないと無理.
Oral
25. A Style-aware Content Loss for Real-time
HD Style Transfer Artsiom Sanakoyeu et al.
• Style Transferの``Style’’を決める際のデータを単独の画像では
なく,同一のStyleであろうとされる複数の画像の集合により定
義.
• 同一Styleの画像グループへの所属に関して,adversarial
trainingをする.
• 芸術系の研究家の言葉を引用してStyleとは,を語った割に,カ
ンディンスキーとかピカソとかのStyleを真似ることができたと
言われても,ベースとなる実写画像が,そもそもカンディンス
キーやピカソが描こうとしたものとずれている違和感w
• モネとかゴッホとかはいいんですけどね…
Oral
26. Scale-Awareness of Light Field Camera
based Visual Odometry, Niclas Zeller et al.
• この発表,ちょっと内職してしまって聞けず…
Oral
27. Burst Image Deblurring Using Permutation
Invariant Convolutional Neural Networks M. Aittala et al.
• 手ブレを含むビデオのdeblurをCNNでやる.
• 従来手法はLSTMを使う.
• データが時間順に並んでいる必要があるのは直感に反する.
• 補正結果は入力画像系列の順序と無関係.
• LSTM使っちゃうと順序依存になっちゃう.
• 実は画像毎のEncoderのPooling部分を時系列画像集合で共有してしま
う(x,yにt軸も含めた3次元でpoolingする)と上手く行く.
• Max poolingで効果を確認.
• メモ: この手法適用しようとするとImage Registration不可避な
のだけど,それを同時に解いていないのは段階的に問題を解い
ているからなんだろうな.
Oral