Eccv2018 report day2

ECCV2018参加速報
(2日目)
橋本敦史
京大美濃研⇢OMRON SINIC X Corp. (OSX)
2018.4より研究職に転職しました

使用上の注意
• これは個人的なメモ資料です．いわば「チラシの裏」です．こ
の資料をみて，なんじゃこりゃ…と思われた方には大変申し訳
ありません．もっと素敵な資料はたくさんあると思いますので，
そっと閉じて，他をあたって頂ければ幸いです．
• この資料は「チラシの裏」ですが，下記はまんまチラシです．
• 弊社ではインターン生を年中募集しています．東京から遠隔にお住ま
いの方でも長期休みを利用してフレキシブルにインターンしていただ
けます．東京にお住まいの方でも，週に数回など，授業・研究の合間
に働きながらスキルを身に着けていただけます．詳しくはこちら(怪
しいURLですが，弊社のスタートアップ感の迸りです)

Oral Session 2A
O-2A-01 Scaling Egocentric Vision: The E-Kitchens Dataset Dima Damen*, University of Bristol; Hazel Doughty,
University of Bristol; Sanja Fidler, University of Toronto;
Antonino Furnari, University of Catania; Evangelos
Kazakos, University of Bristol; Giovanni Farinella,
University of Catania, Italy; Davide Moltisanti, University of
Bristol; Jonathan Munro, University of Bristol; Toby Perrett,
University of Bristol; Will Price, University of Bristol;
Michael Wray, University of Bristol
O-2A-02 Unsupervised Person Re-identification by Deep Learning
Tracklet Association
Minxian Li*, Nanjing University and Science and
Technology; Xiatian Zhu, Queen Mary University, London,
UK; Shaogang Gong, Queen Mary University of London
O-2A-03 Predicting Gaze in Egocentric Video by Learning Task-
dependent Attention Transition
Yifei Huang*, The University of Tokyo; Minjie Cai, Hunan
University, The University of Tokyo; Zhenqiang Li, The
University of Tokyo; Yoichi Sato,The University of Tokyo
O-2A-04 Instance-level Human Parsing via Part Grouping Network Ke Gong*, SYSU; Xiaodan Liang, Carnegie Mellon
University; Yicheng Li, Sun Yat-sen University; Yimin Chen,
sensetime; Liang Lin, Sun Yat-sen University
O-2A-05 Adversarial Geometry-Aware Human Motion Prediction Liangyan Gui*, Carnegie Mellon University; Yu-Xiong
Wang, Carnegie Mellon University; Xiaodan Liang,
Carnegie Mellon University; José M. F. Moura, Carnegie
Mellon University

Scaling Egocentric Vision: The E-Kitchens
Dataset, Dima Damen et al.
• Epic Kitchen Dataset!
• Potentially for studies of Human-Robot Interaction
• 日常のリアルな行動を一人称視点カメラで記録
• 3日間，キッチンから出るまでの記録．朝・昼・晩．
• 34kitchens は日常の調理行動記録としては最多の環境多様性．
• うちのKUSKデータセット(触れられていない)を始め，カメラ設置型データセットは
kitchen数=1ばかり．
• 家での自然な行動記録という意味でも他と違うかも．ボトルを倒しかけるなどの失敗
も記録の中にあり
• 物体矩形，行動カテゴリのアノテーション有り．自然言語による作業内容説明by
作業者本人，各国語もあり．
• CVPR2019にてコンペ．
• ゆるぼ:橋本と一緒にやる人．
Oral

Unsupervised Person Re-identification by Deep
Learning Tracklet Association, M. Li et al.
• カメラ内Tracking結果を使って，カメラ間Tracking=Person
Re-Identificationを教師なし学習．
• カメラ内Trackingから，確実に本人を追跡しているTrackletを
抽出したい
• 誤りが含まれないようなTrackletで学習⇢見えの多様性が獲得不可
• 見えの多様性を重視したTracklet分割⇢誤った正解データでの学習
• 上記の問題の解き方を聞き逃しました…orz
• Lossか何かを工夫?段階的に学習?
• 教師ありより大体20〜30ポイント程度精度が低いっぽい．
Oral

Predicting Gaze in Egocentric Video by Learning
Task-dependent Attention Transition, Y. Huan et al.
• 一人称カメラで，カメラのエゴモーションや物体検出結果など
から，視線を推定する．
• 個人的にはお気に入りの論文．現段階では専用のデータセットが必要
で，視線移動のモデル化などには個人差も大きいために個人適応が必
要かもしれないとはいえ，手軽．
• 視線の動きを予測する時系列モデルと，物体検出結果などを上手く組
み合わせることによって，視線の遷移をCNNでモデル化．
• 東大・佐藤研の研究．MIRUでもポスター発表あり．
Oral

Instance-level Human Parsing via Part
Grouping Network, Ke Gong et al.
• Body parts segmentationをInstance毎に行う．
• Instance-aware Edge Detectionの結果に手法が大きく依存してい
る？
• その境界を信頼してラベルの平滑化か特徴の統合かをしているっぽい．
• 水平方向・垂直方向に何かを積算していた
それが何か，ちょっとわからず．
• 会場から質問
• 肩を組んだ場合とかで腕だけ遮蔽で
途切れる(同一人物が複数領域に分かれ
る)場合，うまくいかないのでは？
• 著者，それは今後の課題．
• そもそもOpen Pose等に対する
優位性は？
Oral

Adversarial Geometry-Aware Human Motion
Prediction, L. Gui et al.
• Bone Modelで表現された人間の行動の未来予測．
• 従来手法は誤差に間接位置の正解とのEuclid距離を利用
⇢ なめらかな人の動きを評価するなら，関節角度を利用するのが自然?
そこでGeodesic距離（Bone modelの場合は，胴体から末端までの相対
的な角度の誤差の総計がそれにあたる？）を利用．
• 予測された未来の系列に対する敵対的誤差に加えて，過去との
連結性についても敵対的誤差で自然らしさを評価．
• 精度あがるよ！
• 丁寧に作り込んだ印象．むしろ，従来手法が適当だったとも言えるか
もしれない．
Oral

Goal-Oriented Visual Question Generation
via Intermediate Rewards
• 完全にメモ．文字細かすぎて読めず．とりあえず
Vision&Languageも勉強しなきゃ，という一心で撮影．
Poster

Realtime Time Synchronized Event-based
Stereo
• これも，通り際に撮影．時間同期イベントというキーワードが
気になったけど，Stereoと言われると自分の興味から外れてい
たかも．とりあえず，
メモとしてここに残す．
Poster

Image Manipulation with Perceptual
Discriminators
• DiscriminatorとしてImageNetで学習済みのモデルをそのまま
使っても，それなりに画像の変換ができるよ，という論文．
• それ以上の発展がなさそう
• ここのポスタースペースは
(三階の混雑している通路から
急遽半分移動してきたホール
だったので）余裕があり，
声をかけられたので話を聞いた
• 意外とよく出来ている．
Poster

Correcting Triplet selection Bias for Triplet
loss
• Triplet lossのhard negativeの選び方に関する論文っぽい．
• 3階通路で話を聞けず，押し流された．
Poster

Learning Visual Question Answering by
Bootstrapping Hard Attention
• VQA なので．記録として．ここは一階通路の狭いところかな．
例のごとく押し流されてます．
Poster

Oral Session 2B
O-2B-01 Weakly-supervised 3D Hand Pose Estimation from
Monocular RGB Images
Yujun Cai*, Nanyang Technological University; Liuhao
Ge, NTU; Jianfei Cai, Nanyang Technological
University; Junsong Yuan, State University of New
York at Buffalo, USA
O-2B-02 Audio-Visual Scene Analysis with Self-Supervised
Multisensory Features
Andrew Owens*, UC Berkeley; Alexei Efros, UC
Berkeley
O-2B-03 Jointly Discovering Visual Objects and Spoken Words
from Raw Sensory Input
David Harwath*, MIT CSAIL; Adria Recasens,
Massachusetts Institute of Technology; Dídac Surís,
Universitat Politecnica de Catalunya; Galen Chuang,
MIT; Antonio Torralba, MIT; James Glass, MIT
O-2B-04 DeepIM: Deep Iterative Matching for 6D Pose
Estimation
Yi Li*, Tsinghua University; Gu Wang, Tsinghua
University; Xiangyang Ji, Tsinghua University; Yu
Xiang, University of Michigan; Dieter Fox, University
of Washington
O-2B-05 Implicit 3D Orientation Learning for 6D Object
Detection from RGB Images
Martin Sundermeyer*, German Aerospace Center
(DLR); Zoltan Marton, DLR; Maximilian Durner, DLR;
Rudolph Triebel, German Aerospace Center (DLR)

Weakly-supervised 3D Hand Pose Estimation
from Monocular RGB Images, Yujun Cai et al.
• RGB画像からの手の三次元姿勢推定
• 従来: 合成データでの学習，どうしても実データだと精度が下がる．
• Depth: 計測誤差の壁を超えられない．
• 改善:
• 合成データはpre-trainingで使用．DepthはMulti-taskとして使用．
Oral

Audio-Visual Scene Analysis with Self-
Supervised Multisensory Features, A. Owen et al.
• 映像と音声のマッチングをときたい．
• 話者(音源)が複数いる場合に音源毎の音声を取り出すなど．
• Self-supervised Learning
• 関係ない動画の音声を取ってくるのは簡単過ぎる．欲しいのは動きの
同期性に起因した共通性の同定．
• 同一の動画の音声を少しずらしてNegative サンプルを作り，Real-
Fake学習をするとうまくいく．
Oral

Jointly Discovering Visual Objects and Spoken
Words from Raw Sensory Input, D. Harwath et al.
• 人間のWord Segmentの獲得⇢赤ちゃんはSpaceで区切られた
Asciiコードを扱っているわけではない．
• 絵本の読み聞かせからの学習
• そういうデータセットを利用
(名前をメモしてなかった）
• 画像コンテンツと，それの
説明文を読み上げた音声データ
• 時空間ボリュームで共起性に
基づくAttentionのようなものを
計算（右図）
Oral

DeepIM: Deep Iterative Matching for 6D
Pose Estimation, Yi Li et al.
• 物体の3次元姿勢推定
• なぜiterationが必要なのかなどがよくわからなかった．
• CADデータをどう回転させたら観測に合うかを出力するCNNモデルを構築．
• 前の結果に合わせてCADモデルを回転，再度，観測に合わせるための習性角
度をCNNで出力⇢反復実行
• 一発で出すわけでも無いが，同じモデルを使っているっぽい？
• 2 stageモデルなら，まだわかる．
• 会場質疑: local minimaに落ちているはずだが，初期値を変えたとき
の安定性は？⇢著者，10回くらいの初期値で大体おなじ？
(ちょっと聞き取れず．というか著者はちゃんと質問を理解してたか
不明）．
Oral

Implicit 3D Orientation Learning for 6D Object
Detection from RGB Images, M. Sundermeyer et al.
• Enc-Decでbottle-neckをノード数6にして，そこで6D Poseを
推定という力技な手法．
• 入出力はCADベースのCGデータ．
• 入力に様々なノイズを加えることでリアルな画像でも動くようにする
• 出力は同じscaleで姿勢が違うCADベースのCGデータ．
• 最後はICPで位置調整している？
• 事前に二次元の正方形の画像平面上の2D Rotationで予備実験
• 2次元まで圧縮．Cosとsinに相当するパラメタが得られた．
• 実験では3Dでチェック．デモで一つ，上手く行ってない物体が
あったのは残念．
Oral

Oral 2C
O-2C-
01
Direct Sparse Odometry With Rolling Shutter David Schubert*, Technical University of
Munich; Vladyslav Usenko, TU Munich;
Nikolaus Demmel, TUM; Joerg Stueckler,
Technical University of Munich; Daniel
Cremers, TUM
O-2C-
02
3D Motion Sensing from 4D Light Field
Gradients
Sizhuo Ma*, University of Wisconsin-Madison;
Brandon Smith, University of Wisconsin-
Madison; Mohit Gupta, University of
Wisconsin-Madison, USA
O-2C-
03
A Style-aware Content Loss for Real-time HD
Style Transfer
Artsiom Sanakoyeu*, Heidelberg University;
Dmytro Kotovenko, Heidelberg University; Bjorn
Ommer, Heidelberg University
O-2C-
04
Scale-Awareness of Light Field Camera based
Visual Odometry
Niclas Zeller*, Karlsruhe University of Applied
Sciences; Franz Quint, Karlsruhe University of
Applied Sciences; Uwe Stilla, Technische
Universitaet Muenchen
O-2C-
05
Burst Image Deblurring Using Permutation
Invariant Convolutional Neural Networks
Miika Aittala*, MIT; Fredo Durand, MIT

Direct Sparse Odometry With Rolling
Shutter David Schubert et al.
• スマホのカメラのようなRolling Shutter型のカメラでStructure
from Motion!
• 移動しながらだと画像が歪むので従来の自己位置推定(Global
Shutterを仮定)が使えない．
• ちょっと手法の詳細はマニアック過ぎてスキップ…．
• 結果，ゆっくり動いている分にはGlobal Shutterを仮定するよ
り精度向上．早く動く場合も向上はするが，blurなども激しく，
あまりうまくいかない場合がある．
Oral

3D Motion Sensing from 4D Light Field
Gradients Sizhuo Ma et al.
• Scene Flow(Optical Flowの3D版)をLight Field Cameraで撮ろ
う．
• 観測点からカメラに向かう光を並行移動として記述
• エピポーラ幾何っぽい形になる．
• 方程式がUnder Constraintになるので，単独のレンズだと解けない．
• 他のレンズからも拘束条件を得てSfMっぽい計算(?)
• 非常に微細な動きであれば，従来手法より高い精度で計測可能
• ただRGB信号ベースなのでTexture Richじゃないと無理．
Oral

A Style-aware Content Loss for Real-time
HD Style Transfer Artsiom Sanakoyeu et al.
• Style Transferの``Style’’を決める際のデータを単独の画像では
なく，同一のStyleであろうとされる複数の画像の集合により定
義．
• 同一Styleの画像グループへの所属に関して，adversarial
trainingをする．
• 芸術系の研究家の言葉を引用してStyleとは，を語った割に，カ
ンディンスキーとかピカソとかのStyleを真似ることができたと
言われても，ベースとなる実写画像が，そもそもカンディンス
キーやピカソが描こうとしたものとずれている違和感w
• モネとかゴッホとかはいいんですけどね…
Oral

Scale-Awareness of Light Field Camera
based Visual Odometry, Niclas Zeller et al.
• この発表，ちょっと内職してしまって聞けず…
Oral

Burst Image Deblurring Using Permutation
Invariant Convolutional Neural Networks M. Aittala et al.
• 手ブレを含むビデオのdeblurをCNNでやる．
• 従来手法はLSTMを使う．
• データが時間順に並んでいる必要があるのは直感に反する．
• 補正結果は入力画像系列の順序と無関係．
• LSTM使っちゃうと順序依存になっちゃう．
• 実は画像毎のEncoderのPooling部分を時系列画像集合で共有してしま
う（x,yにt軸も含めた3次元でpoolingする）と上手く行く．
• Max poolingで効果を確認．
• メモ: この手法適用しようとするとImage Registration不可避な
のだけど，それを同時に解いていないのは段階的に問題を解い
ているからなんだろうな．
Oral

Imagine This! Scripts to Compositions to
Videos
• 台本からビデオ生成．しかし，残念ながらアニメ特化だった．
• ☓動画をGANで生成
• ○類似シーン検索+継ぎ合わせる
Poster

Escaping from Collapsing Modes in a
Constrained Space
• 入力の多様性と出力の多様性の差をloss関数として追加．
• 肝心のLoss関数の
中身はポスターに無い
• まぁ，上手く行くだろう
と思う．
Poster

Retrospective Encoders for Video
Summarization
• ゆっくり通りすがったが，理解していない…
Poster

Real-time ‘Actor-Critic’ Tracking
• 追跡に強化学習手法の一つであるActor-Criticを利用．
• どっちに移動するかをActionとして定義．
Poster

SDC-Net: Video Prediction Using Spatially-
Displaced Convolution
• 先にOptical FlowをFlownetなどで計算しておいて，映像のい
ちズレに応じて入力をdisplaceするっぽい．
Poster

Proximal Dehaze-Net: A prior Learning-Based
Deep Network for Singla Image Dehazing
• DehazingをCNNの学習ベースで解いた手法．
Poster

Robust Anchor Embedding for Unsupervised
Video Person Re-Identification in the wild
• 気になったので通りすがりに撮影．まだ手法の詳細は見ていな
い．
Poster

お詫び
• 今回，ポスターセッションは十分に見れていません．申し訳ない…．
• いちおう，ほぼ全部のポスターの前は通っています
（一部通路はそもそも人が多すぎて入れない）
• ディスカッションしたり，というのも，かなり難しい状況です．
• 人が待機できるスペースがないので，聞きたいポスターがあっても，自分が通り過ぎ
るタイミングでそこを離れる人がいて，かつ，他の人がそのスペースを埋めない，と
いう条件が揃わないと大半のポスターが聞けません．
• 橋本は気が弱いので，他の人を押しのけてポスター前に陣取ったりできてい
ません…．
• あと，単純にCVPRほどポスターの数もないので個人的に物足りな
い感あり ⇢ CVPRのボリューム感が基準になったら末期かも．

Eccv2018 report day2

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Ähnlich wie Eccv2018 report day2

Ähnlich wie Eccv2018 report day2 (20)

Mehr von Atsushi Hashimoto

Mehr von Atsushi Hashimoto (9)

Eccv2018 report day2