SlideShare ist ein Scribd-Unternehmen logo
1 von 36
ECCV2018参加速報
(2日目)
橋本敦史
京大美濃研⇢OMRON SINIC X Corp. (OSX)
2018.4より研究職に転職しました
使用上の注意
• これは個人的なメモ資料です.いわば「チラシの裏」です.こ
の資料をみて,なんじゃこりゃ…と思われた方には大変申し訳
ありません.もっと素敵な資料はたくさんあると思いますので,
そっと閉じて,他をあたって頂ければ幸いです.
• この資料は「チラシの裏」ですが,下記はまんまチラシです.
• 弊社ではインターン生を年中募集しています.東京から遠隔にお住ま
いの方で も長期休みを利用してフレキシブルにインターンしていただ
けます.東京に お住まいの方でも,週に数回など,授業・研究の合間
に働きながらスキルを 身に着けていただけます. 詳しくはこちら(怪
しいURLですが,弊社のスタートアップ感の迸りです)
Oral Session 2A
O-2A-01 Scaling Egocentric Vision: The E-Kitchens Dataset Dima Damen*, University of Bristol; Hazel Doughty,
University of Bristol; Sanja Fidler, University of Toronto;
Antonino Furnari, University of Catania; Evangelos
Kazakos, University of Bristol; Giovanni Farinella,
University of Catania, Italy; Davide Moltisanti, University of
Bristol; Jonathan Munro, University of Bristol; Toby Perrett,
University of Bristol; Will Price, University of Bristol;
Michael Wray, University of Bristol
O-2A-02 Unsupervised Person Re-identification by Deep Learning
Tracklet Association
Minxian Li*, Nanjing University and Science and
Technology; Xiatian Zhu, Queen Mary University, London,
UK; Shaogang Gong, Queen Mary University of London
O-2A-03 Predicting Gaze in Egocentric Video by Learning Task-
dependent Attention Transition
Yifei Huang*, The University of Tokyo; Minjie Cai, Hunan
University, The University of Tokyo; Zhenqiang Li, The
University of Tokyo; Yoichi Sato,The University of Tokyo
O-2A-04 Instance-level Human Parsing via Part Grouping Network Ke Gong*, SYSU; Xiaodan Liang, Carnegie Mellon
University; Yicheng Li, Sun Yat-sen University; Yimin Chen,
sensetime; Liang Lin, Sun Yat-sen University
O-2A-05 Adversarial Geometry-Aware Human Motion Prediction Liangyan Gui*, Carnegie Mellon University; Yu-Xiong
Wang, Carnegie Mellon University; Xiaodan Liang,
Carnegie Mellon University; José M. F. Moura, Carnegie
Mellon University
Scaling Egocentric Vision: The E-Kitchens
Dataset, Dima Damen et al.
• Epic Kitchen Dataset!
• Potentially for studies of Human-Robot Interaction
• 日常のリアルな行動を一人称視点カメラで記録
• 3日間,キッチンから出るまでの記録.朝・昼・晩.
• 34kitchens は日常の調理行動記録としては最多の環境多様性.
• うちのKUSKデータセット(触れられていない)を始め,カメラ設置型データセットは
kitchen数=1ばかり.
• 家での自然な行動記録という意味でも他と違うかも.ボトルを倒しかけるなどの失敗
も記録の中にあり
• 物体矩形,行動カテゴリのアノテーション有り.自然言語による作業内容説明by
作業者本人,各国語もあり.
• CVPR2019にてコンペ.
• ゆるぼ:橋本と一緒にやる人.
Oral
Unsupervised Person Re-identification by Deep
Learning Tracklet Association, M. Li et al.
• カメラ内Tracking結果を使って,カメラ間Tracking=Person
Re-Identificationを教師なし学習.
• カメラ内Trackingから,確実に本人を追跡しているTrackletを
抽出したい
• 誤りが含まれないようなTrackletで学習⇢見えの多様性が獲得不可
• 見えの多様性を重視したTracklet分割⇢誤った正解データでの学習
• 上記の問題の解き方を聞き逃しました…orz
• Lossか何かを工夫?段階的に学習?
• 教師ありより大体20〜30ポイント程度精度が低いっぽい.
Oral
Predicting Gaze in Egocentric Video by Learning
Task-dependent Attention Transition, Y. Huan et al.
• 一人称カメラで,カメラのエゴモーションや物体検出結果など
から,視線を推定する.
• 個人的にはお気に入りの論文.現段階では専用のデータセットが必要
で,視線移動のモデル化などには個人差も大きいために個人適応が必
要かもしれないとはいえ,手軽.
• 視線の動きを予測する時系列モデルと,物体検出結果などを上手く組
み合わせることによって,視線の遷移をCNNでモデル化.
• 東大・佐藤研の研究.MIRUでもポスター発表あり.
Oral
Instance-level Human Parsing via Part
Grouping Network, Ke Gong et al.
• Body parts segmentationをInstance毎に行う.
• Instance-aware Edge Detectionの結果に手法が大きく依存してい
る?
• その境界を信頼してラベルの平滑化か特徴の統合かをしているっぽい.
• 水平方向・垂直方向に何かを積算していた
それが何か,ちょっとわからず.
• 会場から質問
• 肩を組んだ場合とかで腕だけ遮蔽で
途切れる(同一人物が複数領域に分かれ
る)場合,うまくいかないのでは?
• 著者,それは今後の課題.
• そもそもOpen Pose等に対する
優位性は?
Oral
Adversarial Geometry-Aware Human Motion
Prediction, L. Gui et al.
• Bone Modelで表現された人間の行動の未来予測.
• 従来手法は誤差に間接位置の正解とのEuclid距離を利用
⇢ なめらかな人の動きを評価するなら,関節角度を利用するのが自然?
そこでGeodesic距離(Bone modelの場合は,胴体から末端までの相対
的な角度の誤差の総計がそれにあたる?)を利用.
• 予測された未来の系列に対する敵対的誤差に加えて,過去との
連結性についても敵対的誤差で自然らしさを評価.
• 精度あがるよ!
• 丁寧に作り込んだ印象.むしろ,従来手法が適当だったとも言えるか
もしれない.
Oral
Poster Session
Goal-Oriented Visual Question Generation
via Intermediate Rewards
• 完全にメモ.文字細かすぎて読めず.とりあえず
Vision&Languageも勉強しなきゃ,という一心で撮影.
Poster
Realtime Time Synchronized Event-based
Stereo
• これも,通り際に撮影.時間同期イベントというキーワードが
気になったけど,Stereoと言われると自分の興味から外れてい
たかも.とりあえず,
メモとしてここに残す.
Poster
Image Manipulation with Perceptual
Discriminators
• DiscriminatorとしてImageNetで学習済みのモデルをそのまま
使っても,それなりに画像の変換ができるよ,という論文.
• それ以上の発展がなさそう
• ここのポスタースペースは
(三階の混雑している通路から
急遽半分移動してきたホール
だったので)余裕があり,
声をかけられたので話を聞いた
• 意外とよく出来ている.
Poster
Correcting Triplet selection Bias for Triplet
loss
• Triplet lossのhard negativeの選び方に関する論文っぽい.
• 3階通路で話を聞けず,押し流された.
Poster
Learning Visual Question Answering by
Bootstrapping Hard Attention
• VQA なので.記録として.ここは一階通路の狭いところかな.
例のごとく押し流されてます.
Poster
Oral Session 2B
O-2B-01 Weakly-supervised 3D Hand Pose Estimation from
Monocular RGB Images
Yujun Cai*, Nanyang Technological University; Liuhao
Ge, NTU; Jianfei Cai, Nanyang Technological
University; Junsong Yuan, State University of New
York at Buffalo, USA
O-2B-02 Audio-Visual Scene Analysis with Self-Supervised
Multisensory Features
Andrew Owens*, UC Berkeley; Alexei Efros, UC
Berkeley
O-2B-03 Jointly Discovering Visual Objects and Spoken Words
from Raw Sensory Input
David Harwath*, MIT CSAIL; Adria Recasens,
Massachusetts Institute of Technology; Dídac Surís,
Universitat Politecnica de Catalunya; Galen Chuang,
MIT; Antonio Torralba, MIT; James Glass, MIT
O-2B-04 DeepIM: Deep Iterative Matching for 6D Pose
Estimation
Yi Li*, Tsinghua University; Gu Wang, Tsinghua
University; Xiangyang Ji, Tsinghua University; Yu
Xiang, University of Michigan; Dieter Fox, University
of Washington
O-2B-05 Implicit 3D Orientation Learning for 6D Object
Detection from RGB Images
Martin Sundermeyer*, German Aerospace Center
(DLR); Zoltan Marton, DLR; Maximilian Durner, DLR;
Rudolph Triebel, German Aerospace Center (DLR)
Weakly-supervised 3D Hand Pose Estimation
from Monocular RGB Images, Yujun Cai et al.
• RGB画像からの手の三次元姿勢推定
• 従来: 合成データでの学習,どうしても実データだと精度が下がる.
• Depth: 計測誤差の壁を超えられない.
• 改善:
• 合成データはpre-trainingで使用.DepthはMulti-taskとして使用.
Oral
Audio-Visual Scene Analysis with Self-
Supervised Multisensory Features, A. Owen et al.
• 映像と音声のマッチングをときたい.
• 話者(音源)が複数いる場合に音源毎の音声を取り出すなど.
• Self-supervised Learning
• 関係ない動画の音声を取ってくるのは簡単過ぎる.欲しいのは動きの
同期性に起因した共通性の同定.
• 同一の動画の音声を少しずらしてNegative サンプルを作り,Real-
Fake学習をするとうまくいく.
Oral
Jointly Discovering Visual Objects and Spoken
Words from Raw Sensory Input, D. Harwath et al.
• 人間のWord Segmentの獲得⇢赤ちゃんはSpaceで区切られた
Asciiコードを扱っているわけではない.
• 絵本の読み聞かせからの学習
• そういうデータセットを利用
(名前をメモしてなかった)
• 画像コンテンツと,それの
説明文を読み上げた音声データ
• 時空間ボリュームで共起性に
基づくAttentionのようなものを
計算(右図)
Oral
著者サーベイ
DeepIM: Deep Iterative Matching for 6D
Pose Estimation, Yi Li et al.
• 物体の3次元姿勢推定
• なぜiterationが必要なのかなどがよくわからなかった.
• CADデータをどう回転させたら観測に合うかを出力するCNNモデルを構築.
• 前の結果に合わせてCADモデルを回転,再度,観測に合わせるための習性角
度をCNNで出力⇢反復実行
• 一発で出すわけでも無いが,同じモデルを使っているっぽい?
• 2 stageモデルなら,まだわかる.
• 会場質疑: local minimaに落ちているはずだが,初期値を変えたとき
の安定性は?⇢著者,10回くらいの初期値で大体おなじ?
(ちょっと聞き取れず.というか著者はちゃんと質問を理解してたか
不明).
Oral
Implicit 3D Orientation Learning for 6D Object
Detection from RGB Images, M. Sundermeyer et al.
• Enc-Decでbottle-neckをノード数6にして,そこで6D Poseを
推定という力技な手法.
• 入出力はCADベースのCGデータ.
• 入力に様々なノイズを加えることでリアルな画像でも動くようにする
• 出力は同じscaleで姿勢が違うCADベースのCGデータ.
• 最後はICPで位置調整している?
• 事前に二次元の正方形の画像平面上の2D Rotationで予備実験
• 2次元まで圧縮.Cosとsinに相当するパラメタが得られた.
• 実験では3Dでチェック.デモで一つ,上手く行ってない物体が
あったのは残念.
Oral
Oral 2C
O-2C-
01
Direct Sparse Odometry With Rolling Shutter David Schubert*, Technical University of
Munich; Vladyslav Usenko, TU Munich;
Nikolaus Demmel, TUM; Joerg Stueckler,
Technical University of Munich; Daniel
Cremers, TUM
O-2C-
02
3D Motion Sensing from 4D Light Field
Gradients
Sizhuo Ma*, University of Wisconsin-Madison;
Brandon Smith, University of Wisconsin-
Madison; Mohit Gupta, University of
Wisconsin-Madison, USA
O-2C-
03
A Style-aware Content Loss for Real-time HD
Style Transfer
Artsiom Sanakoyeu*, Heidelberg University;
Dmytro Kotovenko, Heidelberg University; Bjorn
Ommer, Heidelberg University
O-2C-
04
Scale-Awareness of Light Field Camera based
Visual Odometry
Niclas Zeller*, Karlsruhe University of Applied
Sciences; Franz Quint, Karlsruhe University of
Applied Sciences; Uwe Stilla, Technische
Universitaet Muenchen
O-2C-
05
Burst Image Deblurring Using Permutation
Invariant Convolutional Neural Networks
Miika Aittala*, MIT; Fredo Durand, MIT
Direct Sparse Odometry With Rolling
Shutter David Schubert et al.
• スマホのカメラのようなRolling Shutter型のカメラでStructure
from Motion!
• 移動しながらだと画像が歪むので従来の自己位置推定(Global
Shutterを仮定)が使えない.
• ちょっと手法の詳細はマニアック過ぎてスキップ….
• 結果,ゆっくり動いている分にはGlobal Shutterを仮定するよ
り精度向上.早く動く場合も向上はするが,blurなども激しく,
あまりうまくいかない場合がある.
Oral
3D Motion Sensing from 4D Light Field
Gradients Sizhuo Ma et al.
• Scene Flow(Optical Flowの3D版)をLight Field Cameraで撮ろ
う.
• 観測点からカメラに向かう光を並行移動として記述
• エピポーラ幾何っぽい形になる.
• 方程式がUnder Constraintになるので,単独のレンズだと解けない.
• 他のレンズからも拘束条件を得てSfMっぽい計算(?)
• 非常に微細な動きであれば,従来手法より高い精度で計測可能
• ただRGB信号ベースなのでTexture Richじゃないと無理.
Oral
A Style-aware Content Loss for Real-time
HD Style Transfer Artsiom Sanakoyeu et al.
• Style Transferの``Style’’を決める際のデータを単独の画像では
なく,同一のStyleであろうとされる複数の画像の集合により定
義.
• 同一Styleの画像グループへの所属に関して,adversarial
trainingをする.
• 芸術系の研究家の言葉を引用してStyleとは,を語った割に,カ
ンディンスキーとかピカソとかのStyleを真似ることができたと
言われても,ベースとなる実写画像が,そもそもカンディンス
キーやピカソが描こうとしたものとずれている違和感w
• モネとかゴッホとかはいいんですけどね…
Oral
Scale-Awareness of Light Field Camera
based Visual Odometry, Niclas Zeller et al.
• この発表,ちょっと内職してしまって聞けず…
Oral
Burst Image Deblurring Using Permutation
Invariant Convolutional Neural Networks M. Aittala et al.
• 手ブレを含むビデオのdeblurをCNNでやる.
• 従来手法はLSTMを使う.
• データが時間順に並んでいる必要があるのは直感に反する.
• 補正結果は入力画像系列の順序と無関係.
• LSTM使っちゃうと順序依存になっちゃう.
• 実は画像毎のEncoderのPooling部分を時系列画像集合で共有してしま
う(x,yにt軸も含めた3次元でpoolingする)と上手く行く.
• Max poolingで効果を確認.
• メモ: この手法適用しようとするとImage Registration不可避な
のだけど,それを同時に解いていないのは段階的に問題を解い
ているからなんだろうな.
Oral
Poster Session
Imagine This! Scripts to Compositions to
Videos
• 台本からビデオ生成.しかし,残念ながらアニメ特化だった.
• ☓動画をGANで生成
• ○類似シーン検索+継ぎ合わせる
Poster
Escaping from Collapsing Modes in a
Constrained Space
• 入力の多様性と出力の多様性の差をloss関数として追加.
• 肝心のLoss関数の
中身はポスターに無い
• まぁ,上手く行くだろう
と思う.
Poster
Retrospective Encoders for Video
Summarization
• ゆっくり通りすがったが,理解していない…
Poster
Real-time ‘Actor-Critic’ Tracking
• 追跡に強化学習手法の一つであるActor-Criticを利用.
• どっちに移動するかをActionとして定義.
Poster
SDC-Net: Video Prediction Using Spatially-
Displaced Convolution
• 先にOptical FlowをFlownetなどで計算しておいて,映像のい
ちズレに応じて入力をdisplaceするっぽい.
Poster
Proximal Dehaze-Net: A prior Learning-Based
Deep Network for Singla Image Dehazing
• DehazingをCNNの学習ベースで解いた手法.
Poster
Robust Anchor Embedding for Unsupervised
Video Person Re-Identification in the wild
• 気になったので通りすがりに撮影.まだ手法の詳細は見ていな
い.
Poster
お詫び
• 今回,ポスターセッションは十分に見れていません.申し訳ない….
• いちおう,ほぼ全部のポスターの前は通っています
(一部通路はそもそも人が多すぎて入れない)
• ディスカッションしたり,というのも,かなり難しい状況です.
• 人が待機できるスペースがないので,聞きたいポスターがあっても,自分が通り過ぎ
るタイミングでそこを離れる人がいて,かつ,他の人がそのスペースを埋めない,と
いう条件が揃わないと大半のポスターが聞けません.
• 橋本は気が弱いので,他の人を押しのけてポスター前に陣取ったりできてい
ません….
• あと,単純にCVPRほどポスターの数もないので個人的に物足りな
い感あり ⇢ CVPRのボリューム感が基準になったら末期かも.

Weitere ähnliche Inhalte

Ähnlich wie Eccv2018 report day2

Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
Learning Spatial Common Sense with Geometry-Aware Recurrent NetworksLearning Spatial Common Sense with Geometry-Aware Recurrent Networks
Learning Spatial Common Sense with Geometry-Aware Recurrent NetworksKento Doi
 
Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...
Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...
Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...Yoshitaka Ushiku
 
モジュールの凝集度・結合度・インタフェース
モジュールの凝集度・結合度・インタフェースモジュールの凝集度・結合度・インタフェース
モジュールの凝集度・結合度・インタフェースHajime Yanagawa
 
20110719 Japan CV Day LT
20110719 Japan CV Day LT20110719 Japan CV Day LT
20110719 Japan CV Day LTYutaka Yamada
 
[DL輪読会]Shaping Belief States with Generative Environment Models for RL
[DL輪読会]Shaping Belief States with Generative Environment Models for RL[DL輪読会]Shaping Belief States with Generative Environment Models for RL
[DL輪読会]Shaping Belief States with Generative Environment Models for RLDeep Learning JP
 
NLP若手の回 ACL2012参加報告
NLP若手の回 ACL2012参加報告NLP若手の回 ACL2012参加報告
NLP若手の回 ACL2012参加報告Hiroyuki TOKUNAGA
 
CVPR2017 参加報告 速報版 本会議3日目
CVPR2017 参加報告 速報版 本会議3日目CVPR2017 参加報告 速報版 本会議3日目
CVPR2017 参加報告 速報版 本会議3日目Atsushi Hashimoto
 
iOS_Consortium_20170120
iOS_Consortium_20170120iOS_Consortium_20170120
iOS_Consortium_20170120陽平 山口
 
Redmineをつかったスクラム開発のはじめの一歩
Redmineをつかったスクラム開発のはじめの一歩Redmineをつかったスクラム開発のはじめの一歩
Redmineをつかったスクラム開発のはじめの一歩kiita312
 
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...cvpaper. challenge
 
USP友の会勉強会、状態遷移図の巻
USP友の会勉強会、状態遷移図の巻USP友の会勉強会、状態遷移図の巻
USP友の会勉強会、状態遷移図の巻Ryuichi Ueda
 
レンズのはなし
レンズのはなしレンズのはなし
レンズのはなしEmmy Noether
 
エンジニアがとるべき8つの行動
エンジニアがとるべき8つの行動エンジニアがとるべき8つの行動
エンジニアがとるべき8つの行動Hiroshi Ogino
 
CVPR2016 reading - 特徴量学習とクロスモーダル転移について
CVPR2016 reading - 特徴量学習とクロスモーダル転移についてCVPR2016 reading - 特徴量学習とクロスモーダル転移について
CVPR2016 reading - 特徴量学習とクロスモーダル転移についてAkisato Kimura
 
アルバム作成支援のための集合写真における閉眼状態の開眼手法に関する研究
アルバム作成支援のための集合写真における閉眼状態の開眼手法に関する研究アルバム作成支援のための集合写真における閉眼状態の開眼手法に関する研究
アルバム作成支援のための集合写真における閉眼状態の開眼手法に関する研究LabMediaInteraction
 
JAWS DAYS 2017 lunch session
JAWS DAYS 2017 lunch sessionJAWS DAYS 2017 lunch session
JAWS DAYS 2017 lunch session陽平 山口
 
深層生成モデルと世界モデル, 深層生成モデルライブラリPixyzについて
深層生成モデルと世界モデル,深層生成モデルライブラリPixyzについて深層生成モデルと世界モデル,深層生成モデルライブラリPixyzについて
深層生成モデルと世界モデル, 深層生成モデルライブラリPixyzについてMasahiro Suzuki
 
[旧版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
[旧版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」 [旧版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
[旧版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」 Yuki Arase
 
第3回nips読み会・関西『variational inference foundations and modern methods』
第3回nips読み会・関西『variational inference  foundations and modern methods』第3回nips読み会・関西『variational inference  foundations and modern methods』
第3回nips読み会・関西『variational inference foundations and modern methods』koji ochiai
 

Ähnlich wie Eccv2018 report day2 (20)

Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
Learning Spatial Common Sense with Geometry-Aware Recurrent NetworksLearning Spatial Common Sense with Geometry-Aware Recurrent Networks
Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
 
Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...
Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...
Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...
 
モジュールの凝集度・結合度・インタフェース
モジュールの凝集度・結合度・インタフェースモジュールの凝集度・結合度・インタフェース
モジュールの凝集度・結合度・インタフェース
 
20110719 Japan CV Day LT
20110719 Japan CV Day LT20110719 Japan CV Day LT
20110719 Japan CV Day LT
 
[DL輪読会]Shaping Belief States with Generative Environment Models for RL
[DL輪読会]Shaping Belief States with Generative Environment Models for RL[DL輪読会]Shaping Belief States with Generative Environment Models for RL
[DL輪読会]Shaping Belief States with Generative Environment Models for RL
 
NLP若手の回 ACL2012参加報告
NLP若手の回 ACL2012参加報告NLP若手の回 ACL2012参加報告
NLP若手の回 ACL2012参加報告
 
CVPR2017 参加報告 速報版 本会議3日目
CVPR2017 参加報告 速報版 本会議3日目CVPR2017 参加報告 速報版 本会議3日目
CVPR2017 参加報告 速報版 本会議3日目
 
iOS_Consortium_20170120
iOS_Consortium_20170120iOS_Consortium_20170120
iOS_Consortium_20170120
 
Redmineをつかったスクラム開発のはじめの一歩
Redmineをつかったスクラム開発のはじめの一歩Redmineをつかったスクラム開発のはじめの一歩
Redmineをつかったスクラム開発のはじめの一歩
 
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
 
USP友の会勉強会、状態遷移図の巻
USP友の会勉強会、状態遷移図の巻USP友の会勉強会、状態遷移図の巻
USP友の会勉強会、状態遷移図の巻
 
レンズのはなし
レンズのはなしレンズのはなし
レンズのはなし
 
エンジニアがとるべき8つの行動
エンジニアがとるべき8つの行動エンジニアがとるべき8つの行動
エンジニアがとるべき8つの行動
 
CVPR2016 reading - 特徴量学習とクロスモーダル転移について
CVPR2016 reading - 特徴量学習とクロスモーダル転移についてCVPR2016 reading - 特徴量学習とクロスモーダル転移について
CVPR2016 reading - 特徴量学習とクロスモーダル転移について
 
アルバム作成支援のための集合写真における閉眼状態の開眼手法に関する研究
アルバム作成支援のための集合写真における閉眼状態の開眼手法に関する研究アルバム作成支援のための集合写真における閉眼状態の開眼手法に関する研究
アルバム作成支援のための集合写真における閉眼状態の開眼手法に関する研究
 
Eccv2018 report day4
Eccv2018 report day4Eccv2018 report day4
Eccv2018 report day4
 
JAWS DAYS 2017 lunch session
JAWS DAYS 2017 lunch sessionJAWS DAYS 2017 lunch session
JAWS DAYS 2017 lunch session
 
深層生成モデルと世界モデル, 深層生成モデルライブラリPixyzについて
深層生成モデルと世界モデル,深層生成モデルライブラリPixyzについて深層生成モデルと世界モデル,深層生成モデルライブラリPixyzについて
深層生成モデルと世界モデル, 深層生成モデルライブラリPixyzについて
 
[旧版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
[旧版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」 [旧版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
[旧版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
 
第3回nips読み会・関西『variational inference foundations and modern methods』
第3回nips読み会・関西『variational inference  foundations and modern methods』第3回nips読み会・関西『variational inference  foundations and modern methods』
第3回nips読み会・関西『variational inference foundations and modern methods』
 

Mehr von Atsushi Hashimoto

人の行動をモデル化して予測する -調理作業支援を題材とした行動予測と情報提示-
人の行動をモデル化して予測する -調理作業支援を題材とした行動予測と情報提示- 人の行動をモデル化して予測する -調理作業支援を題材とした行動予測と情報提示-
人の行動をモデル化して予測する -調理作業支援を題材とした行動予測と情報提示- Atsushi Hashimoto
 
ECCV2018参加速報(一日目)
ECCV2018参加速報(一日目)ECCV2018参加速報(一日目)
ECCV2018参加速報(一日目)Atsushi Hashimoto
 
関西Cvprml勉強会2017.9資料
関西Cvprml勉強会2017.9資料関西Cvprml勉強会2017.9資料
関西Cvprml勉強会2017.9資料Atsushi Hashimoto
 
CVPR2017 参加報告 速報版 本会議 1日目
CVPR2017 参加報告 速報版 本会議 1日目CVPR2017 参加報告 速報版 本会議 1日目
CVPR2017 参加報告 速報版 本会議 1日目Atsushi Hashimoto
 
PRMU GC第二期 無形概念認識
PRMU GC第二期 無形概念認識PRMU GC第二期 無形概念認識
PRMU GC第二期 無形概念認識Atsushi Hashimoto
 
Kusk Object Dataset: Recording Access to Objects in Food Preparation
Kusk Object Dataset: Recording Access to Objects in Food PreparationKusk Object Dataset: Recording Access to Objects in Food Preparation
Kusk Object Dataset: Recording Access to Objects in Food PreparationAtsushi Hashimoto
 
人工知能研究振興財団研究助成に対する成果報告
人工知能研究振興財団研究助成に対する成果報告人工知能研究振興財団研究助成に対する成果報告
人工知能研究振興財団研究助成に対する成果報告Atsushi Hashimoto
 
春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本
春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本
春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本Atsushi Hashimoto
 

Mehr von Atsushi Hashimoto (9)

Ocha 20191204
Ocha 20191204Ocha 20191204
Ocha 20191204
 
人の行動をモデル化して予測する -調理作業支援を題材とした行動予測と情報提示-
人の行動をモデル化して予測する -調理作業支援を題材とした行動予測と情報提示- 人の行動をモデル化して予測する -調理作業支援を題材とした行動予測と情報提示-
人の行動をモデル化して予測する -調理作業支援を題材とした行動予測と情報提示-
 
ECCV2018参加速報(一日目)
ECCV2018参加速報(一日目)ECCV2018参加速報(一日目)
ECCV2018参加速報(一日目)
 
関西Cvprml勉強会2017.9資料
関西Cvprml勉強会2017.9資料関西Cvprml勉強会2017.9資料
関西Cvprml勉強会2017.9資料
 
CVPR2017 参加報告 速報版 本会議 1日目
CVPR2017 参加報告 速報版 本会議 1日目CVPR2017 参加報告 速報版 本会議 1日目
CVPR2017 参加報告 速報版 本会議 1日目
 
PRMU GC第二期 無形概念認識
PRMU GC第二期 無形概念認識PRMU GC第二期 無形概念認識
PRMU GC第二期 無形概念認識
 
Kusk Object Dataset: Recording Access to Objects in Food Preparation
Kusk Object Dataset: Recording Access to Objects in Food PreparationKusk Object Dataset: Recording Access to Objects in Food Preparation
Kusk Object Dataset: Recording Access to Objects in Food Preparation
 
人工知能研究振興財団研究助成に対する成果報告
人工知能研究振興財団研究助成に対する成果報告人工知能研究振興財団研究助成に対する成果報告
人工知能研究振興財団研究助成に対する成果報告
 
春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本
春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本
春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本
 

Eccv2018 report day2

  • 1. ECCV2018参加速報 (2日目) 橋本敦史 京大美濃研⇢OMRON SINIC X Corp. (OSX) 2018.4より研究職に転職しました
  • 2. 使用上の注意 • これは個人的なメモ資料です.いわば「チラシの裏」です.こ の資料をみて,なんじゃこりゃ…と思われた方には大変申し訳 ありません.もっと素敵な資料はたくさんあると思いますので, そっと閉じて,他をあたって頂ければ幸いです. • この資料は「チラシの裏」ですが,下記はまんまチラシです. • 弊社ではインターン生を年中募集しています.東京から遠隔にお住ま いの方で も長期休みを利用してフレキシブルにインターンしていただ けます.東京に お住まいの方でも,週に数回など,授業・研究の合間 に働きながらスキルを 身に着けていただけます. 詳しくはこちら(怪 しいURLですが,弊社のスタートアップ感の迸りです)
  • 3. Oral Session 2A O-2A-01 Scaling Egocentric Vision: The E-Kitchens Dataset Dima Damen*, University of Bristol; Hazel Doughty, University of Bristol; Sanja Fidler, University of Toronto; Antonino Furnari, University of Catania; Evangelos Kazakos, University of Bristol; Giovanni Farinella, University of Catania, Italy; Davide Moltisanti, University of Bristol; Jonathan Munro, University of Bristol; Toby Perrett, University of Bristol; Will Price, University of Bristol; Michael Wray, University of Bristol O-2A-02 Unsupervised Person Re-identification by Deep Learning Tracklet Association Minxian Li*, Nanjing University and Science and Technology; Xiatian Zhu, Queen Mary University, London, UK; Shaogang Gong, Queen Mary University of London O-2A-03 Predicting Gaze in Egocentric Video by Learning Task- dependent Attention Transition Yifei Huang*, The University of Tokyo; Minjie Cai, Hunan University, The University of Tokyo; Zhenqiang Li, The University of Tokyo; Yoichi Sato,The University of Tokyo O-2A-04 Instance-level Human Parsing via Part Grouping Network Ke Gong*, SYSU; Xiaodan Liang, Carnegie Mellon University; Yicheng Li, Sun Yat-sen University; Yimin Chen, sensetime; Liang Lin, Sun Yat-sen University O-2A-05 Adversarial Geometry-Aware Human Motion Prediction Liangyan Gui*, Carnegie Mellon University; Yu-Xiong Wang, Carnegie Mellon University; Xiaodan Liang, Carnegie Mellon University; José M. F. Moura, Carnegie Mellon University
  • 4. Scaling Egocentric Vision: The E-Kitchens Dataset, Dima Damen et al. • Epic Kitchen Dataset! • Potentially for studies of Human-Robot Interaction • 日常のリアルな行動を一人称視点カメラで記録 • 3日間,キッチンから出るまでの記録.朝・昼・晩. • 34kitchens は日常の調理行動記録としては最多の環境多様性. • うちのKUSKデータセット(触れられていない)を始め,カメラ設置型データセットは kitchen数=1ばかり. • 家での自然な行動記録という意味でも他と違うかも.ボトルを倒しかけるなどの失敗 も記録の中にあり • 物体矩形,行動カテゴリのアノテーション有り.自然言語による作業内容説明by 作業者本人,各国語もあり. • CVPR2019にてコンペ. • ゆるぼ:橋本と一緒にやる人. Oral
  • 5. Unsupervised Person Re-identification by Deep Learning Tracklet Association, M. Li et al. • カメラ内Tracking結果を使って,カメラ間Tracking=Person Re-Identificationを教師なし学習. • カメラ内Trackingから,確実に本人を追跡しているTrackletを 抽出したい • 誤りが含まれないようなTrackletで学習⇢見えの多様性が獲得不可 • 見えの多様性を重視したTracklet分割⇢誤った正解データでの学習 • 上記の問題の解き方を聞き逃しました…orz • Lossか何かを工夫?段階的に学習? • 教師ありより大体20〜30ポイント程度精度が低いっぽい. Oral
  • 6. Predicting Gaze in Egocentric Video by Learning Task-dependent Attention Transition, Y. Huan et al. • 一人称カメラで,カメラのエゴモーションや物体検出結果など から,視線を推定する. • 個人的にはお気に入りの論文.現段階では専用のデータセットが必要 で,視線移動のモデル化などには個人差も大きいために個人適応が必 要かもしれないとはいえ,手軽. • 視線の動きを予測する時系列モデルと,物体検出結果などを上手く組 み合わせることによって,視線の遷移をCNNでモデル化. • 東大・佐藤研の研究.MIRUでもポスター発表あり. Oral
  • 7. Instance-level Human Parsing via Part Grouping Network, Ke Gong et al. • Body parts segmentationをInstance毎に行う. • Instance-aware Edge Detectionの結果に手法が大きく依存してい る? • その境界を信頼してラベルの平滑化か特徴の統合かをしているっぽい. • 水平方向・垂直方向に何かを積算していた それが何か,ちょっとわからず. • 会場から質問 • 肩を組んだ場合とかで腕だけ遮蔽で 途切れる(同一人物が複数領域に分かれ る)場合,うまくいかないのでは? • 著者,それは今後の課題. • そもそもOpen Pose等に対する 優位性は? Oral
  • 8. Adversarial Geometry-Aware Human Motion Prediction, L. Gui et al. • Bone Modelで表現された人間の行動の未来予測. • 従来手法は誤差に間接位置の正解とのEuclid距離を利用 ⇢ なめらかな人の動きを評価するなら,関節角度を利用するのが自然? そこでGeodesic距離(Bone modelの場合は,胴体から末端までの相対 的な角度の誤差の総計がそれにあたる?)を利用. • 予測された未来の系列に対する敵対的誤差に加えて,過去との 連結性についても敵対的誤差で自然らしさを評価. • 精度あがるよ! • 丁寧に作り込んだ印象.むしろ,従来手法が適当だったとも言えるか もしれない. Oral
  • 10. Goal-Oriented Visual Question Generation via Intermediate Rewards • 完全にメモ.文字細かすぎて読めず.とりあえず Vision&Languageも勉強しなきゃ,という一心で撮影. Poster
  • 11. Realtime Time Synchronized Event-based Stereo • これも,通り際に撮影.時間同期イベントというキーワードが 気になったけど,Stereoと言われると自分の興味から外れてい たかも.とりあえず, メモとしてここに残す. Poster
  • 12. Image Manipulation with Perceptual Discriminators • DiscriminatorとしてImageNetで学習済みのモデルをそのまま 使っても,それなりに画像の変換ができるよ,という論文. • それ以上の発展がなさそう • ここのポスタースペースは (三階の混雑している通路から 急遽半分移動してきたホール だったので)余裕があり, 声をかけられたので話を聞いた • 意外とよく出来ている. Poster
  • 13. Correcting Triplet selection Bias for Triplet loss • Triplet lossのhard negativeの選び方に関する論文っぽい. • 3階通路で話を聞けず,押し流された. Poster
  • 14. Learning Visual Question Answering by Bootstrapping Hard Attention • VQA なので.記録として.ここは一階通路の狭いところかな. 例のごとく押し流されてます. Poster
  • 15. Oral Session 2B O-2B-01 Weakly-supervised 3D Hand Pose Estimation from Monocular RGB Images Yujun Cai*, Nanyang Technological University; Liuhao Ge, NTU; Jianfei Cai, Nanyang Technological University; Junsong Yuan, State University of New York at Buffalo, USA O-2B-02 Audio-Visual Scene Analysis with Self-Supervised Multisensory Features Andrew Owens*, UC Berkeley; Alexei Efros, UC Berkeley O-2B-03 Jointly Discovering Visual Objects and Spoken Words from Raw Sensory Input David Harwath*, MIT CSAIL; Adria Recasens, Massachusetts Institute of Technology; Dídac Surís, Universitat Politecnica de Catalunya; Galen Chuang, MIT; Antonio Torralba, MIT; James Glass, MIT O-2B-04 DeepIM: Deep Iterative Matching for 6D Pose Estimation Yi Li*, Tsinghua University; Gu Wang, Tsinghua University; Xiangyang Ji, Tsinghua University; Yu Xiang, University of Michigan; Dieter Fox, University of Washington O-2B-05 Implicit 3D Orientation Learning for 6D Object Detection from RGB Images Martin Sundermeyer*, German Aerospace Center (DLR); Zoltan Marton, DLR; Maximilian Durner, DLR; Rudolph Triebel, German Aerospace Center (DLR)
  • 16. Weakly-supervised 3D Hand Pose Estimation from Monocular RGB Images, Yujun Cai et al. • RGB画像からの手の三次元姿勢推定 • 従来: 合成データでの学習,どうしても実データだと精度が下がる. • Depth: 計測誤差の壁を超えられない. • 改善: • 合成データはpre-trainingで使用.DepthはMulti-taskとして使用. Oral
  • 17. Audio-Visual Scene Analysis with Self- Supervised Multisensory Features, A. Owen et al. • 映像と音声のマッチングをときたい. • 話者(音源)が複数いる場合に音源毎の音声を取り出すなど. • Self-supervised Learning • 関係ない動画の音声を取ってくるのは簡単過ぎる.欲しいのは動きの 同期性に起因した共通性の同定. • 同一の動画の音声を少しずらしてNegative サンプルを作り,Real- Fake学習をするとうまくいく. Oral
  • 18. Jointly Discovering Visual Objects and Spoken Words from Raw Sensory Input, D. Harwath et al. • 人間のWord Segmentの獲得⇢赤ちゃんはSpaceで区切られた Asciiコードを扱っているわけではない. • 絵本の読み聞かせからの学習 • そういうデータセットを利用 (名前をメモしてなかった) • 画像コンテンツと,それの 説明文を読み上げた音声データ • 時空間ボリュームで共起性に 基づくAttentionのようなものを 計算(右図) Oral
  • 20. DeepIM: Deep Iterative Matching for 6D Pose Estimation, Yi Li et al. • 物体の3次元姿勢推定 • なぜiterationが必要なのかなどがよくわからなかった. • CADデータをどう回転させたら観測に合うかを出力するCNNモデルを構築. • 前の結果に合わせてCADモデルを回転,再度,観測に合わせるための習性角 度をCNNで出力⇢反復実行 • 一発で出すわけでも無いが,同じモデルを使っているっぽい? • 2 stageモデルなら,まだわかる. • 会場質疑: local minimaに落ちているはずだが,初期値を変えたとき の安定性は?⇢著者,10回くらいの初期値で大体おなじ? (ちょっと聞き取れず.というか著者はちゃんと質問を理解してたか 不明). Oral
  • 21. Implicit 3D Orientation Learning for 6D Object Detection from RGB Images, M. Sundermeyer et al. • Enc-Decでbottle-neckをノード数6にして,そこで6D Poseを 推定という力技な手法. • 入出力はCADベースのCGデータ. • 入力に様々なノイズを加えることでリアルな画像でも動くようにする • 出力は同じscaleで姿勢が違うCADベースのCGデータ. • 最後はICPで位置調整している? • 事前に二次元の正方形の画像平面上の2D Rotationで予備実験 • 2次元まで圧縮.Cosとsinに相当するパラメタが得られた. • 実験では3Dでチェック.デモで一つ,上手く行ってない物体が あったのは残念. Oral
  • 22. Oral 2C O-2C- 01 Direct Sparse Odometry With Rolling Shutter David Schubert*, Technical University of Munich; Vladyslav Usenko, TU Munich; Nikolaus Demmel, TUM; Joerg Stueckler, Technical University of Munich; Daniel Cremers, TUM O-2C- 02 3D Motion Sensing from 4D Light Field Gradients Sizhuo Ma*, University of Wisconsin-Madison; Brandon Smith, University of Wisconsin- Madison; Mohit Gupta, University of Wisconsin-Madison, USA O-2C- 03 A Style-aware Content Loss for Real-time HD Style Transfer Artsiom Sanakoyeu*, Heidelberg University; Dmytro Kotovenko, Heidelberg University; Bjorn Ommer, Heidelberg University O-2C- 04 Scale-Awareness of Light Field Camera based Visual Odometry Niclas Zeller*, Karlsruhe University of Applied Sciences; Franz Quint, Karlsruhe University of Applied Sciences; Uwe Stilla, Technische Universitaet Muenchen O-2C- 05 Burst Image Deblurring Using Permutation Invariant Convolutional Neural Networks Miika Aittala*, MIT; Fredo Durand, MIT
  • 23. Direct Sparse Odometry With Rolling Shutter David Schubert et al. • スマホのカメラのようなRolling Shutter型のカメラでStructure from Motion! • 移動しながらだと画像が歪むので従来の自己位置推定(Global Shutterを仮定)が使えない. • ちょっと手法の詳細はマニアック過ぎてスキップ…. • 結果,ゆっくり動いている分にはGlobal Shutterを仮定するよ り精度向上.早く動く場合も向上はするが,blurなども激しく, あまりうまくいかない場合がある. Oral
  • 24. 3D Motion Sensing from 4D Light Field Gradients Sizhuo Ma et al. • Scene Flow(Optical Flowの3D版)をLight Field Cameraで撮ろ う. • 観測点からカメラに向かう光を並行移動として記述 • エピポーラ幾何っぽい形になる. • 方程式がUnder Constraintになるので,単独のレンズだと解けない. • 他のレンズからも拘束条件を得てSfMっぽい計算(?) • 非常に微細な動きであれば,従来手法より高い精度で計測可能 • ただRGB信号ベースなのでTexture Richじゃないと無理. Oral
  • 25. A Style-aware Content Loss for Real-time HD Style Transfer Artsiom Sanakoyeu et al. • Style Transferの``Style’’を決める際のデータを単独の画像では なく,同一のStyleであろうとされる複数の画像の集合により定 義. • 同一Styleの画像グループへの所属に関して,adversarial trainingをする. • 芸術系の研究家の言葉を引用してStyleとは,を語った割に,カ ンディンスキーとかピカソとかのStyleを真似ることができたと 言われても,ベースとなる実写画像が,そもそもカンディンス キーやピカソが描こうとしたものとずれている違和感w • モネとかゴッホとかはいいんですけどね… Oral
  • 26. Scale-Awareness of Light Field Camera based Visual Odometry, Niclas Zeller et al. • この発表,ちょっと内職してしまって聞けず… Oral
  • 27. Burst Image Deblurring Using Permutation Invariant Convolutional Neural Networks M. Aittala et al. • 手ブレを含むビデオのdeblurをCNNでやる. • 従来手法はLSTMを使う. • データが時間順に並んでいる必要があるのは直感に反する. • 補正結果は入力画像系列の順序と無関係. • LSTM使っちゃうと順序依存になっちゃう. • 実は画像毎のEncoderのPooling部分を時系列画像集合で共有してしま う(x,yにt軸も含めた3次元でpoolingする)と上手く行く. • Max poolingで効果を確認. • メモ: この手法適用しようとするとImage Registration不可避な のだけど,それを同時に解いていないのは段階的に問題を解い ているからなんだろうな. Oral
  • 29. Imagine This! Scripts to Compositions to Videos • 台本からビデオ生成.しかし,残念ながらアニメ特化だった. • ☓動画をGANで生成 • ○類似シーン検索+継ぎ合わせる Poster
  • 30. Escaping from Collapsing Modes in a Constrained Space • 入力の多様性と出力の多様性の差をloss関数として追加. • 肝心のLoss関数の 中身はポスターに無い • まぁ,上手く行くだろう と思う. Poster
  • 31. Retrospective Encoders for Video Summarization • ゆっくり通りすがったが,理解していない… Poster
  • 32. Real-time ‘Actor-Critic’ Tracking • 追跡に強化学習手法の一つであるActor-Criticを利用. • どっちに移動するかをActionとして定義. Poster
  • 33. SDC-Net: Video Prediction Using Spatially- Displaced Convolution • 先にOptical FlowをFlownetなどで計算しておいて,映像のい ちズレに応じて入力をdisplaceするっぽい. Poster
  • 34. Proximal Dehaze-Net: A prior Learning-Based Deep Network for Singla Image Dehazing • DehazingをCNNの学習ベースで解いた手法. Poster
  • 35. Robust Anchor Embedding for Unsupervised Video Person Re-Identification in the wild • 気になったので通りすがりに撮影.まだ手法の詳細は見ていな い. Poster
  • 36. お詫び • 今回,ポスターセッションは十分に見れていません.申し訳ない…. • いちおう,ほぼ全部のポスターの前は通っています (一部通路はそもそも人が多すぎて入れない) • ディスカッションしたり,というのも,かなり難しい状況です. • 人が待機できるスペースがないので,聞きたいポスターがあっても,自分が通り過ぎ るタイミングでそこを離れる人がいて,かつ,他の人がそのスペースを埋めない,と いう条件が揃わないと大半のポスターが聞けません. • 橋本は気が弱いので,他の人を押しのけてポスター前に陣取ったりできてい ません…. • あと,単純にCVPRほどポスターの数もないので個人的に物足りな い感あり ⇢ CVPRのボリューム感が基準になったら末期かも.