SlideShare ist ein Scribd-Unternehmen logo
1 von 43
ECCV2018参加速報
(3日目)
橋本敦史
京大美濃研⇢OMRON SINIC X Corp. (OSX)
2018.4より研究職に転職しました
使用上の注意
• これは個人的なメモ資料です.いわば「チラシの裏」です.こ
の資料をみて,なんじゃこりゃ…と思われた方には大変申し訳
ありません.もっと素敵な資料はたくさんあると思いますので,
そっと閉じて,他をあたって頂ければ幸いです.
• この資料は「チラシの裏」ですが,下記はまんまチラシです.
• 弊社ではインターン生を年中募集しています.東京から遠隔にお住ま
いの方で も長期休みを利用してフレキシブルにインターンしていただ
けます.東京に お住まいの方でも,週に数回など,授業・研究の合間
に働きながらスキルを 身に着けていただけます. 詳しくはこちら(怪
しいURLですが,弊社のスタートアップ感の迸りです)
Oral Session 3A
O-3A-01 MVSNet: Depth Inference for Unstructured Multi-view
Stereo
Yao Yao*, The Hong Kong University of Science and
Technology; Zixin Luo, HKUST; Shiwei Li, HKUST; Tian
Fang, HKUST; Long Quan, Hong Kong University of
Science and Technology
O-3A-02 PlaneMatch: Patch Coplanarity Prediction for Robust
RGB-D Registration
Yifei Shi, Princeton University; Kai Xu, Princeton
University and National University of Defense Technology;
Matthias Niessner, Technical University of Munich;
Szymon Rusinkiewicz, Princeton University; Thomas
Funkhouser*, Princeton, USA
O-3A-03 Active Stereo Net: End-to-End Self-Supervised Learning
for Active Stereo Systems
Yinda Zhang*, Princeton University; Sean Fanello, Google;
Sameh Khamis, Google; Christoph Rhemann, Google;
Julien Valentin, Google; Adarsh Kowdle, Google; Vladimir
Tankovich, Google; Shahram Izadi, Google; Thomas
Funkhouser, Princeton, USA
O-3A-04 GAL: Geometric Adversarial Loss for Single-View 3D-
Object Reconstruction
Li Jiang*, The Chinese University of Hong Kong; Xiaojuan
Qi, CUHK; Shaoshuai SHI, The Chinese University of Hong
Kong; Jia Jiaya, Chinese University of Hong Kong
O-3A-05 Deep Virtual Stereo Odometry: Leveraging Deep Depth
Prediction for Monocular Direct Sparse Odometry
Nan Yang*, Technical University of Munich; Rui Wang,
Technical University of Munich; Joerg Stueckler, Technical
University of Munich; Daniel Cremers, TUM
MVSNet: Depth Inference for Unstructured
Multi-view Stereo, Yao Yao et al.
• Voxelなどの3D物体の表現を0,1ではなく,[0,1]で確率として出
力するようなCNNを構築するなどしている?
• 今日は3D reconstructionで似たような話が多すぎて記憶が曖昧
…
Oral
PlaneMatch: Patch Coplanarity Prediction
for Robust RGB-D Registration, Yifei Shi et al.
• SfMでカメラがぐるっと部屋の壁を一周して戻ってくるとloop
が閉じるところで誤差蓄積の影響がでる.
• Key pointに加えて,3D reconstructionの新たな指標として平
面を導入.
⇢ 同一平面かどうかのマッチングをCNNベースで解く.
(Co-planarity Matching)
• 上記はSelf-supervised で訓練できる←本当??際どいものも???
• 部屋は少数の平面で構成されているので,平面をあわせるとズレにく
い.
• もはや計測していないので,実は壁がずれていた場合などには
役に立たないのでは?おもちゃみたいなお手軽モデリングには
良さげ?
Oral
Active Stereo Net: End-to-End Self-Supervised
Learning for Active Stereo Systems, Yinda Zhang et al.
• ちょっと別件で落ちてました.
Oral
GAL: Geometric Adversarial Loss for Single-
View 3D-Object Reconstruction, Li Jiang et al.
• 3DオブジェクトをVoxelではなく,球の集合で表現するモデル
を前提とする.
• 従来手法では,正解との誤差をChamfer距離のみで計算しLoss
として利用
• 必ずしも物体の形状を保持しなかった.
• 新たに,Multi-viewでの見えに基づく誤差や敵対的誤差を導入
Oral
Deep Virtual Stereo Odometry: Leveraging Deep
Depth Prediction for Monocular Direct Sparse
Odometry, Nan Yang et al.
• 単眼カメラでもCCNベースでDepthをある程度推定することで,
交通シーンでのカメラの自己位置推定において,従来のステレ
オビジョンによる手法と同程度の精度を達成.
Oral
Poster Session
A Dataset and Architecture for Visual
Reasoning with a Working Memory
• タイトルが気になったので写真は取ったが発表者が不在だった.
Poster
Unsupervised Image-to-Image Translation with
Stacked Cycle-Consistent Adversarial Network
• Stacked GANをCycle-GANに適用した,という感じ?
Poster
Action Anticipation with RBF Kernelized
Feature Mapping RNN
• これも混雑してたけど多分latent featureをRBFで表現すること
によって精度が向上するよ,という論文.
• RBFを使うというテクニックは強化学習勉強会でも見た.
• 結局VAEと一緒?というあたり,
ちょっと勉強不足.
Poster
Predicting Future Instance Segmentation by
Forecasting Convolutional Features
• 将来のフレームのMasked R-CNNの特徴マップを未来予測する
論文.
• CVPR2016で物体識別の特徴を未来予測する論文があったが,
それとほぼ一緒ぽい.
• こっちの方が実用的かも.
• それ以上の工夫があるかは
未確認
Poster
Joint optimization for compressive video sensing
and reconstruction under hardware constraints
• 撮像素子の露光タイミングを画素ごとにランダムに変える⇢動
いているところがわかりやすい⇢効率よく複数フレームを圧縮
可能(複合などはCNNで学習)
• 実際には撮像素子の回路の制約
でランダムは実現しにくい.
• 縦横の列ごと連動して制御,など.
• 回路の制約化で上手く動くパターン
をDecoderの学習と一緒に
End-to-Endで学習
• 長原先生のところの研究
Poster
Deforming Autoencoders: Unsupervised
Disentangling of Shape and Appearance
• 顔のように「テンプレート」が作成可能な対象に対して,AEで
得られるlatent featureを以下の2つに分離
• Geometricな摂動成分
• その他(Appearance成分)
• 応用は,平均顔に貼った
マーカーを摂動で
個人の顔に適応させられる,
とかかな….
Poster
Seeing Tree Structure from Vibration
• 木の枝の木構造(真の意味で!!)を抽出!
Poster
Oral Session 3B
O-3B-01 Unsupervised Geometry-Aware Representation
for 3D Human Pose Estimation
Helge Rhodin*, EPFL; Mathieu Salzmann, EPFL;
Pascal Fua, EPFL, Switzerland
O-3B-02 Dual-Agent Deep Reinforcement Learning for
Deformable Face Tracking
Minghao Guo, Tsinghua University; Jiwen Lu*,
Tsinghua University; Jie Zhou, Tsinghua University,
China
O-3B-03 Deep Autoencoder for Combined Human Pose
Estimation and Body Model Upscaling
Matthew Trumble*, University of Surrey; Andrew
Gilbert, University of Surrey; John Collomosse,
Adobe Research; Adrian Hilton, University of Surrey
O-3B-04 Occlusion-aware Hand Pose Estimation Using
Hierarchical Mixture Density Network
Qi Ye*, Imperial College London; Tae-Kyun Kim,
Imperial College London
O-3B-05 GANimation: Anatomically-aware Facial
Animation from a Single Image
Albert Pumarola*, Institut de Robotica i Informatica
Industrial; Antonio Agudo, Institut de Robotica i
Informatica Industrial, CSIC-UPC; Aleix Martinez,
The Ohio State University; Alberto Sanfeliu,
Industrial Robotics Institute; Francesc Moreno, IRI
Unsupervised Geometry-Aware Representation
for 3D Human Pose Estimation
• https://www.youtube.com/watch?v=zFqwwKP0_kA
• 3D系の論文は動画貼っておいた方が言葉のメモよりわかりやす
い気がしてきた….
• CVPR2018であった同じ著者らの発表(skiとかをmultiviewで
とって姿勢推定のpretrainingを教師なしで実現する奴)の続編ら
しい.
• Appearance特徴を姿勢特徴と分離したり,背景を多様にするような工
夫の辺りかな.
Oral
Dual-Agent Deep Reinforcement Learning
for Deformable Face Tracking
• 顔を追跡できればland markの特定がしやすい.
• Land markを特定できれば顔を追跡しやすい.
⇢同時に解きたいよね.
• Multi-task Learningが置く仮定は結構きつい.
• 入力X, taskの出力をY1,Y2とすると
p(Y1, Y2|X)を仮定.本来はY1とY2はお互いに依存しあうはず.
• ベイズの定理で考えれば下記のように依存関係を表現できる.
p(Y1|Y2,X)p(Y2|X)=p(Y1|Y2,X)p(Y2|X)
• この発想のもとで,お互いにメッセージをPathする部分を作成
し,左辺と右辺を交互に最適化していくことで精度向上を達成.
Oral
Deep Autoencoder for Combined Human
Pose Estimation and Body Model Upscaling
• かなり小さく写ってしまっている人でもなんとかPose
Estimationの精度を上げたい.
• 解像度の高い画像をEnc-Decで復元するような学習をしておく
ことで精度向上
• なんか,PosterとOralの差が本当にわからなくなるよ….
Oral
Occlusion-aware Hand Pose Estimation
Using Hierarchical Mixture Density Network
• 手の姿勢推定で,見えない部分をどう扱うか.
1. 正規分布による生成モデルを仮定する場合
2. 混合正規分布による生成モデルを仮定する場合
3. 混合正規分布を生成する正規分布による階層的生成モデルを仮定す
る場合
• 1は全然だめっぽい.2と3はそんなに違わないように見えるが
….
Oral
GANimation: Anatomically-aware Facial
Animation from a Single Image
• 従来のGAN: 様々な表情の顔画像を復元可能.
⇢それらの間を滑らかに補間するようなことが出来ない.
• Action Unit間の摂動をパラメタとすることで,表情aと表情bの
線形和として表現可能な表情空間を構築.
• GANで滑らかな変化を実現.
• 映像に適用しても結構滑らかだが,喋っている途中の唇の動き
などはまだ対応できていないので,今後の課題.
• Honorable Mention Award
Oral
Poster Session
Deep Imbalanced Attribute Classification
using Visual Attention Aggregation
• サンプル数の不均衡に対する手法.
• 積ん読.メモとして残す.
Poster
Coloring with Words: Guiding Image Colorization
Through Text-based Palette Generation
• 色付けするGANの色味を自然言語で指示したい.
• カラーパレットを自然言語から生成し,それを使った彩色をさ
せる.
Poster
Variable Ring Light Imaging: Capturing
Transient Subsurface Scattering with An
Ordinary Camera
• 表面化散乱の計測手法.リング照明を,計測面との距離を変え
ながらあてる.
• リング中央の点の周辺の表面化散乱が(距離を変えたときの輝度の
差)として計算可能になる.
• 京大に新しく来られた西野教授
が筆頭著者.すごい.
Poster
Hand Pose Estimation via Latent 2.5D
Heatmap Regression
• 2.5D⇢3D変換を噛ましてから手の姿勢推定をする.
• 2.5Dで法線方向に近いところがheatmapで値が高くなっていた
ので,その辺りを上手く対処しているのだと思うけど(違うか
も).
Poster
Conditional Image-Text Embedding
Networks
• メモ.
Poster
Oral 3C
O-3C-01 Deterministic Consensus Maximization with Biconvex
Programming
Zhipeng Cai*, The University of Adelaide; Tat-Jun Chin,
University of Adelaide; Huu Le, University of Adelaide;
David Suter, University of Adelaide
O-3C-02 Robust fitting in computer vision: easy or hard? Tat-Jun Chin*, University of Adelaide; Zhipeng Cai, The
University of Adelaide; Frank Neumann, The University of
Adelaide, School of Computer Science, Faculty of
Engineering, Computer and Mathematical Science
O-3C-03 Highly-Economized Multi-View Binary Compression for
Scalable Image Clustering
Zheng Zhang*, Harbin Institute of Technology Shenzhen
Graduate School; Li Liu, the inception institute of artificial
intelligence; Jie Qin, ETH Zurich; Fan Zhu, the inception
institute of artificial intelligence ; Fumin Shen, UESTC;
Yong Xu, Harbin Institute of Technology Shenzhen
Graduate School; Ling Shao, Inception Institute of Artificial
Intelligence; Heng Tao Shen, University of Electronic
Science and Technology of China (UESTC)
O-3C-04 Efficient Semantic Scene Completion Network with Spatial
Group Convolution
Jiahui Zhang*, Tsinghua University; Hao Zhao, Intel Labs
China; Anbang Yao, Intel Labs China; Yurong Chen, Intel
Labs China; Hongen Liao, Tsinghua University
O-3C-05 Asynchronous, Photometric Feature Tracking using Events
and Frames
Daniel Gehrig, University of Zurich; Henri Rebecq*,
University of Zurich; Guillermo Gallego, University of
Zurich; Davide Scaramuzza, University of Zurich& ETH
Zurich, Switzerland
Deterministic Consensus Maximization with
Biconvex Programming
• RANSACなどが対象としているConsensus Maximization
(MAXCON)に対する新しい近似手法の提案.
• 従来手法が理論的根拠ない,といっているが発表中に提案手法
の理論的根拠も示されていないので(多分論文で証明されてい
る?要確認),差が伝わらない.
• 次の発表も同じ著者で,そっちの方が面白かった.
Oral
•
Poster
Robust fitting in computer vision: easy or
hard?
• MAXCONがLkOS問題(画像)の双対問題であることを手がかりとして,
MAXCONの計算量が下記のクラスであることを証明
• NP-hard
• もはや説明はいるまい.
• W[1]-hard
• 変数の右肩に変数がのるオーダーの形を
解消できない数学的クラス.
• APX-hard
• 任意の近似比(1+ε)を実現する
近似アルゴリズムが存在しない.
• 一応,近似比=
[神のみぞ知る正解が達成するスコア]/
[あるアルゴリズムが達成するWorst case
のスコア]
Oral
Highly-Economized Multi-View Binary
Compression for Scalable Image Clustering
• 様々な視点で独立したクラスタを得たい.
• 画像をbinary vectorとして表現し,クラスタリングする.
• 実は私がやりたいことの一つとちょっと近い.
• しかし,この方法がそんなに良い方法なのか,よくわからな
かった.
Oral
Efficient Semantic Scene Completion
Network with Spatial Group Convolution
• 著者らの作成した従来手法であるSparse Convolutionを3Dに拡
張して,3次元シーンに対する3次元semantic segmentationみ
たいな問題(Semantic Scene Completion)の精度を向上させた.
• 屋内シーンで,シンプルな形状の物体が多いから上手く行って
いる印象.
Oral
Asynchronous, Photometric Feature
Tracking using Events and Frames
• イベントカメラ(紐つけてぐるぐる回したりしているあれ)を
使って,subframe(high speed camera並み)に対するフレーム
間差分のような画像を取得.
• Subframeでの輝度変化の情報を得られるので,物体追跡が容
易になる.
• 普通のカメラの画像(frame)と結果を統合しているが,frameは追跡に
あまり寄与しないらしい.
• Event cameraはdynamic rangeも非常に広い(というか差分だ
から実質dynamic rangeに限界が殆ど無い???)ので,かなり暗
いところでも物体追跡可能.
Oral
Poster Session
Accurate Scene Text Detection through Border
Semantics Awareness and Bootstrapping
• テキストの左右・上下を区別して学習させることで精度向上?
• Bootstrappingの
部分,ノーマークで
流してしまった.
Poster
AGIL: Learning Attention from Human for
Visuomotor Tasks
• ポスターと論文のタイトルが違う!
• 人間がAtariとかのゲームをするときの視線の動き=Attentionを
真似ることで,精度向上.
• 行動として,操作だけでなく
認知行動もいれたら良い.
• 認知行動の部分をimitation
learning!
Poster
RT-GENE: Real-Time Eye Gaze Estimation
in Natural Environments
• がっつり視線計測装置をつけてデータを取得.
• 装置をGANで消して,データセット作成.
• 学習したらいい感じ.
Poster
Out-of-Distribution Detection Using an
Ensemble of Self Supervised Leave-out
Classifiers
• 学習していないサンプル(odd samples)をそれとしてしっかり
検出できるような識別器の作成.
• 学習データにはもちろんそういうサンプルが入っていない.
• 擬似的にodd sampleを仮定して上手く学習する.おもろい.
• Margin-entropyという誤差関数が気になった.
Poster
Recognition in Terra Incognita
• 野生動物の生息数などの監視用の動物識別?
• 某知り合いの先生に知らせたい.
Poster
Deep Regionlets for Object Detection
• Regionletsをだしたい.
• Regionletsってなんだ?って思ったのでメモ.
• 物体領域矩形の中のsubregion.情報量が多い部分って考えたらよいの
か?背景以外をカバーする矩形の集合と考えたらよいのかな?
• Region Selection Networkで,
回転とかも考えることで,
いい感じのregionletsを得る.
• そもそも,従来手法は
Hand-craftedだった.
• なんでRegionletsだしたいんだろ?
Poster

Weitere ähnliche Inhalte

Ähnlich wie Eccv2018 report day3

[DL輪読会]Dense Captioning分野のまとめ
[DL輪読会]Dense Captioning分野のまとめ[DL輪読会]Dense Captioning分野のまとめ
[DL輪読会]Dense Captioning分野のまとめDeep Learning JP
 
Direct Sparse Odometryの解説
Direct Sparse Odometryの解説Direct Sparse Odometryの解説
Direct Sparse Odometryの解説Masaya Kaneko
 
CVPR2017 参加報告 速報版 本会議 2日目
CVPR2017 参加報告 速報版 本会議 2日目CVPR2017 参加報告 速報版 本会議 2日目
CVPR2017 参加報告 速報版 本会議 2日目Atsushi Hashimoto
 
【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2Hirokatsu Kataoka
 
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View SynthesisKento Doi
 
Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
Learning Spatial Common Sense with Geometry-Aware Recurrent NetworksLearning Spatial Common Sense with Geometry-Aware Recurrent Networks
Learning Spatial Common Sense with Geometry-Aware Recurrent NetworksKento Doi
 
論文紹介「PointNetLK: Robust & Efficient Point Cloud Registration Using PointNet」
論文紹介「PointNetLK: Robust & Efficient Point Cloud Registration Using PointNet」論文紹介「PointNetLK: Robust & Efficient Point Cloud Registration Using PointNet」
論文紹介「PointNetLK: Robust & Efficient Point Cloud Registration Using PointNet」Naoya Chiba
 
[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos
[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos
[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual VideosDeep Learning JP
 
2019/5/24 Chainer familyで始める深層学習 ハンズオンの部
2019/5/24 Chainer familyで始める深層学習 ハンズオンの部2019/5/24 Chainer familyで始める深層学習 ハンズオンの部
2019/5/24 Chainer familyで始める深層学習 ハンズオンの部belltailjp
 
モジュールの凝集度・結合度・インタフェース
モジュールの凝集度・結合度・インタフェースモジュールの凝集度・結合度・インタフェース
モジュールの凝集度・結合度・インタフェースHajime Yanagawa
 
関西Cvprml勉強会2017.9資料
関西Cvprml勉強会2017.9資料関西Cvprml勉強会2017.9資料
関西Cvprml勉強会2017.9資料Atsushi Hashimoto
 
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for PredictionDeep Learning JP
 
論文 Solo Advent Calendar
論文 Solo Advent Calendar論文 Solo Advent Calendar
論文 Solo Advent Calendar諒介 荒木
 
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)kanejaki
 
CVPR2017 参加報告 速報版 本会議3日目
CVPR2017 参加報告 速報版 本会議3日目CVPR2017 参加報告 速報版 本会議3日目
CVPR2017 参加報告 速報版 本会議3日目Atsushi Hashimoto
 
信号処理・画像処理における凸最適化
信号処理・画像処理における凸最適化信号処理・画像処理における凸最適化
信号処理・画像処理における凸最適化Shunsuke Ono
 
Soft Rasterizer: A Differentiable Renderer for Image-based 3D Reasoning
Soft Rasterizer: A Differentiable Renderer for Image-based 3D ReasoningSoft Rasterizer: A Differentiable Renderer for Image-based 3D Reasoning
Soft Rasterizer: A Differentiable Renderer for Image-based 3D ReasoningKohei Nishimura
 
CVPR2016 reading - 特徴量学習とクロスモーダル転移について
CVPR2016 reading - 特徴量学習とクロスモーダル転移についてCVPR2016 reading - 特徴量学習とクロスモーダル転移について
CVPR2016 reading - 特徴量学習とクロスモーダル転移についてAkisato Kimura
 
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...Deep Learning JP
 
虹彩認証 - Introduction to Biometrics
虹彩認証 - Introduction to Biometrics虹彩認証 - Introduction to Biometrics
虹彩認証 - Introduction to Biometricsyoko meip
 

Ähnlich wie Eccv2018 report day3 (20)

[DL輪読会]Dense Captioning分野のまとめ
[DL輪読会]Dense Captioning分野のまとめ[DL輪読会]Dense Captioning分野のまとめ
[DL輪読会]Dense Captioning分野のまとめ
 
Direct Sparse Odometryの解説
Direct Sparse Odometryの解説Direct Sparse Odometryの解説
Direct Sparse Odometryの解説
 
CVPR2017 参加報告 速報版 本会議 2日目
CVPR2017 参加報告 速報版 本会議 2日目CVPR2017 参加報告 速報版 本会議 2日目
CVPR2017 参加報告 速報版 本会議 2日目
 
【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2
 
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
 
Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
Learning Spatial Common Sense with Geometry-Aware Recurrent NetworksLearning Spatial Common Sense with Geometry-Aware Recurrent Networks
Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
 
論文紹介「PointNetLK: Robust & Efficient Point Cloud Registration Using PointNet」
論文紹介「PointNetLK: Robust & Efficient Point Cloud Registration Using PointNet」論文紹介「PointNetLK: Robust & Efficient Point Cloud Registration Using PointNet」
論文紹介「PointNetLK: Robust & Efficient Point Cloud Registration Using PointNet」
 
[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos
[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos
[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos
 
2019/5/24 Chainer familyで始める深層学習 ハンズオンの部
2019/5/24 Chainer familyで始める深層学習 ハンズオンの部2019/5/24 Chainer familyで始める深層学習 ハンズオンの部
2019/5/24 Chainer familyで始める深層学習 ハンズオンの部
 
モジュールの凝集度・結合度・インタフェース
モジュールの凝集度・結合度・インタフェースモジュールの凝集度・結合度・インタフェース
モジュールの凝集度・結合度・インタフェース
 
関西Cvprml勉強会2017.9資料
関西Cvprml勉強会2017.9資料関西Cvprml勉強会2017.9資料
関西Cvprml勉強会2017.9資料
 
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
 
論文 Solo Advent Calendar
論文 Solo Advent Calendar論文 Solo Advent Calendar
論文 Solo Advent Calendar
 
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
 
CVPR2017 参加報告 速報版 本会議3日目
CVPR2017 参加報告 速報版 本会議3日目CVPR2017 参加報告 速報版 本会議3日目
CVPR2017 参加報告 速報版 本会議3日目
 
信号処理・画像処理における凸最適化
信号処理・画像処理における凸最適化信号処理・画像処理における凸最適化
信号処理・画像処理における凸最適化
 
Soft Rasterizer: A Differentiable Renderer for Image-based 3D Reasoning
Soft Rasterizer: A Differentiable Renderer for Image-based 3D ReasoningSoft Rasterizer: A Differentiable Renderer for Image-based 3D Reasoning
Soft Rasterizer: A Differentiable Renderer for Image-based 3D Reasoning
 
CVPR2016 reading - 特徴量学習とクロスモーダル転移について
CVPR2016 reading - 特徴量学習とクロスモーダル転移についてCVPR2016 reading - 特徴量学習とクロスモーダル転移について
CVPR2016 reading - 特徴量学習とクロスモーダル転移について
 
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
 
虹彩認証 - Introduction to Biometrics
虹彩認証 - Introduction to Biometrics虹彩認証 - Introduction to Biometrics
虹彩認証 - Introduction to Biometrics
 

Mehr von Atsushi Hashimoto

人の行動をモデル化して予測する -調理作業支援を題材とした行動予測と情報提示-
人の行動をモデル化して予測する -調理作業支援を題材とした行動予測と情報提示- 人の行動をモデル化して予測する -調理作業支援を題材とした行動予測と情報提示-
人の行動をモデル化して予測する -調理作業支援を題材とした行動予測と情報提示- Atsushi Hashimoto
 
ECCV2018参加速報(一日目)
ECCV2018参加速報(一日目)ECCV2018参加速報(一日目)
ECCV2018参加速報(一日目)Atsushi Hashimoto
 
CVPR2017 参加報告 速報版 本会議 1日目
CVPR2017 参加報告 速報版 本会議 1日目CVPR2017 参加報告 速報版 本会議 1日目
CVPR2017 参加報告 速報版 本会議 1日目Atsushi Hashimoto
 
PRMU GC第二期 無形概念認識
PRMU GC第二期 無形概念認識PRMU GC第二期 無形概念認識
PRMU GC第二期 無形概念認識Atsushi Hashimoto
 
Kusk Object Dataset: Recording Access to Objects in Food Preparation
Kusk Object Dataset: Recording Access to Objects in Food PreparationKusk Object Dataset: Recording Access to Objects in Food Preparation
Kusk Object Dataset: Recording Access to Objects in Food PreparationAtsushi Hashimoto
 
人工知能研究振興財団研究助成に対する成果報告
人工知能研究振興財団研究助成に対する成果報告人工知能研究振興財団研究助成に対する成果報告
人工知能研究振興財団研究助成に対する成果報告Atsushi Hashimoto
 
春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本
春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本
春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本Atsushi Hashimoto
 

Mehr von Atsushi Hashimoto (9)

Ocha 20191204
Ocha 20191204Ocha 20191204
Ocha 20191204
 
人の行動をモデル化して予測する -調理作業支援を題材とした行動予測と情報提示-
人の行動をモデル化して予測する -調理作業支援を題材とした行動予測と情報提示- 人の行動をモデル化して予測する -調理作業支援を題材とした行動予測と情報提示-
人の行動をモデル化して予測する -調理作業支援を題材とした行動予測と情報提示-
 
Eccv2018 report day4
Eccv2018 report day4Eccv2018 report day4
Eccv2018 report day4
 
ECCV2018参加速報(一日目)
ECCV2018参加速報(一日目)ECCV2018参加速報(一日目)
ECCV2018参加速報(一日目)
 
CVPR2017 参加報告 速報版 本会議 1日目
CVPR2017 参加報告 速報版 本会議 1日目CVPR2017 参加報告 速報版 本会議 1日目
CVPR2017 参加報告 速報版 本会議 1日目
 
PRMU GC第二期 無形概念認識
PRMU GC第二期 無形概念認識PRMU GC第二期 無形概念認識
PRMU GC第二期 無形概念認識
 
Kusk Object Dataset: Recording Access to Objects in Food Preparation
Kusk Object Dataset: Recording Access to Objects in Food PreparationKusk Object Dataset: Recording Access to Objects in Food Preparation
Kusk Object Dataset: Recording Access to Objects in Food Preparation
 
人工知能研究振興財団研究助成に対する成果報告
人工知能研究振興財団研究助成に対する成果報告人工知能研究振興財団研究助成に対する成果報告
人工知能研究振興財団研究助成に対する成果報告
 
春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本
春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本
春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本
 

Eccv2018 report day3

  • 1. ECCV2018参加速報 (3日目) 橋本敦史 京大美濃研⇢OMRON SINIC X Corp. (OSX) 2018.4より研究職に転職しました
  • 2. 使用上の注意 • これは個人的なメモ資料です.いわば「チラシの裏」です.こ の資料をみて,なんじゃこりゃ…と思われた方には大変申し訳 ありません.もっと素敵な資料はたくさんあると思いますので, そっと閉じて,他をあたって頂ければ幸いです. • この資料は「チラシの裏」ですが,下記はまんまチラシです. • 弊社ではインターン生を年中募集しています.東京から遠隔にお住ま いの方で も長期休みを利用してフレキシブルにインターンしていただ けます.東京に お住まいの方でも,週に数回など,授業・研究の合間 に働きながらスキルを 身に着けていただけます. 詳しくはこちら(怪 しいURLですが,弊社のスタートアップ感の迸りです)
  • 3. Oral Session 3A O-3A-01 MVSNet: Depth Inference for Unstructured Multi-view Stereo Yao Yao*, The Hong Kong University of Science and Technology; Zixin Luo, HKUST; Shiwei Li, HKUST; Tian Fang, HKUST; Long Quan, Hong Kong University of Science and Technology O-3A-02 PlaneMatch: Patch Coplanarity Prediction for Robust RGB-D Registration Yifei Shi, Princeton University; Kai Xu, Princeton University and National University of Defense Technology; Matthias Niessner, Technical University of Munich; Szymon Rusinkiewicz, Princeton University; Thomas Funkhouser*, Princeton, USA O-3A-03 Active Stereo Net: End-to-End Self-Supervised Learning for Active Stereo Systems Yinda Zhang*, Princeton University; Sean Fanello, Google; Sameh Khamis, Google; Christoph Rhemann, Google; Julien Valentin, Google; Adarsh Kowdle, Google; Vladimir Tankovich, Google; Shahram Izadi, Google; Thomas Funkhouser, Princeton, USA O-3A-04 GAL: Geometric Adversarial Loss for Single-View 3D- Object Reconstruction Li Jiang*, The Chinese University of Hong Kong; Xiaojuan Qi, CUHK; Shaoshuai SHI, The Chinese University of Hong Kong; Jia Jiaya, Chinese University of Hong Kong O-3A-05 Deep Virtual Stereo Odometry: Leveraging Deep Depth Prediction for Monocular Direct Sparse Odometry Nan Yang*, Technical University of Munich; Rui Wang, Technical University of Munich; Joerg Stueckler, Technical University of Munich; Daniel Cremers, TUM
  • 4. MVSNet: Depth Inference for Unstructured Multi-view Stereo, Yao Yao et al. • Voxelなどの3D物体の表現を0,1ではなく,[0,1]で確率として出 力するようなCNNを構築するなどしている? • 今日は3D reconstructionで似たような話が多すぎて記憶が曖昧 … Oral
  • 5. PlaneMatch: Patch Coplanarity Prediction for Robust RGB-D Registration, Yifei Shi et al. • SfMでカメラがぐるっと部屋の壁を一周して戻ってくるとloop が閉じるところで誤差蓄積の影響がでる. • Key pointに加えて,3D reconstructionの新たな指標として平 面を導入. ⇢ 同一平面かどうかのマッチングをCNNベースで解く. (Co-planarity Matching) • 上記はSelf-supervised で訓練できる←本当??際どいものも??? • 部屋は少数の平面で構成されているので,平面をあわせるとズレにく い. • もはや計測していないので,実は壁がずれていた場合などには 役に立たないのでは?おもちゃみたいなお手軽モデリングには 良さげ? Oral
  • 6. Active Stereo Net: End-to-End Self-Supervised Learning for Active Stereo Systems, Yinda Zhang et al. • ちょっと別件で落ちてました. Oral
  • 7. GAL: Geometric Adversarial Loss for Single- View 3D-Object Reconstruction, Li Jiang et al. • 3DオブジェクトをVoxelではなく,球の集合で表現するモデル を前提とする. • 従来手法では,正解との誤差をChamfer距離のみで計算しLoss として利用 • 必ずしも物体の形状を保持しなかった. • 新たに,Multi-viewでの見えに基づく誤差や敵対的誤差を導入 Oral
  • 8. Deep Virtual Stereo Odometry: Leveraging Deep Depth Prediction for Monocular Direct Sparse Odometry, Nan Yang et al. • 単眼カメラでもCCNベースでDepthをある程度推定することで, 交通シーンでのカメラの自己位置推定において,従来のステレ オビジョンによる手法と同程度の精度を達成. Oral
  • 10. A Dataset and Architecture for Visual Reasoning with a Working Memory • タイトルが気になったので写真は取ったが発表者が不在だった. Poster
  • 11. Unsupervised Image-to-Image Translation with Stacked Cycle-Consistent Adversarial Network • Stacked GANをCycle-GANに適用した,という感じ? Poster
  • 12. Action Anticipation with RBF Kernelized Feature Mapping RNN • これも混雑してたけど多分latent featureをRBFで表現すること によって精度が向上するよ,という論文. • RBFを使うというテクニックは強化学習勉強会でも見た. • 結局VAEと一緒?というあたり, ちょっと勉強不足. Poster
  • 13. Predicting Future Instance Segmentation by Forecasting Convolutional Features • 将来のフレームのMasked R-CNNの特徴マップを未来予測する 論文. • CVPR2016で物体識別の特徴を未来予測する論文があったが, それとほぼ一緒ぽい. • こっちの方が実用的かも. • それ以上の工夫があるかは 未確認 Poster
  • 14. Joint optimization for compressive video sensing and reconstruction under hardware constraints • 撮像素子の露光タイミングを画素ごとにランダムに変える⇢動 いているところがわかりやすい⇢効率よく複数フレームを圧縮 可能(複合などはCNNで学習) • 実際には撮像素子の回路の制約 でランダムは実現しにくい. • 縦横の列ごと連動して制御,など. • 回路の制約化で上手く動くパターン をDecoderの学習と一緒に End-to-Endで学習 • 長原先生のところの研究 Poster
  • 15. Deforming Autoencoders: Unsupervised Disentangling of Shape and Appearance • 顔のように「テンプレート」が作成可能な対象に対して,AEで 得られるlatent featureを以下の2つに分離 • Geometricな摂動成分 • その他(Appearance成分) • 応用は,平均顔に貼った マーカーを摂動で 個人の顔に適応させられる, とかかな…. Poster
  • 16. Seeing Tree Structure from Vibration • 木の枝の木構造(真の意味で!!)を抽出! Poster
  • 17. Oral Session 3B O-3B-01 Unsupervised Geometry-Aware Representation for 3D Human Pose Estimation Helge Rhodin*, EPFL; Mathieu Salzmann, EPFL; Pascal Fua, EPFL, Switzerland O-3B-02 Dual-Agent Deep Reinforcement Learning for Deformable Face Tracking Minghao Guo, Tsinghua University; Jiwen Lu*, Tsinghua University; Jie Zhou, Tsinghua University, China O-3B-03 Deep Autoencoder for Combined Human Pose Estimation and Body Model Upscaling Matthew Trumble*, University of Surrey; Andrew Gilbert, University of Surrey; John Collomosse, Adobe Research; Adrian Hilton, University of Surrey O-3B-04 Occlusion-aware Hand Pose Estimation Using Hierarchical Mixture Density Network Qi Ye*, Imperial College London; Tae-Kyun Kim, Imperial College London O-3B-05 GANimation: Anatomically-aware Facial Animation from a Single Image Albert Pumarola*, Institut de Robotica i Informatica Industrial; Antonio Agudo, Institut de Robotica i Informatica Industrial, CSIC-UPC; Aleix Martinez, The Ohio State University; Alberto Sanfeliu, Industrial Robotics Institute; Francesc Moreno, IRI
  • 18. Unsupervised Geometry-Aware Representation for 3D Human Pose Estimation • https://www.youtube.com/watch?v=zFqwwKP0_kA • 3D系の論文は動画貼っておいた方が言葉のメモよりわかりやす い気がしてきた…. • CVPR2018であった同じ著者らの発表(skiとかをmultiviewで とって姿勢推定のpretrainingを教師なしで実現する奴)の続編ら しい. • Appearance特徴を姿勢特徴と分離したり,背景を多様にするような工 夫の辺りかな. Oral
  • 19. Dual-Agent Deep Reinforcement Learning for Deformable Face Tracking • 顔を追跡できればland markの特定がしやすい. • Land markを特定できれば顔を追跡しやすい. ⇢同時に解きたいよね. • Multi-task Learningが置く仮定は結構きつい. • 入力X, taskの出力をY1,Y2とすると p(Y1, Y2|X)を仮定.本来はY1とY2はお互いに依存しあうはず. • ベイズの定理で考えれば下記のように依存関係を表現できる. p(Y1|Y2,X)p(Y2|X)=p(Y1|Y2,X)p(Y2|X) • この発想のもとで,お互いにメッセージをPathする部分を作成 し,左辺と右辺を交互に最適化していくことで精度向上を達成. Oral
  • 20. Deep Autoencoder for Combined Human Pose Estimation and Body Model Upscaling • かなり小さく写ってしまっている人でもなんとかPose Estimationの精度を上げたい. • 解像度の高い画像をEnc-Decで復元するような学習をしておく ことで精度向上 • なんか,PosterとOralの差が本当にわからなくなるよ…. Oral
  • 21. Occlusion-aware Hand Pose Estimation Using Hierarchical Mixture Density Network • 手の姿勢推定で,見えない部分をどう扱うか. 1. 正規分布による生成モデルを仮定する場合 2. 混合正規分布による生成モデルを仮定する場合 3. 混合正規分布を生成する正規分布による階層的生成モデルを仮定す る場合 • 1は全然だめっぽい.2と3はそんなに違わないように見えるが …. Oral
  • 22.
  • 23. GANimation: Anatomically-aware Facial Animation from a Single Image • 従来のGAN: 様々な表情の顔画像を復元可能. ⇢それらの間を滑らかに補間するようなことが出来ない. • Action Unit間の摂動をパラメタとすることで,表情aと表情bの 線形和として表現可能な表情空間を構築. • GANで滑らかな変化を実現. • 映像に適用しても結構滑らかだが,喋っている途中の唇の動き などはまだ対応できていないので,今後の課題. • Honorable Mention Award Oral
  • 25. Deep Imbalanced Attribute Classification using Visual Attention Aggregation • サンプル数の不均衡に対する手法. • 積ん読.メモとして残す. Poster
  • 26. Coloring with Words: Guiding Image Colorization Through Text-based Palette Generation • 色付けするGANの色味を自然言語で指示したい. • カラーパレットを自然言語から生成し,それを使った彩色をさ せる. Poster
  • 27. Variable Ring Light Imaging: Capturing Transient Subsurface Scattering with An Ordinary Camera • 表面化散乱の計測手法.リング照明を,計測面との距離を変え ながらあてる. • リング中央の点の周辺の表面化散乱が(距離を変えたときの輝度の 差)として計算可能になる. • 京大に新しく来られた西野教授 が筆頭著者.すごい. Poster
  • 28. Hand Pose Estimation via Latent 2.5D Heatmap Regression • 2.5D⇢3D変換を噛ましてから手の姿勢推定をする. • 2.5Dで法線方向に近いところがheatmapで値が高くなっていた ので,その辺りを上手く対処しているのだと思うけど(違うか も). Poster
  • 30. Oral 3C O-3C-01 Deterministic Consensus Maximization with Biconvex Programming Zhipeng Cai*, The University of Adelaide; Tat-Jun Chin, University of Adelaide; Huu Le, University of Adelaide; David Suter, University of Adelaide O-3C-02 Robust fitting in computer vision: easy or hard? Tat-Jun Chin*, University of Adelaide; Zhipeng Cai, The University of Adelaide; Frank Neumann, The University of Adelaide, School of Computer Science, Faculty of Engineering, Computer and Mathematical Science O-3C-03 Highly-Economized Multi-View Binary Compression for Scalable Image Clustering Zheng Zhang*, Harbin Institute of Technology Shenzhen Graduate School; Li Liu, the inception institute of artificial intelligence; Jie Qin, ETH Zurich; Fan Zhu, the inception institute of artificial intelligence ; Fumin Shen, UESTC; Yong Xu, Harbin Institute of Technology Shenzhen Graduate School; Ling Shao, Inception Institute of Artificial Intelligence; Heng Tao Shen, University of Electronic Science and Technology of China (UESTC) O-3C-04 Efficient Semantic Scene Completion Network with Spatial Group Convolution Jiahui Zhang*, Tsinghua University; Hao Zhao, Intel Labs China; Anbang Yao, Intel Labs China; Yurong Chen, Intel Labs China; Hongen Liao, Tsinghua University O-3C-05 Asynchronous, Photometric Feature Tracking using Events and Frames Daniel Gehrig, University of Zurich; Henri Rebecq*, University of Zurich; Guillermo Gallego, University of Zurich; Davide Scaramuzza, University of Zurich& ETH Zurich, Switzerland
  • 31. Deterministic Consensus Maximization with Biconvex Programming • RANSACなどが対象としているConsensus Maximization (MAXCON)に対する新しい近似手法の提案. • 従来手法が理論的根拠ない,といっているが発表中に提案手法 の理論的根拠も示されていないので(多分論文で証明されてい る?要確認),差が伝わらない. • 次の発表も同じ著者で,そっちの方が面白かった. Oral
  • 33. Robust fitting in computer vision: easy or hard? • MAXCONがLkOS問題(画像)の双対問題であることを手がかりとして, MAXCONの計算量が下記のクラスであることを証明 • NP-hard • もはや説明はいるまい. • W[1]-hard • 変数の右肩に変数がのるオーダーの形を 解消できない数学的クラス. • APX-hard • 任意の近似比(1+ε)を実現する 近似アルゴリズムが存在しない. • 一応,近似比= [神のみぞ知る正解が達成するスコア]/ [あるアルゴリズムが達成するWorst case のスコア] Oral
  • 34. Highly-Economized Multi-View Binary Compression for Scalable Image Clustering • 様々な視点で独立したクラスタを得たい. • 画像をbinary vectorとして表現し,クラスタリングする. • 実は私がやりたいことの一つとちょっと近い. • しかし,この方法がそんなに良い方法なのか,よくわからな かった. Oral
  • 35. Efficient Semantic Scene Completion Network with Spatial Group Convolution • 著者らの作成した従来手法であるSparse Convolutionを3Dに拡 張して,3次元シーンに対する3次元semantic segmentationみ たいな問題(Semantic Scene Completion)の精度を向上させた. • 屋内シーンで,シンプルな形状の物体が多いから上手く行って いる印象. Oral
  • 36. Asynchronous, Photometric Feature Tracking using Events and Frames • イベントカメラ(紐つけてぐるぐる回したりしているあれ)を 使って,subframe(high speed camera並み)に対するフレーム 間差分のような画像を取得. • Subframeでの輝度変化の情報を得られるので,物体追跡が容 易になる. • 普通のカメラの画像(frame)と結果を統合しているが,frameは追跡に あまり寄与しないらしい. • Event cameraはdynamic rangeも非常に広い(というか差分だ から実質dynamic rangeに限界が殆ど無い???)ので,かなり暗 いところでも物体追跡可能. Oral
  • 38. Accurate Scene Text Detection through Border Semantics Awareness and Bootstrapping • テキストの左右・上下を区別して学習させることで精度向上? • Bootstrappingの 部分,ノーマークで 流してしまった. Poster
  • 39. AGIL: Learning Attention from Human for Visuomotor Tasks • ポスターと論文のタイトルが違う! • 人間がAtariとかのゲームをするときの視線の動き=Attentionを 真似ることで,精度向上. • 行動として,操作だけでなく 認知行動もいれたら良い. • 認知行動の部分をimitation learning! Poster
  • 40. RT-GENE: Real-Time Eye Gaze Estimation in Natural Environments • がっつり視線計測装置をつけてデータを取得. • 装置をGANで消して,データセット作成. • 学習したらいい感じ. Poster
  • 41. Out-of-Distribution Detection Using an Ensemble of Self Supervised Leave-out Classifiers • 学習していないサンプル(odd samples)をそれとしてしっかり 検出できるような識別器の作成. • 学習データにはもちろんそういうサンプルが入っていない. • 擬似的にodd sampleを仮定して上手く学習する.おもろい. • Margin-entropyという誤差関数が気になった. Poster
  • 42. Recognition in Terra Incognita • 野生動物の生息数などの監視用の動物識別? • 某知り合いの先生に知らせたい. Poster
  • 43. Deep Regionlets for Object Detection • Regionletsをだしたい. • Regionletsってなんだ?って思ったのでメモ. • 物体領域矩形の中のsubregion.情報量が多い部分って考えたらよいの か?背景以外をカバーする矩形の集合と考えたらよいのかな? • Region Selection Networkで, 回転とかも考えることで, いい感じのregionletsを得る. • そもそも,従来手法は Hand-craftedだった. • なんでRegionletsだしたいんだろ? Poster