ICCV 2017 速報

ICCV2017速報
⽚岡裕雄, 原健翔
鈴⽊亮太, 阿部⾹織, Yue Qiu, 鈴⽊智之, ⼤喜周平, 張⾬⾠
https://sites.google.com/site/cvpaperchallenge/

概要
•  CV分野のトップ会議ICCV2017の参加速報
–  CVPR2017速報の続編
※ SlideShare (https://www.slideshare.net/cvpaperchallenge/cvpr-2017-78294211)より
–  速報性を重視したためメモ程度であることにご注意
–  全ての論⽂に⽬を通しているわけでは無いが，著者らがで
きる限り聴講して議論を⾏った
–  事前の論⽂読み会も実施しています
–  気づきや今後の⽅針について，できる限りCVPR2017時と
異なることを（頑張ってひねり出して）書いています

その前に（かなり⼤雑把な）DNNの概要
-  CVPR 2017 速報の再掲です
cvpaper.challengeでは2018の論⽂投稿に向けてメンバーを募集しています！
https://sites.google.com/site/cvpaperchallenge/recruit

DNNの動向（1/8）
•  DNN時代以前の動向
–  Perceptron, MLP, Neocognitron, BackProp, CNN
–  DNNが流⾏る前の画像認識では局所特徴が使⽤
1st AI 2nd AI 3rd AI
F. Rosenblatt et al. “Principles of Neurodynamics: Perceptrons and the Theory of Brain Mechanisms” in 1961.
Rumelhart et al. “Learning representations by back-propagating errors” in Nature 1986.
K. Fukushima, “Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position”, in
1980
Y. LeCun et al. “Gradient-based learning applied to document recognition” in IEEE 1998.

•  ILSVRCを発端とする画像識別タスクへの応⽤
–  AlexNet @画像認識コンペILSVRC2012
•  第⼀著者Alexさんのネットワーク（仕掛け⼈のHintonNetになってたかも？）
–  背景にはBelief Propagation, ReLU, SGD, Dropoutなど構
造をDEEPにする技術が揃ってきた

DNNが勝てた背景
–  ImageNet!（データが最も重要）
–  NVIDIA!（圧倒的な計算⼒）
http://www.image-net.org/
http://cvpr2017.thecvf.com/
×

•  構造の深化
–  2014年頃から「構造をより深くする」ための知⾒が整う
–  現在（主に画像識別で）主流なのはResidual Network
AlexNet [Krizhevsky+, ILSVRC2012]
VGGNet [Simonyan+, ILSVRC2014]
GoogLeNet [Szegedy+, ILSVRC2014/CVPR2015]
ResNet [He+, ILSVRC2015/CVPR2016]
ILSVRC2012 winner，DLの⽕付け役
16/19層ネット，deeperモデルの知識
ILSVRC2014 winner，22層モデル
ILSVRC2015 winner， 152層！(実験では103+層も)

•  他タスクへの応⽤（画像認識・動画認識）
–  R-CNN: 物体検出
–  FCN: セマンティックセグメンテーション
–  CNN+LSTM: 画像説明⽂
–  Two-Stream CNN: 動画認識
Person
Uma
Show and Tell [Vinyals+, CVPR15]
R-CNN [Girshick+, CVPR14]
FCN [Long+, CVPR15]
Two-Stream CNN [Simonyan+, NIPS14]

•  画像⽣成・強化学習への移⾏
–  GAN: 敵対的学習，Generator（G）と
Discriminater（D）が競い合いリアルな画像を⽣成
–  DQN: 強化学習モデル
https://www.slideshare.net/nmhkahn/generative-adversarial-
network-laplacian-pyramid-gan

•  DNNのフレームワークが次々にリリース
–  Caffe/Caffe2, Theano, Chainer, TensorFlow, Keras,
Torch/PyTorch, MatConvNet, Deeplearning4j, CNTK,
MxNet, Lasagne
（順不同，その他多数）
–  特に，Caffeが出てきてからCVにおけるDNNの研究は爆発
的に広がった

•  現在も進化の⼀途を辿り，社会実装が進む
–  ⾃動運転/ADAS
–  ロボティクス
–  ファッション
–  画像/動画検索
–  物流（ピッキング等）
–  等
研究者としては「こんなこともできる」を世に出したい

ICCV 2017の動向・気付き
-  今回どんな研究が流⾏っていた？
-  海外の研究者は何をしている？
-  「動向」や「気付き」をまとめました

ICCV2017の動向・気付き（1/22）
–  3D Convolution（xyt/xyz/xy+α）が加速しそう
•  もともとはパラメータが多く⼩規模データでは過学習気味
•  データスケール/コードレベルで枠組みが整い，誰でも再現可
–  論⽂例
•  Pseudo-3D Conv
•  3D-ResNets（コードあり）
–  https://github.com/kenshohara/3D-ResNets-PyTorch

–  ⾼次なラベルを返却する⼿法が登場
•  識別（e.g. ⽝）に対して意味（e.g. 危険，異常）に踏み込む
•  ⼈間の直感による正解ラベルが必要
–  クラウドワーカーの⼒が必須？
•  ⼈間の直感，さらにはクラウドワーカーの集合知を結集
•  ⼿元では到底処理しきれないレベルのアノテーションを解決
•  同時にN⼈に発注，クロスチェックによりラベルの質を保証

–  合成データの重要性が説かれる
•  （時間さえかければ）⼤規模データを⽣成できる
•  データバリエーションを⽤意に拡張可能（スケール/ビューポイン
ト/ノイズ/オクルージョン/背景など）
•  アノテーションの質はコントロールできる
–  特に⼈物系のデータの場合，プライバシーを保証
•  昨今では個⼈情報保護法など法令の遵守が重要
•  「存在しないと思われる⼈」のデータを合成する
•  ファッション/⼈物⾏動など特に⼈の研究は合成データが必要

–  ジョイント学習がさらに増えた
•  3つ以上のタスクを同時学習する⼿法も現れている
•  データセットをまたいで学習できる

–  特徴表現学習
•  教師なしで特徴表現を学習してしまう
•  ImageNetやPlacesを置き換えるような学習の仕組みが今後登場？
•  上記２つのデータセットは画像識別⽤であるが，問題に合わせて特
徴表現を学習できたら良い

–  徹底⽐較により研究分野を整理する
•  DNN研究が「こうしたら良くなった」という実験的向上の繰返し
•  誰かが体型的にまとめたマニュアル的論⽂が重宝
–  新しい論⽂の書き⽅？
•  （会議の性質にもよるが）Top-tierの会議に⽐較論⽂が通ることは
稀であった
•  成功事例集/失敗事例集をまとめた論⽂は新しい知⾒を与え，分野
の加速に寄与することから採択している（と解釈できる）

–  画像⽣成が⼈気(GAN,VAE)
•  2D→3D（xyz,xyt）
•  逆もある(3D→2D)
•  現状できる中でより良いコンセプトを選択
–  低解像度でもできる細胞とか顔とか
–  決定的な定量的評価がほとんどない
•  ⼤部分がユーザー評価を含む
–  ⼤規模なユーザー評価を⾏う場合，かなりの⼈⼿が必要

–  画像⽣成ではなく，より⾼精度にするためにGANを使⽤
•  戦いの中で強くなる識別器を提案
•  画像⽣成（ラベル付きデータ数）と画像識別器（⽣成を⾼度にしな
がら⾃ら賢くなる）のせめぎ合いで精度向上
–  タスクの複雑化
•  画像識別 => 物体検出 => セマンティックセグメンテーション
•  動画，RGB-D，3Dポイントクラウド?

–  説明性を与えるDNNモデルや構造改善
•  精度が出ていても「なぜ？」の部分ができていないとアプリケー
ションにはできない
•  活性部分を表⽰（Grad-CAM），視覚的理由付け（Visual
Reasoning）

–  ImageNetの学習済みモデルに頼るのはそろそろ限界？
•  タスクが複雑になり画像識別から乖離しているにもかかわらず
ImageNetの特徴に頼るのはナンセンス！（と偉い⼈が⾔っていた）
•  タスク別の洗練された特徴が必要だが，データを⼤量に収集，かつ
リッチなラベルを付与するのは限界がある => 教師なしで実世界の
特徴を獲得する⼿法が必要？
•  もちろん，タスクによってはImageNetは多⼤なる効果を発揮する

–  予測という⾼次な情報を推定
•  時間 t の状態が⾼度に観測できるようになったので t+n
の状態を予測する
•  少し調べただけでも下記のような論⽂が⾒つかる
•  Predicting Human Activities Using Stochastic Grammar
•  First-Person Activity Forecasting With Online Inverse Reinforcement Learning
•  Visual Forecasting by Imitating Dynamics in Natural Sequences
•  Fashion Forward: Forecasting Visual Style in Fashion（ファッションスタイルの予測）
•  The Pose Knows: Video Forecasting by Generating Pose Futures
•  What Will Happen Next? Forecasting Player Moves in Sports Videos
•  Encouraging LSTMs to Anticipate Actions Very Early
•  Anticipating Daily Intention Using On-Wrist Motion Triggered Sensing

–  技術が成熟してきたことで産業応⽤が加速する！
–  例：葉っぱセグメンテーション/カウントワークショップ
•  Link: https://www.plant-phenotyping.org/CVPPP2017
–  ⽇本は産業に⼒を⼊れている印象であり，より産業応⽤に
近い研究でプレゼンスを取るべき？
–  SSII/ViEWなどはまさにそのフィールド
•  SSII: https://conﬁt.atlas.jp/guide/event/ssii2017/top
•  ViEW: http://www.tc-iaip.org/view2017/

–  アプリケーション寄りの研究が増加
•  Vision for Xというセッションが存在
–  Fashion Concept Discoveryや
Predicting Privacy Risksなど内容は様々
•  それ以外のセッションでもファッション関連の研究など
出⼝が近い研究がいくつも⾒られる
–  出⼝が近くなると評価の仕⽅も変わってくる
–  単純な教師付き学習での評価尺度から離れていくことも
今後進んでいく？

–  ⾺をシマウマに変換しよう！
•  CycleGANより
•  「だからどうした！？」だけど、みんなが⾔うとものすごく⼤きな
宣伝効果になって論⽂を読んでもらえる
•  ⾺をシマウマに変換する画像はおそらくWeb⽤
最も効果的なプレゼンを適切なチャンネルで⾏う
https://junyanz.github.io/CycleGAN/

–  トップの研究者は難しいことを理路整然と説明
•  難しい理論もわかった気になってしまう！
•  論⽂は難しい，がプレゼンは⾮常にわかりやすいという⼈もいる
（発表を聞きに⾏こう！）

–  研究者の動きが激しい
•  特に，企業に移る⼈が多くなった
•  トップ会議やジャーナルに突破している⼈も移る（世界的に有名な
先⽣も完全移籍する噂も出るくらい）
•  海外でも10年後には企業から⼤学の先⽣になる⼈も多くなる？

–  CVPR2017と⽐較して「進展した！」というほどではない
•  CVPR2017は7⽉末，ICCV2017は10⽉末
–  ３ヶ⽉しか経ってない
•  CVPRでリジェクトされた論⽂も相当数ICCVに投稿され
る？
–  研究されたのはほとんど2016年？
–  とすると劇的な進展があるのは2018年の会議？
2018年の動向に注⽬！？（今後進展するか硬直するか）

–  ⽇本のプレゼンスは確実に落ちている
•  池内先⽣（General Chair）の投稿からも読める
–  https://www.facebook.com/katsushi.ikeuchi/posts/10208157860862612
•  参加者・投稿数から減っている
•  投稿数：ICCVは（特別）難しいという印象がある？（ICCVだって
いち国際会議である）
•  参加数：論⽂がオンラインで読めるから完結？（原因は他にも）
継続的に参加・投稿して査読を突破しよう！
まずは⼀⼈⼀本，投稿しよう！！

–  中国の勢いがすごい！
•  今に始まった話ではないが，やはりすごい（下図USAにも中国勢が
いるはずなので実質的にはトップ？）
•  ⼈⼝が多い以上に，勢いがある
•  「とにかくみんな論⽂出そう」とか「研究資⾦，⼈材，データなど
を集めて戦えるような体勢に」など⾒習わないといけない
https://www.facebook.com/katsushi.ikeuchi/posts/10208157860862612

–  独国⼤学の卒業条件
•  会場で聞いたリアル
•  メジャーな国際会議に２本以上論⽂を通すこと
–  この分野だとCVPR/ICCV/ECCV/NIPS/ICML等
•  世界的に知名度の⾼いジャーナルに１本以上論⽂を通すこと
–  この分野だとTPAMI/IJCV/TIP/PatternRecognition/CVIU等
•  プレッシャーと戦いながらも楽しそうに研究している！
–  実際にドロップアウトする⼈ももちろんいる
•  ⼈に⾒てもらえる会議でないと意味がないという考え？
–  実際に使ってもらえる技術もその中で磨かれる

–  プロジェクト化しよう
•  論⽂を連続的に出せる仕組みを構築
•  グループで研究しよう！
•  国際会議１：データセットを考案
•  国際会議２：発展⼿法を提案
•  国際会議３：別視点（別問題）で論⽂を執筆

–  他の分野の勉強をしよう
•  CVも他の分野と結びつくことで発展する
勉強会など集まりがあったら積極的に参加しよう！

これから引⽤されそう（流⾏りそう）な論⽂
-  すでに引⽤されている論⽂も含みます

引⽤されそうな論⽂（1/18）
•  Mask R-CNN (ICCV Marr Prize)
–  物体検出とセグメンテーションを回帰してインスタンスセ
グメンテーションを⾼度化
–  RoIAlignで抽出する特徴と⼊⼒画像サイズを⾼精度でalign
–  backboneである特徴抽出の段階，ResNeXtを⽤いる

•  Genetic CNN
–  ⾃動的にディープネットワーク構造を学習する⼿法の提案
–  遺伝アルゴリズムを利⽤し，サーチ空間を探索する
–  固定⻑なバイナリストリングで従来のディープネットワー
クをエンコーディングする⼿法を提案した
タスクごとに最適なネットワークを発⾒？

•  Photographic Image Synthesis With
Cascaded Reﬁnement Networks
–  セマンティック画像から⾼解像度写真を合成する⼿法
–  GANを使⽤せずに，end-to-endなフィードフォワード
ネットワークで⾼解像度画像を⽣成できることを⽰した
ビデオ: https://www.youtube.com/watch?v=0fhUJT21-bs

•  SSD-6D: Making RGB-Based 3D Detection
and 6D Pose Estimation Great Again
–  One-shot RGB画像から物体検出と3次元6D姿勢を出⼒
–  Inception v4を⽤いて画像から多スケールな特徴抽出，SSDベースな⼿法で物
体検出と姿勢推定
RGB画像だけでも⾼精度で3次元情報を推定できることを⽰した

•  KD-network
–  3次元認識のためのディープラーニング構造KD-networkを
提案した
–  様々な3次元認識タスクに活⽤可能（物体識別，セマン
ティックセグメンテーション，形状補完など）
octree, r-treeなどの幾何構造でディープラーニングの構造にできる？

•  Playing for Benchmark
–  ゲーム動画から25万枚以上の⾼解像度画像からあるデータセット提案
（ビデオフレーム，全部ground truthあり）
–  様々なタスクに適応可能（セマンティックセグメンテーション，インスタンスセグメン
テーション，三次元シーンレイアウト分析，視覚オドメトリー、オプティカルフローなど）
動画：https://www.youtube.com/watch?v=T9OybWv923Y

•  Grad-CAM
–  あらゆるCNNベースな⼿法が“どこを⾒ている”のかを可視
化できる⼿法の提案
–  従来の可視化⼿法より⾼解像度の結果（下図4列⽬）
–  マルチタスクに適応（画像分類，画像説明⽂，ビジュアル質問回答）

•  CycleGAN
–  2枚の画像ペア間の変換を学習するGANの⼿法を提案
–  従来⼿法との違いが1対1のペアじゃない場合でも学習可能
画像を変換する⼿法なので，様々な場⾯で実⽤できそう

•  What Actions are Needed for
Understanding Human Actions in Videos?
–  これまでの⾏動認識⼿法やデータセットを
様々な⾓度から分析
–  現状の位置づけと今後の⽅向性を議論
•  これまでの⼿法は何を学習していたのか？
•  ⾏動を理解するためにはどのようなクラス設計が必要か？

•  Detect to Track and Track to Detect
–  ビデオから同時に物体検出と追跡を⾏うend-to-endなネッ
トワークを提案
–  隣接するフレーム間の対応関係を表すcorrelation feature
を提案
•  従来のネットワークより構造的に簡単

•  Deformable Convolutional Networks
–  CNNのconvolutionカーネルの形状を学習ベースで可変に
する⼿法の提案
–  deformable convのreceptive ﬁeldを可視化すると、物体
ごとに定性的に妥当な領域になっていることが確認できた
コード：https://github.com/msracver/Deformable-ConvNets

•  First Person Activity Forecasting
–  ⼀⼈称カメラからの⼈物⾏動予測を実⾏する
ためのオンラインでの逆強化学習
–  従来の逆強化学習は⾏動を観測して報酬（予
測対象）を学習するに⽌まっていたが、本論
⽂で提案のOnline IRLはストリーミングされ
る動画から状態やその遷移、報酬、⽬的地ま
でを推定可能

•  TorontoCity Dataset
–  ⾃動運転，都市解析などに応⽤
–  多種センサ（カメラ，ステレオ，LiDAR，ドローン等）より観測された超⼤規模DB
–  ⾼度な地図情報からアノテーションを実施

•  Mapillary Vistas Dataset
–  世界規模の位置情報と意味ラベルが付与されたデータ
–  100種の物体，インスタンスごとの切り分け，時間帯，位
置，カメラの種類まで提供されている

•  Dense Captioning Events in Videos
–  動画像中のイベントを説明
–  Denseは空間的にではなく，時間的に重なっていても同時
に複数の説明⽂を返却，という意味で使われている
–  ActivityNet Challengeでも同タスクが開催された
http://activity-net.org/challenges/2017/

•  Learning to Reason: End-to-End Module
Networks for Visual Question Answering
(Spotlight)
–  ⼊⼒された質問の意味をくみ取って答えを返すVisual Question
Answeringネットワーク(N2NMNs)を提案
複数のタスクを⼀つのアプリケーションにまとめられる！

•  Learning Spatio-Temporal Representation
with Pseudo-3D Residual Networks
–  3D Convolutionを普通に使うのは⼤変
–  1x3x3 (spatial) と 3x1x1 (temporal) の組み合わせで
3x3x3 (spatio-temporal) convolutionをするPseudo-3D Conv

•  Open Set Domain Adaptation
–  従来のDomain Adaptationは基本的に
SourceとTargetのクラスが同じという設定 (Closed set)
–  認識対象以外の画像やSourceにしかないクラス，
Targetにしかないクラスが存在するという実シーンに近い
Open setでのDomain Adaptationを提案

フォーカスすべき研究分野
-  ICCVにてディスカッションした結果

フォーカスすべき研究分野（1/8）
•  3D Convolution
–  より⾼次なカーネルでの畳み込みが重要
–  時系列処理（xyt），実空間処理（xyz），ライトフィール
ド（xyuv）など2D+α
–  当プロジェクトでも3DカーネルのPyTorchのコードや学習
済み時系列モデルを提供
•  3Dカーネルを持つResNetsをKinetics Human DBで学習
•  3D-Resnets-PyTorch: https://github.com/kenshohara/3D-ResNets-PyTorch
•  3D-ResNets-Torch: https://github.com/kenshohara/3D-ResNets

•  より⾼次なラベルを返却するモデル
–  ⼈間の知識や直感等をコンピュータに実装
•  危険，異常，不快，など
–  画像キャプション/質問回答はより進化する？
•  画像の事象を総括的に捉える，組み合わせて初めて明らかになる知
識の獲得
–  画像に⾒えないものを推定
•  ⾏動予測，未来の状態推定

•  ⾼度な教師なし学習
–  ⼈間を真似て教師あり学習を倒せるような学習を考案
–  教師なしでパラメータ学習して，画像識別タスクで
ImageNet学習済モデルに勝てたら⾼度と⾔っていい？
–  ImageNetに置き換わるような特徴表現学習を実施！

•  説明できるコンピュータ
–  Beyond 100%?
•  https://www.slideshare.net/SeiichiUchida/cnn-65229102
–  100%認識できるよりも，80%の性能でも残りの20%を
「説明できること」（なぜなぜ質問をコンピュータにさせる？）
–  今回もGrad-CAMやVisual Reasoning（下図）など

•  アプリケーション（社会実装）
–  技術と同時に，実装に使うところまで試してみる
–  Deploy or Die!

•  成熟したアルゴリズムをベースにして研究する
–  研究分野ではないが重要な考え⽅
–  組み合わせるでも良いし，⾼精度なモデルを正解値として
もよい
–  Keywords: Object Detection, Semantic Segmentation,
Instance Segmentation, Video Recognition etc...

•  昔に学ぼう！
–  ⾼度になったアルゴリズムを⽤いて以前の問題を解決する
ものを考案
–  低次元な局所特徴
•  Learning Compact Geometric Features: 32次元（約10分の1の
サイズ）で従来よりも⾼精度な3次元点群マッチングを実現

•  データを集めよう！
–  ⾃分の問題設定を作って研究する
–  データも同時に集めて（できれば）公開する

今後の⽅針
-  では，どうすればよいか？

今後の⽅針（1/3）
•  今こそ「サイエンス」をしよう！
–  今の技術がこうだからこう研究するではない
–  より抽象度の⾼い，普遍的な，科学的な知⾒に基づいて議
論する
•  「⼈間の視覚の〜に関する仕組みに学んで〜の研究をする」

今後の⽅針（2/3）
•  研究のグランドデザイン（普遍的に重要）
–  ICCV 2017 Best Paper (Marr Prize)より
–  Kaimingさんや研究グループ員は初めからグランドデザイ
ン（⼤きな地図）がを共有していて，⾃分がいる場所/進む
べき⽅向が直感的に分かっている（ように⾒える）
–  グランドデザイン例：位置・領域・意味を同時に推定
•  SPP [TPAMI15]：任意の領域で特徴抽出
•  Faster R-CNN [NIPS15]：候補領域+物体識別をEnd-to-End処理
•  Residual Learning [CVPR16]：構造をより深く，特徴を先鋭化
•  Mask R-CNN [ICCV17]：グランドデザインを達成
–  さらに，Sub-ThemeやSub-IssueをMSR/FAIRの優秀なイ
ンターン⽣と研究
BestPaper!
BestPaper!

今後の⽅針？（3/3）
•  今こそ結集して研究しよう！
–  集合知を発揮した研究
–  同じ研究室のメンバーで継続的に研究するではなく，多様
性の中で研究を開始

以下、まとめ論⽂集
-  ICCV2017論⽂のまとめが93本あります
-  テンプレートが定まっていないものもありますが
ご了承ください

Justin Johnson, Bharath Hariharan, Laurens van der Maaten, Judy
Hoﬀman, Li Fei-Fei, C. Lawrence Zitnick, Ross Girshick, “Inferring and
Executing Programs for Visual Reasonin”, in ICCV, 2017. (Oral)
【1】
Keywords: Visual Reasoning, Visual Question Answering (VQA)
新規性・差分
概要
・⼈間のような解釈をコンピュータに⾏わせようとする試み。本研究
では質問回答（VQA）を題材としており、機械が⾃然⾔語から直接
ニューラルネットにより抽象化・回答していたところを、機械に解釈
しやすいプログラム構造に翻訳（PG; Program Generator）してから
画像を理解して質問に回答する構造を提案（EE; Execution Engine）
した。PGは⼆段階のLSTMにより構築され、⼊⼒の⾃然⾔語から構造
化されたプログラム⾔語に変換、EEはResNetベースのCNNにより抽象
化された画像特徴量や構造化されたプログラム⾔語から適切な回答を
準備する。
・機械では扱いづらかった⾃然⾔語を、より解釈性の⾼いプログラム⾔語に構造化してから画像を理解するというモデルを考案し、従来モ
デルから⼤きく精度向上させただけでなく、Human-levelの精度まで超えることを達成。
・Toy-Problemでの実験は収束に向かい、今後はリアルな空間においてVisual Reasoningが⾏われる？
Links
論⽂: https://arxiv.org/pdf/1705.03633.pdf
プロジェクト（コードあり）:
http://cs.stanford.edu/people/jcjohns/iep/
（左図）のような
How many~?, Is
there~?等，⼈間に
とっての⾃然⾔語を
機械に理解しやすい
形式に⼀度変換す
る。（下図のPG）

Shenlong Wang, Min Bai , “TorontoCity: Seeing the World with a Million
Eyes”, in ICCV, 2017. (Spotlight)
【2】
Keywords: Large-Scale Datase (taken by Drone, LIDAR, Stereo cameras, ... )
新規性・差分
概要
・ TorontoCityという⼤規模なベンチマークを提案しました。
・ TorontoCityはToronto地域の合計712.5平⽅kmの⾯積，⻑さ8439kmの道
路，およそ400, 000 のビルで合成されている⼤規模なデータセットです。
TorontoCityのデータは主に⾶⾏機，ドローン，TorontoCityの⾞から撮影した
データで，アノテーションの精度も⾮常に⾼いです。
・ TorontoCityベンチマークを⽤いて，いくつかの新規のタスクが解決可能に
なる（例えば：ビルの⾼さの推定，道路セグメンテーションなど）
・⼤規模でかつアノテーション精度が⾼いデータセットの提案。
・このベンチマックを⽤いることで，様々な視点から TorontoCityを観測
することが可能になる。
・いくつか新規のタスクの提案：ビルの⾼さの推定，ビルのインスタンス
セグメンテーション，ビルのcontour抽出など。
Links
　　　データセットの例
データセットの例
従来データセットとの⽐較

Dotan Kaufman, Gil Levi, Tal Hassner, and Lior Wolf, “Temporal
Tessellation: A Uniﬁed Approach for Video Analysis”, in ICCV, 2017.
【3】
Keywords: Video Understanding, Captioning, Summarization, Action Detection, Sound Prediction
新規性・差分
概要
・動画理解に向けた新しい⼿法を提案．Video Captioning,
Summarization, Action Detectionなど様々なタスクに適⽤可能な単⼀
のフレームワーク．最近の画像間での画素単位の対応付け⼿法に基づい
て新規⼿法を提案．動画を1次元の情報として捉えて，Reference
VideoとTest Videoのフレームごとの対応付けを⾏い，Reference
Videoが持つSemantic Label（タスクごとに異なる）を転移させる．時
間的な⼀貫性を考慮するために，毎フレームで最近傍を取るのではなく
ViterbiアルゴリズムやLSTMを⽤いて⼀貫性のあるラベルを転移させて
いる．様々なタスクでstate-of-the-artを超える精度を達成．
・様々な動画タスクに適⽤可能な単⼀のフレームワークを提案
・Video Captioning, Summarization, Temporal Action
Detectionでstate-of-the-artを超える精度を達成
Links
Github: https://github.com/dot27/temporal-tessellation
Action Detection
on THUMOSʼ14

Mohammad Sadegh Aliakbarian, Fatemeh Sadat Saleh, Mathieu
Salzmann, Basura Fernando, Lars Petersson, Lars Andersson,
“Encouraging LSTMs to Anticipate Actions Very Early”, in ICCV, 2017.
【4】
Keywords: Action Anticipation, LSTM, Attention
新規性・差分
概要
・コンテキスト（⼤域特徴）やアクション（局所特徴）を考
慮した⾏動予測に関する研究。右図のようなフロー図で処理
を⾏い、特徴として2段階のLSTMを構成していることであ
る。1st-LSTMではコンテキスト特徴をエンコーディング、
2nd-LSTMでは1st-LSTMの出⼒やCNNにより抽象化された
アクション特徴を⼊⼒として総合的な状況を判断して予測を
実⾏する。損失関数（１）はFalse Positive/Negativeが最
⼩になるように設計されている。
・コンテキスト/アクション、2段階LSTM、損失関数の提
案により、従来研究よりも相対的に22.0%@JHMDB-21、
14.0%@UT-Interaction、49.9%@UCF-101の向上が⾒
られた。特に、UCF101においては最初の1%のシーケンス
で80%の予測（早期認識？）ができるなど顕著な精度を実
現した。
Links
論⽂ :
https://arxiv.org/pdf/
1703.07023.pdf

Jifeng Dai , Haozhi Qi , “Deformable Convolutional Networks ”, in ICCV,
2017. (Oral)
Keywords: deformable convolution, deformable RoI pooling
新規性・差分
概要
・CNNのconvolution カーネルの形状を学習ベースで可変
にする⼿法の提案。固定形状であったカーネル形状を⼊⼒
画像の画素位置に適した形状にする。特徴マップからまず
通常の畳み込み層によって画素位置のオフセットを算出
し、オフセットを考慮した画素位置に対してバイリニア補
完によって画素値を決定したのち、それらの重み付けを出
⼒する。同様にRoI poolingのグリッド領域も可変とする
deformable RoI poolingも提案。
・semantic segmentationと物体検出においていずれの
モデルを⽤いた場合でもdeformable conv を⽤いた⽅が
精度が⾼かった。
・deformable convのreceptive ﬁeldを可視化すると、物
体ごとに定性的に妥当な領域になっていることが確認でき
た。(図参照)
Links
論⽂ https://arxiv.org/pdf/1703.06211.pdf
プロジェクト
https://github.com/msracver/Deformable-ConvNets
【5】

J. Martinez, R. Hossain, J. Romero, and J. J. Little, “A simple yet eﬀective
baseline for 3d human pose estimation”, in ICCV, 2017.
【6】
Keywords: 3d pose estimation, 2d to 3d
・2Dの姿勢から3Dの姿勢に変換する⼿法の提案。
・ネットワークはsimple, deep, multilayerに構成されてお
り、2D座標を⼊⼒すると3D座標が出⼒される。⼊⼒が座標の
みなので、学習コストなどが⼤幅に削減できている。
・学習にはhuman3.6m, HumanEva, mpii pose datasetを
⽤いている。
概要
Links
論⽂ : https://arxiv.org/pdf/1705.03098.pdf
コード：https://github.com/djangogo/3d-pose-baseline
動画：
https://www.youtube.com/watch?
v=Hmi3Pd9x1BE&feature=youtu.be
新規性・差分
・⾮常にシンプルながらも⾼精度な結果を出している。

David Novotny, Diane Larlus, Andrea Vedaldi, “Learning 3D Object
Categories by Looking Around Them”, in ICCV, 2017. (Oral)
【7】
Keywords: 3D object categorization, 3D shape completion, Training data from videos,
新規性・差分
概要
・2DRGB物体画像から,視点,デプス,物体のコンプリート
な3次元点群を同時に予測するネットワークを提案した。
・異なるビデオから撮影した同じ物体をロバストでアライ
メントする視点分解ネットワークと⽋損な物体モデルから
コンプリートな3次元形状を推定するネットワークの2つを
ジョイントで構築した。
・視点推定，デプス推定，ポイントクラウド推定の3つの
タスクともstate-of-artな結果が得られている。
・3次元物体の分類の学習データとして従
来は⼿動でアノテーションや合成データな
どを⽤いる⽅が多い。ビデオから学習する
ことの有⽤性を⽰した。
・物体の視点のpertubationを利⽤し，ト
レーンデータ拡張を⾏う。従来⼿法と⽐べ
て、よりリアルなデータを得られている。
Links
論⽂: http://arxiv.org/abs/1705.03951
結果
ネットワーク
概要図

Jean Lahoud, B. Ghanem, “2D-Driven 3D Object Detection in RGB-D
Images”, in ICCV, 2017.
【8】
Keywords:3D object detection, Utilize 2D object detection to reduce search space
新規性・差分
概要
・1枚のRGB-D画像から物体の3Dバウン
ディングボクスを⽣成する⼿法を提案。
・Faster R-CNNを利⽤し2Dの画像か
ら，物体を検出，3DデータをMFE⼿法に
よりオリエンテーションを推定，また，
物体間の関係からバウンディングボクス
の最適化を⾏う。SUN RGB-Dデータセッ
トで⾼い精度と最も速い処理スピードを
達している。

・処理スピード（4.1sec per image）と
⾼い精度を得られていて，2D検出を3D
データに利⽤することの有⽤性を⽰した。
・３D物体オリエンテーション推定する
際，予めの物体のCADモデルが不要。
Links
論⽂:
https://ivul.kaust.edu.sa/Documents/
Publications/2017/2D-Driven%203D
%20Object%20Detection%20in%20RGB-D
%20Images.pdf
プロジェクト:
https://ivul.kaust.edu.sa/Pages/pub-3d-
detect.aspx
提案⼿法のプロセス
結果

Kuo-Hao Zeng, William B. Shen, De-An Huang, Min Sun, Juan Carlos
Niebles, “Visual Forecasting by Imitating Dynamics in Natural
Sequences”, in ICCV, 2017. (Spotlight)
【9】
Keywords: Visual Forecasting, Prediction
新規性・差分
概要
・⻑時間/短時間フレームの予測、未来の画像⽣成の問題を同時に
解決する予測⽅法を提案した。⼿法としてはRaw Imageの⼊⼒に
よるInverse Reinforcement Learning (IRL)を扱う。学習では指
針として「模倣学習」を⾏う。ある動作に類似したシーケンスを観
測して、その流れや分散を記憶する。強化学習とは異なり、エキス
パートの⾏動を観測することでコスト関数を復元（強化学習ではコ
スト関数を与える）することから逆強化学習と呼ばれる。
・ドメインに関する事前知識やハンドクラフト特徴が不要で、普遍的な予
測を実現した
・普遍的な予測では、⻑時間の⽂脈予測/短時間の⾏動予測、先の時間の画
像⽣成問題を同時に解決するフレームワークを提案している。
Links
論⽂:
https://arxiv.org/pdf/1708.05827.pdf
プロジェクト(to appear) :
http://ai.stanford.edu/~khzeng/projects/
vﬁd/
著者: https://kuohaozeng.github.io/
（下図）のように⻑時間フレームを
観測した上での予測、短時間の予
測、次フレームの画像⽣成を普遍的
に解く問題を取り扱う。

Chen-Yu Lee, V. Badrinarayanan, T. Malisiewicz, A. Rabinnovich,
“RoomNet: End-to-End Room Layout Estimation”, in ICCV, 2017.
【10】
Keywords: Room layout estimation, End-to-End network
新規性・差分
概要
・1枚部屋のRGB画像から部屋のレイアウトを出⼒
するEnd-to-Endトレーン可能なネットワーク提案。
・11種類の部屋レイアウト分布を定義し，それぞれ
の種類は異なるキーポイントを持っている。提案⼿
法は右の図のネットワークを⽤いて同時に⼊⼒画像
の部屋種類とキーポイントを検出。HedauとLSUN
データセットで性能が落ちない同時に，従来⼿法よ
り200＊から600*のスピードを達している
・従来⼿法がﬂoor,ceiling,wallのセマンティックセ
グメンテーションを画像から，その結果により部屋
レイアウト推定を最適化問題と取り扱う。提案⼿法
はEnd-to-Endネットワークでより⾼い精度と処理ス
ピードを達している。
・Recurrent構造を取り⼊れてキーポイントの検出
をリファインしパラメータ量をほぼ同様の状態で精
度を上げた。
Links
プロジェクト :
https://github.com/FengyangZhang/RoomNet_Caﬀe
RoomNetのネットワーク構造

Jacob Walker, Kenneth Marino, Abhinav Gupta, Martial Hebert, “The Pose
Knows: Video Forecasting by Generating Pose Futures”, in ICCV, 2017.
【11】
Keywords: GAN, VAE, Pose Generation
新規性・差分
概要
・画像⽣成の枠組みを⽤いて、⼈物姿勢の予測結果を⽣成するという⼿法を提案する。右図が
姿勢を予測する枠組みであり、(a)は⼊⼒のRGB画像、(b)は任意の⼿法により推定された⼈物
姿勢、(c)は予測された⼈物姿勢、(d)は予測された⼈物姿勢を基にして⽣成された未来のビデ
オである。本論⽂ではVAEやGANを⽤いた⽣成モデルを構成する。右下の図は全体のフローを
⽰している。基本的には過去の特徴記述（Past Encoder; CNN (AlexNet) + LSTM）、未来
の⼈物姿勢予測（Future Decoder; Pose-VAE）、最後に動画⽣成（Video Generator;
Pose-GAN）という形式になっている。
・画像全体よりも限られた特徴空間である「姿勢の予測」というもの
をベースにして動画⽣成を⾏うとより鮮明なモーションを推定するこ
とに成功する。
・従来法のVideoGAN[Vondrick+, NIPS16]よりもリアルな動画⽣成
が実現している。詳細はビデオ（
http://www.cs.cmu.edu/%7Ejcwalker/POS/selected1.html ）を
参照。
Links
http://www.cs.cmu.edu/~jcwalker/POS/POS.html
GAN-Zoo :
https://github.com/hindupuravinash/the-gan-zoo

Xin LI, Z. Jie, W. Wang, C. Liu, J. Yang, “FoveaNet: Perspective-Aware
Urban Scene Parsing”, in ICCV, 2017. (Oral)
【12】
Keywords: Urban Scene Parsing, Prespection estimation
新規性・差分
概要
・透視awaredな都市シーンセマンティックセグメン
テーション⼿法（右図）を提案した。
・FCNに近似してるネットワークを⽤いてUrban画像か
らピクセルごとに透視情報を推定する。推定により⼩さ
いオブジェクトが⼤量存在するregionを検出し，画像と
共にこのregionをより精密で解析する。また，透視情報
をprior制約とし，⾼い信頼度で同じ物体と判定された
物体領域だけをCRFsにより処理する。CamVidと
Cityspacesデータセットで⾼精度。

・透視情報をネットワーク全体で取り⼊れてい
るので，従来⼿法の”broken-down”と⼩さい物
体のエッジ崩壊の問題に強い。
・従来の⼿法と⽐べて，ベンチマックデータ
セットで最も良い精度を達成した。
Links
ネットワーク構造(上図：全体，右中図：透視推定)
結果（上-⼊⼒，中-
FCN，下-Ours）

Nicholas Rhinehart, Kris M. Kitani, “First-Person Activity Forecasting with
Online Inverse Reinforcement Learning”, in ICCV, 2017. (Oral)
【13】
Keywords: First-Person View, Activity Forecasting
新規性・差分
概要
・⼀⼈称カメラからの⼈物⾏動予測を実⾏するためのオンラインでの逆強化学習（Online
Inverse Reinforcement Learning (IRL)）を提案する。従来の逆強化学習は⾏動を観測して
報酬（予測対象）を学習するに⽌まっていたが、本論⽂で提案のOnline IRLはストリーミン
グされる動画から状態やその遷移、報酬、⽬的地までを推定可能である。
定義される状態は3次元位置(x,y,z)や把持している物体O、過去に⼈物が位置していたシーン
Hを含む（sは s = [x, y, z, o_1, …, o_|o|, h1, …, h_|K|] で⽰される）。そこにActions
a（やTransition Function T: (s, a) -> sʼ）を含めて報酬関数 R(s, a; Θ) が定義される。状
態や⾏動が観測されていくと次の状態遷移、報酬、⽬的地を予測する。
・⼀⼈称カメラにおいて初めてオンライン
で逆強化学習を⾏い、状態遷移、報酬、⽬
的地までを推定した。
・右の表はゴールの予測精度、右下の表は
ゴール発⾒と⾏動認識の結果である。
Links
論⽂
https://arxiv.org/pdf/
1612.07796.pdf
プロジェクト
http://www.cs.cmu.edu/
~nrhineha/darko.html
ビデオ
https://www.youtube.com/
watch?v=rvVoW3iuq-s
上の図はVisualSLAMにより観測された空間や
⼀⼈称カメラからの映像である。把持してい
る物体や常時観測する⼈物⾏動により、予測
対象を当てる。

Congqi Cao, Yifan Zhang, Yi Wu, Hanqing Lu, Jian Cheng, “Egocentric
Gesture Recognition Using Recurrent 3D Convolutional Neural Networks
with Spatiotemporal Transformer Modules”, in ICCV, 2017. (Spotlight)
【14】
Keywords: 3D Convolution, Egocentric Video, Gesture Recognition
新規性・差分
概要
・⼀⼈称ビジョンのジェスチャー認識において、Recurrent 3D Convolutional Networks
を⽤いて精度向上に取り組み、End-to-Endの学習を成功させた。特に、Spatio-Temporal
Transformer Module (STTM)により時空間的に隣接する3次元の特徴マップに対して変換
を⾏い、3次元のhomographyを考慮して特徴間の類似性を強める。⼿法を検証するため、
既存データのみならずジェスチャー認識に関するDBを新規に提案した。同データには83
ジェスチャー、24,000枚のRGB-D情報、50サブジェクト、6シーンを撮影した、という特
徴がある。
・従来のSpatial Transformer [11]を3次
元に拡張して、時系列変換を⾏うSTTMを
提案
・⼀⼈称ビジョンに現れるHomographyの
変化に対応
・新規にジェスチャー認識を⾏うデータ
セットを考案した
Links
論⽂:
http://www.nlpr.ia.ac.cn/iva/yfzhang/
datasets/iccv2017_cqcao.pdf 表は提案データセットでの実験結果。Homographyの
考慮や3DConvを再帰的ネットで特徴強化を⾏った結
果、SoTAな精度で認識した。

Hongyuan Zhu, Romain Vial, and Shijian Lu, “TORNADO: A Spatio-
Temporal Convolutional Regression Network for Video Action Proposal”,
in ICCV, 2017.
【15】
Keywords: Action Proposal, Convolutional Regression Network, Convolutional LSTM
新規性・差分
概要
・動画像中の⾏動候補領域であるAction Proposalを計算するため
の新たな⼿法を提案．この論⽂のProposalは時空間のTube上のも
の．従来⼿法では各フレームで⼈検出やActionness Scoreを計算
し，それらを接続していく⼿法が多い．このような⼿法では，時間
的な情報を⼗分に捉えられていないことが問題となる．この研究で
は，Convolutional LSTMを⽤いるT-CRNと，フレームごとの
Convolutionを⾏うS-CRNを⽤いてそれぞれから各フレームの
Bounding Boxを算出する．これらを統合し，Dynamic
Programmingによるフレーム間の接続を⾏うことで，時空間の
Action Proposalを計算する．
・S-CRNとT-CRNにより時空間の情報を扱い，それらのEnd-to-
Endでの学習を実現
Links
論⽂: http://romainvial.xyz/pubs/ICCV2017.pdf

Vicky Kalogeiton, Philippe Weinzaepfel, Vittorio Ferrari, Cordelia Schmid,
“Action Tubelet Detector for Spatio-Temporal Action Localization”, in ICCV,
2017.
【16】
Keywords: Action Localization, Tubelet
新規性・差分概要
・動画像中の⼈物⾏動を時空間で位置推定するための新たな⼿法を提
案．従来⼿法では，フレーム単位での検出とフレーム間での結合を⾏う
⼿法が多く，時間情報が⽋落していた．この研究では，複数フレームの
⼊⼒を結合し，各フレームのBounding Boxを推定する⼿法を提案．⼿
法は，物体検出⼿法であるSSDをベースとしている．各フレームに対し
て，重みを共有するCNNを適⽤していく．そして，各フレームの特徴
マップを結合して，anchor cuboidをベースにTubelet (各フレームの
Bounding Box) を推定する．これにより時空間の⾏動検出を実現．
・Anchor Cuboidをベースとして複数フレームのBounding
Boxを推定する⼿法を提案
Links
論⽂:
http://calvin.inf.ed.ac.uk/wp-content/uploads/Publications/vicky17iccv.pdf
プロジェクト: http://thoth.inrialpes.fr/src/ACTdetector/

Vicky Kalogeiton, Philippe Weinzaepfel, Vittorio Ferrari, Cordelia Schmid,
“Action Tubelet Detector for Spatio-Temporal Action Localization”, in
ICCV,2017.
【17】
Keywords: Action Localization, Tubelet
・動画像中の⼈物⾏動を時空間で位置推定するための新たな⼿法を提
案．従来⼿法では，フレーム単位での検出とフレーム間での結合を⾏う
⼿法が多く，時間情報が⽋落していた．この研究では，隣接する2フ
レームを⼊⼒として，その2フレームでのBounding Box (Micro-Tube)
を出⼒する⼿法を提案．⼿法はFaster R-CNNのように，RPNにより
Region Proposalを出⼒してからそのスコアを推定する形．各フレーム
でできたMicro-Tubeを結合することで，動画像中の⾏動を検出する．
・2フレームを⼊⼒としてMicro-Tubeを⽣成する新たなネッ
トワークの枠組みを提案
・フレームごとではなく，Micro-Tubeを結合していくことで
Action Tubeを⽣成
Links

Jan Hendrik Metzen, Mummadi Chaithanya Kumar, “Universal Adversarial
Perturbations Against Semantic Image Segmentation”, in ICCV, 2017.
【18】
Keywords: Universal adversarial pertubations, semantic segmentation
新規性・差分
概要
・セマンティックセグメンテーションの結果を間違わせる
pertubationsの存在を指摘し，⽣成⼿法を提案した。
・任意の⼊⼒画像が与えられた際，ほぼ同じセマンティッ
クセグメンテーションの出⼒をさせるpertubationsの存在
を指摘した。また，ターゲットクラスだけを除かれ，他の
クラスに影響をほぼ与えないpertubationsの存在を指摘し
た。
・Cityscapesデータセットに対し，提案⼿法はstatic
targetとdynamic targetの２つのタスクに有効的に
FCN-8Sネットワークをfoolできた。
・従来のuniversal adversarial perturbations提案は画像
分類を対象としている。提案⼿法の対象はセマンティック
セグメンテーション。
Links
定性的結果（列1,2:static target、列3,4:dynamic target）
定量的結果（Cityscapesデータセットをfoolする際の成功率）

Shanghang Zhangyz, Guanhang Wuy, Jo˜ao P. Costeiraz, Jos´e M. F.
Moura, “FCN-rLSTM: Deep Spatio-Temporal Neural Networks for Vehicle
Counting in City Cameras”, in ICCV, 2017.
【19】
Keywords:FCN, LSTM, Vehicle Counting
新規性・差分
概要
・低解像度な都市カメラを⽤いて⾃動⾞の交通量を計測す
る試み。個々の⾞両を認識して交通量をカウントするので
はなく、初めにFCNを⽤いてピクセルレベルの⾞の密度
マップを算出した後、LSTMにて数をカウントするネット
ワークを構築した。
TRANCOSデータセットとUCSDデータセットにて従来⼿
法と⽐較し、効果を確認。(右表参照)
・物体の密度マップを算出したのち、直接数をカウントす
る⼿法が従来提案されていたが、その⼿法だとバスのよう
な⼤きな⾞両が存在する場合に誤差が⼤きくなる。FCNと
LSTMを組み合わせて物体の数をカウントする⼿法を初め
て提案した。
Links
ネットワーク
密度マップ
ベンチマーク

Marc Khoury, Qian-Yi Zhou, Vladlen Koltun, “Learning Compact
Geometric Features”, in ICCV, 2017.
【20】
Keywords: Geometric Features
新規性・差分
概要
・3次元の点群のマッチングを実現するためのCompact Geometric Features
(CCF)を提案する。CCFはデータドリブンな学習をdeep networksにて⾏い、⾼
次元なヒストグラムからより低次元のユークリッド空間に射影する。右図に⽰す
ようにCCFは他の特徴マッチング（e.g. SHOT, PFH）より低次元（横軸
Dimensionality）でありかつ⾼精度（縦軸Precision(%)）な特徴マッチングで
ある。CCFの特徴として、球状に近傍点を探索してヒストグラムを記述する点に
あり、Triplet Embeddingによりヒストグラムを低次元に圧縮する。
・コンパクトな特徴（12次元/32次元）で⾼精度な3次元の点群マッチングを
実現するCompact Geometri Features (CCF)を提案した。
・図や表はベンチマークによる評価である。右図はlaser scan data test set
やSceneNN test setにおけるPrecisionのカーブ、下表はRedwood
benchmarkにおけるRecall/Precisionである。
Links
論⽂:
https://
people.eecs.berkeley.edu/
~khoury/papers/learning-
geometric-features.pdf

Kaiming He, Georgia Gkioxari, Piotr Dollar, Ross Girshick, “Mask R-CNN”,
in ICCV, 2017. (Oral)
【21】
Keywords: Instance segmentation, RoIAlign, ResNeXt ， FCN
新規性・差分
概要
・instance segmentationフレームワークの提案です。
・Faster R-CNNのオブジェクトバウンディングボクス検出のbranchに，
parallelでオブジェクトのセグメンテーションマスクを検出するbranchを追
加する。従来のRoI regressionのRoI Poolのharsh quantizationを除き，抽
出特徴と⼊⼒画像をalignするRoIAlignを⽤いる。RoIAlignから抽出した特徴
をFCNによりセグメンテーションマスクを⽣成する。また，フレームワーク
全体の特徴抽出の際，ResNet-101-FCNを⽤いる。
・COCO 2016 challengeでバウンディングボクス検出，オブジェクト検出，
ひとキーポイント検出の３つのタスクともトップだった。

・5fpsのスピードでstate-of-artなinstance segmentationの精度を⽰した。
・精度向上するための様々な取り組み：１．ResNet-101-FCNで特徴抽出；
２．RoIAlignで特徴と⼊⼒画像を精度よくalignする。３．物体のバウンディ
ングボクス検出及び分類とマスク検出のbranchをparrelelで⾏う。
Links
論⽂:
https://arxiv.org/
pdf/1703.06870.pdf
Mask R-CNNのフレームワーク（上図：全体，右中図：head）
instance segmentationの結果（左：定量，右：定性）

S. Palazzo, C. Spampinato, I. Kavasidis, D. Giordano, “Generative
Adversarial Networks Conditioned by Brain Signals”, in ICCV, 2017.
【22】
Keywords: EEG(electroencephalograph), GAN, Condition GANs
新規性・差分
概要
・脳波を条件でGANにより画像⽣成の研究です。
・脳波（EEG）が視覚関連の情報をencodeしている従来の研究がある。また，
脳波（EEG）class discriminativeという特徴がある。この研究は，ImageNet
の40クラスを対象に，6名の受験者に40クラス＊50枚の写真を⾒せ，写真をみ
るときの脳波を記録する。そして，記録した脳波の情報をLSTMなどにより時系
列解析し，encodeする。encodeされた脳波の情報を条件とし，condition GAN
により，画像と脳波を関連づける。訓練済みのネットワークにより，脳波から
対応している画像の⽣成ができる。
・脳波からリアルな画像を⽣成できた。⼜，内部バリエーションが多いクラス
の⽣成結果のリアル性が相対的に低い。
・従来の脳波と視覚の研究は分類タスクの⽅が多
い，この研究はcondition GANで脳波から画像を⽣
成する。
・従来の脳波信号の処理はfull EEGから特徴抽出す
る⽅が多い。この研究はLSTMによりEEGの時系列
特徴を抽出する。
・脳波の情報から画像⽣成することで，⼈の脳波を
解析することの可能性を⽰した。
Links
論⽂:
http://crcv.ucf.edu/papers/iccv17/
egpaper_for_review.pdf
フレームワーク（上図：全般，右下：脳波(EEG)のencoder）
脳波から⽣成できた画像例

Relja Arandjelovic, Andrew Zisserman , “Look, Listen and Learn”,in ICCV,
2017.
【23】
Keywords: Audio-Visual Correspondence
概要
・ラベルの無いビデオデータセット(Frickr-SoundNetや
Kinetics-Sounds)を⽤いてオーディオとビデオの対応関係
をゼロからトレーニングすることで、何を学べるのかとい
うことを検討している。(AVC training)
・この分類タスクで学習したL3-Netにおいて、⾳楽分類
ではHunanレベルに近づき、教師なしのImageNet分類に
関して最先端のアプローチと同等の性能を発揮している。
・注⼒領域などを可視化した分析においては、楽器の詳細
な種類など、細かい区別を⾃動的に学習できていることを
⾔及している。
・教師なし学習において⾳声とビデオの対応関係を学習す
るAVC-task
・L3-Net
・ここでは⾳声特徴を周波数スペクトルの画像特徴として
取り扱っている
Links
論⽂: https://arxiv.org/abs/1705.08168
L3-Net 出⼒は
・対応している(Positive)
・対応していない(Negative)の２クラス
新規性・差分

Stephan R. Richter, Zeeshan Hayder, Vladlen Koltun, “Playing for
benchmarks”, in ICCV, 2017. (Spotlight)
【24】
Keywords: Large scale high-resolution scene dataset
新規性・差分
概要
・様々なvisual perceptionに⽤いられる⼤規模(250k)な
⾼解像度のリアル性が⾼い合成ビデオデータセットの提
案。
・ビデオフレームごとに5種類(右図)のアノテーション
データを定義している。データはdriving, riding及び
walkingする際のビデオフレームで，合計距離は184キ
ロ，多様な背景が含めている。時系列データを取り扱う
ネットワークや将来的のマルチタスクの研究に⽤いられ
る。
・Grand Theft Auto Vという都市と周囲環境をシミュ
レーションするゲームからデータ収集した。また，アノ
テーションデータ⽣成に関連するデータだけをキャプ
チャーするmiddlewareを開発し，ビデオレートで精密な
データの収集する。
・他の合成データセットと⽐べstate-of-artなリアル性
・low-levelからhigh-levelのマルチタスクに⽤いられる5
種類のアノテーションを定義
・新たな⾼レートデータ収集とシミュレーションのソー
スコードをaccessしないアノテーション
⽅法の提案。
Links
論⽂:
http://vladlen.info/papers/playing-for-
benchmarks.pdf
プロジェクト:
www.playing-for-benchmarks.org
データセットの例（時計回り順：⼊⼒，semantic segmentation, instance
segmentation, 3D scene layout, visual odometry, optical ﬂow ）
異なるデータセット分布の⽐較（右図）：
提案データセットVIPERはよりクラスごとの実例
が分散
提案データセットで2種類のセマンティック
セグメンテーション
モデルで性能評価（下図）：

Xiaojuan Qi, Renjie Liao, Jiaya Jia, Sanja Fidler, Raquel Urtasun, “3D
Graph Neural Networks for RGBD Semantic Segmentation”, in ICCV,
2017. (Oral)
【25】
Keywords: RGBD semantic segmentation, Graph Neural Network
新規性・差分
概要
・3D graph neural networkを⽤いたRGBDデータのsemantic
segmentation⼿法を提案した。
・3D点群から得られる幾何情報と2Dのアピアランスの情報をジョイ
ントし，精度がstate-of-artなセマンティックセグメンテーションを
⾏う。
・⼊⼒されたRGB-D画像に対し，3D点群からポイントがノード，ポ
イントの3D空間上の64近傍のポイントとの間エッジでつなぐgraphを
作る。また，⼊⼒されたRGB画像に対し，CNNによりピクセルごとに
特徴を計算。計算したピクセルごとの特徴を初期値に，graph +
RNN(or LSTM)により予め設定したタイムステップＴまでピクセルご
との特徴を更新する。最後に，更新した後の特徴と初期の特徴を連結
し(更新した後は3D情報を含めた特徴表⽰，初期だけは2Dアピアラン
ス)CNN(論⽂ではMLP+Softmaxと)⽤いてセマンティックセグメン
テーションを⾏う。
・state-of-artなセマンティックセグメンテーション精度。
・Graph Neural Networkにより，3D幾何情報と2Dアピアランス
情報をジョイントする。
Links
論⽂:
https://www.cs.toronto.edu/~urtasun/publications/
qi_etal_iccv17.pdf
フレームワーク
結果（左図：SUN RGB-Dでの定量的⽐較，右図：定性的結果）

Alex Kendall, Hayk Martirosyan, Saumitro Dasgupta, Peter Henry, “End-
to-End Learning of Geometry and Context for Deep Stereo Regression”, in
ICCV, 2017. (Spotlight)
【26】
Keywords: Stereo vision, Disparity regression
新規性・差分
概要
・End-to-Endなステレオ画像ペアから，視差
（disparity）画像を回帰するフレームワークの提
案。
・提案フレームワークはまずCNNを⽤いてステレ
オ画像ペアからそれぞれの特徴を学習する。次
に，ステレオ幾何の知識に基づき視差のlevelごと
ステレオ画像の対応ペアの特徴を連結し
height*weight*disparityのcost volumeを作る。
次に，cost volumeを3D encorder decorderで
3D representationの学習と正規化を⾏う。最後
に，soft argminを⽤いてcost volumeから視差画
像を回帰する。
・KITTIでstate-of-artな精度とスピードを⽰し
た。
・End-to-Endで，pre-processingとregularization必要なし。
・テクスチャーなし，強い反射の場合もステレオ画像ペアの対応点を正し
く求めるため，従来研究はプーリングや正規化によて，誤差を抑える。こ
ういった操作により,細かいところの精度が下がる。提案⼿法はcnnを⽤い
て得られるglobal semantic contextを利⽤し，local情報が⽋損しても正し
くdisparityを推定する。
Links
提案フレームワーク（GC-Net）
結果（中図：
KITTI2015での結
果，
下図：⼊⼒，出⼒，
誤差マップ）

Xiaoguang Han, Zhen Li, Haibin Huang, “High-Resolution Shape
Completion Using Deep Neural Networks for Global Structure and Local
Geometry Inference”, in ICCV, 2017. (Spotlight)
【27】
Keywords: 3D Shape completion, Joint global and local geometry structure, LSTM-CF, 3D FCN
新規性・差分
概要
・⽋損な3Dshapeから形状をcompleteするEnd-to-End networkの提案。global shape推定とlocal shape reﬁneの2つsubネットワークで構
成される。
・global shape推定: ⼊⼒shapeは256*256*256のvolumetric distance ﬁeld.(表⾯のボクセルを1で表⽰，innnerボクセルを0で表⽰)。⼊⼒
されたshapeを32*32*32にダウンサンプルし，3DCNNにより畳み込む。また，ダウンサンプルした後，情報量が失うため，⼊⼒3D shapeを
6視点から128*128の2D画像に投影する。6枚の2D画像をLSTM-CFにより32*32*32の3D特徴を抽出，3DCNNにより畳み込んだ特徴と連結
し，32*32*32のglobal shapeを⽣成する。
・local shape completion:⼊⼒256*256*256のshapeを32*32*32サイズのパーツごとに，形状補完する。3Dencoderによりパーツを
4*4*4サイズにencodeし，globalも4*4*4encodeにし，2つの特徴を連結する。次に，
2層のFCを通し，次に，もう⼀回global特徴と連結した後，
3Ddecoderにより32*32*32にdecodeし，形状を補完。
・従来，計算時間とメモリーのため，3D CNNsは最⼤
32*32*32までの⼊⼒しか処理できない。このため，
3D形状補完の精度が制限される。提案⼿法はglobal 特
徴抽出し，それを⾒ながら⼊⼒shapeをlocalパーツに分
割し，パーツごとにより精密で形状を補完。提案⼿法は
256*256*256の⼊⼒shapeをstate-of-artな精度で補
完できる。
・novelなLSTM-CF+3DFCNによりglobal特徴抽出と
3Dencoder-decoderでlocal形状補完
⼿法を提案した。
Links
論⽂:
https://people.cs.umass.edu/~kalo/
papers/ShapePatchNet/
shape_patchnet_iccv.pdf
上図：提案フレームワーク，下図：定量的結果（完成度/ground truth
との正規化距離）

Roman Klokov, Victor Lempitsky, “Escape from Cells: Deep Kd-Networks
for the recognition of 3D point cloud models”, in ICCV, 2017. (Spotlight)
【28】
Keywords: Kd-Network, 3D point cloud, Multi-3D vision tasks(object recognition, shape retrieval, part segmentation)
新規性・差分
概要
・3D認識のタスクに⽤いられる新たなKd-tree 構造のディープ
ラーニング構造ーKd-Networksを提案した。
・ポイントクラウドを再帰的に2つのパーツに分割することにより
Kd-treeのようなKd-Network構造にする。leafノードはポイント
で，non-leafノードは学習可能な変換を表⽰。異なるタスクによ
りleafノートのrepresentationを定義する。異なる3D認識のタ
スク（part segmentation, object recognition, shape
retrieval）で従来⼿法と同じレベルの精度を⽰した。
・3D認識のタスクに対し，従来は3Dデータ
をuniform voxelに変換してから，3DCNNs
を適応。この研究は新たな3Dポイントクラ
ウドの認識のタスクに適応できる構造を提案
し，直接point cloudを処理できる。run
timeメモリーのコストも⼤幅に削減できる。
・octree, r-tree,kd-treeなどの従来幾何構
造でディープラーニングの構造を構築する可
能性を
⽰した。
Links
Kd-Netの構造

James Thewlis, Hakan Bilen, Andrea Vedaldi, “Unsupervised learning of
object landmarks by factorized spatial embeddings”, in ICCV, 2017. (Oral)
【29】
Keywords: Unsupervised learning, Invariant landmarks detection, factorization of image deformation
新規性・差分
概要
・unsupervisedで⼤量なデータから物体カテゴリご
との物体の不変structure（視点の変化と物体変形に
不変）を学習する⼿法を提案した。
・物体カテゴリごとに，不変な物体空間Soを定義
し，変形と視点が変換しても不変な物体のランドマー
クをその空間に対応するネットワークを構築した。
・実験を通し，提案⼿法がロバストで物体ランドマー
クを検出できることを⽰した。
・unsupervisedで物体構造学習と検出⼿法を提案
した。
・human face のデータセットで⾼い精度で
landmarkを検出できて，提案⼿法を⾼精度な
human face landmark検出の回帰に⽤いられるこ
とを⽰した。
Links
概要図
結果（左：検出したlandmark, 右：300-W
データセットでの結果⽐較）
物体の不変structureの概要
（同じクラスの物体の対応landmark
を空間S0の同じポイントrに表⽰す
る）

Zhiqiang Shen, Zhuang Liu, Jianguo Li, Yu-Gang Jiang, Yurong Chen,
Xiangyang Xue, “DSOD:Learning Deeply Supervised Object Detectors
from Scratch”, in ICCV, 2017.
【30】
Keywords:Object detection, training from scratch, DenseNet, SSD
新規性・差分
概要
・初の0からobject detectorsを訓練する（予めImagenet で
classiﬁcationを訓練する必要なし）フレームワークを提案した。
・0からobject detectorsを訓練する4つの法則を指摘した：１．
Proposal-free(multi-scaleのdeep supervisedにより実現できる )２．
deep supervision(これにより多層的で統合的な⽬標関数を作れる，ま
たvanishing gradients問題も解決できる)３．stem block(これにより
有効的に情報量の減衰を防げる)４．dense prediction structure(右図
の右に⽰している．この構造により，より少ないパラメータ量で⾼い精
度を得られる)。
・pascal voc, coco datasetで提案⼿法はstate-of-artな精度を⽰した
（訓練データはただvocとcoco, imagenetで訓練しない）
・初のimagenetなどでpre-trainしないobject
detectionの提案。しかも精度⾼い。
・classﬁcation, object detectionの２つ部分を
別々のロス関数で定義、別のデータセットで訓練
することがないので、imagenetのrgb画像形式に
こだわらず、医⽤画像やデプス画像やマルチスペ
クトル画像にも活⽤できる。
Links
コード: https://github.com/szq0214/DSOD
2種類のBoundingbox予測層の構造（左：SSD base,
右：DenseNet base）
PASCAL VOC2012で
の結果（左：定性的，
右：定量的）

Vu Nguyen, Tomas F.Yago Vicente, Maozheng Zhao, Minh Hoai, Dimitris
Samaras, “Shadow Detection with Conditional Generative Adversarial
Networks”, in ICCV, 2017. (Oral)
【31】
Keywords: Shadow detection, conditional GAN, scGAN
新規性・差分
概要
・conditional GANをshadow detectionに⽤いる⼿法を提案した。
・G（⽣成器）構造：U-Netの構造を⽤いている。⼊⼒は元の画像と
sensitivity parameter w，出⼒はshadowのマスク。
・D（弁別器）構造：Conv*4,FC,sigmoid activated functionの構
造を⽤いている。また，⼊⼒は元の画像とshadow マスク（ground
true/⽣成器の結果），出⼒はreal かfakeのラベル。
・UCFとSBUの２種類の⼤規模なshadow detction datasetで評価実
験を⾏い，従来の⼿法より最⼤17%のエラ=率を削減できた。
・cGANをimage-to-image translation問題に応⽤する
新たの例です。有効性を⽰した。
・cGANの構造に調整可能なパラメータを⼊れる新たな
cGAN構造scGANを提案した。提案のscGAN構造を⽤い
て他のクラスラベル分部はunbalancedな問題にも適応
できる。（例えばinfrastructure inspection
problems）
・従来のshadow detectionの⼿法はCRFにより局所的
な情報から推定する⽅が多い。提案⼿法は全局データ情
報を利⽤してる。
Links
論⽂:
http://
www3.cs.stonybrook.ed
u/~minhhoai/papers/
scGAN_ICCV17.pdf
scGANネットワーク構造
結果（定性：右
図，SBU Shadow
datasetでの結果：
下図）

Mehdi Noroozi, Hamed Pirsiavash, Paolo Favoro, “Representation
Learning by Learning to Count”, in ICCV, 2017. (Oral)
【32】
Keywords: Representation Learning,self-supervised learning, contrastive loss
新規性・差分
概要
・visual primitivesをcountingすることをベースとした監督信号でrepresentative学習の
⼿法を提案した。
・画像をパーツにし，全部のパーツのvisual primitivesの統合が画像を縮⼩して計算する
visual primitivesの数が⼀緒になることをベースに，contrastive lossを作っている。右図
のようAlexNetベースなネットワーク構造を⽤いる。同じ画像の部分のvisual primitives
の統合と画像を縮⼩して計算したvisual primitivesの差をできるだけ⼩さくし，異なる画
像の差を⼤きくするように学習する。
・提案⼿法はtransfer learning benchmarkより⾼い
精度を⽰した。
・⼿動でアノテーションする必要なし， visual
primitivesをcountingすることをベースとした⾃
⼰監督なrepresentation learning⼿法を提案し
た。
・提案⼿法が有効的に画像をscene outlineで
clusteringできることを⽰した。また，transfer
learningではstate-of-artな精度を⽰した。
・提案⼿法が部分の和＝全体の概念の有⽤性を⽰
した。この概念は⾊んな別のタスクに応⽤でき
る。
Links
提案⼿法ネットワーク構造
結果（PASCALデータセットでの
transfor 学習の定量的な結果：
下図，右図：COCOデータセット
でのactivateが⾼い結果（左），
activateが低い結果（右））

Shizhan Zhu, Sanja Fidler, Raquel Urtasun, Dahua Lin, Chen Change
Loy, “Be Your Own Prada: Fashion Synthesis with Structural
Coherence”, in ICCV,2017 .
【33】
Keywords: Generative Adversarial Networks, Image Retrival
新規性・差分
概要
・GANを⽤いた服装の合成画像⽣成の研究．合成したい
服装の⽂章を⼊⼒内容に沿った服装を⽣成し，⼊⼒画像中
の⼈物の姿勢に沿ってレンダリングする．79K枚分の服装
画像の⽂章記述を収集し，DeepFashionデータセット[8]
を拡張した．
・評価実験では，合成データを⽤いたファッションアイテ
ム検索およびアンケート調査といった定量的・定性的評価
を⾏い、両⽅でベースラインを上回った．
・⼈物の姿勢を保持したままでの服装の合成を実現した．
Fashion GANの提案: 2種類のGANを⽤いている．まず初め
に，服装画像および⽂章を⼊⼒し， Generatorからセグメ
ンテーションマップ S が⽣成される．次に⽣成したセグメ
ンテーションマップ S に基づいて，もう⼀⽅のGANによっ
て⽣成した服装(テクスチャ)をレンダリングしていく．
Links
論⽂:
https://www.cs.toronto.edu/~urtasun/publications/
zhu_etal_iccv17.pdf
プロジェクト: http://mmlab.ie.cuhk.edu.hk/projects/FashionGAN/
(上) Fashion GANのフレームワーク:
(中央) 定量的評価結果: ⽣成画像によ
るファッションアイテム検索の精度
(下) 定性的評価結果: ⼈による評価
結果．ランクが⾼いほど不⾃然な合成
画像

Ramprasaath R. Selvaraju, Michael Cogswell, Abhishek Das, Ramakrishna
Vedantam, “Grad-CAM: Visual Explanations from Deep Networks via
Gradient-based Localization”, in ICCV, 2017.
【34】
Keywords: Visual explanations for CNNs, guided backpropagation, CAM(class activation mapping)
新規性・差分
概要
・あらゆるCNN-based⼿法に対し，ビジュアル解釈でき
るclass discriminative localization⼿法Grad-CNNを提
案。
・画像及び興味があるクラスを⼊⼒して，Grad-CAM（右
図）を⽤いてそのクラスの判別にあたって，ピクセルの貢
献度を表すヒートマップ⽣成できる．また，従来の
guided backpropagation(興味があるクラスを１、他のク
ラスを０でbackpropagation)の結果と組み合わせ，より
⾼精度なclass discriminative localization図を⽣成でき
る．
・実験により，提案⼿法のlocalization能⼒が従来の
weakly supervised⼿法精度が⾼い．
・あらゆるCNNs⼿法をビジュアル解釈できる
（例えば：image captioning，visual question
answeringなどのタスクの⼿法にも対応可能）
・識別失敗例の可視化により，失敗する原因を分
析する⼿段を提供した
・Grad-CAMを⽤い，データセットのバイアス
性を分析できる
Links
コード: https://github.com/ramprs/grad-cam
Grad-CAMのoverview
ILSVRC-15val
に対し，異なる
weakly-
supervised
localization⼿
法の⽐較
（ｂ：guided
backprop, c:
Grad-
CAM,d:guided
Grad-
CAM）:Guided
Grad-CAMが⾼解像
でビジュアル解釈で
きる

Wadim Kehl, Fabian Manhardt, Federico Tombari, Slobodan Ilic, Nassir
Navab, “SSD-6D: Making RGB-Based 3D Detection and 6D Pose
Estimation Great Again”, in ICCV, 2017. (Oral)
【35】
Keywords: 3D detection, 6D pose estimation, Inception V4, SSD
新規性・差分
概要
・1枚のRGB画像から物体検出と物体6Ｄ姿勢を同時に⾏
う⼿法を提案した．
・ネットワーク構造（右図）の流れは：1．⼊⼒画像から
Inception V4を⽤いて，6スケールの特徴マップを⽣成す
る．2．SSD構造をベースとした⼿法で，6スケールの特徴
マップから同時にclass,viewpoints,in-plane rotationを
推定する．トレーニングデータはCOCO datasetを背景に
し，openGL により３次元モデルを背景に⼊れる⼈⼯デー
タ。
・提案⼿法は従来のstate-of-artなRGB-Dを
ベースとした⼿法より⾼い精度を得られた。
しかも，処理スピードは１桁程度速い。
・初めてのSSD構造を6Ｄ姿勢推定問
題に応⽤する⼿法。
・従来⼿法よりstate-of-artな精度と
速さ
・rgb写真を⽤いても有効的３d姿勢推
定できることを⽰した
Links
論⽂ :
http://openaccess.thecvf.com/
content_ICCV_2017/papers/
Kehl_SSD-6D_Making_RGB-
Based_ICCV_2017_paper.pdf
https://wadimkehl.github.io/
提案⼿法のネットワーク構造
結果（左下
図：定量的結
果（F1-
Score），右
下図：定性的
結果）

Christoph Feichtenhofer, Axel Pinz, Andrew Zisserman, “Detect to Track
and Track to Detect”, in ICCV, 2017. (Spotlight)
【36】
Keywords:Object detection and tracking from video, RPN, R-FCN
新規性・差分
概要
・ビデオから同時に物体検出と追跡を⾏うEnd-to-Endな
ネットワーク構造を提案した。
・提案ネットワーク（右図）はまず隣接するフレームに対
し，CNNにより特徴マップを抽出する．抽出した特徴マッ
プに対し，RPNとRoI Poolingにより物体のクラス及びバ
ウンディングをregressionする．そして，同じ特徴マップ
をR-FCN構造をベースな構造によりRoI Trackingを⾏い，
出⼒として隣接するフレーム間の対応バウンディング間の
transformationが得られる．この結果によりさらにフレー
ム間の物体検出を最適化できる．
・ImageNet VID validationデータセットで⾼精度達成。

・ビデオから同時に物体検出と追跡を⾏うネットワーク構
造を提案した。この２つのタスクを同時に⾏うことの有効
性を⽰した．
・隣接するフレーム間の対応関係を求められるcorrelation
feature を提案した。
・従来⼿法より構造簡単しかも⾼精度。
Links
論⽂ :
http://www.robots.ox.ac.uk/~vgg/publications/2017/
Feichtenhofer17/feichtenhofer17.pdf
https://www.robots.ox.ac.uk/~vgg/research/detect-
track/
提案⼿法のネットワーク構造
ImageNet VID validation setでの定量的結果

Seil Na, Sangho Lee, Jisung Kim, Gunhee Kim, “A Read-Write Memory
Network for Movie Story Understanding”, in ICCV, 2017.
【37】
Keywords: Memory Network, movie understanding
新規性・差分
概要
・新しい記憶装置付きニューラルネットワークを構築することによっ
て、⻑いビデオを理解し、QAタスクに取り組む。
・RWMN(Read-Write Memory Network)はWrite networkとRead
networkの⼆つのネットワークで構成され、従来⼿法より⾼い容量や柔
軟なメモリー読み込み・書き込みを達成した。
・QAベンチマークデータセットにおいてベスト性能を達成。
・既存⼿法では各メモリースロットを独⽴のブロックとす
るが、この研究では、多層のCNN構造を利⽤することに
よって、連続的なメモリーをチャンクとした読み込むこと
を可能にした。
・メモリーネットワークの読み込み・書き込み操作に対し
て、初めての多層CNNの利⽤の試み。
Links
論⽂ :
http://openaccess.thecvf.com/content_ICCV_2017/
papers/Na_A_Read-
Write_Memory_ICCV_2017_paper.pdf

Yikang Li, Wanli Ouyang, Bolei Zhou, Kun Wang, Xiaogang Wang, “Scene
Graph Generation from Objects, Phrases and Caption Regions”, in ICCV,
2017.
Keywords: Multi-task Network, Motion Capture, Scene graph generation
概要
・Multi-level Scene Description Networkを提案した．
・画像中の物体検出と同時に説明⽂を⽣成するだけでなく，説明⽂と画像
の対応関係も⽣成できる．説明⽂のある部分が画像の何処に対応するかを
反映できる．
・State-of-artの結果を達成した．
新規性・差分
・⼀つのネットワークで物体検出，説明⽂⽣成とモーション
キャプチャーの多タスク処理ができる構造を提案した．
・その構造が画像から抽出したセマンティックレベルの領域
特徴，⽂章の特徴また物体の特徴を有効的に融合する．
Links
【38】

Saihui Hou, Xu Liu and Zilei Wang, “DualNet: Learn Complementary
Features for Image Recognition”, in ICCV, 2017 .
Keywords: Image Recognition, Parallel Neural Networks, Complementary Features
概要
・画像認識でより精確な特徴を抽出できるDualNetを提案した
・提案した構造を現在よく使われるモデル（VGGやCaﬀeNetなど）に適
⽤すると，明らかに認識性能が上がることが分かる．またCIFAR-100 で
state-of-the-art な認識精度を達成した．
新規性・差分
・⼆つのSubnetworkから組み合わせる．相補的な特徴を学
習できる．
・End2Endな学習でモデルをトレーニングすることではな
く，まず⼆つのSubnetworkを交替的にトレーニングし，ま
た全ての分類器に対してFinetuningする．
Links
論⽂:
http://home.ustc.edu.cn/~saihui/project/dualnet/
iccv17_dualnet.pdf
【39】

Aseem Behl; Omid Hosseini Jafari; Siva Karthik Mustikovela; Hassan Abu
Alhaija; Carsten Rother; Andreas Geiger, “Bounding Boxes,
Segmentations and Object Coordinates: How Important Is Recognition
for 3D Scene Flow Estimation in Autonomous Driving Scenarios?”, in
ICCV, 2017 .
Keywords: 3D Scene Flow Estimation, CNN, CRF
概要
・⼤きな移動や局所的に曖昧な場合があるため、既存の3Dシーンフロー
推定の⽅法はよくできない場合がある．本論⽂がこれを克服するために，
２DのBounding-boxとInstance Segmentationの情報を利⽤する⼿法を
提案した．
新規性・差分
・幾何学的⼿掛かりを⽤いて新しい3D scene ﬂow ⼿法を
提案した， KITTI 2015 scene ﬂow benchmarkでstate-
of-the-art の性能を達成した．
・2DのBounding-boxとInstance Segmentation情報を利
⽤して3Dパーツ座標の予測性能を向上させる．
Links
論⽂: http://www.cvlibs.net/publications/Behl2017ICCV.pdf
【40】

Pan He; Weilin Huang; Tong He; Qile Zhu; Yu Qiao; Xiaolin Li, “Single
Shot Text Detector With Regional Attention”, in ICCV, 2017 .
Keywords: text detection, word-level, text attention, inception
概要
・Single-shot boxをベースとして⾃然シーンから⽂字領域の
Bounding-boxを直接出⼒する⼿法を提案した.
・ICDAR2015データセットでF-scoreが77%に達成した．他
のテストセットもトップの結果を得た．
新規性・差分
・Attentionモデルを利⽤し，粗いword-levelの⽂字領域の
特徴を求められる．そのattentional mapを⽤いて，より⾼
い精度を達成する可能性がある．
・Inceptionモデルを利⽤して，スケールが違うカーネルで
処理したら，より詳しい特徴が得られる．こうすると，学習
したモデルがmulti-scaleとmulti-orientationの⽂字にうま
く対応できる．
Links
【41】

Christoph Lassner; Gerard Pons-Moll; Peter V. Gehler, “A Generative
Model of People in Clothing”, in ICCV, 2017 .
Keywords: Attribute Recognition, GAN, Super Resolution
概要
・監視カメラから⼈の属性を分析する
・低解像度と遮断される場合にうまく対応できる．80%の
部分が遮断されても⼈の属性を抽出できると記載した．
新規性・差分
・敵対的学習の⼿法を⽤いて，Reconstruction
Networkを提案し，遮断された画像を⾃動的に補完す
る．
・Super Resolution Networkを利⽤し，低解像度の画
像からより⾼解像度の画像を⽣成できる．
Links
【42】

Masaki Saito; Eiichi Matsumoto; Shunta Saito; Peter V. Gehler, “Temporal
Generative Adversarial Nets With Singular Value Clipping”, in ICCV, 2017 .
Keywords: Temporal GAN, Video, Stable Training, SVC
概要
・ビデオを⽣成できるGANを提案した．意味的に
ビデオを⽣成することも可能．
新規性・差分
・Generatorが昔の三次元畳み込み層の構造では
なく，まずは提案されたTemporal Generatorを⽤
いて時間的にフレームに対応するLatent変数を⽣
成する．そして，そのLatent変数を利⽤し，フ
レームごとに画像を⽣成する．
・GANの学習が不安定に対して，Wasserstein
GANの⼿法でEarth Moverʼs distanceを最適化す
る．
・WGANの学習をより安定させるために，
Singular Value Clipping（SVC)を提案した．
Links
論⽂:
papers/
Saito_Temporal_Generative_Adversarial_ICCV_2017_p
aper.pdf
【43】

Xudong Mao; Qing Li; Haoran Xie; Raymond Y.K. Lau; Zhen Wang;
Stephen Paul Smolley, “Least Squares Generative Adversarial Networks”,
in ICCV, 2017 .
Keywords: GAN, Least squares loss function, Stable training
概要
・LSGAN(Least Squares Generative Adversarial
Networks)を提案する．
・LSUNとCIFAR-10データセットを学習し，モデル
を評価した．結果としては，LSGANがよりリアルな
画像を⽣成できる．
・LSGANを⽤いて⼿書きの中国語（漢字）を⽣成す
る．ちゃんと読める結果を得られた．
新規性・差分
・ Least Squares Loss Functionを⽤いて，
Discriminatorからのロスを計算する．その最適化
はピアソンχ2分布の最適化と⾒なす．
Links
論⽂:
papers/
Mao_Least_Squares_Generative_ICCV_2017_paper.p
df
Generator Discriminator
【44】

Eleonora Maset, Federica Arrigoni, Andrea Fusiello, “Practical and Eﬃcient
Multi-View Matching”, in ICCV, 2017. (Spotlight)
【45】
Keywords: Multi-views matching, spectral decompostion
新規性・差分
概要
・spectral decompositionをベースとした新たなmulti-view matching
⼿法を提案した．
・ノイズが含めた2つの画像のマッチングから，2つの画像の⼀致性を最⼤
化することにより，画像間の対応関係を求める．具体的なステップは：
1．⼊⼒の対応関係が含めたblock-matrixから特徴ベクトルを求める．
２．特徴ベクトルをrelative permutationsに投影し，マッチングを出⼒す
る．
・合成データセットとリアルデータセットを⽤いて実験を⾏い，両⽅とも
state-of-artな精度及びスピードを達成した．
・提案アルゴリズムMatchEIGの構造が簡潔で，簡単にMATLABなどを⽤い
てコード化できる
・従来⼿法と⽐べたら，速いしかも正確
・universe sizeなどが増やしても時間コストがほぼ変えない。⼤きいデー
タ対応可能。
Links
論⽂:
http://openaccess.thecvf.com/
content_ICCV_2017/papers/
Maset_Practical_and_Eﬃcient_IC
CV_2017_paper.pdf
下図：異なるuniverse size, observation ratio, 視点数の場
合，時間コストの⽐較（提案⼿法：MatchEIGが⼤規模なデー
タを実時間で速い対応できることを⽰した）
右図：異なる視点
数，observation
ratio,⼊⼒対応デー
タのエラ率の場合
の，F-scoreの⽐較
（提案⼿法の
MatchEIGが視点数
多くて⼊⼒データの
エラ率⾼くて，観測
率が低い場合でも相
対的に⾼い精度を得
られることを⽰し
た）

Marco Pedersoli, Thomas Lucas, Cordelia Schmid, Jakob Verbeek,
“Areas of Attention for Image Captioning”, in ICCV , 2017.
【46】
Keywords: Image Captioning, RNN
新規性・差分
概要
・画像説明⽂の⽣成⼿法の提案．提案⼿法では，画像領域
(Attention領域)、単語、RNN間の依存関係をモデル化し，単
語とAttention領域との間の直接的な関連付けを可能にする．
・Atteintion領域の⽤いた画像説明⽂⽣成⼿法; “Areas of
Attention” の提案
・字幕モデルのための画像特有の領域を導き出すために、
新規のネットワーク構造を提案
・ 3種類の物体候補領域提案⼿法(CNN Activation grid,
object proposal, region proposal)にそれぞれ提案⼿法を
組み合わせて有効性を評価
Links
論⽂:
http://openaccess.thecvf.com/content_ICCV_2017/papers/
Pedersoli_Areas_of_Attention_ICCV_2017_paper.pdf
・単語-画像領域間の依存関係学習のためのフレームワーク:現在の状態h
を与えられたときの単語と画像領域による条件付き確率分布p(w,r|h)を
⽤いて，各Attention領域と単語の依存関係を直接学習する．
・提案⼿法の可視結果: 上からそれぞれCNN ActivateGrid，object
Proposal, region proposalによる各単語とAttention領域との可視結果．
枠が太いほど，単語とAttention領域の依存関係が強い
・既存⼿法との⽐較:
“Areas of
Attention”が提案⼿
法．state-of-the-
artである⼿法と同程
度の精度での画像
キャプショニングが
可能

Ludovic Magerand, Alessio Del Bue, “Practical Projective Structure from
Motion”, in ICCV, 2017. (Oral)
【47】
Keywords: SfM, Projective SfM
新規性・差分
概要
・missing data, outliersに強く，⼤規模シーンの
3次元リコンストラクションに⽤いられる新たな
projective SfM⼿法を提案した．
・従来のProjectiveリコンストラクション理論に，
新たなprojective parametersに制約を加えた．ま
た，提案⼿法のプロセスは：1．projectionsを正
規化し，データmatricesを計算する．2．サブ視点
とポイントでロブストなリコンストラクションを
⾏う．3．全部の視点を計算するまで，反復で視点
とポイントを追加しリコンストラクションを⾏
う．
・state-of-artなリコンストラクション精度を⽰し
た
・missing data, outliersに強い．実験で
98%missing dataが含めた中型と⼤型のシーンリコ
ンストラクションにも良好な精度を⽰した．
・ransac baseな最適化⼿法を⽤いることで，⼤規模
なシーンの復元に対しても計算時間コストが⼤きく
増加しない．
Links
論⽂:
papers/
Magerand_Practical_Projective_Structure_ICCV_2017_p
aper.pdf
提案⼿法のリコンストラクションの最適化過程
結果（中図：outlierが含めた場合，異なる⼿法のエラー率の⽐較結果、
下図：提案⼿法を⽤いて復元した三次元形状とシーンの例）

Yikang Li, Wanli Ouyang, Bolei Zhou, Kun Wang, Xiaogang Wang,
“Scene Graph Generation from Objects, Phrases and Region Captions”, in
ICCV, 2017.
【48】
Keywords: Object Detection, Captioning, Scene Graph
・物体検出，シーングラフ⽣成（物体間の関係を記述），説明⽂⽣成と
いう3つのレベルの異なるタスクを同時に解く⼿法を提案．各タスクに
必要な特徴量は相関が強く，相補的に働くため同時に解くことが有効と
なる．Object, Captionの候補領域をまず⽣成し，画像をCNNに通した
後，各領域のROI Poolingを⾏い領域ごとの特徴量を計算．各特徴量を
混ぜながら利⽤してシーングラフ⽣成やCaptioningを⾏う．
・物体検出，シーングラフ⽣成，説明⽂⽣成をEnd-to-Endで同時
に学習，実⾏することを可能にした
・動的なグラフ⽣成を⾏う層をCNNに追加することでシーングラフ
の⽣成を実現した
Links
論⽂：
http://people.csail.mit.edu/bzhou/publication/ICCV_scenegraph.pdf

Ranjay Krishna, Kenji Hata, Frederic Ren, Li Fei-Fei, Juan Carlos Niebles,
“Dense-Captioning Events in Videos”, in ICCV, 2017.
【49】
Keywords: Video Captioning, Dense Captioning, 3D Convolution
新規性・差分
概要
・動画に対してのDenseCaptioning [Johnson+, CVPR2016]を実
⾏した。同タスクはActivityNet Challengeのタスクのひとつにも取
り上げられており、849時間に及ぶ20Kのビデオ、トータルで100k
の動画キャプショニングが与えられている。特徴量はC3Dベースで
抽出（ActivityNetのHPからDL可能、fc7の4096-d特徴をPCAによ
り500-dに圧縮
http://activity-net.org/challenges/2016/
download.html#c3d）、フレーム単位の候補セグメントを抽出
し、キャプショニングモジュールに⼊⼒する。同モジュールでは候
補領域の開始・終了・Hidden Representationを⼊⼒としてC3D
fc7+LSTMにより動画のキャプショニングを実⾏。
・動画に対するキャプショニング⼿法Dense-Captioning
Events in Videosを提案
・ActivityNetのビデオキャプショニングタスクにてベン
チマークを⾏った結果、State-of-the-artな結果を実現
Links
論⽂： https://arxiv.org/pdf/1705.00754.pdf
プロジェクト：
http://cs.stanford.edu/people/ranjaykrishna/
densevid/
116

Tokmakov, Pavel, Karteek Alahari, and Cordelia Schmid., “Learning Video
Object Segmentation with Visual Memory”, in ICCV, 2017.(Oral)
【50】
Keywords: video object segmentation, convoutional GRU
新規性・差分
概要
・convoutional GRUを⽤いることで, 時系列情報を考慮
した動画ベースのobject segmentationの⼿法
・semantic segmentation でpre-trainしたtwo stream
のCNNを⽤いて特徴抽出し, その特徴量をconvoutional
GRUに⼊⼒
・convoutional GRUにおける, reset gateとupdata gate
の可視化を⾏い, チャネルごとの記憶する情報と破棄する
情報について考察している
・従来⼿法と⽐較して6%の精度向上しSoTA
・フロー情報のみでなく, RGBと時系列解析モデルが
object segmantation で重要であることが実験的に確認
できた
Links
論⽂: https://arxiv.org/abs/1704.05737v1

Huijuan Xu, Abir Das, Kate Saenko, “R-C3D: Region Convolutional 3D
Network for Temporal Activity Detection”, in ICCV, 2017.
【51】
Keywords: CNN, C3D, Activity Detection, R-CNN
新規性・差分
概要
・Temporal Activity Detectionのための⼿法を提案．基
本的にはObject DetectionにおけるFaster R-CNNを
Activity Detectionに応⽤した⼿法．C3Dをベースとし，
3D Convolutionをして特徴マップを計算後，Region
Proposals NetworkでTemporal Regionsを推定，各
RegionをClassiﬁcation Networkで識別する．
THUMOSʼ14やActivityNetなどのデータでstate-of-the-
artな精度を達成．C3Dベースなこともあり，⾮常に⾼速
な動作を実現できており，1000fpsを達成している．
・映像に対してFaster R-CNNの枠組みの適⽤を成功させ
た点に新規性がある
・精度もDetectionの問題においてstate-of-the-artを達成
した．
Links

Mohammadreza Zolfaghari, Gabriel L. Oliveira, Nima Sedaghat, Thomas
Brox, “Chained Multi-stream Networks Exploiting Pose, Motion, and
Appearance for Action Classiﬁcation and Detection”, in ICCV, 2017.
【52】
Keywords: 3D CNN, Multi-stream convnet, Action Recognition
新規性・差分
概要
・⼈物⾏動認識に対して、複数のモダリティ（Pose, Optical Flow, RGB）の⼊⼒を適⽤す
る。連続的な⼿がかりを加えて総合的に判断するためにMarkov chain modelを適⽤する。
姿勢推定にはFat-Net[27], 3D-CNNにはC3D[37]、オプティカルフローは基本的にTwo-
stream CNNを参考にした。Chained Multi-Stream 3D-CNNは後段にロスを伝えていく、
各⼯程で誤差学習ができるというところがミソである。Chained Multi-Stream 3D-CNN
の出⼒は後段に伝え、全結合層を経て次の出⼒が⾏われる。
・HMDB51(69.7%), J-HMDB(76.1%), NTU
RGB+D(80.8%)にて識別率、UCF101
(38.0%@IoU0.3)やJ-HMDB(75.53%@IoU0.5)
にて⾏動検出率がstate-of-the-art
・Markov ChainのOptical Flow, Pose, RGBの順
番は全通りを探索してもっとも良い順番にした
・Poseのモダリティによる⾏動識別では
55.7%@UCF101, 40.9%@HMDB51,
47.1%@J-HMDBであった
Links
Chained Multi-Stream
3D-CNN。上から順列に
Pose, Optical Flow, RGB
と連なっている。下の階層
は上の階層から情報を受け
取り出⼒を⾏う。ロスであ
るY_poseやY_ofは学習に
は使⽤され、最終的な出⼒
であるY_rgbがラベルの推
定には使⽤される。

ICCV 2017 速報

Recommended

Recommended

More Related Content

What's hot

What's hot (7)

Viewers also liked

Viewers also liked (20)

Similar to ICCV 2017 速報

Similar to ICCV 2017 速報 (20)

ICCV 2017 速報