これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2016年12月)

これからのコンピュータビジョン技術
~ cvpaper.challenge in PRMU Grand Challenge 2016 ~
⽚岡裕雄, Ph.D.
産業技術総合研究所
http://www.hirokatsukataoka.net/
⽩壁奏⾺・賀雲・阿部⾹織・上⽥隼也・鈴⽊哲平・松崎優太・岡安寿繁・
⽮部俊之・⾦原慶拓・⼋柳洸哉・丸⼭慎也・⾼澤良輔・淵⽥正隆・森⽥慎⼀郎

本資料について
–  2016年12⽉開催のPRMUグランドチャレンジ発表資料
–  発表時間が⾜りないと判断したため，Full ver.を公開します
–  前回のPRMUグランドチャレンジが10のチャレンジを考えた事に因んで，
本発表でも10のチャレンジを考えました

cvpaper.challengeのこれまで
•  2015年はCVPR 2015の全602論⽂を読破
–  PRMU 特別講演
–  2015年サーベイ論⽂: https://arxiv.org/abs/1605.08247
•  2016年は1,000本超の論⽂読破 & CVの上位会議への投稿を達成
–  ECCV 2016 Workshop にてOral & Best Paper: https://arxiv.org/abs/
1608.07876
–  その他，4グループが論⽂化に向けて活動中 (投稿済x3, 準備中x3)
•  2016年12⽉現在，合計1,600本を超える論⽂まとめ
–  全て公開済み: http://www.slideshare.net/cvpaperchallenge

Top-10 Futuristic CV Works
(cv-top10)

未来のコンピュータビジョン：cv-top10
1.  洗練されたモーション推定
2.  3次元特徴の普遍化
3.  世界規模の認識や復元
4.  WebやCG，オートメーションを⽤いた完全⾃動データ⽣成
5.  物理量の変化や理解
6.  画像に映らない背景知識を⾒る
7.  ⾃⼰学習
8.  より少ないデータで汎⽤性を出す学習技術
9.  歴史は繰り返す？
10. ピクセルの再定義

未来のコンピュータビジョン：cv-top10
1.  洗練されたモーション推定
2.  3次元特徴の普遍化
3.  世界規模の認識や復元
4.  WebやCG，オートメーションを⽤いた完全⾃動データ⽣成
5.  物理量の変化や理解
6.  画像に映らない背景知識を⾒る
7.  ⾃⼰学習
8.  より少ないデータで汎⽤性を出す学習技術
9.  歴史は繰り返す？
10. ピクセルの再定義
感覚的には下に⾏くほどより未来の話

構成
•  各項⽬は下記により構成
1.  Summary
2.  現状・背景
3.  論⽂や技術による実例
4.  考察
5.  未来の〇〇

1. 洗練されたモーション推定

Summary
–  CNNによるモーション認識はRGB+Flowを⼊⼒するが，最近の動画認識
DBは対象物体と⽐較して背景領域が⾮常に⼤きい
–  そのため，モーションを認識しているわけではなく「RGBによる⼊⼒，
畳み込みから背景を⾒て認識」しているのではないか？
–  ⼈物⾏動を題材として背景領域のみで識別してみたところ，約100クラ
スの識別で50%近く識別できた
–  今後はさらに洗練されたモーションを捉える⼿法が必要

現在のモーション認識
•  Database: UCF101, HMDB51, ActivityNet
•  Approach: IDT, Two-Stream CNN
–  ⼤規模データやアプローチの整備は進んでいる
–  代表⼿法 DTや深層学習でもTwo-stream CNNが登場

Dense Trajectories (DT) [Wang+, CVPR11]
•  密な動線抽出と特徴記述
–  動画中から⼤量に動線を抽出
–  各サンプリング点から特徴記述 (HOG, HOF, MBH)
–  コードワードベクトルを抽出

Two-stream CNN [Simonyan+, NIPS14]
•  空間的・時間的な畳み込みの結果を統合
–  空間 (Spatial-stream)：RGBの⼊⼒から識別結果を出⼒
–  時間 (Temporal-stream)：Flow蓄積画像の⼊⼒から識別結果を出⼒
–  統合：クラスごとの確率分布

最近のDBでは背景が効いているんじゃ？
•  Two-stream CNNでもRGBの⼊⼒
–  UCF101, HMDB51などは⼈物領域と⽐較して背景領域が⼤きい
–  RGBを⼊⼒とした空間情報のみを⽤いて⾼い識別を実現
•  Two-stream CNNのspatial-streamだけでも70%強の識別率@UCF101
•  “Human Action Recognition without Human”の提案
•  （⼈を⾒ない⼈物⾏動認識）
Y. He, S. Shirakabe, Y. Satoh, H. Kataoka “Human Action Recognition without Human”, in ECCV 2016
Workshop on on Brave New Ideas for Motion Representations in Videos (BNMW). (Oral & Best Paper)
賀雲, ⽩壁奏⾺, 佐藤雄隆, ⽚岡裕雄, “⼈を⾒ない⼈物⾏動認識”, ViEW, 2016 (ViEW若⼿奨励賞)

Without Human?
•  現在の問題設定において⼈物⾏動認識は背景領域だけあれば
•  ⼗分なのではないだろうか？
Tennis Swing
Mo,on Descriptor
Tennis Swing?
Mo,on Descriptor

w/ and w/o Human Setting
•  With / Without human setting
–  Without human setting: 中央部分が⿊抜き
–  With human setting: Without human settingのインバース
I (x, y) f (x, y) * I’ (x, y)
1/2 1/4 1/4
1/2
1/4
1/4
I (x, y) f (x, y) * I’ (x, y)
1/2 1/4 1/4
1/2
1/4
1/4
ーー
Without Human SeFng With Human SeFng

実験の設定
–  ベースライン: Very deep two-stream CNN [Wang+, arXiv15]
–  ⼆つの設定: without human and with human

実験結果
•  @UCF101
–  UCF101 pre-trained model with very deep two-stream CNN
–  With/Without Human Setting

Visual results (Without Human Setting)

考察
•  CNNによるモーション認識では背景による寄与が⼤きい (現状，
純粋なモーションを⾒ていない)
–  WithとWithout Humanにおいて，両者の差が9.49%
•  背景特徴の寄与が⼤きい事が判明
•  ⼈物特徴と背景特徴による識別率が逼迫
–  Without HumanにおいてSpatial-streamの識別率が⾼い
•  Spatial-stream はTemporal-streamと⽐較して+18.53%
•  Spatial-streamはRGBによる，時系列特徴を⽤いていない

未来のモーション認識
•  洗練されたモーションを捉える事ができたら？
–  動画による教師無し学習の洗練？ [Vondrick+, CVPR16]
C. Vondrick et al. “Anticipating Visual
Representations from Unlabeled Video”, in
CVPR, 2016.

Summary
–  3次元物体認識はアピアランスベース (e.g. MV-CNN)やモデルベース(e.g.
SHOT)によるマッチングが多く，いわゆる特定3D物体認識が⼀般的
–  最近ではCNNの3次元物体への適⽤(e.g. Deep Sliding Shapes)が盛んに議
論され，⼀般3D物体認識が期待される
–  ⼀⽅でDBもShapeNetが提案され，⼤規模化が進められている
–  1,000を超えるカテゴリになれば2D画像認識におけるImageNetのように
3次元空間を普遍的に捉える特徴が⽣成できるか？

現在の3次元特徴
•  3次元の画像表現としてはアピアランス・モデルベースの⼿法
に分類される[Hashimoto, DIA2015]
–  アピアランスベース：2Dによりマッチング，多視点の画像を保持
•  MV-CNN, RotationNet
–  モデルベース：3次元物体モデルの利⽤
•  SHOT, 3D ShapeNets, (Deep) Sliding Shapes
M. Hashimoto et al. “距離データハンドリングのための３次元特徴量”, in DIA, 2015.

Appearance-based Recognition (1)
•  Multi-View CNN [Su+, ICCV15]
–  各視点毎に物体のアピランスを学習
–  View Pooling (VP)により特徴統合
H. Su et al. “Multi-view Convolutional Neural Networks for 3D Shape Recognition”, in ICCV, 2015.

Appearance-based Recognition (2)
•  RotationNet [Kanezaki+, arXiv16]
–  MV-CNNがベースになっている
–  同時学習により物体ラベルに加えて回転姿勢も推定可能
A. Kanezaki et al. “RotationNet: Joint Learning of Object Classification and Viewpoint Estimation using Unaligned 3D
Object Dataset”, in arXiv pre-print 1603.06208, 2016.

Model-based Recognition (1)
•  SHOT [Tombari+, ECCV10]
–  ⾮曖昧性やユニーク性を兼ね備えた特徴点マッチング
–  キーポイント周辺の球体から3次元点群の法線をヒストグラム化
F. Tombari et al. “SHOT: Unique Signatures of Histograms for Local Surface Description”, in ECCV, 2010.

•  3D ShapeNets [Wu+, CVPR15]
–  距離画像からのボリューム表現と3次元畳み込み
–  識別が曖昧な際にはNext Best Viewを選択
Z. Wu et al. “3D ShapeNets: A Deep Representation for Volumetric Shape Modeling”, in CVPR, 2015.

•  (Deep) Sliding Shapes [Song+, ECCV14/CVPR16]
–  3D CAD ModelによりDepth/3D Point Cloud空間から特徴抽出
–  2D/3D畳み込みの統合CNNにより識別 (Deep Sliding Shapes)
S. Song et al. “Sliding Shapes for 3D Object Detection in Depth Images”, in ECCV, 2014.
S. Song et al. “Deep Sliding Shapes for Amodal 3D Object Detection in RGB-D Images”, in CVPR, 2016.

•  OctNet [Riegler+, arXiv16]
–  Octreeを導⼊し3次元の疎密畳み込み
–  Conv/UnConvによりラベル推定やセマンティックセグメンテーション
G. Riegler, et al. “OctNet: Learning Deep 3D Representations at High Resolutions”, in arXiv pre-print 1611.05009, 2016.

⽐較実験
•  ベンチマークによる⽐較
–  ModelNet 10 & 40
–  アピアランスモデル(RotationNet, MVCNN)が強い傾向
ModelNet40
(Acc)
ModelNet40
(mAP)
ModelNet10
(Acc)
ModelNet10
(mAP)
RotationNet 95.5 - 97.1 -
MVCNN 90.1 79.5 - -
OctNet - - 90.1 -
3DShapeNets 77 49.2 83.5 68.3

考察
•  実空間(3D)の特徴を扱うよりも，2Dに投影して畳み込んだ⽅
が強い！
–  ImageNet学習済みモデルの恩恵が根強い？
–  畳み込みの仕組みを2Dと3Dでは根本的に変える必要アリ？

未来の3次元特徴
•  特定3次元物体認識から⼀般3次元物体認識へ
–  ImageNetの歴史から2Dにおける⼀般物体認識はできること明らか
–  3次元空間中の物体を扱うデータセットの整備が進めばOK？
–  畳み込みの仕組みも3次元で上⼿くいくには単純ではない
–  3次元のような膨⼤な空間でこそ100層を超えるDeeperモデルが必要？

3. 世界規模の認識や復元

Summary
–  SNSやそのAPIツールにより世界規模のGeo-tagデータが⼿に⼊る
–  Building Rome in a Day[Agarwal+, ICCV09]やCity Perception[Zhou+, ECCV14]など
–  空間的な解析のみではなく，時間的にも解析できるようになる

Geo-tagged Images (Geo-tag画像)
•  画像と位置情報の対応付け
–  各SNSのAPI(開発者ツール)などから抽出可能
–  画像・GPS・⽇付等

YFCC100M Dataset
•  Yahoo!が提供する最も膨⼤なFlickrデータセット
–  1億枚のFlickr画像をCreative Commonsライセンスで公開
–  世界中の画像に位置情報が付与
B. Thomee et al. "YFCC100M: The New Data in Multimedia Research", Communications of the ACM, 59(2), pp.
64-73, 2016.

Geo-tag画像の解析
•  3次元再構成
–  Building Rome in a Day [Agarwal+, ICCV09]
–  Reconstructing the World in Six Days [Heinly+, CVPR15]
•  シーン認識
–  City Perception [Zhou+, ECCV14]

Building Rome in a Day
•  “ローマを⼀⽇にしてなす”
–  ⼤規模空間の3次元再構成
–  アプリケーションとして⾮常に優れた⾒せ⽅
hGps://www.youtube.com/watch?v=kxtQqYLRaSQ
S. Agarwal et al. ”Building Rome in a Day", ICCV, 2009.

Reconstructing the World in Six Days
•  “世界を６⽇で作る”
–  YFCC100M Datasetを利⽤
–  1億枚のgeo-tag画像があればこんなことができるという好例
J. Heinly et al. ”Reconstructing the World in Six Days", in CVPR, 2015.

City Perception
•  世界21都市の特徴を解析・可視化
–  シーン認識をベースにした都市解析
–  社会学的な知⾒から7つの代表的な属性を累積 – 建物，⽔量，緑，交通
B. Zhou et al. “Attribute Analysis of Geo-tagged Images for City Perception” in ECCV, 2014.

City Perception
•  SNSを⽤いたGeo-tag画像 + シーン認識
–  位置と認識結果の可視化 (左図)
•  世界の都市の状況を可視化
–  世界21都市の類似度解析 (右図)
•  ⼤陸内が類似していることを実証
B. Zhou et al. “Attribute Analysis of Geo-tagged Images for City Perception” in ECCV, 2014.

考察
•  SNSにより「世界規模の位置付き画像」と「3D再構成/認識」
を対応付け可能になった
–  研究室にいながら地球規模のフィールドの画像を収集可能
–  問題設定次第では拡張性がある課題

ツールの適⽤
•  「数⼗億枚の画像」「画像認識ツール」があったら何する？
–  画像は圧倒的に増える
•  公開データセット + SNS/Web画像で数⼗億枚が実現可
–  ツールは飽和状態
•  画像認識 (e.g. VGGNet, ResNet)
•  物体検出 (e.g. R-CNN, SSD)
•  セマンティックセグメンテーション (e.g. FCN, SegNet)
•  下図左: 正解右: 推定結果 @InstanceCut [Kirillov+, arXiv16]
A. Kirillov et al. “InstanceCut: from Edges to Instances with MultiCut” in arXiv, 2016.

未来の世界規模の解析
•  画像数の増加による可能性の増⼤
–  ロボットの導⼊によりSNSに出ないような画像も取得可能？
–  リアルタイムで可視化できると⾯⽩くなりそう？
•  世界規模の解析を時系列⽅向に拡張

4. WebやCG，オートメーションを
⽤いた完全⾃動データ⽣成

Summary
–  DBはビッグデータ化する⼀途であるが、アノテーション問題が⽣じる
–  既存画像の⾃動収集、オートメーション、画像⽣成・スタイル変換な
ど何らかの⼿法でデータを⽣成する時代になってきた
–  数式などコントロールできる形式で⾃動⽣成かつ完全教師あり学習に
持っていく⽅法が今後登場？

現在のデータベース作成
•  ImageNetからの流れでビッグデータ化
–  アノテーション問題
–  領域ベース・ピクセルベースの重労働
•  ⾼速化のためには⾃動DB⽣成が必須
–  あるものを⾃動で集めるか？
–  ゼロから⾃動⽣成するか？

YFCC100M Dataset（再掲）
•  Yahoo!が提供する最も膨⼤なFlickrデータセット
–  1億枚のFlickr画像をCreative Commonsライセンスで公開
–  世界中の画像に位置情報が付与
–  SNSから⾃動で収集
B. Thomee et al. "YFCC100M: The New Data in Multimedia Research", Communications of the ACM, 59(2), pp.
64-73, 2016.

iLab-20M
•  ロボットハンドにより⾃動データ⽣成
–  照明・ビューポイント・物体種類など分散を考慮したパラメータ調整
–  Perfectなトイデータ (2,000万枚の画像)
A. Borji, et al. “iLab-20M: A Large-Scale Controlled Object
Dataset to Investigate Deep Learning” in CVPR, 2016.

CG
•  歩⾏者検出にはリアルデータは(⼀枚も)必要ない
–  歩⾏者のCGデータや背景画像のみ
–  パラメータ調整により無限にデータ⽣成
H. Hattori, et al. “Learning Scene-Specific Pedestrian Detectors without Real Data” in CVPR, 2015.

画像⾃動⽣成
•  ⽣成モデル・スタイル変換
–  Generative Adversarial Nets (GAN)[Goodfellow+, NIPS14]
–  Style Transfer [Gatys+, arXiv15]
–  よりリアルな画像が⽣成可能になる

考察
•  ビジョン研究のスピードを加速させる完全⾃動データ⽣成
–  「トップアノテータ」という職業ができる？
–  コンピュータがデータを作る！という選択肢も存在する
•  画像⽣成だけではない⾃動データ⽣成
–  ラベルをいかに付けるかが課題
–  Webでいかにラベルを付けるか vs データをいかに綺麗に⽣成するか

未来の完全⾃動データ⽣成
•  完全⾃動かつ完全教師あり学習データ
–  ⽣成モデルがさらにリアルになれば実現可能
•  ImageNetをコンピュータが⽣成、データセット⽣成コンペティション？
–  動画像や3次元形状の⾃動⽣成
–  感性の復元

5. 物理量の変換や理解

Summary
–  物理量の変換 (画像=>⾳)や物理現象の理解
–  将来的にはあらゆる物理量同⼠を変換可能
–  画像認識や3次元再構成への応⽤ができる

Visually Indicated Sounds
•  映像から⾳を⽣成（物理量の変換）
–  CNN+RNNとシンプルなモデル、映像を⼊⼒して⾳を出⼒
–  ⼈間に⾒分けがつかない程の復元能⼒を発揮
A. Owens et al. “Visually Indicated Sounds” in CVPR, 2016.

Pyshics 101
•  あらゆる物理現象を捉えた映像
–  映像からの教師なし学習により物理法則を学習
J. Wu et al. “Physics 101: Learning Physical Object Properties from Unlabeled Videos” in BMVC, 2016.

考察
•  コンピュータが⾃然発⽣的に物理現象を理解
–  物理的な拘束を理解した上で画像認識や動画理解が可能になる
–  機械学習が進むにつれて物理法則を理解できるようになる
•  特に教師なし学習の仕組み

未来の物理量の変換や理解
•  観測可能なあらゆる物理量が相互に変換可能
–  画像と⾳の相互変換
–  その他，観測・対応する物理量なら変換可能
•  物理法則理解の画像認識や3D再構成への展開
–  ⼒・電気・波など⾒える/⾒えないに限らず理解
–  再構成+αの情報を付与

6. 画像に映らない背景知識を⾒る

Summary
–  画像に映らない背景知識とは、時間的に先にある⾏動 (⾏動予測)や物
体の機能推定など
–  アフォーダンスやコンテキストなど背景知識を導⼊して推定する
–  ⾏動予測においても知識をうまく活かした⾏動の定義を⾏うことで認
識ベースでの予測が可能
–  潜在的な知識をコンピュータビジョンの枠組みに取り⼊れる必要性

アフォーダンスによる⾏動予測
•  ロボットによる⽣活⾏動⽀援
–  ⾏動と物体の認識
–  アフォーダンスにより⾏動と物体を接続
hGps://www.youtube.com/watch?v=dZyp41qBZBE
H. Koppula et al. “Anticipating Human Activities using Object Affordances for Reactive Robotic Response” in RSS, 2013.

背景知識の活⽤による⾏動予測
•  コンテキストを導⼊した⾏動予測
–  ⾏動遷移をシーケンスとして⼊⼒
–  追加情報(e.g. 時間帯)も考慮
？？？ Daytime
(Time Zone)
Walking
(Previous Activity)
Sitting
(Current Activity)
???
(Next Activity)
xtimezone
xprevious xcurrent
θ = “Using a PC”
Given Not given
Time series
H. Kataoka, et al. “Activity Prediction using a Space-Time CNN and Bayesian Framework”, in VISAPP, 2016.

遷移⾏動認識 (Transitional Action Recognition)
•  2つの⾏動間に遷移⾏動 (TA; Transitional Action)を挿⼊
–  予測のためのヒントがTAに含有: 早期⾏動認識より時間的に早く認識
–  TAの認識が即ち次⾏動の予測: ⾏動予測より安定した予測
Δt
【Proposal】
Short-term action prediction
recognize “cross” at time t5
【Previous works】
Early action recognition
recognize “cross” at time t9
Walk straight
(Action)
Cross
(Action)
Walk straight – Cross
(Transitional action)
t1 t2 t3 t4 t5 t6 t7 t8 t9 t10 t11 t12
H. Kataoka et al. “Recognition of Transitional Action for Short-Term Action Prediction using Discriminative Temporal CNN Feature”, in BMVC,
2016.

遷移⾏動認識 (Transitional Action Recognition)
•  2つの⾏動間に遷移⾏動 (TA; Transitional Action)を挿⼊
–  予測のためのヒントがTAに含有: 早期⾏動認識より時間的に早く認識
–  TAの認識が即ち次⾏動の予測: ⾏動予測より安定した予測
⼿法設定
⾏動認識
早期⾏動認識
⾏動予測
遷移⾏動認識
f (F1...t
A
) → At
f (F1...t−L
A
) → At
f (F1...t
A
) → At+L
f (F1...t
TA
) → At+L

考察
•  画像や映像の背後にある知識を導⼊
–  アフォーダンスによる機能
–  ⾏動遷移や時間帯によるコンテキスト
–  ⾏動定義により認識ベースに⾏動予測
•  CNN-RNNの組み合わせで⼗分か？
–  特徴抽出（CNN）や時間など再帰的処理（RNN）を柔軟につなぐよう
なモデル（e.g. 特徴選択可能な機構）が必要
–  CNNやRNNもさらに洗練が必要

未来の⾏動予測
•  より⻑期かつ⾼精度に、時間以上の情報を予測
–  ⻑期：数秒（現在）から数分から数時間（将来）の予測
–  ⾼精度：精度はもちろん，スケーリングも考慮
–  時間以上の情報：突発的ではなく緩やかに変化する異常，感情の変動
など

Summary
–  現在，強化学習が著しく発展 (e.g. AlphaGo, PickingRobot)
–  コンピュータビジョンにおいても補助情報を⽤いた⾃⼰学習(self-
supervised learning)が提案されている
–  囲碁やピッキングロボットのように狭い空間ではなく，さらに広い空
間で強化学習や⾃⼰学習ができて欲しい

強化学習：AlphaGo
•  ⾃分vs⾃分を数千万局⾏い強化
D. Silver et al. “Mastering the game of Go with deep neural networks and tree search” in Nature, 2016.

強化学習：PickingRobot (Google Brain)
•  複数のロボットが協調してピッキングタスクを学習
–  実空間にて⾃ら学習データと成功/失敗を判断
C. Finn et al. “Unsupervised Learning for Physical Interaction through Video Prediction”, in NIPS, 2016.

CV分野における取り組み
•  ⾳声を⽤いた⾃⼰学習
–  ⾳声から物体ラベルを割り当て
–  物体認識の学習に⽤いた
A. Owens et al. “Ambient Sound Provides Supervision for Visual Learning” in ECCV, 2016.

考察
•  適⽤空間を広げることが課題
–  囲碁やピッキングはルールが決まっている
–  物体認識/検出などさらに広い空間でいかに強化学習/⾃⼰学習を適⽤

未来の⾃⼰学習
•  ⾃ら学習データも作れるようになる
–  受動的に学習データの⼊⼒を待つのではなく，積極的にデータを作り
学習を⾏う仕組みが考案される

8. より少ないデータで
汎⽤性を出す学習技術

Summary
–  弱教師付き学習 (Weakly-supervised)，教師なし学習 (Unsupervised)のみ
ならず，ワンショット学習 (One-Shot)やゼロショット学習 (Zero-Shot)が
登場して研究が進んでいる
–  数万 ~ 数百万枚の学習サンプルが得られる例は多くない
–  今後はより⼈間のような類推能⼒を持った仕組みが必要

One-Shot Learning
•  初めて⾒る物体でも過去の知識から推定
O. Vinyals et al. “Matching Networks for One Shot Learning” in NIPS16.

Zero-Shot Learning
•  既存の組み合わせにより概念を学習
–  例：⼈ + ⾃転⾞ => サイクリスト
R. Socher et al. “Zero shot learning through cross-modal transfer”, in ICLR, 2013.

機械学習の課題
•  精度向上のためには学習サンプル数を確保
–  数百万枚の画像が⽤意できる場⾯ばかりではない
Caltech 101/256
ImageNet
MS COCO Visual Genome

考察
•  現在のワンショットやゼロショット学習は⼈間の類推には遠い
–  アブストラクトな認識はできるが，⾼度な類推はできていない
–  ⽣成モデルの技術が活かせないか？

未来の少量データによる学習技術
•  ⼀枚の画像から多くの情報を捉える
–  ⽣成的な⼿法との組み合わせ？
–  コンピュータによる「妄想学習」の枠組み？
•  学習済みのモデルの取り扱い
–  今までの知識を効果的に⽤いて類推
–  探索のフレームワークや特徴組み合わせの⾼度化

Summary
–  第1~3次AIブームによるニューラルネットの後には勾配特徴が出現
–  今回の第3次AIの後にも進化版勾配特徴が出現か？
–  Deep CNNの仕組みは2次元画像認識において強すぎる
–  2D => 3D (xyz) /時系列 (xyt) / ライトフィールド (xy光)というボリューム
データでは勾配特徴の可能性
–  Deep LearningとHand-craft特徴の協調が起こる？

歴史は繰り返す？
1st AI 2nd AI 3rd AI
F. Rosenblatt et al. “Principles of Neurodynamics: Perceptrons and the Theory of Brain Mechanisms” in 1961.
J. F. Canny “Finding Edges and Lines in Images” in 1983.
Rumelhart et al. “Learning representations by back-propagating errors” in Nature 1986.
K. Fukushima, “Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position”, in
1980
Y. LeCun et al. “Gradient-based learning applied to document recognition” in IEEE 1998.
J. H. Holland “Adaptation in Natural and Artificial Systems” in MIT Press 1975.
L. J. Eshelman “The CHC Adaptive Search Algorithm: How to Have Safe Search When Engaging in Nontraditional Genetic Recombination," in
Foundations of Genetic Algorithms, 1991.
G. Huang et al. “Deep Networks with Stochastic Depth," in arXiv pre-print, 2016.
T. Yamasaki et al. “Efficient Optimization of Convolutional Neural Networks Using Particle Swarm Optimization," in MIRU, 2016.

ニューラルネット・勾配特徴の繰り返し，
その間に遺伝的アルゴリズム
–  改良を繰り返しながら周期している
–  現在のDeep CNNは2次元画像認識において強い
•  強すぎるくらい (Top-5 error rate 2.9%@ImageNet)
•  2Dでは勝ち⽬がない？
AlexNet [Krizhevsky+, ILSVRC2012]
VGGNet [Simonyan+, ILSVRC2014]
GoogLeNet [Szegedy+, ILSVRC2014/CVPR2015]
ResNet [He+, ILSVRC2015/CVPR2016]
ILSVRC2012 winner，DLの⽕付け役
16/19層ネット，deeperモデルの知識
ILSVRC2014 winner，22層モデル
ILSVRC2015 winner， 152層！(実験では103+層も)

ボリュームデータではどうだろうか？
–  3D (xyz)，時系列(xyt)，ライトフィールド (xy光) 等
–  ディープラーニングはボリュームデータに対応しきれて
いるとは⾔えない
•  時系列「 1. 動画の純粋なモーション推定」参照
•  3D「2. 3次元特徴の普遍化」参照
•  ライトフィールド：適⽤例少
–  何れも、2D画像に投影してから処理？

物理空間をそのまま捉える
–  2次元画像への投影で消える情報多数
–  せめて物理空間をより近似しているボリュームデータの
空間で処理できるようになると可能性増⼤？

現在のアプローチ
–  時系列：Dense Trajectories (DT), Improved DT (IDT)
–  3次元特徴：Cloud of Oriented Gradients (COG)
Z. Ren et al. “Three-Dimensional Object Detection and Layout Prediction using
Clouds of Oriented Gradients” in CVPR, 2016.
H. Wang et al. “Action Recognition by Dense Trajectoires”
in CVPR, 2011.

D. Silver et al. “Mastering the game of Go with deep neural networks and tree search” in Nature, 2016.
AIによる訓練
–  新しい知性を感じた (AlphaGo)

Deep Learningの知識を特徴設計に
How?

CNN/RNNのパラメータ
ボリュームデータ (e.g. 動画，3D) 特徴への転移
Z. Ren et al. “Three-Dimensional Object Detection and Layout Prediction using
Clouds of Oriented Gradients” in CVPR, 2016.
H. Wang et al. “Action Recognition by Dense Trajectoires”
in CVPR, 2011.

Post-CNN, RNN
•  Deep LearningとHnad-craft特徴の協調
–  Deep Learningは解析されていく⽅向へ
–  仕組みの理解とより良いものへの統合
•  CNN/RNNのパラメータを転移させる仕組みが必要

Summary
–  カメラの起源の頃からあまり概念は変わっていない (e.g. カメラオブス
クラ，デジタルカメラ)
–  6兆FPSのカメラが実現している時代に従来のRGBの仕組みで良いの
か？
–  撮影した瞬間に認識が終わっているカメラや特殊なものが⾒えるカメ
ラが必要
–  ⾃然画像を構成するピクセルの空間も把握する必要がある

ピクセルの再定義
RGBの枠組みで良いのか？ピクセルの表現は？
H. P. Gage. “Optic projection, principles, installation, and use of the magic lantern, projection microscope, reflecting
lantern, moving picture machine," in 1914.

6,000,000,000,000 (6 TRILLION) FPS? "Ultra High-Speed Camera FEMTO” https://www.youtube.com/watch?v=ZHW0fIOEasc
State-of-the-art Computational Photography

6兆FPSのカメラが登場している時代にRGBセンサでいいの？
https://researchweb.iiit.ac.in/~dineshreddy.n/zerotype/assets/sms.png
撮影した瞬間に認識が終わっている
or 認識しやすい画素形態
特殊なものが⾒えるセンサ
光：前スライド
素粒⼦：下図
9 or 10 次元の世界：宇宙の始まり
https://upload.wikimedia.org/wikipedia/commons/thumb/f/f9/%E6%A8%99%E6%BA%96%E7%90%86%E8%AB
%96%E7%B4%A0%E7%B2%92%E5%AD%90%E8%A1%A8.svg/1211px-%E6%A8%99%E6%BA
%96%E7%90%86%E8%AB%96%E7%B4%A0%E7%B2%92%E5%AD%90%E8%A1%A8.svg.png

Pixel Space
Random Natural image
Pixel space (ALL) Pixel space (Dog)

⾃然画像を構成するピクセル空間を推定
物体やシーン，⼈間など⾃然な空間というものをモデル化
http://karpathy.github.io/assets/cnntsne.jpeg
Pixel space (Natural Images)

Escape from “CV” challenge
(ESC-CV)

脱・CV技術
•  意図的に
–  「他分野の論⽂を多読する」
–  「他分野に論⽂を出す」
–  「他分野の知識を持ってくる」
•  CVの積み重ねがあるからできる！あと頑張る！！

CV => CG [Iizuka+, SIGGRAPH16] Colorization
Innovative Technologies2016 特別賞「Culture」
S. Iizuka et al. “Let there be Color!: Joint End-to-end Learning of Global and Local Image Priors for Automatic Image Colorization
with Simultaneous Classification” in ACM TOG, 2016.

L. Shnerider et al. “Semantic Stixels: Depth is Not Enough” IEEE IV, 2016.
CV => ITS [L. Shneider+, IV16] Semantic Stixels
(IV16 Best Paper)

D.-A. Huang et al. “Connectionist Temporal Modeling for Weakly Supervised Action Labeling” in ECCV, 2016.
A. Owens et al. “Visually Indicated Sounds” in CVPR, 2016.
Audio => CV (CVPR16 oral, ECCV16)

Natural Language Processing => CV (CVPR16 oral)
J. Johnson et al. “DenseCap: Fully Convolutional Localization Networks for Dense Captioning” in CVPR, 2016.

CV技術は成熟してきた？
•  今こそ，他分野との統合を⾏うべきである！（⽉並みですが）

PRMU Grand Challenge
•  これからの10年を想定したCV技術
–  cv-top10
–  10年間にやるべき10のこと
•  CVと他分野の融合
–  CV技術を他の分野へ
–  他の分野の知⾒をCV技術へ

未来の技術？
•  10~20年後を考えよう
•  × いきなり新しい設定を考える
•  ◎ 今の技術を劇的に進展させる
•  「従来には無いもの」ではなく，
•  「従来技術の圧倒的な進化」が未来の技術！

実は。。。
•  本資料はGrand Challengeのためだけではありません！
–  cvpaper.challengeでは⼀緒に「新しい概念」を打ち出せる⼈を募集中
–  本資料に記載の“cv-top10” や “esc-cv” はこれからプロジェクト内で取り
組もうとしている内容です！
–  ⼈材募集はこちら： https://sites.google.com/site/cvpaperchallenge/recruit

CVpaper.challenge
公募
CVpaperChalleng
cvpaperchallenge
Read 1,000+, Write 10+ papers.
JOIN US!
⽚岡裕雄
Hirokatsu Kataoka
hirokatsu.kataoka＠aist.go.jp
【主な成果】
(1) ECCV 2016 Workshop Oral & Best Paper
(2) ECCV 2016 Workshop x 2
(3) サーベイ論⽂ (CVPR 2015)
(4) 招待講演 (PRMU, IAIP)

これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2016年12月)

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Andere mochten auch

Andere mochten auch (20)

Ähnlich wie これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2016年12月)

Ähnlich wie これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2016年12月) (20)

これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2016年12月)