SlideShare ist ein Scribd-Unternehmen logo
1 von 38
Downloaden Sie, um offline zu lesen
コンピュータビジョンの研究開発状況
⽚岡裕雄
1
http://hirokatsukataoka.net/
DNNの動向・CVのトレンド(1/34)
2
• DNN時代以前の動向
– Perceptron, MLP, Neocognitron, BackProp, CNN
– DNNが流⾏る直前の画像認識では局所特徴が使⽤
2020
1960
CNN
Perceptron
Neocognitron
1980
1990
2000
2010
1970
HOG/SIFT
BoF/SVM
1st AI 2nd AI 3rd AI
Deep
Learning
F. Rosenblatt et al. “Principles of Neurodynamics: Perceptrons and the Theory of Brain Mechanisms” in 1961.
Rumelhart et al. “Learning representations by back-propagating errors” in Nature 1986.
K. Fukushima, “Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position”, in
1980
Y. LeCun et al. “Gradient-based learning applied to document recognition” in IEEE 1998.
Backprop.
DNNの動向・CVのトレンド(2/34)
3
• Perceptron, MLP, Neocognitron/ConvNet
– Perceptron
• ⼊⼒とコネクション(重み)の線形和,活性化関数により構成
– MLP: Multi-layer Perceptron
• Perceptronの多層化
– Neocognitron/ConvNet
• 畳込みの概念を導⼊,特に隣接ピクセルに類似関係のある画像処理
に有効
Perceptron(パーセプトロン)
Neocognitron
K. Fukushima, “Neocognitron: A Self-organizing Neural Network
Model for a Mechanism of Pattern Recognition Unaffected by Shift
in Position,” Biol. Cybenetics 36, pp.193-202, 1980.
https://www.rctn.org/bruno/public/papers/Fukushima1980.pdf
Convolutional Neural Net
Y. LeCun et al. “Gradient-Based Learning
Applied to Document Recognition,” IEEE,
1998.
http://yann.lecun.com/exdb/publis/pdf/l
ecun-01a.pdf
DNNの動向・CVのトレンド(3/34)
4
• ILSVRCを発端とする画像識別タスクへの応⽤
– AlexNet @画像認識コンペILSVRC2012
• 2位に10%以上の⼤差で勝者となる(2位は東京⼤学のチームISI)
⽜久⽒講演スライドより https://www.slideshare.net/YoshitakaUshiku/deep-learning-
73499744/4
– 背景にはBelief Propagation, ReLU, SGD, Dropoutなど構
造をDEEPにする技術が揃ってきた
DNNの動向・CVのトレンド(4/34)
5
DNNが勝てた背景
– ImageNet!(データが最も重要)
– Computing!(圧倒的な計算⼒)
http://www.image-net.org/
http://cvpr2017.thecvf.com/
×
DNNの動向・CVのトレンド(5/34)
6
ImageNetの収集について
– 14,000,000+ imgs / 20,000+ categories
– 2007年からデータを収集,2009年CVPR発表
– その後もデータ収集は継続して,現在は上記の規模に
http://fungai.org/images/blog/imagenet-logo.png
https://www.ted.com/talks/fei_fei_li_how_we_re_teaching_computers_t
o_understand_pictures/up-next?language=ja
ImageNetのロゴ,右側はStanfordの⾚,左は
前所属のPrinceton,そして上の緑は
WorldPeaceー世界平和ーを⽰す(らしい)
Fei-Fei⽒のTED動画(右)資⾦繰りの苦労や
,2000年代当時はアルゴリズム⾄上主義でデ
ータを収集することが理解されなかった
DNNの動向・CVのトレンド(6/34)
7
計算機環境(主にGPU)の発展
– 特に3rd AIブームからはNVIDIAの隆盛ぶりがすごい
– NVIDIA,最初はゲーム⽤グラフィックボードを売ってい
たらしいが,深層学習に会社の命運を託すと明⾔
– 結果,下記の性能向上と世界的な提携/資⾦獲得である
https://www.nextplatform.com/2015/03/18/nvidia-tweaks-pascal-gpus-for-deep-learning-push/
Tesla(2008年)からVolta(
2018年)世代までの性能向上
DNNの動向・CVのトレンド(7/34)
8
• 構造の深化(2014〜2016)
– 2014年頃から「構造をより深くする」ための知⾒が整う
– 現在(主に画像識別で)主流なのはResidual Network
AlexNet [Krizhevsky+, ILSVRC2012]
VGGNet [Simonyan+, ILSVRC2014]
GoogLeNet [Szegedy+, ILSVRC2014/CVPR2015]
ResNet [He+, ILSVRC2015/CVPR2016]
ILSVRC2012 winner,DLの⽕付け役
16/19層ネット,deeperモデルの知識
ILSVRC2014 winner,22層モデル
ILSVRC2015 winner, 152層︕(実験では103+層も)
DNNの動向・CVのトレンド(8/34)
9
• 構造の複雑化・⾃動化(2016〜)
– ResNet以降のアーキテクチャ
• ResNeXt, DenseNet, SENet, ...
– ⾃動化・効率化(Neural Architecture Search, EfficientNet)
• (P)NASNet, EfficientNet...
SENet(SE-block)
J. Hu et al. “Squeeze-and-Excitation Networks, “ in TPAMI 2019.
https://arxiv.org/abs/1709.01507
S. Xie et al. “Aggregated Residual
Transformations for Deep Neural
Networks, “ in CVPR 2017.
https://arxiv.org/abs/1709.01507
ResNeXt
G. Huang et al. “Densely Connected
Convolutional Networks, “ in CVPR
2017.
https://arxiv.org/abs/1608.06993
DenseNet B. Zoph et al. “Learning Transferable
Architectures for Scalable Image
Recognition,“ in CVPR 2018.
https://arxiv.org/abs/1707.07012
NASNet
C. Liu et al. “Progressive Neural
Architecture Search,“ in CVPR 2018.
https://arxiv.org/abs/1712.00559
PNASNet
M. Tan et al. “EfficientNet: Rethinking
Model Scaling for Convolutional Neural
Networks,“ in ICML 2019.
https://arxiv.org/pdf/1905.11946.pdf
EfficientNet
DNNの動向・CVのトレンド(9/34)
10
• 他タスクへの応⽤(画像認識・動画認識)
– 物体検出: R-CNN, Fast/Faster R-CNN, YOLO, SSD,,,
– 領域分割: FCN, SegNet, U-Net,,,
– Vision & Language: 画像説明⽂, VQA, Visual Dialog,,,
– 動画認識: Two-stream ConvNets, 3D Conv., (2+1)D Conv. ,,,
Person
Uma
Show and Tell [Vinyals+, CVPR15]
R-CNN [Girshick+, CVPR14]
FCN [Long+, CVPR15]
Two-Stream CNN [Simonyan+, NIPS14]
DNNの動向・CVのトレンド(10/34)
11
Hito
Uma
Haar-like [Viola+, CVPR01]
+ AdaBoost
Fast R-CNN [Girshick, ICCV15]
ROI Pooling, Multi-task Loss Faster R-CNN [Ren+, NIPS15]
RPN
・・・
・・・
R-CNN時代(それ以前は”Hand-crafted” ObjectNess)⾼速化 & ⾼精度化
One-shot Detector時代 兎にも⾓にも(精度を保ちつつ)⾼速化
YOLO(v1)/v2/v3 [Redmon+, CVPR16/CVPR17/arXiv18]
One-shot detector, w/ full-connect layer
・・・
Latest Algorithm 精度重視,⾼速
Mask R-CNN [He+, ICCV17]
RoI Align, Det+Seg
・・・
bbox+segmentationのラベルが同時
に⼿に⼊るならMask R-CNNを試そう
41.8AP@MSCOCO
bboxのみが⼿に⼊
るならRetinaNetを
⽤いるのがベター
40.8AP@MSCOCO
SSD [Liu+, ECCV16]
One-shot detector, Anchor Box
Hand-crafted feature時代 基礎/枠組みの構築
HOG [Dalal+, CVPR05]
+ SVM
ICF [Dollár+, BMVC09]
+ Soft-cascade
DPM [Felzenszwalb+,
TPAMI12]
+ Latent SVM
・・・
• 物体検出の流れ(2001〜2017)
R-CNN [Girshick, CVPR14]
Selective Search + CNN
DNNの動向・CVのトレンド(10ʼ/34)
12
物体検出の流れ(2018〜2020)
B. Singh et al. “An Analysis of Scale Invariance in
Object Detection,“ in CVPR 2018.
https://arxiv.org/abs/1711.08189
SNIP
B. Singh et al. “SNIPER: Efficient Multi-Scale
Training,“ in NeurIPS 2018.
https://papers.nips.cc/paper/8143-sniper-efficient-
multi-scale-training.pdf
SNIPER
Q. Zhao et al. “M2Det: A Single-Shot Object
Detector based on Multi-Level Feature Pyramid
Network,“ in AAAI 2019.
https://arxiv.org/abs/1811.04533
M2Det
Z. Xingyi et al. “Objects as Points,“ in arXiv 2019.
https://arxiv.org/abs/1904.07850
CenterNet
H. Law et al. “CornerNet: Detecting Objects as
Paired Keypoints,“ in ECCV 2018.
https://arxiv.org/abs/1808.01244
CornerNet
K. Duan et al. “CenterNet: Keypoint Triplets for
Object Detection,“ in ICCV 2019.
https://arxiv.org/abs/1904.08189
CenterNet
Mask R-CNN 41.7 -> CenterNet 47.0まで向上︕
物体候補が多く位置する領域を拡⼤ 多重解像度の特徴マップ使⽤
2点(左上, 右下)を回帰 中央からxyサイズを回帰 中央+2点, xyサイズを回帰
DNNの動向・CVのトレンド(11/34)
13
• セマンティック/インスタンスセグメンテーション
• ・・・ピクセルごとにラベルを回帰
– デファクトスタンダードはまだ覇権争い︖
– 問題を細分化して解いている印象
• ⽂脈把握, スケール変動, データ不⾜
FCN [Long, CVPR2015]
全層畳み込み,チャネル和
SegNet [Kendall, arXiv2015]
U-Net [Ronneberger, MICCAI2015]
位置情報保持,チャネル連結
・
・
・
ベースアルゴリズム ・
・
・
精度重視
Mask R-CNN [He, ICCV2017]
RoI Align, Det+Seg
・
・
・
物体検出とインスタンスセグメ
ンテーションのタスクを同時に
学習することで双⽅を相補的に
改善している
DeepLab(v1,v2,v3) [Chen, TPAMI2017]
Dilated Conv, 特徴マップの並列化
※下はセマンティック/インスタンスセグメンテーションを両⽅含む
DNNの動向・CVのトレンド(12/34)
14
– CVとNLP(⾃然⾔語処理)の融合分野
• 画像説明⽂(Image Captioning)
• 視覚的質問回答(Visual Question Answering; VQA)
• Visual Dialog
画像 (Visual)と質問⽂ (Q)を⼊⼒,
回答 (A)を返却
画像を⼊⼒として
⽂章を出⼒
【VQA】
【Image Captioning】 【Visual Dialog】
画像とそれに対する対話を繰り返しながら
回答を⾏う
https://visualqa.org/
O. Vinyals et al. “Show and Tell: A
Neural Image Caption Generator,” in
CVPR 2015.
https://arxiv.org/pdf/1411.4555.pdf
https://visualdialog.org/
DNNの動向・CVのトレンド(13/34)
15
• 動画像認識のモデル(N-Dimension Conv)
– 2D: Two-Stream ConvNets(フロー画像を同時に準備)
– 2D+再帰モデル: CNN+LSTM(最近ベンチマークとしてしか使われなくなった)
– 3D: 3D CNN(データが⽤意できればこれが本命)
– (2+1)D: Separable Conv.(少量データの場合のオプション)
3D畳み込み(C3D, 3D ResNet, I3D)
3Dフィルタ
畳み込みマップ
(3D)
識別
D. Tran et al. “A Closer Look at Spatiotemporal
Convolutions for Action Recognition,” in CVPR 2018.
DNNの動向・CVのトレンド(13ʼ/34)
16
• 動画認識タスク
R. Krishna et al. “Dense Captioning Events in
Videos,“ in ICCV 2017.
https://arxiv.org/abs/1705.00754
DenseCaptioning
T. Lin et al. “Single Shot Temporal Action
Detection,“ in ACM MM 2017.
https://arxiv.org/abs/1710.06236
SSAD
Qiu et al. “Learning Spatio-Temporal Representation
with Local and Global Diffusion,“ in CVPR 2019.
https://arxiv.org/abs/1906.05571
Local & Global Diffusion (LGD)
動画から説明⽂を出⼒
動画の区間を推定(⾏動の始点・終点)
局所・⼤域特徴を同時抽出(⾼精度な動画認識)
DNNの動向・CVのトレンド(14/34)
17
• GAN:画像⽣成を⾏うための構造として提案
– 現在,⽣成/データの分布を近づける性質から多
様な場⾯に応⽤
– 超解像,異常検知,データ拡張 など
GANの構造
https://medium.com/@sunnerli/the-
missing-piece-of-gan-d091604a615a
徐々に鮮明になるデータ
BigGAN https://arxiv.org/pdf/1809.11096.pdf
(注)下はGANにより⽣成された画像です
DNNの動向・CVのトレンド(15/34)
18
• GANの主要な流れ
1. GAN(オリジナルのGAN)
• [Goodfellow, NIPS2014] https://papers.nips.cc/paper/5423-generative-adversarial-nets.pdf
2. DCGAN(畳み込み層の使⽤)
• [Radford, ICLR2016] https://arxiv.org/abs/1511.06434
3. Pix2Pix(pixel同⼠が対応付くという意味でConditionalなGAN)
• [Isola, CVPR2017] https://arxiv.org/abs/1611.07004
4. CycleGAN(pix2pixの教師なし版)
• [Zhu, ICCV2017] https://arxiv.org/pdf/1703.10593.pdf
5. ACGAN(カテゴリ識別も同時に実施してコンディションとした)
• [Odera, ICML2017] https://arxiv.org/abs/1610.09585
6. WGAN/SNGAN(学習安定化)
• [Arjovsky, ICML2017] http://proceedings.mlr.press/v70/arjovsky17a.html
• [Miyato, ICLR2018] https://arxiv.org/abs/1802.05957
7. PGGAN(⾼精度化)
• [Karras, ICLR2018] https://arxiv.org/abs/1710.10196
8. Self-Attention GAN(アテンション機構を採⽤)
• [Zhang, arXiv 1805.08318] https://arxiv.org/abs/1805.08318
9. BigGAN(超⾼精細GAN)
• [Brock, ICLR2019] https://arxiv.org/abs/1809.11096
# 2018年10⽉時点での調査
DNNの動向・CVのトレンド(16/34)
19
• 鮮明な画像⽣成 - GAN vs. VAE︕︖
– キレイな画像⽣成はGANが優勢だった(〜2019/05)
• SNGAN, BigGAN, StyleGAN etc.
– だが,VQ-VAE-2でVAEが巻き返しを図るか︖
• GANのようにMode Collapseを起こさないと主張
⽣成モデル,今後の動向に期待︕︕
左︓VQ-VAE-2,右︓BigGAN
A. Razavi et al. “Generating Diverse High-
Fidelity Imageswith VQ-VAE-2,” NeurIPS,
2019.
https://arxiv.org/pdf/1906.00446.pdf
DNNの動向・CVのトレンド(17/34)
20
• 教師なし/少量教師あり学習への拡がり
– キーワード
• {Un-, Weak-, Semi-, Self-} supervision
• {Zero-, One-, Few-} shot learning
• Transfer Learning
• Domain Adaptation
• Reinforcement Learning
– 教師がない/間接的に教師を与える,ような仕組みに対する
競争も激化
– 巨⼤IT企業のように⼤量のラベルを持たなくても学習を成
功させる
• アルゴリズム⾄上主義への回帰︖
DNNの動向・CVのトレンド(18/34)
• 学習法の簡単な整理
– {Un-, Semi-, Weak-, Self-} supervision
• Un-supervision(教師なし学習)
アノテーションが⼀切ないデータで学習
• Semi-supervision(半教師あり学習)
アノテーションを持つデータと持たないデータで学習
• Weak-supervision(弱教師付き学習)
出⼒として必要な情報よりも拘束⼒の弱いデータを⽤いて学習
– ex) 物体検出を⾏う際に画像ラベルのみを⽤いて学習
• Self-supervision(⾃⼰教師あり学習)
⾃ら教師を作り出して特徴表現を学習する「⾃⼰教師学習」
– 特定タスクの前に⾃ら教師を作り出し特徴表現を学習するため,その
後に特定タスクのためのファインチューニングを伴う
– ex) 領域分割した画像でジグソーパズルを解く,回転を当てる
DNNの動向・CVのトレンド(19/34)
22
転移学習(Transfer Learning)の網羅的調査
– Taskonomy [Zamir, CVPR2018]
• CVPR 2018 Best Paper Award
• 26種のタスク間の関連性を調べる
– CVの歴史の中で別々に議論されたいたサブタスクを繋げる
– 効果を最⼤化する転移学習の関係性を明らかにした
http://taskonomy.stanford.edu/
データセットは26タスクに対しラベル付け
Task Similarity Tree: 類似するタスク間の関
係性を可視化
DNNの動向・CVのトレンド(20/34)
23
• 教師あり学習 vs. 無教師/弱教師
– 少量/無 ラベルで教師あり学習に勝つ︕
• How good is my GAN?: 勝てなかったがGANによるデータ拡張の⽅針を⽰す
• 6D Object Detection: 条件付だがこの⽂脈で勝利(ECCVʼ18 BestPaper)
• Cut/Paste Learn: 9割くらいの精度まで来た
[Sundermeyer, ECCV2018]Oral,BP
ラベル無しCGデータで実時間6D検出,
さらに教師有りを倒した
[Remez, ECCV2018]Oral
Cut/Pasteで既存セグメントラベルを増
加,教師有りに接近する精度
[Shmelkov, ECCV2018]
GANの評価法提案,追加実験のデー
タ拡張がポイント
DNNの動向・CVのトレンド(21/34)
24
⾃⼰教師あり学習(Self-supervised Learning)
– ⾃ら教師を作り出し,良好な特徴表現を獲得
• 事前タスク(Pretext task; 左下図)で学習,⽬的タスク(Target task; 右下図)で調整
• 例︓PretextはラベルなしImageNet, TargetはラベルありImageNet
Pretext task例︓ジグソーパズル
1.(a)(b)の図を9分割&シャッフルして復元するよう学習
2.通常通りPascalVOC, ImageNet等で学習
打倒︕ImageNet 事前学習が⽬標の研究分野
DNNの動向・CVのトレンド(21ʼ/34)
25
⼈間の教師に近接する精度を実現︕
– ImageNet教師あり学習に「⾃⼰教師+数%の教師」で到達
• SimCLR: Simple Framework for Contrastive Learning of Visual Representation
• 下図は論⽂中より引⽤ https://arxiv.org/abs/2002.05709
SimCLRはパラメータ数が多い
(Supervised 約25M vs. SimCLR 約400M)が,
自己教師学習により教師あり学習
と同等の精度まで到達
DNNの動向・CVのトレンド(22/34)
26
• 学習データ⽣成
– キーワード
• Synthetic Data
• Adversarial Learning
• Data Augmentation
• Domain Randomization
– CGなど合成(Synthetic)でデータを作成
– 敵対的学習(Adversarial Learning)
• 少量のサンプルから画像⽣成
• 合成をリアルに近づける
– データ拡張(Data Augmentation)
• データの⽔増しをあらゆる⽅法(e.g. 反転,回転,統合)で実現
DNNの動向・CVのトレンド(23/34)
27
シミュレーション画像からの変換
– GANにより変換/⽣成した画像も学習に使えるように
• 左図︓SimGAN
– CVPR2017 Best Paper
– CGをリアルに近付けるRefiner(R)と識別器(D)
• 右図︓GraspGAN
– ICRA2018
– 上記論⽂を元ネタとしてロボットシミュレータ画像をリアルに近づけて,マニ
ピューレーションを実⾏
DNNの動向・CVのトレンド(24/34)
28
• 超越(Beyond)/再考(Rethink) ImageNet
学習回数が多くなると
scratch/ pre-trainの精度が
同等に
通常の学習回数ではImageNet Pre-
trainが強く⾒えている、、、
[Mahajan, ECCV2018]
FBはSNSのHashtagでラベル付けなし,弱教師付きの3.5B枚画像DB構築
【超越】
Top-1: 85% w/ ResNeXt-101
ラベルはSNSの再利⽤
https://venturebeat.com/2018/05/02/facebook-is-using-instagram-photos-and-hashtags-to-improve-its-computer-vision/
ImageNetは他のタスクの精度向上に貢献する︖
• しない(左図参照)
• スクラッチで⻑く学習すれば同等の精度まで到達
– ただし,10K以上のラベルは必要
• 収束は早くなったので,研究ペース促進に寄与
無/弱/半教師付きの⽂脈で⼤量画像とその教
師を与えられればモデルを強化できる
【再考】 [He, arXiv2018]
タスクに即した事前学習をする(物体検知なら物体検知の事前学習)
DNNの動向・CVのトレンド(25/34)
29
• 動画DBの⼤規模化
– 動画共有サイトのタグ付け
– 画像識別の動画版
Kinetics [Kay, arXiv2017]
Moments in Time [Monfort, arXiv2018]
[Ghadiyaram, CVPR2019]
Kinetics-700 Moments in Time
700カテゴリ/650,000+動画 339カテゴリ/1,000,000+動画
359カテゴリ/65,000,000+動画
Instagram-65M
【最近の代表的な動画データセット】
10万〜1000万を超える動画数のデータセットが登場,
画像識別に変わるネクストトレンドとして位置付けられる
DNNの動向・CVのトレンド(26/34)
30
• DNNのフレームワークが次々にリリース
– Caffe/Caffe2, Theano, Chainer, TensorFlow, Keras,
Torch/PyTorch, MatConvNet, Deeplearning4j, CNTK,
MxNet, Lasagne
(順不同,その他多数)
– 特に,Caffeが出てきてからCVにおけるDNNの研究は爆発
的に広がった
https://chainer.org/images/logo.png
http://pytorch.org/docs/master/_static/pytorch-logo-dark.svg
https://www.tensorflow.org/_static/image
s/tensorflow/logo.png
# ⽇本ではChainer︖ 世界的にはTensorFlow︖研究者はPyTorch︖開発者はCaffe2/TensorFlow︖ 簡便性の⾯から
Kerasもよく使われていると聞く
# Facebookでも研究はPyTorch,プロダクトはCaffe2のように使い分け
DNNの動向・CVのトレンド(27/34)
31
• HPC: コンピューティングによる研究の加速
– AWS/Azure/Google Cloud, ⽇本でも
Tsubame3.0/ABCI/Fugaku(coming soon…)
• Multi-GPU, Multi-Node
– ImageNet 世界最速記録の変遷
• 29h > 1h > 30m > 15m > 6.6m > 1.8m > 2.0m > 1.2m
東⼯⼤TSUBAME 3.0 産総研ABCI
https://commons.wikimedia.org/wiki/
File:TSUBAME_3.0_PA075096.jpg
M. Yamazaki, et al. “Yet Another Accelerated SGD: ResNet-
50 Trainingon ImageNet in 74.7 seconds,” arXiv pre-print,
1903.12650, 2019.
https://arxiv.org/pdf/1903.12650.pdf
DNNの動向・CVのトレンド(28/34)
32
• 現在も進化の⼀途を辿り,社会実装が進む
– ⾃動運転/ADAS
– ロボティクス
– ファッション
– 画像/動画検索
– 物流(ピッキング等)
– 等
研究者としては「こんなこともできる」を世に出したい
DNNの動向・CVのトレンド(29/34)
33
• ⾃動運転/ADAS(Self-Driving Cars/ADAS)
– 国際会議の研究(検知など単純タスク)は減少傾向, 実利⽤に向け開発︖
– 数年前はKITTI datasetに対しての精度競争が盛ん
– 現在は⾃動運転の解釈性,ニアミスシーンの解析等
KITTI: Autonomous driving benchmark
物体検出,ステレオ視,セグメンテ
ーション問題を提供
Optical Flow Stereo Matching Object Detection
Road Odometry Semantic Segmentation
[Geiger, CVPR2012]
[Kim, ICCV2017]
⾃動運転時の解釈性,物体検知の際
にどこを参照したか︖
事故に近いシーンを認識,予測
[Suzuki&Kataoka,
CVPR2018]
DNNの動向・CVのトレンド(30/34)
34
• ロボティクスへの応⽤ @CVPR2019
– 点群の利⽤や6D Object Detectionが多数
– マニピュレーション︓DenseFusionでは6D Det.
と把持を実施(左図)
– ⾃動運転︓点群トラッキング+形状復元(右図)
C. Wang et al. “DenseFusion: 6D Object Pose
Estimation by Iteratibve Dense Fusion,” in
CVPR 2019
http://openaccess.thecvf.com/content_CVPR_2019/papers/Wang_D
enseFusion_6D_Object_Pose_Estimation_by_Iterative_Dense_Fusion
_CVPR_2019_paper.pdf
S. Giancola et al. “Leveraging Shape Completion for 3D Siamese
Tracking,” in CVPR 2019.
http://openaccess.thecvf.com/content_CVPR_2019/papers/Giancola_Leveraging_Shape_Completion_for_3D_Sia
mese_Tracking_CVPR_2019_paper.pdf
点群トラッキング+形状復元(下の例は⾞両の復元)
DNNの動向・CVのトレンド(31/34)
35
• ファッション分野への応⽤ @CVPR2019
– ファッションのアノテーションが進展
– DeepFashion2(左図)
• DeepFashionの強化版,より詳細なラベルを付与
– FCDBv2(右図)
• FCDBの強化版,バイナリ識別器によりデータクレンジング
Y. Ge et al. “DeepFashion2: A Versatile Benchmark for
Detection, Pose Estimation,Segmentation and Re-
Identification of Clothing Images,” in CVPR 2019.
http://openaccess.thecvf.com/content_CVPR_2019/papers/Ge_DeepFashion2_A_
Versatile_Benchmark_for_Detection_Pose_Estimation_Segmentation_and_CVPR_2
019_paper.pdf
H. Kataoka, K. Abe, M. Minoguchi, A. Nakamura, Y. Satoh, "Ten-
million-order Human Database for World-wide Fashion Culture
Analysis", in CVPR 2019 Workshop on FFSS-USAD.
http://openaccess.thecvf.com/content_CVPR_2019/papers/Ge_DeepFashion2_A_Versatile_B
enchmark_for_Detection_Pose_Estimation_Segmentation_and_CVPR_2019_paper.pdf
DNNの動向・CVのトレンド(32/34)
36
• 動画認識の応⽤
– 動画⾃動ラベル付け
– ⾒守り,料理⾏動解析,ホームロボティクス,,,
• 動画DBは群雄割拠(下図)
D. Damen et al. “Scaling Egocentric
Vision: The EPIC-KITCHENS Dataset,” in
ECCV 2018.
https://epic-kitchens.github.io/2018
W. Kay et al. “The
Kinetics Human Action
Video Dataset,” in
arXiv:1705.06950
2017.
https://deepmind.com/research/open-
source/open-source-datasets/kinetics/
C. Gu et al. “AVA: A
Video Dataset of Spatio-
temporally Localized
Atomic Visual Actions,” in
CVPR 2018.
https://research.google.com/ava/downl
oad.html
M. Monfort et al. “Moments in Time
Dataset: one million videos for event
understanding,” in arXiv pre-print
1801.03150, 2018.
http://moments.csail.mit.edu/
H. Zhao et al. “HACS: Human Action
Clips and Segments Dataset for
Recognition and Temporal Localization,”
in arXiv pre-print 1712.09374 2017.
http://hacs.csail.mit.edu/
Something-Something v2 dataset
https://20bn.com/datasets/something-something
DNNの動向・CVのトレンド(33/34)
37
• 2020年 CV分野のトレンド: アルゴリズム考案
– 既存の問題をよりよく解く
• 精度向上/タスク解決に対して効果的な⼿法を提案
– 以前からホットな領域
• 画像識別,物体検出,(インスタンス)セグメンテーション,動画
認識,Shape-from-X,SLAM,Computational Photography,⾃
動運転/ADAS,ロボット応⽤,,,
– 最近ホットになった領域
• Language & Vision(画像説明⽂/VQA),敵対的⽣成ネット(
GAN),ファッション,,,
– 今後ホットになりそうな領域︖
• 多タスク学習(転移学習),強化学習, 3D⽣成, 解釈性, , ,
# もちろん,上記以外にもまだまだあります
DNNの動向・CVのトレンド(34/34)
38
• 2020年 CV分野のトレンド: 少量教師学習
– ⼤規模データの収集/ラベル付け問題を解決および緩和
• 深層学習の1st waveがアーキテクチャ改善だとすると,
• 2nd waveはデータ作成/少量データ学習
– データ問題のキーワード
• {Un-, Weak-, Semi-, Self-} Supervised Learning
• {Zero-, One-, Few-} shot learning
• Domain Adaptation, Domain Randomization, Synthetic Data,
Adversarial Learning, Data Augmentation
今後も新しい学習⽅法が提案されると予想
# もちろん,上記以外にもまだまだあります

Weitere ähnliche Inhalte

Was ist angesagt?

[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational AutoencoderDeep Learning JP
 
【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい
【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい
【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたいTakuji Tahara
 
モデル高速化百選
モデル高速化百選モデル高速化百選
モデル高速化百選Yusuke Uchida
 
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜SSII
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII
 
SfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法についてSfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法についてRyutaro Yamauchi
 
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)Deep Learning JP
 
How Much Position Information Do Convolutional Neural Networks Encode?
How Much Position Information Do Convolutional Neural Networks Encode?How Much Position Information Do Convolutional Neural Networks Encode?
How Much Position Information Do Convolutional Neural Networks Encode?Kazuyuki Miyazawa
 
最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情Yuta Kikuchi
 
[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object DetectionDeep Learning JP
 
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...Deep Learning JP
 
Noisy Labels と戦う深層学習
Noisy Labels と戦う深層学習Noisy Labels と戦う深層学習
Noisy Labels と戦う深層学習Plot Hong
 
モデルアーキテクチャ観点からのDeep Neural Network高速化
モデルアーキテクチャ観点からのDeep Neural Network高速化モデルアーキテクチャ観点からのDeep Neural Network高速化
モデルアーキテクチャ観点からのDeep Neural Network高速化Yusuke Uchida
 
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision TransformerYusuke Uchida
 
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化Yusuke Uchida
 
Layer Normalization@NIPS+読み会・関西
Layer Normalization@NIPS+読み会・関西Layer Normalization@NIPS+読み会・関西
Layer Normalization@NIPS+読み会・関西Keigo Nishida
 
画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイcvpaper. challenge
 
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)cvpaper. challenge
 
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...Deep Learning JP
 

Was ist angesagt? (20)

[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
 
【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい
【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい
【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい
 
モデル高速化百選
モデル高速化百選モデル高速化百選
モデル高速化百選
 
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
 
SfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法についてSfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法について
 
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
 
How Much Position Information Do Convolutional Neural Networks Encode?
How Much Position Information Do Convolutional Neural Networks Encode?How Much Position Information Do Convolutional Neural Networks Encode?
How Much Position Information Do Convolutional Neural Networks Encode?
 
最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情
 
[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection
 
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
 
Noisy Labels と戦う深層学習
Noisy Labels と戦う深層学習Noisy Labels と戦う深層学習
Noisy Labels と戦う深層学習
 
モデルアーキテクチャ観点からのDeep Neural Network高速化
モデルアーキテクチャ観点からのDeep Neural Network高速化モデルアーキテクチャ観点からのDeep Neural Network高速化
モデルアーキテクチャ観点からのDeep Neural Network高速化
 
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
 
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化
 
Layer Normalization@NIPS+読み会・関西
Layer Normalization@NIPS+読み会・関西Layer Normalization@NIPS+読み会・関西
Layer Normalization@NIPS+読み会・関西
 
画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ
 
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)
 
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
 
BlackBox モデルの説明性・解釈性技術の実装
BlackBox モデルの説明性・解釈性技術の実装BlackBox モデルの説明性・解釈性技術の実装
BlackBox モデルの説明性・解釈性技術の実装
 

Ähnlich wie コンピュータビジョンの研究開発状況

Convolutional Neural Netwoks で自然言語処理をする
Convolutional Neural Netwoks で自然言語処理をするConvolutional Neural Netwoks で自然言語処理をする
Convolutional Neural Netwoks で自然言語処理をするDaiki Shimada
 
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...cvpaper. challenge
 
ArtTrack: Articulated Multi-Person Tracking in the Wild : CV勉強会関東
ArtTrack: Articulated Multi-Person Tracking in the Wild : CV勉強会関東ArtTrack: Articulated Multi-Person Tracking in the Wild : CV勉強会関東
ArtTrack: Articulated Multi-Person Tracking in the Wild : CV勉強会関東Yukiyoshi Sasao
 
R-CNNの原理とここ数年の流れ
R-CNNの原理とここ数年の流れR-CNNの原理とここ数年の流れ
R-CNNの原理とここ数年の流れKazuki Motohashi
 
【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2Hirokatsu Kataoka
 
PredCNN: Predictive Learning with Cascade Convolutions
PredCNN: Predictive Learning with Cascade ConvolutionsPredCNN: Predictive Learning with Cascade Convolutions
PredCNN: Predictive Learning with Cascade Convolutionsharmonylab
 
動画認識サーベイv1(メタサーベイ )
動画認識サーベイv1(メタサーベイ )動画認識サーベイv1(メタサーベイ )
動画認識サーベイv1(メタサーベイ )cvpaper. challenge
 
大規模画像認識とその周辺
大規模画像認識とその周辺大規模画像認識とその周辺
大規模画像認識とその周辺n_hidekey
 
Deep Learningと画像認識   ~歴史・理論・実践~
Deep Learningと画像認識 ~歴史・理論・実践~Deep Learningと画像認識 ~歴史・理論・実践~
Deep Learningと画像認識   ~歴史・理論・実践~nlab_utokyo
 
Deep Learningの基礎と応用
Deep Learningの基礎と応用Deep Learningの基礎と応用
Deep Learningの基礎と応用Seiya Tokui
 
3次元計測とフィルタリング
3次元計測とフィルタリング3次元計測とフィルタリング
3次元計測とフィルタリングNorishige Fukushima
 
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation 「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation Takumi Ohkuma
 
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDeep Learning JP
 
B3スタートアップ コンピュータビジョンの現在と未来にやるべきこと(東京電機大学講演)
B3スタートアップ コンピュータビジョンの現在と未来にやるべきこと(東京電機大学講演)B3スタートアップ コンピュータビジョンの現在と未来にやるべきこと(東京電機大学講演)
B3スタートアップ コンピュータビジョンの現在と未来にやるべきこと(東京電機大学講演)cvpaper. challenge
 
Deep learningの発展と化学反応への応用 - 日本化学会第101春季大会(2021)
Deep learningの発展と化学反応への応用 - 日本化学会第101春季大会(2021)Deep learningの発展と化学反応への応用 - 日本化学会第101春季大会(2021)
Deep learningの発展と化学反応への応用 - 日本化学会第101春季大会(2021)Preferred Networks
 
semantic segmentation サーベイ
semantic segmentation サーベイsemantic segmentation サーベイ
semantic segmentation サーベイyohei okawa
 
20160825 IEICE SIP研究会 講演
20160825 IEICE SIP研究会 講演20160825 IEICE SIP研究会 講演
20160825 IEICE SIP研究会 講演Hayaru SHOUNO
 
ECCV2020 オーラル論文完全読破 (2/2)
ECCV2020 オーラル論文完全読破 (2/2) ECCV2020 オーラル論文完全読破 (2/2)
ECCV2020 オーラル論文完全読破 (2/2) cvpaper. challenge
 
(2021年8月版)深層学習によるImage Classificaitonの発展
(2021年8月版)深層学習によるImage Classificaitonの発展(2021年8月版)深層学習によるImage Classificaitonの発展
(2021年8月版)深層学習によるImage Classificaitonの発展Takumi Ohkuma
 

Ähnlich wie コンピュータビジョンの研究開発状況 (20)

Convolutional Neural Netwoks で自然言語処理をする
Convolutional Neural Netwoks で自然言語処理をするConvolutional Neural Netwoks で自然言語処理をする
Convolutional Neural Netwoks で自然言語処理をする
 
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
 
ArtTrack: Articulated Multi-Person Tracking in the Wild : CV勉強会関東
ArtTrack: Articulated Multi-Person Tracking in the Wild : CV勉強会関東ArtTrack: Articulated Multi-Person Tracking in the Wild : CV勉強会関東
ArtTrack: Articulated Multi-Person Tracking in the Wild : CV勉強会関東
 
CVPR 2018 速報
CVPR 2018 速報CVPR 2018 速報
CVPR 2018 速報
 
R-CNNの原理とここ数年の流れ
R-CNNの原理とここ数年の流れR-CNNの原理とここ数年の流れ
R-CNNの原理とここ数年の流れ
 
【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2
 
PredCNN: Predictive Learning with Cascade Convolutions
PredCNN: Predictive Learning with Cascade ConvolutionsPredCNN: Predictive Learning with Cascade Convolutions
PredCNN: Predictive Learning with Cascade Convolutions
 
動画認識サーベイv1(メタサーベイ )
動画認識サーベイv1(メタサーベイ )動画認識サーベイv1(メタサーベイ )
動画認識サーベイv1(メタサーベイ )
 
大規模画像認識とその周辺
大規模画像認識とその周辺大規模画像認識とその周辺
大規模画像認識とその周辺
 
Deep Learningと画像認識   ~歴史・理論・実践~
Deep Learningと画像認識 ~歴史・理論・実践~Deep Learningと画像認識 ~歴史・理論・実践~
Deep Learningと画像認識   ~歴史・理論・実践~
 
Deep Learningの基礎と応用
Deep Learningの基礎と応用Deep Learningの基礎と応用
Deep Learningの基礎と応用
 
3次元計測とフィルタリング
3次元計測とフィルタリング3次元計測とフィルタリング
3次元計測とフィルタリング
 
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation 「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
B3スタートアップ コンピュータビジョンの現在と未来にやるべきこと(東京電機大学講演)
B3スタートアップ コンピュータビジョンの現在と未来にやるべきこと(東京電機大学講演)B3スタートアップ コンピュータビジョンの現在と未来にやるべきこと(東京電機大学講演)
B3スタートアップ コンピュータビジョンの現在と未来にやるべきこと(東京電機大学講演)
 
Deep learningの発展と化学反応への応用 - 日本化学会第101春季大会(2021)
Deep learningの発展と化学反応への応用 - 日本化学会第101春季大会(2021)Deep learningの発展と化学反応への応用 - 日本化学会第101春季大会(2021)
Deep learningの発展と化学反応への応用 - 日本化学会第101春季大会(2021)
 
semantic segmentation サーベイ
semantic segmentation サーベイsemantic segmentation サーベイ
semantic segmentation サーベイ
 
20160825 IEICE SIP研究会 講演
20160825 IEICE SIP研究会 講演20160825 IEICE SIP研究会 講演
20160825 IEICE SIP研究会 講演
 
ECCV2020 オーラル論文完全読破 (2/2)
ECCV2020 オーラル論文完全読破 (2/2) ECCV2020 オーラル論文完全読破 (2/2)
ECCV2020 オーラル論文完全読破 (2/2)
 
(2021年8月版)深層学習によるImage Classificaitonの発展
(2021年8月版)深層学習によるImage Classificaitonの発展(2021年8月版)深層学習によるImage Classificaitonの発展
(2021年8月版)深層学習によるImage Classificaitonの発展
 

Kürzlich hochgeladen

SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものですiPride Co., Ltd.
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...Toru Tamaki
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdftaisei2219
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムsugiuralab
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNetToru Tamaki
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Yuma Ohgami
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略Ryo Sasaki
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)Hiroki Ichikura
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A surveyToru Tamaki
 

Kürzlich hochgeladen (9)

SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
 

コンピュータビジョンの研究開発状況

  • 2. DNNの動向・CVのトレンド(1/34) 2 • DNN時代以前の動向 – Perceptron, MLP, Neocognitron, BackProp, CNN – DNNが流⾏る直前の画像認識では局所特徴が使⽤ 2020 1960 CNN Perceptron Neocognitron 1980 1990 2000 2010 1970 HOG/SIFT BoF/SVM 1st AI 2nd AI 3rd AI Deep Learning F. Rosenblatt et al. “Principles of Neurodynamics: Perceptrons and the Theory of Brain Mechanisms” in 1961. Rumelhart et al. “Learning representations by back-propagating errors” in Nature 1986. K. Fukushima, “Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position”, in 1980 Y. LeCun et al. “Gradient-based learning applied to document recognition” in IEEE 1998. Backprop.
  • 3. DNNの動向・CVのトレンド(2/34) 3 • Perceptron, MLP, Neocognitron/ConvNet – Perceptron • ⼊⼒とコネクション(重み)の線形和,活性化関数により構成 – MLP: Multi-layer Perceptron • Perceptronの多層化 – Neocognitron/ConvNet • 畳込みの概念を導⼊,特に隣接ピクセルに類似関係のある画像処理 に有効 Perceptron(パーセプトロン) Neocognitron K. Fukushima, “Neocognitron: A Self-organizing Neural Network Model for a Mechanism of Pattern Recognition Unaffected by Shift in Position,” Biol. Cybenetics 36, pp.193-202, 1980. https://www.rctn.org/bruno/public/papers/Fukushima1980.pdf Convolutional Neural Net Y. LeCun et al. “Gradient-Based Learning Applied to Document Recognition,” IEEE, 1998. http://yann.lecun.com/exdb/publis/pdf/l ecun-01a.pdf
  • 4. DNNの動向・CVのトレンド(3/34) 4 • ILSVRCを発端とする画像識別タスクへの応⽤ – AlexNet @画像認識コンペILSVRC2012 • 2位に10%以上の⼤差で勝者となる(2位は東京⼤学のチームISI) ⽜久⽒講演スライドより https://www.slideshare.net/YoshitakaUshiku/deep-learning- 73499744/4 – 背景にはBelief Propagation, ReLU, SGD, Dropoutなど構 造をDEEPにする技術が揃ってきた
  • 6. DNNの動向・CVのトレンド(5/34) 6 ImageNetの収集について – 14,000,000+ imgs / 20,000+ categories – 2007年からデータを収集,2009年CVPR発表 – その後もデータ収集は継続して,現在は上記の規模に http://fungai.org/images/blog/imagenet-logo.png https://www.ted.com/talks/fei_fei_li_how_we_re_teaching_computers_t o_understand_pictures/up-next?language=ja ImageNetのロゴ,右側はStanfordの⾚,左は 前所属のPrinceton,そして上の緑は WorldPeaceー世界平和ーを⽰す(らしい) Fei-Fei⽒のTED動画(右)資⾦繰りの苦労や ,2000年代当時はアルゴリズム⾄上主義でデ ータを収集することが理解されなかった
  • 7. DNNの動向・CVのトレンド(6/34) 7 計算機環境(主にGPU)の発展 – 特に3rd AIブームからはNVIDIAの隆盛ぶりがすごい – NVIDIA,最初はゲーム⽤グラフィックボードを売ってい たらしいが,深層学習に会社の命運を託すと明⾔ – 結果,下記の性能向上と世界的な提携/資⾦獲得である https://www.nextplatform.com/2015/03/18/nvidia-tweaks-pascal-gpus-for-deep-learning-push/ Tesla(2008年)からVolta( 2018年)世代までの性能向上
  • 8. DNNの動向・CVのトレンド(7/34) 8 • 構造の深化(2014〜2016) – 2014年頃から「構造をより深くする」ための知⾒が整う – 現在(主に画像識別で)主流なのはResidual Network AlexNet [Krizhevsky+, ILSVRC2012] VGGNet [Simonyan+, ILSVRC2014] GoogLeNet [Szegedy+, ILSVRC2014/CVPR2015] ResNet [He+, ILSVRC2015/CVPR2016] ILSVRC2012 winner,DLの⽕付け役 16/19層ネット,deeperモデルの知識 ILSVRC2014 winner,22層モデル ILSVRC2015 winner, 152層︕(実験では103+層も)
  • 9. DNNの動向・CVのトレンド(8/34) 9 • 構造の複雑化・⾃動化(2016〜) – ResNet以降のアーキテクチャ • ResNeXt, DenseNet, SENet, ... – ⾃動化・効率化(Neural Architecture Search, EfficientNet) • (P)NASNet, EfficientNet... SENet(SE-block) J. Hu et al. “Squeeze-and-Excitation Networks, “ in TPAMI 2019. https://arxiv.org/abs/1709.01507 S. Xie et al. “Aggregated Residual Transformations for Deep Neural Networks, “ in CVPR 2017. https://arxiv.org/abs/1709.01507 ResNeXt G. Huang et al. “Densely Connected Convolutional Networks, “ in CVPR 2017. https://arxiv.org/abs/1608.06993 DenseNet B. Zoph et al. “Learning Transferable Architectures for Scalable Image Recognition,“ in CVPR 2018. https://arxiv.org/abs/1707.07012 NASNet C. Liu et al. “Progressive Neural Architecture Search,“ in CVPR 2018. https://arxiv.org/abs/1712.00559 PNASNet M. Tan et al. “EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks,“ in ICML 2019. https://arxiv.org/pdf/1905.11946.pdf EfficientNet
  • 10. DNNの動向・CVのトレンド(9/34) 10 • 他タスクへの応⽤(画像認識・動画認識) – 物体検出: R-CNN, Fast/Faster R-CNN, YOLO, SSD,,, – 領域分割: FCN, SegNet, U-Net,,, – Vision & Language: 画像説明⽂, VQA, Visual Dialog,,, – 動画認識: Two-stream ConvNets, 3D Conv., (2+1)D Conv. ,,, Person Uma Show and Tell [Vinyals+, CVPR15] R-CNN [Girshick+, CVPR14] FCN [Long+, CVPR15] Two-Stream CNN [Simonyan+, NIPS14]
  • 11. DNNの動向・CVのトレンド(10/34) 11 Hito Uma Haar-like [Viola+, CVPR01] + AdaBoost Fast R-CNN [Girshick, ICCV15] ROI Pooling, Multi-task Loss Faster R-CNN [Ren+, NIPS15] RPN ・・・ ・・・ R-CNN時代(それ以前は”Hand-crafted” ObjectNess)⾼速化 & ⾼精度化 One-shot Detector時代 兎にも⾓にも(精度を保ちつつ)⾼速化 YOLO(v1)/v2/v3 [Redmon+, CVPR16/CVPR17/arXiv18] One-shot detector, w/ full-connect layer ・・・ Latest Algorithm 精度重視,⾼速 Mask R-CNN [He+, ICCV17] RoI Align, Det+Seg ・・・ bbox+segmentationのラベルが同時 に⼿に⼊るならMask R-CNNを試そう 41.8AP@MSCOCO bboxのみが⼿に⼊ るならRetinaNetを ⽤いるのがベター 40.8AP@MSCOCO SSD [Liu+, ECCV16] One-shot detector, Anchor Box Hand-crafted feature時代 基礎/枠組みの構築 HOG [Dalal+, CVPR05] + SVM ICF [Dollár+, BMVC09] + Soft-cascade DPM [Felzenszwalb+, TPAMI12] + Latent SVM ・・・ • 物体検出の流れ(2001〜2017) R-CNN [Girshick, CVPR14] Selective Search + CNN
  • 12. DNNの動向・CVのトレンド(10ʼ/34) 12 物体検出の流れ(2018〜2020) B. Singh et al. “An Analysis of Scale Invariance in Object Detection,“ in CVPR 2018. https://arxiv.org/abs/1711.08189 SNIP B. Singh et al. “SNIPER: Efficient Multi-Scale Training,“ in NeurIPS 2018. https://papers.nips.cc/paper/8143-sniper-efficient- multi-scale-training.pdf SNIPER Q. Zhao et al. “M2Det: A Single-Shot Object Detector based on Multi-Level Feature Pyramid Network,“ in AAAI 2019. https://arxiv.org/abs/1811.04533 M2Det Z. Xingyi et al. “Objects as Points,“ in arXiv 2019. https://arxiv.org/abs/1904.07850 CenterNet H. Law et al. “CornerNet: Detecting Objects as Paired Keypoints,“ in ECCV 2018. https://arxiv.org/abs/1808.01244 CornerNet K. Duan et al. “CenterNet: Keypoint Triplets for Object Detection,“ in ICCV 2019. https://arxiv.org/abs/1904.08189 CenterNet Mask R-CNN 41.7 -> CenterNet 47.0まで向上︕ 物体候補が多く位置する領域を拡⼤ 多重解像度の特徴マップ使⽤ 2点(左上, 右下)を回帰 中央からxyサイズを回帰 中央+2点, xyサイズを回帰
  • 13. DNNの動向・CVのトレンド(11/34) 13 • セマンティック/インスタンスセグメンテーション • ・・・ピクセルごとにラベルを回帰 – デファクトスタンダードはまだ覇権争い︖ – 問題を細分化して解いている印象 • ⽂脈把握, スケール変動, データ不⾜ FCN [Long, CVPR2015] 全層畳み込み,チャネル和 SegNet [Kendall, arXiv2015] U-Net [Ronneberger, MICCAI2015] 位置情報保持,チャネル連結 ・ ・ ・ ベースアルゴリズム ・ ・ ・ 精度重視 Mask R-CNN [He, ICCV2017] RoI Align, Det+Seg ・ ・ ・ 物体検出とインスタンスセグメ ンテーションのタスクを同時に 学習することで双⽅を相補的に 改善している DeepLab(v1,v2,v3) [Chen, TPAMI2017] Dilated Conv, 特徴マップの並列化 ※下はセマンティック/インスタンスセグメンテーションを両⽅含む
  • 14. DNNの動向・CVのトレンド(12/34) 14 – CVとNLP(⾃然⾔語処理)の融合分野 • 画像説明⽂(Image Captioning) • 視覚的質問回答(Visual Question Answering; VQA) • Visual Dialog 画像 (Visual)と質問⽂ (Q)を⼊⼒, 回答 (A)を返却 画像を⼊⼒として ⽂章を出⼒ 【VQA】 【Image Captioning】 【Visual Dialog】 画像とそれに対する対話を繰り返しながら 回答を⾏う https://visualqa.org/ O. Vinyals et al. “Show and Tell: A Neural Image Caption Generator,” in CVPR 2015. https://arxiv.org/pdf/1411.4555.pdf https://visualdialog.org/
  • 15. DNNの動向・CVのトレンド(13/34) 15 • 動画像認識のモデル(N-Dimension Conv) – 2D: Two-Stream ConvNets(フロー画像を同時に準備) – 2D+再帰モデル: CNN+LSTM(最近ベンチマークとしてしか使われなくなった) – 3D: 3D CNN(データが⽤意できればこれが本命) – (2+1)D: Separable Conv.(少量データの場合のオプション) 3D畳み込み(C3D, 3D ResNet, I3D) 3Dフィルタ 畳み込みマップ (3D) 識別 D. Tran et al. “A Closer Look at Spatiotemporal Convolutions for Action Recognition,” in CVPR 2018.
  • 16. DNNの動向・CVのトレンド(13ʼ/34) 16 • 動画認識タスク R. Krishna et al. “Dense Captioning Events in Videos,“ in ICCV 2017. https://arxiv.org/abs/1705.00754 DenseCaptioning T. Lin et al. “Single Shot Temporal Action Detection,“ in ACM MM 2017. https://arxiv.org/abs/1710.06236 SSAD Qiu et al. “Learning Spatio-Temporal Representation with Local and Global Diffusion,“ in CVPR 2019. https://arxiv.org/abs/1906.05571 Local & Global Diffusion (LGD) 動画から説明⽂を出⼒ 動画の区間を推定(⾏動の始点・終点) 局所・⼤域特徴を同時抽出(⾼精度な動画認識)
  • 17. DNNの動向・CVのトレンド(14/34) 17 • GAN:画像⽣成を⾏うための構造として提案 – 現在,⽣成/データの分布を近づける性質から多 様な場⾯に応⽤ – 超解像,異常検知,データ拡張 など GANの構造 https://medium.com/@sunnerli/the- missing-piece-of-gan-d091604a615a 徐々に鮮明になるデータ BigGAN https://arxiv.org/pdf/1809.11096.pdf (注)下はGANにより⽣成された画像です
  • 18. DNNの動向・CVのトレンド(15/34) 18 • GANの主要な流れ 1. GAN(オリジナルのGAN) • [Goodfellow, NIPS2014] https://papers.nips.cc/paper/5423-generative-adversarial-nets.pdf 2. DCGAN(畳み込み層の使⽤) • [Radford, ICLR2016] https://arxiv.org/abs/1511.06434 3. Pix2Pix(pixel同⼠が対応付くという意味でConditionalなGAN) • [Isola, CVPR2017] https://arxiv.org/abs/1611.07004 4. CycleGAN(pix2pixの教師なし版) • [Zhu, ICCV2017] https://arxiv.org/pdf/1703.10593.pdf 5. ACGAN(カテゴリ識別も同時に実施してコンディションとした) • [Odera, ICML2017] https://arxiv.org/abs/1610.09585 6. WGAN/SNGAN(学習安定化) • [Arjovsky, ICML2017] http://proceedings.mlr.press/v70/arjovsky17a.html • [Miyato, ICLR2018] https://arxiv.org/abs/1802.05957 7. PGGAN(⾼精度化) • [Karras, ICLR2018] https://arxiv.org/abs/1710.10196 8. Self-Attention GAN(アテンション機構を採⽤) • [Zhang, arXiv 1805.08318] https://arxiv.org/abs/1805.08318 9. BigGAN(超⾼精細GAN) • [Brock, ICLR2019] https://arxiv.org/abs/1809.11096 # 2018年10⽉時点での調査
  • 19. DNNの動向・CVのトレンド(16/34) 19 • 鮮明な画像⽣成 - GAN vs. VAE︕︖ – キレイな画像⽣成はGANが優勢だった(〜2019/05) • SNGAN, BigGAN, StyleGAN etc. – だが,VQ-VAE-2でVAEが巻き返しを図るか︖ • GANのようにMode Collapseを起こさないと主張 ⽣成モデル,今後の動向に期待︕︕ 左︓VQ-VAE-2,右︓BigGAN A. Razavi et al. “Generating Diverse High- Fidelity Imageswith VQ-VAE-2,” NeurIPS, 2019. https://arxiv.org/pdf/1906.00446.pdf
  • 20. DNNの動向・CVのトレンド(17/34) 20 • 教師なし/少量教師あり学習への拡がり – キーワード • {Un-, Weak-, Semi-, Self-} supervision • {Zero-, One-, Few-} shot learning • Transfer Learning • Domain Adaptation • Reinforcement Learning – 教師がない/間接的に教師を与える,ような仕組みに対する 競争も激化 – 巨⼤IT企業のように⼤量のラベルを持たなくても学習を成 功させる • アルゴリズム⾄上主義への回帰︖
  • 21. DNNの動向・CVのトレンド(18/34) • 学習法の簡単な整理 – {Un-, Semi-, Weak-, Self-} supervision • Un-supervision(教師なし学習) アノテーションが⼀切ないデータで学習 • Semi-supervision(半教師あり学習) アノテーションを持つデータと持たないデータで学習 • Weak-supervision(弱教師付き学習) 出⼒として必要な情報よりも拘束⼒の弱いデータを⽤いて学習 – ex) 物体検出を⾏う際に画像ラベルのみを⽤いて学習 • Self-supervision(⾃⼰教師あり学習) ⾃ら教師を作り出して特徴表現を学習する「⾃⼰教師学習」 – 特定タスクの前に⾃ら教師を作り出し特徴表現を学習するため,その 後に特定タスクのためのファインチューニングを伴う – ex) 領域分割した画像でジグソーパズルを解く,回転を当てる
  • 22. DNNの動向・CVのトレンド(19/34) 22 転移学習(Transfer Learning)の網羅的調査 – Taskonomy [Zamir, CVPR2018] • CVPR 2018 Best Paper Award • 26種のタスク間の関連性を調べる – CVの歴史の中で別々に議論されたいたサブタスクを繋げる – 効果を最⼤化する転移学習の関係性を明らかにした http://taskonomy.stanford.edu/ データセットは26タスクに対しラベル付け Task Similarity Tree: 類似するタスク間の関 係性を可視化
  • 23. DNNの動向・CVのトレンド(20/34) 23 • 教師あり学習 vs. 無教師/弱教師 – 少量/無 ラベルで教師あり学習に勝つ︕ • How good is my GAN?: 勝てなかったがGANによるデータ拡張の⽅針を⽰す • 6D Object Detection: 条件付だがこの⽂脈で勝利(ECCVʼ18 BestPaper) • Cut/Paste Learn: 9割くらいの精度まで来た [Sundermeyer, ECCV2018]Oral,BP ラベル無しCGデータで実時間6D検出, さらに教師有りを倒した [Remez, ECCV2018]Oral Cut/Pasteで既存セグメントラベルを増 加,教師有りに接近する精度 [Shmelkov, ECCV2018] GANの評価法提案,追加実験のデー タ拡張がポイント
  • 24. DNNの動向・CVのトレンド(21/34) 24 ⾃⼰教師あり学習(Self-supervised Learning) – ⾃ら教師を作り出し,良好な特徴表現を獲得 • 事前タスク(Pretext task; 左下図)で学習,⽬的タスク(Target task; 右下図)で調整 • 例︓PretextはラベルなしImageNet, TargetはラベルありImageNet Pretext task例︓ジグソーパズル 1.(a)(b)の図を9分割&シャッフルして復元するよう学習 2.通常通りPascalVOC, ImageNet等で学習 打倒︕ImageNet 事前学習が⽬標の研究分野
  • 25. DNNの動向・CVのトレンド(21ʼ/34) 25 ⼈間の教師に近接する精度を実現︕ – ImageNet教師あり学習に「⾃⼰教師+数%の教師」で到達 • SimCLR: Simple Framework for Contrastive Learning of Visual Representation • 下図は論⽂中より引⽤ https://arxiv.org/abs/2002.05709 SimCLRはパラメータ数が多い (Supervised 約25M vs. SimCLR 約400M)が, 自己教師学習により教師あり学習 と同等の精度まで到達
  • 26. DNNの動向・CVのトレンド(22/34) 26 • 学習データ⽣成 – キーワード • Synthetic Data • Adversarial Learning • Data Augmentation • Domain Randomization – CGなど合成(Synthetic)でデータを作成 – 敵対的学習(Adversarial Learning) • 少量のサンプルから画像⽣成 • 合成をリアルに近づける – データ拡張(Data Augmentation) • データの⽔増しをあらゆる⽅法(e.g. 反転,回転,統合)で実現
  • 27. DNNの動向・CVのトレンド(23/34) 27 シミュレーション画像からの変換 – GANにより変換/⽣成した画像も学習に使えるように • 左図︓SimGAN – CVPR2017 Best Paper – CGをリアルに近付けるRefiner(R)と識別器(D) • 右図︓GraspGAN – ICRA2018 – 上記論⽂を元ネタとしてロボットシミュレータ画像をリアルに近づけて,マニ ピューレーションを実⾏
  • 28. DNNの動向・CVのトレンド(24/34) 28 • 超越(Beyond)/再考(Rethink) ImageNet 学習回数が多くなると scratch/ pre-trainの精度が 同等に 通常の学習回数ではImageNet Pre- trainが強く⾒えている、、、 [Mahajan, ECCV2018] FBはSNSのHashtagでラベル付けなし,弱教師付きの3.5B枚画像DB構築 【超越】 Top-1: 85% w/ ResNeXt-101 ラベルはSNSの再利⽤ https://venturebeat.com/2018/05/02/facebook-is-using-instagram-photos-and-hashtags-to-improve-its-computer-vision/ ImageNetは他のタスクの精度向上に貢献する︖ • しない(左図参照) • スクラッチで⻑く学習すれば同等の精度まで到達 – ただし,10K以上のラベルは必要 • 収束は早くなったので,研究ペース促進に寄与 無/弱/半教師付きの⽂脈で⼤量画像とその教 師を与えられればモデルを強化できる 【再考】 [He, arXiv2018] タスクに即した事前学習をする(物体検知なら物体検知の事前学習)
  • 29. DNNの動向・CVのトレンド(25/34) 29 • 動画DBの⼤規模化 – 動画共有サイトのタグ付け – 画像識別の動画版 Kinetics [Kay, arXiv2017] Moments in Time [Monfort, arXiv2018] [Ghadiyaram, CVPR2019] Kinetics-700 Moments in Time 700カテゴリ/650,000+動画 339カテゴリ/1,000,000+動画 359カテゴリ/65,000,000+動画 Instagram-65M 【最近の代表的な動画データセット】 10万〜1000万を超える動画数のデータセットが登場, 画像識別に変わるネクストトレンドとして位置付けられる
  • 30. DNNの動向・CVのトレンド(26/34) 30 • DNNのフレームワークが次々にリリース – Caffe/Caffe2, Theano, Chainer, TensorFlow, Keras, Torch/PyTorch, MatConvNet, Deeplearning4j, CNTK, MxNet, Lasagne (順不同,その他多数) – 特に,Caffeが出てきてからCVにおけるDNNの研究は爆発 的に広がった https://chainer.org/images/logo.png http://pytorch.org/docs/master/_static/pytorch-logo-dark.svg https://www.tensorflow.org/_static/image s/tensorflow/logo.png # ⽇本ではChainer︖ 世界的にはTensorFlow︖研究者はPyTorch︖開発者はCaffe2/TensorFlow︖ 簡便性の⾯から Kerasもよく使われていると聞く # Facebookでも研究はPyTorch,プロダクトはCaffe2のように使い分け
  • 31. DNNの動向・CVのトレンド(27/34) 31 • HPC: コンピューティングによる研究の加速 – AWS/Azure/Google Cloud, ⽇本でも Tsubame3.0/ABCI/Fugaku(coming soon…) • Multi-GPU, Multi-Node – ImageNet 世界最速記録の変遷 • 29h > 1h > 30m > 15m > 6.6m > 1.8m > 2.0m > 1.2m 東⼯⼤TSUBAME 3.0 産総研ABCI https://commons.wikimedia.org/wiki/ File:TSUBAME_3.0_PA075096.jpg M. Yamazaki, et al. “Yet Another Accelerated SGD: ResNet- 50 Trainingon ImageNet in 74.7 seconds,” arXiv pre-print, 1903.12650, 2019. https://arxiv.org/pdf/1903.12650.pdf
  • 32. DNNの動向・CVのトレンド(28/34) 32 • 現在も進化の⼀途を辿り,社会実装が進む – ⾃動運転/ADAS – ロボティクス – ファッション – 画像/動画検索 – 物流(ピッキング等) – 等 研究者としては「こんなこともできる」を世に出したい
  • 33. DNNの動向・CVのトレンド(29/34) 33 • ⾃動運転/ADAS(Self-Driving Cars/ADAS) – 国際会議の研究(検知など単純タスク)は減少傾向, 実利⽤に向け開発︖ – 数年前はKITTI datasetに対しての精度競争が盛ん – 現在は⾃動運転の解釈性,ニアミスシーンの解析等 KITTI: Autonomous driving benchmark 物体検出,ステレオ視,セグメンテ ーション問題を提供 Optical Flow Stereo Matching Object Detection Road Odometry Semantic Segmentation [Geiger, CVPR2012] [Kim, ICCV2017] ⾃動運転時の解釈性,物体検知の際 にどこを参照したか︖ 事故に近いシーンを認識,予測 [Suzuki&Kataoka, CVPR2018]
  • 34. DNNの動向・CVのトレンド(30/34) 34 • ロボティクスへの応⽤ @CVPR2019 – 点群の利⽤や6D Object Detectionが多数 – マニピュレーション︓DenseFusionでは6D Det. と把持を実施(左図) – ⾃動運転︓点群トラッキング+形状復元(右図) C. Wang et al. “DenseFusion: 6D Object Pose Estimation by Iteratibve Dense Fusion,” in CVPR 2019 http://openaccess.thecvf.com/content_CVPR_2019/papers/Wang_D enseFusion_6D_Object_Pose_Estimation_by_Iterative_Dense_Fusion _CVPR_2019_paper.pdf S. Giancola et al. “Leveraging Shape Completion for 3D Siamese Tracking,” in CVPR 2019. http://openaccess.thecvf.com/content_CVPR_2019/papers/Giancola_Leveraging_Shape_Completion_for_3D_Sia mese_Tracking_CVPR_2019_paper.pdf 点群トラッキング+形状復元(下の例は⾞両の復元)
  • 35. DNNの動向・CVのトレンド(31/34) 35 • ファッション分野への応⽤ @CVPR2019 – ファッションのアノテーションが進展 – DeepFashion2(左図) • DeepFashionの強化版,より詳細なラベルを付与 – FCDBv2(右図) • FCDBの強化版,バイナリ識別器によりデータクレンジング Y. Ge et al. “DeepFashion2: A Versatile Benchmark for Detection, Pose Estimation,Segmentation and Re- Identification of Clothing Images,” in CVPR 2019. http://openaccess.thecvf.com/content_CVPR_2019/papers/Ge_DeepFashion2_A_ Versatile_Benchmark_for_Detection_Pose_Estimation_Segmentation_and_CVPR_2 019_paper.pdf H. Kataoka, K. Abe, M. Minoguchi, A. Nakamura, Y. Satoh, "Ten- million-order Human Database for World-wide Fashion Culture Analysis", in CVPR 2019 Workshop on FFSS-USAD. http://openaccess.thecvf.com/content_CVPR_2019/papers/Ge_DeepFashion2_A_Versatile_B enchmark_for_Detection_Pose_Estimation_Segmentation_and_CVPR_2019_paper.pdf
  • 36. DNNの動向・CVのトレンド(32/34) 36 • 動画認識の応⽤ – 動画⾃動ラベル付け – ⾒守り,料理⾏動解析,ホームロボティクス,,, • 動画DBは群雄割拠(下図) D. Damen et al. “Scaling Egocentric Vision: The EPIC-KITCHENS Dataset,” in ECCV 2018. https://epic-kitchens.github.io/2018 W. Kay et al. “The Kinetics Human Action Video Dataset,” in arXiv:1705.06950 2017. https://deepmind.com/research/open- source/open-source-datasets/kinetics/ C. Gu et al. “AVA: A Video Dataset of Spatio- temporally Localized Atomic Visual Actions,” in CVPR 2018. https://research.google.com/ava/downl oad.html M. Monfort et al. “Moments in Time Dataset: one million videos for event understanding,” in arXiv pre-print 1801.03150, 2018. http://moments.csail.mit.edu/ H. Zhao et al. “HACS: Human Action Clips and Segments Dataset for Recognition and Temporal Localization,” in arXiv pre-print 1712.09374 2017. http://hacs.csail.mit.edu/ Something-Something v2 dataset https://20bn.com/datasets/something-something
  • 37. DNNの動向・CVのトレンド(33/34) 37 • 2020年 CV分野のトレンド: アルゴリズム考案 – 既存の問題をよりよく解く • 精度向上/タスク解決に対して効果的な⼿法を提案 – 以前からホットな領域 • 画像識別,物体検出,(インスタンス)セグメンテーション,動画 認識,Shape-from-X,SLAM,Computational Photography,⾃ 動運転/ADAS,ロボット応⽤,,, – 最近ホットになった領域 • Language & Vision(画像説明⽂/VQA),敵対的⽣成ネット( GAN),ファッション,,, – 今後ホットになりそうな領域︖ • 多タスク学習(転移学習),強化学習, 3D⽣成, 解釈性, , , # もちろん,上記以外にもまだまだあります
  • 38. DNNの動向・CVのトレンド(34/34) 38 • 2020年 CV分野のトレンド: 少量教師学習 – ⼤規模データの収集/ラベル付け問題を解決および緩和 • 深層学習の1st waveがアーキテクチャ改善だとすると, • 2nd waveはデータ作成/少量データ学習 – データ問題のキーワード • {Un-, Weak-, Semi-, Self-} Supervised Learning • {Zero-, One-, Few-} shot learning • Domain Adaptation, Domain Randomization, Synthetic Data, Adversarial Learning, Data Augmentation 今後も新しい学習⽅法が提案されると予想 # もちろん,上記以外にもまだまだあります