SlideShare ist ein Scribd-Unternehmen logo
1 von 28
Downloaden Sie, um offline zu lesen
画像認識への期待と可能性 / 中部大学工学部情報工学科 藤吉弘亘 1
!
!
-SSIIの技術- 過去•現在, そして未来
[領域]認識
!
!
SSII2014:第20回画像センシングシンポジウム
OS1:20周年記念特別セッション
!
2014年6月12日
!
藤吉 弘亘
中部大学工学部ロボット理工学科
画像認識への期待と可能性 / 中部大学工学部情報工学科 藤吉弘亘 2
「認識」で取り扱う技術領域
特
徴
抽
出
パ
タ
ー
ン
マ
ッ
チ
ン
グ
特
徴
点
検
出
・
記
述
統
計
的
学
習
法
最
近
傍
探
索
年代
SVM(95)
マージン最大化
SIFT(99)
スケール不変
特徴点検出・記述
SURF(06)
積分画像
アルゴリズムによる高速化
GPU SIFT(06)
ハードウェアによる高速化
FAST(06)
機械学習
コーナー検出
BRIEF(10)
学習無し
ランダムサンプリング
ORB(11)
教師無し学習
D-BRIEF(12)
教師あり学習
Bin-Boost(13)
教師あり学習
Random Forests(01)
アンサンブル学習+ランダム学習
DPM(08)
モデルの分割
(latent SVM による識別 )
Exemplar SVM(11)
事例ベースの SVM
WTA Hashing(11)
超高速化
HOG(05)
勾配情報
HLAC(88)
高次の自己相関
CHLAC(04)
HLAC に時間軸の追加
Haar-like(01)
box フィルタ
DOT(10)
勾配情報のテンプレートマッチング
VLAD(10)
関連する VW の特徴量を使用
Fisher Vector(07)
確率密度関数による特徴量の表現
Deep Learning(08)
多層ニューラルネットワーク
表現学習
超多クラス識別問題
(10 万カテゴリ )
Crowdsourcing(13)
人の知見の導入
詳細画像識別
ERT(06)
RF のランダム性を最大化
Fern(06)
RF の分岐条件を階層で統一
texton(01)
フィルタのバンク
人体パーツ識別
高速化 高精度化 アプリケーション
2000 2005 2010
物体検出 ( 多クラス ) 自己位置推定
マシンビジョン
画像検索
顔検出
人検出
特定物体認識
画像分類
特徴量の自動生成
人が注目した位置から特徴抽出
マーカ認識
二値特徴
増分符号相関 (00)
輝度の増減を二値で画像化
RRF(03)
8 方向の濃度変化
疎テンプレートマッチング (05)
2 種類のモデルの使い分け
固有分解テンプレートマッチング (11)
回転変化に頑健な情報を利用
Co-Occurrence Template Matching(10)
顕著性の高い画素で照合
Harris-Affine(02)
アフィン不変特徴点検出
MSER(02)
高速なアフィン不変点特徴
Object Bank(10)
多クラスの要素を特徴量化
Relative attribute(11)
実数による関連要素の表現
zero-shot transfer(09)
関連要素から非学習クラスの検出
セマンティックセグメンテーション
CoHOG(09)
HOG の共起表現
MLP(86)
多層パーセブトロン
Online PA(06)
入力サンプルに応じて重みベクトル更新
スパース特徴量 (06)
Haar-like + ピクセル差分
グラスマン多様体 (08)
線形部分空間の集合体
product quantization(11)
サブベクトルによる量子化
スペクトル理論によるスケール探索 (12)
特徴空間の射影
DAISY(08)
記述空間の改良
BOF(04)
特徴量の辞書化
直交制約相互空間法 (06)
直交行列による空間の関係を直行化
カーネルトリック (00)
特徴空間の射影
固有空間法 (96)
2 次元画像による 3 次元物体認識
相互部分空間 (85)
部分空間同士の正準角
LBP(94)
局所領域の二値化
CARD(11)
特徴量を 2 値化
Decision Jungles(13)
パス共有による省メモリな決定木
制約相互部分空間法 (99)
識別に有効な空間への射影
CNN(89)
プーリングと畳み込み
による特徴抽出
AdaBoost(95)
アンサンブル学習
サンプル重みの逐次更新
画像認識への期待と可能性 / 中部大学工学部情報工学科 藤吉弘亘 3
「認識」技術の製品化
SVM(95)
マージン最大化
AdaBoost(95)
アンサンブル学習
サンプル重みの逐次更新
SIFT(99)
スケール不変
特徴点検出・記述
Random Forests(01)
アンサンブル学習+ランダム学習
DPM(08)
モデルの分割
(latent SVM による識別 )
HLAC(88)
高次の自己相関
CHLAC(04)
HLAC に時間軸の追加
Haar-like(01)
box フィルタ
BOF(04)
特徴量の辞書化
texton(01)
フィルタのバンク
道路監視システム ( 三菱 ,00)
OKAO vision( オムロン ,05)
SuperIPCam( 日立 ,08)
IMAP( ルネサスエレクトロニクス ,08)
CATENARY EYE( 明電舎 ,10)
Kinect(Microsoft,10)
Mobileye(08)
OpenCV(01)
ARToolKit(99)
Visconti2( 東芝 ,13)
転移学習 , 計量学習
CoHOG(09)
HOG の共起表現
オブジェクト認識対応縦型スキャナ ( 東芝テック ,13)
スパース特徴量 (06)
Haar-like + ピクセル差分
Picasa(02)
相互部分空間 (85)
部分空間同士の正準角
FacePass( 東芝 ,01)
エレベータ監視システム「ヘリオスウォッチャー」( 日立 ,06)
PCL(11)
顔検出 , 画像分類
HALCON(MVTec,96)
VLAD(10)
関連する VW の特徴量を使用
Fisher Vector(07)
確率密度関数による特徴量の表現
Google Goggle(Google,09)
Amazon A9(A9.com,04)
特
徴
抽
出
パ
タ
ー
ン
マ
ッ
チ
ン
グ
特
徴
点
検
出
・
記
述
統
計
的
学
習
法
最
近
傍
探
索
年代2000 2005 2010
製品
PatMax(Cognex,98)
Shape Trax( キーエンス ,05)
形状サーチ ( オムロン ,11)
DOT(10)
勾配情報のテンプレートマッチング
画像認識への期待と可能性 / 中部大学工学部情報工学科 藤吉弘亘 4
「認識」で取り扱う技術領域
!
!
!
!
!
!
!
!
特徴点検出
特徴点記述
コーナー検出
スケール探索
アフィン不変
2値表現
分野 技術 動向
!
!
!
!
・不変性の獲得
・2値表現による高速化と省メモリ化
・機械学習を導入して高速化を実現
!
!
!
!
!
!
!
!
!
!
!
!
パターンマッチング
特徴抽出
画像局所特徴量
BOF表現
テンプレートマッチング
部分空間法
・局所ベースの特徴量
・BOF表現を用いた辞書化
・テンプレート画素の取捨選択
・部分空間法の進展
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
!
統計的学習法
最近傍探索
統計的学習法
多クラス識別器
ハッシング
最近傍探索
計量学習
Deep Learning
・識別器の高性能化
・ビッグデータに対するアプローチ
・超多クラス識別の高速化
・学習外サンプルへの適応
・特徴抽出の自動獲得
画像認識への期待と可能性 / 中部大学工学部情報工学科 藤吉弘亘 5
「認識」で取り扱う技術領域
特徴点検出・記述の動向
特
徴
抽
出
パ
タ
ー
ン
マ
ッ
チ
ン
グ
特
徴
点
検
出
・
記
述
統
計
的
学
習
法
最
近
傍
探
索
年代
SIFT(99)
スケール不変
特徴点検出・記述
SURF(06)
積分画像
アルゴリズムによる高速化
GPU SIFT(06)
ハードウェアによる高速化
FAST(06)
機械学習
コーナー検出
BRIEF(10)
学習無し
ランダムサンプリング
ORB(11)
教師無し学習
D-BRIEF(12)
教師あり学習
Bin-Boost(13)
教師あり学習
2000 2005 2010
画像検索
Harris-Affine(02)
アフィン不変特徴点検出
MSER(02)
高速なアフィン不変点特徴
スペクトル理論によるスケール探索 (12)
特徴空間の射影
DAISY(08)
記述空間の改良
CARD(11)
特徴量を 2 値化
DOT(10)
勾配情報のテンプレートマッチング
二値特徴
増分符号相関 (00)
輝度の増減を二値で画像化
RRF(03)
8 方向の濃度変化
疎テンプレートマッチング (05)
2 種類のモデルの使い分け
HOG(05)
勾配情報
HLAC(88)
高次の自己相関
CHLAC(04)
HLAC に時間軸の追加
Haar-like(01)
box フィルタ
VLAD(10)
関連する VW の特徴量を使用
Fisher Vector(07)
確率密度関数による特徴量の表現
Crowdsourcing(13)
人の知見の導入
詳細画像識別
texton(01)
フィルタのバンク
マシンビジョン
顔検出
人検出
特定物体認識
画像分類
特徴量の自動生成
人が注目した位置から特徴抽出
マーカ認識
固有分解テンプレートマッチング (11)
回転変化に頑健な情報を利用
Co-Occurrence Template Matching(10)
顕著性の高い画素で照合
Object Bank(10)
多クラスの要素を特徴量化
CoHOG(09)
HOG の共起表現
スパース特徴量 (06)
Haar-like + ピクセル差分
BOF(04)
特徴量の辞書化
直交制約相互空間法 (06)
直交行列による空間の関係を直行化
カーネルトリック (00)
特徴空間の射影
固有空間法 (96)
2 次元画像による 3 次元物体認識
相互部分空間 (85)
部分空間同士の正準角
LBP(94)
局所領域の二値化
制約相互部分空間法 (99)
識別に有効な空間への射影
SVM(95)
マージン最大化
Random Forests(01)
アンサンブル学習+ランダム学習
DPM(08)
モデルの分割
(latent SVM による識別 )
Exemplar SVM(11)
事例ベースの SVM
WTA Hashing(11)
超高速化
Deep Learning(08)
多層ニューラルネットワーク
表現学習
超多クラス識別問題
(10 万カテゴリ )
ERT(06)
RF のランダム性を最大化
Fern(06)
RF の分岐条件を階層で統一
人体パーツ識別
物体検出 ( 多クラス ) 自己位置推定
Relative attribute(11)
実数による関連要素の表現
zero-shot transfer(09)
関連要素から非学習クラスの検出
セマンティックセグメンテーション
MLP(86)
多層パーセブトロン
Online PA(06)
入力サンプルに応じて重みベクトル更新
グラスマン多様体 (08)
線形部分空間の集合体
product quantization(11)
サブベクトルによる量子化
Decision Jungles(13)
パス共有による省メモリな決定木
CNN(89)
プーリングと畳み込み
による特徴抽出
AdaBoost(95)
アンサンブル学習
サンプル重みの逐次更新
画像認識への期待と可能性 / 中部大学工学部情報工学科 藤吉弘亘
• Distinctive image features from scale-invariant keypoints (SIFT) [Lowe2004]
‒ スケール・回転に不変な特徴点検出・記述
6
特徴点検出・記述
ポイント
 ­DOG(Difference of Gaussian)によるキーポイント検出
 ­勾配方向ヒストグラムによる特徴記述
DoG画像平滑化画像
€
σ0
€
kσ0
€
k2
σ0
スケール
€
k3
σ0
k⁴σ₀ -
-
-
-
画像認識への期待と可能性 / 中部大学工学部情報工学科 藤吉弘亘 7
特徴点検出の高速化
スケールスペースの高速化
決定木による高速化
・SURF (06)
積分画像を用いた近似ヘッセ行列による高速なキーポイント検出
・FAST (06)
機械学習(決定木)を導入してコーナー検出を高速化
・スペクトル理論 (12)
スペクトル理論によるスケール探索の高速化と高精度化
画像認識への期待と可能性 / 中部大学工学部情報工学科 藤吉弘亘
• Distinctive image features from scale-invariant keypoints (SIFT) [Lowe2004]
‒ スケール・回転に不変な特徴点検出・記述
8
特徴点検出・記述
ポイント
 ­DOG(Difference of Gaussian)によるキーポイント検出
 ­勾配方向ヒストグラムによる特徴記述
4分割
4分割
8方向
ガウス窓
画像認識への期待と可能性 / 中部大学工学部情報工学科 藤吉弘亘 9
特徴点記述の高速化
2値特徴量の導入
・BRIEF(10),ORB(11), CARD(11)
距離計算を考慮した2値による特徴記述
・D-BRIEF(12), Bin-Boost(13)
教師あり学習による最適な2値パターンの獲得
ポイント
 ­特徴料を2値にすることで距離計算(ハミング距離)を高速化、SSEの利用
 ­省メモリ化も同時に実現
ポジティブサンプル ネガティブサンプル
ORBの参照ペア D-BRIEFにおける教師あり学習
画像認識への期待と可能性 / 中部大学工学部情報工学科 藤吉弘亘 10
「認識」で取り扱う技術領域
セマンティックセグメンテーション
RRF(03)
8 方向の濃度変化
疎テンプレートマッチング (05)
2 種類のモデルの使い分け
HLAC(88)
高次の自己相関
増分符号相関 (00)
輝度の増減を二値で画像化
カーネルトリック (00)
特徴空間の射影
固有空間法 (96)
2 次元画像による 3 次元物体認識
相互部分空間 (85)
部分空間同士の正準角
LBP(94)
局所領域の二値化
SIFT(99)
スケール不変
特徴点検出・記述
SURF(06)
積分画像
アルゴリズムによる高速化
GPU SIFT(06)
ハードウェアによる高速化
FAST(06)
機械学習
コーナー検出
BRIEF(10)
学習無し
ランダムサンプリング
ORB(11)
教師無し学習
D-BRIEF(12)
教師あり学習
Bin-Boost(13)
教師あり学習画像検索
Harris-Affine(02)
アフィン不変特徴点検出
MSER(02)
高速なアフィン不変点特徴
スペクトル理論によるスケール探索 (12)
特徴空間の射影
DAISY(08)
記述空間の改良
DOT(10)
勾配情報のテンプレートマッチング
VLAD(10)
関連する VW の特徴量を使用
Fisher Vector(07)
確率密度関数による特徴量の表現
Crowdsourcing(13)
人の知見の導入
詳細画像識別
マシンビジョン
特定物体認識
特徴量の自動生成
人が注目した位置から特徴抽出
マーカ認識
二値特徴
固有分解テンプレートマッチング (11)
回転変化に頑健な情報を利用
Co-Occurrence Template Matching(10)
顕著性の高い画素で照合
Object Bank(10)
多クラスの要素を特徴量化
CoHOG(09)
HOG の共起表現
Online PA(06)
入力サンプルに応じて重みベクトル更新
Exemplar SVM(11)
事例ベースの SVM
Deep Learning(08)
多層ニューラルネットワーク
表現学習
物体検出 ( 多クラス ) 自己位置推定
Relative attribute(11)
実数による関連要素の表現
zero-shot transfer(09)
関連要素から非学習クラスの検出
グラスマン多様体 (08)
線形部分空間の集合体
product quantization(11)
サブベクトルによる量子化
WTA Hashing(11)
超高速化 超多クラス識別問題
(10 万カテゴリ )
ERT(06)
RF のランダム性を最大化
Fern(06)
RF の分岐条件を階層で統一
Decision Jungles(13)
パス共有による省メモリな決定木
MLP(86)
多層パーセブトロン
CNN(89)
プーリングと畳み込み
による特徴抽出
直交制約相互空間法 (06)
直交行列による空間の関係を直行化
制約相互部分空間法 (99)
識別に有効な空間への射影
特
徴
抽
出
パ
タ
ー
ン
マ
ッ
チ
ン
グ
特
徴
点
検
出
・
記
述
統
計
的
学
習
法
最
近
傍
探
索
年代
SVM(95)
マージン最大化
Random Forests(01)
アンサンブル学習+ランダム学習
DPM(08)
モデルの分割
(latent SVM による識別 )
HOG(05)
勾配情報
Haar-like(01)
box フィルタ
texton(01)
フィルタのバンク
人体パーツ識別
2000 2005 2010
顔検出
人検出
画像分類
スパース特徴量 (06)
Haar-like + ピクセル差分
BOF(04)
特徴量の辞書化
CHLAC(04)
HLAC に時間軸の追加
CARD(11)
特徴量を 2 値化
AdaBoost(95)
アンサンブル学習
サンプル重みの逐次更新
局所特徴量・統計的学習法の動向
画像認識への期待と可能性 / 中部大学工学部情報工学科 藤吉弘亘 11
特徴抽出と統計的学習法
局所画像特徴量と統計的学習法
・ 顔検出→Haar-like(01), スパース特徴(06)+AdaBoost(95)
・歩行者検出→HOG(05)+SVM(95)
ポイント
 ­問題設定に合わせて特徴量(Hand-crafted feature)を設計
 ­2クラス問題から多クラス問題へ
・人体パーツ識別→Random Forest(01)
・ 画像分類→SIFT(01), BOF(04)+SVM(95)
画像認識への期待と可能性 / 中部大学工学部情報工学科 藤吉弘亘
• A Discriminatively Trained, Multiscale, Deformable Part Model [Felzenszwalb2008]
‒ Latent SVMを用いたパーツベースの物体検出
12
DPM:パーツベースの物体検出
ポイント
 ­物体をパーツの集合として表現(Deformable Parts Model)
 ­パーツの位置関係を考慮することで姿勢変動に対応
ルートフィルタ パーツフィルタ
パーツフィルタの
位置関係
画像認識への期待と可能性 / 中部大学工学部情報工学科 藤吉弘亘
• Fast, Accurate Detection of 100,000 Object Classes on a Single Machine [Dean2013]
‒ 10万種類の物体を20秒以下で検出
13
バイナリコードを用いたHashによる10万種類の物体検出
Locality-sensitive Hashing with WTA
WTA codeをP個に分割 P個のコードそれぞれの
Hashテーブルを参照
クラス毎の
スコアヒストグラムを作成
各クラスのフィルタ応
答マップを作る
HOG特徴量
111101010011
WAT code
ポイント
 ­多クラスDPMの高速化
 ­パーツの集合に対して、WTA Hashを利用して超多クラスの検出を実現
画像認識への期待と可能性 / 中部大学工学部情報工学科 藤吉弘亘 14
バイナリコードを用いたHashによる10万種類の物体検出
• Fast, Accurate Detection of 100,000 Object Classes on a Single Machine [Dean2013]
‒ 10万種類の物体を20秒以下で検出
画像認識への期待と可能性 / 中部大学工学部情報工学科 藤吉弘亘 15
「認識」で取り扱う技術領域
特
徴
抽
出
パ
タ
ー
ン
マ
ッ
チ
ン
グ
特
徴
点
検
出
・
記
述
統
計
的
学
習
法
最
近
傍
探
索
年代
HOG(05)
勾配情報
Deep Learning(08)
多層ニューラルネットワーク
表現学習
Crowdsourcing(13)
人の知見の導入
詳細画像識別
2000 2005 2010
人検出
画像分類
人が注目した位置から特徴抽出
マーカ認識
BOF(04)
特徴量の辞書化
直交制約相互空間法 (06)
直交行列による空間の関係を直行化
VLAD(10)
関連する VW の特徴量を使用
Fisher Vector(07)
確率密度関数による特徴量の表現
特定物体認識
Object Bank(10)
多クラスの要素を特徴量化
CoHOG(09)
HOG の共起表現
スパース特徴量 (06)
Haar-like + ピクセル差分
制約相互部分空間法 (99)
識別に有効な空間への射影
Haar-like(01)
box フィルタ
顔検出
カーネルトリック (00)
特徴空間の射影
固有空間法 (96)
2 次元画像による 3 次元物体認識
相互部分空間 (85)
部分空間同士の正準角
SIFT(99)
スケール不変
特徴点検出・記述
SURF(06)
積分画像
アルゴリズムによる高速化
GPU SIFT(06)
ハードウェアによる高速化
FAST(06)
機械学習
コーナー検出
BRIEF(10)
学習無し
ランダムサンプリング
ORB(11)
教師無し学習
D-BRIEF(12)
教師あり学習
Bin-Boost(13)
教師あり学習画像検索
Harris-Affine(02)
アフィン不変特徴点検出
MSER(02)
高速なアフィン不変点特徴
スペクトル理論によるスケール探索 (12)
特徴空間の射影
DAISY(08)
記述空間の改良
HLAC(88)
高次の自己相関
CHLAC(04)
HLAC に時間軸の追加
DOT(10)
勾配情報のテンプレートマッチング
texton(01)
フィルタのバンク
マシンビジョン
二値特徴
増分符号相関 (00)
輝度の増減を二値で画像化
RRF(03)
8 方向の濃度変化
疎テンプレートマッチング (05)
2 種類のモデルの使い分け
固有分解テンプレートマッチング (11)
回転変化に頑健な情報を利用
Co-Occurrence Template Matching(10)
顕著性の高い画素で照合
LBP(94)
局所領域の二値化
CARD(11)
特徴量を 2 値化
CNN(89)
プーリングと畳み込み
による特徴抽出
SVM(95)
マージン最大化
Random Forests(01)
アンサンブル学習+ランダム学習
DPM(08)
モデルの分割
(latent SVM による識別 )
Exemplar SVM(11)
事例ベースの SVM
WTA Hashing(11)
超高速化 超多クラス識別問題
(10 万カテゴリ )
ERT(06)
RF のランダム性を最大化
Fern(06)
RF の分岐条件を階層で統一
人体パーツ識別
物体検出 ( 多クラス ) 自己位置推定
Relative attribute(11)
実数による関連要素の表現
zero-shot transfer(09)
関連要素から非学習クラスの検出
セマンティックセグメンテーション
MLP(86)
多層パーセブトロン
Online PA(06)
入力サンプルに応じて重みベクトル更新
グラスマン多様体 (08)
線形部分空間の集合体
product quantization(11)
サブベクトルによる量子化
Decision Jungles(13)
パス共有による省メモリな決定木
AdaBoost(95)
アンサンブル学習
サンプル重みの逐次更新
特徴量の自動生成
近年の動向
人の知見の導入
特徴抽出の自動化
画像認識への期待と可能性 / 中部大学工学部情報工学科 藤吉弘亘 16
Deep Learningによる特徴抽出と識別器の自動獲得
ポイント
 ­畳み込みニューラルネットワークの学習にスパースコーディングを利用
 ­各階層の出力をすべて統合する方法でローカル&グローバルな特徴を抽出
特徴抽出部 識別部
• Pedestrian Detection with Unsupervised Multi-Stage Feature Learning [Sermanet2013]
‒ 畳み込みNNを用いて人検出の性能を大幅に向上
画像認識への期待と可能性 / 中部大学工学部情報工学科 藤吉弘亘
• Pedestrian Detection with Unsupervised Multi-Stage Feature Learning [Sermanet2013]
‒ 畳み込みNNを用いて人検出の性能を大幅に向上
17
Deep Learningによる特徴抽出と識別器の自動獲得
ポイント
 ­畳み込みニューラルネットワークの学習にスパースコーディングを利用
 ­各階層の出力をすべて統合する方法でローカル&グローバルな特徴を抽出
畳み込み層のフィルタ例
(INRIAデータセット,フィルタサイズ:9x9)
検出性能
→特徴抽出過程の自動獲得
画像認識への期待と可能性 / 中部大学工学部情報工学科 藤吉弘亘
• Fine-Grained Crowdsourcing for Fine-Grained Recognition [Deng2013]
‒ 人が注目した領域から特徴量を記述
18
人の知見を利用した特徴抽出
Crowdsourcingにより
多くの経験を獲得
高スコア時の選択領域から特徴抽出カラー画像化する面積が
小さいほど高スコア
識別に容易な領域が
選択されている
ゲームで高スコア =
ポイント
 ­人が識別に容易な領域を選択することで細かな違いを識別
 ­Crowdsourcingを利用して大量の経験データを獲得する
ゲーム形式で正誤判定に使用した領域を選択
クリックした座標周辺が
ブラー画像からカラー画像へ
画像認識への期待と可能性 / 中部大学工学部情報工学科 藤吉弘亘 19
「認識」の5年後
特
徴
抽
出
パ
タ
ー
ン
マ
ッ
チ
ン
グ
特
徴
点
検
出
・
記
述
統
計
的
学
習
法
最
近
傍
探
索
年代
SVM(95)
マージン最大化
SIFT(99)
スケール不変
特徴点検出・記述
SURF(06)
積分画像
アルゴリズムによる高速化
GPU SIFT(06)
ハードウェアによる高速化
FAST(06)
機械学習
コーナー検出
BRIEF(10)
学習無し
ランダムサンプリング
ORB(11)
教師無し学習
D-BRIEF(12)
教師あり学習
Bin-Boost(13)
教師あり学習
Random Forests(01)
アンサンブル学習+ランダム学習
DPM(08)
モデルの分割
(latent SVM による識別 )
Exemplar SVM(11)
事例ベースの SVM
WTA Hashing(11)
超高速化
HOG(05)
勾配情報
HLAC(88)
高次の自己相関
CHLAC(04)
HLAC に時間軸の追加
Haar-like(01)
box フィルタ
DOT(10)
勾配情報のテンプレートマッチング
VLAD(10)
関連する VW の特徴量を使用
Fisher Vector(07)
確率密度関数による特徴量の表現
Deep Learning(08)
多層ニューラルネットワーク
表現学習
超多クラス識別問題
(10 万カテゴリ )
Crowdsourcing(13)
人の知見の導入
詳細画像識別
処
理
レ
ベ
ル
ERT(06)
RF のランダム性を最大化
Fern(06)
RF の分岐条件を階層で統一
5 年後
texton(01)
フィルタのバンク
人体パーツ識別
高速化 高精度化 アプリケーション
2000 2005 2010
物体検出 ( 多クラス ) 自己位置推定
マシンビジョン
画像検索
顔検出
人検出
特定物体認識
画像分類
特徴量の自動生成
人が注目した位置から特徴抽出
マーカ認識
二値特徴
人とのハイブリッドによる
官能検査、欠陥検出
増分符号相関 (00)
輝度の増減を二値で画像化
RRF(03)
8 方向の濃度変化
疎テンプレートマッチング (05)
2 種類のモデルの使い分け
固有分解テンプレートマッチング (11)
回転変化に頑健な情報を利用
Co-Occurrence Template Matching(10)
顕著性の高い画素で照合
高速多クラス識別
Harris-Affine(02)
アフィン不変特徴点検出
MSER(02)
高速なアフィン不変点特徴
Object Bank(10)
多クラスの要素を特徴量化
Relative attribute(11)
実数による関連要素の表現
zero-shot transfer(09)
関連要素から非学習クラスの検出
zero-shot learning による
学習外サンプルへの適応
転移学習 , 計量学習
生態調査
セマンティックセグメンテーション
CoHOG(09)
HOG の共起表現
MLP(86)
多層パーセブトロン
Online PA(06)
入力サンプルに応じて重みベクトル更新
スパース特徴量 (06)
Haar-like + ピクセル差分
詳細画像記述
グラスマン多様体 (08)
線形部分空間の集合体
product quantization(11)
サブベクトルによる量子化
スペクトル理論によるスケール探索 (12)
特徴空間の射影
不変性の獲得
DAISY(08)
記述空間の改良
BOF(04)
特徴量の辞書化
大規模顔認識
Deep Neural Network の
高速化直交制約相互空間法 (06)
直交行列による空間の関係を直行化
カーネルトリック (00)
特徴空間の射影
固有空間法 (96)
2 次元画像による 3 次元物体認識
相互部分空間 (85)
部分空間同士の正準角
LBP(94)
局所領域の二値化
CARD(11)
特徴量を 2 値化
Decision Jungles(13)
パス共有による省メモリな決定木
制約相互部分空間法 (99)
識別に有効な空間への射影
CNN(89)
プーリングと畳み込み
による特徴抽出
AdaBoost(95)
アンサンブル学習
サンプル重みの逐次更新
セマンティック映像圧縮
画像認識への期待と可能性 / 中部大学工学部情報工学科 藤吉弘亘
• 高速多クラス識別
‒ WTA Hashingによる10万カテゴリ識別の高速化
• 詳細画像記述
‒ 10万カテゴリ識別+関連要素による学習外サンプルのラベル導出
• zero-shot learningによる学習外サンプルへの適応
‒ 関連要素による学習外サンプルのラベル導出+転移学習、計量学習
• 大規模顔認識
‒ Deep Neural Networkの高速化
• 人と機械のハイブリッドによる官能検査、欠陥検出
‒ 人の知見を導入した詳細画像識別
• キーポイントにおける不変性の獲得
‒ スケール探索、アフィン変化への対応
20
「認識」の5年後
画像認識への期待と可能性 / 中部大学工学部情報工学科 藤吉弘亘
Deep Learningに代表される深い階層的構造の学習・識別手法の理論的解析と解析に基づく階層構造の設計論に焦点があたり,この結
果をもとにweb上に存在する統制のとれた一般的物体の画像であればほぼ間違いなく認識可能となる.その一方で,より実世界寄り
の雑然とした状況における認識へ注力され,また,チャレンジングな課題へ広がりを見せる.!
!○今後広がりを見せるであろう課題!
!・ライフログ等の動画像の要約,自然言語分野との融合!
ウェアラブル機器の浸透と共に,時系列データを有効に活用する動画像の要約技術が進展する.時系列情報を活用した前後の文脈理
解による認識精度の向上のみならず,人の感性に合致した興味深いショット推定や,自然言語分野で培われた文法的知識体系等がビ
ジョン技術と融合して従来難問とされていた動画像要約のへの糸口となる.!
!・コンテンツ生成,グラフィクス系分野との融合!
画像認識とは数百万ピクセルの情報を1つのカテゴリに押し込める究極の情報圧縮技術といえる.今後は,グラフィクス系分野の融合
により,圧縮された情報から逆に実世界の情報へ復元するコンテンツ生成技術が進展する.これにより長い文章情報理解せずとも図
を一枚見ることによって瞬時に内容を理解可能な情報提示技術への糸口となる.!
!・ロボットビジョン,ロボティクス(制御)との融合!
統制のとれた認識対象を提示するのであれば十分高い識別性能が実現される一方で,認識対象をあらかじめ定めず,雑然とした画像
が入力状況においては従来の一般的物体認識手法の枠組みでは認識精度が悪く使える技術としてほど遠い.ロボットの持つ身体を活
用することで,認識すべき対象を発見する注視機能の活用とロボットの制御技術の融合により,実世界における真の意味での能動的
認識,学習機能が発展する.!
!・プライバシアウェアな画像認識技術の流れ!
今後ウェアラブル機器の発展が見込まれているが,画像センサを利用した場合にプライバシを侵害する画像が意図せず取得され,web
で共有される危険性をはらみ,画像センサを持つウェアラブル機器の拡充の妨げとなる.この背景のもと画像に映る物体の種別等の
コンテンツが十分に理解可能でありながら,プライバシ情報をすべて隠ぺいする技術が発展する.ウェアラブルシステム等で獲得した
画像,映像をクラウドソーシングなどを利用して,ラベル付与を行うことや,webでの共有,画像を見ながらの遠隔操作などには必
要不可欠な技術となる.荒く,雑然とした情報でも可能とする.
21
5年後の画像認識のトレンド:原田達也先生(東大)
画像認識への期待と可能性 / 中部大学工学部情報工学科 藤吉弘亘 22
5年後の画像認識のトレンド:Prof. Tae-kyun Kim(Imperial College London)
• Combined of RF and Deep learning
‒ Random ForestとDeep Learningの融合
‒ 例:Decision Forest [Shotton2013]
!
!
!
!
• Long-term continuous learning
‒ never-ending image learning
‒ 終わりのない画像学習フレームワークの実現
(a) (b)
Figure 1: Motivation and notation. (a) An example use of a rooted decision DAG for classifying
image patches as belonging to grass, cow or sheep classes. Using DAGs instead of trees reduces the
number of nodes and can result in better generalization. For example, differently coloured patches
of grass (yellow and green) are merged together into node 4, because of similar class statistics. This
may encourage generalization by representing the fact that grass may appear as a mix of yellow and
green. (b) Notation for a DAG, its nodes, features and branches. See text for details.
input instance that reaches that node should progress through the left or right branch emanating from
the node. Prediction in binary decision trees involves every input starting at the root and moving
down as dictated by the split functions encountered at the split nodes. Prediction concludes when
the instance reaches a leaf node, each of which contains a unique prediction. For classification trees,
this prediction is a normalized histogram over class labels.
Rooted binary decision DAGs. Rooted binary DAGs have a different architecture compared to
decision trees and were introduced by Platt et al. [26] as a way of combining binary classifier for
multi-class classification tasks. More specifically a rooted binary DAG has: (i) one root node, with
in-degree 0; (ii) multiple split nodes, with in-degree 1 and out-degree 2; (iii) multiple leaf nodes,
2分木をネットワーク状に接続
省メモリ化とオーバーフィッティングを回避決
画像認識への期待と可能性 / 中部大学工学部情報工学科 藤吉弘亘 23
特
徴
抽
出
パ
タ
ー
ン
マ
ッ
チ
ン
グ
特
徴
点
検
出
・
記
述
統
計
的
学
習
法
最
近
傍
探
索
年代
SVM(95)
マージン最大化
SIFT(99)
スケール不変
特徴点検出・記述
SURF(06)
積分画像
アルゴリズムによる高速化
GPU SIFT(06)
ハードウェアによる高速化
FAST(06)
機械学習
コーナー検出
BRIEF(10)
学習無し
ランダムサンプリング
ORB(11)
教師無し学習
D-BRIEF(12)
教師あり学習
Bin-Boost(13)
教師あり学習
Random Forests(01)
アンサンブル学習+ランダム学習
DPM(08)
モデルの分割
(latent SVM による識別 )
Exemplar SVM(11)
事例ベースの SVM
WTA Hashing(11)
超高速化
HOG(05)
勾配情報
HLAC(88)
高次の自己相関
CHLAC(04)
HLAC に時間軸の追加
Haar-like(01)
box フィルタ
DOT(10)
勾配情報のテンプレートマッチング
VLAD(10)
関連する VW の特徴量を使用
Fisher Vector(07)
確率密度関数による特徴量の表現
Deep Learning(08)
多層ニューラルネットワーク
表現学習
超多クラス識別問題
(10 万カテゴリ )
Crowdsourcing(13)
人の知見の導入
詳細画像識別
処
理
レ
ベ
ル
ERT(06)
RF のランダム性を最大化
Fern(06)
RF の分岐条件を階層で統一
5 年後
texton(01)
フィルタのバンク
人体パーツ識別
高速化 高精度化 アプリケーション
2000 2005 2010
物体検出 ( 多クラス ) 自己位置推定
マシンビジョン
画像検索
顔検出
人検出
特定物体認識
画像分類
特徴量の自動生成
人が注目した位置から特徴抽出
マーカ認識
二値特徴
人とのハイブリッドによる
官能検査、欠陥検出
増分符号相関 (00)
輝度の増減を二値で画像化
RRF(03)
8 方向の濃度変化
疎テンプレートマッチング (05)
2 種類のモデルの使い分け
固有分解テンプレートマッチング (11)
回転変化に頑健な情報を利用
Co-Occurrence Template Matching(10)
顕著性の高い画素で照合
高速多クラス識別
Harris-Affine(02)
アフィン不変特徴点検出
MSER(02)
高速なアフィン不変点特徴
Object Bank(10)
多クラスの要素を特徴量化
Relative attribute(11)
実数による関連要素の表現
zero-shot transfer(09)
関連要素から非学習クラスの検出
zero-shot learning による
学習外サンプルへの適応
転移学習 , 計量学習
生態調査
セマンティックセグメンテーション
CoHOG(09)
HOG の共起表現
MLP(86)
多層パーセブトロン
Online PA(06)
入力サンプルに応じて重みベクトル更新
スパース特徴量 (06)
Haar-like + ピクセル差分
詳細画像記述
グラスマン多様体 (08)
線形部分空間の集合体
product quantization(11)
サブベクトルによる量子化
スペクトル理論によるスケール探索 (12)
特徴空間の射影
不変性の獲得
DAISY(08)
記述空間の改良
BOF(04)
特徴量の辞書化
大規模顔認識
Deep Neural Network の
高速化直交制約相互空間法 (06)
直交行列による空間の関係を直行化
カーネルトリック (00)
特徴空間の射影
固有空間法 (96)
2 次元画像による 3 次元物体認識
相互部分空間 (85)
部分空間同士の正準角
LBP(94)
局所領域の二値化
CARD(11)
特徴量を 2 値化
Decision Jungles(13)
パス共有による省メモリな決定木
制約相互部分空間法 (99)
識別に有効な空間への射影
Pentium3(99) Pentium4(00) Xeon5100
Intel Core2
Core i 7(11)
CPU (06)
Core i 5(09)
Core i 3(10)
SSE SSE(99) SSE2(00) SSE3(04) SSE4.1(08) SSE4.2(11)
GPU
GeForce2(00)
GeForce3(01)
GeForce4,FX(02) GeForce6(04)
GeForce7(05) GeForce8(06)
GeForce9(08)
GeForce200(08)
GeForce400(10) GeForce500(11) GeForce600(12) GeForce700(13)CUDA Tesla(07)
R100(00) R200,300(02) R400(04) Northern Islands(11)R500(05) R600(07) R700(08) Evergreen(10) Southern Islands(12) Volcanic Islands(13)
2014/06/09 版
CNN(89)
プーリングと畳み込み
による特徴抽出
AdaBoost(95)
アンサンブル学習
サンプル重みの逐次更新
セマンティック映像圧縮
SVM(95)
マージン最大化
AdaBoost(95)
アンサンブル学習
サンプル重みの逐次更新
SIFT(99)
スケール不変
特徴点検出・記述
Random Forests(01)
アンサンブル学習+ランダム学習
DPM(08)
モデルの分割
(latent SVM による識別 )
HLAC(88)
高次の自己相関
CHLAC(04)
HLAC に時間軸の追加
Haar-like(01)
box フィルタ
BOF(04)
特徴量の辞書化
texton(01)
フィルタのバンク
道路監視システム ( 三菱 ,00)
OKAO vision( オムロン ,05)
SuperIPCam( 日立 ,08)
IMAP( ルネサスエレクトロニクス ,08)
CATENARY EYE( 明電舎 ,10)
Kinect(Microsoft,10)
Mobileye(08)
OpenCV(01)
ARToolKit(99)
Visconti2( 東芝 ,13)
転移学習 , 計量学習
CoHOG(09)
HOG の共起表現
オブジェクト認識対応縦型スキャナ ( 東芝テック ,13)
スパース特徴量 (06)
Haar-like + ピクセル差分
Picasa(02)
相互部分空間 (85)
部分空間同士の正準角
FacePass( 東芝 ,01)
エレベータ監視システム「ヘリオスウォッチャー」( 日立 ,06)
PCL(11)
顔検出 , 画像分類
HALCON(MVTec,96)
VLAD(10)
関連する VW の特徴量を使用
Fisher Vector(07)
確率密度関数による特徴量の表現
Google Goggle(Google,09)
Amazon A9(A9.com,04)
特
徴
抽
出
パ
タ
ー
ン
マ
ッ
チ
ン
グ
特
徴
点
検
出
・
記
述
統
計
的
学
習
法
最
近
傍
探
索
年代2000 2005 2010
製品
Pentium3(99) Pentium4(00) Xeon5100
Intel Core2
Core i 7(11)
CPU (06)
Core i 5(09)
Core i 3(10)
SSE SSE(99) SSE2(00) SSE3(04) SSE4.1(08) SSE4.2(11)
GPU
GeForce2(00)
GeForce3(01)
GeForce4,FX(02) GeForce6(04)
GeForce7(05) GeForce8(06)
GeForce9(08)
GeForce200(08)
GeForce400(10) GeForce500(11) GeForce600(12) GeForce700(13)CUDA Tesla(07)
R100(00) R200,300(02) R400(04) Northern Islands(11)R500(05) R600(07) R700(08) Evergreen(10) Southern Islands(12) Volcanic Islands(13)
処
理
レ
ベ
ル
2014/06/09 版
PatMax(Cognex,98)
Shape Trax( キーエンス ,05)
形状サーチ ( オムロン ,11)
DOT(10)
勾配情報のテンプレートマッチング
SSII技術マップは今後も更新していく予定です。
コメントや画像処認識技術の製品化例についても幅広く情報提供をお待ちしております。
送付先:hf@cs.chubu.ac.jp(藤吉)
http://www.ssii.jp/special_map.html
画像認識への期待と可能性 / 中部大学工学部情報工学科 藤吉弘亘
• D. G. Lowe, Distinctive image features from scale-invariant keypoints , IJCV, Vol.60, No.2, pp.91-110, 2004.
• J. Matas, O. Chum, M. Urban, T. Pajdla, Robust wide baseline stereo from maximally stable extremal
regions. , BMVC, pp.384-396, 2002.
• K. Mikolajczyk, C. Schmid, Scale & affine invariant interest point detectors. International journal of computer
vision, Vol.60, No.1, pp.63-86, 2004.
• S. N. Sinha, J. Frahm, M. Pollefeys, Y. Genc, GPU-based Video Feature Tracking And Matching , Workshop
on Edge Computing Using New Commodity Architectures, 2006.
• H. Bay, T. Tuytelaars, L. Van Gool, SURF: Speeded Up Robust. Features , ECCV , pp.404-417, 2006.
• E. Rosten, R. Porter, T. Drummond, Faster and Better: A Machine Learning Approach To Corner Detection ,
PAMI, pp.105-119, 2010.
• M. Ozuysal, M. Calonder, V. Lepetit, P. Fua, Fast keypoint recognition using random ferns , PAMI, Vol.32, pp.
448-461, 2010.
• M. Calonder, V. Lepetit, C. Strecha, P. Fua, BRIEF: Binary Robust Independent Elementary Features , ECCV,
pp.778-792, 2010.
• E.Rublee, V.Rabaud, K.Konolige, G.Bradski ORB: an efficient alternative to SIFT or SURF , ICCV, 2011.
• M. Ambai, Y. Yoshida, CARD: Compact And Real-time Descriptors , ICCV, 2011.
• 上瀧剛, 内村圭一、 スペクトル理論のパターンマッチングへの応用 ,第17回画像の認識・理解シンポジウム, 2012.
• T. Tomasz, L. Vincent, Efficient Discriminative Projections for Compact Binary Descriptors , ECCV, pp.228‒
242, 2012.
• T. Tomasz, M. Christoudias, P. Fua, V. Lepetit, Boosting Binary Keypoint Descriptors ,CVPR, 2013.
24
参考文献(特徴点検出・記述)
画像認識への期待と可能性 / 中部大学工学部情報工学科 藤吉弘亘
• 前田賢一, 渡辺貞一, 局所構造を導入したパターン・マッチング法 , 信学論D, Vol. J68, pp345-352, 1985.
• H. Murase, S. K. Nayar, Illumination planning for object recognition using parametric eigenspace,
PAMI, Vol. 16, pp.1219-1227, 1994
• T. Ojala, M. Pietikainen, T. Maenpaa, Multiresolution gray-scale and rotation invariant texture
classification with local binary patterns , PAMI, Vol.24, pp.971-987, 2002.
• 福井 和広, 山口 修, 鈴木 薫, 前田 賢一, 制約相互部分空間法を用いた環境変動にロバストな顔画像認識 ‒照明
変動の影響を抑える制約相互部分空間の学習‒ , 信学論 D-II Vol. J82, pp.613-620, 1999.
• N. Cristianini, J. Shawe-Taylor, An introduction to support vector machines and other kernel-based
learning methods , Cambridge university press, 2000.
• P. Viola, M. Jones, Rapid object detection using a boosted cascade of simple features , CVPR, vol.
1,pp.511-518, 2001.
• 佐藤雄隆, 金子俊一, 丹羽義典, 山本和彦, Radial Reach Filter (RRF) によるロバストな物体検出 (画像処理,
画像パターン認識) 信学論.D-II, Vol. J86, pp.616-624, 2003.
• G. Csurka, C. R. Dance, L. Fan, J. Willamowski, C. Bray, Visual Categorization with Bags of
Keypoints , ECCV, Vol. 1, pp. 1-2, 2004.
• T. Kobayashi, N. Otsu, Action and Simultaneous Multiple-Person Identification Using Cubic Higher
Order Local Auto-Correlation , ICPR, Vol. 4, pp.741-744, 2004
• N. Dalal, B. Triggs, Histograms of Oriented Gradients for Human Detection , CVPR, pp.886-893,
2005.
25
参考文献(特徴抽出・パターンマッチング)
画像認識への期待と可能性 / 中部大学工学部情報工学科 藤吉弘亘
• 松原康晴, 尺長健, 疎テンプレートマッチングとその実時間物体追跡への応用 , 情報処理学会論文誌. CVIM, Vol.
46, pp.60-71, 2005.
• 河原 智一, 西山 正志, 山口 修, 直交相互部分空間法を用いた顔 認識, , CVIM, pp.17-24, 2005.
• C. Huang, H. Ai, Y. Li, S. Lao, Learning sparse features in granular space for multi-view face detection ,
FG, 2006.
• F. Perronnin, C. Dance, Fisher kernels on visual vocabularies for image categorization , CVPR, 2007.
• T. Watanabe, S. Ito, K. Yokoi, Co-occurrence histograms of oriented gradients for pedestrian
detection , In Advances in Image and Video Technology, pp. 37-47, 2009.
• H. Jegou, M. Douze, C. Schmid, P. Perez. Aggregating local descriptors into a compact image
representation , CVPR, 2010.
• L. J. Li, H. Su, E. P. Xing, F. Li, Object Bank: A High-Level Image Representation for Scene Classification
& Semantic Feature Sparsification , NIPS, Vol. 2, p.5, 2010.
• M. Hashimoto, T. Fujiwara, H. Koshimizu, H. Okuda, K. Sumi, Extraction of Unique Pixels based on Co-
occurrence Probability for High- speed Template Matching , Proceeding of International Symposium on
Optomechatronic Technologies, MVI-3, 2010.
• S. Hinterstoisser, V. Lepetit, S. Ilic, P. Fua, N. Navab, Dominant Orientation Templates for Real-Time
Detection of Texture-Less Objects , CVPR, pp.2257-2264, 2010.
• 上瀧剛, 内村圭一, 明るさ変動および雑音に頑健な固有値分解テンプレート法 , 電気学会論文誌C, Vol.131, No.9,
pp.1625‒1632, 2011.
• J. Deng, J. Krause, F. Li, Fine-grained crowdsourcing for fine-grained recognition.CVPR, pp. 580-587,
2013.
26
参考文献(特徴抽出・パターンマッチング)
画像認識への期待と可能性 / 中部大学工学部情報工学科 藤吉弘亘
• D. E. Rumelhart, G. E. Hinton, R. J. Williams. Learning Internal Representations by Error Propagation , Parallel
distributed processing: Explorations in the microstructure of cognition, Volume 1: Foundations. MIT Press,
1986.
• C. Cortes, V. Vapnik, Support vector machine , Machine learning, Vol.20, No.3, 273-297, 1995.
• Y, Freund, R, E. Schapire, A decisiontheoretic generalization of on-line learning and an application to
boosting , Journal of Computer and System Sciences, No. 1, Vol. 55, pp. 119-139, 1997.
• L. Breiman, Random Forests. , Machine Learning 45 (1): 5-32, 2001.
• P. Geurts, D. Ernst, L. Wehenkel, Extremely randomized trees , Machine learning, Vol.63, No.1, pp.3-42, 2006.
• K. Crammer, O. Dekel, J. Keshet, S. Shalev-Shwartz, Y. Singer, Online passive-aggressive algorithms . The
Journal of Machine Learning Research, pp.551-585, 2006.
• M. Ozuysal, P. Fua, V. Lepetit, Fast keypoint recognition in ten lines of code . ICPR, pp.1-8, 2007.
• P. Felzenszwalb, D. McAllester, D. Ramanan, A discriminatively trained, multiscale, deformable part model ,
CVPR, pp.1-8, 2008.
• J. Hamm, D. D. Lee, Grassmann discriminant analysis: a unifying view on subspace-based learning , ICML,
pp.376-383, 2008.
• R. Collobert, J. Weston, A unified architecture for natural language processing: Deep neural networks with
multitask learning , ICML, pp.160-167, 2008.
• C. H. Lampert, H. Nickisch, S. Harmeling, Learning To Detect Unseen Object Classes by Between-
ClassAttributeTransfer , CVPR, 2009.
• T. Malisiewicz, A. Gupta, A. A. Efros, Ensemble of exemplar-svms for object detection and beyond , ICCV, pp.
89-96, 2011.
27
参考文献(統計的学習法・最近傍探索)
画像認識への期待と可能性 / 中部大学工学部情報工学科 藤吉弘亘
• H. Jegou, M. Douze, C. Schmid, Product quantization for nearest neighbor search , PAMI, Vol.33,
pp117-128, 2011.
• D. Parikh, K. Grauman, Relative attributes , ICCV, pp. 503-510, 2011.
• J. Shotton, T. Sharp, P. Kohli, S. Nowozin, J. Winn, A. Criminisi, Decision Jungles: Compact and Rich Models
for Classification , NIPS, pp.234-242, 2013.
28
参考文献(統計的学習法・最近傍探索)

Weitere ähnliche Inhalte

Was ist angesagt?

画像認識の初歩、SIFT,SURF特徴量
画像認識の初歩、SIFT,SURF特徴量画像認識の初歩、SIFT,SURF特徴量
画像認識の初歩、SIFT,SURF特徴量
takaya imai
 

Was ist angesagt? (20)

オープンソース SLAM の分類
オープンソース SLAM の分類オープンソース SLAM の分類
オープンソース SLAM の分類
 
画像認識の初歩、SIFT,SURF特徴量
画像認識の初歩、SIFT,SURF特徴量画像認識の初歩、SIFT,SURF特徴量
画像認識の初歩、SIFT,SURF特徴量
 
20190706cvpr2019_3d_shape_representation
20190706cvpr2019_3d_shape_representation20190706cvpr2019_3d_shape_representation
20190706cvpr2019_3d_shape_representation
 
Transformer メタサーベイ
Transformer メタサーベイTransformer メタサーベイ
Transformer メタサーベイ
 
Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)
 
三次元点群を取り扱うニューラルネットワークのサーベイ
三次元点群を取り扱うニューラルネットワークのサーベイ三次元点群を取り扱うニューラルネットワークのサーベイ
三次元点群を取り扱うニューラルネットワークのサーベイ
 
Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)
 
【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fields【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fields
 
CV分野におけるサーベイ方法
CV分野におけるサーベイ方法CV分野におけるサーベイ方法
CV分野におけるサーベイ方法
 
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
 
【メタサーベイ】Video Transformer
 【メタサーベイ】Video Transformer 【メタサーベイ】Video Transformer
【メタサーベイ】Video Transformer
 
Generative Models(メタサーベイ )
Generative Models(メタサーベイ )Generative Models(メタサーベイ )
Generative Models(メタサーベイ )
 
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models
 
SSII2019企画: 点群深層学習の研究動向
SSII2019企画: 点群深層学習の研究動向SSII2019企画: 点群深層学習の研究動向
SSII2019企画: 点群深層学習の研究動向
 
SfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法についてSfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法について
 
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
 
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
 
Semantic segmentation
Semantic segmentationSemantic segmentation
Semantic segmentation
 
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化
 

Andere mochten auch

時系列データ3
時系列データ3時系列データ3
時系列データ3
graySpace999
 
距離情報に基づく局所特徴量によるリアルタイム人検出
距離情報に基づく局所特徴量によるリアルタイム人検出距離情報に基づく局所特徴量によるリアルタイム人検出
距離情報に基づく局所特徴量によるリアルタイム人検出
MPRG_Chubu_University
 

Andere mochten auch (20)

ROSを核としたロボティクス教育(中部大学ロボット理工学科の紹介)
ROSを核としたロボティクス教育(中部大学ロボット理工学科の紹介)ROSを核としたロボティクス教育(中部大学ロボット理工学科の紹介)
ROSを核としたロボティクス教育(中部大学ロボット理工学科の紹介)
 
Tutorial for robot programming with LEGO mindstorms EV3
Tutorial for robot programming with LEGO mindstorms EV3 Tutorial for robot programming with LEGO mindstorms EV3
Tutorial for robot programming with LEGO mindstorms EV3
 
Problem Based Learning with LEGO Mindstorms
Problem Based Learning with LEGO MindstormsProblem Based Learning with LEGO Mindstorms
Problem Based Learning with LEGO Mindstorms
 
MIRU2013チュートリアル:SIFTとそれ以降のアプローチ
MIRU2013チュートリアル:SIFTとそれ以降のアプローチMIRU2013チュートリアル:SIFTとそれ以降のアプローチ
MIRU2013チュートリアル:SIFTとそれ以降のアプローチ
 
VIEW2013 Binarycode-based Object Recognition
VIEW2013 Binarycode-based Object RecognitionVIEW2013 Binarycode-based Object Recognition
VIEW2013 Binarycode-based Object Recognition
 
チュートリアルのススメ -チュートリアルのためのチュートリアル-
チュートリアルのススメ -チュートリアルのためのチュートリアル-チュートリアルのススメ -チュートリアルのためのチュートリアル-
チュートリアルのススメ -チュートリアルのためのチュートリアル-
 
次世代セキュリティを牽引する画像解析技術の最新動向 - 距離情報を用いた物体認識技術 -
次世代セキュリティを牽引する画像解析技術の最新動向 - 距離情報を用いた物体認識技術 -次世代セキュリティを牽引する画像解析技術の最新動向 - 距離情報を用いた物体認識技術 -
次世代セキュリティを牽引する画像解析技術の最新動向 - 距離情報を用いた物体認識技術 -
 
統計的学習手法による物体検出の高精度化と効率化 -人検出の実用化に向けて-
統計的学習手法による物体検出の高精度化と効率化 -人検出の実用化に向けて-統計的学習手法による物体検出の高精度化と効率化 -人検出の実用化に向けて-
統計的学習手法による物体検出の高精度化と効率化 -人検出の実用化に向けて-
 
Random Forests
Random ForestsRandom Forests
Random Forests
 
Inside-Outカメラからの3次元Scan Pathとシーン構造の復元
Inside-Outカメラからの3次元Scan Pathとシーン構造の復元Inside-Outカメラからの3次元Scan Pathとシーン構造の復元
Inside-Outカメラからの3次元Scan Pathとシーン構造の復元
 
藤吉研究室10周年記念「これまで10年,ここから10年」
藤吉研究室10周年記念「これまで10年,ここから10年」藤吉研究室10周年記念「これまで10年,ここから10年」
藤吉研究室10周年記念「これまで10年,ここから10年」
 
統計的学習手法よる人検出
統計的学習手法よる人検出統計的学習手法よる人検出
統計的学習手法よる人検出
 
Deep Learningと画像認識   ~歴史・理論・実践~
Deep Learningと画像認識 ~歴史・理論・実践~Deep Learningと画像認識 ~歴史・理論・実践~
Deep Learningと画像認識   ~歴史・理論・実践~
 
学術系クラウドファンディング勉強会
学術系クラウドファンディング勉強会学術系クラウドファンディング勉強会
学術系クラウドファンディング勉強会
 
160108_OpenScienceWS
160108_OpenScienceWS160108_OpenScienceWS
160108_OpenScienceWS
 
151015_d-labo_seminar
151015_d-labo_seminar151015_d-labo_seminar
151015_d-labo_seminar
 
Japanese Summary; Domain Adaptation for Object Recognition: An Unsupervised A...
Japanese Summary; Domain Adaptation for Object Recognition: An Unsupervised A...Japanese Summary; Domain Adaptation for Object Recognition: An Unsupervised A...
Japanese Summary; Domain Adaptation for Object Recognition: An Unsupervised A...
 
視覚デザイン探索のためのクラウドソーシングを活用したパラメタ空間解析(WISS 2014)
視覚デザイン探索のためのクラウドソーシングを活用したパラメタ空間解析(WISS 2014)視覚デザイン探索のためのクラウドソーシングを活用したパラメタ空間解析(WISS 2014)
視覚デザイン探索のためのクラウドソーシングを活用したパラメタ空間解析(WISS 2014)
 
時系列データ3
時系列データ3時系列データ3
時系列データ3
 
距離情報に基づく局所特徴量によるリアルタイム人検出
距離情報に基づく局所特徴量によるリアルタイム人検出距離情報に基づく局所特徴量によるリアルタイム人検出
距離情報に基づく局所特徴量によるリアルタイム人検出
 

Ähnlich wie -SSIIの技術マップ- 過去•現在, そして未来 [領域]認識

東工大 長谷川修研の環境学習・認識・探索技術
東工大 長谷川修研の環境学習・認識・探索技術東工大 長谷川修研の環境学習・認識・探索技術
東工大 長谷川修研の環境学習・認識・探索技術
SOINN Inc.
 
Online moving camera_background_subtraction
Online moving camera_background_subtractionOnline moving camera_background_subtraction
Online moving camera_background_subtraction
Daichi Suzuo
 
SSII2014 チュートリアル資料
SSII2014 チュートリアル資料SSII2014 チュートリアル資料
SSII2014 チュートリアル資料
Masayuki Tanaka
 

Ähnlich wie -SSIIの技術マップ- 過去•現在, そして未来 [領域]認識 (12)

これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
 
ICCV2011 report
ICCV2011 reportICCV2011 report
ICCV2011 report
 
【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2
 
CVPR2018論文紹介「Pseudo Mask Augmented Object Detection」
CVPR2018論文紹介「Pseudo Mask Augmented Object Detection」CVPR2018論文紹介「Pseudo Mask Augmented Object Detection」
CVPR2018論文紹介「Pseudo Mask Augmented Object Detection」
 
東工大 長谷川修研の環境学習・認識・探索技術
東工大 長谷川修研の環境学習・認識・探索技術東工大 長谷川修研の環境学習・認識・探索技術
東工大 長谷川修研の環境学習・認識・探索技術
 
B3スタートアップ コンピュータビジョンの現在と未来にやるべきこと(東京電機大学講演)
B3スタートアップ コンピュータビジョンの現在と未来にやるべきこと(東京電機大学講演)B3スタートアップ コンピュータビジョンの現在と未来にやるべきこと(東京電機大学講演)
B3スタートアップ コンピュータビジョンの現在と未来にやるべきこと(東京電機大学講演)
 
cvsaisentan20141004 kanezaki
cvsaisentan20141004 kanezakicvsaisentan20141004 kanezaki
cvsaisentan20141004 kanezaki
 
PIRF-NAV2
PIRF-NAV2PIRF-NAV2
PIRF-NAV2
 
Online moving camera_background_subtraction
Online moving camera_background_subtractionOnline moving camera_background_subtraction
Online moving camera_background_subtraction
 
3Dマップを活用したVisual Localization
3Dマップを活用したVisual Localization3Dマップを活用したVisual Localization
3Dマップを活用したVisual Localization
 
SSII2014 チュートリアル資料
SSII2014 チュートリアル資料SSII2014 チュートリアル資料
SSII2014 チュートリアル資料
 
ROS の活用による屋外の歩行者空間に適応した自律移動ロボットの開発
ROS の活用による屋外の歩行者空間に適応した自律移動ロボットの開発ROS の活用による屋外の歩行者空間に適応した自律移動ロボットの開発
ROS の活用による屋外の歩行者空間に適応した自律移動ロボットの開発
 

Mehr von Hironobu Fujiyoshi

Mehr von Hironobu Fujiyoshi (6)

MIRU2020長尾賞受賞論文解説:Attention Branch Networkの展開
MIRU2020長尾賞受賞論文解説:Attention Branch Networkの展開MIRU2020長尾賞受賞論文解説:Attention Branch Networkの展開
MIRU2020長尾賞受賞論文解説:Attention Branch Networkの展開
 
知識転移グラフによる複数ネットワークの 共同学習
知識転移グラフによる複数ネットワークの 共同学習知識転移グラフによる複数ネットワークの 共同学習
知識転移グラフによる複数ネットワークの 共同学習
 
【第40回AIセミナー】「説明できるAI 〜AIはブラックボックスなのか?〜」
【第40回AIセミナー】「説明できるAI 〜AIはブラックボックスなのか?〜」【第40回AIセミナー】「説明できるAI 〜AIはブラックボックスなのか?〜」
【第40回AIセミナー】「説明できるAI 〜AIはブラックボックスなのか?〜」
 
第6回 京都大学-稲盛財団合同京都賞シンポジウム
第6回 京都大学-稲盛財団合同京都賞シンポジウム第6回 京都大学-稲盛財団合同京都賞シンポジウム
第6回 京都大学-稲盛財団合同京都賞シンポジウム
 
エッジにおける深層学習の推論処理の効率化
エッジにおける深層学習の推論処理の効率化エッジにおける深層学習の推論処理の効率化
エッジにおける深層学習の推論処理の効率化
 
画像認識における特徴表現 -SSII技術マップの再考-
画像認識における特徴表現 -SSII技術マップの再考-画像認識における特徴表現 -SSII技術マップの再考-
画像認識における特徴表現 -SSII技術マップの再考-
 

Kürzlich hochgeladen

Kürzlich hochgeladen (12)

新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 

-SSIIの技術マップ- 過去•現在, そして未来 [領域]認識

  • 1. 画像認識への期待と可能性 / 中部大学工学部情報工学科 藤吉弘亘 1 ! ! -SSIIの技術- 過去•現在, そして未来 [領域]認識 ! ! SSII2014:第20回画像センシングシンポジウム OS1:20周年記念特別セッション ! 2014年6月12日 ! 藤吉 弘亘 中部大学工学部ロボット理工学科
  • 2. 画像認識への期待と可能性 / 中部大学工学部情報工学科 藤吉弘亘 2 「認識」で取り扱う技術領域 特 徴 抽 出 パ タ ー ン マ ッ チ ン グ 特 徴 点 検 出 ・ 記 述 統 計 的 学 習 法 最 近 傍 探 索 年代 SVM(95) マージン最大化 SIFT(99) スケール不変 特徴点検出・記述 SURF(06) 積分画像 アルゴリズムによる高速化 GPU SIFT(06) ハードウェアによる高速化 FAST(06) 機械学習 コーナー検出 BRIEF(10) 学習無し ランダムサンプリング ORB(11) 教師無し学習 D-BRIEF(12) 教師あり学習 Bin-Boost(13) 教師あり学習 Random Forests(01) アンサンブル学習+ランダム学習 DPM(08) モデルの分割 (latent SVM による識別 ) Exemplar SVM(11) 事例ベースの SVM WTA Hashing(11) 超高速化 HOG(05) 勾配情報 HLAC(88) 高次の自己相関 CHLAC(04) HLAC に時間軸の追加 Haar-like(01) box フィルタ DOT(10) 勾配情報のテンプレートマッチング VLAD(10) 関連する VW の特徴量を使用 Fisher Vector(07) 確率密度関数による特徴量の表現 Deep Learning(08) 多層ニューラルネットワーク 表現学習 超多クラス識別問題 (10 万カテゴリ ) Crowdsourcing(13) 人の知見の導入 詳細画像識別 ERT(06) RF のランダム性を最大化 Fern(06) RF の分岐条件を階層で統一 texton(01) フィルタのバンク 人体パーツ識別 高速化 高精度化 アプリケーション 2000 2005 2010 物体検出 ( 多クラス ) 自己位置推定 マシンビジョン 画像検索 顔検出 人検出 特定物体認識 画像分類 特徴量の自動生成 人が注目した位置から特徴抽出 マーカ認識 二値特徴 増分符号相関 (00) 輝度の増減を二値で画像化 RRF(03) 8 方向の濃度変化 疎テンプレートマッチング (05) 2 種類のモデルの使い分け 固有分解テンプレートマッチング (11) 回転変化に頑健な情報を利用 Co-Occurrence Template Matching(10) 顕著性の高い画素で照合 Harris-Affine(02) アフィン不変特徴点検出 MSER(02) 高速なアフィン不変点特徴 Object Bank(10) 多クラスの要素を特徴量化 Relative attribute(11) 実数による関連要素の表現 zero-shot transfer(09) 関連要素から非学習クラスの検出 セマンティックセグメンテーション CoHOG(09) HOG の共起表現 MLP(86) 多層パーセブトロン Online PA(06) 入力サンプルに応じて重みベクトル更新 スパース特徴量 (06) Haar-like + ピクセル差分 グラスマン多様体 (08) 線形部分空間の集合体 product quantization(11) サブベクトルによる量子化 スペクトル理論によるスケール探索 (12) 特徴空間の射影 DAISY(08) 記述空間の改良 BOF(04) 特徴量の辞書化 直交制約相互空間法 (06) 直交行列による空間の関係を直行化 カーネルトリック (00) 特徴空間の射影 固有空間法 (96) 2 次元画像による 3 次元物体認識 相互部分空間 (85) 部分空間同士の正準角 LBP(94) 局所領域の二値化 CARD(11) 特徴量を 2 値化 Decision Jungles(13) パス共有による省メモリな決定木 制約相互部分空間法 (99) 識別に有効な空間への射影 CNN(89) プーリングと畳み込み による特徴抽出 AdaBoost(95) アンサンブル学習 サンプル重みの逐次更新
  • 3. 画像認識への期待と可能性 / 中部大学工学部情報工学科 藤吉弘亘 3 「認識」技術の製品化 SVM(95) マージン最大化 AdaBoost(95) アンサンブル学習 サンプル重みの逐次更新 SIFT(99) スケール不変 特徴点検出・記述 Random Forests(01) アンサンブル学習+ランダム学習 DPM(08) モデルの分割 (latent SVM による識別 ) HLAC(88) 高次の自己相関 CHLAC(04) HLAC に時間軸の追加 Haar-like(01) box フィルタ BOF(04) 特徴量の辞書化 texton(01) フィルタのバンク 道路監視システム ( 三菱 ,00) OKAO vision( オムロン ,05) SuperIPCam( 日立 ,08) IMAP( ルネサスエレクトロニクス ,08) CATENARY EYE( 明電舎 ,10) Kinect(Microsoft,10) Mobileye(08) OpenCV(01) ARToolKit(99) Visconti2( 東芝 ,13) 転移学習 , 計量学習 CoHOG(09) HOG の共起表現 オブジェクト認識対応縦型スキャナ ( 東芝テック ,13) スパース特徴量 (06) Haar-like + ピクセル差分 Picasa(02) 相互部分空間 (85) 部分空間同士の正準角 FacePass( 東芝 ,01) エレベータ監視システム「ヘリオスウォッチャー」( 日立 ,06) PCL(11) 顔検出 , 画像分類 HALCON(MVTec,96) VLAD(10) 関連する VW の特徴量を使用 Fisher Vector(07) 確率密度関数による特徴量の表現 Google Goggle(Google,09) Amazon A9(A9.com,04) 特 徴 抽 出 パ タ ー ン マ ッ チ ン グ 特 徴 点 検 出 ・ 記 述 統 計 的 学 習 法 最 近 傍 探 索 年代2000 2005 2010 製品 PatMax(Cognex,98) Shape Trax( キーエンス ,05) 形状サーチ ( オムロン ,11) DOT(10) 勾配情報のテンプレートマッチング
  • 4. 画像認識への期待と可能性 / 中部大学工学部情報工学科 藤吉弘亘 4 「認識」で取り扱う技術領域 ! ! ! ! ! ! ! ! 特徴点検出 特徴点記述 コーナー検出 スケール探索 アフィン不変 2値表現 分野 技術 動向 ! ! ! ! ・不変性の獲得 ・2値表現による高速化と省メモリ化 ・機械学習を導入して高速化を実現 ! ! ! ! ! ! ! ! ! ! ! ! パターンマッチング 特徴抽出 画像局所特徴量 BOF表現 テンプレートマッチング 部分空間法 ・局所ベースの特徴量 ・BOF表現を用いた辞書化 ・テンプレート画素の取捨選択 ・部分空間法の進展 ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! 統計的学習法 最近傍探索 統計的学習法 多クラス識別器 ハッシング 最近傍探索 計量学習 Deep Learning ・識別器の高性能化 ・ビッグデータに対するアプローチ ・超多クラス識別の高速化 ・学習外サンプルへの適応 ・特徴抽出の自動獲得
  • 5. 画像認識への期待と可能性 / 中部大学工学部情報工学科 藤吉弘亘 5 「認識」で取り扱う技術領域 特徴点検出・記述の動向 特 徴 抽 出 パ タ ー ン マ ッ チ ン グ 特 徴 点 検 出 ・ 記 述 統 計 的 学 習 法 最 近 傍 探 索 年代 SIFT(99) スケール不変 特徴点検出・記述 SURF(06) 積分画像 アルゴリズムによる高速化 GPU SIFT(06) ハードウェアによる高速化 FAST(06) 機械学習 コーナー検出 BRIEF(10) 学習無し ランダムサンプリング ORB(11) 教師無し学習 D-BRIEF(12) 教師あり学習 Bin-Boost(13) 教師あり学習 2000 2005 2010 画像検索 Harris-Affine(02) アフィン不変特徴点検出 MSER(02) 高速なアフィン不変点特徴 スペクトル理論によるスケール探索 (12) 特徴空間の射影 DAISY(08) 記述空間の改良 CARD(11) 特徴量を 2 値化 DOT(10) 勾配情報のテンプレートマッチング 二値特徴 増分符号相関 (00) 輝度の増減を二値で画像化 RRF(03) 8 方向の濃度変化 疎テンプレートマッチング (05) 2 種類のモデルの使い分け HOG(05) 勾配情報 HLAC(88) 高次の自己相関 CHLAC(04) HLAC に時間軸の追加 Haar-like(01) box フィルタ VLAD(10) 関連する VW の特徴量を使用 Fisher Vector(07) 確率密度関数による特徴量の表現 Crowdsourcing(13) 人の知見の導入 詳細画像識別 texton(01) フィルタのバンク マシンビジョン 顔検出 人検出 特定物体認識 画像分類 特徴量の自動生成 人が注目した位置から特徴抽出 マーカ認識 固有分解テンプレートマッチング (11) 回転変化に頑健な情報を利用 Co-Occurrence Template Matching(10) 顕著性の高い画素で照合 Object Bank(10) 多クラスの要素を特徴量化 CoHOG(09) HOG の共起表現 スパース特徴量 (06) Haar-like + ピクセル差分 BOF(04) 特徴量の辞書化 直交制約相互空間法 (06) 直交行列による空間の関係を直行化 カーネルトリック (00) 特徴空間の射影 固有空間法 (96) 2 次元画像による 3 次元物体認識 相互部分空間 (85) 部分空間同士の正準角 LBP(94) 局所領域の二値化 制約相互部分空間法 (99) 識別に有効な空間への射影 SVM(95) マージン最大化 Random Forests(01) アンサンブル学習+ランダム学習 DPM(08) モデルの分割 (latent SVM による識別 ) Exemplar SVM(11) 事例ベースの SVM WTA Hashing(11) 超高速化 Deep Learning(08) 多層ニューラルネットワーク 表現学習 超多クラス識別問題 (10 万カテゴリ ) ERT(06) RF のランダム性を最大化 Fern(06) RF の分岐条件を階層で統一 人体パーツ識別 物体検出 ( 多クラス ) 自己位置推定 Relative attribute(11) 実数による関連要素の表現 zero-shot transfer(09) 関連要素から非学習クラスの検出 セマンティックセグメンテーション MLP(86) 多層パーセブトロン Online PA(06) 入力サンプルに応じて重みベクトル更新 グラスマン多様体 (08) 線形部分空間の集合体 product quantization(11) サブベクトルによる量子化 Decision Jungles(13) パス共有による省メモリな決定木 CNN(89) プーリングと畳み込み による特徴抽出 AdaBoost(95) アンサンブル学習 サンプル重みの逐次更新
  • 6. 画像認識への期待と可能性 / 中部大学工学部情報工学科 藤吉弘亘 • Distinctive image features from scale-invariant keypoints (SIFT) [Lowe2004] ‒ スケール・回転に不変な特徴点検出・記述 6 特徴点検出・記述 ポイント  ­DOG(Difference of Gaussian)によるキーポイント検出  ­勾配方向ヒストグラムによる特徴記述 DoG画像平滑化画像 € σ0 € kσ0 € k2 σ0 スケール € k3 σ0 k⁴σ₀ - - - -
  • 7. 画像認識への期待と可能性 / 中部大学工学部情報工学科 藤吉弘亘 7 特徴点検出の高速化 スケールスペースの高速化 決定木による高速化 ・SURF (06) 積分画像を用いた近似ヘッセ行列による高速なキーポイント検出 ・FAST (06) 機械学習(決定木)を導入してコーナー検出を高速化 ・スペクトル理論 (12) スペクトル理論によるスケール探索の高速化と高精度化
  • 8. 画像認識への期待と可能性 / 中部大学工学部情報工学科 藤吉弘亘 • Distinctive image features from scale-invariant keypoints (SIFT) [Lowe2004] ‒ スケール・回転に不変な特徴点検出・記述 8 特徴点検出・記述 ポイント  ­DOG(Difference of Gaussian)によるキーポイント検出  ­勾配方向ヒストグラムによる特徴記述 4分割 4分割 8方向 ガウス窓
  • 9. 画像認識への期待と可能性 / 中部大学工学部情報工学科 藤吉弘亘 9 特徴点記述の高速化 2値特徴量の導入 ・BRIEF(10),ORB(11), CARD(11) 距離計算を考慮した2値による特徴記述 ・D-BRIEF(12), Bin-Boost(13) 教師あり学習による最適な2値パターンの獲得 ポイント  ­特徴料を2値にすることで距離計算(ハミング距離)を高速化、SSEの利用  ­省メモリ化も同時に実現 ポジティブサンプル ネガティブサンプル ORBの参照ペア D-BRIEFにおける教師あり学習
  • 10. 画像認識への期待と可能性 / 中部大学工学部情報工学科 藤吉弘亘 10 「認識」で取り扱う技術領域 セマンティックセグメンテーション RRF(03) 8 方向の濃度変化 疎テンプレートマッチング (05) 2 種類のモデルの使い分け HLAC(88) 高次の自己相関 増分符号相関 (00) 輝度の増減を二値で画像化 カーネルトリック (00) 特徴空間の射影 固有空間法 (96) 2 次元画像による 3 次元物体認識 相互部分空間 (85) 部分空間同士の正準角 LBP(94) 局所領域の二値化 SIFT(99) スケール不変 特徴点検出・記述 SURF(06) 積分画像 アルゴリズムによる高速化 GPU SIFT(06) ハードウェアによる高速化 FAST(06) 機械学習 コーナー検出 BRIEF(10) 学習無し ランダムサンプリング ORB(11) 教師無し学習 D-BRIEF(12) 教師あり学習 Bin-Boost(13) 教師あり学習画像検索 Harris-Affine(02) アフィン不変特徴点検出 MSER(02) 高速なアフィン不変点特徴 スペクトル理論によるスケール探索 (12) 特徴空間の射影 DAISY(08) 記述空間の改良 DOT(10) 勾配情報のテンプレートマッチング VLAD(10) 関連する VW の特徴量を使用 Fisher Vector(07) 確率密度関数による特徴量の表現 Crowdsourcing(13) 人の知見の導入 詳細画像識別 マシンビジョン 特定物体認識 特徴量の自動生成 人が注目した位置から特徴抽出 マーカ認識 二値特徴 固有分解テンプレートマッチング (11) 回転変化に頑健な情報を利用 Co-Occurrence Template Matching(10) 顕著性の高い画素で照合 Object Bank(10) 多クラスの要素を特徴量化 CoHOG(09) HOG の共起表現 Online PA(06) 入力サンプルに応じて重みベクトル更新 Exemplar SVM(11) 事例ベースの SVM Deep Learning(08) 多層ニューラルネットワーク 表現学習 物体検出 ( 多クラス ) 自己位置推定 Relative attribute(11) 実数による関連要素の表現 zero-shot transfer(09) 関連要素から非学習クラスの検出 グラスマン多様体 (08) 線形部分空間の集合体 product quantization(11) サブベクトルによる量子化 WTA Hashing(11) 超高速化 超多クラス識別問題 (10 万カテゴリ ) ERT(06) RF のランダム性を最大化 Fern(06) RF の分岐条件を階層で統一 Decision Jungles(13) パス共有による省メモリな決定木 MLP(86) 多層パーセブトロン CNN(89) プーリングと畳み込み による特徴抽出 直交制約相互空間法 (06) 直交行列による空間の関係を直行化 制約相互部分空間法 (99) 識別に有効な空間への射影 特 徴 抽 出 パ タ ー ン マ ッ チ ン グ 特 徴 点 検 出 ・ 記 述 統 計 的 学 習 法 最 近 傍 探 索 年代 SVM(95) マージン最大化 Random Forests(01) アンサンブル学習+ランダム学習 DPM(08) モデルの分割 (latent SVM による識別 ) HOG(05) 勾配情報 Haar-like(01) box フィルタ texton(01) フィルタのバンク 人体パーツ識別 2000 2005 2010 顔検出 人検出 画像分類 スパース特徴量 (06) Haar-like + ピクセル差分 BOF(04) 特徴量の辞書化 CHLAC(04) HLAC に時間軸の追加 CARD(11) 特徴量を 2 値化 AdaBoost(95) アンサンブル学習 サンプル重みの逐次更新 局所特徴量・統計的学習法の動向
  • 11. 画像認識への期待と可能性 / 中部大学工学部情報工学科 藤吉弘亘 11 特徴抽出と統計的学習法 局所画像特徴量と統計的学習法 ・ 顔検出→Haar-like(01), スパース特徴(06)+AdaBoost(95) ・歩行者検出→HOG(05)+SVM(95) ポイント  ­問題設定に合わせて特徴量(Hand-crafted feature)を設計  ­2クラス問題から多クラス問題へ ・人体パーツ識別→Random Forest(01) ・ 画像分類→SIFT(01), BOF(04)+SVM(95)
  • 12. 画像認識への期待と可能性 / 中部大学工学部情報工学科 藤吉弘亘 • A Discriminatively Trained, Multiscale, Deformable Part Model [Felzenszwalb2008] ‒ Latent SVMを用いたパーツベースの物体検出 12 DPM:パーツベースの物体検出 ポイント  ­物体をパーツの集合として表現(Deformable Parts Model)  ­パーツの位置関係を考慮することで姿勢変動に対応 ルートフィルタ パーツフィルタ パーツフィルタの 位置関係
  • 13. 画像認識への期待と可能性 / 中部大学工学部情報工学科 藤吉弘亘 • Fast, Accurate Detection of 100,000 Object Classes on a Single Machine [Dean2013] ‒ 10万種類の物体を20秒以下で検出 13 バイナリコードを用いたHashによる10万種類の物体検出 Locality-sensitive Hashing with WTA WTA codeをP個に分割 P個のコードそれぞれの Hashテーブルを参照 クラス毎の スコアヒストグラムを作成 各クラスのフィルタ応 答マップを作る HOG特徴量 111101010011 WAT code ポイント  ­多クラスDPMの高速化  ­パーツの集合に対して、WTA Hashを利用して超多クラスの検出を実現
  • 14. 画像認識への期待と可能性 / 中部大学工学部情報工学科 藤吉弘亘 14 バイナリコードを用いたHashによる10万種類の物体検出 • Fast, Accurate Detection of 100,000 Object Classes on a Single Machine [Dean2013] ‒ 10万種類の物体を20秒以下で検出
  • 15. 画像認識への期待と可能性 / 中部大学工学部情報工学科 藤吉弘亘 15 「認識」で取り扱う技術領域 特 徴 抽 出 パ タ ー ン マ ッ チ ン グ 特 徴 点 検 出 ・ 記 述 統 計 的 学 習 法 最 近 傍 探 索 年代 HOG(05) 勾配情報 Deep Learning(08) 多層ニューラルネットワーク 表現学習 Crowdsourcing(13) 人の知見の導入 詳細画像識別 2000 2005 2010 人検出 画像分類 人が注目した位置から特徴抽出 マーカ認識 BOF(04) 特徴量の辞書化 直交制約相互空間法 (06) 直交行列による空間の関係を直行化 VLAD(10) 関連する VW の特徴量を使用 Fisher Vector(07) 確率密度関数による特徴量の表現 特定物体認識 Object Bank(10) 多クラスの要素を特徴量化 CoHOG(09) HOG の共起表現 スパース特徴量 (06) Haar-like + ピクセル差分 制約相互部分空間法 (99) 識別に有効な空間への射影 Haar-like(01) box フィルタ 顔検出 カーネルトリック (00) 特徴空間の射影 固有空間法 (96) 2 次元画像による 3 次元物体認識 相互部分空間 (85) 部分空間同士の正準角 SIFT(99) スケール不変 特徴点検出・記述 SURF(06) 積分画像 アルゴリズムによる高速化 GPU SIFT(06) ハードウェアによる高速化 FAST(06) 機械学習 コーナー検出 BRIEF(10) 学習無し ランダムサンプリング ORB(11) 教師無し学習 D-BRIEF(12) 教師あり学習 Bin-Boost(13) 教師あり学習画像検索 Harris-Affine(02) アフィン不変特徴点検出 MSER(02) 高速なアフィン不変点特徴 スペクトル理論によるスケール探索 (12) 特徴空間の射影 DAISY(08) 記述空間の改良 HLAC(88) 高次の自己相関 CHLAC(04) HLAC に時間軸の追加 DOT(10) 勾配情報のテンプレートマッチング texton(01) フィルタのバンク マシンビジョン 二値特徴 増分符号相関 (00) 輝度の増減を二値で画像化 RRF(03) 8 方向の濃度変化 疎テンプレートマッチング (05) 2 種類のモデルの使い分け 固有分解テンプレートマッチング (11) 回転変化に頑健な情報を利用 Co-Occurrence Template Matching(10) 顕著性の高い画素で照合 LBP(94) 局所領域の二値化 CARD(11) 特徴量を 2 値化 CNN(89) プーリングと畳み込み による特徴抽出 SVM(95) マージン最大化 Random Forests(01) アンサンブル学習+ランダム学習 DPM(08) モデルの分割 (latent SVM による識別 ) Exemplar SVM(11) 事例ベースの SVM WTA Hashing(11) 超高速化 超多クラス識別問題 (10 万カテゴリ ) ERT(06) RF のランダム性を最大化 Fern(06) RF の分岐条件を階層で統一 人体パーツ識別 物体検出 ( 多クラス ) 自己位置推定 Relative attribute(11) 実数による関連要素の表現 zero-shot transfer(09) 関連要素から非学習クラスの検出 セマンティックセグメンテーション MLP(86) 多層パーセブトロン Online PA(06) 入力サンプルに応じて重みベクトル更新 グラスマン多様体 (08) 線形部分空間の集合体 product quantization(11) サブベクトルによる量子化 Decision Jungles(13) パス共有による省メモリな決定木 AdaBoost(95) アンサンブル学習 サンプル重みの逐次更新 特徴量の自動生成 近年の動向 人の知見の導入 特徴抽出の自動化
  • 16. 画像認識への期待と可能性 / 中部大学工学部情報工学科 藤吉弘亘 16 Deep Learningによる特徴抽出と識別器の自動獲得 ポイント  ­畳み込みニューラルネットワークの学習にスパースコーディングを利用  ­各階層の出力をすべて統合する方法でローカル&グローバルな特徴を抽出 特徴抽出部 識別部 • Pedestrian Detection with Unsupervised Multi-Stage Feature Learning [Sermanet2013] ‒ 畳み込みNNを用いて人検出の性能を大幅に向上
  • 17. 画像認識への期待と可能性 / 中部大学工学部情報工学科 藤吉弘亘 • Pedestrian Detection with Unsupervised Multi-Stage Feature Learning [Sermanet2013] ‒ 畳み込みNNを用いて人検出の性能を大幅に向上 17 Deep Learningによる特徴抽出と識別器の自動獲得 ポイント  ­畳み込みニューラルネットワークの学習にスパースコーディングを利用  ­各階層の出力をすべて統合する方法でローカル&グローバルな特徴を抽出 畳み込み層のフィルタ例 (INRIAデータセット,フィルタサイズ:9x9) 検出性能 →特徴抽出過程の自動獲得
  • 18. 画像認識への期待と可能性 / 中部大学工学部情報工学科 藤吉弘亘 • Fine-Grained Crowdsourcing for Fine-Grained Recognition [Deng2013] ‒ 人が注目した領域から特徴量を記述 18 人の知見を利用した特徴抽出 Crowdsourcingにより 多くの経験を獲得 高スコア時の選択領域から特徴抽出カラー画像化する面積が 小さいほど高スコア 識別に容易な領域が 選択されている ゲームで高スコア = ポイント  ­人が識別に容易な領域を選択することで細かな違いを識別  ­Crowdsourcingを利用して大量の経験データを獲得する ゲーム形式で正誤判定に使用した領域を選択 クリックした座標周辺が ブラー画像からカラー画像へ
  • 19. 画像認識への期待と可能性 / 中部大学工学部情報工学科 藤吉弘亘 19 「認識」の5年後 特 徴 抽 出 パ タ ー ン マ ッ チ ン グ 特 徴 点 検 出 ・ 記 述 統 計 的 学 習 法 最 近 傍 探 索 年代 SVM(95) マージン最大化 SIFT(99) スケール不変 特徴点検出・記述 SURF(06) 積分画像 アルゴリズムによる高速化 GPU SIFT(06) ハードウェアによる高速化 FAST(06) 機械学習 コーナー検出 BRIEF(10) 学習無し ランダムサンプリング ORB(11) 教師無し学習 D-BRIEF(12) 教師あり学習 Bin-Boost(13) 教師あり学習 Random Forests(01) アンサンブル学習+ランダム学習 DPM(08) モデルの分割 (latent SVM による識別 ) Exemplar SVM(11) 事例ベースの SVM WTA Hashing(11) 超高速化 HOG(05) 勾配情報 HLAC(88) 高次の自己相関 CHLAC(04) HLAC に時間軸の追加 Haar-like(01) box フィルタ DOT(10) 勾配情報のテンプレートマッチング VLAD(10) 関連する VW の特徴量を使用 Fisher Vector(07) 確率密度関数による特徴量の表現 Deep Learning(08) 多層ニューラルネットワーク 表現学習 超多クラス識別問題 (10 万カテゴリ ) Crowdsourcing(13) 人の知見の導入 詳細画像識別 処 理 レ ベ ル ERT(06) RF のランダム性を最大化 Fern(06) RF の分岐条件を階層で統一 5 年後 texton(01) フィルタのバンク 人体パーツ識別 高速化 高精度化 アプリケーション 2000 2005 2010 物体検出 ( 多クラス ) 自己位置推定 マシンビジョン 画像検索 顔検出 人検出 特定物体認識 画像分類 特徴量の自動生成 人が注目した位置から特徴抽出 マーカ認識 二値特徴 人とのハイブリッドによる 官能検査、欠陥検出 増分符号相関 (00) 輝度の増減を二値で画像化 RRF(03) 8 方向の濃度変化 疎テンプレートマッチング (05) 2 種類のモデルの使い分け 固有分解テンプレートマッチング (11) 回転変化に頑健な情報を利用 Co-Occurrence Template Matching(10) 顕著性の高い画素で照合 高速多クラス識別 Harris-Affine(02) アフィン不変特徴点検出 MSER(02) 高速なアフィン不変点特徴 Object Bank(10) 多クラスの要素を特徴量化 Relative attribute(11) 実数による関連要素の表現 zero-shot transfer(09) 関連要素から非学習クラスの検出 zero-shot learning による 学習外サンプルへの適応 転移学習 , 計量学習 生態調査 セマンティックセグメンテーション CoHOG(09) HOG の共起表現 MLP(86) 多層パーセブトロン Online PA(06) 入力サンプルに応じて重みベクトル更新 スパース特徴量 (06) Haar-like + ピクセル差分 詳細画像記述 グラスマン多様体 (08) 線形部分空間の集合体 product quantization(11) サブベクトルによる量子化 スペクトル理論によるスケール探索 (12) 特徴空間の射影 不変性の獲得 DAISY(08) 記述空間の改良 BOF(04) 特徴量の辞書化 大規模顔認識 Deep Neural Network の 高速化直交制約相互空間法 (06) 直交行列による空間の関係を直行化 カーネルトリック (00) 特徴空間の射影 固有空間法 (96) 2 次元画像による 3 次元物体認識 相互部分空間 (85) 部分空間同士の正準角 LBP(94) 局所領域の二値化 CARD(11) 特徴量を 2 値化 Decision Jungles(13) パス共有による省メモリな決定木 制約相互部分空間法 (99) 識別に有効な空間への射影 CNN(89) プーリングと畳み込み による特徴抽出 AdaBoost(95) アンサンブル学習 サンプル重みの逐次更新 セマンティック映像圧縮
  • 20. 画像認識への期待と可能性 / 中部大学工学部情報工学科 藤吉弘亘 • 高速多クラス識別 ‒ WTA Hashingによる10万カテゴリ識別の高速化 • 詳細画像記述 ‒ 10万カテゴリ識別+関連要素による学習外サンプルのラベル導出 • zero-shot learningによる学習外サンプルへの適応 ‒ 関連要素による学習外サンプルのラベル導出+転移学習、計量学習 • 大規模顔認識 ‒ Deep Neural Networkの高速化 • 人と機械のハイブリッドによる官能検査、欠陥検出 ‒ 人の知見を導入した詳細画像識別 • キーポイントにおける不変性の獲得 ‒ スケール探索、アフィン変化への対応 20 「認識」の5年後
  • 21. 画像認識への期待と可能性 / 中部大学工学部情報工学科 藤吉弘亘 Deep Learningに代表される深い階層的構造の学習・識別手法の理論的解析と解析に基づく階層構造の設計論に焦点があたり,この結 果をもとにweb上に存在する統制のとれた一般的物体の画像であればほぼ間違いなく認識可能となる.その一方で,より実世界寄り の雑然とした状況における認識へ注力され,また,チャレンジングな課題へ広がりを見せる.! !○今後広がりを見せるであろう課題! !・ライフログ等の動画像の要約,自然言語分野との融合! ウェアラブル機器の浸透と共に,時系列データを有効に活用する動画像の要約技術が進展する.時系列情報を活用した前後の文脈理 解による認識精度の向上のみならず,人の感性に合致した興味深いショット推定や,自然言語分野で培われた文法的知識体系等がビ ジョン技術と融合して従来難問とされていた動画像要約のへの糸口となる.! !・コンテンツ生成,グラフィクス系分野との融合! 画像認識とは数百万ピクセルの情報を1つのカテゴリに押し込める究極の情報圧縮技術といえる.今後は,グラフィクス系分野の融合 により,圧縮された情報から逆に実世界の情報へ復元するコンテンツ生成技術が進展する.これにより長い文章情報理解せずとも図 を一枚見ることによって瞬時に内容を理解可能な情報提示技術への糸口となる.! !・ロボットビジョン,ロボティクス(制御)との融合! 統制のとれた認識対象を提示するのであれば十分高い識別性能が実現される一方で,認識対象をあらかじめ定めず,雑然とした画像 が入力状況においては従来の一般的物体認識手法の枠組みでは認識精度が悪く使える技術としてほど遠い.ロボットの持つ身体を活 用することで,認識すべき対象を発見する注視機能の活用とロボットの制御技術の融合により,実世界における真の意味での能動的 認識,学習機能が発展する.! !・プライバシアウェアな画像認識技術の流れ! 今後ウェアラブル機器の発展が見込まれているが,画像センサを利用した場合にプライバシを侵害する画像が意図せず取得され,web で共有される危険性をはらみ,画像センサを持つウェアラブル機器の拡充の妨げとなる.この背景のもと画像に映る物体の種別等の コンテンツが十分に理解可能でありながら,プライバシ情報をすべて隠ぺいする技術が発展する.ウェアラブルシステム等で獲得した 画像,映像をクラウドソーシングなどを利用して,ラベル付与を行うことや,webでの共有,画像を見ながらの遠隔操作などには必 要不可欠な技術となる.荒く,雑然とした情報でも可能とする. 21 5年後の画像認識のトレンド:原田達也先生(東大)
  • 22. 画像認識への期待と可能性 / 中部大学工学部情報工学科 藤吉弘亘 22 5年後の画像認識のトレンド:Prof. Tae-kyun Kim(Imperial College London) • Combined of RF and Deep learning ‒ Random ForestとDeep Learningの融合 ‒ 例:Decision Forest [Shotton2013] ! ! ! ! • Long-term continuous learning ‒ never-ending image learning ‒ 終わりのない画像学習フレームワークの実現 (a) (b) Figure 1: Motivation and notation. (a) An example use of a rooted decision DAG for classifying image patches as belonging to grass, cow or sheep classes. Using DAGs instead of trees reduces the number of nodes and can result in better generalization. For example, differently coloured patches of grass (yellow and green) are merged together into node 4, because of similar class statistics. This may encourage generalization by representing the fact that grass may appear as a mix of yellow and green. (b) Notation for a DAG, its nodes, features and branches. See text for details. input instance that reaches that node should progress through the left or right branch emanating from the node. Prediction in binary decision trees involves every input starting at the root and moving down as dictated by the split functions encountered at the split nodes. Prediction concludes when the instance reaches a leaf node, each of which contains a unique prediction. For classification trees, this prediction is a normalized histogram over class labels. Rooted binary decision DAGs. Rooted binary DAGs have a different architecture compared to decision trees and were introduced by Platt et al. [26] as a way of combining binary classifier for multi-class classification tasks. More specifically a rooted binary DAG has: (i) one root node, with in-degree 0; (ii) multiple split nodes, with in-degree 1 and out-degree 2; (iii) multiple leaf nodes, 2分木をネットワーク状に接続 省メモリ化とオーバーフィッティングを回避決
  • 23. 画像認識への期待と可能性 / 中部大学工学部情報工学科 藤吉弘亘 23 特 徴 抽 出 パ タ ー ン マ ッ チ ン グ 特 徴 点 検 出 ・ 記 述 統 計 的 学 習 法 最 近 傍 探 索 年代 SVM(95) マージン最大化 SIFT(99) スケール不変 特徴点検出・記述 SURF(06) 積分画像 アルゴリズムによる高速化 GPU SIFT(06) ハードウェアによる高速化 FAST(06) 機械学習 コーナー検出 BRIEF(10) 学習無し ランダムサンプリング ORB(11) 教師無し学習 D-BRIEF(12) 教師あり学習 Bin-Boost(13) 教師あり学習 Random Forests(01) アンサンブル学習+ランダム学習 DPM(08) モデルの分割 (latent SVM による識別 ) Exemplar SVM(11) 事例ベースの SVM WTA Hashing(11) 超高速化 HOG(05) 勾配情報 HLAC(88) 高次の自己相関 CHLAC(04) HLAC に時間軸の追加 Haar-like(01) box フィルタ DOT(10) 勾配情報のテンプレートマッチング VLAD(10) 関連する VW の特徴量を使用 Fisher Vector(07) 確率密度関数による特徴量の表現 Deep Learning(08) 多層ニューラルネットワーク 表現学習 超多クラス識別問題 (10 万カテゴリ ) Crowdsourcing(13) 人の知見の導入 詳細画像識別 処 理 レ ベ ル ERT(06) RF のランダム性を最大化 Fern(06) RF の分岐条件を階層で統一 5 年後 texton(01) フィルタのバンク 人体パーツ識別 高速化 高精度化 アプリケーション 2000 2005 2010 物体検出 ( 多クラス ) 自己位置推定 マシンビジョン 画像検索 顔検出 人検出 特定物体認識 画像分類 特徴量の自動生成 人が注目した位置から特徴抽出 マーカ認識 二値特徴 人とのハイブリッドによる 官能検査、欠陥検出 増分符号相関 (00) 輝度の増減を二値で画像化 RRF(03) 8 方向の濃度変化 疎テンプレートマッチング (05) 2 種類のモデルの使い分け 固有分解テンプレートマッチング (11) 回転変化に頑健な情報を利用 Co-Occurrence Template Matching(10) 顕著性の高い画素で照合 高速多クラス識別 Harris-Affine(02) アフィン不変特徴点検出 MSER(02) 高速なアフィン不変点特徴 Object Bank(10) 多クラスの要素を特徴量化 Relative attribute(11) 実数による関連要素の表現 zero-shot transfer(09) 関連要素から非学習クラスの検出 zero-shot learning による 学習外サンプルへの適応 転移学習 , 計量学習 生態調査 セマンティックセグメンテーション CoHOG(09) HOG の共起表現 MLP(86) 多層パーセブトロン Online PA(06) 入力サンプルに応じて重みベクトル更新 スパース特徴量 (06) Haar-like + ピクセル差分 詳細画像記述 グラスマン多様体 (08) 線形部分空間の集合体 product quantization(11) サブベクトルによる量子化 スペクトル理論によるスケール探索 (12) 特徴空間の射影 不変性の獲得 DAISY(08) 記述空間の改良 BOF(04) 特徴量の辞書化 大規模顔認識 Deep Neural Network の 高速化直交制約相互空間法 (06) 直交行列による空間の関係を直行化 カーネルトリック (00) 特徴空間の射影 固有空間法 (96) 2 次元画像による 3 次元物体認識 相互部分空間 (85) 部分空間同士の正準角 LBP(94) 局所領域の二値化 CARD(11) 特徴量を 2 値化 Decision Jungles(13) パス共有による省メモリな決定木 制約相互部分空間法 (99) 識別に有効な空間への射影 Pentium3(99) Pentium4(00) Xeon5100 Intel Core2 Core i 7(11) CPU (06) Core i 5(09) Core i 3(10) SSE SSE(99) SSE2(00) SSE3(04) SSE4.1(08) SSE4.2(11) GPU GeForce2(00) GeForce3(01) GeForce4,FX(02) GeForce6(04) GeForce7(05) GeForce8(06) GeForce9(08) GeForce200(08) GeForce400(10) GeForce500(11) GeForce600(12) GeForce700(13)CUDA Tesla(07) R100(00) R200,300(02) R400(04) Northern Islands(11)R500(05) R600(07) R700(08) Evergreen(10) Southern Islands(12) Volcanic Islands(13) 2014/06/09 版 CNN(89) プーリングと畳み込み による特徴抽出 AdaBoost(95) アンサンブル学習 サンプル重みの逐次更新 セマンティック映像圧縮 SVM(95) マージン最大化 AdaBoost(95) アンサンブル学習 サンプル重みの逐次更新 SIFT(99) スケール不変 特徴点検出・記述 Random Forests(01) アンサンブル学習+ランダム学習 DPM(08) モデルの分割 (latent SVM による識別 ) HLAC(88) 高次の自己相関 CHLAC(04) HLAC に時間軸の追加 Haar-like(01) box フィルタ BOF(04) 特徴量の辞書化 texton(01) フィルタのバンク 道路監視システム ( 三菱 ,00) OKAO vision( オムロン ,05) SuperIPCam( 日立 ,08) IMAP( ルネサスエレクトロニクス ,08) CATENARY EYE( 明電舎 ,10) Kinect(Microsoft,10) Mobileye(08) OpenCV(01) ARToolKit(99) Visconti2( 東芝 ,13) 転移学習 , 計量学習 CoHOG(09) HOG の共起表現 オブジェクト認識対応縦型スキャナ ( 東芝テック ,13) スパース特徴量 (06) Haar-like + ピクセル差分 Picasa(02) 相互部分空間 (85) 部分空間同士の正準角 FacePass( 東芝 ,01) エレベータ監視システム「ヘリオスウォッチャー」( 日立 ,06) PCL(11) 顔検出 , 画像分類 HALCON(MVTec,96) VLAD(10) 関連する VW の特徴量を使用 Fisher Vector(07) 確率密度関数による特徴量の表現 Google Goggle(Google,09) Amazon A9(A9.com,04) 特 徴 抽 出 パ タ ー ン マ ッ チ ン グ 特 徴 点 検 出 ・ 記 述 統 計 的 学 習 法 最 近 傍 探 索 年代2000 2005 2010 製品 Pentium3(99) Pentium4(00) Xeon5100 Intel Core2 Core i 7(11) CPU (06) Core i 5(09) Core i 3(10) SSE SSE(99) SSE2(00) SSE3(04) SSE4.1(08) SSE4.2(11) GPU GeForce2(00) GeForce3(01) GeForce4,FX(02) GeForce6(04) GeForce7(05) GeForce8(06) GeForce9(08) GeForce200(08) GeForce400(10) GeForce500(11) GeForce600(12) GeForce700(13)CUDA Tesla(07) R100(00) R200,300(02) R400(04) Northern Islands(11)R500(05) R600(07) R700(08) Evergreen(10) Southern Islands(12) Volcanic Islands(13) 処 理 レ ベ ル 2014/06/09 版 PatMax(Cognex,98) Shape Trax( キーエンス ,05) 形状サーチ ( オムロン ,11) DOT(10) 勾配情報のテンプレートマッチング SSII技術マップは今後も更新していく予定です。 コメントや画像処認識技術の製品化例についても幅広く情報提供をお待ちしております。 送付先:hf@cs.chubu.ac.jp(藤吉) http://www.ssii.jp/special_map.html
  • 24. 画像認識への期待と可能性 / 中部大学工学部情報工学科 藤吉弘亘 • D. G. Lowe, Distinctive image features from scale-invariant keypoints , IJCV, Vol.60, No.2, pp.91-110, 2004. • J. Matas, O. Chum, M. Urban, T. Pajdla, Robust wide baseline stereo from maximally stable extremal regions. , BMVC, pp.384-396, 2002. • K. Mikolajczyk, C. Schmid, Scale & affine invariant interest point detectors. International journal of computer vision, Vol.60, No.1, pp.63-86, 2004. • S. N. Sinha, J. Frahm, M. Pollefeys, Y. Genc, GPU-based Video Feature Tracking And Matching , Workshop on Edge Computing Using New Commodity Architectures, 2006. • H. Bay, T. Tuytelaars, L. Van Gool, SURF: Speeded Up Robust. Features , ECCV , pp.404-417, 2006. • E. Rosten, R. Porter, T. Drummond, Faster and Better: A Machine Learning Approach To Corner Detection , PAMI, pp.105-119, 2010. • M. Ozuysal, M. Calonder, V. Lepetit, P. Fua, Fast keypoint recognition using random ferns , PAMI, Vol.32, pp. 448-461, 2010. • M. Calonder, V. Lepetit, C. Strecha, P. Fua, BRIEF: Binary Robust Independent Elementary Features , ECCV, pp.778-792, 2010. • E.Rublee, V.Rabaud, K.Konolige, G.Bradski ORB: an efficient alternative to SIFT or SURF , ICCV, 2011. • M. Ambai, Y. Yoshida, CARD: Compact And Real-time Descriptors , ICCV, 2011. • 上瀧剛, 内村圭一、 スペクトル理論のパターンマッチングへの応用 ,第17回画像の認識・理解シンポジウム, 2012. • T. Tomasz, L. Vincent, Efficient Discriminative Projections for Compact Binary Descriptors , ECCV, pp.228‒ 242, 2012. • T. Tomasz, M. Christoudias, P. Fua, V. Lepetit, Boosting Binary Keypoint Descriptors ,CVPR, 2013. 24 参考文献(特徴点検出・記述)
  • 25. 画像認識への期待と可能性 / 中部大学工学部情報工学科 藤吉弘亘 • 前田賢一, 渡辺貞一, 局所構造を導入したパターン・マッチング法 , 信学論D, Vol. J68, pp345-352, 1985. • H. Murase, S. K. Nayar, Illumination planning for object recognition using parametric eigenspace, PAMI, Vol. 16, pp.1219-1227, 1994 • T. Ojala, M. Pietikainen, T. Maenpaa, Multiresolution gray-scale and rotation invariant texture classification with local binary patterns , PAMI, Vol.24, pp.971-987, 2002. • 福井 和広, 山口 修, 鈴木 薫, 前田 賢一, 制約相互部分空間法を用いた環境変動にロバストな顔画像認識 ‒照明 変動の影響を抑える制約相互部分空間の学習‒ , 信学論 D-II Vol. J82, pp.613-620, 1999. • N. Cristianini, J. Shawe-Taylor, An introduction to support vector machines and other kernel-based learning methods , Cambridge university press, 2000. • P. Viola, M. Jones, Rapid object detection using a boosted cascade of simple features , CVPR, vol. 1,pp.511-518, 2001. • 佐藤雄隆, 金子俊一, 丹羽義典, 山本和彦, Radial Reach Filter (RRF) によるロバストな物体検出 (画像処理, 画像パターン認識) 信学論.D-II, Vol. J86, pp.616-624, 2003. • G. Csurka, C. R. Dance, L. Fan, J. Willamowski, C. Bray, Visual Categorization with Bags of Keypoints , ECCV, Vol. 1, pp. 1-2, 2004. • T. Kobayashi, N. Otsu, Action and Simultaneous Multiple-Person Identification Using Cubic Higher Order Local Auto-Correlation , ICPR, Vol. 4, pp.741-744, 2004 • N. Dalal, B. Triggs, Histograms of Oriented Gradients for Human Detection , CVPR, pp.886-893, 2005. 25 参考文献(特徴抽出・パターンマッチング)
  • 26. 画像認識への期待と可能性 / 中部大学工学部情報工学科 藤吉弘亘 • 松原康晴, 尺長健, 疎テンプレートマッチングとその実時間物体追跡への応用 , 情報処理学会論文誌. CVIM, Vol. 46, pp.60-71, 2005. • 河原 智一, 西山 正志, 山口 修, 直交相互部分空間法を用いた顔 認識, , CVIM, pp.17-24, 2005. • C. Huang, H. Ai, Y. Li, S. Lao, Learning sparse features in granular space for multi-view face detection , FG, 2006. • F. Perronnin, C. Dance, Fisher kernels on visual vocabularies for image categorization , CVPR, 2007. • T. Watanabe, S. Ito, K. Yokoi, Co-occurrence histograms of oriented gradients for pedestrian detection , In Advances in Image and Video Technology, pp. 37-47, 2009. • H. Jegou, M. Douze, C. Schmid, P. Perez. Aggregating local descriptors into a compact image representation , CVPR, 2010. • L. J. Li, H. Su, E. P. Xing, F. Li, Object Bank: A High-Level Image Representation for Scene Classification & Semantic Feature Sparsification , NIPS, Vol. 2, p.5, 2010. • M. Hashimoto, T. Fujiwara, H. Koshimizu, H. Okuda, K. Sumi, Extraction of Unique Pixels based on Co- occurrence Probability for High- speed Template Matching , Proceeding of International Symposium on Optomechatronic Technologies, MVI-3, 2010. • S. Hinterstoisser, V. Lepetit, S. Ilic, P. Fua, N. Navab, Dominant Orientation Templates for Real-Time Detection of Texture-Less Objects , CVPR, pp.2257-2264, 2010. • 上瀧剛, 内村圭一, 明るさ変動および雑音に頑健な固有値分解テンプレート法 , 電気学会論文誌C, Vol.131, No.9, pp.1625‒1632, 2011. • J. Deng, J. Krause, F. Li, Fine-grained crowdsourcing for fine-grained recognition.CVPR, pp. 580-587, 2013. 26 参考文献(特徴抽出・パターンマッチング)
  • 27. 画像認識への期待と可能性 / 中部大学工学部情報工学科 藤吉弘亘 • D. E. Rumelhart, G. E. Hinton, R. J. Williams. Learning Internal Representations by Error Propagation , Parallel distributed processing: Explorations in the microstructure of cognition, Volume 1: Foundations. MIT Press, 1986. • C. Cortes, V. Vapnik, Support vector machine , Machine learning, Vol.20, No.3, 273-297, 1995. • Y, Freund, R, E. Schapire, A decisiontheoretic generalization of on-line learning and an application to boosting , Journal of Computer and System Sciences, No. 1, Vol. 55, pp. 119-139, 1997. • L. Breiman, Random Forests. , Machine Learning 45 (1): 5-32, 2001. • P. Geurts, D. Ernst, L. Wehenkel, Extremely randomized trees , Machine learning, Vol.63, No.1, pp.3-42, 2006. • K. Crammer, O. Dekel, J. Keshet, S. Shalev-Shwartz, Y. Singer, Online passive-aggressive algorithms . The Journal of Machine Learning Research, pp.551-585, 2006. • M. Ozuysal, P. Fua, V. Lepetit, Fast keypoint recognition in ten lines of code . ICPR, pp.1-8, 2007. • P. Felzenszwalb, D. McAllester, D. Ramanan, A discriminatively trained, multiscale, deformable part model , CVPR, pp.1-8, 2008. • J. Hamm, D. D. Lee, Grassmann discriminant analysis: a unifying view on subspace-based learning , ICML, pp.376-383, 2008. • R. Collobert, J. Weston, A unified architecture for natural language processing: Deep neural networks with multitask learning , ICML, pp.160-167, 2008. • C. H. Lampert, H. Nickisch, S. Harmeling, Learning To Detect Unseen Object Classes by Between- ClassAttributeTransfer , CVPR, 2009. • T. Malisiewicz, A. Gupta, A. A. Efros, Ensemble of exemplar-svms for object detection and beyond , ICCV, pp. 89-96, 2011. 27 参考文献(統計的学習法・最近傍探索)
  • 28. 画像認識への期待と可能性 / 中部大学工学部情報工学科 藤吉弘亘 • H. Jegou, M. Douze, C. Schmid, Product quantization for nearest neighbor search , PAMI, Vol.33, pp117-128, 2011. • D. Parikh, K. Grauman, Relative attributes , ICCV, pp. 503-510, 2011. • J. Shotton, T. Sharp, P. Kohli, S. Nowozin, J. Winn, A. Criminisi, Decision Jungles: Compact and Rich Models for Classification , NIPS, pp.234-242, 2013. 28 参考文献(統計的学習法・最近傍探索)