從圖像辨識到物件偵測，進階的圖影像人工智慧 (From Image Classification to Object Detection, Advanced Deep Learning)

從圖像辨識到物件偵測
王建凱 JianKai Wang
2019/08
https://jiankaiwang.no-ip.biz
https://github.com/jiankaiwang
進階的圖影像人工智慧

內容與資源 Doc x Source Code
文件連結 https://ppt.xxx
● Source Code
● 複習及補充機器學習與深度學習
● 物件偵測要解決的問題
● 策略1: One-Shot Solution
○ 探討 YOLO 與 Hands-On 操作
○ 探討其他相關演算法與其發展
● 策略2: Divide-and-Conquer
○ 探討 Faster RCNN 與 API 操作
○ 探討其他相關演算法與其發展
● 探討增進訓練結果與演算法發展
● 機器學習的推論與應用
● 應用機器學習導入產業
2
github.com/jiankaiwang/object_detection_tutorial

圖像辨識辨識這張圖是什麼(監督式學習)
3
推論
訓練機器辨識
這張圖是"卡車"
預期看到這張圖
辨識為"卡車"
訓練
卡車
卡車
訓練資料
測試資料
(圖像 + 標註)
(僅有圖像)
- Photo by Quinn Buffing, Colby Ray on Unsplash (2019)
辨識模型

圖像辨識用於解決圖像、空間等非結構資料的深度「CNN」
4
- Ahmed Besbes (2019)
- https://cs.nyu.edu/~fergus/tutorials/deep_learning_cvpr12 (2012)

建立深度神經網路建構高維度多元非線性函數
5
- Prabhu (2018)

損失函數評估學習並更新參數
6
...
0.13
0.03
0.80 1.0
0.0
0.0
預測機率專家標籤CNN + Pooling + ... 分類損失函數(E)
tk:正確答案標籤
yk:預測機率
E=-1*log(0.8)
=0.0969
損失函數：更新參數？更新什麼參數？圖像辨識是否只能使用 Cross Entropy 來作為損失函數？損失函
數對於深度神經網路有什麼關係？ … (損失函數定義是深度學習的模型訓練關鍵之一。)
反向傳播進行梯度計算與參數更新

損失函數決定了模型解決問題的方向
7
...
簡化成一元二次方程式
a
b
c
a,b,c 參數
透過訓練得出
x _y
0.1 -0.77
0.2 -0.48
-0.5 -1.25
訓練資料
+
+
+
損失函數
(以減少兩個數值之間距離為目的)
回到深度學習
網路呢？

評估指標需要客觀的「評估指標」
8
True Positive
False Positive
(Type I Error)
False Negative
(Type II Error)
True Negative
Predicted
Condition
True condition
Positive Negative
PositiveNegative
Precision =
TP / (TP + FP)
Sensitivity =
Recall =
TP / (TP + FN)
- FLOWINGDATA (2019)
Precision (精確度): 預測正確的當中有多少是真。
Sensitivity (準確度): 全部真的有多少是被預測為正確的。

用於訓練的資料收集與前處理攸關模型成敗重要因素
9
全部資料集
訓練資料測試資料
訓練資料測試資料驗證資料
訓練模型與超參數調整驗證模型
訓練測試訓練訓練訓練訓練
測試訓練訓練訓練訓練訓練
訓練訓練訓練訓練測試訓練
訓練訓練訓練訓練訓練測試
訓練訓練訓練測試訓練訓練
訓練訓練測試訓練訓練訓練
N-Fold
Cross Validation
(N=6)

機器學習的完整流程將前面所教的串接起來
● 需要收集與切割資料集
○ 包含資料前處理
10
推論與應用
資料收集與前處理
超參數調整與模型調整
驗證模型
模型建立與訓練
● 需要設計一個網路模型
○ 需視解決問題而定 (CNN, RNN, ...)
○ 定義輸出與輸入
● 需要定義一個損失函數
○ 定義模型結果的方向
● 需要定義數個評估指標
○ 視要解決的問題而定
○ 常用包含精確度、準確度、正確率...
訓練流程

物件偵測圖像辨識遇到的問題？
11
辨識模型(辨識貓狗)
貓: 90 %
狗: 10 %
貓: 15 %
狗: 85 %
貓: 42 %
狗: 58 %
貓: 51 %
狗: 49 %
貓: ?? %
狗: ?? %
假如是你會怎麼判斷？是貓？是狗？

物件偵測要回答的問題位置、類別
12
- Photo by Anusha Barwa on Unsplash (2019)
貓狗
模型1 51% 49%
模型2 42% 58%
模型3 ... ...
圖像辨識結果
● 不是結果問題
● 辨識模型不適用於此
● 需要物件偵測模型
高
度
1. 物件位置
(Location)
寬度 2.物件類別
(Classification)

物件偵測的演算法策略假如是你來找貓和狗的物件，你會怎麼做？
13
Q1. 物件位置(Location)
Q2. 物件類別(Classification)
- Photo by Rebekah Howell on Unsplash (2019)
- Photo by Priscilla Du Preez on Unsplash (2019)
- Photo by Lisa H on Unsplash (2019)

Divide-and-Conquer 切割成小問題分別解決，舉 Faster RCNN 例
14
步驟2-1. 辨識是貓？狗？
步驟2-2. 確認物件位置與大小
原圖步驟1. 找出可能是物件的區域

One-Shot Solution 此問題的直接解，舉 YOLO 為例
15
原圖
一次性大致找出物件的位置與其類別

YOLO 概念多個預測框、個別網格的機率
16
N 個
網格單元
(N=7)
N 個網格單元 (N=7)
物件於圖影像中具空間分布，由該區域
(網格)負責預測目標物件的類別(舉共有
20個類別)。
每個網格同時預測 N 種(以 N = 2 為例)
可能物件的位置(含寬高)及各自交疊面積比
(IOU)，推論時會取最佳(IOU 高)的一種為
結果。共有 5(x,y,w,h,iou)*2=10 個數
值。
以偵測物件的中心點決定哪個區域要負責
預測結果。

YOLO 預期結果期望模型給出的答案
17
YOLO 模型預期結果與概念[1]
7x7 網格
● 每次最多預測 98(=7x7x2) 個物件位置。
● 30 個預測值由 2 組各 5 個物件資訊
(x,y,w,h,IOU) 與 20 個類別組成。

YOLO 深度神經網路架構單一模型
18
YOLO 模型[1]
Batch Normalization
(在實作範例中使用)不使用 Dropout
- Reference[1]

使用資料與資料切割考古題與評估未來的客觀結果
19
全部資料集 (11540，單位：張圖)
訓練 (10386) 測試 (1154)
訓練 (9232) 測試 (1154)驗證 (1154)
N-Fold 交互驗證訓練最後評估
20 類別: person, bird, cat, cow, dog, horse, sheep, aeroplane, bicycle, boat, bus, car,
motorbike, train, bottle, chair, dining table, potted plant, sofa, tv/monitor

資料概述 VOC 資料集描述
20
<annotation>
<filename>2012_004331.jpg</filename>
<folder>VOC2012</folder>
<object>
<name>person</name>
<actions>
<jumping>1</jumping>
</actions>
<bndbox>
<xmax>208</xmax><xmin>102</xmin>
<ymax>230</ymax><ymin>25</ymin>
</bndbox>
<difficult>0</difficult>
<pose>Unspecified</pose>
<point></point>
</object>
<segmented>0</segmented>
<size></size>
<source>
<annotation>PASCAL VOC2012</annotation>
<database>The VOC2012 Database</database>
<image>flickr</image>
</source>
</annotation>
圖像檔案 (JPEGImages/2012_004331.jpg) 標注內容 (Annotations/2012_004331.xml)
類別資訊
位置資訊

YOLO 開源碼導讀 Jupyter NB / Colab，僅列重要函式
21
Hyperparameters - 調整多種超參數，包含學習率、訓練次數、批次大小等。
Data Preprocessing VOC2012_DataGenerator 批次資料產生器，包含圖像擴增前處理、圖像標籤轉換等。
Model
(Training/
Evaluation)
Model Building 建立深度神經網路模型，包含 yolo 與 tiny-yolo。
Loss Function 損失函數實作，定義如何更新神經網路中參數。
Metrics Function 用來評估訓練過程的客觀指標函數。
Pretrained Model 可透過轉移學習的概念，加速學習過程。
Training 開始進行模型訓練，並透過許多 callback 函式微調訓練過程。
Saving 將訓練至一階段、透過指標或結束等時間點或達到指標的模型儲存。
Inference
(Evaluation)
Non-Maximum Suppression 將多個高度重疊(IOU)的預測物件進行整合的函式。
New Metric: mAP 完整評估訓練結果並與其他演算法比較的客觀指標函數。
Detection 推論範例，應用此物件偵測模型的範例。

資料前處理資料擴增與說明資訊(位置、範圍與類別)
22
擴增處理後圖像與標籤處理
<name>person</name>
<bndbox>
<xmax>208</xmax>
<xmin>102</xmin>
<ymax>230</ymax>
<ymin>25</ymin>
</bndbox>
圖像與標籤處理
預期結果
(= 7 x 7 x 30)

建立 YOLO 模型建立高維非線性的函式
23
Batch Normalization
(在實作範例中使用)
不使用 Dropout
輸入圖卷積層處理組合 x M
Conv. layer (xN)
Batch Normal.
Relu
MaxPool
layer
全連接層
輸出結果
(= 7 x 7 x 30)
...
全連接層
Dropout

損失函數訓練的核心過程
24
定義位置的更新方式:
● 預測位置與真實位置距離差平
方和 (L2, 歐基里德距離)
● 預測物件寬高與真實寬高的根
號差平方和 (解決大小物件的
預測偏差)
定義物件預測的信心值:
● 定義有物件下的信心值等於真實物件
與預測物件的 IOU
● 無真實物件下預測則需加入懲罰值。
定義類別預測的更新方式:
● 將預測的出來的各類別機率值與真
實類別標籤做差平方和(MSS)
該網格下有真實物件，由該網格中
IOU 最大的物件負責預測。定義參數

物件偵測客觀指標 Confusion Matrix、IOU 的導入
25
IOU = =
重疊面積
所有面積
預測物件
真實物件
重疊面積=50% IOU≅0.3
重疊面積=70% IOU≅0.5
IOU 和直覺重疊面積不同
TP FP
FN TN
Pred.
True
Pos. Neg.
Pos.Neg.
Precision
=
TP/(TP+FP)
Recall =
TP/(TP+FN)
Precision 與 Recall 導入 IOU
● 視成物件偵測閥值 0.3, 判定成立 0.3
對評估結果影響為何？(IoU 也是指標原因)

轉移學習轉移知識，加速學習過程
26
任務一
已學習過辨識某
一類圖像資料庫
圖像資料集 2
任務二
辨識模型
圖像資料集 1
轉移智慧
(部分模型)
對新一類資料
進行相似任務
- CIFAR (2019), Tsung-Yi Lin (2015)

開始訓練模型學習率、過度學習、交叉驗證學習
27
let C be N (N-fold cross validation)
let b be the batch size of each training unit
let T be the iterator (iterator = all training images / b)
let parameters be hyperparamters for training a model
set images to all images in array
set labels to all labels in array
marco training be a function calculating loss value and update weights
marco metrics be are functions calculating inspection values
marco update_parameters be a function updating parameters
marco saved_model be a function saving model while condition meets
marco testing_metrics be a function used for evaluate the testing dataset
marco preprocess_images be a function used for processing images and transforming as array
marco preprocess_labels be a function used for processing labels
sub data_generator(b): array, array is float
return preprocess_images(images, b), preprocess_labels(labels, b)
sub fit_generator(images, labels, parameters, metrics): loss, metrics is float
set loss, metrics_value to training(images, labels, parameters, metrics)
return loss, metrics_value
for c (1 to C) do
do for t (1 to T) do
set images, labels to data_generator(b)
set loss, metrics_value to fit_generator(images, labels, parameters, metrics)
set parameters to update_parameters(parameters, loss)
saved_model(loss, metrics)
end for
end for
set testing_loss, testing_metrics to test_metrics(images, labels, “testing”)
圖像前處理，包含正規化、調整
大小等；標籤前處理或轉換等。
視條件來調整超參數，包含學習
率、回復參數等。
視條件儲存模型權重。(損失度
最小可能不是最佳模型)
訓練過程可能會根據超參數的
變化而重複多次。
透過測試資料評估模型。

評估訓練後模型指標導入 mAP，先談談 AP (Average Precision)
28
1
2
3
AP 就是 Precision-Recall 線底下的面積 (AUC)
- Tommy Huang
(2019) Medium

Interpolated mAP 目前主流計算方式
29
最大 precision
VOC 現行計算方式 (自2010)
mAP 計算需要注意的事
● 每個資料集計算方式不同
● 採用的 IOU 也不同

多預測框的處理導入 Non-Maximum Suppression (NMS) 處理
30
NMS 概念為消除相同類別、信心值較低且高度重疊的其
他物件 (假設 Box IoU 閥值為 0.5。)
- Tommy Huang (2019) Medium
NMS 中 IOU 閥值也必須注意

YOLO 9000 / V3 增進功能與效能的探討
32- Reference[12]- Reference[11]

YOLO 小結 One-Shot Solution 的創始演算法之一
● YOLO (You Only Look Once) 是 End-to-End 的物件偵測解決方法，為此
問題的最佳解之一。(YOLO 的演算法設計概念與人類乍看一張圖的動作類似。)
● YOLO 以整張圖作為推論基礎，能有效降低 FP，能有效區分背景與物件。
● YOLO 為單一模型的推論，不僅利於部署與訓練，更能提升推論的效率。
● YOLO 9000 在模型架構上採用許多優化傳遞方式，並使用 WordTree 解決大
量類別在傳統 softmax 計算類別機率的問題。
● YOLO 9000 導入 Anchors 設計，不僅提升物件座標精確度，更能讓網路效率
提高。
● YOLO v3 說明透過良好的骨架設計便能有效提升辨識能力。
33

SSD 整合採樣與分層萃取
34
- Reference[9]
SSD 和 YOLO 不同於將模
型下游透過數層卷積層再處
理，並在每一層透過小卷積
進行物件的預測。
此方式能有效利用特徵層取
得任意大小物件資訊，但會
產生相當多的冗餘預測框。

Deconvolutional SSD 取得細微資訊的方式
35
- Reference[10]
透過反向卷積跨域結合正向
卷積的特徵資訊，可以有效
將細微的特徵資訊保留，而
非僅留下必要特徵。

Rainbow SSD 整合更多的資訊
36
- Reference[13]
RSSD 的核心是增加更多處理後資
訊(包含反向卷積的操作等)，並將
之整合並提供給下一層進行預測。

Feature Fusion SSD 對卷積骨架的訊息強化
37
- Reference[14]
FSSD 設計概念為將所有的上中下游的卷積資訊先進行彙整，
透過 1x1 卷積、雙線性內差處理與 BN 後，再透過一般
SSD 方法接續往下萃取預測物件框。
FSSD 方式可以視為對卷積骨架處理的資訊進行強化。

SSD 介紹與中場休息 Why not take a break?
● SSD 與 YOLO 為 One-Shot Solution 的核心代表。
● SSD 透過特徵圖分層萃取方式，提供一個更有效取出不同層級與細微的物件偵
測方式。
● SSD 雖可有效萃取更完整的物件資訊，但會產生相當多的冗餘預測框。
● DSSD、RSSD、FSSD 透過補償細微資訊、整合更多處理後的資料與強化卷積骨
架訊號方式，有效提升 SSD 在準確度與精準度上的表現。
38

Faster R-CNN 架構 Divide-and-Conquer，延伸或協助分支優勢
39
輸入圖
Conv.
Layer
特徵圖
Proposals
ROIPooling Layer
FC FC
FCs
Softmax
BBox
Regressor
for each ROI
Regional
Proposal
Network
ROI Feature
Vector

Faster RCNN 核心組成
40
Region Proposal Network 與 Anchors[4]
根據辨識網路骨幹
(Backbone)
ROIPool 介紹[5]
(Mask RCNN 中用 ROIAlign 取代)

Faster R-CNN 訓練與損失函數
41
模型訓練方式
1. Alternating training.
○ 先訓練 RPN
○ 用 RPN 值訓練 Fast RCNN
2. Approximate joint training.
○ 整合模型共同訓練 (每次步驟)
○ 但 RPN 結果是逼近的
○ 目前主要的實現方式
3. Non-approximate joint training.
○ 嘗試解決 RPN 結果逼近問題
○ 透過 ROIWarping 解決
(Mask RCNN 透過 ROIAlign 解決逼近問題)
損失函數
分類上的損失
物件位置的損失

介紹 TF Object Detection API Detectron (pyTorch)
42
Hosted on Github [5]
流程與框架介紹
● 建置 Tensorflow 上 (無 Keras)
● 以 Protobuf 建立所有管線與組態
● 輸入資料標準化
○ 支援 tfrecords 為主
○ 標籤格式與定義標準化
○ 支援多種資料集及其評估指標
● 模型訓練的規格化 (model zoo)
○ 規格化多種模型的輸入與輸出
○ 自建模型 (builder prototype)
● 支援轉移訓練
● 部分支援圖像分割 (2019)
其他框架
● YOLO: Darkflow, Darknet

設計架構與流程標準化與規格化的整合
43
物件偵測模型
訓練與驗證
資料準備*
模型輸出
TensorBoard
TF Object Detection API*
模型推論
管線組態
(Pipeline.config)
透過瀏覽器觀察訓練
(http://hostname:port)
● 資料收集
● 資料前處理
● 資料集切割
● 轉換格式 (tfrecords)
* 需要準備或介入處理

Faster-RCNN 開源碼導讀 Jupyter NB / Colab，僅列重要函式
44
Environment
Settings
Installing COCO API 使用的模型原使用 COCO 資料集及其 API 進行訓練，此沿用此設計。
Protobuf Compilation 將必要的 protocol 檔案針對執行環境進行編譯。
Setup PYTHONPATH API 會使用到其他函式庫，需要設定環境及執行變數。
Data
Processing
Preparing TFRecords 準備訓練用及測試用 tfrecords。
Preparing Label Files 準備標籤與類別對應資料。
Training
Preparing Pipeline 準備訓練用的組態。
Starting Training 進行訓練的流程與步驟。
Monitoring Process 透過 Tensorboard 觀察訓練過程。
Output the Model 將訓練好的模型轉換成數種用於不同環境下進行推論的格式。
Inference
Loading Frozen Model 使用 frozen model 進行推論。
Inference 推論範例。

資料前處理 tfrecord 準備
45
標籤格式與定義標準化標籤資料與圖像資料
資料前處理與資料集切割
資料前處理 (包含正規化等)
資料集切割 (訓練、驗證等)
資料包裹或封裝 (定義標準化)
產出壓縮及數份切割資料集
利於移動與儲存的壓縮格式 (.tfrecords)
訓練與測試資料: train.tfrecords + eval.tfrecords
數份資料: train.record-00000-00002, train.record-00001-00002

Pipeline 準備與設計
46
model {
(修改模型架構組態)
}
train_config : {
(修改訓練模型使用的參數、優化器參數等)
}
train_input_reader: {
(訓練資料來源)
}
eval_config: {
}
eval_input_reader: {
(驗證資料來源、引用評估指標等)
}
Pipleline 內容Tensorflow Detection Model Zoo
● 已使用進行訓練的資料集含其指標
○ COCO-trained models
○ Kitti-trained models
○ Open Images-trained models
○ iNaturalist Species-trained models
○ AVA v2.1 trained models
● 主要實現的物件偵測演算法
○ SSD (Single Shot Multibox Detector)
○ Faster RCNN
○ Mask RCNN (包含圖像分割)
● 輸出方式
○ 以物件為基礎的方框 (Boxes)
○ 以分割為基礎的遮罩 (Masks)
● 輸出內容
○ 用於訓練用的組態 (pipeline.config)
○ 已針對特定資料集與演算法完成訓練的模型
○ 模型格式: frozen model, saved model,
checkpoint /w graph meta

開始訓練與 Tensorboard 觀察監看訓練過程的工具
47
透過 Tensorboard 觀察自定義數項變數或指標
Model
Loss
Batch
V
steps
local
folder
寫入
events
Tensorboard
監視
# 使用指令
> tensorboard --logdir “folder-path”
Tensorboard 原理與使用方式 (訓練過程)

輸出模型可直接用於推論或 API Access
48
Frozen Model
<path>/frozen_inference_graph.pb
● 序列化儲存模型。
● 儲存計算圖與模型的權重。
● 儲存成單一檔案，具有可攜性。
● 利於終端佈署。
Saved Model
<path>/saved_model.pb
<path>/variable
<path>/variable/variables.index
<path>/variable/variables.data-00000-of-00001
● Tensorflow checkpoint 包含模型的權重參數。
● SavedModel proto 包含 Tensorflow 計算圖。
● 模型架構的組態。
● 利於大量佈署與更新。
Checkpoint
<path>/model.ckpt.data-00000-of-
00001
<path>/model.ckpt.index
<path>/model.ckpt.meta
● meta 儲存計算圖、data 儲存權重、
index 儲存計算圖變數與權重對應關係
● 利於接續或再訓練
Others
<path>/events.out.tfevents.xxx
<path>/eval_0
● 用於 Tensorboard 觀察結果

Faster RCNN 推論 Pros & Cons
49
Truth (Label) Truth (Label)Prediction Prediction

結果審視沒有一招打天下的模型
● Faster RCNN 在 mAP 指標上相對 YOLO 有明顯進步。
● Faster RCNN 在物件位置的預測相對 YOLO 更為精確。
● Faster RCNN 對於小物件的位置偵測較差 (ROIPool 問題)。
● Faster RCNN 由兩個模型組成，對於推論效率相對 YOLO 較差。
● Faster RCNN 在辨識骨架上有其他選擇，有興趣可以選擇不同的架構進行轉
移訓練，並觀察評估指標的差異。
50

Mask R-CNN 增加工作分支的方式
51
- Reference[5]
- Reference[15]
ROIAlign 透過雙線
性雙插法取得特徵值，
避免小物件偵測的量
化處理造成的位置偏
差值過大。
Mask R-CNN 為 Faster
R-CNN 增加一圖像分割
的分支。在訓練時能夠
互相受益。

R-FCN 共同決議
52
- Reference[16]
以位置為概念出發的特徵圖針對不同位置的特徵進
行投票決定此物件為何
類別。
區域選擇使用與 Faster R-CNN 相同的 RPN

物件偵測演算法的進化基礎但重要的研究題目
53
物件位置及類別
Divide-and-Conquer
End-to-End
(One-shut)
RCNN
(2013)
Multiple
Feature Maps
SSD
(2016)
YOLO
(2015)
FCs
D-SSD (2017)
R-SSD (2017)
F-SSD (2018)
YOLO v2 YOLO v3
(2018)
YOLO 9000
(2016)
Fast RCNN
(2015)
Faster RCNN
(2016)
R-FCN
(2016)
Mask RCNN
(2018)
SPPNet
(2014)

物件偵測演算法抽象化
54
- Reference[14]

圖像辨識演算法的精進改善物件偵測骨架的基礎
55
更深層的網路功能更多的單元處理細微的殘差
分享他維的特徵增加更多的資訊更有效率地傳遞
+

物件偵測演算法的精進與深度學習領域發展有關
56
權重共享
+
跨越連接反向卷積
更佳區域建議取得代表性特徵
1 3
2 1
1 1
集成/投票傳遞優化
骨幹置換
+
整合上下採樣
錨框設計

精進訓練結果從頭至尾都需要考慮！
57
驗證模型
訓練流程
推論與應用
總是要注意資料問題 (列出常見的問題)
資料準備問題? 資料平衡? 樣本代表性?
模型建立與訓練是相互影響 (列出常見問題)
時間時間
梯度/變數梯度/變數
1
1e4 梯度爆炸
1
梯度消失
1e-8
不佳損失函數

精進訓練模型學習率、過度學習、交叉驗證學習
58
驗證模型
訓練流程
推論與應用
評估與驗證需視模型與問題而定 (列出常見的問題)
超參數調整是下一個戰國時代 (列出常見問題)
Precision ? IoU ? accuracy ? F1 Score?
Recall ? mAP ? perplexity ? FDR ?
優化器是一個找尋極值的函式，
優化器決定尋找極值的方式。
學習率的更新是超參數調整
中的重要一步。

推論與應用「推論」是學習的目的，相輔相成
59
解決問題
(持續演進)
更新資料
模型驗證
服務提供
服務模組化
初版訓練
資料前處理
模型再訓練
服務轉型
模型優化
- Photo by Alexandru Zdrobău on Unsplash (2019)
- Photo by Zack Dowdy on Unsplash (2019)
- Photo by Asim Z Kodappana on Unsplash (2019)
- Photo by Frida Bredesen on Unsplash (2019)
收集回饋
訓練資料實際上預測資料

推論與硬體硬體對於模型具有影響力，充滿挑戰與變化的整合
60
Reference [7] Reference [8]
暫存體
模型大小
模型複雜度
效能
背景程序
服務常駐
資料複雜度
硬體架構
使用者體驗
硬體成本
(開發模型)
平衡/交易
Hey! Siri. OK! Google.

推論與應用場景硬體是一大的挑戰，混合架構是目前的主流
61
Tensorflow
Extended
Distributed / Scalable
APIs
Data
Pipeline
Trainer
Serving Pusher
Framework
APIs
(MXNet)
Customized
Service
APIs
Tensorflo
w
Lite
Optimizer
Quantization
Model
Arch-
based
(OpenVINO,
NCNN)
Model
High-Performace Frames
Operators

機器學習發展週期軟體工程的差異
62
時間（年）
工作量
風險
工作量
P1
概念
P2
發展
P3
執行
P4
結束
軟體生命週期
瀑布式開發
迭代式開發
產品生命週期
AI 導入理想週期
AI 實際導入週期
0 10
導入期成長期成熟期衰退期
銷售量
分支化自我迭代
軟體/架構
AI

結論
● 物件偵測是圖像辨識的延伸，是深度學習用於進階圖影像分析核心技術之一。
● 物件偵測的解決方法主要分成 End-to-End 與 Divide-and-Conquer 兩類，
其代表為 Yolo 與 (Faster-) RCNN，包含其延伸演算法。
● 訓練與推論為機器學習的兩大工作，相輔相成。
● 深度學習提供一方法解決傳統難解問題，但仍處於導入期與現行開發流程需要
有更多的經驗及架構上的整合。
63
王建凱 JianKai Wang
2019/08
https://jiankaiwang.no-ip.biz
https://github.com/jiankaiwang

資料參考來源
1. Joseph Redmon, et al. (2015) You Only Look Once: Unified, Real-Time Object Detection. arXiv.
2. Visual Object Classes Challenge 2012 (VOC2012), http://host.robots.ox.ac.uk/pascal/VOC/voc2012/
3. Ross Girshick (2015) Fast R-CNN. arXiv.
4. Shaoqing Ren, Kaiming He, et al. (2016) Faster R-CNN: Towards Real-Time Object Detection with Region Proposal
Networks. arXiv.
5. RoIPooling、RoIAlign笔记 (2018) https://www.cnblogs.com/wangyong/p/8523814.html
6. Tensorflow Object Detection API (2019) https://github.com/tensorflow/models/tree/master/research/object_detection
7. Use Siri on all your Apple devices (2019) https://support.apple.com/en-us/HT204389
8. Android 7 Nougat – Google Assistant (2019) https://mcmw.abilitynet.org.uk/android-7-nougat-google-assistant
9. Wei Liu, Dragomir Anguelov, et al. (2016) SSD: Single Shot MultiBox Detector. arXiv.
10. Cheng-Yang Fu, et al. (2017) DSSD : Deconvolutional Single Shot Detector. arXiv.
11. Joseph Redmon et al. (2016) YOLO9000: Better, Faster, Stronger. arXiv.
12. Joseph Redmon et al. (2018) YOLOv3: An Incremental Improvement. arXiv.
13. Jisoo Jeong et al. (2017) Enhancement of SSD by concatenating feature maps for object detection. arXiv.
14. Zuo-Xin Li et al. (2018) FSSD: Feature Fusion Single Shot Multibox Detector. arXiv.
15. Kaiming He et al. (2018) Mask R-CNN. arXiv.
16. Jifeng Dai et al. (2016) R-FCN: Object Detection via Region-based Fully Convolutional Networks. arXiv.
64

從圖像辨識到物件偵測，進階的圖影像人工智慧 (From Image Classification to Object Detection, Advanced Deep Learning)

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Ähnlich wie 從圖像辨識到物件偵測，進階的圖影像人工智慧 (From Image Classification to Object Detection, Advanced Deep Learning)

Ähnlich wie 從圖像辨識到物件偵測，進階的圖影像人工智慧 (From Image Classification to Object Detection, Advanced Deep Learning) (20)

Mehr von Jian-Kai Wang

Mehr von Jian-Kai Wang (11)

從圖像辨識到物件偵測，進階的圖影像人工智慧 (From Image Classification to Object Detection, Advanced Deep Learning)

Hinweis der Redaktion