Math works gdlc2019

1© 2019 The MathWorks, Inc.
2019/01/17 GPU Deep Learning Community #10 19:05 – 19:25
MATLABによるDeep Learningの活用促進
~CUDAコード自動生成と活用事例ご紹介~
MathWorks Japan
シニアアプリケーションエンジニア
大塚慶太郎

3
GPUとCUDAプログラミング
Ease of programming
(expressivity, algorithmic, …)
Performance
easier
faster
MATLAB
Python
CUDA
OpenCL
C/C++
GPUは非常に強力なハードウェアですが、 … プログラミングは専門の知識が必要となります。
書き換え

4
例えば、こんなことができたら・・・
線形代数ルーチン、SAXPYの例
Scalarized MATLAB
Vectorized MATLAB
拡張性の高い言語からパフォーマンスの高い言語への自動コンパイル

5
Talk outline
▪ MATLABについて
▪ MATLABによるDeep Learning
▪ GPU CoderによるCUDAコード自動生成
– コード生成機能概要
– ディープラーニング
▪ ユーザー様事例

6
線形二次最適制御問題の解法
スタンフォード大学博士論文（１９７０）
Fortran 数千行
MATLAB® とは
複雑な事をシンプルに

7
Our Customers
▪ Millions of engineers and scientists worldwide use MATLAB and Simulink.
All of the top 10
aerospace companies2
All of the top 10
auto manufacturers1
Three of the top five
internet companies
1OICA: 2016 World Motor Vehicle Production 2PwC: Aerospace and Defense 2017 Year in Review
90,000+ business,
government, and
university sites
Millions of engineers and scientists worldwide use MATLAB and Simulink.
Our Customers

10
MATLABによるDeep Learning
試行錯誤のやりやすさ
パフォーマンスの高さ
互換性の高い容易な実装
MATLAB makes deep learning easy and accessible
他環境との
協調
実装
(マルチプラットフォーム)
生産性
向上
Deep Learning
フレームワーク
特定のドメイン
サポート

11
MATLABによるDeep Learning 生産性
向上
大規模画像データセットに対して、MATLABからシンプルにアクセス
Deep Network Designer
imageDataAugmenter('RandXReflection',true,...
'RandXTranslation', [-10 10]);
同じ画像から、異なるデータの自動生成
（反転、領域のランダムセレクトなど）

12
MATLABによるDeep Learning 生産性
向上
カスタマイズ可能な半自動Ground Truthラベリングツール

13
MATLABによるDeep Learning 他環境との
協調
ONNX
PyTorch
MATLABMXNet
Caffe2 TensorFlow
Core ML
Export
Import
実装
データ生成、
最適化
可視化、
デバッグ
Chainer
Cognitive
Toolkit

14
MATLABによるDeep Learning 実装
(マルチプラットフォーム)
Pre-trained DNN
Simpler DNN
User logic
.m
1. 学習 or
外部環境からの取り込み
Coders
TensorRT,
cuDNN
MKL-
DNN
ARM
Compute
Library
layer
ネットワーク最適化
3. コード生成
2. アプリケーション全体を
デザイン

15
GPU Coder : 高度な関数解析機能が効率の良いコード生成を実現
GPU Coder
CUDAカーネル生成
最適なメモリ配置
データ転送最小化
• ライブラリマッピング
• ループ最適化
• データ依存性解析
• データ局所性解析
• GPUメモリ配置
• データ依存性解析
• 動的メモリコピー削減
GPU
MATLABからCUDA C/C++コードを自動生成します

16
GPU Coderによる並列性解析
1. Scalarized MATLAB
(“for-all” loops)
2. Vectorized MATLAB
(math operators and library functions)
3. Composite functions in MATLAB
(maps to cuBlas, cuFFT, cuSolver, cuDNN, TensorRT)
MATLABループから
CUDAカーネルの推論
ライブラリへの置換

17
static __global__ mykernel(A, X, Y, C, n)
{
int k = getThreadIndex(N);
int t = A[k] * X[k];
C[k] = t + Y[k];
}
Loop文からCUDAカーネルへ
for k = 1:n
t = A(k) .* X(k);
C(k) = t + Y(k);
end
{ …
mykernel<<< f(n) >>>(A, X, Y, C, n);
…
}
カーネル生成カーネルサイズ計算
Y
f(n)
カーネル変数の分類
(input, output, local)
Ins: A, X, Y, n
Outs: C
Local: t, k
並列実行
可能か?
データの依存性解析
Extracting parallelism in MATLAB
1. Scalarized MATLAB (for loops)
3. Composite functions

18
MATLAB(配列利用)からのCUDAカーネル生成
output(:, 1) = (input(:, 1) – x_im) .* factor;
ループの統合
極力大きな並列ループの
作成
スカラ置換
中間変数を行列からスカラ
データへ置換
スカラ変換
ループ文への
変換
for i = 1:M
diff(i) = input(i, 1) – x_im(i);
end
for a = 1:M
output(i, 1) = diff(i) * factor(i);
end
for i = 1:M
diff(i) = input(i, 1) – x_im(i);
output(i, 1) = diff(i) * factor(i);
end
for i = 1:M
tmp = input(i, 1) – x_im(i);
output(i, 1) = tmp * factor(i);
end
Assume the following sizes:
‘output’ : M x 3
‘input’ : M x 3
‘x_im’ : M x 1
‘factor’ : M x 1
Extracting parallelism in MATLAB
1. Scalarized MATLAB (for loops)
3. Composite functions

19
GPU Coderによるデータ転送(memcpy)の最適化
A(:) = ….
C(:) = ….
for i = 1:N
….
gB = kernel1(gA);
gA = kernel2(gB);
if (some_condition)
gC = kernel3(gA, gB);
end
….
end
…. = C;
cudaMemcpy
*definitely* needed
cudaMemcpy
*not* needed
cudaMemcpy
*may be* needed
データ転送最小化のために、
• 変数毎にステータスフラグを利用して、メモリの場所をトラック
• Use-Def解析でmemcpyを挿入する箇所を決定
• 部分冗長性除去(PRE)と等価
A(:) = …
A_isDirtyOnCpu = true;
…
for i = 1:N
if (A_isDirtyOnCpu)
cudaMemcpy(gA, A);
A_isDirtyOnCpu = false;
end
gB = kernel1(gA);
gA = kernel2(gB);
if (somecondition)
gC = kernel3(gA, gB);
C_isDirtyOnGpu = true;
end
…
end
…
if (C_isDirtyOnGpu)
cudaMemcpy(C, gC);
C_isDirtyOnGpu = false;
end
… = C;
gA, gB, gCがGPU上のメモリに展開されると推測
Generated (pseudo) code

21
GPU Coder : 最適なCUDA生成のための多くの解析・変換機能
Control-flow graph
Intermediate representation
(CFG – IR)
….….
CUDA kernel
optimizations
Front – end
Traditional compiler
optimizations
MATLAB Library function mapping
Parallel loop creation
CUDA kernel creation
cudaMemcpy minimization
Shared memory mapping
CUDA code emission
Scalarization
Loop perfectization
Loop interchange
Loop fusion
Scalar replacement
Loop
optimizations

22
NVIDIA Hardware Support Package (HSP)
MATLABから直接ボードに
アクセス可能
Jetson
Drive platform
ターゲットボードの選択
ターゲットボードの
パラメータ入力
GPU Coder™

24
Single Image Inference on Titan XP using cuDNN
Intel® Xeon® CPU 3.6 GHz - NVIDIA libraries: CUDA9 - cuDNN 7
PyTorch (0.3.1)
mxNet (1.2.1)
GPU Coder (R2018b)
TensorFlow (1.8.0)

25
MATLAB GPU Coder
TensorRT Accelerates Inference Performance
TensorFlow
Intel® Xeon® CPU 3.6 GHz - NVIDIA libraries: CUDA9 - cuDNN 7 – TensorRT 3.0.4 - Frameworks: TensorFlow 1.8.0

26
自動車部品の異常検知にディープラーニングを活用：
武蔵精密工業株式会社様
※第２回AI・人工知能EXPOで検証結果を発表
ワークフロー全体の開発を目的に
MathWorksコンサルティングを活用
・画像撮影手法と前処理
・アノテーション方法、ツール作成
・学習によるモデル作成
・モデルの評価とパフォーマンス解析・可視化・改善
・CUDAコード自動生成によりJetsonに実装
自動車部品ベベルギア 130万個/月の目視検査を
ディープラーニングで自動化へ
精度向上の取り組み
・転移学習の最適な組み合わせ
(利用CNNモデル、分類器、etc)
・予測値に寄与する画像領域の推定
(Activation Map)
・複数ショットを用いた統計的精度向上
※武蔵精密工業株式会社様提供
画像撮影からGPU実装までプロトタイピング
・2018年5月末より製造現場で実証実験
・精度/速度の検証 / 対象テーマの拡大

27
ユーザー様事例 : 株式会社大林組様
山岳トンネル掘削面評価へディープラーニングを活用
▪ 地質学の専門家による判断が必要とされていた領域にディープラーニングを適用し、
素早く高精度に掘削面を評価
▪ システムをクラウド化し、タブレット等の端末からアクセス可能とすることで
どの現場でも利用可能に
大林組様プレスリリース
https://www.obayashi.co.jp/news/detail/news20170912_01.html
https://www.obayashi.co.jp/news/detail/news20181218_1.html

28
MATLABによるDeep Learning ワークフロー
Train in MATLAB
Model
importer
Model
importer
DNN
design + training
Trained
DNN
Application
logic
Application
design
組み込み機器
への実装
アプリケーション
配布
Standalone
Deployment
Coders
Compiler/MPS

29
Check Out Deep Learning in MATLAB and GPU Coder
Deep learning in MATLAB
https://www.mathworks.com/solutions/deep-learning.html
Deep learning On-Ramp : 自己学習形式、オンライントレーニング
https://jp.mathworks.com/training-schedule/deep-learning-onramp
GPU Coder
https://www.mathworks.com/products/gpu-coder.html
NVIDIA GPU Cloud(NGC)にて
MATLABイメージが利用可能

30
© 2019 The MathWorks, Inc. MATLAB and Simulink are registered trademarks of The
MathWorks, Inc. See www.mathworks.com/trademarks for a list of additional trademarks. Other
product or brand names may be trademarks or registered trademarks of their respective
holders.

Math works gdlc2019

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Ähnlich wie Math works gdlc2019

Ähnlich wie Math works gdlc2019 (20)

Mehr von Hirokuni Uchida

Mehr von Hirokuni Uchida (9)

Kürzlich hochgeladen

Kürzlich hochgeladen (10)

Math works gdlc2019