CMD2021 f01 xilinx_20210921_r1.1

© Copyright 2021 Xilinx
コンピューティングやAIの高速・低電力化
を実現するアーキテクチャと応用
2021年9月21日
ザイリンクス株式会社
データセンターグループ
堀江義弘
日本機械学会第34回計算力学講演会（CMD2021）
F01: 計算力学のための次世代計算機環境ーチップからクラウドまでー講演

本講演のトピックス
ザイリンクス社アクセラレーターカード
ユースケース、パフォーマンス
コンピューティングやAIの高速・低電力化を実現するアーキテクチャ
開発環境
まとめ
2

本社営業/サポート拠点 R&D/営業
ザイリンクスについて
1984 年設立
売上 (FY21)
31 億 5,000 万ドル
従業員数
約 5,000 人
ハイデラバード
(インド)
ダブリン
(アイルランド)
シンガポール
サンノゼ
(カリフォルニア州)
ロングモント
(コロラド州)
顧客数
6 万以上
業界初
60 以上
特許数
4,800 以上
R&D/エンジニアリングファブ/製造パートナー
3

ザイリンクスはアダプティブコンピューティングの業界リーダー
#1
FPGA-as-a-Service
Amazon クラウド
70%
業界シェア
I-IoT ビジョン
205M
量産体制のユニット
オートモーティブ
世界初
商用 NR を展開
5G 無線
#1
ロジック IC ベンダー
テスト/測定装置
#1
FPGA/SoC
航空宇宙/防衛
4

アダプティブコンピューティングの未開拓領域
3 つの大きな課題
データの爆発的増加
 ビデオおよび画像コンテンツ
 90% 非構造化
 より高いスループットとリアルタイムの演算能力が求められる
AI 時代の到来
 アプリケーションに最新のインテリジェンスが追加される
 エンドポイントからエッジ、クラウドに至るまで、あらゆる業界に浸透
 すべての場所の AI 処理を高速化する必要がある
「ムーアの法則」後のコンピューティング
 設計サイクルがイノベーションのスピードに追いつかない
 多くのアプリケーションが異なるアーキテクチャを必要としている
 アクセラレータを使用したヘテロジニアスコンピューティングの必要性が高まる
5

ASIC/ASSP/GPU
CPU 固定機能アクセラレータ適応性に優れた
ハードウェアソリューション
適応型プラットフォームの
ドメイン特化アーキテクチャ (DSA) の必要性
 SW プログラマブル、
広く利用されている
 大半のワークロードには
非効率的
 使いやすいが、柔軟性に欠ける
 NRE が高く、シリコンサイクル
が長い (ASIC)
 ドメイン固有にカスタマイズ可能
 進化する要件に迅速に対応
6

HWアダプタブルなデバイス運用可能なエンドシステム FAAS (FPGA as a Service)
アクセラレータカード
電子システムの
「チップダウン」設計
主なクラウドプロバイダー経由で
ザイリンクステクノロジを
評価および活用
さまざまな運用方法を提供
評価ボードおよびキット
7
SOM
(システムオンモジュール)

容易に利用可能
クラウドまたはオンプレミスで運用
豊富なアプリケーションライブラリ
高いパフォーマンス
高スループット、低レイテンシー
コンピュート、ネットワーク、ストレージの
アクセラレーション
適合性
最適なドメインスペシフィックアーキテクチャを実装
変容するアルゴリズムに柔軟に適合
8

ユースケース
9

アクセラレーションのおもな領域
コンピュート
HPC
AI/ML
画像処理
ストレージ
データベース
ネットワーク
SmartNIC
Fintech
10

ゲノムシーケンス分析
GTX.FPGA
1x Xilinx Alveo U200
0.67
32
46.30
CPU GPU FPGA
Number of WGS* Samples Processed in 24 hours
Dell R940
36 Core Intel
Xeon Gold
8x Nvidia V100
Analysis Pipeline: GATK Best Practice Pipeline for 30x Human WGS Variant Calling
*WGS: Whole Genome Sequencing
11

ソフトウェアプログラミングモデル - RTM ベンチマーク
Xeon Gold CPUの40倍のパフォーマンス
V100 より 34% 高いパフォーマンス
消費電力は約 1/4
V100 =182W avg, 225W peak
U280 = 40W peak
一層の最適化が可能
12
2D RTM アルゴリズム C++記述から実装
まで1人月で完了
U280
RTM = Reverse Time Migration

Oil & Gas - Realtime Subsurface Imaging using AI/ML
Performance
Increase
16x
9.6x
1X
CPU FPGA CPU FPGA
Xilinx/Quantico Analysis, QEarth running 200K-1.7M traces
Performance/$
1X
Total
Compute
Time
2Wks
6Mths
Traditional
Geostatistical
Inversion
Quantico
QearthTM
AI Inversion
FPGA
<1Day
13

疎行列ベクトル積 (spMV)
Vitis ライブラリ
14
0
1
2
3
4
5
6
7
8
Speedup
Speedup vs. V100
0
50
100
150
200
250
300
350
Speedup
Speedup vs. Intel Xeon Platinum
For each device, the mesured time is the time for executing the sparse kernel only
GPU: Nvidia V100 SXM2 16GB, CUSPARSE, CUDA 10.2
CPU: Intel(R) Xeon(R) Platinum 8268 CPU @ 2.90GHz, 2 sockets, 96 cores (using all 96 cores).
Intel MKL mkl_2020.1.217
* NNZ=Numerically Nonzero Entries in the matrix
 SuiteSparse Matrix Collection (https://sparse.tamu.edu/)
 構造工学、流体力学、熱力学、量子化学、金融モデルなど様々な
分野の現実的なアプリケーションを反映
 Alveo U280 HBM 24チャネルのデザイン
 中位のサイズの構造問題のマトリクス (NNZs* < 100K)
 Xeon Platinum 8268 と比較して最大約 292倍の処理性能
 V100 と比較して最大 7.5倍の処理性能
 大きいサイズのマトリクス
 Xeon Platinum 8268 と比較して最大約 39倍の処理性能
 V100 と比較して最大 1.2倍の処理性能 (NNZs < 300K)

JPCG Solver Implementation on Alveo U50
アルゴリズム
 倍精度 Gemvをベースとする Jacobi Preconditioned Conjugate Gradient
ベンチマーク結果
1: Alveo U50, Max power 75W, Cost $2,868
2: CPU, Intel® Xeon® CPU E5-2667 v4 @ 3.20GHz, 32 threads
3: Nvidia Tesla V100 PCIe 16GB, Max power 250W, Cost $10,000
Square
matrix
size
Time [ms] / Iteration Device Power [Watt]
U50@333MHz1 CPU2 V1003 U50@333MHz V100
1024 0.073 0.151 0.117 47 58
2048 0.2557 0.285 0.134 47 83
4096 0.9202 4.026 0.252 47 121
8192 3.405 15.209 0.705 47 155
TCO: 2.3x – 8.1x better vs GPU
15

ラインレートの高速・高圧縮アクセラレーション
0
2000
4000
6000
8000
10000
12000
14000
Throughput
(MB/s)
Throughput by Dataset
gzip Level 9 lz4 Level 1 NoLoad-U50
0
200
400
600
800
1000
1200
1400
1600
1800
Efficiency
(MB/s/core)
Efficiency (MB/s/core) by Dataset
gzip Level 9 lz4 Level 1 NoLoad-U50
Dataset NoLoad gzip (level 9) lz4 (level 1)
CR MB/s/core CR MB/s/core CR MB/s/core
petroleum 2.11 1462 2.2 5 1.97 473
seismic 1.42 1320 1.43 25 1.28 363
medical 2.24 1410 2.35 22 1.57 401
video 1.02 1020 1.02 36 1.02 484
genomics 2.01 1293 2.07 13 1.42 154
big data 2.91 914 3.53 5 2.43 292
HPC (VPIC) 1.23 1526 1.23 7.1 1.01 296
NoLoad® on Alveo U50
カード当たり入力データ 12GB/s 超える圧縮性能
性能はカード増設に比例してスケール
NoLoad® provides gzip levels of compression with better
throughput and efficiency than lz4!
16

ザイリンクス Alveo U50 - 高品質ライブビデオトランスコード
5x Alveo U50
Xilinx HEVC Very-High Quality
20x 1080p30
One Alveo U50 Server
Alveo U50 HEVC Video
Compression
x23 電力コスト
1/8 ハードウェアコスト
40x Xeon Gold
H.265 very-high quality
20x 1080p30
20x Dual CPU Servers
x20 ノード当たりのスループット
17

差別化のおもなポイント
Smart Retail Smart City Smart Hospital
Alveo U30
Video
Decoder
Image/Data
Pre-Processing
Alveo U50LV
DPU Inference Engine Day
Night
Detection
Model 1
Detection
Model 2
Classification
Model 1
Feature
Extraction
Model
DB
Post-Processing
/Database Plugins
User Applications
Streaming
1) リソースを最大限に活用
(独立したスケーラブルなワークロード)
4) ハードウェアアクセラレーション、ソフトウェア処理のためのカスタムプラグイン
2) カスタマイズ可能な低レイテンシー、
高性能のビデオ処理およびデータ
前処理
5) Design for Exchangeability (DFX) 機能
(通常) 推論実行のプラットフォームとして稼働
(推論非稼働時) (再)学習, 画像・DB処理など
3) 複数のニューラルネット
ワークを性能劣化なく動
的、同期/非同期に稼働
Model
(Re)Training
at Field
Video
Compression
/Archive
Database
ANPR*
Kria SOM
6) スケーラビリティ
エッジ～クラウド
*ANPR = Automatic Number Plate & character Recognition
18

"VersalTM"
- 業界初のACAP -
19
コンピューティングやAIの高速・低電力化を実現

CPUs ハードウェアが固定の
アクセラレータ
ASICs/ASSPs/GPUs
FPGAs
現在までのソリューション
20

ACAP
21

daptive
ompute
cceleration
latform
A
C
A
P
22

Adaptive
Adaptive Hardware for
Domain-Specific Applications
23

Adaptive
Compute Acceleration
Adaptable
Engines
Scalar
Engines
Intelligent
Engines
24

Platform
ENABLING:
データサイエンティスト
ソフトウェア開発者
ハードウェア開発者
開発ツール
HW/SW ライブラリ
ランタイムスタック
SW プログラマブル
シリコンインフラ
25

VERSATILE
UNIVERSAL
27

VERSATILE
UNIVERSAL
28

さまざまな開発者に向けた環境
多様なアプリケーション
ヘテロジニアスアクセラレーション
業界世界初のACAP
7nm
FinFET
29

スカラー
プロセッシングエンジン
Arm Cortex-A72
アプリケーションプロセッサ
Arm Cortex-R5
リアルタイムプロセッサ
プラットフォームマネジメントコントローラ
31

アダプタブル
ハードウェアエンジン
再構築されさらなる高密度化を実現する
HWファブリック
階層メモリのカスタム設計を実現
動的リコンフィグレーションを従来の8倍
高速化
32

インテリジェント
エンジン
DSP エンジン
高精度な浮動小数点演算と低レイテンシー
データパスのカスタム化と細やかな制御
AI エンジン
高スループット、低レイテンシー、高い消費電力効率
AI 推論や高度な信号処理に最適なアーキテクチャ
33

AI エンジン
AI 推論および高度な信号処理に最適化
>1GHz VLIW/SIMD ベクタープロセッサコア
密結合されたメモリを有する大量なコアを相互接続
アダプタブルハードウェアエンジンと密接続することで
メモリ階層のカスタムデザインを実現
ソフトウェアプログラマブル、ライブラリを提供
ハードウェアの適合性
VECTOR
CORE
MEMORY
VECTOR
CORE
MEMORY
VECTOR
CORE
MEMORY
VECTOR
CORE
MEMORY
34

AI Engine
˃ 1+ GHz VLIW / SIMD AI Engine
˃ 32-bit Scalar RISC processor
˃ Fixed and floating point vector units
Interconnect
˃ AXI-MM switch for config, control, and debug
˃ AXI-Stream crossbar for routing N/E/S/W streams
Data Memory
˃ Each AI Engine can access 4 Memory
Modules (N,E,S,W) as one contiguous memory
AI Engine Tile
MEM
I/F
Data
Memory
(32KB)
AXIS West
AXIM
Switch
MEM
I/F
AXIS East
MEM I/F
MM2S
DMA
MEM
I/F
Program
Memory
(16KB)
Instruction
Fetch &
Decode
Unit
Load & Store
Address
Generation
Units
32b Scalar
RISC Unit
Fixed Point
512b SIMD
Vector Unit
Floating Point
512b SIMD
Vector Unit
Stall
Handler
Control,
Debug
& Trace
Accumulator
Stream FIFO
Scalar
Register Files
Vector Register Files
S2MM
DMA
AXIS
North
AXIS
South
Core Mem Access
AXI Stream
AXI MM
Accumulator Stream
AI Engine Array
Single Tile
Architecture Manual am009
36

AI エンジン: マルチコアコンピュートに革新をもたらす
core
L0
core
L0
core
L0
Block 0
L1
core
L0
core
L0
core
L0
Block 1
L1
L2
DRAM
D0
D0
D0
D0
固定した共有接続
• システム性能を制約
• レイテンシーの大幅なばらつき
データの複製
• レイテンシーの大幅な増大とばらつき
• 帯域不足による性能制約
• 消費電力の大幅な増大
従来のマルチコア
(キャッシュアーキテクチャ)
MEM
AI
Engine
MEM
AI
Engine
MEM
AI
Engine
AI
Engine
MEM
AI
Engine
AI
Engine
MEM
AI
Engine
MEM
MEM
AI エンジンアレイ
(インテリジェントエンジン)
専用の接続
• システム性能の制約
とならない
• レイテンシーは短く、
かつ確定的
密結合したメモリを分散
• キャッシュミスは無し
• レイテンシーは短く、かつ確定的
• システム性能の制約とならない高帯域
• 全体のメモリサイズを節約
• 消費電力を大幅に低減
AI
Engine
MEM
MEM
AI
Engine
38

クラウドエッジ
ネットワーク
ワイヤードワイヤレスエンドポイント
AI の適用
データセンター
Versal が適用される代表的なマーケット
39

HBM
Series
Prime
Series
Premium
Series
AI Core
Series
AI RF
Series
AI Edge
Series
40

Versal AIEによる推論のパフォーマンス
1. Xeon Platinum 8124 Skylake、c5.18xlarge AWS インスタンス上で測定。Intel Caffe: https://github.com/intel/caffe
2. V100 のデータは Nvidia 社『Deep Learning Platform, Giant Leaps in Performance and Efficiency for AI Services』より引用
GoogLeNet の性能 (レイテンシ <7ms)
= ハイエンド CPU の 43 倍
GoogLeNet のリアルタイム性能 (レイテンシ <2ms)
= ハイエンド GPU (Nvidia) の 8 倍
出典 ; "Versal: The First Adaptive Compute Acceleration Platform (ACAP)" WP505 (日 / 英)
41

VCK5000 : データセンターアクセラレーション開発キット
https://japan.xilinx.com/products/boards-and-kits/vck5000.html
カードの仕様 VCK5000
デバイス VC1902
INT8 TOPs (ピーク) 145
サイズ FHFL デュアルスロット
メモリ
DDR メモリ容量 DDR4-3200 16 GB
DDR 総帯域幅 102.4 GB/s
内部 SRAM の容量 23.9 MB
内部 SRAM の総帯域幅 23.5 TB/s
インターフェイス
PCI Express Gen3 x 16 / Gen4 x 8
ネットワークインターフェイス 2x QSFP28 (100GbE)
ロジックリソース
ルックアップテーブル (LUT) 899,840
消費電力と熱
最大総消費電力 225W
42
二種類のSKUを提供する開発キット (商用デプロイメントはサポートしておりません)
 (汎用版) Vitis™ 設計フローをサポート - AI、HPC、データセンターなど
 (AI 限定版) 期間限定キャンペーン中 (購入条件あり、詳細はお問合せ)
 Vitis AI 1.4 with 2 DPU variants (384 vs 288 AIE cores)
 52+ model zoo support
 Natural Language (BERT) & and RNN T demo
 MLPerf submission ResNet 50 demo ( better than T4)
 Getting started with Vitis AI & Board user guide documentation
MLCommons v1.0 Data Center Closed Division Server ResNet-50

開発環境
43

イノベーションの過程
ハードウェアの革新
世界初の FPGA
1984
ソフトウェアの革新
業界初のハイエンドな
大容量 FPGA
1999 業界初の SerDes と
プロセッサを統合した
FPGA
2001
業界初の 3D FPGA/
Zynq デュアル
HW プログラマブル SoC
2012
業界初の Zynq
MPSoC & RFSoC
2017
VERSAL
業界初の ACAP
(Adaptive Compute
Acceleration Platform)
2019
ALVEO
データセンター
アクセラレータカード
2018
次世代開発環境ソフトウェア開発者向け
プログラマビリティ
C、C++、
System C コードが
有効
1984 現在
統合ソフトウェア
プラットフォーム
ALVEO SN10xx
業界初の構成可能な
適応型 SmartNIC
2021
KRIA SOM
適応型システム
オンモジュール
(SOM) と
業界初の
エンベデッド
アプリストア
44

Build
Deploy
UltraScale/UltraScale+
Zynq
エンベデッド
開発者
エンタープライズ
アプリケーション開発者
エンタープライズ
インフラ開発者
データ & AI
サイエンティスト
すべての開発者が多様なプラットフォーム向けに開発可能な統合環境

Build
Run
System level
Simulation
ARM
Compiler
AIE
Compiler
Vitis HLS
Host CPU
System Compile/Link
Xilinx Runtime Library (XRT)
Analyze
ホスト
アプリケーションライブラリ
アプリケーション
C/C++
ターゲット
プラットフォーム
RTL
Debug & Performance
Analysis
包括的な開発環境を提供
(2020年4月～)

オープンソースのアクセラレーションライブラリ
利用可能な400以上の最適化された無償ライブラリ
Vision &
Image
Finance Data Analytics &
Database
Data Management Data Security
ドメイン・スペシフィックライブラリ
Math Linear Algebra Statistics DSP Data Compression
汎用ライブラリ
Matrix Decomposition
(Cholesky, LU, etc.)
Linear Solvers
Eigenvalue Solvers
BLAS, HPC, etc.
amax, asum, copy,
gbmv, scal, swap,
trmv, sparse, etc.
GEMM
Random Num Gen
Brownian Bridge Trans
Heston Model
Black-Scholes
Interpolations
Others
Monte-Carlo
Box-Meuller Trans
Probability Density
Binomial Tree
Markov Chain
filters, FFT/IFFT, etc.
lz4 Comp/Decomp
Huffman Enc/Dec
Snappy Comp/Decomp
GZip, etc.
AI

48
オープンソースのアクセラレーションライブラリ
利用可能な400以上の最適化された無償ライブラリ https://japan.xilinx.com/products/design-tools/vitis/vitis-libraries.html
Xilinx App Store

DNN Processing Unit (DPU)
Direct Model Compilation
Minutes of Compile Times
MIN HRS
AI Model
Adaptive
Vitis Platform
Vitis AI
From Model to Implementation in Minutes
*
* Coming Soon

ご参考
Vitis™
Vitis™ 統合ソフトウェアプラットフォーム (Alveoユーザーは無償)
VitisTM AI
VitisTMビデオ解析 SDK (VVAS)
Vitis™ アクセラレーションライブラリ
2021アダプティブコンピューティングチャレンジ
Alveo™ カード
ALVEOTMアクセラレータカード
Alveo U200 & U250 (ビデオ)
AlveoでのVitis アプリケーションアクセラレーション開発 (ビデオ)
Versal™ ACAP
Versal ACAP
Introducing the Versal Premium ACAP (ビデオ)
Versal ACAP: AI Engine (ビデオ)
SOM
および
評価ボード
評価ボード
Kria ; System on Modules (SOM)
ボードとキットの付属品
50
Xilinx Adapt カンファレンス (100+のセッション)
9月開催英語版オンデマンド配信中
11月中旬より数回に分けて日本語版開催予定

FPGA/ACAPはアダプタブルなアクセラレーションを実現
SW プログラマブル
HW アダプタブル
フレキシビリティ
スループットとレイテンシー
消費電力効率
CPU
(Sequential)
GPU
(Parallel)
Custom ASIC
FPGA/ACAP
AI
Engines
51

Building the Adaptable,
Intelligent World
Xilinx Mission

Thank You

CMD2021 f01 xilinx_20210921_r1.1

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Ähnlich wie CMD2021 f01 xilinx_20210921_r1.1

Ähnlich wie CMD2021 f01 xilinx_20210921_r1.1 (20)

CMD2021 f01 xilinx_20210921_r1.1