SlideShare ist ein Scribd-Unternehmen logo
1 von 49
Downloaden Sie, um offline zu lesen
© Copyright 2021 Xilinx
コンピューティングやAIの高速・低電力化
を実現するアーキテクチャと応用
2021年9月21日
ザイリンクス株式会社
データセンターグループ
堀江義弘
日本機械学会 第34回計算力学講演会(CMD2021)
F01: 計算力学のための次世代計算機環境ーチップからクラウドまでー 講演
© Copyright 2021 Xilinx
本講演のトピックス
ザイリンクス社 アクセラレーターカード
ユースケース、パフォーマンス
コンピューティングやAIの高速・低電力化を実現するアーキテクチャ
開発環境
まとめ
2
© Copyright 2021 Xilinx
本社 営業/サポート拠点 R&D/営業
ザイリンクスについて
1984 年設立
売上 (FY21)
31 億 5,000 万ドル
従業員数
約 5,000 人
ハイデラバード
(インド)
ダブリン
(アイルランド)
シンガポール
サンノゼ
(カリフォルニア州)
ロングモント
(コロラド州)
顧客数
6 万以上
業界初
60 以上
特許数
4,800 以上
R&D/エンジニアリング ファブ/製造パートナー
3
© Copyright 2021 Xilinx
ザイリンクスはアダプティブ コンピューティングの業界リーダー
#1
FPGA-as-a-Service
Amazon クラウド
70%
業界シェア
I-IoT ビジョン
205M
量産体制のユニット
オートモーティブ
世界初
商用 NR を展開
5G 無線
#1
ロジック IC ベンダー
テスト/測定装置
#1
FPGA/SoC
航空宇宙/防衛
4
© Copyright 2021 Xilinx
アダプティブ コンピューティングの未開拓領域
3 つの大きな課題
データの爆発的増加
 ビデオおよび画像コンテンツ
 90% 非構造化
 より高いスループットとリアルタイムの演算能力が求められる
AI 時代の到来
 アプリケーションに最新のインテリジェンスが追加される
 エンドポイントからエッジ、クラウドに至るまで、あらゆる業界に浸透
 すべての場所の AI 処理を高速化する必要がある
「ムーアの法則」後のコンピューティング
 設計サイクルがイノベーションのスピードに追いつかない
 多くのアプリケーションが異なるアーキテクチャを必要としている
 アクセラレータを使用したヘテロジニアス コンピューティングの必要性が高まる
5
© Copyright 2021 Xilinx
ASIC/ASSP/GPU
CPU 固定機能アクセラレータ 適応性に優れた
ハードウェア ソリューション
適応型プラットフォームの
ドメイン特化アーキテクチャ (DSA) の必要性
 SW プログラマブル、
広く利用されている
 大半のワークロードには
非効率的
 使いやすいが、柔軟性に欠ける
 NRE が高く、シリコン サイクル
が長い (ASIC)
 ドメイン固有にカスタマイズ可能
 進化する要件に迅速に対応
6
© Copyright 2021 Xilinx
HWアダプタブルなデバイス 運用可能なエンドシステム FAAS (FPGA as a Service)
アクセラレータ カード
電子システムの
「チップダウン」設計
主なクラウド プロバイダー経由で
ザイリンクス テクノロジを
評価 および 活用
さまざまな運用方法を提供
評価ボード および キット
7
SOM
(システム オン モジュール)
© Copyright 2021 Xilinx
容易に利用可能
クラウド または オンプレミスで運用
豊富なアプリケーションライブラリ
高いパフォーマンス
高スループット、低レイテンシー
コンピュート、ネットワーク、ストレージの
アクセラレーション
適合性
最適なドメインスペシフィックアーキテクチャを実装
変容するアルゴリズムに柔軟に適合
8
© Copyright 2021 Xilinx
ユースケース
9
© Copyright 2021 Xilinx
アクセラレーションのおもな領域
コンピュート
HPC
AI/ML
画像処理
ストレージ
データベース
ネットワーク
SmartNIC
Fintech
10
© Copyright 2021 Xilinx
ゲノム シーケンス分析
GTX.FPGA
1x Xilinx Alveo U200
0.67
32
46.30
CPU GPU FPGA
Number of WGS* Samples Processed in 24 hours
Dell R940
36 Core Intel
Xeon Gold
8x Nvidia V100
Analysis Pipeline: GATK Best Practice Pipeline for 30x Human WGS Variant Calling
*WGS: Whole Genome Sequencing
11
© Copyright 2021 Xilinx
ソフトウェア プログラミング モデル - RTM ベンチマーク
Xeon Gold CPUの40倍のパフォーマンス
V100 より 34% 高いパフォーマンス
消費電力は約 1/4
V100 =182W avg, 225W peak
U280 = 40W peak
一層の最適化が可能
12
2D RTM アルゴリズム C++記述から実装
まで1人月で完了
U280
RTM = Reverse Time Migration
© Copyright 2021 Xilinx
Oil & Gas - Realtime Subsurface Imaging using AI/ML
Performance
Increase
16x
9.6x
1X
CPU FPGA CPU FPGA
Xilinx/Quantico Analysis, QEarth running 200K-1.7M traces
Performance/$
1X
Total
Compute
Time
2Wks
6Mths
Traditional
Geostatistical
Inversion
Quantico
QearthTM
AI Inversion
FPGA
<1Day
13
© Copyright 2021 Xilinx
疎行列ベクトル積 (spMV)
Vitis ライブラリ
14
0
1
2
3
4
5
6
7
8
Speedup
Speedup vs. V100
0
50
100
150
200
250
300
350
Speedup
Speedup vs. Intel Xeon Platinum
For each device, the mesured time is the time for executing the sparse kernel only
GPU: Nvidia V100 SXM2 16GB, CUSPARSE, CUDA 10.2
CPU: Intel(R) Xeon(R) Platinum 8268 CPU @ 2.90GHz, 2 sockets, 96 cores (using all 96 cores).
Intel MKL mkl_2020.1.217
* NNZ=Numerically Nonzero Entries in the matrix
 SuiteSparse Matrix Collection (https://sparse.tamu.edu/)
 構造工学、流体力学、熱力学、量子化学、金融モデルなど 様々な
分野の現実的なアプリケーションを反映
 Alveo U280 HBM 24チャネルのデザイン
 中位のサイズの構造問題のマトリクス (NNZs* < 100K)
 Xeon Platinum 8268 と比較して最大 約 292倍の処理性能
 V100 と比較して 最大 7.5倍の処理性能
 大きいサイズのマトリクス
 Xeon Platinum 8268 と比較して最大 約 39倍の処理性能
 V100 と比較して 最大 1.2倍の処理性能 (NNZs < 300K)
© Copyright 2021 Xilinx
JPCG Solver Implementation on Alveo U50
アルゴリズム
 倍精度 Gemvをベースとする Jacobi Preconditioned Conjugate Gradient
ベンチマーク結果
1: Alveo U50, Max power 75W, Cost $2,868
2: CPU, Intel® Xeon® CPU E5-2667 v4 @ 3.20GHz, 32 threads
3: Nvidia Tesla V100 PCIe 16GB, Max power 250W, Cost $10,000
Square
matrix
size
Time [ms] / Iteration Device Power [Watt]
U50@333MHz1 CPU2 V1003 U50@333MHz V100
1024 0.073 0.151 0.117 47 58
2048 0.2557 0.285 0.134 47 83
4096 0.9202 4.026 0.252 47 121
8192 3.405 15.209 0.705 47 155
TCO: 2.3x – 8.1x better vs GPU
15
© Copyright 2021 Xilinx
ラインレートの高速・高圧縮アクセラレーション
0
2000
4000
6000
8000
10000
12000
14000
Throughput
(MB/s)
Throughput by Dataset
gzip Level 9 lz4 Level 1 NoLoad-U50
0
200
400
600
800
1000
1200
1400
1600
1800
Efficiency
(MB/s/core)
Efficiency (MB/s/core) by Dataset
gzip Level 9 lz4 Level 1 NoLoad-U50
Dataset NoLoad gzip (level 9) lz4 (level 1)
CR MB/s/core CR MB/s/core CR MB/s/core
petroleum 2.11 1462 2.2 5 1.97 473
seismic 1.42 1320 1.43 25 1.28 363
medical 2.24 1410 2.35 22 1.57 401
video 1.02 1020 1.02 36 1.02 484
genomics 2.01 1293 2.07 13 1.42 154
big data 2.91 914 3.53 5 2.43 292
HPC (VPIC) 1.23 1526 1.23 7.1 1.01 296
NoLoad® on Alveo U50
カード当たり 入力データ 12GB/s 超える圧縮性能
性能はカード増設に比例してスケール
NoLoad® provides gzip levels of compression with better
throughput and efficiency than lz4!
16
© Copyright 2021 Xilinx
ザイリンクス Alveo U50 - 高品質ライブビデオ トランスコード
5x Alveo U50
Xilinx HEVC Very-High Quality
20x 1080p30
One Alveo U50 Server
Alveo U50 HEVC Video
Compression
x23 電力コスト
1/8 ハードウェアコスト
40x Xeon Gold
H.265 very-high quality
20x 1080p30
20x Dual CPU Servers
x20 ノード当たりのスループット
17
© Copyright 2021 Xilinx
差別化のおもなポイント
Smart Retail Smart City Smart Hospital
Alveo U30
Video
Decoder
Image/Data
Pre-Processing
Alveo U50LV
DPU Inference Engine Day
Night
Detection
Model 1
Detection
Model 2
Classification
Model 1
Feature
Extraction
Model
DB
Post-Processing
/Database Plugins
User Applications
Streaming
1) リソースを最大限に活用
(独立したスケーラブルなワークロード)
4) ハードウェアアクセラレーション、ソフトウェア処理のためのカスタムプラグイン
2) カスタマイズ可能な低レイテンシー、
高性能のビデオ処理およびデータ
前処理
5) Design for Exchangeability (DFX) 機能
(通常) 推論実行のプラットフォームとして稼働
(推論非稼働時) (再)学習, 画像・DB処理など
3) 複数のニューラルネット
ワークを性能劣化なく動
的、同期/非同期に稼働
Model
(Re)Training
at Field
Video
Compression
/Archive
Database
ANPR*
Kria SOM
6) スケーラビリティ
エッジ~クラウド
*ANPR = Automatic Number Plate & character Recognition
18
© Copyright 2021 Xilinx
"VersalTM"
- 業界初のACAP -
19
コンピューティングやAIの高速・低電力化を実現
© Copyright 2020 Xilinx
CPUs ハードウェアが固定の
アクセラレータ
ASICs/ASSPs/GPUs
FPGAs
現在までのソリューション
20
© Copyright 2021 Xilinx
ACAP
21
© Copyright 2021 Xilinx
daptive
ompute
cceleration
latform
A
C
A
P
22
© Copyright 2021 Xilinx
Adaptive
Adaptive Hardware for
Domain-Specific Applications
23
© Copyright 2021 Xilinx
Adaptive
Compute Acceleration
Adaptable
Engines
Scalar
Engines
Intelligent
Engines
24
© Copyright 2021 Xilinx
Platform
ENABLING:
データサイエンティスト
ソフトウェア開発者
ハードウェア開発者
開発ツール
HW/SW ライブラリ
ランタイム スタック
SW プログラマブル
シリコン インフラ
25
© Copyright 2020 Xilinx
VERSATILE
UNIVERSAL
27
© Copyright 2020 Xilinx
VERSATILE
UNIVERSAL
28
© Copyright 2020 Xilinx
さまざまな開発者に向けた環境
多様なアプリケーション
ヘテロジニアス アクセラレーション
業界世界初のACAP
7nm
FinFET
29
© Copyright 2021 Xilinx
スカラー
プロセッシングエンジン
Arm Cortex-A72
アプリケーション プロセッサ
Arm Cortex-R5
リアルタイム プロセッサ
プラットフォームマネジメントコントローラ
31
© Copyright 2021 Xilinx
アダプタブル
ハードウェアエンジン
再構築されさらなる高密度化を実現する
HWファブリック
階層メモリのカスタム設計を実現
動的リコンフィグレーションを従来の8倍
高速化
32
© Copyright 2021 Xilinx
インテリジェント
エンジン
DSP エンジン
高精度な浮動小数点演算と低レイテンシー
データパスのカスタム化と細やかな制御
AI エンジン
高スループット、低レイテンシー、高い消費電力効率
AI 推論 や 高度な信号処理に最適なアーキテクチャ
33
© Copyright 2021 Xilinx
AI エンジン
AI 推論 および 高度な信号処理に最適化
>1GHz VLIW/SIMD ベクタープロセッサコア
密結合されたメモリを有する大量なコアを相互接続
アダプタブルハードウェアエンジンと密接続することで
メモリ階層のカスタムデザインを実現
ソフトウェアプログラマブル、ライブラリを提供
ハードウェアの適合性
VECTOR
CORE
MEMORY
VECTOR
CORE
MEMORY
VECTOR
CORE
MEMORY
VECTOR
CORE
MEMORY
34
© Copyright 2021 Xilinx
AI Engine
˃ 1+ GHz VLIW / SIMD AI Engine
˃ 32-bit Scalar RISC processor
˃ Fixed and floating point vector units
Interconnect
˃ AXI-MM switch for config, control, and debug
˃ AXI-Stream crossbar for routing N/E/S/W streams
Data Memory
˃ Each AI Engine can access 4 Memory
Modules (N,E,S,W) as one contiguous memory
AI Engine Tile
MEM
I/F
Data
Memory
(32KB)
AXIS West
AXIM
Switch
MEM
I/F
AXIS East
MEM I/F
MM2S
DMA
MEM
I/F
Program
Memory
(16KB)
Instruction
Fetch &
Decode
Unit
Load & Store
Address
Generation
Units
32b Scalar
RISC Unit
Fixed Point
512b SIMD
Vector Unit
Floating Point
512b SIMD
Vector Unit
Stall
Handler
Control,
Debug
& Trace
Accumulator
Stream FIFO
Scalar
Register Files
Vector Register Files
S2MM
DMA
AXIS
North
AXIS
South
Core Mem Access
AXI Stream
AXI MM
Accumulator Stream
AI Engine Array
Single Tile
Architecture Manual am009
36
© Copyright 2021 Xilinx
AI エンジン: マルチコア コンピュート に革新をもたらす
core
L0
core
L0
core
L0
Block 0
L1
core
L0
core
L0
core
L0
Block 1
L1
L2
DRAM
D0
D0
D0
D0
固定した共有接続
• システム性能を制約
• レイテンシーの大幅なばらつき
データの複製
• レイテンシーの大幅な増大とばらつき
• 帯域不足による性能制約
• 消費電力の大幅な増大
従来のマルチコア
(キャッシュ アーキテクチャ)
MEM
AI
Engine
MEM
AI
Engine
MEM
AI
Engine
AI
Engine
MEM
AI
Engine
AI
Engine
MEM
AI
Engine
MEM
MEM
AI エンジン アレイ
(インテリジェント エンジン)
専用の接続
• システム性能の制約
とならない
• レイテンシーは短く、
かつ確定的
密結合したメモリを分散
• キャッシュミスは無し
• レイテンシーは短く、かつ確定的
• システム性能の制約とならない高帯域
• 全体のメモリサイズを節約
• 消費電力を大幅に低減
AI
Engine
MEM
MEM
AI
Engine
38
© Copyright 2021 Xilinx
クラウド エッジ
ネットワーク
ワイヤード ワイヤレス エンドポイント
AI の適用
データセンター
Versal が適用される代表的なマーケット
39
© Copyright 2021 Xilinx
HBM
Series
Prime
Series
Premium
Series
AI Core
Series
AI RF
Series
AI Edge
Series
40
© Copyright 2021 Xilinx
Versal AIEによる推論のパフォーマンス
1. Xeon Platinum 8124 Skylake、c5.18xlarge AWS インスタンス上で測定。Intel Caffe: https://github.com/intel/caffe
2. V100 のデータは Nvidia 社『Deep Learning Platform, Giant Leaps in Performance and Efficiency for AI Services』より引用
GoogLeNet の性能 (レイテンシ <7ms)
= ハイエンド CPU の 43 倍
GoogLeNet のリアルタイム性能 (レイテンシ <2ms)
= ハイエンド GPU (Nvidia) の 8 倍
出典 ; "Versal: The First Adaptive Compute Acceleration Platform (ACAP)" WP505 (日 / 英)
41
© Copyright 2021 Xilinx
VCK5000 : データセンター アクセラレーション 開発キット
https://japan.xilinx.com/products/boards-and-kits/vck5000.html
カードの仕様 VCK5000
デバイス VC1902
INT8 TOPs (ピーク) 145
サイズ FHFL デュアルスロット
メモリ
DDR メモリ容量 DDR4-3200 16 GB
DDR 総帯域幅 102.4 GB/s
内部 SRAM の容量 23.9 MB
内部 SRAM の総帯域幅 23.5 TB/s
インターフェイス
PCI Express Gen3 x 16 / Gen4 x 8
ネットワーク インターフェイス 2x QSFP28 (100GbE)
ロジック リソース
ルックアップ テーブル (LUT) 899,840
消費電力と熱
最大総消費電力 225W
42
二種類のSKUを提供する開発キット (商用デプロイメントはサポートしておりません)
 (汎用版) Vitis™ 設計フローをサポート - AI、HPC、データセンターなど
 (AI 限定版) 期間限定キャンペーン中 (購入条件あり、詳細はお問合せ)
 Vitis AI 1.4 with 2 DPU variants (384 vs 288 AIE cores)
 52+ model zoo support
 Natural Language (BERT) & and RNN T demo
 MLPerf submission ResNet 50 demo ( better than T4)
 Getting started with Vitis AI & Board user guide documentation
MLCommons v1.0 Data Center Closed Division Server ResNet-50
© Copyright 2021 Xilinx
開発環境
43
© Copyright 2021 Xilinx
イノベーションの過程
ハードウェアの革新
世界初の FPGA
1984
ソフトウェアの革新
業界初のハイエンドな
大容量 FPGA
1999 業界初の SerDes と
プロセッサを統合した
FPGA
2001
業界初の 3D FPGA/
Zynq デュアル
HW プログラマブル SoC
2012
業界初の Zynq
MPSoC & RFSoC
2017
VERSAL
業界初の ACAP
(Adaptive Compute
Acceleration Platform)
2019
ALVEO
データセンター
アクセラレータ カード
2018
次世代開発環境 ソフトウェア開発者向け
プログラマビリティ
C、C++、
System C コードが
有効
1984 現在
統合ソフトウェア
プラットフォーム
ALVEO SN10xx
業界初の構成可能な
適応型 SmartNIC
2021
KRIA SOM
適応型システム
オン モジュール
(SOM) と
業界初の
エンベデッド
アプリ ストア
44
© Copyright 2021 Xilinx
Build
Deploy
UltraScale/UltraScale+
Zynq
エンベデッド
開発者
エンタープライズ
アプリケーション開発者
エンタープライズ
インフラ開発者
データ & AI
サイエンティスト
すべての開発者が多様なプラットフォーム向けに開発可能な統合環境
© Copyright 2021 Xilinx
Build
Run
System level
Simulation
ARM
Compiler
AIE
Compiler
Vitis HLS
Host CPU
System Compile/Link
Xilinx Runtime Library (XRT)
Analyze
ホスト
アプリケーション ライブラリ
アプリケーション
C/C++
ターゲット
プラットフォーム
RTL
Debug & Performance
Analysis
包括的な開発環境を提供
(2020年4月~)
© Copyright 2021 Xilinx
オープンソースのアクセラレーション ライブラリ
利用可能な400以上の最適化された無償ライブラリ
Vision &
Image
Finance Data Analytics &
Database
Data Management Data Security
ドメイン・スペシフィック ライブラリ
Math Linear Algebra Statistics DSP Data Compression
汎用ライブラリ
Matrix Decomposition
(Cholesky, LU, etc.)
Linear Solvers
Eigenvalue Solvers
BLAS, HPC, etc.
amax, asum, copy,
gbmv, scal, swap,
trmv, sparse, etc.
GEMM
Random Num Gen
Brownian Bridge Trans
Heston Model
Black-Scholes
Interpolations
Others
Monte-Carlo
Box-Meuller Trans
Probability Density
Binomial Tree
Markov Chain
filters, FFT/IFFT, etc.
lz4 Comp/Decomp
Huffman Enc/Dec
Snappy Comp/Decomp
GZip, etc.
AI
© Copyright 2021 Xilinx
48
オープンソースのアクセラレーション ライブラリ
利用可能な400以上の最適化された無償ライブラリ https://japan.xilinx.com/products/design-tools/vitis/vitis-libraries.html
Xilinx App Store
© Copyright 2020 Xilinx
DNN Processing Unit (DPU)
Direct Model Compilation
Minutes of Compile Times
MIN HRS
AI Model
Adaptive
Vitis Platform
Vitis AI
From Model to Implementation in Minutes
*
* Coming Soon
© Copyright 2021 Xilinx
ご参考
Vitis™
Vitis™ 統合ソフトウェアプラットフォーム (Alveoユーザーは無償)
VitisTM AI
VitisTMビデオ解析 SDK (VVAS)
Vitis™ アクセラレーションライブラリ
2021アダプティブコンピューティングチャレンジ
Alveo™ カード
ALVEOTMアクセラレータカード
Alveo U200 & U250 (ビデオ)
AlveoでのVitis アプリケーションアクセラレーション開発 (ビデオ)
Versal™ ACAP
Versal ACAP
Introducing the Versal Premium ACAP (ビデオ)
Versal ACAP: AI Engine (ビデオ)
SOM
および
評価ボード
評価ボード
Kria ; System on Modules (SOM)
ボードとキットの付属品
50
Xilinx Adapt カンファレンス (100+のセッション)
9月開催英語版オンデマンド配信中
11月中旬より数回に分けて日本語版開催予定
© Copyright 2021 Xilinx
FPGA/ACAPはアダプタブルなアクセラレーションを実現
SW プログラマブル
HW アダプタブル
フレキシビリティ
スループットとレイテンシー
消費電力効率
CPU
(Sequential)
GPU
(Parallel)
Custom ASIC
FPGA/ACAP
AI
Engines
51
© Copyright 2021 Xilinx
Building the Adaptable,
Intelligent World
Xilinx Mission
© Copyright 2021 Xilinx
Thank You

Weitere ähnliche Inhalte

Was ist angesagt?

ARM CPUにおけるSIMDを用いた高速計算入門
ARM CPUにおけるSIMDを用いた高速計算入門ARM CPUにおけるSIMDを用いた高速計算入門
ARM CPUにおけるSIMDを用いた高速計算入門Fixstars Corporation
 
高速シリアル通信を支える技術
高速シリアル通信を支える技術高速シリアル通信を支える技術
高速シリアル通信を支える技術Natsutani Minoru
 
Abstracts of FPGA2017 papers (Temporary Version)
Abstracts of FPGA2017 papers (Temporary Version)Abstracts of FPGA2017 papers (Temporary Version)
Abstracts of FPGA2017 papers (Temporary Version)Takefumi MIYOSHI
 
NVIDIA 最近の動向
NVIDIA 最近の動向NVIDIA 最近の動向
NVIDIA 最近の動向NVIDIA Japan
 
FPGAによる津波シミュレーション -- GPUを超える高性能計算の手法
FPGAによる津波シミュレーション -- GPUを超える高性能計算の手法FPGAによる津波シミュレーション -- GPUを超える高性能計算の手法
FPGAによる津波シミュレーション -- GPUを超える高性能計算の手法Kentaro Sano
 
Chainer で Tensor コア (fp16) を使いこなす
Chainer で Tensor コア (fp16) を使いこなすChainer で Tensor コア (fp16) を使いこなす
Chainer で Tensor コア (fp16) を使いこなすNVIDIA Japan
 
NVIDIA deep learning最新情報in沖縄
NVIDIA deep learning最新情報in沖縄NVIDIA deep learning最新情報in沖縄
NVIDIA deep learning最新情報in沖縄Tak Izaki
 
TensorRT Inference Serverではじめる、 高性能な推論サーバ構築
TensorRT Inference Serverではじめる、 高性能な推論サーバ構築TensorRT Inference Serverではじめる、 高性能な推論サーバ構築
TensorRT Inference Serverではじめる、 高性能な推論サーバ構築NVIDIA Japan
 
FPGA・リコンフィギャラブルシステム研究の最新動向
FPGA・リコンフィギャラブルシステム研究の最新動向FPGA・リコンフィギャラブルシステム研究の最新動向
FPGA・リコンフィギャラブルシステム研究の最新動向Shinya Takamaeda-Y
 
20170421 tensor flowusergroup
20170421 tensor flowusergroup20170421 tensor flowusergroup
20170421 tensor flowusergroupManaMurakami1
 
An Introduction of DNN Compression Technology and Hardware Acceleration on FPGA
An Introduction of DNN Compression Technology and Hardware Acceleration on FPGAAn Introduction of DNN Compression Technology and Hardware Acceleration on FPGA
An Introduction of DNN Compression Technology and Hardware Acceleration on FPGALeapMind Inc
 
DLLAB Engineer Days:AIチームが履歴やリソース管理で疲弊してたので開発基盤作ってOSS化した話
DLLAB Engineer Days:AIチームが履歴やリソース管理で疲弊してたので開発基盤作ってOSS化した話DLLAB Engineer Days:AIチームが履歴やリソース管理で疲弊してたので開発基盤作ってOSS化した話
DLLAB Engineer Days:AIチームが履歴やリソース管理で疲弊してたので開発基盤作ってOSS化した話Kamonohashi
 
FPGAによる大規模データ処理の高速化
FPGAによる大規模データ処理の高速化FPGAによる大規模データ処理の高速化
FPGAによる大規模データ処理の高速化Kazunori Sato
 
量子コンピュータ時代の製造業におけるDXセミナー~生産工程効率化に向けた新たなご提案~
量子コンピュータ時代の製造業におけるDXセミナー~生産工程効率化に向けた新たなご提案~量子コンピュータ時代の製造業におけるDXセミナー~生産工程効率化に向けた新たなご提案~
量子コンピュータ時代の製造業におけるDXセミナー~生産工程効率化に向けた新たなご提案~Fixstars Corporation
 
PCCC20 富士通株式会社「未来を引き寄せる力 スーパーコンピュータ」
PCCC20 富士通株式会社「未来を引き寄せる力 スーパーコンピュータ」PCCC20 富士通株式会社「未来を引き寄せる力 スーパーコンピュータ」
PCCC20 富士通株式会社「未来を引き寄せる力 スーパーコンピュータ」PC Cluster Consortium
 
GTC 2020 発表内容まとめ
GTC 2020 発表内容まとめGTC 2020 発表内容まとめ
GTC 2020 発表内容まとめAya Owosekun
 
CPU / GPU高速化セミナー!性能モデルの理論と実践:理論編
CPU / GPU高速化セミナー!性能モデルの理論と実践:理論編CPU / GPU高速化セミナー!性能モデルの理論と実践:理論編
CPU / GPU高速化セミナー!性能モデルの理論と実践:理論編Fixstars Corporation
 
DGX-2 を取り巻く GPU 最新技術情報
DGX-2 を取り巻く GPU 最新技術情報DGX-2 を取り巻く GPU 最新技術情報
DGX-2 を取り巻く GPU 最新技術情報NVIDIA Japan
 
【A-1】AIを支えるGPUコンピューティングの今
【A-1】AIを支えるGPUコンピューティングの今【A-1】AIを支えるGPUコンピューティングの今
【A-1】AIを支えるGPUコンピューティングの今Developers Summit
 

Was ist angesagt? (20)

ARM CPUにおけるSIMDを用いた高速計算入門
ARM CPUにおけるSIMDを用いた高速計算入門ARM CPUにおけるSIMDを用いた高速計算入門
ARM CPUにおけるSIMDを用いた高速計算入門
 
高速シリアル通信を支える技術
高速シリアル通信を支える技術高速シリアル通信を支える技術
高速シリアル通信を支える技術
 
ICD/CPSY 201412
ICD/CPSY 201412ICD/CPSY 201412
ICD/CPSY 201412
 
Abstracts of FPGA2017 papers (Temporary Version)
Abstracts of FPGA2017 papers (Temporary Version)Abstracts of FPGA2017 papers (Temporary Version)
Abstracts of FPGA2017 papers (Temporary Version)
 
NVIDIA 最近の動向
NVIDIA 最近の動向NVIDIA 最近の動向
NVIDIA 最近の動向
 
FPGAによる津波シミュレーション -- GPUを超える高性能計算の手法
FPGAによる津波シミュレーション -- GPUを超える高性能計算の手法FPGAによる津波シミュレーション -- GPUを超える高性能計算の手法
FPGAによる津波シミュレーション -- GPUを超える高性能計算の手法
 
Chainer で Tensor コア (fp16) を使いこなす
Chainer で Tensor コア (fp16) を使いこなすChainer で Tensor コア (fp16) を使いこなす
Chainer で Tensor コア (fp16) を使いこなす
 
NVIDIA deep learning最新情報in沖縄
NVIDIA deep learning最新情報in沖縄NVIDIA deep learning最新情報in沖縄
NVIDIA deep learning最新情報in沖縄
 
TensorRT Inference Serverではじめる、 高性能な推論サーバ構築
TensorRT Inference Serverではじめる、 高性能な推論サーバ構築TensorRT Inference Serverではじめる、 高性能な推論サーバ構築
TensorRT Inference Serverではじめる、 高性能な推論サーバ構築
 
FPGA・リコンフィギャラブルシステム研究の最新動向
FPGA・リコンフィギャラブルシステム研究の最新動向FPGA・リコンフィギャラブルシステム研究の最新動向
FPGA・リコンフィギャラブルシステム研究の最新動向
 
20170421 tensor flowusergroup
20170421 tensor flowusergroup20170421 tensor flowusergroup
20170421 tensor flowusergroup
 
An Introduction of DNN Compression Technology and Hardware Acceleration on FPGA
An Introduction of DNN Compression Technology and Hardware Acceleration on FPGAAn Introduction of DNN Compression Technology and Hardware Acceleration on FPGA
An Introduction of DNN Compression Technology and Hardware Acceleration on FPGA
 
DLLAB Engineer Days:AIチームが履歴やリソース管理で疲弊してたので開発基盤作ってOSS化した話
DLLAB Engineer Days:AIチームが履歴やリソース管理で疲弊してたので開発基盤作ってOSS化した話DLLAB Engineer Days:AIチームが履歴やリソース管理で疲弊してたので開発基盤作ってOSS化した話
DLLAB Engineer Days:AIチームが履歴やリソース管理で疲弊してたので開発基盤作ってOSS化した話
 
FPGAによる大規模データ処理の高速化
FPGAによる大規模データ処理の高速化FPGAによる大規模データ処理の高速化
FPGAによる大規模データ処理の高速化
 
量子コンピュータ時代の製造業におけるDXセミナー~生産工程効率化に向けた新たなご提案~
量子コンピュータ時代の製造業におけるDXセミナー~生産工程効率化に向けた新たなご提案~量子コンピュータ時代の製造業におけるDXセミナー~生産工程効率化に向けた新たなご提案~
量子コンピュータ時代の製造業におけるDXセミナー~生産工程効率化に向けた新たなご提案~
 
PCCC20 富士通株式会社「未来を引き寄せる力 スーパーコンピュータ」
PCCC20 富士通株式会社「未来を引き寄せる力 スーパーコンピュータ」PCCC20 富士通株式会社「未来を引き寄せる力 スーパーコンピュータ」
PCCC20 富士通株式会社「未来を引き寄せる力 スーパーコンピュータ」
 
GTC 2020 発表内容まとめ
GTC 2020 発表内容まとめGTC 2020 発表内容まとめ
GTC 2020 発表内容まとめ
 
CPU / GPU高速化セミナー!性能モデルの理論と実践:理論編
CPU / GPU高速化セミナー!性能モデルの理論と実践:理論編CPU / GPU高速化セミナー!性能モデルの理論と実践:理論編
CPU / GPU高速化セミナー!性能モデルの理論と実践:理論編
 
DGX-2 を取り巻く GPU 最新技術情報
DGX-2 を取り巻く GPU 最新技術情報DGX-2 を取り巻く GPU 最新技術情報
DGX-2 を取り巻く GPU 最新技術情報
 
【A-1】AIを支えるGPUコンピューティングの今
【A-1】AIを支えるGPUコンピューティングの今【A-1】AIを支えるGPUコンピューティングの今
【A-1】AIを支えるGPUコンピューティングの今
 

Ähnlich wie CMD2021 f01 xilinx_20210921_r1.1

AMD_Xilinx_AI_VCK5000_20220602R1.pdf
AMD_Xilinx_AI_VCK5000_20220602R1.pdfAMD_Xilinx_AI_VCK5000_20220602R1.pdf
AMD_Xilinx_AI_VCK5000_20220602R1.pdf直久 住川
 
GTC 2020 発表内容まとめ
GTC 2020 発表内容まとめGTC 2020 発表内容まとめ
GTC 2020 発表内容まとめNVIDIA Japan
 
Dell emc vx rail for champions club v1 0
Dell emc vx rail for champions club v1 0Dell emc vx rail for champions club v1 0
Dell emc vx rail for champions club v1 0VxRail ChampionClub
 
ACRi panel_discussion_xilinx_hayashida_rev1.0
ACRi panel_discussion_xilinx_hayashida_rev1.0ACRi panel_discussion_xilinx_hayashida_rev1.0
ACRi panel_discussion_xilinx_hayashida_rev1.0直久 住川
 
Dell emc highperformancevirtualinfracommunitymeetup_20180621publish
Dell emc highperformancevirtualinfracommunitymeetup_20180621publishDell emc highperformancevirtualinfracommunitymeetup_20180621publish
Dell emc highperformancevirtualinfracommunitymeetup_20180621publishMakoto Ono
 
【たぶん日本初導入!】Azure Stack Hub with GPUの性能と機能紹介
【たぶん日本初導入!】Azure Stack Hub with GPUの性能と機能紹介【たぶん日本初導入!】Azure Stack Hub with GPUの性能と機能紹介
【たぶん日本初導入!】Azure Stack Hub with GPUの性能と機能紹介NTT Communications Technology Development
 
Nutanix@Open Source Conference 2015 Hiroshima
Nutanix@Open Source Conference 2015 HiroshimaNutanix@Open Source Conference 2015 Hiroshima
Nutanix@Open Source Conference 2015 HiroshimaSatoshi Shimazaki
 
Vitisのご紹介とAmazon EC2 F1体験デモ
Vitisのご紹介とAmazon EC2 F1体験デモVitisのご紹介とAmazon EC2 F1体験デモ
Vitisのご紹介とAmazon EC2 F1体験デモJun Ando
 
【GridDB入門】 IoT、そしてサイバー・フィジカル・システムを支える オープンソースデータベース GridDB ~ こだわりの理由と実現方法のポイント
【GridDB入門】 IoT、そしてサイバー・フィジカル・システムを支える オープンソースデータベース GridDB ~ こだわりの理由と実現方法のポイント【GridDB入門】 IoT、そしてサイバー・フィジカル・システムを支える オープンソースデータベース GridDB ~ こだわりの理由と実現方法のポイント
【GridDB入門】 IoT、そしてサイバー・フィジカル・システムを支える オープンソースデータベース GridDB ~ こだわりの理由と実現方法のポイントgriddb
 
[Modern Cloud Day Tokyo 2019] Oracle Cloud Infrastructure 基本サービス入門(1) - Netwo...
[Modern Cloud Day Tokyo 2019] Oracle Cloud Infrastructure 基本サービス入門(1) - Netwo...[Modern Cloud Day Tokyo 2019] Oracle Cloud Infrastructure 基本サービス入門(1) - Netwo...
[Modern Cloud Day Tokyo 2019] Oracle Cloud Infrastructure 基本サービス入門(1) - Netwo...オラクルエンジニア通信
 
Azure Stack HCI OS で HCI を構築してみた!(手順付)
Azure Stack HCI OS で HCI を構築してみた!(手順付)Azure Stack HCI OS で HCI を構築してみた!(手順付)
Azure Stack HCI OS で HCI を構築してみた!(手順付)Tomoya Katayama
 
NUCで始めるVMware Tanzu
NUCで始めるVMware TanzuNUCで始めるVMware Tanzu
NUCで始めるVMware TanzuHirotaka Sato
 
DeNA private cloud のその後 - OpenStack最新情報セミナー(2017年3月)
DeNA private cloud のその後 - OpenStack最新情報セミナー(2017年3月)DeNA private cloud のその後 - OpenStack最新情報セミナー(2017年3月)
DeNA private cloud のその後 - OpenStack最新情報セミナー(2017年3月)VirtualTech Japan Inc.
 
TEE (Trusted Execution Environment)は第二の仮想化技術になるか?
TEE (Trusted Execution Environment)は第二の仮想化技術になるか?TEE (Trusted Execution Environment)は第二の仮想化技術になるか?
TEE (Trusted Execution Environment)は第二の仮想化技術になるか?Kuniyasu Suzaki
 
[INSIGHT OUT 2011] A12 ひとつのデータベース技術では生き残れない part1 カラムナーデータベース(Shinkubo)
[INSIGHT OUT 2011] A12 ひとつのデータベース技術では生き残れない part1 カラムナーデータベース(Shinkubo)[INSIGHT OUT 2011] A12 ひとつのデータベース技術では生き残れない part1 カラムナーデータベース(Shinkubo)
[INSIGHT OUT 2011] A12 ひとつのデータベース技術では生き残れない part1 カラムナーデータベース(Shinkubo)Insight Technology, Inc.
 
Oracle Database / Exadata Cloud 技術情報(Oracle Cloudウェビナーシリーズ: 2020年7月9日)
Oracle Database / Exadata Cloud 技術情報(Oracle Cloudウェビナーシリーズ: 2020年7月9日)Oracle Database / Exadata Cloud 技術情報(Oracle Cloudウェビナーシリーズ: 2020年7月9日)
Oracle Database / Exadata Cloud 技術情報(Oracle Cloudウェビナーシリーズ: 2020年7月9日)オラクルエンジニア通信
 
JETSON 最新情報 & 自動外観検査事例紹介
JETSON 最新情報 & 自動外観検査事例紹介JETSON 最新情報 & 自動外観検査事例紹介
JETSON 最新情報 & 自動外観検査事例紹介NVIDIA Japan
 
ITProExpo 2014: 次世代ユニファイド コンピューティングシステム ~ Cisco UCS M シリーズ~
ITProExpo 2014: 次世代ユニファイド コンピューティングシステム ~ Cisco UCS M シリーズ~ITProExpo 2014: 次世代ユニファイド コンピューティングシステム ~ Cisco UCS M シリーズ~
ITProExpo 2014: 次世代ユニファイド コンピューティングシステム ~ Cisco UCS M シリーズ~シスコシステムズ合同会社
 

Ähnlich wie CMD2021 f01 xilinx_20210921_r1.1 (20)

AMD_Xilinx_AI_VCK5000_20220602R1.pdf
AMD_Xilinx_AI_VCK5000_20220602R1.pdfAMD_Xilinx_AI_VCK5000_20220602R1.pdf
AMD_Xilinx_AI_VCK5000_20220602R1.pdf
 
GTC 2020 発表内容まとめ
GTC 2020 発表内容まとめGTC 2020 発表内容まとめ
GTC 2020 発表内容まとめ
 
Dell emc vx rail for champions club v1 0
Dell emc vx rail for champions club v1 0Dell emc vx rail for champions club v1 0
Dell emc vx rail for champions club v1 0
 
ACRi panel_discussion_xilinx_hayashida_rev1.0
ACRi panel_discussion_xilinx_hayashida_rev1.0ACRi panel_discussion_xilinx_hayashida_rev1.0
ACRi panel_discussion_xilinx_hayashida_rev1.0
 
Dell emc highperformancevirtualinfracommunitymeetup_20180621publish
Dell emc highperformancevirtualinfracommunitymeetup_20180621publishDell emc highperformancevirtualinfracommunitymeetup_20180621publish
Dell emc highperformancevirtualinfracommunitymeetup_20180621publish
 
【たぶん日本初導入!】Azure Stack Hub with GPUの性能と機能紹介
【たぶん日本初導入!】Azure Stack Hub with GPUの性能と機能紹介【たぶん日本初導入!】Azure Stack Hub with GPUの性能と機能紹介
【たぶん日本初導入!】Azure Stack Hub with GPUの性能と機能紹介
 
Nutanix@Open Source Conference 2015 Hiroshima
Nutanix@Open Source Conference 2015 HiroshimaNutanix@Open Source Conference 2015 Hiroshima
Nutanix@Open Source Conference 2015 Hiroshima
 
Vitisのご紹介とAmazon EC2 F1体験デモ
Vitisのご紹介とAmazon EC2 F1体験デモVitisのご紹介とAmazon EC2 F1体験デモ
Vitisのご紹介とAmazon EC2 F1体験デモ
 
【GridDB入門】 IoT、そしてサイバー・フィジカル・システムを支える オープンソースデータベース GridDB ~ こだわりの理由と実現方法のポイント
【GridDB入門】 IoT、そしてサイバー・フィジカル・システムを支える オープンソースデータベース GridDB ~ こだわりの理由と実現方法のポイント【GridDB入門】 IoT、そしてサイバー・フィジカル・システムを支える オープンソースデータベース GridDB ~ こだわりの理由と実現方法のポイント
【GridDB入門】 IoT、そしてサイバー・フィジカル・システムを支える オープンソースデータベース GridDB ~ こだわりの理由と実現方法のポイント
 
[Modern Cloud Day Tokyo 2019] Oracle Cloud Infrastructure 基本サービス入門(1) - Netwo...
[Modern Cloud Day Tokyo 2019] Oracle Cloud Infrastructure 基本サービス入門(1) - Netwo...[Modern Cloud Day Tokyo 2019] Oracle Cloud Infrastructure 基本サービス入門(1) - Netwo...
[Modern Cloud Day Tokyo 2019] Oracle Cloud Infrastructure 基本サービス入門(1) - Netwo...
 
Azure Stack HCI OS で HCI を構築してみた!(手順付)
Azure Stack HCI OS で HCI を構築してみた!(手順付)Azure Stack HCI OS で HCI を構築してみた!(手順付)
Azure Stack HCI OS で HCI を構築してみた!(手順付)
 
NUCで始めるVMware Tanzu
NUCで始めるVMware TanzuNUCで始めるVMware Tanzu
NUCで始めるVMware Tanzu
 
第15回「インテル® Xeon® プロセッサー E5 ファミリー 新登場!」(2012/03/22 on しすなま!) ②IBM資料
第15回「インテル® Xeon® プロセッサー E5 ファミリー 新登場!」(2012/03/22 on しすなま!) ②IBM資料第15回「インテル® Xeon® プロセッサー E5 ファミリー 新登場!」(2012/03/22 on しすなま!) ②IBM資料
第15回「インテル® Xeon® プロセッサー E5 ファミリー 新登場!」(2012/03/22 on しすなま!) ②IBM資料
 
Cmc cmd slim
Cmc cmd slimCmc cmd slim
Cmc cmd slim
 
DeNA private cloud のその後 - OpenStack最新情報セミナー(2017年3月)
DeNA private cloud のその後 - OpenStack最新情報セミナー(2017年3月)DeNA private cloud のその後 - OpenStack最新情報セミナー(2017年3月)
DeNA private cloud のその後 - OpenStack最新情報セミナー(2017年3月)
 
TEE (Trusted Execution Environment)は第二の仮想化技術になるか?
TEE (Trusted Execution Environment)は第二の仮想化技術になるか?TEE (Trusted Execution Environment)は第二の仮想化技術になるか?
TEE (Trusted Execution Environment)は第二の仮想化技術になるか?
 
[INSIGHT OUT 2011] A12 ひとつのデータベース技術では生き残れない part1 カラムナーデータベース(Shinkubo)
[INSIGHT OUT 2011] A12 ひとつのデータベース技術では生き残れない part1 カラムナーデータベース(Shinkubo)[INSIGHT OUT 2011] A12 ひとつのデータベース技術では生き残れない part1 カラムナーデータベース(Shinkubo)
[INSIGHT OUT 2011] A12 ひとつのデータベース技術では生き残れない part1 カラムナーデータベース(Shinkubo)
 
Oracle Database / Exadata Cloud 技術情報(Oracle Cloudウェビナーシリーズ: 2020年7月9日)
Oracle Database / Exadata Cloud 技術情報(Oracle Cloudウェビナーシリーズ: 2020年7月9日)Oracle Database / Exadata Cloud 技術情報(Oracle Cloudウェビナーシリーズ: 2020年7月9日)
Oracle Database / Exadata Cloud 技術情報(Oracle Cloudウェビナーシリーズ: 2020年7月9日)
 
JETSON 最新情報 & 自動外観検査事例紹介
JETSON 最新情報 & 自動外観検査事例紹介JETSON 最新情報 & 自動外観検査事例紹介
JETSON 最新情報 & 自動外観検査事例紹介
 
ITProExpo 2014: 次世代ユニファイド コンピューティングシステム ~ Cisco UCS M シリーズ~
ITProExpo 2014: 次世代ユニファイド コンピューティングシステム ~ Cisco UCS M シリーズ~ITProExpo 2014: 次世代ユニファイド コンピューティングシステム ~ Cisco UCS M シリーズ~
ITProExpo 2014: 次世代ユニファイド コンピューティングシステム ~ Cisco UCS M シリーズ~
 

CMD2021 f01 xilinx_20210921_r1.1

  • 1. © Copyright 2021 Xilinx コンピューティングやAIの高速・低電力化 を実現するアーキテクチャと応用 2021年9月21日 ザイリンクス株式会社 データセンターグループ 堀江義弘 日本機械学会 第34回計算力学講演会(CMD2021) F01: 計算力学のための次世代計算機環境ーチップからクラウドまでー 講演
  • 2. © Copyright 2021 Xilinx 本講演のトピックス ザイリンクス社 アクセラレーターカード ユースケース、パフォーマンス コンピューティングやAIの高速・低電力化を実現するアーキテクチャ 開発環境 まとめ 2
  • 3. © Copyright 2021 Xilinx 本社 営業/サポート拠点 R&D/営業 ザイリンクスについて 1984 年設立 売上 (FY21) 31 億 5,000 万ドル 従業員数 約 5,000 人 ハイデラバード (インド) ダブリン (アイルランド) シンガポール サンノゼ (カリフォルニア州) ロングモント (コロラド州) 顧客数 6 万以上 業界初 60 以上 特許数 4,800 以上 R&D/エンジニアリング ファブ/製造パートナー 3
  • 4. © Copyright 2021 Xilinx ザイリンクスはアダプティブ コンピューティングの業界リーダー #1 FPGA-as-a-Service Amazon クラウド 70% 業界シェア I-IoT ビジョン 205M 量産体制のユニット オートモーティブ 世界初 商用 NR を展開 5G 無線 #1 ロジック IC ベンダー テスト/測定装置 #1 FPGA/SoC 航空宇宙/防衛 4
  • 5. © Copyright 2021 Xilinx アダプティブ コンピューティングの未開拓領域 3 つの大きな課題 データの爆発的増加  ビデオおよび画像コンテンツ  90% 非構造化  より高いスループットとリアルタイムの演算能力が求められる AI 時代の到来  アプリケーションに最新のインテリジェンスが追加される  エンドポイントからエッジ、クラウドに至るまで、あらゆる業界に浸透  すべての場所の AI 処理を高速化する必要がある 「ムーアの法則」後のコンピューティング  設計サイクルがイノベーションのスピードに追いつかない  多くのアプリケーションが異なるアーキテクチャを必要としている  アクセラレータを使用したヘテロジニアス コンピューティングの必要性が高まる 5
  • 6. © Copyright 2021 Xilinx ASIC/ASSP/GPU CPU 固定機能アクセラレータ 適応性に優れた ハードウェア ソリューション 適応型プラットフォームの ドメイン特化アーキテクチャ (DSA) の必要性  SW プログラマブル、 広く利用されている  大半のワークロードには 非効率的  使いやすいが、柔軟性に欠ける  NRE が高く、シリコン サイクル が長い (ASIC)  ドメイン固有にカスタマイズ可能  進化する要件に迅速に対応 6
  • 7. © Copyright 2021 Xilinx HWアダプタブルなデバイス 運用可能なエンドシステム FAAS (FPGA as a Service) アクセラレータ カード 電子システムの 「チップダウン」設計 主なクラウド プロバイダー経由で ザイリンクス テクノロジを 評価 および 活用 さまざまな運用方法を提供 評価ボード および キット 7 SOM (システム オン モジュール)
  • 8. © Copyright 2021 Xilinx 容易に利用可能 クラウド または オンプレミスで運用 豊富なアプリケーションライブラリ 高いパフォーマンス 高スループット、低レイテンシー コンピュート、ネットワーク、ストレージの アクセラレーション 適合性 最適なドメインスペシフィックアーキテクチャを実装 変容するアルゴリズムに柔軟に適合 8
  • 9. © Copyright 2021 Xilinx ユースケース 9
  • 10. © Copyright 2021 Xilinx アクセラレーションのおもな領域 コンピュート HPC AI/ML 画像処理 ストレージ データベース ネットワーク SmartNIC Fintech 10
  • 11. © Copyright 2021 Xilinx ゲノム シーケンス分析 GTX.FPGA 1x Xilinx Alveo U200 0.67 32 46.30 CPU GPU FPGA Number of WGS* Samples Processed in 24 hours Dell R940 36 Core Intel Xeon Gold 8x Nvidia V100 Analysis Pipeline: GATK Best Practice Pipeline for 30x Human WGS Variant Calling *WGS: Whole Genome Sequencing 11
  • 12. © Copyright 2021 Xilinx ソフトウェア プログラミング モデル - RTM ベンチマーク Xeon Gold CPUの40倍のパフォーマンス V100 より 34% 高いパフォーマンス 消費電力は約 1/4 V100 =182W avg, 225W peak U280 = 40W peak 一層の最適化が可能 12 2D RTM アルゴリズム C++記述から実装 まで1人月で完了 U280 RTM = Reverse Time Migration
  • 13. © Copyright 2021 Xilinx Oil & Gas - Realtime Subsurface Imaging using AI/ML Performance Increase 16x 9.6x 1X CPU FPGA CPU FPGA Xilinx/Quantico Analysis, QEarth running 200K-1.7M traces Performance/$ 1X Total Compute Time 2Wks 6Mths Traditional Geostatistical Inversion Quantico QearthTM AI Inversion FPGA <1Day 13
  • 14. © Copyright 2021 Xilinx 疎行列ベクトル積 (spMV) Vitis ライブラリ 14 0 1 2 3 4 5 6 7 8 Speedup Speedup vs. V100 0 50 100 150 200 250 300 350 Speedup Speedup vs. Intel Xeon Platinum For each device, the mesured time is the time for executing the sparse kernel only GPU: Nvidia V100 SXM2 16GB, CUSPARSE, CUDA 10.2 CPU: Intel(R) Xeon(R) Platinum 8268 CPU @ 2.90GHz, 2 sockets, 96 cores (using all 96 cores). Intel MKL mkl_2020.1.217 * NNZ=Numerically Nonzero Entries in the matrix  SuiteSparse Matrix Collection (https://sparse.tamu.edu/)  構造工学、流体力学、熱力学、量子化学、金融モデルなど 様々な 分野の現実的なアプリケーションを反映  Alveo U280 HBM 24チャネルのデザイン  中位のサイズの構造問題のマトリクス (NNZs* < 100K)  Xeon Platinum 8268 と比較して最大 約 292倍の処理性能  V100 と比較して 最大 7.5倍の処理性能  大きいサイズのマトリクス  Xeon Platinum 8268 と比較して最大 約 39倍の処理性能  V100 と比較して 最大 1.2倍の処理性能 (NNZs < 300K)
  • 15. © Copyright 2021 Xilinx JPCG Solver Implementation on Alveo U50 アルゴリズム  倍精度 Gemvをベースとする Jacobi Preconditioned Conjugate Gradient ベンチマーク結果 1: Alveo U50, Max power 75W, Cost $2,868 2: CPU, Intel® Xeon® CPU E5-2667 v4 @ 3.20GHz, 32 threads 3: Nvidia Tesla V100 PCIe 16GB, Max power 250W, Cost $10,000 Square matrix size Time [ms] / Iteration Device Power [Watt] U50@333MHz1 CPU2 V1003 U50@333MHz V100 1024 0.073 0.151 0.117 47 58 2048 0.2557 0.285 0.134 47 83 4096 0.9202 4.026 0.252 47 121 8192 3.405 15.209 0.705 47 155 TCO: 2.3x – 8.1x better vs GPU 15
  • 16. © Copyright 2021 Xilinx ラインレートの高速・高圧縮アクセラレーション 0 2000 4000 6000 8000 10000 12000 14000 Throughput (MB/s) Throughput by Dataset gzip Level 9 lz4 Level 1 NoLoad-U50 0 200 400 600 800 1000 1200 1400 1600 1800 Efficiency (MB/s/core) Efficiency (MB/s/core) by Dataset gzip Level 9 lz4 Level 1 NoLoad-U50 Dataset NoLoad gzip (level 9) lz4 (level 1) CR MB/s/core CR MB/s/core CR MB/s/core petroleum 2.11 1462 2.2 5 1.97 473 seismic 1.42 1320 1.43 25 1.28 363 medical 2.24 1410 2.35 22 1.57 401 video 1.02 1020 1.02 36 1.02 484 genomics 2.01 1293 2.07 13 1.42 154 big data 2.91 914 3.53 5 2.43 292 HPC (VPIC) 1.23 1526 1.23 7.1 1.01 296 NoLoad® on Alveo U50 カード当たり 入力データ 12GB/s 超える圧縮性能 性能はカード増設に比例してスケール NoLoad® provides gzip levels of compression with better throughput and efficiency than lz4! 16
  • 17. © Copyright 2021 Xilinx ザイリンクス Alveo U50 - 高品質ライブビデオ トランスコード 5x Alveo U50 Xilinx HEVC Very-High Quality 20x 1080p30 One Alveo U50 Server Alveo U50 HEVC Video Compression x23 電力コスト 1/8 ハードウェアコスト 40x Xeon Gold H.265 very-high quality 20x 1080p30 20x Dual CPU Servers x20 ノード当たりのスループット 17
  • 18. © Copyright 2021 Xilinx 差別化のおもなポイント Smart Retail Smart City Smart Hospital Alveo U30 Video Decoder Image/Data Pre-Processing Alveo U50LV DPU Inference Engine Day Night Detection Model 1 Detection Model 2 Classification Model 1 Feature Extraction Model DB Post-Processing /Database Plugins User Applications Streaming 1) リソースを最大限に活用 (独立したスケーラブルなワークロード) 4) ハードウェアアクセラレーション、ソフトウェア処理のためのカスタムプラグイン 2) カスタマイズ可能な低レイテンシー、 高性能のビデオ処理およびデータ 前処理 5) Design for Exchangeability (DFX) 機能 (通常) 推論実行のプラットフォームとして稼働 (推論非稼働時) (再)学習, 画像・DB処理など 3) 複数のニューラルネット ワークを性能劣化なく動 的、同期/非同期に稼働 Model (Re)Training at Field Video Compression /Archive Database ANPR* Kria SOM 6) スケーラビリティ エッジ~クラウド *ANPR = Automatic Number Plate & character Recognition 18
  • 19. © Copyright 2021 Xilinx "VersalTM" - 業界初のACAP - 19 コンピューティングやAIの高速・低電力化を実現
  • 20. © Copyright 2020 Xilinx CPUs ハードウェアが固定の アクセラレータ ASICs/ASSPs/GPUs FPGAs 現在までのソリューション 20
  • 21. © Copyright 2021 Xilinx ACAP 21
  • 22. © Copyright 2021 Xilinx daptive ompute cceleration latform A C A P 22
  • 23. © Copyright 2021 Xilinx Adaptive Adaptive Hardware for Domain-Specific Applications 23
  • 24. © Copyright 2021 Xilinx Adaptive Compute Acceleration Adaptable Engines Scalar Engines Intelligent Engines 24
  • 25. © Copyright 2021 Xilinx Platform ENABLING: データサイエンティスト ソフトウェア開発者 ハードウェア開発者 開発ツール HW/SW ライブラリ ランタイム スタック SW プログラマブル シリコン インフラ 25
  • 26. © Copyright 2020 Xilinx VERSATILE UNIVERSAL 27
  • 27. © Copyright 2020 Xilinx VERSATILE UNIVERSAL 28
  • 28. © Copyright 2020 Xilinx さまざまな開発者に向けた環境 多様なアプリケーション ヘテロジニアス アクセラレーション 業界世界初のACAP 7nm FinFET 29
  • 29. © Copyright 2021 Xilinx スカラー プロセッシングエンジン Arm Cortex-A72 アプリケーション プロセッサ Arm Cortex-R5 リアルタイム プロセッサ プラットフォームマネジメントコントローラ 31
  • 30. © Copyright 2021 Xilinx アダプタブル ハードウェアエンジン 再構築されさらなる高密度化を実現する HWファブリック 階層メモリのカスタム設計を実現 動的リコンフィグレーションを従来の8倍 高速化 32
  • 31. © Copyright 2021 Xilinx インテリジェント エンジン DSP エンジン 高精度な浮動小数点演算と低レイテンシー データパスのカスタム化と細やかな制御 AI エンジン 高スループット、低レイテンシー、高い消費電力効率 AI 推論 や 高度な信号処理に最適なアーキテクチャ 33
  • 32. © Copyright 2021 Xilinx AI エンジン AI 推論 および 高度な信号処理に最適化 >1GHz VLIW/SIMD ベクタープロセッサコア 密結合されたメモリを有する大量なコアを相互接続 アダプタブルハードウェアエンジンと密接続することで メモリ階層のカスタムデザインを実現 ソフトウェアプログラマブル、ライブラリを提供 ハードウェアの適合性 VECTOR CORE MEMORY VECTOR CORE MEMORY VECTOR CORE MEMORY VECTOR CORE MEMORY 34
  • 33. © Copyright 2021 Xilinx AI Engine ˃ 1+ GHz VLIW / SIMD AI Engine ˃ 32-bit Scalar RISC processor ˃ Fixed and floating point vector units Interconnect ˃ AXI-MM switch for config, control, and debug ˃ AXI-Stream crossbar for routing N/E/S/W streams Data Memory ˃ Each AI Engine can access 4 Memory Modules (N,E,S,W) as one contiguous memory AI Engine Tile MEM I/F Data Memory (32KB) AXIS West AXIM Switch MEM I/F AXIS East MEM I/F MM2S DMA MEM I/F Program Memory (16KB) Instruction Fetch & Decode Unit Load & Store Address Generation Units 32b Scalar RISC Unit Fixed Point 512b SIMD Vector Unit Floating Point 512b SIMD Vector Unit Stall Handler Control, Debug & Trace Accumulator Stream FIFO Scalar Register Files Vector Register Files S2MM DMA AXIS North AXIS South Core Mem Access AXI Stream AXI MM Accumulator Stream AI Engine Array Single Tile Architecture Manual am009 36
  • 34. © Copyright 2021 Xilinx AI エンジン: マルチコア コンピュート に革新をもたらす core L0 core L0 core L0 Block 0 L1 core L0 core L0 core L0 Block 1 L1 L2 DRAM D0 D0 D0 D0 固定した共有接続 • システム性能を制約 • レイテンシーの大幅なばらつき データの複製 • レイテンシーの大幅な増大とばらつき • 帯域不足による性能制約 • 消費電力の大幅な増大 従来のマルチコア (キャッシュ アーキテクチャ) MEM AI Engine MEM AI Engine MEM AI Engine AI Engine MEM AI Engine AI Engine MEM AI Engine MEM MEM AI エンジン アレイ (インテリジェント エンジン) 専用の接続 • システム性能の制約 とならない • レイテンシーは短く、 かつ確定的 密結合したメモリを分散 • キャッシュミスは無し • レイテンシーは短く、かつ確定的 • システム性能の制約とならない高帯域 • 全体のメモリサイズを節約 • 消費電力を大幅に低減 AI Engine MEM MEM AI Engine 38
  • 35. © Copyright 2021 Xilinx クラウド エッジ ネットワーク ワイヤード ワイヤレス エンドポイント AI の適用 データセンター Versal が適用される代表的なマーケット 39
  • 36. © Copyright 2021 Xilinx HBM Series Prime Series Premium Series AI Core Series AI RF Series AI Edge Series 40
  • 37. © Copyright 2021 Xilinx Versal AIEによる推論のパフォーマンス 1. Xeon Platinum 8124 Skylake、c5.18xlarge AWS インスタンス上で測定。Intel Caffe: https://github.com/intel/caffe 2. V100 のデータは Nvidia 社『Deep Learning Platform, Giant Leaps in Performance and Efficiency for AI Services』より引用 GoogLeNet の性能 (レイテンシ <7ms) = ハイエンド CPU の 43 倍 GoogLeNet のリアルタイム性能 (レイテンシ <2ms) = ハイエンド GPU (Nvidia) の 8 倍 出典 ; "Versal: The First Adaptive Compute Acceleration Platform (ACAP)" WP505 (日 / 英) 41
  • 38. © Copyright 2021 Xilinx VCK5000 : データセンター アクセラレーション 開発キット https://japan.xilinx.com/products/boards-and-kits/vck5000.html カードの仕様 VCK5000 デバイス VC1902 INT8 TOPs (ピーク) 145 サイズ FHFL デュアルスロット メモリ DDR メモリ容量 DDR4-3200 16 GB DDR 総帯域幅 102.4 GB/s 内部 SRAM の容量 23.9 MB 内部 SRAM の総帯域幅 23.5 TB/s インターフェイス PCI Express Gen3 x 16 / Gen4 x 8 ネットワーク インターフェイス 2x QSFP28 (100GbE) ロジック リソース ルックアップ テーブル (LUT) 899,840 消費電力と熱 最大総消費電力 225W 42 二種類のSKUを提供する開発キット (商用デプロイメントはサポートしておりません)  (汎用版) Vitis™ 設計フローをサポート - AI、HPC、データセンターなど  (AI 限定版) 期間限定キャンペーン中 (購入条件あり、詳細はお問合せ)  Vitis AI 1.4 with 2 DPU variants (384 vs 288 AIE cores)  52+ model zoo support  Natural Language (BERT) & and RNN T demo  MLPerf submission ResNet 50 demo ( better than T4)  Getting started with Vitis AI & Board user guide documentation MLCommons v1.0 Data Center Closed Division Server ResNet-50
  • 39. © Copyright 2021 Xilinx 開発環境 43
  • 40. © Copyright 2021 Xilinx イノベーションの過程 ハードウェアの革新 世界初の FPGA 1984 ソフトウェアの革新 業界初のハイエンドな 大容量 FPGA 1999 業界初の SerDes と プロセッサを統合した FPGA 2001 業界初の 3D FPGA/ Zynq デュアル HW プログラマブル SoC 2012 業界初の Zynq MPSoC & RFSoC 2017 VERSAL 業界初の ACAP (Adaptive Compute Acceleration Platform) 2019 ALVEO データセンター アクセラレータ カード 2018 次世代開発環境 ソフトウェア開発者向け プログラマビリティ C、C++、 System C コードが 有効 1984 現在 統合ソフトウェア プラットフォーム ALVEO SN10xx 業界初の構成可能な 適応型 SmartNIC 2021 KRIA SOM 適応型システム オン モジュール (SOM) と 業界初の エンベデッド アプリ ストア 44
  • 41. © Copyright 2021 Xilinx Build Deploy UltraScale/UltraScale+ Zynq エンベデッド 開発者 エンタープライズ アプリケーション開発者 エンタープライズ インフラ開発者 データ & AI サイエンティスト すべての開発者が多様なプラットフォーム向けに開発可能な統合環境
  • 42. © Copyright 2021 Xilinx Build Run System level Simulation ARM Compiler AIE Compiler Vitis HLS Host CPU System Compile/Link Xilinx Runtime Library (XRT) Analyze ホスト アプリケーション ライブラリ アプリケーション C/C++ ターゲット プラットフォーム RTL Debug & Performance Analysis 包括的な開発環境を提供 (2020年4月~)
  • 43. © Copyright 2021 Xilinx オープンソースのアクセラレーション ライブラリ 利用可能な400以上の最適化された無償ライブラリ Vision & Image Finance Data Analytics & Database Data Management Data Security ドメイン・スペシフィック ライブラリ Math Linear Algebra Statistics DSP Data Compression 汎用ライブラリ Matrix Decomposition (Cholesky, LU, etc.) Linear Solvers Eigenvalue Solvers BLAS, HPC, etc. amax, asum, copy, gbmv, scal, swap, trmv, sparse, etc. GEMM Random Num Gen Brownian Bridge Trans Heston Model Black-Scholes Interpolations Others Monte-Carlo Box-Meuller Trans Probability Density Binomial Tree Markov Chain filters, FFT/IFFT, etc. lz4 Comp/Decomp Huffman Enc/Dec Snappy Comp/Decomp GZip, etc. AI
  • 44. © Copyright 2021 Xilinx 48 オープンソースのアクセラレーション ライブラリ 利用可能な400以上の最適化された無償ライブラリ https://japan.xilinx.com/products/design-tools/vitis/vitis-libraries.html Xilinx App Store
  • 45. © Copyright 2020 Xilinx DNN Processing Unit (DPU) Direct Model Compilation Minutes of Compile Times MIN HRS AI Model Adaptive Vitis Platform Vitis AI From Model to Implementation in Minutes * * Coming Soon
  • 46. © Copyright 2021 Xilinx ご参考 Vitis™ Vitis™ 統合ソフトウェアプラットフォーム (Alveoユーザーは無償) VitisTM AI VitisTMビデオ解析 SDK (VVAS) Vitis™ アクセラレーションライブラリ 2021アダプティブコンピューティングチャレンジ Alveo™ カード ALVEOTMアクセラレータカード Alveo U200 & U250 (ビデオ) AlveoでのVitis アプリケーションアクセラレーション開発 (ビデオ) Versal™ ACAP Versal ACAP Introducing the Versal Premium ACAP (ビデオ) Versal ACAP: AI Engine (ビデオ) SOM および 評価ボード 評価ボード Kria ; System on Modules (SOM) ボードとキットの付属品 50 Xilinx Adapt カンファレンス (100+のセッション) 9月開催英語版オンデマンド配信中 11月中旬より数回に分けて日本語版開催予定
  • 47. © Copyright 2021 Xilinx FPGA/ACAPはアダプタブルなアクセラレーションを実現 SW プログラマブル HW アダプタブル フレキシビリティ スループットとレイテンシー 消費電力効率 CPU (Sequential) GPU (Parallel) Custom ASIC FPGA/ACAP AI Engines 51
  • 48. © Copyright 2021 Xilinx Building the Adaptable, Intelligent World Xilinx Mission
  • 49. © Copyright 2021 Xilinx Thank You