[db analytics showcase Sapporo 2017] B14: GPU コンピューティング最前線 by エヌビディア佐々木邦暢

1
GPU コンピューティング最前線
エヌビディア合同会社
佐々木邦暢 (@_ksasaki)

2
エヌビディア
AI コンピューティングカンパニー
1993 年創業
創業者兼 CEO ジェンスンフアン
従業員 11,000 人
2017 会計年度売上高 69 億ドル
時価総額 935 億ドル（約 10 兆円）

3
GPU コンピューティング 10年の歩み
2006 2008 2012 20162010 2014
Fermi: 世界初の
HPC 用 GPU
オークリッジ国立研究所の世界
最速 GPU スーパーコンピュータ
世界初の HIV カプシドの
原子モデルシミュレーション
GPU AI システムが碁の
世界チャンピオンを破る
スタンフォード大学が GPU
を利用した AI マシンを構築
世界初のヒトゲノムの
3次元マッピングCUDA 発表
世界初の GPU
Top500 システム
Google が
ImageNet で
人間を超える
H1N1 の異変の
仕組みを解明
GPU を利用した
AlexNet が圧勝

4
様々な分野で AI が効果を発揮
碁で名人に勝利ゲームをプレイ画家のスタイルで画像生成音声合成
映像を文章で説明ロボットの動作を洗練歩行を自己学習自動運転

5
エンタープライズのための
SAP AI
SAP から提供される最初の商業的 AI
オファリング
Brand Impact、Service Ticketing、
Invoice-to-Record アプリケーション
DGX-1 と AWS で NVIDIA GPU を利用

6
エンタープライズのための
SAP AI
SAP から提供される最初の商業的 AI
オファリング
Brand Impact、Service Ticketing、
Invoice-to-Record アプリケーション
DGX-1 と AWS で NVIDIA GPU を利用
VIDEO: SAP Brand Impact

7
2011 年の INTERSPEECH
https://www.microsoft.com/en-us/research/wp-content/uploads/2016/02/CD-DNN-HMM-SWB-Interspeech2011-Pub.pdf

8
マルチ GPU を活用
Gradient ascent with small mini-batches cannot be meaningfully
parallelized across multiple servers. Instead, we utilize multiple
NVidia Tesla GPGPU devices connected to a single host.
小さなミニバッチでの勾配上昇法は複数サーバーへの並列化ができないため
我々は複数の NVIDIA Tesla GPU を 1 台のホストに搭載した

9
GPU の効果は絶大
The speed-up from using GPGPUs is so large
GPU による高速化は非常に大きなものである

10
2012 年 DNN で音声認識
Geoffrey Hinton
Li Deng
Dong Yu
George Dahl
Abdel-rahman Mohamed
Navdeep Jaitly
Andrew Senior
Vincent Vanhoucke
Patrick Nguyen
Brian Kingsbury
Tara Sainath
豪華な著者達
https://static.googleusercontent.com/media/research.google.com/ja//pubs/archive/38131.pdf

11
この研究でも GPU を活用
At present, the most effective parallelization method
is to parallelize the matrix operations using a GPU.
現時点でもっとも効果的な並列化手法は
GPU で行列演算を行うことだ
https://static.googleusercontent.com/media/research.google.com/ja//pubs/archive/38131.pdf

12
Microsoftの音声認識が人間並みの精度を実現
https://arxiv.org/pdf/1610.05256v1.pdf

13
IBM が MICROSOFT の記録を更新
https://arxiv.org/pdf/1703.02136.pdf

14
そして画像認識でも

15
ディープラーニング隆盛以前の一般物体認識
https://ipsj.ixsq.nii.ac.jp/ej/?action=repository_uri&item_id=52152

16
2006 年当時の状況
ここ数年、新しいモデル表現の提案、機械学習法の進歩、
計算機の高速化などにより、急速に研究が進展しており、
現在は 101 種類の対象に対して 6 割程度の精度で認識が可能となってきている。
「山」「椅子」「ラーメン」などの我々にとって馴染み深い対象が写った画像を
計算機によって自動的に検出することは、現状では極めて困難である。
https://ipsj.ixsq.nii.ac.jp/ej/?action=repository_uri&item_id=52152

17
2012年のILSVRC
https://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf

18
ディープラーニングによるブレークスルー
エラー率:
5.98%, 2015/1/13, Baidu
4.94%, 2015/2/6, Microsoft
4.82%, 2015/2/11, Google
精度 %
2010 201420122011 2013
74%
84%
ディープラーニング
従来手法
72%
人間と同等以上の精度に到達

19
畳み込みニューラルネットワークと GPU
Luckily, current GPUs, paired with a highly-optimized implementation of 2D convolution, are
powerful enough to facilitate the training of interestingly-large CNNs,
幸運なことに、最新の GPU と高度に最適化された 2D 畳み込み
処理の組み合わせは、大きな畳み込みニューラルネットワークを
トレーニングするのに十分な能力がある

20
畳み込みニューラルネットワークと GPU
All of our experiments suggest that our results can be improved simply by waiting for
faster GPUs and bigger datasets to become available.
単純にもっと速い GPU と今より大きなデータセットさえあれば、
さらに良い結果が得られるであろう

21
ディープラーニングを加速する3要因
ディープニューラルネットワーク GPUビッグデータ
1分間に100 時間の
ビデオがアップロード
日々3.5億イメージ
がアップロード
1時間に2.5兆件の
顧客データが発生
TORCH
THEANO
CAFFE
MATCONVNET
PURINEMOCHA.JL
MINERVA MXNET*

22
NVIDIA Tesla プラットフォーム

23
SGEMM/W
2012 20142008 2010 2016
48
36
12
0
24
60
2018
72
Tesla Fermi
Kepler
Maxwell
Pascal
Volta
GPU アーキテクチャコードネーム

24
NVIDIA GPU 製品のおおまかな一覧
Kepler Maxwell Pascal Volta
GeForceゲーミング
Quadro
プロフェッショナル
グラフィックス
Tesla
HPC & Cloud
M4 M40
M6000M5000K6000K5000
GTX 980GTX 780
HPC 用
GRID 用
K80K40K20 P100
P40P4DL 用
M60
M6
M10
GP100P5000
K2
K520
K1
GTX 1080 TITAN X
V100

25
発表 Tesla V100
AI と HPC のための大きな飛躍
Tensor コアを搭載した Volta アーキテクチャ
210 億トランジスタ | TSMC 12nm FFN | 815mm2
5120 CUDA コア
7.5 FP64 TFLOPS | 15 FP32 TFLOPS
120 Tensor TFLOPS
総レジスタファイル 20MB | 16MB キャッシュ
900 GB/s の 16GB HBM2
300 GB/s NVLink

26
新開発 Tensor コア
CUDA Tensor 演算命令及びデータフォーマット
4x4 行列処理配列
D[FP32] = A[FP16] * B[FP16] + C[FP32]
ディープラーニングに最適化
アクティベーション入力重み入力出力結果

27
P100 V100 Ratio
トレーニングの高速化 10 TOPS 120 TOPS 12x
推論の高速化 21 TFLOPS 120 TOPS 6x
FP64/FP32 5/10 TFLOPS 7.5/15 TFLOPS 1.5x
HBM2 バンド幅 720 GB/s 900 GB/s 1.2x
NVLink バンド幅 160 GB/s 300 GB/s 1.9x
L2 Cache 4 MB 6 MB 1.5x
L1 Caches 1.3 MB 10 MB 7.7x
Pascal / Volta GPUの性能比較

28
発表
Volta 対応フレームワーク
時間
CNN トレーニング
(ResNet-50)
時間
NCCL 2.0 を利用したマルチノード
トレーニング
(ResNet-50)
0 5 10 15 20 25
64x V100
8x V100
8x P100
0 10 20 30 40 50
V100
P100
K80
時間
LSTM トレーニング
(ニューラル機械翻訳)
0 10 20 30 40 50
8x V100
8x P100
8x K80

29
Tesla V100 搭載 NVIDIA DGX-1
AI 研究の必需品
960 Tensor TFLOPS | Tesla V100 8基 | NVLink ハイブリッドキューブ
TITAN X で 8 日かかる計算が 8 時間に
CPU サーバー 400台分の性能がワンボックスに

30
NVIDIA DGX Station
パーソナル DGX
480 Tensor TFLOPS | Tesla V100 4基
NVLink 全結合 | 3つの DisplayPort
1500W | 水冷

31
コンテナ、データセット、
事前学習済モデルの
レポジトリ
NVIDIA
GPU クラウド
CSP
NVIDIA GPU Cloud
NVDocker のコンテナとして提供 | フルスタックで最適化
常に最新 | エヌビディアによって完全にテストおよびメンテナンス | 7月にベータ提供
ディープラーニングに最適化された GPU で加速されたクラウドプラットフォーム

32
GPUとクラウドコンピューティング

33
AWS P2 インスタンス
Tesla K80 を搭載する GPU インスタンス
インスタンス名 GPU 数 GPU メモリ (GB) CUDA コア数 vCPU 数メモリ (GB)
p2.xlarge
1
(K80 半分)
12 2,496 4 61
p2.8xlarge
8
(K80 4枚)
96 19,968 32 488
p2.16xlarge
16
(K80 8枚)
192 39,936 64 732

34
GPU 対応の AMI 各種
GPU ドライバや各種フレームワーク・アプリケーション導入済み
AWS 提供
NVIDIA 提供
Deep Learning AMI Amazon Linux Version
64-bit, Amazon Linux 2016.09
NVIDIA GPU ドライバ
MXNet, Caffe, Caffe2, TensorFlow, Theano, CNTK,
Torch, Keras
NVIDIA DIGITS 4 AMI
NVIDIA DIGITS 4 on Ubuntu 14.04 (64-bit)
NVIDIA CUDA Toolkit 7.5 AMI
CUDA Toolkit 7.5 on Amazon Linux 2016.03 (64-bit)
Windows AMI (NVIDIA GPU ドライバ付)
Windows Server 2012 R2

35
AWS パブリックデータセット
無料でアクセス可能な大規模データ
データセット名内容
ランドサットランドサット 8 号衛星により作成中の地球全土の衛星画像コレクション
SpaceNet コンピュータビジョンアルゴリズムの開発における革新を促進するために衛星画像
とラベリングされたトレーニングデータを集めたデータベース
地勢タイル世界各地の地表の標高などの地勢を示すデータセット
NASA NEX
NASA が保守管理する地球の科学的データセットのコレクション。気候変化
予測や地表の衛星画像などが含まれる
TCGA
がんゲノムアトラス (TCGA) からの未処理および処理済みのゲノム、トランスクリ
プトミクス、およびエピゲノミクスのデータで、がんゲノムクラウドを介して認定された
研究者のみが利用可能
マルチメディアコモンズオーディオビジュアル機能と注釈を備えた 1 億近い画像と動画のコレクション
Japan Census Data 日本の国勢調査、事業所･企業統計調査、経済センサス
※ 上記は一部の例。詳しくは: https://aws.amazon.com/jp/public-datasets

36
パブリックデータセットの利用例
SpaceNet を NVIDIA DIGITS で解析
SpaceNet は NVIDIA もその立ち上げにかかわった
オンライン衛星画像リポジトリです
ディープラーニングフレームワークの Web フロントエンド
である NVIDIA DIGITS で DetectNet というオブジェ
クト検出ネットワークを使って、 SpaceNet の画像か
ら建物を検出する方法を、 PARALLEL FORALL
ブログで解説しています
https://devblogs.nvidia.com/parallelforall/exploring-spacenet-dataset-using-digits/
NVIDIA DIGITS による物体検出
“Exploring the SpaceNet Dataset Using DIGITS”

37
GTC 2017 で発表
● EC2 が Tesla V100 をサポート
Tesla V100 が EC2 にやってきます。
5120 個の CUDA コアによる高い浮動小数点演算性能に加え、新たに 640 個の “Tensor コア"
を加えることでディープラーニングのトレーニング性能を飛躍的に高めた Tesla V100 をクラウドで手
軽に利用できることは、機械学習に関わる研究者やエンジニアにとって大きなメリットとなるでしょう。
● Deep Learning Institute を共同で推進
エヌビディアは、ディープラーニングに関わる技術者の育成を推進するため、 "Deep Learning
Institute (DLI)" という取り組みを行っています。中でもクラウドベースのハンズオントレーニングは特に
人気のあるコースです。DLI ハンズオンの基盤として、世界中にデータセンター群を展開する AWS は
最適なプラットフォームです。
AWS と NVIDIA のさらなる協業

38
NVIDIA と Microsoft の協業
Cognitive Toolkit (旧称: CNTK) を Azure と DGX-1 の双方に最適化
NVIDIA Tesla GPU
NVIDIA DGX-1 Azure Data Center
NVIDIA GPUDL Toolkit

39
名称 CPU コア数メモリ GPU RDMA
NV6 6 56 GB Tesla M60 半分 (GPU 1基)
NV12 12 112 GB Tesla M60 1枚 (GPU 2基)
NV24 24 224 GB Tesla M60 2枚 (GPU 4基)
NC6 6 56 GB Tesla K80 半分 (GPU 1基)
NC12 12 112 GB Tesla K80 1枚 (GPU 2基)
NC24 24 224 GB Tesla K80 2枚 (GPU 4基)
NC24r 24 224 GB Tesla K80 2枚 (GPU 4基) InfiniBand
Microsoft Azure N シリーズ GPU インスタンス
2 種類の NVIDIA GPUを搭載

40
GTC 2017 で新たな GPU インスタンスを発表
Pascal 世代 GPU を搭載する新型が登場
名称 CPUコア数メモリ GPU RDMA
NC6s_v2 6 112 GB Tesla P100 x 1 -
NC12s_v2 12 224 GB Tesla P100 x 2 -
NC24s_v2 24 448 GB Tesla P100 x 4 -
NC24rs_v2 24 448 GB Tesla P100 x 4 InfiniBand
ND6s 6 112 GB Tesla P40 x 1 -
ND12s 12 224 GB Tesla P40 x 2 -
ND24s 24 448 GB Tesla P40 x 4 -
ND24rs 24 448 GB Tesla P40 x 4 InfiniBand

41
GPU ドライバからディープラーニングフレームワークまで
「全部入り」の仮想マシンイメージ

42
エヌビディア DIGITS
GPU で高速化されたディープラーニングトレーニング・システム
Test Image
学習過程の可視化モデルの作成学習データの作成モデルのテスト
http://developer.nvidia.com/digits

43
IBM Bluemix Infrastructure
GPU 搭載のベアメタルサーバーを月単位 / 時間単位で
GPU 種別
GPU メモリ
(GB)
CUDA コア数 CPU
CPU
コア数
メモリ
(GB)
ディスク
Tesla K80 24 4,992
2 x E5-2620 v3 12
64 1TB SATA2 x E5-2650 v3 20
2 x E5-2690 v3 24
2 x E5-2620 v4 16 128 2x 800GB SSD
Tesla M60 16 4,096
2 x E5-2620 v3 12
64 1TB SATA2 x E5-2650 v3 20
2 x E5-2690 v3 24
Hourly
※ この他、 GRID K2 と Tesla K10 が選択可能

44
Google Cloud Platform
Google の IaaS に Tesla K80 と P100 が登場
 Tesla K80 と Tesla P100 を利用可能
 様々なインスタンスに GPU をアタッチ可能
 分単位の課金で効率的に利用
 プレビュー提供中
GCP の GPU

45
GPU スーパーコンピューター

46
NVIDIA DGX-1 を 124 ノード
ノードあたり 8 基、全体で 992 基の NVIDIA Tesla P100 GPU
NVLINK キューブメッシュ
2 基の Intel Xeon 20 コア CPU
512TB DDR4 システムメモリ
SSD – 7 TB スクラッチ領域 + 0.5 TB システム領域
Mellanox 36 ポート EDR L1, L2 スイッチ
ノード毎に 4 ポート
Partial Fat tree トポロジ
Ubuntu 14.04, CUDA 8, OpenMPI 1.10.3
NVIDIA GPU BLAS + Intel MKL (NVIDIA GPU HPL)
NVIDIA DGX SATURNV
Green500 で首位を獲得した（2016年11月）スーパーコンピューター
nvidia.com/dgx1

47
世界初の GPU スパコン - TSUBAME 1.2
2008 年 11 月の TOP500 で
29 位にランクイン
NVIDIA Tesla S1070 搭載
実効性能 77.5 TFLOPS

32nm 40nm
>400GB/s Mem BW
80Gbps NW BW
~1KW max
>1.6TB/s Mem BW >12TB/s Mem BW
35KW Max
>600TB/s Mem BW
220Tbps NW
Bisecion BW
1.4MW Max
TSUBAME2.0 2010年11月1日稼働開始
世界最小のペタフロップス・省電力スパコン
各種基礎研究がベース
メーカーと新規共同開発
• 大規模なGPU採用による高性能と低電力の両立
• 最小の設置面積(200m2程度)、高いコストパフォーマンス
• 高性能にマッチした光ネットワーク、SSDストレージ

TSUBAME2.0⇒2.5 計算ノードの進化(2013/9)
• 全 4224GPU を最新のKepler GPUに
ほぼ運用中断なく交換
• 幾つかの技術上・運用上の問題を
メーカーと共同で克服
• 低コスト・短期間でマシンの能力を2-3
倍に向上に成功
NVIDIA Fermi
M2050
1039/515GFlops
3GBメモリ
NVIDIA Kepler
K20X
3950/1310GFlops
6GBメモリ

TSUBAME-KFC: ウルトラグリーン・スパコン研究設備
（文部科学省概算要求・2011-2015・約2億円)
高温冷却系
冷媒油 35~45℃
⇒ 水 25~35℃
(TSUBAME2は7~17℃)
冷却塔：
水 25~35℃
⇒ 自然大気へ
液浸冷却＋高温大気冷却＋高密度実装＋電力制御のスパコン技術を統合
TSUBAME3.0のプロトタイプ
コンテナ型研究設備
20フィートコンテナ(16m2)
無人自動制御運転
将来はエネルギー回収も
高密度実装・油浸冷却
210TFlops (倍精度)
630TFlops (単精度)
1ラック
2013年11月/2014年6月
Green500ランキング
世界一位(日本初)
2015アップグレード
500TFlops (倍精度)
機械学習等1.5PFlops (単精度)
世界最高性能密度
(やはり1ラック=>7ラックで京相当)

51
TSUBAME 3.0 のシステム概要
フルバイセクションバンド幅の
インテル® Omni-Path® 光ネットワーク
432 Terabits/秒双方向
全インターネット平均通信量の2倍
DDNのストレージシステム
（並列FS 15.9PB+ Home 45TB）
540 の計算ノード SGI ICE® XA
インテル®Xeon® CPU×２＋NVIDIA Tesla P100 GPU×４
256GB メモリ、２TB の NVMe 対応インテル®SSD
47.2 AI ペタフロップス, 倍精度: 12.1 ペタフロップス
2017 年 8 月本稼働

CPU 0
PLX
GPU 0
OPA HFI
OPA HFI
DIMM
DIMM
DIMM
DIMM
GPU 1
CPU 1
DIMM
DIMM
DIMM
DIMM
PLX OPA HFI
GPU 2 GPU 3
OPA HFI
PCH
SSD
QPI NVLink
x16 PCIe
x16 PCIe
x16 PCIe
x16 PCIe
x16 PCIe
x16 PCIe x16 PCIe
x16 PCIe x16 PCIe
x16 PCIe
x4 PCIe
DMI
CPU 0
PLX
GPU 0
OPA HFI
OPA HFI
DIMM
DIMM
DIMM
DIMM
GPU 1
CPU 1
DIMM
DIMM
DIMM
DIMM
PLX OPA HFI
GPU 2 GPU 3
OPA HFI
PCH
SSD
QPI NVLink
x16 PCIe
x16 PCIe
x16 PCIe
x16 PCIe
x16 PCIe
x16 PCIe x16 PCIe
x16 PCIe x16 PCIe
x16 PCIe
x4 PCIe
DMI
TSUBAME3.0 計算ノードは SGI 社と東工大 GSIC の共同設計による
TSUBAME3.0 用新設計
計算ノードの接続構成
x9
SGI ICE XA （製品の範囲）
相互結合網の上位（スパイン）スイッチ：フルバイセクション
432 Terabit/s 双方向 Intel OmniPath
計算ノード計算ノード
x60セット
（合計 540ノード）
x60ペア
（合計 120スイッチ）
相互結合網の範囲
18ポート使用
18ポート使用
18ポート使用
18ポート使用
超高性能な”Fat Node”構成(TSUBAMEの伝統)
• 4 SXM2(NVLink) NVIDIA Pascal P100 GPU
• 高ネットワークバンド幅 – Intel Omnipath ネット
ワーク 100GBps x 4 = 400Gbps
• 高 I/O バンド幅- Intel 2 TeraByte NVMe
• システム合計容量1ペタバイト以上、
2Terabyte/秒の合算バンド幅
• 高密度・高温水冷ブレード – 1ラックあたり 36 ブ
レード = 144 GPU + 72 CPU、50-60KW
• 一般データセンターの10-20倍
CPU 0
PLX
GPU 0
OPA HFI
OPA HFI
DIMM
DIMM
DIMM
DIMM
GPU 1
CPU 1
DIMM
DIMM
DIMM
DIMM
PLX OPA HFI
GPU 2 GPU 3
OPA HFI
PCH
SSD
QPI NVLink
x16 PCIe
x16 PCIe
x16 PCIe
x16 PCIe
x16 PCIe
x16 PCIe x16 PCIe
x16 PCIe x16 PCIe
x16 PCIe
x4 PCIe
DMI

TSUBAME3.0 冷却システム系統図
32℃の自然大気冷却水による高効率高温冷却
計算ノード
（SGI ICE XA system）
I/O , File system
自然大気
水冷冷却塔
Air conditioner
周辺機器用チラー
分岐ヘッダー
【１F-屋外】
【B１F】
【RF】
【１F-１１４室】【１F-１１４室】
分岐ヘッダー
【EPS】
分岐ヘッダー分岐ヘッダー
空冷冷却
(22℃)
システム発熱量10～15%
+
環境潜熱
水冷冷却
(往き：約14℃)
水冷冷却
(還り：約21℃)
水冷冷却
(往き：約32℃)
水冷冷却
(還り：約40℃)
熱交換機
冷却補助回路(200kW)
水冷冷却
(往き：約14℃)水冷冷却
(還り：約21℃)
水冷冷却
(還り：約40℃)
水冷冷却
(往き：約32℃)
※RF or B1F設置

TSUBAME3.0 世界トップクラスの冷却効率
TSUBAME 3.0 PUE 予測 (900KW消費仮定) 2013 ~ 2015 年の天候データを元に計算
1月 2月 3月 4月 5月 6月 7月 8月 9月 10月 11月 12月
年間
平均
冷却設備
平均消費電力
[ｋW]
28.83 28.83 28.83 28.83 29.21 30.06 30.06 32.00 30.06 29.21 28.83 28.83 29.465
PUE 1.032 1.032 1.032 1.032 1.032 1.033 1.033 1.036 1.033 1.032 1.032 1.032 1.033
PUEは冷却のオーバーヘッドを表す。1.0に近いほど良い
PUE = ｛（計算ノードの消費電力）＋（計算ノードの冷却に必要なすべての設備消費電力）｝
／（計算ノードの消費電力）
• 通常のデータセンター：PUE = 2～3 (冷却の方がマシンより電気を食っている)
• 最新の空冷データセンター、TSUBAME1：PUE = 1.4～1.6
• TSUBAME2.0：PUE = 1.28
• TSUBAME-KFC：PUE = 1.09
TSUBAME3.0の計算ノードの年間PUE平均値は『1.033』
世界トップクラス

55
Green500 リストの上位を Tesla P100 搭載システムが独占
2017年6月版 TOP/Green500 NVIDIA 関連情報のまとめ
日本版#ISC17
フランクフルトにて開催中の ISC 2017 で 2017 年6月版の TOP500/Green500 リストが発表さ
れました。昨年11月の Green500 リストでは、 Tesla P100 搭載の NVIDIA DGX SATURNV と
CSCS Piz Daint が1,2位を獲得し、Tesla P100 の高い電力性能比を印象づけましたが、今回
は Tesla P100 搭載システムがさらに躍進。1~4 位を日本の P100 システムが占めるという
記念すべき回になりました。
全体としては 20 システムが Tesla P100 を搭載。その多くが Green500 の上位にランクし、1位
から 16 位までのうち、実に 14 システムが Tesla P100 搭載システムという結果になりました。
https://www.top500.org/green500/lists/2017/06/
NEWS
東工大 TSUBAME 3.0 と産総研 AAIC が Green500 で 1, 3 位を獲得
東京工業大学の TSUBAME 3.0 は今年8月の本稼働に向け構築中ですが、フル構成の1/4の
状態で今回の TOP/Green500 計測に挑み、1.998 PFlops で TOP500 の 61 位にランクイン。
そして電力性能比 14.11 GFlops/W を記録して見事 Green500 の首位を獲得しました。
外気に近い温度の冷却水を用いて効率良く冷却を行い、PUE=1.033 を目指すその省エネ
性能が存分に発揮されたといえるでしょう。
http://www.titech.ac.jp/news/2017/038640.html
産総研 AAIC (Aist AI Cloud) は、産総研人工知能研究センター (AIRC) で 2017 年 4 月に
稼働を開始したシステムで、TOP500 の 148 位 (961 TFlops)、そして 12.68 GFlops/W で
Green500 の3位を獲得しました。
これら2システムの Green500 チャレンジは、産総研・東工大の研究協力による成果です。
http://www.aist.go.jp/aist_j/press_release/pr2017/pr20170619/pr20170619.html
v1.2
bit.ly/isc17nv

56
# システム名称所属 GFlops/W
1 TSUBAME 3.0 東京工業大学 14.11
2 kukai（クウカイ） Yahoo! JAPAN 14.05
3 AIST AI Cloud 産業技術総合研究所 12.68
4 RAIDEN GPU subsystem 理化学研究所 10.60
5 Wilkes-2 University of Cambridge 10.43
6 Piz Daint Swiss National Supercomputing Centre (CSCS) 10.40
8
Research Computation Facility
for GOSAT-2 (RCF2)
国立環境研究所 9.80
9 NVIDIA DGX-1/Relion 2904GT Facebook 9.46
10 DGX SATURNV NVIDIA 9.46
11 Reedbush-H 東京大学 8.58
12 JADE University of Oxford 8.43
13 Cedar Simon Fraser University/Compute Canada 8.01
14 DAVIDE E4 Computer Engineering 7.72
16 Hōkūle’a Maui High-Performance Computing Center (MHPCC) 6.67
Green500 1~16位の Tesla P100 搭載システム（太字は日本のシステム）

57
エクサスケールへの道
米国最大のスーパーコンピューターが
Volta アーキテクチャの GPU を採用
TeslaP100との比較
Volta の HPC アプリケーションパフォーマンス
System Config Info: 2X Xeon E5-2690 v4, 2.6GHz, w/ 1X Tesla
P100 or V100. V100 measured on pre-production hardware.
Summit
Supercomputer
200+ PetaFlops
~3,400 Nodes
10 Megawatts

58
Jetson: AI エッジコンピューティング

59
JETSON による EDGE の AI 化の実現
インフラ点検捜索、レスキュー
配送測量エンタープライズ
コラボレーション
AI シティ
パーソナルアシスト
サービスロボット
ポータブルメディカル学術＆研究

62
NVIDIA DRIVE — AI カープラットフォーム
コンピュータビジョンライブラリ
OS
認識 AI
CUDA、cuDNN、TensorRT
自己位置推定パスプランニング
1 TOPS
10 TOPS
100 TOPS
DRIVE PX 2 Parker
Level 2/3
DRIVE PX Xavier
Level 4/5

64
認識 DNN のサンプル
複数のディープニューラルネットワーク
DriveNet LaneNet
OpenRoadNet
車線の検出
多クラス分類: 乗用車、トラック、歩行者、
二輪車、信号や標識
走行可能空間の検出

68
Volvo と Autoliv も NVIDIA DRIVE PX を選択
自動運転車を 2021 年に市場投入

69
CONNECT
NVIDIA をはじめ日本中から
集まる GPU の専門家と交流
LEARN
数多くの技術セッションとポスター
展示、大規模なハンズオンラボ
で学びを深める
DISCOVER
A I や自動運転といった重要な
領域でのブレークスルーに GPU が
果たしている様々な役割を発見
INNOVATE
新進気鋭のスタートアップによる
破壊的イノベーションに注目
世界最大の GPU 技術イベントにぜひご参加ください
GTC Japan 2017 は 2017年12月12 ~ 13日に東京で開催
2017/12/12~13 | 東京 | #GTC17
http://www.gputechconf.jp/

70
GPU コンピューティング最前線
エヌビディア合同会社
佐々木邦暢 (@_ksasaki)

[db analytics showcase Sapporo 2017] B14: GPU コンピューティング最前線 by エヌビディア佐々木邦暢

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Ähnlich wie [db analytics showcase Sapporo 2017] B14: GPU コンピューティング最前線 by エヌビディア佐々木邦暢

Ähnlich wie [db analytics showcase Sapporo 2017] B14: GPU コンピューティング最前線 by エヌビディア佐々木邦暢 (20)

Mehr von Insight Technology, Inc.

Mehr von Insight Technology, Inc. (20)

Kürzlich hochgeladen

Kürzlich hochgeladen (9)