SlideShare ist ein Scribd-Unternehmen logo
1 von 70
Downloaden Sie, um offline zu lesen
1
GPU コンピューティング最前線
エヌビディア合同会社
佐々木邦暢 (@_ksasaki)
2
エヌビディア
AI コンピューティング カンパニー
1993 年創業
創業者兼 CEO ジェンスン フアン
従業員 11,000 人
2017 会計年度売上高 69 億ドル
時価総額 935 億ドル(約 10 兆円)
3
GPU コンピューティング 10年の歩み
2006 2008 2012 20162010 2014
Fermi: 世界初の
HPC 用 GPU
オークリッジ国立研究所の世界
最速 GPU スーパーコンピュータ
世界初の HIV カプシドの
原子モデルシミュレーション
GPU AI システムが碁の
世界チャンピオンを破る
スタンフォード大学が GPU
を利用した AI マシンを構築
世界初のヒトゲノムの
3次元マッピングCUDA 発表
世界初の GPU
Top500 システム
Google が
ImageNet で
人間を超える
H1N1 の異変の
仕組みを解明
GPU を利用した
AlexNet が圧勝
4
様々な分野で AI が効果を発揮
碁で名人に勝利 ゲームをプレイ 画家のスタイルで画像生成 音声合成
映像を文章で説明 ロボットの動作を洗練 歩行を自己学習 自動運転
5
エンタープライズのための
SAP AI
SAP から提供される最初の商業的 AI
オファリング
Brand Impact、Service Ticketing、
Invoice-to-Record アプリケーション
DGX-1 と AWS で NVIDIA GPU を利用
6
エンタープライズのための
SAP AI
SAP から提供される最初の商業的 AI
オファリング
Brand Impact、Service Ticketing、
Invoice-to-Record アプリケーション
DGX-1 と AWS で NVIDIA GPU を利用
VIDEO: SAP Brand Impact
7
2011 年の INTERSPEECH
https://www.microsoft.com/en-us/research/wp-content/uploads/2016/02/CD-DNN-HMM-SWB-Interspeech2011-Pub.pdf
8
マルチ GPU を活用
Gradient ascent with small mini-batches cannot be meaningfully
parallelized across multiple servers. Instead, we utilize multiple
NVidia Tesla GPGPU devices connected to a single host.
小さなミニバッチでの勾配上昇法は複数サーバーへの並列化ができないため
我々は複数の NVIDIA Tesla GPU を 1 台のホストに搭載した
https://www.microsoft.com/en-us/research/wp-content/uploads/2016/02/CD-DNN-HMM-SWB-Interspeech2011-Pub.pdf
9
GPU の効果は絶大
The speed-up from using GPGPUs is so large
GPU による高速化は非常に大きなものである
https://www.microsoft.com/en-us/research/wp-content/uploads/2016/02/CD-DNN-HMM-SWB-Interspeech2011-Pub.pdf
10
2012 年 DNN で音声認識
Geoffrey Hinton
Li Deng
Dong Yu
George Dahl
Abdel-rahman Mohamed
Navdeep Jaitly
Andrew Senior
Vincent Vanhoucke
Patrick Nguyen
Brian Kingsbury
Tara Sainath
豪華な著者達
https://static.googleusercontent.com/media/research.google.com/ja//pubs/archive/38131.pdf
11
この研究でも GPU を活用
At present, the most effective parallelization method
is to parallelize the matrix operations using a GPU.
現時点でもっとも効果的な並列化手法は
GPU で行列演算を行うことだ
https://static.googleusercontent.com/media/research.google.com/ja//pubs/archive/38131.pdf
12
Microsoftの音声認識が人間並みの精度を実現
https://arxiv.org/pdf/1610.05256v1.pdf
13
IBM が MICROSOFT の記録を更新
https://arxiv.org/pdf/1703.02136.pdf
14
そして画像認識でも
15
ディープラーニング隆盛以前の一般物体認識
https://ipsj.ixsq.nii.ac.jp/ej/?action=repository_uri&item_id=52152
16
2006 年当時の状況
ここ数年、新しいモデル表現の提案、機械学習法の進歩、
計算機の高速化などにより、急速に研究が進展しており、
現在は 101 種類の対象に対して 6 割程度の精度で認識が可能となってきている。
「山」「椅子」「ラーメン」などの我々にとって馴染み深い対象が写った画像を
計算機によって自動的に検出することは、現状では極めて困難である。
https://ipsj.ixsq.nii.ac.jp/ej/?action=repository_uri&item_id=52152
17
2012年のILSVRC
https://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf
18
ディープラーニングによるブレークスルー
エラー率:
5.98%, 2015/1/13, Baidu
4.94%, 2015/2/6, Microsoft
4.82%, 2015/2/11, Google
精度 %
2010 201420122011 2013
74%
84%
ディープラーニング
従来手法
72%
人間と同等以上の精度に到達
19
畳み込みニューラルネットワークと GPU
Luckily, current GPUs, paired with a highly-optimized implementation of 2D convolution, are
powerful enough to facilitate the training of interestingly-large CNNs,
幸運なことに、最新の GPU と高度に最適化された 2D 畳み込み
処理の組み合わせは、大きな畳み込みニューラルネットワークを
トレーニングするのに十分な能力がある
https://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf
20
畳み込みニューラルネットワークと GPU
All of our experiments suggest that our results can be improved simply by waiting for
faster GPUs and bigger datasets to become available.
単純にもっと速い GPU と今より大きなデータセットさえあれば、
さらに良い結果が得られるであろう
https://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf
21
ディープラーニングを加速する3要因
ディープ ニューラル ネットワーク GPUビッグデータ
1分間に100 時間の
ビデオがアップロード
日々3.5億イメージ
がアップロード
1時間に2.5兆件の
顧客データが発生
TORCH
THEANO
CAFFE
MATCONVNET
PURINEMOCHA.JL
MINERVA MXNET*
22
NVIDIA Tesla プラットフォーム
23
SGEMM/W
2012 20142008 2010 2016
48
36
12
0
24
60
2018
72
Tesla Fermi
Kepler
Maxwell
Pascal
Volta
GPU アーキテクチャコードネーム
24
NVIDIA GPU 製品のおおまかな一覧
Kepler Maxwell Pascal Volta
GeForceゲーミング
Quadro
プロフェッショナル
グラフィックス
Tesla
HPC & Cloud
M4 M40
M6000M5000K6000K5000
GTX 980GTX 780
HPC 用
GRID 用
K80K40K20 P100
P40P4DL 用
M60
M6
M10
GP100P5000
K2
K520
K1
GTX 1080 TITAN X
V100
25
発表 Tesla V100
AI と HPC のための大きな飛躍
Tensor コアを搭載した Volta アーキテクチャ
210 億トランジスタ | TSMC 12nm FFN | 815mm2
5120 CUDA コア
7.5 FP64 TFLOPS | 15 FP32 TFLOPS
120 Tensor TFLOPS
総レジスタファイル 20MB | 16MB キャッシュ
900 GB/s の 16GB HBM2
300 GB/s NVLink
26
新開発 Tensor コア
CUDA Tensor 演算命令 及び データフォーマット
4x4 行列処理配列
D[FP32] = A[FP16] * B[FP16] + C[FP32]
ディープラーニングに最適化
アクティベーション入力 重み入力 出力結果
27
P100 V100 Ratio
トレーニングの高速化 10 TOPS 120 TOPS 12x
推論の高速化 21 TFLOPS 120 TOPS 6x
FP64/FP32 5/10 TFLOPS 7.5/15 TFLOPS 1.5x
HBM2 バンド幅 720 GB/s 900 GB/s 1.2x
NVLink バンド幅 160 GB/s 300 GB/s 1.9x
L2 Cache 4 MB 6 MB 1.5x
L1 Caches 1.3 MB 10 MB 7.7x
Pascal / Volta GPUの性能比較
28
発表
Volta 対応フレームワーク
時間
CNN トレーニング
(ResNet-50)
時間
NCCL 2.0 を利用したマルチノード
トレーニング
(ResNet-50)
0 5 10 15 20 25
64x V100
8x V100
8x P100
0 10 20 30 40 50
V100
P100
K80
時間
LSTM トレーニング
(ニューラル機械翻訳)
0 10 20 30 40 50
8x V100
8x P100
8x K80
29
Tesla V100 搭載 NVIDIA DGX-1
AI 研究の必需品
960 Tensor TFLOPS | Tesla V100 8基 | NVLink ハイブリッドキューブ
TITAN X で 8 日かかる計算が 8 時間に
CPU サーバー 400台分の性能がワンボックスに
30
NVIDIA DGX Station
パーソナル DGX
480 Tensor TFLOPS | Tesla V100 4基
NVLink 全結合 | 3つの DisplayPort
1500W | 水冷
31
コンテナ、データセット、
事前学習済モデルの
レポジトリ
NVIDIA
GPU クラウド
CSP
NVIDIA GPU Cloud
NVDocker のコンテナとして提供 | フルスタックで最適化
常に最新 | エヌビディアによって完全にテストおよびメンテナンス | 7月にベータ提供
ディープラーニングに最適化された GPU で加速されたクラウドプラットフォーム
32
GPUとクラウドコンピューティング
33
AWS P2 インスタンス
Tesla K80 を搭載する GPU インスタンス
インスタンス名 GPU 数 GPU メモリ (GB) CUDA コア数 vCPU 数 メモリ (GB)
p2.xlarge
1
(K80 半分)
12 2,496 4 61
p2.8xlarge
8
(K80 4枚)
96 19,968 32 488
p2.16xlarge
16
(K80 8枚)
192 39,936 64 732
34
GPU 対応の AMI 各種
GPU ドライバや各種フレームワーク・アプリケーション導入済み
AWS 提供
NVIDIA 提供
Deep Learning AMI Amazon Linux Version
64-bit, Amazon Linux 2016.09
NVIDIA GPU ドライバ
MXNet, Caffe, Caffe2, TensorFlow, Theano, CNTK,
Torch, Keras
NVIDIA DIGITS 4 AMI
NVIDIA DIGITS 4 on Ubuntu 14.04 (64-bit)
NVIDIA CUDA Toolkit 7.5 AMI
CUDA Toolkit 7.5 on Amazon Linux 2016.03 (64-bit)
Windows AMI (NVIDIA GPU ドライバ付)
Windows Server 2012 R2
35
AWS パブリックデータセット
無料でアクセス可能な大規模データ
データセット名 内容
ランドサット ランドサット 8 号衛星により作成中の地球全土の衛星画像コレクション
SpaceNet コンピュータビジョンアルゴリズムの開発における革新を促進するために衛星画像
とラベリングされたトレーニングデータを集めたデータベース
地勢タイル 世界各地の地表の標高などの地勢を示すデータセット
NASA NEX
NASA が保守管理する地球の科学的データセットのコレクション。気候変化
予測や地表の衛星画像などが含まれる
TCGA
がんゲノムアトラス (TCGA) からの未処理および処理済みのゲノム、トランスクリ
プトミクス、およびエピゲノミクスのデータで、がんゲノムクラウドを介して認定された
研究者のみが利用可能
マルチメディアコモンズ オーディオビジュアル機能と注釈を備えた 1 億近い画像と動画のコレクション
Japan Census Data 日本の国勢調査、事業所・企業統計調査、経済センサス
※ 上記は一部の例。詳しくは: https://aws.amazon.com/jp/public-datasets
36
パブリックデータセットの利用例
SpaceNet を NVIDIA DIGITS で解析
SpaceNet は NVIDIA もその立ち上げにかかわった
オンライン衛星画像リポジトリです
ディープラーニングフレームワークの Web フロントエンド
である NVIDIA DIGITS で DetectNet というオブジェ
クト検出ネットワークを使って、 SpaceNet の画像か
ら建物を検出する方法を、 PARALLEL FORALL
ブログで解説しています
https://devblogs.nvidia.com/parallelforall/exploring-spacenet-dataset-using-digits/
NVIDIA DIGITS による物体検出
“Exploring the SpaceNet Dataset Using DIGITS”
37
GTC 2017 で発表
● EC2 が Tesla V100 をサポート
Tesla V100 が EC2 にやってきます。
5120 個の CUDA コアによる高い浮動小数点演算性能に加え、新たに 640 個の “Tensor コア"
を加えることでディープラーニングのトレーニング性能を飛躍的に高めた Tesla V100 をクラウドで手
軽に利用できることは、機械学習に関わる研究者やエンジニアにとって大きなメリットとなるでしょう。
● Deep Learning Institute を共同で推進
エヌビディアは、ディープラーニングに関わる技術者の育成を推進するため、 "Deep Learning
Institute (DLI)" という取り組みを行っています。中でもクラウドベースのハンズオントレーニングは特に
人気のあるコースです。DLI ハンズオンの基盤として、世界中にデータセンター群を展開する AWS は
最適なプラットフォームです。
AWS と NVIDIA のさらなる協業
38
NVIDIA と Microsoft の協業
Cognitive Toolkit (旧称: CNTK) を Azure と DGX-1 の双方に最適化
NVIDIA Tesla GPU
NVIDIA DGX-1 Azure Data Center
NVIDIA GPUDL Toolkit
39
名称 CPU コア数 メモリ GPU RDMA
NV6 6 56 GB Tesla M60 半分 (GPU 1基)
NV12 12 112 GB Tesla M60 1枚 (GPU 2基)
NV24 24 224 GB Tesla M60 2枚 (GPU 4基)
NC6 6 56 GB Tesla K80 半分 (GPU 1基)
NC12 12 112 GB Tesla K80 1枚 (GPU 2基)
NC24 24 224 GB Tesla K80 2枚 (GPU 4基)
NC24r 24 224 GB Tesla K80 2枚 (GPU 4基) InfiniBand
Microsoft Azure N シリーズ GPU インスタンス
2 種類の NVIDIA GPUを搭載
40
GTC 2017 で新たな GPU インスタンスを発表
Pascal 世代 GPU を搭載する新型が登場
名称 CPUコア数 メモリ GPU RDMA
NC6s_v2 6 112 GB Tesla P100 x 1 -
NC12s_v2 12 224 GB Tesla P100 x 2 -
NC24s_v2 24 448 GB Tesla P100 x 4 -
NC24rs_v2 24 448 GB Tesla P100 x 4 InfiniBand
ND6s 6 112 GB Tesla P40 x 1 -
ND12s 12 224 GB Tesla P40 x 2 -
ND24s 24 448 GB Tesla P40 x 4 -
ND24rs 24 448 GB Tesla P40 x 4 InfiniBand
41
GPU ドライバからディープラーニングフレームワークまで
「全部入り」の仮想マシンイメージ
42
エヌビディア DIGITS
GPU で高速化されたディープラーニングトレーニング・システム
Test Image
学習過程の可視化モデルの作成学習データの作成 モデルのテスト
http://developer.nvidia.com/digits
43
IBM Bluemix Infrastructure
GPU 搭載のベアメタルサーバーを月単位 / 時間単位で
GPU 種別
GPU メモリ
(GB)
CUDA コア数 CPU
CPU
コア数
メモリ
(GB)
ディスク
Tesla K80 24 4,992
2 x E5-2620 v3 12
64 1TB SATA2 x E5-2650 v3 20
2 x E5-2690 v3 24
2 x E5-2620 v4 16 128 2x 800GB SSD
Tesla M60 16 4,096
2 x E5-2620 v3 12
64 1TB SATA2 x E5-2650 v3 20
2 x E5-2690 v3 24
Hourly
※ この他、 GRID K2 と Tesla K10 が選択可能
44
Google Cloud Platform
Google の IaaS に Tesla K80 と P100 が登場
 Tesla K80 と Tesla P100 を利用可能
 様々なインスタンスに GPU をアタッチ可能
 分単位の課金で効率的に利用
 プレビュー提供中
GCP の GPU
45
GPU スーパーコンピューター
46
NVIDIA DGX-1 を 124 ノード
ノードあたり 8 基、全体で 992 基の NVIDIA Tesla P100 GPU
NVLINK キューブメッシュ
2 基の Intel Xeon 20 コア CPU
512TB DDR4 システムメモリ
SSD – 7 TB スクラッチ領域 + 0.5 TB システム領域
Mellanox 36 ポート EDR L1, L2 スイッチ
ノード毎に 4 ポート
Partial Fat tree トポロジ
Ubuntu 14.04, CUDA 8, OpenMPI 1.10.3
NVIDIA GPU BLAS + Intel MKL (NVIDIA GPU HPL)
NVIDIA DGX SATURNV
Green500 で首位を獲得した(2016年11月)スーパーコンピューター
nvidia.com/dgx1
47
世界初の GPU スパコン - TSUBAME 1.2
2008 年 11 月の TOP500 で
29 位にランクイン
NVIDIA Tesla S1070 搭載
実効性能 77.5 TFLOPS
32nm 40nm
>400GB/s Mem BW
80Gbps NW BW
~1KW max
>1.6TB/s Mem BW >12TB/s Mem BW
35KW Max
>600TB/s Mem BW
220Tbps NW
Bisecion BW
1.4MW Max
TSUBAME2.0 2010年11月1日稼働開始
世界最小のペタフロップス・省電力スパコン
各種基礎研究がベース
メーカーと新規共同開発
• 大規模なGPU採用による高性能と低電力の両立
• 最小の設置面積(200m2程度)、高いコストパフォーマンス
• 高性能にマッチした光ネットワーク、SSDストレージ
TSUBAME2.0⇒2.5 計算ノードの進化(2013/9)
• 全 4224GPU を最新のKepler GPUに
ほぼ運用中断なく交換
• 幾つかの技術上・運用上の問題を
メーカーと共同で克服
• 低コスト・短期間でマシンの能力を2-3
倍に向上に成功
NVIDIA Fermi
M2050
1039/515GFlops
3GBメモリ
NVIDIA Kepler
K20X
3950/1310GFlops
6GBメモリ
TSUBAME-KFC: ウルトラグリーン・スパコン研究設備
(文部科学省概算要求・2011-2015・約2億円)
高温冷却系
冷媒油 35~45℃
⇒ 水 25~35℃
(TSUBAME2は7~17℃)
冷却塔:
水 25~35℃
⇒ 自然大気へ
液浸冷却+高温大気冷却+高密度実装+電力制御のスパコン技術を統合
TSUBAME3.0のプロトタイプ
コンテナ型研究設備
20フィートコンテナ(16m2)
無人自動制御運転
将来はエネルギー回収も
高密度実装・油浸冷却
210TFlops (倍精度)
630TFlops (単精度)
1ラック
2013年11月/2014年6月
Green500ランキング
世界一位(日本初)
2015アップグレード
500TFlops (倍精度)
機械学習等1.5PFlops (単精度)
世界最高性能密度
(やはり1ラック=>7ラックで京相当)
51
TSUBAME 3.0 のシステム概要
フルバイセクションバンド幅の
インテル® Omni-Path® 光ネットワーク
432 Terabits/秒 双方向
全インターネット平均通信量の2倍
DDNのストレージシステム
(並列FS 15.9PB+ Home 45TB)
540 の計算ノード SGI ICE® XA
インテル®Xeon® CPU×2+NVIDIA Tesla P100 GPU×4
256GB メモリ、2TB の NVMe 対応インテル®SSD
47.2 AI ペタフロップス, 倍精度: 12.1 ペタフロップス
2017 年 8 月本稼働
CPU 0
PLX
GPU 0
OPA HFI
OPA HFI
DIMM
DIMM
DIMM
DIMM
GPU 1
CPU 1
DIMM
DIMM
DIMM
DIMM
PLX OPA HFI
GPU 2 GPU 3
OPA HFI
PCH
SSD
QPI NVLink
x16 PCIe
x16 PCIe
x16 PCIe
x16 PCIe
x16 PCIe
x16 PCIe x16 PCIe
x16 PCIe x16 PCIe
x16 PCIe
x4 PCIe
DMI
CPU 0
PLX
GPU 0
OPA HFI
OPA HFI
DIMM
DIMM
DIMM
DIMM
GPU 1
CPU 1
DIMM
DIMM
DIMM
DIMM
PLX OPA HFI
GPU 2 GPU 3
OPA HFI
PCH
SSD
QPI NVLink
x16 PCIe
x16 PCIe
x16 PCIe
x16 PCIe
x16 PCIe
x16 PCIe x16 PCIe
x16 PCIe x16 PCIe
x16 PCIe
x4 PCIe
DMI
TSUBAME3.0 計算ノードは SGI 社と東工大 GSIC の共同設計による
TSUBAME3.0 用新設計
計算ノードの接続構成
x9
SGI ICE XA (製品の範囲)
相互結合網の上位(スパイン)スイッチ:フルバイセクション
432 Terabit/s 双方向 Intel OmniPath
計算ノード 計算ノード
x60セット
(合計 540ノード)
x60ペア
(合計 120スイッチ)
相互結合網の範囲
18ポート使用
18ポート使用
18ポート使用
18ポート使用
超高性能な”Fat Node”構成(TSUBAMEの伝統)
• 4 SXM2(NVLink) NVIDIA Pascal P100 GPU
• 高ネットワークバンド幅 – Intel Omnipath ネット
ワーク 100GBps x 4 = 400Gbps
• 高 I/O バンド幅- Intel 2 TeraByte NVMe
• システム合計容量1ペタバイト以上、
2Terabyte/秒の合算バンド幅
• 高密度・高温水冷ブレード – 1ラックあたり 36 ブ
レード = 144 GPU + 72 CPU、50-60KW
• 一般データセンターの10-20倍
CPU 0
PLX
GPU 0
OPA HFI
OPA HFI
DIMM
DIMM
DIMM
DIMM
GPU 1
CPU 1
DIMM
DIMM
DIMM
DIMM
PLX OPA HFI
GPU 2 GPU 3
OPA HFI
PCH
SSD
QPI NVLink
x16 PCIe
x16 PCIe
x16 PCIe
x16 PCIe
x16 PCIe
x16 PCIe x16 PCIe
x16 PCIe x16 PCIe
x16 PCIe
x4 PCIe
DMI
TSUBAME3.0 冷却システム系統図
32℃の自然大気冷却水による高効率高温冷却
計算ノード
(SGI ICE XA system)
I/O , File system
自然大気
水冷冷却塔
Air conditioner
周辺機器用チラー
分岐ヘッダー
【1F-屋外】
【B1F】
【RF】
【1F-114室】【1F-114室】
分岐ヘッダー
【EPS】
分岐ヘッダー 分岐ヘッダー
空冷冷却
(22℃)
システム発熱量10~15%
+
環境潜熱
水冷冷却
(往き:約14℃)
水冷冷却
(還り:約21℃)
水冷冷却
(往き:約32℃)
水冷冷却
(還り:約40℃)
熱交換機
冷却補助回路(200kW)
水冷冷却
(往き:約14℃)水冷冷却
(還り:約21℃)
水冷冷却
(還り:約40℃)
水冷冷却
(往き:約32℃)
※RF or B1F設置
TSUBAME3.0 世界トップクラスの冷却効率
TSUBAME 3.0 PUE 予測 (900KW消費仮定) 2013 ~ 2015 年の天候データを元に計算
1月 2月 3月 4月 5月 6月 7月 8月 9月 10月 11月 12月
年間
平均
冷却設備
平均消費電力
[kW]
28.83 28.83 28.83 28.83 29.21 30.06 30.06 32.00 30.06 29.21 28.83 28.83 29.465
PUE 1.032 1.032 1.032 1.032 1.032 1.033 1.033 1.036 1.033 1.032 1.032 1.032 1.033
PUEは冷却のオーバーヘッドを表す。1.0に近いほど良い
PUE = {(計算ノードの消費電力)+(計算ノードの冷却に必要なすべての設備消費電力)}
/ (計算ノードの消費電力)
• 通常のデータセンター:PUE = 2~3 (冷却の方がマシンより電気を食っている)
• 最新の空冷データセンター、TSUBAME1:PUE = 1.4~1.6
• TSUBAME2.0:PUE = 1.28
• TSUBAME-KFC:PUE = 1.09
TSUBAME3.0の計算ノードの年間PUE平均値は『1.033』
世界トップクラス
55
Green500 リストの上位を Tesla P100 搭載システムが独占
2017年6月版 TOP/Green500 NVIDIA 関連情報のまとめ
日本版#ISC17
フランクフルトにて開催中の ISC 2017 で 2017 年6月版の TOP500/Green500 リストが発表さ
れました。昨年11月の Green500 リストでは、 Tesla P100 搭載の NVIDIA DGX SATURNV と
CSCS Piz Daint が1,2位を獲得し、Tesla P100 の高い電力性能比を印象づけましたが、今回
は Tesla P100 搭載システムがさらに躍進。1~4 位を日本の P100 システムが占めるという
記念すべき回になりました。
全体としては 20 システムが Tesla P100 を搭載。その多くが Green500 の上位にランクし、1位
から 16 位までのうち、実に 14 システムが Tesla P100 搭載システムという結果になりました。
https://www.top500.org/green500/lists/2017/06/
NEWS
東工大 TSUBAME 3.0 と産総研 AAIC が Green500 で 1, 3 位を獲得
東京工業大学の TSUBAME 3.0 は今年8月の本稼働に向け構築中ですが、フル構成の1/4の
状態で今回の TOP/Green500 計測に挑み、1.998 PFlops で TOP500 の 61 位にランクイン。
そして電力性能比 14.11 GFlops/W を記録して見事 Green500 の首位を獲得しました。
外気に近い温度の冷却水を用いて効率良く冷却を行い、PUE=1.033 を目指すその省エネ
性能が存分に発揮されたといえるでしょう。
http://www.titech.ac.jp/news/2017/038640.html
産総研 AAIC (Aist AI Cloud) は、産総研人工知能研究センター (AIRC) で 2017 年 4 月に
稼働を開始したシステムで、TOP500 の 148 位 (961 TFlops)、そして 12.68 GFlops/W で
Green500 の3位を獲得しました。
これら2システムの Green500 チャレンジは、産総研・東工大の研究協力による成果です。
http://www.aist.go.jp/aist_j/press_release/pr2017/pr20170619/pr20170619.html
v1.2
bit.ly/isc17nv
56
# システム名称 所属 GFlops/W
1 TSUBAME 3.0 東京工業大学 14.11
2 kukai(クウカイ) Yahoo! JAPAN 14.05
3 AIST AI Cloud 産業技術総合研究所 12.68
4 RAIDEN GPU subsystem 理化学研究所 10.60
5 Wilkes-2 University of Cambridge 10.43
6 Piz Daint Swiss National Supercomputing Centre (CSCS) 10.40
8
Research Computation Facility
for GOSAT-2 (RCF2)
国立環境研究所 9.80
9 NVIDIA DGX-1/Relion 2904GT Facebook 9.46
10 DGX SATURNV NVIDIA 9.46
11 Reedbush-H 東京大学 8.58
12 JADE University of Oxford 8.43
13 Cedar Simon Fraser University/Compute Canada 8.01
14 DAVIDE E4 Computer Engineering 7.72
16 Hōkūle’a Maui High-Performance Computing Center (MHPCC) 6.67
Green500 1~16位の Tesla P100 搭載システム(太字は日本のシステム)
57
エクサスケールへの道
米国最大のスーパーコンピューターが
Volta アーキテクチャの GPU を採用
TeslaP100との比較
Volta の HPC アプリケーションパフォーマンス
System Config Info: 2X Xeon E5-2690 v4, 2.6GHz, w/ 1X Tesla
P100 or V100. V100 measured on pre-production hardware.
Summit
Supercomputer
200+ PetaFlops
~3,400 Nodes
10 Megawatts
58
Jetson: AI エッジコンピューティング
59
JETSON による EDGE の AI 化の実現
インフラ点検捜索、レスキュー
配送測量エンタープライズ
コラボレーション
AI シティ
パーソナルアシスト
サービスロボット
ポータブルメディカル 学術&研究
60
VIDEO: Jetson
61
自動運転
62
NVIDIA DRIVE — AI カープラットフォーム
コンピュータビジョンライブラリ
OS
認識 AI
CUDA、cuDNN、TensorRT
自己位置推定 パスプランニング
1 TOPS
10 TOPS
100 TOPS
DRIVE PX 2 Parker
Level 2/3
DRIVE PX Xavier
Level 4/5
63
VIDEO: BB8
64
認識 DNN のサンプル
複数のディープ ニューラル ネットワーク
DriveNet LaneNet
OpenRoadNet
車線の検出
多クラス分類: 乗用車、トラック、歩行者、
二輪車、信号や標識
走行可能空間の検出
65
VIDEO: DRIVENET
66
VIDEO: LaneNet
67
VIDEO: OpenRoadNet
68
Volvo と Autoliv も NVIDIA DRIVE PX を選択
自動運転車を 2021 年に市場投入
69
CONNECT
NVIDIA をはじめ日本中から
集まる GPU の専門家と交流
LEARN
数多くの技術セッションとポスター
展示、大規模なハンズオンラボ
で学びを深める
DISCOVER
A I や 自 動 運 転 と い っ た 重 要 な
領域でのブレークスルーに GPU が
果たしている様々な役割を発見
INNOVATE
新進気鋭のスタートアップによる
破壊的イノベーシ ョンに 注目
世界最大の GPU 技術イベントにぜひご参加ください
GTC Japan 2017 は 2017年12月12 ~ 13日に東京で開催
2017/12/12~13 | 東京 | #GTC17
http://www.gputechconf.jp/
70
GPU コンピューティング最前線
エヌビディア合同会社
佐々木邦暢 (@_ksasaki)

Weitere ähnliche Inhalte

Was ist angesagt?

20160220 MSのビッグデータ分析基盤 - データマイニング+WEB@東京
20160220 MSのビッグデータ分析基盤 - データマイニング+WEB@東京20160220 MSのビッグデータ分析基盤 - データマイニング+WEB@東京
20160220 MSのビッグデータ分析基盤 - データマイニング+WEB@東京Koichiro Sasaki
 
産総研AIクラウドでChainerMN
産総研AIクラウドでChainerMN産総研AIクラウドでChainerMN
産総研AIクラウドでChainerMNHitoshi Sato
 
CUDAプログラミング入門
CUDAプログラミング入門CUDAプログラミング入門
CUDAプログラミング入門NVIDIA Japan
 
Pivotal Greenplumで実現する次世代データ分析基盤のご紹介
Pivotal Greenplumで実現する次世代データ分析基盤のご紹介Pivotal Greenplumで実現する次世代データ分析基盤のご紹介
Pivotal Greenplumで実現する次世代データ分析基盤のご紹介Masayuki Matsushita
 
SSDとGPUがPostgreSQLを加速する【OSC.Enterprise】
SSDとGPUがPostgreSQLを加速する【OSC.Enterprise】SSDとGPUがPostgreSQLを加速する【OSC.Enterprise】
SSDとGPUがPostgreSQLを加速する【OSC.Enterprise】Kohei KaiGai
 
20180627 databricks ver1.1
20180627 databricks ver1.120180627 databricks ver1.1
20180627 databricks ver1.1Hirono Jumpei
 
[db tech showcase Tokyo 2017] D35: 何を基準に選定すべきなのか!? ~ビッグデータ×IoT×AI時代のデータベースのアー...
[db tech showcase Tokyo 2017] D35: 何を基準に選定すべきなのか!? ~ビッグデータ×IoT×AI時代のデータベースのアー...[db tech showcase Tokyo 2017] D35: 何を基準に選定すべきなのか!? ~ビッグデータ×IoT×AI時代のデータベースのアー...
[db tech showcase Tokyo 2017] D35: 何を基準に選定すべきなのか!? ~ビッグデータ×IoT×AI時代のデータベースのアー...Insight Technology, Inc.
 
Singularityで分散深層学習
Singularityで分散深層学習Singularityで分散深層学習
Singularityで分散深層学習Hitoshi Sato
 
20191115-PGconf.Japan
20191115-PGconf.Japan20191115-PGconf.Japan
20191115-PGconf.JapanKohei KaiGai
 
Graviton2プロセッサの性能特性と適用箇所/Supership株式会社 中野 豊
Graviton2プロセッサの性能特性と適用箇所/Supership株式会社 中野 豊Graviton2プロセッサの性能特性と適用箇所/Supership株式会社 中野 豊
Graviton2プロセッサの性能特性と適用箇所/Supership株式会社 中野 豊Supership株式会社
 
[db tech showcase Tokyo 2017] B35: 地図用データを高速処理!オープンソースGPUデータベースMapDの魅力に迫る!!by...
[db tech showcase Tokyo 2017] B35: 地図用データを高速処理!オープンソースGPUデータベースMapDの魅力に迫る!!by...[db tech showcase Tokyo 2017] B35: 地図用データを高速処理!オープンソースGPUデータベースMapDの魅力に迫る!!by...
[db tech showcase Tokyo 2017] B35: 地図用データを高速処理!オープンソースGPUデータベースMapDの魅力に迫る!!by...Insight Technology, Inc.
 
GTC 2017 基調講演からディープラーニング関連情報のご紹介
GTC 2017 基調講演からディープラーニング関連情報のご紹介GTC 2017 基調講演からディープラーニング関連情報のご紹介
GTC 2017 基調講演からディープラーニング関連情報のご紹介NVIDIA Japan
 
[Cloud OnAir] ビジネスを変革する!クラウドを活用したデータ分析基盤の第一歩 (LIVE) 2018年4月12日 放送
[Cloud OnAir] ビジネスを変革する!クラウドを活用したデータ分析基盤の第一歩 (LIVE) 2018年4月12日 放送[Cloud OnAir] ビジネスを変革する!クラウドを活用したデータ分析基盤の第一歩 (LIVE) 2018年4月12日 放送
[Cloud OnAir] ビジネスを変革する!クラウドを活用したデータ分析基盤の第一歩 (LIVE) 2018年4月12日 放送Google Cloud Platform - Japan
 
20201113_PGconf_Japan_GPU_PostGIS
20201113_PGconf_Japan_GPU_PostGIS20201113_PGconf_Japan_GPU_PostGIS
20201113_PGconf_Japan_GPU_PostGISKohei KaiGai
 
今こそクラウドへ!データの移行、連携、統合のコツ
今こそクラウドへ!データの移行、連携、統合のコツ今こそクラウドへ!データの移行、連携、統合のコツ
今こそクラウドへ!データの移行、連携、統合のコツ株式会社クライム
 
Azure Antenna はじめての Azure Data Lake
Azure Antenna はじめての Azure Data LakeAzure Antenna はじめての Azure Data Lake
Azure Antenna はじめての Azure Data LakeHideo Takagi
 
[CWT2017]Infrastructure as Codeを活用したF.O.Xのクラウドビッグデータ環境の変化
[CWT2017]Infrastructure as Codeを活用したF.O.Xのクラウドビッグデータ環境の変化[CWT2017]Infrastructure as Codeを活用したF.O.Xのクラウドビッグデータ環境の変化
[CWT2017]Infrastructure as Codeを活用したF.O.Xのクラウドビッグデータ環境の変化Takahiro Moteki
 
[Azure Deep Dive] Spark と Azure HDInsight によるビッグ データ分析入門 (2017/03/27)
[Azure Deep Dive] Spark と Azure HDInsight によるビッグ データ分析入門 (2017/03/27)[Azure Deep Dive] Spark と Azure HDInsight によるビッグ データ分析入門 (2017/03/27)
[Azure Deep Dive] Spark と Azure HDInsight によるビッグ データ分析入門 (2017/03/27)Naoki (Neo) SATO
 

Was ist angesagt? (20)

20160220 MSのビッグデータ分析基盤 - データマイニング+WEB@東京
20160220 MSのビッグデータ分析基盤 - データマイニング+WEB@東京20160220 MSのビッグデータ分析基盤 - データマイニング+WEB@東京
20160220 MSのビッグデータ分析基盤 - データマイニング+WEB@東京
 
産総研AIクラウドでChainerMN
産総研AIクラウドでChainerMN産総研AIクラウドでChainerMN
産総研AIクラウドでChainerMN
 
CUDAプログラミング入門
CUDAプログラミング入門CUDAプログラミング入門
CUDAプログラミング入門
 
Pivotal Greenplumで実現する次世代データ分析基盤のご紹介
Pivotal Greenplumで実現する次世代データ分析基盤のご紹介Pivotal Greenplumで実現する次世代データ分析基盤のご紹介
Pivotal Greenplumで実現する次世代データ分析基盤のご紹介
 
SSDとGPUがPostgreSQLを加速する【OSC.Enterprise】
SSDとGPUがPostgreSQLを加速する【OSC.Enterprise】SSDとGPUがPostgreSQLを加速する【OSC.Enterprise】
SSDとGPUがPostgreSQLを加速する【OSC.Enterprise】
 
20180627 databricks ver1.1
20180627 databricks ver1.120180627 databricks ver1.1
20180627 databricks ver1.1
 
[db tech showcase Tokyo 2017] D35: 何を基準に選定すべきなのか!? ~ビッグデータ×IoT×AI時代のデータベースのアー...
[db tech showcase Tokyo 2017] D35: 何を基準に選定すべきなのか!? ~ビッグデータ×IoT×AI時代のデータベースのアー...[db tech showcase Tokyo 2017] D35: 何を基準に選定すべきなのか!? ~ビッグデータ×IoT×AI時代のデータベースのアー...
[db tech showcase Tokyo 2017] D35: 何を基準に選定すべきなのか!? ~ビッグデータ×IoT×AI時代のデータベースのアー...
 
Singularityで分散深層学習
Singularityで分散深層学習Singularityで分散深層学習
Singularityで分散深層学習
 
20191115-PGconf.Japan
20191115-PGconf.Japan20191115-PGconf.Japan
20191115-PGconf.Japan
 
Graviton2プロセッサの性能特性と適用箇所/Supership株式会社 中野 豊
Graviton2プロセッサの性能特性と適用箇所/Supership株式会社 中野 豊Graviton2プロセッサの性能特性と適用箇所/Supership株式会社 中野 豊
Graviton2プロセッサの性能特性と適用箇所/Supership株式会社 中野 豊
 
[db tech showcase Tokyo 2017] B35: 地図用データを高速処理!オープンソースGPUデータベースMapDの魅力に迫る!!by...
[db tech showcase Tokyo 2017] B35: 地図用データを高速処理!オープンソースGPUデータベースMapDの魅力に迫る!!by...[db tech showcase Tokyo 2017] B35: 地図用データを高速処理!オープンソースGPUデータベースMapDの魅力に迫る!!by...
[db tech showcase Tokyo 2017] B35: 地図用データを高速処理!オープンソースGPUデータベースMapDの魅力に迫る!!by...
 
GTC 2017 基調講演からディープラーニング関連情報のご紹介
GTC 2017 基調講演からディープラーニング関連情報のご紹介GTC 2017 基調講演からディープラーニング関連情報のご紹介
GTC 2017 基調講演からディープラーニング関連情報のご紹介
 
[基調講演] DLL_RealtimeAI
[基調講演] DLL_RealtimeAI[基調講演] DLL_RealtimeAI
[基調講演] DLL_RealtimeAI
 
[Cloud OnAir] ビジネスを変革する!クラウドを活用したデータ分析基盤の第一歩 (LIVE) 2018年4月12日 放送
[Cloud OnAir] ビジネスを変革する!クラウドを活用したデータ分析基盤の第一歩 (LIVE) 2018年4月12日 放送[Cloud OnAir] ビジネスを変革する!クラウドを活用したデータ分析基盤の第一歩 (LIVE) 2018年4月12日 放送
[Cloud OnAir] ビジネスを変革する!クラウドを活用したデータ分析基盤の第一歩 (LIVE) 2018年4月12日 放送
 
20201113_PGconf_Japan_GPU_PostGIS
20201113_PGconf_Japan_GPU_PostGIS20201113_PGconf_Japan_GPU_PostGIS
20201113_PGconf_Japan_GPU_PostGIS
 
今こそクラウドへ!データの移行、連携、統合のコツ
今こそクラウドへ!データの移行、連携、統合のコツ今こそクラウドへ!データの移行、連携、統合のコツ
今こそクラウドへ!データの移行、連携、統合のコツ
 
20170518 eureka dli
20170518 eureka dli20170518 eureka dli
20170518 eureka dli
 
Azure Antenna はじめての Azure Data Lake
Azure Antenna はじめての Azure Data LakeAzure Antenna はじめての Azure Data Lake
Azure Antenna はじめての Azure Data Lake
 
[CWT2017]Infrastructure as Codeを活用したF.O.Xのクラウドビッグデータ環境の変化
[CWT2017]Infrastructure as Codeを活用したF.O.Xのクラウドビッグデータ環境の変化[CWT2017]Infrastructure as Codeを活用したF.O.Xのクラウドビッグデータ環境の変化
[CWT2017]Infrastructure as Codeを活用したF.O.Xのクラウドビッグデータ環境の変化
 
[Azure Deep Dive] Spark と Azure HDInsight によるビッグ データ分析入門 (2017/03/27)
[Azure Deep Dive] Spark と Azure HDInsight によるビッグ データ分析入門 (2017/03/27)[Azure Deep Dive] Spark と Azure HDInsight によるビッグ データ分析入門 (2017/03/27)
[Azure Deep Dive] Spark と Azure HDInsight によるビッグ データ分析入門 (2017/03/27)
 

Ähnlich wie [db analytics showcase Sapporo 2017] B14: GPU コンピューティング最前線 by エヌビディア 佐々木邦暢

【A-1】AIを支えるGPUコンピューティングの今
【A-1】AIを支えるGPUコンピューティングの今【A-1】AIを支えるGPUコンピューティングの今
【A-1】AIを支えるGPUコンピューティングの今Developers Summit
 
NVIDIA deep learning最新情報in沖縄
NVIDIA deep learning最新情報in沖縄NVIDIA deep learning最新情報in沖縄
NVIDIA deep learning最新情報in沖縄Tak Izaki
 
GTC 2020 発表内容まとめ
GTC 2020 発表内容まとめGTC 2020 発表内容まとめ
GTC 2020 発表内容まとめNVIDIA Japan
 
GTC 2020 発表内容まとめ
GTC 2020 発表内容まとめGTC 2020 発表内容まとめ
GTC 2020 発表内容まとめAya Owosekun
 
NVIDIA 更新情報: Tesla P100 PCIe/cuDNN 5.1
NVIDIA 更新情報: Tesla P100 PCIe/cuDNN 5.1NVIDIA 更新情報: Tesla P100 PCIe/cuDNN 5.1
NVIDIA 更新情報: Tesla P100 PCIe/cuDNN 5.1NVIDIA Japan
 
GPU クラウド コンピューティング
GPU クラウド コンピューティングGPU クラウド コンピューティング
GPU クラウド コンピューティングNVIDIA Japan
 
20170421 tensor flowusergroup
20170421 tensor flowusergroup20170421 tensor flowusergroup
20170421 tensor flowusergroupManaMurakami1
 
20170726 py data.tokyo
20170726 py data.tokyo20170726 py data.tokyo
20170726 py data.tokyoManaMurakami1
 
NVIDIA 最近の動向
NVIDIA 最近の動向NVIDIA 最近の動向
NVIDIA 最近の動向NVIDIA Japan
 
MII conference177 nvidia
MII conference177 nvidiaMII conference177 nvidia
MII conference177 nvidiaTak Izaki
 
GPUディープラーニング最新情報
GPUディープラーニング最新情報GPUディープラーニング最新情報
GPUディープラーニング最新情報ReNom User Group
 
NVIDIA GPU 技術最新情報
NVIDIA GPU 技術最新情報NVIDIA GPU 技術最新情報
NVIDIA GPU 技術最新情報IDC Frontier
 
A100 GPU 搭載! P4d インスタンス 使いこなしのコツ
A100 GPU 搭載! P4d インスタンス使いこなしのコツA100 GPU 搭載! P4d インスタンス使いこなしのコツ
A100 GPU 搭載! P4d インスタンス 使いこなしのコツKuninobu SaSaki
 
GPU スパコン最新情報
GPU スパコン最新情報GPU スパコン最新情報
GPU スパコン最新情報NVIDIA Japan
 
200625material naruse
200625material naruse200625material naruse
200625material naruseRCCSRENKEI
 
エヌビディアが加速するディープラーニング ~進化するニューラルネットワークとその開発方法について~
エヌビディアが加速するディープラーニング ~進化するニューラルネットワークとその開発方法について~エヌビディアが加速するディープラーニング ~進化するニューラルネットワークとその開発方法について~
エヌビディアが加速するディープラーニング ~進化するニューラルネットワークとその開発方法について~NVIDIA Japan
 
【de:code 2020】 AI とデータ サイエンスを加速する NVIDIA の最新 GPU アーキテクチャ
【de:code 2020】 AI とデータ サイエンスを加速する NVIDIA の最新 GPU アーキテクチャ【de:code 2020】 AI とデータ サイエンスを加速する NVIDIA の最新 GPU アーキテクチャ
【de:code 2020】 AI とデータ サイエンスを加速する NVIDIA の最新 GPU アーキテクチャ日本マイクロソフト株式会社
 
機械学習とこれを支える並列計算: ディープラーニング・スーパーコンピューターの応用について
機械学習とこれを支える並列計算: ディープラーニング・スーパーコンピューターの応用について機械学習とこれを支える並列計算: ディープラーニング・スーパーコンピューターの応用について
機械学習とこれを支える並列計算: ディープラーニング・スーパーコンピューターの応用についてハイシンク創研 / Laboratory of Hi-Think Corporation
 
Chainer と Microsoft Azure 広がる応用 (Chainer Meetup #5)
Chainer と Microsoft Azure 広がる応用 (Chainer Meetup #5)Chainer と Microsoft Azure 広がる応用 (Chainer Meetup #5)
Chainer と Microsoft Azure 広がる応用 (Chainer Meetup #5)Hirono Jumpei
 

Ähnlich wie [db analytics showcase Sapporo 2017] B14: GPU コンピューティング最前線 by エヌビディア 佐々木邦暢 (20)

【A-1】AIを支えるGPUコンピューティングの今
【A-1】AIを支えるGPUコンピューティングの今【A-1】AIを支えるGPUコンピューティングの今
【A-1】AIを支えるGPUコンピューティングの今
 
NVIDIA deep learning最新情報in沖縄
NVIDIA deep learning最新情報in沖縄NVIDIA deep learning最新情報in沖縄
NVIDIA deep learning最新情報in沖縄
 
GTC 2020 発表内容まとめ
GTC 2020 発表内容まとめGTC 2020 発表内容まとめ
GTC 2020 発表内容まとめ
 
GTC 2020 発表内容まとめ
GTC 2020 発表内容まとめGTC 2020 発表内容まとめ
GTC 2020 発表内容まとめ
 
NVIDIA 更新情報: Tesla P100 PCIe/cuDNN 5.1
NVIDIA 更新情報: Tesla P100 PCIe/cuDNN 5.1NVIDIA 更新情報: Tesla P100 PCIe/cuDNN 5.1
NVIDIA 更新情報: Tesla P100 PCIe/cuDNN 5.1
 
GPU クラウド コンピューティング
GPU クラウド コンピューティングGPU クラウド コンピューティング
GPU クラウド コンピューティング
 
20170421 tensor flowusergroup
20170421 tensor flowusergroup20170421 tensor flowusergroup
20170421 tensor flowusergroup
 
20170726 py data.tokyo
20170726 py data.tokyo20170726 py data.tokyo
20170726 py data.tokyo
 
NVIDIA 最近の動向
NVIDIA 最近の動向NVIDIA 最近の動向
NVIDIA 最近の動向
 
MII conference177 nvidia
MII conference177 nvidiaMII conference177 nvidia
MII conference177 nvidia
 
GPUディープラーニング最新情報
GPUディープラーニング最新情報GPUディープラーニング最新情報
GPUディープラーニング最新情報
 
NVIDIA GPU 技術最新情報
NVIDIA GPU 技術最新情報NVIDIA GPU 技術最新情報
NVIDIA GPU 技術最新情報
 
A100 GPU 搭載! P4d インスタンス 使いこなしのコツ
A100 GPU 搭載! P4d インスタンス使いこなしのコツA100 GPU 搭載! P4d インスタンス使いこなしのコツ
A100 GPU 搭載! P4d インスタンス 使いこなしのコツ
 
GPU スパコン最新情報
GPU スパコン最新情報GPU スパコン最新情報
GPU スパコン最新情報
 
Cmc cmd slim
Cmc cmd slimCmc cmd slim
Cmc cmd slim
 
200625material naruse
200625material naruse200625material naruse
200625material naruse
 
エヌビディアが加速するディープラーニング ~進化するニューラルネットワークとその開発方法について~
エヌビディアが加速するディープラーニング ~進化するニューラルネットワークとその開発方法について~エヌビディアが加速するディープラーニング ~進化するニューラルネットワークとその開発方法について~
エヌビディアが加速するディープラーニング ~進化するニューラルネットワークとその開発方法について~
 
【de:code 2020】 AI とデータ サイエンスを加速する NVIDIA の最新 GPU アーキテクチャ
【de:code 2020】 AI とデータ サイエンスを加速する NVIDIA の最新 GPU アーキテクチャ【de:code 2020】 AI とデータ サイエンスを加速する NVIDIA の最新 GPU アーキテクチャ
【de:code 2020】 AI とデータ サイエンスを加速する NVIDIA の最新 GPU アーキテクチャ
 
機械学習とこれを支える並列計算: ディープラーニング・スーパーコンピューターの応用について
機械学習とこれを支える並列計算: ディープラーニング・スーパーコンピューターの応用について機械学習とこれを支える並列計算: ディープラーニング・スーパーコンピューターの応用について
機械学習とこれを支える並列計算: ディープラーニング・スーパーコンピューターの応用について
 
Chainer と Microsoft Azure 広がる応用 (Chainer Meetup #5)
Chainer と Microsoft Azure 広がる応用 (Chainer Meetup #5)Chainer と Microsoft Azure 広がる応用 (Chainer Meetup #5)
Chainer と Microsoft Azure 広がる応用 (Chainer Meetup #5)
 

Mehr von Insight Technology, Inc.

グラフデータベースは如何に自然言語を理解するか?
グラフデータベースは如何に自然言語を理解するか?グラフデータベースは如何に自然言語を理解するか?
グラフデータベースは如何に自然言語を理解するか?Insight Technology, Inc.
 
Great performance at scale~次期PostgreSQL12のパーティショニング性能の実力に迫る~
Great performance at scale~次期PostgreSQL12のパーティショニング性能の実力に迫る~Great performance at scale~次期PostgreSQL12のパーティショニング性能の実力に迫る~
Great performance at scale~次期PostgreSQL12のパーティショニング性能の実力に迫る~Insight Technology, Inc.
 
事例を通じて機械学習とは何かを説明する
事例を通じて機械学習とは何かを説明する事例を通じて機械学習とは何かを説明する
事例を通じて機械学習とは何かを説明するInsight Technology, Inc.
 
仮想通貨ウォレットアプリで理解するデータストアとしてのブロックチェーン
仮想通貨ウォレットアプリで理解するデータストアとしてのブロックチェーン仮想通貨ウォレットアプリで理解するデータストアとしてのブロックチェーン
仮想通貨ウォレットアプリで理解するデータストアとしてのブロックチェーンInsight Technology, Inc.
 
MBAAで覚えるDBREの大事なおしごと
MBAAで覚えるDBREの大事なおしごとMBAAで覚えるDBREの大事なおしごと
MBAAで覚えるDBREの大事なおしごとInsight Technology, Inc.
 
グラフデータベースは如何に自然言語を理解するか?
グラフデータベースは如何に自然言語を理解するか?グラフデータベースは如何に自然言語を理解するか?
グラフデータベースは如何に自然言語を理解するか?Insight Technology, Inc.
 
DBREから始めるデータベースプラットフォーム
DBREから始めるデータベースプラットフォームDBREから始めるデータベースプラットフォーム
DBREから始めるデータベースプラットフォームInsight Technology, Inc.
 
SQL Server エンジニアのためのコンテナ入門
SQL Server エンジニアのためのコンテナ入門SQL Server エンジニアのためのコンテナ入門
SQL Server エンジニアのためのコンテナ入門Insight Technology, Inc.
 
db tech showcase2019オープニングセッション @ 森田 俊哉
db tech showcase2019オープニングセッション @ 森田 俊哉 db tech showcase2019オープニングセッション @ 森田 俊哉
db tech showcase2019オープニングセッション @ 森田 俊哉 Insight Technology, Inc.
 
db tech showcase2019 オープニングセッション @ 石川 雅也
db tech showcase2019 オープニングセッション @ 石川 雅也db tech showcase2019 オープニングセッション @ 石川 雅也
db tech showcase2019 オープニングセッション @ 石川 雅也Insight Technology, Inc.
 
db tech showcase2019 オープニングセッション @ マイナー・アレン・パーカー
db tech showcase2019 オープニングセッション @ マイナー・アレン・パーカー db tech showcase2019 オープニングセッション @ マイナー・アレン・パーカー
db tech showcase2019 オープニングセッション @ マイナー・アレン・パーカー Insight Technology, Inc.
 
難しいアプリケーション移行、手軽に試してみませんか?
難しいアプリケーション移行、手軽に試してみませんか?難しいアプリケーション移行、手軽に試してみませんか?
難しいアプリケーション移行、手軽に試してみませんか?Insight Technology, Inc.
 
Attunityのソリューションと異種データベース・クラウド移行事例のご紹介
Attunityのソリューションと異種データベース・クラウド移行事例のご紹介Attunityのソリューションと異種データベース・クラウド移行事例のご紹介
Attunityのソリューションと異種データベース・クラウド移行事例のご紹介Insight Technology, Inc.
 
そのデータベース、クラウドで使ってみませんか?
そのデータベース、クラウドで使ってみませんか?そのデータベース、クラウドで使ってみませんか?
そのデータベース、クラウドで使ってみませんか?Insight Technology, Inc.
 
コモディティサーバー3台で作る高速処理 “ハイパー・コンバージド・データベース・インフラストラクチャー(HCDI)” システム『Insight Qube』...
コモディティサーバー3台で作る高速処理 “ハイパー・コンバージド・データベース・インフラストラクチャー(HCDI)” システム『Insight Qube』...コモディティサーバー3台で作る高速処理 “ハイパー・コンバージド・データベース・インフラストラクチャー(HCDI)” システム『Insight Qube』...
コモディティサーバー3台で作る高速処理 “ハイパー・コンバージド・データベース・インフラストラクチャー(HCDI)” システム『Insight Qube』...Insight Technology, Inc.
 
複数DBのバックアップ・切り戻し運用手順が異なって大変?!運用性の大幅改善、その先に。。
複数DBのバックアップ・切り戻し運用手順が異なって大変?!運用性の大幅改善、その先に。。 複数DBのバックアップ・切り戻し運用手順が異なって大変?!運用性の大幅改善、その先に。。
複数DBのバックアップ・切り戻し運用手順が異なって大変?!運用性の大幅改善、その先に。。 Insight Technology, Inc.
 
Attunity社のソリューションの日本国内外適用事例及びロードマップ紹介[ATTUNITY & インサイトテクノロジー IoT / Big Data フ...
Attunity社のソリューションの日本国内外適用事例及びロードマップ紹介[ATTUNITY & インサイトテクノロジー IoT / Big Data フ...Attunity社のソリューションの日本国内外適用事例及びロードマップ紹介[ATTUNITY & インサイトテクノロジー IoT / Big Data フ...
Attunity社のソリューションの日本国内外適用事例及びロードマップ紹介[ATTUNITY & インサイトテクノロジー IoT / Big Data フ...Insight Technology, Inc.
 
レガシーに埋もれたデータをリアルタイムでクラウドへ [ATTUNITY & インサイトテクノロジー IoT / Big Data フォーラム 2018]
レガシーに埋もれたデータをリアルタイムでクラウドへ [ATTUNITY & インサイトテクノロジー IoT / Big Data フォーラム 2018]レガシーに埋もれたデータをリアルタイムでクラウドへ [ATTUNITY & インサイトテクノロジー IoT / Big Data フォーラム 2018]
レガシーに埋もれたデータをリアルタイムでクラウドへ [ATTUNITY & インサイトテクノロジー IoT / Big Data フォーラム 2018]Insight Technology, Inc.
 

Mehr von Insight Technology, Inc. (20)

グラフデータベースは如何に自然言語を理解するか?
グラフデータベースは如何に自然言語を理解するか?グラフデータベースは如何に自然言語を理解するか?
グラフデータベースは如何に自然言語を理解するか?
 
Docker and the Oracle Database
Docker and the Oracle DatabaseDocker and the Oracle Database
Docker and the Oracle Database
 
Great performance at scale~次期PostgreSQL12のパーティショニング性能の実力に迫る~
Great performance at scale~次期PostgreSQL12のパーティショニング性能の実力に迫る~Great performance at scale~次期PostgreSQL12のパーティショニング性能の実力に迫る~
Great performance at scale~次期PostgreSQL12のパーティショニング性能の実力に迫る~
 
事例を通じて機械学習とは何かを説明する
事例を通じて機械学習とは何かを説明する事例を通じて機械学習とは何かを説明する
事例を通じて機械学習とは何かを説明する
 
仮想通貨ウォレットアプリで理解するデータストアとしてのブロックチェーン
仮想通貨ウォレットアプリで理解するデータストアとしてのブロックチェーン仮想通貨ウォレットアプリで理解するデータストアとしてのブロックチェーン
仮想通貨ウォレットアプリで理解するデータストアとしてのブロックチェーン
 
MBAAで覚えるDBREの大事なおしごと
MBAAで覚えるDBREの大事なおしごとMBAAで覚えるDBREの大事なおしごと
MBAAで覚えるDBREの大事なおしごと
 
グラフデータベースは如何に自然言語を理解するか?
グラフデータベースは如何に自然言語を理解するか?グラフデータベースは如何に自然言語を理解するか?
グラフデータベースは如何に自然言語を理解するか?
 
DBREから始めるデータベースプラットフォーム
DBREから始めるデータベースプラットフォームDBREから始めるデータベースプラットフォーム
DBREから始めるデータベースプラットフォーム
 
SQL Server エンジニアのためのコンテナ入門
SQL Server エンジニアのためのコンテナ入門SQL Server エンジニアのためのコンテナ入門
SQL Server エンジニアのためのコンテナ入門
 
Lunch & Learn, AWS NoSQL Services
Lunch & Learn, AWS NoSQL ServicesLunch & Learn, AWS NoSQL Services
Lunch & Learn, AWS NoSQL Services
 
db tech showcase2019オープニングセッション @ 森田 俊哉
db tech showcase2019オープニングセッション @ 森田 俊哉 db tech showcase2019オープニングセッション @ 森田 俊哉
db tech showcase2019オープニングセッション @ 森田 俊哉
 
db tech showcase2019 オープニングセッション @ 石川 雅也
db tech showcase2019 オープニングセッション @ 石川 雅也db tech showcase2019 オープニングセッション @ 石川 雅也
db tech showcase2019 オープニングセッション @ 石川 雅也
 
db tech showcase2019 オープニングセッション @ マイナー・アレン・パーカー
db tech showcase2019 オープニングセッション @ マイナー・アレン・パーカー db tech showcase2019 オープニングセッション @ マイナー・アレン・パーカー
db tech showcase2019 オープニングセッション @ マイナー・アレン・パーカー
 
難しいアプリケーション移行、手軽に試してみませんか?
難しいアプリケーション移行、手軽に試してみませんか?難しいアプリケーション移行、手軽に試してみませんか?
難しいアプリケーション移行、手軽に試してみませんか?
 
Attunityのソリューションと異種データベース・クラウド移行事例のご紹介
Attunityのソリューションと異種データベース・クラウド移行事例のご紹介Attunityのソリューションと異種データベース・クラウド移行事例のご紹介
Attunityのソリューションと異種データベース・クラウド移行事例のご紹介
 
そのデータベース、クラウドで使ってみませんか?
そのデータベース、クラウドで使ってみませんか?そのデータベース、クラウドで使ってみませんか?
そのデータベース、クラウドで使ってみませんか?
 
コモディティサーバー3台で作る高速処理 “ハイパー・コンバージド・データベース・インフラストラクチャー(HCDI)” システム『Insight Qube』...
コモディティサーバー3台で作る高速処理 “ハイパー・コンバージド・データベース・インフラストラクチャー(HCDI)” システム『Insight Qube』...コモディティサーバー3台で作る高速処理 “ハイパー・コンバージド・データベース・インフラストラクチャー(HCDI)” システム『Insight Qube』...
コモディティサーバー3台で作る高速処理 “ハイパー・コンバージド・データベース・インフラストラクチャー(HCDI)” システム『Insight Qube』...
 
複数DBのバックアップ・切り戻し運用手順が異なって大変?!運用性の大幅改善、その先に。。
複数DBのバックアップ・切り戻し運用手順が異なって大変?!運用性の大幅改善、その先に。。 複数DBのバックアップ・切り戻し運用手順が異なって大変?!運用性の大幅改善、その先に。。
複数DBのバックアップ・切り戻し運用手順が異なって大変?!運用性の大幅改善、その先に。。
 
Attunity社のソリューションの日本国内外適用事例及びロードマップ紹介[ATTUNITY & インサイトテクノロジー IoT / Big Data フ...
Attunity社のソリューションの日本国内外適用事例及びロードマップ紹介[ATTUNITY & インサイトテクノロジー IoT / Big Data フ...Attunity社のソリューションの日本国内外適用事例及びロードマップ紹介[ATTUNITY & インサイトテクノロジー IoT / Big Data フ...
Attunity社のソリューションの日本国内外適用事例及びロードマップ紹介[ATTUNITY & インサイトテクノロジー IoT / Big Data フ...
 
レガシーに埋もれたデータをリアルタイムでクラウドへ [ATTUNITY & インサイトテクノロジー IoT / Big Data フォーラム 2018]
レガシーに埋もれたデータをリアルタイムでクラウドへ [ATTUNITY & インサイトテクノロジー IoT / Big Data フォーラム 2018]レガシーに埋もれたデータをリアルタイムでクラウドへ [ATTUNITY & インサイトテクノロジー IoT / Big Data フォーラム 2018]
レガシーに埋もれたデータをリアルタイムでクラウドへ [ATTUNITY & インサイトテクノロジー IoT / Big Data フォーラム 2018]
 

Kürzlich hochgeladen

[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略Ryo Sasaki
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...Toru Tamaki
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNetToru Tamaki
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)Hiroki Ichikura
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものですiPride Co., Ltd.
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A surveyToru Tamaki
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdftaisei2219
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムsugiuralab
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Yuma Ohgami
 

Kürzlich hochgeladen (9)

[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
 

[db analytics showcase Sapporo 2017] B14: GPU コンピューティング最前線 by エヌビディア 佐々木邦暢

  • 2. 2 エヌビディア AI コンピューティング カンパニー 1993 年創業 創業者兼 CEO ジェンスン フアン 従業員 11,000 人 2017 会計年度売上高 69 億ドル 時価総額 935 億ドル(約 10 兆円)
  • 3. 3 GPU コンピューティング 10年の歩み 2006 2008 2012 20162010 2014 Fermi: 世界初の HPC 用 GPU オークリッジ国立研究所の世界 最速 GPU スーパーコンピュータ 世界初の HIV カプシドの 原子モデルシミュレーション GPU AI システムが碁の 世界チャンピオンを破る スタンフォード大学が GPU を利用した AI マシンを構築 世界初のヒトゲノムの 3次元マッピングCUDA 発表 世界初の GPU Top500 システム Google が ImageNet で 人間を超える H1N1 の異変の 仕組みを解明 GPU を利用した AlexNet が圧勝
  • 4. 4 様々な分野で AI が効果を発揮 碁で名人に勝利 ゲームをプレイ 画家のスタイルで画像生成 音声合成 映像を文章で説明 ロボットの動作を洗練 歩行を自己学習 自動運転
  • 5. 5 エンタープライズのための SAP AI SAP から提供される最初の商業的 AI オファリング Brand Impact、Service Ticketing、 Invoice-to-Record アプリケーション DGX-1 と AWS で NVIDIA GPU を利用
  • 6. 6 エンタープライズのための SAP AI SAP から提供される最初の商業的 AI オファリング Brand Impact、Service Ticketing、 Invoice-to-Record アプリケーション DGX-1 と AWS で NVIDIA GPU を利用 VIDEO: SAP Brand Impact
  • 8. 8 マルチ GPU を活用 Gradient ascent with small mini-batches cannot be meaningfully parallelized across multiple servers. Instead, we utilize multiple NVidia Tesla GPGPU devices connected to a single host. 小さなミニバッチでの勾配上昇法は複数サーバーへの並列化ができないため 我々は複数の NVIDIA Tesla GPU を 1 台のホストに搭載した https://www.microsoft.com/en-us/research/wp-content/uploads/2016/02/CD-DNN-HMM-SWB-Interspeech2011-Pub.pdf
  • 9. 9 GPU の効果は絶大 The speed-up from using GPGPUs is so large GPU による高速化は非常に大きなものである https://www.microsoft.com/en-us/research/wp-content/uploads/2016/02/CD-DNN-HMM-SWB-Interspeech2011-Pub.pdf
  • 10. 10 2012 年 DNN で音声認識 Geoffrey Hinton Li Deng Dong Yu George Dahl Abdel-rahman Mohamed Navdeep Jaitly Andrew Senior Vincent Vanhoucke Patrick Nguyen Brian Kingsbury Tara Sainath 豪華な著者達 https://static.googleusercontent.com/media/research.google.com/ja//pubs/archive/38131.pdf
  • 11. 11 この研究でも GPU を活用 At present, the most effective parallelization method is to parallelize the matrix operations using a GPU. 現時点でもっとも効果的な並列化手法は GPU で行列演算を行うことだ https://static.googleusercontent.com/media/research.google.com/ja//pubs/archive/38131.pdf
  • 13. 13 IBM が MICROSOFT の記録を更新 https://arxiv.org/pdf/1703.02136.pdf
  • 16. 16 2006 年当時の状況 ここ数年、新しいモデル表現の提案、機械学習法の進歩、 計算機の高速化などにより、急速に研究が進展しており、 現在は 101 種類の対象に対して 6 割程度の精度で認識が可能となってきている。 「山」「椅子」「ラーメン」などの我々にとって馴染み深い対象が写った画像を 計算機によって自動的に検出することは、現状では極めて困難である。 https://ipsj.ixsq.nii.ac.jp/ej/?action=repository_uri&item_id=52152
  • 18. 18 ディープラーニングによるブレークスルー エラー率: 5.98%, 2015/1/13, Baidu 4.94%, 2015/2/6, Microsoft 4.82%, 2015/2/11, Google 精度 % 2010 201420122011 2013 74% 84% ディープラーニング 従来手法 72% 人間と同等以上の精度に到達
  • 19. 19 畳み込みニューラルネットワークと GPU Luckily, current GPUs, paired with a highly-optimized implementation of 2D convolution, are powerful enough to facilitate the training of interestingly-large CNNs, 幸運なことに、最新の GPU と高度に最適化された 2D 畳み込み 処理の組み合わせは、大きな畳み込みニューラルネットワークを トレーニングするのに十分な能力がある https://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf
  • 20. 20 畳み込みニューラルネットワークと GPU All of our experiments suggest that our results can be improved simply by waiting for faster GPUs and bigger datasets to become available. 単純にもっと速い GPU と今より大きなデータセットさえあれば、 さらに良い結果が得られるであろう https://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf
  • 21. 21 ディープラーニングを加速する3要因 ディープ ニューラル ネットワーク GPUビッグデータ 1分間に100 時間の ビデオがアップロード 日々3.5億イメージ がアップロード 1時間に2.5兆件の 顧客データが発生 TORCH THEANO CAFFE MATCONVNET PURINEMOCHA.JL MINERVA MXNET*
  • 23. 23 SGEMM/W 2012 20142008 2010 2016 48 36 12 0 24 60 2018 72 Tesla Fermi Kepler Maxwell Pascal Volta GPU アーキテクチャコードネーム
  • 24. 24 NVIDIA GPU 製品のおおまかな一覧 Kepler Maxwell Pascal Volta GeForceゲーミング Quadro プロフェッショナル グラフィックス Tesla HPC & Cloud M4 M40 M6000M5000K6000K5000 GTX 980GTX 780 HPC 用 GRID 用 K80K40K20 P100 P40P4DL 用 M60 M6 M10 GP100P5000 K2 K520 K1 GTX 1080 TITAN X V100
  • 25. 25 発表 Tesla V100 AI と HPC のための大きな飛躍 Tensor コアを搭載した Volta アーキテクチャ 210 億トランジスタ | TSMC 12nm FFN | 815mm2 5120 CUDA コア 7.5 FP64 TFLOPS | 15 FP32 TFLOPS 120 Tensor TFLOPS 総レジスタファイル 20MB | 16MB キャッシュ 900 GB/s の 16GB HBM2 300 GB/s NVLink
  • 26. 26 新開発 Tensor コア CUDA Tensor 演算命令 及び データフォーマット 4x4 行列処理配列 D[FP32] = A[FP16] * B[FP16] + C[FP32] ディープラーニングに最適化 アクティベーション入力 重み入力 出力結果
  • 27. 27 P100 V100 Ratio トレーニングの高速化 10 TOPS 120 TOPS 12x 推論の高速化 21 TFLOPS 120 TOPS 6x FP64/FP32 5/10 TFLOPS 7.5/15 TFLOPS 1.5x HBM2 バンド幅 720 GB/s 900 GB/s 1.2x NVLink バンド幅 160 GB/s 300 GB/s 1.9x L2 Cache 4 MB 6 MB 1.5x L1 Caches 1.3 MB 10 MB 7.7x Pascal / Volta GPUの性能比較
  • 28. 28 発表 Volta 対応フレームワーク 時間 CNN トレーニング (ResNet-50) 時間 NCCL 2.0 を利用したマルチノード トレーニング (ResNet-50) 0 5 10 15 20 25 64x V100 8x V100 8x P100 0 10 20 30 40 50 V100 P100 K80 時間 LSTM トレーニング (ニューラル機械翻訳) 0 10 20 30 40 50 8x V100 8x P100 8x K80
  • 29. 29 Tesla V100 搭載 NVIDIA DGX-1 AI 研究の必需品 960 Tensor TFLOPS | Tesla V100 8基 | NVLink ハイブリッドキューブ TITAN X で 8 日かかる計算が 8 時間に CPU サーバー 400台分の性能がワンボックスに
  • 30. 30 NVIDIA DGX Station パーソナル DGX 480 Tensor TFLOPS | Tesla V100 4基 NVLink 全結合 | 3つの DisplayPort 1500W | 水冷
  • 31. 31 コンテナ、データセット、 事前学習済モデルの レポジトリ NVIDIA GPU クラウド CSP NVIDIA GPU Cloud NVDocker のコンテナとして提供 | フルスタックで最適化 常に最新 | エヌビディアによって完全にテストおよびメンテナンス | 7月にベータ提供 ディープラーニングに最適化された GPU で加速されたクラウドプラットフォーム
  • 33. 33 AWS P2 インスタンス Tesla K80 を搭載する GPU インスタンス インスタンス名 GPU 数 GPU メモリ (GB) CUDA コア数 vCPU 数 メモリ (GB) p2.xlarge 1 (K80 半分) 12 2,496 4 61 p2.8xlarge 8 (K80 4枚) 96 19,968 32 488 p2.16xlarge 16 (K80 8枚) 192 39,936 64 732
  • 34. 34 GPU 対応の AMI 各種 GPU ドライバや各種フレームワーク・アプリケーション導入済み AWS 提供 NVIDIA 提供 Deep Learning AMI Amazon Linux Version 64-bit, Amazon Linux 2016.09 NVIDIA GPU ドライバ MXNet, Caffe, Caffe2, TensorFlow, Theano, CNTK, Torch, Keras NVIDIA DIGITS 4 AMI NVIDIA DIGITS 4 on Ubuntu 14.04 (64-bit) NVIDIA CUDA Toolkit 7.5 AMI CUDA Toolkit 7.5 on Amazon Linux 2016.03 (64-bit) Windows AMI (NVIDIA GPU ドライバ付) Windows Server 2012 R2
  • 35. 35 AWS パブリックデータセット 無料でアクセス可能な大規模データ データセット名 内容 ランドサット ランドサット 8 号衛星により作成中の地球全土の衛星画像コレクション SpaceNet コンピュータビジョンアルゴリズムの開発における革新を促進するために衛星画像 とラベリングされたトレーニングデータを集めたデータベース 地勢タイル 世界各地の地表の標高などの地勢を示すデータセット NASA NEX NASA が保守管理する地球の科学的データセットのコレクション。気候変化 予測や地表の衛星画像などが含まれる TCGA がんゲノムアトラス (TCGA) からの未処理および処理済みのゲノム、トランスクリ プトミクス、およびエピゲノミクスのデータで、がんゲノムクラウドを介して認定された 研究者のみが利用可能 マルチメディアコモンズ オーディオビジュアル機能と注釈を備えた 1 億近い画像と動画のコレクション Japan Census Data 日本の国勢調査、事業所・企業統計調査、経済センサス ※ 上記は一部の例。詳しくは: https://aws.amazon.com/jp/public-datasets
  • 36. 36 パブリックデータセットの利用例 SpaceNet を NVIDIA DIGITS で解析 SpaceNet は NVIDIA もその立ち上げにかかわった オンライン衛星画像リポジトリです ディープラーニングフレームワークの Web フロントエンド である NVIDIA DIGITS で DetectNet というオブジェ クト検出ネットワークを使って、 SpaceNet の画像か ら建物を検出する方法を、 PARALLEL FORALL ブログで解説しています https://devblogs.nvidia.com/parallelforall/exploring-spacenet-dataset-using-digits/ NVIDIA DIGITS による物体検出 “Exploring the SpaceNet Dataset Using DIGITS”
  • 37. 37 GTC 2017 で発表 ● EC2 が Tesla V100 をサポート Tesla V100 が EC2 にやってきます。 5120 個の CUDA コアによる高い浮動小数点演算性能に加え、新たに 640 個の “Tensor コア" を加えることでディープラーニングのトレーニング性能を飛躍的に高めた Tesla V100 をクラウドで手 軽に利用できることは、機械学習に関わる研究者やエンジニアにとって大きなメリットとなるでしょう。 ● Deep Learning Institute を共同で推進 エヌビディアは、ディープラーニングに関わる技術者の育成を推進するため、 "Deep Learning Institute (DLI)" という取り組みを行っています。中でもクラウドベースのハンズオントレーニングは特に 人気のあるコースです。DLI ハンズオンの基盤として、世界中にデータセンター群を展開する AWS は 最適なプラットフォームです。 AWS と NVIDIA のさらなる協業
  • 38. 38 NVIDIA と Microsoft の協業 Cognitive Toolkit (旧称: CNTK) を Azure と DGX-1 の双方に最適化 NVIDIA Tesla GPU NVIDIA DGX-1 Azure Data Center NVIDIA GPUDL Toolkit
  • 39. 39 名称 CPU コア数 メモリ GPU RDMA NV6 6 56 GB Tesla M60 半分 (GPU 1基) NV12 12 112 GB Tesla M60 1枚 (GPU 2基) NV24 24 224 GB Tesla M60 2枚 (GPU 4基) NC6 6 56 GB Tesla K80 半分 (GPU 1基) NC12 12 112 GB Tesla K80 1枚 (GPU 2基) NC24 24 224 GB Tesla K80 2枚 (GPU 4基) NC24r 24 224 GB Tesla K80 2枚 (GPU 4基) InfiniBand Microsoft Azure N シリーズ GPU インスタンス 2 種類の NVIDIA GPUを搭載
  • 40. 40 GTC 2017 で新たな GPU インスタンスを発表 Pascal 世代 GPU を搭載する新型が登場 名称 CPUコア数 メモリ GPU RDMA NC6s_v2 6 112 GB Tesla P100 x 1 - NC12s_v2 12 224 GB Tesla P100 x 2 - NC24s_v2 24 448 GB Tesla P100 x 4 - NC24rs_v2 24 448 GB Tesla P100 x 4 InfiniBand ND6s 6 112 GB Tesla P40 x 1 - ND12s 12 224 GB Tesla P40 x 2 - ND24s 24 448 GB Tesla P40 x 4 - ND24rs 24 448 GB Tesla P40 x 4 InfiniBand
  • 42. 42 エヌビディア DIGITS GPU で高速化されたディープラーニングトレーニング・システム Test Image 学習過程の可視化モデルの作成学習データの作成 モデルのテスト http://developer.nvidia.com/digits
  • 43. 43 IBM Bluemix Infrastructure GPU 搭載のベアメタルサーバーを月単位 / 時間単位で GPU 種別 GPU メモリ (GB) CUDA コア数 CPU CPU コア数 メモリ (GB) ディスク Tesla K80 24 4,992 2 x E5-2620 v3 12 64 1TB SATA2 x E5-2650 v3 20 2 x E5-2690 v3 24 2 x E5-2620 v4 16 128 2x 800GB SSD Tesla M60 16 4,096 2 x E5-2620 v3 12 64 1TB SATA2 x E5-2650 v3 20 2 x E5-2690 v3 24 Hourly ※ この他、 GRID K2 と Tesla K10 が選択可能
  • 44. 44 Google Cloud Platform Google の IaaS に Tesla K80 と P100 が登場  Tesla K80 と Tesla P100 を利用可能  様々なインスタンスに GPU をアタッチ可能  分単位の課金で効率的に利用  プレビュー提供中 GCP の GPU
  • 46. 46 NVIDIA DGX-1 を 124 ノード ノードあたり 8 基、全体で 992 基の NVIDIA Tesla P100 GPU NVLINK キューブメッシュ 2 基の Intel Xeon 20 コア CPU 512TB DDR4 システムメモリ SSD – 7 TB スクラッチ領域 + 0.5 TB システム領域 Mellanox 36 ポート EDR L1, L2 スイッチ ノード毎に 4 ポート Partial Fat tree トポロジ Ubuntu 14.04, CUDA 8, OpenMPI 1.10.3 NVIDIA GPU BLAS + Intel MKL (NVIDIA GPU HPL) NVIDIA DGX SATURNV Green500 で首位を獲得した(2016年11月)スーパーコンピューター nvidia.com/dgx1
  • 47. 47 世界初の GPU スパコン - TSUBAME 1.2 2008 年 11 月の TOP500 で 29 位にランクイン NVIDIA Tesla S1070 搭載 実効性能 77.5 TFLOPS
  • 48. 32nm 40nm >400GB/s Mem BW 80Gbps NW BW ~1KW max >1.6TB/s Mem BW >12TB/s Mem BW 35KW Max >600TB/s Mem BW 220Tbps NW Bisecion BW 1.4MW Max TSUBAME2.0 2010年11月1日稼働開始 世界最小のペタフロップス・省電力スパコン 各種基礎研究がベース メーカーと新規共同開発 • 大規模なGPU採用による高性能と低電力の両立 • 最小の設置面積(200m2程度)、高いコストパフォーマンス • 高性能にマッチした光ネットワーク、SSDストレージ
  • 49. TSUBAME2.0⇒2.5 計算ノードの進化(2013/9) • 全 4224GPU を最新のKepler GPUに ほぼ運用中断なく交換 • 幾つかの技術上・運用上の問題を メーカーと共同で克服 • 低コスト・短期間でマシンの能力を2-3 倍に向上に成功 NVIDIA Fermi M2050 1039/515GFlops 3GBメモリ NVIDIA Kepler K20X 3950/1310GFlops 6GBメモリ
  • 50. TSUBAME-KFC: ウルトラグリーン・スパコン研究設備 (文部科学省概算要求・2011-2015・約2億円) 高温冷却系 冷媒油 35~45℃ ⇒ 水 25~35℃ (TSUBAME2は7~17℃) 冷却塔: 水 25~35℃ ⇒ 自然大気へ 液浸冷却+高温大気冷却+高密度実装+電力制御のスパコン技術を統合 TSUBAME3.0のプロトタイプ コンテナ型研究設備 20フィートコンテナ(16m2) 無人自動制御運転 将来はエネルギー回収も 高密度実装・油浸冷却 210TFlops (倍精度) 630TFlops (単精度) 1ラック 2013年11月/2014年6月 Green500ランキング 世界一位(日本初) 2015アップグレード 500TFlops (倍精度) 機械学習等1.5PFlops (単精度) 世界最高性能密度 (やはり1ラック=>7ラックで京相当)
  • 51. 51 TSUBAME 3.0 のシステム概要 フルバイセクションバンド幅の インテル® Omni-Path® 光ネットワーク 432 Terabits/秒 双方向 全インターネット平均通信量の2倍 DDNのストレージシステム (並列FS 15.9PB+ Home 45TB) 540 の計算ノード SGI ICE® XA インテル®Xeon® CPU×2+NVIDIA Tesla P100 GPU×4 256GB メモリ、2TB の NVMe 対応インテル®SSD 47.2 AI ペタフロップス, 倍精度: 12.1 ペタフロップス 2017 年 8 月本稼働
  • 52. CPU 0 PLX GPU 0 OPA HFI OPA HFI DIMM DIMM DIMM DIMM GPU 1 CPU 1 DIMM DIMM DIMM DIMM PLX OPA HFI GPU 2 GPU 3 OPA HFI PCH SSD QPI NVLink x16 PCIe x16 PCIe x16 PCIe x16 PCIe x16 PCIe x16 PCIe x16 PCIe x16 PCIe x16 PCIe x16 PCIe x4 PCIe DMI CPU 0 PLX GPU 0 OPA HFI OPA HFI DIMM DIMM DIMM DIMM GPU 1 CPU 1 DIMM DIMM DIMM DIMM PLX OPA HFI GPU 2 GPU 3 OPA HFI PCH SSD QPI NVLink x16 PCIe x16 PCIe x16 PCIe x16 PCIe x16 PCIe x16 PCIe x16 PCIe x16 PCIe x16 PCIe x16 PCIe x4 PCIe DMI TSUBAME3.0 計算ノードは SGI 社と東工大 GSIC の共同設計による TSUBAME3.0 用新設計 計算ノードの接続構成 x9 SGI ICE XA (製品の範囲) 相互結合網の上位(スパイン)スイッチ:フルバイセクション 432 Terabit/s 双方向 Intel OmniPath 計算ノード 計算ノード x60セット (合計 540ノード) x60ペア (合計 120スイッチ) 相互結合網の範囲 18ポート使用 18ポート使用 18ポート使用 18ポート使用 超高性能な”Fat Node”構成(TSUBAMEの伝統) • 4 SXM2(NVLink) NVIDIA Pascal P100 GPU • 高ネットワークバンド幅 – Intel Omnipath ネット ワーク 100GBps x 4 = 400Gbps • 高 I/O バンド幅- Intel 2 TeraByte NVMe • システム合計容量1ペタバイト以上、 2Terabyte/秒の合算バンド幅 • 高密度・高温水冷ブレード – 1ラックあたり 36 ブ レード = 144 GPU + 72 CPU、50-60KW • 一般データセンターの10-20倍 CPU 0 PLX GPU 0 OPA HFI OPA HFI DIMM DIMM DIMM DIMM GPU 1 CPU 1 DIMM DIMM DIMM DIMM PLX OPA HFI GPU 2 GPU 3 OPA HFI PCH SSD QPI NVLink x16 PCIe x16 PCIe x16 PCIe x16 PCIe x16 PCIe x16 PCIe x16 PCIe x16 PCIe x16 PCIe x16 PCIe x4 PCIe DMI
  • 53. TSUBAME3.0 冷却システム系統図 32℃の自然大気冷却水による高効率高温冷却 計算ノード (SGI ICE XA system) I/O , File system 自然大気 水冷冷却塔 Air conditioner 周辺機器用チラー 分岐ヘッダー 【1F-屋外】 【B1F】 【RF】 【1F-114室】【1F-114室】 分岐ヘッダー 【EPS】 分岐ヘッダー 分岐ヘッダー 空冷冷却 (22℃) システム発熱量10~15% + 環境潜熱 水冷冷却 (往き:約14℃) 水冷冷却 (還り:約21℃) 水冷冷却 (往き:約32℃) 水冷冷却 (還り:約40℃) 熱交換機 冷却補助回路(200kW) 水冷冷却 (往き:約14℃)水冷冷却 (還り:約21℃) 水冷冷却 (還り:約40℃) 水冷冷却 (往き:約32℃) ※RF or B1F設置
  • 54. TSUBAME3.0 世界トップクラスの冷却効率 TSUBAME 3.0 PUE 予測 (900KW消費仮定) 2013 ~ 2015 年の天候データを元に計算 1月 2月 3月 4月 5月 6月 7月 8月 9月 10月 11月 12月 年間 平均 冷却設備 平均消費電力 [kW] 28.83 28.83 28.83 28.83 29.21 30.06 30.06 32.00 30.06 29.21 28.83 28.83 29.465 PUE 1.032 1.032 1.032 1.032 1.032 1.033 1.033 1.036 1.033 1.032 1.032 1.032 1.033 PUEは冷却のオーバーヘッドを表す。1.0に近いほど良い PUE = {(計算ノードの消費電力)+(計算ノードの冷却に必要なすべての設備消費電力)} / (計算ノードの消費電力) • 通常のデータセンター:PUE = 2~3 (冷却の方がマシンより電気を食っている) • 最新の空冷データセンター、TSUBAME1:PUE = 1.4~1.6 • TSUBAME2.0:PUE = 1.28 • TSUBAME-KFC:PUE = 1.09 TSUBAME3.0の計算ノードの年間PUE平均値は『1.033』 世界トップクラス
  • 55. 55 Green500 リストの上位を Tesla P100 搭載システムが独占 2017年6月版 TOP/Green500 NVIDIA 関連情報のまとめ 日本版#ISC17 フランクフルトにて開催中の ISC 2017 で 2017 年6月版の TOP500/Green500 リストが発表さ れました。昨年11月の Green500 リストでは、 Tesla P100 搭載の NVIDIA DGX SATURNV と CSCS Piz Daint が1,2位を獲得し、Tesla P100 の高い電力性能比を印象づけましたが、今回 は Tesla P100 搭載システムがさらに躍進。1~4 位を日本の P100 システムが占めるという 記念すべき回になりました。 全体としては 20 システムが Tesla P100 を搭載。その多くが Green500 の上位にランクし、1位 から 16 位までのうち、実に 14 システムが Tesla P100 搭載システムという結果になりました。 https://www.top500.org/green500/lists/2017/06/ NEWS 東工大 TSUBAME 3.0 と産総研 AAIC が Green500 で 1, 3 位を獲得 東京工業大学の TSUBAME 3.0 は今年8月の本稼働に向け構築中ですが、フル構成の1/4の 状態で今回の TOP/Green500 計測に挑み、1.998 PFlops で TOP500 の 61 位にランクイン。 そして電力性能比 14.11 GFlops/W を記録して見事 Green500 の首位を獲得しました。 外気に近い温度の冷却水を用いて効率良く冷却を行い、PUE=1.033 を目指すその省エネ 性能が存分に発揮されたといえるでしょう。 http://www.titech.ac.jp/news/2017/038640.html 産総研 AAIC (Aist AI Cloud) は、産総研人工知能研究センター (AIRC) で 2017 年 4 月に 稼働を開始したシステムで、TOP500 の 148 位 (961 TFlops)、そして 12.68 GFlops/W で Green500 の3位を獲得しました。 これら2システムの Green500 チャレンジは、産総研・東工大の研究協力による成果です。 http://www.aist.go.jp/aist_j/press_release/pr2017/pr20170619/pr20170619.html v1.2 bit.ly/isc17nv
  • 56. 56 # システム名称 所属 GFlops/W 1 TSUBAME 3.0 東京工業大学 14.11 2 kukai(クウカイ) Yahoo! JAPAN 14.05 3 AIST AI Cloud 産業技術総合研究所 12.68 4 RAIDEN GPU subsystem 理化学研究所 10.60 5 Wilkes-2 University of Cambridge 10.43 6 Piz Daint Swiss National Supercomputing Centre (CSCS) 10.40 8 Research Computation Facility for GOSAT-2 (RCF2) 国立環境研究所 9.80 9 NVIDIA DGX-1/Relion 2904GT Facebook 9.46 10 DGX SATURNV NVIDIA 9.46 11 Reedbush-H 東京大学 8.58 12 JADE University of Oxford 8.43 13 Cedar Simon Fraser University/Compute Canada 8.01 14 DAVIDE E4 Computer Engineering 7.72 16 Hōkūle’a Maui High-Performance Computing Center (MHPCC) 6.67 Green500 1~16位の Tesla P100 搭載システム(太字は日本のシステム)
  • 57. 57 エクサスケールへの道 米国最大のスーパーコンピューターが Volta アーキテクチャの GPU を採用 TeslaP100との比較 Volta の HPC アプリケーションパフォーマンス System Config Info: 2X Xeon E5-2690 v4, 2.6GHz, w/ 1X Tesla P100 or V100. V100 measured on pre-production hardware. Summit Supercomputer 200+ PetaFlops ~3,400 Nodes 10 Megawatts
  • 59. 59 JETSON による EDGE の AI 化の実現 インフラ点検捜索、レスキュー 配送測量エンタープライズ コラボレーション AI シティ パーソナルアシスト サービスロボット ポータブルメディカル 学術&研究
  • 62. 62 NVIDIA DRIVE — AI カープラットフォーム コンピュータビジョンライブラリ OS 認識 AI CUDA、cuDNN、TensorRT 自己位置推定 パスプランニング 1 TOPS 10 TOPS 100 TOPS DRIVE PX 2 Parker Level 2/3 DRIVE PX Xavier Level 4/5
  • 64. 64 認識 DNN のサンプル 複数のディープ ニューラル ネットワーク DriveNet LaneNet OpenRoadNet 車線の検出 多クラス分類: 乗用車、トラック、歩行者、 二輪車、信号や標識 走行可能空間の検出
  • 68. 68 Volvo と Autoliv も NVIDIA DRIVE PX を選択 自動運転車を 2021 年に市場投入
  • 69. 69 CONNECT NVIDIA をはじめ日本中から 集まる GPU の専門家と交流 LEARN 数多くの技術セッションとポスター 展示、大規模なハンズオンラボ で学びを深める DISCOVER A I や 自 動 運 転 と い っ た 重 要 な 領域でのブレークスルーに GPU が 果たしている様々な役割を発見 INNOVATE 新進気鋭のスタートアップによる 破壊的イノベーシ ョンに 注目 世界最大の GPU 技術イベントにぜひご参加ください GTC Japan 2017 は 2017年12月12 ~ 13日に東京で開催 2017/12/12~13 | 東京 | #GTC17 http://www.gputechconf.jp/