SlideShare ist ein Scribd-Unternehmen logo
1 von 35
Downloaden Sie, um offline zu lesen
みんなの PYTHON 勉強会#77
GPU と PYTHON と、それから最近の NVIDIA
KAZUHIRO YAMASAKI, DEEP LEARNING SOLUTION ARCHITECT, 2022/01/27
“NVIDIA REINVENTS ITSELF EVERY SINGLE YEAR. WE
ARE GOING TO CALL NVIDIA ‘THE GOAT,’ THAT IS, THE
GREATEST OF ALL TIME.”
MAD MONEY
NVIDIA pioneered accelerated computing to tackle challenges ordinary computers
cannot. We make computers for the da Vincis and Einsteins
of our time so that they can see and create the future.
CUDA: NVIDIA’S COMPUTING PLATFORM
様々なユースケース
AI Training & Inference
Speech Visual Search
Video Analysis
Robotics
Gaming Science
Media & Entertainment
http://developer.nvidia.com/cuda-downloads
https://www.youtube.com/watch?v=wKztRskmsig / https://www.nvidia.com/ja-jp/studio/canvas/
FYI: SEMANTIC IMAGE SYNTHESIS WITH SPADE (AKA GAUGAN)
NVIDIA Canvas のもとになった研究
https://arxiv.org/abs/1903.07291 / https://github.com/NVlabs/SPADE
NVIDIA IS A FULL STACK COMPUTING PLATFORM
多くのイノベーションと NVIDIA エコシステムの拡大
30M
CUDA Downloads
2,500
GPU-Accelerated Applications
9,000
AI Startups
AI DRIVE
METRO ISAAC
CLARA
RAPIDS
AERIAL
5G
RTX HPC
MAGNUM IO
CUDA
CUDA-X-AI
3M
Developers
150
SDKs
COMPLETE SOFTWARE STACK GROWING ECOSYSTEM
1B
CUDA GPUs
CHIPS
SYSTEMS
SDK & ENGINES
APPLICATIONS
ECOSYSTEM
FULL STACK INNOVATION
65 updates from last GTC
GPU のアーキテクチャ
http://www.nvidia.com/nvidia-ampere-architecture-whitepaper
GPU による高速化
アプリケーション
+
GPU CPU
Small % of Code
Large % of Time
計算の重い処理
残りのシーケンシャルな処理
PYTHON から CUDA を叩く場合の典型的な構造
Cython 経由で CUDA C/C++ が呼び出される
CUDA
Each library Python Interface
GPU
Cython
Each library C/C++
CUDA libraries
JIT/NVRTC
PYTHON から GPU を利用するには
さまざまな階層のライブラリ
• CUDA の公式 low-level binding
github.com/NVIDIA/cuda-python
CUDA Python
• GPU 向け NumPy 互換 API
github.com/cupy/cupy
CuPy
• 大規模にスケールする目的の NumPy
互換 API
developer.nvidia.com/cunumeric
cuNumeric
• 主にディープラーニング用の API
• 拡張ツールなどが豊富
github.com/tensorflow/tensorflow
github.com/pytorch/pytorch
Deep Learning frameworks
(TensorFlow/PyTorch/etc)
• GPU 版 pandas / sklearn /
NetworkX / etc といったライブラリ群
rapids.ai
RAPIDS
• 大規模テーブルデータ向けの特徴量
エンジニアリング&前処理ライブラリ
developer.nvidia.com/nvidia-merlin
NVTabular
など。他にも多数のライブラリなどが存在。
AI INFERENCE IS HARD
AI INFERENCE
MODELS FRAMEWORKS
MIDDLEWARE
PROCESSORS
Real Time
V100 GPU x86 CPU
A30 GPU A100 GPU Arm CPU
Cloud
Batch Streaming
APP
CONSTRAINTS
DEPLOYMENT
Data Center Embedded
Edge
Azure
Machine
Learning
Google
Vertex AI
Amazon
SageMaker
CNNs TRANSFORMERS RNNs
GNN DECISION TREES
NVIDIA TensorRT
プロダクション用にニューラルネットワークを最適化し、デプロイする。
コンパイラとランタイムを用いて、latency-critical なアプリのスループットを最大化。
CNN をはじめとして、RNN や Transformer を含むすべてのネットワークを最適化。
1. 混合精度や低精度演算: FP32, TF32, FP16, および INT8
2. レイヤー / テンソルフュージョン: GPU メモリ帯域の最適化
3. カーネルの自動チューニング: 対象 GPU ごとに最適なアルゴリズムを選択
4. 動的テンソルメモリ: メモリ効率の良いアプリのデプロイ
5. マルチストリーム実行: 複数ストリームでの利用を想定した、スケール可能な設計
6. タイムフュージョン: 時系列方向に対する RNN の最適化
ハイパフォーマンスなディープラーニングの推論用 SDK
https://developer.nvidia.com/tensorrt
TensorRT
Optimizer
TensorRT
Runtime
Trained
DNN
Embedded Automotive Data Center
Jetson Drive Data Center
GPUs
フレームワークとの統合
TensorRT で、ネイティブ フレームワークの推論をスピードアップ
一行のコードで推論を高速化
▪ フレームワークをただ GPU 上で実行する場合と比べ、最大 6 倍高速
▪ クラウドからエッジまで、すべてのプラットフォームでの実行を最適化
▪ CNNs, RNNs, および Transformers
▪ FP32, FP16, INT8.
設定済みのコンテナイメージは、NVIDIA NGC カタログから利用可能: ngc.nvidia.com
Torch-TensorRT & TensorFlow-TensorRT
▪ フォールバックすることによって 任意のモデル をサポート
▪ TensorRT のサブグラフには TensorRT の すべての最適化 が適用される
▪ PTQ & QAT による、TF32、FP16、INT8 での実行
▪ 統合による出力は ネイティブフォーマット: TorchScript & SavedModel
▪ 既存のワークフロー への変更は不要
TensorRT
Engine
Hybrid Module
Framework & TensorRT Execution
TorchScript
SavedModel
OR
フレームワークとの統合
フォールバック、および特徴
TORCH-TensorRT
Torch-TensorRT に nn.Module を渡す
必要に応じて引数を設定
C++ APIs も利用可能
TorchScript での利用も可能
Python QuickStart
import torch
import torch_tensorrt as torchtrt
# SET trained model to evaluation mode
model = model.eval()
# COMPILE TRT module using Torch-TensorRT
trt_module = torchtrt.compile(model, inputs=[example_input]
enabled_precisions={torch.half})
# RUN optimized inference with Torch-TensorRT
trt_module(x)
import tensorflow as tf
from tf.python.compiler.tensorrt import trt_convert as tftrt
# COMPILE TRT module using TensorFlow-TensorRT
trt_module = tftrt.TrtGraphConverterV2(saved_model_pth).convert()
# RUN optimized inference with TensorFlow-TensorRT
trt_module(x)
TENSORFLOW-TensorRT
TensorFlow-TensorRT に SavedModel を渡す
必要に応じて引数を設定
C++ APIs も利用可能
Python QuickStart
アプリケーションのデプロイ
TensorRT で最適化したとして、その後は
どうやって?
どこに?
CPU?
GPU?
x86?
Arm?
V100?
A100?
A30?
Python app?
Flask?
FastAPI?
TFServing?
TorchServe?
デプロイ
C++ app?
TRITON: モダンなデータセンターにおけるコンピュートエンジン
数百万のアプリケーション | 数十億のユーザ | 数兆のクエリ
Batching & Scheduling
Real time | Batch | Stateful Stream | Ensemble
Multiple Framework Backends
Custom C++, Python
Triton 上で動作する
マイクロサービス
Triton Inference
Server
NLP Recommender
Image
Classify
TTS
Image
segment
ASR
マイクロサービスベースの
アプリケーション
App App
App
…
すべてのプロセッサに対する
最適化
クエリとレスポンス
X86 CPU V100 GPU
A100 MIG
A30 GPU A100 GPU ARM CPU
TRITON INFERENCE SERVER
スケーラブルでシンプルな推論サービング オープンソース ソフトウェア
Kubernetes,
Prometheus
Metrics
標準的な
HTTP/gRPC
Or
C API
(クライアント
アプリケーションへの
直接組み込み)
CPU
Dynamic Batching
(リアルタイム、バッチ、
ストリーム)
モデルごとの
スケジューラー キュー
…
柔軟なモデルロード
(全体一括、選択的)
複数の GPU & CPU
バックエンド
Custom
Backends
Utilization, Throughput, Latency Metrics
GPU
モデル
リポジトリ
Query
Result
複数の
クライアント
アプリケーション
Python/C++
Client Library
Query
Result
Python/C++
Client Library
Query
Result
Python/C++
Client Library
多くの
アクティブ
なモデル
月次アップデートは、docker コンテナ形式で GitHub と NGC から入手できます
TRITON INFERENCE SERVER の使い方
models/
└── resnet
├── 1
│ └── model.savedmodel
│ ├── saved_model.pb
│ └── variables
│ ├── variables.data-00000-of-00001
│ └── variables.index
└── config.pbtxt
:
規定に従いモデルを配置、
設定を記述し、
$ docker run --gpus=all --rm 
-p8000:8000 -p8001:8001 -p8002:8002 
-v ./models:/models 
nvcr.io/nvidia/tritonserver:21.11-py3 
tritonserver --model-repository=/models
...
I1207 06:26:28.710564 1 grpc_server.cc:3979]
Started GRPCInferenceService at 0.0.0.0:8001
I1207 06:26:28.710986 1 http_server.cc:2717]
Started HTTPService at 0.0.0.0:8000
I1207 06:26:28.753317 1 http_server.cc:2736]
Started Metrics Service at 0.0.0.0:8002
コンテナを起動
https://github.com/triton-inference-server/server/
TRITON INFERENCE SERVER の使い方
https://github.com/triton-inference-server/client
クライアント側の API (例):
https://github.com/triton-inference-server/python_backend
Python バックエンドの API:
:
AI により実現されるエンタープライズ トランスフォーメーション
エンドツーエンドのアプリケーション フレームワーク
デスクトップ環境 スーパーコンピューター GPU アクセラレーテッド クラウド
データセンター ソリューション アクセラレーテッド エッジ
Riva
対話型
AI
Metropolis
スマートシティ
Clara
ヘルスケア
Isaac
ロボティクス
Drive
自動運転
Aerial
テレコム
Merlin
推薦システム
サイバー
セキュリティ
Morpheus
NeMo
大規模
言語モデル
▪ DL ベースの会話&言語理解モデル
▪ Correct-by-Construction アーキテクチャのための、セマンティクス チェックを含む
▪ 複数言語をサポート:
▪ 8 for ASR
▪ 5 for NLU
▪ オープンソース
▪ PyTorch および PyTorch Lightning との統合
▪ 使いやすい API
▪ 最適化された学習パフォーマンス
▪ GPU に最適化された 100 以上の学習済みチェックポイント
▪ 1000 GPU クラスにスケール可能
https://ngc.nvidia.com/catalog/containers/nvidia:nemo
https://github.com/NVIDIA/NeMo
NOTE: ASR – Automatic Speech Recognition | NLU – Natural Language Understanding
最先端の対話モデルを作成するためのツールキット
NVIDIA NEMO
World Record
Accuracy
2.96% Gap on
Gehring and Homberger
Scalable to 1,000s
of Locations
3 Seconds
vs
5 Minutes
to Route 1,000
Packages
ANNOUNCING
NVIDIA REOPT
Re-Optimize Logistics and
Supply Chain in Real-Time
Accelerated Solver for Vehicle Route,
Warehouse Picking, Fleet-Mix Optimization
Massively Parallel Algorithm Generates
Thousands of Solution Candidates and
Refinements
Dynamic Rerouting Reduces Travel Time,
Saving Billions for a $10 Trillion Logistics
Industry
Available Now
nvidia.com/reopt
NVIDIA REOPT
Early access 募集中
https://developer.nvidia.com/reopt-logistics-optimization
FYI: DOMINO’S SESSION AT GTC
“Vehicle Routing at Domino’s: Exploring a GPU-Enabled Approach” [A31074]
https://www.nvidia.com/ja-jp/on-demand/session/gtcfall21-a31074/
Materials
Physics AI
Path-Tracing
USD
Engineers, Designers,
Creators
Simulation Technologies
Portal
RTX Rendering
NVIDIA OMNIVERSE
仮想世界を作成、接続するためのシミュレーション プラットフォーム
https://www.nvidia.com/ja-jp/omniverse/creators/ | https://www.nvidia.com/ja-jp/omniverse/
https://www.youtube.com/watch?v=xWJtFXYlAPc
最先端のアプリケーション
Core Omniverse Apps
FOR 3D DEEP LEARNING RESEARCHERS
FOR DESIGNERS, CREATORS, ENGINEERS
FOR GAME DEVELOPERS, ANIMATORS
FOR RTX CREATORS FOR REVIEWERS, PROJECT MANAGERS FOR ROBOTICISTS
OMNIVERSE AUDIO2FACE
› Powered by NVIDIA AI
› 容易に利用できる、リアルで自然な表情の自動生成
› 声質、性別や言語間の変換
› 会話や歌の音声を利用
› 推奨スペック: GeForce RTX 3070, NVIDIA RTX A4000 or
higher
AI による音声からの表情生成
Omniverse Kaolin App
NVIDIA KAOLIN
3D を加速するディープラーニング研究のためのツールキット
https://developer.nvidia.com/nvidia-kaolin | https://github.com/NVIDIAGameWorks/kaolin
Render Synthetic Data
Visualize Model Training Inspect 3D Datasets
Kaolin Library
Modular Differentiable Renderer 3D Data Loading GPU Optimized 3D Operations 3D Checkpoints
https://www.youtube.com/watch?v=ox2Cc88I-Os
まとめ
▪ハードウェアの性能を最大限に引き出すため、様々なソフトウェアをリリース
▪Python 向けの API 整備も並行して進行中
▪GPU を利用しやすい環境を整えることにより、グラフィックスやディープラーニングなど、複数の技
術を活用したアプリケーションの登場が期待される
宣伝: 今年の GTC は 3/21 からスタートです
参加登録はコチラ↓から
http://www.nvidia.com/ja-jp/gtc/?ncid=GTC-NVKYAMASAKI
GPU と PYTHON と、それから最近の NVIDIA

Weitere ähnliche Inhalte

Was ist angesagt?

全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!TransformerArithmer Inc.
 
Attentionの基礎からTransformerの入門まで
Attentionの基礎からTransformerの入門までAttentionの基礎からTransformerの入門まで
Attentionの基礎からTransformerの入門までAGIRobots
 
いまさら聞けない!CUDA高速化入門
いまさら聞けない!CUDA高速化入門いまさら聞けない!CUDA高速化入門
いまさら聞けない!CUDA高速化入門Fixstars Corporation
 
【DL輪読会】Segment Anything
【DL輪読会】Segment Anything【DL輪読会】Segment Anything
【DL輪読会】Segment AnythingDeep Learning JP
 
CPU / GPU高速化セミナー!性能モデルの理論と実践:理論編
CPU / GPU高速化セミナー!性能モデルの理論と実践:理論編CPU / GPU高速化セミナー!性能モデルの理論と実践:理論編
CPU / GPU高速化セミナー!性能モデルの理論と実践:理論編Fixstars Corporation
 
何となく勉強した気分になれるパーサ入門
何となく勉強した気分になれるパーサ入門何となく勉強した気分になれるパーサ入門
何となく勉強した気分になれるパーサ入門masayoshi takahashi
 
CUDAのアセンブリ言語基礎のまとめ PTXとSASSの概説
CUDAのアセンブリ言語基礎のまとめ PTXとSASSの概説CUDAのアセンブリ言語基礎のまとめ PTXとSASSの概説
CUDAのアセンブリ言語基礎のまとめ PTXとSASSの概説Takateru Yamagishi
 
PyOpenCLによるGPGPU入門
PyOpenCLによるGPGPU入門PyOpenCLによるGPGPU入門
PyOpenCLによるGPGPU入門Yosuke Onoue
 
CTF for ビギナーズ バイナリ講習資料
CTF for ビギナーズ バイナリ講習資料CTF for ビギナーズ バイナリ講習資料
CTF for ビギナーズ バイナリ講習資料SECCON Beginners
 
[Track2-2] 最新のNVIDIA AmpereアーキテクチャによるNVIDIA A100 TensorコアGPUの特長とその性能を引き出す方法
[Track2-2] 最新のNVIDIA AmpereアーキテクチャによるNVIDIA A100 TensorコアGPUの特長とその性能を引き出す方法[Track2-2] 最新のNVIDIA AmpereアーキテクチャによるNVIDIA A100 TensorコアGPUの特長とその性能を引き出す方法
[Track2-2] 最新のNVIDIA AmpereアーキテクチャによるNVIDIA A100 TensorコアGPUの特長とその性能を引き出す方法Deep Learning Lab(ディープラーニング・ラボ)
 
モデル高速化百選
モデル高速化百選モデル高速化百選
モデル高速化百選Yusuke Uchida
 
PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜
PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜
PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜Preferred Networks
 
ソフト高速化の専門家が教える!AI・IoTエッジデバイスの選び方
ソフト高速化の専門家が教える!AI・IoTエッジデバイスの選び方ソフト高速化の専門家が教える!AI・IoTエッジデバイスの選び方
ソフト高速化の専門家が教える!AI・IoTエッジデバイスの選び方Fixstars Corporation
 
モデルではなく、データセットを蒸留する
モデルではなく、データセットを蒸留するモデルではなく、データセットを蒸留する
モデルではなく、データセットを蒸留するTakahiro Kubo
 
TensorFlow Lite Delegateとは?
TensorFlow Lite Delegateとは?TensorFlow Lite Delegateとは?
TensorFlow Lite Delegateとは?Mr. Vengineer
 
CUDAプログラミング入門
CUDAプログラミング入門CUDAプログラミング入門
CUDAプログラミング入門NVIDIA Japan
 
Python 3.9からの新定番zoneinfoを使いこなそう
Python 3.9からの新定番zoneinfoを使いこなそうPython 3.9からの新定番zoneinfoを使いこなそう
Python 3.9からの新定番zoneinfoを使いこなそうRyuji Tsutsui
 
Optimizer入門&最新動向
Optimizer入門&最新動向Optimizer入門&最新動向
Optimizer入門&最新動向Motokawa Tetsuya
 

Was ist angesagt? (20)

全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!Transformer
 
Attentionの基礎からTransformerの入門まで
Attentionの基礎からTransformerの入門までAttentionの基礎からTransformerの入門まで
Attentionの基礎からTransformerの入門まで
 
いまさら聞けない!CUDA高速化入門
いまさら聞けない!CUDA高速化入門いまさら聞けない!CUDA高速化入門
いまさら聞けない!CUDA高速化入門
 
【DL輪読会】Segment Anything
【DL輪読会】Segment Anything【DL輪読会】Segment Anything
【DL輪読会】Segment Anything
 
CPU / GPU高速化セミナー!性能モデルの理論と実践:理論編
CPU / GPU高速化セミナー!性能モデルの理論と実践:理論編CPU / GPU高速化セミナー!性能モデルの理論と実践:理論編
CPU / GPU高速化セミナー!性能モデルの理論と実践:理論編
 
何となく勉強した気分になれるパーサ入門
何となく勉強した気分になれるパーサ入門何となく勉強した気分になれるパーサ入門
何となく勉強した気分になれるパーサ入門
 
coordinate descent 法について
coordinate descent 法についてcoordinate descent 法について
coordinate descent 法について
 
CUDAのアセンブリ言語基礎のまとめ PTXとSASSの概説
CUDAのアセンブリ言語基礎のまとめ PTXとSASSの概説CUDAのアセンブリ言語基礎のまとめ PTXとSASSの概説
CUDAのアセンブリ言語基礎のまとめ PTXとSASSの概説
 
PyOpenCLによるGPGPU入門
PyOpenCLによるGPGPU入門PyOpenCLによるGPGPU入門
PyOpenCLによるGPGPU入門
 
CTF for ビギナーズ バイナリ講習資料
CTF for ビギナーズ バイナリ講習資料CTF for ビギナーズ バイナリ講習資料
CTF for ビギナーズ バイナリ講習資料
 
[Track2-2] 最新のNVIDIA AmpereアーキテクチャによるNVIDIA A100 TensorコアGPUの特長とその性能を引き出す方法
[Track2-2] 最新のNVIDIA AmpereアーキテクチャによるNVIDIA A100 TensorコアGPUの特長とその性能を引き出す方法[Track2-2] 最新のNVIDIA AmpereアーキテクチャによるNVIDIA A100 TensorコアGPUの特長とその性能を引き出す方法
[Track2-2] 最新のNVIDIA AmpereアーキテクチャによるNVIDIA A100 TensorコアGPUの特長とその性能を引き出す方法
 
モデル高速化百選
モデル高速化百選モデル高速化百選
モデル高速化百選
 
PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜
PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜
PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜
 
ソフト高速化の専門家が教える!AI・IoTエッジデバイスの選び方
ソフト高速化の専門家が教える!AI・IoTエッジデバイスの選び方ソフト高速化の専門家が教える!AI・IoTエッジデバイスの選び方
ソフト高速化の専門家が教える!AI・IoTエッジデバイスの選び方
 
モデルではなく、データセットを蒸留する
モデルではなく、データセットを蒸留するモデルではなく、データセットを蒸留する
モデルではなく、データセットを蒸留する
 
TensorFlow Lite Delegateとは?
TensorFlow Lite Delegateとは?TensorFlow Lite Delegateとは?
TensorFlow Lite Delegateとは?
 
CUDAプログラミング入門
CUDAプログラミング入門CUDAプログラミング入門
CUDAプログラミング入門
 
Python 3.9からの新定番zoneinfoを使いこなそう
Python 3.9からの新定番zoneinfoを使いこなそうPython 3.9からの新定番zoneinfoを使いこなそう
Python 3.9からの新定番zoneinfoを使いこなそう
 
Marp Tutorial
Marp TutorialMarp Tutorial
Marp Tutorial
 
Optimizer入門&最新動向
Optimizer入門&最新動向Optimizer入門&最新動向
Optimizer入門&最新動向
 

Ähnlich wie GPU と PYTHON と、それから最近の NVIDIA

2016 06-30-deep-learning-archi
2016 06-30-deep-learning-archi2016 06-30-deep-learning-archi
2016 06-30-deep-learning-archiDaisuke Nagao
 
NVIDIA Jetson Edge Computing Digital Seminar Special Edition, JETSON XAVIER NX
NVIDIA Jetson Edge Computing Digital Seminar Special Edition, JETSON XAVIER NXNVIDIA Jetson Edge Computing Digital Seminar Special Edition, JETSON XAVIER NX
NVIDIA Jetson Edge Computing Digital Seminar Special Edition, JETSON XAVIER NXAya Owosekun
 
NVIDIA 最近の動向
NVIDIA 最近の動向NVIDIA 最近の動向
NVIDIA 最近の動向NVIDIA Japan
 
JETSON 最新情報 & 自動外観検査事例紹介
JETSON 最新情報 & 自動外観検査事例紹介JETSON 最新情報 & 自動外観検査事例紹介
JETSON 最新情報 & 自動外観検査事例紹介NVIDIA Japan
 
モバイル向けニューラルネットワーク推論エンジンの紹介
モバイル向けニューラルネットワーク推論エンジンの紹介モバイル向けニューラルネットワーク推論エンジンの紹介
モバイル向けニューラルネットワーク推論エンジンの紹介卓然 郭
 
モバイル(エッジ)向け ニューラルネットワーク推論エンジンの紹介
モバイル(エッジ)向け ニューラルネットワーク推論エンジンの紹介モバイル(エッジ)向け ニューラルネットワーク推論エンジンの紹介
モバイル(エッジ)向け ニューラルネットワーク推論エンジンの紹介kcnguo
 
【たぶん日本初導入!】Azure Stack Hub with GPUの性能と機能紹介
【たぶん日本初導入!】Azure Stack Hub with GPUの性能と機能紹介【たぶん日本初導入!】Azure Stack Hub with GPUの性能と機能紹介
【たぶん日本初導入!】Azure Stack Hub with GPUの性能と機能紹介NTT Communications Technology Development
 
お待たせしました! 真の VDI on Azure がついに実現します!~ Citrix と Microsoft のタッグがもたらす次世代型クラウド・デス...
お待たせしました! 真の VDI on Azure がついに実現します!~ Citrix と Microsoft のタッグがもたらす次世代型クラウド・デス...お待たせしました! 真の VDI on Azure がついに実現します!~ Citrix と Microsoft のタッグがもたらす次世代型クラウド・デス...
お待たせしました! 真の VDI on Azure がついに実現します!~ Citrix と Microsoft のタッグがもたらす次世代型クラウド・デス...Takamasa Maejima
 
1000: 基調講演
1000: 基調講演1000: 基調講演
1000: 基調講演NVIDIA Japan
 
NVIDIA_AI_Enterprise_for_Red_Hat_OpenShift.pdf
NVIDIA_AI_Enterprise_for_Red_Hat_OpenShift.pdfNVIDIA_AI_Enterprise_for_Red_Hat_OpenShift.pdf
NVIDIA_AI_Enterprise_for_Red_Hat_OpenShift.pdfGnanaKumarBitra1
 
[db analytics showcase Sapporo 2017] B14: GPU コンピューティング最前線 by エヌビディア 佐々木邦暢
[db analytics showcase Sapporo 2017] B14: GPU コンピューティング最前線 by エヌビディア 佐々木邦暢[db analytics showcase Sapporo 2017] B14: GPU コンピューティング最前線 by エヌビディア 佐々木邦暢
[db analytics showcase Sapporo 2017] B14: GPU コンピューティング最前線 by エヌビディア 佐々木邦暢Insight Technology, Inc.
 
Watsonをささえる ハイパフォーマンスクラウドで はじめるDeep Learning
Watsonをささえる ハイパフォーマンスクラウドで はじめるDeep LearningWatsonをささえる ハイパフォーマンスクラウドで はじめるDeep Learning
Watsonをささえる ハイパフォーマンスクラウドで はじめるDeep LearningAtsumori Sasaki
 
NVIDIA Deep Learning SDK を利用した画像認識
NVIDIA Deep Learning SDK を利用した画像認識NVIDIA Deep Learning SDK を利用した画像認識
NVIDIA Deep Learning SDK を利用した画像認識NVIDIA Japan
 
NVIDIA cuQuantum SDK による量子回路シミュレーターの高速化
NVIDIA cuQuantum SDK による量子回路シミュレーターの高速化NVIDIA cuQuantum SDK による量子回路シミュレーターの高速化
NVIDIA cuQuantum SDK による量子回路シミュレーターの高速化NVIDIA Japan
 
GTC 2020 発表内容まとめ
GTC 2020 発表内容まとめGTC 2020 発表内容まとめ
GTC 2020 発表内容まとめNVIDIA Japan
 
GTC 2020 発表内容まとめ
GTC 2020 発表内容まとめGTC 2020 発表内容まとめ
GTC 2020 発表内容まとめAya Owosekun
 
Intel OpenVINO、 NVIDIA Deepstream対応開発キットから、 エッジサーバー、Azure Data Box Edgeまで、 Az...
Intel OpenVINO、 NVIDIA Deepstream対応開発キットから、 エッジサーバー、Azure Data Box Edgeまで、 Az...Intel OpenVINO、 NVIDIA Deepstream対応開発キットから、 エッジサーバー、Azure Data Box Edgeまで、 Az...
Intel OpenVINO、 NVIDIA Deepstream対応開発キットから、 エッジサーバー、Azure Data Box Edgeまで、 Az...IoTビジネス共創ラボ
 
Azure Antenna AI 概要
Azure Antenna AI 概要Azure Antenna AI 概要
Azure Antenna AI 概要Miho Yamamoto
 
Cld017 nh シリーズリリース
Cld017 nh シリーズリリースCld017 nh シリーズリリース
Cld017 nh シリーズリリースTech Summit 2016
 

Ähnlich wie GPU と PYTHON と、それから最近の NVIDIA (20)

2016 06-30-deep-learning-archi
2016 06-30-deep-learning-archi2016 06-30-deep-learning-archi
2016 06-30-deep-learning-archi
 
NVIDIA Jetson Edge Computing Digital Seminar Special Edition, JETSON XAVIER NX
NVIDIA Jetson Edge Computing Digital Seminar Special Edition, JETSON XAVIER NXNVIDIA Jetson Edge Computing Digital Seminar Special Edition, JETSON XAVIER NX
NVIDIA Jetson Edge Computing Digital Seminar Special Edition, JETSON XAVIER NX
 
GPU Container as a Service を実現するための最新OSS徹底比較
GPU Container as a Service を実現するための最新OSS徹底比較GPU Container as a Service を実現するための最新OSS徹底比較
GPU Container as a Service を実現するための最新OSS徹底比較
 
NVIDIA 最近の動向
NVIDIA 最近の動向NVIDIA 最近の動向
NVIDIA 最近の動向
 
JETSON 最新情報 & 自動外観検査事例紹介
JETSON 最新情報 & 自動外観検査事例紹介JETSON 最新情報 & 自動外観検査事例紹介
JETSON 最新情報 & 自動外観検査事例紹介
 
モバイル向けニューラルネットワーク推論エンジンの紹介
モバイル向けニューラルネットワーク推論エンジンの紹介モバイル向けニューラルネットワーク推論エンジンの紹介
モバイル向けニューラルネットワーク推論エンジンの紹介
 
モバイル(エッジ)向け ニューラルネットワーク推論エンジンの紹介
モバイル(エッジ)向け ニューラルネットワーク推論エンジンの紹介モバイル(エッジ)向け ニューラルネットワーク推論エンジンの紹介
モバイル(エッジ)向け ニューラルネットワーク推論エンジンの紹介
 
【たぶん日本初導入!】Azure Stack Hub with GPUの性能と機能紹介
【たぶん日本初導入!】Azure Stack Hub with GPUの性能と機能紹介【たぶん日本初導入!】Azure Stack Hub with GPUの性能と機能紹介
【たぶん日本初導入!】Azure Stack Hub with GPUの性能と機能紹介
 
お待たせしました! 真の VDI on Azure がついに実現します!~ Citrix と Microsoft のタッグがもたらす次世代型クラウド・デス...
お待たせしました! 真の VDI on Azure がついに実現します!~ Citrix と Microsoft のタッグがもたらす次世代型クラウド・デス...お待たせしました! 真の VDI on Azure がついに実現します!~ Citrix と Microsoft のタッグがもたらす次世代型クラウド・デス...
お待たせしました! 真の VDI on Azure がついに実現します!~ Citrix と Microsoft のタッグがもたらす次世代型クラウド・デス...
 
1000: 基調講演
1000: 基調講演1000: 基調講演
1000: 基調講演
 
NVIDIA_AI_Enterprise_for_Red_Hat_OpenShift.pdf
NVIDIA_AI_Enterprise_for_Red_Hat_OpenShift.pdfNVIDIA_AI_Enterprise_for_Red_Hat_OpenShift.pdf
NVIDIA_AI_Enterprise_for_Red_Hat_OpenShift.pdf
 
[db analytics showcase Sapporo 2017] B14: GPU コンピューティング最前線 by エヌビディア 佐々木邦暢
[db analytics showcase Sapporo 2017] B14: GPU コンピューティング最前線 by エヌビディア 佐々木邦暢[db analytics showcase Sapporo 2017] B14: GPU コンピューティング最前線 by エヌビディア 佐々木邦暢
[db analytics showcase Sapporo 2017] B14: GPU コンピューティング最前線 by エヌビディア 佐々木邦暢
 
Watsonをささえる ハイパフォーマンスクラウドで はじめるDeep Learning
Watsonをささえる ハイパフォーマンスクラウドで はじめるDeep LearningWatsonをささえる ハイパフォーマンスクラウドで はじめるDeep Learning
Watsonをささえる ハイパフォーマンスクラウドで はじめるDeep Learning
 
NVIDIA Deep Learning SDK を利用した画像認識
NVIDIA Deep Learning SDK を利用した画像認識NVIDIA Deep Learning SDK を利用した画像認識
NVIDIA Deep Learning SDK を利用した画像認識
 
NVIDIA cuQuantum SDK による量子回路シミュレーターの高速化
NVIDIA cuQuantum SDK による量子回路シミュレーターの高速化NVIDIA cuQuantum SDK による量子回路シミュレーターの高速化
NVIDIA cuQuantum SDK による量子回路シミュレーターの高速化
 
GTC 2020 発表内容まとめ
GTC 2020 発表内容まとめGTC 2020 発表内容まとめ
GTC 2020 発表内容まとめ
 
GTC 2020 発表内容まとめ
GTC 2020 発表内容まとめGTC 2020 発表内容まとめ
GTC 2020 発表内容まとめ
 
Intel OpenVINO、 NVIDIA Deepstream対応開発キットから、 エッジサーバー、Azure Data Box Edgeまで、 Az...
Intel OpenVINO、 NVIDIA Deepstream対応開発キットから、 エッジサーバー、Azure Data Box Edgeまで、 Az...Intel OpenVINO、 NVIDIA Deepstream対応開発キットから、 エッジサーバー、Azure Data Box Edgeまで、 Az...
Intel OpenVINO、 NVIDIA Deepstream対応開発キットから、 エッジサーバー、Azure Data Box Edgeまで、 Az...
 
Azure Antenna AI 概要
Azure Antenna AI 概要Azure Antenna AI 概要
Azure Antenna AI 概要
 
Cld017 nh シリーズリリース
Cld017 nh シリーズリリースCld017 nh シリーズリリース
Cld017 nh シリーズリリース
 

Mehr von NVIDIA Japan

HPC 的に H100 は魅力的な GPU なのか?
HPC 的に H100 は魅力的な GPU なのか?HPC 的に H100 は魅力的な GPU なのか?
HPC 的に H100 は魅力的な GPU なのか?NVIDIA Japan
 
Physics-ML のためのフレームワーク NVIDIA Modulus 最新事情
Physics-ML のためのフレームワーク NVIDIA Modulus 最新事情Physics-ML のためのフレームワーク NVIDIA Modulus 最新事情
Physics-ML のためのフレームワーク NVIDIA Modulus 最新事情NVIDIA Japan
 
20221021_JP5.0.2-Webinar-JP_Final.pdf
20221021_JP5.0.2-Webinar-JP_Final.pdf20221021_JP5.0.2-Webinar-JP_Final.pdf
20221021_JP5.0.2-Webinar-JP_Final.pdfNVIDIA Japan
 
開発者が語る NVIDIA cuQuantum SDK
開発者が語る NVIDIA cuQuantum SDK開発者が語る NVIDIA cuQuantum SDK
開発者が語る NVIDIA cuQuantum SDKNVIDIA Japan
 
NVIDIA Modulus: Physics ML 開発のためのフレームワーク
NVIDIA Modulus: Physics ML 開発のためのフレームワークNVIDIA Modulus: Physics ML 開発のためのフレームワーク
NVIDIA Modulus: Physics ML 開発のためのフレームワークNVIDIA Japan
 
NVIDIA HPC ソフトウエア斜め読み
NVIDIA HPC ソフトウエア斜め読みNVIDIA HPC ソフトウエア斜め読み
NVIDIA HPC ソフトウエア斜め読みNVIDIA Japan
 
HPC+AI ってよく聞くけど結局なんなの
HPC+AI ってよく聞くけど結局なんなのHPC+AI ってよく聞くけど結局なんなの
HPC+AI ってよく聞くけど結局なんなのNVIDIA Japan
 
Magnum IO GPUDirect Storage 最新情報
Magnum IO GPUDirect Storage 最新情報Magnum IO GPUDirect Storage 最新情報
Magnum IO GPUDirect Storage 最新情報NVIDIA Japan
 
データ爆発時代のネットワークインフラ
データ爆発時代のネットワークインフラデータ爆発時代のネットワークインフラ
データ爆発時代のネットワークインフラNVIDIA Japan
 
Hopper アーキテクチャで、変わること、変わらないこと
Hopper アーキテクチャで、変わること、変わらないことHopper アーキテクチャで、変わること、変わらないこと
Hopper アーキテクチャで、変わること、変わらないことNVIDIA Japan
 
GTC November 2021 – テレコム関連アップデート サマリー
GTC November 2021 – テレコム関連アップデート サマリーGTC November 2021 – テレコム関連アップデート サマリー
GTC November 2021 – テレコム関連アップデート サマリーNVIDIA Japan
 
テレコムのビッグデータ解析 & AI サイバーセキュリティ
テレコムのビッグデータ解析 & AI サイバーセキュリティテレコムのビッグデータ解析 & AI サイバーセキュリティ
テレコムのビッグデータ解析 & AI サイバーセキュリティNVIDIA Japan
 
必見!絶対におすすめの通信業界セッション 5 つ ~秋の GTC 2020~
必見!絶対におすすめの通信業界セッション 5 つ ~秋の GTC 2020~必見!絶対におすすめの通信業界セッション 5 つ ~秋の GTC 2020~
必見!絶対におすすめの通信業界セッション 5 つ ~秋の GTC 2020~NVIDIA Japan
 
2020年10月29日 プロフェッショナルAI×Roboticsエンジニアへのロードマップ
2020年10月29日 プロフェッショナルAI×Roboticsエンジニアへのロードマップ2020年10月29日 プロフェッショナルAI×Roboticsエンジニアへのロードマップ
2020年10月29日 プロフェッショナルAI×RoboticsエンジニアへのロードマップNVIDIA Japan
 
2020年10月29日 Jetson活用によるAI教育
2020年10月29日 Jetson活用によるAI教育2020年10月29日 Jetson活用によるAI教育
2020年10月29日 Jetson活用によるAI教育NVIDIA Japan
 
2020年10月29日 Jetson Nano 2GBで始めるAI x Robotics教育
2020年10月29日 Jetson Nano 2GBで始めるAI x Robotics教育2020年10月29日 Jetson Nano 2GBで始めるAI x Robotics教育
2020年10月29日 Jetson Nano 2GBで始めるAI x Robotics教育NVIDIA Japan
 
COVID-19 研究・対策に活用可能な NVIDIA ソフトウェアと関連情報
COVID-19 研究・対策に活用可能な NVIDIA ソフトウェアと関連情報COVID-19 研究・対策に活用可能な NVIDIA ソフトウェアと関連情報
COVID-19 研究・対策に活用可能な NVIDIA ソフトウェアと関連情報NVIDIA Japan
 
Jetson Xavier NX クラウドネイティブをエッジに
Jetson Xavier NX クラウドネイティブをエッジにJetson Xavier NX クラウドネイティブをエッジに
Jetson Xavier NX クラウドネイティブをエッジにNVIDIA Japan
 
NVIDIA Jetson導入事例ご紹介
NVIDIA Jetson導入事例ご紹介NVIDIA Jetson導入事例ご紹介
NVIDIA Jetson導入事例ご紹介NVIDIA Japan
 
HELLO AI WORLD - MEET JETSON NANO
HELLO AI WORLD - MEET JETSON NANOHELLO AI WORLD - MEET JETSON NANO
HELLO AI WORLD - MEET JETSON NANONVIDIA Japan
 

Mehr von NVIDIA Japan (20)

HPC 的に H100 は魅力的な GPU なのか?
HPC 的に H100 は魅力的な GPU なのか?HPC 的に H100 は魅力的な GPU なのか?
HPC 的に H100 は魅力的な GPU なのか?
 
Physics-ML のためのフレームワーク NVIDIA Modulus 最新事情
Physics-ML のためのフレームワーク NVIDIA Modulus 最新事情Physics-ML のためのフレームワーク NVIDIA Modulus 最新事情
Physics-ML のためのフレームワーク NVIDIA Modulus 最新事情
 
20221021_JP5.0.2-Webinar-JP_Final.pdf
20221021_JP5.0.2-Webinar-JP_Final.pdf20221021_JP5.0.2-Webinar-JP_Final.pdf
20221021_JP5.0.2-Webinar-JP_Final.pdf
 
開発者が語る NVIDIA cuQuantum SDK
開発者が語る NVIDIA cuQuantum SDK開発者が語る NVIDIA cuQuantum SDK
開発者が語る NVIDIA cuQuantum SDK
 
NVIDIA Modulus: Physics ML 開発のためのフレームワーク
NVIDIA Modulus: Physics ML 開発のためのフレームワークNVIDIA Modulus: Physics ML 開発のためのフレームワーク
NVIDIA Modulus: Physics ML 開発のためのフレームワーク
 
NVIDIA HPC ソフトウエア斜め読み
NVIDIA HPC ソフトウエア斜め読みNVIDIA HPC ソフトウエア斜め読み
NVIDIA HPC ソフトウエア斜め読み
 
HPC+AI ってよく聞くけど結局なんなの
HPC+AI ってよく聞くけど結局なんなのHPC+AI ってよく聞くけど結局なんなの
HPC+AI ってよく聞くけど結局なんなの
 
Magnum IO GPUDirect Storage 最新情報
Magnum IO GPUDirect Storage 最新情報Magnum IO GPUDirect Storage 最新情報
Magnum IO GPUDirect Storage 最新情報
 
データ爆発時代のネットワークインフラ
データ爆発時代のネットワークインフラデータ爆発時代のネットワークインフラ
データ爆発時代のネットワークインフラ
 
Hopper アーキテクチャで、変わること、変わらないこと
Hopper アーキテクチャで、変わること、変わらないことHopper アーキテクチャで、変わること、変わらないこと
Hopper アーキテクチャで、変わること、変わらないこと
 
GTC November 2021 – テレコム関連アップデート サマリー
GTC November 2021 – テレコム関連アップデート サマリーGTC November 2021 – テレコム関連アップデート サマリー
GTC November 2021 – テレコム関連アップデート サマリー
 
テレコムのビッグデータ解析 & AI サイバーセキュリティ
テレコムのビッグデータ解析 & AI サイバーセキュリティテレコムのビッグデータ解析 & AI サイバーセキュリティ
テレコムのビッグデータ解析 & AI サイバーセキュリティ
 
必見!絶対におすすめの通信業界セッション 5 つ ~秋の GTC 2020~
必見!絶対におすすめの通信業界セッション 5 つ ~秋の GTC 2020~必見!絶対におすすめの通信業界セッション 5 つ ~秋の GTC 2020~
必見!絶対におすすめの通信業界セッション 5 つ ~秋の GTC 2020~
 
2020年10月29日 プロフェッショナルAI×Roboticsエンジニアへのロードマップ
2020年10月29日 プロフェッショナルAI×Roboticsエンジニアへのロードマップ2020年10月29日 プロフェッショナルAI×Roboticsエンジニアへのロードマップ
2020年10月29日 プロフェッショナルAI×Roboticsエンジニアへのロードマップ
 
2020年10月29日 Jetson活用によるAI教育
2020年10月29日 Jetson活用によるAI教育2020年10月29日 Jetson活用によるAI教育
2020年10月29日 Jetson活用によるAI教育
 
2020年10月29日 Jetson Nano 2GBで始めるAI x Robotics教育
2020年10月29日 Jetson Nano 2GBで始めるAI x Robotics教育2020年10月29日 Jetson Nano 2GBで始めるAI x Robotics教育
2020年10月29日 Jetson Nano 2GBで始めるAI x Robotics教育
 
COVID-19 研究・対策に活用可能な NVIDIA ソフトウェアと関連情報
COVID-19 研究・対策に活用可能な NVIDIA ソフトウェアと関連情報COVID-19 研究・対策に活用可能な NVIDIA ソフトウェアと関連情報
COVID-19 研究・対策に活用可能な NVIDIA ソフトウェアと関連情報
 
Jetson Xavier NX クラウドネイティブをエッジに
Jetson Xavier NX クラウドネイティブをエッジにJetson Xavier NX クラウドネイティブをエッジに
Jetson Xavier NX クラウドネイティブをエッジに
 
NVIDIA Jetson導入事例ご紹介
NVIDIA Jetson導入事例ご紹介NVIDIA Jetson導入事例ご紹介
NVIDIA Jetson導入事例ご紹介
 
HELLO AI WORLD - MEET JETSON NANO
HELLO AI WORLD - MEET JETSON NANOHELLO AI WORLD - MEET JETSON NANO
HELLO AI WORLD - MEET JETSON NANO
 

GPU と PYTHON と、それから最近の NVIDIA

  • 1. みんなの PYTHON 勉強会#77 GPU と PYTHON と、それから最近の NVIDIA KAZUHIRO YAMASAKI, DEEP LEARNING SOLUTION ARCHITECT, 2022/01/27
  • 2. “NVIDIA REINVENTS ITSELF EVERY SINGLE YEAR. WE ARE GOING TO CALL NVIDIA ‘THE GOAT,’ THAT IS, THE GREATEST OF ALL TIME.” MAD MONEY NVIDIA pioneered accelerated computing to tackle challenges ordinary computers cannot. We make computers for the da Vincis and Einsteins of our time so that they can see and create the future.
  • 3. CUDA: NVIDIA’S COMPUTING PLATFORM 様々なユースケース AI Training & Inference Speech Visual Search Video Analysis Robotics Gaming Science Media & Entertainment http://developer.nvidia.com/cuda-downloads
  • 5. FYI: SEMANTIC IMAGE SYNTHESIS WITH SPADE (AKA GAUGAN) NVIDIA Canvas のもとになった研究 https://arxiv.org/abs/1903.07291 / https://github.com/NVlabs/SPADE
  • 6. NVIDIA IS A FULL STACK COMPUTING PLATFORM 多くのイノベーションと NVIDIA エコシステムの拡大 30M CUDA Downloads 2,500 GPU-Accelerated Applications 9,000 AI Startups AI DRIVE METRO ISAAC CLARA RAPIDS AERIAL 5G RTX HPC MAGNUM IO CUDA CUDA-X-AI 3M Developers 150 SDKs COMPLETE SOFTWARE STACK GROWING ECOSYSTEM 1B CUDA GPUs CHIPS SYSTEMS SDK & ENGINES APPLICATIONS ECOSYSTEM FULL STACK INNOVATION 65 updates from last GTC
  • 8. GPU による高速化 アプリケーション + GPU CPU Small % of Code Large % of Time 計算の重い処理 残りのシーケンシャルな処理
  • 9. PYTHON から CUDA を叩く場合の典型的な構造 Cython 経由で CUDA C/C++ が呼び出される CUDA Each library Python Interface GPU Cython Each library C/C++ CUDA libraries JIT/NVRTC
  • 10. PYTHON から GPU を利用するには さまざまな階層のライブラリ • CUDA の公式 low-level binding github.com/NVIDIA/cuda-python CUDA Python • GPU 向け NumPy 互換 API github.com/cupy/cupy CuPy • 大規模にスケールする目的の NumPy 互換 API developer.nvidia.com/cunumeric cuNumeric • 主にディープラーニング用の API • 拡張ツールなどが豊富 github.com/tensorflow/tensorflow github.com/pytorch/pytorch Deep Learning frameworks (TensorFlow/PyTorch/etc) • GPU 版 pandas / sklearn / NetworkX / etc といったライブラリ群 rapids.ai RAPIDS • 大規模テーブルデータ向けの特徴量 エンジニアリング&前処理ライブラリ developer.nvidia.com/nvidia-merlin NVTabular など。他にも多数のライブラリなどが存在。
  • 11. AI INFERENCE IS HARD AI INFERENCE MODELS FRAMEWORKS MIDDLEWARE PROCESSORS Real Time V100 GPU x86 CPU A30 GPU A100 GPU Arm CPU Cloud Batch Streaming APP CONSTRAINTS DEPLOYMENT Data Center Embedded Edge Azure Machine Learning Google Vertex AI Amazon SageMaker CNNs TRANSFORMERS RNNs GNN DECISION TREES
  • 12. NVIDIA TensorRT プロダクション用にニューラルネットワークを最適化し、デプロイする。 コンパイラとランタイムを用いて、latency-critical なアプリのスループットを最大化。 CNN をはじめとして、RNN や Transformer を含むすべてのネットワークを最適化。 1. 混合精度や低精度演算: FP32, TF32, FP16, および INT8 2. レイヤー / テンソルフュージョン: GPU メモリ帯域の最適化 3. カーネルの自動チューニング: 対象 GPU ごとに最適なアルゴリズムを選択 4. 動的テンソルメモリ: メモリ効率の良いアプリのデプロイ 5. マルチストリーム実行: 複数ストリームでの利用を想定した、スケール可能な設計 6. タイムフュージョン: 時系列方向に対する RNN の最適化 ハイパフォーマンスなディープラーニングの推論用 SDK https://developer.nvidia.com/tensorrt TensorRT Optimizer TensorRT Runtime Trained DNN Embedded Automotive Data Center Jetson Drive Data Center GPUs
  • 13. フレームワークとの統合 TensorRT で、ネイティブ フレームワークの推論をスピードアップ 一行のコードで推論を高速化 ▪ フレームワークをただ GPU 上で実行する場合と比べ、最大 6 倍高速 ▪ クラウドからエッジまで、すべてのプラットフォームでの実行を最適化 ▪ CNNs, RNNs, および Transformers ▪ FP32, FP16, INT8. 設定済みのコンテナイメージは、NVIDIA NGC カタログから利用可能: ngc.nvidia.com Torch-TensorRT & TensorFlow-TensorRT
  • 14. ▪ フォールバックすることによって 任意のモデル をサポート ▪ TensorRT のサブグラフには TensorRT の すべての最適化 が適用される ▪ PTQ & QAT による、TF32、FP16、INT8 での実行 ▪ 統合による出力は ネイティブフォーマット: TorchScript & SavedModel ▪ 既存のワークフロー への変更は不要 TensorRT Engine Hybrid Module Framework & TensorRT Execution TorchScript SavedModel OR フレームワークとの統合 フォールバック、および特徴
  • 15. TORCH-TensorRT Torch-TensorRT に nn.Module を渡す 必要に応じて引数を設定 C++ APIs も利用可能 TorchScript での利用も可能 Python QuickStart import torch import torch_tensorrt as torchtrt # SET trained model to evaluation mode model = model.eval() # COMPILE TRT module using Torch-TensorRT trt_module = torchtrt.compile(model, inputs=[example_input] enabled_precisions={torch.half}) # RUN optimized inference with Torch-TensorRT trt_module(x)
  • 16. import tensorflow as tf from tf.python.compiler.tensorrt import trt_convert as tftrt # COMPILE TRT module using TensorFlow-TensorRT trt_module = tftrt.TrtGraphConverterV2(saved_model_pth).convert() # RUN optimized inference with TensorFlow-TensorRT trt_module(x) TENSORFLOW-TensorRT TensorFlow-TensorRT に SavedModel を渡す 必要に応じて引数を設定 C++ APIs も利用可能 Python QuickStart
  • 18. TRITON: モダンなデータセンターにおけるコンピュートエンジン 数百万のアプリケーション | 数十億のユーザ | 数兆のクエリ Batching & Scheduling Real time | Batch | Stateful Stream | Ensemble Multiple Framework Backends Custom C++, Python Triton 上で動作する マイクロサービス Triton Inference Server NLP Recommender Image Classify TTS Image segment ASR マイクロサービスベースの アプリケーション App App App … すべてのプロセッサに対する 最適化 クエリとレスポンス X86 CPU V100 GPU A100 MIG A30 GPU A100 GPU ARM CPU
  • 19. TRITON INFERENCE SERVER スケーラブルでシンプルな推論サービング オープンソース ソフトウェア Kubernetes, Prometheus Metrics 標準的な HTTP/gRPC Or C API (クライアント アプリケーションへの 直接組み込み) CPU Dynamic Batching (リアルタイム、バッチ、 ストリーム) モデルごとの スケジューラー キュー … 柔軟なモデルロード (全体一括、選択的) 複数の GPU & CPU バックエンド Custom Backends Utilization, Throughput, Latency Metrics GPU モデル リポジトリ Query Result 複数の クライアント アプリケーション Python/C++ Client Library Query Result Python/C++ Client Library Query Result Python/C++ Client Library 多くの アクティブ なモデル 月次アップデートは、docker コンテナ形式で GitHub と NGC から入手できます
  • 20. TRITON INFERENCE SERVER の使い方 models/ └── resnet ├── 1 │ └── model.savedmodel │ ├── saved_model.pb │ └── variables │ ├── variables.data-00000-of-00001 │ └── variables.index └── config.pbtxt : 規定に従いモデルを配置、 設定を記述し、 $ docker run --gpus=all --rm -p8000:8000 -p8001:8001 -p8002:8002 -v ./models:/models nvcr.io/nvidia/tritonserver:21.11-py3 tritonserver --model-repository=/models ... I1207 06:26:28.710564 1 grpc_server.cc:3979] Started GRPCInferenceService at 0.0.0.0:8001 I1207 06:26:28.710986 1 http_server.cc:2717] Started HTTPService at 0.0.0.0:8000 I1207 06:26:28.753317 1 http_server.cc:2736] Started Metrics Service at 0.0.0.0:8002 コンテナを起動 https://github.com/triton-inference-server/server/
  • 21. TRITON INFERENCE SERVER の使い方 https://github.com/triton-inference-server/client クライアント側の API (例): https://github.com/triton-inference-server/python_backend Python バックエンドの API: :
  • 22. AI により実現されるエンタープライズ トランスフォーメーション エンドツーエンドのアプリケーション フレームワーク デスクトップ環境 スーパーコンピューター GPU アクセラレーテッド クラウド データセンター ソリューション アクセラレーテッド エッジ Riva 対話型 AI Metropolis スマートシティ Clara ヘルスケア Isaac ロボティクス Drive 自動運転 Aerial テレコム Merlin 推薦システム サイバー セキュリティ Morpheus NeMo 大規模 言語モデル
  • 23. ▪ DL ベースの会話&言語理解モデル ▪ Correct-by-Construction アーキテクチャのための、セマンティクス チェックを含む ▪ 複数言語をサポート: ▪ 8 for ASR ▪ 5 for NLU ▪ オープンソース ▪ PyTorch および PyTorch Lightning との統合 ▪ 使いやすい API ▪ 最適化された学習パフォーマンス ▪ GPU に最適化された 100 以上の学習済みチェックポイント ▪ 1000 GPU クラスにスケール可能 https://ngc.nvidia.com/catalog/containers/nvidia:nemo https://github.com/NVIDIA/NeMo NOTE: ASR – Automatic Speech Recognition | NLU – Natural Language Understanding 最先端の対話モデルを作成するためのツールキット NVIDIA NEMO
  • 24. World Record Accuracy 2.96% Gap on Gehring and Homberger Scalable to 1,000s of Locations 3 Seconds vs 5 Minutes to Route 1,000 Packages ANNOUNCING NVIDIA REOPT Re-Optimize Logistics and Supply Chain in Real-Time Accelerated Solver for Vehicle Route, Warehouse Picking, Fleet-Mix Optimization Massively Parallel Algorithm Generates Thousands of Solution Candidates and Refinements Dynamic Rerouting Reduces Travel Time, Saving Billions for a $10 Trillion Logistics Industry Available Now nvidia.com/reopt
  • 25. NVIDIA REOPT Early access 募集中 https://developer.nvidia.com/reopt-logistics-optimization
  • 26. FYI: DOMINO’S SESSION AT GTC “Vehicle Routing at Domino’s: Exploring a GPU-Enabled Approach” [A31074] https://www.nvidia.com/ja-jp/on-demand/session/gtcfall21-a31074/
  • 27. Materials Physics AI Path-Tracing USD Engineers, Designers, Creators Simulation Technologies Portal RTX Rendering NVIDIA OMNIVERSE 仮想世界を作成、接続するためのシミュレーション プラットフォーム https://www.nvidia.com/ja-jp/omniverse/creators/ | https://www.nvidia.com/ja-jp/omniverse/
  • 29. 最先端のアプリケーション Core Omniverse Apps FOR 3D DEEP LEARNING RESEARCHERS FOR DESIGNERS, CREATORS, ENGINEERS FOR GAME DEVELOPERS, ANIMATORS FOR RTX CREATORS FOR REVIEWERS, PROJECT MANAGERS FOR ROBOTICISTS
  • 30. OMNIVERSE AUDIO2FACE › Powered by NVIDIA AI › 容易に利用できる、リアルで自然な表情の自動生成 › 声質、性別や言語間の変換 › 会話や歌の音声を利用 › 推奨スペック: GeForce RTX 3070, NVIDIA RTX A4000 or higher AI による音声からの表情生成
  • 31. Omniverse Kaolin App NVIDIA KAOLIN 3D を加速するディープラーニング研究のためのツールキット https://developer.nvidia.com/nvidia-kaolin | https://github.com/NVIDIAGameWorks/kaolin Render Synthetic Data Visualize Model Training Inspect 3D Datasets Kaolin Library Modular Differentiable Renderer 3D Data Loading GPU Optimized 3D Operations 3D Checkpoints
  • 33. まとめ ▪ハードウェアの性能を最大限に引き出すため、様々なソフトウェアをリリース ▪Python 向けの API 整備も並行して進行中 ▪GPU を利用しやすい環境を整えることにより、グラフィックスやディープラーニングなど、複数の技 術を活用したアプリケーションの登場が期待される
  • 34. 宣伝: 今年の GTC は 3/21 からスタートです 参加登録はコチラ↓から http://www.nvidia.com/ja-jp/gtc/?ncid=GTC-NVKYAMASAKI