Suche senden
Hochladen
TensorRT Inference Serverではじめる、 高性能な推論サーバ構築
•
4 gefällt mir
•
4,654 views
NVIDIA Japan
Folgen
この資料は 2019 年 10 月 30 日に開催された GPU Deep Learning Community #12 にて、NVIDIAの山崎和博が発表した際のものです。
Weniger lesen
Mehr lesen
Technologie
Melden
Teilen
Melden
Teilen
1 von 24
Jetzt herunterladen
Downloaden Sie, um offline zu lesen
Empfohlen
RAPIDS 概要
RAPIDS 概要
NVIDIA Japan
【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models
Deep Learning JP
2値化CNN on FPGAでGPUとガチンコバトル(公開版)
2値化CNN on FPGAでGPUとガチンコバトル(公開版)
Hiroki Nakahara
分散学習のあれこれ~データパラレルからモデルパラレルまで~
分散学習のあれこれ~データパラレルからモデルパラレルまで~
Hideki Tsunashima
JJUG CCC リクルートの Java に対する取り組み
JJUG CCC リクルートの Java に対する取り組み
Recruit Technologies
モデル高速化百選
モデル高速化百選
Yusuke Uchida
【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい
【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい
Takuji Tahara
OpenAI FineTuning を試してみる
OpenAI FineTuning を試してみる
iPride Co., Ltd.
Empfohlen
RAPIDS 概要
RAPIDS 概要
NVIDIA Japan
【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models
Deep Learning JP
2値化CNN on FPGAでGPUとガチンコバトル(公開版)
2値化CNN on FPGAでGPUとガチンコバトル(公開版)
Hiroki Nakahara
分散学習のあれこれ~データパラレルからモデルパラレルまで~
分散学習のあれこれ~データパラレルからモデルパラレルまで~
Hideki Tsunashima
JJUG CCC リクルートの Java に対する取り組み
JJUG CCC リクルートの Java に対する取り組み
Recruit Technologies
モデル高速化百選
モデル高速化百選
Yusuke Uchida
【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい
【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい
Takuji Tahara
OpenAI FineTuning を試してみる
OpenAI FineTuning を試してみる
iPride Co., Ltd.
backbone としての timm 入門
backbone としての timm 入門
Takuji Tahara
MLOpsはバズワード
MLOpsはバズワード
Tetsutaro Watanabe
DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜
Jun Okumura
PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜
PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜
Preferred Networks
モデルアーキテクチャ観点からのDeep Neural Network高速化
モデルアーキテクチャ観点からのDeep Neural Network高速化
Yusuke Uchida
Tensor コアを使った PyTorch の高速化
Tensor コアを使った PyTorch の高速化
Yusuke Fujimoto
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
joisino
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models
cvpaper. challenge
Triplet Loss 徹底解説
Triplet Loss 徹底解説
tancoro
[GTCJ2018]CuPy -NumPy互換GPUライブラリによるPythonでの高速計算- PFN奥田遼介
[GTCJ2018]CuPy -NumPy互換GPUライブラリによるPythonでの高速計算- PFN奥田遼介
Preferred Networks
1076: CUDAデバッグ・プロファイリング入門
1076: CUDAデバッグ・プロファイリング入門
NVIDIA Japan
PFNにおける研究開発(2022/10/19 東大大学院「融合情報学特別講義Ⅲ」)
PFNにおける研究開発(2022/10/19 東大大学院「融合情報学特別講義Ⅲ」)
Preferred Networks
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
Deep Learning JP
CatBoost on GPU のひみつ
CatBoost on GPU のひみつ
Takuji Tahara
「NVIDIA プロファイラを用いたPyTorch学習最適化手法のご紹介(修正版)」
「NVIDIA プロファイラを用いたPyTorch学習最適化手法のご紹介(修正版)」
ManaMurakami1
KubernetesでGPUクラスタを管理したい
KubernetesでGPUクラスタを管理したい
Yuji Oshima
最適化超入門
最適化超入門
Takami Sato
Data-Centric AIの紹介
Data-Centric AIの紹介
Kazuyuki Miyazawa
Layer Normalization@NIPS+読み会・関西
Layer Normalization@NIPS+読み会・関西
Keigo Nishida
[DL輪読会]Pay Attention to MLPs (gMLP)
[DL輪読会]Pay Attention to MLPs (gMLP)
Deep Learning JP
使ってみませんか?pg hint_plan
使ってみませんか?pg hint_plan
Masao Fujii
Deeplearning bank marketing dataset
Deeplearning bank marketing dataset
TellSun
Weitere ähnliche Inhalte
Was ist angesagt?
backbone としての timm 入門
backbone としての timm 入門
Takuji Tahara
MLOpsはバズワード
MLOpsはバズワード
Tetsutaro Watanabe
DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜
Jun Okumura
PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜
PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜
Preferred Networks
モデルアーキテクチャ観点からのDeep Neural Network高速化
モデルアーキテクチャ観点からのDeep Neural Network高速化
Yusuke Uchida
Tensor コアを使った PyTorch の高速化
Tensor コアを使った PyTorch の高速化
Yusuke Fujimoto
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
joisino
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models
cvpaper. challenge
Triplet Loss 徹底解説
Triplet Loss 徹底解説
tancoro
[GTCJ2018]CuPy -NumPy互換GPUライブラリによるPythonでの高速計算- PFN奥田遼介
[GTCJ2018]CuPy -NumPy互換GPUライブラリによるPythonでの高速計算- PFN奥田遼介
Preferred Networks
1076: CUDAデバッグ・プロファイリング入門
1076: CUDAデバッグ・プロファイリング入門
NVIDIA Japan
PFNにおける研究開発(2022/10/19 東大大学院「融合情報学特別講義Ⅲ」)
PFNにおける研究開発(2022/10/19 東大大学院「融合情報学特別講義Ⅲ」)
Preferred Networks
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
Deep Learning JP
CatBoost on GPU のひみつ
CatBoost on GPU のひみつ
Takuji Tahara
「NVIDIA プロファイラを用いたPyTorch学習最適化手法のご紹介(修正版)」
「NVIDIA プロファイラを用いたPyTorch学習最適化手法のご紹介(修正版)」
ManaMurakami1
KubernetesでGPUクラスタを管理したい
KubernetesでGPUクラスタを管理したい
Yuji Oshima
最適化超入門
最適化超入門
Takami Sato
Data-Centric AIの紹介
Data-Centric AIの紹介
Kazuyuki Miyazawa
Layer Normalization@NIPS+読み会・関西
Layer Normalization@NIPS+読み会・関西
Keigo Nishida
[DL輪読会]Pay Attention to MLPs (gMLP)
[DL輪読会]Pay Attention to MLPs (gMLP)
Deep Learning JP
Was ist angesagt?
(20)
backbone としての timm 入門
backbone としての timm 入門
MLOpsはバズワード
MLOpsはバズワード
DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜
PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜
PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜
モデルアーキテクチャ観点からのDeep Neural Network高速化
モデルアーキテクチャ観点からのDeep Neural Network高速化
Tensor コアを使った PyTorch の高速化
Tensor コアを使った PyTorch の高速化
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models
Triplet Loss 徹底解説
Triplet Loss 徹底解説
[GTCJ2018]CuPy -NumPy互換GPUライブラリによるPythonでの高速計算- PFN奥田遼介
[GTCJ2018]CuPy -NumPy互換GPUライブラリによるPythonでの高速計算- PFN奥田遼介
1076: CUDAデバッグ・プロファイリング入門
1076: CUDAデバッグ・プロファイリング入門
PFNにおける研究開発(2022/10/19 東大大学院「融合情報学特別講義Ⅲ」)
PFNにおける研究開発(2022/10/19 東大大学院「融合情報学特別講義Ⅲ」)
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
CatBoost on GPU のひみつ
CatBoost on GPU のひみつ
「NVIDIA プロファイラを用いたPyTorch学習最適化手法のご紹介(修正版)」
「NVIDIA プロファイラを用いたPyTorch学習最適化手法のご紹介(修正版)」
KubernetesでGPUクラスタを管理したい
KubernetesでGPUクラスタを管理したい
最適化超入門
最適化超入門
Data-Centric AIの紹介
Data-Centric AIの紹介
Layer Normalization@NIPS+読み会・関西
Layer Normalization@NIPS+読み会・関西
[DL輪読会]Pay Attention to MLPs (gMLP)
[DL輪読会]Pay Attention to MLPs (gMLP)
Ähnlich wie TensorRT Inference Serverではじめる、 高性能な推論サーバ構築
使ってみませんか?pg hint_plan
使ってみませんか?pg hint_plan
Masao Fujii
Deeplearning bank marketing dataset
Deeplearning bank marketing dataset
TellSun
perfを使ったPostgreSQLの解析(前編)
perfを使ったPostgreSQLの解析(前編)
Daichi Egawa
Orb dlt technical_overview(特許情報なし)
Orb dlt technical_overview(特許情報なし)
Wataru Fukatsu
マイクロソフトが考えるAI活用のロードマップ
マイクロソフトが考えるAI活用のロードマップ
Deep Learning Lab(ディープラーニング・ラボ)
メディアコンテンツを支えるデータストアサービスをAWSで
メディアコンテンツを支えるデータストアサービスをAWSで
Yasuhiro Murata
[B16] NonStop SQLはなぜグローバルに分散DBを構築できるのか、データの整合性を保てるのか、その深層に迫るby Toshimitsu hara
[B16] NonStop SQLはなぜグローバルに分散DBを構築できるのか、データの整合性を保てるのか、その深層に迫るby Toshimitsu hara
Insight Technology, Inc.
Quantastorを使ったhybrid cloudについて_20140725
Quantastorを使ったhybrid cloudについて_20140725
AFfirmBP
SpectreとMeltdown:最近のCPUの深い話
SpectreとMeltdown:最近のCPUの深い話
LINE Corporation
【宝くじ仮説】The Lottery Ticket Hypothesis: Finding Small, Trainable Neural Networks
【宝くじ仮説】The Lottery Ticket Hypothesis: Finding Small, Trainable Neural Networks
Yosuke Shinya
Ansibleで構成管理始める人のモチベーションをあげたい! (Cloudera World Tokyo 2014LT講演資料)
Ansibleで構成管理始める人のモチベーションをあげたい! (Cloudera World Tokyo 2014LT講演資料)
NTT DATA OSS Professional Services
【17-B-3】 チケット駆動開発 タスクマネジメントからAgile開発へ part1
【17-B-3】 チケット駆動開発 タスクマネジメントからAgile開発へ part1
Makoto SAKAI
Deep Learning on Rescale - Oct/11/2016 at Rescale night
Deep Learning on Rescale - Oct/11/2016 at Rescale night
Rescale Japan株式会社
サポートスペシャリストが語るXenDesktop / XenApp環境での最速トラブルシューティング
サポートスペシャリストが語るXenDesktop / XenApp環境での最速トラブルシューティング
Citrix Systems Japan
TensorFlowの使い方(in Japanese)
TensorFlowの使い方(in Japanese)
Toshihiko Yamakami
Jubatus分類器の活用テクニック
Jubatus分類器の活用テクニック
JubatusOfficial
ヒーロー島 Visual Studio 2012
ヒーロー島 Visual Studio 2012
智治 長沢
NW入門
NW入門
Shuntaro Saiba
ビッグデータ&データマネジメント展
ビッグデータ&データマネジメント展
Recruit Technologies
【たぶん日本初導入!】Azure Stack Hub with GPUの性能と機能紹介
【たぶん日本初導入!】Azure Stack Hub with GPUの性能と機能紹介
NTT Communications Technology Development
Ähnlich wie TensorRT Inference Serverではじめる、 高性能な推論サーバ構築
(20)
使ってみませんか?pg hint_plan
使ってみませんか?pg hint_plan
Deeplearning bank marketing dataset
Deeplearning bank marketing dataset
perfを使ったPostgreSQLの解析(前編)
perfを使ったPostgreSQLの解析(前編)
Orb dlt technical_overview(特許情報なし)
Orb dlt technical_overview(特許情報なし)
マイクロソフトが考えるAI活用のロードマップ
マイクロソフトが考えるAI活用のロードマップ
メディアコンテンツを支えるデータストアサービスをAWSで
メディアコンテンツを支えるデータストアサービスをAWSで
[B16] NonStop SQLはなぜグローバルに分散DBを構築できるのか、データの整合性を保てるのか、その深層に迫るby Toshimitsu hara
[B16] NonStop SQLはなぜグローバルに分散DBを構築できるのか、データの整合性を保てるのか、その深層に迫るby Toshimitsu hara
Quantastorを使ったhybrid cloudについて_20140725
Quantastorを使ったhybrid cloudについて_20140725
SpectreとMeltdown:最近のCPUの深い話
SpectreとMeltdown:最近のCPUの深い話
【宝くじ仮説】The Lottery Ticket Hypothesis: Finding Small, Trainable Neural Networks
【宝くじ仮説】The Lottery Ticket Hypothesis: Finding Small, Trainable Neural Networks
Ansibleで構成管理始める人のモチベーションをあげたい! (Cloudera World Tokyo 2014LT講演資料)
Ansibleで構成管理始める人のモチベーションをあげたい! (Cloudera World Tokyo 2014LT講演資料)
【17-B-3】 チケット駆動開発 タスクマネジメントからAgile開発へ part1
【17-B-3】 チケット駆動開発 タスクマネジメントからAgile開発へ part1
Deep Learning on Rescale - Oct/11/2016 at Rescale night
Deep Learning on Rescale - Oct/11/2016 at Rescale night
サポートスペシャリストが語るXenDesktop / XenApp環境での最速トラブルシューティング
サポートスペシャリストが語るXenDesktop / XenApp環境での最速トラブルシューティング
TensorFlowの使い方(in Japanese)
TensorFlowの使い方(in Japanese)
Jubatus分類器の活用テクニック
Jubatus分類器の活用テクニック
ヒーロー島 Visual Studio 2012
ヒーロー島 Visual Studio 2012
NW入門
NW入門
ビッグデータ&データマネジメント展
ビッグデータ&データマネジメント展
【たぶん日本初導入!】Azure Stack Hub with GPUの性能と機能紹介
【たぶん日本初導入!】Azure Stack Hub with GPUの性能と機能紹介
Mehr von NVIDIA Japan
HPC 的に H100 は魅力的な GPU なのか?
HPC 的に H100 は魅力的な GPU なのか?
NVIDIA Japan
NVIDIA cuQuantum SDK による量子回路シミュレーターの高速化
NVIDIA cuQuantum SDK による量子回路シミュレーターの高速化
NVIDIA Japan
Physics-ML のためのフレームワーク NVIDIA Modulus 最新事情
Physics-ML のためのフレームワーク NVIDIA Modulus 最新事情
NVIDIA Japan
20221021_JP5.0.2-Webinar-JP_Final.pdf
20221021_JP5.0.2-Webinar-JP_Final.pdf
NVIDIA Japan
開発者が語る NVIDIA cuQuantum SDK
開発者が語る NVIDIA cuQuantum SDK
NVIDIA Japan
NVIDIA Modulus: Physics ML 開発のためのフレームワーク
NVIDIA Modulus: Physics ML 開発のためのフレームワーク
NVIDIA Japan
NVIDIA HPC ソフトウエア斜め読み
NVIDIA HPC ソフトウエア斜め読み
NVIDIA Japan
HPC+AI ってよく聞くけど結局なんなの
HPC+AI ってよく聞くけど結局なんなの
NVIDIA Japan
Magnum IO GPUDirect Storage 最新情報
Magnum IO GPUDirect Storage 最新情報
NVIDIA Japan
データ爆発時代のネットワークインフラ
データ爆発時代のネットワークインフラ
NVIDIA Japan
Hopper アーキテクチャで、変わること、変わらないこと
Hopper アーキテクチャで、変わること、変わらないこと
NVIDIA Japan
GPU と PYTHON と、それから最近の NVIDIA
GPU と PYTHON と、それから最近の NVIDIA
NVIDIA Japan
GTC November 2021 – テレコム関連アップデート サマリー
GTC November 2021 – テレコム関連アップデート サマリー
NVIDIA Japan
テレコムのビッグデータ解析 & AI サイバーセキュリティ
テレコムのビッグデータ解析 & AI サイバーセキュリティ
NVIDIA Japan
必見!絶対におすすめの通信業界セッション 5 つ ~秋の GTC 2020~
必見!絶対におすすめの通信業界セッション 5 つ ~秋の GTC 2020~
NVIDIA Japan
2020年10月29日 プロフェッショナルAI×Roboticsエンジニアへのロードマップ
2020年10月29日 プロフェッショナルAI×Roboticsエンジニアへのロードマップ
NVIDIA Japan
2020年10月29日 Jetson活用によるAI教育
2020年10月29日 Jetson活用によるAI教育
NVIDIA Japan
2020年10月29日 Jetson Nano 2GBで始めるAI x Robotics教育
2020年10月29日 Jetson Nano 2GBで始めるAI x Robotics教育
NVIDIA Japan
COVID-19 研究・対策に活用可能な NVIDIA ソフトウェアと関連情報
COVID-19 研究・対策に活用可能な NVIDIA ソフトウェアと関連情報
NVIDIA Japan
Jetson Xavier NX クラウドネイティブをエッジに
Jetson Xavier NX クラウドネイティブをエッジに
NVIDIA Japan
Mehr von NVIDIA Japan
(20)
HPC 的に H100 は魅力的な GPU なのか?
HPC 的に H100 は魅力的な GPU なのか?
NVIDIA cuQuantum SDK による量子回路シミュレーターの高速化
NVIDIA cuQuantum SDK による量子回路シミュレーターの高速化
Physics-ML のためのフレームワーク NVIDIA Modulus 最新事情
Physics-ML のためのフレームワーク NVIDIA Modulus 最新事情
20221021_JP5.0.2-Webinar-JP_Final.pdf
20221021_JP5.0.2-Webinar-JP_Final.pdf
開発者が語る NVIDIA cuQuantum SDK
開発者が語る NVIDIA cuQuantum SDK
NVIDIA Modulus: Physics ML 開発のためのフレームワーク
NVIDIA Modulus: Physics ML 開発のためのフレームワーク
NVIDIA HPC ソフトウエア斜め読み
NVIDIA HPC ソフトウエア斜め読み
HPC+AI ってよく聞くけど結局なんなの
HPC+AI ってよく聞くけど結局なんなの
Magnum IO GPUDirect Storage 最新情報
Magnum IO GPUDirect Storage 最新情報
データ爆発時代のネットワークインフラ
データ爆発時代のネットワークインフラ
Hopper アーキテクチャで、変わること、変わらないこと
Hopper アーキテクチャで、変わること、変わらないこと
GPU と PYTHON と、それから最近の NVIDIA
GPU と PYTHON と、それから最近の NVIDIA
GTC November 2021 – テレコム関連アップデート サマリー
GTC November 2021 – テレコム関連アップデート サマリー
テレコムのビッグデータ解析 & AI サイバーセキュリティ
テレコムのビッグデータ解析 & AI サイバーセキュリティ
必見!絶対におすすめの通信業界セッション 5 つ ~秋の GTC 2020~
必見!絶対におすすめの通信業界セッション 5 つ ~秋の GTC 2020~
2020年10月29日 プロフェッショナルAI×Roboticsエンジニアへのロードマップ
2020年10月29日 プロフェッショナルAI×Roboticsエンジニアへのロードマップ
2020年10月29日 Jetson活用によるAI教育
2020年10月29日 Jetson活用によるAI教育
2020年10月29日 Jetson Nano 2GBで始めるAI x Robotics教育
2020年10月29日 Jetson Nano 2GBで始めるAI x Robotics教育
COVID-19 研究・対策に活用可能な NVIDIA ソフトウェアと関連情報
COVID-19 研究・対策に活用可能な NVIDIA ソフトウェアと関連情報
Jetson Xavier NX クラウドネイティブをエッジに
Jetson Xavier NX クラウドネイティブをエッジに
Kürzlich hochgeladen
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
akihisamiyanaga1
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
FumieNakayama
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
Yuki Kikuchi
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
sugiuralab
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
Hiroshi Tomioka
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
博三 太田
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
UEHARA, Tetsutaro
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
FumieNakayama
Kürzlich hochgeladen
(8)
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
TensorRT Inference Serverではじめる、 高性能な推論サーバ構築
1.
Kazuhiro Yamasaki, Deep
Learning Solution Architect, NVIDIA, 10/30/2019 GPU DEEP LEARNING COMMUNITY #12 TENSORRT INFERENCE SERVERではじめる、 高性能な推論サーバ構築
2.
2 AGENDA ディープラーニングの推論処理 TensorRT Inference Server
(TRTIS) とは? デプロイに必要なこと パフォーマンスチューニング デモ:音声認識モデルのデプロイ
3.
3 本日話す内容 サーバ側での推論に特化しています (Jetsonでの推論はスコープ外です)
4.
4 ディープラーニングにおける処理の分類 典型的には2つ
5.
5 推論処理で気をつける指標 トレードオフの関係 スループット (or 同時接続数) 遅延 精度 (accuracy, etc)
6.
6 推論処理で気をつける指標 トレードオフの関係 スループット (or 同時接続数) 遅延 精度 (accuracy, etc) 量子化
(特にINT8) で高速化 → 何もしないと精度低下の可能性 (calibration 等で対処)
7.
7 GPUを使った推論の場合 バッチ的に処理するほうが高速 1 3 2 ひとつずつ、順番に処理するのは効率が良くない
8.
8 GPUを使った推論の場合 バッチ的に処理するほうが高速 1 2 3
1,2,3 複数の処理を束ねて実行することで、スループットを改善 (束ねるために待ちすぎると遅延が悪化)
9.
9 GPUを使った推論の場合 特性を生かした処理のために必要な機構 一定時間内に受け付けた 複数の推論処理リクエストを束ねる REQUEST QUEUE GPU上に複数のモデルを展開し 同時に多数の処理を実行 CONCURRENT EXECUTION 1
2 3 1,2,3
10.
10 TENSORRT INFERENCE SERVER
(TRTIS) GPUに最適化された推論サーバのOSS実装 Models supported ● TensorRT Plans ● TensorFlow GraphDef/SavedModel ● TensorFlow and TensorRT GraphDef ● PyTorch JIT (.pt) ● ONNX graph ● Caffe2 NetDef (ONNX import) Multi-GPU support Concurrent model execution Server HTTP REST API/gRPC Python/C++ client libraries https://github.com/NVIDIA/tensorrt-inference-server
11.
11 TENSORRT INFERENCE SERVER
(TRTIS) 特徴的な機能 Concurrent Model Execution 複数モデル (同じモデルを複数個もOK) を同 時にGPU上で実行 CPU Model Inference Execution CPUでの推論実行もサポート Metrics GPU使用率、推論回数、メモリ使用量、実 行時間など Custom Backend 共有ライブラリとして実装された処理を custom backendとして使用可能 Model Ensemble 複数のモデルの入出力をつないでパイプライン 化することも可能 Dynamic Batching 事前定義の最大数および最大遅延を基準 に、推論リクエストをバッチにまとめる Multiple Model Format Support TensorRT Plans TensorFlow GraphDef/SavedModel TensorFlow and TensorRT GraphDef PyTorch JIT (.pt) ONNX graph (ONNX Runtime) Caffe2 NetDef (ONNX import path) CMake build ソースコードからビルドすることで、複数OSへの ポーティング等が容易に Streaming API 音声認識のようなストリーミング等もサポート
12.
12 TRTISに学習済みモデルをデプロイするには? モデルの配置と設定ファイル (config.pbtxt) の記述 models/ +--
resnet/ | +-- config.pbtxt | +-- 1/ | | +-- saved_model.pb | : +-- ssd/ | +-- config.pbtxt | +-- 1/ | +-- model.trtengine : 設定ファイル 学習済みモデル学習済みモデル モデルにバージョンを 定義可能 ディレクトリ構成 trtserver --model-repository=/models 起動コマンド または NGC のコンテナイメージを利用 (本資料末尾参照)
13.
13 TRTISに学習済みモデルをデプロイするには? モデルの配置と設定ファイル (config.pbtxt) の記述 config.pbtxt
(例) name: "resnet" platform: "tensorflow_savedmodel" max_batch_size: 64 input { name: "input" data_type: TYPE_FP32 format: FORMAT_NHWC dims: [ 224, 224, 3 ] } output { name: "probabilities" data_type: TYPE_FP32 dims: 1000 } default_model_filename: "saved_model" instance_group [ { count: 1 kind: KIND_GPU } ] dynamic_batching { preferred_batch_size: [ 16 ] max_queue_delay_microseconds: 20000 }
14.
14 パフォーマンスに影響する主な設定項目 同時実行数とリクエストキュー config.pbtxt (例) default_model_filename: "saved_model" instance_group
[ { count: 1 kind: KIND_GPU } ] dynamic_batching { preferred_batch_size: [ 16 ] max_queue_delay_microseconds: 20000 } GPU上にモデルを何個 展開するか指定 リクエストを最大いくつ 束ねるかの指定 キューでの最大 待ち時間 (マイクロ秒)
15.
15 パフォーマンスに影響する主な設定項目 同時実行数とリクエストキュー https://cloud.withgoogle.com/next/ tokyo/speakers?session=D1-2-S12 設定をチューニングした一例↓ GCP で構築する高性能かつスケーラブルなオンライン予測システム https://medium.com/google-cloud-jp/building-high- performance-online-prediction-system-on-gcp-12b57ca44284
16.
16 とはいえ画像ばかりでは 面白くないですよね?
17.
17 デモ 音声認識モデルを例に Jasper: An End-to-End
Convolutional Neural Acoustic Model https://github.com/NVIDIA/DeepLearningExamples/tree/ master/PyTorch/SpeechRecognition/Jasper
18.
18 デモ 音声認識モデルを例に config.pbtxt name: "jasper" platform: "tensorrt_plan" max_batch_size:
1 input [ { name: "FEATURES" data_type: TYPE_FP32 dims: [ 64, 3600 ] } ] output [ { name: "LOGITS" data_type: TYPE_FP32 dims: [ 1800, 29 ] } ] default_model_filename: "model.engine" instance_group [ { count: 1 kind: KIND_GPU } ]
19.
19 デモ 音声認識モデルを例に .js Backend server TRTIS Frontend server 1. 2. 3. Full I
am aiI am AI.
20.
20 余談: K8Sでオートスケール Prometheusとの連携でさらに高度な監視も apiVersion: autoscaling/v2beta1 kind:
HorizontalPodAutoscaler metadata: name: inference-server-v1-hpa namespace: default spec: scaleTargetRef: apiVersion: apps/v1 kind: Deployment name: inference-server-v1 minReplicas: 2 maxReplicas: 5 設定の一例 metrics: - type: Resource resource: name: cpu targetAverageUtilization: 50 スケーリングする基準を設定 (Prometheus経由の metricsも利用可能)
21.
21 まとめ TensorRT Inference Serverを使うと、高速な推論サーバを簡単に構築できる TensorRTだけではなく、多数のモデルフォーマットに対応 画像以外のデータにも対応 Kubernetesと組み合わせることで、スケーリング等にも対応できる Key
takeaways
22.
23.
23 APPENDIX
24.
24 TRTISのDOCKERコンテナイメージ NGCから毎月リリース中 https://ngc.nvidia.com/catalog/containers/nvidia:tensorrtserver docker run --gpus
all --rm --shm-size=1g --ulimit memlock=-1 --ulimit stack=67108864 -p8000:8000 -p8001:8001 –p8002:8002 -v/path/to/model/store:/tmp/models nvcr.io/nvidia/tensorrtserver:19.xx-py3 /opt/tensorrtserver/bin/trtserver --model-store=/tmp/models 起動コマンド一例 (docker CE19.03以降) ↓
Jetzt herunterladen