AWS Webinar 20201224

p4d.24xlargeのすゝめ
～圧倒的コスパを誇る G P U インスタンス～
2 0 2 0 . 1 2 . 2 4 1 1 : 2 5 ～ 1 1 : 5 0 A W S W e b i n a r 来栖川電算取締役山口陽平
AWSの最新GPUインスタンス Amazon EC2 P4d - マシンラーニングとHPCに最適！

アジェンダ
1. 自己紹介＆会社紹介
2. p4d.24xlarge 導入の動機
3. p4d.24xlarge の評価
4. 付録
2

自己紹介＆会社紹介
名古屋の AI ベンチャー
3

山口陽平何でも学び何でもやる人
4
有限会社来栖川電算創業者・取締役・最高技術責任者
職務全体ビジョン・ビジネス・資金・設備・人員・制
度・文化・パートナーシップの計画・遂行
個別企画，調査，研究，開発，運用，指導，教育，
広報，採用，…
略歴 2001 名古屋工業大学知能情報システム卒業
2003 名古屋工業大学電気情報工学修士課程修了
有限会社来栖川電算設立
IPA 未踏ソフトウェア創造事業採択
2012 名古屋工業大学情報工学博士課程退学
2013 Mashup Awards 9 優秀賞受賞

仕事＝趣味何にでも面白みを見出す人
5
休日も論文読み・プログラミング・コミュニティ活動・講演・執筆
興味ロボット，AI，UI，UX
専門機械学習，信号処理，記号処理，プログラミング言
語，コンパイラ，データベース，ソフトウェアアー
キテクチャ，ソフトウェアプロセス
得意分析，抽象化，高速化，省資源化，並列化，分散化
@melleo1978

来栖川電算
• 様々な領域の顧客とともに彼らが抱える課題を解決
– AI・ML を応用した認識技術・自動化技術の研究開発
– ソフトウェア・アノテーションの製造・販売
– 研究開発を加速する基盤サービスの提供
6
設立 2003 年名古屋工業大学発ベンチャー企業従業員 82 人
急成長中

7
AR付箋
書籍の中身を検索するアプリ
Cellars
ワインラベルで情報検索するアプリ
画像認識API
商品パッケージで情報検索するAPI
生活情報調査
道路沿いの視覚情報を収集し、活用
交通情報調査
研究開発支援
タンゴチュウ
写真に写る単語を抽出するサービス
走行データ解析
周辺環境を認識し、様々な解析に活用
地図生成
オルソ画像から地物・交通規則を抽出
動作推定API
加速度センサで人の行動を推定
毎朝体操
腕の動きで体操採点するアプリヒーローの動きでゲームを制御
なりきり2.0
ー
シ
ョ
ン
認
識
研究開発支援研究開発支援
AHAB
大量の実験と計算資源を効率的に管理
ANNOFAB
高品質なアノテーションを大量に生産可能
DNN compiler
DNNの推論を10～1000倍も効率化
GameControllerizer
プログラマブル・ゲームコントローラ
研究開発支援
類似検索類似検索類似検索文字認識
物体認識物体認識物体認識物体認識
モーション認識モーション認識モーション認識物体認識
瞳孔位置推定
眼球運動を監視し、眠気の推定に活用

顧客中心のワンストップ体制
8
AI・ML に関わる全工程を扱うため、適した工程で課題解決可能
AI・ML アプリ
SI 基盤サービス
AI・ML 基盤サービス
データモデルアノテータ
デザイナ
研究者
開発者
顧客
全体
把握
最適
戦略

ハイレベルな人材
• 最先端の AI・ML 技術
– 文字認識，物体認識，行動認識，空間復元
• 限界性能を引き出す優れた実装技術
– 機械学習・コンパイラ・データベースなどのアルゴリズムやバ
イナリハックを駆使した高精度化・高速化・省資源化・並列
化・分散化
• 高品質なソフトウェアを実現する技術
– アーキテクチャ・プロセスへの深い理解に基づく設計と計画
9
未踏採択者，コンテスト受賞者，MVP 受賞者，OSS 貢献者，…

社会貢献：コミュニティ活動
10
勉強会の主催，スタッフ・会場の提供，スポンサー・寄付，…

機械学習名古屋
• 勉強会開催：隔月対象：初心者（非技術者も含む）
– アルゴリズム紹介・事例紹介・ハンズオン
• 研究会開催：毎月対象：研究者，技術者
– 機械学習関連の論文紹介・記事紹介
– 来栖川電算の研究者だけでなく日本各地の大学院生も参加
11
https://machine-learning.connpass.com/
宣伝

P4d.24xlarge 導入の動機
とにかく実験を早く回したい
12

研究の具体例
来栖川電算における
13

地図生成
自動運転や高度なモビリティサービスに使える水準の
地図をオルソ画像から高速に抽出する深層学習手法を
開発。株式会社トヨタマップマスター様との応用事例。
14

生活情報調査
アスクル株式会社様の営業車のドラレコを解析し、視
覚情報（ガソリン価格，駐車場満空，渋滞，事故，行
列，…）を DB 化。ヤフー株式会社様との共同研究。
15

空港で働くロボット
カート回収・荷物運搬 ※セントレアで実証実験
LiDAR 点群から求めた物体の３次元姿勢（位置・方
向）をカメラ映像のみから高精度に推定。新明工業株
式会社様・オンクラウズ株式会社様との共同研究。
16

研究者の仕事
来栖川電算における
17

研究者の仕事
• たくさんの実験の実施 ⇒ 良い結果
• 絡み合う実験の管理 ⇒ 研究の信頼性
18
仮説検証を回し、課題解決の道筋を付けること

研究にまつわる課題
• こんな実験が “めっちゃ” たくさんある
– 複数の工程からなる微妙に設定が異なる実験
– デカくて時間がかかる実験
• こんなことが “よく” 起きる
– 手作業が挟まると取り違える。
– 後で確認（やり直し）したくなる。
– たまに死ぬので途中から再開したくなる。
⇒実験パイプラインのコード化が重要
19
たくさんの絡み合うデカい実験を扱えるツールがない！

計算環境の制約
• 各人が占有するやり方はしたくない
– 費用・電源が足りない。調達・運用したくない。
– そもそも 1 人 1GPU 程度じゃ全然足りない。
• お客様が貸してくれる環境も活用したい
– 大規模なオンプレ環境を用意してくれる。
• よく不足するのでクラウドも活用したい
– 突発的に 100GPU 必要になることもある。
⇒計算環境の抽象化・共有が重要
20
いろいろな環境の GPU を必要なときに必要なだけ使いたい

AHAB （実験スケジューラ）
そういう理由で 2016 年から開発運用している
21

計算環境の抽象化
22
計算環境が変わっても同じコードで OK ハードウェアの隠蔽
WebAPI・CLI WebAPI・CLI WebAPI・CLI
実験パイプライン
・実験コードの Docker 化
・実験の依存関係のコード化

2020 年 5 月 DGX A100 登場！
23
2.5 倍の速度で半額、消費電力は 65%、なんかめちゃ安くね？
DGX-2 DGX-A100
GPU 計算速度 2 PF 5 PF
GPU メモリ容量 512 GB 320 GB
GPU 間通信速度 300 GB/s 600 GB/s
本体消費電力 10,000 W 6,500 W
本体価格 399,000 $ 199,000 $

p4d.24xlarge の評価
導入検討のために行った
24

実験設定
４種類のハードウェア性能を比較する
25

評価方法
評価用プログラム
画像セグメンテーションのための深層モデル（dilated conv や
separable conv などでできた標準的 CNN）を分散学習するプログ
ラム（TensorFlow 1 系 + Horovod ※Uber製 or Strict ※自社製）
26
評価プログラムで各ハードウェアのスループットを計測・比較する
評価対象ハードウェア GPU 種類 GPU 数 GPU 接続方式 GPU 接続構造
DGX-1 ※１ P100 16GB 8 GPU NVLink Hybrid Cube Mesh
p3.16xlarge V100 16GB 8 GPU NVLink Hybrid Cube Mesh
p3dn.24xlarge V100 32GB 8 GPU NVLink Hybrid Cube Mesh
p4d.24xlarge A100 40GB 8 GPU NVLink Full Connection
※１・・・あるプロジェクトで３台使っている。今回これを更新できると嬉しい。

Horovod
27
凄く手軽な分散学習用フレームワーク ※ TF1 系勢にお勧め
1. NGC コンテナを使う。
2. Dockerfile に「pip install horovod」を追加する。
3. 次の修正が入ったコードを mpirun 経由で実行する。
# MonitoredTrainingSessionを使わない場合に、全GPUでモデルの重みを共有する方法（最初に１回だけやれば良い）の参考
session.run(tf.global_variables_initializer())
if arg_option.input_database != "":
model.restore(session, arg_option.saver_format_version, arg_option.input_database)
if arg_option.hvd:
session.run(hvd.broadcast_global_variables(0)) # これで全GPUに重みが共有される
参考にしたサイト ⇒ https://github.com/horovod/horovod/blob/master/docs/tensorflow.rst

実験結果
A100 のジャジャウマさに翻弄された
28

単体性能比較：計算方式別
• V100 以降は AMP（混合精度計算へ近似する機能）で速くなる。
• 最小容量の GPU に合わせてバッチサイズ（10 事例）を設定したた
め、V100 32GB と A100 40GB は本来の性能を発揮できていない。
29
A100 1GPU ≒ V100 1GPU × 1.6 ≒ P100 1GPU × 6.2
0.0 事例/秒
10.0 事例/秒
20.0 事例/秒
30.0 事例/秒
40.0 事例/秒
50.0 事例/秒
60.0 事例/秒
1GPU+FP32 1GPU+AMP
DGX-1 (P100 16GB) p3.16xlarge (V100 16GB) p3dn.24xlarge (V100 32GB) p4d.24xlarge (A100 40GB)

30
ハードウェア使用資源計算方式分散方式バッチサイズスループット
DGX-1 (P100 16GB) 1 GPU FP32 - 10 事例 8.3 事例/秒
p3.16xlarge (V100 16GB) 1 GPU FP32 - 10 事例 13.9 事例/秒
p3dn.24xlarge (V100 32GB) 1 GPU FP32 - 10 事例 13.3 事例/秒
p4d.24xlarge (A100 40GB) 1 GPU FP32 - 10 事例 32.3 事例/秒
DGX-1 (P100 16GB) 1 GPU AMP - 10 事例 ×
p3.16xlarge (V100 16GB) 1 GPU AMP - 10 事例 31.8 事例/秒
p3dn.24xlarge (V100 32GB) 1 GPU AMP - 10 事例 30.4 事例/秒
p4d.24xlarge (A100 40GB) 1 GPU AMP - 10 事例 51.2 事例/秒

単体性能比較：バッチサイズ別
• バッチサイズを大きくすると性能が改善するとは言えない。
• 組み合わせ（モデル・計算方式・ハードウェア）によって、Tensor
Core が使われやすい条件があり、その影響が大きいと思われる。
31
バッチサイズによって性能が 14% 程度変動する。
0.0 事例/秒
10.0 事例/秒
20.0 事例/秒
30.0 事例/秒
40.0 事例/秒
50.0 事例/秒
60.0 事例/秒
1GPU+10事例 1GPU+15事例 1GPU+17事例 1GPU+32事例 1GPU+40事例
p4d.24xlarge (A100 40GB)

32

分散性能比較：分散方式別
• Horovod を使えば高い分散効率を得られる。精度に影響あるかも？
• Strict（精度劣化しない方式，弊社製）では分散効率が悪い。P100
は計算が律速だったが、A100 は通信が律速になった。調整が要る。
33
A100 8GPU ≒ A100 1GPU × 7.0 ≒ V100 8GPU × 1.6 ≒ P100 8GPU × 5.7
0.0 事例/秒
50.0 事例/秒
100.0 事例/秒
150.0 事例/秒
200.0 事例/秒
250.0 事例/秒
300.0 事例/秒
350.0 事例/秒
400.0 事例/秒
1GPU 8GPU+Strict 8GPU+Horovod

34
DGX-1 (P100 16GB) 8 GPU FP32 Strict 40 事例 47.1 事例/秒
p3.16xlarge (V100 16GB) 8 GPU AMP Strict 40 事例 98.8 事例/秒
p3dn.24xlarge (V100 32GB) 8 GPU AMP Strict 40 事例 104.7 事例/秒
p4d.24xlarge (A100 40GB) 8 GPU AMP Strict 40 事例 137.0 事例/秒
DGX-1 (P100 16GB) 8 GPU FP32 Horovod 40 事例 62.0 事例/秒
p3.16xlarge (V100 16GB) 8 GPU AMP Horovod 40 事例 222.2 事例/秒
p3dn.24xlarge (V100 32GB) 8 GPU AMP Horovod 40 事例 224.7 事例/秒
p4d.24xlarge (A100 40GB) 8 GPU AMP Horovod 40 事例 354.0 事例/秒

分散性能比較：バッチサイズ別
• バッチサイズを大きくすると分散性能が改善するとは言えない。
• A100 は V100 よりもバッチサイズによる性能の変動幅が大きい。
Tensor Core が使われる条件を理解しきれていないので探索が要る。
35
A100 8GPU ≒ 8.6 × A100 1GPU ≒ 1.8 × V100 8GPU ≒ 6.6 × P100 8GPU
0.0 事例/秒
100.0 事例/秒
200.0 事例/秒
300.0 事例/秒
400.0 事例/秒
1GPU+40事例 8GPU+40事例 8GPU+80事例 8GPU+120事例 8GPU+256事例 8GPU+320事例
分散方式 : Horovod

36

分散性能比較：バッチサイズ別
• バッチサイズを大きくすると分散性能が改善するとは言えない。
• A100 は V100 よりもバッチサイズによる性能の変動幅が大きい。
Tensor Core が使われる条件を理解しきれていないので探索が要る。
37
A100 8GPU ≒ 7.9 × A100 1GPU ≒ 2.7 × V100 8GPU ≒ 8.6 × P100 8GPU
0.0 事例/秒
100.0 事例/秒
200.0 事例/秒
300.0 事例/秒
400.0 事例/秒
1GPU+40事例 8GPU+40事例 8GPU+80事例 8GPU+120事例 8GPU+256事例 8GPU+320事例
分散方式 : Strict

38

精度比較
• AMP が使える状況では精度が改善したが、使えない状況では精度劣
化した。組み合わせ（モデル・計算方式・分散方式）の影響かも？
39
速くなったので、普段より学習時間を増やしたら、精度が改善した。
モデルハードウェア使用資源計算方式分散方式学習時間精度変化率
ベース p4d.24xlarge (A100 40GB) 1 GPU AMP - 11.3 時間 -
ベース p4d.24xlarge (A100 40GB) 8 GPU AMP Horovod 2.1 時間 0.0 %
チャネル数×２ p4d.24xlarge (A100 40GB) 8 GPU AMP Horovod 4.1 時間 +0.7 %
ステップ数×４ p4d.24xlarge (A100 40GB) 8 GPU AMP Horovod 8.3 時間 +0.9 %
ベース DGX-1 (P100 16GB) 8 GPU FP32 Strict 11.8 時間 -
ベース DGX-1 (P100 16GB) 8 GPU FP32 Horovod 11.1 時間 -4.0 %

まとめ
A100 は性能の変動幅が大きいが、
雑に使っても V100 の 1.6 倍にはできそう
40

まとめ ※来栖川電算のモデルでの結論
• 圧倒的にコスパがいい
• まだまだ伸びしろがある
– A100 は、バッチサイズによ
る性能の変動幅が大きい、通
信が律速になりやすい、ので
調整が要る。
– 組み合わせ（モデル・計算方
式・分散方式）で精度劣化す
る恐れがあるので対策が要る。
41
３日 (P100 8GPU) が半日 (A100 8GPU) になるだけでも導入効果が高い
A100 8GPU ≒ V100 8GPU × 1.7 ～ 1.8
A100 8GPU ≒ P100 8GPU × 6.3 ～ 6.6
A100 8GPU ≒ A100 1GPU × 7.0 ～ 8.7
V100 8GPU ≒ A100 1GPU × 4.4 ～ 4.7
P100 8GPU ≒ A100 1GPU × 1.2 ～ 1.3
A100 1GPU ≒ V100 1GPU × 1.6
A100 1GPU ≒ P100 1GPU × 5.7
p4d.24xlarge (A100 40GB) 32.7726 $/h
p3dn.24xlarge (V100 32GB) 31.2120 $/h

結論：買います！
• DGX A100：3,000 万円
– 本体：2,000万円，保守３年：400万円，電気代３年：600万円
※故障してから復旧まで使えない。社員の対応コストもかかる。
※３年以上使えるが、３年後の新しいマシンの方が消費電力あた
りの計算速度が高いので得しない可能性がある。
• p4d.24xlarge ３年リザーブドスタンダード：3000 万円
※故障したら再起動するだけで直ぐに復旧できる。追加も簡単。
⇒ 結論：クラウドのがいいね！
42
以下の理由により、DGX A100 ではなく p4d.24large に決定した

事例・製品・サービス
付録１
43

類似検索
膨大なデータの中から類似データを高速・高精度に照合できる
44

画像認識 API
商品パッケージで情報検索する API
商品パッケージが写った画像を送信するだけで、膨大
な DB から瞬時に種類を特定。クロールした画像から
直接構築した DB を利用。
45

Cellars
ワインラベルで情報検索するアプリ
ワインラベルにスマホをかざすだけで、18 万件から
瞬時に種類を特定。国内外のコンテストで入賞。株式
会社 Cellars 様による弊社技術の応用事例。
46

AR 付箋
書籍の中身を検索するアプリ
書籍を開いてスマホをかざすだけで、膨大な DB から
瞬時にページを特定し、貼られている付箋を表示。お
客様による弊社技術の応用事例。
47

物体認識
物体の位置・向き・姿勢・種類を高速・高精度に捉える
48

走行データ解析
周辺環境を認識し、様々な解析に活用
膨大な走行データから歩行者・車両・白線・標識など
を検出・追跡し、索引化。必要に応じて、CAN や
Lidar なども活用し、高品質化。
49

地図生成
自動運転や高度なモビリティサービスに使える水準の
地図をオルソ画像から高速に抽出する深層学習手法を
開発。株式会社トヨタマップマスター様との応用事例。
50

交通情報調査
首都圏を走行する大量の車両のドラレコを解析し、視
覚情報（天候，路面状態，レーン別交通量，危険シー
ン，…）を DB 化。顧客との研究事例。
51

生活情報調査
アスクル株式会社様の営業車のドラレコを解析し、視
覚情報（ガソリン価格，駐車場満空，渋滞，事故，行
列，…）を DB 化。ヤフー株式会社様との共同研究。
52

瞳孔位置推定
眼球運動を監視し、眠気の推定に活用
スマートグラスで撮影した映像から瞳孔位置・閉眼状
態を高精度に推定。個人差・外乱に頑健。エッジで
60 fps。知の拠点あいち重点研究プロジェクト事業。
53

文字認識
様々な書体・外乱に対応した
54

タンゴチュウ
写真に写る単語を抽出するサービス
情景画像（スマホで撮影した写真など）に写る単語を
抽出。様々な書体・配置・劣悪な環境（歪み・隠れ・
擦れ・照明など）での利用を想定。
55

モーション認識
身体の動き・姿勢を高速・高精度に捉える
56

生体情報推定
特別なセンサなしに生体情報を推定
スマホやウォッチに搭載されている標準的なセンサの
みを用いて生体情報を推定（センサエミュレーショ
ン）。株式会社 NTT ドコモ様との共同研究。
57

動作推定 API
加速度センサで人の行動を推定
スマホやウォッチの動きから静止・歩行・走行・食
事・睡眠などを推定。同じ仕組みで撮影時の手振れ検
出も可能。株式会社 NTT ドコモ様との共同研究。
58

毎朝体操
腕の動きで体操採点するアプリ
100 ヶ国 20 万人を超えるユーザから日々送られてく
るセンサデータを学習することで体操採点の正確さが
自動改善。JFE スチール株式会社様へ導入。
59

なりきり 2.0
ヒーローの動きでゲームを制御
腕や脚に装着したセンサで体の動きを捉え、家庭用
ゲーム機のコマンドを生成。格闘ゲームが遊べるほど
の速さと正確さをスマホ上で実現。
60

ロボット
人と混在する空間で働く
61

空港で働くロボット
カート回収・荷物運搬 ※セントレアで実証実験
LiDAR 点群から求めた物体の３次元姿勢（位置・方
向）をカメラ映像のみから高精度に推定。新明工業株
式会社様・オンクラウズ株式会社様との共同研究。
62

研究開発支援
日々使い改良される道具による
63

DNN compiler
DNNの推論を 10 ～ 1000 倍も高速化
重みや活性の量子化・スパース化、計算の共有などの
様々な手法で DNN を近似し、高速化・省資源化され
た実行形式（Linux・Android・iOS）へ変換。
64

AHAB
大量の実験と計算資源を効率的に管理
計算資源をハイブリッドクラウド化する実験スケ
ジューラ。実験のスクリプト化、信頼性や再現性の向
上、資源割り当ての効率化などを促進。
65

ANNOFAB
高品質な教師データを大量に生産可能
品質と生産性のトレードオフ、誤り漏れの削減、きめ
細かく柔軟な仕様・課題・進捗の管理。実務で培った
ノウハウが詰まったアノテーションサービス。
66

GameControllerizer
プログラマブル・ゲームコントローラ
ゲーム機・PC・スマホなどに接続するだけでゲーム
操作をプログラミング可能にするデバイス。ビジュア
ル・プログラミング（Node-REDなど）にも対応。
67

体制・設備・働き方
付録２
68

役職研究者開発者デザイナアノテータその他合計
役員・正社員 11.2 % 11.1 % 0.1 % 3.0 % 1.4 % 26.7 %
アルバイト／即戦力枠 5.5 % 4.1 % 1.4 % 15.8 % 0.7 % 27.4 %
アルバイト／育成枠 0.7 % 0.7 % 0.0 % 0.0 % 0.0 % 1.4 %
アルバイト／試用枠 0.0 % 0.7 % 0.0 % 0.0 % 0.0 % 0.7 %
パートナー 0.0 % 4.1 % 0.0 % 39.0 % 0.7 % 43.8 %
合計 17.3 % 20.7 % 1.4 % 57.8 % 2.7 % 100.0 %
柔軟な体制
69
ワンストップ体制を支えるために様々な技術者がバランスよく在籍

豊富な資源
• 理想的な個人設備
– PC，椅子，モニタ，キーボード，マウス，…
• スグに使える計算資源とアノテータ
– AHAB：実験用ハイブリッドクラウド
– ANNOFAB：アノテーションサービス
• 世界中から集まるデータ
– ロボットサービス用データ，自動運転用データ，商品認識用
データ，文字認識用データ，体操採点用データ，…
70
研究開発を円滑にするためにあらゆる手を尽くす

創造的な働き方
• 様々な働き方
– 自由な時間帯・場所，エージェント・冒険者（実力のある学生向けの
時短勤務制度），JEDI（優秀な同僚によるメンタリング制度），…
• 優秀な同僚
– 未踏採択者，コンテスト入賞者，OSS 貢献者，MVP，…
• その他 ※全て会社負担
– 自己研鑽のための書籍・機材の購入，勉強会・懇親会の開催・
参加・移動・宿泊，会社の昼会・夕会・飲み会で出る飲食物
71
技術を磨きやすくするためにあらゆる手を尽くす

72
募集中
研究者
開発者
デザイナ

AWS Webinar 20201224

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (19)

Ähnlich wie AWS Webinar 20201224

Ähnlich wie AWS Webinar 20201224 (20)

Mehr von 陽平山口

Mehr von 陽平山口 (20)

Kürzlich hochgeladen

Kürzlich hochgeladen (10)