JAWSUG 20210128

機械学習×スポットインスタンス
2 0 2 1 . 1 . 2 8 オンライン開催来栖川電算山口陽平
J A W S - U G 名古屋勉強会いろいろなパフォーマンスを学ぶ # j a w s u g

アジェンダ
1. 自己紹介＆会社紹介
2. Managed Spot Training
3. 付録
2

自己紹介＆会社紹介
名古屋の AI ベンチャー
3

山口陽平何でも学び何でもやる人
4
有限会社来栖川電算創業者・取締役・最高技術責任者
職務全体ビジョン・ビジネス・資金・設備・人員・制
度・文化・パートナーシップの計画・遂行
個別企画，調査，研究，開発，運用，指導，教育，
広報，採用，…
略歴 2001 名古屋工業大学知能情報システム卒業
2003 名古屋工業大学電気情報工学修士課程修了
有限会社来栖川電算設立
IPA 未踏ソフトウェア創造事業採択
2012 名古屋工業大学情報工学博士課程退学
2013 Mashup Awards 9 優秀賞受賞

仕事＝趣味何にでも面白みを見出す人
5
休日も論文読み・プログラミング・コミュニティ活動・講演・執筆
興味ロボット，AI，UI，UX
専門機械学習，信号処理，記号処理，プログラミング言
語，コンパイラ，データベース，ソフトウェアアー
キテクチャ，ソフトウェアプロセス
得意分析，抽象化，高速化，省資源化，並列化，分散化
@melleo1978

来栖川電算
• 様々な領域の顧客とともに彼らが抱える課題を解決
– AI・ML を応用した認識技術・自動化技術の研究開発
– ソフトウェア・アノテーションの製造・販売
– 研究開発を加速する基盤サービスの提供
6
設立 2003 年名古屋工業大学発ベンチャー企業従業員 82 人
急成長中

7
AR付箋
書籍の中身を検索するアプリ
Cellars
ワインラベルで情報検索するアプリ
画像認識API
商品パッケージで情報検索するAPI
生活情報調査
道路沿いの視覚情報を収集し、活用
交通情報調査
研究開発支援
タンゴチュウ
写真に写る単語を抽出するサービス
走行データ解析
周辺環境を認識し、様々な解析に活用
地図生成
オルソ画像から地物・交通規則を抽出
動作推定API
加速度センサで人の行動を推定
毎朝体操
腕の動きで体操採点するアプリヒーローの動きでゲームを制御
なりきり2.0
ー
シ
ョ
ン
認
識
研究開発支援研究開発支援
AHAB
大量の実験と計算資源を効率的に管理
ANNOFAB
高品質なアノテーションを大量に生産可能
DNN compiler
DNNの推論を10～1000倍も効率化
GameControllerizer
プログラマブル・ゲームコントローラ
研究開発支援
類似検索類似検索類似検索文字認識
物体認識物体認識物体認識物体認識
モーション認識モーション認識モーション認識
物体認識
瞳孔位置推定
眼球運動を監視し、眠気の推定に活用

顧客中心のワンストップ体制
8
AI・ML に関わる全工程を扱うため、適した工程で課題解決可能
AI・ML アプリ
SI 基盤サービス
AI・ML 基盤サービス
データモデル
アノテータ
デザイナ
研究者
開発者
顧客
全体
把握
最適
戦略

ハイレベルな人材
• 最先端の AI・ML 技術
– 文字認識，物体認識，行動認識，空間復元
• 限界性能を引き出す優れた実装技術
– 機械学習・コンパイラ・データベースなどのアルゴリズムやバ
イナリハックを駆使した高精度化・高速化・省資源化・並列
化・分散化
• 高品質なソフトウェアを実現する技術
– アーキテクチャ・プロセスへの深い理解に基づく設計と計画
9
未踏採択者，コンテスト受賞者，MVP 受賞者，OSS 貢献者，…

社会貢献：コミュニティ活動
10
勉強会の主催，スタッフ・会場の提供，スポンサー・寄付，…

機械学習名古屋
• 勉強会開催：隔月対象：初心者（非技術者も含む）
– アルゴリズム紹介・事例紹介・ハンズオン
• 研究会開催：毎月対象：研究者，技術者
– 機械学習関連の論文紹介・記事紹介
– 来栖川電算の研究者だけでなく日本各地の大学院生も参加
11
https://machine-learning.connpass.com/
宣伝

Managed Spot Training
機械学習モデルの訓練コストを手軽に抑えられる
12

Managed Spot Training
• Amazon EC2 スポットインスタンス
– オンデマンドインスタンスの費用に対して最大 90% OFF
– 中断により計算結果が失われるリスクがある
• Amazon SageMaker : Managed Spot Training
– 中断されても再開できるようにすることで、スポットインスタ
ンスを使って訓練しても、中断しても計算結果が失われない
13
機械学習モデルの訓練にかかる費用を最大 90% OFF できる

やり方は簡単
• チェックポイントを /opt/ml/checkpoints に保存する
– SageMaker が保存されたものを S3 へ自動転送する
• チェックポイントから計算を再開できるようにする
– 典型的な深層学習スクリプトなら普通にやっている
• ジョブ作成時に次を設定する
– train_use_spot_instances = True
– train_max_wait = 訓練完了までに待ってもよい時間
14
典型的な深層学習スクリプトなら実質的に赤だけで OK

チェックポイントの保存
15
典型的な深層学習フレームワークなら簡単にできる
…
# チェックポイントの保存先 ※ “/opt/ml/checkpoints” になるように起動時の引数を設定すること
checkpoint_path = args.checkpoint_path
checkpoint_names = 'cifar10-'+model_type+'.{epoch:03d}.h5’
…
# チェックポイントを保存するためのコールバック処理
checkpoint_callback = ModelCheckpoint(filepath=f'{checkpoint_path}/{checkpoint_names}',
save_weights_only=False,
monitor='val_loss’)
…
# コールバックの設定
history = model.fit(train_dataset, steps_per_epoch=40000 // batch_size,
validation_data=val_dataset,
validation_steps=10000 // batch_size,
epochs=epochs,
initial_epoch=epoch_number,
callbacks=[checkpoint_callback])
…
https://github.com/shashankprasanna/sagemaker-spot-training/blob/master/code/cifar10-training-sagemaker.py

チェックポイントからの再開
16
典型的な深層学習フレームワークなら簡単にできる
…
def load_checkpoint_model(checkpoint_path):
# 最新のチェックポイントの検索
files = [f for f in os.listdir(checkpoint_path) if f.endswith(‘.’ + ‘h5’)]
epoch_numbers = [re.search(‘(?<=¥.)(.*[0-9])(?=¥.)’,f).group() for f in files]
max_epoch_number = max(epoch_numbers)
max_epoch_index = epoch_numbers.index(max_epoch_number)
max_epoch_filename = files[max_epoch_index]
...
# 最新のチェックポイントの読み込み
resume_model = load_model(f'{checkpoint_path}/{max_epoch_filename}')
return resume_model, max_epoch_number
…
https://github.com/shashankprasanna/sagemaker-spot-training/blob/master/code/cifar10-training-sagemaker.py

ジョブ作成
17
SageMaker でジョブ作成時に設定するだけ
…
output_path = f's3://{bucket_name}/jobs'
job_name = f'tensorflow-spot-{time.strftime("%Y-%m-%d-%H-%M-%S", time.gmtime())}'
tb_config = TensorBoardOutputConfig(output_path)
# Managed Spot Training を有効化したジョブの作成
tf_estimator = TensorFlow(entry_point = 'cifar10-training-sagemaker.py',
source_dir = 'code',
output_path = f'{output_path}/',
code_location = output_path,
checkpoint_s3_uri = f'{output_path}/{job_name}/checkpoints’,
…
train_use_spot_instances = True,
train_max_wait = 7200,
…
tensorboard_output_config= tb_config)
…
https://github.com/shashankprasanna/sagemaker-spot-training/blob/master/tf-keras-cifar10-spot-training.ipynb

お勧めのインスタンスタイプ
ほぼ一択
18

初心者は g4dn.xlarge でいい
19
単価が安いグループの中では最もコスパ（単価 / TF）が良い
INSTANCE TYPE vCPU RAM GPU TYPE GPU RAM FP32 性能 FP16 性能期待性能単価単価 / TF
p4d.24xlarge 96 1,152 GiB A100 × 8 320 GiB 156.0 TF 2,496.0 TF 1,788.0 TF 32.773 $/h 0.018 $/hTF
g4dn.xlarge 4 16 GiB T4 × 1 16 GiB 8.1 TF 65.0 TF 24.3 TF 0.526 $/h 0.022 $/hTF
g4dn.2xlarge 8 32 GiB T4 × 1 16 GiB 8.1 TF 65.0 TF 24.3 TF 0.752 $/h 0.031 $/hTF
g4dn.metal 96 384 GiB T4 × 8 128 GiB 65.0 TF 520.0 TF 194.4 TF 7.824 $/h 0.044 $/hTF
p3.2xlarge 8 61 GiB V100 × 1 16 GiB 14.9 TF 119.2 TF 44.7 TF 3.060 $/h 0.068 $/hTF
p3dn.24xlarge 96 768 GiB V100 × 8 256 GiB 119.2 TF 953.5 TF 715.2 TF 31.212 $/h 0.068 $/hTF
g3s.xlarge 4 31 GiB M60 × 1 8 GiB 4.8 TF 9.7 TF 4.8 TF 0.750 $/h 0.155 $/hTF
g3.4xlarge 16 122 GiB M60 × 1 8 GiB 4.8 TF 9.7 TF 4.8 TF 1.140 $/h 0.236 $/hTF
p2.xlarge 4 61 GiB K80 × 1 12 GiB 4.4 TF × 4.4 TF 0.900 $/h 0.206 $/hTF
p2.8xlarge 32 488 GiB K80 × 8 96 GiB 34.9 TF × 34.9 TF 7.200 $/h 0.206 $/hTF
p2.16xlarge 64 732 GiB K80 × 16 192 GiB 69.8 TF × 69.8 TF 14.400 $/h 0.206 $/hTF
※SageMaker から EC2 を使う場合は割増料金（+40%）がかかる ※期待性能は登壇者の独断と偏見で決定した

スポット料金
20
ここ数ヶ月は 70% OFF ※リザーブドインスタンス３年とほぼ同等

まとめ
機械学習 × スポットインスタンス
21

まとめ
• Managed Spot Training
– 待ち時間を許容できるなら、ほぼ手間をかけずに最大 90% OFF
• お勧めのスポットインスタンス
– g4dn.xlarge が圧倒的にコスパ（単価 / TF）が良い
• SageMaker の EC2 割増料金（+40%）を回避するには
– SageMaker を使わずに自前でスポットインスタンスを起動し、
チェックポイントの保存・復元をやればいい（難しくはない）
⇒もしくは AHAB（来栖川電算製の SageMaker みたいな奴）
22
機械学習とスポットインスタンスは相性がいい

AHAB
ハイブリッドクラウド型実験スケジューラ
※両環境（AWS・オンプレミス）で動く SageMaker みたいな奴
来栖川電算が 2016 年から開発運用している研究開発基盤
24

AHAB
25
「計算環境の抽象化」と「実験パイプラインのコード化」を支援
WebAPI・CLI WebAPI・CLI WebAPI・CLI
実験パイプライン
・実験コードの Docker 化
・実験の依存関係のコード化

計算環境に対するニーズ
• 各人が占有するやり方はしたくない
– 費用・電源が足りない。調達・運用したくない。
– そもそも 1 人 1GPU 程度じゃ全然足りない。
• お客様が貸してくれる環境も活用したい
– 大規模なオンプレ環境を用意してくれる。
• よく不足するのでクラウドも活用したい
– 突発的に 100GPU 必要になることもある。
⇒計算環境の抽象化・共有が重要
26
いろいろな環境の GPU を必要なときに必要なだけ使いたい

研究開発に対するニーズ
• こんな実験が “めっちゃ” たくさんある
– 複数の工程からなる微妙に設定が異なる実験
– デカくて時間がかかる実験
• こんなことが “よく” 起きる
– 手作業が挟まると取り違える。
– 後で確認（やり直し）したくなる。
– たまに死ぬので途中から再開したくなる。
⇒実験パイプラインのコード化が重要
27
たくさんの絡み合うデカい実験の信頼性・再現性を高めたい

事例・製品・サービス
付録２
28

類似検索
膨大なデータの中から類似データを高速・高精度に照合できる
29

画像認識 API
商品パッケージで情報検索する API
商品パッケージが写った画像を送信するだけで、膨大
な DB から瞬時に種類を特定。クロールした画像から
直接構築した DB を利用。
30

Cellars
ワインラベルで情報検索するアプリ
ワインラベルにスマホをかざすだけで、18 万件から
瞬時に種類を特定。国内外のコンテストで入賞。株式
会社 Cellars 様による弊社技術の応用事例。
31

AR 付箋
書籍の中身を検索するアプリ
書籍を開いてスマホをかざすだけで、膨大な DB から
瞬時にページを特定し、貼られている付箋を表示。お
客様による弊社技術の応用事例。
32

物体認識
物体の位置・向き・姿勢・種類を高速・高精度に捉える
33

走行データ解析
周辺環境を認識し、様々な解析に活用
膨大な走行データから歩行者・車両・白線・標識など
を検出・追跡し、索引化。必要に応じて、CAN や
Lidar なども活用し、高品質化。
34

地図生成
オルソ画像から地物・交通規則を抽出
自動運転や高度なモビリティサービスに使える水準の
地図をオルソ画像から高速に抽出する深層学習手法を
開発。株式会社トヨタマップマスター様との応用事例。
35

交通情報調査
首都圏を走行する大量の車両のドラレコを解析し、視
覚情報（天候，路面状態，レーン別交通量，危険シー
ン，…）を DB 化。顧客との研究事例。
36

生活情報調査
アスクル株式会社様の営業車のドラレコを解析し、視
覚情報（ガソリン価格，駐車場満空，渋滞，事故，行
列，…）を DB 化。ヤフー株式会社様との共同研究。
37

瞳孔位置推定
眼球運動を監視し、眠気の推定に活用
スマートグラスで撮影した映像から瞳孔位置・閉眼状
態を高精度に推定。個人差・外乱に頑健。エッジで
60 fps。知の拠点あいち重点研究プロジェクト事業。
38

文字認識
様々な書体・外乱に対応した
39

タンゴチュウ
写真に写る単語を抽出するサービス
情景画像（スマホで撮影した写真など）に写る単語を
抽出。様々な書体・配置・劣悪な環境（歪み・隠れ・
擦れ・照明など）での利用を想定。
40

モーション認識
身体の動き・姿勢を高速・高精度に捉える
41

生体情報推定
特別なセンサなしに生体情報を推定
スマホやウォッチに搭載されている標準的なセンサの
みを用いて生体情報を推定（センサエミュレーショ
ン）。株式会社 NTT ドコモ様との共同研究。
42

動作推定 API
加速度センサで人の行動を推定
スマホやウォッチの動きから静止・歩行・走行・食
事・睡眠などを推定。同じ仕組みで撮影時の手振れ検
出も可能。株式会社 NTT ドコモ様との共同研究。
43

毎朝体操
腕の動きで体操採点するアプリ
100 ヶ国 20 万人を超えるユーザから日々送られてく
るセンサデータを学習することで体操採点の正確さが
自動改善。JFE スチール株式会社様へ導入。
44

なりきり 2.0
ヒーローの動きでゲームを制御
腕や脚に装着したセンサで体の動きを捉え、家庭用
ゲーム機のコマンドを生成。格闘ゲームが遊べるほど
の速さと正確さをスマホ上で実現。
45

ロボット
人と混在する空間で働く
46

空港で働くロボット
カート回収・荷物運搬 ※セントレアで実証実験
LiDAR 点群から求めた物体の３次元姿勢（位置・方
向）をカメラ映像のみから高精度に推定。新明工業株
式会社様・オンクラウズ株式会社様との共同研究。
47

研究開発支援
日々使い改良される道具による
48

DNN compiler
DNNの推論を 10 ～ 1000 倍も高速化
重みや活性の量子化・スパース化、計算の共有などの
様々な手法で DNN を近似し、高速化・省資源化され
た実行形式（Linux・Android・iOS）へ変換。
49

AHAB
大量の実験と計算資源を効率的に管理
計算資源をハイブリッドクラウド化する実験スケ
ジューラ。実験のスクリプト化、信頼性や再現性の向
上、資源割り当ての効率化などを促進。
50

ANNOFAB
高品質な教師データを大量に生産可能
品質と生産性のトレードオフ、誤り漏れの削減、きめ
細かく柔軟な仕様・課題・進捗の管理。実務で培った
ノウハウが詰まったアノテーションサービス。
51

GameControllerizer
プログラマブル・ゲームコントローラ
ゲーム機・PC・スマホなどに接続するだけでゲーム
操作をプログラミング可能にするデバイス。ビジュア
ル・プログラミング（Node-REDなど）にも対応。
52

体制・設備・働き方
付録３
53

役職研究者開発者デザイナアノテータその他合計
役員・正社員 11.2 % 11.1 % 0.1 % 3.0 % 1.4 % 26.7 %
アルバイト／即戦力枠 5.5 % 4.1 % 1.4 % 15.8 % 0.7 % 27.4 %
アルバイト／育成枠 0.7 % 0.7 % 0.0 % 0.0 % 0.0 % 1.4 %
アルバイト／試用枠 0.0 % 0.7 % 0.0 % 0.0 % 0.0 % 0.7 %
パートナー 0.0 % 4.1 % 0.0 % 39.0 % 0.7 % 43.8 %
合計 17.3 % 20.7 % 1.4 % 57.8 % 2.7 % 100.0 %
柔軟な体制
54
ワンストップ体制を支えるために様々な技術者がバランスよく在籍

豊富な資源
• 理想的な個人設備
– PC，椅子，モニタ，キーボード，マウス，…
• スグに使える計算資源とアノテータ
– AHAB：実験用ハイブリッドクラウド
– ANNOFAB：アノテーションサービス
• 世界中から集まるデータ
– ロボットサービス用データ，自動運転用データ，商品認識用
データ，文字認識用データ，体操採点用データ，…
55
研究開発を円滑にするためにあらゆる手を尽くす

創造的な働き方
• 様々な働き方
– 自由な時間帯・場所，エージェント・冒険者（実力のある学生向けの
時短勤務制度），JEDI（優秀な同僚によるメンタリング制度），…
• 優秀な同僚
– 未踏採択者，コンテスト入賞者，OSS 貢献者，MVP，…
• その他 ※全て会社負担
– 自己研鑽のための書籍・機材の購入，勉強会・懇親会の開催・
参加・移動・宿泊，会社の昼会・夕会・飲み会で出る飲食物
56
技術を磨きやすくするためにあらゆる手を尽くす

57
募集中
研究者
開発者
デザイナ

JAWSUG 20210128

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to JAWSUG 20210128

Similar to JAWSUG 20210128 (20)

More from 陽平山口

More from 陽平山口 (20)

Recently uploaded

Recently uploaded (7)

JAWSUG 20210128

JAWSUG 20210128

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to JAWSUG 20210128

Similar to JAWSUG 20210128 (20)

More from 陽平 山口

More from 陽平 山口 (20)

Recently uploaded

Recently uploaded (7)

JAWSUG 20210128

More from 陽平山口

More from 陽平山口 (20)