SlideShare ist ein Scribd-Unternehmen logo
1 von 25
1
Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved
Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved
MLOps NYC 19
&
Strata Data Conference 2019 New York
注目セッションまとめ
2019/12/4
JapanTaxi
次世代モビリティ事業部
渡部徹太郎
2
Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved
2
Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved
自己紹介
ID : fetaro
名前:渡部 徹太郎
研究:東京工業大学でデータベースと情報検索の研究(@日本データベース学会)
前職:
- 大手SIer: オンライントレードシステム基盤
- 大手SIer: オープンソース技術部隊 (MongoDB等)
- リクルートテクノロジーズ: ビッグデータ分析基盤 (EMR, Hortonworks, BigQuery, Oracle Exadata)
現職:
- JapanTaxi: データエンジニア
エディタ:
- emacs派 → InteliJ派
趣味:
- 自宅サーバ
日本AWSユーザ会(JAWS)
ビッグデータ支部
3
Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved
3
Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved
 MLOps NYC 2019
o カンファレンスの概要
o Netflix社事例
oWalmart社事例
目次
 Strata Data Conference 2019 NewYork
o カンファレンスの概要
oSurvey Monkey 社事例
o Geotab社 / Google 社事例
o おまけ
• EXPO
• 求人ボード
4
Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights ReservedProprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved
ML Ops NYC 2019
カンファレンスの概要
5
Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved
5
Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved
ML Ops NYC 2019の様子
 MLOps(機械学習の本番化や運用)をテーマにしたカンファレンス
 著名なStrata Data Conferenceの初日(Dev Day)に近くの会場で開催されたカンファレンス
o 間違いなくStrataの参加者を取り込もうと狙っている
 セッションは1並列だが、著名な企業の発表が多く内容の濃いカンファレンスだった
 参加費は約$300
6
Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights ReservedProprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved
Netflix社
A Human Friendly Approach to
MLOps
7
Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved
7
Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved
 MLのプロジェクト
o データ探索(〜2週間)
o プロトタイピング(6〜8週間)
o 本番化 (12〜14週間)
o リリース後のモデル更新 (〜8週間)
 課題
o プロトタイピング、本番化、リリース後のモデル更新に時間がかかる
 解決法
o 独自フレームワーク「Metaflow」の導入
o Metaflowは以下の開発スタック全体をラッピングしてくれる
Netflix
Metaflow
8
Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved
8
Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved
 MetaflowではPythonのデコレータ(@で始まる関数修飾子)を駆使する
o データサイエンティストはローカルでPythonを書くだけで良い
o ローカルで開発することができ、そのままクラスタ上で分散処理させることが可能
Netflix
DAG(データアローダイアグラム)の生成 各ステップの結果の永続化
9
Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved
9
Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved
Netflix
計算リソースの確保 forループで並列処理
10
Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved
10
Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved
Netflix
オンライン推論エンドポイントの作成
https://blog.japantaxi.co.jp/2019/11/20/5133詳細な説明:JapanTaxiブログ:
DAGの中間状態をNotebookでデバッグ
https://www.youtube.com/watch?v=fOSZuONmLbA#action=share動画:
 結果
o サイエンティストからは「本番デプロイの複雑さを軽減してくれた」と好評を得ている
o 最初のモデルの本番化であれば、1週間未満で実現できているプロジェクトが最も多くなった
o 〜100のアクティブユーザ
11
Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights ReservedProprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved
Walmart社
Data as the Enabler of Digital
Transformation
12
Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved
12
Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved
 MLプロジェクトの60%〜80%がプロダクションにならずに頓挫している
o 連携不足
• IT担当、エンジニア、データ、そしてデータサイエンスのチームの連携不足
• データサイエンティストがエンジニアリングの知識不足
o ビジネスの理解を得られない
• データの品質が不明瞭
• ビジネスとの握りが曖昧
• ビジネスへの説明不足
o MLのOps(運用)の難しさ
• データサイエンティストが書いたコードは本番には採用できない
• データのETLにかなり苦労する
Walmart
13
Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved
13
Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved
 Walmartでのアプローチ
o MLプロジェクトで3つのゴールデンルールを作り、これを説明することを徹底した
1. なぜ重要なのか?
• だれかがそれに金を払うか
• 「Cool」なプロダクトはいらない
2. 説明できるか?
• ビジネスの言葉で説明できるか
3. 実装できるか?
• 本番化する計画は明瞭か
 MLOpsの実践
o 「人」「プロセス」「技術」の3つを常に考える
• 自動化を推進する
• プロセスは包括的になるようにする
• フィードバックループを回す
• ビジネスユーザフレンドリーにする
Walmart
14
Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved
14
Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved
 MLソリューションの全体像
Walmart
15
Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights ReservedProprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved
Strata Data Conference 2019 NewYork
カンファレンスの概要
16
Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved
16
Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved
Strata Data Conference 2019 NeyWorkの概要
 O’REILLY社主催のデータ系カンファレンス
 Hadoop全盛期はHadoopの事例が多く発表されたが、近年は機械学習やHadoop以外のデータ系ソリューションの
話題にシフトしてきている
 参加費は約$1000
17
Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights ReservedProprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved
Survey Monkey 社
Your cloud, your ML,
but more and more scale?
How Survery Monkey did it
18
Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved
18
Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved
 MLの進化
o Phase1: アドホックML
• jupyter nootbookやExcelなどを用いたアドホックな機械学習
o Phase2: ML as a Service (2017)
• 予測モデルごとにサービスを作っていった
• Nginx → pyramid → 予測モデル という組み合わせを何個も作った
• 良かった点
• いろいろなMLライブラリを使える
• リソースが分離されている
• 悪かった点
• 複数のSDKが存在し管理が大変
• A/Bテストが存在しない
• 特徴量の共有がない
• 同期的な推論しかできない
Survey Monkey
19
Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved
19
Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved
 MLの進化
o Phase3: ML as Platform
• 一つのエンドポイントを用意し、
リクエストをルーティング
• A/Bテスト
• 非同期の推論のサポート
• 特徴量のシェア
• リソースの最適配分
• スケーラビリティの確保
• モデル・学習データの標準化
• AWS / kong(API) / Clipper(推論サービス) /
Tensorflowで作った
o Phase3の結果
• リリースが8週間から2週間に
• 50%のコスト削減
• 20倍のサービング容量
• ただし、デバッグは大変になった
Survey Monkey
20
Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights ReservedProprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved
Geotab社 / Google社
Turning petabytes of data
from millions of vehicles
into open data with Geotab
21
Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved
21
Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved
 扱うデータ
o 180万のコネクティッド車両
o 1日に409億のデータポイント
o 5ペタのデータをBigQueryに格納
 データの用途
o 交通・安全
• 交差点の調査、危険エリア、速度、タイヤの空気圧
o 効率的なコミュニケーション
• ライドシェア、メンテナンス
o 環境
• 天気、大気の品質管理、ガスの排気量のモデリング、
EVの充電場所
 どうやってデータを取るか
o 自前のセンサを付ける
GeoTAB / Google
22
Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved
22
Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved
 GeoTABのデータ分析の遷移
o データはアプリケーションに依存してバラバ
ラだった
o 部署ごとにバラバラの値をレポートしていた
o 会社が小さく、誰に聞けばよいかがわかった
o データも小さく、レポートを作る過程でデー
タを浄化すればよかった
o Google Sheetでコラボレーションしていた
GeoTAB / Google
o BigQueryにデータを統合した
o 全ての物事をBigQueryに格納した
o GSuiteを使っていたから、簡単にBigQueryを使
い始めることができた
o 標準SQLが多くの開発者にとって使いやすかった
o WebUIベースで多くのツールを付け足す形で進化
していった
2014年 2019年
 まとめ
o BigQueryとともに成長してきた。
o BigQueryは180万の車両になった今も、40万の車両だったときと同じパフォーマンスを出して
いる
o GISクエリ、BQ ML、スピードの改善、パーティショニングなど日々進化している
o 完全にマネージドなデータウェアハウスなので、価値の提供に集中できる
23
Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights ReservedProprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved
おまけ
24
Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved
24
Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved
 Expoにブース出店していた割合 ※私が話を聞いた29社中の割合
o データベース(グラフDBなど):5社
o データガバナンス:4社
o ETL:4社
o 機械学習製品:3社
o データカタログ:3社
o データレイク(オブジェクトストレージなど):3社
o データウェアハウスサービス:2社
o データテストソリューション:1社
o その他(BI、 SIer、ワークフロー):4社
 所感
o 実際にデータ分析を進めていくと苦労する領域である、「データガバナンス」や「データカ
タログ」の会社が増えてきた
Strata Expoブースの傾向
25
Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved
25
Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved
 データサイエンティストと同じぐらいデータエンジニアの求人が多い
Strata 求人ボード

Weitere ähnliche Inhalte

Was ist angesagt?

ドライブレコーダの動画を使った道路情報の自動差分抽出
ドライブレコーダの動画を使った道路情報の自動差分抽出ドライブレコーダの動画を使った道路情報の自動差分抽出
ドライブレコーダの動画を使った道路情報の自動差分抽出Tetsutaro Watanabe
 
ドライブレコーダの画像認識による道路情報の自動差分抽出
ドライブレコーダの画像認識による道路情報の自動差分抽出ドライブレコーダの画像認識による道路情報の自動差分抽出
ドライブレコーダの画像認識による道路情報の自動差分抽出Tetsutaro Watanabe
 
Google Cloud Next '18 Recap/報告会 機械学習関連
Google Cloud Next '18 Recap/報告会 機械学習関連Google Cloud Next '18 Recap/報告会 機械学習関連
Google Cloud Next '18 Recap/報告会 機械学習関連Tetsutaro Watanabe
 
データサイエンティスト向け性能問題対応の基礎
データサイエンティスト向け性能問題対応の基礎データサイエンティスト向け性能問題対応の基礎
データサイエンティスト向け性能問題対応の基礎Tetsutaro Watanabe
 
先駆者に学ぶ MLOpsの実際
先駆者に学ぶ MLOpsの実際先駆者に学ぶ MLOpsの実際
先駆者に学ぶ MLOpsの実際Tetsutaro Watanabe
 
Feature StoreをRustで実装した話
Feature StoreをRustで実装した話Feature StoreをRustで実装した話
Feature StoreをRustで実装した話emakryo
 
IoTデバイスデータ収集の難しい点
IoTデバイスデータ収集の難しい点IoTデバイスデータ収集の難しい点
IoTデバイスデータ収集の難しい点Tetsutaro Watanabe
 
日経コンピュータ主催:さわってわかる機械学習 Azure Machine Learning 実践セミナー
日経コンピュータ主催:さわってわかる機械学習 Azure Machine Learning 実践セミナー日経コンピュータ主催:さわってわかる機械学習 Azure Machine Learning 実践セミナー
日経コンピュータ主催:さわってわかる機械学習 Azure Machine Learning 実践セミナーHiroshi Senga
 
リクルートのビッグデータ活用基盤とビッグデータ活用のためのメタデータ管理Webのご紹介
リクルートのビッグデータ活用基盤とビッグデータ活用のためのメタデータ管理Webのご紹介リクルートのビッグデータ活用基盤とビッグデータ活用のためのメタデータ管理Webのご紹介
リクルートのビッグデータ活用基盤とビッグデータ活用のためのメタデータ管理Webのご紹介Recruit Technologies
 
リクルートのビッグデータ活用基盤とデータ活用に向けた取組み
リクルートのビッグデータ活用基盤とデータ活用に向けた取組みリクルートのビッグデータ活用基盤とデータ活用に向けた取組み
リクルートのビッグデータ活用基盤とデータ活用に向けた取組みRecruit Technologies
 
ビッグデータ処理データベースの全体像と使い分け
2018年version
ビッグデータ処理データベースの全体像と使い分け
2018年versionビッグデータ処理データベースの全体像と使い分け
2018年version
ビッグデータ処理データベースの全体像と使い分け
2018年versionTetsutaro Watanabe
 
Rubyの会社でPythonistaが3ヶ月生き延びた話
Rubyの会社でPythonistaが3ヶ月生き延びた話Rubyの会社でPythonistaが3ヶ月生き延びた話
Rubyの会社でPythonistaが3ヶ月生き延びた話Tokoroten Nakayama
 
データテクノロジースペシャル:Yahoo! JAPANにおけるメタデータ管理の試み
データテクノロジースペシャル:Yahoo! JAPANにおけるメタデータ管理の試みデータテクノロジースペシャル:Yahoo! JAPANにおけるメタデータ管理の試み
データテクノロジースペシャル:Yahoo! JAPANにおけるメタデータ管理の試みYahoo!デベロッパーネットワーク
 
20180627 - DEEP LEARNING LAB / Cognitive Services 最新情報 30 分でズバリ!
20180627 - DEEP LEARNING LAB / Cognitive Services 最新情報 30 分でズバリ!20180627 - DEEP LEARNING LAB / Cognitive Services 最新情報 30 分でズバリ!
20180627 - DEEP LEARNING LAB / Cognitive Services 最新情報 30 分でズバリ!Takashi Okawa
 
【14-B-2】グリーを支えるデータ分析基盤の過去と現在(橋本泰一〔グリー〕)
【14-B-2】グリーを支えるデータ分析基盤の過去と現在(橋本泰一〔グリー〕)【14-B-2】グリーを支えるデータ分析基盤の過去と現在(橋本泰一〔グリー〕)
【14-B-2】グリーを支えるデータ分析基盤の過去と現在(橋本泰一〔グリー〕)Developers Summit
 
Elasticsearchと機械学習を実際に連携させる
Elasticsearchと機械学習を実際に連携させるElasticsearchと機械学習を実際に連携させる
Elasticsearchと機械学習を実際に連携させるnobu_k
 
SmartNews の Webmining を支えるプラットフォーム
SmartNews の Webmining を支えるプラットフォームSmartNews の Webmining を支えるプラットフォーム
SmartNews の Webmining を支えるプラットフォームSmartNews, Inc.
 

Was ist angesagt? (20)

ドライブレコーダの動画を使った道路情報の自動差分抽出
ドライブレコーダの動画を使った道路情報の自動差分抽出ドライブレコーダの動画を使った道路情報の自動差分抽出
ドライブレコーダの動画を使った道路情報の自動差分抽出
 
ドライブレコーダの画像認識による道路情報の自動差分抽出
ドライブレコーダの画像認識による道路情報の自動差分抽出ドライブレコーダの画像認識による道路情報の自動差分抽出
ドライブレコーダの画像認識による道路情報の自動差分抽出
 
Google Cloud Next '18 Recap/報告会 機械学習関連
Google Cloud Next '18 Recap/報告会 機械学習関連Google Cloud Next '18 Recap/報告会 機械学習関連
Google Cloud Next '18 Recap/報告会 機械学習関連
 
データサイエンティスト向け性能問題対応の基礎
データサイエンティスト向け性能問題対応の基礎データサイエンティスト向け性能問題対応の基礎
データサイエンティスト向け性能問題対応の基礎
 
先駆者に学ぶ MLOpsの実際
先駆者に学ぶ MLOpsの実際先駆者に学ぶ MLOpsの実際
先駆者に学ぶ MLOpsの実際
 
Feature StoreをRustで実装した話
Feature StoreをRustで実装した話Feature StoreをRustで実装した話
Feature StoreをRustで実装した話
 
IoTデバイスデータ収集の難しい点
IoTデバイスデータ収集の難しい点IoTデバイスデータ収集の難しい点
IoTデバイスデータ収集の難しい点
 
日経コンピュータ主催:さわってわかる機械学習 Azure Machine Learning 実践セミナー
日経コンピュータ主催:さわってわかる機械学習 Azure Machine Learning 実践セミナー日経コンピュータ主催:さわってわかる機械学習 Azure Machine Learning 実践セミナー
日経コンピュータ主催:さわってわかる機械学習 Azure Machine Learning 実践セミナー
 
リクルートのビッグデータ活用基盤とビッグデータ活用のためのメタデータ管理Webのご紹介
リクルートのビッグデータ活用基盤とビッグデータ活用のためのメタデータ管理Webのご紹介リクルートのビッグデータ活用基盤とビッグデータ活用のためのメタデータ管理Webのご紹介
リクルートのビッグデータ活用基盤とビッグデータ活用のためのメタデータ管理Webのご紹介
 
リクルートのビッグデータ活用基盤とデータ活用に向けた取組み
リクルートのビッグデータ活用基盤とデータ活用に向けた取組みリクルートのビッグデータ活用基盤とデータ活用に向けた取組み
リクルートのビッグデータ活用基盤とデータ活用に向けた取組み
 
ビッグデータ処理データベースの全体像と使い分け
2018年version
ビッグデータ処理データベースの全体像と使い分け
2018年versionビッグデータ処理データベースの全体像と使い分け
2018年version
ビッグデータ処理データベースの全体像と使い分け
2018年version
 
WebDB Forum 2013
WebDB Forum 2013 WebDB Forum 2013
WebDB Forum 2013
 
20150625 cloudera
20150625 cloudera20150625 cloudera
20150625 cloudera
 
Rubyの会社でPythonistaが3ヶ月生き延びた話
Rubyの会社でPythonistaが3ヶ月生き延びた話Rubyの会社でPythonistaが3ヶ月生き延びた話
Rubyの会社でPythonistaが3ヶ月生き延びた話
 
GDLC11 oracle-ai
GDLC11 oracle-aiGDLC11 oracle-ai
GDLC11 oracle-ai
 
データテクノロジースペシャル:Yahoo! JAPANにおけるメタデータ管理の試み
データテクノロジースペシャル:Yahoo! JAPANにおけるメタデータ管理の試みデータテクノロジースペシャル:Yahoo! JAPANにおけるメタデータ管理の試み
データテクノロジースペシャル:Yahoo! JAPANにおけるメタデータ管理の試み
 
20180627 - DEEP LEARNING LAB / Cognitive Services 最新情報 30 分でズバリ!
20180627 - DEEP LEARNING LAB / Cognitive Services 最新情報 30 分でズバリ!20180627 - DEEP LEARNING LAB / Cognitive Services 最新情報 30 分でズバリ!
20180627 - DEEP LEARNING LAB / Cognitive Services 最新情報 30 分でズバリ!
 
【14-B-2】グリーを支えるデータ分析基盤の過去と現在(橋本泰一〔グリー〕)
【14-B-2】グリーを支えるデータ分析基盤の過去と現在(橋本泰一〔グリー〕)【14-B-2】グリーを支えるデータ分析基盤の過去と現在(橋本泰一〔グリー〕)
【14-B-2】グリーを支えるデータ分析基盤の過去と現在(橋本泰一〔グリー〕)
 
Elasticsearchと機械学習を実際に連携させる
Elasticsearchと機械学習を実際に連携させるElasticsearchと機械学習を実際に連携させる
Elasticsearchと機械学習を実際に連携させる
 
SmartNews の Webmining を支えるプラットフォーム
SmartNews の Webmining を支えるプラットフォームSmartNews の Webmining を支えるプラットフォーム
SmartNews の Webmining を支えるプラットフォーム
 

Ähnlich wie ML Ops NYC 19 & Strata Data Conference 2019 NewYork 注目セッションまとめ

OpenStack Congress Deep Dive
OpenStack Congress Deep DiveOpenStack Congress Deep Dive
OpenStack Congress Deep Divemasahito12
 
データベースアプリケーション開発セミナー・最新のデータベースとアプリケーション開発の関係
データベースアプリケーション開発セミナー・最新のデータベースとアプリケーション開発の関係データベースアプリケーション開発セミナー・最新のデータベースとアプリケーション開発の関係
データベースアプリケーション開発セミナー・最新のデータベースとアプリケーション開発の関係Kaz Aiso
 
Database as code in Devops - DBを10分間で1000個構築するDB仮想化テクノロジーとは?(Ishikawa)
Database as code in Devops - DBを10分間で1000個構築するDB仮想化テクノロジーとは?(Ishikawa)Database as code in Devops - DBを10分間で1000個構築するDB仮想化テクノロジーとは?(Ishikawa)
Database as code in Devops - DBを10分間で1000個構築するDB仮想化テクノロジーとは?(Ishikawa)Insight Technology, Inc.
 
FIWARE Lab, a service platform based on a large distributed OpenStack environ...
FIWARE Lab, a service platform based on a large distributed OpenStack environ...FIWARE Lab, a service platform based on a large distributed OpenStack environ...
FIWARE Lab, a service platform based on a large distributed OpenStack environ...FIWARE
 
(2017.6.9) Neo4jの可視化ライブラリまとめ
(2017.6.9) Neo4jの可視化ライブラリまとめ(2017.6.9) Neo4jの可視化ライブラリまとめ
(2017.6.9) Neo4jの可視化ライブラリまとめMitsutoshi Kiuchi
 
Talk 1「データインテグレーションとは何か」
Talk 1「データインテグレーションとは何か」Talk 1「データインテグレーションとは何か」
Talk 1「データインテグレーションとは何か」Takeshi Akutsu
 
MLOps NYC 2019 and Strata Data Conference NY 2019 report nttdata
MLOps NYC 2019 and Strata Data Conference NY 2019 report nttdataMLOps NYC 2019 and Strata Data Conference NY 2019 report nttdata
MLOps NYC 2019 and Strata Data Conference NY 2019 report nttdataNTT DATA Technology & Innovation
 
Microsoft open tech night 2020 feb18
Microsoft open tech night 2020 feb18Microsoft open tech night 2020 feb18
Microsoft open tech night 2020 feb18Masatomo Ito
 
Yahoo! JAPANのコンテンツプラットフォームを支えるSpring Cloud Streamによるマイクロサービスアーキテクチャ #jsug #sf_52
Yahoo! JAPANのコンテンツプラットフォームを支えるSpring Cloud Streamによるマイクロサービスアーキテクチャ #jsug #sf_52Yahoo! JAPANのコンテンツプラットフォームを支えるSpring Cloud Streamによるマイクロサービスアーキテクチャ #jsug #sf_52
Yahoo! JAPANのコンテンツプラットフォームを支えるSpring Cloud Streamによるマイクロサービスアーキテクチャ #jsug #sf_52Yahoo!デベロッパーネットワーク
 
Intalio japan special cloud workshop
Intalio japan special cloud workshopIntalio japan special cloud workshop
Intalio japan special cloud workshopDaisuke Sugai
 
ドライブレコーダーの Scene Text Recognitionにおける Multi-task Learning
ドライブレコーダーの Scene Text Recognitionにおける Multi-task Learningドライブレコーダーの Scene Text Recognitionにおける Multi-task Learning
ドライブレコーダーの Scene Text Recognitionにおける Multi-task LearningFumihiko Takahashi
 
Cloud Foundry Summit 2017 Recap
Cloud Foundry Summit 2017 RecapCloud Foundry Summit 2017 Recap
Cloud Foundry Summit 2017 RecapShinya Sasaki
 
[db tech showcase Tokyo 2016] B31: Spark Summit 2016@SFに参加してきたので最新事例などを紹介しつつデ...
[db tech showcase Tokyo 2016] B31: Spark Summit 2016@SFに参加してきたので最新事例などを紹介しつつデ...[db tech showcase Tokyo 2016] B31: Spark Summit 2016@SFに参加してきたので最新事例などを紹介しつつデ...
[db tech showcase Tokyo 2016] B31: Spark Summit 2016@SFに参加してきたので最新事例などを紹介しつつデ...Insight Technology, Inc.
 
DataEngConf NYC’18 セッションサマリー #2
DataEngConf NYC’18 セッションサマリー #2DataEngConf NYC’18 セッションサマリー #2
DataEngConf NYC’18 セッションサマリー #2gree_tech
 
Rancherを活用して開発効率を上げる
Rancherを活用して開発効率を上げるRancherを活用して開発効率を上げる
Rancherを活用して開発効率を上げるMichitaka Terada
 
Datadog monitoring with HashiCorp
Datadog monitoring with HashiCorpDatadog monitoring with HashiCorp
Datadog monitoring with HashiCorpMasatomo Ito
 
Datadog monitoring with HashiCorp stack
Datadog monitoring with HashiCorp stackDatadog monitoring with HashiCorp stack
Datadog monitoring with HashiCorp stackMasatomo Ito
 

Ähnlich wie ML Ops NYC 19 & Strata Data Conference 2019 NewYork 注目セッションまとめ (20)

OpenStack Congress Deep Dive
OpenStack Congress Deep DiveOpenStack Congress Deep Dive
OpenStack Congress Deep Dive
 
データベースアプリケーション開発セミナー・最新のデータベースとアプリケーション開発の関係
データベースアプリケーション開発セミナー・最新のデータベースとアプリケーション開発の関係データベースアプリケーション開発セミナー・最新のデータベースとアプリケーション開発の関係
データベースアプリケーション開発セミナー・最新のデータベースとアプリケーション開発の関係
 
Database as code in Devops - DBを10分間で1000個構築するDB仮想化テクノロジーとは?(Ishikawa)
Database as code in Devops - DBを10分間で1000個構築するDB仮想化テクノロジーとは?(Ishikawa)Database as code in Devops - DBを10分間で1000個構築するDB仮想化テクノロジーとは?(Ishikawa)
Database as code in Devops - DBを10分間で1000個構築するDB仮想化テクノロジーとは?(Ishikawa)
 
FIWARE Lab, a service platform based on a large distributed OpenStack environ...
FIWARE Lab, a service platform based on a large distributed OpenStack environ...FIWARE Lab, a service platform based on a large distributed OpenStack environ...
FIWARE Lab, a service platform based on a large distributed OpenStack environ...
 
(2017.6.9) Neo4jの可視化ライブラリまとめ
(2017.6.9) Neo4jの可視化ライブラリまとめ(2017.6.9) Neo4jの可視化ライブラリまとめ
(2017.6.9) Neo4jの可視化ライブラリまとめ
 
Talk 1「データインテグレーションとは何か」
Talk 1「データインテグレーションとは何か」Talk 1「データインテグレーションとは何か」
Talk 1「データインテグレーションとは何か」
 
MLOps NYC 2019 and Strata Data Conference NY 2019 report nttdata
MLOps NYC 2019 and Strata Data Conference NY 2019 report nttdataMLOps NYC 2019 and Strata Data Conference NY 2019 report nttdata
MLOps NYC 2019 and Strata Data Conference NY 2019 report nttdata
 
Microsoft open tech night 2020 feb18
Microsoft open tech night 2020 feb18Microsoft open tech night 2020 feb18
Microsoft open tech night 2020 feb18
 
Yahoo! JAPANのコンテンツプラットフォームを支えるSpring Cloud Streamによるマイクロサービスアーキテクチャ #jsug #sf_52
Yahoo! JAPANのコンテンツプラットフォームを支えるSpring Cloud Streamによるマイクロサービスアーキテクチャ #jsug #sf_52Yahoo! JAPANのコンテンツプラットフォームを支えるSpring Cloud Streamによるマイクロサービスアーキテクチャ #jsug #sf_52
Yahoo! JAPANのコンテンツプラットフォームを支えるSpring Cloud Streamによるマイクロサービスアーキテクチャ #jsug #sf_52
 
Intalio japan special cloud workshop
Intalio japan special cloud workshopIntalio japan special cloud workshop
Intalio japan special cloud workshop
 
ドライブレコーダーの Scene Text Recognitionにおける Multi-task Learning
ドライブレコーダーの Scene Text Recognitionにおける Multi-task Learningドライブレコーダーの Scene Text Recognitionにおける Multi-task Learning
ドライブレコーダーの Scene Text Recognitionにおける Multi-task Learning
 
stapy_028_talk1
stapy_028_talk1stapy_028_talk1
stapy_028_talk1
 
Cloud Foundry Summit 2017 Recap
Cloud Foundry Summit 2017 RecapCloud Foundry Summit 2017 Recap
Cloud Foundry Summit 2017 Recap
 
(2017.9.7) Neo4jご紹介
(2017.9.7) Neo4jご紹介(2017.9.7) Neo4jご紹介
(2017.9.7) Neo4jご紹介
 
OSS光と闇
OSS光と闇OSS光と闇
OSS光と闇
 
[db tech showcase Tokyo 2016] B31: Spark Summit 2016@SFに参加してきたので最新事例などを紹介しつつデ...
[db tech showcase Tokyo 2016] B31: Spark Summit 2016@SFに参加してきたので最新事例などを紹介しつつデ...[db tech showcase Tokyo 2016] B31: Spark Summit 2016@SFに参加してきたので最新事例などを紹介しつつデ...
[db tech showcase Tokyo 2016] B31: Spark Summit 2016@SFに参加してきたので最新事例などを紹介しつつデ...
 
DataEngConf NYC’18 セッションサマリー #2
DataEngConf NYC’18 セッションサマリー #2DataEngConf NYC’18 セッションサマリー #2
DataEngConf NYC’18 セッションサマリー #2
 
Rancherを活用して開発効率を上げる
Rancherを活用して開発効率を上げるRancherを活用して開発効率を上げる
Rancherを活用して開発効率を上げる
 
Datadog monitoring with HashiCorp
Datadog monitoring with HashiCorpDatadog monitoring with HashiCorp
Datadog monitoring with HashiCorp
 
Datadog monitoring with HashiCorp stack
Datadog monitoring with HashiCorp stackDatadog monitoring with HashiCorp stack
Datadog monitoring with HashiCorp stack
 

Mehr von Tetsutaro Watanabe

ビッグデータ処理データベースの全体像と使い分け - 2017年 Version -
ビッグデータ処理データベースの全体像と使い分け - 2017年 Version - ビッグデータ処理データベースの全体像と使い分け - 2017年 Version -
ビッグデータ処理データベースの全体像と使い分け - 2017年 Version - Tetsutaro Watanabe
 
リクルートテクノロジーズ における EMR の活用とコスト圧縮方法
リクルートテクノロジーズ における EMR の活用とコスト圧縮方法リクルートテクノロジーズ における EMR の活用とコスト圧縮方法
リクルートテクノロジーズ における EMR の活用とコスト圧縮方法Tetsutaro Watanabe
 
MongoDBが遅いときの切り分け方法
MongoDBが遅いときの切り分け方法MongoDBが遅いときの切り分け方法
MongoDBが遅いときの切り分け方法Tetsutaro Watanabe
 
MongoDB World 2014に行ってきた!
MongoDB World 2014に行ってきた!MongoDB World 2014に行ってきた!
MongoDB World 2014に行ってきた!Tetsutaro Watanabe
 
がっつりMongoDB事例紹介
がっつりMongoDB事例紹介がっつりMongoDB事例紹介
がっつりMongoDB事例紹介Tetsutaro Watanabe
 
初心者向けMongoDBのキホン!
初心者向けMongoDBのキホン!初心者向けMongoDBのキホン!
初心者向けMongoDBのキホン!Tetsutaro Watanabe
 

Mehr von Tetsutaro Watanabe (9)

WiredTigerを詳しく説明
WiredTigerを詳しく説明WiredTigerを詳しく説明
WiredTigerを詳しく説明
 
ビッグデータ処理データベースの全体像と使い分け - 2017年 Version -
ビッグデータ処理データベースの全体像と使い分け - 2017年 Version - ビッグデータ処理データベースの全体像と使い分け - 2017年 Version -
ビッグデータ処理データベースの全体像と使い分け - 2017年 Version -
 
リクルートテクノロジーズ における EMR の活用とコスト圧縮方法
リクルートテクノロジーズ における EMR の活用とコスト圧縮方法リクルートテクノロジーズ における EMR の活用とコスト圧縮方法
リクルートテクノロジーズ における EMR の活用とコスト圧縮方法
 
MongoDBが遅いときの切り分け方法
MongoDBが遅いときの切り分け方法MongoDBが遅いときの切り分け方法
MongoDBが遅いときの切り分け方法
 
MongoDB3.2の紹介
MongoDB3.2の紹介MongoDB3.2の紹介
MongoDB3.2の紹介
 
MongoDB World 2014に行ってきた!
MongoDB World 2014に行ってきた!MongoDB World 2014に行ってきた!
MongoDB World 2014に行ってきた!
 
がっつりMongoDB事例紹介
がっつりMongoDB事例紹介がっつりMongoDB事例紹介
がっつりMongoDB事例紹介
 
初心者向けMongoDBのキホン!
初心者向けMongoDBのキホン!初心者向けMongoDBのキホン!
初心者向けMongoDBのキホン!
 
MongoDBの監視
MongoDBの監視MongoDBの監視
MongoDBの監視
 

Kürzlich hochgeladen

論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A surveyToru Tamaki
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdftaisei2219
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...Toru Tamaki
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNetToru Tamaki
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Yuma Ohgami
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムsugiuralab
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略Ryo Sasaki
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものですiPride Co., Ltd.
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)Hiroki Ichikura
 
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Danieldanielhu54
 

Kürzlich hochgeladen (10)

論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
 
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Daniel
 

ML Ops NYC 19 & Strata Data Conference 2019 NewYork 注目セッションまとめ

  • 1. 1 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved MLOps NYC 19 & Strata Data Conference 2019 New York 注目セッションまとめ 2019/12/4 JapanTaxi 次世代モビリティ事業部 渡部徹太郎
  • 2. 2 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved 2 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved 自己紹介 ID : fetaro 名前:渡部 徹太郎 研究:東京工業大学でデータベースと情報検索の研究(@日本データベース学会) 前職: - 大手SIer: オンライントレードシステム基盤 - 大手SIer: オープンソース技術部隊 (MongoDB等) - リクルートテクノロジーズ: ビッグデータ分析基盤 (EMR, Hortonworks, BigQuery, Oracle Exadata) 現職: - JapanTaxi: データエンジニア エディタ: - emacs派 → InteliJ派 趣味: - 自宅サーバ 日本AWSユーザ会(JAWS) ビッグデータ支部
  • 3. 3 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved 3 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved  MLOps NYC 2019 o カンファレンスの概要 o Netflix社事例 oWalmart社事例 目次  Strata Data Conference 2019 NewYork o カンファレンスの概要 oSurvey Monkey 社事例 o Geotab社 / Google 社事例 o おまけ • EXPO • 求人ボード
  • 4. 4 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights ReservedProprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved ML Ops NYC 2019 カンファレンスの概要
  • 5. 5 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved 5 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved ML Ops NYC 2019の様子  MLOps(機械学習の本番化や運用)をテーマにしたカンファレンス  著名なStrata Data Conferenceの初日(Dev Day)に近くの会場で開催されたカンファレンス o 間違いなくStrataの参加者を取り込もうと狙っている  セッションは1並列だが、著名な企業の発表が多く内容の濃いカンファレンスだった  参加費は約$300
  • 6. 6 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights ReservedProprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved Netflix社 A Human Friendly Approach to MLOps
  • 7. 7 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved 7 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved  MLのプロジェクト o データ探索(〜2週間) o プロトタイピング(6〜8週間) o 本番化 (12〜14週間) o リリース後のモデル更新 (〜8週間)  課題 o プロトタイピング、本番化、リリース後のモデル更新に時間がかかる  解決法 o 独自フレームワーク「Metaflow」の導入 o Metaflowは以下の開発スタック全体をラッピングしてくれる Netflix Metaflow
  • 8. 8 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved 8 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved  MetaflowではPythonのデコレータ(@で始まる関数修飾子)を駆使する o データサイエンティストはローカルでPythonを書くだけで良い o ローカルで開発することができ、そのままクラスタ上で分散処理させることが可能 Netflix DAG(データアローダイアグラム)の生成 各ステップの結果の永続化
  • 9. 9 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved 9 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved Netflix 計算リソースの確保 forループで並列処理
  • 10. 10 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved 10 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved Netflix オンライン推論エンドポイントの作成 https://blog.japantaxi.co.jp/2019/11/20/5133詳細な説明:JapanTaxiブログ: DAGの中間状態をNotebookでデバッグ https://www.youtube.com/watch?v=fOSZuONmLbA#action=share動画:  結果 o サイエンティストからは「本番デプロイの複雑さを軽減してくれた」と好評を得ている o 最初のモデルの本番化であれば、1週間未満で実現できているプロジェクトが最も多くなった o 〜100のアクティブユーザ
  • 11. 11 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights ReservedProprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved Walmart社 Data as the Enabler of Digital Transformation
  • 12. 12 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved 12 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved  MLプロジェクトの60%〜80%がプロダクションにならずに頓挫している o 連携不足 • IT担当、エンジニア、データ、そしてデータサイエンスのチームの連携不足 • データサイエンティストがエンジニアリングの知識不足 o ビジネスの理解を得られない • データの品質が不明瞭 • ビジネスとの握りが曖昧 • ビジネスへの説明不足 o MLのOps(運用)の難しさ • データサイエンティストが書いたコードは本番には採用できない • データのETLにかなり苦労する Walmart
  • 13. 13 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved 13 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved  Walmartでのアプローチ o MLプロジェクトで3つのゴールデンルールを作り、これを説明することを徹底した 1. なぜ重要なのか? • だれかがそれに金を払うか • 「Cool」なプロダクトはいらない 2. 説明できるか? • ビジネスの言葉で説明できるか 3. 実装できるか? • 本番化する計画は明瞭か  MLOpsの実践 o 「人」「プロセス」「技術」の3つを常に考える • 自動化を推進する • プロセスは包括的になるようにする • フィードバックループを回す • ビジネスユーザフレンドリーにする Walmart
  • 14. 14 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved 14 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved  MLソリューションの全体像 Walmart
  • 15. 15 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights ReservedProprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved Strata Data Conference 2019 NewYork カンファレンスの概要
  • 16. 16 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved 16 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved Strata Data Conference 2019 NeyWorkの概要  O’REILLY社主催のデータ系カンファレンス  Hadoop全盛期はHadoopの事例が多く発表されたが、近年は機械学習やHadoop以外のデータ系ソリューションの 話題にシフトしてきている  参加費は約$1000
  • 17. 17 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights ReservedProprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved Survey Monkey 社 Your cloud, your ML, but more and more scale? How Survery Monkey did it
  • 18. 18 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved 18 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved  MLの進化 o Phase1: アドホックML • jupyter nootbookやExcelなどを用いたアドホックな機械学習 o Phase2: ML as a Service (2017) • 予測モデルごとにサービスを作っていった • Nginx → pyramid → 予測モデル という組み合わせを何個も作った • 良かった点 • いろいろなMLライブラリを使える • リソースが分離されている • 悪かった点 • 複数のSDKが存在し管理が大変 • A/Bテストが存在しない • 特徴量の共有がない • 同期的な推論しかできない Survey Monkey
  • 19. 19 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved 19 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved  MLの進化 o Phase3: ML as Platform • 一つのエンドポイントを用意し、 リクエストをルーティング • A/Bテスト • 非同期の推論のサポート • 特徴量のシェア • リソースの最適配分 • スケーラビリティの確保 • モデル・学習データの標準化 • AWS / kong(API) / Clipper(推論サービス) / Tensorflowで作った o Phase3の結果 • リリースが8週間から2週間に • 50%のコスト削減 • 20倍のサービング容量 • ただし、デバッグは大変になった Survey Monkey
  • 20. 20 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights ReservedProprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved Geotab社 / Google社 Turning petabytes of data from millions of vehicles into open data with Geotab
  • 21. 21 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved 21 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved  扱うデータ o 180万のコネクティッド車両 o 1日に409億のデータポイント o 5ペタのデータをBigQueryに格納  データの用途 o 交通・安全 • 交差点の調査、危険エリア、速度、タイヤの空気圧 o 効率的なコミュニケーション • ライドシェア、メンテナンス o 環境 • 天気、大気の品質管理、ガスの排気量のモデリング、 EVの充電場所  どうやってデータを取るか o 自前のセンサを付ける GeoTAB / Google
  • 22. 22 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved 22 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved  GeoTABのデータ分析の遷移 o データはアプリケーションに依存してバラバ ラだった o 部署ごとにバラバラの値をレポートしていた o 会社が小さく、誰に聞けばよいかがわかった o データも小さく、レポートを作る過程でデー タを浄化すればよかった o Google Sheetでコラボレーションしていた GeoTAB / Google o BigQueryにデータを統合した o 全ての物事をBigQueryに格納した o GSuiteを使っていたから、簡単にBigQueryを使 い始めることができた o 標準SQLが多くの開発者にとって使いやすかった o WebUIベースで多くのツールを付け足す形で進化 していった 2014年 2019年  まとめ o BigQueryとともに成長してきた。 o BigQueryは180万の車両になった今も、40万の車両だったときと同じパフォーマンスを出して いる o GISクエリ、BQ ML、スピードの改善、パーティショニングなど日々進化している o 完全にマネージドなデータウェアハウスなので、価値の提供に集中できる
  • 23. 23 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights ReservedProprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved おまけ
  • 24. 24 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved 24 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved  Expoにブース出店していた割合 ※私が話を聞いた29社中の割合 o データベース(グラフDBなど):5社 o データガバナンス:4社 o ETL:4社 o 機械学習製品:3社 o データカタログ:3社 o データレイク(オブジェクトストレージなど):3社 o データウェアハウスサービス:2社 o データテストソリューション:1社 o その他(BI、 SIer、ワークフロー):4社  所感 o 実際にデータ分析を進めていくと苦労する領域である、「データガバナンス」や「データカ タログ」の会社が増えてきた Strata Expoブースの傾向
  • 25. 25 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved 25 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved  データサイエンティストと同じぐらいデータエンジニアの求人が多い Strata 求人ボード