How to organize data science project (データサイエンスプロジェクトの始め方101)

データサイエンス案件の進め方101
- シリコンバレーオフィスの現場より
NTT i3
Yasuyuki Kataoka (Data Scientist)

0. 略歴
1. NTT i3のデータサイエンスプロジェクト例の紹介
2. データサイエンス案件の進め方101
3. シリコンバレーで感じる最近のAI/ML界隈のトレンド
2
本日の内容

4
略歴
• 氏名：片岡泰之 (Yasuyuki Kataoka)
 WebPage : https://ykataoka.github.io/
• 会社：NTTサービスエボリューション研究所 → NTT Innovation Institute, Inc.
• 業務：グローバル顧客とのAI/ML PoC (Data Consultation), Internal Applied ML R&D
• 大学時代の興味：自動運転、ドローンの非線形制御理論研究
• 入社以降の興味：機械学習技術を新たな問題設定に適用すること
 最近の技術的興味：時系列異種混合データ解析
 最近注目している問題設定：人間モニタリング（Wearable + CV + Audio）
 AI アプリケーション > AI バックエンド・インフラ
• 自分のバックボーン：①Data Science, ②Robotics, ③Hacker Mentality
• 趣味：自動運転プログラム、子育て楽しんでいます
4

5
NTT i3の
データサイエンスプロジェクト例の紹介

6
シリコンバレーでのデータサイエンスプロジェクト例
• プロドライバーのパフォーマンス向上
• 自転車選手のパフォーマンスモニタリング
• 解約予測分析
• セキュリティ攻撃の危険度予測
• 燃費向上予測
• ドライバーの感情分析
• EVの電池消費予測とアプリケーション
• 飛行機の乗客の状態推定
• 従業員の異常状態検知
• 脳卒中推定
• 薬の副作用予測
• バスケットボールのメンタル分析
• …
AI時代のコンセプト作り
精度追求型タスク
Automotive
Airline
HealthCare
Sports
Security
Operation
Sports

7
Racing Analytics
Racing analytics for IndyCar
Driver’s Challenge
• IndyCar has regulations that
forbid the use of power steering.
As a result, fatigue develops
over time in the driver’s forearm
muscles and deteriorates the
performance
Our Solution for IndyCar
• NTT i3 developed a solution to
analyze data from EMG
sensor (hitoe) on driver’s
forearm in conjunction with
the car’s telemetry data to find
the places where driver can
take more rest
© Copyright 2017 – NTT Innovation Institute, Inc.
ACTIONABLE
ANALYTICS
TELEMETRIC
DATA
VITAL
DATA
EMG
Sensors

8
Tour De France
In collaboration with Dimension Data / Oakton
#DDEffortIndex
• We created a machine learning based effort
index prediction model
• The riders need to tactically manage how
they expend their effort and optimize their
energy
• Biometric data such as power is not
available during the race. Hence, we used
machine learning to predict the level of effort
• Our ML-based model resulted in 53.7% error
reduction as compared to physics based
model

9
Rules
• 9 laps @ Sonoma Raceway
(47m elevation, total
distance : 15.6 miles)
• Evaluation by average MPG
Winning
Best MPG Machine Learning Award
• 1st among about 30 data
scientists
Resulted in 83mpg
• 86mpg achievement from Toyota
Dream Team
Prius Challenge
Efficient Driving Competition
Challenge
• ML-driven Strategy with the
given dataset. Input: throttle,
brake, gear, EV-mode
• Teamwork with data
scientists and drivers. From
‘theoretical strategy’ to
‘practice’

10
データサイエンス案件の進め方101
・主にB2B2Xモデルにおけるデータサイエンス案件の経験に基づきます。
・AIプロダクト内製プロジェクトでも同じような苦労があるかも。

11
問題設定
データセット
整理
ML実装
精度評価
・レポート
可視化ツー
ルなど
データサイエンスプロジェクトの基本的な流れ
Software Engineer /
ML Engineer
Data Consultant
Data Scientist /
Consultant
Data Scientist /
Software Engineer
理想
UX Designer
Software Engineer
現実
Data Scientist Data ScientistData Scientist
data scientistが得意とするポイントと、プロジェクト全体の中で重要なポイントには、
ギャップがあり、各ポイントのtipsを理解しておくことが必要。

12
問題設定あるある : 具体的な内容はAI担当者次第
Company
上の人
XX社
Open Innovation
AIエンジニア
XX社と一緒にやる事に合意。
インパクトのあることをやろう。
実際の現場担当者間の連携
先方のAIエンジニア
2025年のXXのPoC作りと伺っています。
具体的な問題設定がないとなんともアプ
ローチしづらいなあ。
自社でも思いつく問題設定は大体取
り組んでおりまして、もっと面白いこ
とを期待しています。…

13
問題設定：MLプロジェクトで一番大変なところ
• 与えられた問題設定が不明瞭（トップダウンで来る案件）
 現場：腐らない。よく対話をすると、こちらの得意分野にうまく持ってこれる時も
 組織：チームのAIリテラシを普段からする（上司の教育）
• 問題設定が挑戦的過ぎて精度が出ない懸念
 精度を気にしすぎて思考停止になることがある。一旦精度を忘れて議論。
 ビジネスを作る人は意外と精度に対して寛容なことも。 (特に米国はstory重視なので)
• 良い問題設定のアイディアが出ない
 先方から小さいデータをもらえるなら、データから問題設定をブレストしてみるのもあり。
 日常的にハッカソンへ参加、他社のML案件にアンテナ。

14
データセット整理 :データの質(ユニークさ)と量は超重要
• 先方がデータセットを出してくれない
 信頼されていない：自分たちがすごいという事例を作って(見せて)アピールする。
 問題設定への理解がまだふわっとしている：オープン/ダミーデータで可視化イメージを作る。
 NDA的な問題：オペレーションはさっさとやってもらう。
• 先方が出すデータセットが少ない
 実力を試されている。現場の腕の見せどころ。短時間で良いものを仕上げて報告→追加データ
 他のデータをもらえないか、pushする。
• データセットの収集が必要
 ラベル化はクラウドソーシングで迅速に：Crowdflower, definedcrowd, AMTなど
 一緒に集めようとなる。→ちょっといいアイディアが無いので、何かあれば教えてください。

15
ML実装
Techniques Scale Technology Capabilities
Best-in-class Deep NNs, RNNs, CNNs,
GBM, ensemble
Cloud-base, streaming
workload
Tensorflow, keras, caffe ML defines customer
experience
Advanced Decision Jungle, boosted
algorithms, lager NNs
Scalable compute,
regular retraining
H2O.ai, AWS SageMaker, Azure
ML Workbench, GCP data lab
ML built into core
business processes
Foundational Random Forest, PCA,
GLM, SVM
Operationalization to
shared infrastructure
R, Python sklearn ML provides decision
support
Exploratory Decition Tree, NNs, logistic
regression,k-means
PoCs run locally Azure Cognitive Services, Azure
ML Studio
Limited PoCs
Aspirational The easiest model No care Excel, Power BI, Tableau, bokeh Brain storming
Kataoka’s based on Slarome’s material
• 適材適プロジェクト
 スピード重視なのか、スケール重視なのか。それにより使うツールを使いわける。
 一つのツールに固執せず、進化しているツールを使ってみる姿勢が必要。
 自社ツールだけでは勝負できない事が多々ある。柔軟な組み合わせを。

16
評価 & 可視化ツール
• 所謂ML界隈での評価指標 + 顧客の価値まで踏み入る
 評価指標：precision, recall, f1, accuracy, AUC, RMSE, … (Kaggleなどを参考)
 顧客の価値：ROI改善率が理想だが、そんなに簡単ではない
• 簡易診断系：作業の時間短縮、作業人数の削減など
• インシデント予防系：インシデントが起きた場合の被害を定量・定性的に
• 可視化ツール
 MS BI tool, tableau
 Kibana, Grafana (influxdb, elastic search)
 d3, bokeh
 Angular, React, Vue

17
最近のAI/ML界隈のトレンド
*本内容は、様々なAI/ML界隈のミートアップやカンファレンスで感じた片岡の個人的所感です。

18
伝えたいこと
• CVはエッジ側のハード込で最適化の時代、MLモデルはコモディティ化
• 教師あり学習のコモディティ化
• Data Scientistのdirty workを自動化
• LIMEで結果の解釈技術
• その他 Data Scientist事情@SV

19
Computer Visionはエッジ側のハード込で最適化、MLモデルはコモディティ化
• ハード込で最適化の時代
 中国の強みであるAIと深センを利用し、リアルタイム分析の商品が乱立 (CES2018)
 ITジャイアントの軽量・バッテリー長のカメラの買収など (blinkなど)
• 誰でも簡単にMLモデルが作れる時代
 Microsoft Azure
• クリックでCVモデルを作るPlatform (転移学習→新データでfine-tuning、をクリックで実現)
 Amazon Rekognition
• エッジへのデプロイ：DeepLensでエッジに簡単にデプロイできるところまで作り込んでいる
• Inferenceを省電力でやるために、モデルの最適化(squeezeNet)、ハードウエアの最適化
• 片岡所感：
 (予想) ITジャイアントが個別のCVモデル(特化型AI)のマーケットプレイス化
 NTTが個別の特化型CVだけで戦うには地の利が少なく、ベンチャとあまり変わらない気が。
 今後は、CVを使って何を作り、どのような価値を提供するかがビジネス上ポイントになる。

20
教師あり学習のコモディティ化
• 大手が「誰でも簡単にモデルを作れるプラットフォーム」を提供
 Amazon SageMaker, Microsoft Azure, Google AutoML, H2O.ai DriverlessAIなど
 問題設定とデータがあれば、restで予測タスクを実行可能なMLモジュールは簡単に作成可能
• Deep Learningのアルゴリズム
 研究は進むが、hot過ぎて良いアルゴリズムはすぐにオープン化、ライブラリ化される。
 学術研究からビジネスに使われるまでが、(めっちゃ)高速化
 自社の独自アルゴリズム研究がビジネス上の強みになりづらい時代。

21
教師あり学習のコモディティ化
• (広義の) AutoMLの出現
 AutoML : Ensemble Learningの自動化
 Scikit-learn, H2O.aiでオープンソース化
 (片岡の肌感) 普通のデータサイエンティストが
作ったモデルでは勝てない。
http://docs.h2o.ai/h2o/latest-stable/h2o-docs/automl.html
https://automl.github.io/auto-sklearn/stable/
• 片岡の所感
• 教師あり学習では、使いこなせることがまず大事。(そんなに難しくない)
• プロジェクトの要求条件(レイテンシ、リソース、納期)に合わせて適切な手法を選択
• 視点を変えて、モデルの更新頻度、問題設定の独自性、データセットの独自性や大きさ、
デプロイされたMLシステムの安定性や使いやすさなど、違う箇所で価値を出す

22
Data Scientistのdirty workを自動化
• これまで：
 機械学習モデルを作る前の作業はData Scientistの90%の時間を取ると言われていた。
• 今：
 データクレンジング：
• 自動で名寄せする機能、同種データの特定など、部分的にクレンジングタスクが自動化
 素性(入力)設計：
• Kaggle Grand Masterが使う入力変換 (one-hot化、frequency encoding等)を自動判別
• 片岡所感
 H2O.aiいわく、時系列の素性生成などは、まだ課題とのこと。
 音声や画像はDL、その他はH2Oでいけるかチェック、それでもだめなら自分で設計
https://www.biggorilla.org/ja/
https://industrypulse.com/2017/07/07/new-h2o-ai-automated-feature-engineering-for-machine-learning/

23
結果の解釈技術への注目：LIME
• LIME : Local Interpretable Model-Agnostic Explanations
 Model-Agnostic : どのようなクラス分類器でも説明可能に
 説明したい対象近傍のサンプルで線形モデルを立て、その特徴量への重みから説明
• https://arxiv.org/abs/1602.04938
• https://www.oreilly.com/learning/introduction-to-local-interpretable-model-agnostic-
explanations-lime
クエリ画像に対して近い
perturbed instancesだけ
を使って線形モデルを構築

24
Data Scientist事情@Silicon Valley
• Demo or Die
 紙芝居から作るメンタリティ → フルスタックスキルが求められる
 “データがないからできませーん”、を言い訳にしない
• Ponkotsu Data Scientist
 AI/ML/DLの需要が高く、給与も高い。Sexyな職に流れる人が多い分、ポンコツも多い
 Academia出身の方：使えるツールの偏りがあったり、視野が狭かったり。
• Build Yourself
 動きが早いので情報収集は自力で
• カンファレンスは動画が上がる : https://h2oworld.h2o.ai/
 結局、data scienceビジネスは、個々のdata scientistの実力がないと案件は取れない。
• スキルを上げ、対外評価を上げることがチームの力に直結
 世界中からVISAの問題をクリアするほど優秀な人が集まる中で戦う
• Hackathon / Kaggle / Top data mining conference / journal paper holder…

25
まとめ
• D.S. 101 : データサイエンスプロジェクトの理想とNTTの現実に触れ、そのgapを埋め
るtipsを共有
• ML/AI@SV : academiaから少し外に出てみて感じたトレンドを共有
片岡泰之 : kataoka.yasuyuki@ntti3.com
linkedin : https://www.linkedin.com/in/ykataoka/
personal : https://ykataoka.github.io

How to organize data science project (データサイエンスプロジェクトの始め方101)

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Ähnlich wie How to organize data science project (データサイエンスプロジェクトの始め方101)

Ähnlich wie How to organize data science project (データサイエンスプロジェクトの始め方101) (20)

How to organize data science project (データサイエンスプロジェクトの始め方101)

Hinweis der Redaktion