Weitere ähnliche Inhalte Ähnlich wie How to organize data science project (データサイエンスプロジェクトの始め方101) (20) How to organize data science project (データサイエンスプロジェクトの始め方101)2. 0. 略歴
1. NTT i3のデータサイエンスプロジェクト例の紹介
2. データサイエンス案件の進め方101
3. シリコンバレーで感じる最近のAI/ML界隈のトレンド
2
本日の内容
4. 4
略歴
• 氏名:片岡泰之 (Yasuyuki Kataoka)
WebPage : https://ykataoka.github.io/
• 会社:NTTサービスエボリューション研究所 → NTT Innovation Institute, Inc.
• 業務:グローバル顧客とのAI/ML PoC (Data Consultation), Internal Applied ML R&D
• 大学時代の興味:自動運転、ドローンの非線形制御理論研究
• 入社以降の興味:機械学習技術を新たな問題設定に適用すること
最近の技術的興味:時系列異種混合データ解析
最近注目している問題設定:人間モニタリング(Wearable + CV + Audio)
AI アプリケーション > AI バックエンド・インフラ
• 自分のバックボーン:①Data Science, ②Robotics, ③Hacker Mentality
• 趣味:自動運転プログラム、子育て楽しんでいます
4
7. 7
Racing Analytics
Racing analytics for IndyCar
Driver’s Challenge
• IndyCar has regulations that
forbid the use of power steering.
As a result, fatigue develops
over time in the driver’s forearm
muscles and deteriorates the
performance
Our Solution for IndyCar
• NTT i3 developed a solution to
analyze data from EMG
sensor (hitoe) on driver’s
forearm in conjunction with
the car’s telemetry data to find
the places where driver can
take more rest
© Copyright 2017 – NTT Innovation Institute, Inc.
ACTIONABLE
ANALYTICS
TELEMETRIC
DATA
VITAL
DATA
EMG
Sensors
8. 8
Tour De France
In collaboration with Dimension Data / Oakton
#DDEffortIndex
• We created a machine learning based effort
index prediction model
• The riders need to tactically manage how
they expend their effort and optimize their
energy
• Biometric data such as power is not
available during the race. Hence, we used
machine learning to predict the level of effort
• Our ML-based model resulted in 53.7% error
reduction as compared to physics based
model
© Copyright 2017 – NTT Innovation Institute, Inc.
9. 9
Rules
• 9 laps @ Sonoma Raceway
(47m elevation, total
distance : 15.6 miles)
• Evaluation by average MPG
Winning
Best MPG Machine Learning Award
• 1st among about 30 data
scientists
Resulted in 83mpg
• 86mpg achievement from Toyota
Dream Team
Prius Challenge
Efficient Driving Competition
© Copyright 2017 – NTT Innovation Institute, Inc.
Challenge
• ML-driven Strategy with the
given dataset. Input: throttle,
brake, gear, EV-mode
• Teamwork with data
scientists and drivers. From
‘theoretical strategy’ to
‘practice’
14. 14
データセット整理 :データの質(ユニークさ)と量は超重要
• 先方がデータセットを出してくれない
信頼されていない:自分たちがすごいという事例を作って(見せて)アピールする。
問題設定への理解がまだふわっとしている:オープン/ダミーデータで可視化イメージを作る。
NDA的な問題:オペレーションはさっさとやってもらう。
• 先方が出すデータセットが少ない
実力を試されている。現場の腕の見せどころ。短時間で良いものを仕上げて報告→追加データ
他のデータをもらえないか、pushする。
• データセットの収集が必要
ラベル化はクラウドソーシングで迅速に:Crowdflower, definedcrowd, AMTなど
一緒に集めようとなる。→ちょっといいアイディアが無いので、何かあれば教えてください。
15. 15
ML実装
Techniques Scale Technology Capabilities
Best-in-class Deep NNs, RNNs, CNNs,
GBM, ensemble
Cloud-base, streaming
workload
Tensorflow, keras, caffe ML defines customer
experience
Advanced Decision Jungle, boosted
algorithms, lager NNs
Scalable compute,
regular retraining
H2O.ai, AWS SageMaker, Azure
ML Workbench, GCP data lab
ML built into core
business processes
Foundational Random Forest, PCA,
GLM, SVM
Operationalization to
shared infrastructure
R, Python sklearn ML provides decision
support
Exploratory Decition Tree, NNs, logistic
regression,k-means
PoCs run locally Azure Cognitive Services, Azure
ML Studio
Limited PoCs
Aspirational The easiest model No care Excel, Power BI, Tableau, bokeh Brain storming
Kataoka’s based on Slarome’s material
• 適材適プロジェクト
スピード重視なのか、スケール重視なのか。それにより使うツールを使いわける。
一つのツールに固執せず、進化しているツールを使ってみる姿勢が必要。
自社ツールだけでは勝負できない事が多々ある。柔軟な組み合わせを。
16. 16
評価 & 可視化ツール
• 所謂ML界隈での評価指標 + 顧客の価値まで踏み入る
評価指標:precision, recall, f1, accuracy, AUC, RMSE, … (Kaggleなどを参考)
顧客の価値:ROI改善率が理想だが、そんなに簡単ではない
• 簡易診断系:作業の時間短縮、作業人数の削減など
• インシデント予防系:インシデントが起きた場合の被害を定量・定性的に
• 可視化ツール
MS BI tool, tableau
Kibana, Grafana (influxdb, elastic search)
d3, bokeh
Angular, React, Vue
19. 19
Computer Visionはエッジ側のハード込で最適化、MLモデルはコモディティ化
• ハード込で最適化の時代
中国の強みであるAIと深センを利用し、リアルタイム分析の商品が乱立 (CES2018)
ITジャイアントの軽量・バッテリー長のカメラの買収など (blinkなど)
• 誰でも簡単にMLモデルが作れる時代
Microsoft Azure
• クリックでCVモデルを作るPlatform (転移学習→新データでfine-tuning、をクリックで実現)
Amazon Rekognition
• エッジへのデプロイ:DeepLensでエッジに簡単にデプロイできるところまで作り込んでいる
• Inferenceを省電力でやるために、モデルの最適化(squeezeNet)、ハードウエアの最適化
• 片岡所感:
(予想) ITジャイアントが個別のCVモデル(特化型AI)のマーケットプレイス化
NTTが個別の特化型CVだけで戦うには地の利が少なく、ベンチャとあまり変わらない気が。
今後は、CVを使って何を作り、どのような価値を提供するかがビジネス上ポイントになる。
20. 20
教師あり学習のコモディティ化
• 大手が「誰でも簡単にモデルを作れるプラットフォーム」を提供
Amazon SageMaker, Microsoft Azure, Google AutoML, H2O.ai DriverlessAIなど
問題設定とデータがあれば、restで予測タスクを実行可能なMLモジュールは簡単に作成可能
• Deep Learningのアルゴリズム
研究は進むが、hot過ぎて良いアルゴリズムはすぐにオープン化、ライブラリ化される。
学術研究からビジネスに使われるまでが、(めっちゃ)高速化
自社の独自アルゴリズム研究がビジネス上の強みになりづらい時代。
21. 21
教師あり学習のコモディティ化
• (広義の) AutoMLの出現
AutoML : Ensemble Learningの自動化
Scikit-learn, H2O.aiでオープンソース化
(片岡の肌感) 普通のデータサイエンティストが
作ったモデルでは勝てない。
http://docs.h2o.ai/h2o/latest-stable/h2o-docs/automl.html
https://automl.github.io/auto-sklearn/stable/
• 片岡の所感
• 教師あり学習では、使いこなせることがまず大事。(そんなに難しくない)
• プロジェクトの要求条件(レイテンシ、リソース、納期)に合わせて適切な手法を選択
• 視点を変えて、モデルの更新頻度、問題設定の独自性、データセットの独自性や大きさ、
デプロイされたMLシステムの安定性や使いやすさなど、違う箇所で価値を出す
22. 22
Data Scientistのdirty workを自動化
• これまで:
機械学習モデルを作る前の作業はData Scientistの90%の時間を取ると言われていた。
• 今:
データクレンジング:
• 自動で名寄せする機能、同種データの特定など、部分的にクレンジングタスクが自動化
素性(入力)設計:
• Kaggle Grand Masterが使う入力変換 (one-hot化、frequency encoding等)を自動判別
• 片岡所感
H2O.aiいわく、時系列の素性生成などは、まだ課題とのこと。
音声や画像はDL、その他はH2Oでいけるかチェック、それでもだめなら自分で設計
https://www.biggorilla.org/ja/
https://industrypulse.com/2017/07/07/new-h2o-ai-automated-feature-engineering-for-machine-learning/
23. 23
結果の解釈技術への注目:LIME
• LIME : Local Interpretable Model-Agnostic Explanations
Model-Agnostic : どのようなクラス分類器でも説明可能に
説明したい対象近傍のサンプルで線形モデルを立て、その特徴量への重みから説明
• https://arxiv.org/abs/1602.04938
• https://www.oreilly.com/learning/introduction-to-local-interpretable-model-agnostic-
explanations-lime
クエリ画像に対して近い
perturbed instancesだけ
を使って線形モデルを構築
24. 24
Data Scientist事情@Silicon Valley
• Demo or Die
紙芝居から作るメンタリティ → フルスタックスキルが求められる
“データがないからできませーん”、を言い訳にしない
• Ponkotsu Data Scientist
AI/ML/DLの需要が高く、給与も高い。Sexyな職に流れる人が多い分、ポンコツも多い
Academia出身の方:使えるツールの偏りがあったり、視野が狭かったり。
• Build Yourself
動きが早いので情報収集は自力で
• カンファレンスは動画が上がる : https://h2oworld.h2o.ai/
結局、data scienceビジネスは、個々のdata scientistの実力がないと案件は取れない。
• スキルを上げ、対外評価を上げることがチームの力に直結
世界中からVISAの問題をクリアするほど優秀な人が集まる中で戦う
• Hackathon / Kaggle / Top data mining conference / journal paper holder…
25. 25
まとめ
• D.S. 101 : データサイエンスプロジェクトの理想とNTTの現実に触れ、そのgapを埋め
るtipsを共有
• ML/AI@SV : academiaから少し外に出てみて感じたトレンドを共有
片岡 泰之 : kataoka.yasuyuki@ntti3.com
linkedin : https://www.linkedin.com/in/ykataoka/
personal : https://ykataoka.github.io
Hinweis der Redaktion 初めに重要なこと。今回、ぶっちゃけ、イケてるエンジニアやサイエンティストを探しに来ている。
今の仕事場でご自身の才能や能力を発揮出来ておらずくすぶっている方
シリコンバレーという厳しいがチャンスの多い環境でキャリアアップを目指したい方
AIのリサーチから、ビジネスの現場でapplied R&Dをやりたい方
機械学習はいじれるわけではないが、モバイルやgeneral software engineerに柔軟に対応出来る方
たしかに英語力も重要なのですが、エンジニアリング能力と情熱に重きを置いて、hiringに来ている。
ご興味のある方、本会中に個別にお話しできればと思います。 海外事業会社:NTT EU, NTT Data Inc. Dimension Data大手航空機製造メーカー
欧米・北欧・日本自動車メーカー
製薬会社、
スポーツ分野での北米大手など、
グローバルな大企業を相手にデータコンサルテーションをしている。 Dream team assembled by father of the Prius Takeshi Uchiyamada (he also participated)
問題:
・AIの組織構成がトップダウン的に成熟していない現在のNTTでは、本来フォーカスすべき以外の業務もやらなければいけない。
・リサーチからdata scienceのビジネスドリブンなapplied R&Dにくると、このgapに戸惑うかも。
アプローチ:基本的にそれぞれのタスクのはまりどころを理解した上で、適切に組織運営をする必要がある。個人としては、どこの強みを伸ばすのか、考えてキャリアをデザインする必要がある。 AIあるある