SlideShare ist ein Scribd-Unternehmen logo
1 von 25
データサイエンス案件の進め方101
- シリコンバレーオフィスの現場より
NTT i3
Yasuyuki Kataoka (Data Scientist)
0. 略歴
1. NTT i3のデータサイエンスプロジェクト例の紹介
2. データサイエンス案件の進め方101
3. シリコンバレーで感じる最近のAI/ML界隈のトレンド
2
本日の内容
3
略歴
4
略歴
• 氏名:片岡泰之 (Yasuyuki Kataoka)
 WebPage : https://ykataoka.github.io/
• 会社:NTTサービスエボリューション研究所 → NTT Innovation Institute, Inc.
• 業務:グローバル顧客とのAI/ML PoC (Data Consultation), Internal Applied ML R&D
• 大学時代の興味:自動運転、ドローンの非線形制御理論研究
• 入社以降の興味:機械学習技術を新たな問題設定に適用すること
 最近の技術的興味:時系列異種混合データ解析
 最近注目している問題設定:人間モニタリング(Wearable + CV + Audio)
 AI アプリケーション > AI バックエンド・インフラ
• 自分のバックボーン:①Data Science, ②Robotics, ③Hacker Mentality
• 趣味:自動運転プログラム、子育て楽しんでいます
4
5
NTT i3の
データサイエンスプロジェクト例の紹介
6
シリコンバレーでのデータサイエンスプロジェクト例
• プロドライバーのパフォーマンス向上
• 自転車選手のパフォーマンスモニタリング
• 解約予測分析
• セキュリティ攻撃の危険度予測
• 燃費向上予測
• ドライバーの感情分析
• EVの電池消費予測とアプリケーション
• 飛行機の乗客の状態推定
• 従業員の異常状態検知
• 脳卒中推定
• 薬の副作用予測
• バスケットボールのメンタル分析
• …
AI時代のコンセプト作り
精度追求型タスク
Automotive
Airline
HealthCare
Sports
Security
Operation
Sports
7
Racing Analytics
Racing analytics for IndyCar
Driver’s Challenge
• IndyCar has regulations that
forbid the use of power steering.
As a result, fatigue develops
over time in the driver’s forearm
muscles and deteriorates the
performance
Our Solution for IndyCar
• NTT i3 developed a solution to
analyze data from EMG
sensor (hitoe) on driver’s
forearm in conjunction with
the car’s telemetry data to find
the places where driver can
take more rest
© Copyright 2017 – NTT Innovation Institute, Inc.
ACTIONABLE
ANALYTICS
TELEMETRIC
DATA
VITAL
DATA
EMG
Sensors
8
Tour De France
In collaboration with Dimension Data / Oakton
#DDEffortIndex
• We created a machine learning based effort
index prediction model
• The riders need to tactically manage how
they expend their effort and optimize their
energy
• Biometric data such as power is not
available during the race. Hence, we used
machine learning to predict the level of effort
• Our ML-based model resulted in 53.7% error
reduction as compared to physics based
model
© Copyright 2017 – NTT Innovation Institute, Inc.
9
Rules
• 9 laps @ Sonoma Raceway
(47m elevation, total
distance : 15.6 miles)
• Evaluation by average MPG
Winning
Best MPG Machine Learning Award
• 1st among about 30 data
scientists
Resulted in 83mpg
• 86mpg achievement from Toyota
Dream Team
Prius Challenge
Efficient Driving Competition
© Copyright 2017 – NTT Innovation Institute, Inc.
Challenge
• ML-driven Strategy with the
given dataset. Input: throttle,
brake, gear, EV-mode
• Teamwork with data
scientists and drivers. From
‘theoretical strategy’ to
‘practice’
10
データサイエンス案件の進め方101
・主にB2B2Xモデルにおけるデータサイエンス案件の経験に基づきます。
・AIプロダクト内製プロジェクトでも同じような苦労があるかも。
11
問題設定
データセット
整理
ML実装
精度評価
・レポート
可視化ツー
ルなど
データサイエンスプロジェクトの基本的な流れ
Software Engineer /
ML Engineer
Data Consultant
Data Scientist /
Consultant
Data Scientist /
Software Engineer
理想
UX Designer
Software Engineer
現実
Data Scientist Data ScientistData Scientist
data scientistが得意とするポイントと、プロジェクト全体の中で重要なポイントには、
ギャップがあり、各ポイントのtipsを理解しておくことが必要。
12
問題設定あるある : 具体的な内容はAI担当者次第
Company
上の人
XX社
Open Innovation
AIエンジニア
XX社と一緒にやる事に合意。
インパクトのあることをやろう。
実際の現場担当者間の連携
先方のAIエンジニア
2025年のXXのPoC作りと伺っています。
具体的な問題設定がないとなんともアプ
ローチしづらいなあ。
自社でも思いつく問題設定は大体取
り組んでおりまして、もっと面白いこ
とを期待しています。…
13
問題設定:MLプロジェクトで一番大変なところ
• 与えられた問題設定が不明瞭(トップダウンで来る案件)
 現場:腐らない。よく対話をすると、こちらの得意分野にうまく持ってこれる時も
 組織:チームのAIリテラシを普段からする (上司の教育)
• 問題設定が挑戦的過ぎて精度が出ない懸念
 精度を気にしすぎて思考停止になることがある。一旦精度を忘れて議論。
 ビジネスを作る人は意外と精度に対して寛容なことも。 (特に米国はstory重視なので)
• 良い問題設定のアイディアが出ない
 先方から小さいデータをもらえるなら、データから問題設定をブレストしてみるのもあり。
 日常的にハッカソンへ参加、他社のML案件にアンテナ。
14
データセット整理 :データの質(ユニークさ)と量は超重要
• 先方がデータセットを出してくれない
 信頼されていない:自分たちがすごいという事例を作って(見せて)アピールする。
 問題設定への理解がまだふわっとしている:オープン/ダミーデータで可視化イメージを作る。
 NDA的な問題:オペレーションはさっさとやってもらう。
• 先方が出すデータセットが少ない
 実力を試されている。現場の腕の見せどころ。短時間で良いものを仕上げて報告→追加データ
 他のデータをもらえないか、pushする。
• データセットの収集が必要
 ラベル化はクラウドソーシングで迅速に:Crowdflower, definedcrowd, AMTなど
 一緒に集めようとなる。→ちょっといいアイディアが無いので、何かあれば教えてください。
15
ML実装
Techniques Scale Technology Capabilities
Best-in-class Deep NNs, RNNs, CNNs,
GBM, ensemble
Cloud-base, streaming
workload
Tensorflow, keras, caffe ML defines customer
experience
Advanced Decision Jungle, boosted
algorithms, lager NNs
Scalable compute,
regular retraining
H2O.ai, AWS SageMaker, Azure
ML Workbench, GCP data lab
ML built into core
business processes
Foundational Random Forest, PCA,
GLM, SVM
Operationalization to
shared infrastructure
R, Python sklearn ML provides decision
support
Exploratory Decition Tree, NNs, logistic
regression,k-means
PoCs run locally Azure Cognitive Services, Azure
ML Studio
Limited PoCs
Aspirational The easiest model No care Excel, Power BI, Tableau, bokeh Brain storming
Kataoka’s based on Slarome’s material
• 適材適プロジェクト
 スピード重視なのか、スケール重視なのか。それにより使うツールを使いわける。
 一つのツールに固執せず、進化しているツールを使ってみる姿勢が必要。
 自社ツールだけでは勝負できない事が多々ある。柔軟な組み合わせを。
16
評価 & 可視化ツール
• 所謂ML界隈での評価指標 + 顧客の価値まで踏み入る
 評価指標:precision, recall, f1, accuracy, AUC, RMSE, … (Kaggleなどを参考)
 顧客の価値:ROI改善率が理想だが、そんなに簡単ではない
• 簡易診断系:作業の時間短縮、作業人数の削減など
• インシデント予防系:インシデントが起きた場合の被害を定量・定性的に
• 可視化ツール
 MS BI tool, tableau
 Kibana, Grafana (influxdb, elastic search)
 d3, bokeh
 Angular, React, Vue
17
最近のAI/ML界隈のトレンド
*本内容は、様々なAI/ML界隈のミートアップやカンファレンスで感じた片岡の個人的所感です。
18
伝えたいこと
• CVはエッジ側のハード込で最適化の時代、MLモデルはコモディティ化
• 教師あり学習のコモディティ化
• Data Scientistのdirty workを自動化
• LIMEで結果の解釈技術
• その他 Data Scientist事情@SV
19
Computer Visionはエッジ側のハード込で最適化、MLモデルはコモディティ化
• ハード込で最適化の時代
 中国の強みであるAIと深センを利用し、リアルタイム分析の商品が乱立 (CES2018)
 ITジャイアントの軽量・バッテリー長のカメラの買収など (blinkなど)
• 誰でも簡単にMLモデルが作れる時代
 Microsoft Azure
• クリックでCVモデルを作るPlatform (転移学習→新データでfine-tuning、をクリックで実現)
 Amazon Rekognition
• エッジへのデプロイ:DeepLensでエッジに簡単にデプロイできるところまで作り込んでいる
• Inferenceを省電力でやるために、モデルの最適化(squeezeNet)、ハードウエアの最適化
• 片岡所感:
 (予想) ITジャイアントが個別のCVモデル(特化型AI)のマーケットプレイス化
 NTTが個別の特化型CVだけで戦うには地の利が少なく、ベンチャとあまり変わらない気が。
 今後は、CVを使って何を作り、どのような価値を提供するかがビジネス上ポイントになる。
20
教師あり学習のコモディティ化
• 大手が「誰でも簡単にモデルを作れるプラットフォーム」を提供
 Amazon SageMaker, Microsoft Azure, Google AutoML, H2O.ai DriverlessAIなど
 問題設定とデータがあれば、restで予測タスクを実行可能なMLモジュールは簡単に作成可能
• Deep Learningのアルゴリズム
 研究は進むが、hot過ぎて良いアルゴリズムはすぐにオープン化、ライブラリ化される。
 学術研究からビジネスに使われるまでが、(めっちゃ)高速化
 自社の独自アルゴリズム研究がビジネス上の強みになりづらい時代。
21
教師あり学習のコモディティ化
• (広義の) AutoMLの出現
 AutoML : Ensemble Learningの自動化
 Scikit-learn, H2O.aiでオープンソース化
 (片岡の肌感) 普通のデータサイエンティストが
作ったモデルでは勝てない。
http://docs.h2o.ai/h2o/latest-stable/h2o-docs/automl.html
https://automl.github.io/auto-sklearn/stable/
• 片岡の所感
• 教師あり学習では、使いこなせることがまず大事。(そんなに難しくない)
• プロジェクトの要求条件(レイテンシ、リソース、納期)に合わせて適切な手法を選択
• 視点を変えて、モデルの更新頻度、問題設定の独自性、データセットの独自性や大きさ、
デプロイされたMLシステムの安定性や使いやすさなど、違う箇所で価値を出す
22
Data Scientistのdirty workを自動化
• これまで:
 機械学習モデルを作る前の作業はData Scientistの90%の時間を取ると言われていた。
• 今:
 データクレンジング:
• 自動で名寄せする機能、同種データの特定など、部分的にクレンジングタスクが自動化
 素性(入力)設計:
• Kaggle Grand Masterが使う入力変換 (one-hot化、frequency encoding等)を自動判別
• 片岡所感
 H2O.aiいわく、時系列の素性生成などは、まだ課題とのこと。
 音声や画像はDL、その他はH2Oでいけるかチェック、それでもだめなら自分で設計
https://www.biggorilla.org/ja/
https://industrypulse.com/2017/07/07/new-h2o-ai-automated-feature-engineering-for-machine-learning/
23
結果の解釈技術への注目:LIME
• LIME : Local Interpretable Model-Agnostic Explanations
 Model-Agnostic : どのようなクラス分類器でも説明可能に
 説明したい対象近傍のサンプルで線形モデルを立て、その特徴量への重みから説明
• https://arxiv.org/abs/1602.04938
• https://www.oreilly.com/learning/introduction-to-local-interpretable-model-agnostic-
explanations-lime
クエリ画像に対して近い
perturbed instancesだけ
を使って線形モデルを構築
24
Data Scientist事情@Silicon Valley
• Demo or Die
 紙芝居から作るメンタリティ → フルスタックスキルが求められる
 “データがないからできませーん”、を言い訳にしない
• Ponkotsu Data Scientist
 AI/ML/DLの需要が高く、給与も高い。Sexyな職に流れる人が多い分、ポンコツも多い
 Academia出身の方:使えるツールの偏りがあったり、視野が狭かったり。
• Build Yourself
 動きが早いので情報収集は自力で
• カンファレンスは動画が上がる : https://h2oworld.h2o.ai/
 結局、data scienceビジネスは、個々のdata scientistの実力がないと案件は取れない。
• スキルを上げ、対外評価を上げることがチームの力に直結
 世界中からVISAの問題をクリアするほど優秀な人が集まる中で戦う
• Hackathon / Kaggle / Top data mining conference / journal paper holder…
25
まとめ
• D.S. 101 : データサイエンスプロジェクトの理想とNTTの現実に触れ、そのgapを埋め
るtipsを共有
• ML/AI@SV : academiaから少し外に出てみて感じたトレンドを共有
片岡 泰之 : kataoka.yasuyuki@ntti3.com
linkedin : https://www.linkedin.com/in/ykataoka/
personal : https://ykataoka.github.io

Weitere ähnliche Inhalte

Ähnlich wie How to organize data science project (データサイエンスプロジェクトの始め方101)

鷲崎 メトリクスとGQMチュートリアル-公開版-20130912
鷲崎 メトリクスとGQMチュートリアル-公開版-20130912鷲崎 メトリクスとGQMチュートリアル-公開版-20130912
鷲崎 メトリクスとGQMチュートリアル-公開版-20130912
Hironori Washizaki
 
【17-C-4】「Axure RPによる画面プロトタイプを活用した要件定義の改善:野村総合研究所、NTTデータの事例紹介」松永充弘氏
【17-C-4】「Axure RPによる画面プロトタイプを活用した要件定義の改善:野村総合研究所、NTTデータの事例紹介」松永充弘氏【17-C-4】「Axure RPによる画面プロトタイプを活用した要件定義の改善:野村総合研究所、NTTデータの事例紹介」松永充弘氏
【17-C-4】「Axure RPによる画面プロトタイプを活用した要件定義の改善:野村総合研究所、NTTデータの事例紹介」松永充弘氏
Developers Summit
 

Ähnlich wie How to organize data science project (データサイエンスプロジェクトの始め方101) (20)

機械学習 - MNIST の次のステップ
機械学習 - MNIST の次のステップ機械学習 - MNIST の次のステップ
機械学習 - MNIST の次のステップ
 
Supervised Machine Learning of Elastic Stack
Supervised Machine Learning of Elastic StackSupervised Machine Learning of Elastic Stack
Supervised Machine Learning of Elastic Stack
 
Open Cloud Innovation2016 day1(これからのデータ分析者とエンジニアに必要なdatascienceexperienceツールと...
Open Cloud Innovation2016 day1(これからのデータ分析者とエンジニアに必要なdatascienceexperienceツールと...Open Cloud Innovation2016 day1(これからのデータ分析者とエンジニアに必要なdatascienceexperienceツールと...
Open Cloud Innovation2016 day1(これからのデータ分析者とエンジニアに必要なdatascienceexperienceツールと...
 
市場動向並びに弊社製品の今後の展望について
市場動向並びに弊社製品の今後の展望について市場動向並びに弊社製品の今後の展望について
市場動向並びに弊社製品の今後の展望について
 
AIを活用した交通事故削減支援サービスでのテスト自動化
AIを活用した交通事故削減支援サービスでのテスト自動化AIを活用した交通事故削減支援サービスでのテスト自動化
AIを活用した交通事故削減支援サービスでのテスト自動化
 
市場動向並びに弊社製品の今後の展望について
市場動向並びに弊社製品の今後の展望について市場動向並びに弊社製品の今後の展望について
市場動向並びに弊社製品の今後の展望について
 
組込みSW開発技術研究会キックオフミーティング
組込みSW開発技術研究会キックオフミーティング組込みSW開発技術研究会キックオフミーティング
組込みSW開発技術研究会キックオフミーティング
 
リクルート式ビッグデータ活用術
リクルート式ビッグデータ活用術リクルート式ビッグデータ活用術
リクルート式ビッグデータ活用術
 
超高速な機械学習を Oracle Database で実現!
超高速な機械学習を Oracle Database で実現!超高速な機械学習を Oracle Database で実現!
超高速な機械学習を Oracle Database で実現!
 
Oracle Data Miner で始める簡単・高速な機械学習
Oracle Data Miner で始める簡単・高速な機械学習Oracle Data Miner で始める簡単・高速な機械学習
Oracle Data Miner で始める簡単・高速な機械学習
 
鷲崎 メトリクスとGQMチュートリアル-公開版-20130912
鷲崎 メトリクスとGQMチュートリアル-公開版-20130912鷲崎 メトリクスとGQMチュートリアル-公開版-20130912
鷲崎 メトリクスとGQMチュートリアル-公開版-20130912
 
【17-C-4】「Axure RPによる画面プロトタイプを活用した要件定義の改善:野村総合研究所、NTTデータの事例紹介」松永充弘氏
【17-C-4】「Axure RPによる画面プロトタイプを活用した要件定義の改善:野村総合研究所、NTTデータの事例紹介」松永充弘氏【17-C-4】「Axure RPによる画面プロトタイプを活用した要件定義の改善:野村総合研究所、NTTデータの事例紹介」松永充弘氏
【17-C-4】「Axure RPによる画面プロトタイプを活用した要件定義の改善:野村総合研究所、NTTデータの事例紹介」松永充弘氏
 
基本から学ぶ ビッグデータ / データ分析 / 機械学習 サービス群
基本から学ぶ ビッグデータ / データ分析 / 機械学習 サービス群基本から学ぶ ビッグデータ / データ分析 / 機械学習 サービス群
基本から学ぶ ビッグデータ / データ分析 / 機械学習 サービス群
 
[db tech showcase Tokyo 2014] D25: 今を分析する日立の「CEP」、知るなら今でしょ! by 株式会社日立製作所 村上順一
 [db tech showcase Tokyo 2014] D25: 今を分析する日立の「CEP」、知るなら今でしょ!  by 株式会社日立製作所 村上順一 [db tech showcase Tokyo 2014] D25: 今を分析する日立の「CEP」、知るなら今でしょ!  by 株式会社日立製作所 村上順一
[db tech showcase Tokyo 2014] D25: 今を分析する日立の「CEP」、知るなら今でしょ! by 株式会社日立製作所 村上順一
 
ソフトウェア工学における問題提起と機械学習の新たなあり方
ソフトウェア工学における問題提起と機械学習の新たなあり方ソフトウェア工学における問題提起と機械学習の新たなあり方
ソフトウェア工学における問題提起と機械学習の新たなあり方
 
MLOps Course Slides_JP(配布用).pdf
MLOps Course Slides_JP(配布用).pdfMLOps Course Slides_JP(配布用).pdf
MLOps Course Slides_JP(配布用).pdf
 
Tomorrow's software testing for embedded systems ~明日にでも訪れてしまう組込みシステムのテストの姿~
Tomorrow's software testing for embedded systems ~明日にでも訪れてしまう組込みシステムのテストの姿~Tomorrow's software testing for embedded systems ~明日にでも訪れてしまう組込みシステムのテストの姿~
Tomorrow's software testing for embedded systems ~明日にでも訪れてしまう組込みシステムのテストの姿~
 
Ms retail update ra 20191030
Ms retail update ra 20191030Ms retail update ra 20191030
Ms retail update ra 20191030
 
カスタマーサクセスのためのデータ整備人の活動記録
カスタマーサクセスのためのデータ整備人の活動記録カスタマーサクセスのためのデータ整備人の活動記録
カスタマーサクセスのためのデータ整備人の活動記録
 
Data-Centric AIの紹介
Data-Centric AIの紹介Data-Centric AIの紹介
Data-Centric AIの紹介
 

How to organize data science project (データサイエンスプロジェクトの始め方101)

  • 2. 0. 略歴 1. NTT i3のデータサイエンスプロジェクト例の紹介 2. データサイエンス案件の進め方101 3. シリコンバレーで感じる最近のAI/ML界隈のトレンド 2 本日の内容
  • 4. 4 略歴 • 氏名:片岡泰之 (Yasuyuki Kataoka)  WebPage : https://ykataoka.github.io/ • 会社:NTTサービスエボリューション研究所 → NTT Innovation Institute, Inc. • 業務:グローバル顧客とのAI/ML PoC (Data Consultation), Internal Applied ML R&D • 大学時代の興味:自動運転、ドローンの非線形制御理論研究 • 入社以降の興味:機械学習技術を新たな問題設定に適用すること  最近の技術的興味:時系列異種混合データ解析  最近注目している問題設定:人間モニタリング(Wearable + CV + Audio)  AI アプリケーション > AI バックエンド・インフラ • 自分のバックボーン:①Data Science, ②Robotics, ③Hacker Mentality • 趣味:自動運転プログラム、子育て楽しんでいます 4
  • 6. 6 シリコンバレーでのデータサイエンスプロジェクト例 • プロドライバーのパフォーマンス向上 • 自転車選手のパフォーマンスモニタリング • 解約予測分析 • セキュリティ攻撃の危険度予測 • 燃費向上予測 • ドライバーの感情分析 • EVの電池消費予測とアプリケーション • 飛行機の乗客の状態推定 • 従業員の異常状態検知 • 脳卒中推定 • 薬の副作用予測 • バスケットボールのメンタル分析 • … AI時代のコンセプト作り 精度追求型タスク Automotive Airline HealthCare Sports Security Operation Sports
  • 7. 7 Racing Analytics Racing analytics for IndyCar Driver’s Challenge • IndyCar has regulations that forbid the use of power steering. As a result, fatigue develops over time in the driver’s forearm muscles and deteriorates the performance Our Solution for IndyCar • NTT i3 developed a solution to analyze data from EMG sensor (hitoe) on driver’s forearm in conjunction with the car’s telemetry data to find the places where driver can take more rest © Copyright 2017 – NTT Innovation Institute, Inc. ACTIONABLE ANALYTICS TELEMETRIC DATA VITAL DATA EMG Sensors
  • 8. 8 Tour De France In collaboration with Dimension Data / Oakton #DDEffortIndex • We created a machine learning based effort index prediction model • The riders need to tactically manage how they expend their effort and optimize their energy • Biometric data such as power is not available during the race. Hence, we used machine learning to predict the level of effort • Our ML-based model resulted in 53.7% error reduction as compared to physics based model © Copyright 2017 – NTT Innovation Institute, Inc.
  • 9. 9 Rules • 9 laps @ Sonoma Raceway (47m elevation, total distance : 15.6 miles) • Evaluation by average MPG Winning Best MPG Machine Learning Award • 1st among about 30 data scientists Resulted in 83mpg • 86mpg achievement from Toyota Dream Team Prius Challenge Efficient Driving Competition © Copyright 2017 – NTT Innovation Institute, Inc. Challenge • ML-driven Strategy with the given dataset. Input: throttle, brake, gear, EV-mode • Teamwork with data scientists and drivers. From ‘theoretical strategy’ to ‘practice’
  • 11. 11 問題設定 データセット 整理 ML実装 精度評価 ・レポート 可視化ツー ルなど データサイエンスプロジェクトの基本的な流れ Software Engineer / ML Engineer Data Consultant Data Scientist / Consultant Data Scientist / Software Engineer 理想 UX Designer Software Engineer 現実 Data Scientist Data ScientistData Scientist data scientistが得意とするポイントと、プロジェクト全体の中で重要なポイントには、 ギャップがあり、各ポイントのtipsを理解しておくことが必要。
  • 12. 12 問題設定あるある : 具体的な内容はAI担当者次第 Company 上の人 XX社 Open Innovation AIエンジニア XX社と一緒にやる事に合意。 インパクトのあることをやろう。 実際の現場担当者間の連携 先方のAIエンジニア 2025年のXXのPoC作りと伺っています。 具体的な問題設定がないとなんともアプ ローチしづらいなあ。 自社でも思いつく問題設定は大体取 り組んでおりまして、もっと面白いこ とを期待しています。…
  • 13. 13 問題設定:MLプロジェクトで一番大変なところ • 与えられた問題設定が不明瞭(トップダウンで来る案件)  現場:腐らない。よく対話をすると、こちらの得意分野にうまく持ってこれる時も  組織:チームのAIリテラシを普段からする (上司の教育) • 問題設定が挑戦的過ぎて精度が出ない懸念  精度を気にしすぎて思考停止になることがある。一旦精度を忘れて議論。  ビジネスを作る人は意外と精度に対して寛容なことも。 (特に米国はstory重視なので) • 良い問題設定のアイディアが出ない  先方から小さいデータをもらえるなら、データから問題設定をブレストしてみるのもあり。  日常的にハッカソンへ参加、他社のML案件にアンテナ。
  • 14. 14 データセット整理 :データの質(ユニークさ)と量は超重要 • 先方がデータセットを出してくれない  信頼されていない:自分たちがすごいという事例を作って(見せて)アピールする。  問題設定への理解がまだふわっとしている:オープン/ダミーデータで可視化イメージを作る。  NDA的な問題:オペレーションはさっさとやってもらう。 • 先方が出すデータセットが少ない  実力を試されている。現場の腕の見せどころ。短時間で良いものを仕上げて報告→追加データ  他のデータをもらえないか、pushする。 • データセットの収集が必要  ラベル化はクラウドソーシングで迅速に:Crowdflower, definedcrowd, AMTなど  一緒に集めようとなる。→ちょっといいアイディアが無いので、何かあれば教えてください。
  • 15. 15 ML実装 Techniques Scale Technology Capabilities Best-in-class Deep NNs, RNNs, CNNs, GBM, ensemble Cloud-base, streaming workload Tensorflow, keras, caffe ML defines customer experience Advanced Decision Jungle, boosted algorithms, lager NNs Scalable compute, regular retraining H2O.ai, AWS SageMaker, Azure ML Workbench, GCP data lab ML built into core business processes Foundational Random Forest, PCA, GLM, SVM Operationalization to shared infrastructure R, Python sklearn ML provides decision support Exploratory Decition Tree, NNs, logistic regression,k-means PoCs run locally Azure Cognitive Services, Azure ML Studio Limited PoCs Aspirational The easiest model No care Excel, Power BI, Tableau, bokeh Brain storming Kataoka’s based on Slarome’s material • 適材適プロジェクト  スピード重視なのか、スケール重視なのか。それにより使うツールを使いわける。  一つのツールに固執せず、進化しているツールを使ってみる姿勢が必要。  自社ツールだけでは勝負できない事が多々ある。柔軟な組み合わせを。
  • 16. 16 評価 & 可視化ツール • 所謂ML界隈での評価指標 + 顧客の価値まで踏み入る  評価指標:precision, recall, f1, accuracy, AUC, RMSE, … (Kaggleなどを参考)  顧客の価値:ROI改善率が理想だが、そんなに簡単ではない • 簡易診断系:作業の時間短縮、作業人数の削減など • インシデント予防系:インシデントが起きた場合の被害を定量・定性的に • 可視化ツール  MS BI tool, tableau  Kibana, Grafana (influxdb, elastic search)  d3, bokeh  Angular, React, Vue
  • 18. 18 伝えたいこと • CVはエッジ側のハード込で最適化の時代、MLモデルはコモディティ化 • 教師あり学習のコモディティ化 • Data Scientistのdirty workを自動化 • LIMEで結果の解釈技術 • その他 Data Scientist事情@SV
  • 19. 19 Computer Visionはエッジ側のハード込で最適化、MLモデルはコモディティ化 • ハード込で最適化の時代  中国の強みであるAIと深センを利用し、リアルタイム分析の商品が乱立 (CES2018)  ITジャイアントの軽量・バッテリー長のカメラの買収など (blinkなど) • 誰でも簡単にMLモデルが作れる時代  Microsoft Azure • クリックでCVモデルを作るPlatform (転移学習→新データでfine-tuning、をクリックで実現)  Amazon Rekognition • エッジへのデプロイ:DeepLensでエッジに簡単にデプロイできるところまで作り込んでいる • Inferenceを省電力でやるために、モデルの最適化(squeezeNet)、ハードウエアの最適化 • 片岡所感:  (予想) ITジャイアントが個別のCVモデル(特化型AI)のマーケットプレイス化  NTTが個別の特化型CVだけで戦うには地の利が少なく、ベンチャとあまり変わらない気が。  今後は、CVを使って何を作り、どのような価値を提供するかがビジネス上ポイントになる。
  • 20. 20 教師あり学習のコモディティ化 • 大手が「誰でも簡単にモデルを作れるプラットフォーム」を提供  Amazon SageMaker, Microsoft Azure, Google AutoML, H2O.ai DriverlessAIなど  問題設定とデータがあれば、restで予測タスクを実行可能なMLモジュールは簡単に作成可能 • Deep Learningのアルゴリズム  研究は進むが、hot過ぎて良いアルゴリズムはすぐにオープン化、ライブラリ化される。  学術研究からビジネスに使われるまでが、(めっちゃ)高速化  自社の独自アルゴリズム研究がビジネス上の強みになりづらい時代。
  • 21. 21 教師あり学習のコモディティ化 • (広義の) AutoMLの出現  AutoML : Ensemble Learningの自動化  Scikit-learn, H2O.aiでオープンソース化  (片岡の肌感) 普通のデータサイエンティストが 作ったモデルでは勝てない。 http://docs.h2o.ai/h2o/latest-stable/h2o-docs/automl.html https://automl.github.io/auto-sklearn/stable/ • 片岡の所感 • 教師あり学習では、使いこなせることがまず大事。(そんなに難しくない) • プロジェクトの要求条件(レイテンシ、リソース、納期)に合わせて適切な手法を選択 • 視点を変えて、モデルの更新頻度、問題設定の独自性、データセットの独自性や大きさ、 デプロイされたMLシステムの安定性や使いやすさなど、違う箇所で価値を出す
  • 22. 22 Data Scientistのdirty workを自動化 • これまで:  機械学習モデルを作る前の作業はData Scientistの90%の時間を取ると言われていた。 • 今:  データクレンジング: • 自動で名寄せする機能、同種データの特定など、部分的にクレンジングタスクが自動化  素性(入力)設計: • Kaggle Grand Masterが使う入力変換 (one-hot化、frequency encoding等)を自動判別 • 片岡所感  H2O.aiいわく、時系列の素性生成などは、まだ課題とのこと。  音声や画像はDL、その他はH2Oでいけるかチェック、それでもだめなら自分で設計 https://www.biggorilla.org/ja/ https://industrypulse.com/2017/07/07/new-h2o-ai-automated-feature-engineering-for-machine-learning/
  • 23. 23 結果の解釈技術への注目:LIME • LIME : Local Interpretable Model-Agnostic Explanations  Model-Agnostic : どのようなクラス分類器でも説明可能に  説明したい対象近傍のサンプルで線形モデルを立て、その特徴量への重みから説明 • https://arxiv.org/abs/1602.04938 • https://www.oreilly.com/learning/introduction-to-local-interpretable-model-agnostic- explanations-lime クエリ画像に対して近い perturbed instancesだけ を使って線形モデルを構築
  • 24. 24 Data Scientist事情@Silicon Valley • Demo or Die  紙芝居から作るメンタリティ → フルスタックスキルが求められる  “データがないからできませーん”、を言い訳にしない • Ponkotsu Data Scientist  AI/ML/DLの需要が高く、給与も高い。Sexyな職に流れる人が多い分、ポンコツも多い  Academia出身の方:使えるツールの偏りがあったり、視野が狭かったり。 • Build Yourself  動きが早いので情報収集は自力で • カンファレンスは動画が上がる : https://h2oworld.h2o.ai/  結局、data scienceビジネスは、個々のdata scientistの実力がないと案件は取れない。 • スキルを上げ、対外評価を上げることがチームの力に直結  世界中からVISAの問題をクリアするほど優秀な人が集まる中で戦う • Hackathon / Kaggle / Top data mining conference / journal paper holder…
  • 25. 25 まとめ • D.S. 101 : データサイエンスプロジェクトの理想とNTTの現実に触れ、そのgapを埋め るtipsを共有 • ML/AI@SV : academiaから少し外に出てみて感じたトレンドを共有 片岡 泰之 : kataoka.yasuyuki@ntti3.com linkedin : https://www.linkedin.com/in/ykataoka/ personal : https://ykataoka.github.io

Hinweis der Redaktion

  1. 初めに重要なこと。 今回、ぶっちゃけ、イケてるエンジニアやサイエンティストを探しに来ている。 今の仕事場でご自身の才能や能力を発揮出来ておらずくすぶっている方 シリコンバレーという厳しいがチャンスの多い環境でキャリアアップを目指したい方 AIのリサーチから、ビジネスの現場でapplied R&Dをやりたい方 機械学習はいじれるわけではないが、モバイルやgeneral software engineerに柔軟に対応出来る方 たしかに英語力も重要なのですが、エンジニアリング能力と情熱に重きを置いて、hiringに来ている。 ご興味のある方、本会中に個別にお話しできればと思います。
  2. 海外事業会社:NTT EU, NTT Data Inc. Dimension Data 大手航空機製造メーカー 欧米・北欧・日本自動車メーカー 製薬会社、 スポーツ分野での北米大手など、 グローバルな大企業を相手にデータコンサルテーションをしている。
  3. Dream team assembled by father of the Prius Takeshi Uchiyamada (he also participated)
  4. 問題: ・AIの組織構成がトップダウン的に成熟していない現在のNTTでは、本来フォーカスすべき以外の業務もやらなければいけない。 ・リサーチからdata scienceのビジネスドリブンなapplied R&Dにくると、このgapに戸惑うかも。 アプローチ:基本的にそれぞれのタスクのはまりどころを理解した上で、適切に組織運営をする必要がある。個人としては、どこの強みを伸ばすのか、考えてキャリアをデザインする必要がある。
  5. AIあるある