Business Innovation cases driven by AI and BigData technologies

2016年10月27日
富士通株式会社イノベーティブソリューション事業本部
シニアディレクター倉知陽一
株式会社富士通研究所知識情報処理研究所人工知能研究センター
主管研究員上田晴康
Business Innovation cases
driven by AI and BigData
technologies
Copyright 2016 FUJITSU LIMITED0
【Hadoop Summit 2016 Tokyo】
※記載されている製品名、サービス名などの固有名詞は、各社の商標または登録商標です。

2016年10月27日
富士通株式会社
イノベーティブソリューション事業本部
シニアディレクター倉知陽一
E-Mail：kurachi.yoichi@jp.fujitsu.com
technologies

本日お話しする内容
Copyright 2016 FUJITSU LIMITED
1. ビッグデータ × AI(人工知能)
2. 活用事例とソリューション
2

ビッグデータ
×
AI(人工知能)
3

ビッグデータ活用によるイノベーション
経営層・分析の専門家に加え、現場部門が活用する時代
現場部門主導によるデータ活用でイノベーションを創出
知的処理/最適化データ活用による
イノベーション
業務
基幹データ、ログデータ
外部
SNS 、オープンデータ
• 設備メンテ
• オムニチャネル
• 動画、音声
IoT
センサー、業界横断データ
• ものづくりロボット
• 人工知能/機械学習
• 未来医療
• インフラ保全
• 自動運転
データ利活用の
高度化
データ量拡大
分析/予測集計/可視化
4

オペレーショナル・データマネジメント・アナリティクス
実践で培ったノウハウを分析シナリオとして型化し、
ビッグデータ利活用ソリューションとして提供
お客さまの業務部門
ビジネスプロセス
セルフサービス型のデータ利活用
現場のデータ
・コールセンタ
・アンケート
・売場レポート
・Web書込
生の声
業務データ
・商品
・顧客
・POS
・在庫
企業内データ
・日報
・作業メモ
センサー/デバイス
SNS/
オープンデータ
外部データ
音声・画像
多種多様・大量データの統合管理
ビジネスプロセスとの融合
構造化データ非構造化データストリームデータ
オペレーショナル・データマネジメント
オペレーショナル・アナリティクス
インテグレーションサービス
 業務部門の現場自らがビッグデータを活用してビジネスイノベーションを実現
オペレーショナル・データマネジメント＆アナリティクス
(Operational Data Management & Analytics：ODMA)
ビッグデータ×AI(人工知能)利活用ソリューション
AI(人工知能）機械学習
Powered by ZinraiODMAｿﾘｭｰｼｮﾝ
5

Hadoop
Spark
可視化
リコメンド
アラート通知
ビッグデータ利活用を支える技術
ビッグデータ蓄積
ODS
並列分散処理
分析･予測
！検知
リアルタイム処理
機械学習
抽出加工
外部データ
イベントデータ
気象データ
SNS など
機器データ
ウェアラブル
デバイス
業務データ
センサーデータ
情報利活用基盤(ODMA)
蓄積収集
活
用
ルール
6

ビッグデータ
×
AI(人工知能)
活用事例と
ソリューション
7

予兆検知による製造ラインの安定稼働の実現
 製造機器から収集したセンサーデータをリアルタイム監視
 予兆検知により、ライン停止に至るような重大障害になる前に予防保守
事例1
対象
⇒鋳造プレス機
データ項目数
⇒20項目
動力
温度
使用電力量
加重
予兆を検知
予防保守
リアルタイム機械学習を活用した予兆検知による計画保守の実現
ODMA予兆監視モデル
関連企業
故障予兆を
検知し
予防保守を実施
無停止稼動で
関連企業の
生産にも貢献
Spark
(リアルタイム処理)
データ
取得・加工
ｽﾄﾘｰﾐﾝｸﾞ
ﾃﾞｰﾀ処理
アノマリ
検知
「いつもと違う」
を検知
インメモリ
並列分散処理
クレンジング
フィルタリング
8

Operational Data Management & Analytics
予兆検知ソリューションアノマリ技術とは
 機械学習により「いつもの状態」や「遷移」をモデル化
 アノマリ(いつもと違う状態)を検知することで、異常の予兆を監視
アノマリ検知従来の異常検知
 過去に発生した異常パターンを学習
（教師あり機械学習）
 過去に発生した異常パターンと一致
した場合、異常として検知
 「いつも」のパターンを学習
（教師なし機械学習）
 「いつも」のパターンからの外れ
値を、アノマリとして検知
状態1
状態2
状態3
状態4状態5
状態6
状態7
いつもの１日
の状態遷移
サイレント
異常
異常
状態
いつもの状態からの
逸脱（アノマリ）を検出
9

FUJITSU CONFIDENTIALFUJITSU CONFIDENTIAL
ODMA予兆監視ソリューションの利用
データの分析結果
原因の探索
センサー
データ
・障害の回避、改善
・更なる安定稼動の実現
・監視の人的コスト低減
・品質改善の探求
・消耗品の効率利用
・稼動状況の見える化
・ベテランノウハウの共有
…
センサーデータの可視化
本格的なデータ利活用
新しい製造と価値が
創造できます！
ＡＩ：機械学習
アノマリ分析結果の表示
いつもとの違い
（アノマリ）
を自動判断
教師なし
機械学習による
自動モデル化
ODMA予兆監視ソリューション
鋳造プレス機
10

FUJITSU CONFIDENTIALFUJITSU CONFIDENTIAL
ODMA予兆監視の分析力
業務記録では
このタイミングで
異常を検知
⇒リセット操作実施
データの微細な変化から
ODMA予兆監視では
「アノマリ警告」を検知
⇒予兆として「警告」を利用可能
アラートView
アノマリスコアグラフ
11

ODMA顧客行動分析ソリューション
Hadoop
販売員の声・
接客事例・SNS
お客様情報
購買履歴
グループごとに
分析し施策検討
ダイレクト
メール
クーポン
ノベルティ
顧客行動分析によるオムニチャネルの高度化
 SNS、オムニチャネルからの情報を加えた自動クラスタリング
 お客様のグループごとに、特性を踏まえた仮説による商品推奨
機械学習を活用した自動クラスタリングに基づき、
個々のお客様への最適アプローチを立案
事例2
機械学習(クラスタリング)
購買層を自動的に
グルーピング
グループごとに
個別アプローチ
並列分散処理
全顧客の
関連データを
処理
12

顧客行動分析ソリューション利用シーン例
 お客様のターゲット層ごとの特性を踏まえた
仮説による商品やサービスをタイムリーに推奨
購買履歴
お客様情報
…
企画担当者
ライフスタイルこだわり型
健康・美への意識の高い
ミドル層主婦・所得高め
顧客
グループ
年齢
来店
頻度
立ち寄っては
いるが、購買は
していないフロアで
買い物して
いただくには･･･
！
休日の
リビングで20分
立ち止まって
いたら、
クーポンや
広告を配信
年齢 30代後半～40代
購買傾向
自然素材・自然食品等
オーガニック系が多い
来店頻度 1回/２ヶ月
顧客グループごとに
新しい買い物シーンを
提案
食品
婦人服
婦人
雑貨
紳士
飲食
ﾘﾋﾞﾝｸﾞ
動線
来店客の現在位置・
滞留時間
自然素材の
ソファカバー
広告配送無料
クーポン
Wi-Fiで
位置捕捉
ルール
来店日=休日
場所=リビング
滞留=20分
判断
動線
休日はリビングに直行
13

ODMA
需要予測ソリューション
Hadoop
店舗C
店舗B
店舗A
チャネル別販売明細を活用したメーカの売上向上
販売明細や気象/地域イベントなどを加えた
マイクロマーケティングによる販売施策で売上を最大化
 飲料メーカの営業が、店舗・商品ごとの需要を予測
 店舗ごとに、周辺環境や世帯特性に加え、気象やイベントを考慮した販促
販売明細
地域のイベント
気象データ
店舗ごと・
商品ごとに
イベントに合わせた
販促施策を立案
企画
担当者
事例3
機械学習
商品別
予測モデル
地域別・店舗別
並列分散処理
店舗別・
商品別に
需要予測
14

 商品・店舗等、多様な軸で販売データの時系列推移を可視化
 予測結果を様々な視点でアドホックに可視化できるので、
直感的な分析が可能
需要予測ソリューション画面例
分析画面を
ブックマーク保存
分析条件で
絞り込み
時間軸の粒度や
範囲を指定
 売上金額と数量の予測値を表示
 過去については実績値との比較も表示可能
実績値予測値
 売上金額と数量の予測値を表示
 過去については実績値との比較も表示可能
ODMAｿﾘｭｰｼｮﾝ
Powered by Zinrai
ODMAｿﾘｭｰｼｮﾝ
15

お客様/パートナーとの共創
 企業と企業のつながり、企業と生活者、社会への関わりから
生まれる新しい価値の共創
 SoRとSoEをシームレスに連携することで、お客様システム
全体のイノベーションを加速
SoR
受発注在庫管理
ERP 生産管理
…
…
SoE
デジタルマーケティング
（オム二チャネル）
M2M/ものづくりモビリティ
生活者社会企業
ネット広告
ソーシャル
メディア
店舗
公共施設通販WEBサイト
コンタクト
センター
ECサイト
情報利用活用
連携
業務データ
連携
現場データ外部データ
連携
業務システム
FUJITSU Knowledge Integration
AI(人工知能）機械学習

technologies
Copyright 2016 FUJITSU LABORATORIES LTD17
2016年10月27日
株式会社富士通研究所知識情報処理研究所
人工知能研究センター
主管研究員上田晴康
E-Mail：hal_ueda@jp.fujitsu.com

自己紹介
大学を卒業する時は、
第2の人工知能ブームが来た頃
機械学習の研究してました
人工知能の冬の時代は、
組合せ最適化とか並列処理とか
研究していました
「ビッグデータ」時代になったので、
Hadoop, Sparkの技術開発に加えて、
人工知能を簡単に使えるようにする技術開発を
しています。

富士通のAI技術のブランド
 語源
疾風迅雷（すばやくはげしいこと。）
 名前に込めた想い
人の判断・行動を“スピーディ”に
サポートすることで、
企業・社会の変革を”ダイナミック”に
実現させる。
ジンライ
人と協調する、人を中心としたAI
継続的に成長するAI
AIを商品・サービスに組込み提供
■富士通が目指すAIの方向性
19

ee p le arn ing
Neuroscience
Machine learning
Social receptivity Simulation
- Image recognition
- Voice recognition
- Emotion/state
recognition
- Natural-language
processing
- Knowledge processing
& discovery
- Pattern discovery
- Inference &
Planning
- Prediction &
optimization
- Interactivity &
recommendation
Human Centric AI Zinrai
知覚・認識知識化判断・支援
学習
先端研究
ディープラーニング機械学習強化学習
脳科学社会受容性シミュレーション
人 / 企業 / 社会
アクチュエーションセンシング
画像処理
音声処理
感情・状況認識
自然言語処理
知識処理・発見
パターン発見
推論、計画
予測、最適化
対話、推薦
富士通が考えるAIのフレームワーク
20

AI(機械学習)アプリケーション開発の課題
 データからの学習は手間も時間もかかる
Copyright 2016 FUJITSU LABORATORIES LTD
学習は何度も行われる
分析相談効果判定現場試行本格運用
•目的の明確化
•入手可能データ
確認
•分析専門家と手作り
で試行
データの整形
機械学習アルゴリ
ズムの選択
学習パラメータの
選択
学習実行・評価
目的の精度の予測
モデルが得られる
まで繰り返し
•手作業でコーディング
データの整形ルール
監視ルール
通知・連携機能
•データ追加への対応
•データ特性変化への
対応
•連携機能の拡張
重回帰分析？
それとも
SVR？
3カ月～半年
類似アプリへの展開
対応
分析し
なおし？
毎月分析しなおし？
お客様自身も
試したい
分析専門家
21

機械学習とは？
 過去のデータから隠れた法則性（予測モデル）を見つけだし
その法則で新しいデータの予測をする技術
過去のデータ
プレミアム会員に
ならなかった
なった
年齢
収入
予測モデル
年齢
収入
新しい会員のデータ
プレミアム会員になりそう
プレミアム会員にならなさそう
22

課題：機械学習手法の選び方
 手法によって予測モデルの作り方が異なる
線形非線形
どちらの方が
良く当たるのか？
23

予測
精度
検証
機械学習の評価には時間がかかる
 分析専門家による試行錯誤が必要
 1回の機械学習に1日かかることもある
 分析専門家といえども一発では決まらず
試行錯誤が必要
分析
結果
大量
データ
機
械
学
習
並列処理
実装選択
サンプル
率選択
アルゴリ
ズム選択
サンプ
リング
パラメータ
選択
学習用データ
検証用データ
組合せ予測
モデル
数分～1日
十
分
な
精
度
？
分析専門家
データ量が多い方が
精度は高いが
時間がかかりすぎる
24

機械学習の自動化が注目されている
 KDnugetts※に専用カテゴリが
でき、２０種のソフトウェアが
登録済み。
企業:
 SkyTree
 DataRobot
 Loom Systems
研究/OSS:
 Auto-WEKA
 auto-sklearn
 TPOT
※データサイエンティストの有名コミュニティ
http://www.kdnuggets.com/software/automated-data-science.html
25

しかも、こんなに組合せがある…
×10 1～数十数百通り以上=× 2～5
Spark（並列）
R（逐次）
並列処理実装
R（逐次）
Spark（並列）
Spark（並列）
R（並列バギング）
R（逐次）
R（逐次）
Python（逐次）
Spark（並列）
二値
分類
目的
SVM(Linear)
SVM (RBF)
Gradient Boosted
Tree
Random Forest
アルゴリズム
Naïve Bayes
動作条件
（ハイパーパラメータ）
C: 2-50
～250
NT: 20
～220
MD: 20
～220
C: 2-50
～250
γ: 2-50
～250
α: 0～100
NT: 20
～220
MD: 20
～220
Python（並列バギング）
 力づくでやったら、絶対に終わらない
26

機械学習自動化技術
 データ量を少しずつ大きくしながら、各アルゴリズムの
精度向上を見積もる
 予測精度が上がる可能性が高く、短時間に実行が終わる
候補を選定して優先実行
 見込みのない候補はすばやく除外
サイズ
4000
学習時間
サイズ
1000
サイズ
2000
サイズ
4000
サイズ
8000
サイズ
1000
サイズ
2000
サイズ
1000
精度
サイズ
2000
サイズ
16000
現在の
最高精度
現在
時間はかかるが
データを増やせばまだ
精度向上
⇒ 優先的に実行
これ以上データを増やしても
精度が伸びない
⇒ 候補から除外
ロジスティック
回帰
SVM(RBF)
ランダム
フォレスト
27

機械
学習
機械学習自動化技術の詳細
1. サンプル率を動的に変えながら見込みのあるアルゴリズム・
動作条件に素早く絞り込み実行する技術
2. サンプリングした小さなデータの学習履歴から、動的に実行
時間と学習した予測モデルの精度を推定する技術
Apache Spark上にプロトタイプを実装
分析
結果大量
データ
並列処理
実装選択
アルゴリ
ズム選択
パラメータ
選択予測
精度
検証サンプ
リング
サンプル
率選択
学習用データ
検証用データ
1.自動チューニングする制御
2.実行時間と予測精度を推定
性能
ナレッジ
時間・精度推定
組合せ
予測
モデル
サンプル率決定を
前処理ではなく
制御対象とした
28

学習履歴から大データの学習精度を推定する
 既存手法に比べ、推定値および
推定分布（予測区間）の両方で
過大過少評価なし
予測精度
Kolachinaの手法 Figueroaの手法
予測精度予測精度
推定値を過小評価
⇒ 見落としが起きる
分布が広すぎる
⇒ 期待しすぎて
止められない
新規予測精度推定手法
実測推定
29

Wizz: Spark上に実装したプロトタイプ
Model
Perf.
Report
Wizz
Parallel Execution Platform
Task Optimizer
Input
Data
Hadoop(YARN/HDFS)
Algorithm Knowledge Base
Time/Space
Estimator
Model
Searcher
Preview
Instruction
UI
Scheduler
Shrink
Controller
Core API
Spark Runtime
MLLib
Launcher
External Lib (pipe)
Performance Evaluator (cross-validation)
Scala
Spark
Custom
parallel bagging
ShrinkerTask
Queue
Parallel
Executor
分析専門家
Python R
sklearn R Lib
30

Wizzで利用可能な機械学習ライブラリ
 Spark MLLib
 データ量が多い場合に高速
 並列処理ができないアルゴリズムは実装されておらず、精度に限界
 オーバーヘッドが大きく（機械学習1回30秒）、小規模データに向か
ない
 python sklearn
 データサイエンティストも利用し始め、主流になりつつある
 データ量が多い時には、バギング並列（独自実装）を併用
 R 各種ライブラリ
 機械学習に関するライブラリが最も充実
 データ量が多い時には、バギング並列（独自実装）を併用

複数の機械学習を非同期・並列に実行
R
評価
MLLib
(Random
Forest)
python(SVM RBF)
python
評価
R (Random Forest)
MLLib
評価
32

機械学習自動化技術の効果: 6日⇒2時間
精
度
時間
６日弱2時間強
精度推定の準備期間 2時間に短縮
見込みのない候補を除外、有望な学習
候補のみに絞り込んで処理
色々な手法を並行して処理
手法（アルゴリズム）
データ量
10万 20万 40万 80万 … 2500万 5000万
Random Forest
[並列バギング]
51秒
76%
52秒
80%
69秒
81%
60秒
84%
1760秒
96%
†4338秒
97%
Random Forest
[Spark]
38秒
76%
49秒
76%
78秒
76%
114秒
76%
†1590秒
76%
†2695秒
76%
Gradient Boosting
[並列バギング]
96秒
76%
97秒
78%
119秒
81%
113秒
83%
1420秒
88%
3679秒
88%
Gradient Boosting [Spark] 434秒
88%
475秒
88%
544秒
88%
691秒
88%
†5221秒
88%
†7933秒
88%
Support Vector Machine
(RBF kernel) [並列バギング]
529秒
73%
609秒
73%
815秒
79%
1,348秒
81%
†1.3日 †約3日

デモンストレーション

自動化でAIアプリケーション開発が容易に
 データ分析の一部に自動化を入れることで多くのメリット
分析相談効果判定現場試行本格運用
•目的の明確化
•入手可能データ
確認
•分析専門家と手作り
で試行
データの整形
機械学習アルゴリ
ズムの選択
学習パラメータの
選択
学習実行・評価
目的の精度の予測
モデルが得られる
まで繰り返し
•手作業でコーディング
データの整形ルール
監視ルール
通知・連携機能
対応
3カ月～半年
類似アプリへの展開
対応
分析専門家
自動化技術入り
分析フロー
全部自動で
試して
みればいい
分析し
なおし？
分析フローを
再実行する
だけ
自動化技術入り
分析フロー
35

Business Innovation cases driven by AI and BigData technologies

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Andere mochten auch

Andere mochten auch (9)

Ähnlich wie Business Innovation cases driven by AI and BigData technologies

Ähnlich wie Business Innovation cases driven by AI and BigData technologies (20)

Mehr von DataWorks Summit/Hadoop Summit

Mehr von DataWorks Summit/Hadoop Summit (20)

Business Innovation cases driven by AI and BigData technologies