SlideShare a Scribd company logo
1 of 23
Copyright © 2018, Oracle and/or its affiliates. All rights reserved. |
まだ機械学習で消耗しているの?
Oracle Data Miner で始める
簡単・高速な機械学習
コンサルと学ぶ! Oracle最新技術 #1
2018年4月18日
日本オラクル株式会社
Copyright © 2018, Oracle and/or its affiliates. All rights reserved. | 22
自己紹介
>>> teacher.name
“玉越 敬典 (たまこし ひろのり)”
>>> teacher.job.title
“スタッフコンサルタント”
>>> teacher.beloinging
“インフォーメーションアーキテクト部第二”
>>> teacher.description()
・ BigData/Analytics領域の案件に携さわるコンサルタント
・ 関心のある技術領域は、Spatial&Graph, 分散処理基盤,
DeepLearning
Oracle
Copyright © 2018, Oracle and/or its affiliates. All rights reserved. | 33
• Oracle Data Miner で機械学習をやることへの興味を持つ
TODAY’S GOAL:
Copyright © 2018, Oracle and/or its affiliates. All rights reserved. | 44
Oracle Autonomous Database
Autonomous
Database
自動稼働 自動保護 自動修復
“この自律型データベース・クラウドは、
適応型機械学習を組み込み、人の介入を必要としない
自動稼動、自動チューニング、自動修復、
自動スケーリングおよび自動保護管理を提供する”
(引用) https://www.oracle.com/jp/database/autonomous-
database/index.html)
Copyright © 2018, Oracle and/or its affiliates. All rights reserved. | 55
機械学習とは
“Machine Learning: field of study that gives computers the ability to learn
without being explicitly programmed” -- Arthur Samuel, 1959
“機械学習: コンピュータに明示的にプログラムされていなくても学習する能力
を与える研究分野”
Copyright © 2018, Oracle and/or its affiliates. All rights reserved. | 66
機械学習とは - 具体例
顧客データ(性別や購入履歴等)から、その顧客が
優良顧客になりうるかを自動判別したい
顧客
ID
性別 年齢 職業 前月請求額 優良顧客
101 男性 31 会社員 10,000円 NO
102 女性 28 主婦 5,000円 YES
103 女性 36 主婦 200円 NO
104 男性 43 会社員 3,000円 NO
105 女性 22 会社員 7,000円 YES
過去顧客データ (学習データ)
ルール:
IF (前月請求額 >= 5000 AND 性別 = “女性”)
THEN
優良顧客 = YES
確率 = 0.77
先月請求額
< 5000 円 >= 5000 円
性別
男性 女性
優良顧客 = YES
優良顧客 = NO
優良顧客 = NO
101 男性 31 会社員 10,000円 NO
102 女性 28 主婦 5,000円 YES
新規顧客データ (未知データ)
Copyright © 2018, Oracle and/or its affiliates. All rights reserved. | 77
一般的な機械学習プロジェクトの流れ (CRISP-DM)
CRISP-DM: データ分析プロジェクトのプロセスモデル
(CRoss-Industry Standard Process for Data Miningの略)
機械学習プロジェクトでは、
WaterFall 型のアプローチは
実質不可能
Copyright © 2018, Oracle and/or its affiliates. All rights reserved. | 88
機械学習の困難さ
必ずしも精度が出るとは限らない
データ分析における機械学習の向き不向き
技術的負債のたまりやすさ
プロジェクト観点 個人スキル観点
必要となる知識や能力が多い
Copyright © 2018, Oracle and/or its affiliates. All rights reserved. | 99
機械学習の困難さ(プロジェクト観点): 機械学習の向き不向き
• 全ての目的が機械学習に向いているわけではない
– 顧客からの「機械学習・AIで何かやれ」は要注意
• 以下のようなケースが機械学習に向いている
大量データが存在している
機械的に判定するロジック
を組む必要性がある
(正解を算出可能な場合で)
10 ~ 20% ほどの誤りを
許容できる
正解
誤り
Copyright © 2018, Oracle and/or its affiliates. All rights reserved. | 1010
Oracle Data Miner とは
Oracle Data Miner
• 必ずしも精度が出るとは限らない
• データ分析における機械学習の
向き不向き
• 技術的負債のたまりやすさ
• 必要となる知識や能力が多い
Problem
プ
ロ
ジ
ェ
ク
ト
観
点
個
人
ス
キ
ル
観
点
工数削減
以下の工数を削減
・データの移動
・データの加工/パラメータ設定負債
のたまりやすさ
簡易な操作
・ GUI でドラッグ&ドロップで
データの理解/データの準備/
モデル構築/学習/評価 までの
一連のプロセスを実施可能
Copyright © 2018, Oracle and/or its affiliates. All rights reserved. | 1111
Oracle Data Miner とは
Oracle Database 上で機械学習を
実施できる GUI ツール
(SQL Developer の拡張)
Copyright © 2018, Oracle and/or its affiliates. All rights reserved. | 1212
Oracle Data Miner の特徴 – 工数削減①
工数削減
通常の機械学習
データの抽出
データの準備&加工
機械学習モデルの
構築
機械学習モデルの
評価
データの移動
データインポート
Oracle Data Mininer を使った機械学習
機械学習に必要なオペレーションを
Oracle Database 上で実行し、かつ
データの加工やパラメータ設定を自動
で行うため、工数を大きく削減可能
Copyright © 2018, Oracle and/or its affiliates. All rights reserved. | 1313
Oracle Data Miner の特徴 – 工数削減②
Client Server
①アルゴリズムの移動
①データの移動
② アルゴリズムの実行
①データの移動
② アルゴリズムの実行
Data Miner
従来のツール
Copyright © 2018, Oracle and/or its affiliates. All rights reserved. | 1414
Oracle Data Miner の特徴 – 簡易な操作
各工程ごとにアイコンを
ドラッグ & ドロップ で配置し
それを線で結ぶだけで
機械学習の一連のプロセスを実行可能
Copyright © 2018, Oracle and/or its affiliates. All rights reserved. | 1515
実装済アルゴリズム
アルゴリズム 応用範囲
分類
ロジスティクス回帰 (GLM)
決定木
ナイーブベイズ
サポートベクターマシン(SVM)
伝統的な統計テクニック
幅広い用途に利用可能
回帰
一般線形モデル (GLM)
サポートベクターマシン (SVM)
伝統的な統計テクニック
幅広い用途に利用可能
異常検出 One Class サポートベクターマシン 不正検知や異常値の検出
属性重要度
Minimum Description Length (因子分析の一種)
主成分分析(PCA)
属性の絞り込み、ノイズの低減
相関ルール Apriori(相関ルールマイニング) バスケット分析、事前の提案分析
クラスタリング
非階層クラスター分析(K平均法等)
階層クラスター分析(Hierarchical O-Cluster という
Oracle独自のクラスタリング・アルゴリズム)
非階層クラスター分析(EMアルゴリズム)
製品のグルーピング/ テキストマイニング
遺伝子-タンパク質分析
特徴抽出
非負値行列因子分解
特異値分解
テキスト分析 / 因子分析
A1 A2 A3 A4 A5 A6 A7
F1 F2 F3 F4
Copyright © 2018, Oracle and/or its affiliates. All rights reserved. | 1616
【Demo】Oracle Data Miner
シナリオ:保険会社の顧客データをもとに、保険を購入する/しないを自動的に分類する
分類
機械学習モデル
保険を購入する
購入しない家族情報、
クレジット情報、
顧客年数、
保険購入有無 等
保険会社の
顧客データ
Copyright © 2018, Oracle and/or its affiliates. All rights reserved. | 1717
【Demo】Oracle Data Miner
• サンプルとしてOracleが提供している保険データを使用する
列名 概要
CUSTOMER_ID 顧客ID
TIME_AS_CUSTOMER 顧客年数
LTV Life Time Value
LTV_BIN Life Time Valueのカテゴリ
BUY_INSURANCE 保険を購入したかどうか
CUSTOMER_ID 顧客ID
LAST 名
FIRST 姓
STATE 住んでいる州
REGION 地域
SEX 性別
PROFESSION 職業
AGE 年齢
HAS_CHILDREN 子供がいるかどうか
SALARY 給料
N_OF_DEPENDENTS 扶養家族の数
CAR_OWNERSHIP 車の所有者かどうか
HOUSE_OWNERSHIP 所有する家の数
INSUR_CUST_LTV_SAMPLE
列名 概要
MARITAL_STATUS 結婚暦
CREDIT_BALANCE 預金残高
BANK_FUNDS 銀行資金
CHECKING_AMOUNT 当座預金口座
MONEY_MONTLY_OVERDRAWN 月単位の超過借り金額
T_AMOUNT_AUTOM_PAYMENTS 自動引落金額
MONTHLY_CHECKS_WRITTEN 月単位のチェック
MORTGAGE_AMOUNT ローン額
N_TRANS_ATM ATMでの取引回数
N_MORTGAGES ローン回数
N_TRANS_TELLER 窓口での取引回数
CREDIT_CARD_LIMITS クレジットカードの限度額
N_TRANS_KIOSK KIOSKでの取引回数
N_TRANS_WEB_BANK WEBバンクでの取引回数
Copyright © 2018, Oracle and/or its affiliates. All rights reserved. | 1818
【Demo】Oracle Data Miner
• どのアルゴリズムを使うか?
– 「BUY_INSURANCE」という正解(ラベル)データが存在しており、
結果は、保険を「購入する」or「購入しない」の2カテゴリに分けられるため、
学習アルゴリズムとして「分類」を使用する
分類
結果がカテゴリ
分けできるか
データの中に
ターゲットがあるか
異常検出
相関関係
クラスタリング
教師あり
学習
グループに分けたい
おかしなものを見つけたい
関係性の強いものを見つけたい
Yes
No
Yes
No
回帰分析
例:決定木、SVM、
ナイーブベイズ
例:一般線形モデル
例:K-means
例:One-class SVM
例:Apriori
教師なし
学習
Copyright © 2018, Oracle and/or its affiliates. All rights reserved. | 1919
DEMO
Copyright © 2018, Oracle and/or its affiliates. All rights reserved. | 2020
Oracle Data Miner チュートリアル
• Slideshare
– Oracle Data Miner Tutorial 01 「Data Minerのセットアップ」
• http://www.slideshare.net/oracle4engineer/data-miner-tutorial-01
– Oracle Data Miner Tutorial 02「分類モデルによる予測」
• http://www.slideshare.net/oracle4engineer/data-miner-tutorial-02
– Oracle Data Miner Tutorial 03 「表データの加工とモデル構築」
• http://www.slideshare.net/oracle4engineer/data-miner-tutorial-03
• Github
– https://github.com/oracle4engineer/advanced-analytics/wiki
Copyright © 2018, Oracle and/or its affiliates. All rights reserved. | 2121
まとめ
• 機械学習は非常に魅力的だが、難しい
– プロジェクトの失敗リスク/求められる個人スキル・能力の高さ
• Oracle Data Miner は機械学習の難しさを緩和して、簡単かつ高速に Oracle Database 上で
機械学習を実施できる
– 工数削減/容易な操作
Oracle Data Miner で機械学習を始めよう!
Copyright © 2018, Oracle and/or its affiliates. All rights reserved. | 2222
Oracle Data Miner で始める簡単・高速な機械学習

More Related Content

Similar to Oracle Data Miner で始める簡単・高速な機械学習

Oracle advanced analyticsによる機械学習full version
Oracle advanced analyticsによる機械学習full versionOracle advanced analyticsによる機械学習full version
Oracle advanced analyticsによる機械学習full version幹雄 小川
 
Struggling with BIGDATA -リクルートおけるデータサイエンス/エンジニアリング-
Struggling with BIGDATA -リクルートおけるデータサイエンス/エンジニアリング-Struggling with BIGDATA -リクルートおけるデータサイエンス/エンジニアリング-
Struggling with BIGDATA -リクルートおけるデータサイエンス/エンジニアリング-Recruit Technologies
 
How to organize data science project (データサイエンスプロジェクトの始め方101)
How to organize data science project (データサイエンスプロジェクトの始め方101)How to organize data science project (データサイエンスプロジェクトの始め方101)
How to organize data science project (データサイエンスプロジェクトの始め方101)Yasuyuki Kataoka
 
Oracle Cloudでエンタープライズシステムを!
Oracle Cloudでエンタープライズシステムを!Oracle Cloudでエンタープライズシステムを!
Oracle Cloudでエンタープライズシステムを!oracle_consultant
 
あなたはどうデータを守る?クラウド・AI・自動化を使った、みえない脅威との戦い方
あなたはどうデータを守る?クラウド・AI・自動化を使った、みえない脅威との戦い方あなたはどうデータを守る?クラウド・AI・自動化を使った、みえない脅威との戦い方
あなたはどうデータを守る?クラウド・AI・自動化を使った、みえない脅威との戦い方オラクルエンジニア通信
 
リクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアル
リクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアルリクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアル
リクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアルRecruit Technologies
 
[Modern Cloud Day Tokyo 2019] 【ビジネスをさらに加速させる!!】Oracle Cloud を活用したデータドリブン ユースケ...
[Modern Cloud Day Tokyo 2019] 【ビジネスをさらに加速させる!!】Oracle Cloud を活用したデータドリブン ユースケ...[Modern Cloud Day Tokyo 2019] 【ビジネスをさらに加速させる!!】Oracle Cloud を活用したデータドリブン ユースケ...
[Modern Cloud Day Tokyo 2019] 【ビジネスをさらに加速させる!!】Oracle Cloud を活用したデータドリブン ユースケ...オラクルエンジニア通信
 
研修会社に頼れない!?人材開発の5つの難問を解く~マイクロラーニング×アナログで研修の死角が埋まる~
研修会社に頼れない!?人材開発の5つの難問を解く~マイクロラーニング×アナログで研修の死角が埋まる~研修会社に頼れない!?人材開発の5つの難問を解く~マイクロラーニング×アナログで研修の死角が埋まる~
研修会社に頼れない!?人材開発の5つの難問を解く~マイクロラーニング×アナログで研修の死角が埋まる~kojitakahashi
 
Developers Summit 2018: ストリームとバッチを融合したBigData Analytics ~事例とデモから見えてくる、これからのデー...
Developers Summit 2018: ストリームとバッチを融合したBigData Analytics ~事例とデモから見えてくる、これからのデー...Developers Summit 2018: ストリームとバッチを融合したBigData Analytics ~事例とデモから見えてくる、これからのデー...
Developers Summit 2018: ストリームとバッチを融合したBigData Analytics ~事例とデモから見えてくる、これからのデー...オラクルエンジニア通信
 
A3RT - the details and actual use cases of "Analytics & Artificial intelligen...
A3RT - the details and actual use cases of "Analytics & Artificial intelligen...A3RT - the details and actual use cases of "Analytics & Artificial intelligen...
A3RT - the details and actual use cases of "Analytics & Artificial intelligen...DataWorks Summit/Hadoop Summit
 
A3RT -The details and actual use cases of“Analytics & Artificial intelligence...
A3RT -The details and actual use cases of“Analytics & Artificial intelligence...A3RT -The details and actual use cases of“Analytics & Artificial intelligence...
A3RT -The details and actual use cases of“Analytics & Artificial intelligence...Recruit Technologies
 
Oracle Cloud PaaS & IaaS:2018年11月度サービス情報アップデート
Oracle Cloud PaaS & IaaS:2018年11月度サービス情報アップデートOracle Cloud PaaS & IaaS:2018年11月度サービス情報アップデート
Oracle Cloud PaaS & IaaS:2018年11月度サービス情報アップデートオラクルエンジニア通信
 
【2017年5月時点】セルフサービスBIからエンタープライズまで展開できるOracle Business Analytics クラウドプラットフォームのご紹介
【2017年5月時点】セルフサービスBIからエンタープライズまで展開できるOracle Business Analytics クラウドプラットフォームのご紹介【2017年5月時点】セルフサービスBIからエンタープライズまで展開できるOracle Business Analytics クラウドプラットフォームのご紹介
【2017年5月時点】セルフサービスBIからエンタープライズまで展開できるOracle Business Analytics クラウドプラットフォームのご紹介オラクルエンジニア通信
 
タクシー×AIを支えるKubernetesとAIデータパイプラインの信頼性の取り組みについて
タクシー×AIを支えるKubernetesとAIデータパイプラインの信頼性の取り組みについてタクシー×AIを支えるKubernetesとAIデータパイプラインの信頼性の取り組みについて
タクシー×AIを支えるKubernetesとAIデータパイプラインの信頼性の取り組みについてTakashi Suzuki
 
機械学習システムのアーキテクチャアラカルト
機械学習システムのアーキテクチャアラカルト機械学習システムのアーキテクチャアラカルト
機械学習システムのアーキテクチャアラカルトBrainPad Inc.
 
<インフラ管理者向け>チームでのAI開発を支援するAI開発プラットフォームKAMONOHASHI
<インフラ管理者向け>チームでのAI開発を支援するAI開発プラットフォームKAMONOHASHI<インフラ管理者向け>チームでのAI開発を支援するAI開発プラットフォームKAMONOHASHI
<インフラ管理者向け>チームでのAI開発を支援するAI開発プラットフォームKAMONOHASHIKamonohashi
 
タクシーxAIを支えるKubernetesとAIデータパイプラインの信頼性の取り組みについて [SRE NEXT 2020]
タクシーxAIを支えるKubernetesとAIデータパイプラインの信頼性の取り組みについて [SRE NEXT 2020]タクシーxAIを支えるKubernetesとAIデータパイプラインの信頼性の取り組みについて [SRE NEXT 2020]
タクシーxAIを支えるKubernetesとAIデータパイプラインの信頼性の取り組みについて [SRE NEXT 2020]DeNA
 
AIを活用した交通事故削減支援サービスでのテスト自動化
AIを活用した交通事故削減支援サービスでのテスト自動化AIを活用した交通事故削減支援サービスでのテスト自動化
AIを活用した交通事故削減支援サービスでのテスト自動化Shota Suzuki
 

Similar to Oracle Data Miner で始める簡単・高速な機械学習 (20)

Oracle advanced analyticsによる機械学習full version
Oracle advanced analyticsによる機械学習full versionOracle advanced analyticsによる機械学習full version
Oracle advanced analyticsによる機械学習full version
 
Struggling with BIGDATA -リクルートおけるデータサイエンス/エンジニアリング-
Struggling with BIGDATA -リクルートおけるデータサイエンス/エンジニアリング-Struggling with BIGDATA -リクルートおけるデータサイエンス/エンジニアリング-
Struggling with BIGDATA -リクルートおけるデータサイエンス/エンジニアリング-
 
How to organize data science project (データサイエンスプロジェクトの始め方101)
How to organize data science project (データサイエンスプロジェクトの始め方101)How to organize data science project (データサイエンスプロジェクトの始め方101)
How to organize data science project (データサイエンスプロジェクトの始め方101)
 
Oracle Cloudでエンタープライズシステムを!
Oracle Cloudでエンタープライズシステムを!Oracle Cloudでエンタープライズシステムを!
Oracle Cloudでエンタープライズシステムを!
 
あなたはどうデータを守る?クラウド・AI・自動化を使った、みえない脅威との戦い方
あなたはどうデータを守る?クラウド・AI・自動化を使った、みえない脅威との戦い方あなたはどうデータを守る?クラウド・AI・自動化を使った、みえない脅威との戦い方
あなたはどうデータを守る?クラウド・AI・自動化を使った、みえない脅威との戦い方
 
リクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアル
リクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアルリクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアル
リクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアル
 
[Modern Cloud Day Tokyo 2019] 【ビジネスをさらに加速させる!!】Oracle Cloud を活用したデータドリブン ユースケ...
[Modern Cloud Day Tokyo 2019] 【ビジネスをさらに加速させる!!】Oracle Cloud を活用したデータドリブン ユースケ...[Modern Cloud Day Tokyo 2019] 【ビジネスをさらに加速させる!!】Oracle Cloud を活用したデータドリブン ユースケ...
[Modern Cloud Day Tokyo 2019] 【ビジネスをさらに加速させる!!】Oracle Cloud を活用したデータドリブン ユースケ...
 
研修会社に頼れない!?人材開発の5つの難問を解く~マイクロラーニング×アナログで研修の死角が埋まる~
研修会社に頼れない!?人材開発の5つの難問を解く~マイクロラーニング×アナログで研修の死角が埋まる~研修会社に頼れない!?人材開発の5つの難問を解く~マイクロラーニング×アナログで研修の死角が埋まる~
研修会社に頼れない!?人材開発の5つの難問を解く~マイクロラーニング×アナログで研修の死角が埋まる~
 
Developers Summit 2018: ストリームとバッチを融合したBigData Analytics ~事例とデモから見えてくる、これからのデー...
Developers Summit 2018: ストリームとバッチを融合したBigData Analytics ~事例とデモから見えてくる、これからのデー...Developers Summit 2018: ストリームとバッチを融合したBigData Analytics ~事例とデモから見えてくる、これからのデー...
Developers Summit 2018: ストリームとバッチを融合したBigData Analytics ~事例とデモから見えてくる、これからのデー...
 
DLL製造分科会からの告知
DLL製造分科会からの告知DLL製造分科会からの告知
DLL製造分科会からの告知
 
A3RT - the details and actual use cases of "Analytics & Artificial intelligen...
A3RT - the details and actual use cases of "Analytics & Artificial intelligen...A3RT - the details and actual use cases of "Analytics & Artificial intelligen...
A3RT - the details and actual use cases of "Analytics & Artificial intelligen...
 
A3RT -The details and actual use cases of“Analytics & Artificial intelligence...
A3RT -The details and actual use cases of“Analytics & Artificial intelligence...A3RT -The details and actual use cases of“Analytics & Artificial intelligence...
A3RT -The details and actual use cases of“Analytics & Artificial intelligence...
 
Oracle Cloud PaaS & IaaS:2018年11月度サービス情報アップデート
Oracle Cloud PaaS & IaaS:2018年11月度サービス情報アップデートOracle Cloud PaaS & IaaS:2018年11月度サービス情報アップデート
Oracle Cloud PaaS & IaaS:2018年11月度サービス情報アップデート
 
【2017年5月時点】セルフサービスBIからエンタープライズまで展開できるOracle Business Analytics クラウドプラットフォームのご紹介
【2017年5月時点】セルフサービスBIからエンタープライズまで展開できるOracle Business Analytics クラウドプラットフォームのご紹介【2017年5月時点】セルフサービスBIからエンタープライズまで展開できるOracle Business Analytics クラウドプラットフォームのご紹介
【2017年5月時点】セルフサービスBIからエンタープライズまで展開できるOracle Business Analytics クラウドプラットフォームのご紹介
 
Oracle APEX概要
Oracle APEX概要Oracle APEX概要
Oracle APEX概要
 
タクシー×AIを支えるKubernetesとAIデータパイプラインの信頼性の取り組みについて
タクシー×AIを支えるKubernetesとAIデータパイプラインの信頼性の取り組みについてタクシー×AIを支えるKubernetesとAIデータパイプラインの信頼性の取り組みについて
タクシー×AIを支えるKubernetesとAIデータパイプラインの信頼性の取り組みについて
 
機械学習システムのアーキテクチャアラカルト
機械学習システムのアーキテクチャアラカルト機械学習システムのアーキテクチャアラカルト
機械学習システムのアーキテクチャアラカルト
 
<インフラ管理者向け>チームでのAI開発を支援するAI開発プラットフォームKAMONOHASHI
<インフラ管理者向け>チームでのAI開発を支援するAI開発プラットフォームKAMONOHASHI<インフラ管理者向け>チームでのAI開発を支援するAI開発プラットフォームKAMONOHASHI
<インフラ管理者向け>チームでのAI開発を支援するAI開発プラットフォームKAMONOHASHI
 
タクシーxAIを支えるKubernetesとAIデータパイプラインの信頼性の取り組みについて [SRE NEXT 2020]
タクシーxAIを支えるKubernetesとAIデータパイプラインの信頼性の取り組みについて [SRE NEXT 2020]タクシーxAIを支えるKubernetesとAIデータパイプラインの信頼性の取り組みについて [SRE NEXT 2020]
タクシーxAIを支えるKubernetesとAIデータパイプラインの信頼性の取り組みについて [SRE NEXT 2020]
 
AIを活用した交通事故削減支援サービスでのテスト自動化
AIを活用した交通事故削減支援サービスでのテスト自動化AIを活用した交通事故削減支援サービスでのテスト自動化
AIを活用した交通事故削減支援サービスでのテスト自動化
 

Oracle Data Miner で始める簡単・高速な機械学習

  • 1. Copyright © 2018, Oracle and/or its affiliates. All rights reserved. | まだ機械学習で消耗しているの? Oracle Data Miner で始める 簡単・高速な機械学習 コンサルと学ぶ! Oracle最新技術 #1 2018年4月18日 日本オラクル株式会社
  • 2. Copyright © 2018, Oracle and/or its affiliates. All rights reserved. | 22 自己紹介 >>> teacher.name “玉越 敬典 (たまこし ひろのり)” >>> teacher.job.title “スタッフコンサルタント” >>> teacher.beloinging “インフォーメーションアーキテクト部第二” >>> teacher.description() ・ BigData/Analytics領域の案件に携さわるコンサルタント ・ 関心のある技術領域は、Spatial&Graph, 分散処理基盤, DeepLearning Oracle
  • 3. Copyright © 2018, Oracle and/or its affiliates. All rights reserved. | 33 • Oracle Data Miner で機械学習をやることへの興味を持つ TODAY’S GOAL:
  • 4. Copyright © 2018, Oracle and/or its affiliates. All rights reserved. | 44 Oracle Autonomous Database Autonomous Database 自動稼働 自動保護 自動修復 “この自律型データベース・クラウドは、 適応型機械学習を組み込み、人の介入を必要としない 自動稼動、自動チューニング、自動修復、 自動スケーリングおよび自動保護管理を提供する” (引用) https://www.oracle.com/jp/database/autonomous- database/index.html)
  • 5. Copyright © 2018, Oracle and/or its affiliates. All rights reserved. | 55 機械学習とは “Machine Learning: field of study that gives computers the ability to learn without being explicitly programmed” -- Arthur Samuel, 1959 “機械学習: コンピュータに明示的にプログラムされていなくても学習する能力 を与える研究分野”
  • 6. Copyright © 2018, Oracle and/or its affiliates. All rights reserved. | 66 機械学習とは - 具体例 顧客データ(性別や購入履歴等)から、その顧客が 優良顧客になりうるかを自動判別したい 顧客 ID 性別 年齢 職業 前月請求額 優良顧客 101 男性 31 会社員 10,000円 NO 102 女性 28 主婦 5,000円 YES 103 女性 36 主婦 200円 NO 104 男性 43 会社員 3,000円 NO 105 女性 22 会社員 7,000円 YES 過去顧客データ (学習データ) ルール: IF (前月請求額 >= 5000 AND 性別 = “女性”) THEN 優良顧客 = YES 確率 = 0.77 先月請求額 < 5000 円 >= 5000 円 性別 男性 女性 優良顧客 = YES 優良顧客 = NO 優良顧客 = NO 101 男性 31 会社員 10,000円 NO 102 女性 28 主婦 5,000円 YES 新規顧客データ (未知データ)
  • 7. Copyright © 2018, Oracle and/or its affiliates. All rights reserved. | 77 一般的な機械学習プロジェクトの流れ (CRISP-DM) CRISP-DM: データ分析プロジェクトのプロセスモデル (CRoss-Industry Standard Process for Data Miningの略) 機械学習プロジェクトでは、 WaterFall 型のアプローチは 実質不可能
  • 8. Copyright © 2018, Oracle and/or its affiliates. All rights reserved. | 88 機械学習の困難さ 必ずしも精度が出るとは限らない データ分析における機械学習の向き不向き 技術的負債のたまりやすさ プロジェクト観点 個人スキル観点 必要となる知識や能力が多い
  • 9. Copyright © 2018, Oracle and/or its affiliates. All rights reserved. | 99 機械学習の困難さ(プロジェクト観点): 機械学習の向き不向き • 全ての目的が機械学習に向いているわけではない – 顧客からの「機械学習・AIで何かやれ」は要注意 • 以下のようなケースが機械学習に向いている 大量データが存在している 機械的に判定するロジック を組む必要性がある (正解を算出可能な場合で) 10 ~ 20% ほどの誤りを 許容できる 正解 誤り
  • 10. Copyright © 2018, Oracle and/or its affiliates. All rights reserved. | 1010 Oracle Data Miner とは Oracle Data Miner • 必ずしも精度が出るとは限らない • データ分析における機械学習の 向き不向き • 技術的負債のたまりやすさ • 必要となる知識や能力が多い Problem プ ロ ジ ェ ク ト 観 点 個 人 ス キ ル 観 点 工数削減 以下の工数を削減 ・データの移動 ・データの加工/パラメータ設定負債 のたまりやすさ 簡易な操作 ・ GUI でドラッグ&ドロップで データの理解/データの準備/ モデル構築/学習/評価 までの 一連のプロセスを実施可能
  • 11. Copyright © 2018, Oracle and/or its affiliates. All rights reserved. | 1111 Oracle Data Miner とは Oracle Database 上で機械学習を 実施できる GUI ツール (SQL Developer の拡張)
  • 12. Copyright © 2018, Oracle and/or its affiliates. All rights reserved. | 1212 Oracle Data Miner の特徴 – 工数削減① 工数削減 通常の機械学習 データの抽出 データの準備&加工 機械学習モデルの 構築 機械学習モデルの 評価 データの移動 データインポート Oracle Data Mininer を使った機械学習 機械学習に必要なオペレーションを Oracle Database 上で実行し、かつ データの加工やパラメータ設定を自動 で行うため、工数を大きく削減可能
  • 13. Copyright © 2018, Oracle and/or its affiliates. All rights reserved. | 1313 Oracle Data Miner の特徴 – 工数削減② Client Server ①アルゴリズムの移動 ①データの移動 ② アルゴリズムの実行 ①データの移動 ② アルゴリズムの実行 Data Miner 従来のツール
  • 14. Copyright © 2018, Oracle and/or its affiliates. All rights reserved. | 1414 Oracle Data Miner の特徴 – 簡易な操作 各工程ごとにアイコンを ドラッグ & ドロップ で配置し それを線で結ぶだけで 機械学習の一連のプロセスを実行可能
  • 15. Copyright © 2018, Oracle and/or its affiliates. All rights reserved. | 1515 実装済アルゴリズム アルゴリズム 応用範囲 分類 ロジスティクス回帰 (GLM) 決定木 ナイーブベイズ サポートベクターマシン(SVM) 伝統的な統計テクニック 幅広い用途に利用可能 回帰 一般線形モデル (GLM) サポートベクターマシン (SVM) 伝統的な統計テクニック 幅広い用途に利用可能 異常検出 One Class サポートベクターマシン 不正検知や異常値の検出 属性重要度 Minimum Description Length (因子分析の一種) 主成分分析(PCA) 属性の絞り込み、ノイズの低減 相関ルール Apriori(相関ルールマイニング) バスケット分析、事前の提案分析 クラスタリング 非階層クラスター分析(K平均法等) 階層クラスター分析(Hierarchical O-Cluster という Oracle独自のクラスタリング・アルゴリズム) 非階層クラスター分析(EMアルゴリズム) 製品のグルーピング/ テキストマイニング 遺伝子-タンパク質分析 特徴抽出 非負値行列因子分解 特異値分解 テキスト分析 / 因子分析 A1 A2 A3 A4 A5 A6 A7 F1 F2 F3 F4
  • 16. Copyright © 2018, Oracle and/or its affiliates. All rights reserved. | 1616 【Demo】Oracle Data Miner シナリオ:保険会社の顧客データをもとに、保険を購入する/しないを自動的に分類する 分類 機械学習モデル 保険を購入する 購入しない家族情報、 クレジット情報、 顧客年数、 保険購入有無 等 保険会社の 顧客データ
  • 17. Copyright © 2018, Oracle and/or its affiliates. All rights reserved. | 1717 【Demo】Oracle Data Miner • サンプルとしてOracleが提供している保険データを使用する 列名 概要 CUSTOMER_ID 顧客ID TIME_AS_CUSTOMER 顧客年数 LTV Life Time Value LTV_BIN Life Time Valueのカテゴリ BUY_INSURANCE 保険を購入したかどうか CUSTOMER_ID 顧客ID LAST 名 FIRST 姓 STATE 住んでいる州 REGION 地域 SEX 性別 PROFESSION 職業 AGE 年齢 HAS_CHILDREN 子供がいるかどうか SALARY 給料 N_OF_DEPENDENTS 扶養家族の数 CAR_OWNERSHIP 車の所有者かどうか HOUSE_OWNERSHIP 所有する家の数 INSUR_CUST_LTV_SAMPLE 列名 概要 MARITAL_STATUS 結婚暦 CREDIT_BALANCE 預金残高 BANK_FUNDS 銀行資金 CHECKING_AMOUNT 当座預金口座 MONEY_MONTLY_OVERDRAWN 月単位の超過借り金額 T_AMOUNT_AUTOM_PAYMENTS 自動引落金額 MONTHLY_CHECKS_WRITTEN 月単位のチェック MORTGAGE_AMOUNT ローン額 N_TRANS_ATM ATMでの取引回数 N_MORTGAGES ローン回数 N_TRANS_TELLER 窓口での取引回数 CREDIT_CARD_LIMITS クレジットカードの限度額 N_TRANS_KIOSK KIOSKでの取引回数 N_TRANS_WEB_BANK WEBバンクでの取引回数
  • 18. Copyright © 2018, Oracle and/or its affiliates. All rights reserved. | 1818 【Demo】Oracle Data Miner • どのアルゴリズムを使うか? – 「BUY_INSURANCE」という正解(ラベル)データが存在しており、 結果は、保険を「購入する」or「購入しない」の2カテゴリに分けられるため、 学習アルゴリズムとして「分類」を使用する 分類 結果がカテゴリ 分けできるか データの中に ターゲットがあるか 異常検出 相関関係 クラスタリング 教師あり 学習 グループに分けたい おかしなものを見つけたい 関係性の強いものを見つけたい Yes No Yes No 回帰分析 例:決定木、SVM、 ナイーブベイズ 例:一般線形モデル 例:K-means 例:One-class SVM 例:Apriori 教師なし 学習
  • 19. Copyright © 2018, Oracle and/or its affiliates. All rights reserved. | 1919 DEMO
  • 20. Copyright © 2018, Oracle and/or its affiliates. All rights reserved. | 2020 Oracle Data Miner チュートリアル • Slideshare – Oracle Data Miner Tutorial 01 「Data Minerのセットアップ」 • http://www.slideshare.net/oracle4engineer/data-miner-tutorial-01 – Oracle Data Miner Tutorial 02「分類モデルによる予測」 • http://www.slideshare.net/oracle4engineer/data-miner-tutorial-02 – Oracle Data Miner Tutorial 03 「表データの加工とモデル構築」 • http://www.slideshare.net/oracle4engineer/data-miner-tutorial-03 • Github – https://github.com/oracle4engineer/advanced-analytics/wiki
  • 21. Copyright © 2018, Oracle and/or its affiliates. All rights reserved. | 2121 まとめ • 機械学習は非常に魅力的だが、難しい – プロジェクトの失敗リスク/求められる個人スキル・能力の高さ • Oracle Data Miner は機械学習の難しさを緩和して、簡単かつ高速に Oracle Database 上で 機械学習を実施できる – 工数削減/容易な操作 Oracle Data Miner で機械学習を始めよう!
  • 22. Copyright © 2018, Oracle and/or its affiliates. All rights reserved. | 2222