Diese Präsentation wurde erfolgreich gemeldet.
Wir verwenden Ihre LinkedIn Profilangaben und Informationen zu Ihren Aktivitäten, um Anzeigen zu personalisieren und Ihnen relevantere Inhalte anzuzeigen. Sie können Ihre Anzeigeneinstellungen jederzeit ändern.

エススタ 機械学習のキホン

1.193 Aufrufe

Veröffentlicht am

de:code 2017 の機械学習セッションです。機械学習の基礎をしっかりと説明します。

Veröffentlicht in: Technologie
  • Login to see the comments

エススタ 機械学習のキホン

  1. 1. 2 + 3 = 5
  2. 2. 2 + 3 = 5 簡単 大変…
  3. 3. 2 + 3 = 5 簡単 大変…
  4. 4. それぞれの写真: 猫? Yes/No
  5. 5. Program = Algorithm 人が書く タスクの仕様の定義 アルゴリズムは固定 アルゴリズムは容易に説明できる ソフトウェアが書く 目的: 汎化 アルゴリズムはデータに依存 アルゴリズムは時間とともに変わる
  6. 6. データの中のパターンを、 コンピューターに 探させる (=学習させる)
  7. 7. 天気 気温 風 試合をしたか? 晴れ 低い ある Yes 晴れ 高い ある No 晴れ 高い なし No 曇り 低い ある Yes 曇り 高い なし Yes 曇り 低い なし Yes 雨 低い ある No 雨 低い なし Yes 晴れ 低い なし ?
  8. 8. 天気 気温 風 試合をしたか? 晴れ 低い ある Yes 晴れ 高い ある No 晴れ 高い なし No 曇り 低い ある Yes 曇り 高い なし Yes 曇り 低い なし Yes 雨 低い ある No 雨 低い なし Yes 晴れ 低い なし ? Yes Yes Yes 晴れ 曇り 雨 低い 高い なし ある
  9. 9. Two-Crass Boosted Decision Tree というアルゴリズムを選択した場合… どの “列” が 何の “値” だったら 妥当なのかを 選んでくれる! 複数の “Model” を 作ってくれる! (個数の指定が可能)
  10. 10. データ分割後の、 件数 “Model” と比較!
  11. 11. Input data Data Transformation Train Model Algorithm Split Data Score Model Evaluate Model
  12. 12. https://docs.microsoft.com/ja-jp/azure/machine-learning/machine-learning- algorithm-choice
  13. 13. http://aka.ms/MLCheatSheet 「“50K” から上か下か?」 つまり… 2つに「分類」 するので…
  14. 14. 数値予測 回帰分析 Regression ・売上予測 ・需要予測 ・品質管理 ラベル予測 分類 Classification ・不良品分析 ・故障予測 ・チャーン分析 ・販促効果測定 ・与信分析 データ分類 クラスタリング Clustering ・セグメンテーション ・顧客グルーピング ・メール キャンペーン
  15. 15. Goal: 値を予測する ゴールの例: 何個
  16. 16. • 車の各種情報 価格
  17. 17. Goal: 分類を予測する ゴールの例: 不正か Class 1 Class 2 2つ以上でも良い
  18. 18. 「不良種類(成功含む)」を 予測する分析器を作成
  19. 19. Goal: 構造を理解する ゴールの例: 顧客セグメント Cluster 1 Cluster 2 Cluster 3
  20. 20. 教師なし学習 がく片の幅 がく片の長さ データの類似性から 2種類に分類する
  21. 21. セトナ バージニカ がく片の幅 がく片の長さ
  22. 22. 天気 気温 風 場所 試合をしたか? 晴れ 25 ある さいたま Yes 晴れ 27 ある さいたま Yes 晴れ 高い 10 東京 No 曇り 5 ある 千葉 No 雨 低い なし 神奈川 No
  23. 23. トレーニング用データセット Features Target Value データ処理 データ処理のためのモジュール 1) Raw Data ロード 2) トレーニング 用の データ作成 Data 2 Data 1 Data N . . . 100011010011 110111110110
  24. 24. 陥りやすい罠
  25. 25. 線 https://docs.microsoft.com/ja-jp/azure/machine-learning/machine-learning-algorithm-choice
  26. 26. • 訓練用 過学習 適合しなさすぎ (Underfitting) × × × × × × × × × × × × × × × × × × ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ × × × × × × × × × × × × × × × × × × ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ × × × × × × × × × × × × × × × × × × ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ちょうど良い 適合しすぎ (過学習:Overfitting)
  27. 27. データ量 データ項目(特徴)の数 データ項目(特徴)の数
  28. 28. Deep Learning 画像解析, 音声認識, 自動生成 機械学習 ラベル分類, 数値予測, データ分類 深層強化学習 自立学習型ロボット 自動運転車
  29. 29. 重 み づ け 更 新 重 み づ け 更 新 重 み づ け 更 新 Cat Dog
  30. 30. • 畳み込み プーリング 画像の特徴を自動抽出 畳み込み プーリング 畳み込み プーリング 全結合層 出力入力 犬 (0.01) 猫 (0.04) ボート(0.94) 鳥 (0.01) ガウシアンフィルタの様な処理をして特徴を自動抽出する層
  31. 31. 統計理論に基づいている 理論に基づいているわけでない 計算量が膨大 爆発的に良い分析精度がでる 計算量の大きい深層学習は敷居が非常に高い
  32. 32. • コア数 行列計算 64bitもいらない
  33. 33. 機械学習 Deep Learning 深層強化学習 画像解析 音声解析 データ分類 異常検知, 顧客グルーピング 数値予測 売上予測, 需要予測, 品質管理 ラベル分類 不良品分析, 故障予測, チャーン分析 機械学習より強力な分析 自律学習型ロボット 自動運転車 テキストや画像等の自動生成 活用例 主に多層のニューラルネットワーク を用いた手法での分析 分析のためには、莫大なデータ量、 計算量、知識・スキルを要する 統計に基づいた手法での分析 そのため、比較的少ないデータ量と 計算量で分析を行うことができる 定義したあるべき姿に従い試行錯誤 をして自ら学習を行うための 分析手法である強化学習と、 深層学習を組み合わせた分析 Azure Machine Learning Cognitive Toolkit / GPU Instance (N-Series) マイクロソフトが提供する技術 機械学習の世界
  34. 34. 機械学習を行うのに必要なもの 大量の データ データ に対する 知見 データ分析 の 知識・経験 データ分析 ツール・ 基盤 × × × 分析用の大量のデータを 保持できる 分析用データの意味を 理解できる 分析内容やデータに適した アルゴリズムを 選択できる 大量データを分析できる ツールを持ち、 使いこなせる 最も重要
  35. 35. https://docs.com/cloudcamp/7472/ azure-developer-cloud-camp
  36. 36. © 2017 Microsoft Corporation. All rights reserved. 本情報の内容(添付文書、リンク先などを含む)は、作成日時点でのものであり、予告なく変更される場合があります。

×