Suche senden
Hochladen
決定木学習
•
44 gefällt mir
•
181,344 views
Mitsuo Shimohata
Folgen
Daten & Analysen
Melden
Teilen
Melden
Teilen
1 von 21
Jetzt herunterladen
Downloaden Sie, um offline zu lesen
Empfohlen
最適輸送入門
最適輸送入門
joisino
不均衡データのクラス分類
不均衡データのクラス分類
Shintaro Fukushima
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
tmtm otm
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
RyuichiKanoh
Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2
Kota Matsui
数学で解き明かす深層学習の原理
数学で解き明かす深層学習の原理
Taiji Suzuki
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門
tmtm otm
Active Learning 入門
Active Learning 入門
Shuyo Nakatani
Empfohlen
最適輸送入門
最適輸送入門
joisino
不均衡データのクラス分類
不均衡データのクラス分類
Shintaro Fukushima
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
tmtm otm
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
RyuichiKanoh
Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2
Kota Matsui
数学で解き明かす深層学習の原理
数学で解き明かす深層学習の原理
Taiji Suzuki
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門
tmtm otm
Active Learning 入門
Active Learning 入門
Shuyo Nakatani
正準相関分析
正準相関分析
Akisato Kimura
ドメイン適応の原理と応用
ドメイン適応の原理と応用
Yoshitaka Ushiku
Optimizer入門&最新動向
Optimizer入門&最新動向
Motokawa Tetsuya
[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?
Deep Learning JP
[DL輪読会]GANとエネルギーベースモデル
[DL輪読会]GANとエネルギーベースモデル
Deep Learning JP
統計的因果推論への招待 -因果構造探索を中心に-
統計的因果推論への招待 -因果構造探索を中心に-
Shiga University, RIKEN
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII
PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説
弘毅 露崎
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder
Sho Tatsuno
深層生成モデルを用いたマルチモーダル学習
深層生成モデルを用いたマルチモーダル学習
Masahiro Suzuki
画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ
cvpaper. challenge
異常検知と変化検知 9章 部分空間法による変化点検知
異常検知と変化検知 9章 部分空間法による変化点検知
hagino 3000
深層学習の数理
深層学習の数理
Taiji Suzuki
分散学習のあれこれ~データパラレルからモデルパラレルまで~
分散学習のあれこれ~データパラレルからモデルパラレルまで~
Hideki Tsunashima
Bayesian Neural Networks : Survey
Bayesian Neural Networks : Survey
tmtm otm
距離とクラスタリング
距離とクラスタリング
大貴 末廣
変分ベイズ法の説明
変分ベイズ法の説明
Haruka Ozaki
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法について
Sho Takase
【DL輪読会】Domain Generalization by Learning and Removing Domainspecific Features
【DL輪読会】Domain Generalization by Learning and Removing Domainspecific Features
Deep Learning JP
データサイエンス概論第一=2-1 データ間の距離と類似度
データサイエンス概論第一=2-1 データ間の距離と類似度
Seiichi Uchida
機会学習ハッカソン:ランダムフォレスト
機会学習ハッカソン:ランダムフォレスト
Teppei Baba
バンディットアルゴリズム入門と実践
バンディットアルゴリズム入門と実践
智之 村上
Weitere ähnliche Inhalte
Was ist angesagt?
正準相関分析
正準相関分析
Akisato Kimura
ドメイン適応の原理と応用
ドメイン適応の原理と応用
Yoshitaka Ushiku
Optimizer入門&最新動向
Optimizer入門&最新動向
Motokawa Tetsuya
[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?
Deep Learning JP
[DL輪読会]GANとエネルギーベースモデル
[DL輪読会]GANとエネルギーベースモデル
Deep Learning JP
統計的因果推論への招待 -因果構造探索を中心に-
統計的因果推論への招待 -因果構造探索を中心に-
Shiga University, RIKEN
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII
PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説
弘毅 露崎
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder
Sho Tatsuno
深層生成モデルを用いたマルチモーダル学習
深層生成モデルを用いたマルチモーダル学習
Masahiro Suzuki
画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ
cvpaper. challenge
異常検知と変化検知 9章 部分空間法による変化点検知
異常検知と変化検知 9章 部分空間法による変化点検知
hagino 3000
深層学習の数理
深層学習の数理
Taiji Suzuki
分散学習のあれこれ~データパラレルからモデルパラレルまで~
分散学習のあれこれ~データパラレルからモデルパラレルまで~
Hideki Tsunashima
Bayesian Neural Networks : Survey
Bayesian Neural Networks : Survey
tmtm otm
距離とクラスタリング
距離とクラスタリング
大貴 末廣
変分ベイズ法の説明
変分ベイズ法の説明
Haruka Ozaki
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法について
Sho Takase
【DL輪読会】Domain Generalization by Learning and Removing Domainspecific Features
【DL輪読会】Domain Generalization by Learning and Removing Domainspecific Features
Deep Learning JP
データサイエンス概論第一=2-1 データ間の距離と類似度
データサイエンス概論第一=2-1 データ間の距離と類似度
Seiichi Uchida
Was ist angesagt?
(20)
正準相関分析
正準相関分析
ドメイン適応の原理と応用
ドメイン適応の原理と応用
Optimizer入門&最新動向
Optimizer入門&最新動向
[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]GANとエネルギーベースモデル
[DL輪読会]GANとエネルギーベースモデル
統計的因果推論への招待 -因果構造探索を中心に-
統計的因果推論への招待 -因果構造探索を中心に-
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder
深層生成モデルを用いたマルチモーダル学習
深層生成モデルを用いたマルチモーダル学習
画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ
異常検知と変化検知 9章 部分空間法による変化点検知
異常検知と変化検知 9章 部分空間法による変化点検知
深層学習の数理
深層学習の数理
分散学習のあれこれ~データパラレルからモデルパラレルまで~
分散学習のあれこれ~データパラレルからモデルパラレルまで~
Bayesian Neural Networks : Survey
Bayesian Neural Networks : Survey
距離とクラスタリング
距離とクラスタリング
変分ベイズ法の説明
変分ベイズ法の説明
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法について
【DL輪読会】Domain Generalization by Learning and Removing Domainspecific Features
【DL輪読会】Domain Generalization by Learning and Removing Domainspecific Features
データサイエンス概論第一=2-1 データ間の距離と類似度
データサイエンス概論第一=2-1 データ間の距離と類似度
Andere mochten auch
機会学習ハッカソン:ランダムフォレスト
機会学習ハッカソン:ランダムフォレスト
Teppei Baba
バンディットアルゴリズム入門と実践
バンディットアルゴリズム入門と実践
智之 村上
はじめてでもわかるベイズ分類器 -基礎からMahout実装まで-
はじめてでもわかるベイズ分類器 -基礎からMahout実装まで-
Naoki Yanai
今日から使える! みんなのクラスタリング超入門
今日から使える! みんなのクラスタリング超入門
toilet_lunch
SVMについて
SVMについて
mknh1122
パターン認識 第10章 決定木
パターン認識 第10章 決定木
Miyoshi Yuya
トピックモデルを用いた 潜在ファッション嗜好の推定
トピックモデルを用いた 潜在ファッション嗜好の推定
Takashi Kaneda
一般向けのDeep Learning
一般向けのDeep Learning
Preferred Networks
「はじめてでもわかる RandomForest 入門-集団学習による分類・予測 -」 -第7回データマイニング+WEB勉強会@東京
「はじめてでもわかる RandomForest 入門-集団学習による分類・予測 -」 -第7回データマイニング+WEB勉強会@東京
Koichi Hamada
ロジスティック回帰の考え方・使い方 - TokyoR #33
ロジスティック回帰の考え方・使い方 - TokyoR #33
horihorio
Simple perceptron by TJO
Simple perceptron by TJO
Takashi J OZAKI
Tokyo.R 41 サポートベクターマシンで眼鏡っ娘分類システム構築
Tokyo.R 41 サポートベクターマシンで眼鏡っ娘分類システム構築
Tatsuya Tojima
機械学習チュートリアル@Jubatus Casual Talks
機械学習チュートリアル@Jubatus Casual Talks
Yuya Unno
機械学習によるデータ分析まわりのお話
機械学習によるデータ分析まわりのお話
Ryota Kamoshida
Pythonとdeep learningで手書き文字認識
Pythonとdeep learningで手書き文字認識
Ken Morishita
scikit-learnを用いた機械学習チュートリアル
scikit-learnを用いた機械学習チュートリアル
敦志 金谷
Rによるデータサイエンス13「樹木モデル」
Rによるデータサイエンス13「樹木モデル」
Takeshi Mikami
Pythonで機械学習入門以前
Pythonで機械学習入門以前
Kimikazu Kato
ルールベースから機械学習への道 公開用
ルールベースから機械学習への道 公開用
nishio
30分でわかる『R』によるデータ分析|データアーティスト
30分でわかる『R』によるデータ分析|データアーティスト
Satoru Yamamoto
Andere mochten auch
(20)
機会学習ハッカソン:ランダムフォレスト
機会学習ハッカソン:ランダムフォレスト
バンディットアルゴリズム入門と実践
バンディットアルゴリズム入門と実践
はじめてでもわかるベイズ分類器 -基礎からMahout実装まで-
はじめてでもわかるベイズ分類器 -基礎からMahout実装まで-
今日から使える! みんなのクラスタリング超入門
今日から使える! みんなのクラスタリング超入門
SVMについて
SVMについて
パターン認識 第10章 決定木
パターン認識 第10章 決定木
トピックモデルを用いた 潜在ファッション嗜好の推定
トピックモデルを用いた 潜在ファッション嗜好の推定
一般向けのDeep Learning
一般向けのDeep Learning
「はじめてでもわかる RandomForest 入門-集団学習による分類・予測 -」 -第7回データマイニング+WEB勉強会@東京
「はじめてでもわかる RandomForest 入門-集団学習による分類・予測 -」 -第7回データマイニング+WEB勉強会@東京
ロジスティック回帰の考え方・使い方 - TokyoR #33
ロジスティック回帰の考え方・使い方 - TokyoR #33
Simple perceptron by TJO
Simple perceptron by TJO
Tokyo.R 41 サポートベクターマシンで眼鏡っ娘分類システム構築
Tokyo.R 41 サポートベクターマシンで眼鏡っ娘分類システム構築
機械学習チュートリアル@Jubatus Casual Talks
機械学習チュートリアル@Jubatus Casual Talks
機械学習によるデータ分析まわりのお話
機械学習によるデータ分析まわりのお話
Pythonとdeep learningで手書き文字認識
Pythonとdeep learningで手書き文字認識
scikit-learnを用いた機械学習チュートリアル
scikit-learnを用いた機械学習チュートリアル
Rによるデータサイエンス13「樹木モデル」
Rによるデータサイエンス13「樹木モデル」
Pythonで機械学習入門以前
Pythonで機械学習入門以前
ルールベースから機械学習への道 公開用
ルールベースから機械学習への道 公開用
30分でわかる『R』によるデータ分析|データアーティスト
30分でわかる『R』によるデータ分析|データアーティスト
Mehr von Mitsuo Shimohata
ハイブリッド型樹木法
ハイブリッド型樹木法
Mitsuo Shimohata
相関係数は傾きに影響される
相関係数は傾きに影響される
Mitsuo Shimohata
因子分析
因子分析
Mitsuo Shimohata
セイバーメトリクス
セイバーメトリクス
Mitsuo Shimohata
ワイン方程式
ワイン方程式
Mitsuo Shimohata
質的変数の相関・因子分析
質的変数の相関・因子分析
Mitsuo Shimohata
Mehr von Mitsuo Shimohata
(6)
ハイブリッド型樹木法
ハイブリッド型樹木法
相関係数は傾きに影響される
相関係数は傾きに影響される
因子分析
因子分析
セイバーメトリクス
セイバーメトリクス
ワイン方程式
ワイン方程式
質的変数の相関・因子分析
質的変数の相関・因子分析
決定木学習
1.
決定木学習 下畑光夫 2014.6.18
2.
決定木学習とは 目的変数と説明変数のデータから木構造の分類器を生成 トップダウンに、再帰的に、データを分割していく 2
3.
生成手順①: 分割 3 天気 気温
湿度 風 最初はデータ全体について 説明変数で様々な分割を試す 基本は2分割 晴れ 曇り 雨 強い 弱い18~29 65~96
4.
生成手順②: 分割基準 4 天気 気温
湿度 風 晴れ 曇り 雨 強い 弱い18~29 65~96 分割基準 対応ツール Information Gain C4.5 Gini係数 CART 検定統計量 CHAID 分割した2つのデータについて 右の指標のいずれかを計算し、 もっとも分類能力の高い分割を採用
5.
生成手順③: 再帰的分割 分割されたサブデータに対し、同じ分割処理を施していく
停止条件に達するまで分割を行う 多くの場合、木が育ちすぎるので、刈り込み(pruning)を行う 5 「晴れ」データだけに対して 分割処理 「雨」データだけに対して 分割処理
6.
Irisに決定木学習 6 Versicolor Virginica Setosa
7.
決定木学習の特徴 7 可読性が高い = 後編集も容易 説明、目的変数とも連続値、カテゴリ値、順序尺度を設定可能 データの分布の型を問わない 外れ値に対して頑健 長所 短所 分類性能が高い手法ではない
(SVMの方がよいといわれる) 木が過度に分岐することが多い = 過学習、オーバーフィッティング (学習設定や刈り込みが必要) データが少し変わるだけで全く違う木が生成されることがある(不安定) 線形性のあるデータには適していない XORの分類はできない ・・・ 2変数の同時利用ができない
8.
線形性のあるデータに決定木学習 8 ※ "cars"データにmvpartを適用 あまり適しているとはいえない・・・
9.
線形性があるデータは回帰モデルのほうが妥当 9 dist = 3.93
× speed - 17.6
10.
決定木学習はXORの分類が不能 10 XOR Y X x > 0
& y > 0 が表現できれば・・・
11.
決定木学習はよく使われている (1) 11 1 C4.5 2
K-Means 3 Support Vector Machine 4 Apriori 5 EM 6 PageRank 7 AdaBoost 8 kNN 9 Naive Bayes 10 CART IEEE ICDM, 2006 Data Miningで使われるTop10アルゴリズム 決定木学習は1位と10位に入っている
12.
決定木学習はよく使われている (2) 12http://www.kdnuggets.com/polls/2011/algorithms-analytics-data-mining.html
13.
例題 架空のテストマーケティング調査 (乱数で作成)
対象都市: 東京、大阪、高知 カテゴリ変数 対象年代: 20代, 30代, 40代, 50代, 60代 順序変数 対象性別: 男性、女性 カテゴリ変数 調査内容:「この商品を買いますか?」 ※ 東京で、女性で、若いほど買う傾向が高くなるように仕込み 有望なセグメントを判別したい 13
14.
各項目での買う・買わないの集計表 14 女性ほど買う 若いほど買う ・・・【論点】どの年代で2分するといいのか? 大都市ほど買う ・・・【論点】都市をどう2分するといいのか? 男性
女性 020406080 東京 大阪 高知 020406080 20代 30代 40代 50代 60代 020406080
15.
20代 30代 40代
50代 60代 020406080 「年代」での決定木(順序尺度) 15 20代,30代 40代,50代,60代 O 74/46 X 43/137 年代 20,30代と40,50,60代の2つに分けると 買う・買わないが最も偏るよう分類される
16.
東京 大阪 高知 020406080 「住所」での決定木(カテゴリ値) 16 O 67/33 X 50/150 住所 東京
高知,大阪 「東京」と「大阪、高知」の2つに分けると 買う・買わないが最も偏るよう分類される
17.
全項目の組み合わせでの買う・買わないを考える 17 購買傾向をORで結合すると・・・ 女性 or
20代 or 東京 広すぎ 購買傾向をANDで結合すると・・・ 女性 and 20代 and 東京 絞りすぎ・妥当? 男性 女性 020406080 東京 大阪 高知 020406080 20代 30代 40代 50代 60代020406080 ANDとORをどう組み合わせると有望セグメントが見つかるか?
18.
全変数を用いた決定木 18 女性 東京 東京 男性 高知,大阪 高知,大阪 O 53/7 O 26/4 X 12/48 O 22/8 X 0/20 X 4/96 性別 住所年代 年代住所 ① ③② ① 女性 &
20,30代 購入率:88.3% ② 女性 & 40,50,60代 & 東京 購入率:86.7% ③ 男性 & 東京&20,30,40代 購入率:73.3% 有望セグメント・・・(購入率 > 50%) 20代,30代 40代,50代,60代 20代,30代,40代 50代,60代
19.
発展編(1)・・・決定木学習+アンサンブル学習 多数の決定木を作成し、多数決や平均により結果を算出する ブースティング:
誤判定したデータを加重して次の決定木を作成。これを反復 ブートストラップ: データをサンプリングし、それぞれのデータから決定木を作成 性能向上+頑健性向上 19 ブートストラップ方式の RandomForestの概要図
20.
発展編(2) ・・・ハイブリッド型決定木 決定木学習と回帰分析の組み合わせ 20 ptratio p <
0.001 1 20.1 20.1 tax p < 0.001 2 265 265 Node 3 (n = 84) 3.1 9.3 1 54 Node 4 (n = 226) 3.1 9.3 1 54 nox p < 0.001 5 0.668 0.668 Node 6 (n = 111) 3.1 9.3 1 54 Node 7 (n = 85) 3.1 9.3 1 54 4 5 6 7 8 1020304050 Boston$rm Boston$medv ※ 決定係数=0.4835 決定係数 0.86 0.78 0.06 0.03 傾き 11.9 10.0 3.50 1.22 異なる回帰モデルになるようにデータを分割 データ全体 (Bostonの住宅価格と部屋数の分布)
21.
21
Jetzt herunterladen