Submit Search
Upload
Random Forest による分類
•
Download as PPTX, PDF
•
14 likes
•
10,810 views
Ken'ichi Matsui
Follow
決定木は知っているけど、Random Forestって何?という人のためのRandom Forest入門スライドです。
Read less
Read more
Data & Analytics
Report
Share
Report
Share
1 of 19
Download now
Recommended
NIPS2017読み会 LightGBM: A Highly Efficient Gradient Boosting Decision Tree
NIPS2017読み会 LightGBM: A Highly Efficient Gradient Boosting Decision Tree
Takami Sato
[DL輪読会]Batch Renormalization: Towards Reducing Minibatch Dependence in Batch-...
[DL輪読会]Batch Renormalization: Towards Reducing Minibatch Dependence in Batch-...
Deep Learning JP
Triplet Loss 徹底解説
Triplet Loss 徹底解説
tancoro
[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報
Deep Learning JP
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
Deep Learning JP
機械学習と主成分分析
機械学習と主成分分析
Katsuhiro Morishita
ブースティング入門
ブースティング入門
Retrieva inc.
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder
Sho Tatsuno
Recommended
NIPS2017読み会 LightGBM: A Highly Efficient Gradient Boosting Decision Tree
NIPS2017読み会 LightGBM: A Highly Efficient Gradient Boosting Decision Tree
Takami Sato
[DL輪読会]Batch Renormalization: Towards Reducing Minibatch Dependence in Batch-...
[DL輪読会]Batch Renormalization: Towards Reducing Minibatch Dependence in Batch-...
Deep Learning JP
Triplet Loss 徹底解説
Triplet Loss 徹底解説
tancoro
[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報
Deep Learning JP
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
Deep Learning JP
機械学習と主成分分析
機械学習と主成分分析
Katsuhiro Morishita
ブースティング入門
ブースティング入門
Retrieva inc.
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder
Sho Tatsuno
ベイズ最適化によるハイパラーパラメータ探索
ベイズ最適化によるハイパラーパラメータ探索
西岡 賢一郎
Optimizer入門&最新動向
Optimizer入門&最新動向
Motokawa Tetsuya
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII
Rでisomap(多様体学習のはなし)
Rでisomap(多様体学習のはなし)
Kohta Ishikawa
機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)
Satoshi Hara
5分でわかるベイズ確率
5分でわかるベイズ確率
hoxo_m
ResNetの仕組み
ResNetの仕組み
Kota Nagasato
深層学習による非滑らかな関数の推定
深層学習による非滑らかな関数の推定
Masaaki Imaizumi
機械学習 / Deep Learning 大全 (4) GPU編
機械学習 / Deep Learning 大全 (4) GPU編
Daiyu Hatakeyama
Chokudai search
Chokudai search
AtCoder Inc.
合成変量とアンサンブル:回帰森と加法モデルの要点
合成変量とアンサンブル:回帰森と加法モデルの要点
Ichigaku Takigawa
[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?
Deep Learning JP
LightGBM: a highly efficient gradient boosting decision tree
LightGBM: a highly efficient gradient boosting decision tree
Yusuke Kaneko
最適化超入門
最適化超入門
Takami Sato
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法について
Sho Takase
GAN(と強化学習との関係)
GAN(と強化学習との関係)
Masahiro Suzuki
大域的探索から局所的探索へデータ拡張 (Data Augmentation)を用いた学習の探索テクニック
大域的探索から局所的探索へデータ拡張 (Data Augmentation)を用いた学習の探索テクニック
西岡 賢一郎
[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential Equations
Deep Learning JP
全力解説!Transformer
全力解説!Transformer
Arithmer Inc.
【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい
【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい
Takuji Tahara
最近のRのランダムフォレストパッケージ -ranger/Rborist-
最近のRのランダムフォレストパッケージ -ranger/Rborist-
Shintaro Fukushima
データマイニングにおける属性構築、事例選択
データマイニングにおける属性構築、事例選択
無職
More Related Content
What's hot
ベイズ最適化によるハイパラーパラメータ探索
ベイズ最適化によるハイパラーパラメータ探索
西岡 賢一郎
Optimizer入門&最新動向
Optimizer入門&最新動向
Motokawa Tetsuya
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII
Rでisomap(多様体学習のはなし)
Rでisomap(多様体学習のはなし)
Kohta Ishikawa
機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)
Satoshi Hara
5分でわかるベイズ確率
5分でわかるベイズ確率
hoxo_m
ResNetの仕組み
ResNetの仕組み
Kota Nagasato
深層学習による非滑らかな関数の推定
深層学習による非滑らかな関数の推定
Masaaki Imaizumi
機械学習 / Deep Learning 大全 (4) GPU編
機械学習 / Deep Learning 大全 (4) GPU編
Daiyu Hatakeyama
Chokudai search
Chokudai search
AtCoder Inc.
合成変量とアンサンブル:回帰森と加法モデルの要点
合成変量とアンサンブル:回帰森と加法モデルの要点
Ichigaku Takigawa
[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?
Deep Learning JP
LightGBM: a highly efficient gradient boosting decision tree
LightGBM: a highly efficient gradient boosting decision tree
Yusuke Kaneko
最適化超入門
最適化超入門
Takami Sato
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法について
Sho Takase
GAN(と強化学習との関係)
GAN(と強化学習との関係)
Masahiro Suzuki
大域的探索から局所的探索へデータ拡張 (Data Augmentation)を用いた学習の探索テクニック
大域的探索から局所的探索へデータ拡張 (Data Augmentation)を用いた学習の探索テクニック
西岡 賢一郎
[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential Equations
Deep Learning JP
全力解説!Transformer
全力解説!Transformer
Arithmer Inc.
【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい
【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい
Takuji Tahara
What's hot
(20)
ベイズ最適化によるハイパラーパラメータ探索
ベイズ最適化によるハイパラーパラメータ探索
Optimizer入門&最新動向
Optimizer入門&最新動向
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
Rでisomap(多様体学習のはなし)
Rでisomap(多様体学習のはなし)
機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)
5分でわかるベイズ確率
5分でわかるベイズ確率
ResNetの仕組み
ResNetの仕組み
深層学習による非滑らかな関数の推定
深層学習による非滑らかな関数の推定
機械学習 / Deep Learning 大全 (4) GPU編
機械学習 / Deep Learning 大全 (4) GPU編
Chokudai search
Chokudai search
合成変量とアンサンブル:回帰森と加法モデルの要点
合成変量とアンサンブル:回帰森と加法モデルの要点
[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?
LightGBM: a highly efficient gradient boosting decision tree
LightGBM: a highly efficient gradient boosting decision tree
最適化超入門
最適化超入門
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法について
GAN(と強化学習との関係)
GAN(と強化学習との関係)
大域的探索から局所的探索へデータ拡張 (Data Augmentation)を用いた学習の探索テクニック
大域的探索から局所的探索へデータ拡張 (Data Augmentation)を用いた学習の探索テクニック
[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential Equations
全力解説!Transformer
全力解説!Transformer
【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい
【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい
Similar to Random Forest による分類
最近のRのランダムフォレストパッケージ -ranger/Rborist-
最近のRのランダムフォレストパッケージ -ranger/Rborist-
Shintaro Fukushima
データマイニングにおける属性構築、事例選択
データマイニングにおける属性構築、事例選択
無職
強化学習による 「Montezuma's Revenge」への挑戦
強化学習による 「Montezuma's Revenge」への挑戦
孝好 飯塚
20190725 taguchi decision_tree_for_pubshare
20190725 taguchi decision_tree_for_pubshare
taguchi naoya
判別分析
判別分析
Satoru Yamamoto
ハイブリッド型樹木法
ハイブリッド型樹木法
Mitsuo Shimohata
エンジニアのための機械学習の基礎
エンジニアのための機械学習の基礎
Daiyu Hatakeyama
Micro12勉強会 20130303
Micro12勉強会 20130303
Toshiya Komoda
農業AIハッカソンマイクロソフト様発表資料
農業AIハッカソンマイクロソフト様発表資料
Kohei Mochida
Why dont you_create_new_spark_jl
Why dont you_create_new_spark_jl
Shintaro Fukushima
順序データでもベイズモデリング
順序データでもベイズモデリング
. .
文献紹介:CutDepth: Edge-aware Data Augmentation in Depth Estimation
文献紹介:CutDepth: Edge-aware Data Augmentation in Depth Estimation
Toru Tamaki
RのffでGLMしてみたけど...
RのffでGLMしてみたけど...
Kazuya Wada
Maatkit で MySQL チューニング
Maatkit で MySQL チューニング
Kensuke Nagae
M08_あなたの知らない Azure インフラの世界 [Microsoft Japan Digital Days]
M08_あなたの知らない Azure インフラの世界 [Microsoft Japan Digital Days]
日本マイクロソフト株式会社
Maatkitの紹介
Maatkitの紹介
Akinori YOSHIDA
ディープラーニングによるラーメン二郎全店舗識別と生成
ディープラーニングによるラーメン二郎全店舗識別と生成
knjcode
Oracle Cloud Developers Meetup@東京
Oracle Cloud Developers Meetup@東京
tuchimur
第9回 大規模データを用いたデータフレーム操作実習(3)
第9回 大規模データを用いたデータフレーム操作実習(3)
Wataru Shito
nlpaper.challenge NLP/CV交流勉強会 画像認識 7章
nlpaper.challenge NLP/CV交流勉強会 画像認識 7章
Takahiro Kubo
Similar to Random Forest による分類
(20)
最近のRのランダムフォレストパッケージ -ranger/Rborist-
最近のRのランダムフォレストパッケージ -ranger/Rborist-
データマイニングにおける属性構築、事例選択
データマイニングにおける属性構築、事例選択
強化学習による 「Montezuma's Revenge」への挑戦
強化学習による 「Montezuma's Revenge」への挑戦
20190725 taguchi decision_tree_for_pubshare
20190725 taguchi decision_tree_for_pubshare
判別分析
判別分析
ハイブリッド型樹木法
ハイブリッド型樹木法
エンジニアのための機械学習の基礎
エンジニアのための機械学習の基礎
Micro12勉強会 20130303
Micro12勉強会 20130303
農業AIハッカソンマイクロソフト様発表資料
農業AIハッカソンマイクロソフト様発表資料
Why dont you_create_new_spark_jl
Why dont you_create_new_spark_jl
順序データでもベイズモデリング
順序データでもベイズモデリング
文献紹介:CutDepth: Edge-aware Data Augmentation in Depth Estimation
文献紹介:CutDepth: Edge-aware Data Augmentation in Depth Estimation
RのffでGLMしてみたけど...
RのffでGLMしてみたけど...
Maatkit で MySQL チューニング
Maatkit で MySQL チューニング
M08_あなたの知らない Azure インフラの世界 [Microsoft Japan Digital Days]
M08_あなたの知らない Azure インフラの世界 [Microsoft Japan Digital Days]
Maatkitの紹介
Maatkitの紹介
ディープラーニングによるラーメン二郎全店舗識別と生成
ディープラーニングによるラーメン二郎全店舗識別と生成
Oracle Cloud Developers Meetup@東京
Oracle Cloud Developers Meetup@東京
第9回 大規模データを用いたデータフレーム操作実習(3)
第9回 大規模データを用いたデータフレーム操作実習(3)
nlpaper.challenge NLP/CV交流勉強会 画像認識 7章
nlpaper.challenge NLP/CV交流勉強会 画像認識 7章
More from Ken'ichi Matsui
ベータ分布の謎に迫る
ベータ分布の謎に迫る
Ken'ichi Matsui
音楽波形データからコードを推定してみる
音楽波形データからコードを推定してみる
Ken'ichi Matsui
データサイエンティストの仕事とデータ分析コンテスト
データサイエンティストの仕事とデータ分析コンテスト
Ken'ichi Matsui
分析コンペティションの光と影
分析コンペティションの光と影
Ken'ichi Matsui
Kaggle Google Quest Q&A Labeling 反省会 LT資料 47th place solution
Kaggle Google Quest Q&A Labeling 反省会 LT資料 47th place solution
Ken'ichi Matsui
BERT入門
BERT入門
Ken'ichi Matsui
データ分析コンテストとデータサイエンティストの働きかた
データ分析コンテストとデータサイエンティストの働きかた
Ken'ichi Matsui
確率分布の成り立ちを理解してスポーツにあてはめてみる
確率分布の成り立ちを理解してスポーツにあてはめてみる
Ken'ichi Matsui
SIGNATE産業技術総合研究所 衛星画像分析コンテスト2位入賞モデルの工夫点
SIGNATE産業技術総合研究所 衛星画像分析コンテスト2位入賞モデルの工夫点
Ken'ichi Matsui
Introduction of VAE
Introduction of VAE
Ken'ichi Matsui
Variational Autoencoderの紹介
Variational Autoencoderの紹介
Ken'ichi Matsui
数学カフェ 確率・統計・機械学習回 「速習 確率・統計」
数学カフェ 確率・統計・機械学習回 「速習 確率・統計」
Ken'ichi Matsui
DS LT祭り 「AUCが0.01改善したって どういうことですか?」
DS LT祭り 「AUCが0.01改善したって どういうことですか?」
Ken'ichi Matsui
統計的学習の基礎 4章 前半
統計的学習の基礎 4章 前半
Ken'ichi Matsui
基礎からのベイズ統計学 輪読会資料 第8章 「比率・相関・信頼性」
基礎からのベイズ統計学 輪読会資料 第8章 「比率・相関・信頼性」
Ken'ichi Matsui
第13回数学カフェ「素数!!」二次会 LT資料「乱数!!」
第13回数学カフェ「素数!!」二次会 LT資料「乱数!!」
Ken'ichi Matsui
「ベータ分布の謎に迫る」第6回 プログラマのための数学勉強会 LT資料
「ベータ分布の謎に迫る」第6回 プログラマのための数学勉強会 LT資料
Ken'ichi Matsui
15分でわかる(範囲の)ベイズ統計学
15分でわかる(範囲の)ベイズ統計学
Ken'ichi Matsui
基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法
基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法
Ken'ichi Matsui
「全ての確率はコイン投げに通ず」 Japan.R 発表資料
「全ての確率はコイン投げに通ず」 Japan.R 発表資料
Ken'ichi Matsui
More from Ken'ichi Matsui
(20)
ベータ分布の謎に迫る
ベータ分布の謎に迫る
音楽波形データからコードを推定してみる
音楽波形データからコードを推定してみる
データサイエンティストの仕事とデータ分析コンテスト
データサイエンティストの仕事とデータ分析コンテスト
分析コンペティションの光と影
分析コンペティションの光と影
Kaggle Google Quest Q&A Labeling 反省会 LT資料 47th place solution
Kaggle Google Quest Q&A Labeling 反省会 LT資料 47th place solution
BERT入門
BERT入門
データ分析コンテストとデータサイエンティストの働きかた
データ分析コンテストとデータサイエンティストの働きかた
確率分布の成り立ちを理解してスポーツにあてはめてみる
確率分布の成り立ちを理解してスポーツにあてはめてみる
SIGNATE産業技術総合研究所 衛星画像分析コンテスト2位入賞モデルの工夫点
SIGNATE産業技術総合研究所 衛星画像分析コンテスト2位入賞モデルの工夫点
Introduction of VAE
Introduction of VAE
Variational Autoencoderの紹介
Variational Autoencoderの紹介
数学カフェ 確率・統計・機械学習回 「速習 確率・統計」
数学カフェ 確率・統計・機械学習回 「速習 確率・統計」
DS LT祭り 「AUCが0.01改善したって どういうことですか?」
DS LT祭り 「AUCが0.01改善したって どういうことですか?」
統計的学習の基礎 4章 前半
統計的学習の基礎 4章 前半
基礎からのベイズ統計学 輪読会資料 第8章 「比率・相関・信頼性」
基礎からのベイズ統計学 輪読会資料 第8章 「比率・相関・信頼性」
第13回数学カフェ「素数!!」二次会 LT資料「乱数!!」
第13回数学カフェ「素数!!」二次会 LT資料「乱数!!」
「ベータ分布の謎に迫る」第6回 プログラマのための数学勉強会 LT資料
「ベータ分布の謎に迫る」第6回 プログラマのための数学勉強会 LT資料
15分でわかる(範囲の)ベイズ統計学
15分でわかる(範囲の)ベイズ統計学
基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法
基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法
「全ての確率はコイン投げに通ず」 Japan.R 発表資料
「全ての確率はコイン投げに通ず」 Japan.R 発表資料
Random Forest による分類
1.
Random Forest for Classification 2016/2/24 Ken'ichi
Matsui
2.
決定木 Random Forest 特徴 •
分枝とノードのコストを鑑み て剪定を行う • 剪定しない • データからサンプリングを行い データを増やして学習する。 • 各ノードで分割を行う際、ラン ダムに特徴量を選択する メリット • 分割基準が目に見えてわかり やすいのでそこから知見も得 られる • 比較的早い • 予測精度が高い • ランダム性を取り入れ分散を小 さく抑えられている デメリット • 分散が大きくなりがち • 複数の木を使って構成されるの で、分割基準は非常に見えずら い • 比較的遅い 決定木とRandom Forestの比較
3.
… 特徴量: d次元 特徴量: d次元
特徴量: d次元 特徴量: d次元 特徴量: d次元 データ数: N個 データ数: N個 ⇒ ただし、訓練データから重複ありでランダムサンプリングしたもの ブートストラップ サンプル 1 ブートストラップ サンプル 2 ブートストラップ サンプル 3 ブートストラップ サンプル M 重複ありランダムサンプリング ブートストラップサンプル数: M個 訓練データ ブートストラップ法
4.
… … 特徴量: d次元 ブートストラップ サンプル 1 特徴量:
d次元 ブートストラップ サンプル 2 特徴量: d次元 ブートストラップ サンプル 3 特徴量: d次元 ブートストラップ サンプル M ブートストラップサンプル数: M個 N個 弱学習器1 弱学習器2 弱学習器3 弱学習器 M Random Forest 木の深さ
5.
木の深さ … 特徴量: d次元 ブートストラップ サンプル 1 特徴量:
d次元 ブートストラップ サンプル 2 特徴量: d次元 ブートストラップ サンプル 3 特徴量: d次元 ブートストラップ サンプル M ブートストラップサンプル数: M個 N個 Random Forest … 弱学習器1 弱学習器2 弱学習器3 弱学習器 M (決定)木がたくさん集まっているので森!
6.
Yes No 1 2
3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 このノードは ピンクのエリア このノードは ブルーのエリア 弱学習器の各ノードにおける分割 (2次元の場合) 分割前の状態 ※ 簡単化のため特徴量選択を していないとする
7.
取りうる分割 (2次元の例) この赤い線が不純度を一番下げる分割
8.
axis value ratio_l
gini_l ratio_r gini_r ave gini gini x 1.8 0.111 0.000 0.889 0.469 0.417 x 2.45 0.222 0.000 0.778 0.408 0.317 x 3.0 0.333 0.000 0.667 0.278 0.185 x 4.2 0.444 0.375 0.556 0.320 0.344 x 5.75 0.556 0.480 0.444 0.375 0.433 x 6.8 0.667 0.444 0.333 0.000 0.296 x 7.9 0.778 0.490 0.222 0.000 0.381 x 8.85 0.889 0.500 0.111 0.000 0.444 y 1.05 0.111 0.000 0.889 0.469 0.417 y 1.85 0.222 0.500 0.778 0.490 0.492 y 2.6 0.333 0.444 0.667 0.444 0.444 y 3.6 0.444 0.375 0.556 0.320 0.344 y 4.8 0.556 0.480 0.444 0.375 0.433 y 5.95 0.667 0.500 0.333 0.444 0.481 y 6.65 0.778 0.490 0.222 0.000 0.381 y 7.5 0.889 0.500 0.111 0.000 0.444 取りうる分割 (2次元の例) 不純度の計算(gini係数)
9.
ブートストラップサンプル数: M個 … … 特徴量: d次元 ブートストラップ サンプル
1 特徴量: d次元 ブートストラップ サンプル 2 特徴量: d次元 ブートストラップ サンプル 3 特徴量: d次元 ブートストラップ サンプル MN個 データの特徴量はd次元なので各弱学 習器の各ノード分割時に、d次元から d’個サンプリングしたデータから 最良の分割点を探し出して分割する。 ( がよく使われる) Random Forestの特徴量選択
10.
ブートストラップサンプル数: M個 … … 特徴量: d次元 ブートストラップ サンプル
1 特徴量: d次元 ブートストラップ サンプル 2 特徴量: d次元 ブートストラップ サンプル 3 特徴量: d次元 ブートストラップ サンプル MN個 Random Forestの特徴量選択 ⇒ ランダムフォレストの ランダムと言われる所以 データの特徴量はd次元なので各弱学 習器の各ノード分割時に、d次元から d’個サンプリングしたデータから 最良の分割点を探し出して分割する。 ( がよく使われる)
11.
… 弱学習器1 弱学習器2 弱学習器3
弱学習器 M Random Forest (Classification) インプット 「Bだ!」 「Aだ!」 「Bだ!」 「Bだ!」 ⇒ 多数決により”B”に決定。
12.
ブートストラップで作成する木の数 ノード分割時の不純度の計算種別 http://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html 特徴量抽出の最大値設定
13.
http://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html 木の深さの最大値設定 ノード分割時の分割先の最小データ数 終端ノードの最小データ数 最大終端ノード数 ブートストラップサンプリング実行要否 終端ノードにおける最小分割比
14.
http://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html 木の構築時の詳細情報表示設定 fitした時に前回のモデルを再利用する 各クラスにウェイトをかける ブートストラップ、特徴量抽出の乱数シード設定 並列処理数の設定 out-of-bagサンプルを評価に使うか否か
15.
Scikit-LearnとMNISTで試すRandom Forest https://github.com/matsuken92/Qiita_Contents/blob/master/General/Decision_tree.ipynb # Random
Forestによるモデル構築 clf = RandomForestClassifier(n_estimators=50, criterion='gini', max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features='auto', max_leaf_nodes=None, bootstrap=True, oob_score=False, n_jobs=2, random_state=None, verbose=0, warm_start=False, class_weight=None) clf = clf.fit(x_train, y_train) # 訓練データでの精度確認 print "train" confirm_result(clf, x_train, y_train) classification report precision recall f1-score support 0 1.00 1.00 1.00 5923 1 1.00 1.00 1.00 6742 2 1.00 1.00 1.00 5958 3 1.00 1.00 1.00 6131 4 1.00 1.00 1.00 5842 5 1.00 1.00 1.00 5421 6 1.00 1.00 1.00 5918 7 1.00 1.00 1.00 6265 8 1.00 1.00 1.00 5851 9 1.00 1.00 1.00 5949 avg / total 1.00 1.00 1.00 60000 accuracy 0.999983333333 MNIST (手書き数字データ) コードの全文はココ↓
16.
https://github.com/matsuken92/Qiita_Contents/blob/master/General/Decision_tree.ipynb # 検証データでの精度確認 print "test" confirm_result(clf,
x_test, y_test) test confusion matrix [[ 969 0 2 0 0 2 3 1 3 0] [ 0 1122 3 3 1 1 2 0 3 0] [ 5 0 999 6 2 0 4 9 7 0] [ 1 0 10 973 0 7 0 8 8 3] [ 1 0 1 0 947 0 7 0 4 22] [ 4 2 1 14 3 854 5 1 7 1] [ 6 3 1 0 3 5 936 0 4 0] [ 1 3 20 2 3 0 0 989 3 7] [ 5 0 5 8 5 7 4 4 929 7] [ 7 6 3 12 15 3 1 5 4 953]] classification report precision recall f1-score support 0 0.97 0.99 0.98 980 1 0.99 0.99 0.99 1135 2 0.96 0.97 0.96 1032 3 0.96 0.96 0.96 1010 4 0.97 0.96 0.97 982 5 0.97 0.96 0.96 892 6 0.97 0.98 0.97 958 7 0.97 0.96 0.97 1028 8 0.96 0.95 0.95 974 9 0.96 0.94 0.95 1009 avg / total 0.97 0.97 0.97 10000 accuracy 0.9671 Scikit-LearnとMNISTで試すRandom Forest
17.
拡大 MNIST学習時のRandom Forest 弱学習器の一部 拡大
18.
Random Forestの類似度の算出とMDSによる2次元可視化 元データ(iris)のプロット データ類似度のプロット ※
類似度の計算はRじゃないとできませんでした・・・ require(rfPermute) data(iris) iris.rf <- randomForest(Species ~ ., data = iris, importance = TRUE, proximity = TRUE) iris.rf proximity.plot(iris.rf, legend.loc = "topleft") http://www.inside-r.org/packages/cran/rfPermute/docs/proximity.plot
19.
参考 • “Intuition of
Random Forest” https://stat.ethz.ch/education/semesters/ss2012/ams/slides/v10.2.pdf • Scikit-Learn RandomForestClassifier http://scikit- learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.ht ml • 「初めてのパターン認識」平井 有三 (著) http://www.amazon.co.jp/dp/4627849710 • 本スライドで使ったPythonコード https://github.com/matsuken92/Qiita_Contents/blob/master/General/Decision_tree .ipynb
Download now