Suche senden
Hochladen
『手を動かしながら学ぶ ビジネスに活かすデータマイニング』で目指したもの・学んでもらいたいもの
•
33 gefällt mir
•
6,225 views
Takashi J OZAKI
Folgen
2014/10/22に社内で行った講演会のスライドです。
Weniger lesen
Mehr lesen
Daten & Analysen
Melden
Teilen
Melden
Teilen
1 von 74
Recomendados
なぜ統計学がビジネスの 意思決定において大事なのか?
なぜ統計学がビジネスの 意思決定において大事なのか?
Takashi J OZAKI
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処”
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処”
Hajime Sasaki
「データサイエンティスト・ブーム」後の企業におけるデータ分析者像を探る
「データサイエンティスト・ブーム」後の企業におけるデータ分析者像を探る
Takashi J OZAKI
おしゃスタ@リクルート
おしゃスタ@リクルート
Issei Kurahashi
データサイエンティスト養成勉強会 こんな僕がデータサイエンティストになれた秘密
データサイエンティスト養成勉強会 こんな僕がデータサイエンティストになれた秘密
Ryo Matsuura
(道具としての)データサイエンティストのつかい方
(道具としての)データサイエンティストのつかい方
Shohei Hido
計量経済学と 機械学習の交差点入り口 (公開用)
計量経済学と 機械学習の交差点入り口 (公開用)
Shota Yasui
いまさら聞けない機械学習の評価指標
いまさら聞けない機械学習の評価指標
圭輔 大曽根
Más contenido relacionado
Was ist angesagt?
【スクー】業務改善のためのデータサイエンス
【スクー】業務改善のためのデータサイエンス
Issei Kurahashi
おしゃスタat銀座
おしゃスタat銀座
Issei Kurahashi
データサイエンティスト協会 木曜勉強会 #09 『意志の力が拓くシステム~最適化の適用事例から見たデータ活用システムの現在と未来~』
データサイエンティスト協会 木曜勉強会 #09 『意志の力が拓くシステム~最適化の適用事例から見たデータ活用システムの現在と未来~』
The Japan DataScientist Society
TokyoWebmining統計学部 第1回
TokyoWebmining統計学部 第1回
Issei Kurahashi
何故あなたの機械学習はビジネスを改善出来ないのか?
何故あなたの機械学習はビジネスを改善出来ないのか?
Shota Yasui
機械学習によるデータ分析まわりのお話
機械学習によるデータ分析まわりのお話
Ryota Kamoshida
データ分析というお仕事のこれまでとこれから(HCMPL2014)
データ分析というお仕事のこれまでとこれから(HCMPL2014)
Takashi J OZAKI
データサイエンスの全体像
データサイエンスの全体像
The Japan DataScientist Society
セレンディピティと機械学習
セレンディピティと機械学習
Kei Tateno
機械学習チュートリアル@Jubatus Casual Talks
機械学習チュートリアル@Jubatus Casual Talks
Yuya Unno
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
Shota Imai
[DSO]勉強会_データサイエンス講義_Chapter8
[DSO]勉強会_データサイエンス講義_Chapter8
tatsuyasakaeeda
ビジネスの現場のデータ分析における理想と現実
ビジネスの現場のデータ分析における理想と現実
Takashi J OZAKI
重回帰分析で頑張る
重回帰分析で頑張る
Shota Yasui
機械学習 入門
機械学習 入門
Hayato Maki
データサイエンスの全体像とデータサイエンティスト
データサイエンスの全体像とデータサイエンティスト
The Japan DataScientist Society
DARM勉強会第3回 (missing data analysis)
DARM勉強会第3回 (missing data analysis)
Masaru Tokuoka
20190721 gaussian process
20190721 gaussian process
Yoichi Tokita
機械学習 / Deep Learning 大全 (1) 機械学習基礎編
機械学習 / Deep Learning 大全 (1) 機械学習基礎編
Daiyu Hatakeyama
[DSO]勉強会_データサイエンス講義_Chapter5
[DSO]勉強会_データサイエンス講義_Chapter5
tatsuyasakaeeda
Was ist angesagt?
(20)
【スクー】業務改善のためのデータサイエンス
【スクー】業務改善のためのデータサイエンス
おしゃスタat銀座
おしゃスタat銀座
データサイエンティスト協会 木曜勉強会 #09 『意志の力が拓くシステム~最適化の適用事例から見たデータ活用システムの現在と未来~』
データサイエンティスト協会 木曜勉強会 #09 『意志の力が拓くシステム~最適化の適用事例から見たデータ活用システムの現在と未来~』
TokyoWebmining統計学部 第1回
TokyoWebmining統計学部 第1回
何故あなたの機械学習はビジネスを改善出来ないのか?
何故あなたの機械学習はビジネスを改善出来ないのか?
機械学習によるデータ分析まわりのお話
機械学習によるデータ分析まわりのお話
データ分析というお仕事のこれまでとこれから(HCMPL2014)
データ分析というお仕事のこれまでとこれから(HCMPL2014)
データサイエンスの全体像
データサイエンスの全体像
セレンディピティと機械学習
セレンディピティと機械学習
機械学習チュートリアル@Jubatus Casual Talks
機械学習チュートリアル@Jubatus Casual Talks
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
[DSO]勉強会_データサイエンス講義_Chapter8
[DSO]勉強会_データサイエンス講義_Chapter8
ビジネスの現場のデータ分析における理想と現実
ビジネスの現場のデータ分析における理想と現実
重回帰分析で頑張る
重回帰分析で頑張る
機械学習 入門
機械学習 入門
データサイエンスの全体像とデータサイエンティスト
データサイエンスの全体像とデータサイエンティスト
DARM勉強会第3回 (missing data analysis)
DARM勉強会第3回 (missing data analysis)
20190721 gaussian process
20190721 gaussian process
機械学習 / Deep Learning 大全 (1) 機械学習基礎編
機械学習 / Deep Learning 大全 (1) 機械学習基礎編
[DSO]勉強会_データサイエンス講義_Chapter5
[DSO]勉強会_データサイエンス講義_Chapter5
Andere mochten auch
Deep Learningと他の分類器をRで比べてみよう in Japan.R 2014
Deep Learningと他の分類器をRで比べてみよう in Japan.R 2014
Takashi J OZAKI
Taste of Wine vs. Data Science
Taste of Wine vs. Data Science
Takashi J OZAKI
Granger因果による時系列データの因果推定(因果フェス2015)
Granger因果による時系列データの因果推定(因果フェス2015)
Takashi J OZAKI
直感的な単変量モデルでは予測できない「ワインの味」を多変量モデルで予測する
直感的な単変量モデルでは予測できない「ワインの味」を多変量モデルで予測する
Takashi J OZAKI
最新業界事情から見るデータサイエンティストの「実像」
最新業界事情から見るデータサイエンティストの「実像」
Takashi J OZAKI
Jc 20141003 tjo
Jc 20141003 tjo
Takashi J OZAKI
Visualization of Supervised Learning with {arules} + {arulesViz}
Visualization of Supervised Learning with {arules} + {arulesViz}
Takashi J OZAKI
計量時系列分析の立場からビジネスの現場のデータを見てみよう - 30th Tokyo Webmining
計量時系列分析の立場からビジネスの現場のデータを見てみよう - 30th Tokyo Webmining
Takashi J OZAKI
Rによるやさしい統計学第20章「検定力分析によるサンプルサイズの決定」
Rによるやさしい統計学第20章「検定力分析によるサンプルサイズの決定」
Takashi J OZAKI
21世紀で最もセクシーな職業!?「データサイエンティスト」の実像に迫る
21世紀で最もセクシーな職業!?「データサイエンティスト」の実像に迫る
Takashi J OZAKI
Rで計量時系列分析~CRANパッケージ総ざらい~
Rで計量時系列分析~CRANパッケージ総ざらい~
Takashi J OZAKI
Tech Lab Paak講演会 20150601
Tech Lab Paak講演会 20150601
Takashi J OZAKI
R言語で学ぶマーケティング分析 競争ポジショニング戦略
R言語で学ぶマーケティング分析 競争ポジショニング戦略
Yohei Sato
Simple perceptron by TJO
Simple perceptron by TJO
Takashi J OZAKI
Wab090225a
Wab090225a
サイバーエリアリサーチ 株式会社
【Inception-Deck】野球Hack! - Pythonを用いたデータ分析と可視化
【Inception-Deck】野球Hack! - Pythonを用いたデータ分析と可視化
Shinichi Nakagawa
行動ターゲティングと嗜好推測
行動ターゲティングと嗜好推測
Ken Yasumatsu
第1回多変量解析・標本調査勉強会
第1回多変量解析・標本調査勉強会
t_inaba_zemi
楽天ad4U 行動スキミング広告
楽天ad4U 行動スキミング広告
rakuten
潜在トピックとネットワーク分析
潜在トピックとネットワーク分析
s tanaka
Andere mochten auch
(20)
Deep Learningと他の分類器をRで比べてみよう in Japan.R 2014
Deep Learningと他の分類器をRで比べてみよう in Japan.R 2014
Taste of Wine vs. Data Science
Taste of Wine vs. Data Science
Granger因果による時系列データの因果推定(因果フェス2015)
Granger因果による時系列データの因果推定(因果フェス2015)
直感的な単変量モデルでは予測できない「ワインの味」を多変量モデルで予測する
直感的な単変量モデルでは予測できない「ワインの味」を多変量モデルで予測する
最新業界事情から見るデータサイエンティストの「実像」
最新業界事情から見るデータサイエンティストの「実像」
Jc 20141003 tjo
Jc 20141003 tjo
Visualization of Supervised Learning with {arules} + {arulesViz}
Visualization of Supervised Learning with {arules} + {arulesViz}
計量時系列分析の立場からビジネスの現場のデータを見てみよう - 30th Tokyo Webmining
計量時系列分析の立場からビジネスの現場のデータを見てみよう - 30th Tokyo Webmining
Rによるやさしい統計学第20章「検定力分析によるサンプルサイズの決定」
Rによるやさしい統計学第20章「検定力分析によるサンプルサイズの決定」
21世紀で最もセクシーな職業!?「データサイエンティスト」の実像に迫る
21世紀で最もセクシーな職業!?「データサイエンティスト」の実像に迫る
Rで計量時系列分析~CRANパッケージ総ざらい~
Rで計量時系列分析~CRANパッケージ総ざらい~
Tech Lab Paak講演会 20150601
Tech Lab Paak講演会 20150601
R言語で学ぶマーケティング分析 競争ポジショニング戦略
R言語で学ぶマーケティング分析 競争ポジショニング戦略
Simple perceptron by TJO
Simple perceptron by TJO
Wab090225a
Wab090225a
【Inception-Deck】野球Hack! - Pythonを用いたデータ分析と可視化
【Inception-Deck】野球Hack! - Pythonを用いたデータ分析と可視化
行動ターゲティングと嗜好推測
行動ターゲティングと嗜好推測
第1回多変量解析・標本調査勉強会
第1回多変量解析・標本調査勉強会
楽天ad4U 行動スキミング広告
楽天ad4U 行動スキミング広告
潜在トピックとネットワーク分析
潜在トピックとネットワーク分析
Ähnlich wie 『手を動かしながら学ぶ ビジネスに活かすデータマイニング』で目指したもの・学んでもらいたいもの
データ分析グループの組織編制とその課題 マーケティングにおけるKPI設計の失敗例 ABテストの活用と、機械学習の導入 #CWT2016
データ分析グループの組織編制とその課題 マーケティングにおけるKPI設計の失敗例 ABテストの活用と、機械学習の導入 #CWT2016
Tokoroten Nakayama
事業の進展とデータマネジメント体制の進歩(+プレトタイプの話)
事業の進展とデータマネジメント体制の進歩(+プレトタイプの話)
Tokoroten Nakayama
Tokyo webmining発表資料 20111127
Tokyo webmining発表資料 20111127
kan_yukiko
Jmrx講演資料0723(配布用)[1]
Jmrx講演資料0723(配布用)[1]
Shigeru Kishikawa
【schoo WEB-campus】#49業務改善のためのデータサイエンス 先生:倉橋一成
【schoo WEB-campus】#49業務改善のためのデータサイエンス 先生:倉橋一成
webcampusschoo
マーケティング視点で捉えるアクセス解析 株式会社真摯
マーケティング視点で捉えるアクセス解析 株式会社真摯
Yasuki Ichishima
Webサービスを作る人に伝えたい5つのこと
Webサービスを作る人に伝えたい5つのこと
Dai Murata
図解入門最新マーケティング・リサーチがよーくわかる本(6)
図解入門最新マーケティング・リサーチがよーくわかる本(6)
MROC Japan
20180920_【ヒカ☆ラボ】【データサイエンティストが教える 】 機械学習、人工知能を使った「ビジネスになる」アプリケーションの作り方
20180920_【ヒカ☆ラボ】【データサイエンティストが教える 】 機械学習、人工知能を使った「ビジネスになる」アプリケーションの作り方
Shunsuke Nakamura
納涼 和風要求開発小ネタ集
納涼 和風要求開発小ネタ集
Kent Ishizawa
2012/4/27アクセス解析イニシアチブin名古屋「分析から改善のアクションへ」
2012/4/27アクセス解析イニシアチブin名古屋「分析から改善のアクションへ」
Hiroshi Kawasaki
ICT 20years planning
ICT 20years planning
koichi ikeda
TechTarget新サービス
TechTarget新サービス
リード研究所 / Lead Lab
デジタルマーケティング戦略策定
デジタルマーケティング戦略策定
Flyke1
TensorFlowとは? ディープラーニング (深層学習) とは?
TensorFlowとは? ディープラーニング (深層学習) とは?
KSK Analytics Inc.
Dynamic+arms+fx100318
Dynamic+arms+fx100318
Yoshiyuki Hongoh
Introduction of KOTATSU-MODEL in Requirement Development
Introduction of KOTATSU-MODEL in Requirement Development
Kent Ishizawa
データマイニングCROSS 第2部-機械学習・大規模分散処理
データマイニングCROSS 第2部-機械学習・大規模分散処理
Koichi Hamada
新規事業が対峙する現実からエンジニアリングを俯瞰する #devsumiB #devsumi
新規事業が対峙する現実からエンジニアリングを俯瞰する #devsumiB #devsumi
Itsuki Kuroda
Freee kintone 200205
Freee kintone 200205
freee株式会社
Ähnlich wie 『手を動かしながら学ぶ ビジネスに活かすデータマイニング』で目指したもの・学んでもらいたいもの
(20)
データ分析グループの組織編制とその課題 マーケティングにおけるKPI設計の失敗例 ABテストの活用と、機械学習の導入 #CWT2016
データ分析グループの組織編制とその課題 マーケティングにおけるKPI設計の失敗例 ABテストの活用と、機械学習の導入 #CWT2016
事業の進展とデータマネジメント体制の進歩(+プレトタイプの話)
事業の進展とデータマネジメント体制の進歩(+プレトタイプの話)
Tokyo webmining発表資料 20111127
Tokyo webmining発表資料 20111127
Jmrx講演資料0723(配布用)[1]
Jmrx講演資料0723(配布用)[1]
【schoo WEB-campus】#49業務改善のためのデータサイエンス 先生:倉橋一成
【schoo WEB-campus】#49業務改善のためのデータサイエンス 先生:倉橋一成
マーケティング視点で捉えるアクセス解析 株式会社真摯
マーケティング視点で捉えるアクセス解析 株式会社真摯
Webサービスを作る人に伝えたい5つのこと
Webサービスを作る人に伝えたい5つのこと
図解入門最新マーケティング・リサーチがよーくわかる本(6)
図解入門最新マーケティング・リサーチがよーくわかる本(6)
20180920_【ヒカ☆ラボ】【データサイエンティストが教える 】 機械学習、人工知能を使った「ビジネスになる」アプリケーションの作り方
20180920_【ヒカ☆ラボ】【データサイエンティストが教える 】 機械学習、人工知能を使った「ビジネスになる」アプリケーションの作り方
納涼 和風要求開発小ネタ集
納涼 和風要求開発小ネタ集
2012/4/27アクセス解析イニシアチブin名古屋「分析から改善のアクションへ」
2012/4/27アクセス解析イニシアチブin名古屋「分析から改善のアクションへ」
ICT 20years planning
ICT 20years planning
TechTarget新サービス
TechTarget新サービス
デジタルマーケティング戦略策定
デジタルマーケティング戦略策定
TensorFlowとは? ディープラーニング (深層学習) とは?
TensorFlowとは? ディープラーニング (深層学習) とは?
Dynamic+arms+fx100318
Dynamic+arms+fx100318
Introduction of KOTATSU-MODEL in Requirement Development
Introduction of KOTATSU-MODEL in Requirement Development
データマイニングCROSS 第2部-機械学習・大規模分散処理
データマイニングCROSS 第2部-機械学習・大規模分散処理
新規事業が対峙する現実からエンジニアリングを俯瞰する #devsumiB #devsumi
新規事業が対峙する現実からエンジニアリングを俯瞰する #devsumiB #devsumi
Freee kintone 200205
Freee kintone 200205
『手を動かしながら学ぶ ビジネスに活かすデータマイニング』で目指したもの・学んでもらいたいもの
1.
『手を動かしながら学ぶ ビジネスに活かす データマイニング』で目指したもの・学んで
もらいたいもの 株式会社リクルートコミュニケーションズ ICTソリューション局 アドテクノロジーサービス開発部 尾崎 隆
2.
本日のお題 最近本を出しました
3.
内容はこんな感じです 1.データマイニングとは 2.Rを使ってみよう
3.その2つのデータ,本当に差があるの? ~仮説検定~ 4.ビールの生産計画を立てよう ~重回帰分析~ 5.自社サービス登録会員をグループ分けしてみよう ~クラスタリング~ 6.コンバージョン率を引き上げる要因はどこに? ~ロジスティック回帰~ 7.どのキャンペーンページが効果的だったのか? ~決定木~ 8.新規ユーザーの属性データから今後のアクティブユーザー数を予測しよう ~SVM/ランダムフォレスト~ 9.ECサイトの購入カテゴリデータから何が見える? ~アソシエーション 分析~ 10.Rでさらに広がるデータマイニングの世界 ~その他の分析メソッドにつ いて~
4.
内容はこんな感じです 1.データマイニングとは 2.Rを使ってみよう
3.その2つのデータ,本当に差があるの? ~仮説検定~ 4.ビールの生産計画を立てよう ~重回帰分析~ 5.自社サービス登録会員をグループ分けしてみよう ~クラスタリング~ 6.コンバージョン率を引き上げる要因はどこに? ~ロジスティック回帰~ 7.どのキャンペーンページが効果的だったのか? ~決定木~ 8.新規ユーザーの属性データから今後のアクティブユーザー数を予測しよう ~SVM/ランダムフォレスト~ 9.ECサイトの購入カテゴリデータから何が見える? ~アソシエーション 分析~ 10.Rでさらに広がるデータマイニングの世界 ~その他の分析メソッドにつ いて~
5.
内容はこんな感じです 1.データマイニングとは 2.Rを使ってみよう
3.その2つのデータ,本当に差があるの? ~仮説検定~ 4.ビールの生産計画を立てよう ~重回帰分析~ 5.自社サービス登録会員をグループ分けしてみよう ~クラスタリング~ 6.コンバージョン率を引き上げる要因はどこに? ~ロジスティック回帰~ 7.どのキャンペーンページが効果的だったのか? ~決定木~ 8.新規ユーザーの属性データから今後のアクティブユーザー数を予測しよう ~SVM/ランダムフォレスト~ 9.ECサイトの購入カテゴリデータから何が見える? ~アソシエーション 分析~ 10.Rでさらに広がるデータマイニングの世界 ~その他の分析メソッドにつ いて~ データマイニングとRの紹介
6.
内容はこんな感じです 1.データマイニングとは 2.Rを使ってみよう
3.その2つのデータ,本当に差があるの? ~仮説検定~ 4.ビールの生産計画を立てよう ~重回帰分析~ 5.自社サービス登録会員をグループ分けしてみよう ~クラスタリング~ 6.コンバージョン率を引き上げる要因はどこに? ~ロジスティック回帰~ 7.どのキャンペーンページが効果的だったのか? ~決定木~ 8.新規ユーザーの属性データから今後のアクティブユーザー数を予測しよう ~SVM/ランダムフォレスト~ 9.ECサイトの購入カテゴリデータから何が見える? ~アソシエーション 分析~ 10.Rでさらに広がるデータマイニングの世界 ~その他の分析メソッドにつ いて~ 統計学の基礎と応用
7.
内容はこんな感じです 1.データマイニングとは 2.Rを使ってみよう
3.その2つのデータ,本当に差があるの? ~仮説検定~ 4.ビールの生産計画を立てよう ~重回帰分析~ 5.自社サービス登録会員をグループ分けしてみよう ~クラスタリング~ 6.コンバージョン率を引き上げる要因はどこに? ~ロジスティック回帰~ 7.どのキャンペーンページが効果的だったのか? ~決定木~ 8.新規ユーザーの属性データから今後のアクティブユーザー数を予測しよう ~SVM/ランダムフォレスト~ 9.ECサイトの購入カテゴリデータから何が見える? ~アソシエーション 分析~ 10.Rでさらに広がるデータマイニングの世界 ~その他の分析メソッドにつ いて~ 機械学習の基礎と応用
8.
内容はこんな感じです 1.データマイニングとは 2.Rを使ってみよう
3.その2つのデータ,本当に差があるの? ~仮説検定~ 4.ビールの生産計画を立てよう ~重回帰分析~ 5.自社サービス登録会員をグループ分けしてみよう ~クラスタリング~ 6.コンバージョン率を引き上げる要因はどこに? ~ロジスティック回帰~ 7.どのキャンペーンページが効果的だったのか? ~決定木~ 8.新規ユーザーの属性データから今後のアクティブユーザー数を予測しよう ~SVM/ランダムフォレスト~ 9.ECサイトの購入カテゴリデータから何が見える? ~アソシエーション 分析~ 10.Rでさらに広がるデータマイニングの世界 ~その他の分析メソッドにつ いて~ 古典的データマイニングと発展的課題
9.
しかし… 解説がないと、やさしく見えて 意外と難しい本だという声多数
思ったより 難しくね? 初心者向け にしては… 後半は結構 難しいよー
10.
そこで…
11.
そこで…
12.
最初に踏まえるべき最も基礎的なポイント 統計学は何をするもの? 機械学習は何をするもの?
13.
最初に踏まえるべき最も基礎的なポイント 統計学は何をするもの?
14.
最初に踏まえるべき最も基礎的なポイント 統計学は何をするもの? •例えば…
•そもそも「集計」とはどう違うのか? •統計学を使わなければ分からないことは あるのか?
15.
「集計」と「統計学的分析」の違い CVユーザー数の時系列 3種の広告投下額の時系列
こんなデータが あるとする
16.
「集計」と「統計学的分析」の違い 7日ごと(週次)に平均値を集計してプロットした 結果からは、何となくトレンドが見えるがイマイチ
はっきりしない
17.
本当にそれだけ分かればいいの?
18.
ちなみに…
19.
「集計」と「統計学的分析」の違い (線形)重回帰分析を行っても、トレンドが説明できない
20.
「集計」と「統計学的分析」の違い ベイジアンモデリングで二階トレンドつきモデルをやってみる (※動的線形モデルならもっと簡単にやれます&単に将来の発展に備えてMCサンプラー入れただけです)
広告予算1 広告予算2 広告予算3 日次 CV数 a b c 正規線形モデル オフセット項d 累積トレンド項 cum_trend + ベイジアン モデリング トレンド項trend Σ
21.
「集計」と「統計学的分析」の違い 3種類の広告それぞれの 効果の比
相関係数 0.99 階層ベイズモデルにより、トレンドを表現した上で正確にモデリング ※サンプルデータ作る時にノイズ乗せ忘れましたごめんなさい
22.
「集計」と「統計学的分析」の違い トレンド自体が時期ごとで変化している様子 までもがモデリングされる
相関係数 0.99
23.
「集計」と「統計学的分析」の違い 統計学は何をするもの?
24.
「集計」と「統計学的分析」の違い 統計学は何をするもの? 「集計」では分からないような、
ノイズに埋もれた「真の値」を推定 するためのもの
25.
最初に踏まえるべき最も基礎的なポイント 統計学は何をするもの? 機械学習は何をするもの?
26.
最初に踏まえるべき最も基礎的なポイントagain 機械学習は何をするもの?
27.
最初に踏まえるべき最も基礎的なポイントagain 機械学習は何をするもの? •例えば…
•普通にコード書いて処理するのとは どう違うのか? •そもそも「何」を学習するのか?
28.
28 分かりやすいパーセプトロンを例に
29.
「学習する」ということ •例えば識別モデル系であれば「識別関数」 の値の大小で分類する。
푦=풘푇풙 29
30.
「学習する」ということ •例えば識別モデル系であれば「識別関数」 の値の大小で分類する。
푦=풘푇풙 30 返値 (「±の符号」が大事!) 重みベクトル (こいつが学習結果) 入力信号 (これから識別したいもの)
31.
「学習する」ということ •「識別関数」の値の大小で分類するとは どういうこと?
푦=풘푇풙 31
32.
「学習する」ということ •識別関数から見て「どちら側か」で分類 するということ
푦=풘푇풙 32
33.
「学習する」ということ •例としてここではメールのSPAM判定を 想定する。
푦=풘푇풙 33 返値 (正なら非SPAM 負ならSPAM) 重みベクトル 入力信号 (メールの単語頻度)
34.
「学習する」ということ •まず、入力信号の例。 「メールの単語頻度」と仮定する。
풙= 「会議」という語の数 「目標」という語の数 「お買い得」という語の数 = 210 34
35.
「学習する」ということ •次に、重み信号の例。 풘=
푤1 푤2 푤3= 11−1 35
36.
「学習する」ということ •次に、重み信号の例。 풘=
푤1 푤2 푤3= 11−1 36 「会議」は非SPAM 「目標」は非SPAM 「お買い得」はSPAM
37.
「学習する」ということ •そこで識別関数を計算してみる。 풚=풘푇풙=11−1210=3
これは非SPAMだ! 37
38.
「学習する」ということ •ところが、SPAMじゃないはずなのにこう いうメールが来たら?
풙= 「会議」という語の数 「目標」という語の数 「お買い得」という語の数 = 113 38
39.
「学習する」ということ •識別関数を計算してみると… 풚=풘푇풙=11−1113=−1
あれ?非SPAMのはずなのに SPAM判定だ! 39
40.
「学習する」ということ •識別関数を計算してみると… 풚=풘푇풙=11−1113=−1
あれ?非SPAMのはずなのに SPAM判定だ! これは重みベクトルを変えなきゃ! 40
41.
「学習する」ということ •そこで、重み信号を以下のように更新する。 풘풏풆풘=풘표푙푑+휇
113= 11−1+ 휇 휇 3휇 = 1+휇 1+휇 −1+3휇 (휇は学習係数) 41 誤判定した時の入力信号の値
42.
「学習する」ということ •例えば学習係数휇が0.2なら… 풘풏풆풘=
1+휇 1+휇 −1+3휇 = 1.21.2−0.4 42
43.
「学習する」ということ •改めて同じ入力信号で識別関数を計算して みると…
풚=풘푇풙=1.21.2−0.4113=1.2 非SPAMだと正しく判定された! 43
44.
「学習する」ということ •改めて同じ入力信号で識別関数を計算して みると…
풚=풘푇풙=1.21.2−0.4113=1.2 非SPAMだと正しく判定された! こんな感じでパーセプトロンは学習していく。 44
45.
最初に踏まえるべき最も基礎的なポイントagain 機械学習は何をするもの?
46.
最初に踏まえるべき最も基礎的なポイントagain 機械学習は何をするもの? 学習データに基づいてパラメータ
を順次変えていくことで自動的に (例えば)分類するもの
47.
ここからは拙著の各章のポイントを 駆け足で紹介します
48.
第1章 データマイニングとは
49.
第1章 データマイニングとは 「分布」の概念を
覚えましょう!
50.
第2章 Rを使ってみよう
51.
第2章 Rを使ってみよう 1.Linuxへのインストールはしんどいかも…。
2.コーディング苦手でも大丈夫です。ここで forとifを取り上げていますが、実はこの後 一度もforもifも出てきません。
52.
第3章 その2つのデータ、 本当に差があるの?
~仮説検定~
53.
第3章 仮説検定 表3-2
表3-3 真の分布をシミュレート してみると、A/Bテスト の「集計値」を鵜呑みに してはいけないことが分 かります。 特に大事なのが、 カイ二乗検定と A/Bテストの下り。
54.
第4章 ビールの生産計画 を立てよう
~重回帰分析~
55.
第4章 重回帰分析 푓(푦푖)~훽0+훽1푥1푖+훽2푥2푖+훽3푥3푖+훽4푥4푖+⋯훽푛푥푛푖
CV数を適切に数理的に変換 してモデルの精度を上げる 102 78 91 84 110 CV数 1 2 0 1 3 広告1 3 0 2 1 4 広告2 0 1 0 0 1 広告3 2 1 2 1 2 広告4 1 3 3 2 3 広告n このβたちを推定する
56.
第4章 重回帰分析 푓(푦푖)←훽0+훽1푥1푖+훽2푥2푖+훽3푥3푖+훽4푥4푖+⋯훽푛푥푛푖
CV数を適切に数理的に変換 してモデルの精度を上げる 105 予測CV数 1 広告1 4 広告2 0 広告3 2 広告4 3 広告n このβたちから逆に CV数を予測できる 事前に計画された広告出稿計画
57.
第5章 自社サービス登録 会員をグループ分け
してみよう ~クラスタリング~
58.
第5章 クラスタリング ここでは「似ている・
似ていない」を表す 「距離」という考え方 への理解が大事。 これさえ分かればどの クラスタリングについ てもイメージを思い描 くことができるはず。
59.
第6章 コンバージョン率を 引き上げる要因は
どこに? ~ロジスティック回帰~
60.
第6章 ロジスティック回帰 푓(푦푖)~훽0+훽1푥1푖+훽2푥2푖+훽3푥3푖+훽4푥4푖+⋯훽푛푥푛푖
CVRを適切に数理 的に変換してモデル の精度を上げる 0.2 0.01 0 0.02 0.3 CVR 1 2 0 1 3 広告1 3 0 2 1 4 広告2 0 1 0 0 1 広告3 2 1 2 1 2 広告4 1 3 3 2 3 広告n このβたちを推定する
61.
第6章 ロジスティック回帰 直線(いわゆる普通の重回帰分析)
では当てはまらないからこそ、ここ で学ぶ一般化線形モデル(ロジス ティック回帰)を使うということへ の理解が大事。 一般化線形モデル全体 については難解なので 第10章で軽くまとめて あります。
62.
第7章 どのキャンペーンページが 効果的だったのか?
~決定木~
63.
第7章 決定木 非常に簡単な構造の機械学習で、なおかつ計算負荷も軽
いということを知っておけば概ねOK。
64.
第8章 新規ユーザーの属性データ から今後のアクティブ
ユーザー数を予測しよう ~SVM/ ランダムフォレスト~
65.
第8章 SVM /
ランダムフォレスト マージン最大化 カーネルトリック 2つの基礎を 組み合わせた ものがSVM
66.
第8章 SVM /
ランダムフォレスト ランダムフォレスト =決定木+相関低減バギング
67.
第9章 ECサイトの購入カテゴリ データから何が見える?
~アソシエーション分析~
68.
第9章 アソシエーション分析 Support
Confidence Lift とっつきにくいかもしれませんが、 これだけは覚えてください。
69.
第9章 アソシエーション分析 本命はこちらのグラフ表現。
データマイニング+アドホック分析の本流。
70.
第10章 Rでさらに広がる データマイニングの世界
~その他の分析メソッドに ついて~
71.
第10章 その他のデータ分析メソッドについて この章は完全に
尾崎の趣味なので 忘れて大丈夫です。
72.
最後に、本書全体を通じて
73.
最後に、本書全体を通じて 発展的内容は、ブログ同様 に出来るだけ脚注やコラム
の形でおさめてあります。 本書の「その先」を目指す には、是非脚注やコラムの 内容にも目を通していただ ければ幸いです。
74.
ということで、 今後本書を題材 にした質疑つき
勉強会が定期的 に開催…される かも?