SlideShare ist ein Scribd-Unternehmen logo
1 von 31
2011年
                 X.R 活動報告
                    Tokyo.R @yokkuns
                   Nagoya.R @sakaue
                  Hiroshima.R @sakaue
                    Osaka.R @langstat
                  Tsukuba.R @wakuteka
                  kashiwa.R @tsutatsuta


2011年11月28日月曜日
AGENDA
             • Tokyo.R
             • Nagoya.R & Hiroshima.R
             • Osaka.R
             • Tsukuba.R
             • Kashiwa.R
2011年11月28日月曜日
Tokyo.R
                 主催者 @yokkuns




2011年11月28日月曜日
Tokyo.R AGENDA


             • 自己紹介
             • 2011年のTokyo.R


2011年11月28日月曜日
Tokyo.R AGENDA


             • 自己紹介
             • 2011年のTokyo.R


2011年11月28日月曜日
里 洋平
                 • ID : @yokkuns
                 • 名前 : 里 洋平
                 • 職業 : データマイニング
                      エンジニア




2011年11月28日月曜日
Video Recommendation




2011年11月28日月曜日
市場予測




2011年11月28日月曜日
活動例(抜粋): Time Series Analysis

                         Anomaly detection
                     複数時系列から異常な振る舞いを検知する

                                                                           C
                                                                           A
        時系列のモデリング             複数時系列の異常検知                                   B

      時系列A                            時系列A

                                                                       異常な振る舞い
      時系列B


      時系列C                    時系列B           時系列C

                                異常な振る舞いの時系列を検出




                 例1:トラフィック異常検知                 例2:CM効果のノイズ除去

                    トラフィックA                         ケースA
                                                             CM効果
                    トラフィックB                         ケースB

                    トラフィックC    調査                   ケースC

                      異常な振る舞いをしている                  異常な振る舞いをしているケースを
                     トラフィックの原因を調査する                 除外して、CMの効果を算出する
                                                                                 85
2011年11月28日月曜日
活動例(抜粋): Time Series Analysis

                     Anomaly detection
                 新しいデータと過去時系列モデルの乖離から異常検出


                          8000.0000
                                             異常スコア推移   3.0000

  モデル構築
                                       異常値
  ◇例 : ARIMAモデル                                        2.2500




                          5970.7500                    1.5000




                                                       0.7500




                          3941.5000                         0



  異常スコアの算出
                                                       -0.7500

   ◇例 : 対数損失

                          1912.2500                    -1.5000




                                                       -2.2500




                          -117.0000                    -3.0000


                                                t
                                      4/ 週
                                      4/ 1 週
                                      4/ 8 週
                                       5/ 週
                                          2週

                                      5/ 週
                                      5/ 6 週
                                      5/ 3 週
                                       6/ 週
                                      6/ 週
                                      6/ 3 週
                                      6/ 0 週
                                       7/ 週
                                      7/ 週
                                      7/ 1 週
                                      7/ 週
                                            週
                                          4



                                        25


                                          9



                                        30
                                          6



                                        27
                                          4


                                        18
                                        25
                                  4/

                                        1
                                        1



                                       5/

                                        1
                                        2




                                        1
                                        2




                                        1
                                                             86
2011年11月28日月曜日
活動例(抜粋): Time Series Analysis

                      TV Commercial Effects
                 時系列的な振る舞いの特徴から各KPIへのCMの影響度を算出

                                                 イベン
             CM時系列                                   ト

                                        新規
                                        登録


                             CM                  ARPPU




                                        ARPU

            各KPIの時系列
                                                         その他
                                                         外部
                                  継続率
                                                         要因




                                               ケース




                                                           87

2011年11月28日月曜日
Tokyo.R AGENDA


             • 自己紹介
             • 2011年のTokyo.R


2011年11月28日月曜日
Tokyo.Rとは




          ◆ 数少ない社会人中心のRコミュニティ
          ◆ 2010年に設立し、現在第19回まで開催
          ◆ 様々な業種•職種の方が参加

2011年11月28日月曜日
参加人数推移

         参加
人数




  キャンセル


                   開催日
2011年11月28日月曜日
告知日と参加人数
  参加人数




                   告知日から開催日までの日数
2011年11月28日月曜日
告知日と参加人数
  参加人数




                   告知日から開催日までの日数
2011年11月28日月曜日
告知日と参加人数
  参加人数




                               上半期

                   告知日から開催日までの日数
2011年11月28日月曜日
告知日と参加人数
                              パッケージ本
                              著者サイン会
  参加人数




                               上半期

                   告知日から開催日までの日数
2011年11月28日月曜日
告知日と参加人数
                              パッケージ本
                              著者サイン会
  参加人数




                               上半期

                   告知日から開催日までの日数
2011年11月28日月曜日
告知日と参加人数
                     下半期は
                                     パッケージ本
                 1週間前に告知すれば
                                     著者サイン会
                    60名水準?
  参加人数




                                      上半期

                          告知日から開催日までの日数
2011年11月28日月曜日
発表テーマ
             •   テキスト: Rによるデータサイエンス

             •   金融・時系列解析

             •   計量経済・マーケティング

             •   機械学習•最適化

             •   パターン認識

             •   テキストマイニング

             •   異常検知

             •   大規模データ・高速化

             •   その他いろいろ

2011年11月28日月曜日
Rによるデータサイエンス
                     ・第6章 自己組織化マップ
                     ・Rによる回帰分析入門
                     ・線形判別分析
                     ・非線形判別の勉強をしてみました
                     ・テキスト第11章 生存分析
                     ・第12章「時系列」
                     ・第13章「樹木モデル」
                     ・第14章 ニューラルネットワーク

2011年11月28日月曜日
金融・時系列解析

             • Rで学ぶ回帰分析と単位根検定
             • xtsパッケージで時系列解析
             • Rで学ぶ現代ポートフォリオ理論
             • デリバティブについて

2011年11月28日月曜日
計量経済・マーケティング


             • Rで学ぶ傾向スコア解析入門
             • Rによる計量経済学入門
             • Rで計量経済
                 (操作変数を使ったバイアス調整)



2011年11月28日月曜日
機械学習•最適化
         • caretパッケージの紹介
         • R言語による Random Forest 徹底入門
         • Rで解く最適化問題 ‒ 線型計画問題編 ‒
         • 近似ベイズ計算でカジュアルなベイズ推定
         • 部分的最小二乗法
         • 最適化アレ コレ ソレ
2011年11月28日月曜日
パターン認識

             • 判別能力の評価
             • K-平均法
             • 混合正規分布モデル
             • k-近傍法、学習ベクトル量子化

2011年11月28日月曜日
テキストマイニング


             • Rで始めるテキストマイニング
             • YjdnJlpの紹介とか


2011年11月28日月曜日
異常検知

             • Rによる異常検知入門
             • 異常行動検出入門
             • サーバ異常検知入門


2011年11月28日月曜日
大規模データ・高速化
     • RにおけるHPC 並列計算編
     • Rが黄色い象に出会った
     • 大規模データマイニングでのモデル探索手法:
          K-sample plot

     • Rで大規模データ解析
     • RHadoopの紹介
     • RでGPU使ってみるわ∼
2011年11月28日月曜日
発表資料




2011年11月28日月曜日
次回以降の
    発表者を募集しています


2011年11月28日月曜日

Weitere ähnliche Inhalte

Andere mochten auch

Japan r2 opening
Japan r2 openingJapan r2 opening
Japan r2 openingYohei Sato
 
Tokyowebmining07 初めてでも分かるヘッジファンド入門
Tokyowebmining07 初めてでも分かるヘッジファンド入門Tokyowebmining07 初めてでも分かるヘッジファンド入門
Tokyowebmining07 初めてでも分かるヘッジファンド入門Yohei Sato
 
エンジニアサポート新年会2012 データマイニングcross 第1部
エンジニアサポート新年会2012 データマイニングcross 第1部エンジニアサポート新年会2012 データマイニングcross 第1部
エンジニアサポート新年会2012 データマイニングcross 第1部Yohei Sato
 
Tokyor14 - R言語でユニットテスト
Tokyor14 - R言語でユニットテストTokyor14 - R言語でユニットテスト
Tokyor14 - R言語でユニットテストYohei Sato
 
Tokyor39 yokkuns
Tokyor39 yokkunsTokyor39 yokkuns
Tokyor39 yokkunsYohei Sato
 
Tokyor10 opening
Tokyor10 openingTokyor10 opening
Tokyor10 openingYohei Sato
 
第3回Japan rパネルディスカッション
第3回Japan rパネルディスカッション第3回Japan rパネルディスカッション
第3回Japan rパネルディスカッションYohei Sato
 
20131206 japan r
20131206 japan r20131206 japan r
20131206 japan rYohei Sato
 
Tokyor13 - YjdnJlpパッケージとTokyo.R翻訳プロジェクトの紹介
Tokyor13 - YjdnJlpパッケージとTokyo.R翻訳プロジェクトの紹介Tokyor13 - YjdnJlpパッケージとTokyo.R翻訳プロジェクトの紹介
Tokyor13 - YjdnJlpパッケージとTokyo.R翻訳プロジェクトの紹介Yohei Sato
 
EasyHtmlReportの紹介
EasyHtmlReportの紹介EasyHtmlReportの紹介
EasyHtmlReportの紹介Yohei Sato
 
Tokyor26 data fusion
Tokyor26 data fusionTokyor26 data fusion
Tokyor26 data fusionYohei Sato
 
Sakuteki02 yokkuns
Sakuteki02 yokkunsSakuteki02 yokkuns
Sakuteki02 yokkunsYohei Sato
 
Rでレポートメール
RでレポートメールRでレポートメール
RでレポートメールYohei Sato
 
Tokyowebmining09 初めてでも分かるペアトレード
Tokyowebmining09 初めてでも分かるペアトレードTokyowebmining09 初めてでも分かるペアトレード
Tokyowebmining09 初めてでも分かるペアトレードYohei Sato
 
Tokyor35 人工データの発生
Tokyor35 人工データの発生Tokyor35 人工データの発生
Tokyor35 人工データの発生Yohei Sato
 
傾向スコア解析とUplift Modelling
傾向スコア解析とUplift Modelling傾向スコア解析とUplift Modelling
傾向スコア解析とUplift ModellingYohei Sato
 
Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み
Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組みTokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み
Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組みYohei Sato
 
ドリコムの分析環境とデータサイエンス活用事例
ドリコムの分析環境とデータサイエンス活用事例ドリコムの分析環境とデータサイエンス活用事例
ドリコムの分析環境とデータサイエンス活用事例Yohei Sato
 

Andere mochten auch (20)

Ml4nlp04 1
Ml4nlp04 1Ml4nlp04 1
Ml4nlp04 1
 
Japan r2 opening
Japan r2 openingJapan r2 opening
Japan r2 opening
 
Japanr01
Japanr01Japanr01
Japanr01
 
Tokyowebmining07 初めてでも分かるヘッジファンド入門
Tokyowebmining07 初めてでも分かるヘッジファンド入門Tokyowebmining07 初めてでも分かるヘッジファンド入門
Tokyowebmining07 初めてでも分かるヘッジファンド入門
 
エンジニアサポート新年会2012 データマイニングcross 第1部
エンジニアサポート新年会2012 データマイニングcross 第1部エンジニアサポート新年会2012 データマイニングcross 第1部
エンジニアサポート新年会2012 データマイニングcross 第1部
 
Tokyor14 - R言語でユニットテスト
Tokyor14 - R言語でユニットテストTokyor14 - R言語でユニットテスト
Tokyor14 - R言語でユニットテスト
 
Tokyor39 yokkuns
Tokyor39 yokkunsTokyor39 yokkuns
Tokyor39 yokkuns
 
Tokyor10 opening
Tokyor10 openingTokyor10 opening
Tokyor10 opening
 
第3回Japan rパネルディスカッション
第3回Japan rパネルディスカッション第3回Japan rパネルディスカッション
第3回Japan rパネルディスカッション
 
20131206 japan r
20131206 japan r20131206 japan r
20131206 japan r
 
Tokyor13 - YjdnJlpパッケージとTokyo.R翻訳プロジェクトの紹介
Tokyor13 - YjdnJlpパッケージとTokyo.R翻訳プロジェクトの紹介Tokyor13 - YjdnJlpパッケージとTokyo.R翻訳プロジェクトの紹介
Tokyor13 - YjdnJlpパッケージとTokyo.R翻訳プロジェクトの紹介
 
EasyHtmlReportの紹介
EasyHtmlReportの紹介EasyHtmlReportの紹介
EasyHtmlReportの紹介
 
Tokyor26 data fusion
Tokyor26 data fusionTokyor26 data fusion
Tokyor26 data fusion
 
Sakuteki02 yokkuns
Sakuteki02 yokkunsSakuteki02 yokkuns
Sakuteki02 yokkuns
 
Rでレポートメール
RでレポートメールRでレポートメール
Rでレポートメール
 
Tokyowebmining09 初めてでも分かるペアトレード
Tokyowebmining09 初めてでも分かるペアトレードTokyowebmining09 初めてでも分かるペアトレード
Tokyowebmining09 初めてでも分かるペアトレード
 
Tokyor35 人工データの発生
Tokyor35 人工データの発生Tokyor35 人工データの発生
Tokyor35 人工データの発生
 
傾向スコア解析とUplift Modelling
傾向スコア解析とUplift Modelling傾向スコア解析とUplift Modelling
傾向スコア解析とUplift Modelling
 
Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み
Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組みTokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み
Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み
 
ドリコムの分析環境とデータサイエンス活用事例
ドリコムの分析環境とデータサイエンス活用事例ドリコムの分析環境とデータサイエンス活用事例
ドリコムの分析環境とデータサイエンス活用事例
 

Mehr von Yohei Sato

Tokyor60 r data_science_part1
Tokyor60 r data_science_part1Tokyor60 r data_science_part1
Tokyor60 r data_science_part1Yohei Sato
 
Tokyor60 opening
Tokyor60 openingTokyor60 opening
Tokyor60 openingYohei Sato
 
Tokyor42_r_datamining_18
Tokyor42_r_datamining_18Tokyor42_r_datamining_18
Tokyor42_r_datamining_18Yohei Sato
 
Tokyor42 ggplot2
Tokyor42 ggplot2Tokyor42 ggplot2
Tokyor42 ggplot2Yohei Sato
 
R言語で学ぶマーケティング分析 競争ポジショニング戦略
R言語で学ぶマーケティング分析 競争ポジショニング戦略R言語で学ぶマーケティング分析 競争ポジショニング戦略
R言語で学ぶマーケティング分析 競争ポジショニング戦略Yohei Sato
 
Rで階層ベイズモデル
Rで階層ベイズモデルRで階層ベイズモデル
Rで階層ベイズモデルYohei Sato
 
Rで学ぶ 傾向スコア解析入門 - 無作為割り当てが出来ない時の因果効果推定 -
Rで学ぶ 傾向スコア解析入門 - 無作為割り当てが出来ない時の因果効果推定 -Rで学ぶ 傾向スコア解析入門 - 無作為割り当てが出来ない時の因果効果推定 -
Rで学ぶ 傾向スコア解析入門 - 無作為割り当てが出来ない時の因果効果推定 -Yohei Sato
 
異常行動検出入門 – 行動データ時系列のデータマイニング –
異常行動検出入門 – 行動データ時系列のデータマイニング –異常行動検出入門 – 行動データ時系列のデータマイニング –
異常行動検出入門 – 行動データ時系列のデータマイニング –Yohei Sato
 
Tokyo r15 異常検知入門
Tokyo r15 異常検知入門Tokyo r15 異常検知入門
Tokyo r15 異常検知入門Yohei Sato
 
時系列分析による異常検知入門
時系列分析による異常検知入門時系列分析による異常検知入門
時系列分析による異常検知入門Yohei Sato
 

Mehr von Yohei Sato (10)

Tokyor60 r data_science_part1
Tokyor60 r data_science_part1Tokyor60 r data_science_part1
Tokyor60 r data_science_part1
 
Tokyor60 opening
Tokyor60 openingTokyor60 opening
Tokyor60 opening
 
Tokyor42_r_datamining_18
Tokyor42_r_datamining_18Tokyor42_r_datamining_18
Tokyor42_r_datamining_18
 
Tokyor42 ggplot2
Tokyor42 ggplot2Tokyor42 ggplot2
Tokyor42 ggplot2
 
R言語で学ぶマーケティング分析 競争ポジショニング戦略
R言語で学ぶマーケティング分析 競争ポジショニング戦略R言語で学ぶマーケティング分析 競争ポジショニング戦略
R言語で学ぶマーケティング分析 競争ポジショニング戦略
 
Rで階層ベイズモデル
Rで階層ベイズモデルRで階層ベイズモデル
Rで階層ベイズモデル
 
Rで学ぶ 傾向スコア解析入門 - 無作為割り当てが出来ない時の因果効果推定 -
Rで学ぶ 傾向スコア解析入門 - 無作為割り当てが出来ない時の因果効果推定 -Rで学ぶ 傾向スコア解析入門 - 無作為割り当てが出来ない時の因果効果推定 -
Rで学ぶ 傾向スコア解析入門 - 無作為割り当てが出来ない時の因果効果推定 -
 
異常行動検出入門 – 行動データ時系列のデータマイニング –
異常行動検出入門 – 行動データ時系列のデータマイニング –異常行動検出入門 – 行動データ時系列のデータマイニング –
異常行動検出入門 – 行動データ時系列のデータマイニング –
 
Tokyo r15 異常検知入門
Tokyo r15 異常検知入門Tokyo r15 異常検知入門
Tokyo r15 異常検知入門
 
時系列分析による異常検知入門
時系列分析による異常検知入門時系列分析による異常検知入門
時系列分析による異常検知入門
 

Japan r2 tokyor

  • 1. 2011年 X.R 活動報告 Tokyo.R @yokkuns Nagoya.R @sakaue Hiroshima.R @sakaue Osaka.R @langstat Tsukuba.R @wakuteka kashiwa.R @tsutatsuta 2011年11月28日月曜日
  • 2. AGENDA • Tokyo.R • Nagoya.R & Hiroshima.R • Osaka.R • Tsukuba.R • Kashiwa.R 2011年11月28日月曜日
  • 3. Tokyo.R 主催者 @yokkuns 2011年11月28日月曜日
  • 4. Tokyo.R AGENDA • 自己紹介 • 2011年のTokyo.R 2011年11月28日月曜日
  • 5. Tokyo.R AGENDA • 自己紹介 • 2011年のTokyo.R 2011年11月28日月曜日
  • 6. 里 洋平 • ID : @yokkuns • 名前 : 里 洋平 • 職業 : データマイニング エンジニア 2011年11月28日月曜日
  • 9. 活動例(抜粋): Time Series Analysis Anomaly detection 複数時系列から異常な振る舞いを検知する C A 時系列のモデリング 複数時系列の異常検知 B 時系列A 時系列A 異常な振る舞い 時系列B 時系列C 時系列B 時系列C 異常な振る舞いの時系列を検出 例1:トラフィック異常検知 例2:CM効果のノイズ除去 トラフィックA ケースA CM効果 トラフィックB ケースB トラフィックC 調査 ケースC 異常な振る舞いをしている 異常な振る舞いをしているケースを トラフィックの原因を調査する 除外して、CMの効果を算出する 85 2011年11月28日月曜日
  • 10. 活動例(抜粋): Time Series Analysis Anomaly detection 新しいデータと過去時系列モデルの乖離から異常検出 8000.0000 異常スコア推移 3.0000 モデル構築 異常値 ◇例 : ARIMAモデル 2.2500 5970.7500 1.5000 0.7500 3941.5000 0 異常スコアの算出 -0.7500 ◇例 : 対数損失 1912.2500 -1.5000 -2.2500 -117.0000 -3.0000 t 4/ 週 4/ 1 週 4/ 8 週 5/ 週 2週 5/ 週 5/ 6 週 5/ 3 週 6/ 週 6/ 週 6/ 3 週 6/ 0 週 7/ 週 7/ 週 7/ 1 週 7/ 週 週 4 25 9 30 6 27 4 18 25 4/ 1 1 5/ 1 2 1 2 1 86 2011年11月28日月曜日
  • 11. 活動例(抜粋): Time Series Analysis TV Commercial Effects 時系列的な振る舞いの特徴から各KPIへのCMの影響度を算出 イベン CM時系列 ト 新規 登録 CM ARPPU ARPU 各KPIの時系列 その他 外部 継続率 要因 ケース 87 2011年11月28日月曜日
  • 12. Tokyo.R AGENDA • 自己紹介 • 2011年のTokyo.R 2011年11月28日月曜日
  • 13. Tokyo.Rとは ◆ 数少ない社会人中心のRコミュニティ ◆ 2010年に設立し、現在第19回まで開催 ◆ 様々な業種•職種の方が参加 2011年11月28日月曜日
  • 14. 参加人数推移 参加 人数 キャンセル 開催日 2011年11月28日月曜日
  • 15. 告知日と参加人数 参加人数 告知日から開催日までの日数 2011年11月28日月曜日
  • 16. 告知日と参加人数 参加人数 告知日から開催日までの日数 2011年11月28日月曜日
  • 17. 告知日と参加人数 参加人数 上半期 告知日から開催日までの日数 2011年11月28日月曜日
  • 18. 告知日と参加人数 パッケージ本 著者サイン会 参加人数 上半期 告知日から開催日までの日数 2011年11月28日月曜日
  • 19. 告知日と参加人数 パッケージ本 著者サイン会 参加人数 上半期 告知日から開催日までの日数 2011年11月28日月曜日
  • 20. 告知日と参加人数 下半期は パッケージ本 1週間前に告知すれば 著者サイン会 60名水準? 参加人数 上半期 告知日から開催日までの日数 2011年11月28日月曜日
  • 21. 発表テーマ • テキスト: Rによるデータサイエンス • 金融・時系列解析 • 計量経済・マーケティング • 機械学習•最適化 • パターン認識 • テキストマイニング • 異常検知 • 大規模データ・高速化 • その他いろいろ 2011年11月28日月曜日
  • 22. Rによるデータサイエンス ・第6章 自己組織化マップ ・Rによる回帰分析入門 ・線形判別分析 ・非線形判別の勉強をしてみました ・テキスト第11章 生存分析 ・第12章「時系列」 ・第13章「樹木モデル」 ・第14章 ニューラルネットワーク 2011年11月28日月曜日
  • 23. 金融・時系列解析 • Rで学ぶ回帰分析と単位根検定 • xtsパッケージで時系列解析 • Rで学ぶ現代ポートフォリオ理論 • デリバティブについて 2011年11月28日月曜日
  • 24. 計量経済・マーケティング • Rで学ぶ傾向スコア解析入門 • Rによる計量経済学入門 • Rで計量経済 (操作変数を使ったバイアス調整) 2011年11月28日月曜日
  • 25. 機械学習•最適化 • caretパッケージの紹介 • R言語による Random Forest 徹底入門 • Rで解く最適化問題 ‒ 線型計画問題編 ‒ • 近似ベイズ計算でカジュアルなベイズ推定 • 部分的最小二乗法 • 最適化アレ コレ ソレ 2011年11月28日月曜日
  • 26. パターン認識 • 判別能力の評価 • K-平均法 • 混合正規分布モデル • k-近傍法、学習ベクトル量子化 2011年11月28日月曜日
  • 27. テキストマイニング • Rで始めるテキストマイニング • YjdnJlpの紹介とか 2011年11月28日月曜日
  • 28. 異常検知 • Rによる異常検知入門 • 異常行動検出入門 • サーバ異常検知入門 2011年11月28日月曜日
  • 29. 大規模データ・高速化 • RにおけるHPC 並列計算編 • Rが黄色い象に出会った • 大規模データマイニングでのモデル探索手法: K-sample plot • Rで大規模データ解析 • RHadoopの紹介 • RでGPU使ってみるわ∼ 2011年11月28日月曜日
  • 31. 次回以降の 発表者を募集しています 2011年11月28日月曜日