SlideShare a Scribd company logo
1 of 16
びっぐでぇた解析環境あ~る
~Revolution R Enterprise のご紹介~
                        2012/12/04
                        Japan.R #03
                        Matsui Hiroki
                      (@Hiro_macchan)


2012/12/1 Japan.R#3                     1
はじめに
 このプレゼンテーションは個人の見解で
有り、いかなる所属組織の公式見解ではあ
りません。
 また、このプレゼンテーションにおい
て、営利企業の製品に関する言及がありま
すが、購入を推奨、もしくは非推奨するも
のではないことをご留意下さい。


2012/12/1 Japan.R#3   2
自己紹介
• Matsui Hiroki (RPT,MPH)
• 出身:琵琶湖 住まい:荒川 職場:都内
  赤門
• 職業:医療政策に関する研究をしていま
  す。
• Twitter: Hiro_macchan


     未熟者ですので間違い等は指摘して下さ
             い。
      (できれば、お手柔らかに。。)
2012/12/1 Japan.R#3         3
背景
• R はオンメモリで処理をするから、大きな
  データを扱うのは結構苦手。
• 偉大な諸先輩方の貴重な資料




                      @sfchaos さん    @wdkz さん
                      (2011/04/10)   (2012/09/08)
2012/12/1 Japan.R#3                                 4
背景
• 2012/08/04開催のTokyo.Rにおいて




• Rをベースとした商用ソフトウェアRevolution
  R Enterprise内のプログラムであるRevosclae R
  についてご紹介
• 一部紹介しきれず、土下座orz
2012/12/1 Japan.R#3                   5
このLT でお話したいこと
• Rをベースとした商業ソフトRevolution R内
  のプログラムであるRevosclaeRについてご
  紹介




2012/12/1 Japan.R#3            6
RevoScaleRについて
• Revolution Analytics @カルフォルニア製
• Revolution R Enterprize に同梱されたパッケー
  ジみたいな扱い。
• HDD上にXDF形式のデータの本体を置くこと
  で大規模データを取り扱えるようになる。
• 最近Revolution R Enterprize 6.1が出た。
• $1,000@1USER
• アカデミアにいる人はフリーで利用できる。
      →人柱にならなくても試せる!!

2012/12/1 Japan.R#3                    7
実際の画面




2012/12/1 Japan.R#3   8
実際の画面


                      コマンドエディタ              プロジェクトの管理




                      コマンドライン               オブジェクトの管理




2012/12/1 Japan.R#3    コマンドエディタはRstudio の方が何か好          9
                       き。。
今回使用するデータセットについ
て
• Data Expo 2009
      – アメリカの航空旅客機の飛行データ
      – 1987年~2008年
      – http://stat-computing.org/dataexpo/2009/the-
        data.html
      – フライトの日時や予定離着陸時間、目的地な
        どの情報を29カラムで表している。
      – 今回は、時間の都合上2008年のデータを使用
      – 実は、普通にメモリに乗っかる。。。
2012/12/1 Japan.R#3                                    10
実際に使ってみる。
colClasses <- c(Year=“factor”, …. , DepTime="character", …. , ActualElapsedTime="numeric",…..)
dat.2008.rx <- rxTextToXdf(inFile=file.pass,
                outFile="air2008.xdf",
                overwrite=TRUE,                        Named vector で大体のデータ型
                colClasses = colClasses )                       指定が可能


                                                注意:データを保存する先を指
                                                定しないとメモリに乗っかって
                                                      くる。




                                                           データを分割してHDDに吐いて
                                                                 る。

    2012/12/1 Japan.R#3                                                               11
実際に使ってみる
rxCrossTabs(~ DayofMonth, data = "air2008.xdf")
      3 233259
      4 228649                        月初から月末までのフライト件数
      5 228156                        Factor のlevelの順番がなんか変?
      6 228117                                                                        0 200 600 1000 1400                 0 200   600 1000 1400

                                                                           9                 10                11                 12
      7 233797                                             6000

      ....                                                 5000
                                                           4000

      2 230865                                             3000
                                                           2000

      1 229292                                             1000
                                                             0
                                                                           5                 6                 7                   8
                                                                                                                                                  60
dat.2008.cube <-                                                                                                                                  50




                                                  Counts
                                                                                                                                                  40
rxCube(~F(AirTime):Month, data =                                                                                                                  30
                                                                                                                                                  20
"air2008.xdf")                                                                                                                                    10

rxLinePlot(Counts~AirTime|Month, data=rxR                                  1                 2                 3                   4
                                                                                                                                                  0



esultsDF(dat.2008.cube))                                   6000
                                                           5000
                                                           4000
                                                           3000
                                                           2000
                                                           1000
                                                             0

  2012/12/1 Japan.R#3                                             0 200   600 1000 1400                 0 200 600 1000 1400       12
                                                                                                   AirTime
実際に使ってみる。
myGlmLogit <- rxGlm(Cancelled ~ Month + DayOfWeek, data =
"air2008.xdf",
summary(memoryGlmLogit)        family = binomial(link="logit"))
  Coefficients:
           Estimate Std. Error z value Pr(>|z|)
  (Intercept) -3.402642 0.010038 -338.965 2.22e-16 ***
  Month=1 -0.132518 0.010854 -12.209 2.22e-16 ***
                                                                  glm→rxGlm に。
  Month=2 0.104402 0.010430 10.010 2.22e-16 ***
  Month=3 -0.211816 0.011038 -19.190 2.22e-16 ***
  ・・・・
  Month=9 -0.592640 0.012688 -46.709 2.22e-16 ***
  Month=10 -1.746840 0.019185 -91.052 2.22e-16 ***
  Month=11 -1.356062 0.016872 -80.373 2.22e-16 ***
  Month=12 Dropped Dropped Dropped Dropped
  DayOfWeek=4 -0.103478 0.010387 -9.962 2.22e-16 ***
  DayOfWeek=5 0.184902 0.009690 19.082 2.22e-16 ***
  ・・・・・
  DayOfWeek=2 0.132802 0.009751 13.619 2.22e-16 ***
     2012/12/1 Japan.R#3                                                    13
  DayOfWeek=3 Dropped Dropped Dropped Dropped
サンプリングした結果と比べてみ
   る。
sample.no <- sample(1:nrow(dat.2008.rx.2), 500000)
sub.data.3 <- dat.2008.rx.2[sample.no, ]   Coefficients:
                                                  Estimate Std. Error z value Pr(>|z|)
                                           (Intercept) -3.47509 0.03828 -90.777 < 2e-16 ***
                                           Month1 -0.11197 0.04097 -2.733 0.006278 **
                                           Month2       0.15486 0.03923 3.948 7.88e-05 ***
                                           Month3 -0.20073 0.04185 -4.796 1.61e-06 ***
    Referenceのレベルを                         Month4 -0.63044 0.04727 -13.336 < 2e-16 ***
     何にするかがrxGlm                           Month5 -1.13177 0.05566 -20.333 < 2e-16 ***
       とglmで違う?                            Month6 -0.54642 0.04599 -11.881 < 2e-16 ***
                                           Month7 -0.63464 0.04658 -13.624 < 2e-16 ***
                                           Month8 -0.69782 0.04812 -14.503 < 2e-16 ***
                                           Month9 -0.56999 0.04798 -11.880 < 2e-16 ***
                                           Month10 -1.77033 0.07354 -24.071 < 2e-16 ***
     傾向は同じっぽいん                             Month11 -1.35792 0.06415 -21.169 < 2e-16 ***
      で宜しいのでは?                             DayOfWeek4 -0.04787 0.03920 -1.221 0.222011
                                           DayOfWeek5 0.21635 0.03685 5.871 4.34e-09 ***
                                           DayOfWeek6 -0.14814 0.04241 -3.493 0.000477 **
                                           DayOfWeek7 0.02619 0.03898 0.672 0.501654
    2012/12/1 Japan.R#3                    DayOfWeek1 0.05793 0.03796 1.526 0.127006   14
感想
• 6.1から決定木をサポートしたみたい。
• Windwos HPC Serverを使った並列分散処理をサポートし
  ているみたい。そういえば、AWS でWin Svr 2012が使え
  る。。

 この辺のレポートは
 R advent Calendar 2012(http://atnd.org/events/31973)
 にて 記載予定です。僕が元気であれば。。。

• 回帰分析したいだけなら、サンプリングの方がお手軽だ
  し早いんではという疑問は、現実場面で独自解決して下
  さい。他ソフトとの連携大切。

 2012/12/1 Japan.R#3                                    15
Thank you!!




2012/12/1 Japan.R#3                 16

More Related Content

What's hot

Rプログラミング02 データ入出力編
Rプログラミング02 データ入出力編Rプログラミング02 データ入出力編
Rプログラミング02 データ入出力編wada, kazumi
 
ストリーム処理におけるApache Avroの活用について(NTTデータ テクノロジーカンファレンス 2019 講演資料、2019/09/05)
ストリーム処理におけるApache Avroの活用について(NTTデータ テクノロジーカンファレンス 2019 講演資料、2019/09/05)ストリーム処理におけるApache Avroの活用について(NTTデータ テクノロジーカンファレンス 2019 講演資料、2019/09/05)
ストリーム処理におけるApache Avroの活用について(NTTデータ テクノロジーカンファレンス 2019 講演資料、2019/09/05)NTT DATA Technology & Innovation
 
汎用Web API“SPARQL”でオープンデータ検索
汎用Web API“SPARQL”でオープンデータ検索汎用Web API“SPARQL”でオープンデータ検索
汎用Web API“SPARQL”でオープンデータ検索uedayou
 
Rプログラミング01 はじめの一歩
Rプログラミング01 はじめの一歩Rプログラミング01 はじめの一歩
Rプログラミング01 はじめの一歩wada, kazumi
 
データベースシステム論12 - 問い合わせ処理と最適化
データベースシステム論12 - 問い合わせ処理と最適化データベースシステム論12 - 問い合わせ処理と最適化
データベースシステム論12 - 問い合わせ処理と最適化Shohei Yokoyama
 
Oracle Cloud Developers Meetup@東京
Oracle Cloud Developers Meetup@東京Oracle Cloud Developers Meetup@東京
Oracle Cloud Developers Meetup@東京tuchimur
 
SPARQLでオープンデータ活用!
SPARQLでオープンデータ活用!SPARQLでオープンデータ活用!
SPARQLでオープンデータ活用!uedayou
 
データベース13 - トランザクションと障害回復
データベース13 - トランザクションと障害回復データベース13 - トランザクションと障害回復
データベース13 - トランザクションと障害回復Kenta Oku
 
データベースシステム論08 - SQL応用演習 結合演算とその他
データベースシステム論08 - SQL応用演習 結合演算とその他データベースシステム論08 - SQL応用演習 結合演算とその他
データベースシステム論08 - SQL応用演習 結合演算とその他Shohei Yokoyama
 
オープンデータと Linked Open Data(LOD)@神戸R
オープンデータとLinked Open Data(LOD)@神戸RオープンデータとLinked Open Data(LOD)@神戸R
オープンデータと Linked Open Data(LOD)@神戸RKouji Kozaki
 
SPARQLを利用した逆マッシュアップ-プログラミングを必要としないアプリ作成方法-
SPARQLを利用した逆マッシュアップ-プログラミングを必要としないアプリ作成方法-SPARQLを利用した逆マッシュアップ-プログラミングを必要としないアプリ作成方法-
SPARQLを利用した逆マッシュアップ-プログラミングを必要としないアプリ作成方法-uedayou
 
Luceneインデックスの共起単語分析とSolrによる共起単語サジェスチョン
Luceneインデックスの共起単語分析とSolrによる共起単語サジェスチョンLuceneインデックスの共起単語分析とSolrによる共起単語サジェスチョン
Luceneインデックスの共起単語分析とSolrによる共起単語サジェスチョンKoji Sekiguchi
 
Linked Open Data勉強会2020 後編:SPARQLの簡単な使い方、SPARQLを使った簡単なアプリ開発
Linked Open Data勉強会2020 後編:SPARQLの簡単な使い方、SPARQLを使った簡単なアプリ開発Linked Open Data勉強会2020 後編:SPARQLの簡単な使い方、SPARQLを使った簡単なアプリ開発
Linked Open Data勉強会2020 後編:SPARQLの簡単な使い方、SPARQLを使った簡単なアプリ開発KnowledgeGraph
 
XLWrapについてのご紹介
XLWrapについてのご紹介XLWrapについてのご紹介
XLWrapについてのご紹介Ohsawa Goodfellow
 
Rにおける大規模データ解析(第10回TokyoWebMining)
Rにおける大規模データ解析(第10回TokyoWebMining)Rにおける大規模データ解析(第10回TokyoWebMining)
Rにおける大規模データ解析(第10回TokyoWebMining)Shintaro Fukushima
 
Rユーザのためのspark入門
Rユーザのためのspark入門Rユーザのためのspark入門
Rユーザのためのspark入門Shintaro Fukushima
 
データベースシステム論11 - データベースの構成
データベースシステム論11 - データベースの構成データベースシステム論11 - データベースの構成
データベースシステム論11 - データベースの構成Shohei Yokoyama
 
OSC2012 Tokyo/Spring - Hadoop入門
OSC2012 Tokyo/Spring - Hadoop入門OSC2012 Tokyo/Spring - Hadoop入門
OSC2012 Tokyo/Spring - Hadoop入門Shinichi YAMASHITA
 

What's hot (20)

Rプログラミング02 データ入出力編
Rプログラミング02 データ入出力編Rプログラミング02 データ入出力編
Rプログラミング02 データ入出力編
 
ストリーム処理におけるApache Avroの活用について(NTTデータ テクノロジーカンファレンス 2019 講演資料、2019/09/05)
ストリーム処理におけるApache Avroの活用について(NTTデータ テクノロジーカンファレンス 2019 講演資料、2019/09/05)ストリーム処理におけるApache Avroの活用について(NTTデータ テクノロジーカンファレンス 2019 講演資料、2019/09/05)
ストリーム処理におけるApache Avroの活用について(NTTデータ テクノロジーカンファレンス 2019 講演資料、2019/09/05)
 
汎用Web API“SPARQL”でオープンデータ検索
汎用Web API“SPARQL”でオープンデータ検索汎用Web API“SPARQL”でオープンデータ検索
汎用Web API“SPARQL”でオープンデータ検索
 
Rプログラミング01 はじめの一歩
Rプログラミング01 はじめの一歩Rプログラミング01 はじめの一歩
Rプログラミング01 はじめの一歩
 
データベースシステム論12 - 問い合わせ処理と最適化
データベースシステム論12 - 問い合わせ処理と最適化データベースシステム論12 - 問い合わせ処理と最適化
データベースシステム論12 - 問い合わせ処理と最適化
 
Oracle Cloud Developers Meetup@東京
Oracle Cloud Developers Meetup@東京Oracle Cloud Developers Meetup@東京
Oracle Cloud Developers Meetup@東京
 
SPARQLでオープンデータ活用!
SPARQLでオープンデータ活用!SPARQLでオープンデータ活用!
SPARQLでオープンデータ活用!
 
データベース13 - トランザクションと障害回復
データベース13 - トランザクションと障害回復データベース13 - トランザクションと障害回復
データベース13 - トランザクションと障害回復
 
データベースシステム論08 - SQL応用演習 結合演算とその他
データベースシステム論08 - SQL応用演習 結合演算とその他データベースシステム論08 - SQL応用演習 結合演算とその他
データベースシステム論08 - SQL応用演習 結合演算とその他
 
オープンデータと Linked Open Data(LOD)@神戸R
オープンデータとLinked Open Data(LOD)@神戸RオープンデータとLinked Open Data(LOD)@神戸R
オープンデータと Linked Open Data(LOD)@神戸R
 
学術分野の事例紹介
学術分野の事例紹介学術分野の事例紹介
学術分野の事例紹介
 
Mongodb 紹介
Mongodb 紹介Mongodb 紹介
Mongodb 紹介
 
SPARQLを利用した逆マッシュアップ-プログラミングを必要としないアプリ作成方法-
SPARQLを利用した逆マッシュアップ-プログラミングを必要としないアプリ作成方法-SPARQLを利用した逆マッシュアップ-プログラミングを必要としないアプリ作成方法-
SPARQLを利用した逆マッシュアップ-プログラミングを必要としないアプリ作成方法-
 
Luceneインデックスの共起単語分析とSolrによる共起単語サジェスチョン
Luceneインデックスの共起単語分析とSolrによる共起単語サジェスチョンLuceneインデックスの共起単語分析とSolrによる共起単語サジェスチョン
Luceneインデックスの共起単語分析とSolrによる共起単語サジェスチョン
 
Linked Open Data勉強会2020 後編:SPARQLの簡単な使い方、SPARQLを使った簡単なアプリ開発
Linked Open Data勉強会2020 後編:SPARQLの簡単な使い方、SPARQLを使った簡単なアプリ開発Linked Open Data勉強会2020 後編:SPARQLの簡単な使い方、SPARQLを使った簡単なアプリ開発
Linked Open Data勉強会2020 後編:SPARQLの簡単な使い方、SPARQLを使った簡単なアプリ開発
 
XLWrapについてのご紹介
XLWrapについてのご紹介XLWrapについてのご紹介
XLWrapについてのご紹介
 
Rにおける大規模データ解析(第10回TokyoWebMining)
Rにおける大規模データ解析(第10回TokyoWebMining)Rにおける大規模データ解析(第10回TokyoWebMining)
Rにおける大規模データ解析(第10回TokyoWebMining)
 
Rユーザのためのspark入門
Rユーザのためのspark入門Rユーザのためのspark入門
Rユーザのためのspark入門
 
データベースシステム論11 - データベースの構成
データベースシステム論11 - データベースの構成データベースシステム論11 - データベースの構成
データベースシステム論11 - データベースの構成
 
OSC2012 Tokyo/Spring - Hadoop入門
OSC2012 Tokyo/Spring - Hadoop入門OSC2012 Tokyo/Spring - Hadoop入門
OSC2012 Tokyo/Spring - Hadoop入門
 

Viewers also liked

Tokyo r #37 Rubin's Rule
Tokyo r #37 Rubin's RuleTokyo r #37 Rubin's Rule
Tokyo r #37 Rubin's RuleHiroki Matsui
 
Rで学ぶ観察データでの因果推定
Rで学ぶ観察データでの因果推定Rで学ぶ観察データでの因果推定
Rで学ぶ観察データでの因果推定Hiroki Matsui
 
操作変数法の書き方_田淵貴大
操作変数法の書き方_田淵貴大操作変数法の書き方_田淵貴大
操作変数法の書き方_田淵貴大Takahiro Tabuchi
 
A Guide to SlideShare Analytics - Excerpts from Hubspot's Step by Step Guide ...
A Guide to SlideShare Analytics - Excerpts from Hubspot's Step by Step Guide ...A Guide to SlideShare Analytics - Excerpts from Hubspot's Step by Step Guide ...
A Guide to SlideShare Analytics - Excerpts from Hubspot's Step by Step Guide ...SlideShare
 
2015 Upload Campaigns Calendar - SlideShare
2015 Upload Campaigns Calendar - SlideShare2015 Upload Campaigns Calendar - SlideShare
2015 Upload Campaigns Calendar - SlideShareSlideShare
 
What to Upload to SlideShare
What to Upload to SlideShareWhat to Upload to SlideShare
What to Upload to SlideShareSlideShare
 
Getting Started With SlideShare
Getting Started With SlideShareGetting Started With SlideShare
Getting Started With SlideShareSlideShare
 

Viewers also liked (9)

Tokyo r #37 Rubin's Rule
Tokyo r #37 Rubin's RuleTokyo r #37 Rubin's Rule
Tokyo r #37 Rubin's Rule
 
Rで学ぶ観察データでの因果推定
Rで学ぶ観察データでの因果推定Rで学ぶ観察データでの因果推定
Rで学ぶ観察データでの因果推定
 
Tokyo r hiromatsu
Tokyo r hiromatsuTokyo r hiromatsu
Tokyo r hiromatsu
 
医療費ts
医療費ts医療費ts
医療費ts
 
操作変数法の書き方_田淵貴大
操作変数法の書き方_田淵貴大操作変数法の書き方_田淵貴大
操作変数法の書き方_田淵貴大
 
A Guide to SlideShare Analytics - Excerpts from Hubspot's Step by Step Guide ...
A Guide to SlideShare Analytics - Excerpts from Hubspot's Step by Step Guide ...A Guide to SlideShare Analytics - Excerpts from Hubspot's Step by Step Guide ...
A Guide to SlideShare Analytics - Excerpts from Hubspot's Step by Step Guide ...
 
2015 Upload Campaigns Calendar - SlideShare
2015 Upload Campaigns Calendar - SlideShare2015 Upload Campaigns Calendar - SlideShare
2015 Upload Campaigns Calendar - SlideShare
 
What to Upload to SlideShare
What to Upload to SlideShareWhat to Upload to SlideShare
What to Upload to SlideShare
 
Getting Started With SlideShare
Getting Started With SlideShareGetting Started With SlideShare
Getting Started With SlideShare
 

Similar to Japan r.3

Rで触れる日本経済~RでVAR編~
Rで触れる日本経済~RでVAR編~Rで触れる日本経済~RでVAR編~
Rで触れる日本経済~RでVAR編~Kazuya Wada
 
Mapping Applications with Collectives over Sub-communicators on Torus Network...
Mapping Applications with Collectives over Sub-communicators on Torus Network...Mapping Applications with Collectives over Sub-communicators on Torus Network...
Mapping Applications with Collectives over Sub-communicators on Torus Network...Shinya Takamaeda-Y
 
how to defend DNS authoritative server against DNS WaterTorture
how to defend DNS authoritative server against DNS WaterTorturehow to defend DNS authoritative server against DNS WaterTorture
how to defend DNS authoritative server against DNS WaterTorture@ otsuka752
 
RETEアルゴリズムを使いこなせ
RETEアルゴリズムを使いこなせRETEアルゴリズムを使いこなせ
RETEアルゴリズムを使いこなせMasahiko Umeno
 
洞察、创造与想象
洞察、创造与想象洞察、创造与想象
洞察、创造与想象Alipay
 
The Story of CPU
The Story of CPUThe Story of CPU
The Story of CPUTakashi Abe
 
More Better Nested Set
More Better Nested SetMore Better Nested Set
More Better Nested Setxibbar
 
RDB入門 ~アプリケーション開発者が陥りやすいDB開発の落とし穴~
RDB入門 ~アプリケーション開発者が陥りやすいDB開発の落とし穴~RDB入門 ~アプリケーション開発者が陥りやすいDB開発の落とし穴~
RDB入門 ~アプリケーション開発者が陥りやすいDB開発の落とし穴~nisobe58
 
第8回 大規模データを用いたデータフレーム操作実習(2)
第8回 大規模データを用いたデータフレーム操作実習(2)第8回 大規模データを用いたデータフレーム操作実習(2)
第8回 大規模データを用いたデータフレーム操作実習(2)Wataru Shito
 
リクルートにおけるhadoop活用事例+α
リクルートにおけるhadoop活用事例+αリクルートにおけるhadoop活用事例+α
リクルートにおけるhadoop活用事例+αRecruit Technologies
 
マルチレイヤコンパイラ基盤による、エッジ向けディープラーニングの実装と最適化について
マルチレイヤコンパイラ基盤による、エッジ向けディープラーニングの実装と最適化についてマルチレイヤコンパイラ基盤による、エッジ向けディープラーニングの実装と最適化について
マルチレイヤコンパイラ基盤による、エッジ向けディープラーニングの実装と最適化についてFixstars Corporation
 
20200627_MySQL開発最新動向
20200627_MySQL開発最新動向20200627_MySQL開発最新動向
20200627_MySQL開発最新動向Machiko Ikoma
 
db tech showcase2016 - MySQLドキュメントストア
db tech showcase2016 - MySQLドキュメントストアdb tech showcase2016 - MySQLドキュメントストア
db tech showcase2016 - MySQLドキュメントストアShinya Sugiyama
 
[INSIGHT OUT 2011] A24 sql server wait events(mario broodbakker)
[INSIGHT OUT 2011] A24 sql server wait events(mario broodbakker)[INSIGHT OUT 2011] A24 sql server wait events(mario broodbakker)
[INSIGHT OUT 2011] A24 sql server wait events(mario broodbakker)Insight Technology, Inc.
 
Redshift Spectrumを使ってみた話
Redshift Spectrumを使ってみた話Redshift Spectrumを使ってみた話
Redshift Spectrumを使ってみた話Yoshiki Kouno
 
MySQLerの7つ道具
MySQLerの7つ道具MySQLerの7つ道具
MySQLerの7つ道具yoku0825
 

Similar to Japan r.3 (20)

Listを串刺し
Listを串刺しListを串刺し
Listを串刺し
 
Rで触れる日本経済~RでVAR編~
Rで触れる日本経済~RでVAR編~Rで触れる日本経済~RでVAR編~
Rで触れる日本経済~RでVAR編~
 
Mapping Applications with Collectives over Sub-communicators on Torus Network...
Mapping Applications with Collectives over Sub-communicators on Torus Network...Mapping Applications with Collectives over Sub-communicators on Torus Network...
Mapping Applications with Collectives over Sub-communicators on Torus Network...
 
MySQL Partition Engine
MySQL Partition EngineMySQL Partition Engine
MySQL Partition Engine
 
how to defend DNS authoritative server against DNS WaterTorture
how to defend DNS authoritative server against DNS WaterTorturehow to defend DNS authoritative server against DNS WaterTorture
how to defend DNS authoritative server against DNS WaterTorture
 
RETEアルゴリズムを使いこなせ
RETEアルゴリズムを使いこなせRETEアルゴリズムを使いこなせ
RETEアルゴリズムを使いこなせ
 
洞察、创造与想象
洞察、创造与想象洞察、创造与想象
洞察、创造与想象
 
The Story of CPU
The Story of CPUThe Story of CPU
The Story of CPU
 
計算機理論入門09
計算機理論入門09計算機理論入門09
計算機理論入門09
 
More Better Nested Set
More Better Nested SetMore Better Nested Set
More Better Nested Set
 
RDB入門 ~アプリケーション開発者が陥りやすいDB開発の落とし穴~
RDB入門 ~アプリケーション開発者が陥りやすいDB開発の落とし穴~RDB入門 ~アプリケーション開発者が陥りやすいDB開発の落とし穴~
RDB入門 ~アプリケーション開発者が陥りやすいDB開発の落とし穴~
 
第8回 大規模データを用いたデータフレーム操作実習(2)
第8回 大規模データを用いたデータフレーム操作実習(2)第8回 大規模データを用いたデータフレーム操作実習(2)
第8回 大規模データを用いたデータフレーム操作実習(2)
 
リクルートにおけるhadoop活用事例+α
リクルートにおけるhadoop活用事例+αリクルートにおけるhadoop活用事例+α
リクルートにおけるhadoop活用事例+α
 
Metaspace
MetaspaceMetaspace
Metaspace
 
マルチレイヤコンパイラ基盤による、エッジ向けディープラーニングの実装と最適化について
マルチレイヤコンパイラ基盤による、エッジ向けディープラーニングの実装と最適化についてマルチレイヤコンパイラ基盤による、エッジ向けディープラーニングの実装と最適化について
マルチレイヤコンパイラ基盤による、エッジ向けディープラーニングの実装と最適化について
 
20200627_MySQL開発最新動向
20200627_MySQL開発最新動向20200627_MySQL開発最新動向
20200627_MySQL開発最新動向
 
db tech showcase2016 - MySQLドキュメントストア
db tech showcase2016 - MySQLドキュメントストアdb tech showcase2016 - MySQLドキュメントストア
db tech showcase2016 - MySQLドキュメントストア
 
[INSIGHT OUT 2011] A24 sql server wait events(mario broodbakker)
[INSIGHT OUT 2011] A24 sql server wait events(mario broodbakker)[INSIGHT OUT 2011] A24 sql server wait events(mario broodbakker)
[INSIGHT OUT 2011] A24 sql server wait events(mario broodbakker)
 
Redshift Spectrumを使ってみた話
Redshift Spectrumを使ってみた話Redshift Spectrumを使ってみた話
Redshift Spectrumを使ってみた話
 
MySQLerの7つ道具
MySQLerの7つ道具MySQLerの7つ道具
MySQLerの7つ道具
 

Japan r.3

  • 1. びっぐでぇた解析環境あ~る ~Revolution R Enterprise のご紹介~ 2012/12/04 Japan.R #03 Matsui Hiroki (@Hiro_macchan) 2012/12/1 Japan.R#3 1
  • 3. 自己紹介 • Matsui Hiroki (RPT,MPH) • 出身:琵琶湖 住まい:荒川 職場:都内 赤門 • 職業:医療政策に関する研究をしていま す。 • Twitter: Hiro_macchan 未熟者ですので間違い等は指摘して下さ い。 (できれば、お手柔らかに。。) 2012/12/1 Japan.R#3 3
  • 4. 背景 • R はオンメモリで処理をするから、大きな データを扱うのは結構苦手。 • 偉大な諸先輩方の貴重な資料 @sfchaos さん @wdkz さん (2011/04/10) (2012/09/08) 2012/12/1 Japan.R#3 4
  • 5. 背景 • 2012/08/04開催のTokyo.Rにおいて • Rをベースとした商用ソフトウェアRevolution R Enterprise内のプログラムであるRevosclae R についてご紹介 • 一部紹介しきれず、土下座orz 2012/12/1 Japan.R#3 5
  • 6. このLT でお話したいこと • Rをベースとした商業ソフトRevolution R内 のプログラムであるRevosclaeRについてご 紹介 2012/12/1 Japan.R#3 6
  • 7. RevoScaleRについて • Revolution Analytics @カルフォルニア製 • Revolution R Enterprize に同梱されたパッケー ジみたいな扱い。 • HDD上にXDF形式のデータの本体を置くこと で大規模データを取り扱えるようになる。 • 最近Revolution R Enterprize 6.1が出た。 • $1,000@1USER • アカデミアにいる人はフリーで利用できる。 →人柱にならなくても試せる!! 2012/12/1 Japan.R#3 7
  • 9. 実際の画面 コマンドエディタ プロジェクトの管理 コマンドライン オブジェクトの管理 2012/12/1 Japan.R#3 コマンドエディタはRstudio の方が何か好 9 き。。
  • 10. 今回使用するデータセットについ て • Data Expo 2009 – アメリカの航空旅客機の飛行データ – 1987年~2008年 – http://stat-computing.org/dataexpo/2009/the- data.html – フライトの日時や予定離着陸時間、目的地な どの情報を29カラムで表している。 – 今回は、時間の都合上2008年のデータを使用 – 実は、普通にメモリに乗っかる。。。 2012/12/1 Japan.R#3 10
  • 11. 実際に使ってみる。 colClasses <- c(Year=“factor”, …. , DepTime="character", …. , ActualElapsedTime="numeric",…..) dat.2008.rx <- rxTextToXdf(inFile=file.pass, outFile="air2008.xdf", overwrite=TRUE, Named vector で大体のデータ型 colClasses = colClasses ) 指定が可能 注意:データを保存する先を指 定しないとメモリに乗っかって くる。 データを分割してHDDに吐いて る。 2012/12/1 Japan.R#3 11
  • 12. 実際に使ってみる rxCrossTabs(~ DayofMonth, data = "air2008.xdf") 3 233259 4 228649 月初から月末までのフライト件数 5 228156 Factor のlevelの順番がなんか変? 6 228117 0 200 600 1000 1400 0 200 600 1000 1400 9 10 11 12 7 233797 6000 .... 5000 4000 2 230865 3000 2000 1 229292 1000 0 5 6 7 8 60 dat.2008.cube <- 50 Counts 40 rxCube(~F(AirTime):Month, data = 30 20 "air2008.xdf") 10 rxLinePlot(Counts~AirTime|Month, data=rxR 1 2 3 4 0 esultsDF(dat.2008.cube)) 6000 5000 4000 3000 2000 1000 0 2012/12/1 Japan.R#3 0 200 600 1000 1400 0 200 600 1000 1400 12 AirTime
  • 13. 実際に使ってみる。 myGlmLogit <- rxGlm(Cancelled ~ Month + DayOfWeek, data = "air2008.xdf", summary(memoryGlmLogit) family = binomial(link="logit")) Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -3.402642 0.010038 -338.965 2.22e-16 *** Month=1 -0.132518 0.010854 -12.209 2.22e-16 *** glm→rxGlm に。 Month=2 0.104402 0.010430 10.010 2.22e-16 *** Month=3 -0.211816 0.011038 -19.190 2.22e-16 *** ・・・・ Month=9 -0.592640 0.012688 -46.709 2.22e-16 *** Month=10 -1.746840 0.019185 -91.052 2.22e-16 *** Month=11 -1.356062 0.016872 -80.373 2.22e-16 *** Month=12 Dropped Dropped Dropped Dropped DayOfWeek=4 -0.103478 0.010387 -9.962 2.22e-16 *** DayOfWeek=5 0.184902 0.009690 19.082 2.22e-16 *** ・・・・・ DayOfWeek=2 0.132802 0.009751 13.619 2.22e-16 *** 2012/12/1 Japan.R#3 13 DayOfWeek=3 Dropped Dropped Dropped Dropped
  • 14. サンプリングした結果と比べてみ る。 sample.no <- sample(1:nrow(dat.2008.rx.2), 500000) sub.data.3 <- dat.2008.rx.2[sample.no, ] Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -3.47509 0.03828 -90.777 < 2e-16 *** Month1 -0.11197 0.04097 -2.733 0.006278 ** Month2 0.15486 0.03923 3.948 7.88e-05 *** Month3 -0.20073 0.04185 -4.796 1.61e-06 *** Referenceのレベルを Month4 -0.63044 0.04727 -13.336 < 2e-16 *** 何にするかがrxGlm Month5 -1.13177 0.05566 -20.333 < 2e-16 *** とglmで違う? Month6 -0.54642 0.04599 -11.881 < 2e-16 *** Month7 -0.63464 0.04658 -13.624 < 2e-16 *** Month8 -0.69782 0.04812 -14.503 < 2e-16 *** Month9 -0.56999 0.04798 -11.880 < 2e-16 *** Month10 -1.77033 0.07354 -24.071 < 2e-16 *** 傾向は同じっぽいん Month11 -1.35792 0.06415 -21.169 < 2e-16 *** で宜しいのでは? DayOfWeek4 -0.04787 0.03920 -1.221 0.222011 DayOfWeek5 0.21635 0.03685 5.871 4.34e-09 *** DayOfWeek6 -0.14814 0.04241 -3.493 0.000477 ** DayOfWeek7 0.02619 0.03898 0.672 0.501654 2012/12/1 Japan.R#3 DayOfWeek1 0.05793 0.03796 1.526 0.127006 14
  • 15. 感想 • 6.1から決定木をサポートしたみたい。 • Windwos HPC Serverを使った並列分散処理をサポートし ているみたい。そういえば、AWS でWin Svr 2012が使え る。。 この辺のレポートは R advent Calendar 2012(http://atnd.org/events/31973) にて 記載予定です。僕が元気であれば。。。 • 回帰分析したいだけなら、サンプリングの方がお手軽だ し早いんではという疑問は、現実場面で独自解決して下 さい。他ソフトとの連携大切。 2012/12/1 Japan.R#3 15