Weitere ähnliche Inhalte
Ähnlich wie レボリューションR(RRE)のご紹介 (20)
Mehr von Satoshi Kitajima (6)
レボリューションR(RRE)のご紹介
- 4. 1993年
二人の大学教授、Robert
Gentlemanと
Ross
Ihakaが開発開始
2000年
Version
1.0のリリース
現在(2014年6月)
Version
3.1のリリース
パッケージ数も多く「Rで出来ない分析は無い」、
世界中のR利用者は250万人以上、と言われる
ほどに成長
オープンソース & フリーソフト
©
KSK
Analy@cs
Inc.,
Revolu@on
Analy@cs
Japan
Partner
- 5. 扱いやすい関数型プログラミング言語
= 言語 + 分析
統計データの分析用の言語
豊富な分析アルゴリズムと洗練された可視化と分析
©
KSK
Analy@cs
Inc.,
Revolu@on
Analy@cs
Japan
Partner
- 6. 扱いやすい関数型プログラミング言語
= 言語 + 分析
統計データの分析用の言語
豊富な分析アルゴリズムと洗練された可視化と分析
UNIX哲学 「一つのプログラムには一つのことをうまくやらせる」
(Write
programs
that
do
one
thing
and
do
it
well.
Write
programs
to
work
together)
©
KSK
Analy@cs
Inc.,
Revolu@on
Analy@cs
Japan
Partner
- 7. 世界標準の分析環境
©
KSK
Analy@cs
Inc.,
Revolu@on
Analy@cs
Japan
Partner
過去1年、実際の分析プロジェクトで
活用したソフトウェアはなんですか?(評価利用は除く)
hSp://www.kdnuggets.com/2014/06/kdnuggets-‐annual-‐soVware-‐poll-‐rapidminer-‐con@nues-‐lead.html
n=3285
%
事実上、RapidMinerとRが二強
(2014年6月調査)
- 30. ©
KSK
Analy@cs
Inc.,
Revolu@on
Analy@cs
Japan
Partner
一方、世の中のデータ量は・・・
- 31. ©
KSK
Analy@cs
Inc.,
Revolu@on
Analy@cs
Japan
Partner
hSp://www.datacenterjournal.com/it/birth-‐death-‐big-‐data/
- 32. ©
KSK
Analy@cs
Inc.,
Revolu@on
Analy@cs
Japan
Partner
hSp://www.datacenterjournal.com/it/birth-‐death-‐big-‐data/
- 35. ©
KSK
Analy@cs
Inc.,
Revolu@on
Analy@cs
Japan
Partner
分析者や分析業務も増えてきたのに・・・
- 37. Revolution Analytics
Power
Produc@vity
Power
• 大規模データを高速に分析
Productivity
§ 分析アプリケーションをよ
り簡単に開発&構築
Enterprise
Readiness
§ 安定した商用版
§ ビジネスサポート
Enterprise
Readiness
©
KSK
Analy@cs
Inc.,
Revolu@on
Analy@cs
Japan
Partner
- 39. メモリとHDD容量の
ハイブリッド
マルチスレッド(早い)
商用サポート
5000+のパッケージ
ビッグデータのパッケージ
商用ライセンス
取り扱えるデータ量は
メモリに依存
シングルスレッド(遅い)
コミュニティサポート
5000+のパッケージ
オープンソース利用
(リスクが大きい)
ビッグデータ
(データ量)
分析速度
ビジネス活用
分析機能
商用利用
オープンソースRとRevolu@on
R
Enterprise(RRE)
©
KSK
Analy@cs
Inc.,
Revolu@on
Analy@cs
Japan
Partner
- 41. RRE(Revolu@on
R
Enterprise)は
複数のコンポーネントから構成されています。
R+CRAN
RevoR
DistributedR
DevelopR
DeployR
ScaleR
ConnectR
©
KSK
Analy@cs
Inc.,
Revolu@on
Analy@cs
Japan
Partner
- 42. R+CRAN
RevoR
DistributedR
DevelopR
DeployR
ScaleR
ConnectR
R+CRAN
オープンソースのR
(version 3.0.2)、関数、
CRANパッケージを
RevoRから自由に呼び出
すことできます。
これまで開発していたR
スクリプト、関数、パッ
ケージはそのままご利用
頂けます。
RevoR
数値演算ライブラリーにより、
オープンソースRよりも3倍〜
50倍程高速に実行できます。
動作環境:
• PlaformTM
LSFTM
Linux®
• MicrosoV®
HPC
Clusters
• MicrosoV
Azure
Burst
• Windows®
&
Linux
Servers
• Windows
&
Linux
Worksta@ons
• Teradata®
Database
• IBM®
Netezza®
• IBM
BigInsightsTM
• Cloudera
Hadoop®
• Hortonworks
Hadoop
• Intel®
Hadoop
©
KSK
Analy@cs
Inc.,
Revolu@on
Analy@cs
Japan
Partner
- 43. R vs RevoR のパフォーマンス比較
オープンソースR
Computa;on
(4-‐core
laptop)
Open
Source
R
RevoR
Speedup
Linear
Algebra1
Matrix
Mul@ply
176
秒
9.3
秒
18倍
Cholesky
Factoriza@on
25.5
秒
1.3
秒
19倍
Linear
Discriminant
Analysis
189
秒
74
秒
3倍
General
R
Benchmarks2
R
Benchmarks
(Matrix
Func@ons)
22
秒
3.5
秒
5倍
R
Benchmarks
(Program
Control)
5.6
秒
5.4
秒
Not
appreciable
1.
hSp://www.revolu@onanaly@cs.com/why-‐revolu@on-‐r/benchmarks.php
2.
hSp://r.research.aS.com/benchmarks/
©
KSK
Analy@cs
Inc.,
Revolu@on
Analy@cs
Japan
Partner
RevoR
- 44. R vs RevoR のパフォーマンス比較
オープンソースR
Computa;on
(4-‐core
laptop)
Open
Source
R
RevoR
Speedup
Linear
Algebra1
Matrix
Mul@ply
176
秒
9.3
秒
18倍
Cholesky
Factoriza@on
25.5
秒
1.3
秒
19倍
Linear
Discriminant
Analysis
189
秒
74
秒
3倍
General
R
Benchmarks2
R
Benchmarks
(Matrix
Func@ons)
22
秒
3.5
秒
5倍
R
Benchmarks
(Program
Control)
5.6
秒
5.4
秒
Not
appreciable
1.
hSp://www.revolu@onanaly@cs.com/why-‐revolu@on-‐r/benchmarks.php
2.
hSp://r.research.aS.com/benchmarks/
オープンソースRのスクリプトを
変更せず、RevoRで実行。3
倍〜50倍など高いパフォーマ
ンス向上が報告されています
(倍率はデータ数やアルゴリズムにより変化)
©
KSK
Analy@cs
Inc.,
Revolu@on
Analy@cs
Japan
Partner
RevoR
- 45. R+CRAN
RevoR
DistributedR
DevelopR
DeployR
ScaleR
ConnectR
ScaleR
並列分散処理、データ
ベース内実行、Hadoop環
境などの実行で、より高
速なビッグデータ分析を
実現できます。
ScaleRはXDFという高圧
縮された独自のデータ
フォーマットを用い、rxで
始まるファンクションで分
析できます。
・予測モデル・・・線形回帰,ロジスティッ
ク回帰,一般化線形モデルなど
・機械学習
・モンテカルロシミュレーションなど
©
KSK
Analy@cs
Inc.,
Revolu@on
Analy@cs
Japan
Partner
- 46. § データの読み込み
(SAS,
SPSS,
OBDC接続など)
§ 変数作成、変換
§ 変数保存
§ 説明変数
§ 欠損値処理
§ ソート(並び替え)
§ マージ(データ統合)
§ 分割(スプリット)
§ カテゴリー毎の演算
(平均や合計など)
§ 最小 /
最大
§ 平均
§ 中央値
§ 四分位
§ 標準偏差
§ 分散
§ 相関係数
§ 共分散
§ 平方和
§ クロス集計
§ リスク・オッズ比
§ カイ二乗検定
§ ケンドールの順位相関
§ フィッシャーの正確確率検定
§ T検定(Student’s
t-‐Test)
データ前処理、基本的な統計
§ サブサンプリング
§ ランダムサンプル
Rのデータ加工
検定
サンプリング
統計情報
ScaleRの対応している機能
©
KSK
Analy@cs
Inc.,
Revolu@on
Analy@cs
Japan
Partner
- 47. § 平方和
§ 重回帰分析
§ 一般化線形モデル
§ 分散共分散行列、相関行列
§ ロジスティック回帰
§ 分類木、回帰木
§ 回帰、スコアリングモデル
§ 残差
§ ヒストグラム
§ 棒グラフ
§ 散布図
§ ローレンツ曲線
§ ROC曲線
§ K-‐Means
統計モデル
§ 決定木
§ ランダムフォレスト
予測モデル
クラスター分析
データの可視化
分類
機械学習
シミュレーション
§ モンテカルロ・シミュレー
ション
変数選択
§ ステップワイズ回帰
ScaleRの対応している機能
©
KSK
Analy@cs
Inc.,
Revolu@on
Analy@cs
Japan
Partner
- 49. ©
KSK
Analy@cs
Inc.,
Revolu@on
Analy@cs
Japan
Partner
ScaleR vs SASのパフォーマンス比較
hSp://www.revolu@onanaly@cs.com/whitepaper/revolu@on-‐r-‐enterprise-‐faster-‐sas
- 50. ©
KSK
Analy@cs
Inc.,
Revolu@on
Analy@cs
Japan
Partner
ScaleR vs SASのパフォーマンス比較
hSp://www.revolu@onanaly@cs.com/whitepaper/revolu@on-‐r-‐enterprise-‐faster-‐sas
- 51. ©
KSK
Analy@cs
Inc.,
Revolu@on
Analy@cs
Japan
Partner
ScaleR vs SASのパフォーマンス比較
hSp://www.revolu@onanaly@cs.com/whitepaper/revolu@on-‐r-‐enterprise-‐faster-‐sas
1つの数値変数に関する記述統計
(件数、最小値、最大値、平均値、標準偏差)
1つの数値変数の中央値と十分位数
1つの文字変数の度数分布
20の数値変数で1つの数値を目的変数とする線形回帰
20の混合した変数で1つの数値を目的変数とする線形回帰
100の数値変数でステップワイズ法で行う線形回帰
20の数値変数で1つの判別(2値)を目的変数とする
ロジスティック回帰
20の数値変数,ガンマ分布,リンク関数,数値を目的変数とする
一般化線形モデル
20変数を持つk-‐meanクラスタリング
100変数を持つk-‐meanクラスタリング
すべての分析タスクの合計
データ件数:500万件
- 52. ©
KSK
Analy@cs
Inc.,
Revolu@on
Analy@cs
Japan
Partner
ScaleR vs SASのパフォーマンス比較
hSp://www.revolu@onanaly@cs.com/whitepaper/revolu@on-‐r-‐enterprise-‐faster-‐sas
データ件数:100万件
データ件数:500万件
データ件数:1000万件
データ件数:5000万件
- 53. ©
KSK
Analy@cs
Inc.,
Revolu@on
Analy@cs
Japan
Partner
ScaleR vs SASのパフォーマンス比較
hSp://www.revolu@onanaly@cs.com/whitepaper/revolu@on-‐r-‐enterprise-‐faster-‐sas
・RREのScaleRはSASよりも平均して42倍の早さで分析タスクを実行した
・RREのScaleRはすべてのタスクでSASを上回った
・RREのScaleRはSASよりも10倍〜300倍のパフォーマンス改善が得られる
・RREのScaleRはより大きなデータを使う場合にパフォーマンスの改善幅がより大きくなる
・新しいSASのHP
PROCsは僅かにSASのパフォーマンスが改善できただけだった
- 54. R+CRAN
RevoR
DistributedR
DevelopR
DeployR
ScaleR
ConnectR
DistributedR
DistributedRは並列処理フ
レームワーク上でメモリやコ
ア、CPUやスレッドなどのシ
ステムリソースを管理できま
す。Windowsのデスクトップ
からエンタープライズ・デー
タウェアハウス(EDW)や
Hadoop上で実行することが
できます。
動作環境:
• Windows
Servers
• Red
Hat
and
SuSE
Linux
Servers
• IBM
Plaform
LSF
Linux
• MicrosoV
HPC
Clusters
• MicrosoV
Azure
Burst
• Teradata
Database
• Cloudera
Hadoop
• Hortonworks
Hadoop
ConnectR
より高速なデータのイン
ポートとエクスポートを実
現します。
動作環境:
• High-‐performance
XDF
• SAS,
SPSS,
テキスト
• Hadoop
HDFS
(text
&
XDF)
• Teradata
Database
&
Aster
• EDWs
and
ADWs
• ODBC
©
KSK
Analy@cs
Inc.,
Revolu@on
Analy@cs
Japan
Partner
- 55. R+CRAN
RevoR
DistributedR
DevelopR
DeployR
ScaleR
ConnectR
DevelopR
Rの開発に適した統合IDE
環境を提供します。
Rのための開発環境であ
り、Rの文法に基づく入力
補完機能や、重要となる
文字のハイライト表示機
能などがあります。
(DevelopRはWindows環
境のみ動作します)
DeployR
Rの実行、実行結果をWeb
サービスやアプリケーションと
して提供することができます。
(例:Java、JavaScript、.NET
APIsなど)
Rコードを構築しサーバーの
Webサービスとして組み込む
ことができるので、どのユー
ザーからも簡単にRの結果を
利用できるほか、アプリケー
ションなどにも組み込むことが
できるため、Rがもたらす分析
の効果を最大限に発揮するこ
とができます。
©
KSK
Analy@cs
Inc.,
Revolu@on
Analy@cs
Japan
Partner
- 58. ©
KSK
Analy@cs
Inc.,
Revolu@on
Analy@cs
Japan
Partner
DevelopRの補完機能
どの順で、どのような設定をすべきか、デフォルトの設定値はどのようなものか等、表示され、
また文字列の補完もされるため開発速度の向上、および実行ミスが大きく軽減されます。
※RユーザーであればRREへの移行はスムーズです
コンソールに「lm(」とタイプするだけで、ご覧のように表示されます。
- 59. R+CRAN
数値演算ライブラリー
マルチスレッド実行
並列処理
並列分散処理
データベース内実行
Hadoop環境での実行
最適なメモリ管理
並列ユーザーコード
RevoR
オープンソース R
DistributedR
DistributedR
DistributedR
ScaleR
ScaleR
ScaleR
ScaleR
データ量・
分析速度
に対するパ
フォーマンス
©
KSK
Analy@cs
Inc.,
Revolu@on
Analy@cs
Japan
Partner
- 62. Complex
&
Basic
analy@cs
RRE
with
Hadoop
©
KSK
Analy@cs
Inc.,
Revolu@on
Analy@cs
Japan
Partner
- 63. Complex
&
Basic
analy@cs
RRE
with
Hadoop
©
KSK
Analy@cs
Inc.,
Revolu@on
Analy@cs
Japan
Partner
- 65. Hadoopか? サーバー1台か?
©
KSK
Analy@cs
Inc.,
Revolu@on
Analy@cs
Japan
Partner
分析したいデータ量が100GBだとすると・・・
<
概ね、サーバー1台の方が8倍〜10倍の速度で早いです。
(※データ量が1TB以上だとHadoopをオススメします)
サーバー1台(8コア)
Hadoopクラスタ8台
- 66. オープンソース
R
RRE
Worksta;on
RRE
Server
オープンソースRの利用
✓
✓
✓
CRANパッケージの利用
✓
✓
✓
RevoR
高速な数値演算ライブラリによるマルチス
レッド対応
✘
✓
✓
ConnectR
より高速なインポートとエクスポート
(形式:XDF,
SAS,
SPSS,
ASCII,
Hadoop
HDFS,
Teradata
TPT,
ODBC)
✘
✓
✓
ScaleR
より高速なビッグデータ分析
✘
✓
✓
DevelopR
WindowsでのR統合開発環境(IDE)
✘
✓
✓
DeployR
WebサービスのAPI提供
✘
✘
✓
DistributedR
データベースやHadoopクラスタを横断した
大規模処理
✘
✘
✓
テクニカルサーポート
✘
✓
✓
オープンソースRとRRE
(Revolution R Enterprise)
©
KSK
Analy@cs
Inc.,
Revolu@on
Analy@cs
Japan
Partner
※RRE Workstationは一名様でご利用頂くライセンスです
- 67. <-‐
+
革命
・扱いやすい関数型プログラミング言語
・世界標準の分析環境
・パッケージ数は増加傾向
・パッケージはバラエティー豊か
・パッケージでHadoopも
・パッケージで高機能な可視化
・学習環境も豊富
・コミュニティー(勉強会)も盛況
・Rユーザーは世界中に
・大規模データを高速に分析
・分析アプリケーションをより簡単に開発&構築
・安定した商用版
・ビジネスサポート
©
KSK
Analy@cs
Inc.,
Revolu@on
Analy@cs
Japan
Partner
- 68. Consumer
&
Info
Svcs
Finance
&
Insurance
Healthcare
&
Life
Sciences
Manuf
&
Tech
Academic
&
Gov’t
導入実績 米国内200社以上、世界では2000社以上
©
KSK
Analy@cs
Inc.,
Revolu@on
Analy@cs
Japan
Partner
- 69. ©
KSK
Analy@cs
Inc.,
Revolu@on
Analy@cs
Japan
Partner
評価版は www.r-‐analy@cs.jp
の「ダウンロード」へ