Suche senden
Hochladen
第1回Rを使って統計分析を勉強する会
•
11 gefällt mir
•
3,333 views
Nobuto Inoguchi
Folgen
勉強会用に作ったスライド。
Weniger lesen
Mehr lesen
Daten & Analysen
Melden
Teilen
Melden
Teilen
1 von 32
Jetzt herunterladen
Downloaden Sie, um offline zu lesen
Empfohlen
はじめての「R」
はじめての「R」
Masahiro Hayashi
データ解析技術入門(R編)
データ解析技術入門(R編)
Takumi Asai
普通のプログラミング言語R
普通のプログラミング言語R
Shuyo Nakatani
Rの導入とRStudio事始め(改訂版)
Rの導入とRStudio事始め(改訂版)
Takashi Yamane
統計ソフトRの使い方_2015.04.17
統計ソフトRの使い方_2015.04.17
hicky1225
5分でわかるかもしれないglmnet
5分でわかるかもしれないglmnet
Nagi Teramo
Rによる高速処理 まだfor使ってるの?
Rによる高速処理 まだfor使ってるの?
jundoll
ggplot2できれいなグラフ
ggplot2できれいなグラフ
Daisuke Ichikawa
Empfohlen
はじめての「R」
はじめての「R」
Masahiro Hayashi
データ解析技術入門(R編)
データ解析技術入門(R編)
Takumi Asai
普通のプログラミング言語R
普通のプログラミング言語R
Shuyo Nakatani
Rの導入とRStudio事始め(改訂版)
Rの導入とRStudio事始め(改訂版)
Takashi Yamane
統計ソフトRの使い方_2015.04.17
統計ソフトRの使い方_2015.04.17
hicky1225
5分でわかるかもしれないglmnet
5分でわかるかもしれないglmnet
Nagi Teramo
Rによる高速処理 まだfor使ってるの?
Rによる高速処理 まだfor使ってるの?
jundoll
ggplot2できれいなグラフ
ggplot2できれいなグラフ
Daisuke Ichikawa
Bloom filter
Bloom filter
Kumazaki Hiroki
Rの高速化
Rの高速化
弘毅 露崎
ggplot2をつかってみよう
ggplot2をつかってみよう
Hiroki Itô
第4回DARM勉強会 (構造方程式モデリング)
第4回DARM勉強会 (構造方程式モデリング)
Yoshitake Takebayashi
質的変数の相関・因子分析
質的変数の相関・因子分析
Mitsuo Shimohata
10分で分かるr言語入門ver2.10 14 1101
10分で分かるr言語入門ver2.10 14 1101
Nobuaki Oshiro
傾向スコア:その概念とRによる実装
傾向スコア:その概念とRによる実装
takehikoihayashi
すごい配列楽しく学ぼう
すごい配列楽しく学ぼう
xenophobia__
Rプログラミング02 データ入出力編
Rプログラミング02 データ入出力編
wada, kazumi
FDRの使い方 (Kashiwa.R #3)
FDRの使い方 (Kashiwa.R #3)
Haruka Ozaki
2 6.ゼロ切断・過剰モデル
2 6.ゼロ切断・過剰モデル
logics-of-blue
ブートストラップ法とその周辺とR
ブートストラップ法とその周辺とR
Daisuke Yoneoka
統計的学習の基礎 5章前半(~5.6)
統計的学習の基礎 5章前半(~5.6)
Kota Mori
Tokyo r12 - R言語による回帰分析入門
Tokyo r12 - R言語による回帰分析入門
Yohei Sato
負の二項分布について
負の二項分布について
Hiroshi Shimizu
ベイズモデリングで見る因子分析
ベイズモデリングで見る因子分析
Shushi Namba
DSIRNLP#1 ランキング学習ことはじめ
DSIRNLP#1 ランキング学習ことはじめ
sleepy_yoshi
ggplot2用例集 入門編
ggplot2用例集 入門編
nocchi_airport
潜在クラス分析
潜在クラス分析
Yoshitake Takebayashi
Stan で欠測データの相関係数を推定してみた
Stan で欠測データの相関係数を推定してみた
hoxo_m
Rで確認しながら解く統計検定2級
Rで確認しながら解く統計検定2級
itoyan110
すごいタスク管理(仮)
すごいタスク管理(仮)
Kakigi Katuyuki
Weitere ähnliche Inhalte
Was ist angesagt?
Bloom filter
Bloom filter
Kumazaki Hiroki
Rの高速化
Rの高速化
弘毅 露崎
ggplot2をつかってみよう
ggplot2をつかってみよう
Hiroki Itô
第4回DARM勉強会 (構造方程式モデリング)
第4回DARM勉強会 (構造方程式モデリング)
Yoshitake Takebayashi
質的変数の相関・因子分析
質的変数の相関・因子分析
Mitsuo Shimohata
10分で分かるr言語入門ver2.10 14 1101
10分で分かるr言語入門ver2.10 14 1101
Nobuaki Oshiro
傾向スコア:その概念とRによる実装
傾向スコア:その概念とRによる実装
takehikoihayashi
すごい配列楽しく学ぼう
すごい配列楽しく学ぼう
xenophobia__
Rプログラミング02 データ入出力編
Rプログラミング02 データ入出力編
wada, kazumi
FDRの使い方 (Kashiwa.R #3)
FDRの使い方 (Kashiwa.R #3)
Haruka Ozaki
2 6.ゼロ切断・過剰モデル
2 6.ゼロ切断・過剰モデル
logics-of-blue
ブートストラップ法とその周辺とR
ブートストラップ法とその周辺とR
Daisuke Yoneoka
統計的学習の基礎 5章前半(~5.6)
統計的学習の基礎 5章前半(~5.6)
Kota Mori
Tokyo r12 - R言語による回帰分析入門
Tokyo r12 - R言語による回帰分析入門
Yohei Sato
負の二項分布について
負の二項分布について
Hiroshi Shimizu
ベイズモデリングで見る因子分析
ベイズモデリングで見る因子分析
Shushi Namba
DSIRNLP#1 ランキング学習ことはじめ
DSIRNLP#1 ランキング学習ことはじめ
sleepy_yoshi
ggplot2用例集 入門編
ggplot2用例集 入門編
nocchi_airport
潜在クラス分析
潜在クラス分析
Yoshitake Takebayashi
Stan で欠測データの相関係数を推定してみた
Stan で欠測データの相関係数を推定してみた
hoxo_m
Was ist angesagt?
(20)
Bloom filter
Bloom filter
Rの高速化
Rの高速化
ggplot2をつかってみよう
ggplot2をつかってみよう
第4回DARM勉強会 (構造方程式モデリング)
第4回DARM勉強会 (構造方程式モデリング)
質的変数の相関・因子分析
質的変数の相関・因子分析
10分で分かるr言語入門ver2.10 14 1101
10分で分かるr言語入門ver2.10 14 1101
傾向スコア:その概念とRによる実装
傾向スコア:その概念とRによる実装
すごい配列楽しく学ぼう
すごい配列楽しく学ぼう
Rプログラミング02 データ入出力編
Rプログラミング02 データ入出力編
FDRの使い方 (Kashiwa.R #3)
FDRの使い方 (Kashiwa.R #3)
2 6.ゼロ切断・過剰モデル
2 6.ゼロ切断・過剰モデル
ブートストラップ法とその周辺とR
ブートストラップ法とその周辺とR
統計的学習の基礎 5章前半(~5.6)
統計的学習の基礎 5章前半(~5.6)
Tokyo r12 - R言語による回帰分析入門
Tokyo r12 - R言語による回帰分析入門
負の二項分布について
負の二項分布について
ベイズモデリングで見る因子分析
ベイズモデリングで見る因子分析
DSIRNLP#1 ランキング学習ことはじめ
DSIRNLP#1 ランキング学習ことはじめ
ggplot2用例集 入門編
ggplot2用例集 入門編
潜在クラス分析
潜在クラス分析
Stan で欠測データの相関係数を推定してみた
Stan で欠測データの相関係数を推定してみた
Andere mochten auch
Rで確認しながら解く統計検定2級
Rで確認しながら解く統計検定2級
itoyan110
すごいタスク管理(仮)
すごいタスク管理(仮)
Kakigi Katuyuki
第3回Rを使って統計分析を勉強する会
第3回Rを使って統計分析を勉強する会
Nobuto Inoguchi
統計用言語Rの使い方
統計用言語Rの使い方
Ak Ok
わかりやすい利益相反:臨床研究を成功させるために
わかりやすい利益相反:臨床研究を成功させるために
Masahiko Hara
8つの魔法の習得 -RとRubyによるデータ解析入門より-
8つの魔法の習得 -RとRubyによるデータ解析入門より-
Yuki Shimizu
Rによる分類木 入門
Rによる分類木 入門
Hiro47
指数分布とポアソン分布のいけない関係
指数分布とポアソン分布のいけない関係
Nagi Teramo
色で失敗しない為に 〜理論に基づく配色フロー〜
色で失敗しない為に 〜理論に基づく配色フロー〜
Yuudai Tachibana
Andere mochten auch
(9)
Rで確認しながら解く統計検定2級
Rで確認しながら解く統計検定2級
すごいタスク管理(仮)
すごいタスク管理(仮)
第3回Rを使って統計分析を勉強する会
第3回Rを使って統計分析を勉強する会
統計用言語Rの使い方
統計用言語Rの使い方
わかりやすい利益相反:臨床研究を成功させるために
わかりやすい利益相反:臨床研究を成功させるために
8つの魔法の習得 -RとRubyによるデータ解析入門より-
8つの魔法の習得 -RとRubyによるデータ解析入門より-
Rによる分類木 入門
Rによる分類木 入門
指数分布とポアソン分布のいけない関係
指数分布とポアソン分布のいけない関係
色で失敗しない為に 〜理論に基づく配色フロー〜
色で失敗しない為に 〜理論に基づく配色フロー〜
Ähnlich wie 第1回Rを使って統計分析を勉強する会
Yamadai.R チュートリアルセッション
Yamadai.R チュートリアルセッション
考司 小杉
HiroshimaR4_LT_sakaue
HiroshimaR4_LT_sakaue
SAKAUE, Tatsuya
全部Excelでやろうとして後悔するデータ分析
全部Excelでやろうとして後悔するデータ分析
__john_smith__
初心者講習会資料(Osaka.R#5)
初心者講習会資料(Osaka.R#5)
Masahiro Hayashi
初心者講習会資料(Osaka.r#6)
初心者講習会資料(Osaka.r#6)
Masahiro Hayashi
Rで学ぶデータマイニングI 第8章〜第13章
Rで学ぶデータマイニングI 第8章〜第13章
Prunus 1350
12-11-30 Kashiwa.R #5 初めてのR Rを始める前に知っておきたい10のこと
12-11-30 Kashiwa.R #5 初めてのR Rを始める前に知っておきたい10のこと
Haruka Ozaki
RandExcel
RandExcel
Takanori Omote
第一回Data mining勉強会 -第二章 - 原案
第一回Data mining勉強会 -第二章 - 原案
yushin_hirano
統計環境R_はじめの一歩2016
統計環境R_はじめの一歩2016
wada, kazumi
LET2011: Rによる教育データ分析入門
LET2011: Rによる教育データ分析入門
Yuichiro Kobayashi
第一回Data mining勉強会 -第二章
第一回Data mining勉強会 -第二章
Tomonobu_Hirano
第3回輪講
第3回輪講
mh_amako
03 var array_flow_func
03 var array_flow_func
文樹 高橋
Rあんなときこんなとき(tokyo r#12)
Rあんなときこんなとき(tokyo r#12)
Shintaro Fukushima
Casual learning-machinelearningwithexcelno8
Casual learning-machinelearningwithexcelno8
KazuhiroSato8
第一回ゆるふわーる
第一回ゆるふわーる
Sachiko Hirata
データベース設計徹底指南
データベース設計徹底指南
Mikiya Okuno
Lisp Tutorial for Pythonista : Day 3
Lisp Tutorial for Pythonista : Day 3
Ransui Iso
初心者講習会資料(Osaka.R#7)
初心者講習会資料(Osaka.R#7)
Masahiro Hayashi
Ähnlich wie 第1回Rを使って統計分析を勉強する会
(20)
Yamadai.R チュートリアルセッション
Yamadai.R チュートリアルセッション
HiroshimaR4_LT_sakaue
HiroshimaR4_LT_sakaue
全部Excelでやろうとして後悔するデータ分析
全部Excelでやろうとして後悔するデータ分析
初心者講習会資料(Osaka.R#5)
初心者講習会資料(Osaka.R#5)
初心者講習会資料(Osaka.r#6)
初心者講習会資料(Osaka.r#6)
Rで学ぶデータマイニングI 第8章〜第13章
Rで学ぶデータマイニングI 第8章〜第13章
12-11-30 Kashiwa.R #5 初めてのR Rを始める前に知っておきたい10のこと
12-11-30 Kashiwa.R #5 初めてのR Rを始める前に知っておきたい10のこと
RandExcel
RandExcel
第一回Data mining勉強会 -第二章 - 原案
第一回Data mining勉強会 -第二章 - 原案
統計環境R_はじめの一歩2016
統計環境R_はじめの一歩2016
LET2011: Rによる教育データ分析入門
LET2011: Rによる教育データ分析入門
第一回Data mining勉強会 -第二章
第一回Data mining勉強会 -第二章
第3回輪講
第3回輪講
03 var array_flow_func
03 var array_flow_func
Rあんなときこんなとき(tokyo r#12)
Rあんなときこんなとき(tokyo r#12)
Casual learning-machinelearningwithexcelno8
Casual learning-machinelearningwithexcelno8
第一回ゆるふわーる
第一回ゆるふわーる
データベース設計徹底指南
データベース設計徹底指南
Lisp Tutorial for Pythonista : Day 3
Lisp Tutorial for Pythonista : Day 3
初心者講習会資料(Osaka.R#7)
初心者講習会資料(Osaka.R#7)
第1回Rを使って統計分析を勉強する会
1.
R を使って統計分析を勉強する会 第 1
回 2014 年 4 月 23 日(水) 日直:井ノ口
2.
Introduction
3.
R のいいところ 統計分析を手早く書くのに最適 ● 統計分析が得意 –
関数が豊富(重回帰分析が 1 行) – 表形式のデータが扱いやすい ● 分析手順を再現できます – 実行履歴が残ります – スクリプトとして残せます
4.
Excel でダメなの? もちろんケースバイケース。こんな時は Excel でもいいんじゃないでしょうか。 ●
難しい統計分析はしない。実際、重回帰分析 くらいなら Excel でもできる。 ● 分析手順を再利用しない。 ● データは更新されない。
5.
R にしろ Excel
にしろ 道具です。 R が使えるからと言って、統計分 析ができるというわけでは、残念ながらあり ません。 というわけで、この勉強会では、 R の使い方 に加えて、統計分析の考え方についてもちょ くちょく触れていきたいと思います。
6.
Hello woRld!
7.
何はともあれ 動かしてみましょう。 RStudio を起動して、左下の Console
で > print("Hello World!") [1] "Hello World!"
8.
基本のキ 作業ディレクトリ。 RStudio を起動して、左下の Console
で確認し たり変更したりしてみる。 作業状態はここに保存されます。 > getwd() > setwd("~/workingdirectory") > setwd("~workingdirectory")
9.
Start Statistics
10.
こんな流れで進めます 「データ可視化の 7 ステップ」 (
出典『ビジュアライジング・データ』 ) 1.Acquire : データをゲットします 2.Parse : 整形します 3.Filter : 必要なサブセットを抜き出します 4.Mine : 分析します 5.Represent : 分析結果を出力します 6.Refine : 省略 7.Interaction : 省略
11.
もう少し具体的に こんな感じで行ってみようと思います 1.Acquire : Excel
を読み込みます 2.Parse : 文字列を因子に変換します 3.Filter : 必要な行・列を取り出します 4.Mine : 代表値(平均値とか)を出します 5.Represent : ヒストグラムや箱ひげ図 6.Refine : 省略 7.Interaction : 省略
12.
Acquire
13.
XLConnect 結局出回っているデータの多くが Excel なの で、それを読み込みます。 XLConnect
というパッケージを使います。 > install.packages("XLConnect") > library(XLConnect) > data <- readWorksheetFromFile("test.xlsx", 1) > data # 1 シート目のデータが表示される
14.
R のデータ構造
15.
一体何を読み込んだのか? R には大きく 5
つのデータ構造があります 1.vector :基本。 1 次元配列。 2.matrix :行列。 2 次元配列。 3.array :配列。 n 次元配列。 4.data frame :重要。表。さっき読み込んだ 5.list :柔軟で便利。
16.
vector これが基本。単一の値はあまり扱いません。 四則演算できます。 for 文不要です。 >
v1 <- c(1, 2, 3, 4) > v1[1] # 添え字は 1 から > v1[c(1, 2)] # 添え字にも vector 使えます > v2 <- c(3, 3, 2, 4) > v1 + v2 > v1 + c(1, 2) # 要素数が違うと繰り返して補います
17.
matrix, array matrix はあまり使いません array
はもっと使いません(経験上) > m1 <- matrix(v1, nrow=2) > m1[1, 2] # 行 , 列の順で指定 > m1[, 2] # 省略すると全指定 > a1 <- array(v1, dim=c(2, 1, 2) > a1 > a1[1, 1, 1]
18.
data frame 最もよく使います。なじみ深い表形式のデー タ構造です。 さっき読み込んだデータで色々試してみてく ださい # 列名を付けられます >
df <- data.frame(col1=c(1, 2), col2=c("a", "b")) > df > df[1, 2] # 配列と同じようにアクセスできます > df[, "col1"] # 列名でアクセスできます > df$col1 # こんな風にも # 1 次元に落ちたときに vector になるのを防ぐには # 地味に重要(忘れてバグの温床に) > df[, "col1", drop=FALSE]
19.
list 柔軟なので便利。各要素の要素数が異なって いても大丈夫( data fame
はダメ) 私は色々な分析結果を 1 オブジェクトにまと めるときに使ったりします # data frmae 同様列名を付けられます > li <- list(elem1=c(1, 2), elem2=c("a", "b", "c")) > li > li[[1]] # 要素へのアクセスには癖があります > li$elem1 # 要素名でのアクセスは同じ
20.
ライブラリを使っていて困ること どうやって渡すの? どれが返ってきたん だ? と悩みます。 class(), is.xxx(), as.xxx()
が便利 # matrix から data frame への変換の例 > class(m1) # 当然 matrix > is.data.frame(m1) # FALSE > as.data.frame(m1) # 列名がついた !? > class(as.data.frame(m1)) # data frame に !! > is.data.frame(as.data.frame(m1)) # TRUE
21.
Parse
22.
文字列を因子に 文字列 "A" と選択肢
"A, B, AB, O" の "A" と 選択肢 "A, B, C" の "A" を正しく扱おう、と いう話です。 > sample <- c("A", "B") > blood <- factor(sample, levels=C("A", "B", "AB", "O")) > choice <- factor(sample, levels=c("A", "B", "C")) # == はクラスを意識しないので、 identical で比較 # Java の == と equlas のようなものです > identical(sample[1], blood[1]) > identical(sample[1], choice[1]) > identical(blood[1], choice[1])
23.
その他の型 (1/2) 代表的な Parse
先 ● numeric: 数値 (1, -2, 0.1) ● character: 文字列 ("Hello World") ● logical: 論理値 (TRUE, FALSE) > c(1, -2, 0.1) > c("Andy", "Bob", "Chris") > c(TRUE, FALSE, TRUE)
24.
その他の型 (2/2) 代表的な Parse
先 ● factor: 因子 ● Date: 日付 ● NA: 欠損値 > as.factor(c("A", "B"), levels=c("A", "B", "AB", "O")) > as.Date(c("2014/4/24", "2014/4/25")) > c(1, 5, NA, 6)
25.
型と尺度水準
26.
型と尺度水準について 尺度水準には 4 種類ある。それぞれ意味があ る代表値や演算が異なる。 1.名義尺度→
最頻値。演算意味ない。 2.順序尺度→ 中央値。+ー意味ない。 3.間隔尺度→ 平均値。 ×÷ 意味ない。 4.比例尺度→ 平均値。演算に意味がある。
27.
名義尺度 カテゴリ。背番号とか。 R では
factor に相 当。 ● 演算する意味ない 例)アンケートだとこんな設問 設問 1 あなたの役割を教えて下さい。 1. 開発 2. 営業 3. スタッフ 4. その他
28.
順序尺度 よくみる 5 段階評価とか。Rでは
order=TRUE オプション付の factor に相当。 ● 意味があるのは順序だけ。足し引き意味ない 例)アンケートだとこんな設問 設問 2 この勉強会には満足していますか? 1. 満足している 2. やや満足している 3. ふつう 4. やや不満である 5. 不満である
29.
間隔尺度 差が等しくて零点が任意の数値。日付とか温 度(摂氏、華氏)とか。Rでは numeric に相 当。 ●
足し引きできる。 ×÷ 意味ない 例) 20℃ は 40℃ の 2 倍熱いわけではない。 華氏だと 68°F と 104°F (約 1.5 倍 ) 。
30.
比率尺度 差が等しくて零点が絶対的な数値。長さとか 温度(絶対温度)とか。 R では
numeric に相 当。型の上では間隔尺度と区別されない。 ● 足し引きできる。 ×÷ もできる。比率にも意 味がある。 例) 100m は 10m の 10 倍の長さ。
31.
Appendix
32.
Enterprise での利用 Google は
R でプロトタイピングして C で実装 Oracle のデータも R で分析できる(らしい) ● Companies Using R | Revolution Analytics ● Oracle R Enterprise
Jetzt herunterladen