SlideShare ist ein Scribd-Unternehmen logo
1 von 37
Downloaden Sie, um offline zu lesen
1




情報統計学


         2 変量データの分析
                20110520 scale 修正
        20120502  スライド追加(散布図)
2 変量データ                           2




          2 変量データではあるが
          • それぞれの変量を 1 変量データとして
             1. 代表値
             2. 散布度
             3. ヒストグラム,ボックスプロット
          などで分析できる。
データの登録                                    3

データを登録,読み込む方法
• weight という名前で登録し,その後, bodydata という形でま
  とめる。




• bodydata として行列で登録
ファイルからデータを読み込む(重要)                                         4

• data1.txt というデータファイルがあるとする。スペース or タ
  ブ区切り。



• data1.csv という CSV ファイルを読み込むには



                   • data1-1.csv という CSV ファイ
• データを確認してみよう        ルbodydata <-read.csv("data1-1.csv")
                     >
データの一部を取り出す                               5

• まず, 1 変量ずつ分析するため,一部を取り出そう




• height, weight それぞれについて一変量の分析を行う。
   関数 one.var.analysis をつくってあるのでそれを使う。
6
2 変量の分析                                                                                        7

• 並行箱ひげ図
  > boxplot(height, weight, names=c(”height”, ”weight”))

  ちなみに

  > boxplot(as.vector(scale(height)), as.vector(scale(weight)), names=c(“height”, “weight”))

  とすれば ・・・




 単位の異なる変数、
 数値の桁が異なる変数
 の平行箱ひげ図は
 意味が無い!ことが多い
散布図 plot
plot(bodydata)
plot(height,weight)
plot(weight~height)


                         45
                         40
                weight

                         35
                         30




                              140   145        150   155   160

                                          height
回帰直線                      9

• 散布図から右上がり,右下がりの直線的な傾向
回帰直線の導出   10
11




回帰分析の結果を bodylm に保存
12
散布図に回帰直線を追加する。   13
共分散・相関係数                                    14

 • 散布図→直線的な傾向(回帰直線を引く)
 • 直線的傾向の強弱を数値化
      右上がりか右下がりか
      どれだけ直線的傾向があるか




       平均で分割した象限



第 I ,第 III 象限のデータ数」>「第 II ,第 IV 象限のデータ数」の場合には右上が
第 I ,第 III 象限のデータ数」<「第 II ,第 IV 象限のデータ数」の場合には右下が
傾向
15

• 「第 I ,第 III 象限のデータ数」 - 「第 II ,第 IV 象限のデー
  タ数」
   正の場合は右上がり
   負の場合は右下がり

   最大の値は n – 0 = n
   最小の値は 0 – n = – n
  2 つのデータでデータサイズが異なると (nA と nB など),値により比較が
    しにくい。


• 比較しやすいようにデータ数で割る

                   範囲は,-1から1
                ± 1に近いほど傾向が強い


• ケンドール
後のために別表現                 16




           ケンドールの τ 係数
共分散             17




• 共分散

• データの単位に関係する
• どの程度強いか判定しに
  くい。
18

• → 各軸からの距離を標準偏差で割った値にする




              相関係数
R における共分散,相関係数                 19


• R で共分散を計算するには
  cov を使う
 cov(height, weight)
    • var でも計算できる
  n-1 で割っていることを確認すること。 P 37


• R で相関係数を計算
  cor を使う
  cor(height, weight)

  この例では, 0.851212
相関係数の性質            20

• -1 ≦ r xy≦1
• 完全相関 r xy = ±1
    1本の直線上にすべて
  の点
• 無相関  r xy =0
  相関(直線的な傾向)が無
  い

• 計算結果が 0 だとしても関
  係がないわけではない
    直線的な関係以外
-1 ≦ r xy≦1   21
完全相関            22




       つまり直線状
散布図と相関係数                      23

• 散布図を見て,相関係数の値を読み取れるように練習。
• testcor()



• 誤差は ±0.1 の範囲で。
順位相関係数                          24

• データが順位( 1 位, 2 位,・・・)で与えられている場合
  の相関係数→順位相関係数

• スピアマンの順位相関係数
  順位を普通のデータとして相関係数を計算




         A と B の相関係数
25

• 順位の平均,分散
  データは順位なので, 1 から n が一度ずつ出てくる。
26

• 共分散
27

• よって相関係数は




             スピアマンの順位相関係数
ケンドールの順位相関係数                       28

• 順位を全部に対してつけるのは難しい。
  順位をつけられない場合もある
• n 個の対象から取り出した nC2 組の 2 つの組み合わせに対して
  大小関係をつける。

• A,B の 2 名に大小関係をつけてもらう
  一致した組数  K
  不一致の組数  L
  M=K+L


• このとき              ケンドールの順位相関係
                         数
レポート
• 2 変量データ  cars データに対して分析を行え。
• しめきり
    月   日   時
多変量データのグラフ表現                            30

• iris データ
   3 種類のアイリス(アヤメ)について各 50 個の花を, 4 ヶ所ずつ測定
    したデータ
      • がくの長さ
      • がくの幅
      • 花弁の長さ
      • 花弁の幅
• 有名なデータで,統計の分野では,よく利用される。
• iris で確認できる。
並行箱ひげ図                                                             31




     8
     6
     4
     2
     0




         Sepal.Length   Sepal.Width   Petal.Length   Petal.Width
散布図行列                                                                                32

•   pairs(iris[1:4])
•   pairs(iris[1:4],pch=21,bg = c("red", "green3", "blue")[unclass(iris$Species)])
3 次元散布図                                                                 33

library(rgl)
rgl.points(iris[1:50,1], iris[1:50,2], iris[1:50,3], color="red", size=3)
rgl.points(iris[51:100,1], iris[51:100,2], iris[51:100,3], color="green",
   size=3)
rgl.points(iris[101:150,1], iris[101:150,2], iris[101:150,3],
   color="blue", size=3)
rgl.lines(c(0, max(iris[, 1])), c(0, 0), c(0, 0))
rgl.lines(c(0, 0), c(0, max(iris[, 2])), c(0, 0))
rgl.lines(c(0, 0), c(0, 0), c(0, max(iris[, 3])))
text3d(max(iris[, 1]), 0, 0, text = "X")
text3d(0, max(iris[, 2]), 0, text = "Y")
text3d(0, 0, max(iris[, 3]), text = "Z")
パッケージのインストール
• > library(rgl)
   以下にエラー library(rgl) : 'rgl' という名前のパッケージはあ
  りません

• パッケージ「 rgl 」がインストールされていない。
• Rgui ウィンドウのメニュー「パッケージ」より
   CRAN ミラーサイトの設定
     • Japan(Aizu)  を選択(日本のどこでも可)
   パッケージのインストール
     • rgl  を選択
35
平行座標プロット                                       36

library(MASS)
 parcoord(iris[1:4], col = 1 + (0:149)%/%50)
散布図と相関係数                      37

• 散布図を見て,相関係数の値を読み取れるように練習。
• testcor()



• 誤差は ±0.1 の範囲で。

Weitere ähnliche Inhalte

Was ist angesagt?

VBAで数値計算 07 ベクトル
VBAで数値計算 07 ベクトルVBAで数値計算 07 ベクトル
VBAで数値計算 07 ベクトルKatsuhiro Morishita
 
ラビットチャレンジレポート 応用数学
ラビットチャレンジレポート 応用数学ラビットチャレンジレポート 応用数学
ラビットチャレンジレポート 応用数学HiroyukiTerada4
 
データ解析5 単回帰分析
データ解析5 単回帰分析データ解析5 単回帰分析
データ解析5 単回帰分析Hirotaka Hachiya
 
第1回R勉強会@東京
第1回R勉強会@東京第1回R勉強会@東京
第1回R勉強会@東京Yohei Sato
 
データ解析7 主成分分析の基礎
データ解析7 主成分分析の基礎データ解析7 主成分分析の基礎
データ解析7 主成分分析の基礎Hirotaka Hachiya
 
データ解析13 線形判別分析
データ解析13 線形判別分析データ解析13 線形判別分析
データ解析13 線形判別分析Hirotaka Hachiya
 
アルゴリズム+データ構造勉強会(7)
アルゴリズム+データ構造勉強会(7)アルゴリズム+データ構造勉強会(7)
アルゴリズム+データ構造勉強会(7)noldor
 
データ解析11 因子分析の応用
データ解析11 因子分析の応用データ解析11 因子分析の応用
データ解析11 因子分析の応用Hirotaka Hachiya
 

Was ist angesagt? (8)

VBAで数値計算 07 ベクトル
VBAで数値計算 07 ベクトルVBAで数値計算 07 ベクトル
VBAで数値計算 07 ベクトル
 
ラビットチャレンジレポート 応用数学
ラビットチャレンジレポート 応用数学ラビットチャレンジレポート 応用数学
ラビットチャレンジレポート 応用数学
 
データ解析5 単回帰分析
データ解析5 単回帰分析データ解析5 単回帰分析
データ解析5 単回帰分析
 
第1回R勉強会@東京
第1回R勉強会@東京第1回R勉強会@東京
第1回R勉強会@東京
 
データ解析7 主成分分析の基礎
データ解析7 主成分分析の基礎データ解析7 主成分分析の基礎
データ解析7 主成分分析の基礎
 
データ解析13 線形判別分析
データ解析13 線形判別分析データ解析13 線形判別分析
データ解析13 線形判別分析
 
アルゴリズム+データ構造勉強会(7)
アルゴリズム+データ構造勉強会(7)アルゴリズム+データ構造勉強会(7)
アルゴリズム+データ構造勉強会(7)
 
データ解析11 因子分析の応用
データ解析11 因子分析の応用データ解析11 因子分析の応用
データ解析11 因子分析の応用
 

Andere mochten auch

040 相関
040 相関040 相関
040 相関t2tarumi
 
科学のための共通言語
科学のための共通言語科学のための共通言語
科学のための共通言語Tomoyuki Tarumi
 
010 統計学とは
010 統計学とは010 統計学とは
010 統計学とはt2tarumi
 
K040 確率分布とchi2分布
K040 確率分布とchi2分布K040 確率分布とchi2分布
K040 確率分布とchi2分布t2tarumi
 
020 1変数の集計
020 1変数の集計020 1変数の集計
020 1変数の集計t2tarumi
 
質的変数の相関・因子分析
質的変数の相関・因子分析質的変数の相関・因子分析
質的変数の相関・因子分析Mitsuo Shimohata
 

Andere mochten auch (6)

040 相関
040 相関040 相関
040 相関
 
科学のための共通言語
科学のための共通言語科学のための共通言語
科学のための共通言語
 
010 統計学とは
010 統計学とは010 統計学とは
010 統計学とは
 
K040 確率分布とchi2分布
K040 確率分布とchi2分布K040 確率分布とchi2分布
K040 確率分布とchi2分布
 
020 1変数の集計
020 1変数の集計020 1変数の集計
020 1変数の集計
 
質的変数の相関・因子分析
質的変数の相関・因子分析質的変数の相関・因子分析
質的変数の相関・因子分析
 

Ähnlich wie K030 appstat201203 2variable

20130223_集計・分析の基礎@アンケート研究会
20130223_集計・分析の基礎@アンケート研究会20130223_集計・分析の基礎@アンケート研究会
20130223_集計・分析の基礎@アンケート研究会Takanori Hiroe
 
[Tokyor08] Rによるデータサイエンス 第2部 第3章 対応分析
[Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析[Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析
[Tokyor08] Rによるデータサイエンス 第2部 第3章 対応分析Yohei Sato
 
K070k80 点推定 区間推定
K070k80 点推定 区間推定K070k80 点推定 区間推定
K070k80 点推定 区間推定t2tarumi
 
Rで実験計画法 前編
Rで実験計画法 前編Rで実験計画法 前編
Rで実験計画法 前編itoyan110
 
データサイエンス概論第一=2-1 データ間の距離と類似度
データサイエンス概論第一=2-1 データ間の距離と類似度データサイエンス概論第一=2-1 データ間の距離と類似度
データサイエンス概論第一=2-1 データ間の距離と類似度Seiichi Uchida
 
Rで実験計画法 後編
Rで実験計画法 後編Rで実験計画法 後編
Rで実験計画法 後編itoyan110
 
みどりぼん読書会 第4章
みどりぼん読書会 第4章みどりぼん読書会 第4章
みどりぼん読書会 第4章Masanori Takano
 
カテゴリカルデータの解析 (Kashiwa.R#3)
カテゴリカルデータの解析 (Kashiwa.R#3)カテゴリカルデータの解析 (Kashiwa.R#3)
カテゴリカルデータの解析 (Kashiwa.R#3)Takumi Tsutaya
 
データサイエンス概論第一=4-2 確率と確率分布
データサイエンス概論第一=4-2 確率と確率分布データサイエンス概論第一=4-2 確率と確率分布
データサイエンス概論第一=4-2 確率と確率分布Seiichi Uchida
 
K070 点推定
K070 点推定K070 点推定
K070 点推定t2tarumi
 
An introduction to statistical learning 4 logistic regression manu
An introduction to statistical learning 4 logistic regression manuAn introduction to statistical learning 4 logistic regression manu
An introduction to statistical learning 4 logistic regression manuHideyuki Takahashi
 
Yasunori Futamura
Yasunori FutamuraYasunori Futamura
Yasunori FutamuraSuurist
 
ウェーブレット木の世界
ウェーブレット木の世界ウェーブレット木の世界
ウェーブレット木の世界Preferred Networks
 
マルコフ連鎖モンテカルロ法と多重代入法
マルコフ連鎖モンテカルロ法と多重代入法マルコフ連鎖モンテカルロ法と多重代入法
マルコフ連鎖モンテカルロ法と多重代入法Koichiro Gibo
 
TokyoWebmining統計学部 第1回
TokyoWebmining統計学部 第1回TokyoWebmining統計学部 第1回
TokyoWebmining統計学部 第1回Issei Kurahashi
 
【Zansa】第12回勉強会 -PRMLからベイズの世界へ
【Zansa】第12回勉強会 -PRMLからベイズの世界へ【Zansa】第12回勉強会 -PRMLからベイズの世界へ
【Zansa】第12回勉強会 -PRMLからベイズの世界へZansa
 
Yamadai.R チュートリアルセッション
Yamadai.R チュートリアルセッションYamadai.R チュートリアルセッション
Yamadai.R チュートリアルセッション考司 小杉
 
幾何を使った統計のはなし
幾何を使った統計のはなし幾何を使った統計のはなし
幾何を使った統計のはなしToru Imai
 
【読書会資料】『StanとRでベイズ統計モデリング』Chapter12:時間や空間を扱うモデル
【読書会資料】『StanとRでベイズ統計モデリング』Chapter12:時間や空間を扱うモデル【読書会資料】『StanとRでベイズ統計モデリング』Chapter12:時間や空間を扱うモデル
【読書会資料】『StanとRでベイズ統計モデリング』Chapter12:時間や空間を扱うモデルMasashi Komori
 

Ähnlich wie K030 appstat201203 2variable (20)

20130223_集計・分析の基礎@アンケート研究会
20130223_集計・分析の基礎@アンケート研究会20130223_集計・分析の基礎@アンケート研究会
20130223_集計・分析の基礎@アンケート研究会
 
[Tokyor08] Rによるデータサイエンス 第2部 第3章 対応分析
[Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析[Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析
[Tokyor08] Rによるデータサイエンス 第2部 第3章 対応分析
 
K070k80 点推定 区間推定
K070k80 点推定 区間推定K070k80 点推定 区間推定
K070k80 点推定 区間推定
 
Rで実験計画法 前編
Rで実験計画法 前編Rで実験計画法 前編
Rで実験計画法 前編
 
データサイエンス概論第一=2-1 データ間の距離と類似度
データサイエンス概論第一=2-1 データ間の距離と類似度データサイエンス概論第一=2-1 データ間の距離と類似度
データサイエンス概論第一=2-1 データ間の距離と類似度
 
Rで実験計画法 後編
Rで実験計画法 後編Rで実験計画法 後編
Rで実験計画法 後編
 
みどりぼん読書会 第4章
みどりぼん読書会 第4章みどりぼん読書会 第4章
みどりぼん読書会 第4章
 
カテゴリカルデータの解析 (Kashiwa.R#3)
カテゴリカルデータの解析 (Kashiwa.R#3)カテゴリカルデータの解析 (Kashiwa.R#3)
カテゴリカルデータの解析 (Kashiwa.R#3)
 
データサイエンス概論第一=4-2 確率と確率分布
データサイエンス概論第一=4-2 確率と確率分布データサイエンス概論第一=4-2 確率と確率分布
データサイエンス概論第一=4-2 確率と確率分布
 
K070 点推定
K070 点推定K070 点推定
K070 点推定
 
An introduction to statistical learning 4 logistic regression manu
An introduction to statistical learning 4 logistic regression manuAn introduction to statistical learning 4 logistic regression manu
An introduction to statistical learning 4 logistic regression manu
 
Yasunori Futamura
Yasunori FutamuraYasunori Futamura
Yasunori Futamura
 
ウェーブレット木の世界
ウェーブレット木の世界ウェーブレット木の世界
ウェーブレット木の世界
 
マルコフ連鎖モンテカルロ法と多重代入法
マルコフ連鎖モンテカルロ法と多重代入法マルコフ連鎖モンテカルロ法と多重代入法
マルコフ連鎖モンテカルロ法と多重代入法
 
TokyoWebmining統計学部 第1回
TokyoWebmining統計学部 第1回TokyoWebmining統計学部 第1回
TokyoWebmining統計学部 第1回
 
【Zansa】第12回勉強会 -PRMLからベイズの世界へ
【Zansa】第12回勉強会 -PRMLからベイズの世界へ【Zansa】第12回勉強会 -PRMLからベイズの世界へ
【Zansa】第12回勉強会 -PRMLからベイズの世界へ
 
Yamadai.R チュートリアルセッション
Yamadai.R チュートリアルセッションYamadai.R チュートリアルセッション
Yamadai.R チュートリアルセッション
 
幾何を使った統計のはなし
幾何を使った統計のはなし幾何を使った統計のはなし
幾何を使った統計のはなし
 
【読書会資料】『StanとRでベイズ統計モデリング』Chapter12:時間や空間を扱うモデル
【読書会資料】『StanとRでベイズ統計モデリング』Chapter12:時間や空間を扱うモデル【読書会資料】『StanとRでベイズ統計モデリング』Chapter12:時間や空間を扱うモデル
【読書会資料】『StanとRでベイズ統計モデリング』Chapter12:時間や空間を扱うモデル
 
Prml 1.3~1.6 ver3
Prml 1.3~1.6 ver3Prml 1.3~1.6 ver3
Prml 1.3~1.6 ver3
 

Mehr von t2tarumi

K090 仮説検定
K090 仮説検定K090 仮説検定
K090 仮説検定t2tarumi
 
K060 中心極限定理clt
K060 中心極限定理cltK060 中心極限定理clt
K060 中心極限定理cltt2tarumi
 
K050 t分布f分布
K050 t分布f分布K050 t分布f分布
K050 t分布f分布t2tarumi
 
K010 appstat201201
K010 appstat201201K010 appstat201201
K010 appstat201201t2tarumi
 
K080 区間推定
K080 区間推定K080 区間推定
K080 区間推定t2tarumi
 
000 統計学入門 目標
000 統計学入門 目標000 統計学入門 目標
000 統計学入門 目標t2tarumi
 
086 独立性の検定
086 独立性の検定086 独立性の検定
086 独立性の検定t2tarumi
 
076 母比率の推定
076 母比率の推定076 母比率の推定
076 母比率の推定t2tarumi
 
080 統計的推測 検定
080 統計的推測 検定080 統計的推測 検定
080 統計的推測 検定t2tarumi
 
070 統計的推測 母集団と推定
070 統計的推測 母集団と推定070 統計的推測 母集団と推定
070 統計的推測 母集団と推定t2tarumi
 
060 期待値・中心極限定理
060 期待値・中心極限定理060 期待値・中心極限定理
060 期待値・中心極限定理t2tarumi
 
050 確率と確率分布
050 確率と確率分布050 確率と確率分布
050 確率と確率分布t2tarumi
 
030 2変数の集計
030 2変数の集計030 2変数の集計
030 2変数の集計t2tarumi
 

Mehr von t2tarumi (13)

K090 仮説検定
K090 仮説検定K090 仮説検定
K090 仮説検定
 
K060 中心極限定理clt
K060 中心極限定理cltK060 中心極限定理clt
K060 中心極限定理clt
 
K050 t分布f分布
K050 t分布f分布K050 t分布f分布
K050 t分布f分布
 
K010 appstat201201
K010 appstat201201K010 appstat201201
K010 appstat201201
 
K080 区間推定
K080 区間推定K080 区間推定
K080 区間推定
 
000 統計学入門 目標
000 統計学入門 目標000 統計学入門 目標
000 統計学入門 目標
 
086 独立性の検定
086 独立性の検定086 独立性の検定
086 独立性の検定
 
076 母比率の推定
076 母比率の推定076 母比率の推定
076 母比率の推定
 
080 統計的推測 検定
080 統計的推測 検定080 統計的推測 検定
080 統計的推測 検定
 
070 統計的推測 母集団と推定
070 統計的推測 母集団と推定070 統計的推測 母集団と推定
070 統計的推測 母集団と推定
 
060 期待値・中心極限定理
060 期待値・中心極限定理060 期待値・中心極限定理
060 期待値・中心極限定理
 
050 確率と確率分布
050 確率と確率分布050 確率と確率分布
050 確率と確率分布
 
030 2変数の集計
030 2変数の集計030 2変数の集計
030 2変数の集計
 

K030 appstat201203 2variable

  • 1. 1 情報統計学 2 変量データの分析 20110520 scale 修正 20120502  スライド追加(散布図)
  • 2. 2 変量データ 2 2 変量データではあるが • それぞれの変量を 1 変量データとして 1. 代表値 2. 散布度 3. ヒストグラム,ボックスプロット などで分析できる。
  • 3. データの登録 3 データを登録,読み込む方法 • weight という名前で登録し,その後, bodydata という形でま とめる。 • bodydata として行列で登録
  • 4. ファイルからデータを読み込む(重要) 4 • data1.txt というデータファイルがあるとする。スペース or タ ブ区切り。 • data1.csv という CSV ファイルを読み込むには • data1-1.csv という CSV ファイ • データを確認してみよう ルbodydata <-read.csv("data1-1.csv") >
  • 5. データの一部を取り出す 5 • まず, 1 変量ずつ分析するため,一部を取り出そう • height, weight それぞれについて一変量の分析を行う。  関数 one.var.analysis をつくってあるのでそれを使う。
  • 6. 6
  • 7. 2 変量の分析 7 • 並行箱ひげ図 > boxplot(height, weight, names=c(”height”, ”weight”)) ちなみに > boxplot(as.vector(scale(height)), as.vector(scale(weight)), names=c(“height”, “weight”)) とすれば ・・・ 単位の異なる変数、 数値の桁が異なる変数 の平行箱ひげ図は 意味が無い!ことが多い
  • 8. 散布図 plot plot(bodydata) plot(height,weight) plot(weight~height) 45 40 weight 35 30 140 145 150 155 160 height
  • 9. 回帰直線 9 • 散布図から右上がり,右下がりの直線的な傾向
  • 12. 12
  • 14. 共分散・相関係数 14 • 散布図→直線的な傾向(回帰直線を引く) • 直線的傾向の強弱を数値化  右上がりか右下がりか  どれだけ直線的傾向があるか 平均で分割した象限 第 I ,第 III 象限のデータ数」>「第 II ,第 IV 象限のデータ数」の場合には右上が 第 I ,第 III 象限のデータ数」<「第 II ,第 IV 象限のデータ数」の場合には右下が 傾向
  • 15. 15 • 「第 I ,第 III 象限のデータ数」 - 「第 II ,第 IV 象限のデー タ数」  正の場合は右上がり  負の場合は右下がり  最大の値は n – 0 = n  最小の値は 0 – n = – n 2 つのデータでデータサイズが異なると (nA と nB など),値により比較が しにくい。 • 比較しやすいようにデータ数で割る 範囲は,-1から1 ± 1に近いほど傾向が強い • ケンドール
  • 16. 後のために別表現 16 ケンドールの τ 係数
  • 17. 共分散 17 • 共分散 • データの単位に関係する • どの程度強いか判定しに くい。
  • 19. R における共分散,相関係数 19 • R で共分散を計算するには  cov を使う cov(height, weight) • var でも計算できる  n-1 で割っていることを確認すること。 P 37 • R で相関係数を計算  cor を使う  cor(height, weight)  この例では, 0.851212
  • 20. 相関係数の性質 20 • -1 ≦ r xy≦1 • 完全相関 r xy = ±1   1本の直線上にすべて の点 • 無相関  r xy =0 相関(直線的な傾向)が無 い • 計算結果が 0 だとしても関 係がないわけではない  直線的な関係以外
  • 21. -1 ≦ r xy≦1 21
  • 22. 完全相関 22 つまり直線状
  • 23. 散布図と相関係数 23 • 散布図を見て,相関係数の値を読み取れるように練習。 • testcor() • 誤差は ±0.1 の範囲で。
  • 24. 順位相関係数 24 • データが順位( 1 位, 2 位,・・・)で与えられている場合 の相関係数→順位相関係数 • スピアマンの順位相関係数  順位を普通のデータとして相関係数を計算 A と B の相関係数
  • 25. 25 • 順位の平均,分散  データは順位なので, 1 から n が一度ずつ出てくる。
  • 27. 27 • よって相関係数は スピアマンの順位相関係数
  • 28. ケンドールの順位相関係数 28 • 順位を全部に対してつけるのは難しい。  順位をつけられない場合もある • n 個の対象から取り出した nC2 組の 2 つの組み合わせに対して 大小関係をつける。 • A,B の 2 名に大小関係をつけてもらう  一致した組数  K  不一致の組数  L  M=K+L • このとき ケンドールの順位相関係 数
  • 29. レポート • 2 変量データ  cars データに対して分析を行え。 • しめきり    月   日   時
  • 30. 多変量データのグラフ表現 30 • iris データ  3 種類のアイリス(アヤメ)について各 50 個の花を, 4 ヶ所ずつ測定 したデータ • がくの長さ • がくの幅 • 花弁の長さ • 花弁の幅 • 有名なデータで,統計の分野では,よく利用される。 • iris で確認できる。
  • 31. 並行箱ひげ図 31 8 6 4 2 0 Sepal.Length Sepal.Width Petal.Length Petal.Width
  • 32. 散布図行列 32 • pairs(iris[1:4]) • pairs(iris[1:4],pch=21,bg = c("red", "green3", "blue")[unclass(iris$Species)])
  • 33. 3 次元散布図 33 library(rgl) rgl.points(iris[1:50,1], iris[1:50,2], iris[1:50,3], color="red", size=3) rgl.points(iris[51:100,1], iris[51:100,2], iris[51:100,3], color="green", size=3) rgl.points(iris[101:150,1], iris[101:150,2], iris[101:150,3], color="blue", size=3) rgl.lines(c(0, max(iris[, 1])), c(0, 0), c(0, 0)) rgl.lines(c(0, 0), c(0, max(iris[, 2])), c(0, 0)) rgl.lines(c(0, 0), c(0, 0), c(0, max(iris[, 3]))) text3d(max(iris[, 1]), 0, 0, text = "X") text3d(0, max(iris[, 2]), 0, text = "Y") text3d(0, 0, max(iris[, 3]), text = "Z")
  • 34. パッケージのインストール • > library(rgl) 以下にエラー library(rgl) : 'rgl' という名前のパッケージはあ りません • パッケージ「 rgl 」がインストールされていない。 • Rgui ウィンドウのメニュー「パッケージ」より  CRAN ミラーサイトの設定 • Japan(Aizu)  を選択(日本のどこでも可)  パッケージのインストール • rgl  を選択
  • 35. 35
  • 36. 平行座標プロット 36 library(MASS) parcoord(iris[1:4], col = 1 + (0:149)%/%50)
  • 37. 散布図と相関係数 37 • 散布図を見て,相関係数の値を読み取れるように練習。 • testcor() • 誤差は ±0.1 の範囲で。