Weitere ähnliche Inhalte
Mehr von Tsuda University Institute for Mathematics and Computer Science (20)
C ai p3_jp_no4v1.20
- 3. 第7章 最適化尺度
法
第6章 次元を縮減
する
第5章 Χ2距離をプ
ロットする
第4章 Χ2距離と慣
性
第1章 散布図と
マップ
第2章 プロファイ
ルとプロファイル
空間
第3章 質量と重⼼
2つの量変数の関係を⾒る
→ 散布図
カテゴリカル変数をどう扱うか
距離!
CAの基本概念:プロファイル
それが位置するプロファイル
空間。三⾓座標でみていく。
プロファイル:周辺度数→質量
頂点とプロファイル、
平均プロファイル(期待値プロ
ファイル)、重⼼
距離: Χ2距離
慣性: Χ2値/n(プロファイル値で
表現)
最⼤慣性:頂点に⼀致
最⼩慣性:原点(重⼼)に⼀致
Χ2距離をユークリッド距離
に変換し図⽰する。
分布の同等性(分布的に等価)
ここまで3次元。これからより
多数の次元を扱う。
低次元下位空間を同定する(回帰
との⽐較)
SVD:特異値分解
近似:表⽰の質
第10章 さらに3つ
の事例
DS5:科学研究者の評価
DS6:海底試料中海洋種
DS7:著者ごとの⽂字種
慣性の分解
⾮対称マップ/対称マップ
慣性の⼤きさによる表⽰
の特徴
第9章 2次元表⽰ 主軸のネスティング
プロファイルと頂点
⾮対称マップ/対称マップ
第8章 ⾏分析と列
分析の対称性
頂点位置とプロファイル
スケーリング係数
主座標と標準座標
正準相関:最⼤化
整数尺度(likert)
解釈の基準
プロファイル空間の幾何学(1)
プロファイル空間の幾何学(2)
2021/3/20 ver0.9 対応分析研究会 第4回 資料 3
DS1
DS2
DS3
DS4
- 5. 第1章〜第3章 復習
• 第1章 散布図
• 2つの量的変数の関係を図⽰。相関係数。
• 2次元以上をどうする
• カテゴリカル・データをどうする → 「プロファイル・ポイント」
• 第2章 プロファイルとプロファイル空間
• プロファイルの定義と空間
• ⾏プロファイルと列空間
• 列プロファイルと⾏空間
• 第3章 質量と重⼼
• 質量は、周辺度数。プロファイルポイントの「質量」
• 重⼼(平均)は、「期待値」ポイント。
2021/3/20 ver0.9 対応分析研究会 第4回 資料 5
• 三⾓座標でなにを理
解する?
• χ2距離がもたらすも
の
- 6. 第3章 復習「質量と重⼼」
• データセット2 「教育歴と新聞読み⽅」
• http://www.ogi-nic.net/CARME-N/download/readers.xls
• 第2章で導⼊したプロファイル、プロファイル空間での
• 質量と重⼼
• 質量:mass 周辺度数プロファイル
• 重⼼:Centroid 平均=「期待値プロファイル」
• ⾏分析
• 平均⾏プロファイルと⾏質量
• 列分析
• 平均列プロファイルと列質量
• 値は同じ
• 平均⾏プロファイル=列質量
• ⾏質量=平均列プロファイル
2021/3/20 ver0.9 対応分析研究会 第4回 資料 6
- 7. Exhibit3.1 データの確認
C1 C2 C3 ⾏和
E1 5 7 2 14
E2 18 46 20 84
E3 19 29 39 87
E4 12 40 49 101
E5 3 7 16 26
列和 57 129 126 312
2021/3/20 ver0.9 対応分析研究会 第4回 資料 7
• mosaic plot
帯棒グラフの帯幅(⾼さ)を度数に⽐例させている。
度数が少ないものの幅は⼩さい。
vcdのドキュメント参照。Michael Friendly
(スライドの最後にリンク集をつけました。)
- 8. Exhibit3.1 ⾏プロファイル
C1 C2 C3 ⾏質量
E1 0.357 0.500 0.143 0.045
E2 0.214 0.548 0.238 0.269
E3 0.218 0.333 0.448 0.279
E4 0.119 0.396 0.485 0.324
E5 0.115 0.269 0.615 0.083
平均⾏
prof
0.183 0.413 0.404 1.000
2021/3/20 ver0.9 対応分析研究会 第4回 資料 8
⾏質量に、
⾏度数の⼤⼩
が反映している。
- 9. Exhibit 3.4 列分析
C1 C2 C3 ⾏和
E1 5 7 2 14
E2 18 46 20 84
E3 19 29 39 87
E4 12 40 49 101
E5 3 7 16 26
列和 57 129 126 312
2021/3/20 ver0.9 対応分析研究会 第4回 資料 9
- 10. Exhibit3.4 列プロファイル
C1 C2 C3
平均列
prof
E1 0.088 0.054 0.016 0.045
E2 0.316 0.357 0.159 0.269
E3 0.333 0.225 0.310 0.279
E4 0.211 0.310 0.389 0.324
E5 0.053 0.054 0.127 0.083
列質量 0.183 0.413 0.404 1.000
2021/3/20 ver0.9 対応分析研究会 第4回 資料 10
- 11. 確認していただきたいこと
C1 C2 C3 ⾏質量
E1 0.357 0.500 0.143 0.045
E2 0.214 0.548 0.238 0.269
E3 0.218 0.333 0.448 0.279
E4 0.119 0.396 0.485 0.324
E5 0.115 0.269 0.615 0.083
平均⾏
prof
0.183 0.413 0.404 1.000
C1 C2 C3
平均列
prof
E1 0.088 0.054 0.016 0.045
E2 0.316 0.357 0.159 0.269
E3 0.333 0.225 0.310 0.279
E4 0.211 0.310 0.389 0.324
E5 0.053 0.054 0.127 0.083
列質量 0.183 0.413 0.404 1.000
• ⽔⾊で囲った「⾏プロファイル値」「列プロファイル値」は異なっているが、
• 平均⾏プロファイルと列質量、平均列プロファイルと⾏質量は同じ値。
• 平均⾏/列プロファイルは、元のデータ表(Exhibit3.1)からもとめた期待値に
対応するプロファイル。
• 平均プロファイル=重⼼は、期待値ポイント。
⾏プロファイル 列プロファイル
2021/3/20 ver0.9 対応分析研究会 第4回 資料 11
- 13. 第4章 χ2距離と慣性
• χ2値を計算する
• 式を変形して、χ2/N = Φ2 として慣性を定義する
• プロファイルを⽤いて表現
• 慣性(inertia)は、対応分析⽤語で、分散のこと
• 慣性は、分析している系が有している分散(ポイントの散らば
り)を表現している
• 最⼤慣性となるとき プロファイルが頂点に⼀致
• 最⼩慣性となるとき プロファイルが重⼼に⼀致
2021/3/20 ver0.9 対応分析研究会 第4回 資料 13
- 14. C1 C2 C3 ⾏質量
E1 0.357 0.500 0.143 0.045
E2 0.214 0.548 0.238 0.269
E3 0.218 0.333 0.448 0.279
E4 0.119 0.396 0.485 0.324
E5 0.115 0.269 0.615 0.083
row_ave 0.183 0.413 0.404 1.000
C1 C2 C3 Sum
E1 5 7 2 14
E2 18 46 20 84
E3 19 29 39 87
E4 12 40 49 101
E5 3 7 16 26
Sum 57 129 126 312
表2 ⾏プロファイル
表1 観測度数と周辺度数
C1 C2 C3
E1 2.56 5.79 5.65
E2 15.35 34.73 33.92
E3 15.89 35.97 35.13
E4 18.45 41.76 40.79
E5 4.75 10.75 10.50
表3 期待値 表4 期待値のプロファイル
5/14 =0.357
57/312=0.183
2.56/14=0.183
C1 C2 C3
E1 0.183 0.413 0.404
E2 0.183 0.413 0.404
E3 0.183 0.413 0.404
E4 0.183 0.413 0.404
E5 0.183 0.413 0.404
_
_
26/312=0.083
2021/3/20 ver0.9 対応分析研究会 第4回 資料 14
- 15. C1 C2 C3 Sum
E1 5 7 2 14
E2 18 46 20 84
E3 19 29 39 87
E4 12 40 49 101
E5 3 7 16 26
Sum 57 129 126 312
(表1) 観測度数と周辺度数
C1 C2 C3
E1 2.56 5.79 5.65
E2 15.35 34.73 33.92
E3 15.89 35.97 35.13
E4 18.45 41.76 40.79
E5 4.75 10.75 10.50
(表3) 期待値
χ2値= セルχ2値((観測値-期待値)2/期待値)の総和
p27
2021/3/20 ver0.9 対応分析研究会 第4回 資料 15
- 16. C1 C2 C3 ⾏質量
E1 0.357 0.500 0.143 0.045
E2 0.214 0.548 0.238 0.269
E3 0.218 0.333 0.448 0.279
E4 0.119 0.396 0.485 0.324
E5 0.115 0.269 0.615 0.083
row_ave 0.183 0.413 0.404 1.000
表2 ⾏プロファイル
⾏平均プロファイル=期待値=重⼼
2021/3/20 ver0.9 対応分析研究会 第4回 資料 16
- 29. 第6章 次元を縮減する
• ここまで三次元の世界。
• ここから多次元を扱う
• しかし、3次元以上は理解できない。
• ポイントを低次元の下位空間に同定する。
• 回帰との⽐較。
• SVD(特異値分解)
• 低次元下位空間近似に伴う誤差、表⽰の質
2021/3/20 ver0.9 対応分析研究会 第4回 資料 29
- 30. データセット3:スペイン国⺠健康調査
VG G R B VB Sum
16-24 243 789 167 18 6 1223
25-34 220 809 164 35 6 1234
35-44 147 658 181 41 8 1035
45-54 90 469 236 50 16 861
55-64 53 414 306 106 30 909
65-74 44 267 284 98 20 713
75+ 20 136 157 66 17 396
Sum 817 3542 1495 414 103 6371
2021/3/20 ver0.9 対応分析研究会 第4回 資料 30
- 31. Exhibit 6.2 ⾏プロファイル
VG G R B VB
16-24 19.9 64.5 13.7 1.5 0.5
25-34 17.8 65.6 13.3 2.8 0.5
35-44 14.2 63.6 17.5 4.0 0.8
45-54 10.5 54.5 27.4 5.8 1.9
55-64 5.8 45.5 33.7 11.7 3.3
65-74 6.2 37.4 39.8 13.7 2.8
75+ 5.1 34.3 39.6 16.7 4.3
Ave 12.8 55.6 23.5 6.5 1.6
2021/3/20 ver0.9 対応分析研究会 第4回 資料 31
- 32. ここで突然「CAを⽤いると…」と展開
• CAのパッケージは、何種類かある。
• Greenare & Nenadicによるca::ca
• Hussonによる FactoMineR::CA
• 本書は、Greenacreによるものなので、ca::caでサンプルも作
成されているが、CAのresultの便利さからは、
FactoMineR::CAのほうが使いやすかったりもする。
• 拡張パッケージも、FactoMineRの⽅が多い。
• factoextra
• explor
• GDATools
2021/3/20 ver0.9 対応分析研究会 第4回 資料 32
- 34. Exhibit 6.4 真のχ2距離と観測値
• ⾏プロファイル(Exhibit6.2)から計算
されるポイント間距離と、CAで得ら
れる⾏主座標のポイント間距離の⽐較。
• CAのbefore、afterで、慣性(分散)
は保存され、この場合は、1次元に全
体の97.3%が表現されているので、誤
差(ずれ)は殆どない、ということ。
• 慣性=Σ(i番⽬の質量)(重⼼からi番⽬
のカイ2乗距離)2
=Σ各次元ごとの原点からの主座標距
離2
2021/3/20 ver0.9 対応分析研究会 第4回 資料 34
- 35. VG G R B VB ⾏質量
16-24 19.9 64.5 13.7 1.5 0.5 19.2
25-34 17.8 65.6 13.3 2.8 0.5 19.4
35-44 14.2 63.6 17.5 4.0 0.8 16.2
45-54 10.5 54.5 27.4 5.8 1.9 13.5
55-64 5.8 45.5 33.7 11.7 3.3 14.3
65-74 6.2 37.4 39.8 13.7 2.8 11.2
75+ 5.1 34.3 39.6 16.7 4.3 6.2
⾏平均 12.8 55.6 23.5 6.5 1.6 100.0
⾏主座標 Dim1 Dim2 Dim3 Dim4
16-24 -0.371 0.042 0.029 0.020
25-34 -0.330 0.020 -0.027 -0.012
35-44 -0.199 -0.041 -0.026 -0.024
45-54 0.071 -0.071 0.045 0.017
55-64 0.396 -0.033 -0.036 0.019
65-74 0.541 0.034 0.051 -0.037
75+ 0.658 0.084 -0.047 0.023
列主座標 Dim1 Dim2 Dim3 Dim4
VG -0.423 0.097 0.031 0.010
G -0.198 -0.025 -0.016 -0.003
R 0.439 -0.017 0.047 -0.001
B 0.755 0.084 -0.077 -0.033
VB 0.767 0.005 -0.090 0.154
Before CA After CA
重⼼
=χ2/N = Φ2
= Σ Dim (原点と⾏主座標の距離 )2
★ 元のデータ表が持っていた分散(慣性)は、⼤きさの順に整理
されて、その総和は、保持されている、ということ。
2021/3/20 ver0.9 対応分析研究会 第4回 資料 35
主座標
CA
- 43. mosaic関連情報
• 藤本⼀男,2018,「プログラミング⾔語Rにおける2つのmosaic plot と⽇本語、多⾔語表
⽰」『津⽥塾⼤学紀要』50号,129-146, http://id.nii.ac.jp/1234/00000135/
• 藤本⼀男,2017,「2つのmosaic plotと⽇本語表⽰」Tokyo.R#65,
https://www.slideshare.net/kazuofujimoto/2mosaic-plot-80084536
• 藤本⼀男,2018,「vcd::mosaicで⽇本語を使うためのwrapperを作ってそれをPackageに
してみた」,Tokyo.R#69, https://www.slideshare.net/kazuofujimoto/wrapper-to-use-
japanse-font-with-vcdmosaic-and-build-it-as-pakcage
• “Working with categorical data with R and the vcd and vcdExtra packages”,
https://cran.r-project.org/web/packages/vcdExtra/vignettes/vcd-tutorial.pdf
• “The Strucplot Framework: Visualizing Multi-way Contingency Tables with vcd”,
https://www.jstatsoft.org/article/view/v017i03
• なお、mosaic 表⽰を、対数線形モデルの適合判断に⽤いる事例は、藤本訳(2015)の
『対応分析⼊⾨』の第5章の解説部分、p171。
2021/3/20 ver0.9 対応分析研究会 第4回 資料 43
- 44. 対応分析の源泉 発表年順
• 1933, Hotlling,H,Analysis of complex of statistical variables into
principal components,Journal of Educational Psycholofy 24,417-
441,498-520 (主成分分析PCA)
• 1940,Fisher,R.A, The Precision of discriminant functions., Annals of
Eugenics 10:422-429 ,
https://onlinelibrary.wiley.com/doi/abs/10.1111/j.1469-1809.1940.tb02264.x
• (作業継続中)
2021/3/20 ver0.9 対応分析研究会 第4回 資料 44