C ai p3_jp_no4v1.20

対応分析研究会
第4回プロファイル空間の幾何学(1)
2021年3⽉26⽇
ver1.20 2021/03/26
作新学院⼤学
藤本⼀男
Kazuo.fujimoto2007@gmail.com

本⽇の構成
• 第10を最初のゴールとしてそこから章を遡ってみる。
• 第10章 → 第4章。
• 第1章〜第3章の復習（簡単に！）
• 第4章 χ2距離と慣性
• 第5章 χ2距離をプロットする
• 第6章次元を縮減する
• （Rを使うために）
2021/3/20 ver0.9 対応分析研究会第４回資料 2

第7章最適化尺度
法
第6章次元を縮減
する
第5章 Χ2距離をプ
ロットする
第4章 Χ2距離と慣
性
第1章散布図と
マップ
第2章プロファイ
ルとプロファイル
空間
第3章質量と重⼼
２つの量変数の関係を⾒る
→ 散布図
カテゴリカル変数をどう扱うか
距離！
CAの基本概念：プロファイル
それが位置するプロファイル
空間。三⾓座標でみていく。
プロファイル：周辺度数→質量
頂点とプロファイル、
平均プロファイル（期待値プロ
ファイル）、重⼼
距離： Χ2距離
慣性： Χ2値/n（プロファイル値で
表現）
最⼤慣性：頂点に⼀致
最⼩慣性：原点（重⼼）に⼀致
Χ2距離をユークリッド距離
に変換し図⽰する。
分布の同等性（分布的に等価）
ここまで3次元。これからより
多数の次元を扱う。
低次元下位空間を同定する（回帰
との⽐較）
SVD：特異値分解
近似：表⽰の質
第10章さらに３つ
の事例
DS5：科学研究者の評価
DS6：海底試料中海洋種
DS7：著者ごとの⽂字種
慣性の分解
⾮対称マップ/対称マップ
慣性の⼤きさによる表⽰
の特徴
第9章 2次元表⽰主軸のネスティング
プロファイルと頂点
⾮対称マップ/対称マップ
第8章⾏分析と列
分析の対称性
頂点位置とプロファイル
スケーリング係数
主座標と標準座標
正準相関：最⼤化
整数尺度（likert）
解釈の基準
プロファイル空間の幾何学（1）
プロファイル空間の幾何学（2）
DS1
DS2
DS3
DS4

第10章さらに三つの事例
• データの慣性（分散）に特徴のある三つの事例をあげて、対応
分析解釈の具体例を⽰す。
• 科学研究者の評価（DS5）
• 海底資料中の海洋種（DS6）
• 著者ごとの⽂字種の分布（DS7）
• 慣性の各軸への分解
• 軸ごとにみていく、という解釈スタイル
• ⾮対称マップ/対称マップ
ここをクリアすれば、CAの解釈
が可能になります！

第1章〜第3章復習
• 第1章散布図
• ２つの量的変数の関係を図⽰。相関係数。
• 2次元以上をどうする
• カテゴリカル・データをどうする → 「プロファイル・ポイント」
• 第2章プロファイルとプロファイル空間
• プロファイルの定義と空間
• ⾏プロファイルと列空間
• 列プロファイルと⾏空間
• 第3章質量と重⼼
• 質量は、周辺度数。プロファイルポイントの「質量」
• 重⼼（平均）は、「期待値」ポイント。
• 三⾓座標でなにを理
解する？
• χ2距離がもたらすも
の

第３章復習「質量と重⼼」
• データセット２「教育歴と新聞読み⽅」
• http://www.ogi-nic.net/CARME-N/download/readers.xls
• 第２章で導⼊したプロファイル、プロファイル空間での
• 質量と重⼼
• 質量：mass 周辺度数プロファイル
• 重⼼：Centroid 平均=「期待値プロファイル」
• ⾏分析
• 平均⾏プロファイルと⾏質量
• 列分析
• 平均列プロファイルと列質量
• 値は同じ
• 平均⾏プロファイル=列質量
• ⾏質量=平均列プロファイル

Exhibit3.1 データの確認
C1 C2 C3 ⾏和
E1 5 7 2 14
E2 18 46 20 84
E3 19 29 39 87
E4 12 40 49 101
E5 3 7 16 26
列和 57 129 126 312
• mosaic plot
帯棒グラフの帯幅（⾼さ）を度数に⽐例させている。
度数が少ないものの幅は⼩さい。
vcdのドキュメント参照。Michael Friendly
(スライドの最後にリンク集をつけました。)

Exhibit3.1 ⾏プロファイル
C1 C2 C3 ⾏質量
E1 0.357 0.500 0.143 0.045
E2 0.214 0.548 0.238 0.269
E3 0.218 0.333 0.448 0.279
E4 0.119 0.396 0.485 0.324
E5 0.115 0.269 0.615 0.083
平均⾏
prof
0.183 0.413 0.404 1.000
⾏質量に、
⾏度数の⼤⼩
が反映している。

Exhibit 3.4 列分析
C1 C2 C3 ⾏和
E1 5 7 2 14
E2 18 46 20 84
E3 19 29 39 87
E4 12 40 49 101
E5 3 7 16 26
列和 57 129 126 312

Exhibit3.4 列プロファイル
C1 C2 C3
平均列
prof
E1 0.088 0.054 0.016 0.045
E2 0.316 0.357 0.159 0.269
E3 0.333 0.225 0.310 0.279
E4 0.211 0.310 0.389 0.324
E5 0.053 0.054 0.127 0.083
列質量 0.183 0.413 0.404 1.000

確認していただきたいこと
C1 C2 C3 ⾏質量
E1 0.357 0.500 0.143 0.045
E2 0.214 0.548 0.238 0.269
E3 0.218 0.333 0.448 0.279
E4 0.119 0.396 0.485 0.324
E5 0.115 0.269 0.615 0.083
平均⾏
prof
0.183 0.413 0.404 1.000
C1 C2 C3
平均列
prof
E1 0.088 0.054 0.016 0.045
E2 0.316 0.357 0.159 0.269
E3 0.333 0.225 0.310 0.279
E4 0.211 0.310 0.389 0.324
E5 0.053 0.054 0.127 0.083
列質量 0.183 0.413 0.404 1.000
• ⽔⾊で囲った「⾏プロファイル値」「列プロファイル値」は異なっているが、
• 平均⾏プロファイルと列質量、平均列プロファイルと⾏質量は同じ値。
• 平均⾏/列プロファイルは、元のデータ表（Exhibit3.1）からもとめた期待値に
対応するプロファイル。
• 平均プロファイル=重⼼は、期待値ポイント。
⾏プロファイル列プロファイル

プロファイルとプロファイル空間
C1、C2、C3で形成されるプロファイル空間に
E1〜E5のプロファイル・ポイントがplotされて
いる。Averageは、E1〜E5の重⼼（平均=期待値）
と、同時に、C1〜C3の平均でもある。
この逆も可能。
E１〜E5が形成するプロファイル空間に、C1〜C3
をplotする。
しかし、５次元の絵はかけない….
（CAによる次元縮減をまってください！）

第４章 χ2距離と慣性
• χ2値を計算する
• 式を変形して、χ2/N = Φ2 として慣性を定義する
• プロファイルを⽤いて表現
• 慣性（inertia）は、対応分析⽤語で、分散のこと
• 慣性は、分析している系が有している分散（ポイントの散らば
り）を表現している
• 最⼤慣性となるときプロファイルが頂点に⼀致
• 最⼩慣性となるときプロファイルが重⼼に⼀致

C1 C2 C3 ⾏質量
E1 0.357 0.500 0.143 0.045
E2 0.214 0.548 0.238 0.269
E3 0.218 0.333 0.448 0.279
E4 0.119 0.396 0.485 0.324
E5 0.115 0.269 0.615 0.083
row_ave 0.183 0.413 0.404 1.000
C1 C2 C3 Sum
E1 5 7 2 14
E2 18 46 20 84
E3 19 29 39 87
E4 12 40 49 101
E5 3 7 16 26
Sum 57 129 126 312
表２⾏プロファイル
表１観測度数と周辺度数
C1 C2 C3
E1 2.56 5.79 5.65
E2 15.35 34.73 33.92
E3 15.89 35.97 35.13
E4 18.45 41.76 40.79
E5 4.75 10.75 10.50
表３期待値表４期待値のプロファイル
5/14 ＝0.357
57/312=0.183
2.56/14=0.183
C1 C2 C3
E1 0.183 0.413 0.404
E2 0.183 0.413 0.404
E3 0.183 0.413 0.404
E4 0.183 0.413 0.404
E5 0.183 0.413 0.404
＿
＿
26/312=0.083

C1 C2 C3 Sum
E1 5 7 2 14
E2 18 46 20 84
E3 19 29 39 87
E4 12 40 49 101
E5 3 7 16 26
Sum 57 129 126 312
(表１) 観測度数と周辺度数
C1 C2 C3
E1 2.56 5.79 5.65
E2 15.35 34.73 33.92
E3 15.89 35.97 35.13
E4 18.45 41.76 40.79
E5 4.75 10.75 10.50
(表３) 期待値
χ2値= セルχ2値（(観測値-期待値)2/期待値）の総和
p27

C1 C2 C3 ⾏質量
E1 0.357 0.500 0.143 0.045
E2 0.214 0.548 0.238 0.269
E3 0.218 0.333 0.448 0.279
E4 0.119 0.396 0.485 0.324
E5 0.115 0.269 0.615 0.083
row_ave 0.183 0.413 0.404 1.000
表２⾏プロファイル
⾏平均プロファイル=期待値=重⼼

Exhibit4.2の説明の差し替え
• 総慣性が⾼ければ、⾏（ポイント）と列（ポイント）の連関は
⼤きく、プロファイル空間における、プロファイル・ポイント
の散らばりも⼤きく表⽰されている。
• これらの表の列和（平均⾏プロファイル）は、等しいので
（=50）、χ2距離の計算におけるウェイトは同じものとなる。
したがって、これらのマップで⽬にしている距離がそのままχ2
距離である。
（この下線部分、納得できず。ウエイトは「同じ」であっも1で
はないので、ユークリッド距離とχ2距離が同じにはならな
い。）

第５章 χ2距離をプロットする
• χ2距離を加重ユークリッド距離として表記し、図⽰する。
• 分布の同等性（分布のあり⽅が同じ程度）であるポイントの統
合。
• ここに距離をχ2値で表現するメリットの１つがある。
• ⇄主成分分析（PCA）ではどうなるのか。

Exhibit5.1〜5.4の図⽰
• 距離計算式のウェイト部分（1/√cj）をポイント座標で処理す
るか、座標軸で処理するか。
• Exhibit4.1
• ユークリッド距離とχ2距離は「同じ」とあるが、計算すると、同じで
はない。
• 図としては、相似ではある。 χ2距離の列カテゴリごとのウェイトは
同じ、なので。でも、1ではないから、ユークリッド距離とχ2距離が
同じにはならない。Greenacre先⽣に確認！p30、p33

χ2距離を使うメリット
• 分布の同等性原理
• 似たプロファイルを統合しても、全体に影響がない。
• χ2距離を⽤いることで、分布の同等性原理が成⽴する。
• 参考：ユークリッド距離（主成分分析（PCA））ではそうはいかない。
• χ2距離を使うことで、寄与が相殺される？

Exhibit5.5の再現
• ポイント・プロファイルのその重⼼（平均プロファイル）との
距離の⼆乗の和が分散になる、というのはいいとして、その距
離関数で、ユークリッド距離を使うのか、カイ⼆乗距離を使う
のか、という問題。カイ⼆乗距離を使うというのは、そのポイ
ントプロファイルの質量（周辺度数）を分散を計算する要素
（ポイント・ウェイト）にするということなんだけど....。
• この２つの距離関数の違いがもたらすものをどう評価すればい
いのやら。

Exhibit5.5 を⽐較できるように表⽰
ユークリッド距離で
カイ⼆乗距離で

そもそも元のデータExhibit3.1は

距離関数内のC1〜C3部分の配分
これを
⽐べて？

重⼼-プロファイルポイント間距離
C1、C2、C3で形成されるプロファイル空間に
E1〜E5のプロファイル・ポイントがplotされて
いる。Averageは、E1〜E5の重⼼（平均=期待値）
と、同時に、C1〜C3の平均でもある。

（原著も訳書も）p38 訂正：というか、
わかってないです…
• χ2距離はより似ているカテゴ
リへの寄与を作る。
↓
• χ2距離は、カテゴリの寄与を
より似たものにする。
more similar ？
差異を⼤きくすることが分析⼿法の基本⽅針であるなら、
カテゴリごとの寄与間の違いは⼤きくでたほうがいいのでは？？
わかりません….。

加えて！p39
• 「χ2距離の理論的正当性」の節
• ポアソン分布、多項分布を引き合いにだして、なにをどう説明しよう
としているのか、理解できず、です。

対応分析をする

第６章次元を縮減する
• ここまで三次元の世界。
• ここから多次元を扱う
• しかし、３次元以上は理解できない。
• ポイントを低次元の下位空間に同定する。
• 回帰との⽐較。
• SVD（特異値分解）
• 低次元下位空間近似に伴う誤差、表⽰の質

データセット３：スペイン国⺠健康調査
VG G R B VB Sum
16-24 243 789 167 18 6 1223
25-34 220 809 164 35 6 1234
35-44 147 658 181 41 8 1035
45-54 90 469 236 50 16 861
55-64 53 414 306 106 30 909
65-74 44 267 284 98 20 713
75+ 20 136 157 66 17 396
Sum 817 3542 1495 414 103 6371

Exhibit 6.2 ⾏プロファイル
VG G R B VB
16-24 19.9 64.5 13.7 1.5 0.5
25-34 17.8 65.6 13.3 2.8 0.5
35-44 14.2 63.6 17.5 4.0 0.8
45-54 10.5 54.5 27.4 5.8 1.9
55-64 5.8 45.5 33.7 11.7 3.3
65-74 6.2 37.4 39.8 13.7 2.8
75+ 5.1 34.3 39.6 16.7 4.3
Ave 12.8 55.6 23.5 6.5 1.6

ここで突然「CAを⽤いると…」と展開
• CAのパッケージは、何種類かある。
• Greenare & Nenadicによるca::ca
• Hussonによる FactoMineR::CA
• 本書は、Greenacreによるものなので、ca::caでサンプルも作
成されているが、CAのresultの便利さからは、
FactoMineR::CAのほうが使いやすかったりもする。
• 拡張パッケージも、FactoMineRの⽅が多い。
• factoextra
• explor
• GDATools

Exhibit 6.3 年齢群AGEの⼀次元近似
スケールは「主座標」

Exhibit 6.4 真のχ2距離と観測値
• ⾏プロファイル(Exhibit6.2)から計算
されるポイント間距離と、CAで得ら
れる⾏主座標のポイント間距離の⽐較。
• CAのbefore、afterで、慣性（分散）
は保存され、この場合は、１次元に全
体の97.3%が表現されているので、誤
差（ずれ）は殆どない、ということ。
• 慣性=Σ(i番⽬の質量)（重⼼からi番⽬
のカイ２乗距離）2
=Σ各次元ごとの原点からの主座標距
離2

VG G R B VB ⾏質量
16-24 19.9 64.5 13.7 1.5 0.5 19.2
25-34 17.8 65.6 13.3 2.8 0.5 19.4
35-44 14.2 63.6 17.5 4.0 0.8 16.2
45-54 10.5 54.5 27.4 5.8 1.9 13.5
55-64 5.8 45.5 33.7 11.7 3.3 14.3
65-74 6.2 37.4 39.8 13.7 2.8 11.2
75+ 5.1 34.3 39.6 16.7 4.3 6.2
⾏平均 12.8 55.6 23.5 6.5 1.6 100.0
⾏主座標 Dim1 Dim2 Dim3 Dim4
16-24 -0.371 0.042 0.029 0.020
25-34 -0.330 0.020 -0.027 -0.012
35-44 -0.199 -0.041 -0.026 -0.024
45-54 0.071 -0.071 0.045 0.017
55-64 0.396 -0.033 -0.036 0.019
65-74 0.541 0.034 0.051 -0.037
75+ 0.658 0.084 -0.047 0.023
列主座標 Dim1 Dim2 Dim3 Dim4
VG -0.423 0.097 0.031 0.010
G -0.198 -0.025 -0.016 -0.003
R 0.439 -0.017 0.047 -0.001
B 0.755 0.084 -0.077 -0.033
VB 0.767 0.005 -0.090 0.154
Before CA After CA
重⼼
=χ2/N = Φ2
= Σ Dim (原点と⾏主座標の距離 )2
★ 元のデータ表が持っていた分散(慣性)は、⼤きさの順に整理
されて、その総和は、保持されている、ということ。
主座標
CA

Exhibit 6.5 健康を標準座標、年齢を主座標

SVD：特異値分解の絵解き
• ある⾏列は以下のように三つの部分に分解される
• U 左⾏列、Dα基本構造（特異値の対⾓⾏列）、V 右⾏列

具体的にどうなるか
元の⾏列を特異値分解（SVD）してみる。
この対⾓に並んでいる数値が特異値α。
これが、元の⾏列の「情報」（構造）を表現
している。
次元縮減とは、体現している情報を
その⼤きな順に採⽤していくこと。
体現している情報が⼩さい次元は捨てる。

１次元近似
t()転置
U d V

２次元近似
t() 転置
U d V

次元縮減からの復元した⾏列の⽐較
元のデータ１次元近似２次元近似

CAは、元⾏列をSVDするわけではない
• 詳しくは、付録AとBにある。
• 標準化残差⾏列Sをつくり、それをSVDする。
付録A：対応分析の理論 p244−245
Rによる実際の計算は、付録B p262

mosaic関連情報
• 藤本⼀男,2018,「プログラミング⾔語Rにおける２つのmosaic plot と⽇本語、多⾔語表
⽰」『津⽥塾⼤学紀要』50号,129-146, http://id.nii.ac.jp/1234/00000135/
• 藤本⼀男,2017,「２つのmosaic plotと⽇本語表⽰」Tokyo.R#65,
https://www.slideshare.net/kazuofujimoto/2mosaic-plot-80084536
• 藤本⼀男,2018,「vcd::mosaicで⽇本語を使うためのwrapperを作ってそれをPackageに
してみた」,Tokyo.R#69, https://www.slideshare.net/kazuofujimoto/wrapper-to-use-
japanse-font-with-vcdmosaic-and-build-it-as-pakcage
• “Working with categorical data with R and the vcd and vcdExtra packages”,
https://cran.r-project.org/web/packages/vcdExtra/vignettes/vcd-tutorial.pdf
• “The Strucplot Framework: Visualizing Multi-way Contingency Tables with vcd”,
https://www.jstatsoft.org/article/view/v017i03
• なお、mosaic 表⽰を、対数線形モデルの適合判断に⽤いる事例は、藤本訳（2015）の
『対応分析⼊⾨』の第5章の解説部分、p171。

対応分析の源泉発表年順
• 1933, Hotlling,H,Analysis of complex of statistical variables into
principal components,Journal of Educational Psycholofy 24,417-
441,498-520 （主成分分析PCA）
• 1940,Fisher,R.A, The Precision of discriminant functions., Annals of
Eugenics 10:422-429 ,
https://onlinelibrary.wiley.com/doi/abs/10.1111/j.1469-1809.1940.tb02264.x
• (作業継続中)

C ai p3_jp_no4v1.20

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Mehr von Tsuda University Institute for Mathematics and Computer Science

Mehr von Tsuda University Institute for Mathematics and Computer Science (20)

C ai p3_jp_no4v1.20