SlideShare ist ein Scribd-Unternehmen logo
1 von 41
Downloaden Sie, um offline zu lesen
対応分析研究会
第8回
「推移と回帰の関係」(第14章)
と「⾏と列のクラスタリング」(第15章)
2021年8⽉27⽇
ver1.0 2021/08/27
津⽥塾⼤学 数学・計算機科学研究所
藤本⼀男
kazuo.fujimoto2007@gmail.com
2021/8/27 対応分析研究会 第8回 1
本⽇の構成
• 時の話題(少しだけ)
• Le Roux & Rouanet MCA, SAGEの翻訳本『多重対応分析』オーム社
• ⼤隅先⽣から正誤表、いただきました。
• ざっと読んだ感想を。
• GDAToolsの1.7.1 2021/7版 on GitHub (最後のページにURL)
• 第14章「推移と回帰の関係」
• 第15章「⾏と列のクラスタリング」
2021/8/27 対応分析研究会 第8回 2
MCAの翻訳本をめぐって
2021/8/27 対応分析研究会 第8回 3
当初の出版計画から変更
• 当初は、
• データに⽇本の事例を加える。
• 計算の実⾏はJMPで⾏う。
• 時間の関係で実現しなかった、とのこと。
2021/8/27 対応分析研究会 第8回 4
どのように読んでいるか
• 出発点のデータの形式はどのようなものか
• そのデータにどのような処理/計算しているか
• 表やグラフを再現できるか
• ワークショップだと前者?
• (ソフトを使った)処理が先で、そのresultをどう理解できるか。
• 数理を理解し、そこから実際の処理を理解する。
2021/8/27 対応分析研究会 第8回 5
藤本の期待
• 第3章の「距離」の式でつまずいていたので、それをクリアし
てくれること。
• d2
q(i, iʼ) =
!
"!
+
!
"!"
(p50)
• fk =
#!
#
実はこれ「期待値」。なので、p50のこの式はカイ⼆乗距離
• 第4章SDA、第5章IDA、のやり⽅がクリアになること。
2021/8/27 対応分析研究会 第8回 6
距離の計算式の解釈
• p52の式にある、
!
"!
がなに
を意味するのか。
• 各セルの期待値は、周辺度
数(ここではQ=3)を、
na1/総数(3n=nQ)して得
られる。
• a1の列の期待値は、
Qx
#$"
#%
=
&'"
&
= fa1
⾏和が3n=nQになるには、各設問に必ず1が1つあることが
必要。これが、完全背反(complte disjunctive)の意味。
eg:無回答の場合は「該当なし」の列を⽤意する。
2021/8/27 対応分析研究会 第8回 7
p52の式は、⾏iと⾏Iʼのカイ2乗距離
• (1-0)(0-1)は12、(-1)2 =1:選択が異なっているところだけ1
• (0-0)(1-1) は、どちらもゼロ(0) :選択が同じところはゼロ。
• Gとの距離の式はまだ導けず..です。p51
GMi
2 =
1
𝑄
&
() *#
1
𝑓𝑘
− 1
2021/8/27 対応分析研究会 第8回 8
構造化データ解析(SDA)の基本構成
• サブ・クラウドにわけて分析していく。
• 構造化データと構造化因⼦(サプリメンタリ変数)
• 全体の分散 = 群間(btween)慣性 + 群内(within)慣性
• 群内は、サブ・クラウド内のポイントのその平均ポイントとの慣性
• 群間は、サブ・クラウド(の重⼼)と全体の重⼼との距離による慣性
• betweenを「サブ・クラウド間」だと思い込んでずっと悩んでおりました…。群間とは群の平均ポイ
ントと全体の重⼼Gとの距離2
• 群内慣性は、分散分析での「誤差偏差」
• 群間慣性は、分散分析での「処理偏差」
• η2という統計量
• 分散分析ではF値(処理偏差2/誤差偏差2)いわゆるS/N⽐
• SDAでは、η2値(群内慣性/(群内慣性+群間慣性))
群間慣性/群内慣性 ではなく??
• これをどう解釈する。「F値とp値」のように、「η2とv.test、p値」?
• このあたりをクリアにして『⽂化・階級・卓越化』をきちんと読んでみたい。
2021/8/27 対応分析研究会 第8回 9
構造化データ解析(SDA)への道
• 分析の構成は、分散分析との対⽐でかんがえていく。CA/MCA
は、慣性分析。← どちらも「分散の分解」
• 2元配置分散分析で、要因間の交互作⽤を分析するが、SDAで
も同様。
• Le Roux&Rouanet MCAですっきりするか。
• 変数の交互作⽤をめぐっては、CAと対数線形モデルの組合せも提案さ
れている。(Clausen=藤本p44〜「第5章 対応分析と対数線形モデ
ル」 )
• van der Heijden and de Leeuw, 1985,”Correspondence analysis,
used complementary to logliner analysis”,Psychometrika 50(4):429-
447
2021/8/27 対応分析研究会 第8回 10
第14章「推移と回帰の関係」
transition:⼤隅先⽣は「遷移」。藤本2015も、これにならって「遷移」。
しかし『理論と実践』では「推移」としている。⼀部「転位」が残ってい
た。動揺中。
2021/8/27 対応分析研究会 第8回 11
この章のポイント
• 但し書きの意味するもの
• 「本章は、CAの数理の内部に⽴ち⼊ることになるが、ここを⾶ばしても、
CAの幾何学的理解の⽷がきれることはない」p105 ⾶ばしてもいい?
• ⾏と列の座標の関係(次ページに図)
• 「元の表」beforeと「CAのresult」afterの関係。
• CAの前と後を関係させる式(CAのresult→元の表)
• 再構築公式(re-construction formula)
• CA後
• ⾏座標、列座標、それぞれに、主座標、標準座標
• 標準座標と主座標の関係
• スケーリング係数として主慣性の平⽅根(√λ)p60、p62(8章)
• ⾏と列の座標(ポイント)の関係
• 推移公式(transition formula)p100(13章)
• ここに⾒られる数理的な関係を押さえて、CAという処理の特徴を理解する。
2021/8/27 対応分析研究会 第8回 12
CA
固有値 λ
主座標
標準座標
主座標
標準座標
⾏座標
列座標
λ をスケーリング係数
λ をスケーリング係数
推移公式
transient formula
元データ
クロス表
再構築公式 re-construction formula
列変数
⾏
変
数
各関係はリニア(線形)です!
2021/8/27 対応分析研究会 第8回 13
Exjibit14.1の作り⽅(p106)
• 主座標(Princ.coord)、標準座標(Stand.coord)の取得⽅法
• ソフトごとに出⼒する座標の種類を確認しておく必要あり。
• FactoMineR::CA
• res.CA$row$coord, res.CA$col$coord は主座標
• ca::ca
• res.ca$rowcoord, res.ca$colcoordは標準座標
• なお、package ca についている cacoord は、ca、mjcaのresultを⼊⼒
として、各種座標を出⼒する。
• type = c("standard", "principal", "symmetric", "rowprincipal", "colprincipal",
"symbiplot", "rowgab", "colgab", "rowgreen", "colgreen")
• 寄与座標(Contrib.coord)は、
• svd$v で取得?
2021/8/27 対応分析研究会 第8回 14
Exhibit14.2
p107
• ⾏:学問分野、
列:資⾦区分の
クロス表を、数
量化(標準座標)し
て、クロス位置
に度数に⽐例す
る⼤きさの□。
• ⾏ごとに⾊をつ
けた。
• 座標軸に数値を
表⽰した。
列ポイントA
の加重平均と
しての・。
これが⾏主座標
主座標が
⼆つの回帰
直線にのって
いる。
2021/8/27 対応分析研究会 第8回 15
同時線形回帰 p108
• 「⾏−列の相関が⾼けれ
ば、2つの回帰直線は⼩
さな⾓と交わり、主座標
はより広がる。慣性は⾼
くなる。」
• 「換⾔すれば、CAは、2
つの回帰直線の間の⾓度
を最⼩にする、つまり、
⾏-列間の相関を最⼤に
する」
2021/8/27 対応分析研究会 第8回 16
⾏と列の推移関係 p108
• ⾏プロファイル ← 列頂点
• 列プロファイル ← ⾏頂点
• 式の展開14.1〜14.8
例:
Bioc(⽣物化学)のプロファイル座標は、頂点
ABCDEの加重平均になっている。そのウエイ
トは質量である。
2021/8/27 対応分析研究会 第8回 17
推移公式を⽤いて回帰させる p109
⾏
主
座
標
rowprin
⾏プロファイル
⾏列
=
求める
係数:
標準座標
ABCDE
res.lm <- lm(rowprin ~ -1 + A+B+C+D+E,.dd3) # -1 は切⽚=0,標準座標なので、
# 標準座標は平均=0なので切⽚=0で回帰させている。
#.dd3が⾏プロファイル⾏列
式14.1 𝑓𝑖𝑘 = ∑!
"!"
#!
𝛾𝑗𝑘
2021/8/27 対応分析研究会 第8回 18
実際のデータ
⾏主座標 ⾏プロファイル⾏列
回帰によって求める係数:A〜E
2021/8/27 対応分析研究会 第8回 19
A,B,C,D,Eを求めた
決定係数R2は1
↑この値は、Exhibit14.1の
右から2列⽬の値と同じで
あることを確認。
原著typo(see last column of
Exhibit14.1)
残差はほぼゼロ。10-17〜
2021/8/27 対応分析研究会 第8回 20
さらに興味深い回帰の関係:再⽣産公式
p109
• 元データをCAの座標から構築できる。
• 式(13.4)再構築公式 〜(13.7)
• ここから、さらに3つを展開。14.9、14.10、14.11
• 14.10でやってみる。
• γjkは列質量に対して正規化されている。∑+ 𝑐𝑗𝛾2
𝑗𝑘=1 確認!
• γjkは直交している:∑, 𝑐𝑗𝛾𝑗𝑘𝛾𝑗′𝑘 =0 (𝑗 ≠ 𝑗-
) ← これtypo?
• ∑) 𝑐𝑗𝛾𝑗𝑘𝛾𝑗𝑘′ =0(𝑘 ≠ 𝑘*) ではないだろうか。
• iが⾏、jが列、kが軸…。
• 次のγ1、γ2は、軸1、2なので、k=1,2のはず
2021/8/27 対応分析研究会 第8回 21
p110の回帰分析の結果
• p110 標準化係数が求め
られない…
2021/8/27 対応分析研究会 第8回 22
第14章のtypo
• p106 下5 「同じになる…である。」→「同じ、すなわち0.1978である
(Exhibit14.2)。」
• p107 Exhibit 14.2 1次限 → 1次元、例:→すなわち:
• p107 下2 1次限上への → 1次元上への
• p107 下12 「回帰は…」を以下のように⼊れ替え。
「回帰は、応答変数を、予測値の条件付き平均(加重平均)で表現するモデ
ルである。」
• p108 下13 「そこでは….」以下を次のように
「インデックスは、⾏はi、列はj、次元にはkである。」
• p108 下11 それぞれの場合加算 →それぞれを加算
• p108 下4 転位公式 → 推移公式
• p109 下13 最後の列 → 右から2つ⽬の列 (原著のtypo)
• p109 下10 、データを座標から → 、元データを座標から
• p110 下3、p111 L5 部分的相関 → 偏相関
• p111 キャプション 回帰分析係数としての→回帰係数としての
2021/8/27 対応分析研究会 第8回 23
第15章「⾏と列のクラスタリ
ング」
前半:群を恣意的につくって、それから群内、群間の慣性を計算
後半:ワード法をもちいて、分散の分解という⽅法で「分類」を取得して
いく。
2021/8/27 対応分析研究会 第8回 24
MCAでの構造化データ解析(SDA)につな
がる
• 全体の慣性:⽬的変数
• 個々のクラウドの慣性:説明変数
• 全体の慣性 = 群間慣性 + 群内慣性 という分解からデータの
構造にアプローチする。
• MCA第4章「構造化データ解析」p95〜
2021/8/27 対応分析研究会 第8回 25
Exhibit15.1の作成とサプリメンタリ処理
2021/8/27 対応分析研究会 第8回 26
全分散と群内慣性と群間慣性 ridi
2 r:質量 d:距離
2021/8/27 対応分析研究会 第8回 27
(式との関係)
• 総慣性 = 各群の原点から + 各G内ポイントの
(各ポイント の慣性 での各群の平均との
の原点から G1:GPSM あいだの距離による
慣性の総和) G2:BC 慣性
G3:ZMB G1内
G4:E G2内
G3内
G4内
between within
分散分析での「要因間分散」 「誤差分散」
2021/8/27 対応分析研究会 第8回 28
参考:先回してクラスタリングすると…
FactomineR::HCPC metric="euclidean", method="ward"
2021/8/27 対応分析研究会 第8回 29
Exhibit15.3 データセット8 (p115)
2021/8/27 対応分析研究会 第8回 30
考え⽅
• ⾏を統合していくごとにχ2値が減少していく。
• サブクラウドをつくることで慣性が分割されていくこと。
• クラスタリングの⽅法: https://mjin.doshisha.ac.jp/R/Chap_28/28.html 同志社⼤学 ⾦明哲先⽣のぺージ
• 最近隣法
最近隣法 (nearest neighbor method) は、最短距離法、単連結法 (single linkagr) 法とも呼ばれる。最近隣法は、2つ
のクラスターのそれぞれの中から1個ずつ個体を選んで個体間の距離を求め、それらの中で、最も近い個体間の距離を
この2つのクラスター間の距離とする⽅法である。
• 最遠隣法
最遠隣法 (furthest neighbor method) は、最遠距離法、完全連結 (complete linkage) 法とも呼ばれる。最遠隣法は、
最近隣法とは逆に、2つのクラスターの中のそれぞれの中から1個ずつ個体を選んで個体間の距離を求め、それらの中
で、最も遠い個体間の距離をこの2つのクラスター間の距離とする⽅法である。■ 群平均法
群平均法(group average method)は、最近隣法と最遠隣法を折衷した⽅法で、2つのクラスターのそれぞれの中か
ら1個ずつ個体を選んで個体間の距離を求め、それらの距離の平均値を2つのクラスター間の距離とする。
• 重⼼法
重⼼法 (centroid method) は、クラスターのそれぞれの重⼼(例えば、平均ベクトル)を求め、その重⼼間の距離を
クラスターの間の距離とする。重⼼を求める際には、クラスターに含まれる個体数が反映されるように、個体数を重み
として⽤いる。■ メディアン法
メディアン (median method) 法は、重⼼法の変形で、2つのクラスターの重⼼の間の重み付きの距離を求めるとき、
重みを等しくして求めた距離の値を、2つのクラスター間の距離とする。
• ウォード法
ウォード法 (Ward's method) は、2つのクラスターを融合した際に、群内の分散と群間の分散の⽐を最⼤化する基準
でクラスターを形成していく⽅法である。ウォード法は最⼩分散法 (minimum variance method) とも呼ばれている。
2021/8/27 対応分析研究会 第8回 31
クラスタリング!(FactoMineR::HCPC)
2021/8/27 対応分析研究会 第8回 32
⾏の統合によるχ2値/慣性の減少
• 5x4の表1のC、D⾏を統合し
て、(CD)⾏として、表2を
つくる。
• 全体として、 χ2値が、0.59
減少しているのだが、セルご
とにどこでどういう減少をし
ているのか確認する。
• そのために、セルχ2値を⾒
る。
2021/8/27 対応分析研究会 第8回 33
期待値を⽐べてみる
表1 表2
C,D以外のところの期待値は、同じ値。
合算!
2021/8/27 対応分析研究会 第8回 34
期待値を⽐べてみる(2)
• 期待値は、C、Dと(CD)以外は
同じ。
• また、(CD)の期待値は、 C、
Dの期待値を列で加算した値に
なっている。
2021/8/27 対応分析研究会 第8回 35
違いは、セルχ2値計算で⽣じている
C、Dのセル
χ2値を加算
CD⾏の
セルχ2値
合算したものの差
2021/8/27 対応分析研究会 第8回 36
多重⽐較の問題
• 第⼀種の過誤
• p256、ExhibitA.1の表の使い⽅
• ⾏数、列数から、5%⽔準での臨界点/閾値が求められる。。
• CARME本MCAのp182 7.2.2 Multiple Comparsion
• Ludovic Lebart, CHAPTER 7 Validation Techiques in Multiple
Correspondence Analysis.
2021/8/27 対応分析研究会 第8回 37
第15章のtypo
• p116 Exhibit 15.3 対象CAマップ → 対称CAマップ
• p116 下12、25.06 → 24.47
• p116 下11 N=700…のせている。
N=700をかけた値をのせてい:χ2=0.03496x700=24.47
• p119 「れる前の仮説として設定されていない。」→「れる事
前の仮説としては設定されていない。」
• p119 下16 差異をテスト →差異を検定
• p119 下4 郡間でという → 郡間にあるという
2021/8/27 対応分析研究会 第8回 38
GDATools 1.7
2021/8/27 対応分析研究会 第8回 39
GDATools 1.7
• 作者:Nicolas Robette
• Le Roux & Rouanet 2004, 2010 の展開をRで実現するTools。
• 2021/05/31 にCRAN登録
• GitHub上では多少updateされたものが提供されている。
• チュートリアル
• https://cran.r-
project.org/web/packages/GDAtools/vignettes/Tutorial_GDA.html
• https://cran.r-
project.org/web/packages/GDAtools/vignettes/Tutorial_descr.html
2021/8/27 対応分析研究会 第8回 40
次回の予告
• 第16章、17章。(18章がMCA:多重対応分析)
• 16、17章は、CAするデータの形式の拡張の話です。
• これまでの延⻑ですと、↑これですが、磯先⽣からご提案があ
ると思います。
2021/8/27 対応分析研究会 第8回 41

Weitere ähnliche Inhalte

Mehr von Tsuda University Institute for Mathematics and Computer Science

Mehr von Tsuda University Institute for Mathematics and Computer Science (20)

対応分析研究会第11回v1.1
対応分析研究会第11回v1.1対応分析研究会第11回v1.1
対応分析研究会第11回v1.1
 
Landscape of CA in Japan and Educational Perspective
Landscape of CA in Japan and Educational PerspectiveLandscape of CA in Japan and Educational Perspective
Landscape of CA in Japan and Educational Perspective
 
第6回第10−11章v1.6
第6回第10−11章v1.6第6回第10−11章v1.6
第6回第10−11章v1.6
 
第7回20210710第12−13章
第7回20210710第12−13章第7回20210710第12−13章
第7回20210710第12−13章
 
第9回20211009第16−17章
第9回20211009第16−17章第9回20211009第16−17章
第9回20211009第16−17章
 
第10回2022−01−08第18−19章a
第10回2022−01−08第18−19章a第10回2022−01−08第18−19章a
第10回2022−01−08第18−19章a
 
藤本一男発表資料日本社会学会94v1.0
藤本一男発表資料日本社会学会94v1.0藤本一男発表資料日本社会学会94v1.0
藤本一男発表資料日本社会学会94v1.0
 
C ai p3_jp_no1v1.0
C ai p3_jp_no1v1.0C ai p3_jp_no1v1.0
C ai p3_jp_no1v1.0
 
C ai p3_jp_no2
C ai p3_jp_no2C ai p3_jp_no2
C ai p3_jp_no2
 
C ai p3_jp_no3v1.0
C ai p3_jp_no3v1.0C ai p3_jp_no3v1.0
C ai p3_jp_no3v1.0
 
C ai p3_jp_no4v1.20
C ai p3_jp_no4v1.20C ai p3_jp_no4v1.20
C ai p3_jp_no4v1.20
 
C ai p3_jp_no5v1.2
C ai p3_jp_no5v1.2C ai p3_jp_no5v1.2
C ai p3_jp_no5v1.2
 
ggplotのplotエリアで日本語ラベルを使う
ggplotのplotエリアで日本語ラベルを使うggplotのplotエリアで日本語ラベルを使う
ggplotのplotエリアで日本語ラベルを使う
 
Jss20191006 howc aexpressrelationsv1.1
Jss20191006 howc aexpressrelationsv1.1Jss20191006 howc aexpressrelationsv1.1
Jss20191006 howc aexpressrelationsv1.1
 
Jss20191006 ts13 gda_open
Jss20191006 ts13 gda_openJss20191006 ts13 gda_open
Jss20191006 ts13 gda_open
 
Wrapper to use Japanse font with vcd::mosaic and build it as pakcage
Wrapper to use Japanse font with vcd::mosaic and build it as pakcageWrapper to use Japanse font with vcd::mosaic and build it as pakcage
Wrapper to use Japanse font with vcd::mosaic and build it as pakcage
 
vcdで日本語(3) long format が旧世界とのGateway
vcdで日本語(3) long format が旧世界とのGatewayvcdで日本語(3) long format が旧世界とのGateway
vcdで日本語(3) long format が旧世界とのGateway
 
その数量化、大丈夫ですか?
その数量化、大丈夫ですか?その数量化、大丈夫ですか?
その数量化、大丈夫ですか?
 
Use Japanese with vcd/vcdExtra package
Use Japanese with vcd/vcdExtra packageUse Japanese with vcd/vcdExtra package
Use Japanese with vcd/vcdExtra package
 
2つのmosaic plotと日本語表示
2つのmosaic plotと日本語表示2つのmosaic plotと日本語表示
2つのmosaic plotと日本語表示
 

第8回20210827第14、15章