Anzeige
Anzeige

Más contenido relacionado

Más de Tsuda University Institute for Mathematics and Computer Science(14)

Último(20)

Anzeige

日本社会学会95回大会報告v1.4.pdf

  1. 幾何学的データ解析(GDA)の 中で多重対応分析(MCA)と分 散分析(ANOVA)の連携を⾒る ⽇本社会学会 第95回全国⼤会 2022年11⽉12⽇ 「研究法・調査法」報告3 ver1.4 於)追⼿⾨⼤学 津⽥塾⼤学 数学・計算機科学研究所 藤本 ⼀男 kazuo.fujimoto2007@gmail.com
  2. 履歴 • v1.2 2022/11/12 ⽇本社会学会第95回全国⼤会で配布。 • v1.3 2022/11/14「謝辞」を追加 • v1.4 2022/11/21 • 「交互作⽤の分析:性別-年齢変数の投⼊」のggadd_interaction を GDAtools v1.8のものに替えて実⾏。 • 「嗜好空間(変数空間)と軸の解釈」の変数空間の軸の⽅向と解釈を LeRoux&Rouanet2010=2021に合わせた。 2022/11/12 ⽇本社会学会第95回全国⼤会 報告 2
  3. 報告の構成 • 幾何学的データ解析(GDA)とはなにか • その中⼼にある多重対応分析(MCA)の仕組み • CA/MCAは分散をどのように分解するか • MCAによって(分散)分解されたresultをどう分析するか • MCAから帰納的データ解析(IDA)へ • 量的変数のカテゴリ化によるMCAとしての処理へ • これを、MCAは、分散とどう分解するのか、という視点で整理 していきます。 2022/11/12 ⽇本社会学会第95回全国⼤会 報告 3
  4. 幾何学的データ解析(GDA)の由来 • Benécri が対応分析(CA)を⽤いた分析を「データ解析」(仏 語:Analyse des Données)と呼んだ。 • しかし、これは Benécri の思想を⼗分反映してないと1996年、 スタンフォード⼤学の数学者、Patrick Suppesが、分析の性格 を踏まえて、幾何学的データ解析となずけた。 MCA2010=2021:2 2022/11/12 ⽇本社会学会第95回全国⼤会 報告 4
  5. 実験データと観察データ • 実験計画では、実験者が制御できる実験因⼦とその結果である 従属変数は、明確に区別され、その因⼦の効果の分析(主効果、 交換間効果、効果内効果、交互作⽤)を分散分析によって調べ ていく。 • 観察データでは、調査者が制御できる因⼦はない。 • 観察データの多重対応分析では、全体(主雲)を従属変数とみ なして、構造化因⼦(全体空間の⽣成に寄与しない因⼦)の関 係も同じように調べることができる。 • MCA2010=2021:96 2022/11/12 ⽇本社会学会第95回全国⼤会 報告 5
  6. 対応分析の事例 • 分析対象データ • クロス表 • Clausen1998=2115,p3 • 10⾏-6列 • ⾏分析 • ⾏プロファイル(⾏和に 対する割合)から • 列分析 • 列プロファイル(列和い 対する割合)から • これをCAします 2022/11/12 ⽇本社会学会第95回全国⼤会 報告 6
  7. 対称マップで表⽰ • 10の変数カテゴリ、6列の変数カテゴリの データが、 • 次元縮減されて2次元で表現されている。 • CAによって⽣成される空間 • ⾏空間 • 列空間 • 別空間であるが、⽣成される座標軸が「同 じ」分散をもっているので、重ねて表⽰可 能。(藤本2017) • また、⾏ポイントと列ポイントは、数理 的につながっている。 • 追加変数(サプリメンタリ変数)という仕 組み。 • Clausen 1998 = 2015、Greenacre 2017 = 2020、他 2022/11/12 ⽇本社会学会第95回全国⼤会 報告 7
  8. CAの多変量化:多重対応分析MCAへ • 多変量化の仕組み • 調査データ表 • ⾏:個体 • 列:変数回答カテゴリ • CDC(完全排他コーディング),crisp coding • このルールで表記された「個体x変数カテゴリ」の表にCAを⾏ う。 • やはり、⼆つの空間が⽣成される • 個体空間 • 変数空間 2022/11/12 ⽇本社会学会第95回全国⼤会 報告 8
  9. ここまでで起こっていること • 元データ • 各個体は、列である変数カテゴリの数の次元数のポイントとして空間 に配置することができる。 • 逆に、各変数カテゴリは、個体数の次元数を持った空間にポイントと して配置することができる。 • これをCAして次元縮減される。 • 何次元まで評価すればよいか(全体の分散が各次元に分解された) • スクリープロットで確認 • 多次元空間を次元縮減すると、⼀つの座標が体現する分散が⼩さい値になるので、 補正が考案されている。(Benzecriの補正、Greenacreの補正) 2022/11/12 ⽇本社会学会第95回全国⼤会 報告 9
  10. MCA事例:嗜好データ(TasteExample*) ⾏:回答者 列:回答設問 *このデータは、 LeRoux&Rouanet2010=2021 で使われているデータを⽇本語 化したもの。 https://helios2.mi.parisdes cartes.fr/~lerb/Logiciels/D ata/Taste_Example.xls 2022/11/12 ⽇本社会学会第95回全国⼤会 報告 10
  11. 指標⾏列化したもの:データとしては等価 46カテゴリ 変数TVの回答カテゴリ 変数映画の回答カテゴリ 変数芸術の 回答カテゴリ 1215⾏ 2022/11/12 ⽇本社会学会第95回全国⼤会 報告 11
  12. MCAによる空間⽣成 1215 x 4 ⾏列 4変数= カテゴリ数29(8+8+7+6) 29−1次元までとられる 変数空間 個体空間 データ表がもっていた分散 次元縮減で⽣成された空間の座標軸に分解 その座標軸をもとに ⼆つの空間が⽣成 される。 2022/11/12 ⽇本社会学会第95回全国⼤会 報告 12
  13. 「変数」空間の⽣成 Dim28まである 全変数カテゴリ分(29⾏) 2022/11/12 ⽇本社会学会第95回全国⼤会 報告 13
  14. 「個体」空間の⽣成 全個体分(1215⾏) Dim28まである 2022/11/12 ⽇本社会学会第95回全国⼤会 報告 14
  15. ⽣成された空間の何次元まで分析対象を するか • 固有値と修正寄与率 • 多重対応分析の場合、変数 カテゴリが多いため、⼀軸 が体現する分散が⾮常に⼩ さくなってしまう。 • それに対して、評価のため の補正が考案されている。 • ベンゼクリの補正 • グリーネーカーの補正 2022/11/12 ⽇本社会学会第95回全国⼤会 報告 15
  16. 分散の分解:その1 • 分析対象のデータは、MCAによって、次元縮減され、それは、 ⼤きい順に、第1軸、第2軸、…、に分解される。 • これが、最初の分解。 • そして、多くの場合、1、2軸という平⾯、もしくは、3軸を 加えた、⽴体でデータの分散の分解を考えていくことになる。 2022/11/12 ⽇本社会学会第95回全国⼤会 報告 19
  17. MCA模試図的に… 個体I 変数1 変数2 ….. 変数Q 1 2 3 : : I 個体I Dim1 Dim2 ….. Dimn 1 2 3 : : I 個体I cat1- 1 cat1- cat1- k1 cat2- 1 cat2- cat2- k2 …. catQ -1 catQ -2 catQ -kq 1 2 3 : : I 変数 Dim1 Dim2 ….. Dimn cat1-1 cat1-2 cat1-3 : : CatQ-q 固有値 寄与率 累積寄与率 Dim1 Dim2 : Dimn 次元縮減 「個体」雲 「変数」雲 座標値 座標値 2022/11/12 ⽇本社会学会第95回全国⼤会 報告 20
  18. 個体I Dim1 Dim2 ….. Dimn 1 2 3 : : I 変数 Dim1 Dim2 ….. Dimn cat1-1 cat1-2 cat1-3 : : CatQ-q 固有値 寄与率 累積寄与率 Dim1 Dim2 : Dimn 次元縮減 個体雲 変数雲 変数雲: 各セルごとに、座標値、度数をもっているので、 そこから、分散が計算でき各軸への寄与率を計算で きる。 そこから、Dim1、Dim2…の解釈を⾏う。 この軸の解釈=名称が、あらたな「変数名」 何軸まで分析対象にするかを 累積寄与率を睨んで決める。 その時、修正寄与率、累積修 正寄与率を⾒ること。 修正寄与率 累積修正寄与率 Benzécriの修正寄与率 各軸を解釈(軸に名前をつける)する ために、軸に対する変数カテゴリの寄与 を確認する。 それをもとに軸に名前をつける。 個体雲の解釈は、軸との関係でみていく。 2022/11/12 ⽇本社会学会第95回全国⼤会 報告 21
  19. 分析のステップ(1)軸の解釈(Dim1) • 変数空間の座標軸 の解釈を変数雲を もとに⾏う • 各軸に対して寄与 率の⼤きなものを 並べて判定する。 2022/11/12 ⽇本社会学会第95回全国⼤会 報告 22
  20. この⼿順から軸の名前をつける • この事例では以下の通り。(MCA2010=2021:72-74)から短縮 表現。 • Dim1 • 事実&伝統的 vs 架空&現代的 • Dim2 • ⼤衆的 vs 洗練 • Dim3 • 硬い/活発 vs 軟らかい/穏やか • この表記は、マップに記⼊するのがよい。 2022/11/12 ⽇本社会学会第95回全国⼤会 報告 23
  21. 嗜好空間(変数空間)と軸の解釈 事実&伝統的 架空&現代的 ⼤衆的 洗練 洗練 ⼤衆的 硬い/活発 軟らかい/穏やか 2022/11/12 ⽇本社会学会第95回全国⼤会 報告 24
  22. 個体雲を「性別Gender」で分割:集中楕 円 2022/11/12 ⽇本社会学会第95回全国⼤会 報告 25
  23. 個体をhexBinで密度表⽰すると 前ページの集中楕円は、 ポイント雲の平均を中⼼ として、⼀様分布を想定 した時の95%範囲を表⽰ している。 Cramer1946=1973 LeRoux&Rouanet2010=2021 2022/11/12 ⽇本社会学会第95回全国⼤会 報告 26
  24. 問題は、この部分雲の関係をどう分析す るか • ここで、雲の分散の関係をもちいて、関係をみていくことにな る。 • 個体の雲:全体 • 部分雲は、 • 性別:男性雲 • 性別:⼥性雲 • この部分雲は、平均(男性平均点、⼥性平均点)を有しており、 その点も分散をもつ。そして、その平均から各個体点までの距 離にもとづいた分散をもっている。 2022/11/12 ⽇本社会学会第95回全国⼤会 報告 27
  25. この関係は、平⽅和の分解として計算さ れる • 全体分散(V_total)= 群間分散(V_between)+ 群内分散(V_within) そして、この⼤きさの関係は、η2として以下の計算で得られる η2 = 群間分散(!_#$%&$$') 全分散(!_()%*+) 2022/11/12 ⽇本社会学会第95回全国⼤会 報告 28
  26. 分散の分解表 性別ごとの軸別分散 群内分散 群間分散 軸ごとの分散:固有値 η2 dim3のη2値 が⼀番⼤きい 個体雲の性別部分雲を集中楕円で 表したマップを参照。 2022/11/12 ⽇本社会学会第95回全国⼤会 報告 29
  27. 個体雲:⽬的変数 説明変数:性別(Gender) 2022/11/12 ⽇本社会学会第95回全国⼤会 報告 30
  28. 個体雲:⽬的変数 説明変数:年齢(Age) 2022/11/12 ⽇本社会学会第95回全国⼤会 報告 31
  29. 交互作⽤の分析:性別-年齢変数の投⼊ 性別-年齢の 合成変数 2022/11/12 ⽇本社会学会第95回全国⼤会 報告 32
  30. 交互作⽤plot (Dim1) 2022/11/12 ⽇本社会学会第95回全国⼤会 報告 33
  31. まとめ • MCAの結果、⽣成される空間 • 元データにあった変数から主成分分析と同じ発想で、⼀番分散を体現する軸 (主軸)を取り出している。このステップは「数量化」である。 • こうして⼆つの空間が⽣成されるが、 • 変数雲からは、変数カテゴリ間の相互関係を分析することが可能 • また、寄与率の⼤きなカテゴリに注⽬して、軸の解釈を⾏う。この軸の命名 が、新たな「変数名」である。 • また、こうした空間の解釈をもとに、個体での分散の分解をもとに、 ⽣成された空間(嗜好空間)の構造を分析してける。 • (本発表では扱わないが)この過程を踏まえて、⾒出された差異が 優位であるかどうかの検定は、リサンプリング(ブートストラッピ ング、並べ替え検定)を⽤いて⾏われる。(IDA:帰納的データ解 析) 2022/11/12 ⽇本社会学会第95回全国⼤会 報告 34
  32. 参考:展開 • GDAの名称、「幾何学的データ解析」の幾何学的は、グラフ表 ⽰に対応している。これは、TukeyのEDA(探索的データ解 析)の流れに位置付けられる。 • カテゴリデータに対して「根拠のある数量化処理」を⾏う vs (アプリオリな数量化)整数尺度(リッカート尺度) • 数量データも、適切な区分に収めることでカテゴリ化すれば、 MCAの分析対象になる。 • この⼿法を使えば、重回帰分析での(2つを超える)説明変数間の関 係も図⽰したうえで検討することが可能になる。 2022/11/12 ⽇本社会学会第95回全国⼤会 報告 35
  33. 参考:Analysis of comparsion • Le Roux, Brigitte, Henry Rouanet.,2004 • 以下の項⽬でまとめられている。 • 第6章STRUCTURED(構造化データ解析))。 • 入れ子構造(Nesting Structure 6.2.3) • 交差構造(Crossing Structure 6.2.4) • 分散の二重分解(Double Breakdown of variance 6.2.5) • 加算雲(Additive Cloud 6.3.1) • 交互作用雲(Interaction Cloud 6.3.2) • 構造効果(Structural Effect 6.3.3) 2022/11/12 ⽇本社会学会第95回全国⼤会 報告 36
  34. 参考:⼆つのMCAのヴァリアント • SpecificMCA((変数カテゴリ)限定多重対応分析) • 度数が極端に少ない(空間⽣成に影響がある)カテゴリをジャンクカ テゴリとして空間⽣成に寄与しない消極的カテゴリとして扱いMCAを ⾏う。 • 低度数カテゴリの影響が除去される → 対象を精緻に分析可能になる • CSA(ClassSpecific Analysis)集団限定多重対応分析 2022/11/12 ⽇本社会学会第95回全国⼤会 報告 37
  35. 参考:MCAのバリアント(2) • CSA(集団限定多重対応分析) • LeRoux&Rouanet2004では、これもSpeMCAの個体版の位置付け。 • Greenacre2017=2020では、SubsetMCAとして解説されている。 • しかし、 LeRoux&Rouanet2010=2021では、ClassSpecificAnalysis と、分析⼿法として整理されている。 • 年齢カテゴリによって形成されるサブクラウドに対するMCAを おこなって、それによって得られる主軸、分散を、個体全体を 対象にして計算された主軸、分散と⽐較することで、分析を進 める 2022/11/12 ⽇本社会学会第95回全国⼤会 報告 38
  36. 参考⽂献 CA/MCAの基本⽂献 • Clausen. Sten Erik,1998=2015,”Applied Correspondence Analysis”,SAGE,(訳:藤本⼀男, 2015,『対応分析⼊⾨』オーム社) • Le Roux, Brigitte, Henry Rouanet.2010,Multiple correspondence analysis.Quantitative applications in the social sciences 163. Thousand Oaks, Calif:Sage Publications(2021,⼤隅昇,⼩野裕亮,鳰真紀⼦.多重対応 分析.東京:オーム社) • Greenacre, Michael,2017?,”Correspondence Analysis in Practice”,訳: 藤本⼀男,2020,『対応分析の理論と実践:基礎・応⽤・展開』,東京:オーム 社 • Lebart, L.,Morneau, A., & Warwick, KX. M. (1984). MultivariateDescriptiveStatistical Analysis: Correspondence Analysis andRelated Techniques forLarge Matrices, New York: Wiley * (⼤隅昇,L. ルバール,A.モリノウ,K.M.ワーウィック,⾺場康維(1994.「記述的多变量解 析」(⽇科技運出版社)) 2022/11/12 ⽇本社会学会第95回全国⼤会 報告 40
  37. GDAに関する重要⽂献 • Le Roux,Brigitte, Henry Rouanet,1998,Interpreting Axes in MultipleCorrespondenceAnalysis: Method of the Contributions of Points and Deviations,Blasius, Jörg, Michael J Greenacre.ed, 1998,Visualization of Categorical Data,CRC press • Henry Rouanet ed,2000,”New ways in statistical methodology: from significance tests to Bayesian inference”, European university studies. Series VI, Psychology : Europäische Hochschulschriften. Reihe VI, Psychologie, • Le Roux, Brigitte, Henry Rouanet.,2004,Geometric Data Analysis: FromCorrespondence Analysis to Structured DataAnalysis. Dordrecht: KluwerAcademic Publishers • Henry Rouanet.,2006, The Geometric Analysis of Structured Individuals x VariablesTables, “Greenacre, Michael J., Jörg Blasius,ed,2006,Multiplecorrespondence analysis and related methods”、所収、 pp138-159 • Le Roux,Brigitte et al.,2019,”Combinatorial inference in geometric data analysis”,Chapman & Hall/CRC computer science and data analysis series 2022/11/12 ⽇本社会学会第95回全国⼤会 報告 41
  38. 参考⽂献 藤本執筆分 • 2015, `On publishing the Japanese translation of “Applied correspondence analysis” and its comment part` ,CARME2015, Naples • 2017,「対応分析のグラフを適切に解釈する条件−StandardCoordinate,Principal Coordinateを理解する」『津⽥塾⼤学紀要』第49号、pp141-153 • 2018,「プログラミング⾔語Rにおける2つのmosaicplotと⽇本語、多⾔語表⽰」 『津⽥塾⼤学紀要』第50号、pp129-146 • 2019,「『Supplymentary』変数から多重対応分析(MCA)を考える―幾何学 的データ解析(GDA)と多重対応分析(MCA)―」『津⽥塾⼤学紀要』 第51号、pp156-167 • 2019, “Landscape of CA in Japan and educational perspective”, CARME 2019, Capetown • 2020,「対応分析は<関係>をどのように表現するのか―CA/MCAの基本特性と 分析フレームワークとしてのGDA―」『津⽥塾⼤学紀要』第52号,pp169-184 • 2022,「⽇本における「対応分析」受容の現状を踏まえて、EDA(探索的データ解 析)の中に対応分析を位置付け、新たなデータ解析のアプローチを実現する」 『津⽥塾⼤学紀要』第54号、pp172-193付録 • (⼊稿済)2023,「『幾何学的データ解析』は分散をどのように分解するのか− GDAtoolsを⽤いて原理的な確認を⾏う−」『津⽥塾⼤学紀要』第55号 2022/11/12 ⽇本社会学会第95回全国⼤会 報告 42
  39. 謝辞 • 本研究は、対応分析研究会(東京芸術⼤学、磯直樹先⽣主宰) での発表をもとに、いただいた質問、討議をベースに構成して います。 • また、本研究はJSPS科研費(20K02162)の助成を受けていま す。。 • 記して感謝いたします。 2022/11/12 ⽇本社会学会第95回全国⼤会 報告 43
  40. 2022/11/12 ⽇本社会学会第95回全国⼤会 報告 44
Anzeige