SlideShare ist ein Scribd-Unternehmen logo
1 von 29
Downloaden Sie, um offline zu lesen
日本社会学会 発表概要
「対応分析」が提示するデータ分析の
視点
探索的データ解析(EDA)の重要な構成要素としてのCAと
「ディスタンクシオン」パラダイムからGDAへ
2021/11/13
ver 1.0
⽇本社会学会 第94回⼤会 ⽂化・社会意識(5)
藤本⼀男
kazuo.fujimoto2007@gmail.com
津⽥塾⼤学 数学・計算機科学研究所
2021/11/13 ⽇本社会学会第94回⼤会 1
概要
• 狭義のCAと広義CA
• 一統計的分析手法としてのCA/MCA:狭義のCA/MCA
• 分析パラダイムとしてのGDAの中心的機能としてのMCA:広義のCA/MCA
• 基本的側面
• χ二乗検定と同じように基本的な分析ツールとしてのCA:EDAという視点から位置付け
る
• カテゴリカルデータの数量化
• クロス表における行分析、列分析の可視化
• 応用側面(1)
• 対数線形モデルとの連携
• テキストマイニング
• ネットワーク分析とCA
• 環境学研究
• (CARMEでの発表概要を参照)
• 応用側面(2)
• MCAを用いた社会調査分析。
• ディスタンクシオン・パラダイム(Le Roux)
• GDAという分析フレームワークが目指すもの
問題の所在
• 近年の対応分析関連の出版
• Clausen 1998=2015
• Greenacre 2017=2020
• Le Roux 2010=2021
• Bennett 2009=2017
• 対応分析に言及している論文の増加
• CiNiiのグラフ
• 大幅に増加
• それは、KH-Coderによるテキストマイニング
• もう一方でのブルデュー派による社会空間分析
• CA/MCAのもつ原理的な可能性(=GDA)は、普及
したのか。
対応分析に言及している論文の増加
• CiNii APIを利⽤し
て、Rのスクリプ
トで⾃動検索
• 全⽂検索(確認し
ます)
2021/11/13 ⽇本社会学会第94回⼤会 5
2021/11/13 ⽇本社会学会第94回⼤会 6
CAの数量化機能によるEDA(Tukey)
の拡張、という切り口から入っていく
• EDAとはなにか
• 林によるEDA(Tukey)に対する言及
• M.Friendly「離散データ解析」(Friendly2016)にみるCAの
位置付け
• カテゴリカル・データ解析における基礎的パーツとしてのCA
EDAとはなにか
「本章ではあらゆるデータサイエンスプ
ロジェクトで最初に⾏われるデータ探索
に焦点を絞る。探索的データ分析
(Exploratory Data Analysis)は、統計では
⽐較的新しい分野だ。古典的な統計学は
、少数の標本から⼤量データについての
結論を導き出す推定に焦点を絞っていた
。1962年、テューキーは画期的な論⽂「
The Future of Data Analysis」において統計
学の改⾰を訴え、従来の統計的推定が、
⼀構成要素にすぎないデータ解析という
新たな科学分野を提唱した。」
Bruce2018
Peter Bruce, Andrew Bruce(訳:⿊川利明),2018,『データサイエンス
のための統計学⼊⾨』オライリージャパン
2021/11/13 ⽇本社会学会第94回⼤会 8
確証(Confirmation)
私たちが確証的データ解析*と呼ぶものの原則と⼿順は、広く使⽤されており、
今世紀の優れた知的⽣産物の1つです。
最も単純な形式では、これらの原則と⼿順は、標本(およびその標本がそれが由
来する⺟集団について私たちに教えてくれたこと)に注⽬し、標本から⺟集団へ
の推論が⾏われる精度を評価します。確証的データの分析なしでは、もはやうま
くやっていくことはできません。しかし、それから始める必要はありません。
何ができるかを理解するための最良の⽅法は、私たちのスキル技術の現在の状
態で、何が(肯定的または否定的に)確証できるかを尋ねることではありません。
データに対して実⾏できる各ことを、そのことが最も可能であるという⾮常に制
限的な仮定のセットの観点からのみ検討するとなると、さらに理解が失われるこ
とになります。それは実際にはチェックできないことがわかっている仮定です。
*CDA
2021/11/13 ⽇本社会学会第94回⼤会 9
Tukey1977の「はじめに」から
つづき
探索と確証(Exploration AND Confirmation )
昔々、統計家は調査するだけでした。それから彼らは正確に確証することを学びました
̶ それぞれが⾮常に特定の状況下で、いくつかのことを正確に確証するために。彼らが正
確な確証を強調したので、彼らの技術は必然的に柔軟性が低下しました。最も使⽤されて
いる⼿法と過去の洞察との関連性が弱まりました。確証⼿順が明⽰的に添付されていない
ものは、それからどれだけのことが得られても、「単なる記述統計」として⾮難されるよ
うになりました。
今⽇、ジャックナイフ*による(概略的)確証が有する柔軟性により、ほとんどすべての
明確に指定された調査について、「どこまで確証されているか」を⽐較的簡単に確認する
ことができます。
今⽇、探索的分析および確証的分析は並⾏して進めることができ、またそうすべきです。
もちろん、本書では探索的⼿法のみを考慮しており、確証的⼿法は他の⼈にお任せします。
* ジャックナイフ法:計算機統計学の⼀⼿法。取得した標本を再サンプリングして擬似⺟
集団を「⽣成」する。(Efron1979)
2021/11/13 ⽇本社会学会第94回⼤会 10
Le Roux&Rouanet2010でのTukey
• 第5章 帰納的データ解析の冒頭(⼤隅他訳2021によるp113)
• −間違った質問への厳密な解よりも、正しい質問*への近似的な解の⽅がはるかによ
い。−
• 帰納的データ解析(IDA)に従うならば、幾何学的データ解析でも−特に
多重対応分析においては−、統計的推測を現在よりもより⾃由に⽤いるこ
とができるし、そう⽤いるべきである**。(LeRoux&Rouanet2010:81、
⼤隅他訳p113)
*「間違った質問」と「正しい質問」は、先のTukey1977の「柔軟性」に対応。これは、ブルデューによる「変数
の社会学」批判の背景にもつながる。
**Tukey1977の「探索的分析(EDA)および確証的分析(CDA)は並⾏して進めることができ、またそうすべき
です」に対応。
林によるEDA(Tukey)に対する言及
• 「トウキー(Tukey)のexploratory data analysis(1962年に
論を発している)の思想は、われわれの考え⽅に近いが、⾃然
科学のデータを念頭においているせいか、なまの数量そのもの
を取り扱うことを考えているので窮屈である。しかし、さすが
に核⼼をついており、われわれの狙いに近いことが⾏われてい
る。数量化の考えを使えばもっと楽になるのだが、と私は考え
ている。」(林1986=2004:13)
M.Friendly「離散データ解析」にみる
CAの位置付け
• 第1部 はじめに
• 第2部 探索的⼿法
• 4 2元分割表
• 5 Mosaic 表⽰
• 6 対応分析
• 第3部 モデル構築⼿法
• 7 ロジスティック回帰
• 8 多値応答
• 9 対数線形とロジットモデル
• 10 対数線形モデルの拡張
• 11 ⼀般化線形モデル
対応分析
TukeyによるEDAの提唱と統計的推定
• EDAに続きキーワード:Data Visualizaion 「データ可視化」
• EDAは、「統計分析する前に、データの分布を確認しましょう」、
という⼿順に関することだけでなく、確証的分析(CDA)のあり⽅
への問題提起となっている。
• この点をはずして、「p値問題」への対応は不可能。
• GDAは「p値問題」にどう対処するのか、ということ。
• 「可視化?」「で、統計的推定、検定どーなる?」
• Le Roux & RouanetによるMCA→GDAの提唱は、このEDAの問題設
定に、林も指摘してカテゴリカルデータの数量化もとりこみ、
Fisherの実験計画法、の⼿法を観察データに⽤いるものとして構築
されている。
カテゴリカル・データ解析における基礎的
パーツとしてのCA
• カテゴリカルデータ分析の基本ツール
• CAによる数量化
• 可視化ツールとしては、Freiendly他によるmosaic plot
MCAを通して主張されている分析パラダイ
ムとしての幾何学的データ解析GDA
• ブルデュー派によるMCAの活用
• ディスタンシオン・パラダイム(Le Roux他 2004,2010)
• しかし、このイメージが強烈なために、MCAの利用のイメージが限定されていないか。
狭義のMCAという「分析的機能への注目」だけでなく、広義のMCA:分析パラダイ
ム(=GDA)という視点を強調したい。
• 具体的な手法は、Le Roux&Rouanet 2010=2021 MCAが、トニーベネット他『文化・階級・
卓越化』で分析したデータのサブセットを教材として説明している。書名は『多重対応分
析』MCAであるが、内容は、GDAである。(第4章 構造化データ解析、第5章 帰納的
データ解析)
幾何学的データ解析(GDA)
• 基礎にあるものは
• R.A.Fisherの伝統(Le Roux&Rouanet 2004,2010)
• *CAの原理だけに限れば、Fisher1940の前に、HILL.H.O1974が、
HIRSCHFELD.H.Oが触れている、ことを明らかにしている。ここでFisherの伝
統という言い方をしているのは、Fisher1940での最適化尺度法(つまり数量
化)のみならず、実験計画法にある分析プロセスを念頭においている。
p値の扱いをめぐったFisher図式 vs Neyman-Pearson図式 の対比(これは帰納
的データ解析での統計的推測始点)は、柳川堯2018第5章「統計的推論と統計的
判定:真の検定を求めて」を参照。
• TukeyのEDA(Tukey1969,1977)
• カテゴリカル変数に対するCA/MCAに限定されないアプローチ
• 量的変数に対しては、PCA
• 量的変数、質的変数の混合データに対しては、FAMA
• PCAとMCAの混合分析
量的データのGDA的事例としての主成
分分析のGDA的アプローチ
• 幾何学的データ解析GDAは、量的変数に対しても適⽤可能
• 基本は、分析対象を、
• n次元ポイントとして扱い、
• そのポイントの集合クラウドを、分析の単位とし
• 集中楕円(concentration )を⽤いて、その分布を近似。
• 相関⽐η2で主軸との相関を表現
• 統計的推定は
• 帰納的データ解析という⼿法を⽤いる
• 組み合わせ検定(combinatorial test)(Le
Roux&Rouanet2004,2010=2021 第5章)
実験計画法/RCT、RDデ
ザイン、集積分析、パネ
ル・データ分析etc
カテゴリカルデータの数
量化エンジンとして
CA/MCAを使い、量的⼿
法に投⼊する
観察データ(社会調査)
実験計画/実験パラダイム
質
的
︵
カ
テ
ゴ
リ
カ
ル
︶
デ
+
タ
量
的
デ
+
タ
GDA(幾何学的データ解析)
PCA
GDA要素として
位置付け直す
MFA/FAM
D
多重因⼦分析/
混合データへ
の因⼦分析
CA/MC
A
2021/11/13 ⽇本社会学会第94回⼤会 19
データ表
ポイント
クラウド
構造化 推定
構造化データ解析
SDA
帰納的データ解析
IDA
PCA,CA/MCA
幾何学的データ解析(GDA)
インタビュー調査との橋渡しをするGDA
量と質の間には幾何学がある
Rouanet,Le Roux 2010 第1章タイトル下
−間違った質問への厳密な解よりも、
正しい質問*への近似的な解の⽅がはるかによい。−
Rouanet,Le Roux 2010 第5章タイトル下
2021/11/13 ⽇本社会学会第94回⼤会 20
さて、2021/11の⽇本は…
• 2004 Le Roux&Rouanet GDA「要約すれば、国際的科学コミュ
ニティにおいて、CAは、認知され利⽤されている。しかし、
GDAは、⼤部分が発⾒されるのを待っている。」(2003)
• 2010=2021 Le Roux & Rouanet MCA
• 「要するに、現在、対応分析は認知され利⽤されている。⼀⽅、幾何
学的データ解析(特に多重対応分析)は、より多くの⼈々の理解を得
られることを待っている状態である。」p5
2021/11/13 ⽇本社会学会第94回⼤会 21
【参考】PCAをGDA的に利⽤する
• 分析対象
• ⾦井・⼩林・渡邉,2012,『社会調査の応⽤』弘⽂堂、p57の練習問題に
GDAでアプローチする。
• 5変数から3変数を選択し(5∁3=10組)、その相関係数と偏相
関係数を⽐較する。
• スクリプトを書き、各組み合わせごとの変化を表として⼀覧にする。
• その⼀覧と、PCAの結果得られた変数plotを参考に表を評価する。
• なお、偏相関係数の幾何学的な解説は、以下を参照しました。
• 三橋⼀⾏,2020,「相関係数と偏相関係数の関係 ― ベクトルによる幾何
学的解釈の証明 ―」. 参照 2021年11⽉6⽇. https://kyozai-
db.fz.ocha.ac.jp/search/detail/482.
did(都市度)で偏相関をとった
8.108233 分の1になっている 相関係数
cosθ
2021/11/13 ⽇本社会学会第94回⼤会 23
10−1の表を貼り付ける予定
2021/11/13 ⽇本社会学会第94回⼤会 24
偏相関係数の幾何学的解釈
• xとyのzに対する偏相関
係数
2021/11/13 ⽇本社会学会第94回⼤会 25
三橋「相関係数と偏相関係数の関係
― ベクトルによる幾何学的解釈の証明 ―」より
引⽤
結語
• 狭義のCAと広義CA
• ⼀統計的分析⼿法としてのCA/MCA:狭義のCA/MCA
• 分析パラダイムとしてのGDAの中⼼的機能としてのMCA:広義のCA/MCA
• 基本的側⾯
• χ⼆乗検定と同じように基本的な分析ツールとしてのCA:EDAという視点から位置付ける
• カテゴリカルデータの数量化
• クロス表における⾏分析、列分析の可視化
• 応⽤側⾯(1)
• 対数線形モデルとの連携
• テキストマイニング
• ネットワーク分析とCA
• 環境学研究
• (CARMEでの発表概要を参照)
• 応⽤側⾯(2)
• MCAを⽤いた社会調査分析。
• ディスタンクシオン・パラダイム(Le Roux)
• GDAという分析フレームワークが⽬指すもの
参考文献
• Clausen, Sten-Erik. 1998. __Applied correspondence analysis: an introduction__. Quantitative applications in
the social sciences, v. 121. Thousand Oaks, CA: Sage Publications.(訳 藤本 一男. 2015. 『対応分析入門: 原理か
ら応用まで : 解說・Rで検算しながら理解する』. 東京: オーム社.
• CARME2015
• CARME2019
• Efron, B. “Bootstrap Methods: Another Look at the Jackknife.” The Annals of Statistics, vol. 7, no. 1, Institute of
Mathematical Statistics, 1979, pp. 1‒26, http://www.jstor.org/stable/2958830.
• Friendly, Michael, David Meyer. 2016. Discrete data analysis with R: visualization and modeling techniques
for categorical and count data . Chapman & Hall/CRC texts in statistical science series 120. Boca Raton: CRC
Press, Taylor & Francis Group.
• Greenacre, Michael J. 2017. Correspondence analysis in practice. Third edition . Chapman & Hall/CRC
interdisciplinary statistics series. Boca Raton: CRC Press, Taylor & Francis Group.(訳 藤本一男. 2020. 『対応分
析の理論と実践: 基礎・応用・展開』. 東京: オーム社.)
• Husson, François, Sébastien Lê, Jérôme Pagès. 2017. “Exploratory multivariate analysis by example using R. Second edition”.
Boca Raton: CRC Press.
• Lebart, Ludovic, Alain Morineau, Kenneth M. Warwick. 1984. __Multivariate Descriptive Statistical Analysis:
Correspondence Analysis and Related Techniques for Large Matrices__. Wiley Series in Probability and
Mathematical Statistics. New York: Wiley.(大隅昇. 1994. 『記述的多変量解析法』. 東京: 日科技連出版社.)
参考⽂献(つづき)
• Le Roux, Brigitte, Henry Rouanet. 2010. __Multiple correspondence analysis__. Quantitative applications in the social sciences 163. Thousand Oaks,
Calif: Sage Publications.(大隅昇, 小野裕亮と鳰真紀子. 2021. 『多重対応分析』. 東京: オーム社.
• Rouanet, Henry, Werner Ackermann, Brigitte Le Roux. 2004. 「THE GEOMETRIC ANALYSIS OF QUESTIONNAIRES: The Lesson of Bourdieu’s La Distinction」. 2004年.
https://helios2.mi.parisdescartes.fr/ lerb/publications/LessonDistinction.html. (仮訳あり)
• Tukey, John W. 1962. 「The Future of Data Analysis」. __The Annals of Mathematical Statistics__ 33 (1): 1–67. https://doi.org/10.1214/aoms/1177704711.
• Tukey, John Wilder. 1977. __Exploratory data analysis__. Addison-Wesley series in behavioral science. Reading, Mass: Addison-Wesley Pub. Co.
• Tony Bennett,Mke Savage,Elicabeth Silva,Alan Warde, Modesto Gayo-Cal, David Wright, 2009, Culture, Class, Distinction , Routledge,(訳:磯直樹・香
川めい・森田次朗・知念渉・相澤新一,2017,『文化・階級・卓越化』青弓社)
• 磯直樹,2020,『認識と反省性 ピエールブルデユーの社会学的思考』法政大学出版
• 金井雅之, 小林盾と渡邉大輔. 2012. 『社会調查の応用: 量的調查編:社会調查士E・G科目対応』. 東京: 弘文堂.
• 林知己夫. 2004. 『質を測る, 数量化理論』林知己夫著作集編集委員会 3. 東京: 勉誠出版.
• 林知己夫. 1993.『 行動計量学序説』行動計量学シリーズ 1. 東京: 朝倉書店.
• 樋口耕一. 2020. 『社会調査のための計量テキスト分析-内容分析の継承と発展を目指して、第2版』. 京都: ナカニシヤ出版.
• 藤本一男. 2020. 「対応分析は〈関係〉をどのように表現するのかーCA/MCAの基本特性と分析フレームワークとしてのGDAー」. 津田塾大学紀要 52 (3月):
169–84.
• 三橋⼀⾏. ⽇付なし. 「相関係数と偏相関係数の関係 ― ベクトルによる幾何学的解釈の証明 ―」. 参照 2021年11⽉6⽇. https://kyozai-
db.fz.ocha.ac.jp/search/detail/482.
• 西里静彦. 2007. 『データ解析への洞察: 数量化の存在理由』. 西宮: 関西学院大学出版会.
• 西里静彦. 2014. 「行動科学への数理の応用:探索的データ解析と測度の関係の理解Applications of Mathematics to Behavioral Sciences: Understanding the
Relations between Exploratory Data Analysis and Measurement」. 「行動計量学 」 41 (2): 89–102. https://doi.org/10.2333/jbhmk.41.89.
• 柳川堯. 2018. 『P値: その正しい理解と適⽤.』 統計スポットライトシリーズ 3. Tōkyō-to Shinjuku-ku: 近代科学社.
謝辞
• 本発表は、磯直樹先⽣主宰の「対応分析研究会」(オンライン
で2020/11より開催)での藤本の発表、及びそこでの議論に多
くを負ってます。研究会ご参加いただいた⽅々に感謝いたしま
す。
• 本発表は、JSPS科研費20K02162(テーマ「データの幾何学的
配置に注⽬したカテゴリカルデータ分析⼿法の研究」 )の助成
を受けたものです。記して感謝いたします。

Weitere ähnliche Inhalte

Mehr von Tsuda University Institute for Mathematics and Computer Science

Mehr von Tsuda University Institute for Mathematics and Computer Science (17)

ITリスク研究会20230722v1.1.pdf
ITリスク研究会20230722v1.1.pdfITリスク研究会20230722v1.1.pdf
ITリスク研究会20230722v1.1.pdf
 
MAの困難についての報告PPT.pdf
MAの困難についての報告PPT.pdfMAの困難についての報告PPT.pdf
MAの困難についての報告PPT.pdf
 
Landscape of CA in Japan and Educational Perspective
Landscape of CA in Japan and Educational PerspectiveLandscape of CA in Japan and Educational Perspective
Landscape of CA in Japan and Educational Perspective
 
第8回20210827第14、15章
第8回20210827第14、15章第8回20210827第14、15章
第8回20210827第14、15章
 
第9回20211009第16−17章
第9回20211009第16−17章第9回20211009第16−17章
第9回20211009第16−17章
 
第10回2022−01−08第18−19章a
第10回2022−01−08第18−19章a第10回2022−01−08第18−19章a
第10回2022−01−08第18−19章a
 
C ai p3_jp_no2
C ai p3_jp_no2C ai p3_jp_no2
C ai p3_jp_no2
 
C ai p3_jp_no3v1.0
C ai p3_jp_no3v1.0C ai p3_jp_no3v1.0
C ai p3_jp_no3v1.0
 
C ai p3_jp_no4v1.20
C ai p3_jp_no4v1.20C ai p3_jp_no4v1.20
C ai p3_jp_no4v1.20
 
ggplotのplotエリアで日本語ラベルを使う
ggplotのplotエリアで日本語ラベルを使うggplotのplotエリアで日本語ラベルを使う
ggplotのplotエリアで日本語ラベルを使う
 
Jss20191006 howc aexpressrelationsv1.1
Jss20191006 howc aexpressrelationsv1.1Jss20191006 howc aexpressrelationsv1.1
Jss20191006 howc aexpressrelationsv1.1
 
Jss20191006 ts13 gda_open
Jss20191006 ts13 gda_openJss20191006 ts13 gda_open
Jss20191006 ts13 gda_open
 
Wrapper to use Japanse font with vcd::mosaic and build it as pakcage
Wrapper to use Japanse font with vcd::mosaic and build it as pakcageWrapper to use Japanse font with vcd::mosaic and build it as pakcage
Wrapper to use Japanse font with vcd::mosaic and build it as pakcage
 
vcdで日本語(3) long format が旧世界とのGateway
vcdで日本語(3) long format が旧世界とのGatewayvcdで日本語(3) long format が旧世界とのGateway
vcdで日本語(3) long format が旧世界とのGateway
 
その数量化、大丈夫ですか?
その数量化、大丈夫ですか?その数量化、大丈夫ですか?
その数量化、大丈夫ですか?
 
Use Japanese with vcd/vcdExtra package
Use Japanese with vcd/vcdExtra packageUse Japanese with vcd/vcdExtra package
Use Japanese with vcd/vcdExtra package
 
2つのmosaic plotと日本語表示
2つのmosaic plotと日本語表示2つのmosaic plotと日本語表示
2つのmosaic plotと日本語表示
 

藤本一男発表資料日本社会学会94v1.0