Reassessing PCA of Acceptability Rating Data for Japanese (ARDJ) using kernel multivariate analysis

Reassessing PCA of Acceptability
Rating Data for Japanese (ARDJ)
data using kernel Multivariate
Analysis
Kow Kuroda, Medical School, Kyorin University
at Online Conference for NLP26 via Zoom, 2020/03/19

Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association
What is ARDJ?
Acceptability Rating
Data for Japanese
(ARDJ) は
Evidence-based
Linguistics (EBL) を実現
するための研究企画 (⿊
⽥ 16; Kuroda, et al. 18)
第1期 2016-2018
第2期 2019-
より具体的に⾔うと，⾔
語学の研究で，
個⼈差やグループ間の体
系的差異を重視する
Randomized Controlled
Trial を標準化する
調査結果を多くの研究者
と共有する
事を究極の狙いとする
2
https://kow-k.github.io/Acceptability-Rating-Data-of-Japanese/

Motivation for current work
ARDJ の本調査 (Survey 2 unified: s2u) の
PCA で発⽣した⾺蹄形の配置 (horseshoe
effect) 別名 Guttman effect を kernel-
based MVA で取り除けないか？
この効果は PCA に限らず他の多変量解析
Multivarate Analysis (e.g., Correponndence
Analysis, Multi-dimensional Scaling) でも⽣じる
3

What is ARDJ
s2u data?
In and out of ARDJ Survey 2
uniﬁed data

ARDJ s2u の概要
容認度評定調査を社会調
査として実施
調査 1
同時に評定者の個⼈社
会属性 (11種類) を取得
調査 2
30種類の⽂に対し 0-3
の4段階の容認度評定を
求める
数字は (参加者にそう
だと⾔ってはいない
が) 逸脱度に対応
Forced choice task を
模すため中間値は意図
的に排除
調査 1, 2 を同時に実施し
たのは，個⼈差，グルー
プ間の差を⾒るため
この結果は⿊⽥ら
(2019) で発表
5

set2 の gr0 の 30文
6
s . i n d e x i d v . i d e x p a t t e r n a u t h o r e d i t . t y p
e
g r v e r g r . i n d e
x
s e n t e n c e
s 1 0 1 0 v 2 5 p 4 3 n g r 0 A 1 担当者が携帯で出張もさから電話を⼊れた。
s 2 0 2 0 v 9 5 8 p 3 1 p g r 0 A 2 熊がサーカスで⾃転⾞をトレーナーを習った。
s 3 0 3 0 v 8 3 1 p 3 1 n g r 0 A 3 伝書鳩が戦地で進攻を司令官に届けた。
s 4 0 4 0 v 8 0 7 p 3 1 s g r 0 A 4 職員がまっすぐに絵画を美術館で直した。
s 5 0 5 0 v 8 3 1 p 3 1 v g r 0 A 5 伝書鳩が戦地で戦況を司令官に送り届けた。
s 6 0 6 0 v 7 1 3 p 5 3 s g r 0 A 6 ⼦供が⾜し算とかけ算を宿題で間違えた。
s 7 0 7 0 v 3 4 5 p 1 3 s g r 0 A 7 続編で宿敵がピンチに主⼈公と助けた。
s 8 0 8 0 v 1 8 p 1 3 n g r 0 A 8 娘が病院で医者に軽症と聞いた。
s 9 0 9 0 v 8 0 7 p 2 1 v g r 0 A 9 脚本家が話し合いで前⽇に台詞を考え直した。
s 1 0 0 1 0 0 v 4 7 0 p 4 2 o g r 0 A 1 0 暴漢が鋭利な刃物で背後から⼈を襲った。
s 1 1 0 1 1 0 v 4 7 0 p 5 2 s g r 0 A 1 1 仲間とコンビニを失業者が盗んだ⾃動⾞で襲った。
s 1 2 0 1 2 0 v 1 4 5 p 3 1 v g r 0 A 1 2 ランナーが路上で悲鳴を⼣暮れ時にかき消した。
s 1 3 0 1 3 0 v 8 0 7 p 4 3 n g r 0 A 1 3 先⽣が⾚ペンで⼀から詩を直した。
s 1 4 0 1 4 0 v 9 5 8 p 5 3 v g r 0 A 1 4 弟が家で妹と料理を習わせた。
s 1 5 0 1 5 0 v 4 7 0 p 5 2 v g r 0 A 1 5 失業者が盗っだ⾃動⾞で仲間とコンビニを襲った。
s 1 6 0 1 6 0 v 2 5 p 3 3 n g r 0 A 1 6 男性が茶碗で⾓砂糖を紅茶に⼊れた。
s 1 7 0 1 7 0 v 1 4 5 p 3 1 v g r 0 A 1 7 ランナーが路上で悲鳴を⼣暮れ時に聞き取れた。
s 1 8 0 1 8 0 v 4 7 0 p 5 2 p g r 0 A 1 8 失業者を盗んだ⾃動⾞で仲間とコンビニを襲った。
s 1 9 0 1 9 0 v 1 4 5 p 3 1 o g r 0 A 1 9 ランナーが路上で悲鳴を⼣暮れ時に聞こえた。
s 2 0 0 2 0 0 v 8 0 7 p 2 1 n g r 0 A 2 0 脚本家が話し合いで翌⽇に台詞を直した。
s 2 1 0 2 1 0 v 3 4 5 p 1 3 n g r 0 A 2 1 宿敵が続編で苦境に主⼈公と助けた。
s 2 2 0 2 2 0 v 1 1 1 p 2 1 s g r 0 A 2 2 社⻑が社員に⼝頭で解雇を伝えた。
s 2 3 0 2 3 0 v 1 1 1 p 2 1 v g r 0 A 2 3 社⻑が⼝頭で社員に解雇を読み取った。
s 2 4 0 2 4 0 v 2 1 0 p 1 3 s g r 0 A 2 4 部下が温泉に北海道で同僚と遊んだ。
s 2 5 0 2 5 0 v 9 5 8 p 1 1 s g r 0 A 2 5 医学⽣が解剖実習で看護師と医師に習った。
s 2 6 0 2 6 0 v 1 1 6 p 3 2 s g r 0 A 2 6 ⾒解をその芸能⼈が質問者に会⾒で答えた。
s 2 7 0 2 7 0 v 9 5 8 p 5 3 s g r 0 A 2 7 家で弟が妹と料理を習った。
s 2 8 0 2 8 0 v 8 3 1 p 1 1 p g r 0 A 2 8 新婚さんが役所が窓⼝に転居届と届けた。
s 2 8 1 2 8 1 v 1 1 4 7 p 1 1 p g r 0 A 2 9 夫が職場で真夜中に妻へ知り合った。
s 2 8 2 2 8 2 v 4 4 p 4 1 n g r 0 A 3 0 学⽣が合格発表の場で⾜下から幸福を感じた。
s281, s282 は全 gr1-gr0 で共有

刺激の評定者への提示
Web 調査と紙ベースの調査で実施条件が異な
る
Web 調査では Google Form を使っているの
で，11個の質問と30種類の刺激⽂の提⽰順は
回答ごとに⾃動でランダム化
教⽰の違いはweb 調査のみで実施
紙ベースの実験では，事前に順序の異なる A,
B, C の三つの版を⽤意し，回答者はそのどれ
かに回答
7

評定課題 (mode 1)
次に30種類の⽂をお⾒せします．個々の⽂を次
の4つの基準で評定して下さい．
0. 違和感がなく⾃然に理解できる⽂，
1. 違和感を感じるが理解可能な⽂，
2. 違和感を感じて理解困難な⽂，
3. 不⾃然な理解不能な⽂
提⽰の順序は回答者ごとに変えてあります．⽂の
先頭に付いている整理数字は無視して下さい．
8

評定課題 (mode 2)
次にお⾒せする30種類の⽂はコンピュータが⾃動作成し
たものです．⼀部の品質には難があり，それを⾒つけたい
と思っています．そのために，個々の⽂を次の4つの基準
で評定して下さい．
0. 違和感がなく⾃然に理解できる⽂，
1. 違和感を感じるが理解可能な⽂，
2. 違和感を感じて理解困難な⽂，
3. 不⾃然な理解不能な⽂
提⽰の順序は回答者ごとに変えてあります．⽂の先頭に付
いている整理数字は無視して下さい．
9
mode 1, 2 で評定値が変わる文が幾つか存在する (未報告)

11種類の属性質問 1/2
1. あなたは現在，何才です
か？
2. あなたの性別はどれです
か？
3. あなたの⺟語は⽇本語で
すか？
4. あなたは過去にどの地域
（県単位）で暮らしたこ
とがありますか？該当す
るものすべてを指定して
下さい．
5. 過去に⽇本語が話されな
い地域で1年以上の⽣活
をしたことがあります
か？
6. 学んだ事のある外国語の
種類の数を概数で答えて
下さい (期間の⻑さに関
係なく，10個以上の場合
は区別なしで)．
10

11種類の属性質問 2/2
7. 英語を含めた異国語を学ん
だ期間の今までの合計を，
おおよその年数で答えて下
さい．
8. 外国語/異国語を話す⼈と
⽇常的に接しますか？
9. ⼀ヵ⽉当たりの読書量を，
おおよその冊数で答えて下
さい (画像中⼼の雑誌は含
めません)．
10.⼩学校より後の教育機関で
どれ位学んだか，おおよそ
の年数を2桁の数字で答え
て下さい．例えば普通⼤学
の学部卒業の場合，10年
(= 中学で3年+⾼等学校で
3年+⼤学で4年) です．
11.あなたは⾃分の考え⽅や感
じ⽅が⼤きく分けて⽂系だ
と思いますか？理系だと思
いますか？(⾃分の主観評
価で構いません)
11

JSM を使った刺激文の作成
⽬的
体系的に容認度評定の実
態調査したい = 仮説検証
型でなく探索型の調査を
したい
実は誰もやっていない
要件
A. ⼗分に統制された逸脱
⽂候補を
B. ⼗分な数⽤意する
Japanese Sentence
Mutators (JSM) を使って
逸脱⽂の候補を半⾃動⽣成
A, B の⼈⼿実現は⾄難
種⽂を⼈が⽤意し，それ
をJSM で無作為に編集す
る
結果的に36種類の種⽂か
ら246種類の変異体を⾃動
⽣成
12
https://github.com/kow-k/Japanese-sentence-mutators

変異/編集タイプの内訳
o(riginal): 原⽂
P1-P5を固定し，動詞は
BCCWJ から頻度基盤に半ラン
ダム選別
⾼頻度，中頻度，低頻度域か
ら
s(wapping): 分節 (NP/PP) 単位
のランダムなかき混ぜ
p(ositional): 後置詞のランダム
な置換
v(erb): 動詞のランダムな⽂脈類
似語への置換
n(ominal): 名詞類 (形容動詞の語
幹を含む) のランダムな⽂脈類似
語への置換
13
e d i t . t y p e c o u n t r a t i o
o ( r i g i n a l ) 3 6 0 . 1 2
s ( w a p p i n g ) 7 0 0 . 2 3
p ( o s t p o s i t i o n ) 5 8 0 . 1 9
v ( e r b ) 6 5 0 . 2 2
n ( o m i n a l ) 7 1 0 . 2 4
s u m 3 0 0 1 . 0 0

gr0 の s010, s020, … , s060 [1/5]
14

gr0 の s070, s080, … , s120 [2/5]
15

gr0 の s130, s140, … , s180 [3/5]
16

gr0 の s190, s200, … , s240 [4/5]
17

gr0 の s250, s260, … , s281.0, s282.0 [5/5]
18

以下の発表の流れ
ARDJ survey 2 unified data の概要
Guttman effect (GE) の説明 (21–31)
Kernel MVA の適⽤の結果 (33–75)
Kernel PCA, Locally Linear Embeddings
(LLE), Isometric Map (Isomap) の三つを⽐
較
考察と結論 (77–81)
19

So you want to
know about
the Guttman
effect ?

What is Guttman effect?
多変量解析 (MVA) で次元
削減の結果をプロットす
ると⾺蹄形 (horseshoe
shape) が現われる効果
(Goodall 54; Podani & Miklós
02; Rijckesvorsel 87)
Guttman scale を使った
調査で (典型的に？) 認め
られたところから
Guttman effect とも
これは CA, MDS, PCA で
共通して⾒られる
21
s2w データ (Kuroda et al. 2019) の PCA

Data encodings to compare
1/2
22
probability
density
stimulus-
wise scaling
stimulus-wise
centering
range-wise
scaling
range-wise
centering
raw count No No No No No
normalized Yes No No No No
s.scaled.uncnt No Yes No No No
s.scaled.cnt No Yes Yes No No
r.scaled.uncnt No No No Yes No
r.scaled.cnt No No No Yes Yes

Data encodings to compare
2/2
23
statdata count normal s.scaled.uncnt s.scaled.cnt r.scaled.uncnt r.scaled.cnt
s.id s001 s002 s001 s002 s001 s002 s001 s002 s001 s002 s001 s002
r01 4 5 0.022 0.028 0.061 0.077 -0.827 -0.806 0.061 0.076 -0.827 -0.806
r12 60 63 0.333 0.348 1.096 1.132 0.455 0.553 1.096 1.132 0.455 0.553
r23 49 42 0.272 0.236 1.118 0.958 0.504 0.136 1.118 0.958 0.504 0.136
r3x 67 69 0.372 0.388 1.286 1.325 0.813 0.876 1.286 0.958 0.813 0.876
sum 180 179 0.999 1 3.561 3.492 0.945 0.759 3.561 3.124 0.945 0.759
mean 45.000 44.750 0.250 0.250 0.890 0.873 0.236 0.190 0.890 0.781 0.236 0.190
stdev 28.320 28.918 0.157 0.161 0.559 0.551 0.726 0.730 0.559 0.477 0.726 0.730

clustered by FuzzyCMeans (k=5)
PROJECT
s2u.sd.ﬁltered
CA, MDS, PCA
s2u.count (raw frequency data)
24

PROJECT
s2u.sd.ﬁltered
CA, MDS, PCA
s2u.normal (normalized data)
25

PROJECT
s2u.sd.ﬁltered
CA, MDS, PCA
s2u.r.scaled.cnt (range-scaled, centered data)
26

PROJECT
s2u.sd.ﬁltered
CA, MDS, PCA
s2u.r.scaled.uncnt (range-scaled, uncentered data)
27

PROJECT
s2u.sd.ﬁltered
CA, MDS, PCA
s2u.s.scaled.cnt (stimilus-scaled, centered data)
28

PROJECT
s2u.sd.ﬁltered
CA, MDS, PCA
s2u.s.scaled.cnt (stimulus-scaled, uncentered data)
29

Diagnosis of “normal” MVA
results
わかる事
count, r.scaled.cnt, r.scaled.uncnt,
s.scaled.cnt, s.scaled.uncnt の 6 種類の
データ encodings に対して
CA, MDS, PCA はほぼ同⼀の配置を与える
どの配置でも Guttman effect が疑われる
30

What do do with Guttman
effect?
現状
Guttman effect は測定法に内在するバイアスが
原因で⽣じる artifact だと (繰り返し) ⾔われる
が，どの⼿法を使っても Guttman effect が現
われる
着想
Kernel MVA を使ったら，この効果を消せるの
では？
31

Exploring
kernel-based
Methods for
MVA
A long and winding road to
modest success

Differences from paper
Cleaning
今回は ARDJ s2u の評定値
の SD が 0.6 と 1.5 の間に
ある回答のみを使った
1,880 件の反応から選ば
れたのは 1,753 件
予稿集に報告した解析では
ARDJ s2u の1,880 個を解
析
Kuroda et al. (2019) と
違って Mahalanobis 距離
を使った選別は実施せず
SD filtering だけで⼗分に
効果的
Clustering
予稿集に報告した分析では
Clustering に X-means を
使って，すべての結果で k
= 4 のクラスタリングが得
られている
今回は FuzzyCMeans (C は
k に対応) を使い k = 5 でク
ラスタリングを実⾏
k = 4 だと解像度不⾜
33

What is kernel MVA?
⼤流⾏中のデータ変換⼿法であるカーネル
法 (kernel method) を多変量解析に適⽤し
たもの
Kernel PCA (Schölkopf, et al. 98), Locally Linear
Embedding (Roweis & Saul 00), Isometric Map
(Tenenbaum, et al. 00) などがある
34

What is kernel method?
カーネル法 (kernel method)
の肝 (だと私が理解している
事)
⾼次元での平滑化
(smoothing)
単なるモデル fitting では
ない
平滑化に使うのが (様々な
種類の) カーネル関数
(kernel function)
どんな⾵にノイズの影響
を受けるかはデータの種
類に固有
効果
結果的に，どんなに複雑な
データでもパターンがあれ
ば近似的にそれを⾒つけ出
す
個⼈的⾒当
もしかして微分幾何学
(differential geometry) の
応⽤？
35

L´ H´
L H
undo degeneration
H´ -> L´ using K(x, x´)
degenerate of
directly
approximates
indirectly
approximates
estimates
What do kernel functions do?
私がカーネル法の動作原理について
理解している (と思っている) 事
紙 (低次元の素材 L) で折り紙 (⾼次
元モデル H) を作り，その後に H を
元の紙 L に戻す
L に H の情報が残っていないと L か
ら H は復元できないが，折り⽬のつ
い状態 L´ なら，折り⽬のつき⽅を
⾒ながら H´ を⼀意に復元できる
L´ の選び⽅次第で H を近似的に復
元できる
どの折り⽬に，どれぐらい着⽬する
かのバイアスを個々の kernel 関数が
表現している L´ => H´
36

What do kernel functions do?
私がカーネル法の動作原理について
理解している (と思っている) 事
紙 (低次元の素材 L) で折り紙 (⾼次
元モデル H) を作り，その後に H を
元の紙 L に戻す
L に H の情報が残っていないと L か
ら H は復元できないが，折り⽬のつ
い状態 L´ なら，折り⽬のつき⽅を
⾒ながら H´ を⼀意に復元できる
L´ の選び⽅次第で H を近似的に復
元できる
どの折り⽬に，どれぐらい着⽬する
かのバイアスを個々の kernel 関数が
表現している L´ => H´
37

Challenges
Kernel 関数の種類が⼀杯ある…
Gaussian kernel が有名だが，他にも Laplacian,
Polynomial, ANOVA, Bessel, String, ... のように⾊々ある
⽤途によって，どの kernel が有効かが違う
更に，kernel 関数ごとに調節すべきパラメータが幾つかある
どんなデータに値が有効なのかは事前にわからない
しかも，得られた結果の解釈法が確⽴されているとも⾔えな
い
要するに探索的試⾏が不可⽋
38

Parameters to control for
Kernel-based Methods
Gaussian RBF は K(x,
x') = –exp(σ|| x – x' ||2)
を使い，
Laplacian RBF は K(x,
x') = –exp(σ|| x – x '||)
を使う
LLE と Isomap は
metric-based で近傍
の k 個の要素を集める
k-means の k に類似
39
Method σ k
Gaussian
kPCA
Yes No
Laplacian
kPCA
Yes No
Locally Linear
Embedding
(LLE)
No Yes
Isometric Map
(Isomap)
No Yes

Gaussian RBF
カーネル関数
K(x, x´) = –exp (σ || x –
x´ ||2 )
の外⾒は σ の値に応じ
て，右のように変化
40

Laplacian RBF
カーネル関数
K(x, x´) = –exp (σ || x –
x´ ||)
の外⾒は，σ の値に応
じて，右のように変化
41

Effective settings for
parameters (kPCA)
42
data Gaussian Laplacian
σ initial value
ﬁnal value
(approx)
step initial value
ﬁnal value
(approx)
step
raw count 0.001 0.06 0.01 0.01 0.8 0.1
normalized 0.01 0.8 0.1 0.001 2.0 0.2
s.scaled.uncnt 0.01 120.0 10.0 0.01 35.0 6.0
s.scaled.cnt 0.01 40.0 4.0 0.01 20.0 2.0
r.scaled.uncnt 0.01 120.0 10.0 0.01 36.0 3.0
r.scaled.cnt 0.01 40.0 4.0 0.01 15.0 1.5

Effective settings for
parameters (LLE and Isomap)
43
data LLE Isomap
k min max min max
raw count 2 3 2 5
normalized 2 3 2 5
s.scaled.uncnt 2 4 2 5
s.scaled.cnt 2 3 2 5
r.scaled.uncnt 2 3 2 5
r.scaled.cnt 2 3 2 5
max は ﬁltering の有無でも変わる (LLE では特に)

kPCA (Gaussian,
Laplacian) の結果

clustered by FuzzyCMeans (k = 5)
PROJECT
s2u.sd.ﬁltered
Gaussian kPCA 1/6
45

PROJECT
s2u.sd.ﬁltered
Gaussian kPCA 2/6
46

PROJECT
s2u.sd.ﬁltered
Gaussian kPCA 3/6
47

PROJECT
s2u.sd.ﬁltered
Gaussian kPCA 4/6
48

PROJECT
s2u.sd.ﬁltered
Gaussian kPCA 5/6
s2u.s.scaled.cnt (stimulus-scaled, centered data)
49

PROJECT
s2u.sd.ﬁltered
Gaussian kPCA 6/6
s2u.s.scaled.uncnt (stimulus-scaled, uncentered data)
50

Assessment of Gaussian PCA
results
(count を除くと) σ が⼩
さい時はどのデータでも配
置はほぼ同じ
その後は encoding ごとに
かなり違う結果
Gaussian PCA は
normalized data に効果な
し
本当なのか？という気も
するが，Laplacian でも同
じ
51

PROJECT
s2u.sd.ﬁltered
Laplacian kPCA 1/6
52

PROJECT
s2u.sd.ﬁltered
Laplacian kPCA 2/6
53

PROJECT
s2u.sd.ﬁltered
Laplacian kPCA 3/6
54

PROJECT
s2u.sd.ﬁltered
Laplacian kPCA 4/6
55

PROJECT
s2u.sd.ﬁltered
Laplacian kPCA 5/6
56

PROJECT
s2u.sd.ﬁltered
Laplacian kPCA 6/6
57

Assessment of Laplacian
PCA results
σ が⼩さい時はどの
データでも配置はほぼ同
じ
その後は encoding ごと
にかなり違う結果
normalized に Laplacian
PCA の効果なし
Gaussian PCAと同じ
58

Assessment of kPCA results
Gaussian kernel は使いにくい
scaled x uncentered で収束が遅い
が，Laplacian にも落とし⽳はある
normalized data で初期値がとても⼩さい
σ が⼩さい間は通常の MVA (CA, MDS,
PCA) に似た結果
σ が⼤きくなると別物に化ける
59

PROJECT
s2u.sd.ﬁltered
LLE 1/6
s2u.count (raw frequencey data)
61

PROJECT
s2u.sd.ﬁltered
LLE 2/6
62

PROJECT
s2u.sd.ﬁltered
LLE 3/6
63

PROJECT
s2u.sd.ﬁltered
LLE 4/6
64

PROJECT
s2u.sd.ﬁltered
LLE 5/6
65

PROJECT
s2u.sd.ﬁltered
LLE 6/6
66

Assessment of LLE results
encoding の違いによる
結果の違いはあるが，
centering の効果は完全
に消失
つまり結果が count,
r.scaled, s.scaled の3つ
に還元される
k の効果がデータごとに
違い，⼀貫性が感じられ
ない
67

PROJECT
s2u.sd.ﬁltered
Isomap 1/6
s2u.count (raw frequencey data)
68

PROJECT
s2u.sd.ﬁltered
Isomap 2/6
69

PROJECT
s2u.sd.ﬁltered
Isomap 3/6
70

PROJECT
s2u.sd.ﬁltered
Isomap 4/6
71

PROJECT
s2u.sd.ﬁltered
Isomap 5/6
72

PROJECT
s2u.sd.ﬁltered
Isomap 6/6
73

Assessment of Isomap
results
centering の効果は完全消
失
LLE と同様
k の増加による効果は単調
k = 5 は仮にうまく⾏って
も，k = 4 と配置が変わら
ない
k が⼩さいと data によっ
て配置が異なるが，k が⼤
きいとデータ間の差が減少
74

Effective settings for LLE and
Isomap
LLE は有効な k が少ない
k が⼤きくなると (R が hangup し) 応答がなく
なる
Isomap と LLE は k = 2 (最⼩値) で配置がかな
り異なる
Isomap で k が⼤きくなると，結果が通常の
MVA (CA, MDS, PCA) に似てくる
が同⼀でない
75

General assessment of
results 1/2
挙動から推測した
kPCA, LLE, Isomap
の効果の対応
理論的に妥当かは
不明だが，結果を
⾒る限り，こんな
感じ
Isomap は他の⼿法
と挙動が異なる
77
次元削
減効果
kPCA LLE Isomap
小 σ 小 k 小 k 大
大 σ 大 k 大 k 小

General assessment of
results 2/2
kPCA と LLE と Isomap を⽐較する限り⼀
番使えそうなのは Isomap
データの encoding に依存する程度が低い
Isomap で k が⼩さい場合 (k = 2) と⼤きい
場合 (k = 4) は別の有⽤性がある
78

PROJECT
s2u.sd.ﬁltered
Comparison of Isomap and PCA
79

Conclusions
主な結論
kMVA の⼤半の結果で
Guttman effect は消えたと
⾔うより独⽴次元として取り
出されている
特に Isomap で顕著
GE を (単なる) artifact と⾔
うべきではないのでは？
GE は応答のシグモイド性
の産物？
Lickert, Guttman 尺度はそ
もそも単なる順序尺度
補⾜的結論
k MVA が有効だと判明した
とは⾔え，パラメター調整は
かなり⼤変な作業
kMVA はどんな前処理をす
るかで結果が⼤きく異なる
どれが良い結果なのかを判定
するのに可視化は役に⽴つ
perspective を⾒て，やっ
と評価法がわかった (気が
する)
80

Remaining challenges
kMVA で実現された分類の (再) 解釈
特に形成されたクラスターごとに共通する
実例の特性の明⽰化
81

Thank yOu fOr yOur
AttentiOn
:-)

References
D. W. Goodall (1954). Objective methods in the
classification of vegetation. III. An essay on the use of
factor analysis. Australian J. of Botany, 2:304–324.
K. Kuroda, H. Yokono, K. Abe, T. Tsuchiya, Y. Asao, Y.
Kobayashi, T. Kanamaru, and T. Tagawa (2018).
Development of Acceptability Rating Data of Japanese
(ARDJ): An initial report. In Proc. of the 24th Ann.
Meeting of the Assoc. for NLP, pp. 65–68.
K. Kuroda, H. Yokono, K. Abe, T. Tsuchiya, Y. Asao, Y.
Kobayashi, T. Kanamaru, and T. Tagawa (2019).
Insights from a large scale web survey for Acceptability
Rating Data for Japanese (ARDJ) project. In Proc. of the
25th Ann. Meeting for the Assoc. of NLP, pp. 253–56,
J. Podani and I. Miklós (2002). Resemblance
coefficients and the horseshoe effect in Principal
Coordinates Analysis. Ecology, 83(12):3331–43,
J. Rijckesvorsel (1987). The Application of Fuzzy Coding
and Horseshoes in Multiple Correspondence Analysis.
DSWO Press.
S. Roweis and L. Saul (2000). Nonlinear dimensionality
reduction by locally linear embedding. Science,
290:2323–26.
B. Schölkopf, A. Smola, and K.-R. Müller (1998).
Nonlinear component analysis as a kernel eigenvalue
problem. Neu- ral Computation, 10.
J. B. Tenenbaum,V. de Silva, and J.C.Langford (2000). A
global framework for nonlinear dimensionality
reduction. Science, 290:2319–23.
黒田航 (2016). 証拠に基づく医療 (EBM) との比較を通
じて理論言語学の方法論を見直す. In 第 16 回日本認知
言語学会発表論文集, pp. 580–85.
黒田航, 阿部慶賀, 横野光, 土屋智行, 小林雄一郎, 金丸
敏幸, 浅尾仁彦 and 田川拓海 (2019). 容認度評定に影響
する要因の定量的評価: 日本語容認度評定データ (ARDJ)
から得られた知見. In 日本認知科学会第36回大会発表論
文集, pp. 727–36.
83

Tools
Ch. Bartenhagen. RDRToolBox: A
package for nonlinear dimension
reduction with Isomap and LLE,
2014. R package version 1.30.0.
A. Karatzoglou, A. Smola, K. Hornik,
and A. Zeileis. kernlab — An S4
package for kernel methods in R. J.
of Statistical Software, 11(9):1–20,
2004.
D. Mhembere, D. Zheng, C. E.
Priebe, J. T. Vogelstein, and R.
Burns. knor: A NUMA-optimized
in-memory, distributed and semi-
external-memory k-means library.
High-Performance Parallel and
Distributed Computing, 26, 2017.
84

s e t v . i d p a t t e r n a u t h o r . i
d
e d i t . t y
p e
s e n t e n c e
s e t 2 1 8 p 1 3 o 娘が病院で医者に重症と聞いた。
s e t 2 1 8 p 4 1 o 部下が給湯室で上司から噂を聞いた。
s e t 2 1 8 p 2 3 o ⺟がキッチンで早朝にラジオを聞いた。
s e t 1 2 2 p 3 5 o 船が遠回りで海路を安全に⾏った。
s e t 2 2 5 p 3 3 o 男性がスプーンで⾓砂糖を紅茶に⼊れた。
s e t 2 2 5 p 4 3 o 担当者が携帯で出張先から電話を⼊れた。
s e t 1 4 0 p 4 2 o 字のうまい⻘年が外国で⽣活の必要から書道を教えた。
s e t 2 1 1 1 p 2 1 o 社⻑が⼝頭で社員に解雇を伝えた。
s e t 2 1 1 1 p 4 1 o 司令官が無線で本部から命令を伝えた。
s e t 2 1 4 5 p 3 1 o ランナーが路上で悲鳴を⼣暮れ時に聞こえた。
s e t 2 1 5 5 p 2 3 o ⼤衆がデモで政府に抗議を繰り返した。
s e t 2 1 8 3 p 2 1 o 幼児が肩⾞で枝に⼿を届いた。
s e t 2 2 1 0 p 3 1 o シロクマが動物園で氷を⾜元に遊んだ。
s e t 2 2 1 0 p 1 3 o 部下が北海道で温泉に同僚と遊んだ。
s e t 2 3 4 5 p 1 3 o 宿敵が続編でピンチに主⼈公と助けた。
s e t 2 3 4 5 p 4 3 o ⼈が河原で洪⽔から⼦猫を助けた。
s e t 2 4 4 7 p 5 1 o 医師が⼿術で⾎管と神経をつないだ。
s e t 2 4 5 0 p 3 1 o 学者が論⽂賞で顔写真を広報誌に載った。
s e t 2 4 5 0 p 4 1 o ⾼得点者が掲⽰で⼀位から⼗位を載った。
s e t 2 4 7 0 p 4 2 o 暴漢が鋭利な刃物で背後から⼈を襲った。
s e t 2 4 7 0 p 2 2 o チーターが全速⼒で⾒事にガゼルを襲った。
s e t 2 4 7 0 p 3 2 o 通り魔が休⽇の路上で通⾏者を不意に襲った。
s e t 2 4 7 0 p 5 2 o 失業者が盗んだ⾃動⾞で仲間とコンビニを襲った。
s e t 2 7 1 3 p 5 3 o ⼦供が宿題で⾜し算とかけ算を間違えた。
s e t 2 8 0 7 p 2 1 o 脚本家が話し合いで前⽇に台詞を直した。
s e t 2 8 0 7 p 3 1 o 職員が美術館で絵画をまっすぐに直した。
s e t 2 8 0 7 p 4 3 o 先⽣が⾚ペンで⼀から⽂章を直した。
s e t 2 8 2 9 p 1 1 o ⻘年が震災で救出時に飼い⽝と助かった。
s e t 2 8 3 1 p 3 1 o 伝書鳩が戦地で戦況を司令官に届けた。
s e t 2 8 3 1 p 1 1 o 新婚さんが役所で窓⼝に転居届と届けた。
s e t 2 9 5 8 p 5 3 o 弟が家で妹と料理を習った。
s e t 2 9 5 8 p 3 1 o 熊がサーカスで⾃転⾞をトレーナーに習った。
s e t 2 9 5 8 p 1 1 o 医学⽣が解剖実習で医師に看護師と習った。
s e t 2 9 5 8 p 4 1 o 後輩が現場で先輩から基礎を習った。
s e t 1 1 1 4 7 p 3 4 o 関係者がインターネットで個⼈情報を相互に知り合った。
s e t 1 1 1 9 7 p 1 3 o 私が遊園地でインフルエンザに家族と感染した。

gr0 の s10, s20, … , s281.0, s282.0 の分析の前処理
87

Reassessing PCA of Acceptability Rating Data for Japanese (ARDJ) using kernel multivariate analysis

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Mehr von Kow Kuroda

Mehr von Kow Kuroda (10)

Reassessing PCA of Acceptability Rating Data for Japanese (ARDJ) using kernel multivariate analysis