SlideShare ist ein Scribd-Unternehmen logo
1 von 87
Downloaden Sie, um offline zu lesen
Reassessing PCA of Acceptability
Rating Data for Japanese (ARDJ)
data using kernel Multivariate
Analysis
Kow Kuroda, Medical School, Kyorin University
at Online Conference for NLP26 via Zoom, 2020/03/19
Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association
What is ARDJ?
Acceptability Rating
Data for Japanese
(ARDJ) は
Evidence-based
Linguistics (EBL) を実現
するための研究企画 (⿊
⽥ 16; Kuroda, et al. 18)
第1期 2016-2018
第2期 2019-
より具体的に⾔うと,⾔
語学の研究で,
個⼈差やグループ間の体
系的差異を重視する
Randomized Controlled
Trial を標準化する
調査結果を多くの研究者
と共有する
事を究極の狙いとする
2
https://kow-k.github.io/Acceptability-Rating-Data-of-Japanese/
Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association
Motivation for current work
ARDJ の本調査 (Survey 2 unified: s2u) の
PCA で発⽣した⾺蹄形の配置 (horseshoe
effect) 別名 Guttman effect を kernel-
based MVA で取り除けないか?
この効果は PCA に限らず他の多変量解析
Multivarate Analysis (e.g., Correponndence
Analysis, Multi-dimensional Scaling) でも⽣じる
3
What is ARDJ
s2u data?
In and out of ARDJ Survey 2
unified data
Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association
ARDJ s2u の概要
容認度評定調査を社会調
査として実施
調査 1
同時に評定者の個⼈社
会属性 (11種類) を取得
調査 2
30種類の⽂に対し 0-3
の4段階の容認度評定を
求める
数字は (参加者にそう
だと⾔ってはいない
が) 逸脱度に対応
Forced choice task を
模すため中間値は意図
的に排除
調査 1, 2 を同時に実施し
たのは,個⼈差,グルー
プ間の差を⾒るため
この結果は⿊⽥ら
(2019) で発表
5
Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association
set2 の gr0 の 30文
6
s . i n d e x i d v . i d e x p a t t e r n a u t h o r e d i t . t y p
e
g r v e r g r . i n d e
x
s e n t e n c e
s 1 0 1 0 v 2 5 p 4 3 n g r 0 A 1 担 当 者 が 携 帯 で 出 張 も さ か ら 電 話 を ⼊ れ た 。
s 2 0 2 0 v 9 5 8 p 3 1 p g r 0 A 2 熊 が サ ー カ ス で ⾃ 転 ⾞ を ト レ ー ナ ー を 習 っ た 。
s 3 0 3 0 v 8 3 1 p 3 1 n g r 0 A 3 伝 書 鳩 が 戦 地 で 進 攻 を 司 令 官 に 届 け た 。
s 4 0 4 0 v 8 0 7 p 3 1 s g r 0 A 4 職 員 が ま っ す ぐ に 絵 画 を 美 術 館 で 直 し た 。
s 5 0 5 0 v 8 3 1 p 3 1 v g r 0 A 5 伝 書 鳩 が 戦 地 で 戦 況 を 司 令 官 に 送 り 届 け た 。
s 6 0 6 0 v 7 1 3 p 5 3 s g r 0 A 6 ⼦ 供 が ⾜ し 算 と か け 算 を 宿 題 で 間 違 え た 。
s 7 0 7 0 v 3 4 5 p 1 3 s g r 0 A 7 続 編 で 宿 敵 が ピ ン チ に 主 ⼈ 公 と 助 け た 。
s 8 0 8 0 v 1 8 p 1 3 n g r 0 A 8 娘 が 病 院 で 医 者 に 軽 症 と 聞 い た 。
s 9 0 9 0 v 8 0 7 p 2 1 v g r 0 A 9 脚 本 家 が 話 し 合 い で 前 ⽇ に 台 詞 を 考 え 直 し た 。
s 1 0 0 1 0 0 v 4 7 0 p 4 2 o g r 0 A 1 0 暴 漢 が 鋭 利 な 刃 物 で 背 後 か ら ⼈ を 襲 っ た 。
s 1 1 0 1 1 0 v 4 7 0 p 5 2 s g r 0 A 1 1 仲 間 と コ ン ビ ニ を 失 業 者 が 盗 ん だ ⾃ 動 ⾞ で 襲 っ た 。
s 1 2 0 1 2 0 v 1 4 5 p 3 1 v g r 0 A 1 2 ラ ン ナ ー が 路 上 で 悲 鳴 を ⼣ 暮 れ 時 に か き 消 し た 。
s 1 3 0 1 3 0 v 8 0 7 p 4 3 n g r 0 A 1 3 先 ⽣ が ⾚ ペ ン で ⼀ か ら 詩 を 直 し た 。
s 1 4 0 1 4 0 v 9 5 8 p 5 3 v g r 0 A 1 4 弟 が 家 で 妹 と 料 理 を 習 わ せ た 。
s 1 5 0 1 5 0 v 4 7 0 p 5 2 v g r 0 A 1 5 失 業 者 が 盗 っ だ ⾃ 動 ⾞ で 仲 間 と コ ン ビ ニ を 襲 っ た 。
s 1 6 0 1 6 0 v 2 5 p 3 3 n g r 0 A 1 6 男 性 が 茶 碗 で ⾓ 砂 糖 を 紅 茶 に ⼊ れ た 。
s 1 7 0 1 7 0 v 1 4 5 p 3 1 v g r 0 A 1 7 ラ ン ナ ー が 路 上 で 悲 鳴 を ⼣ 暮 れ 時 に 聞 き 取 れ た 。
s 1 8 0 1 8 0 v 4 7 0 p 5 2 p g r 0 A 1 8 失 業 者 を 盗 ん だ ⾃ 動 ⾞ で 仲 間 と コ ン ビ ニ を 襲 っ た 。
s 1 9 0 1 9 0 v 1 4 5 p 3 1 o g r 0 A 1 9 ラ ン ナ ー が 路 上 で 悲 鳴 を ⼣ 暮 れ 時 に 聞 こ え た 。
s 2 0 0 2 0 0 v 8 0 7 p 2 1 n g r 0 A 2 0 脚 本 家 が 話 し 合 い で 翌 ⽇ に 台 詞 を 直 し た 。
s 2 1 0 2 1 0 v 3 4 5 p 1 3 n g r 0 A 2 1 宿 敵 が 続 編 で 苦 境 に 主 ⼈ 公 と 助 け た 。
s 2 2 0 2 2 0 v 1 1 1 p 2 1 s g r 0 A 2 2 社 ⻑ が 社 員 に ⼝ 頭 で 解 雇 を 伝 え た 。
s 2 3 0 2 3 0 v 1 1 1 p 2 1 v g r 0 A 2 3 社 ⻑ が ⼝ 頭 で 社 員 に 解 雇 を 読 み 取 っ た 。
s 2 4 0 2 4 0 v 2 1 0 p 1 3 s g r 0 A 2 4 部 下 が 温 泉 に 北 海 道 で 同 僚 と 遊 ん だ 。
s 2 5 0 2 5 0 v 9 5 8 p 1 1 s g r 0 A 2 5 医 学 ⽣ が 解 剖 実 習 で 看 護 師 と 医 師 に 習 っ た 。
s 2 6 0 2 6 0 v 1 1 6 p 3 2 s g r 0 A 2 6 ⾒ 解 を そ の 芸 能 ⼈ が 質 問 者 に 会 ⾒ で 答 え た 。
s 2 7 0 2 7 0 v 9 5 8 p 5 3 s g r 0 A 2 7 家 で 弟 が 妹 と 料 理 を 習 っ た 。
s 2 8 0 2 8 0 v 8 3 1 p 1 1 p g r 0 A 2 8 新 婚 さ ん が 役 所 が 窓 ⼝ に 転 居 届 と 届 け た 。
s 2 8 1 2 8 1 v 1 1 4 7 p 1 1 p g r 0 A 2 9 夫 が 職 場 で 真 夜 中 に 妻 へ 知 り 合 っ た 。
s 2 8 2 2 8 2 v 4 4 p 4 1 n g r 0 A 3 0 学 ⽣ が 合 格 発 表 の 場 で ⾜ 下 か ら 幸 福 を 感 じ た 。
s281, s282 は全 gr1-gr0 で共有
Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association
刺激の評定者への提示
Web 調査と紙ベースの調査で実施条件が異な
る
Web 調査では Google Form を使っているの
で,11個の質問と30種類の刺激⽂の提⽰順は
回答ごとに⾃動でランダム化
教⽰の違いはweb 調査のみで実施
紙ベースの実験では,事前に順序の異なる A,
B, C の三つの版を⽤意し,回答者はそのどれ
かに回答
7
Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association
評定課題 (mode 1)
次に30種類の⽂をお⾒せします.個々の⽂を次
の4つの基準で評定して下さい.
0. 違和感がなく⾃然に理解できる⽂,
1. 違和感を感じるが理解可能な⽂,
2. 違和感を感じて理解困難な⽂,
3. 不⾃然な理解不能な⽂
提⽰の順序は回答者ごとに変えてあります.⽂の
先頭に付いている整理数字は無視して下さい.
8
Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association
評定課題 (mode 2)
次にお⾒せする30種類の⽂はコンピュータが⾃動作成し
たものです.⼀部の品質には難があり,それを⾒つけたい
と思っています.そのために,個々の⽂を次の4つの基準
で評定して下さい.
0. 違和感がなく⾃然に理解できる⽂,
1. 違和感を感じるが理解可能な⽂,
2. 違和感を感じて理解困難な⽂,
3. 不⾃然な理解不能な⽂
提⽰の順序は回答者ごとに変えてあります.⽂の先頭に付
いている整理数字は無視して下さい.
9
mode 1, 2 で評定値が変わる文が幾つか存在する (未報告)
Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association
11種類の属性質問 1/2
1. あなたは現在,何才です
か?
2. あなたの性別はどれです
か?
3. あなたの⺟語は⽇本語で
すか?
4. あなたは過去にどの地域
(県単位)で暮らしたこ
とがありますか?該当す
るものすべてを指定して
下さい.
5. 過去に⽇本語が話されな
い地域で1年以上の⽣活
をしたことがあります
か?
6. 学んだ事のある外国語の
種類の数を概数で答えて
下さい (期間の⻑さに関
係なく,10個以上の場合
は区別なしで).
10
Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association
11種類の属性質問 2/2
7. 英語を含めた異国語を学ん
だ期間の今までの合計を,
おおよその年数で答えて下
さい.
8. 外国語/異国語を話す⼈と
⽇常的に接しますか?
9. ⼀ヵ⽉当たりの読書量を,
おおよその冊数で答えて下
さい (画像中⼼の雑誌は含
めません).
10.⼩学校より後の教育機関で
どれ位学んだか,おおよそ
の年数を2桁の数字で答え
て下さい.例えば普通⼤学
の学部卒業の場合,10年
(= 中学で3年+⾼等学校で
3年+⼤学で4年) です.
11.あなたは⾃分の考え⽅や感
じ⽅が⼤きく分けて⽂系だ
と思いますか?理系だと思
いますか?(⾃分の主観評
価で構いません)
11
Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association
JSM を使った刺激文の作成
⽬的
体系的に容認度評定の実
態調査したい = 仮説検証
型でなく探索型の調査を
したい
実は誰もやっていない
要件
A. ⼗分に統制された逸脱
⽂候補を
B. ⼗分な数⽤意する
Japanese Sentence
Mutators (JSM) を使って
逸脱⽂の候補を半⾃動⽣成
A, B の⼈⼿実現は⾄難
種⽂を⼈が⽤意し,それ
をJSM で無作為に編集す
る
結果的に36種類の種⽂か
ら246種類の変異体を⾃動
⽣成
12
https://github.com/kow-k/Japanese-sentence-mutators
Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association
変異/編集タイプの内訳
o(riginal): 原⽂
P1-P5を固定し,動詞は
BCCWJ から頻度基盤に半ラン
ダム選別
⾼頻度,中頻度,低頻度域か
ら
s(wapping): 分節 (NP/PP) 単位
のランダムなかき混ぜ
p(ositional): 後置詞のランダム
な置換
v(erb): 動詞のランダムな⽂脈類
似語への置換
n(ominal): 名詞類 (形容動詞の語
幹を含む) のランダムな⽂脈類似
語への置換
13
e d i t . t y p e c o u n t r a t i o
o ( r i g i n a l ) 3 6 0 . 1 2
s ( w a p p i n g ) 7 0 0 . 2 3
p ( o s t p o s i t i o n ) 5 8 0 . 1 9
v ( e r b ) 6 5 0 . 2 2
n ( o m i n a l ) 7 1 0 . 2 4
s u m 3 0 0 1 . 0 0
gr0 の s010, s020, … , s060 [1/5]
14
gr0 の s070, s080, … , s120 [2/5]
15
gr0 の s130, s140, … , s180 [3/5]
16
gr0 の s190, s200, … , s240 [4/5]
17
gr0 の s250, s260, … , s281.0, s282.0 [5/5]
18
Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association
以下の発表の流れ
ARDJ survey 2 unified data の概要
Guttman effect (GE) の説明 (21–31)
Kernel MVA の適⽤の結果 (33–75)
Kernel PCA, Locally Linear Embeddings
(LLE), Isometric Map (Isomap) の三つを⽐
較
考察と結論 (77–81)
19
So you want to
know about
the Guttman
effect ?
Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association
What is Guttman effect?
多変量解析 (MVA) で次元
削減の結果をプロットす
ると⾺蹄形 (horseshoe
shape) が現われる効果
(Goodall 54; Podani & Miklós
02; Rijckesvorsel 87)
Guttman scale を使った
調査で (典型的に?) 認め
られたところから
Guttman effect とも
これは CA, MDS, PCA で
共通して⾒られる
21
s2w データ (Kuroda et al. 2019) の PCA
Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association
Data encodings to compare
1/2
22
probability
density
stimulus-
wise scaling
stimulus-wise
centering
range-wise
scaling
range-wise
centering
raw count No No No No No
normalized Yes No No No No
s.scaled.uncnt No Yes No No No
s.scaled.cnt No Yes Yes No No
r.scaled.uncnt No No No Yes No
r.scaled.cnt No No No Yes Yes
Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association
Data encodings to compare
2/2
23
statdata count normal s.scaled.uncnt s.scaled.cnt r.scaled.uncnt r.scaled.cnt
s.id s001 s002 s001 s002 s001 s002 s001 s002 s001 s002 s001 s002
r01 4 5 0.022 0.028 0.061 0.077 -0.827 -0.806 0.061 0.076 -0.827 -0.806
r12 60 63 0.333 0.348 1.096 1.132 0.455 0.553 1.096 1.132 0.455 0.553
r23 49 42 0.272 0.236 1.118 0.958 0.504 0.136 1.118 0.958 0.504 0.136
r3x 67 69 0.372 0.388 1.286 1.325 0.813 0.876 1.286 0.958 0.813 0.876
sum 180 179 0.999 1 3.561 3.492 0.945 0.759 3.561 3.124 0.945 0.759
mean 45.000 44.750 0.250 0.250 0.890 0.873 0.236 0.190 0.890 0.781 0.236 0.190
stdev 28.320 28.918 0.157 0.161 0.559 0.551 0.726 0.730 0.559 0.477 0.726 0.730
Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association
clustered by FuzzyCMeans (k=5)
PROJECT
s2u.sd.filtered
CA, MDS, PCA
s2u.count (raw frequency data)
24
Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association
clustered by FuzzyCMeans (k=5)
PROJECT
s2u.sd.filtered
CA, MDS, PCA
s2u.normal (normalized data)
25
Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association
clustered by FuzzyCMeans (k=5)
PROJECT
s2u.sd.filtered
CA, MDS, PCA
s2u.r.scaled.cnt (range-scaled, centered data)
26
Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association
clustered by FuzzyCMeans (k=5)
PROJECT
s2u.sd.filtered
CA, MDS, PCA
s2u.r.scaled.uncnt (range-scaled, uncentered data)
27
Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association
clustered by FuzzyCMeans (k=5)
PROJECT
s2u.sd.filtered
CA, MDS, PCA
s2u.s.scaled.cnt (stimilus-scaled, centered data)
28
Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association
clustered by FuzzyCMeans (k=5)
PROJECT
s2u.sd.filtered
CA, MDS, PCA
s2u.s.scaled.cnt (stimulus-scaled, uncentered data)
29
Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association
Diagnosis of “normal” MVA
results
わかる事
count, r.scaled.cnt, r.scaled.uncnt,
s.scaled.cnt, s.scaled.uncnt の 6 種類の
データ encodings に対して
CA, MDS, PCA はほぼ同⼀の配置を与える
どの配置でも Guttman effect が疑われる
30
Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association
What do do with Guttman
effect?
現状
Guttman effect は測定法に内在するバイアスが
原因で⽣じる artifact だと (繰り返し) ⾔われる
が,どの⼿法を使っても Guttman effect が現
われる
着想
Kernel MVA を使ったら,この効果を消せるの
では?
31
Exploring
kernel-based
Methods for
MVA
A long and winding road to
modest success
Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association
Differences from paper
Cleaning
今回は ARDJ s2u の評定値
の SD が 0.6 と 1.5 の間に
ある回答のみを使った
1,880 件の反応から選ば
れたのは 1,753 件
予稿集に報告した解析では
ARDJ s2u の1,880 個を解
析
Kuroda et al. (2019) と
違って Mahalanobis 距離
を使った選別は実施せず
SD filtering だけで⼗分に
効果的
Clustering
予稿集に報告した分析では
Clustering に X-means を
使って,すべての結果で k
= 4 のクラスタリングが得
られている
今回は FuzzyCMeans (C は
k に対応) を使い k = 5 でク
ラスタリングを実⾏
k = 4 だと解像度不⾜
33
Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association
What is kernel MVA?
⼤流⾏中のデータ変換⼿法であるカーネル
法 (kernel method) を多変量解析に適⽤し
たもの
Kernel PCA (Schölkopf, et al. 98), Locally Linear
Embedding (Roweis & Saul 00), Isometric Map
(Tenenbaum, et al. 00) などがある
34
Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association
What is kernel method?
カーネル法 (kernel method)
の肝 (だと私が理解している
事)
⾼次元での平滑化
(smoothing)
単なるモデル fitting では
ない
平滑化に使うのが (様々な
種類の) カーネル関数
(kernel function)
どんな⾵にノイズの影響
を受けるかはデータの種
類に固有
効果
結果的に,どんなに複雑な
データでもパターンがあれ
ば近似的にそれを⾒つけ出
す
個⼈的⾒当
もしかして微分幾何学
(differential geometry) の
応⽤?
35
Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association
L´ H´
L H
undo degeneration
H´ -> L´ using K(x, x´)
degenerate of
directly
approximates
indirectly
approximates
estimates
What do kernel functions do?
私がカーネル法の動作原理について
理解している (と思っている) 事
紙 (低次元の素材 L) で折り紙 (⾼次
元モデル H) を作り,その後に H を
元の紙 L に戻す
L に H の情報が残っていないと L か
ら H は復元できないが,折り⽬のつ
い状態 L´ なら,折り⽬のつき⽅を
⾒ながら H´ を⼀意に復元できる
L´ の選び⽅次第で H を近似的に復
元できる
どの折り⽬に,どれぐらい着⽬する
かのバイアスを個々の kernel 関数が
表現している L´ => H´
36
Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association
What do kernel functions do?
私がカーネル法の動作原理について
理解している (と思っている) 事
紙 (低次元の素材 L) で折り紙 (⾼次
元モデル H) を作り,その後に H を
元の紙 L に戻す
L に H の情報が残っていないと L か
ら H は復元できないが,折り⽬のつ
い状態 L´ なら,折り⽬のつき⽅を
⾒ながら H´ を⼀意に復元できる
L´ の選び⽅次第で H を近似的に復
元できる
どの折り⽬に,どれぐらい着⽬する
かのバイアスを個々の kernel 関数が
表現している L´ => H´
37
Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association
Challenges
Kernel 関数の種類が⼀杯ある…
Gaussian kernel が有名だが,他にも Laplacian,
Polynomial, ANOVA, Bessel, String, ... のように⾊々ある
⽤途によって,どの kernel が有効かが違う
更に,kernel 関数ごとに調節すべきパラメータが幾つかある
どんなデータに値が有効なのかは事前にわからない
しかも,得られた結果の解釈法が確⽴されているとも⾔えな
い
要するに探索的試⾏が不可⽋
38
Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association
Parameters to control for
Kernel-based Methods
Gaussian RBF は K(x,
x') = –exp(σ|| x – x' ||2)
を使い,
Laplacian RBF は K(x,
x') = –exp(σ|| x – x '||)
を使う
LLE と Isomap は
metric-based で近傍
の k 個の要素を集める
k-means の k に類似
39
Method σ k
Gaussian
kPCA
Yes No
Laplacian
kPCA
Yes No
Locally Linear
Embedding
(LLE)
No Yes
Isometric Map
(Isomap)
No Yes
Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association
Gaussian RBF
カーネル関数
K(x, x´) = –exp (σ || x –
x´ ||2 )
の外⾒は σ の値に応じ
て,右のように変化
40
Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association
Laplacian RBF
カーネル関数
K(x, x´) = –exp (σ || x –
x´ ||)
の外⾒は,σ の値に応
じて,右のように変化
41
Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association
Effective settings for
parameters (kPCA)
42
data Gaussian Laplacian
σ initial value
final value
(approx)
step initial value
final value
(approx)
step
raw count 0.001 0.06 0.01 0.01 0.8 0.1
normalized 0.01 0.8 0.1 0.001 2.0 0.2
s.scaled.uncnt 0.01 120.0 10.0 0.01 35.0 6.0
s.scaled.cnt 0.01 40.0 4.0 0.01 20.0 2.0
r.scaled.uncnt 0.01 120.0 10.0 0.01 36.0 3.0
r.scaled.cnt 0.01 40.0 4.0 0.01 15.0 1.5
Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association
Effective settings for
parameters (LLE and Isomap)
43
data LLE Isomap
k min max min max
raw count 2 3 2 5
normalized 2 3 2 5
s.scaled.uncnt 2 4 2 5
s.scaled.cnt 2 3 2 5
r.scaled.uncnt 2 3 2 5
r.scaled.cnt 2 3 2 5
max は filtering の有無でも変わる (LLE では特に)
kPCA (Gaussian,
Laplacian) の結果
Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association
clustered by FuzzyCMeans (k = 5)
PROJECT
s2u.sd.filtered
Gaussian kPCA 1/6
s2u.count (raw frequency data)
45
Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association
clustered by FuzzyCMeans (k = 5)
PROJECT
s2u.sd.filtered
Gaussian kPCA 2/6
s2u.normal (normalized data)
46
Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association
clustered by FuzzyCMeans (k = 5)
PROJECT
s2u.sd.filtered
Gaussian kPCA 3/6
s2u.r.scaled.cnt (range-scaled, centered data)
47
Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association
clustered by FuzzyCMeans (k = 5)
PROJECT
s2u.sd.filtered
Gaussian kPCA 4/6
s2u.r.scaled.uncnt (range-scaled, uncentered data)
48
Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association
clustered by FuzzyCMeans (k = 5)
PROJECT
s2u.sd.filtered
Gaussian kPCA 5/6
s2u.s.scaled.cnt (stimulus-scaled, centered data)
49
Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association
clustered by FuzzyCMeans (k = 5)
PROJECT
s2u.sd.filtered
Gaussian kPCA 6/6
s2u.s.scaled.uncnt (stimulus-scaled, uncentered data)
50
Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association
Assessment of Gaussian PCA
results
(count を除くと) σ が⼩
さい時はどのデータでも配
置はほぼ同じ
その後は encoding ごとに
かなり違う結果
Gaussian PCA は
normalized data に効果な
し
本当なのか?という気も
するが,Laplacian でも同
じ
51
Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association
clustered by FuzzyCMeans (k = 5)
PROJECT
s2u.sd.filtered
Laplacian kPCA 1/6
s2u.count (raw frequency data)
52
Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association
clustered by FuzzyCMeans (k = 5)
PROJECT
s2u.sd.filtered
Laplacian kPCA 2/6
s2u.normal (normalized data)
53
Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association
clustered by FuzzyCMeans (k = 5)
PROJECT
s2u.sd.filtered
Laplacian kPCA 3/6
s2u.r.scaled.cnt (range-scaled, centered data)
54
Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association
clustered by FuzzyCMeans (k = 5)
PROJECT
s2u.sd.filtered
Laplacian kPCA 4/6
s2u.r.scaled.uncnt (range-scaled, uncentered data)
55
Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association
clustered by FuzzyCMeans (k = 5)
PROJECT
s2u.sd.filtered
Laplacian kPCA 5/6
s2u.s.scaled.cnt (stimulus-scaled, centered data)
56
Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association
clustered by FuzzyCMeans (k = 5)
PROJECT
s2u.sd.filtered
Laplacian kPCA 6/6
s2u.s.scaled.uncnt (stimulus-scaled, uncentered data)
57
Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association
Assessment of Laplacian
PCA results
σ が⼩さい時はどの
データでも配置はほぼ同
じ
その後は encoding ごと
にかなり違う結果
normalized に Laplacian
PCA の効果なし
Gaussian PCAと同じ
58
Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association
Assessment of kPCA results
Gaussian kernel は使いにくい
scaled x uncentered で収束が遅い
が,Laplacian にも落とし⽳はある
normalized data で初期値がとても⼩さい
σ が⼩さい間は通常の MVA (CA, MDS,
PCA) に似た結果
σ が⼤きくなると別物に化ける
59
LLE と Isomap の結果
Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association
clustered by FuzzyCMeans (k = 5)
PROJECT
s2u.sd.filtered
LLE 1/6
s2u.count (raw frequencey data)
61
Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association
clustered by FuzzyCMeans (k = 5)
PROJECT
s2u.sd.filtered
LLE 2/6
s2u.normal (normalized data)
62
Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association
clustered by FuzzyCMeans (k = 5)
PROJECT
s2u.sd.filtered
LLE 3/6
s2u.r.scaled.cnt (range-scaled, centered data)
63
Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association
clustered by FuzzyCMeans (k = 5)
PROJECT
s2u.sd.filtered
LLE 4/6
s2u.r.scaled.uncnt (range-scaled, uncentered data)
64
Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association
clustered by FuzzyCMeans (k = 5)
PROJECT
s2u.sd.filtered
LLE 5/6
s2u.s.scaled.cnt (stimulus-scaled, centered data)
65
Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association
clustered by FuzzyCMeans (k = 5)
PROJECT
s2u.sd.filtered
LLE 6/6
s2u.s.scaled.uncnt (stimulus-scaled, uncentered data)
66
Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association
Assessment of LLE results
encoding の違いによる
結果の違いはあるが,
centering の効果は完全
に消失
つまり結果が count,
r.scaled, s.scaled の3つ
に還元される
k の効果がデータごとに
違い,⼀貫性が感じられ
ない
67
Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association
clustered by FuzzyCMeans (k = 5)
PROJECT
s2u.sd.filtered
Isomap 1/6
s2u.count (raw frequencey data)
68
Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association
clustered by FuzzyCMeans (k = 5)
PROJECT
s2u.sd.filtered
Isomap 2/6
s2u.normal (normalized data)
69
Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association
clustered by FuzzyCMeans (k = 5)
PROJECT
s2u.sd.filtered
Isomap 3/6
s2u.r.scaled.cnt (range-scaled, centered data)
70
Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association
clustered by FuzzyCMeans (k = 5)
PROJECT
s2u.sd.filtered
Isomap 4/6
s2u.r.scaled.uncnt (range-scaled, uncentered data)
71
Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association
clustered by FuzzyCMeans (k = 5)
PROJECT
s2u.sd.filtered
Isomap 5/6
s2u.s.scaled.cnt (stimulus-scaled, centered data)
72
Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association
clustered by FuzzyCMeans (k = 5)
PROJECT
s2u.sd.filtered
Isomap 6/6
s2u.s.scaled.uncnt (stimulus-scaled, uncentered data)
73
Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association
Assessment of Isomap
results
centering の効果は完全消
失
LLE と同様
k の増加による効果は単調
k = 5 は仮にうまく⾏って
も,k = 4 と配置が変わら
ない
k が⼩さいと data によっ
て配置が異なるが,k が⼤
きいとデータ間の差が減少
74
Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association
Effective settings for LLE and
Isomap
LLE は有効な k が少ない
k が⼤きくなると (R が hangup し) 応答がなく
なる
Isomap と LLE は k = 2 (最⼩値) で配置がかな
り異なる
Isomap で k が⼤きくなると,結果が通常の
MVA (CA, MDS, PCA) に似てくる
が同⼀でない
75
Discussion and
Conclusion
Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association
General assessment of
results 1/2
挙動から推測した
kPCA, LLE, Isomap
の効果の対応
理論的に妥当かは
不明だが,結果を
⾒る限り,こんな
感じ
Isomap は他の⼿法
と挙動が異なる
77
次元削
減効果
kPCA LLE Isomap
小 σ 小 k 小 k 大
大 σ 大 k 大 k 小
Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association
General assessment of
results 2/2
kPCA と LLE と Isomap を⽐較する限り⼀
番使えそうなのは Isomap
データの encoding に依存する程度が低い
Isomap で k が⼩さい場合 (k = 2) と⼤きい
場合 (k = 4) は別の有⽤性がある
78
Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association
clustered by FuzzyCMeans (k = 5)
PROJECT
s2u.sd.filtered
Comparison of Isomap and PCA
s2u.s.scaled.cnt (stimulus-scaled, centered data)
79
Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association
Conclusions
主な結論
kMVA の⼤半の結果で
Guttman effect は消えたと
⾔うより独⽴次元として取り
出されている
特に Isomap で顕著
GE を (単なる) artifact と⾔
うべきではないのでは?
GE は応答のシグモイド性
の産物?
Lickert, Guttman 尺度はそ
もそも単なる順序尺度
補⾜的結論
k MVA が有効だと判明した
とは⾔え,パラメター調整は
かなり⼤変な作業
kMVA はどんな前処理をす
るかで結果が⼤きく異なる
どれが良い結果なのかを判定
するのに可視化は役に⽴つ
perspective を⾒て,やっ
と評価法がわかった (気が
する)
80
Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association
Remaining challenges
kMVA で実現された分類の (再) 解釈
特に形成されたクラスターごとに共通する
実例の特性の明⽰化
81
Thank yOu fOr yOur
AttentiOn
:-)
Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association
References
D. W. Goodall (1954). Objective methods in the
classification of vegetation. III. An essay on the use of
factor analysis. Australian J. of Botany, 2:304–324.
K. Kuroda, H. Yokono, K. Abe, T. Tsuchiya, Y. Asao, Y.
Kobayashi, T. Kanamaru, and T. Tagawa (2018).
Development of Acceptability Rating Data of Japanese
(ARDJ): An initial report. In Proc. of the 24th Ann.
Meeting of the Assoc. for NLP, pp. 65–68.
K. Kuroda, H. Yokono, K. Abe, T. Tsuchiya, Y. Asao, Y.
Kobayashi, T. Kanamaru, and T. Tagawa (2019).
Insights from a large scale web survey for Acceptability
Rating Data for Japanese (ARDJ) project. In Proc. of the
25th Ann. Meeting for the Assoc. of NLP, pp. 253–56,
J. Podani and I. Miklós (2002). Resemblance
coefficients and the horseshoe effect in Principal
Coordinates Analysis. Ecology, 83(12):3331–43,
J. Rijckesvorsel (1987). The Application of Fuzzy Coding
and Horseshoes in Multiple Correspondence Analysis.
DSWO Press.
S. Roweis and L. Saul (2000). Nonlinear dimensionality
reduction by locally linear embedding. Science,
290:2323–26.
B. Schölkopf, A. Smola, and K.-R. Müller (1998).
Nonlinear component analysis as a kernel eigenvalue
problem. Neu- ral Computation, 10.
J. B. Tenenbaum,V. de Silva, and J.C.Langford (2000). A
global framework for nonlinear dimensionality
reduction. Science, 290:2319–23.
黒田 航 (2016). 証拠に基づく医療 (EBM) との比較を通
じて理 論言語学の方法論を見直す. In 第 16 回日本認知
言語学 会発表論文集, pp. 580–85.
黒田 航, 阿部 慶賀, 横野 光, 土屋 智行, 小林 雄一郎, 金丸
敏幸, 浅尾 仁彦 and 田川 拓海 (2019). 容認度評定に影響
する要因の定量的評価: 日本語容認度評定データ (ARDJ)
から得られた知見. In 日本認知科学会第36回大会発表論
文集, pp. 727–36.
83
Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association
Tools
Ch. Bartenhagen. RDRToolBox: A
package for nonlinear dimension
reduction with Isomap and LLE,
2014. R package version 1.30.0.
A. Karatzoglou, A. Smola, K. Hornik,
and A. Zeileis. kernlab — An S4
package for kernel methods in R. J.
of Statistical Software, 11(9):1–20,
2004.
D. Mhembere, D. Zheng, C. E.
Priebe, J. T. Vogelstein, and R.
Burns. knor: A NUMA-optimized
in-memory, distributed and semi-
external-memory k-means library.
High-Performance Parallel and
Distributed Computing, 26, 2017.
84
Appendices
Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association
s e t v . i d p a t t e r n a u t h o r . i
d
e d i t . t y
p e
s e n t e n c e
s e t 2 1 8 p 1 3 o 娘 が 病 院 で 医 者 に 重 症 と 聞 い た 。
s e t 2 1 8 p 4 1 o 部 下 が 給 湯 室 で 上 司 か ら 噂 を 聞 い た 。
s e t 2 1 8 p 2 3 o ⺟ が キ ッ チ ン で 早 朝 に ラ ジ オ を 聞 い た 。
s e t 1 2 2 p 3 5 o 船 が 遠 回 り で 海 路 を 安 全 に ⾏ っ た 。
s e t 2 2 5 p 3 3 o 男 性 が ス プ ー ン で ⾓ 砂 糖 を 紅 茶 に ⼊ れ た 。
s e t 2 2 5 p 4 3 o 担 当 者 が 携 帯 で 出 張 先 か ら 電 話 を ⼊ れ た 。
s e t 1 4 0 p 4 2 o 字 の う ま い ⻘ 年 が 外 国 で ⽣ 活 の 必 要 か ら 書 道 を 教 え た 。
s e t 2 1 1 1 p 2 1 o 社 ⻑ が ⼝ 頭 で 社 員 に 解 雇 を 伝 え た 。
s e t 2 1 1 1 p 4 1 o 司 令 官 が 無 線 で 本 部 か ら 命 令 を 伝 え た 。
s e t 2 1 4 5 p 3 1 o ラ ン ナ ー が 路 上 で 悲 鳴 を ⼣ 暮 れ 時 に 聞 こ え た 。
s e t 2 1 5 5 p 2 3 o ⼤ 衆 が デ モ で 政 府 に 抗 議 を 繰 り 返 し た 。
s e t 2 1 8 3 p 2 1 o 幼 児 が 肩 ⾞ で 枝 に ⼿ を 届 い た 。
s e t 2 2 1 0 p 3 1 o シ ロ ク マ が 動 物 園 で 氷 を ⾜ 元 に 遊 ん だ 。
s e t 2 2 1 0 p 1 3 o 部 下 が 北 海 道 で 温 泉 に 同 僚 と 遊 ん だ 。
s e t 2 3 4 5 p 1 3 o 宿 敵 が 続 編 で ピ ン チ に 主 ⼈ 公 と 助 け た 。
s e t 2 3 4 5 p 4 3 o ⼈ が 河 原 で 洪 ⽔ か ら ⼦ 猫 を 助 け た 。
s e t 2 4 4 7 p 5 1 o 医 師 が ⼿ 術 で ⾎ 管 と 神 経 を つ な い だ 。
s e t 2 4 5 0 p 3 1 o 学 者 が 論 ⽂ 賞 で 顔 写 真 を 広 報 誌 に 載 っ た 。
s e t 2 4 5 0 p 4 1 o ⾼ 得 点 者 が 掲 ⽰ で ⼀ 位 か ら ⼗ 位 を 載 っ た 。
s e t 2 4 7 0 p 4 2 o 暴 漢 が 鋭 利 な 刃 物 で 背 後 か ら ⼈ を 襲 っ た 。
s e t 2 4 7 0 p 2 2 o チ ー タ ー が 全 速 ⼒ で ⾒ 事 に ガ ゼ ル を 襲 っ た 。
s e t 2 4 7 0 p 3 2 o 通 り 魔 が 休 ⽇ の 路 上 で 通 ⾏ 者 を 不 意 に 襲 っ た 。
s e t 2 4 7 0 p 5 2 o 失 業 者 が 盗 ん だ ⾃ 動 ⾞ で 仲 間 と コ ン ビ ニ を 襲 っ た 。
s e t 2 7 1 3 p 5 3 o ⼦ 供 が 宿 題 で ⾜ し 算 と か け 算 を 間 違 え た 。
s e t 2 8 0 7 p 2 1 o 脚 本 家 が 話 し 合 い で 前 ⽇ に 台 詞 を 直 し た 。
s e t 2 8 0 7 p 3 1 o 職 員 が 美 術 館 で 絵 画 を ま っ す ぐ に 直 し た 。
s e t 2 8 0 7 p 4 3 o 先 ⽣ が ⾚ ペ ン で ⼀ か ら ⽂ 章 を 直 し た 。
s e t 2 8 2 9 p 1 1 o ⻘ 年 が 震 災 で 救 出 時 に 飼 い ⽝ と 助 か っ た 。
s e t 2 8 3 1 p 3 1 o 伝 書 鳩 が 戦 地 で 戦 況 を 司 令 官 に 届 け た 。
s e t 2 8 3 1 p 1 1 o 新 婚 さ ん が 役 所 で 窓 ⼝ に 転 居 届 と 届 け た 。
s e t 2 9 5 8 p 5 3 o 弟 が 家 で 妹 と 料 理 を 習 っ た 。
s e t 2 9 5 8 p 3 1 o 熊 が サ ー カ ス で ⾃ 転 ⾞ を ト レ ー ナ ー に 習 っ た 。
s e t 2 9 5 8 p 1 1 o 医 学 ⽣ が 解 剖 実 習 で 医 師 に 看 護 師 と 習 っ た 。
s e t 2 9 5 8 p 4 1 o 後 輩 が 現 場 で 先 輩 か ら 基 礎 を 習 っ た 。
s e t 1 1 1 4 7 p 3 4 o 関 係 者 が イ ン タ ー ネ ッ ト で 個 ⼈ 情 報 を 相 互 に 知 り 合 っ た 。
s e t 1 1 1 9 7 p 1 3 o 私 が 遊 園 地 で イ ン フ ル エ ン ザ に 家 族 と 感 染 し た 。
gr0 の s10, s20, … , s281.0, s282.0 の分析の前処理
87

Weitere ähnliche Inhalte

Mehr von Kow Kuroda

Kow Kuroda's talk at Concept Workshop, Japan Psychological Association 2011
Kow Kuroda's talk at Concept Workshop, Japan Psychological Association 2011Kow Kuroda's talk at Concept Workshop, Japan Psychological Association 2011
Kow Kuroda's talk at Concept Workshop, Japan Psychological Association 2011Kow Kuroda
 
Kuroda NLP17 slides on Parallel Simulated Error Correction method
Kuroda NLP17 slides on Parallel Simulated Error Correction methodKuroda NLP17 slides on Parallel Simulated Error Correction method
Kuroda NLP17 slides on Parallel Simulated Error Correction methodKow Kuroda
 
Kuroda & Hasebe NLP15 slides on Pattern Lattice Model
Kuroda & Hasebe NLP15 slides on Pattern Lattice ModelKuroda & Hasebe NLP15 slides on Pattern Lattice Model
Kuroda & Hasebe NLP15 slides on Pattern Lattice ModelKow Kuroda
 
Formal Concept Analysis meets grammar typology
Formal Concept Analysis meets grammar typologyFormal Concept Analysis meets grammar typology
Formal Concept Analysis meets grammar typologyKow Kuroda
 
表層語形から品詞はどれぐらい正確に予測可能か?
表層語形から品詞はどれぐらい正確に予測可能か?表層語形から品詞はどれぐらい正確に予測可能か?
表層語形から品詞はどれぐらい正確に予測可能か?Kow Kuroda
 
形容詞と意味フレームの係わり方について
形容詞と意味フレームの係わり方について形容詞と意味フレームの係わり方について
形容詞と意味フレームの係わり方についてKow Kuroda
 
Characterizing transferred epithet as alternation
Characterizing transferred epithet as alternationCharacterizing transferred epithet as alternation
Characterizing transferred epithet as alternationKow Kuroda
 
Situations as attractors for semantic interpretation
Situations as attractors for semantic interpretationSituations as attractors for semantic interpretation
Situations as attractors for semantic interpretationKow Kuroda
 
言語の「自然態」を捉える理論の必要性
言語の「自然態」を捉える理論の必要性言語の「自然態」を捉える理論の必要性
言語の「自然態」を捉える理論の必要性Kow Kuroda
 
Patter lattice as a model of human's language processing
Patter lattice as a model of human's language processingPatter lattice as a model of human's language processing
Patter lattice as a model of human's language processingKow Kuroda
 

Mehr von Kow Kuroda (10)

Kow Kuroda's talk at Concept Workshop, Japan Psychological Association 2011
Kow Kuroda's talk at Concept Workshop, Japan Psychological Association 2011Kow Kuroda's talk at Concept Workshop, Japan Psychological Association 2011
Kow Kuroda's talk at Concept Workshop, Japan Psychological Association 2011
 
Kuroda NLP17 slides on Parallel Simulated Error Correction method
Kuroda NLP17 slides on Parallel Simulated Error Correction methodKuroda NLP17 slides on Parallel Simulated Error Correction method
Kuroda NLP17 slides on Parallel Simulated Error Correction method
 
Kuroda & Hasebe NLP15 slides on Pattern Lattice Model
Kuroda & Hasebe NLP15 slides on Pattern Lattice ModelKuroda & Hasebe NLP15 slides on Pattern Lattice Model
Kuroda & Hasebe NLP15 slides on Pattern Lattice Model
 
Formal Concept Analysis meets grammar typology
Formal Concept Analysis meets grammar typologyFormal Concept Analysis meets grammar typology
Formal Concept Analysis meets grammar typology
 
表層語形から品詞はどれぐらい正確に予測可能か?
表層語形から品詞はどれぐらい正確に予測可能か?表層語形から品詞はどれぐらい正確に予測可能か?
表層語形から品詞はどれぐらい正確に予測可能か?
 
形容詞と意味フレームの係わり方について
形容詞と意味フレームの係わり方について形容詞と意味フレームの係わり方について
形容詞と意味フレームの係わり方について
 
Characterizing transferred epithet as alternation
Characterizing transferred epithet as alternationCharacterizing transferred epithet as alternation
Characterizing transferred epithet as alternation
 
Situations as attractors for semantic interpretation
Situations as attractors for semantic interpretationSituations as attractors for semantic interpretation
Situations as attractors for semantic interpretation
 
言語の「自然態」を捉える理論の必要性
言語の「自然態」を捉える理論の必要性言語の「自然態」を捉える理論の必要性
言語の「自然態」を捉える理論の必要性
 
Patter lattice as a model of human's language processing
Patter lattice as a model of human's language processingPatter lattice as a model of human's language processing
Patter lattice as a model of human's language processing
 

Reassessing PCA of Acceptability Rating Data for Japanese (ARDJ) using kernel multivariate analysis

  • 1. Reassessing PCA of Acceptability Rating Data for Japanese (ARDJ) data using kernel Multivariate Analysis Kow Kuroda, Medical School, Kyorin University at Online Conference for NLP26 via Zoom, 2020/03/19
  • 2. Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association What is ARDJ? Acceptability Rating Data for Japanese (ARDJ) は Evidence-based Linguistics (EBL) を実現 するための研究企画 (⿊ ⽥ 16; Kuroda, et al. 18) 第1期 2016-2018 第2期 2019- より具体的に⾔うと,⾔ 語学の研究で, 個⼈差やグループ間の体 系的差異を重視する Randomized Controlled Trial を標準化する 調査結果を多くの研究者 と共有する 事を究極の狙いとする 2 https://kow-k.github.io/Acceptability-Rating-Data-of-Japanese/
  • 3. Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association Motivation for current work ARDJ の本調査 (Survey 2 unified: s2u) の PCA で発⽣した⾺蹄形の配置 (horseshoe effect) 別名 Guttman effect を kernel- based MVA で取り除けないか? この効果は PCA に限らず他の多変量解析 Multivarate Analysis (e.g., Correponndence Analysis, Multi-dimensional Scaling) でも⽣じる 3
  • 4. What is ARDJ s2u data? In and out of ARDJ Survey 2 unified data
  • 5. Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association ARDJ s2u の概要 容認度評定調査を社会調 査として実施 調査 1 同時に評定者の個⼈社 会属性 (11種類) を取得 調査 2 30種類の⽂に対し 0-3 の4段階の容認度評定を 求める 数字は (参加者にそう だと⾔ってはいない が) 逸脱度に対応 Forced choice task を 模すため中間値は意図 的に排除 調査 1, 2 を同時に実施し たのは,個⼈差,グルー プ間の差を⾒るため この結果は⿊⽥ら (2019) で発表 5
  • 6. Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association set2 の gr0 の 30文 6 s . i n d e x i d v . i d e x p a t t e r n a u t h o r e d i t . t y p e g r v e r g r . i n d e x s e n t e n c e s 1 0 1 0 v 2 5 p 4 3 n g r 0 A 1 担 当 者 が 携 帯 で 出 張 も さ か ら 電 話 を ⼊ れ た 。 s 2 0 2 0 v 9 5 8 p 3 1 p g r 0 A 2 熊 が サ ー カ ス で ⾃ 転 ⾞ を ト レ ー ナ ー を 習 っ た 。 s 3 0 3 0 v 8 3 1 p 3 1 n g r 0 A 3 伝 書 鳩 が 戦 地 で 進 攻 を 司 令 官 に 届 け た 。 s 4 0 4 0 v 8 0 7 p 3 1 s g r 0 A 4 職 員 が ま っ す ぐ に 絵 画 を 美 術 館 で 直 し た 。 s 5 0 5 0 v 8 3 1 p 3 1 v g r 0 A 5 伝 書 鳩 が 戦 地 で 戦 況 を 司 令 官 に 送 り 届 け た 。 s 6 0 6 0 v 7 1 3 p 5 3 s g r 0 A 6 ⼦ 供 が ⾜ し 算 と か け 算 を 宿 題 で 間 違 え た 。 s 7 0 7 0 v 3 4 5 p 1 3 s g r 0 A 7 続 編 で 宿 敵 が ピ ン チ に 主 ⼈ 公 と 助 け た 。 s 8 0 8 0 v 1 8 p 1 3 n g r 0 A 8 娘 が 病 院 で 医 者 に 軽 症 と 聞 い た 。 s 9 0 9 0 v 8 0 7 p 2 1 v g r 0 A 9 脚 本 家 が 話 し 合 い で 前 ⽇ に 台 詞 を 考 え 直 し た 。 s 1 0 0 1 0 0 v 4 7 0 p 4 2 o g r 0 A 1 0 暴 漢 が 鋭 利 な 刃 物 で 背 後 か ら ⼈ を 襲 っ た 。 s 1 1 0 1 1 0 v 4 7 0 p 5 2 s g r 0 A 1 1 仲 間 と コ ン ビ ニ を 失 業 者 が 盗 ん だ ⾃ 動 ⾞ で 襲 っ た 。 s 1 2 0 1 2 0 v 1 4 5 p 3 1 v g r 0 A 1 2 ラ ン ナ ー が 路 上 で 悲 鳴 を ⼣ 暮 れ 時 に か き 消 し た 。 s 1 3 0 1 3 0 v 8 0 7 p 4 3 n g r 0 A 1 3 先 ⽣ が ⾚ ペ ン で ⼀ か ら 詩 を 直 し た 。 s 1 4 0 1 4 0 v 9 5 8 p 5 3 v g r 0 A 1 4 弟 が 家 で 妹 と 料 理 を 習 わ せ た 。 s 1 5 0 1 5 0 v 4 7 0 p 5 2 v g r 0 A 1 5 失 業 者 が 盗 っ だ ⾃ 動 ⾞ で 仲 間 と コ ン ビ ニ を 襲 っ た 。 s 1 6 0 1 6 0 v 2 5 p 3 3 n g r 0 A 1 6 男 性 が 茶 碗 で ⾓ 砂 糖 を 紅 茶 に ⼊ れ た 。 s 1 7 0 1 7 0 v 1 4 5 p 3 1 v g r 0 A 1 7 ラ ン ナ ー が 路 上 で 悲 鳴 を ⼣ 暮 れ 時 に 聞 き 取 れ た 。 s 1 8 0 1 8 0 v 4 7 0 p 5 2 p g r 0 A 1 8 失 業 者 を 盗 ん だ ⾃ 動 ⾞ で 仲 間 と コ ン ビ ニ を 襲 っ た 。 s 1 9 0 1 9 0 v 1 4 5 p 3 1 o g r 0 A 1 9 ラ ン ナ ー が 路 上 で 悲 鳴 を ⼣ 暮 れ 時 に 聞 こ え た 。 s 2 0 0 2 0 0 v 8 0 7 p 2 1 n g r 0 A 2 0 脚 本 家 が 話 し 合 い で 翌 ⽇ に 台 詞 を 直 し た 。 s 2 1 0 2 1 0 v 3 4 5 p 1 3 n g r 0 A 2 1 宿 敵 が 続 編 で 苦 境 に 主 ⼈ 公 と 助 け た 。 s 2 2 0 2 2 0 v 1 1 1 p 2 1 s g r 0 A 2 2 社 ⻑ が 社 員 に ⼝ 頭 で 解 雇 を 伝 え た 。 s 2 3 0 2 3 0 v 1 1 1 p 2 1 v g r 0 A 2 3 社 ⻑ が ⼝ 頭 で 社 員 に 解 雇 を 読 み 取 っ た 。 s 2 4 0 2 4 0 v 2 1 0 p 1 3 s g r 0 A 2 4 部 下 が 温 泉 に 北 海 道 で 同 僚 と 遊 ん だ 。 s 2 5 0 2 5 0 v 9 5 8 p 1 1 s g r 0 A 2 5 医 学 ⽣ が 解 剖 実 習 で 看 護 師 と 医 師 に 習 っ た 。 s 2 6 0 2 6 0 v 1 1 6 p 3 2 s g r 0 A 2 6 ⾒ 解 を そ の 芸 能 ⼈ が 質 問 者 に 会 ⾒ で 答 え た 。 s 2 7 0 2 7 0 v 9 5 8 p 5 3 s g r 0 A 2 7 家 で 弟 が 妹 と 料 理 を 習 っ た 。 s 2 8 0 2 8 0 v 8 3 1 p 1 1 p g r 0 A 2 8 新 婚 さ ん が 役 所 が 窓 ⼝ に 転 居 届 と 届 け た 。 s 2 8 1 2 8 1 v 1 1 4 7 p 1 1 p g r 0 A 2 9 夫 が 職 場 で 真 夜 中 に 妻 へ 知 り 合 っ た 。 s 2 8 2 2 8 2 v 4 4 p 4 1 n g r 0 A 3 0 学 ⽣ が 合 格 発 表 の 場 で ⾜ 下 か ら 幸 福 を 感 じ た 。 s281, s282 は全 gr1-gr0 で共有
  • 7. Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association 刺激の評定者への提示 Web 調査と紙ベースの調査で実施条件が異な る Web 調査では Google Form を使っているの で,11個の質問と30種類の刺激⽂の提⽰順は 回答ごとに⾃動でランダム化 教⽰の違いはweb 調査のみで実施 紙ベースの実験では,事前に順序の異なる A, B, C の三つの版を⽤意し,回答者はそのどれ かに回答 7
  • 8. Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association 評定課題 (mode 1) 次に30種類の⽂をお⾒せします.個々の⽂を次 の4つの基準で評定して下さい. 0. 違和感がなく⾃然に理解できる⽂, 1. 違和感を感じるが理解可能な⽂, 2. 違和感を感じて理解困難な⽂, 3. 不⾃然な理解不能な⽂ 提⽰の順序は回答者ごとに変えてあります.⽂の 先頭に付いている整理数字は無視して下さい. 8
  • 9. Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association 評定課題 (mode 2) 次にお⾒せする30種類の⽂はコンピュータが⾃動作成し たものです.⼀部の品質には難があり,それを⾒つけたい と思っています.そのために,個々の⽂を次の4つの基準 で評定して下さい. 0. 違和感がなく⾃然に理解できる⽂, 1. 違和感を感じるが理解可能な⽂, 2. 違和感を感じて理解困難な⽂, 3. 不⾃然な理解不能な⽂ 提⽰の順序は回答者ごとに変えてあります.⽂の先頭に付 いている整理数字は無視して下さい. 9 mode 1, 2 で評定値が変わる文が幾つか存在する (未報告)
  • 10. Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association 11種類の属性質問 1/2 1. あなたは現在,何才です か? 2. あなたの性別はどれです か? 3. あなたの⺟語は⽇本語で すか? 4. あなたは過去にどの地域 (県単位)で暮らしたこ とがありますか?該当す るものすべてを指定して 下さい. 5. 過去に⽇本語が話されな い地域で1年以上の⽣活 をしたことがあります か? 6. 学んだ事のある外国語の 種類の数を概数で答えて 下さい (期間の⻑さに関 係なく,10個以上の場合 は区別なしで). 10
  • 11. Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association 11種類の属性質問 2/2 7. 英語を含めた異国語を学ん だ期間の今までの合計を, おおよその年数で答えて下 さい. 8. 外国語/異国語を話す⼈と ⽇常的に接しますか? 9. ⼀ヵ⽉当たりの読書量を, おおよその冊数で答えて下 さい (画像中⼼の雑誌は含 めません). 10.⼩学校より後の教育機関で どれ位学んだか,おおよそ の年数を2桁の数字で答え て下さい.例えば普通⼤学 の学部卒業の場合,10年 (= 中学で3年+⾼等学校で 3年+⼤学で4年) です. 11.あなたは⾃分の考え⽅や感 じ⽅が⼤きく分けて⽂系だ と思いますか?理系だと思 いますか?(⾃分の主観評 価で構いません) 11
  • 12. Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association JSM を使った刺激文の作成 ⽬的 体系的に容認度評定の実 態調査したい = 仮説検証 型でなく探索型の調査を したい 実は誰もやっていない 要件 A. ⼗分に統制された逸脱 ⽂候補を B. ⼗分な数⽤意する Japanese Sentence Mutators (JSM) を使って 逸脱⽂の候補を半⾃動⽣成 A, B の⼈⼿実現は⾄難 種⽂を⼈が⽤意し,それ をJSM で無作為に編集す る 結果的に36種類の種⽂か ら246種類の変異体を⾃動 ⽣成 12 https://github.com/kow-k/Japanese-sentence-mutators
  • 13. Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association 変異/編集タイプの内訳 o(riginal): 原⽂ P1-P5を固定し,動詞は BCCWJ から頻度基盤に半ラン ダム選別 ⾼頻度,中頻度,低頻度域か ら s(wapping): 分節 (NP/PP) 単位 のランダムなかき混ぜ p(ositional): 後置詞のランダム な置換 v(erb): 動詞のランダムな⽂脈類 似語への置換 n(ominal): 名詞類 (形容動詞の語 幹を含む) のランダムな⽂脈類似 語への置換 13 e d i t . t y p e c o u n t r a t i o o ( r i g i n a l ) 3 6 0 . 1 2 s ( w a p p i n g ) 7 0 0 . 2 3 p ( o s t p o s i t i o n ) 5 8 0 . 1 9 v ( e r b ) 6 5 0 . 2 2 n ( o m i n a l ) 7 1 0 . 2 4 s u m 3 0 0 1 . 0 0
  • 14. gr0 の s010, s020, … , s060 [1/5] 14
  • 15. gr0 の s070, s080, … , s120 [2/5] 15
  • 16. gr0 の s130, s140, … , s180 [3/5] 16
  • 17. gr0 の s190, s200, … , s240 [4/5] 17
  • 18. gr0 の s250, s260, … , s281.0, s282.0 [5/5] 18
  • 19. Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association 以下の発表の流れ ARDJ survey 2 unified data の概要 Guttman effect (GE) の説明 (21–31) Kernel MVA の適⽤の結果 (33–75) Kernel PCA, Locally Linear Embeddings (LLE), Isometric Map (Isomap) の三つを⽐ 較 考察と結論 (77–81) 19
  • 20. So you want to know about the Guttman effect ?
  • 21. Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association What is Guttman effect? 多変量解析 (MVA) で次元 削減の結果をプロットす ると⾺蹄形 (horseshoe shape) が現われる効果 (Goodall 54; Podani & Miklós 02; Rijckesvorsel 87) Guttman scale を使った 調査で (典型的に?) 認め られたところから Guttman effect とも これは CA, MDS, PCA で 共通して⾒られる 21 s2w データ (Kuroda et al. 2019) の PCA
  • 22. Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association Data encodings to compare 1/2 22 probability density stimulus- wise scaling stimulus-wise centering range-wise scaling range-wise centering raw count No No No No No normalized Yes No No No No s.scaled.uncnt No Yes No No No s.scaled.cnt No Yes Yes No No r.scaled.uncnt No No No Yes No r.scaled.cnt No No No Yes Yes
  • 23. Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association Data encodings to compare 2/2 23 statdata count normal s.scaled.uncnt s.scaled.cnt r.scaled.uncnt r.scaled.cnt s.id s001 s002 s001 s002 s001 s002 s001 s002 s001 s002 s001 s002 r01 4 5 0.022 0.028 0.061 0.077 -0.827 -0.806 0.061 0.076 -0.827 -0.806 r12 60 63 0.333 0.348 1.096 1.132 0.455 0.553 1.096 1.132 0.455 0.553 r23 49 42 0.272 0.236 1.118 0.958 0.504 0.136 1.118 0.958 0.504 0.136 r3x 67 69 0.372 0.388 1.286 1.325 0.813 0.876 1.286 0.958 0.813 0.876 sum 180 179 0.999 1 3.561 3.492 0.945 0.759 3.561 3.124 0.945 0.759 mean 45.000 44.750 0.250 0.250 0.890 0.873 0.236 0.190 0.890 0.781 0.236 0.190 stdev 28.320 28.918 0.157 0.161 0.559 0.551 0.726 0.730 0.559 0.477 0.726 0.730
  • 24. Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association clustered by FuzzyCMeans (k=5) PROJECT s2u.sd.filtered CA, MDS, PCA s2u.count (raw frequency data) 24
  • 25. Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association clustered by FuzzyCMeans (k=5) PROJECT s2u.sd.filtered CA, MDS, PCA s2u.normal (normalized data) 25
  • 26. Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association clustered by FuzzyCMeans (k=5) PROJECT s2u.sd.filtered CA, MDS, PCA s2u.r.scaled.cnt (range-scaled, centered data) 26
  • 27. Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association clustered by FuzzyCMeans (k=5) PROJECT s2u.sd.filtered CA, MDS, PCA s2u.r.scaled.uncnt (range-scaled, uncentered data) 27
  • 28. Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association clustered by FuzzyCMeans (k=5) PROJECT s2u.sd.filtered CA, MDS, PCA s2u.s.scaled.cnt (stimilus-scaled, centered data) 28
  • 29. Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association clustered by FuzzyCMeans (k=5) PROJECT s2u.sd.filtered CA, MDS, PCA s2u.s.scaled.cnt (stimulus-scaled, uncentered data) 29
  • 30. Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association Diagnosis of “normal” MVA results わかる事 count, r.scaled.cnt, r.scaled.uncnt, s.scaled.cnt, s.scaled.uncnt の 6 種類の データ encodings に対して CA, MDS, PCA はほぼ同⼀の配置を与える どの配置でも Guttman effect が疑われる 30
  • 31. Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association What do do with Guttman effect? 現状 Guttman effect は測定法に内在するバイアスが 原因で⽣じる artifact だと (繰り返し) ⾔われる が,どの⼿法を使っても Guttman effect が現 われる 着想 Kernel MVA を使ったら,この効果を消せるの では? 31
  • 32. Exploring kernel-based Methods for MVA A long and winding road to modest success
  • 33. Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association Differences from paper Cleaning 今回は ARDJ s2u の評定値 の SD が 0.6 と 1.5 の間に ある回答のみを使った 1,880 件の反応から選ば れたのは 1,753 件 予稿集に報告した解析では ARDJ s2u の1,880 個を解 析 Kuroda et al. (2019) と 違って Mahalanobis 距離 を使った選別は実施せず SD filtering だけで⼗分に 効果的 Clustering 予稿集に報告した分析では Clustering に X-means を 使って,すべての結果で k = 4 のクラスタリングが得 られている 今回は FuzzyCMeans (C は k に対応) を使い k = 5 でク ラスタリングを実⾏ k = 4 だと解像度不⾜ 33
  • 34. Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association What is kernel MVA? ⼤流⾏中のデータ変換⼿法であるカーネル 法 (kernel method) を多変量解析に適⽤し たもの Kernel PCA (Schölkopf, et al. 98), Locally Linear Embedding (Roweis & Saul 00), Isometric Map (Tenenbaum, et al. 00) などがある 34
  • 35. Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association What is kernel method? カーネル法 (kernel method) の肝 (だと私が理解している 事) ⾼次元での平滑化 (smoothing) 単なるモデル fitting では ない 平滑化に使うのが (様々な 種類の) カーネル関数 (kernel function) どんな⾵にノイズの影響 を受けるかはデータの種 類に固有 効果 結果的に,どんなに複雑な データでもパターンがあれ ば近似的にそれを⾒つけ出 す 個⼈的⾒当 もしかして微分幾何学 (differential geometry) の 応⽤? 35
  • 36. Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association L´ H´ L H undo degeneration H´ -> L´ using K(x, x´) degenerate of directly approximates indirectly approximates estimates What do kernel functions do? 私がカーネル法の動作原理について 理解している (と思っている) 事 紙 (低次元の素材 L) で折り紙 (⾼次 元モデル H) を作り,その後に H を 元の紙 L に戻す L に H の情報が残っていないと L か ら H は復元できないが,折り⽬のつ い状態 L´ なら,折り⽬のつき⽅を ⾒ながら H´ を⼀意に復元できる L´ の選び⽅次第で H を近似的に復 元できる どの折り⽬に,どれぐらい着⽬する かのバイアスを個々の kernel 関数が 表現している L´ => H´ 36
  • 37. Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association What do kernel functions do? 私がカーネル法の動作原理について 理解している (と思っている) 事 紙 (低次元の素材 L) で折り紙 (⾼次 元モデル H) を作り,その後に H を 元の紙 L に戻す L に H の情報が残っていないと L か ら H は復元できないが,折り⽬のつ い状態 L´ なら,折り⽬のつき⽅を ⾒ながら H´ を⼀意に復元できる L´ の選び⽅次第で H を近似的に復 元できる どの折り⽬に,どれぐらい着⽬する かのバイアスを個々の kernel 関数が 表現している L´ => H´ 37
  • 38. Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association Challenges Kernel 関数の種類が⼀杯ある… Gaussian kernel が有名だが,他にも Laplacian, Polynomial, ANOVA, Bessel, String, ... のように⾊々ある ⽤途によって,どの kernel が有効かが違う 更に,kernel 関数ごとに調節すべきパラメータが幾つかある どんなデータに値が有効なのかは事前にわからない しかも,得られた結果の解釈法が確⽴されているとも⾔えな い 要するに探索的試⾏が不可⽋ 38
  • 39. Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association Parameters to control for Kernel-based Methods Gaussian RBF は K(x, x') = –exp(σ|| x – x' ||2) を使い, Laplacian RBF は K(x, x') = –exp(σ|| x – x '||) を使う LLE と Isomap は metric-based で近傍 の k 個の要素を集める k-means の k に類似 39 Method σ k Gaussian kPCA Yes No Laplacian kPCA Yes No Locally Linear Embedding (LLE) No Yes Isometric Map (Isomap) No Yes
  • 40. Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association Gaussian RBF カーネル関数 K(x, x´) = –exp (σ || x – x´ ||2 ) の外⾒は σ の値に応じ て,右のように変化 40
  • 41. Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association Laplacian RBF カーネル関数 K(x, x´) = –exp (σ || x – x´ ||) の外⾒は,σ の値に応 じて,右のように変化 41
  • 42. Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association Effective settings for parameters (kPCA) 42 data Gaussian Laplacian σ initial value final value (approx) step initial value final value (approx) step raw count 0.001 0.06 0.01 0.01 0.8 0.1 normalized 0.01 0.8 0.1 0.001 2.0 0.2 s.scaled.uncnt 0.01 120.0 10.0 0.01 35.0 6.0 s.scaled.cnt 0.01 40.0 4.0 0.01 20.0 2.0 r.scaled.uncnt 0.01 120.0 10.0 0.01 36.0 3.0 r.scaled.cnt 0.01 40.0 4.0 0.01 15.0 1.5
  • 43. Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association Effective settings for parameters (LLE and Isomap) 43 data LLE Isomap k min max min max raw count 2 3 2 5 normalized 2 3 2 5 s.scaled.uncnt 2 4 2 5 s.scaled.cnt 2 3 2 5 r.scaled.uncnt 2 3 2 5 r.scaled.cnt 2 3 2 5 max は filtering の有無でも変わる (LLE では特に)
  • 45. Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association clustered by FuzzyCMeans (k = 5) PROJECT s2u.sd.filtered Gaussian kPCA 1/6 s2u.count (raw frequency data) 45
  • 46. Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association clustered by FuzzyCMeans (k = 5) PROJECT s2u.sd.filtered Gaussian kPCA 2/6 s2u.normal (normalized data) 46
  • 47. Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association clustered by FuzzyCMeans (k = 5) PROJECT s2u.sd.filtered Gaussian kPCA 3/6 s2u.r.scaled.cnt (range-scaled, centered data) 47
  • 48. Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association clustered by FuzzyCMeans (k = 5) PROJECT s2u.sd.filtered Gaussian kPCA 4/6 s2u.r.scaled.uncnt (range-scaled, uncentered data) 48
  • 49. Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association clustered by FuzzyCMeans (k = 5) PROJECT s2u.sd.filtered Gaussian kPCA 5/6 s2u.s.scaled.cnt (stimulus-scaled, centered data) 49
  • 50. Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association clustered by FuzzyCMeans (k = 5) PROJECT s2u.sd.filtered Gaussian kPCA 6/6 s2u.s.scaled.uncnt (stimulus-scaled, uncentered data) 50
  • 51. Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association Assessment of Gaussian PCA results (count を除くと) σ が⼩ さい時はどのデータでも配 置はほぼ同じ その後は encoding ごとに かなり違う結果 Gaussian PCA は normalized data に効果な し 本当なのか?という気も するが,Laplacian でも同 じ 51
  • 52. Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association clustered by FuzzyCMeans (k = 5) PROJECT s2u.sd.filtered Laplacian kPCA 1/6 s2u.count (raw frequency data) 52
  • 53. Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association clustered by FuzzyCMeans (k = 5) PROJECT s2u.sd.filtered Laplacian kPCA 2/6 s2u.normal (normalized data) 53
  • 54. Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association clustered by FuzzyCMeans (k = 5) PROJECT s2u.sd.filtered Laplacian kPCA 3/6 s2u.r.scaled.cnt (range-scaled, centered data) 54
  • 55. Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association clustered by FuzzyCMeans (k = 5) PROJECT s2u.sd.filtered Laplacian kPCA 4/6 s2u.r.scaled.uncnt (range-scaled, uncentered data) 55
  • 56. Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association clustered by FuzzyCMeans (k = 5) PROJECT s2u.sd.filtered Laplacian kPCA 5/6 s2u.s.scaled.cnt (stimulus-scaled, centered data) 56
  • 57. Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association clustered by FuzzyCMeans (k = 5) PROJECT s2u.sd.filtered Laplacian kPCA 6/6 s2u.s.scaled.uncnt (stimulus-scaled, uncentered data) 57
  • 58. Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association Assessment of Laplacian PCA results σ が⼩さい時はどの データでも配置はほぼ同 じ その後は encoding ごと にかなり違う結果 normalized に Laplacian PCA の効果なし Gaussian PCAと同じ 58
  • 59. Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association Assessment of kPCA results Gaussian kernel は使いにくい scaled x uncentered で収束が遅い が,Laplacian にも落とし⽳はある normalized data で初期値がとても⼩さい σ が⼩さい間は通常の MVA (CA, MDS, PCA) に似た結果 σ が⼤きくなると別物に化ける 59
  • 60. LLE と Isomap の結果
  • 61. Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association clustered by FuzzyCMeans (k = 5) PROJECT s2u.sd.filtered LLE 1/6 s2u.count (raw frequencey data) 61
  • 62. Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association clustered by FuzzyCMeans (k = 5) PROJECT s2u.sd.filtered LLE 2/6 s2u.normal (normalized data) 62
  • 63. Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association clustered by FuzzyCMeans (k = 5) PROJECT s2u.sd.filtered LLE 3/6 s2u.r.scaled.cnt (range-scaled, centered data) 63
  • 64. Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association clustered by FuzzyCMeans (k = 5) PROJECT s2u.sd.filtered LLE 4/6 s2u.r.scaled.uncnt (range-scaled, uncentered data) 64
  • 65. Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association clustered by FuzzyCMeans (k = 5) PROJECT s2u.sd.filtered LLE 5/6 s2u.s.scaled.cnt (stimulus-scaled, centered data) 65
  • 66. Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association clustered by FuzzyCMeans (k = 5) PROJECT s2u.sd.filtered LLE 6/6 s2u.s.scaled.uncnt (stimulus-scaled, uncentered data) 66
  • 67. Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association Assessment of LLE results encoding の違いによる 結果の違いはあるが, centering の効果は完全 に消失 つまり結果が count, r.scaled, s.scaled の3つ に還元される k の効果がデータごとに 違い,⼀貫性が感じられ ない 67
  • 68. Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association clustered by FuzzyCMeans (k = 5) PROJECT s2u.sd.filtered Isomap 1/6 s2u.count (raw frequencey data) 68
  • 69. Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association clustered by FuzzyCMeans (k = 5) PROJECT s2u.sd.filtered Isomap 2/6 s2u.normal (normalized data) 69
  • 70. Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association clustered by FuzzyCMeans (k = 5) PROJECT s2u.sd.filtered Isomap 3/6 s2u.r.scaled.cnt (range-scaled, centered data) 70
  • 71. Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association clustered by FuzzyCMeans (k = 5) PROJECT s2u.sd.filtered Isomap 4/6 s2u.r.scaled.uncnt (range-scaled, uncentered data) 71
  • 72. Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association clustered by FuzzyCMeans (k = 5) PROJECT s2u.sd.filtered Isomap 5/6 s2u.s.scaled.cnt (stimulus-scaled, centered data) 72
  • 73. Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association clustered by FuzzyCMeans (k = 5) PROJECT s2u.sd.filtered Isomap 6/6 s2u.s.scaled.uncnt (stimulus-scaled, uncentered data) 73
  • 74. Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association Assessment of Isomap results centering の効果は完全消 失 LLE と同様 k の増加による効果は単調 k = 5 は仮にうまく⾏って も,k = 4 と配置が変わら ない k が⼩さいと data によっ て配置が異なるが,k が⼤ きいとデータ間の差が減少 74
  • 75. Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association Effective settings for LLE and Isomap LLE は有効な k が少ない k が⼤きくなると (R が hangup し) 応答がなく なる Isomap と LLE は k = 2 (最⼩値) で配置がかな り異なる Isomap で k が⼤きくなると,結果が通常の MVA (CA, MDS, PCA) に似てくる が同⼀でない 75
  • 77. Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association General assessment of results 1/2 挙動から推測した kPCA, LLE, Isomap の効果の対応 理論的に妥当かは 不明だが,結果を ⾒る限り,こんな 感じ Isomap は他の⼿法 と挙動が異なる 77 次元削 減効果 kPCA LLE Isomap 小 σ 小 k 小 k 大 大 σ 大 k 大 k 小
  • 78. Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association General assessment of results 2/2 kPCA と LLE と Isomap を⽐較する限り⼀ 番使えそうなのは Isomap データの encoding に依存する程度が低い Isomap で k が⼩さい場合 (k = 2) と⼤きい 場合 (k = 4) は別の有⽤性がある 78
  • 79. Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association clustered by FuzzyCMeans (k = 5) PROJECT s2u.sd.filtered Comparison of Isomap and PCA s2u.s.scaled.cnt (stimulus-scaled, centered data) 79
  • 80. Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association Conclusions 主な結論 kMVA の⼤半の結果で Guttman effect は消えたと ⾔うより独⽴次元として取り 出されている 特に Isomap で顕著 GE を (単なる) artifact と⾔ うべきではないのでは? GE は応答のシグモイド性 の産物? Lickert, Guttman 尺度はそ もそも単なる順序尺度 補⾜的結論 k MVA が有効だと判明した とは⾔え,パラメター調整は かなり⼤変な作業 kMVA はどんな前処理をす るかで結果が⼤きく異なる どれが良い結果なのかを判定 するのに可視化は役に⽴つ perspective を⾒て,やっ と評価法がわかった (気が する) 80
  • 81. Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association Remaining challenges kMVA で実現された分類の (再) 解釈 特に形成されたクラスターごとに共通する 実例の特性の明⽰化 81
  • 82. Thank yOu fOr yOur AttentiOn :-)
  • 83. Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association References D. W. Goodall (1954). Objective methods in the classification of vegetation. III. An essay on the use of factor analysis. Australian J. of Botany, 2:304–324. K. Kuroda, H. Yokono, K. Abe, T. Tsuchiya, Y. Asao, Y. Kobayashi, T. Kanamaru, and T. Tagawa (2018). Development of Acceptability Rating Data of Japanese (ARDJ): An initial report. In Proc. of the 24th Ann. Meeting of the Assoc. for NLP, pp. 65–68. K. Kuroda, H. Yokono, K. Abe, T. Tsuchiya, Y. Asao, Y. Kobayashi, T. Kanamaru, and T. Tagawa (2019). Insights from a large scale web survey for Acceptability Rating Data for Japanese (ARDJ) project. In Proc. of the 25th Ann. Meeting for the Assoc. of NLP, pp. 253–56, J. Podani and I. Miklós (2002). Resemblance coefficients and the horseshoe effect in Principal Coordinates Analysis. Ecology, 83(12):3331–43, J. Rijckesvorsel (1987). The Application of Fuzzy Coding and Horseshoes in Multiple Correspondence Analysis. DSWO Press. S. Roweis and L. Saul (2000). Nonlinear dimensionality reduction by locally linear embedding. Science, 290:2323–26. B. Schölkopf, A. Smola, and K.-R. Müller (1998). Nonlinear component analysis as a kernel eigenvalue problem. Neu- ral Computation, 10. J. B. Tenenbaum,V. de Silva, and J.C.Langford (2000). A global framework for nonlinear dimensionality reduction. Science, 290:2319–23. 黒田 航 (2016). 証拠に基づく医療 (EBM) との比較を通 じて理 論言語学の方法論を見直す. In 第 16 回日本認知 言語学 会発表論文集, pp. 580–85. 黒田 航, 阿部 慶賀, 横野 光, 土屋 智行, 小林 雄一郎, 金丸 敏幸, 浅尾 仁彦 and 田川 拓海 (2019). 容認度評定に影響 する要因の定量的評価: 日本語容認度評定データ (ARDJ) から得られた知見. In 日本認知科学会第36回大会発表論 文集, pp. 727–36. 83
  • 84. Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association Tools Ch. Bartenhagen. RDRToolBox: A package for nonlinear dimension reduction with Isomap and LLE, 2014. R package version 1.30.0. A. Karatzoglou, A. Smola, K. Hornik, and A. Zeileis. kernlab — An S4 package for kernel methods in R. J. of Statistical Software, 11(9):1–20, 2004. D. Mhembere, D. Zheng, C. E. Priebe, J. T. Vogelstein, and R. Burns. knor: A NUMA-optimized in-memory, distributed and semi- external-memory k-means library. High-Performance Parallel and Distributed Computing, 26, 2017. 84
  • 86. Presented March 19, 2020, at 26th Annual Meeting of Natural Language Association s e t v . i d p a t t e r n a u t h o r . i d e d i t . t y p e s e n t e n c e s e t 2 1 8 p 1 3 o 娘 が 病 院 で 医 者 に 重 症 と 聞 い た 。 s e t 2 1 8 p 4 1 o 部 下 が 給 湯 室 で 上 司 か ら 噂 を 聞 い た 。 s e t 2 1 8 p 2 3 o ⺟ が キ ッ チ ン で 早 朝 に ラ ジ オ を 聞 い た 。 s e t 1 2 2 p 3 5 o 船 が 遠 回 り で 海 路 を 安 全 に ⾏ っ た 。 s e t 2 2 5 p 3 3 o 男 性 が ス プ ー ン で ⾓ 砂 糖 を 紅 茶 に ⼊ れ た 。 s e t 2 2 5 p 4 3 o 担 当 者 が 携 帯 で 出 張 先 か ら 電 話 を ⼊ れ た 。 s e t 1 4 0 p 4 2 o 字 の う ま い ⻘ 年 が 外 国 で ⽣ 活 の 必 要 か ら 書 道 を 教 え た 。 s e t 2 1 1 1 p 2 1 o 社 ⻑ が ⼝ 頭 で 社 員 に 解 雇 を 伝 え た 。 s e t 2 1 1 1 p 4 1 o 司 令 官 が 無 線 で 本 部 か ら 命 令 を 伝 え た 。 s e t 2 1 4 5 p 3 1 o ラ ン ナ ー が 路 上 で 悲 鳴 を ⼣ 暮 れ 時 に 聞 こ え た 。 s e t 2 1 5 5 p 2 3 o ⼤ 衆 が デ モ で 政 府 に 抗 議 を 繰 り 返 し た 。 s e t 2 1 8 3 p 2 1 o 幼 児 が 肩 ⾞ で 枝 に ⼿ を 届 い た 。 s e t 2 2 1 0 p 3 1 o シ ロ ク マ が 動 物 園 で 氷 を ⾜ 元 に 遊 ん だ 。 s e t 2 2 1 0 p 1 3 o 部 下 が 北 海 道 で 温 泉 に 同 僚 と 遊 ん だ 。 s e t 2 3 4 5 p 1 3 o 宿 敵 が 続 編 で ピ ン チ に 主 ⼈ 公 と 助 け た 。 s e t 2 3 4 5 p 4 3 o ⼈ が 河 原 で 洪 ⽔ か ら ⼦ 猫 を 助 け た 。 s e t 2 4 4 7 p 5 1 o 医 師 が ⼿ 術 で ⾎ 管 と 神 経 を つ な い だ 。 s e t 2 4 5 0 p 3 1 o 学 者 が 論 ⽂ 賞 で 顔 写 真 を 広 報 誌 に 載 っ た 。 s e t 2 4 5 0 p 4 1 o ⾼ 得 点 者 が 掲 ⽰ で ⼀ 位 か ら ⼗ 位 を 載 っ た 。 s e t 2 4 7 0 p 4 2 o 暴 漢 が 鋭 利 な 刃 物 で 背 後 か ら ⼈ を 襲 っ た 。 s e t 2 4 7 0 p 2 2 o チ ー タ ー が 全 速 ⼒ で ⾒ 事 に ガ ゼ ル を 襲 っ た 。 s e t 2 4 7 0 p 3 2 o 通 り 魔 が 休 ⽇ の 路 上 で 通 ⾏ 者 を 不 意 に 襲 っ た 。 s e t 2 4 7 0 p 5 2 o 失 業 者 が 盗 ん だ ⾃ 動 ⾞ で 仲 間 と コ ン ビ ニ を 襲 っ た 。 s e t 2 7 1 3 p 5 3 o ⼦ 供 が 宿 題 で ⾜ し 算 と か け 算 を 間 違 え た 。 s e t 2 8 0 7 p 2 1 o 脚 本 家 が 話 し 合 い で 前 ⽇ に 台 詞 を 直 し た 。 s e t 2 8 0 7 p 3 1 o 職 員 が 美 術 館 で 絵 画 を ま っ す ぐ に 直 し た 。 s e t 2 8 0 7 p 4 3 o 先 ⽣ が ⾚ ペ ン で ⼀ か ら ⽂ 章 を 直 し た 。 s e t 2 8 2 9 p 1 1 o ⻘ 年 が 震 災 で 救 出 時 に 飼 い ⽝ と 助 か っ た 。 s e t 2 8 3 1 p 3 1 o 伝 書 鳩 が 戦 地 で 戦 況 を 司 令 官 に 届 け た 。 s e t 2 8 3 1 p 1 1 o 新 婚 さ ん が 役 所 で 窓 ⼝ に 転 居 届 と 届 け た 。 s e t 2 9 5 8 p 5 3 o 弟 が 家 で 妹 と 料 理 を 習 っ た 。 s e t 2 9 5 8 p 3 1 o 熊 が サ ー カ ス で ⾃ 転 ⾞ を ト レ ー ナ ー に 習 っ た 。 s e t 2 9 5 8 p 1 1 o 医 学 ⽣ が 解 剖 実 習 で 医 師 に 看 護 師 と 習 っ た 。 s e t 2 9 5 8 p 4 1 o 後 輩 が 現 場 で 先 輩 か ら 基 礎 を 習 っ た 。 s e t 1 1 1 4 7 p 3 4 o 関 係 者 が イ ン タ ー ネ ッ ト で 個 ⼈ 情 報 を 相 互 に 知 り 合 っ た 。 s e t 1 1 1 9 7 p 1 3 o 私 が 遊 園 地 で イ ン フ ル エ ン ザ に 家 族 と 感 染 し た 。
  • 87. gr0 の s10, s20, … , s281.0, s282.0 の分析の前処理 87