SlideShare ist ein Scribd-Unternehmen logo
1 von 16
EMNLP読み会
Graph-based Readability
Assessment Method using Word
Coupling
2015/10/24
@niam
1
Zhiwei Jiang,
Gang Sun,
Qing Gu∗, Tao Bai, Daoxu Chen
自己紹介を兼ねて
• 専門:自然言語処理,言語教育,NLP応用
数百語ぐらいの単語テストの結果を用いて,学習
者が知っている単語を当てるタスク
機械学習的な手法:ラベル伝搬法
sklearn.semi_supervised.LabelPropagation/LabelS
preading関数あたり.
• 去年のEMNLP 2014@カタールに,ラベル伝
搬+言語教育ネタで通しました.
• この論文も,ラベル伝搬+言語教育なので
読みます.
2
タイトルを見る
Graph-based Readability Assessment Method
using Word Coupling
• Graph-based : Gaussian Random Field (GRF,
ICML 2003), scikit-learnでいうところの
LabelPropagation関数使ったよ
• Readability Assessment:昔からあるタスク.
例えば,与えられた英文テキストが,英検
何級レベルですか?というような識別問題
• Word Coupling:これが新しく,著者らが提
案している,単語間関係を考慮して識別す
るための前処理 3
ラベル伝搬法 1/2
4
INPUT:
枝に重みが付いた
グラフ
ノードの一部への
ラベル
枝の重みに従って
ラベルを伝搬
OUTPUT:
全ノードのラベル
大敵:ハブノード
[Zhu+, ICML 2003]
Hubノードを省く話は日本では,
Ikumi Suzukiで検索すると出てくる
ラベル伝搬法 2/2
簡単な半教師あり学習法.重要な手法は2つ
• Gaussian Random Field
– sklearnとこの論文ではLabel Propagationという名前
Zhu+, Technical Report CMU-CALD, 2002
Zhu+, ICML 2003←GRF.ICML 2013 classic paper prize
– 出力を確率値とみなせる(全ノードの値を足すと1)
• Learning with Local and Global Consistency
– Zhou+, NIPS 2004
– 言語処理では,Komachi+, EMNLP 2008等で使用
– 出力は確率値とみなせない
5
この研究の全体像
6
1.単語-文書関係
(TF-IDF)
2.単語間の難易度の差
3.単語-文書関係
各文書に対して,
単語次元の
素性ベクトルが
できる
4.グラフを
構築
1. 単語-文書関係
7
普通のtf-idf行列.
f(t,d): 語tが文書dに出てきた頻度
2. 単語間の難易度の差
8
語tに関してi番目の要素が以下であるような確率ベクトルを作る
語tが現れる文の数ntのうち,l(s)=i(難しさがi程度)であるものの比率
l(s):文sに対して,この値が大きいほど難しいと
みなせるような素性の値.非負の整数値に丸め.(後述)
pは確率分布なので,下記の式でJensen-Shanon Divergence
を計算.(ただし,JSDの名前は出てこない)
2単語間の関係を,下記のように定義
3. 単語間の難易度の差を考慮した単
語-文書行列
9
単語-文書行列
単語-文書行列
TF-IDF
単語間
の難易度
の差を表す行列
4. グラフの構築
10
単語-文書行列
単語-文書行列
TF-IDF
単語間
の難易度の差
を表す行列
N(di):diのk近傍
M:単語-文書行列.
各文書に対して
単語次元の素性ベクトル
実際に,どのようなものを文sの難易
度としているか
11
語tを含む文sの難易度分布
を通じて,語の難易度差に変換
グラフのマージ
12
*をsurface, lexical,
syntacticと変えることで,
3種類のグラフが出来る
ラベル伝搬法はハブ(多くのノードと繋がるノード)
があると性能が悪化する→ハブがなるべく出来ないようにマージ
1.ノードvに対し,3種のどのグラフでも
k近傍になっているノード集合を,
vと繋ぐ.Nc(v)=S(v)とする
2. |S(v)|<kの時,v’∈Nsur(v)∪Nlex(v)∪Nsyn(v)S(v)のうち,
Nc(v)との共通k近傍が最も小さいv’から,Nc(v)に足していく
(|Nc(v)|=kになるまで)
S(v)=
結果 1/3
使用したデータセット
中国語と英語の2言語で実験(Readability Assessment
の研究ではちゃんとやっている方)
CPT: Chinese Primary Textbook
中国語文書について6段階の難易度を人手でつけたもの
ENCT: English New Concept Textbook
英語文書について4段階の難易度を人手でつけたもの
13
結果 2/3
14
提案手法
結果 3/3
15
ちゃんと,単語間難易度の差を考慮して
分類することには意味があるよ
まとめ
• word couplingと言っているが,要するに,単語間
の難易度の差(近さ)を考慮した,Readability
Assessmentの手法を提案した
– これまでのReadability Assessment:教師あり学習&単
語間難易度の差などは未考慮.
– 提案:半教師あり+単語間の難易度の差を考慮.
• 単純に教師あり→半教師ありにしたら良いという
話でもない事は実験からも分かる.
• ラベル伝搬性能を落とすハブが出来ないように考
慮しつつ,surface, lexical, syntacticな情報をすべ
て入れて,ようやく,性能を上げている印象.
16

Weitere ähnliche Inhalte

Mehr von Yo Ehara (11)

Semi-supervised Active Learning Survey
Semi-supervised Active Learning SurveySemi-supervised Active Learning Survey
Semi-supervised Active Learning Survey
 
Tokyo nlp #8 label propagation
Tokyo nlp #8 label propagationTokyo nlp #8 label propagation
Tokyo nlp #8 label propagation
 
Acl yomikai, 1016, 20110903
Acl yomikai, 1016,  20110903Acl yomikai, 1016,  20110903
Acl yomikai, 1016, 20110903
 
Icml yomikai 07_16
Icml yomikai 07_16Icml yomikai 07_16
Icml yomikai 07_16
 
Gengo Africa
Gengo AfricaGengo Africa
Gengo Africa
 
Nonlinear programming輪講スライド with 最適化法
Nonlinear programming輪講スライド with 最適化法Nonlinear programming輪講スライド with 最適化法
Nonlinear programming輪講スライド with 最適化法
 
Nips yomikai 1226
Nips yomikai 1226Nips yomikai 1226
Nips yomikai 1226
 
Tsukuba.R #7 5/9
Tsukuba.R #7 5/9Tsukuba.R #7 5/9
Tsukuba.R #7 5/9
 
Prml 11.1.4 重点サンプリング
Prml 11.1.4 重点サンプリングPrml 11.1.4 重点サンプリング
Prml 11.1.4 重点サンプリング
 
PRML10.6 変分ロジスティック回帰
PRML10.6 変分ロジスティック回帰PRML10.6 変分ロジスティック回帰
PRML10.6 変分ロジスティック回帰
 
SocialDict @ 第3回SBM研究会
SocialDict @ 第3回SBM研究会SocialDict @ 第3回SBM研究会
SocialDict @ 第3回SBM研究会
 

EMNLP 2015 yomikai