EMNLP 2015 yomikai

EMNLP読み会
Graph-based Readability
Assessment Method using Word
Coupling
2015/10/24
@niam
1
Zhiwei Jiang,
Gang Sun,
Qing Gu∗, Tao Bai, Daoxu Chen

自己紹介を兼ねて
• 専門：自然言語処理，言語教育，NLP応用
数百語ぐらいの単語テストの結果を用いて，学習
者が知っている単語を当てるタスク
機械学習的な手法：ラベル伝搬法
sklearn.semi_supervised.LabelPropagation/LabelS
preading関数あたり．
• 去年のEMNLP 2014@カタールに，ラベル伝
搬＋言語教育ネタで通しました．
• この論文も，ラベル伝搬＋言語教育なので
読みます．
2

タイトルを見る
Graph-based Readability Assessment Method
using Word Coupling
• Graph-based : Gaussian Random Field (GRF,
ICML 2003), scikit-learnでいうところの
LabelPropagation関数使ったよ
• Readability Assessment：昔からあるタスク．
例えば，与えられた英文テキストが，英検
何級レベルですか？というような識別問題
• Word Coupling：これが新しく，著者らが提
案している，単語間関係を考慮して識別す
るための前処理 3

ラベル伝搬法 1/2
4
INPUT:
枝に重みが付いた
グラフ
ノードの一部への
ラベル
枝の重みに従って
ラベルを伝搬
OUTPUT:
全ノードのラベル
大敵：ハブノード
[Zhu+, ICML 2003]
Hubノードを省く話は日本では，
Ikumi Suzukiで検索すると出てくる

ラベル伝搬法 2/2
簡単な半教師あり学習法．重要な手法は２つ
• Gaussian Random Field
– sklearnとこの論文ではLabel Propagationという名前
Zhu+, Technical Report CMU-CALD, 2002
Zhu+, ICML 2003←GRF．ICML 2013 classic paper prize
– 出力を確率値とみなせる（全ノードの値を足すと１）
• Learning with Local and Global Consistency
– Zhou+, NIPS 2004
– 言語処理では，Komachi+, EMNLP 2008等で使用
– 出力は確率値とみなせない
5

この研究の全体像
6
1.単語-文書関係
(TF-IDF)
2.単語間の難易度の差
3.単語-文書関係
各文書に対して，
単語次元の
素性ベクトルが
できる
4.グラフを
構築

1. 単語-文書関係
7
普通のtf-idf行列．
f(t,d): 語tが文書dに出てきた頻度

2. 単語間の難易度の差
8
語tに関してi番目の要素が以下であるような確率ベクトルを作る
語tが現れる文の数ntのうち，l(s)=i（難しさがi程度）であるものの比率
l(s):文sに対して，この値が大きいほど難しいと
みなせるような素性の値．非負の整数値に丸め．（後述）
pは確率分布なので，下記の式でJensen-Shanon Divergence
を計算．（ただし，JSDの名前は出てこない）
2単語間の関係を，下記のように定義

3. 単語間の難易度の差を考慮した単
語-文書行列
9
単語-文書行列
単語-文書行列
TF-IDF
単語間
の難易度
の差を表す行列

4. グラフの構築
10
単語-文書行列
単語-文書行列
TF-IDF
単語間
の難易度の差
を表す行列
N(di):diのk近傍
M:単語-文書行列.
各文書に対して
単語次元の素性ベクトル

実際に，どのようなものを文sの難易
度としているか
11
語tを含む文sの難易度分布
を通じて，語の難易度差に変換

グラフのマージ
12
*をsurface, lexical,
syntacticと変えることで，
3種類のグラフが出来る
ラベル伝搬法はハブ（多くのノードと繋がるノード）
があると性能が悪化する→ハブがなるべく出来ないようにマージ
１．ノードvに対し，3種のどのグラフでも
k近傍になっているノード集合を，
vと繋ぐ．Nc(v)=S(v)とする
2. |S(v)|<kの時，v’∈Nsur(v)∪Nlex(v)∪Nsyn(v)S(v)のうち，
Nc(v)との共通k近傍が最も小さいv’から，Nc(v)に足していく
（|Nc(v)|=kになるまで）
S(v)=

結果 1/3
使用したデータセット
中国語と英語の2言語で実験（Readability Assessment
の研究ではちゃんとやっている方）
CPT: Chinese Primary Textbook
中国語文書について6段階の難易度を人手でつけたもの
ENCT: English New Concept Textbook
英語文書について4段階の難易度を人手でつけたもの
13

結果 3/3
15
ちゃんと，単語間難易度の差を考慮して
分類することには意味があるよ

まとめ
• word couplingと言っているが，要するに，単語間
の難易度の差（近さ）を考慮した，Readability
Assessmentの手法を提案した
– これまでのReadability Assessment：教師あり学習＆単
語間難易度の差などは未考慮．
– 提案：半教師あり＋単語間の難易度の差を考慮．
• 単純に教師あり→半教師ありにしたら良いという
話でもない事は実験からも分かる．
• ラベル伝搬性能を落とすハブが出来ないように考
慮しつつ，surface, lexical, syntacticな情報をすべ
て入れて，ようやく，性能を上げている印象．
16

EMNLP 2015 yomikai

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Mehr von Yo Ehara

Mehr von Yo Ehara (11)

EMNLP 2015 yomikai