Semantic_Matching_AAAI16_論文紹介

2017.11.28
NAIST ⾃自然⾔言語処理理学研究室
D1 Masayoshi Kondo
論論⽂文紹介-‐‑‒ About Neural Summarization@2017
A Deep Architecture for Semantic Matching
With Multiple Positional Sentence Representations
AAAIʼ’16
Shengxian Wan, Yanyan Lan, Jiafeng Guo, Jun Xu, Liang Pang, and Xueqi Cheng
CAS Key Lab of Network Data Science and Technology
Institute of Computing Technology, Chinese Academy of Sciences, China

00: 論論⽂文の概要
•  ２つのセンテンスが与えられた時、似ているか否かの判定タスクをDNNで解く研究．
•  attentionをとった特徴量量の処理理⽅方法(Cosine, Bilinear, TensorLayer)が本研究のポイント．
•  実験は２つ．ひとつはQuestion Answer、もうひとつはSentence Completion.
•  評価指標は、P@1とMRR(Mean Reciprocal Rank)．
•  従来よりも⾼高い精度度を⽰示す．
【まとめ】
【abstract】
⾃自然⽂文マッチング(Matching Natural Language Sentence)は、情報検索索やQAシステムといった多くの応⽤用
の中⼼心的役割を担っている．既存のディープニューラルモデルは、マッチングの際に単純な⽂文章の
representationまたは複数の粒粒度度からなるrepresentationに頼っている．しかしながら、このような⽅方法は、
マッチング時に⽂文脈の局所的な情報を掴むことができない．この課題に取り組むために、我々は新しい
ディープニューラルモデルを提案する．提案モデルは、multiple positional sentence representation
を⽤用いることで２つの⽂文章のマッチングを⾏行行う．具体的には、それぞれのpositional sentence
representationは、Bi-‐‑‒LSTMモデルによって⽣生成されたある⽂文章の特定の位置のrepresentationを⽰示す．
これらの異異なる位置の⽂文章representation間の相互作⽤用量量をk-‐‑‒Max poolingやmulti-‐‑‒layer perceptron
を通して統合し、最終的なマッチングスコアが与えられる．我々の提案法はいくつかの⻑⾧長所がある．
(1)positional sentence representationの⽂文脈の局所的情報を取り出すことに、Bi-‐‑‒LSTMを⽤用いることに
よって得た⽂文章全体の豊かな⽂文脈が効果を発揮する．(2)multiple positional sentence representationを⽤用
いてマッチングを⾏行行うことで、マッチングをより精度度良良くするような、⽂文章に含まれている様々な重要な⽂文
脈の局所的情報を集めやすくなる．(3)Question Answering と Sentence Completion といった異異なるタス
クの実験を通して、我々のモデルの優位性を⽰示す．

1.  Introduction
2.  Our Approach
3.  Experiments
4.  Conclusion

Matching Sentence
(Semantic Matching)
[ Basic Task (Core Task) ]
Information
Retrieval
Question Answering
Recognizing Textual
Entailment (RTE)
NLPにおける基礎的タスク
実⽤用的タスク
Matching Sentence (Semantic Matching)
-‐‑‒-‐‑‒: Preliminaries
与えられる２つの⽂文章(主に単⼀一⽂文章)が似ているか否かを判定するタスク．
ここでいう「似ている」は、同じ意味として解釈可能か否かを指す．また、
特定の意図（命題）に沿って、真か否かを判定する場合もある．
Paraphrase
Identiﬁcation
各タスクの設定に応じて、
Matching Sentence
の技術を応⽤用

w1 w2 w3 wi wn w1 w2 w3 wi wm…… ……
Sentence-‐‑‒A / Length:n Sentence-‐‑‒B / Length:m
f (SA,SB;θ)マッチング関数
SCORE : 0,1{ }∈ R
【Train】
【Test】
((SA,SB), label)ペアデータから、loss関数を最⼩小にするようにパラメータθを学習.
学習済みモデルを⽤用いて、未知の(SA,SB)ペアに対してlabelを予測．
SCORE と Label を引数
とするloss関数を設定して、
最⼩小化．

【Dataset】
【Evaluation Metrics】
•  [RTE] : Stanford Natural Language Inference Corpus (SNLI)
•  [QA] : Yahoo ! Answers
•  [QA] : Qatar Living Forum (http://www.qatarliving.com/forum)
•  [Response Selection] : Ubuntu Corpus
•  [Sentence Completion] : Reuters
•  Accuracy
•  P@1
•  MRR(Mean Reciprocal Rank)

01: Introduction
Semantic Matching は、⾃自然⾔言語処理理の多くの応⽤用に必要不不可⽋欠なタスク
•  Information Retrieval
•  Question Answering
•  Paraphrase Identiﬁcation
例例）Question Answering :
質問q と回答a が与えられた下で、マッチング関数は、２つの⽂文章
(質問⽂文、回答⽂文)がどれだけ適合しているかを評価する．
深層学習モデル (Deep Neural Networks) の発展
-‐‑‒  ⽂文章全体を単純なrepresentationとして表現
-‐‑‒  ２つのrepresentation間の類似度度を計算
DSSM[Huang et al, 13] / CDSMM[Shen et al, 14] / ARC-‐‑‒I[Hu et al, 14]
CNTN[Qiu and Huang, 15] / LSTM-‐‑‒RNN[Palangi et al, 15]
課題
複雑な⽂文章を１つの単純なベクトルに変換する際、重要な局所的情報が喪失．

02: Introduction
例例えば・・・
Q : Which teams won top three in the World Cup ?
A1 : Germany is the champion of the World Cup.
The top three of the European Cup are Spain,
Netherlands and Germany.
A2 :
このとき：
　　「top three」に注⽬目 :「A2の回答の⽅方が良良さそう」
　　「World Cup」に注⽬目 :「A1の回答の⽅方が良良さそう」
従来法(single sentence representation)：上記の局所的な情報を扱えない．
　-‐‑‒ 複雑な⽂文章を直接的にひとつのrepresentationに埋め込むため．
【課題】

03: Introduction
その他の⼿手法：taking multiple granularity
(ex: word, phrase, sentence level representation)
ARC-‐‑‒II[Hu et al., 13] / RAE[Socher et al., 14] / Deep-‐‑‒Match[Lu and Li, 14]
Bi-‐‑‒CNN-‐‑‒MI, MultiGranCNN[Yin and Schutze, 15]
複数のrepresentationを考慮することで、⽂文章の情報を記憶　→ 　精度度向上
A2 :
A3 : The top three attendees of the European Cup are
from Germany, France and Spain.
•  A2の回答の⽅方が、A3の回答より良良さそう．
•  【理理由】：A2は、出場チームの top three を⽰示しているから．

課題
複数のrepresentationを⽤用いることで局所的な情報を取り扱うことは可能になった
⼀一⽅方で、⽂文章全体から単語やフレーズの真の意味を反映させることには限界がある．
multiple granularityのモデル : 上記の区別が⾏行行うことができない．
04: Introduction
A2 :
A3 : The top three attendees of the European Cup are
from Germany, France and Spain.
A2 と A3 の「top three」は、異異なる意味を⽰示している．
【A2】: about top three teams (出場チーム)
【A3】: about top three attendees (選出国)

05: Introduction
２つの⽂文章がどれほどマッチしているかを知るには、
⽂文脈の局所的情報から得られる⽂文章のrepresentationが必要.
本研究では、
•  MV-‐‑‒LSTMという新しいニューラルネットのアーキテクトを提案.
•  ⽂文章の各単語毎の⽂文章representationを獲得.
•  ２つの⽂文章に対して各単語の⽂文章representation毎の相互作⽤用をモデル化.
-‐‑‒ Cosine / Bilinear / Tensor
Single sentence representation methods との違い：
Multiple granularity deep models との違い：
単語毎に⽂文章representationを有するので、重要な局所的情報を獲得できる．
単語毎の⽂文章representationを獲得するためにBi-‐‑‒LSTMを⽤用いることで、局所
的情報の重要性を与えるための優れた⽂文脈の獲得に効果がある．

06: Introduction
本論論⽂文の貢献：３つ
•  重要な⽂文脈の局所的情報を獲得するための複数のMultiple
sentence representationを⽤用いたマッチング⽅方式の提案.
•  Semantic Matchingのための、Bi-‐‑‒LSTMから⽣生成される
Multiple sentence representationを統合することのでき
る新しいニューラルネットのアーキテクト．
•  ２つのデータセットを⽤用いた実験(question answering/
sentence completion)による提案法の有⽤用性の提⽰示．

07: Our Approach
【提案⼿手法(MV-‐‑‒LSTM)の特徴】
⽂文章の複数の位置に関するrepresentationを獲得して⽤用いること．
Similarity Score

Step 1: Positional Sentenve Representation
→ ⼀一般的なBi-‐‑‒LSTMの説明と提案法への導⼊入理理由の説明のため、割愛．
Step 2: Interactions Between Two Sentence
08: Our Approach
【Cosine】: Scalar
【Bilinear】: Scalar
【Tensor Layer】: Vector
s(u,v) =
uT
v
u ⋅ v
s(u,v) = uT
Mv+ b
s(u,v) = f uT
M[1:c]
v+Wuv
u
v
!
"
#
$
%
&+ b
'
(
))
*
+
,,
-‐‑‒ Similarity Score : S(u,v)
•  ⼀一般的なメトリクス．
•  ２つのベクトルの⾓角度度によって
類似性を測定．
•  異異なるベクトルサイズでも相互作⽤用
を計算可能．
•  Cosineよりも表現⼒力力⾼高い．
(※ ||・||：L2-‐‑‒norm)
•  Mi(i=1,…,c)：i番⽬目のテンソル
スライス．関数fは、⾮非線形関数．
•  本研究では、f(z)=max(0, z).

09: Our Approach
Step 3: Interaction Aggregation
-‐‑‒ k-‐‑‒Max Pooling
-‐‑‒ MultiLayer Perception
•  ２つの⽂文章に対して、最も強い相互作⽤用量量をk個抽出したい気持ち．
•  [ Cosine, Biliner ] : a interactive matrix → a vector q
•  [ Tensor Layer ] : a interactive tensor → vectors (for each slice)–
　　　　　　　　　　 – concat → a vector q
パラメータk について
k=1の時：最⼤大の相互作⽤用量量の部分のみを考慮．
k=nの時：トップnの相互作⽤用量量の部分を考慮．→ 複数の重要部を考慮
r = f (Wrq + br )
s = f (Wsr + bs )
•  ベクトルqは、k-‐‑‒max poolingの出⼒力力．
•  出⼒力力sは、マッチング関数のスコア．
•  Full Connected Layer．

L SX,SY
+
,SY
−
( )= max 0,1− s(SX,SY
+
)+ s(SX,SY
−
)( )
10: Our Approach
Model Training
注) 論論⽂文では、「For diﬀerent tasks, we need to utilize diﬀerent loss functions to train
our model. For example, if the task is formalized as a ranking problem, ~∼ 」と記述され
ていて、本研究の実験において、提案⼿手法のloss関数に上記式を⽤用いたかは少し疑わしい．
Given a triplet-‐‑‒ SX,SY
+
,SY
−
( ) ,
SY
+
,SY
−
: SY
+ is ranked higher than SY
-‐‑‒, when matching with SX.
s(SX,SY
+
)
s(SX,SY
−
)
与えられる２つの⽂文章に対して、　　　　　の場合は⾼高くなった⽅方が良良く、⼀一⽅方で、
　　　　　の場合は、低くなった⽅方が良良い．すなわち、「より似ている⽂文章ペア」
については「似ている」と学習し、「似ている度度合いが低い⽂文章ペア」については
「似ていない」と学習してほしい気持ちが、Loss関数に反映されている．
（※:loss関数は、Hinge Loss.）

実験： 2つ
11: Experiments
【 Question Answering (QA) 】:
質問q に対してベストの回答a を選び出せ．
【 Sentence Completion (SC) 】:
　　複数の⽂文章から似ている⽂文章を選び出せ．
•  データセット：Yahoo! Answers (question answer system)
-‐‑‒ All : 142,627 pairs (question, answer)
-‐‑‒ Best answers から⻑⾧長さ5~∼50でフィルタリングして、60,564 pairsの
positive pairs を取得．
-‐‑‒ Best answerをクエリと⾒見見なして, Lucene を⽤用いてanswer全体から1000
のanswerを抽出．その中からランダムに4 sample を取り出して negative
pairs を構築．
•  Train / Valid / Test -‐‑‒ 8 : 1 : 1
•  データセット：Reuters (⽂文章に対して、8~∼28 wordsで⻑⾧長さ調整．)
-‐‑‒ データは、(1 pos, 4 neg)の５つの選択肢．
-‐‑‒ negative exampleは、cosine similarity に基づいてサンプリング抽出．

12: Experiments
SX
ソニー製のcyber shotのメモリスティックエラー、どうやったら
直せるの？
SY
+ メモリスティックをフォーマッティングしてみては。後、出⼒力力さ
れているエラーってどんなのよ？
SY
-‐‑‒ Stack underflowエラーなんて聞いた事無いよ, overflowエラー
ならあるけども．Overflowなら、バーチャルメモリ⾷食べ過ぎなん
だと思う．

13: Experiments
Baselines : 9 models
Models Detail Repr
Random ランダムに(ランキング結果を)出⼒力力．
-‐‑‒
BM25 IR分野で良良く知られており、強いベースラインモデル．
-‐‑‒
ARC-‐‑‒Ⅰ CNNモデルでsentence-‐‑‒representationを学習し、MLPでマッチン
グスコアを出⼒力力． one
ARC-‐‑‒Ⅱ 局所的なマッチングパターンを抽出し、それらを多層CNNで統合し
てマッチングスコアを出⼒力力． multi
CNTN ARC-‐‑‒Ⅰモデルをベースにしているが、マッチングスコアの算出部を
MLPの代わりに、tensor layerに変更更． one
LSTM-‐‑‒RNN Sentence-‐‑‒representationの獲得にLSTMを⽤用いて、マッチングスコ
アの算出にcosine similarityを使⽤用． one
RAE Multiuple levelsʼ’ representationの獲得に、RNN-‐‑‒Autoencoderを
利利⽤用． multi
DeepMatch LDAによって獲得されたトピックから、multiple granularityを考慮．
(複数の粒粒度度のrepresentationのことを述べている気がする・・・) multi
MultiGranCNN CNNモデルでword, phrase, sentenceレベルのrepsentationを獲得．
それら全てのrepresentationの相互作⽤用に基づいてマッチングスコ
アを算出．
multi

14: Experiments
Parameter Settings
Word Embeddings
(pre-‐‑‒training)
[SC] : Wiki-‐‑‒Corpus でword2vec.
[QA] : QAデータセットでword2vec.
Word-‐‑‒Emb dims 全ての実験で 50dims に設定．
Hidden dims 全ての実験で 50dims に設定．
Batch Size 全ての実験で 128-‐‑‒size に設定．
Initial Weight
Scale and Settings
全ての訓練パラメータは、値域：(-‐‑‒0.1, 0.1) の⼀一様分布
から、ランダムに設定．
Initial Learning
Rate
[SC] : 0.3
[QA] : 0.03
Optimize Method AdaGrad

N :
SY
+(i)
:
r(⋅):
Testセットの
ranking-‐‑‒listの数．
i番⽬目のranking-‐‑‒listの
positive sentence．
ranking-‐‑‒list内の
Sentenceのrank．
15: Experiments
Evaluation Metrics
以上のことから、
　Precision at 1 (P@1) と Mean Reciprocal Rank (MRR) を⽤用いる．
•  SCタスク/QAタスクは、rankingタスクとしてみなせる．
•  出⼒力力は、与えられた選択肢に対するマッチングスコアの降降順リスト．
•  Goalは、negative選択肢よりもpositive選択肢のランクを⾼高くすること．

16: Experiments
(1) Analysis of Diﬀerence Pooling Parameters
•  k=5以上では性能改善に限界が⾒見見える．以後、k=5で実験を⾏行行った．
•  LSTMとBi-‐‑‒LSTMとも⽐比較した．提案法のMV-‐‑‒LSTMが良良い結果となった．
•  LSTMでは、last-‐‑‒positionのみ考慮．Bi-‐‑‒LSTMではﬁrst-‐‑‒/last-‐‑‒positionを
考慮．⼀一⽅方で、MV-‐‑‒LSTMはそれぞれのpositionを考慮できる．

17: Experiments
(1) Analysis of Diﬀerence Pooling Parameters
-‐‑‒ k=5 の matching position について、
1.  (“memory”, ”memory”, 0.84)
2.  (“error”, ”error”, 0.81)
3.  (“stick”, ”stick”, 0.76)
4.  (“stick”, ”memory”, 0.65)
5.  (“memory”, ”stick”, 0.63)
提案法は、キーワードに注⽬目出来ている．
さらに、”stick”と”memory”の関係も
マッチング時に重要な役割を果たしてい
ることが⾒見見てとれる．提案法は重要なn-‐‑‒
gramのマッチングパターンを抽出できて
いる．

18: Experiments
(2) Performance Comparison
【４つの分析】
1. RAEとDeepMatchを除いた
End-‐‑‒to-‐‑‒EndのDeepNNモデル
は全て、BM25に勝っている．
2. 提案法３種類は、single
representationタイプのARC-‐‑‒
Ⅰ, CNTN, LSTM-‐‑‒RNNに対し
て良良い結果を⽰示している．
3. 提案法3種類は、multiple
granularityタイプのRAE,
DeepMatch, ARC-‐‑‒Ⅱ,
MultiGranCNNに対しても、良良
い結果を⽰示している．
4. 提案法はTensorタイプが最
も良良い結果となった．これは、
複雑な相互作⽤用をうまく捉え
られるからだ．

19: Experiments
SX
インターネットで無料料でロシア語学べる良良いサイトある？
SY
+ 無料料で⾔言語を学べるとも思えないけど、基本的な語彙くらいなら学べるか
もね．そういうことでは(インターネットは)素晴らしいと思う．
SY
-‐‑‒ Yahoo!のホームページに、無料料で提供されているゲームのリストが⾒見見れ
るよ．もしくは、www.iwin.comで無料料のゲームをダウンロードできる．

20: Experiments
単語 “free” の意味について
SY
+ About free language resources
SY
-‐‑‒ About free games
提案法は、Multiple positionによって、”free” の違いを考慮できる．

21: Experiments
[Hu et al, 2014]の研究で
は、MRRの検証は無かった．
QAタスクの場合に⽐比べて、
Deep Model⼿手法は、⼤大幅に
数値の改善が⾒見見られる．
提案法は、ベースラインに⽐比
べて、P@1で11.4%改善．
-‐‑‒ Sentence Completion

本研究では、
•  ２つの⽂文章のマッチングを考える際に、⽂文章の複数の位置に対する
representationを考慮する優れた深層学習アーキテクト：MV-‐‑‒LSTMを
提案．
Advantage ) 局所的な情報を抽出しつつ⽂文脈情報をより良良く取り扱うことがで
き、これらによって、⽂文章全体から重要なキーワードを判別する．
22: Conclusion
•  MV-‐‑‒LSTMは、single-‐‑‒representationタイプの全ての⼿手法に対して優れ
た結果を⽰示した．
これは、マッチングを考える上で最も良良い位置が必ずしもいつも⽂文章の最後の
位置とは限らないことを⽰示している．（=LSTMで最終位置のHidden-‐‑‒stateを使
えばベストとは限らない．）したがって、複数の位置を考慮できる仕組みが必要
である．
•  MV-‐‑‒LSTMは、Multiple-‐‑‒granularity methodよりも良良い結果を⽰示した．
⽂文章全体のcontextをより良良く扱えるようにmulti-‐‑‒granularityを考慮する必要が
ある．

Semantic_Matching_AAAI16_論文紹介

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (19)

Ähnlich wie Semantic_Matching_AAAI16_論文紹介

Ähnlich wie Semantic_Matching_AAAI16_論文紹介 (13)

Mehr von Masayoshi Kondo

Mehr von Masayoshi Kondo (14)

Semantic_Matching_AAAI16_論文紹介