SlideShare ist ein Scribd-Unternehmen logo
1 von 33
Downloaden Sie, um offline zu lesen
2017.11.28
NAIST  ⾃自然⾔言語処理理学研究室
D1  Masayoshi  Kondo  
論論⽂文紹介-‐‑‒  About  Neural  Summarization@2017  
A  Deep  Architecture  for  Semantic  Matching
With  Multiple  Positional  Sentence  Representations
AAAIʼ’16
Shengxian  Wan,  Yanyan  Lan,  Jiafeng  Guo,  Jun  Xu,  Liang  Pang,  and  Xueqi  Cheng	
CAS  Key  Lab  of  Network  Data  Science  and  Technology	
Institute  of  Computing  Technology,  Chinese  Academy  of  Sciences,  China
00:  論論⽂文の概要
•    2つのセンテンスが与えられた時、似ているか否かの判定タスクをDNNで解く研究.
•    attentionをとった特徴量量の処理理⽅方法(Cosine,  Bilinear,  TensorLayer)が本研究のポイント.
•    実験は2つ.ひとつはQuestion  Answer、もうひとつはSentence  Completion.
•    評価指標は、P@1とMRR(Mean  Reciprocal  Rank).
•    従来よりも⾼高い精度度を⽰示す.
【まとめ】
【abstract】
⾃自然⽂文マッチング(Matching  Natural  Language  Sentence)は、情報検索索やQAシステムといった多くの応⽤用
の中⼼心的役割を担っている.既存のディープニューラルモデルは、マッチングの際に単純な⽂文章の
representationまたは複数の粒粒度度からなるrepresentationに頼っている.しかしながら、このような⽅方法は、
マッチング時に⽂文脈の局所的な情報を掴むことができない.この課題に取り組むために、我々は新しい
ディープニューラルモデルを提案する.提案モデルは、multiple  positional  sentence  representation
を⽤用いることで2つの⽂文章のマッチングを⾏行行う.具体的には、それぞれのpositional  sentence  
representationは、Bi-‐‑‒LSTMモデルによって⽣生成されたある⽂文章の特定の位置のrepresentationを⽰示す.
これらの異異なる位置の⽂文章representation間の相互作⽤用量量をk-‐‑‒Max  poolingやmulti-‐‑‒layer  perceptron
を通して統合し、最終的なマッチングスコアが与えられる.我々の提案法はいくつかの⻑⾧長所がある.
(1)positional  sentence  representationの⽂文脈の局所的情報を取り出すことに、Bi-‐‑‒LSTMを⽤用いることに
よって得た⽂文章全体の豊かな⽂文脈が効果を発揮する.(2)multiple  positional  sentence  representationを⽤用
いてマッチングを⾏行行うことで、マッチングをより精度度良良くするような、⽂文章に含まれている様々な重要な⽂文
脈の局所的情報を集めやすくなる.(3)Question  Answering  と  Sentence  Completion  といった異異なるタス
クの実験を通して、我々のモデルの優位性を⽰示す.
1.   Introduction
2.   Our  Approach
3.   Experiments
4.   Conclusion
1.   Introduction
2.   Our  Approach
3.   Experiments
4.   Conclusion
Matching  Sentence
(Semantic  Matching)
[  Basic  Task  (Core  Task)  ]
Information
Retrieval
Question  Answering
Recognizing  Textual  
Entailment  (RTE)
NLPにおける基礎的タスク
実⽤用的タスク
Matching  Sentence  (Semantic  Matching)
-‐‑‒-‐‑‒:  Preliminaries
与えられる2つの⽂文章(主に単⼀一⽂文章)が似ているか否かを判定するタスク.
ここでいう「似ている」は、同じ意味として解釈可能か否かを指す.また、
特定の意図(命題)に沿って、真か否かを判定する場合もある.
Paraphrase
  Identification
各タスクの設定に応じて、
Matching  Sentence  
の技術を応⽤用
-‐‑‒-‐‑‒:  Preliminaries
w1 w2 w3 wi wn w1 w2 w3 wi wm…… ……
Sentence-‐‑‒A  /  Length:n Sentence-‐‑‒B  /  Length:m
f (SA,SB;θ)マッチング関数
SCORE  : 0,1{ }∈ R
【Train】
【Test】
((SA,SB),  label)ペアデータから、loss関数を最⼩小にするようにパラメータθを学習.
学習済みモデルを⽤用いて、未知の(SA,SB)ペアに対してlabelを予測.
SCORE  と  Label  を引数
とするloss関数を設定して、
最⼩小化.
-‐‑‒-‐‑‒:  Preliminaries
【Dataset】
【Evaluation  Metrics】
•  [RTE]  :  Stanford  Natural  Language  Inference  Corpus  (SNLI)
•  [QA]  :  Yahoo  !  Answers
•  [QA]  :  Qatar  Living  Forum  (http://www.qatarliving.com/forum)
•  [Response  Selection]  :  Ubuntu  Corpus
•  [Sentence  Completion]  :  Reuters
•  Accuracy
•  P@1
•  MRR(Mean  Reciprocal  Rank)    
01:  Introduction
Semantic  Matching  は、⾃自然⾔言語処理理の多くの応⽤用に必要不不可⽋欠なタスク
•  Information  Retrieval
•  Question  Answering
•  Paraphrase  Identification
例例)Question  Answering  :
質問q  と  回答a  が与えられた下で、マッチング関数は、2つの⽂文章
(質問⽂文、回答⽂文)がどれだけ適合しているかを評価する.
深層学習モデル  (Deep  Neural  Networks)  の発展
-‐‑‒  ⽂文章全体を単純なrepresentationとして表現
-‐‑‒  2つのrepresentation間の類似度度を計算
DSSM[Huang  et  al,  13]  /  CDSMM[Shen  et  al,  14]  /  ARC-‐‑‒I[Hu  et  al,  14]
CNTN[Qiu  and  Huang,  15]  /  LSTM-‐‑‒RNN[Palangi  et  al,  15]
課題
複雑な⽂文章を1つの単純なベクトルに変換する際、重要な局所的情報が喪失.
02:  Introduction
例例えば・・・
Q  :  Which  teams  won  top  three  in  the  World  Cup  ?
A1  :  Germany  is  the  champion  of  the  World  Cup.
The  top  three  of  the  European  Cup  are  Spain,  
Netherlands  and  Germany.
A2  :  
このとき:
    「top  three」に注⽬目    :「A2の回答の⽅方が良良さそう」
    「World  Cup」に注⽬目  :「A1の回答の⽅方が良良さそう」
従来法(single  sentence  representation):上記の局所的な情報を扱えない.
  -‐‑‒  複雑な⽂文章を直接的にひとつのrepresentationに埋め込むため.  
【課題】
03:  Introduction
その他の⼿手法:taking  multiple  granularity  
                                        (ex:  word,  phrase,  sentence  level  representation)  
ARC-‐‑‒II[Hu  et  al.,  13]  /  RAE[Socher  et  al.,  14]  /  Deep-‐‑‒Match[Lu  and  Li,  14]
Bi-‐‑‒CNN-‐‑‒MI,  MultiGranCNN[Yin  and  Schutze,  15]
複数のrepresentationを考慮することで、⽂文章の情報を記憶  →  精度度向上
Q  :  Which  teams  won  top  three  in  the  World  Cup  ?
A1  :  Germany  is  the  champion  of  the  World  Cup.
The  top  three  of  the  European  Cup  are  Spain,  
Netherlands  and  Germany.
A2  :  
A3  :  The  top  three  attendees  of  the  European  Cup  are
from  Germany,  France  and  Spain.
•  A2の回答の⽅方が、A3の回答より良良さそう.
•  【理理由】:A2は、出場チームの  top  three  を⽰示しているから.
課題
複数のrepresentationを⽤用いることで局所的な情報を取り扱うことは可能になった
⼀一⽅方で、⽂文章全体から単語やフレーズの真の意味を反映させることには限界がある.
multiple  granularityのモデル  :  上記の区別が⾏行行うことができない.    
04:  Introduction
Q  :  Which  teams  won  top  three  in  the  World  Cup  ?
A1  :  Germany  is  the  champion  of  the  World  Cup.
The  top  three  of  the  European  Cup  are  Spain,  
Netherlands  and  Germany.
A2  :  
A3  :  The  top  three  attendees  of  the  European  Cup  are
from  Germany,  France  and  Spain.
A2  と  A3  の「top  three」は、異異なる意味を⽰示している.
【A2】:  about  top  three  teams  (出場チーム)
【A3】:  about  top  three  attendees  (選出国)
05:  Introduction
2つの⽂文章がどれほどマッチしているかを知るには、
⽂文脈の局所的情報から得られる⽂文章のrepresentationが必要.
本研究では、
•  MV-‐‑‒LSTMという新しいニューラルネットのアーキテクトを提案.
•  ⽂文章の各単語毎の⽂文章representationを獲得.
•  2つの⽂文章に対して各単語の⽂文章representation毎の相互作⽤用をモデル化.
-‐‑‒    Cosine  /  Bilinear  /  Tensor
Single  sentence  representation  methods  との違い:
Multiple  granularity  deep  models  との違い:
単語毎に⽂文章representationを有するので、重要な局所的情報を獲得できる.
単語毎の⽂文章representationを獲得するためにBi-‐‑‒LSTMを⽤用いることで、局所
的情報の重要性を与えるための優れた⽂文脈の獲得に効果がある.
06:  Introduction
本論論⽂文の貢献:3つ
•  重要な⽂文脈の局所的情報を獲得するための複数のMultiple  
sentence  representationを⽤用いたマッチング⽅方式の提案.
•  Semantic  Matchingのための、Bi-‐‑‒LSTMから⽣生成される
Multiple  sentence  representationを統合することのでき
る新しいニューラルネットのアーキテクト.
•  2つのデータセットを⽤用いた実験(question  answering/
sentence  completion)による提案法の有⽤用性の提⽰示.
1.   Introduction
2.   Our  Approach
3.   Experiments
4.   Conclusion
07:  Our  Approach
【  提案⼿手法(MV-‐‑‒LSTM)の特徴  】
⽂文章の複数の位置に関するrepresentationを獲得して⽤用いること.
Similarity  Score
Step  1:  Positional  Sentenve  Representation
→  ⼀一般的なBi-‐‑‒LSTMの説明と提案法への導⼊入理理由の説明のため、割愛.
Step  2:  Interactions  Between  Two  Sentence
08:  Our  Approach
【Cosine】:  Scalar
【Bilinear】:  Scalar
【Tensor  Layer】:  Vector
s(u,v) =
uT
v
u ⋅ v
s(u,v) = uT
Mv+ b
s(u,v) = f uT
M[1:c]
v+Wuv
u
v
!
"
#
$
%
&+ b
'
(
))
*
+
,,
-‐‑‒  Similarity  Score  :  S(u,v)
•  ⼀一般的なメトリクス.
•  2つのベクトルの⾓角度度によって
類似性を測定.
•  異異なるベクトルサイズでも相互作⽤用
を計算可能.
•  Cosineよりも表現⼒力力⾼高い.
(※  ||・||:L2-‐‑‒norm)
•  Mi(i=1,…,c):i番⽬目のテンソル
スライス.関数fは、⾮非線形関数.
•  本研究では、f(z)=max(0,  z).
09:  Our  Approach
Step  3:  Interaction  Aggregation
-‐‑‒  k-‐‑‒Max  Pooling
-‐‑‒  MultiLayer  Perception
•  2つの⽂文章に対して、最も強い相互作⽤用量量をk個抽出したい気持ち.
•  [  Cosine,  Biliner  ]  :  a  interactive  matrix  →  a  vector  q
•  [  Tensor  Layer  ]  :  a  interactive  tensor  →  vectors  (for  each  slice)–  
                        –  concat  →  a  vector  q
パラメータk  について
  k=1の時:最⼤大の相互作⽤用量量の部分のみを考慮.
  k=nの時:トップnの相互作⽤用量量の部分を考慮.→  複数の重要部を考慮
r = f (Wrq + br )
s = f (Wsr + bs )
•  ベクトルqは、k-‐‑‒max  poolingの出⼒力力.
•  出⼒力力sは、マッチング関数のスコア.
•  Full  Connected  Layer.
L SX,SY
+
,SY
−
( )= max 0,1− s(SX,SY
+
)+ s(SX,SY
−
)( )
10:  Our  Approach
Model  Training
注)  論論⽂文では、「For  different  tasks,  we  need  to  utilize  different  loss  functions  to  train  
our  model.  For  example,  if  the  task  is  formalized  as  a  ranking  problem,  ~∼  」と記述され
ていて、本研究の実験において、提案⼿手法のloss関数に上記式を⽤用いたかは少し疑わしい.
Given  a  triplet-‐‑‒ SX,SY
+
,SY
−
( ) ,
SY
+
,SY
−
: SY
+  is  ranked  higher  than  SY
-‐‑‒,  when  matching  with  SX.  
s(SX,SY
+
)
s(SX,SY
−
)
与えられる2つの⽂文章に対して、            の場合は⾼高くなった⽅方が良良く、⼀一⽅方で、
            の場合は、低くなった⽅方が良良い.すなわち、「より似ている⽂文章ペア」
については「似ている」と学習し、「似ている度度合いが低い⽂文章ペア」については
「似ていない」と学習してほしい気持ちが、Loss関数に反映されている.
(※:loss関数は、Hinge  Loss.)
1.   Introduction
2.   Our  Approach
3.   Experiments
4.   Conclusion
実験  :  2つ
11:  Experiments
【  Question  Answering  (QA)  】:
            質問q  に対してベストの  回答a  を選び出せ.
【  Sentence  Completion  (SC)  】:
    複数の⽂文章から似ている⽂文章を選び出せ.
•  データセット:Yahoo!  Answers  (question  answer  system)
-‐‑‒  All  :  142,627  pairs  (question,  answer)
-‐‑‒  Best  answers  から⻑⾧長さ5~∼50でフィルタリングして、60,564  pairsの
    positive  pairs  を取得.
-‐‑‒  Best  answerをクエリと⾒見見なして,  Lucene  を⽤用いてanswer全体から1000
    のanswerを抽出.その中からランダムに4  sample  を取り出して  negative  
    pairs  を構築.
•  Train  /  Valid  /  Test    -‐‑‒    8  :  1  :  1
•  データセット:Reuters  (⽂文章に対して、8~∼28  wordsで⻑⾧長さ調整.)
-‐‑‒  データは、(1  pos,  4  neg)の5つの選択肢.
-‐‑‒  negative  exampleは、cosine  similarity  に基づいてサンプリング抽出.
12:  Experiments
SX
ソニー製のcyber  shotのメモリスティックエラー、どうやったら
直せるの?
SY
+ メモリスティックをフォーマッティングしてみては。後、出⼒力力さ
れているエラーってどんなのよ?
SY
-‐‑‒ Stack  underflowエラーなんて聞いた事無いよ,  overflowエラー
ならあるけども.Overflowなら、バーチャルメモリ⾷食べ過ぎなん
だと思う.
13:  Experiments
Baselines  :  9  models
Models Detail Repr
Random ランダムに(ランキング結果を)出⼒力力.
-‐‑‒
BM25 IR分野で良良く知られており、強いベースラインモデル.
-‐‑‒
ARC-‐‑‒Ⅰ CNNモデルでsentence-‐‑‒representationを学習し、MLPでマッチン
グスコアを出⼒力力. one
ARC-‐‑‒Ⅱ 局所的なマッチングパターンを抽出し、それらを多層CNNで統合し
てマッチングスコアを出⼒力力. multi
CNTN ARC-‐‑‒Ⅰモデルをベースにしているが、マッチングスコアの算出部を
MLPの代わりに、tensor  layerに変更更. one
LSTM-‐‑‒RNN Sentence-‐‑‒representationの獲得にLSTMを⽤用いて、マッチングスコ
アの算出にcosine  similarityを使⽤用. one
RAE Multiuple  levelsʼ’  representationの獲得に、RNN-‐‑‒Autoencoderを
利利⽤用. multi
DeepMatch LDAによって獲得されたトピックから、multiple  granularityを考慮.
(複数の粒粒度度のrepresentationのことを述べている気がする・・・) multi
MultiGranCNN CNNモデルでword,  phrase,  sentenceレベルのrepsentationを獲得.
それら全てのrepresentationの相互作⽤用に基づいてマッチングスコ
アを算出.
multi
14:  Experiments
Parameter  Settings
Word  Embeddings
(pre-‐‑‒training)
[SC]  :  Wiki-‐‑‒Corpus  でword2vec.
[QA]  :  QAデータセット  でword2vec.
Word-‐‑‒Emb  dims 全ての実験で  50dims  に設定.
Hidden  dims 全ての実験で  50dims  に設定.
Batch  Size 全ての実験で  128-‐‑‒size  に設定.
Initial  Weight  
Scale  and  Settings
全ての訓練パラメータは、値域:(-‐‑‒0.1,  0.1)  の⼀一様分布
から、ランダムに設定.
Initial  Learning  
Rate
[SC]  :  0.3
[QA]  :  0.03
Optimize  Method AdaGrad
N :
SY
+(i)
:
r(⋅):
Testセットの
ranking-‐‑‒listの数.
i番⽬目のranking-‐‑‒listの
positive  sentence.
ranking-‐‑‒list内の
Sentenceのrank.
15:  Experiments
Evaluation  Metrics
以上のことから、
  Precision  at  1  (P@1)  と  Mean  Reciprocal  Rank  (MRR)  を⽤用いる.
•  SCタスク/QAタスクは、rankingタスクとしてみなせる.
•  出⼒力力は、与えられた選択肢に対するマッチングスコアの降降順リスト.
•  Goalは、negative選択肢よりもpositive選択肢のランクを⾼高くすること.
16:  Experiments
(1)  Analysis  of  Difference  Pooling  Parameters
•  k=5以上では性能改善に限界が⾒見見える.以後、k=5で実験を⾏行行った.
•  LSTMとBi-‐‑‒LSTMとも⽐比較した.提案法のMV-‐‑‒LSTMが良良い結果となった.
•  LSTMでは、last-‐‑‒positionのみ考慮.Bi-‐‑‒LSTMではfirst-‐‑‒/last-‐‑‒positionを
考慮.⼀一⽅方で、MV-‐‑‒LSTMはそれぞれのpositionを考慮できる.
17:  Experiments
(1)  Analysis  of  Difference  Pooling  Parameters
-‐‑‒  k=5  の  matching  position  について、
1.    (“memory”,  ”memory”,  0.84)
2.    (“error”,  ”error”,  0.81)
3.    (“stick”,  ”stick”,    0.76)
4.    (“stick”,  ”memory”,  0.65)
5.    (“memory”,  ”stick”,  0.63)
提案法は、キーワードに注⽬目出来ている.
さらに、”stick”と”memory”の関係も
マッチング時に重要な役割を果たしてい
ることが⾒見見てとれる.提案法は重要なn-‐‑‒
gramのマッチングパターンを抽出できて
いる.
18:  Experiments
(2)  Performance  Comparison
【4つの分析】
1.  RAEとDeepMatchを除いた
End-‐‑‒to-‐‑‒EndのDeepNNモデル
は全て、BM25に勝っている.
2.  提案法3種類は、single  
representationタイプのARC-‐‑‒
Ⅰ,  CNTN,  LSTM-‐‑‒RNNに対し
て良良い結果を⽰示している.
3.  提案法3種類は、multiple  
granularityタイプのRAE,  
DeepMatch,  ARC-‐‑‒Ⅱ,  
MultiGranCNNに対しても、良良
い結果を⽰示している.
4.  提案法はTensorタイプが最
も良良い結果となった.これは、
複雑な相互作⽤用をうまく捉え
られるからだ.
19:  Experiments
(2)  Performance  Comparison
SX
インターネットで無料料でロシア語学べる良良いサイトある?
SY
+ 無料料で⾔言語を学べるとも思えないけど、基本的な語彙くらいなら学べるか
もね.そういうことでは(インターネットは)素晴らしいと思う.
SY
-‐‑‒ Yahoo!のホームページに、無料料で提供されているゲームのリストが⾒見見れ
るよ.もしくは、www.iwin.comで無料料のゲームをダウンロードできる.
20:  Experiments
(2)  Performance  Comparison
単語  “free”  の意味について
SY
+ About  free  language  resources
SY
-‐‑‒ About  free  games
提案法は、Multiple  positionによって、”free”  の違いを考慮できる.
21:  Experiments
(2)  Performance  Comparison
[Hu  et  al,  2014]の研究で
は、MRRの検証は無かった.
QAタスクの場合に⽐比べて、
Deep  Model⼿手法は、⼤大幅に
数値の改善が⾒見見られる.
提案法は、ベースラインに⽐比
べて、P@1で11.4%改善.
-‐‑‒  Sentence  Completion
1.   Introduction
2.   Our  Approach
3.   Experiments
4.   Conclusion
本研究では、
•  2つの⽂文章のマッチングを考える際に、⽂文章の複数の位置に対する
representationを考慮する優れた深層学習アーキテクト:MV-‐‑‒LSTMを
提案.
Advantage  )  局所的な情報を抽出しつつ⽂文脈情報をより良良く取り扱うことがで
き、これらによって、⽂文章全体から重要なキーワードを判別する.
22:  Conclusion
•  MV-‐‑‒LSTMは、single-‐‑‒representationタイプの全ての⼿手法に対して優れ
た結果を⽰示した.
これは、マッチングを考える上で最も良良い位置が必ずしもいつも⽂文章の最後の
位置とは限らないことを⽰示している.(=LSTMで最終位置のHidden-‐‑‒stateを使
えばベストとは限らない.)したがって、複数の位置を考慮できる仕組みが必要
である.
•  MV-‐‑‒LSTMは、Multiple-‐‑‒granularity  methodよりも良良い結果を⽰示した.
⽂文章全体のcontextをより良良く扱えるようにmulti-‐‑‒granularityを考慮する必要が
ある.
END

Weitere ähnliche Inhalte

Was ist angesagt?

Learning Composition Models for Phrase Embeddings
Learning Composition Models for Phrase EmbeddingsLearning Composition Models for Phrase Embeddings
Learning Composition Models for Phrase EmbeddingsSho Takase
 
トピックモデル
トピックモデルトピックモデル
トピックモデル貴之 八木
 
2015 08 survey
2015 08 survey2015 08 survey
2015 08 surveymarujirou
 
自然演繹に基づく文間の含意関係の証明を用いたフレーズアライメントの試み
自然演繹に基づく文間の含意関係の証明を用いたフレーズアライメントの試み自然演繹に基づく文間の含意関係の証明を用いたフレーズアライメントの試み
自然演繹に基づく文間の含意関係の証明を用いたフレーズアライメントの試みHitomi Yanaka
 
Minimally Supervised Classification to Semantic Categories using Automaticall...
Minimally Supervised Classification to Semantic Categories using Automaticall...Minimally Supervised Classification to Semantic Categories using Automaticall...
Minimally Supervised Classification to Semantic Categories using Automaticall...sakaizawa
 
Acl yomikai, 1016, 20110903
Acl yomikai, 1016,  20110903Acl yomikai, 1016,  20110903
Acl yomikai, 1016, 20110903Yo Ehara
 
はじめての生成文法 《後編》
はじめての生成文法 《後編》はじめての生成文法 《後編》
はじめての生成文法 《後編》Shuyo Nakatani
 
Neural word embedding as implicit matrix factorization の論文紹介
Neural word embedding as implicit matrix factorization の論文紹介Neural word embedding as implicit matrix factorization の論文紹介
Neural word embedding as implicit matrix factorization の論文紹介Masanao Ochi
 
Distributed Representations of Sentences and Documents
Distributed Representations of Sentences and DocumentsDistributed Representations of Sentences and Documents
Distributed Representations of Sentences and Documentssakaizawa
 
単語の分散表現と構成性の計算モデルの発展
単語の分散表現と構成性の計算モデルの発展単語の分散表現と構成性の計算モデルの発展
単語の分散表現と構成性の計算モデルの発展Naoaki Okazaki
 
機械翻訳の今昔物語
機械翻訳の今昔物語機械翻訳の今昔物語
機械翻訳の今昔物語Hiroshi Nakagawa
 
Language Models as Representations for Weakly-­Supervised NLP Tasks (CoNLL2011)
Language Models as Representations for Weakly-­Supervised NLP Tasks (CoNLL2011)Language Models as Representations for Weakly-­Supervised NLP Tasks (CoNLL2011)
Language Models as Representations for Weakly-­Supervised NLP Tasks (CoNLL2011)Koji Matsuda
 
Ism npblm-20120315
Ism npblm-20120315Ism npblm-20120315
Ism npblm-20120315隆浩 安
 
トピックモデル勉強会: 第2章 Latent Dirichlet Allocation
トピックモデル勉強会: 第2章 Latent Dirichlet Allocationトピックモデル勉強会: 第2章 Latent Dirichlet Allocation
トピックモデル勉強会: 第2章 Latent Dirichlet AllocationHaruka Ozaki
 
MIRU2011 OS1-2 拡張ペアワイズ表現を用いた一般化多変量解析
MIRU2011 OS1-2 拡張ペアワイズ表現を用いた一般化多変量解析MIRU2011 OS1-2 拡張ペアワイズ表現を用いた一般化多変量解析
MIRU2011 OS1-2 拡張ペアワイズ表現を用いた一般化多変量解析Akisato Kimura
 
111127.lsj143.田川 japanese conjugation and dm
111127.lsj143.田川 japanese conjugation and dm111127.lsj143.田川 japanese conjugation and dm
111127.lsj143.田川 japanese conjugation and dmTakumi Tagawa
 

Was ist angesagt? (19)

nl190segment
nl190segmentnl190segment
nl190segment
 
Learning Composition Models for Phrase Embeddings
Learning Composition Models for Phrase EmbeddingsLearning Composition Models for Phrase Embeddings
Learning Composition Models for Phrase Embeddings
 
トピックモデル
トピックモデルトピックモデル
トピックモデル
 
4thNLPDL
4thNLPDL4thNLPDL
4thNLPDL
 
2015 08 survey
2015 08 survey2015 08 survey
2015 08 survey
 
It
ItIt
It
 
自然演繹に基づく文間の含意関係の証明を用いたフレーズアライメントの試み
自然演繹に基づく文間の含意関係の証明を用いたフレーズアライメントの試み自然演繹に基づく文間の含意関係の証明を用いたフレーズアライメントの試み
自然演繹に基づく文間の含意関係の証明を用いたフレーズアライメントの試み
 
Minimally Supervised Classification to Semantic Categories using Automaticall...
Minimally Supervised Classification to Semantic Categories using Automaticall...Minimally Supervised Classification to Semantic Categories using Automaticall...
Minimally Supervised Classification to Semantic Categories using Automaticall...
 
Acl yomikai, 1016, 20110903
Acl yomikai, 1016,  20110903Acl yomikai, 1016,  20110903
Acl yomikai, 1016, 20110903
 
はじめての生成文法 《後編》
はじめての生成文法 《後編》はじめての生成文法 《後編》
はじめての生成文法 《後編》
 
Neural word embedding as implicit matrix factorization の論文紹介
Neural word embedding as implicit matrix factorization の論文紹介Neural word embedding as implicit matrix factorization の論文紹介
Neural word embedding as implicit matrix factorization の論文紹介
 
Distributed Representations of Sentences and Documents
Distributed Representations of Sentences and DocumentsDistributed Representations of Sentences and Documents
Distributed Representations of Sentences and Documents
 
単語の分散表現と構成性の計算モデルの発展
単語の分散表現と構成性の計算モデルの発展単語の分散表現と構成性の計算モデルの発展
単語の分散表現と構成性の計算モデルの発展
 
機械翻訳の今昔物語
機械翻訳の今昔物語機械翻訳の今昔物語
機械翻訳の今昔物語
 
Language Models as Representations for Weakly-­Supervised NLP Tasks (CoNLL2011)
Language Models as Representations for Weakly-­Supervised NLP Tasks (CoNLL2011)Language Models as Representations for Weakly-­Supervised NLP Tasks (CoNLL2011)
Language Models as Representations for Weakly-­Supervised NLP Tasks (CoNLL2011)
 
Ism npblm-20120315
Ism npblm-20120315Ism npblm-20120315
Ism npblm-20120315
 
トピックモデル勉強会: 第2章 Latent Dirichlet Allocation
トピックモデル勉強会: 第2章 Latent Dirichlet Allocationトピックモデル勉強会: 第2章 Latent Dirichlet Allocation
トピックモデル勉強会: 第2章 Latent Dirichlet Allocation
 
MIRU2011 OS1-2 拡張ペアワイズ表現を用いた一般化多変量解析
MIRU2011 OS1-2 拡張ペアワイズ表現を用いた一般化多変量解析MIRU2011 OS1-2 拡張ペアワイズ表現を用いた一般化多変量解析
MIRU2011 OS1-2 拡張ペアワイズ表現を用いた一般化多変量解析
 
111127.lsj143.田川 japanese conjugation and dm
111127.lsj143.田川 japanese conjugation and dm111127.lsj143.田川 japanese conjugation and dm
111127.lsj143.田川 japanese conjugation and dm
 

Ähnlich wie Semantic_Matching_AAAI16_論文紹介

多変量解析の一般化
多変量解析の一般化多変量解析の一般化
多変量解析の一般化Akisato Kimura
 
LS for Reinforcement Learning
LS for Reinforcement LearningLS for Reinforcement Learning
LS for Reinforcement Learningimlschedules
 
大規模な単語活用辞書を用いた英単語の見出し語化
大規模な単語活用辞書を用いた英単語の見出し語化大規模な単語活用辞書を用いた英単語の見出し語化
大規模な単語活用辞書を用いた英単語の見出し語化奈良先端大 情報科学研究科
 
単語・句の分散表現の学習
単語・句の分散表現の学習単語・句の分散表現の学習
単語・句の分散表現の学習Naoaki Okazaki
 
差分プライバシーによる時系列データの扱い方
差分プライバシーによる時系列データの扱い方差分プライバシーによる時系列データの扱い方
差分プライバシーによる時系列データの扱い方Hiroshi Nakagawa
 
[ACL2018読み会資料] Sharp Nearby, Fuzzy Far Away: How Neural Language Models Use C...
[ACL2018読み会資料] Sharp Nearby, Fuzzy Far Away: How Neural Language Models Use C...[ACL2018読み会資料] Sharp Nearby, Fuzzy Far Away: How Neural Language Models Use C...
[ACL2018読み会資料] Sharp Nearby, Fuzzy Far Away: How Neural Language Models Use C...Hayahide Yamagishi
 
Nl237 presentation
Nl237 presentationNl237 presentation
Nl237 presentationRoy Ray
 
NLP若手の回 ACL2012参加報告
NLP若手の回 ACL2012参加報告NLP若手の回 ACL2012参加報告
NLP若手の回 ACL2012参加報告Hiroyuki TOKUNAGA
 
ICDE2014 Session 22 Similarity Joins
ICDE2014 Session 22 Similarity JoinsICDE2014 Session 22 Similarity Joins
ICDE2014 Session 22 Similarity JoinsMasumi Shirakawa
 

Ähnlich wie Semantic_Matching_AAAI16_論文紹介 (13)

多変量解析の一般化
多変量解析の一般化多変量解析の一般化
多変量解析の一般化
 
Paper: seq2seq 20190320
Paper: seq2seq 20190320Paper: seq2seq 20190320
Paper: seq2seq 20190320
 
LS for Reinforcement Learning
LS for Reinforcement LearningLS for Reinforcement Learning
LS for Reinforcement Learning
 
Contrastive learning 20200607
Contrastive learning 20200607Contrastive learning 20200607
Contrastive learning 20200607
 
大規模な単語活用辞書を用いた英単語の見出し語化
大規模な単語活用辞書を用いた英単語の見出し語化大規模な単語活用辞書を用いた英単語の見出し語化
大規模な単語活用辞書を用いた英単語の見出し語化
 
単語・句の分散表現の学習
単語・句の分散表現の学習単語・句の分散表現の学習
単語・句の分散表現の学習
 
差分プライバシーによる時系列データの扱い方
差分プライバシーによる時系列データの扱い方差分プライバシーによる時系列データの扱い方
差分プライバシーによる時系列データの扱い方
 
[ACL2018読み会資料] Sharp Nearby, Fuzzy Far Away: How Neural Language Models Use C...
[ACL2018読み会資料] Sharp Nearby, Fuzzy Far Away: How Neural Language Models Use C...[ACL2018読み会資料] Sharp Nearby, Fuzzy Far Away: How Neural Language Models Use C...
[ACL2018読み会資料] Sharp Nearby, Fuzzy Far Away: How Neural Language Models Use C...
 
AdaFace(CVPR2022)
AdaFace(CVPR2022)AdaFace(CVPR2022)
AdaFace(CVPR2022)
 
Nl237 presentation
Nl237 presentationNl237 presentation
Nl237 presentation
 
NLP若手の回 ACL2012参加報告
NLP若手の回 ACL2012参加報告NLP若手の回 ACL2012参加報告
NLP若手の回 ACL2012参加報告
 
ICDE2014 Session 22 Similarity Joins
ICDE2014 Session 22 Similarity JoinsICDE2014 Session 22 Similarity Joins
ICDE2014 Session 22 Similarity Joins
 
comp_pfiseminar
comp_pfiseminarcomp_pfiseminar
comp_pfiseminar
 

Mehr von Masayoshi Kondo

Graph-to-Sequence Learning using Gated Graph Neural Networks. [ACL'18] 論文紹介
Graph-to-Sequence Learning using Gated Graph Neural Networks. [ACL'18] 論文紹介Graph-to-Sequence Learning using Gated Graph Neural Networks. [ACL'18] 論文紹介
Graph-to-Sequence Learning using Gated Graph Neural Networks. [ACL'18] 論文紹介Masayoshi Kondo
 
attention_is_all_you_need_nips17_論文紹介
attention_is_all_you_need_nips17_論文紹介attention_is_all_you_need_nips17_論文紹介
attention_is_all_you_need_nips17_論文紹介Masayoshi Kondo
 
GeneratingWikipedia_ICLR18_論文紹介
GeneratingWikipedia_ICLR18_論文紹介GeneratingWikipedia_ICLR18_論文紹介
GeneratingWikipedia_ICLR18_論文紹介Masayoshi Kondo
 
最先端NLP勉強会2017_ACL17
最先端NLP勉強会2017_ACL17最先端NLP勉強会2017_ACL17
最先端NLP勉強会2017_ACL17Masayoshi Kondo
 
Get To The Point: Summarization with Pointer-Generator Networks_acl17_論文紹介
Get To The Point: Summarization with Pointer-Generator Networks_acl17_論文紹介Get To The Point: Summarization with Pointer-Generator Networks_acl17_論文紹介
Get To The Point: Summarization with Pointer-Generator Networks_acl17_論文紹介Masayoshi Kondo
 
Linguistic Knowledge as Memory for Recurrent Neural Networks_論文紹介
Linguistic Knowledge as Memory for Recurrent Neural Networks_論文紹介Linguistic Knowledge as Memory for Recurrent Neural Networks_論文紹介
Linguistic Knowledge as Memory for Recurrent Neural Networks_論文紹介Masayoshi Kondo
 
深層学習(岡本孝之著) Deep learning chap.5_2
深層学習(岡本孝之著) Deep learning chap.5_2深層学習(岡本孝之著) Deep learning chap.5_2
深層学習(岡本孝之著) Deep learning chap.5_2Masayoshi Kondo
 
深層学習(岡本 孝之 著)Deep learning chap.5_1
深層学習(岡本 孝之 著)Deep learning chap.5_1深層学習(岡本 孝之 著)Deep learning chap.5_1
深層学習(岡本 孝之 著)Deep learning chap.5_1Masayoshi Kondo
 
深層学習(岡本孝之 著)Deep learning Chap.4_2
深層学習(岡本孝之 著)Deep learning Chap.4_2深層学習(岡本孝之 著)Deep learning Chap.4_2
深層学習(岡本孝之 著)Deep learning Chap.4_2Masayoshi Kondo
 
深層学習(岡本孝之 著)Deep learning chap.4_1
深層学習(岡本孝之 著)Deep learning chap.4_1深層学習(岡本孝之 著)Deep learning chap.4_1
深層学習(岡本孝之 著)Deep learning chap.4_1Masayoshi Kondo
 
深層学習(岡本孝之 著) - Deep Learning chap.3_2
深層学習(岡本孝之 著) - Deep Learning chap.3_2深層学習(岡本孝之 著) - Deep Learning chap.3_2
深層学習(岡本孝之 著) - Deep Learning chap.3_2Masayoshi Kondo
 
深層学習(岡本孝之 著) - Deep Learning chap.3_1
深層学習(岡本孝之 著) - Deep Learning chap.3_1深層学習(岡本孝之 著) - Deep Learning chap.3_1
深層学習(岡本孝之 著) - Deep Learning chap.3_1Masayoshi Kondo
 
深層学習(岡本孝之 著) - Deep Learning chap.1 and 2
深層学習(岡本孝之 著) - Deep Learning chap.1 and 2深層学習(岡本孝之 著) - Deep Learning chap.1 and 2
深層学習(岡本孝之 著) - Deep Learning chap.1 and 2Masayoshi Kondo
 

Mehr von Masayoshi Kondo (14)

Graph-to-Sequence Learning using Gated Graph Neural Networks. [ACL'18] 論文紹介
Graph-to-Sequence Learning using Gated Graph Neural Networks. [ACL'18] 論文紹介Graph-to-Sequence Learning using Gated Graph Neural Networks. [ACL'18] 論文紹介
Graph-to-Sequence Learning using Gated Graph Neural Networks. [ACL'18] 論文紹介
 
attention_is_all_you_need_nips17_論文紹介
attention_is_all_you_need_nips17_論文紹介attention_is_all_you_need_nips17_論文紹介
attention_is_all_you_need_nips17_論文紹介
 
GeneratingWikipedia_ICLR18_論文紹介
GeneratingWikipedia_ICLR18_論文紹介GeneratingWikipedia_ICLR18_論文紹介
GeneratingWikipedia_ICLR18_論文紹介
 
Deep Learning
Deep LearningDeep Learning
Deep Learning
 
最先端NLP勉強会2017_ACL17
最先端NLP勉強会2017_ACL17最先端NLP勉強会2017_ACL17
最先端NLP勉強会2017_ACL17
 
Get To The Point: Summarization with Pointer-Generator Networks_acl17_論文紹介
Get To The Point: Summarization with Pointer-Generator Networks_acl17_論文紹介Get To The Point: Summarization with Pointer-Generator Networks_acl17_論文紹介
Get To The Point: Summarization with Pointer-Generator Networks_acl17_論文紹介
 
Linguistic Knowledge as Memory for Recurrent Neural Networks_論文紹介
Linguistic Knowledge as Memory for Recurrent Neural Networks_論文紹介Linguistic Knowledge as Memory for Recurrent Neural Networks_論文紹介
Linguistic Knowledge as Memory for Recurrent Neural Networks_論文紹介
 
深層学習(岡本孝之著) Deep learning chap.5_2
深層学習(岡本孝之著) Deep learning chap.5_2深層学習(岡本孝之著) Deep learning chap.5_2
深層学習(岡本孝之著) Deep learning chap.5_2
 
深層学習(岡本 孝之 著)Deep learning chap.5_1
深層学習(岡本 孝之 著)Deep learning chap.5_1深層学習(岡本 孝之 著)Deep learning chap.5_1
深層学習(岡本 孝之 著)Deep learning chap.5_1
 
深層学習(岡本孝之 著)Deep learning Chap.4_2
深層学習(岡本孝之 著)Deep learning Chap.4_2深層学習(岡本孝之 著)Deep learning Chap.4_2
深層学習(岡本孝之 著)Deep learning Chap.4_2
 
深層学習(岡本孝之 著)Deep learning chap.4_1
深層学習(岡本孝之 著)Deep learning chap.4_1深層学習(岡本孝之 著)Deep learning chap.4_1
深層学習(岡本孝之 著)Deep learning chap.4_1
 
深層学習(岡本孝之 著) - Deep Learning chap.3_2
深層学習(岡本孝之 著) - Deep Learning chap.3_2深層学習(岡本孝之 著) - Deep Learning chap.3_2
深層学習(岡本孝之 著) - Deep Learning chap.3_2
 
深層学習(岡本孝之 著) - Deep Learning chap.3_1
深層学習(岡本孝之 著) - Deep Learning chap.3_1深層学習(岡本孝之 著) - Deep Learning chap.3_1
深層学習(岡本孝之 著) - Deep Learning chap.3_1
 
深層学習(岡本孝之 著) - Deep Learning chap.1 and 2
深層学習(岡本孝之 著) - Deep Learning chap.1 and 2深層学習(岡本孝之 著) - Deep Learning chap.1 and 2
深層学習(岡本孝之 著) - Deep Learning chap.1 and 2
 

Semantic_Matching_AAAI16_論文紹介

  • 1. 2017.11.28 NAIST  ⾃自然⾔言語処理理学研究室 D1  Masayoshi  Kondo   論論⽂文紹介-‐‑‒  About  Neural  Summarization@2017   A  Deep  Architecture  for  Semantic  Matching With  Multiple  Positional  Sentence  Representations AAAIʼ’16 Shengxian  Wan,  Yanyan  Lan,  Jiafeng  Guo,  Jun  Xu,  Liang  Pang,  and  Xueqi  Cheng CAS  Key  Lab  of  Network  Data  Science  and  Technology Institute  of  Computing  Technology,  Chinese  Academy  of  Sciences,  China
  • 2. 00:  論論⽂文の概要 •   2つのセンテンスが与えられた時、似ているか否かの判定タスクをDNNで解く研究. •   attentionをとった特徴量量の処理理⽅方法(Cosine,  Bilinear,  TensorLayer)が本研究のポイント. •   実験は2つ.ひとつはQuestion  Answer、もうひとつはSentence  Completion. •   評価指標は、P@1とMRR(Mean  Reciprocal  Rank). •   従来よりも⾼高い精度度を⽰示す. 【まとめ】 【abstract】 ⾃自然⽂文マッチング(Matching  Natural  Language  Sentence)は、情報検索索やQAシステムといった多くの応⽤用 の中⼼心的役割を担っている.既存のディープニューラルモデルは、マッチングの際に単純な⽂文章の representationまたは複数の粒粒度度からなるrepresentationに頼っている.しかしながら、このような⽅方法は、 マッチング時に⽂文脈の局所的な情報を掴むことができない.この課題に取り組むために、我々は新しい ディープニューラルモデルを提案する.提案モデルは、multiple  positional  sentence  representation を⽤用いることで2つの⽂文章のマッチングを⾏行行う.具体的には、それぞれのpositional  sentence   representationは、Bi-‐‑‒LSTMモデルによって⽣生成されたある⽂文章の特定の位置のrepresentationを⽰示す. これらの異異なる位置の⽂文章representation間の相互作⽤用量量をk-‐‑‒Max  poolingやmulti-‐‑‒layer  perceptron を通して統合し、最終的なマッチングスコアが与えられる.我々の提案法はいくつかの⻑⾧長所がある. (1)positional  sentence  representationの⽂文脈の局所的情報を取り出すことに、Bi-‐‑‒LSTMを⽤用いることに よって得た⽂文章全体の豊かな⽂文脈が効果を発揮する.(2)multiple  positional  sentence  representationを⽤用 いてマッチングを⾏行行うことで、マッチングをより精度度良良くするような、⽂文章に含まれている様々な重要な⽂文 脈の局所的情報を集めやすくなる.(3)Question  Answering  と  Sentence  Completion  といった異異なるタス クの実験を通して、我々のモデルの優位性を⽰示す.
  • 3. 1.   Introduction 2.   Our  Approach 3.   Experiments 4.   Conclusion
  • 4. 1.   Introduction 2.   Our  Approach 3.   Experiments 4.   Conclusion
  • 5. Matching  Sentence (Semantic  Matching) [  Basic  Task  (Core  Task)  ] Information Retrieval Question  Answering Recognizing  Textual   Entailment  (RTE) NLPにおける基礎的タスク 実⽤用的タスク Matching  Sentence  (Semantic  Matching) -‐‑‒-‐‑‒:  Preliminaries 与えられる2つの⽂文章(主に単⼀一⽂文章)が似ているか否かを判定するタスク. ここでいう「似ている」は、同じ意味として解釈可能か否かを指す.また、 特定の意図(命題)に沿って、真か否かを判定する場合もある. Paraphrase  Identification 各タスクの設定に応じて、 Matching  Sentence   の技術を応⽤用
  • 6. -‐‑‒-‐‑‒:  Preliminaries w1 w2 w3 wi wn w1 w2 w3 wi wm…… …… Sentence-‐‑‒A  /  Length:n Sentence-‐‑‒B  /  Length:m f (SA,SB;θ)マッチング関数 SCORE  : 0,1{ }∈ R 【Train】 【Test】 ((SA,SB),  label)ペアデータから、loss関数を最⼩小にするようにパラメータθを学習. 学習済みモデルを⽤用いて、未知の(SA,SB)ペアに対してlabelを予測. SCORE  と  Label  を引数 とするloss関数を設定して、 最⼩小化.
  • 7. -‐‑‒-‐‑‒:  Preliminaries 【Dataset】 【Evaluation  Metrics】 •  [RTE]  :  Stanford  Natural  Language  Inference  Corpus  (SNLI) •  [QA]  :  Yahoo  !  Answers •  [QA]  :  Qatar  Living  Forum  (http://www.qatarliving.com/forum) •  [Response  Selection]  :  Ubuntu  Corpus •  [Sentence  Completion]  :  Reuters •  Accuracy •  P@1 •  MRR(Mean  Reciprocal  Rank)    
  • 8. 01:  Introduction Semantic  Matching  は、⾃自然⾔言語処理理の多くの応⽤用に必要不不可⽋欠なタスク •  Information  Retrieval •  Question  Answering •  Paraphrase  Identification 例例)Question  Answering  : 質問q  と  回答a  が与えられた下で、マッチング関数は、2つの⽂文章 (質問⽂文、回答⽂文)がどれだけ適合しているかを評価する. 深層学習モデル  (Deep  Neural  Networks)  の発展 -‐‑‒  ⽂文章全体を単純なrepresentationとして表現 -‐‑‒  2つのrepresentation間の類似度度を計算 DSSM[Huang  et  al,  13]  /  CDSMM[Shen  et  al,  14]  /  ARC-‐‑‒I[Hu  et  al,  14] CNTN[Qiu  and  Huang,  15]  /  LSTM-‐‑‒RNN[Palangi  et  al,  15] 課題 複雑な⽂文章を1つの単純なベクトルに変換する際、重要な局所的情報が喪失.
  • 9. 02:  Introduction 例例えば・・・ Q  :  Which  teams  won  top  three  in  the  World  Cup  ? A1  :  Germany  is  the  champion  of  the  World  Cup. The  top  three  of  the  European  Cup  are  Spain,   Netherlands  and  Germany. A2  :   このとき:     「top  three」に注⽬目    :「A2の回答の⽅方が良良さそう」     「World  Cup」に注⽬目  :「A1の回答の⽅方が良良さそう」 従来法(single  sentence  representation):上記の局所的な情報を扱えない.   -‐‑‒  複雑な⽂文章を直接的にひとつのrepresentationに埋め込むため.   【課題】
  • 10. 03:  Introduction その他の⼿手法:taking  multiple  granularity                                          (ex:  word,  phrase,  sentence  level  representation)   ARC-‐‑‒II[Hu  et  al.,  13]  /  RAE[Socher  et  al.,  14]  /  Deep-‐‑‒Match[Lu  and  Li,  14] Bi-‐‑‒CNN-‐‑‒MI,  MultiGranCNN[Yin  and  Schutze,  15] 複数のrepresentationを考慮することで、⽂文章の情報を記憶  →  精度度向上 Q  :  Which  teams  won  top  three  in  the  World  Cup  ? A1  :  Germany  is  the  champion  of  the  World  Cup. The  top  three  of  the  European  Cup  are  Spain,   Netherlands  and  Germany. A2  :   A3  :  The  top  three  attendees  of  the  European  Cup  are from  Germany,  France  and  Spain. •  A2の回答の⽅方が、A3の回答より良良さそう. •  【理理由】:A2は、出場チームの  top  three  を⽰示しているから.
  • 11. 課題 複数のrepresentationを⽤用いることで局所的な情報を取り扱うことは可能になった ⼀一⽅方で、⽂文章全体から単語やフレーズの真の意味を反映させることには限界がある. multiple  granularityのモデル  :  上記の区別が⾏行行うことができない.     04:  Introduction Q  :  Which  teams  won  top  three  in  the  World  Cup  ? A1  :  Germany  is  the  champion  of  the  World  Cup. The  top  three  of  the  European  Cup  are  Spain,   Netherlands  and  Germany. A2  :   A3  :  The  top  three  attendees  of  the  European  Cup  are from  Germany,  France  and  Spain. A2  と  A3  の「top  three」は、異異なる意味を⽰示している. 【A2】:  about  top  three  teams  (出場チーム) 【A3】:  about  top  three  attendees  (選出国)
  • 12. 05:  Introduction 2つの⽂文章がどれほどマッチしているかを知るには、 ⽂文脈の局所的情報から得られる⽂文章のrepresentationが必要. 本研究では、 •  MV-‐‑‒LSTMという新しいニューラルネットのアーキテクトを提案. •  ⽂文章の各単語毎の⽂文章representationを獲得. •  2つの⽂文章に対して各単語の⽂文章representation毎の相互作⽤用をモデル化. -‐‑‒    Cosine  /  Bilinear  /  Tensor Single  sentence  representation  methods  との違い: Multiple  granularity  deep  models  との違い: 単語毎に⽂文章representationを有するので、重要な局所的情報を獲得できる. 単語毎の⽂文章representationを獲得するためにBi-‐‑‒LSTMを⽤用いることで、局所 的情報の重要性を与えるための優れた⽂文脈の獲得に効果がある.
  • 13. 06:  Introduction 本論論⽂文の貢献:3つ •  重要な⽂文脈の局所的情報を獲得するための複数のMultiple   sentence  representationを⽤用いたマッチング⽅方式の提案. •  Semantic  Matchingのための、Bi-‐‑‒LSTMから⽣生成される Multiple  sentence  representationを統合することのでき る新しいニューラルネットのアーキテクト. •  2つのデータセットを⽤用いた実験(question  answering/ sentence  completion)による提案法の有⽤用性の提⽰示.
  • 14. 1.   Introduction 2.   Our  Approach 3.   Experiments 4.   Conclusion
  • 15. 07:  Our  Approach 【  提案⼿手法(MV-‐‑‒LSTM)の特徴  】 ⽂文章の複数の位置に関するrepresentationを獲得して⽤用いること. Similarity  Score
  • 16. Step  1:  Positional  Sentenve  Representation →  ⼀一般的なBi-‐‑‒LSTMの説明と提案法への導⼊入理理由の説明のため、割愛. Step  2:  Interactions  Between  Two  Sentence 08:  Our  Approach 【Cosine】:  Scalar 【Bilinear】:  Scalar 【Tensor  Layer】:  Vector s(u,v) = uT v u ⋅ v s(u,v) = uT Mv+ b s(u,v) = f uT M[1:c] v+Wuv u v ! " # $ % &+ b ' ( )) * + ,, -‐‑‒  Similarity  Score  :  S(u,v) •  ⼀一般的なメトリクス. •  2つのベクトルの⾓角度度によって 類似性を測定. •  異異なるベクトルサイズでも相互作⽤用 を計算可能. •  Cosineよりも表現⼒力力⾼高い. (※  ||・||:L2-‐‑‒norm) •  Mi(i=1,…,c):i番⽬目のテンソル スライス.関数fは、⾮非線形関数. •  本研究では、f(z)=max(0,  z).
  • 17. 09:  Our  Approach Step  3:  Interaction  Aggregation -‐‑‒  k-‐‑‒Max  Pooling -‐‑‒  MultiLayer  Perception •  2つの⽂文章に対して、最も強い相互作⽤用量量をk個抽出したい気持ち. •  [  Cosine,  Biliner  ]  :  a  interactive  matrix  →  a  vector  q •  [  Tensor  Layer  ]  :  a  interactive  tensor  →  vectors  (for  each  slice)–                           –  concat  →  a  vector  q パラメータk  について  k=1の時:最⼤大の相互作⽤用量量の部分のみを考慮.  k=nの時:トップnの相互作⽤用量量の部分を考慮.→  複数の重要部を考慮 r = f (Wrq + br ) s = f (Wsr + bs ) •  ベクトルqは、k-‐‑‒max  poolingの出⼒力力. •  出⼒力力sは、マッチング関数のスコア. •  Full  Connected  Layer.
  • 18. L SX,SY + ,SY − ( )= max 0,1− s(SX,SY + )+ s(SX,SY − )( ) 10:  Our  Approach Model  Training 注)  論論⽂文では、「For  different  tasks,  we  need  to  utilize  different  loss  functions  to  train   our  model.  For  example,  if  the  task  is  formalized  as  a  ranking  problem,  ~∼  」と記述され ていて、本研究の実験において、提案⼿手法のloss関数に上記式を⽤用いたかは少し疑わしい. Given  a  triplet-‐‑‒ SX,SY + ,SY − ( ) , SY + ,SY − : SY +  is  ranked  higher  than  SY -‐‑‒,  when  matching  with  SX.   s(SX,SY + ) s(SX,SY − ) 与えられる2つの⽂文章に対して、            の場合は⾼高くなった⽅方が良良く、⼀一⽅方で、             の場合は、低くなった⽅方が良良い.すなわち、「より似ている⽂文章ペア」 については「似ている」と学習し、「似ている度度合いが低い⽂文章ペア」については 「似ていない」と学習してほしい気持ちが、Loss関数に反映されている. (※:loss関数は、Hinge  Loss.)
  • 19. 1.   Introduction 2.   Our  Approach 3.   Experiments 4.   Conclusion
  • 20. 実験  :  2つ 11:  Experiments 【  Question  Answering  (QA)  】:            質問q  に対してベストの  回答a  を選び出せ. 【  Sentence  Completion  (SC)  】:     複数の⽂文章から似ている⽂文章を選び出せ. •  データセット:Yahoo!  Answers  (question  answer  system) -‐‑‒  All  :  142,627  pairs  (question,  answer) -‐‑‒  Best  answers  から⻑⾧長さ5~∼50でフィルタリングして、60,564  pairsの    positive  pairs  を取得. -‐‑‒  Best  answerをクエリと⾒見見なして,  Lucene  を⽤用いてanswer全体から1000    のanswerを抽出.その中からランダムに4  sample  を取り出して  negative      pairs  を構築. •  Train  /  Valid  /  Test    -‐‑‒    8  :  1  :  1 •  データセット:Reuters  (⽂文章に対して、8~∼28  wordsで⻑⾧長さ調整.) -‐‑‒  データは、(1  pos,  4  neg)の5つの選択肢. -‐‑‒  negative  exampleは、cosine  similarity  に基づいてサンプリング抽出.
  • 21. 12:  Experiments SX ソニー製のcyber  shotのメモリスティックエラー、どうやったら 直せるの? SY + メモリスティックをフォーマッティングしてみては。後、出⼒力力さ れているエラーってどんなのよ? SY -‐‑‒ Stack  underflowエラーなんて聞いた事無いよ,  overflowエラー ならあるけども.Overflowなら、バーチャルメモリ⾷食べ過ぎなん だと思う.
  • 22. 13:  Experiments Baselines  :  9  models Models Detail Repr Random ランダムに(ランキング結果を)出⼒力力. -‐‑‒ BM25 IR分野で良良く知られており、強いベースラインモデル. -‐‑‒ ARC-‐‑‒Ⅰ CNNモデルでsentence-‐‑‒representationを学習し、MLPでマッチン グスコアを出⼒力力. one ARC-‐‑‒Ⅱ 局所的なマッチングパターンを抽出し、それらを多層CNNで統合し てマッチングスコアを出⼒力力. multi CNTN ARC-‐‑‒Ⅰモデルをベースにしているが、マッチングスコアの算出部を MLPの代わりに、tensor  layerに変更更. one LSTM-‐‑‒RNN Sentence-‐‑‒representationの獲得にLSTMを⽤用いて、マッチングスコ アの算出にcosine  similarityを使⽤用. one RAE Multiuple  levelsʼ’  representationの獲得に、RNN-‐‑‒Autoencoderを 利利⽤用. multi DeepMatch LDAによって獲得されたトピックから、multiple  granularityを考慮. (複数の粒粒度度のrepresentationのことを述べている気がする・・・) multi MultiGranCNN CNNモデルでword,  phrase,  sentenceレベルのrepsentationを獲得. それら全てのrepresentationの相互作⽤用に基づいてマッチングスコ アを算出. multi
  • 23. 14:  Experiments Parameter  Settings Word  Embeddings (pre-‐‑‒training) [SC]  :  Wiki-‐‑‒Corpus  でword2vec. [QA]  :  QAデータセット  でword2vec. Word-‐‑‒Emb  dims 全ての実験で  50dims  に設定. Hidden  dims 全ての実験で  50dims  に設定. Batch  Size 全ての実験で  128-‐‑‒size  に設定. Initial  Weight   Scale  and  Settings 全ての訓練パラメータは、値域:(-‐‑‒0.1,  0.1)  の⼀一様分布 から、ランダムに設定. Initial  Learning   Rate [SC]  :  0.3 [QA]  :  0.03 Optimize  Method AdaGrad
  • 24. N : SY +(i) : r(⋅): Testセットの ranking-‐‑‒listの数. i番⽬目のranking-‐‑‒listの positive  sentence. ranking-‐‑‒list内の Sentenceのrank. 15:  Experiments Evaluation  Metrics 以上のことから、   Precision  at  1  (P@1)  と  Mean  Reciprocal  Rank  (MRR)  を⽤用いる. •  SCタスク/QAタスクは、rankingタスクとしてみなせる. •  出⼒力力は、与えられた選択肢に対するマッチングスコアの降降順リスト. •  Goalは、negative選択肢よりもpositive選択肢のランクを⾼高くすること.
  • 25. 16:  Experiments (1)  Analysis  of  Difference  Pooling  Parameters •  k=5以上では性能改善に限界が⾒見見える.以後、k=5で実験を⾏行行った. •  LSTMとBi-‐‑‒LSTMとも⽐比較した.提案法のMV-‐‑‒LSTMが良良い結果となった. •  LSTMでは、last-‐‑‒positionのみ考慮.Bi-‐‑‒LSTMではfirst-‐‑‒/last-‐‑‒positionを 考慮.⼀一⽅方で、MV-‐‑‒LSTMはそれぞれのpositionを考慮できる.
  • 26. 17:  Experiments (1)  Analysis  of  Difference  Pooling  Parameters -‐‑‒  k=5  の  matching  position  について、 1.   (“memory”,  ”memory”,  0.84) 2.   (“error”,  ”error”,  0.81) 3.   (“stick”,  ”stick”,    0.76) 4.   (“stick”,  ”memory”,  0.65) 5.   (“memory”,  ”stick”,  0.63) 提案法は、キーワードに注⽬目出来ている. さらに、”stick”と”memory”の関係も マッチング時に重要な役割を果たしてい ることが⾒見見てとれる.提案法は重要なn-‐‑‒ gramのマッチングパターンを抽出できて いる.
  • 27. 18:  Experiments (2)  Performance  Comparison 【4つの分析】 1.  RAEとDeepMatchを除いた End-‐‑‒to-‐‑‒EndのDeepNNモデル は全て、BM25に勝っている. 2.  提案法3種類は、single   representationタイプのARC-‐‑‒ Ⅰ,  CNTN,  LSTM-‐‑‒RNNに対し て良良い結果を⽰示している. 3.  提案法3種類は、multiple   granularityタイプのRAE,   DeepMatch,  ARC-‐‑‒Ⅱ,   MultiGranCNNに対しても、良良 い結果を⽰示している. 4.  提案法はTensorタイプが最 も良良い結果となった.これは、 複雑な相互作⽤用をうまく捉え られるからだ.
  • 28. 19:  Experiments (2)  Performance  Comparison SX インターネットで無料料でロシア語学べる良良いサイトある? SY + 無料料で⾔言語を学べるとも思えないけど、基本的な語彙くらいなら学べるか もね.そういうことでは(インターネットは)素晴らしいと思う. SY -‐‑‒ Yahoo!のホームページに、無料料で提供されているゲームのリストが⾒見見れ るよ.もしくは、www.iwin.comで無料料のゲームをダウンロードできる.
  • 29. 20:  Experiments (2)  Performance  Comparison 単語  “free”  の意味について SY + About  free  language  resources SY -‐‑‒ About  free  games 提案法は、Multiple  positionによって、”free”  の違いを考慮できる.
  • 30. 21:  Experiments (2)  Performance  Comparison [Hu  et  al,  2014]の研究で は、MRRの検証は無かった. QAタスクの場合に⽐比べて、 Deep  Model⼿手法は、⼤大幅に 数値の改善が⾒見見られる. 提案法は、ベースラインに⽐比 べて、P@1で11.4%改善. -‐‑‒  Sentence  Completion
  • 31. 1.   Introduction 2.   Our  Approach 3.   Experiments 4.   Conclusion
  • 32. 本研究では、 •  2つの⽂文章のマッチングを考える際に、⽂文章の複数の位置に対する representationを考慮する優れた深層学習アーキテクト:MV-‐‑‒LSTMを 提案. Advantage  )  局所的な情報を抽出しつつ⽂文脈情報をより良良く取り扱うことがで き、これらによって、⽂文章全体から重要なキーワードを判別する. 22:  Conclusion •  MV-‐‑‒LSTMは、single-‐‑‒representationタイプの全ての⼿手法に対して優れ た結果を⽰示した. これは、マッチングを考える上で最も良良い位置が必ずしもいつも⽂文章の最後の 位置とは限らないことを⽰示している.(=LSTMで最終位置のHidden-‐‑‒stateを使 えばベストとは限らない.)したがって、複数の位置を考慮できる仕組みが必要 である. •  MV-‐‑‒LSTMは、Multiple-‐‑‒granularity  methodよりも良良い結果を⽰示した. ⽂文章全体のcontextをより良良く扱えるようにmulti-‐‑‒granularityを考慮する必要が ある.
  • 33. END