1. 2017.09.16
NAIST ⾃自然⾔言語処理理学研究室
D1 Masayoshi Kondo
論論⽂文紹介-‐‑‒ 最先端NLP勉強会@2017
Selective Encoding
for Abstractive Sentence Summarization
ACLʼ’17
Qingyu Zhou, Nan Yang, Furu Wei, Ming Zhou
Harbin Institute of Technology, Harbin China
Microsoft Research, Beijing China
2. 00: 論論⽂文の概要
• Seq2seqモデルを改良良したニューラル要約モデルの研究.
• EncからDecへ引き渡す情報を取捨選択する Selective Gate 機構を導⼊入.
• 短⽂文⽣生成要約のデータセット : 3つ で最⾼高精度度を更更新.
• 評価指標:ROUGEスコア (R-‐‑‒1, R-‐‑‒2, R-‐‑‒L)
【まとめ】
【モデル概略略図】
Encoding Selectcion Decoding
Sentence Encoder Summary DecoderSelective gate network
【データセット】
Train Set
Annotated English
Gigaword dataset
Test Set
Annotated English Gigaword Test-‐‑‒Set
DUC2004 Test Set
MSR-‐‑‒ATC Test Set
4. 01:近年年の Text Summarization タスクの発展状況
トップカンファレンスでの要約タスク論論⽂文数の推移.
0
5
10
15
20
25
30
2014 2015 2016 2017
Total
using Neural Net
company papers
using Neural Net
(注:過去4年年分の ACL / EMNLP を調査.検索索クエリ:summari)
初登場 !
Neural Abstractive Summarization
[EMNLPʼ’15, Rush et al.]
NNを⽤用いた⾔言語⽣生成系タスクは企業も活発
に研究を進めている.現状は、Google,
Facebook, IBM が、三強.
Summarization Tasks
(year)
(count)
5. 02:Neural Text Summarization について
【 Text Summarization 】
「原⽂文」の主要な情報を抽出し、より「短い⽂文章」で記述するタスク.
[Input]
[Output (predicted)]:
the microsoft corporation will open its office in dhaka on november
## to expand its sales and fight piracy in the market of this country ,
reported the daily new age on saturday .
microsoft to open new office in sri lanka.
[Output (correct)]: microsoft to open office in dhaka.
22. 15: Model -‐‑‒ selective mechanism
s is the concatenated vector of the last forward hidden state hn
and backward hidden state h1 .
→
←
s is the sentence representation vector.
For each word xi , the selective gate network generates a
gate vector sGatei using hi and s, then tailored representation
is hʼ’i.
23. Preliminaries
Introduction
Model
1. Summary Encoder
2. Selective Mechanism
3. Summary Decoder
-‐‑‒-‐‑‒ Objective Function
Experiments
Discussion & Conclusion
* Plus Alpha
24. 16: Model -‐‑‒ summary decoder
【提案ニューラルネットの構造図】
Summary Decoder
25. 17: Model -‐‑‒ summary decoder
• wt-‐‑‒1 : previous word embedding
• ct-‐‑‒1 : previous context vector
• st : new hidden state
Decoder : GRU with attention
Context vector の作り⽅方
1. (12式) st-‐‑‒1 と hʼ’i のベクトル
とアテンションベクトル :
va との内積を計算
2. (13式)ソフトマックス計算
3. (14式)重み付き和 計算
26. 18: Model -‐‑‒ summary decoder
• wt-‐‑‒1 : previous word embedding
• ct : context vector
• st : (current) decoder state
• rt : readout state
Decoder : GRU with attention (つづき)
[15式] : readout state の計算式(特徴量量毎の単純な線形和)
[16式] : マックスアウト関数の操作
[17式] : ソフトマックス関数の操作(最終出⼒力力)
27. Preliminaries
Introduction
Model
1. Summary Encoder
2. Selective Mechanism
3. Summary Decoder
-‐‑‒-‐‑‒ Objective Function
Experiments
Discussion & Conclusion
* Plus Alpha
28. 19: Model – objective function
Loss関数:Negative Log-‐‑‒Likelihood Loss
D : a set of parallel sentence summary pairs
θ : the model parameter
• ⼊入⼒力力系列列が与えられた下で⽣生成する要約⽂文の確率率率を最⼤大化
• 最適化法 : Stochastic Gradient Desent (SGD)
30. 20: Experiments
【Training Set】: Annotated English Gigaword dataset
【Test Set】: 3つ
English Gigaword Test Set
DUC2004 Test Set
MSR-‐‑‒ATC Test Set [Toutanova et al. 2016]
• (src, trg) : (記事の冒頭1⽂文, 記事の⾒見見出し⽂文)
• PTBトークナイズ・⼩小⽂文字化 処理理
• 数字は、♯(シャープ)記号 に変換
• 出現回数5回以下の単語を <unk> 変換
• 訓練データ:380万ペア / 開発データ:18.9万ペア
• Rush et al.の研究[Rush et al., EMNLPʼ’15]で⽤用いられたテストセット
• 2000ペア (summ側空データを除いた1951ペア、[Chopra et al., 2016])
• src:1に対してtrg:4の⼈人⼿手で作成された要約データ.
• 500ペア.⽣生成⽂文を75byte打切切で評価.
• Croudsourcingにより作成.総データ数:6000ペア.
• Test Set サイズ:785ペア
39. 28: Discussion : Saliency Heat Map of Selective Gate
[Input] : the council of europe ʼ’s human rights commissioner
slammed thursday as “ unacceptable “ conditions in france ʼ’s
overcrowded and dilapidated jails , where some ## inmates have
committed suicide this year .
[System] : council of europe slams french prison conditions.
[True] : council of europe again slams french prison conditions.