A Neural Attention Model for Sentence Summarization [Rush+2015]

2015/10/24
EMNLP2015読み会@PFI
kiyukuta

文の要約
文を短くする（言い換えとかも含めて）
!

文の要約
文を短くする（言い換えとかも含めて）
!
Document Summarization
文書から短い文書を作る
Sentence Compression
文から単語を削除して短くする
語順の入れ替えも無し

headline generationやvery short summary
とか言われるタスクとほぼおなじ
NN機械翻訳で話題のAttentionモデルを移植
（ただし，各コンポーネントを簡易化している）
背景
This
（3.2節の最後）
機械翻訳からインスパイアされた手法が以前から存在
＋
最近はNeural Networkベースの機械翻訳が盛ん

提案手法
まず論文の図を使ってざっくり説明
そのあと式を使って説明

Figure1. 提案手法の処理（終了時）の例
論文にある実例でざっくりイメージをつかむ

…
？
結論からいうと
入力単語ベクトルを荷重平均
して使うときの荷重

システムが russia calls for joint front まで出力した状態
次の出力単語 (against)をどう決めるか
途中状態で説明

weighted
average
次の単語をどう決めるか
過去の自分の予測単語c個と入力文中の単語を利用
単語ベクトルの荷重平均ベクトル

荷重はそのときの文脈情報でその都度決める
attention!!
＝

原文xが与えられた時の要約文yの条件付き確率

今回の出力単語過去c個の出力入力

calls for
ニューラル言語モデル[Bengio2003] 
文脈から次の単語を予測
softmax
大きく

加重平均ベクトルを求める関数
３種類
うち一つが本命のattention

エンコーダー１
単なる単語ベクトルの平均
- 過去の出力情報使わない
- 全ての単語が同じ重み
使わない

エンコーダー２
…
…
…
…
- 畳み込み
- max-pooling (size: 2)
のセットをn回繰り返す
これも使わない
↑ は無いけどイメージとしては

( )
エンコーダー3
……
i
＝

エンコーダー3
……
……

エンコーダー3
……
weighted
average
……

負の対数尤度を最小化

時には原文の単語をそのまま抽出した方が良いかもしれない
提案モデル
unigram素性
bigram素性
trigram素性
reordering素性
を学習することで
提案モデルのスコアが低い時はそのまま抽出

細かい設定は割愛
DUC2003,2004の公式データ : 500事例
Gigaword corpusの一文目とタイトル : 400万事例
実験

from authors slide
http://people.seas.harvard.edu/ srush/emnlp2015_slides.pdf
抽出のやつ

ROUGEによる既存研究との比較

ROUGEは「正解との表層の被り」がスコアになるので
Extraction要素を加えたABS＋の方が良い

場所や人などのキーワードは拾える
!
構文的に誤った並べ替えが発生してしまったり
事例観察

人手要約者の「短くしたいバイアス」があるのでnzみたいな省略は
頻繁に起きている（はず）なので，対応が取れている（はず）
foreign minister→fmも同様
なんかすごい言い換え
+

なんかすごい言い換えてるけど間違っている
more examples in the author s slide:
http://people.seas.harvard.edu/ srush/emnlp2015_slides.pdf

A Neural Attention Model for Sentence Summarization [Rush+2015]

A Neural Attention Model for Sentence Summarization [Rush+2015]

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Andere mochten auch

Andere mochten auch (17)

Kürzlich hochgeladen

Kürzlich hochgeladen (10)

A Neural Attention Model for Sentence Summarization [Rush+2015]