Mind’s Eye: A Recurrent Visual Representation for Image Caption Generation
1. Mind’s Eye: A Recurrent
Visual Representation for
Image Caption Generation
Xinlei Chen(*), C. Lawrence Zitnick(**)
(*):Carnegie Mellon University
(**):Microsoft Research, Redmond
手島知昭 (@tomoaki_teshima)
5. Long short term memory
• 過去情報を減衰せず
に再利用する
• これにより誤差が発
散・消失しない
http://www.slideshare.net/FujimotoKeisuke/learning-to-forget-continual-prediction-with-lstm
14. Language Model
• 3,000-20,000 words
• 計算コストが爆発するので、各wordにclassを割り
当てる
• classは似た出現頻度のwordをまとめることで生成
する
• Maximum Entropy language model
• preprocessing
W が one-hot representation の word
Sがcontextを覚える隠れ層
VはVisual Featureで、こいつらはconstant
Vとwを直接つなげるのはよろしくなくて、なぜならvはconstantだから
あと、vをSの半分のノードにしか繋げないほうが性能が良かった。
MS COCO を使って学習、PASCAL 1K を使ってテスト
4.3. Sentence generation
Our first set of experiments evaluate our model’s ability
to generate novel sentence descriptions of images. We experiment
on all the image-sentence datasets described previously
and compare to the RNN baselines and other previous
papers [33, 24]. Since PASCAL 1K has a limited amount of
training data, we report results trained on MS COCO and
tested on PASCAL 1K.
Human は人間が生成した文章。
特徴量はPPL は perplexity と言って、生成された文と元の文を、符号化する際に必要なbit数を表す
BLEUは1-4のn-gram で試して平均をとり、それに近い長さと比較する
For BLEU, we took the geometric
mean of the scores from 1-gram to 4-gram, and used the
ground truth length closest to the generated sentence to penalize
brevity