Weitere ähnliche Inhalte Ähnlich wie [DL輪読会]StyleNet: Generating Attractive Visual Captions with Styles (20) Mehr von Deep Learning JP (20) [DL輪読会]StyleNet: Generating Attractive Visual Captions with Styles1. StyleNet: Generating Attractive Visual
Caption with Style
Chuang Gan@IIIS, Tsinghua University
Zhe Gan@Duke University
Xiaodong He@Microsoft Research Redmond(MSRR)
Jianfeng Gao@MSRR
Li Deng@MSRR
CVPR’17
Yoshifumi Seki@Gunosy Inc.
DeepLearning.jp
2017.07.07
2. 自己紹介
● 関 喜史
○ Gunosy 共同創業者
○ データ分析部研究開発チーム (仮)
○ 東大松尾研客員研究員 , 工学博士(2017年3月卒)
● 研究テーマ: ニュース推薦システムのサービス応用について
● 関心領域
○ 推薦システム, ユーザ行動分析
● 趣味
○ アイドル、日本酒、将棋
5. Show, Attend and Tell[Xu 15]
● Zの部分がattention要素
● Eはembedding layer
○ 単語をベクトル化
● h_tが系列的に伝搬していく
Decoder
11. ● モンテカルロ法による勾配の推定のバリアンスを減らしたい
○ [Ba 15][Mnish 14]とかで使われている手法
■ 画像へのattention model
○ ミニバッチごとにベースラインを更新していく
○ λはハイパーパラメータでクロスバリデーションできめる
■ 何をクロスバリデーションするんだろう
● 多項分布のエントロピー項を導入
● この式は強化学習に似ているらしい
15. Training Style Net
● 2つのタスクを学習する
○ captionとimageのPairを学習する
○ 言語モデルとして学習する
● S(style specific factor)以外は1と2で共通にする
● Captionとimageのペアはinitial vectorをCNNの最終層に
○ そうでないのはランダムノイズ
● 単語はEmbeddingしている。この重みも共有する
16. Flicker Styled Caption Dataset
● Amazon Mechanical Turk使う
○ 大変だったので聞いてほしい
● 最初はユーモラスなやつとロマンティックなやつ書けと直接言ってた
○ キャプションのクオリティをコントロールするのが難しい
○ 画像に関係ないフレーズや語をたびたびアノテータはつける
● 次はあるキャプションをユーモラスに、ロマンティックに書き換えろという問題にした
○ さらに、キャプションを書き換える例も示した
○ それでうまくいった
17. Quality Control
● Least
○ 500 HITS
○ 90% accuracy
● QualityをチェックするReviewerをAMTで依頼
○ 各キャプション、3人のワーカーに、そのキャプションが任意の styleになっているかを評価させる
○ 2人以上賛同したもののみ利用する
● Flicker Style 10K
○ Image: 10K
○ 7K for training, 2K for validation, 1K for testing
○ Training/Validation
■ ユーモラス、ロマンティックなキャプションが 1つずつある
○ Testing
■ ユーモラス、ロマンティックなキャプションが 5つずつある
○ Flicker 30Kのfactual captionもつかう
■ 5つずつある
18. Experiment Settings
● 画像からResNet152の最終層の出力2048次元のベクトルを得て、300次元のベク
トルに変換する
● 2回以上出現した語でvocabraryを作り、one-hot vectorにして、300次元に
embeddingする
● BLUE, METEOR, ROUGE, CIDErで評価
○ Caption生成で一般的なもの。要約にインスパイアされてる
● BaseLine
○ NIC(show and tell) Flicker 10KのFactualだけを用いた
○ CaptionBot: MSの商用サービス
○ Multi-Task: multi-task LSTM
○ Fine-tuned: 行列Sを考慮しない(すべてのパラメータが共有された状態 )で、Language Modelの学
習をする
19. Implementation Detail(1)
● Theano
● Adamで学習
● Batch size: captioningは64, language modelは96
● Learning rateは0.0002と0.0005
● LSTM cellとfactored matrixを512に
● すべてのパラメータは一様分布で初期化
● One epochごとに、タスクを切り替える
○ キャプション生成⇔言語モデルを Epochごとに繰り返してる
○ ユーモアとロマンティックを組み合わせて trainingしてみたけど、よくならなかった
● 30 epochで収束
● キャプションはbeam size5のビームサーチで生成
20. Implementation Detail(2)
● Caption Bot以外はResNet152の最終層の出力で作り直し
● NICはbatch size 64で20 epochで停止
● Caption BotはMicrosoft Computer Vision APIを利用
● Fine-Tuned modelでは20 epochを学習率0.0002でimage captioningを行い、学
習室0.0005でlanguage modelを訓練。
● MultiTask BaseはStyleNetと一緒な設定
○ 30 epochで収束した
24. Video Captioning
● 3D-CNN[D.Tran+2015]
○ 1M Dataset[A. Karpathy+2014]
● 1970 Youtube Clips
○ Each clip 40 captions
○ 1,200 video training, 100 video validation, 670 video captioning
● その他は同じ設定で学習
● Baseline
○ Captioning data使って学習したStandardモデル
26. 結論
● Factored LSTMを提案
● End-to-endのframework StyleNetを提案
● 定量的、定性的アプローチによって有効性を確認した
● 今後、新たなデータも加えた形で、本データセットは公開する予定