SlideShare ist ein Scribd-Unternehmen logo
1 von 27
Downloaden Sie, um offline zu lesen
StyleNet: Generating Attractive Visual
Caption with Style
Chuang Gan@IIIS, Tsinghua University
Zhe Gan@Duke University
Xiaodong He@Microsoft Research Redmond(MSRR)
Jianfeng Gao@MSRR
Li Deng@MSRR
CVPR’17
Yoshifumi Seki@Gunosy Inc.
DeepLearning.jp
2017.07.07
自己紹介
● 関 喜史
○ Gunosy 共同創業者
○ データ分析部研究開発チーム (仮)
○ 東大松尾研客員研究員 , 工学博士(2017年3月卒)
● 研究テーマ: ニュース推薦システムのサービス応用について
● 関心領域
○ 推薦システム, ユーザ行動分析
● 趣味
○ アイドル、日本酒、将棋
概要
● 魅力的なキャプションを生成したい
○ ユーモア、ロマンティックという
● LSTMのseq2seqのマルチタスクにインス
パイアされている
○ 転移学習感ある感じ
● ちなみにStyleNetというプロジェクトは他に
もある…
Show and Tell [Vinyals 15]
次に出る語の確率を出力する LSTM cell
Show, Attend and Tell[Xu 15]
● Zの部分がattention要素
● Eはembedding layer
○ 単語をベクトル化
● h_tが系列的に伝搬していく
Decoder
Context vector[Xu 15]
● 画像ベクタの重み付け
● 画像のどの部分にどのぐらい注目するかという
Stochastic Hard Attention[Xu 15]
● Sは画像の区分数の次元をもつone-hotな
vector
● α_{t, i}の確率でその次元が1になる
○ 多項分布
● zは、注目する区分の画像ベクタになる
Stochastic Hard Attention[Xu 15]
● p(y|a)の対数尤度を最大化したい
○ ある画像aのときに、あるキャプション yを生成する確率
● イェンセンの不等式で下界を定める
○ 下界が最大化できれば、 p(y|a)も最大化できるよね
Stochastic Hard Attention[Xu 15]
● Wを直接求めるためにWで微分
○ 第2項の微分を展開すると積の微分公式になる
Stocatic Hard Attention[Xu 15]
● Sのサンプルを生成してモンテカルロ法で求める
○ Sはαに従う多項分布なのでそれに従って生成
●
● モンテカルロ法による勾配の推定のバリアンスを減らしたい
○ [Ba 15][Mnish 14]とかで使われている手法
■ 画像へのattention model
○ ミニバッチごとにベースラインを更新していく
○ λはハイパーパラメータでクロスバリデーションできめる
■ 何をクロスバリデーションするんだろう
● 多項分布のエントロピー項を導入
● この式は強化学習に似ているらしい
Deterministic “Soft” Attention[Xu 15]
● 結論からいうとHardのほうがよかったので、詳しくは述べない
● Hardは多項分布だったけど、期待値を考える
○ 1点だけでなく、画像をひろく捉える (ゆるく、ひろく)
○ 機械翻訳でよく使われている
Factored LSTM module
●
Training Style Net
● 2つのタスクを学習する
○ captionとimageのPairを学習する
○ 言語モデルとして学習する
● S(style specific factor)以外は1と2で共通にする
● Captionとimageのペアはinitial vectorをCNNの最終層に
○ そうでないのはランダムノイズ
● 単語はEmbeddingしている。この重みも共有する
Flicker Styled Caption Dataset
● Amazon Mechanical Turk使う
○ 大変だったので聞いてほしい
● 最初はユーモラスなやつとロマンティックなやつ書けと直接言ってた
○ キャプションのクオリティをコントロールするのが難しい
○ 画像に関係ないフレーズや語をたびたびアノテータはつける
● 次はあるキャプションをユーモラスに、ロマンティックに書き換えろという問題にした
○ さらに、キャプションを書き換える例も示した
○ それでうまくいった
Quality Control
● Least
○ 500 HITS
○ 90% accuracy
● QualityをチェックするReviewerをAMTで依頼
○ 各キャプション、3人のワーカーに、そのキャプションが任意の styleになっているかを評価させる
○ 2人以上賛同したもののみ利用する
● Flicker Style 10K
○ Image: 10K
○ 7K for training, 2K for validation, 1K for testing
○ Training/Validation
■ ユーモラス、ロマンティックなキャプションが 1つずつある
○ Testing
■ ユーモラス、ロマンティックなキャプションが 5つずつある
○ Flicker 30Kのfactual captionもつかう
■ 5つずつある
Experiment Settings
● 画像からResNet152の最終層の出力2048次元のベクトルを得て、300次元のベク
トルに変換する
● 2回以上出現した語でvocabraryを作り、one-hot vectorにして、300次元に
embeddingする
● BLUE, METEOR, ROUGE, CIDErで評価
○ Caption生成で一般的なもの。要約にインスパイアされてる
● BaseLine
○ NIC(show and tell) Flicker 10KのFactualだけを用いた
○ CaptionBot: MSの商用サービス
○ Multi-Task: multi-task LSTM
○ Fine-tuned: 行列Sを考慮しない(すべてのパラメータが共有された状態 )で、Language Modelの学
習をする
Implementation Detail(1)
● Theano
● Adamで学習
● Batch size: captioningは64, language modelは96
● Learning rateは0.0002と0.0005
● LSTM cellとfactored matrixを512に
● すべてのパラメータは一様分布で初期化
● One epochごとに、タスクを切り替える
○ キャプション生成⇔言語モデルを Epochごとに繰り返してる
○ ユーモアとロマンティックを組み合わせて trainingしてみたけど、よくならなかった
● 30 epochで収束
● キャプションはbeam size5のビームサーチで生成
Implementation Detail(2)
● Caption Bot以外はResNet152の最終層の出力で作り直し
● NICはbatch size 64で20 epochで停止
● Caption BotはMicrosoft Computer Vision APIを利用
● Fine-Tuned modelでは20 epochを学習率0.0002でimage captioningを行い、学
習室0.0005でlanguage modelを訓練。
● MultiTask BaseはStyleNetと一緒な設定
○ 30 epochで収束した
Experiment Results
Human Evaluation
● NIC, CaptionBot, StyleNet(Romantic/Humorous)で5つずつ生成
● どれが一番”魅力的か”聞く
● 85%がStyleNetの結果を選んだ
Video Captioning
● 3D-CNN[D.Tran+2015]
○ 1M Dataset[A. Karpathy+2014]
● 1970 Youtube Clips
○ Each clip 40 captions
○ 1,200 video training, 100 video validation, 670 video captioning
● その他は同じ設定で学習
● Baseline
○ Captioning data使って学習したStandardモデル
Video Captioning
● 人間による評価
○ BaseLineとStyleNetから3
つずつ生成
○ ビデオとキャプションをみせ
てどれが魅力的か聞く
● 80%以上がStyleNetのほ
うが魅力的だと回答
結論
● Factored LSTMを提案
● End-to-endのframework StyleNetを提案
● 定量的、定性的アプローチによって有効性を確認した
● 今後、新たなデータも加えた形で、本データセットは公開する予定
お気持ち
● データセットの作り方、LSTMのお気持ちに沿って作られている気がした
● こんなシンプルなのでいけちゃうのすごい
● 一方でキャプション生成のコアの部分はLSTM並べるのがまだSOTAなのかなと?
● 重みをFactorizeして共有しながら転移学習させるのは、いろんな領域で応用が効
きそう

Weitere ähnliche Inhalte

Was ist angesagt?

Densely Connected Convolutional Networks
Densely Connected Convolutional NetworksDensely Connected Convolutional Networks
Densely Connected Convolutional Networks
harmonylab
 
Convolutional Neural Network @ CV勉強会関東
Convolutional Neural Network @ CV勉強会関東Convolutional Neural Network @ CV勉強会関東
Convolutional Neural Network @ CV勉強会関東
Hokuto Kagaya
 

Was ist angesagt? (20)

【DL輪読会】Data-Efficient Reinforcement Learning with Self-Predictive Representat...
【DL輪読会】Data-Efficient Reinforcement Learning with Self-Predictive Representat...【DL輪読会】Data-Efficient Reinforcement Learning with Self-Predictive Representat...
【DL輪読会】Data-Efficient Reinforcement Learning with Self-Predictive Representat...
 
Learning Convolutional Neural Networks for Graphs
Learning Convolutional Neural Networks for GraphsLearning Convolutional Neural Networks for Graphs
Learning Convolutional Neural Networks for Graphs
 
【2017年】ディープラーニングのフレームワーク比較
【2017年】ディープラーニングのフレームワーク比較【2017年】ディープラーニングのフレームワーク比較
【2017年】ディープラーニングのフレームワーク比較
 
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化
 
[DL輪読会] Towards an Automatic Turing Test: Learning to Evaluate Dialogue Respo...
[DL輪読会] Towards an Automatic Turing Test: Learning to Evaluate Dialogue Respo...[DL輪読会] Towards an Automatic Turing Test: Learning to Evaluate Dialogue Respo...
[DL輪読会] Towards an Automatic Turing Test: Learning to Evaluate Dialogue Respo...
 
Densely Connected Convolutional Networks
Densely Connected Convolutional NetworksDensely Connected Convolutional Networks
Densely Connected Convolutional Networks
 
20171212 gtc pfn海野裕也_chainerで加速する深層学習とフレームワークの未来
20171212 gtc pfn海野裕也_chainerで加速する深層学習とフレームワークの未来20171212 gtc pfn海野裕也_chainerで加速する深層学習とフレームワークの未来
20171212 gtc pfn海野裕也_chainerで加速する深層学習とフレームワークの未来
 
[DL輪読会]Learning Task Informed Abstractions
[DL輪読会]Learning Task Informed Abstractions [DL輪読会]Learning Task Informed Abstractions
[DL輪読会]Learning Task Informed Abstractions
 
画像キャプションの自動生成
画像キャプションの自動生成画像キャプションの自動生成
画像キャプションの自動生成
 
[DL輪読会]Deep Face Recognition: A Survey
[DL輪読会]Deep Face Recognition: A Survey[DL輪読会]Deep Face Recognition: A Survey
[DL輪読会]Deep Face Recognition: A Survey
 
semantic segmentation サーベイ
semantic segmentation サーベイsemantic segmentation サーベイ
semantic segmentation サーベイ
 
2018 07 02_dense_pose
2018 07 02_dense_pose2018 07 02_dense_pose
2018 07 02_dense_pose
 
生成モデルの Deep Learning
生成モデルの Deep Learning生成モデルの Deep Learning
生成モデルの Deep Learning
 
Convolutional Neural Network @ CV勉強会関東
Convolutional Neural Network @ CV勉強会関東Convolutional Neural Network @ CV勉強会関東
Convolutional Neural Network @ CV勉強会関東
 
ChainerでDeep Learningを試すために必要なこと
ChainerでDeep Learningを試すために必要なことChainerでDeep Learningを試すために必要なこと
ChainerでDeep Learningを試すために必要なこと
 
Learning to forget continual prediction with lstm
Learning to forget continual prediction with lstmLearning to forget continual prediction with lstm
Learning to forget continual prediction with lstm
 
Convolutional Neural Netwoks で自然言語処理をする
Convolutional Neural Netwoks で自然言語処理をするConvolutional Neural Netwoks で自然言語処理をする
Convolutional Neural Netwoks で自然言語処理をする
 
[DL輪読会]Dense Captioning分野のまとめ
[DL輪読会]Dense Captioning分野のまとめ[DL輪読会]Dense Captioning分野のまとめ
[DL輪読会]Dense Captioning分野のまとめ
 
[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について
 
Deep learningの発展と化学反応への応用 - 日本化学会第101春季大会(2021)
Deep learningの発展と化学反応への応用 - 日本化学会第101春季大会(2021)Deep learningの発展と化学反応への応用 - 日本化学会第101春季大会(2021)
Deep learningの発展と化学反応への応用 - 日本化学会第101春季大会(2021)
 

Ähnlich wie [DL輪読会]StyleNet: Generating Attractive Visual Captions with Styles

XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」
XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」
XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」
Shuji Morisaki
 
「関心の分離」と「疎結合」 ソフトウェアアーキテクチャのひとかけら
「関心の分離」と「疎結合」   ソフトウェアアーキテクチャのひとかけら「関心の分離」と「疎結合」   ソフトウェアアーキテクチャのひとかけら
「関心の分離」と「疎結合」 ソフトウェアアーキテクチャのひとかけら
Atsushi Nakamura
 

Ähnlich wie [DL輪読会]StyleNet: Generating Attractive Visual Captions with Styles (20)

makoto shing (stability ai) - image model fine-tuning - wandb_event_230525.pdf
makoto shing (stability ai) - image model fine-tuning - wandb_event_230525.pdfmakoto shing (stability ai) - image model fine-tuning - wandb_event_230525.pdf
makoto shing (stability ai) - image model fine-tuning - wandb_event_230525.pdf
 
XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」
XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」
XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」
 
インターネット広告の概要とシステム設計
インターネット広告の概要とシステム設計インターネット広告の概要とシステム設計
インターネット広告の概要とシステム設計
 
Intel OpenVINO™ ツールキットのご紹介
Intel OpenVINO™ ツールキットのご紹介Intel OpenVINO™ ツールキットのご紹介
Intel OpenVINO™ ツールキットのご紹介
 
運用中のゲームにAIを導入するには〜プロジェクト推進・ユースケース・運用〜 [DeNA TechCon 2019]
運用中のゲームにAIを導入するには〜プロジェクト推進・ユースケース・運用〜 [DeNA TechCon 2019]運用中のゲームにAIを導入するには〜プロジェクト推進・ユースケース・運用〜 [DeNA TechCon 2019]
運用中のゲームにAIを導入するには〜プロジェクト推進・ユースケース・運用〜 [DeNA TechCon 2019]
 
Kaggleのテクニック
KaggleのテクニックKaggleのテクニック
Kaggleのテクニック
 
マトリックス型モデルによるテキストエディターと作文過程の可視化
マトリックス型モデルによるテキストエディターと作文過程の可視化マトリックス型モデルによるテキストエディターと作文過程の可視化
マトリックス型モデルによるテキストエディターと作文過程の可視化
 
AIのラボからロボティクスへ --- 東大松尾研究室のWRS2020パートナーロボットチャレンジへの挑戦
AIのラボからロボティクスへ --- 東大松尾研究室のWRS2020パートナーロボットチャレンジへの挑戦AIのラボからロボティクスへ --- 東大松尾研究室のWRS2020パートナーロボットチャレンジへの挑戦
AIのラボからロボティクスへ --- 東大松尾研究室のWRS2020パートナーロボットチャレンジへの挑戦
 
「機械学習とは?」から始める Deep learning実践入門
「機械学習とは?」から始める Deep learning実践入門「機械学習とは?」から始める Deep learning実践入門
「機械学習とは?」から始める Deep learning実践入門
 
LightSwitch 結局何ができるの
LightSwitch 結局何ができるのLightSwitch 結局何ができるの
LightSwitch 結局何ができるの
 
2020/11/19 Global AI on Tour - Toyama プログラマーのための機械学習入門
2020/11/19 Global AI on Tour - Toyama プログラマーのための機械学習入門2020/11/19 Global AI on Tour - Toyama プログラマーのための機械学習入門
2020/11/19 Global AI on Tour - Toyama プログラマーのための機械学習入門
 
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​
 
Scrum alliance regional gathering tokyo 2013 pub
Scrum alliance regional gathering tokyo 2013 pubScrum alliance regional gathering tokyo 2013 pub
Scrum alliance regional gathering tokyo 2013 pub
 
AIがAIを生み出す?
AIがAIを生み出す?AIがAIを生み出す?
AIがAIを生み出す?
 
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models
 
Machine learning microservice_management
Machine learning microservice_managementMachine learning microservice_management
Machine learning microservice_management
 
Python による 「スクレイピング & 自然言語処理」入門
Python による 「スクレイピング & 自然言語処理」入門Python による 「スクレイピング & 自然言語処理」入門
Python による 「スクレイピング & 自然言語処理」入門
 
AI搭載の新しいBingとEdge
AI搭載の新しいBingとEdgeAI搭載の新しいBingとEdge
AI搭載の新しいBingとEdge
 
「関心の分離」と「疎結合」 ソフトウェアアーキテクチャのひとかけら
「関心の分離」と「疎結合」   ソフトウェアアーキテクチャのひとかけら「関心の分離」と「疎結合」   ソフトウェアアーキテクチャのひとかけら
「関心の分離」と「疎結合」 ソフトウェアアーキテクチャのひとかけら
 
静的解析とUIの自動生成を駆使してモバイルアプリの運用コストを大幅に下げた話
静的解析とUIの自動生成を駆使してモバイルアプリの運用コストを大幅に下げた話静的解析とUIの自動生成を駆使してモバイルアプリの運用コストを大幅に下げた話
静的解析とUIの自動生成を駆使してモバイルアプリの運用コストを大幅に下げた話
 

Mehr von Deep Learning JP

Mehr von Deep Learning JP (20)

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
 

[DL輪読会]StyleNet: Generating Attractive Visual Captions with Styles

  • 1. StyleNet: Generating Attractive Visual Caption with Style Chuang Gan@IIIS, Tsinghua University Zhe Gan@Duke University Xiaodong He@Microsoft Research Redmond(MSRR) Jianfeng Gao@MSRR Li Deng@MSRR CVPR’17 Yoshifumi Seki@Gunosy Inc. DeepLearning.jp 2017.07.07
  • 2. 自己紹介 ● 関 喜史 ○ Gunosy 共同創業者 ○ データ分析部研究開発チーム (仮) ○ 東大松尾研客員研究員 , 工学博士(2017年3月卒) ● 研究テーマ: ニュース推薦システムのサービス応用について ● 関心領域 ○ 推薦システム, ユーザ行動分析 ● 趣味 ○ アイドル、日本酒、将棋
  • 3. 概要 ● 魅力的なキャプションを生成したい ○ ユーモア、ロマンティックという ● LSTMのseq2seqのマルチタスクにインス パイアされている ○ 転移学習感ある感じ ● ちなみにStyleNetというプロジェクトは他に もある…
  • 4. Show and Tell [Vinyals 15] 次に出る語の確率を出力する LSTM cell
  • 5. Show, Attend and Tell[Xu 15] ● Zの部分がattention要素 ● Eはembedding layer ○ 単語をベクトル化 ● h_tが系列的に伝搬していく Decoder
  • 6. Context vector[Xu 15] ● 画像ベクタの重み付け ● 画像のどの部分にどのぐらい注目するかという
  • 7. Stochastic Hard Attention[Xu 15] ● Sは画像の区分数の次元をもつone-hotな vector ● α_{t, i}の確率でその次元が1になる ○ 多項分布 ● zは、注目する区分の画像ベクタになる
  • 8. Stochastic Hard Attention[Xu 15] ● p(y|a)の対数尤度を最大化したい ○ ある画像aのときに、あるキャプション yを生成する確率 ● イェンセンの不等式で下界を定める ○ 下界が最大化できれば、 p(y|a)も最大化できるよね
  • 9. Stochastic Hard Attention[Xu 15] ● Wを直接求めるためにWで微分 ○ 第2項の微分を展開すると積の微分公式になる
  • 10. Stocatic Hard Attention[Xu 15] ● Sのサンプルを生成してモンテカルロ法で求める ○ Sはαに従う多項分布なのでそれに従って生成 ●
  • 11. ● モンテカルロ法による勾配の推定のバリアンスを減らしたい ○ [Ba 15][Mnish 14]とかで使われている手法 ■ 画像へのattention model ○ ミニバッチごとにベースラインを更新していく ○ λはハイパーパラメータでクロスバリデーションできめる ■ 何をクロスバリデーションするんだろう ● 多項分布のエントロピー項を導入 ● この式は強化学習に似ているらしい
  • 12. Deterministic “Soft” Attention[Xu 15] ● 結論からいうとHardのほうがよかったので、詳しくは述べない ● Hardは多項分布だったけど、期待値を考える ○ 1点だけでなく、画像をひろく捉える (ゆるく、ひろく) ○ 機械翻訳でよく使われている
  • 14.
  • 15. Training Style Net ● 2つのタスクを学習する ○ captionとimageのPairを学習する ○ 言語モデルとして学習する ● S(style specific factor)以外は1と2で共通にする ● Captionとimageのペアはinitial vectorをCNNの最終層に ○ そうでないのはランダムノイズ ● 単語はEmbeddingしている。この重みも共有する
  • 16. Flicker Styled Caption Dataset ● Amazon Mechanical Turk使う ○ 大変だったので聞いてほしい ● 最初はユーモラスなやつとロマンティックなやつ書けと直接言ってた ○ キャプションのクオリティをコントロールするのが難しい ○ 画像に関係ないフレーズや語をたびたびアノテータはつける ● 次はあるキャプションをユーモラスに、ロマンティックに書き換えろという問題にした ○ さらに、キャプションを書き換える例も示した ○ それでうまくいった
  • 17. Quality Control ● Least ○ 500 HITS ○ 90% accuracy ● QualityをチェックするReviewerをAMTで依頼 ○ 各キャプション、3人のワーカーに、そのキャプションが任意の styleになっているかを評価させる ○ 2人以上賛同したもののみ利用する ● Flicker Style 10K ○ Image: 10K ○ 7K for training, 2K for validation, 1K for testing ○ Training/Validation ■ ユーモラス、ロマンティックなキャプションが 1つずつある ○ Testing ■ ユーモラス、ロマンティックなキャプションが 5つずつある ○ Flicker 30Kのfactual captionもつかう ■ 5つずつある
  • 18. Experiment Settings ● 画像からResNet152の最終層の出力2048次元のベクトルを得て、300次元のベク トルに変換する ● 2回以上出現した語でvocabraryを作り、one-hot vectorにして、300次元に embeddingする ● BLUE, METEOR, ROUGE, CIDErで評価 ○ Caption生成で一般的なもの。要約にインスパイアされてる ● BaseLine ○ NIC(show and tell) Flicker 10KのFactualだけを用いた ○ CaptionBot: MSの商用サービス ○ Multi-Task: multi-task LSTM ○ Fine-tuned: 行列Sを考慮しない(すべてのパラメータが共有された状態 )で、Language Modelの学 習をする
  • 19. Implementation Detail(1) ● Theano ● Adamで学習 ● Batch size: captioningは64, language modelは96 ● Learning rateは0.0002と0.0005 ● LSTM cellとfactored matrixを512に ● すべてのパラメータは一様分布で初期化 ● One epochごとに、タスクを切り替える ○ キャプション生成⇔言語モデルを Epochごとに繰り返してる ○ ユーモアとロマンティックを組み合わせて trainingしてみたけど、よくならなかった ● 30 epochで収束 ● キャプションはbeam size5のビームサーチで生成
  • 20. Implementation Detail(2) ● Caption Bot以外はResNet152の最終層の出力で作り直し ● NICはbatch size 64で20 epochで停止 ● Caption BotはMicrosoft Computer Vision APIを利用 ● Fine-Tuned modelでは20 epochを学習率0.0002でimage captioningを行い、学 習室0.0005でlanguage modelを訓練。 ● MultiTask BaseはStyleNetと一緒な設定 ○ 30 epochで収束した
  • 22.
  • 23. Human Evaluation ● NIC, CaptionBot, StyleNet(Romantic/Humorous)で5つずつ生成 ● どれが一番”魅力的か”聞く ● 85%がStyleNetの結果を選んだ
  • 24. Video Captioning ● 3D-CNN[D.Tran+2015] ○ 1M Dataset[A. Karpathy+2014] ● 1970 Youtube Clips ○ Each clip 40 captions ○ 1,200 video training, 100 video validation, 670 video captioning ● その他は同じ設定で学習 ● Baseline ○ Captioning data使って学習したStandardモデル
  • 25. Video Captioning ● 人間による評価 ○ BaseLineとStyleNetから3 つずつ生成 ○ ビデオとキャプションをみせ てどれが魅力的か聞く ● 80%以上がStyleNetのほ うが魅力的だと回答
  • 26. 結論 ● Factored LSTMを提案 ● End-to-endのframework StyleNetを提案 ● 定量的、定性的アプローチによって有効性を確認した ● 今後、新たなデータも加えた形で、本データセットは公開する予定
  • 27. お気持ち ● データセットの作り方、LSTMのお気持ちに沿って作られている気がした ● こんなシンプルなのでいけちゃうのすごい ● 一方でキャプション生成のコアの部分はLSTM並べるのがまだSOTAなのかなと? ● 重みをFactorizeして共有しながら転移学習させるのは、いろんな領域で応用が効 きそう