SlideShare ist ein Scribd-Unternehmen logo
1 von 26
Mind’s Eye: A Recurrent
Visual Representation for
Image Caption Generation
Xinlei Chen(*), C. Lawrence Zitnick(**)
(*):Carnegie Mellon University
(**):Microsoft Research, Redmond
手島知昭 (@tomoaki_teshima)
結果
Recurrent NNとは?
• 時系列データなどの「連続したデータ」を扱うため
のニューラルネットワーク
• 音声認識、機械翻訳、動画像認識
http://www.slideshare.net/takmin/show-andtell-takmin
入力
隠れ層
出力
…
…
…
Recurrent NNの課題
• 展開すると、静的なネットワークで表せる
…
…
…
…
…
…
…
…
…
入力
隠れ層
出力
Long short term memory
• 過去情報を減衰せず
に再利用する
• これにより誤差が発
散・消失しない
http://www.slideshare.net/FujimotoKeisuke/learning-to-forget-continual-prediction-with-lstm
本手法のLSTMに該当するもの
Paint a picture in your mind’s eye
提案手法の概要
• 画像←→キャプションの双方向生成/推定が可能
• キャプション生成、もしくは画像クエリの研究はあった
• Joint Feature Spaceに投影する研究もあった
• 使われた単語を記憶する隠し層を追加
提案手法のNNの構成
提案手法のNNの構成
Mikolov[29]
word
隠れ層
Mikolov[32]Visual feature
(constant)
LSTMの効果
本手法のLSTMに該当するもの
Visual feature
出現した単語を記憶しつつ
Visual Feature を再構築する
Uの初期値は
画像特徴量の事前分布にならう
画像からキャプション生成
入力画像の特徴量
キャプションから画像選択
文章の各word
Language Model
• 3,000-20,000 words
• 計算コストが爆発するので、各wordにclassを割り
当てる
• classは似た出現頻度のwordをまとめることで生成
する
• Maximum Entropy language model
• preprocessing
Learning
• 逆伝播法
• 数word分unroll したもので学習する
• 行をまたいだ場合、モデルをリセットする
• Recurrent unitsのweightの学習はオンライン
• Once per sentence batch update
• Sigmoid で、単語にはsoft-maxを使う
評価結果(Sentence generation)
PASCAL
PPL BLEU METEOR
Midge[33] - 2.9 8.8
Baby Talk[24] - 0.5 9.7
Our Approach 25.3 9.8 16.0
Our Approach + FT 24.6 10.4 16.3
Our Approach + VGG 23.8 12.0 17.6
Human - 20.1 25.0
評価結果(Sentence generation)
PASCAL
PPL BLEU METEOR
Midge[33] - 2.9 8.8
Baby Talk[24] - 0.5 9.7
Our Approach 25.3 9.8 16.0
Our Approach + FT 24.6 10.4 16.3
Our Approach + VGG 23.8 12.0 17.6
Human - 20.1 25.0
小さいほど( ・∀・)イイ!! 大きいほど( ・∀・)イイ!!
評価結果(Sentence Generation)
Flickr 8K Flickr 30K MS COCO Val MS COCO Test
PPL BLEU METEOR PPL BLEU METEOR PPL BLEU METEOR BLEU METEOR CIDEr
RNN 17.5 4.5 10.3 23 6.3 10.7 16.9 4.7 9.8 - - -
RNN+IF 16.5 11.9 16.2 20.8 11.3 14.3 13.3 16.3 17.7 - - -
RNN+IF+FT 16 12 16.3 20.5 11.6 14.6 12.9 17 18 - - -
RNN+VGG 15.2 12.4 16.7 20 11.9 15 12.6 18.4 19.3 18 19.1 51.5
Our Approach 16.1 12.2 16.6 20 11.3 14.6 12.6 16.3 17.8 - - -
Our Approach + FT 15.8 12.4 16.7 19.5 11.6 14.7 12 16.8 18.1 16.5 18 44.8
Our Approach + VGG 15.1 13.1 16.9 19.1 12 15.2 11.6 18.8 19.6 18.4 19.5 53.1
Human - 20.6 25.5 - 18.9 22.9 - 19.2 24.1 21.7 25.2 85.4
RNNに画像特徴量(IF)を入力
RNNに画像特徴量(IF)を入力し、学習時に逆伝播でさらにチューニング
IF(CNN)の代わりにVGGを画像特徴量として使用
評価結果(3) Flickr 8K
Sentence Retrieval Image Retrieval
R@1 R@5 R@10 Med r R@1 R@5 R@10 Med r
Random Ranking 0.1 0.6 1.1 631 0.1 0.5 1 500
SDT-RNN [38] 4.5 18 28.6 32 6.1 18.5 29 29
DeViSE [12] 4.8 16.5 27.3 28 5.9 20.1 29.6 29
DeepFE [20] 12.6 32.9 44 14 9.7 29.6 42.5 15
DeepFE+DECAF [20] 5.9 19.2 27.3 34 5.2 17.6 26.5 32
RNN+VGG 8.9 25.7 38.7 20.5 6.5 17.3 28.4 25
Our Approach (T) 9.6 29.1 41.6 17 7 23.6 33.6 23
Our Approach (T+I) 9.9 29.2 42.4 16 7.3 24.6 36 20
[16] 8.3 21.6 30.3 34 7.6 20.7 30.1 38
RNN+VGG 7.7 23 37.2 21 6.8 24 33.9 23.5
Our Approach (T) 8.1 24.4 39.1 19 7.4 25 37.5 21
Our Approach (T+I) 8.6 25.9 40.1 17 7.6 24.9 37.8 20
M-RNN [28] 14.5 37.2 48.5 11 11.5 31 42.4 15
RNN+VGG 14.4 37.9 48.2 10 15.6 38.4 50.6 10
Our Approach (T) 15.2 39.8 49.3 8.5 16.4 40.9 54.8 9
Our Approach (T+I) 15.4 40.6 50.1 8 17.3 42.5 57.4 7
評価結果(4) Flickr 30K
Sentence Retrieval Image Retrieval
R@1 R@5 R@10 Med r R@1 R@5 R@10 Med r
Random Ranking 0.1 0.6 1.1 631 0.1 0.5 1 500
SDT-RNN [38] 4.5 18.1 29.2 26 6.7 21.9 32.7 25
DeViSE [12] 16.4 40.2 54.7 8 10.3 31.4 44.5 13
DeepFE [20] 10.2 26.9 36.7 22 7.6 21.3 31.4 27
Our Approach (T) 11.3 30.1 43.2 16 8.2 24.7 37 22
Our Approach (T+I) 11.9 32.9 45.1 14 8.4 25.7 36.8 21
[16] 18.4 40.2 50.9 10 12.6 31.2 41.5 16
RNN+VGG 14.9 36.7 52.1 11 15.1 41.1 54.1 9
Our Approach (T) 15.8 42 57.4 9 17.7 44.9 57.2 7.5
Our Approach (T+I) 16.6 42.5 58.9 8 18.5 45.7 58.1 7
生成結果
生成例(失敗含む)
まとめ
• 画像からキャプション生成、もしくはクエリから画像
選択を1つのNNを使って実現した
• 従来のクエリを行うNNは、文章と画像の特徴量を同じ
空間に投影するだけで、同じNNから生成しているのと
は違う
• 使用された単語をLSTMとして常に入力することで、
性能を向上させた
今後の展望
• 以下の2つを同時に推定するのでなく順番に推定
すると性能が向上するかも知れない
• 画像中に何が写ってるか (object)
• Objectの関係はどうなっているか
• 位置関係を表すwordsは不得意な傾向にある
• 本当(?)
おまけ
• 前回の皆川さんの発表 “Show and Tell: A Newral
Image Caption Generator” との違い
• RNNを使ってキャプション生成
• 画像をNNにかけた結果を入力する
• 評価実験にPASCAL VOC,Flicker8K,Flicker30Kおよび
MSCOCOを使用
• 生成されたキャプションの評価にBLEU、METEOR、
CIDERを使用
差分
• 本手法はキャプション生成だけでなく、説明文から
画像特徴量を復元できる
• 画像特徴量でなく文字の出現頻度をLSTMとして用
いる

Weitere ähnliche Inhalte

Ähnlich wie Mind’s Eye: A Recurrent Visual Representation for Image Caption Generation

文献紹介:Selective Feature Compression for Efficient Activity Recognition Inference
文献紹介:Selective Feature Compression for Efficient Activity Recognition Inference文献紹介:Selective Feature Compression for Efficient Activity Recognition Inference
文献紹介:Selective Feature Compression for Efficient Activity Recognition InferenceToru Tamaki
 
文献紹介:SegFormer: Simple and Efficient Design for Semantic Segmentation with Tr...
文献紹介:SegFormer: Simple and Efficient Design for Semantic Segmentation with Tr...文献紹介:SegFormer: Simple and Efficient Design for Semantic Segmentation with Tr...
文献紹介:SegFormer: Simple and Efficient Design for Semantic Segmentation with Tr...Toru Tamaki
 
SSII2014 チュートリアル資料
SSII2014 チュートリアル資料SSII2014 チュートリアル資料
SSII2014 チュートリアル資料Masayuki Tanaka
 
DAシンポジウム2019招待講演「深層学習モデルの高速なTraining/InferenceのためのHW/SW技術」 金子紘也hare
DAシンポジウム2019招待講演「深層学習モデルの高速なTraining/InferenceのためのHW/SW技術」 金子紘也hareDAシンポジウム2019招待講演「深層学習モデルの高速なTraining/InferenceのためのHW/SW技術」 金子紘也hare
DAシンポジウム2019招待講演「深層学習モデルの高速なTraining/InferenceのためのHW/SW技術」 金子紘也harePreferred Networks
 
第二回データサイエンティスト木曜勉強会20141016
第二回データサイエンティスト木曜勉強会20141016第二回データサイエンティスト木曜勉強会20141016
第二回データサイエンティスト木曜勉強会20141016Koichiro Kondo
 
データサイエンティスト協会 木曜勉強会 #02『クレンジングからビジュアライズまで!実践!データ解析超入門!』
データサイエンティスト協会 木曜勉強会 #02『クレンジングからビジュアライズまで!実践!データ解析超入門!』データサイエンティスト協会 木曜勉強会 #02『クレンジングからビジュアライズまで!実践!データ解析超入門!』
データサイエンティスト協会 木曜勉強会 #02『クレンジングからビジュアライズまで!実践!データ解析超入門!』The Japan DataScientist Society
 
Transformer 動向調査 in 画像認識(修正版)
Transformer 動向調査 in 画像認識(修正版)Transformer 動向調査 in 画像認識(修正版)
Transformer 動向調査 in 画像認識(修正版)Kazuki Maeno
 
リクルートにおける画像解析事例紹介と周辺技術紹介
リクルートにおける画像解析事例紹介と周辺技術紹介リクルートにおける画像解析事例紹介と周辺技術紹介
リクルートにおける画像解析事例紹介と周辺技術紹介Recruit Technologies
 
An Introduction of DNN Compression Technology and Hardware Acceleration on FPGA
An Introduction of DNN Compression Technology and Hardware Acceleration on FPGAAn Introduction of DNN Compression Technology and Hardware Acceleration on FPGA
An Introduction of DNN Compression Technology and Hardware Acceleration on FPGALeapMind Inc
 
20130925.deeplearning
20130925.deeplearning20130925.deeplearning
20130925.deeplearningHayaru SHOUNO
 
文献紹介:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
文献紹介:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale文献紹介:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
文献紹介:An Image is Worth 16x16 Words: Transformers for Image Recognition at ScaleToru Tamaki
 
Chainer v1.6からv1.7の新機能
Chainer v1.6からv1.7の新機能Chainer v1.6からv1.7の新機能
Chainer v1.6からv1.7の新機能Ryosuke Okuta
 
コンピュータビジョンの研究開発状況
コンピュータビジョンの研究開発状況コンピュータビジョンの研究開発状況
コンピュータビジョンの研究開発状況cvpaper. challenge
 
Deep Residual Learning (ILSVRC2015 winner)
Deep Residual Learning (ILSVRC2015 winner)Deep Residual Learning (ILSVRC2015 winner)
Deep Residual Learning (ILSVRC2015 winner)Hirokatsu Kataoka
 
【CVPR 2019】Learning spatio temporal representation with local and global diff...
【CVPR 2019】Learning spatio temporal representation with local and global diff...【CVPR 2019】Learning spatio temporal representation with local and global diff...
【CVPR 2019】Learning spatio temporal representation with local and global diff...cvpaper. challenge
 
リクルートはいかにして、ディープラーニング(深層学習)の導入を成功させたか
リクルートはいかにして、ディープラーニング(深層学習)の導入を成功させたかリクルートはいかにして、ディープラーニング(深層学習)の導入を成功させたか
リクルートはいかにして、ディープラーニング(深層学習)の導入を成功させたかRecruit Technologies
 
文献紹介:TinyVIRAT: Low-resolution Video Action Recognition
文献紹介:TinyVIRAT: Low-resolution Video Action Recognition文献紹介:TinyVIRAT: Low-resolution Video Action Recognition
文献紹介:TinyVIRAT: Low-resolution Video Action RecognitionToru Tamaki
 
なぜGPUはディープラーニングに向いているか
なぜGPUはディープラーニングに向いているかなぜGPUはディープラーニングに向いているか
なぜGPUはディープラーニングに向いているかNVIDIA Japan
 

Ähnlich wie Mind’s Eye: A Recurrent Visual Representation for Image Caption Generation (20)

文献紹介:Selective Feature Compression for Efficient Activity Recognition Inference
文献紹介:Selective Feature Compression for Efficient Activity Recognition Inference文献紹介:Selective Feature Compression for Efficient Activity Recognition Inference
文献紹介:Selective Feature Compression for Efficient Activity Recognition Inference
 
文献紹介:SegFormer: Simple and Efficient Design for Semantic Segmentation with Tr...
文献紹介:SegFormer: Simple and Efficient Design for Semantic Segmentation with Tr...文献紹介:SegFormer: Simple and Efficient Design for Semantic Segmentation with Tr...
文献紹介:SegFormer: Simple and Efficient Design for Semantic Segmentation with Tr...
 
SSII2014 チュートリアル資料
SSII2014 チュートリアル資料SSII2014 チュートリアル資料
SSII2014 チュートリアル資料
 
DAシンポジウム2019招待講演「深層学習モデルの高速なTraining/InferenceのためのHW/SW技術」 金子紘也hare
DAシンポジウム2019招待講演「深層学習モデルの高速なTraining/InferenceのためのHW/SW技術」 金子紘也hareDAシンポジウム2019招待講演「深層学習モデルの高速なTraining/InferenceのためのHW/SW技術」 金子紘也hare
DAシンポジウム2019招待講演「深層学習モデルの高速なTraining/InferenceのためのHW/SW技術」 金子紘也hare
 
第二回データサイエンティスト木曜勉強会20141016
第二回データサイエンティスト木曜勉強会20141016第二回データサイエンティスト木曜勉強会20141016
第二回データサイエンティスト木曜勉強会20141016
 
データサイエンティスト協会 木曜勉強会 #02『クレンジングからビジュアライズまで!実践!データ解析超入門!』
データサイエンティスト協会 木曜勉強会 #02『クレンジングからビジュアライズまで!実践!データ解析超入門!』データサイエンティスト協会 木曜勉強会 #02『クレンジングからビジュアライズまで!実践!データ解析超入門!』
データサイエンティスト協会 木曜勉強会 #02『クレンジングからビジュアライズまで!実践!データ解析超入門!』
 
Transformer 動向調査 in 画像認識(修正版)
Transformer 動向調査 in 画像認識(修正版)Transformer 動向調査 in 画像認識(修正版)
Transformer 動向調査 in 画像認識(修正版)
 
リクルートにおける画像解析事例紹介と周辺技術紹介
リクルートにおける画像解析事例紹介と周辺技術紹介リクルートにおける画像解析事例紹介と周辺技術紹介
リクルートにおける画像解析事例紹介と周辺技術紹介
 
An Introduction of DNN Compression Technology and Hardware Acceleration on FPGA
An Introduction of DNN Compression Technology and Hardware Acceleration on FPGAAn Introduction of DNN Compression Technology and Hardware Acceleration on FPGA
An Introduction of DNN Compression Technology and Hardware Acceleration on FPGA
 
20130925.deeplearning
20130925.deeplearning20130925.deeplearning
20130925.deeplearning
 
文献紹介:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
文献紹介:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale文献紹介:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
文献紹介:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
 
Chainer v1.6からv1.7の新機能
Chainer v1.6からv1.7の新機能Chainer v1.6からv1.7の新機能
Chainer v1.6からv1.7の新機能
 
コンピュータビジョンの研究開発状況
コンピュータビジョンの研究開発状況コンピュータビジョンの研究開発状況
コンピュータビジョンの研究開発状況
 
Deep Residual Learning (ILSVRC2015 winner)
Deep Residual Learning (ILSVRC2015 winner)Deep Residual Learning (ILSVRC2015 winner)
Deep Residual Learning (ILSVRC2015 winner)
 
SeRanet
SeRanetSeRanet
SeRanet
 
【CVPR 2019】Learning spatio temporal representation with local and global diff...
【CVPR 2019】Learning spatio temporal representation with local and global diff...【CVPR 2019】Learning spatio temporal representation with local and global diff...
【CVPR 2019】Learning spatio temporal representation with local and global diff...
 
リクルートはいかにして、ディープラーニング(深層学習)の導入を成功させたか
リクルートはいかにして、ディープラーニング(深層学習)の導入を成功させたかリクルートはいかにして、ディープラーニング(深層学習)の導入を成功させたか
リクルートはいかにして、ディープラーニング(深層学習)の導入を成功させたか
 
R -> Python
R -> PythonR -> Python
R -> Python
 
文献紹介:TinyVIRAT: Low-resolution Video Action Recognition
文献紹介:TinyVIRAT: Low-resolution Video Action Recognition文献紹介:TinyVIRAT: Low-resolution Video Action Recognition
文献紹介:TinyVIRAT: Low-resolution Video Action Recognition
 
なぜGPUはディープラーニングに向いているか
なぜGPUはディープラーニングに向いているかなぜGPUはディープラーニングに向いているか
なぜGPUはディープラーニングに向いているか
 

Mehr von tomoaki0705

Particle Video Revisited: Tracking Through Occlusions Using Point Trajectorie...
Particle Video Revisited: Tracking Through Occlusions Using Point Trajectorie...Particle Video Revisited: Tracking Through Occlusions Using Point Trajectorie...
Particle Video Revisited: Tracking Through Occlusions Using Point Trajectorie...tomoaki0705
 
Neural Global Shutter: Learn to Restore Video from a Rolling Shutter Camera w...
Neural Global Shutter: Learn to Restore Video from a Rolling Shutter Camera w...Neural Global Shutter: Learn to Restore Video from a Rolling Shutter Camera w...
Neural Global Shutter: Learn to Restore Video from a Rolling Shutter Camera w...tomoaki0705
 
From Points to Multi-Object 3D Reconstruction
From Points to Multi-Object 3D ReconstructionFrom Points to Multi-Object 3D Reconstruction
From Points to Multi-Object 3D Reconstructiontomoaki0705
 
Draw Normal Distribution on Powerpoint
Draw Normal Distribution on PowerpointDraw Normal Distribution on Powerpoint
Draw Normal Distribution on Powerpointtomoaki0705
 
Using asimdhp (fp16) on Jetson Xavier CPU
Using asimdhp (fp16) on Jetson Xavier CPUUsing asimdhp (fp16) on Jetson Xavier CPU
Using asimdhp (fp16) on Jetson Xavier CPUtomoaki0705
 
Kantocv 2-1-calibration publish
Kantocv 2-1-calibration publishKantocv 2-1-calibration publish
Kantocv 2-1-calibration publishtomoaki0705
 
Cvim saisentan-cvpr-super-slomo-publish
Cvim saisentan-cvpr-super-slomo-publishCvim saisentan-cvpr-super-slomo-publish
Cvim saisentan-cvpr-super-slomo-publishtomoaki0705
 
Cvim saisentan-gpu-open cl
Cvim saisentan-gpu-open clCvim saisentan-gpu-open cl
Cvim saisentan-gpu-open cltomoaki0705
 
Prmu iccv-2017-rolling-shutter-publish
Prmu iccv-2017-rolling-shutter-publishPrmu iccv-2017-rolling-shutter-publish
Prmu iccv-2017-rolling-shutter-publishtomoaki0705
 
Scalable Surface Reconstruction from Point Clouds with Extreme Scale and Dens...
Scalable Surface Reconstruction from Point Clouds with Extreme Scale and Dens...Scalable Surface Reconstruction from Point Clouds with Extreme Scale and Dens...
Scalable Surface Reconstruction from Point Clouds with Extreme Scale and Dens...tomoaki0705
 
Cvim saisentan-ellipse-publish
Cvim saisentan-ellipse-publishCvim saisentan-ellipse-publish
Cvim saisentan-ellipse-publishtomoaki0705
 
Gpgpu tomoaki-fp16
Gpgpu tomoaki-fp16Gpgpu tomoaki-fp16
Gpgpu tomoaki-fp16tomoaki0705
 
Cvim saisentan-cvpr-hyper depth
Cvim saisentan-cvpr-hyper depthCvim saisentan-cvpr-hyper depth
Cvim saisentan-cvpr-hyper depthtomoaki0705
 
Cvim saisentan-4-2-tomoaki
Cvim saisentan-4-2-tomoakiCvim saisentan-4-2-tomoaki
Cvim saisentan-4-2-tomoakitomoaki0705
 
Cvim saisentan 半精度浮動小数点数 half
Cvim saisentan 半精度浮動小数点数 halfCvim saisentan 半精度浮動小数点数 half
Cvim saisentan 半精度浮動小数点数 halftomoaki0705
 
OpenCV祭り (配布用)
OpenCV祭り (配布用)OpenCV祭り (配布用)
OpenCV祭り (配布用)tomoaki0705
 
Cvim half precision floating point
Cvim half precision floating pointCvim half precision floating point
Cvim half precision floating pointtomoaki0705
 
Cvim saisentan-5-2-tomoaki
Cvim saisentan-5-2-tomoakiCvim saisentan-5-2-tomoaki
Cvim saisentan-5-2-tomoakitomoaki0705
 
JetsonでOpenCV
 JetsonでOpenCV JetsonでOpenCV
JetsonでOpenCVtomoaki0705
 
Cvim saisentan-cvpr-deep face
Cvim saisentan-cvpr-deep faceCvim saisentan-cvpr-deep face
Cvim saisentan-cvpr-deep facetomoaki0705
 

Mehr von tomoaki0705 (20)

Particle Video Revisited: Tracking Through Occlusions Using Point Trajectorie...
Particle Video Revisited: Tracking Through Occlusions Using Point Trajectorie...Particle Video Revisited: Tracking Through Occlusions Using Point Trajectorie...
Particle Video Revisited: Tracking Through Occlusions Using Point Trajectorie...
 
Neural Global Shutter: Learn to Restore Video from a Rolling Shutter Camera w...
Neural Global Shutter: Learn to Restore Video from a Rolling Shutter Camera w...Neural Global Shutter: Learn to Restore Video from a Rolling Shutter Camera w...
Neural Global Shutter: Learn to Restore Video from a Rolling Shutter Camera w...
 
From Points to Multi-Object 3D Reconstruction
From Points to Multi-Object 3D ReconstructionFrom Points to Multi-Object 3D Reconstruction
From Points to Multi-Object 3D Reconstruction
 
Draw Normal Distribution on Powerpoint
Draw Normal Distribution on PowerpointDraw Normal Distribution on Powerpoint
Draw Normal Distribution on Powerpoint
 
Using asimdhp (fp16) on Jetson Xavier CPU
Using asimdhp (fp16) on Jetson Xavier CPUUsing asimdhp (fp16) on Jetson Xavier CPU
Using asimdhp (fp16) on Jetson Xavier CPU
 
Kantocv 2-1-calibration publish
Kantocv 2-1-calibration publishKantocv 2-1-calibration publish
Kantocv 2-1-calibration publish
 
Cvim saisentan-cvpr-super-slomo-publish
Cvim saisentan-cvpr-super-slomo-publishCvim saisentan-cvpr-super-slomo-publish
Cvim saisentan-cvpr-super-slomo-publish
 
Cvim saisentan-gpu-open cl
Cvim saisentan-gpu-open clCvim saisentan-gpu-open cl
Cvim saisentan-gpu-open cl
 
Prmu iccv-2017-rolling-shutter-publish
Prmu iccv-2017-rolling-shutter-publishPrmu iccv-2017-rolling-shutter-publish
Prmu iccv-2017-rolling-shutter-publish
 
Scalable Surface Reconstruction from Point Clouds with Extreme Scale and Dens...
Scalable Surface Reconstruction from Point Clouds with Extreme Scale and Dens...Scalable Surface Reconstruction from Point Clouds with Extreme Scale and Dens...
Scalable Surface Reconstruction from Point Clouds with Extreme Scale and Dens...
 
Cvim saisentan-ellipse-publish
Cvim saisentan-ellipse-publishCvim saisentan-ellipse-publish
Cvim saisentan-ellipse-publish
 
Gpgpu tomoaki-fp16
Gpgpu tomoaki-fp16Gpgpu tomoaki-fp16
Gpgpu tomoaki-fp16
 
Cvim saisentan-cvpr-hyper depth
Cvim saisentan-cvpr-hyper depthCvim saisentan-cvpr-hyper depth
Cvim saisentan-cvpr-hyper depth
 
Cvim saisentan-4-2-tomoaki
Cvim saisentan-4-2-tomoakiCvim saisentan-4-2-tomoaki
Cvim saisentan-4-2-tomoaki
 
Cvim saisentan 半精度浮動小数点数 half
Cvim saisentan 半精度浮動小数点数 halfCvim saisentan 半精度浮動小数点数 half
Cvim saisentan 半精度浮動小数点数 half
 
OpenCV祭り (配布用)
OpenCV祭り (配布用)OpenCV祭り (配布用)
OpenCV祭り (配布用)
 
Cvim half precision floating point
Cvim half precision floating pointCvim half precision floating point
Cvim half precision floating point
 
Cvim saisentan-5-2-tomoaki
Cvim saisentan-5-2-tomoakiCvim saisentan-5-2-tomoaki
Cvim saisentan-5-2-tomoaki
 
JetsonでOpenCV
 JetsonでOpenCV JetsonでOpenCV
JetsonでOpenCV
 
Cvim saisentan-cvpr-deep face
Cvim saisentan-cvpr-deep faceCvim saisentan-cvpr-deep face
Cvim saisentan-cvpr-deep face
 

Mind’s Eye: A Recurrent Visual Representation for Image Caption Generation

Hinweis der Redaktion

  1. 文章そのものを忘れても、思い描いた情景の方が良く覚えていたりする [34,26]
  2. W が one-hot representation の word Sがcontextを覚える隠れ層 VはVisual Featureで、こいつらはconstant Vとwを直接つなげるのはよろしくなくて、なぜならvはconstantだから あと、vをSの半分のノードにしか繋げないほうが性能が良かった。
  3. MS COCO を使って学習、PASCAL 1K を使ってテスト 4.3. Sentence generation Our first set of experiments evaluate our model’s ability to generate novel sentence descriptions of images. We experiment on all the image-sentence datasets described previously and compare to the RNN baselines and other previous papers [33, 24]. Since PASCAL 1K has a limited amount of training data, we report results trained on MS COCO and tested on PASCAL 1K.
  4. Human は人間が生成した文章。 特徴量はPPL は perplexity と言って、生成された文と元の文を、符号化する際に必要なbit数を表す BLEUは1-4のn-gram で試して平均をとり、それに近い長さと比較する For BLEU, we took the geometric mean of the scores from 1-gram to 4-gram, and used the ground truth length closest to the generated sentence to penalize brevity
  5. RNNの行は、信じがたいが、単純に学習した分布から文章を生成している、と読み取れる。 それにしてはスコアが良すぎるのではないかと思うが、謎すぎる。
  6. これらの手法でも、双方向で検索しているように見えるが、実際は、生成文と画像を同じ空間に投影し、そこからの距離とかで検索している。 つまり画像→文章や文章→画像でなく、 文章→特徴量空間←画像 という感じで検索しているだけなのである。
  7. Many words correspond to spatial relations that our current model has difficultly in detecting ↑しかし本当か?って感じ。