Suche senden
Hochladen
Show and tell takmin
•
16 gefällt mir
•
7,551 views
Takuya Minagawa
Folgen
第30回CV勉強会@関東「CVPR2015読み会」発表資料 Show and Tell: A Neural Image Caption Generator
Weniger lesen
Mehr lesen
Technologie
Melden
Teilen
Melden
Teilen
1 von 49
Jetzt herunterladen
Downloaden Sie, um offline zu lesen
Empfohlen
[CV勉強会]Active Object Localization with Deep Reinfocement Learning
[CV勉強会]Active Object Localization with Deep Reinfocement Learning
Takuya Minagawa
20160717 dikf
20160717 dikf
Takuya Minagawa
第34回CV勉強会「コンピュテーショナルフォトグラフィ」発表資料
第34回CV勉強会「コンピュテーショナルフォトグラフィ」発表資料
Takuya Minagawa
20170806 Discriminative Optimization
20170806 Discriminative Optimization
Takuya Minagawa
20170211クレジットカード認識
20170211クレジットカード認識
Takuya Minagawa
cvsaisentan5 Multi View Stereo 3.3
cvsaisentan5 Multi View Stereo 3.3
Takuya Minagawa
20160417dlibによる顔器官検出
20160417dlibによる顔器官検出
Takuya Minagawa
Curiosity driven exploration
Curiosity driven exploration
Takuya Minagawa
Empfohlen
[CV勉強会]Active Object Localization with Deep Reinfocement Learning
[CV勉強会]Active Object Localization with Deep Reinfocement Learning
Takuya Minagawa
20160717 dikf
20160717 dikf
Takuya Minagawa
第34回CV勉強会「コンピュテーショナルフォトグラフィ」発表資料
第34回CV勉強会「コンピュテーショナルフォトグラフィ」発表資料
Takuya Minagawa
20170806 Discriminative Optimization
20170806 Discriminative Optimization
Takuya Minagawa
20170211クレジットカード認識
20170211クレジットカード認識
Takuya Minagawa
cvsaisentan5 Multi View Stereo 3.3
cvsaisentan5 Multi View Stereo 3.3
Takuya Minagawa
20160417dlibによる顔器官検出
20160417dlibによる顔器官検出
Takuya Minagawa
Curiosity driven exploration
Curiosity driven exploration
Takuya Minagawa
Semantic segmentation2
Semantic segmentation2
Takuya Minagawa
LiDAR点群と画像とのマッピング
LiDAR点群と画像とのマッピング
Takuya Minagawa
「コンピュータビジョン勉強会@関東」紹介資料
「コンピュータビジョン勉強会@関東」紹介資料
Takuya Minagawa
20140131 R-CNN
20140131 R-CNN
Takuya Minagawa
run Keras model on opencv
run Keras model on opencv
Takuya Minagawa
How to feed myself with computer vision
How to feed myself with computer vision
Takuya Minagawa
ORB-SLAMを動かしてみた
ORB-SLAMを動かしてみた
Takuya Minagawa
Pn learning takmin
Pn learning takmin
Takuya Minagawa
LiDAR点群とSfM点群との位置合わせ
LiDAR点群とSfM点群との位置合わせ
Takuya Minagawa
20180424 orb slam
20180424 orb slam
Takuya Minagawa
3DFeat-Net
3DFeat-Net
Takuya Minagawa
CVPR2018のPointCloudのCNN論文とSPLATNet
CVPR2018のPointCloudのCNN論文とSPLATNet
Takuya Minagawa
Cvpr2017事前読み会
Cvpr2017事前読み会
Takuya Minagawa
Large-Scale Object Classification Using Label Relation Graphs
Large-Scale Object Classification Using Label Relation Graphs
Takuya Minagawa
object detection with lidar-camera fusion: survey (updated)
object detection with lidar-camera fusion: survey (updated)
Takuya Minagawa
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
Takuya Minagawa
20190307 visualslam summary
20190307 visualslam summary
Takuya Minagawa
20181130 lidar object detection survey
20181130 lidar object detection survey
Takuya Minagawa
20200910コンピュータビジョン今昔物語(JPTA講演資料)
20200910コンピュータビジョン今昔物語(JPTA講演資料)
Takuya Minagawa
20180527 ORB SLAM Code Reading
20180527 ORB SLAM Code Reading
Takuya Minagawa
ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTURE Project
kagami_comput2015_1
kagami_comput2015_1
swkagami
Weitere ähnliche Inhalte
Was ist angesagt?
Semantic segmentation2
Semantic segmentation2
Takuya Minagawa
LiDAR点群と画像とのマッピング
LiDAR点群と画像とのマッピング
Takuya Minagawa
「コンピュータビジョン勉強会@関東」紹介資料
「コンピュータビジョン勉強会@関東」紹介資料
Takuya Minagawa
20140131 R-CNN
20140131 R-CNN
Takuya Minagawa
run Keras model on opencv
run Keras model on opencv
Takuya Minagawa
How to feed myself with computer vision
How to feed myself with computer vision
Takuya Minagawa
ORB-SLAMを動かしてみた
ORB-SLAMを動かしてみた
Takuya Minagawa
Pn learning takmin
Pn learning takmin
Takuya Minagawa
LiDAR点群とSfM点群との位置合わせ
LiDAR点群とSfM点群との位置合わせ
Takuya Minagawa
20180424 orb slam
20180424 orb slam
Takuya Minagawa
3DFeat-Net
3DFeat-Net
Takuya Minagawa
CVPR2018のPointCloudのCNN論文とSPLATNet
CVPR2018のPointCloudのCNN論文とSPLATNet
Takuya Minagawa
Cvpr2017事前読み会
Cvpr2017事前読み会
Takuya Minagawa
Large-Scale Object Classification Using Label Relation Graphs
Large-Scale Object Classification Using Label Relation Graphs
Takuya Minagawa
object detection with lidar-camera fusion: survey (updated)
object detection with lidar-camera fusion: survey (updated)
Takuya Minagawa
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
Takuya Minagawa
20190307 visualslam summary
20190307 visualslam summary
Takuya Minagawa
20181130 lidar object detection survey
20181130 lidar object detection survey
Takuya Minagawa
20200910コンピュータビジョン今昔物語(JPTA講演資料)
20200910コンピュータビジョン今昔物語(JPTA講演資料)
Takuya Minagawa
20180527 ORB SLAM Code Reading
20180527 ORB SLAM Code Reading
Takuya Minagawa
Was ist angesagt?
(20)
Semantic segmentation2
Semantic segmentation2
LiDAR点群と画像とのマッピング
LiDAR点群と画像とのマッピング
「コンピュータビジョン勉強会@関東」紹介資料
「コンピュータビジョン勉強会@関東」紹介資料
20140131 R-CNN
20140131 R-CNN
run Keras model on opencv
run Keras model on opencv
How to feed myself with computer vision
How to feed myself with computer vision
ORB-SLAMを動かしてみた
ORB-SLAMを動かしてみた
Pn learning takmin
Pn learning takmin
LiDAR点群とSfM点群との位置合わせ
LiDAR点群とSfM点群との位置合わせ
20180424 orb slam
20180424 orb slam
3DFeat-Net
3DFeat-Net
CVPR2018のPointCloudのCNN論文とSPLATNet
CVPR2018のPointCloudのCNN論文とSPLATNet
Cvpr2017事前読み会
Cvpr2017事前読み会
Large-Scale Object Classification Using Label Relation Graphs
Large-Scale Object Classification Using Label Relation Graphs
object detection with lidar-camera fusion: survey (updated)
object detection with lidar-camera fusion: survey (updated)
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
20190307 visualslam summary
20190307 visualslam summary
20181130 lidar object detection survey
20181130 lidar object detection survey
20200910コンピュータビジョン今昔物語(JPTA講演資料)
20200910コンピュータビジョン今昔物語(JPTA講演資料)
20180527 ORB SLAM Code Reading
20180527 ORB SLAM Code Reading
Ähnlich wie Show and tell takmin
ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTURE Project
kagami_comput2015_1
kagami_comput2015_1
swkagami
SORACOM Technology Camp 2018 アドバンストラック4 | スモールスタートの次の一手は?成長できるIoTシステムの実例と回避した...
SORACOM Technology Camp 2018 アドバンストラック4 | スモールスタートの次の一手は?成長できるIoTシステムの実例と回避した...
SORACOM,INC
ストリーム処理とSensorBee
ストリーム処理とSensorBee
Daisuke Tanaka
Matrix signal controller and BrainPad overview
Matrix signal controller and BrainPad overview
Kouji Matsui
kagami_comput2016_01
kagami_comput2016_01
swkagami
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models
cvpaper. challenge
Power BI のいろいろな活用パターン
Power BI のいろいろな活用パターン
Yugo Shimizu
Iot algyan jhirono 20190111
Iot algyan jhirono 20190111
Hirono Jumpei
0610 TECH & BRIDGE MEETING
0610 TECH & BRIDGE MEETING
健司 亀本
Power Automate の他では聞けない使い方 (UI flows は除く)
Power Automate の他では聞けない使い方 (UI flows は除く)
Yugo Shimizu
kagamicomput201801
kagamicomput201801
swkagami
2014-01-28 Operation in the future
2014-01-28 Operation in the future
Operation Lab, LLC.
[db tech showcase Tokyo 2014] D25: 今を分析する日立の「CEP」、知るなら今でしょ! by 株式会社日立製作所 村上順一
[db tech showcase Tokyo 2014] D25: 今を分析する日立の「CEP」、知るなら今でしょ! by 株式会社日立製作所 村上順一
Insight Technology, Inc.
Pact言語によるセキュアなスマートコントラクト開発
Pact言語によるセキュアなスマートコントラクト開発
Nagato Kasaki
IoT ALGYAN ハンズオンのソースコード解説します
IoT ALGYAN ハンズオンのソースコード解説します
Yoshitaka Seo
2023_freshman
2023_freshman
TakaakiYonekura
「スプラトゥーン」リアルタイム画像解析ツール 「IkaLog」の裏側
「スプラトゥーン」リアルタイム画像解析ツール 「IkaLog」の裏側
Takeshi HASEGAWA
190904FIT情報処理学会の量子コンピュータ
190904FIT情報処理学会の量子コンピュータ
Yuichiro MInato
Portable RT-Middleware environment on a USB memory for the robot programing ...
Portable RT-Middleware environment on a USB memory for the robot programing ...
s15mh218
Ähnlich wie Show and tell takmin
(20)
ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介
kagami_comput2015_1
kagami_comput2015_1
SORACOM Technology Camp 2018 アドバンストラック4 | スモールスタートの次の一手は?成長できるIoTシステムの実例と回避した...
SORACOM Technology Camp 2018 アドバンストラック4 | スモールスタートの次の一手は?成長できるIoTシステムの実例と回避した...
ストリーム処理とSensorBee
ストリーム処理とSensorBee
Matrix signal controller and BrainPad overview
Matrix signal controller and BrainPad overview
kagami_comput2016_01
kagami_comput2016_01
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models
Power BI のいろいろな活用パターン
Power BI のいろいろな活用パターン
Iot algyan jhirono 20190111
Iot algyan jhirono 20190111
0610 TECH & BRIDGE MEETING
0610 TECH & BRIDGE MEETING
Power Automate の他では聞けない使い方 (UI flows は除く)
Power Automate の他では聞けない使い方 (UI flows は除く)
kagamicomput201801
kagamicomput201801
2014-01-28 Operation in the future
2014-01-28 Operation in the future
[db tech showcase Tokyo 2014] D25: 今を分析する日立の「CEP」、知るなら今でしょ! by 株式会社日立製作所 村上順一
[db tech showcase Tokyo 2014] D25: 今を分析する日立の「CEP」、知るなら今でしょ! by 株式会社日立製作所 村上順一
Pact言語によるセキュアなスマートコントラクト開発
Pact言語によるセキュアなスマートコントラクト開発
IoT ALGYAN ハンズオンのソースコード解説します
IoT ALGYAN ハンズオンのソースコード解説します
2023_freshman
2023_freshman
「スプラトゥーン」リアルタイム画像解析ツール 「IkaLog」の裏側
「スプラトゥーン」リアルタイム画像解析ツール 「IkaLog」の裏側
190904FIT情報処理学会の量子コンピュータ
190904FIT情報処理学会の量子コンピュータ
Portable RT-Middleware environment on a USB memory for the robot programing ...
Portable RT-Middleware environment on a USB memory for the robot programing ...
Mehr von Takuya Minagawa
Machine Learning Operations (MLOps): Overview, Definition, and Architecture
Machine Learning Operations (MLOps): Overview, Definition, and Architecture
Takuya Minagawa
MobileNeRF
MobileNeRF
Takuya Minagawa
点群SegmentationのためのTransformerサーベイ
点群SegmentationのためのTransformerサーベイ
Takuya Minagawa
Learning to Solve Hard Minimal Problems
Learning to Solve Hard Minimal Problems
Takuya Minagawa
ConditionalPointDiffusion.pdf
ConditionalPointDiffusion.pdf
Takuya Minagawa
楽しいコンピュータビジョンの受託仕事
楽しいコンピュータビジョンの受託仕事
Takuya Minagawa
20210711 deepI2P
20210711 deepI2P
Takuya Minagawa
20201010 personreid
20201010 personreid
Takuya Minagawa
2020/07/04 BSP-Net (CVPR2020)
2020/07/04 BSP-Net (CVPR2020)
Takuya Minagawa
20200704 bsp net
20200704 bsp net
Takuya Minagawa
20190825 vins mono
20190825 vins mono
Takuya Minagawa
20190706cvpr2019_3d_shape_representation
20190706cvpr2019_3d_shape_representation
Takuya Minagawa
Visual slam
Visual slam
Takuya Minagawa
20190131 lidar-camera fusion semantic segmentation survey
20190131 lidar-camera fusion semantic segmentation survey
Takuya Minagawa
object detection with lidar-camera fusion: survey
object detection with lidar-camera fusion: survey
Takuya Minagawa
車載カメラの映像から歩行者に関わる危険を予測する技術
車載カメラの映像から歩行者に関わる危険を予測する技術
Takuya Minagawa
Mehr von Takuya Minagawa
(16)
Machine Learning Operations (MLOps): Overview, Definition, and Architecture
Machine Learning Operations (MLOps): Overview, Definition, and Architecture
MobileNeRF
MobileNeRF
点群SegmentationのためのTransformerサーベイ
点群SegmentationのためのTransformerサーベイ
Learning to Solve Hard Minimal Problems
Learning to Solve Hard Minimal Problems
ConditionalPointDiffusion.pdf
ConditionalPointDiffusion.pdf
楽しいコンピュータビジョンの受託仕事
楽しいコンピュータビジョンの受託仕事
20210711 deepI2P
20210711 deepI2P
20201010 personreid
20201010 personreid
2020/07/04 BSP-Net (CVPR2020)
2020/07/04 BSP-Net (CVPR2020)
20200704 bsp net
20200704 bsp net
20190825 vins mono
20190825 vins mono
20190706cvpr2019_3d_shape_representation
20190706cvpr2019_3d_shape_representation
Visual slam
Visual slam
20190131 lidar-camera fusion semantic segmentation survey
20190131 lidar-camera fusion semantic segmentation survey
object detection with lidar-camera fusion: survey
object detection with lidar-camera fusion: survey
車載カメラの映像から歩行者に関わる危険を予測する技術
車載カメラの映像から歩行者に関わる危険を予測する技術
Kürzlich hochgeladen
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
Toru Tamaki
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Daniel
danielhu54
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
Toru Tamaki
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
sugiuralab
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
Hiroki Ichikura
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
Ryo Sasaki
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
iPride Co., Ltd.
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
taisei2219
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Yuma Ohgami
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
Toru Tamaki
Kürzlich hochgeladen
(10)
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Daniel
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
Show and tell takmin
1.
CV勉強会@関東「CVPR2015読み会」 発表資料 Show and
Tell: A Neural Image Caption Generator 2015/07/20 takmin
2.
自己紹介 テクニカル・ソリューション・アーキテクト 皆川 卓也(みながわ たくや) フリーエンジニア(ビジョン&ITラボ) 「コンピュータビジョン勉強会@関東」主催 博士(工学) テクニカル・ソリューション・アーキテクト 皆川
卓也(みながわ たくや) フリーエンジニア(ビジョン&ITラボ) 「コンピュータビジョン勉強会@関東」主催 博士(工学) 略歴: 1999-2003年 日本HP(後にアジレント・テクノロジーへ分社)にて、ITエンジニアとしてシステム構築、プリ セールス、プロジェクトマネジメント、サポート等の業務に従事 2004-2009年 コンピュータビジョンを用いたシステム/アプリ/サービス開発等に従事 2007-2010年 慶應義塾大学大学院 後期博士課程にて、コンピュータビジョンを専攻 単位取得退学後、博士号取得(2014年) 2009年-現在 フリーランスとして、コンピュータビジョンのコンサル/研究/開発等に従事 2 http://visitlab.jp
3.
紹介する論文 3 Show and
Tell: A Neural Image Caption Generator O.Vinyals, A.Toshev, S.Bengio, D.Erhan “複雑な画像のキャプション(説明文)を自動生成するシ ステムをGoogleが研究開発中”, TechCrunch 2014-11- 19 http://jp.techcrunch.com/2014/11/19/20141118new- google-research-project-can-auto-caption-complex- images/ 前回の勉強会の@peisukeさんのRNN / LSTMに関する資料が大変参考になりま す。 • http://www.slideshare.net/FujimotoKeisuke/learning-to-forget-continual- prediction-with-lstm
4.
概要 4 1枚の静止画像から説明文を生成 近年のReccurent
Neural Networks (RNN)を用いた機械 翻訳の手法をベースに、その入力をDeep Convolutional Neural Networksで生成した特徴ベクトルに置き換え Neural Image Caption (NIC) 従来手法を大きく上回る精度
5.
Convolutional Neural Networks
(CNN) 5 詳細は割愛。ここでは、「学習データから認識に有効な 特徴量を自動で学習するネットワーク」程度の理解でOK。 ここではGoogLeNetを改良した以下の論文を使用。 S.Ioffe and C.Szegedy, “Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift”, arXiv 2015
6.
Reccurent Neural Networks
(RNN) 6 時系列データなどの「連続したデータ」を扱うための ニューラルネットワーク 音声認識、機械翻訳、動画像認識 予測先の次元数が可変 時刻tの隠れ層の出力が時刻t+1の隠れ層の入力になる ・・・ ・・・ ・・・ 入力 出力 隠れ層
7.
Reccurent Neural Networks
(RNN) 7 展開すると、静的なネットワークで表せる ・・・ ・・・ ・・・ 入力 出力 隠れ層 ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ t-1 t t+1
8.
Reccurent Neural Networks
(RNN) 8 展開すると、静的なネットワークで表せる 通常の誤差逆伝播法でパラメータを学習できる ・・・ ・・・ ・・・ 入力 出力 隠れ層 ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ t-1 t t+1 教師データ 教師データ 教師データ
9.
Long-Short Term Memory
(LSTM) 9 RNNは系列が大きくなると階層が深くなり、伝播した誤差 の勾配が発散してしまう 各データの入出力および過去のデータの使用/不使用を 制御して、長い系列を扱えるようにする。 Long-Short Term Memory (LSTM)
10.
Long-Short Term Memory
(LSTM) 10 RNN ・・・ ・・・ ・・・ 入力 出力 隠れ層 𝑥 𝑚 𝑡 𝑐𝑡−1 𝑐𝑡
11.
Long-Short Term Memory
(LSTM) 11 LSTM ・・・ ・・・ ・・・ 入力 出力 隠れ層 ℎ 𝜎 𝜎 Input Gate Output Gate Forget Gate 𝜎 Updating Term 𝑥 𝑚 𝑡 𝑐𝑡 𝑐𝑡−1 𝑚 𝑡−1
12.
Long-Short Term Memory
(LSTM) 12 LSTM ・・・ ・・・ ・・・ 入力 出力 隠れ層 ℎ 𝜎 𝜎 Input Gate Output Gate Forget Gate 𝜎 Updating Term 𝑥 𝑚 𝑡 𝑐𝑡 𝑐𝑡−1 𝑚 𝑡−1
13.
Long-Short Term Memory
(LSTM) 13 ℎ 𝑥 𝑡𝑚 𝑡−1 𝑖 𝑡 𝑦𝑡 𝜎 𝑚 𝑡−1 𝑥 𝑡 Input Gate 入力データの使用/不使用を制御
14.
Long-Short Term Memory
(LSTM) 14 𝑦𝑡 = 𝑖 𝑡⨀ℎ 𝑊𝑐𝑥 𝑥 𝑡 + 𝑊𝑐𝑚 𝑚 𝑡−1 ℎ 𝑥 𝑡𝑚 𝑡−1 𝑖 𝑡 𝑦𝑡 𝜎 𝑚 𝑡−1 𝑥 𝑡 Input Gate 入力データの使用/不使用を制御 hyperbolic tangent関数 𝑖 𝑡 = 1の時信号を通し 𝑖 𝑡 = 0 の時通さない
15.
Long-Short Term Memory
(LSTM) 15 𝑦𝑡 = 𝑖 𝑡⨀ℎ 𝑊𝑐𝑥 𝑥 𝑡 + 𝑊𝑐𝑚 𝑚 𝑡−1 ℎ 𝑥 𝑡𝑚 𝑡−1 𝑖 𝑡 𝑦𝑡 𝜎 𝑚 𝑡−1 𝑥 𝑡 𝑖 𝑡 = 𝜎 𝑊𝑖𝑥 𝑥 𝑡 + 𝑊𝑖𝑚 𝑚 𝑡−1 Sigmoid関数 Input Gate 入力データの使用/不使用を制御 hyperbolic tangent関数 𝑖 𝑡 = 1の時信号を通し 𝑖 𝑡 = 0 の時通さない
16.
Long-Short Term Memory
(LSTM) 16 𝑦𝑡 = 𝑖 𝑡⨀ℎ 𝑊𝑐𝑥 𝑥 𝑡 + 𝑊𝑐𝑚 𝑚 𝑡−1 ℎ 𝑥 𝑡𝑚 𝑡−1 𝑖 𝑡 𝑦𝑡 𝜎 𝑚 𝑡−1 𝑥 𝑡 𝑖 𝑡 = 𝜎 𝑊𝑖𝑥 𝑥 𝑡 + 𝑊𝑖𝑚 𝑚 𝑡−1 Sigmoid関数 Input Gate 入力データの使用/不使用を制御 hyperbolic tangent関数 学習するパラメータ
17.
Long-Short Term Memory
(LSTM) 17 LSTM ・・・ ・・・ ・・・ 入力 出力 隠れ層 ℎ 𝜎 𝜎 Input Gate Output Gate Forget Gate 𝜎 Updating Term 𝑥 𝑚 𝑡 𝑐𝑡 𝑐𝑡−1 𝑚 𝑡−1
18.
Long-Short Term Memory
(LSTM) 18 𝑓𝑡 𝑐𝑡 𝜎 𝑚 𝑡−1 𝑥 𝑡・・・𝑦𝑡 𝑐𝑡−1 Forget Gate 過去の系列データの使用/不使用を制御
19.
Long-Short Term Memory
(LSTM) 19 𝑓𝑡 𝑐𝑡 𝜎 𝑚 𝑡−1 𝑥 𝑡・・・ 𝑐𝑡 = 𝑓𝑡⨀𝑐𝑡−1 + 𝑦𝑡 𝑦𝑡 𝑐𝑡−1 Forget Gate 過去の系列データの使用/不使用を制御 𝑓𝑡 = 1の時信号を通し 𝑓𝑡 = 0 の時通さない
20.
Long-Short Term Memory
(LSTM) 20 𝑓𝑡 𝑐𝑡 𝜎 𝑚 𝑡−1 𝑥 𝑡・・・ 𝑓𝑡 = 𝜎 𝑊𝑓𝑥 𝑥 𝑡 + 𝑊𝑓𝑚 𝑚 𝑡−1 𝑐𝑡 = 𝑓𝑡⨀𝑐𝑡−1 + 𝑦𝑡 𝑦𝑡 𝑐𝑡−1 Forget Gate 過去の系列データの使用/不使用を制御
21.
Long-Short Term Memory
(LSTM) 21 LSTM ・・・ ・・・ ・・・ 入力 出力 隠れ層 ℎ 𝜎 𝜎 Input Gate Output Gate Forget Gate 𝜎 Updating Term 𝑥 𝑚 𝑡 𝑐𝑡 𝑐𝑡−1 𝑚 𝑡−1
22.
Long-Short Term Memory
(LSTM) 22 𝑐𝑡 𝑜𝑡 𝑚 𝑡 𝜎 𝑚 𝑡−1 𝑥 𝑡 Output Gate 出力データの使用/不使用を制御
23.
Long-Short Term Memory
(LSTM) 23 𝑐𝑡 𝑜𝑡 𝑚 𝑡 𝜎 𝑚 𝑡−1 𝑥 𝑡 Output Gate 出力データの使用/不使用を制御 𝑜𝑡 = 1の時信号を通し 𝑜𝑡 = 0 の時通さない 𝑜𝑡 = 𝜎 𝑊𝑜𝑥 𝑥 𝑡 + 𝑊𝑜𝑚 𝑚 𝑡−1 𝑚 𝑡 = 𝑜𝑡⨀𝑐𝑡
24.
Neural Image Caption
(NIC) 24 静止画から説明文を生成 𝑆∗ = argmax 𝑆 𝑝 𝑆|𝐼 画像説明文 𝑆 = 𝑆0, 𝑆1, ⋯ 単語 可変長の系列データ
25.
Neural Image Caption
(NIC) 25 静止画から説明文を生成 𝑆∗ = argmax 𝑆 𝑝 𝑆|𝐼 画像説明文 𝑝 𝑆|𝐼; 𝜃 = 𝑡=0 𝑁 𝑝 𝑆𝑡|𝐼, 𝑆0, ⋯ , 𝑆𝑡−1 ; 𝜃 𝑆 = 𝑆0, 𝑆1, ⋯ 単語数 各単語はその前の単語列 の影響を受ける。
26.
Neural Image Caption
(NIC) 26 静止画から説明文を生成 𝑝 𝑆|𝐼; 𝜃 = 𝑡=0 𝑁 𝑝 𝑆𝑡|𝐼, 𝑆0, ⋯ , 𝑆𝑡−1 ; 𝜃 パラメータ 単語数 学習データ 𝐼, 𝑆 から学習
27.
Neural Image Caption
(NIC) 27 LSTM ・・・ ・・・ ・・・ 入力 出力 隠れ層 ℎ 𝜎 𝜎 Input Gate Output Gate Forget Gate 𝜎 Updating Term 𝑥 𝑚 𝑡 𝑐𝑡 𝑐𝑡−1 𝑚 𝑡−1 𝑥 𝑡 = 𝑊𝑒 𝑆𝑡 𝑝𝑡 𝑆𝑡+1 = softmax 𝑚 𝑡
28.
Neural Image Caption
(NIC) 28
29.
Neural Image Caption
(NIC) 29 画像からDeep CNNで 特徴ベクトルを取得 LSTMへの最初の入 力(𝒙−𝟏)
30.
Neural Image Caption
(NIC) 30 単語𝑺 𝟎を入力 次の単語が𝑺 𝟏で ある確率
31.
Neural Image Caption
(NIC) 31 𝒎 𝟎, 𝒄 𝟎
32.
NICの学習 32 ImageNet + Drop
out でPretraining ランダムにパラメータ を初期化
33.
NICの学習 33 学習データ 予測確率
34.
NICの学習 34 学習データ 予測確率 誤差逆 伝播
35.
NICで予測 (Sampling) 35 Deep CNNで特徴ベク トルを取得 入力画像を与える
36.
NICで予測 (Sampling) 36 Special Start
Word 最も確率の高い 単語𝑺 𝟏を選択
37.
NICで予測 (Sampling) 37 選択した単語 𝑺 𝟏を入力 end-of-sentence tokenが現れるま で続ける
38.
NICで予測 (BeamSearch) 38 Best kの単語を 保持
39.
NICで予測 (BeamSearch) 39 Best kの文章を 保持 k個の単語入力
40.
NICで予測 (BeamSearch) 40 Best kの文章を 保持 k個の単語入力 以下の実験では BeamSearchを使用
41.
Dataset 41 実験に使用したデータセット
42.
実験結果 42 3つの指標でMSCOCOデータセットに対し定量評価 人が評価した性能に近い値を出すことができた
43.
他の手法との比較 43 既存手法より大幅な精度改善
44.
上位N個の文章例 44 同じ画像に対し異なる表現を得られる 学習データにない新しい表現が生成された。
45.
Ranking Results 45
46.
人間による評価 46 Amazon Mechanical
Turkで1枚の画像につき2人、4段階評価 Ground Truthには遠く及ばなかった(→BLEUなどの評価指標に課 題)
47.
人間による評価 47
48.
Analysis of Embedding 48
Word Embedding Vector [20]という手法を用いて、ある 単語の近傍を取得
49.
まとめ 49 Deep CNNとRNNを用いて、画像から 説明文を生成する手法を提案。
1つのネットワークとして誤差逆伝播 でパラメータを学習 RNNにはLSTMを用い、長い文でも 学習時に伝播した誤差が発散しない 従来法と比較し、大幅な精度改善
Jetzt herunterladen