SlideShare ist ein Scribd-Unternehmen logo
1 von 32
Visual Question Answering 2.0
Masao Taketani(竹谷 昌夫)
2019-1-23
自己紹介
名前:竹谷 昌夫(たけたに まさお)
大学時代の専門科目:統計学
ディープラーニング歴:去年から学習を開始し、去年の7月から業務で本格的に
ディープラーニングを使った研究・製品開発に携わる。
▲ITの会社に就職することが決まったて、プログラミング知識を獲得するためにJavaで作った「SUPER MASAO WORLD」
Visual Question Answering(VQA)とは
・与えられた画像と画像に関する質問から答えを予測するためのタスクである。
なぜこの論文を選んだか
・自分自身がディープラーニング X 複数のモダリティからなるマルチモーダルな
モデルに興味があり、かつ今回はWBA若手の会と合同ということでこのテーマを
選んだ。
・学士論文ということもあり、最初の発表を行うのにはちょうどよいレベルだと
思った。
・実装がしやすそうだった。
論文URL: https://imatge.upc.edu/web/sites/default/files/pub/xRoldan.pdf
State of the Art(この論文執筆時点)
・Multimodal Compact Bilinear Poolingという手法を用いて、画像から得た特徴ベク
トルとテキストから得た特徴ベクトルの組み合わせを行い、またアテンションを用
いたアーキテクチャを使用することで高い精度を出した。
論文URL: https://arxiv.org/pdf/1606.01847.pdf
VQA 2.0 Dataset(2017)について
・2015年版の1.0のデータセットでは言語モデルだけで解けるような偏った問題
が多かったため、2017年版は言語モデルだけで解決できないようなバンランスの
とれたデータセットで構成させれている。
画像はMSCOCOデータセットのものが使用され、以下の構成からなる。
・一画像あたりの平均質問数:5.36
・一つの質問に対して、別々のアノテーターがつけた10個の正解があるため、ラ
ベル数は質問数の10倍。
・回答のタイプは「はい/いいえ」、「数値」、「その他の単語」にカテゴライズ
されている。
学習用 検証用 テスト用
画像枚数 82,783 40,504 81,434
質問数 443,757 214,354 447,793
ラベル数 4,437,570 2,143,540
VQA 2.0 Dataset(2017)について
論文で検証されたモデル
Baseline Model
・カタルーニャ工科大学が2016のVQA Challengeに参加したときのモデル。
・画像の特徴抽出器としてKCNN(Kernelized CNN)を使用。画像からの特徴ベクトルに
対して全結合層を追加してベクトルの次元削減を行い、テキストからの特徴ベクトルと
要素ごとの和でマージする。
・マージしたベクトルに対して最後にSoftmax関数を使用して、辞書として使用した
10,000語の中から、質問内容に最もふさわしい回答となる単語を選択。
テキスト解析のみのモデル
・入力した画像から抽出した特徴がどれくらい精度に寄与しているかを調べるた
めに、質問内容だけを解析するモデル(画像の特徴抽出器は使用しない)も構築し
た。
・Word EmbeddingにはGloVe、時系列解析にはLSTMを1層で構成。
VGG-16 Based Model
・VGG-16から特徴抽出器のみを取り出し、7x7x512をFlattenにし、全結合層を
利用して256次元に削減後、テキスト解析モデルから取得した特徴ベクトルと要
素ごとの積をとって結合する。最後にSoftmax関数を用いて答えとなる最もふさ
わしい単語を予測する。
VGG-16をファインチューニングする試みについて
・VGG-16を今回使用する訓練データに対してファインチューニングすれば、よ
り高い精度が出せるはずだが、今回の検証では計算リソースの原因により(学士論
文のためリソースがあまり割り当てわれなかったと書いてあった)ファインチュー
ニングを行うことができなかった。
Word Embedding
・GloVe(Global Vectors Word Representations) embeddingと誤差逆伝搬により学
習させて得たembeddingを比べると、GloVeの方が精度が良かったため、GloVe
を使用した。
・GloVeの分散表現の次元数は100を選択。
・GloVeの入力側は400,000単語あるが、そのうち10,000単語のみを今回使用する
辞書の順番と合わせて使用。
ResNet Based Model
・画像の特徴抽出器にResNet-50を使用。(ResNet-152版がILSVRC 2015でチャ
ンピオンになったことで有名)
・画像の特徴抽出能力が高いのはもちろん、抽出される特徴ベクトルが低次元
(2048次元)なため、学習時間を大幅に少なくすることができる。
要素ごとの積でマージ
・画像から抽出された特徴ベクトルとテキストから抽出された特徴ベクトルを要素
ごとの積を行ってマージする。
・ResNet-50ではそれぞれのブロックでBatch Normalizationが使用されているため、
テキストから抽出された特徴ベクトルに対してもBatch Normalization使用する。
要素ごとの和でマージ
・画像から抽出された特徴ベクトルとテキストから抽出された特徴ベクトルを要素
ごとの和を取ってマージする。
Concatenationによるマージ
・画像から抽出された特徴ベクトルとテキストから抽出された特徴ベクトルをその
ままの形でConcatenationを用いて結合する。画像から抽出された特徴ベクトルの次
元は2048次元で、テキストから抽出されたベクトルは256次元なため、結合後は
2304次元のベクトルになる。
精度の評価方法について
Evaluation Metric
評価方法は、1つの質問に対して別々のアノテーターが作成した10個のラベルの
うち、3つ以上のラベルとマッチした場合の正解率は100%、2つのラベルとマッ
チした場合は66%、1つのラベルとマッチした場合は33%、1つもマッチしなかっ
た場合は0%となる。
それぞれのモデルの検証結果
言語モデルのみの検証結果
・単語のembedding layerには一から学習させたモデルと、GloVeのembeddingを
使用したものの2つで検証を行い、GloVeのembeddingを使用した方が精度が良か
った。
マージオペランドの検証
・画像とテキストの情報をマージする際に、画像の特徴抽出にResNetを使用し、
2つの特徴ベクトルを以下4つの方法で検証した。
1. 要素ごとの積
2. 要素ごとの和
3. Concatenation後にFC(全結合層)の利用
4. Concatenation後にFCを利用しない
・ResNetでは要素ごとの和を使用したマージが一番良かったため、VGGでも要
素ごとの和を試したが、VGGの場合は精度が出なかった。
Learning Rate Decayの検証
・先ほどのResNetのモデルで学習データに対するlossは減少し続けていたが、検
証データに対するlossは早いうちから停滞していたため、検証データのlossに対
する進歩がなくなった段階で学習率の低減をするようにして検証した結果、少し
低いloss値を出すことができた。
GloVe Embeddingのファインチューニング
・Embeddingについて一から学習させるよりもGloVe Embeddingを使用した方が
よい結果が出たため、GloVe Embeddingをファインチューニングした精度も検証
してみた結果、精度は向上しなかった。
マージ後にBatch Normalizationの利用
・画像認識の特徴抽出にResNetを使用したモデルに、Batch Normalizationをマー
ジ後に使用し、検証した結果、より良い精度を得るだけでなく、学習時間も大幅
に減らすことができた。(時間の都合上VGGモデルに関しては検証しなかったが
、そちらでも同じような改善が見込めるだろうと書いてあった。)
検証結果のまとめ
・VGG-basedモデル&GloVe&マージにそれぞれの特徴ベクトルの要素ごとの積
をとったモデルが一番高い精度で、43.30%を得た。
・言語モデルのみを使用したモデルが42.59%だったため、今回検証したモデルで
は、ほとんど言語からのみ学習していることがわかった。
最初の論文発表をやってみて
・資料作成のために何回も論文を読んで、自分の言葉で表現することによって、
今回学んだことをしっかり自分の頭の中で整理することができた。
・学士論文ではあるが、論文を読み切り、現在のディープラーニングで使用され
る基礎事項をしっかり振り返ることができ、次のステップに進むための自信を得
た。
・今までは本とネットの情報を中心に学習していたが、今後は徐々に論文を読む
数を増やしていこうと思う。
次回はより高度な内容を扱った論文に挑戦します!
以上です!

Weitere ähnliche Inhalte

Ähnlich wie Visual Question Answering 2.0

エクスペリエンス・デザイン
エクスペリエンス・デザインエクスペリエンス・デザイン
エクスペリエンス・デザインSaori Baba
 
WordPressではじめるA/Bテストのススメ
WordPressではじめるA/BテストのススメWordPressではじめるA/Bテストのススメ
WordPressではじめるA/Bテストのススメ大輔 井水
 
Self-Critical Sequence Training for Image Captioning (関東CV勉強会 CVPR 2017 読み会)
Self-Critical Sequence Training for Image Captioning (関東CV勉強会 CVPR 2017 読み会)Self-Critical Sequence Training for Image Captioning (関東CV勉強会 CVPR 2017 読み会)
Self-Critical Sequence Training for Image Captioning (関東CV勉強会 CVPR 2017 読み会)Yoshitaka Ushiku
 
Make the 3D Wapuu model and printing by the 3D printer.
Make the 3D Wapuu model and printing by the 3D printer.Make the 3D Wapuu model and printing by the 3D printer.
Make the 3D Wapuu model and printing by the 3D printer.Takeshi Kashihara
 
さくらの夕べオンライン~小学校プログラミング教育ナイト2021
さくらの夕べオンライン~小学校プログラミング教育ナイト2021さくらの夕べオンライン~小学校プログラミング教育ナイト2021
さくらの夕べオンライン~小学校プログラミング教育ナイト2021Asakura Megumi
 
An example of how to make the accessibility ready theme
An example of how to make the accessibility ready themeAn example of how to make the accessibility ready theme
An example of how to make the accessibility ready themeTakeshi Kashihara
 
正解はどれ?『プログラミング教育』を取り巻くステークホルダーと議論
正解はどれ?『プログラミング教育』を取り巻くステークホルダーと議論正解はどれ?『プログラミング教育』を取り巻くステークホルダーと議論
正解はどれ?『プログラミング教育』を取り巻くステークホルダーと議論さくらインターネット株式会社
 
WordPressの進化とWordPress名古屋コミュニティの進化
WordPressの進化とWordPress名古屋コミュニティの進化WordPressの進化とWordPress名古屋コミュニティの進化
WordPressの進化とWordPress名古屋コミュニティの進化takashi ono
 
Webデザイナーの私がMicrosoft Azureを使うようになったワケ
Webデザイナーの私がMicrosoft Azureを使うようになったワケWebデザイナーの私がMicrosoft Azureを使うようになったワケ
Webデザイナーの私がMicrosoft Azureを使うようになったワケ典子 松本
 
マーケティングオートメーション&Mauticとは(WordBench Nagoya 2017年2月勉強会)
マーケティングオートメーション&Mauticとは(WordBench Nagoya 2017年2月勉強会)マーケティングオートメーション&Mauticとは(WordBench Nagoya 2017年2月勉強会)
マーケティングオートメーション&Mauticとは(WordBench Nagoya 2017年2月勉強会)takashi ono
 
Visual Studio 2017の一部を使ってみた
Visual Studio 2017の一部を使ってみたVisual Studio 2017の一部を使ってみた
Visual Studio 2017の一部を使ってみたYou&I
 
機械学習に取り組んでいる企業の紹介
機械学習に取り組んでいる企業の紹介機械学習に取り組んでいる企業の紹介
機械学習に取り組んでいる企業の紹介Kazuma Kadomae
 
ピクト図解® 式 ビジュアル「3C分析シート」
ピクト図解® 式 ビジュアル「3C分析シート」ピクト図解® 式 ビジュアル「3C分析シート」
ピクト図解® 式 ビジュアル「3C分析シート」Satoru Itabashi
 
もしも素人営業ウーマンが UI/UXデザイナーになったら
もしも素人営業ウーマンが UI/UXデザイナーになったらもしも素人営業ウーマンが UI/UXデザイナーになったら
もしも素人営業ウーマンが UI/UXデザイナーになったらChloe Takahashi
 
Engineer can change the world with Drew
Engineer can change the world with DrewEngineer can change the world with Drew
Engineer can change the world with DrewYoshio Terada
 
【Kakaさま】スマ検追加課題
【Kakaさま】スマ検追加課題【Kakaさま】スマ検追加課題
【Kakaさま】スマ検追加課題cotonas_en
 
機械学習システム開発案件の事例紹介
機械学習システム開発案件の事例紹介機械学習システム開発案件の事例紹介
機械学習システム開発案件の事例紹介BrainPad Inc.
 

Ähnlich wie Visual Question Answering 2.0 (20)

エクスペリエンス・デザイン
エクスペリエンス・デザインエクスペリエンス・デザイン
エクスペリエンス・デザイン
 
WordPressではじめるA/Bテストのススメ
WordPressではじめるA/BテストのススメWordPressではじめるA/Bテストのススメ
WordPressではじめるA/Bテストのススメ
 
Self-Critical Sequence Training for Image Captioning (関東CV勉強会 CVPR 2017 読み会)
Self-Critical Sequence Training for Image Captioning (関東CV勉強会 CVPR 2017 読み会)Self-Critical Sequence Training for Image Captioning (関東CV勉強会 CVPR 2017 読み会)
Self-Critical Sequence Training for Image Captioning (関東CV勉強会 CVPR 2017 読み会)
 
石狩での プログラミング教育支援 ~2年目の成果~
石狩でのプログラミング教育支援~2年目の成果~石狩でのプログラミング教育支援~2年目の成果~
石狩での プログラミング教育支援 ~2年目の成果~
 
Make the 3D Wapuu model and printing by the 3D printer.
Make the 3D Wapuu model and printing by the 3D printer.Make the 3D Wapuu model and printing by the 3D printer.
Make the 3D Wapuu model and printing by the 3D printer.
 
さくらの夕べオンライン~小学校プログラミング教育ナイト2021
さくらの夕べオンライン~小学校プログラミング教育ナイト2021さくらの夕べオンライン~小学校プログラミング教育ナイト2021
さくらの夕べオンライン~小学校プログラミング教育ナイト2021
 
An example of how to make the accessibility ready theme
An example of how to make the accessibility ready themeAn example of how to make the accessibility ready theme
An example of how to make the accessibility ready theme
 
正解はどれ?『プログラミング教育』を取り巻くステークホルダーと議論
正解はどれ?『プログラミング教育』を取り巻くステークホルダーと議論正解はどれ?『プログラミング教育』を取り巻くステークホルダーと議論
正解はどれ?『プログラミング教育』を取り巻くステークホルダーと議論
 
WordPressの進化とWordPress名古屋コミュニティの進化
WordPressの進化とWordPress名古屋コミュニティの進化WordPressの進化とWordPress名古屋コミュニティの進化
WordPressの進化とWordPress名古屋コミュニティの進化
 
課題駆動の勘所
課題駆動の勘所課題駆動の勘所
課題駆動の勘所
 
Webデザイナーの私がMicrosoft Azureを使うようになったワケ
Webデザイナーの私がMicrosoft Azureを使うようになったワケWebデザイナーの私がMicrosoft Azureを使うようになったワケ
Webデザイナーの私がMicrosoft Azureを使うようになったワケ
 
マーケティングオートメーション&Mauticとは(WordBench Nagoya 2017年2月勉強会)
マーケティングオートメーション&Mauticとは(WordBench Nagoya 2017年2月勉強会)マーケティングオートメーション&Mauticとは(WordBench Nagoya 2017年2月勉強会)
マーケティングオートメーション&Mauticとは(WordBench Nagoya 2017年2月勉強会)
 
Visual Studio 2017の一部を使ってみた
Visual Studio 2017の一部を使ってみたVisual Studio 2017の一部を使ってみた
Visual Studio 2017の一部を使ってみた
 
機械学習に取り組んでいる企業の紹介
機械学習に取り組んでいる企業の紹介機械学習に取り組んでいる企業の紹介
機械学習に取り組んでいる企業の紹介
 
ピクト図解® 式 ビジュアル「3C分析シート」
ピクト図解® 式 ビジュアル「3C分析シート」ピクト図解® 式 ビジュアル「3C分析シート」
ピクト図解® 式 ビジュアル「3C分析シート」
 
もしも素人営業ウーマンが UI/UXデザイナーになったら
もしも素人営業ウーマンが UI/UXデザイナーになったらもしも素人営業ウーマンが UI/UXデザイナーになったら
もしも素人営業ウーマンが UI/UXデザイナーになったら
 
Engineer can change the world with Drew
Engineer can change the world with DrewEngineer can change the world with Drew
Engineer can change the world with Drew
 
【Kakaさま】スマ検追加課題
【Kakaさま】スマ検追加課題【Kakaさま】スマ検追加課題
【Kakaさま】スマ検追加課題
 
機械学習システム開発案件の事例紹介
機械学習システム開発案件の事例紹介機械学習システム開発案件の事例紹介
機械学習システム開発案件の事例紹介
 
リーンキャンバス
リーンキャンバスリーンキャンバス
リーンキャンバス
 

Kürzlich hochgeladen

知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptxsn679259
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイスCRI Japan, Inc.
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Gamesatsushi061452
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video UnderstandingToru Tamaki
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsWSO2
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルCRI Japan, Inc.
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...Toru Tamaki
 

Kürzlich hochgeladen (10)

知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 

Visual Question Answering 2.0