SlideShare ist ein Scribd-Unternehmen logo
1 von 53
Downloaden Sie, um offline zu lesen
Vision and Language
山本晋太郎 (早稲田大学)
Qiu Yue (筑波大学)
1
Vision and Language
2
• Computer Vision x Natural Language Processing
・ マルチモーダル問題
・ Towards AI-complete
*[1] VQA
*[2] EQA
*[3] Image Captioning
Agenda
3
• 分野紹介
• - 代表的なVision and Languageの分野を紹介
• Visual Question Answering
• - Visual Question Answeringの発展を紹介
• Visual Dialog
• - Visual Dialogの発展を紹介
• メタな話し
• - CV(NLP) at NLP(CV) conference
• - 引用関係から察するメタ
• - VQA, Visual Dialogのgiant
分野紹介
Image Captioning
5
トレンドの例:
・ 多様性のある、感情のある(ユーモアなど [6])キャプション生成
・ 詳細なキャプション生成 (dense captioning [7])
・ “V”or”L”の拡張:Visual Storytelling [8] (画像序列からstory)
Video Captioning (ビデオ説明文生成)
*[4] MS COCOキャプション例
画像
画像説明文
Baseline modelの一例[5]:
Image -> CNN -> LSTM -> Caption
画像から画像説明文を生成するタスク
Text to Image
6
画像
画像説明文
*[9] Text-to-Image Synthesis
modelの一例[10]:
Caption-> Scene Graph -> Scene Layout-> Image
画像説明文から画像を生成するタスク
トレンドの例:
・ Scene Layoutを介して画像生成 [9,10]
・ “V”or”L”の拡張:Text to Video [11]
Story Visualizaton (textから画像序列) [12]
Visual Question Answering
7
画像と質問文から質問を回答するタスク
*[1] VQA
画像,
質問文
答え
modelの一例[1]:
Image -> CNN
Question -> LSTM -> point-wise multiplication -> answer
トレンドの例:
・ Knowledge Representationと結合 [13]
・ Active Learningと結合[14]
・ “V”or”L”の拡張:Embodied Question Answering [2]
Visual Dialog (textから画像序列) [15]
Visual Dialog
8
画像,会話履歴,質問から質問を回答するタスク
*[15] Visual Dialog
画像,
画像説明文,
会話履歴,
質問文
答え modelの一例[15]:
Image -> CNN
Question -> LSTM
History -> LSTM -> Concatenation -> answer
トレンドの例:
・ 画像から会話全体を生成 [16]
・ 多様性を重視した答え文生成 [17]
・ Visual Grounding, Coreference Resolutionと結合 [18]
・ “V”or”L”の拡張:Video Dialog [19]
その他
9
Textベース画像編集 [20]
・ Vision and Languageタスクこれからも続出する傾向
・ 更にMulti-modal (Vision + Language + X (Audio)などの研
究も [19] )
The flower has red petals with
yellow stigmas in the middle
Language and Vision Navigation [21]
画像、
編集指示
編集後の
画像
3D環境、
移動指示
移動
Visual Question Answering
Visual Question Answering (VQA)
11
VQA:
・ 2015年にGeorgia TechのDhruv Batra, Devi Parikhのグループ
により提案
・ 以上の論文現在引用数984
ICCV2015
VQA: トレンド分析
12
キーワード:
・ Bottom-up Top-Down attention, Visual Reasoning,Knowledge
Representation, Memory Network, Generation
VQA: データセット
13
MS COCO画像のVQAデータセット:
データセット概要:
・ 規模:画像200K(MS COCO画像),QAペア(VQA1.0:760K, 2.0:1.11M)
・ 収集方法:Crowdsourcing
・ QA内容:Fine-grained recognition;Object detection;Knowledge base
reasoning;Commonsense reasoning.など
VQA1.0,VQA2.0にデータセットバイアスが重いことが問題視され
[1]VQA1.0 [22]VQA2.0
VQA2.0が最も用いられる
VQA: データセット
14
CG画像のVQAデータセット:
データセット概要:
・ 規模:自動生成なので理論上無限
・ 収集方法:画像もQAペアも自動生成
・ QA内容:Attribute identification;Counting;Comparison;Spatial
relationship;Logical operations.など
[23]CLEVR
・ VQA手法の機能検証用として機能している.
・ 現在state-of-the-art手法がCLEVRにお
いてOverall Accuracyすでに98%を超えてい
る.
VQA: データセット
15
Embodied QAタスク用データセット:
データセット概要:
・ 規模:画像(750CG Scene from SUNCG), QAペア数(5,000)
・ 収集方法:画像もQAペアも自動生成
・ QA内容:Scene recognition;Spatial reasoning;Color recognition.など
[2]EQA1.0
VQA: データセット
16
Knowledge Representationと結合するVQAタスク用データセット:
データセット概要:
・ 規模:画像(2,190), QAペア数(5,826)
・ 収集方法:画像もQAペアも自動生成
・ QA内容:質問を答えるのに必要なSupporting Fact含む
[13]FVQA
VQA: 手法(1/4)
17
• LSTM Q + I [1]
手法概要:
・ CNNにより画像特徴を抽出し,LSTMでQuestion特徴を抽出
・ 線形変換+point-wise multiplicationにより特徴fusion
・ fused特徴からanswerを予測
・ 多クラス分類モデルである,現在のモデルも基本的にこれをベース
VQA: 手法(2/4)
18
• SAN (Stacked Attention Network) [24]
手法概要:
・ Attention mechanismを用いる
・ Question, 画像特徴の線形和によりattention分布を計算
・ 2層attention layerによりcoarse-to-fine的なattention
・ Spatial情報が持つ画像特徴量を使用
VQA: 手法(3/4)
19
• Bottom-Up Top-Down Attention [25]
Region Extraction &
Bottom-Up attention
Top-Down attention
手法概要:
・ Top-DownとともにBottom-up attentionを用いる
・ Bottom-up attention: salient領域抽出と同じ原理
・ 優れた有用性 (VQA challenge2018top3すべてこれを用いる)
VQA: 手法(4/4)
20
• FiLM (Feature Wise Linear Modulation) [26]
手法概要:
・ FiLMを提案
・ FiLM:入力の質問文をRNNにより条件を抽出し,抽出した条
件により画像特徴をFeature mapごとに修正(修正:*w + b)
・ 構造簡単かつ優れた有用性 (FiLMをベースとした手法がCLEVR,
VQA2.0においてstate-of-the-artな性能)
VQA: 新規タスク
21
• EQA (Embodied Question Answering) [2]
タスク概要:
•・ Agentが3次元空間のランダムなlocationからスタートし,与
えられた質問文を回答する.質問文を回答するために,環境で
自己ナビゲーションして,必要な視覚情報を集める
VQA: Leaderboard
22
Site:
https://visualqa.org/roe.html
• VQA challenge 2018:VQA2.0での結果
VQA2.0はまだまだ
難しい
VQA: まとめ
23
• タスクの概要:
• ・画像,質問文から答えを予測;2015年提案され
• キーワード:
• ・Bottom-up Top-Down attention, Visual Reasoning,
Knowledge Representation, Memory Network, Generation
• データセット:
• ・VQA1.0,2.0; CLEVR; EQA1.0; FVQA
• 手法:
• ・LSTM Q + I; Stack attention; Up-Down attention; FiLM
(feature modulation)
• 新規タスク:
• ・EQA
• Leaderboard
Visual Dialog
Visual Dialog
25
Visual Dialog:
・ 2016年にGeorgia TechのDhruv Batra, Devi Parikhのグループ
により提案
・ 以上の論文現在引用数167
CVPR2017
Visual Dialog: データセット
26
VisDial 1.0 [15]
データセット概要:
・ 規模:画像(MS COCO画像123K), Dialog数(1画像1dialog,1dialog 10QA
pairs)
・ 収集方法:Crowdsourcing from AMT, real-time chat内容収集
・ dialog内容:画像の内容を全面的に理解できる程度の会話
VisDialデータセット例
Visual DialogタスクにおいてVisDial
データセットが主流
以下がVisual Dialogの論文まとめ
27
* 手法とタスクの新規性を混ざって一緒に紹介
Late Fusion Encoder: 画像,会話
履歴,質問の特徴を別々で抽出し,
concatenateした後にAffine layer
Hierachical Recurrent Encoder: 会
話履歴をQAペアごとに特徴抽出し,その上
attention over history layerを加える
Visual Dialog [15]
28
概要:
・ Visual Dialogタスク,VisDial データセットを提案
・ Visual Dialogの基本構造: Encoder + Decoderを提案
・ 3種類のEncoder: LF; HRE; MNを提案
・ 2種類のDecoder: Discriminative, Generativeを提案
Memory Network Encoder: 画像,会話履歴,質
問の特徴を別々で抽出し,メモリーバンクを構成する;画
像と質問特徴によりメモリーバンクに重み付き
Learning Cooperative Visual Dialog Agents with Deep Reinforcement Learning [27]
29
概要:
・ 質問するQ-botと回答するA-botが協力し画像を探すタスクの提案
・ Q-bot:会話の履歴,画像集情報から画像を探すための質問を提出
・ A-bot:会話の履歴,正解画像情報,Q-botの質問から回答する
・ 強化学習によりQ-bot, A-botをcollaborativeタスクで共同トレーニ
ング
[] Q-bot A-bot 提案モデル
Visual Coreference Resolution in Visual Dialog using Neural Module Networks [18]
30
概要:
・ Visual DialogしながらVisual Coreference Resolution(視覚対
象とその対象を指す代名詞を解析)を行うタスク提案した
・ NMN (Neural Module Network) []をVisual Dialogタスクに適
応した
[] Visual Coreference Resolution
提案モデル
Audio-Visual Scene-Aware Dialog [28]
31
概要:
・ Audio付きビデオのVisual Dialogタスク,データセット,手法を提案
・ Dateset構成:11,816video; 11,816 dialog (dialogごとに
10QAペア)
・ Language + Vision + Audio
[] Audio-Visual Scene-Aware Dialog 提案モデル
Visual Dialog: Leaderboard
32
Site:
https://visualdialog.org/challenge/2018#leaderboard
• Visual Dialog challenge 2018:VisDial1.0での結果
まだまだ難しい
Visual Dialogまとめ
33
• タスクの概要:
• ・画像,会話履歴,質問文から答えを予測;2017年提案され
• データセット:
• ・VisDial 1.0
• 手法:
• ・Late Fusion; Hierachical Recurrent Encoder; Memory
Network; NMN;
• 新規タスク:
• ・Q-bot, A-bot; 画像から会話生成; Visual Coreference
Resolution + Visual Dialog; Audio-Video Dialog
• Leaderboard
メタな話
Conference
35
• CVとNLPの国際会議
– それぞれが独立して開催されている
– どちらにもVision and LanguageのWorkshopは存在
http://cvpr2019.thecvf.com/ http://www.acl2019.org/EN/index.xhtml
http://languageandvision.com/
At EMNLP 2019
https://www.lantern.uni-saarland.de/
CV(NLP) at NLP(CV) conference
36
• 互いにどれくらい影響を与えている?
• CVPRとACLを対象に調査
– CVPR2018: question, dialog, caption(ing), language
– ACL2018: image(video), visual
これらの単語を含む論文がどれだけあるか集計
CVFとACL Anthologyを使用
http://openaccess.thecvf.com/menu.py https://aclanthology.info/
CV(NLP) at NLP(CV) conference
37
• 集計結果
– CVPR2018: 979本採択
• question: 22本
• dialog: 5本
• caption(ing): 15本
• language: 6本(1本はsign languageなので除外した)
– ACL2018: 383本採択(long 257, short 126)
• image(video): 7本(内videoは1本)
• visual: 7本
会議全体の論文数の違いはあるがVision and languageの
論文が多く見受けられた
38
• 概要
• 画像からattributeとcaptionを取得
• 取得した2種類の言語情報から答えを推測
NLP会議のVQAその1 [29]
39
• 概要
• VQAにおいて質問文に前提条件が存在するのでは?という研究
• (左の例では,男がラケットを持っている必要がある)
• 質問文と画像が関連している場合は答えを,そうでない場合は質問文と
画像のどこが対応していないかを説明
NLP会議のVQAその2 [30]
引用関係から察するメタ
40
• CV, NLPどちらの会議でもVision and Languageが
流行ってるのは分かった
– 別々の分野なのにどうやって知識得るんだ?
– CV(NLP)の研究室にいるんだけどVision and Language
やるにはNLP(CV)の論文どれだけ読めばいいの?
→Vision and Language論文が引用してる論文を見れば
分かるんじゃね?
ということでCV会議及びNLP会議で発表されたVQAに関
する論文を調べてみた
方法
41
• CVPR, ICCV(CV系)及びACL, EMNLP, NAACL(NLP系)にて
採択されたVQAに関する論文を各5本(計10本ピックアップ)
• 各論文が引用している文献を見てどの分野のものかを集計
– CV (CVPR, ECCV, ICCVなど)
– NLP (ACL, EMNLP, NAACLなど)
– AI, ML (AAAI, ICML, NIPSなど)
– Other (上に当てはまらないもの,含arxiv)
※論文が引用しているのがarxiv版の場合,仮にどこかの会議で採択さ
れたものであってもOtherにカウントした
CV編
42
• 対象論文
• ※数字は次ページの表と対応
1. Antol et al., “VQA: Visual Question Answering.”, ICCV 2015
2. Goyal et al., “Making the V in VQA Matter: Elevating the Role of
Image Understanding in Visual Question Answering.”, CVPR 2017
3. Das et al., “Embodied Question Answering”, CVPR 2018
4. Kafle et al., “DVQA: Understanding Data Visualizations via
Question Answering.”, CVPR 2018
5. Li et al., “Visual Question Generation as Dual Task of Visual
Question Answering.” CVPR 2018
CV編集計結果
43
• CV的なコントリビューションにフォーカスしてるのかCV系
の論文を多く引用
• NLP論文は0ではないが少ない
• →NLP系の会議ではもっと増えるのでは(予想)
NLP編
44
• 対象論文
• ※数字は次ページの表と対応
1. Li et al., “Tell-and-Answer: Towards Explainable Visual Question
Answering using Attributes and Captions.”, EMNLP 2018
2. Patro et al., “Multimodal Differential Network for Visual Question
Generation.”, EMNLP 2018
3. Chao et al., “Being Negative but Constructively: Lessons Learnt
from Creating Better Visual Question Answering Datasets.”,
NAACL 2018
4. Mahendru et al., “The Promise of Premise: Harnessing Question
Premises in Visual Question Answering.”, EMNLP 2017
5. Fukui et al., “Multimodal Compact Bilinear Pooling for Visual
Question Answering and Visual Grounding.” EMNLP 2016
NLP編集計結果
45
• 予想に反してNLP系会議論文でもCV会議の論文を多く引用
• 中にはNLP系会議の論文を1本しか引用してないものも!
• NLP的な話にフォーカスしてるorマルチモーダル的な話にし
ていた
VQA@NLP会議
46
今回調べた論文を眺めて
• VQA論文をNLP系会議で通してるのはどんな研究室か?
– CV系を中心に出してる研究室が多そう(e.g. Trevor Darrel@UC
Berkley)
– 逆にメインがNLPという研究室は(今回統計とった5本の論文には)
なかった
– 更に言うと共著者にNLPが専門の人が入っている様子でもなかった
• CVerでもACLやEMNLPを狙うチャンスは十分にある?
• NLPerがあまり参入していないため,逆に手を組むことで
NLP的なcontributionも狙えるのでは?
VQAとVisual DialogのGiant
47
• Georgia Tech: Dhruv Batra, Devi Parikhグループ
• ・VQA, Visual Dialogタスクを提案
• ・VQA Challenge, Visual Dialog Challengeを主催
• ・重要なデータセット:VQA1.0, 2.0, VisDial1.0を提案
• ・VQA, Visual Dialogのほとんどの重要研究
• ・Vision and Languageの新しいタスクをどんどん生み出し
ている
Site:
https://www.cc.gatech.edu/~dbatra/index.html#group
https://www.cc.gatech.edu/~parikh/vil.html
VQAとVisual DialogのGiant
48
• Georgia Tech: Dhruv Batra, Devi Parikhグループ
• 代表研究:
・ 研究方向的にも,手法的にもリード
VQAとVisual DialogのGiant
49
• Georgia Tech: Dhruv Batra, Devi Parikhグループ
• 新しい研究タスク:
・ 研究方向的にも,手法的にもリード
Audio-Visual Scene-Aware Dialog [28]
Audio含めたVideo Dialog
TextVQA:画像中の文字理解
まとめ
50
• 分野紹介
• - 代表的なVision and Languageの分野を紹介
• Visual Question Answering
• - Visual Question Answeringの発展を紹介
• Visual Dialog
• - Visual Dialogの発展を紹介
• メタな話し
• - CV(NLP) at NLP(CV) conference
• - 引用関係から察するメタ
• - VQA, Visual Dialogのgiant
参考文献
51
[1] Antol, Stanislaw, et al. "Vqa: Visual question answering." Proceedings of the IEEE international conference on
computer vision. 2015.
[2] Das, Abhishek, et al. "Embodied question answering." Proceedings of the IEEE Conference on Computer Vision
and Pattern Recognition Workshops. 2018.
[3] Kiros, Ryan, Ruslan Salakhutdinov, and Rich Zemel. "Multimodal neural language models." International
Conference on Machine Learning. 2014.
[4] Chen, Xinlei, et al. "Microsoft COCO captions: Data collection and evaluation server." arXiv preprint
arXiv:1504.00325 (2015).
[5] Xu, Kelvin, et al. "Show, attend and tell: Neural image caption generation with visual attention." International
conference on machine learning. 2015.
[6] Yoshida, Kota, et al. "Neural Joking Machine: Humorous image captioning." arXiv preprint arXiv:1805.11850
(2018).
[7] Johnson, Justin, Andrej Karpathy, and Li Fei-Fei. "Densecap: Fully convolutional localization networks for dense
captioning." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016.
[8] Huang, Ting-Hao Kenneth, et al. "Visual storytelling." Proceedings of the 2016 Conference of the North American
Chapter of the Association for Computational Linguistics: Human Language Technologies. 2016.
[9] Hong, Seunghoon, et al. "Inferring semantic layout for hierarchical text-to-image synthesis." Proceedings of the
IEEE Conference on Computer Vision and Pattern Recognition. 2018.
[10] Johnson, Justin, Agrim Gupta, and Li Fei-Fei. "Image generation from scene graphs." Proceedings of the IEEE
Conference on Computer Vision and Pattern Recognition. 2018.
参考文献
52
[11] Li, Yitong, et al. "Video generation from text." Thirty-Second AAAI Conference on Artificial Intelligence. 2018.
[12] Li, Yitong, et al. "StoryGAN: A Sequential Conditional GAN for Story Visualization." arXiv preprint
arXiv:1812.02784 (2018).
[13] Wang, Peng, et al. "Fvqa: Fact-based visual question answering." IEEE transactions on pattern analysis and
machine intelligence (2017).
[14] Misra, Ishan, et al. "Learning by Asking Questions." arXiv preprint arXiv:1712.01238 (2017).
[15] Das, Abhishek, et al. "Visual dialog." Proceedings of the IEEE Conference on Computer Vision and Pattern
Recognition. 2017.
[16] Massiceti, Daniela, et al. "Flipdial: A generative model for two-way visual dialogue." Proceedings of the IEEE
Conference on Computer Vision and Pattern Recognition. 2018.
[17] Wu, Qi, et al. "Are you talking to me? reasoned visual dialog generation through adversarial
learning." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018.
[18] Kottur, Satwik, et al. "Visual coreference resolution in visual dialog using neural module networks." Proceedings
of the European Conference on Computer Vision (ECCV). 2018.
[19] Hori, Chiori, et al. "End-to-end audio visual scene-aware dialog using multimodal attention-based video
features." arXiv preprint arXiv:1806.08409 (2018).
[20] Chen, Jianbo, et al. "Language-based image editing with recurrent attentive models." Proceedings of the IEEE
Conference on Computer Vision and Pattern Recognition. 2018.
[21] Anderson, Peter, et al. "Vision-and-language navigation: Interpreting visually-grounded navigation instructions
in real environments." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018.
参考文献
53
[22] Goyal, Yash, et al. "Making the V in VQA matter: Elevating the role of image understanding in Visual Question
Answering." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017.
[23] Johnson, Justin, et al. "Clevr: A diagnostic dataset for compositional language and elementary visual
reasoning." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017.
[24] Yang, Zichao, et al. "Stacked attention networks for image question answering." Proceedings of the IEEE
conference on computer vision and pattern recognition. 2016.
[25] Anderson, Peter, et al. "Bottom-up and top-down attention for image captioning and visual question answering."
Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018.
[26] Perez, Ethan, et al. "Film: Visual reasoning with a general conditioning layer." Thirty-Second AAAI Conference
on Artificial Intelligence. 2018.
[27] Das, Abhishek, et al. "Learning cooperative visual dialog agents with deep reinforcement learning." Proceedings
of the IEEE International Conference on Computer Vision. 2017.
[28] Alamri, Huda, et al. "Audio-Visual Scene-Aware Dialog." arXiv preprint arXiv:1901.09107 (2019).
[29] Li, Qing, et al. ““Tell-and-Answer: Towards Explainable Visual Question Answering using Attributes and Captions.”, EMNLP
2018
[30] Mahendru, Aroma, et al., “The Promise of Premise: Harnessing Question Premises in Visual Question Answering.”, EMNLP
2017

Weitere ähnliche Inhalte

Was ist angesagt?

SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII
 
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)cvpaper. challenge
 
Vision and Language(メタサーベイ )
Vision and Language(メタサーベイ )Vision and Language(メタサーベイ )
Vision and Language(メタサーベイ )cvpaper. challenge
 
Transformer メタサーベイ
Transformer メタサーベイTransformer メタサーベイ
Transformer メタサーベイcvpaper. challenge
 
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State SpacesDeep Learning JP
 
ドメイン適応の原理と応用
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用Yoshitaka Ushiku
 
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習Eiji Uchibe
 
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from PixelsDeep Learning JP
 
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII
 
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
【DL輪読会】Perceiver io  a general architecture for structured inputs & outputs 【DL輪読会】Perceiver io  a general architecture for structured inputs & outputs
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs Deep Learning JP
 
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Modelscvpaper. challenge
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!TransformerArithmer Inc.
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Yusuke Uchida
 
[DL輪読会]Glow: Generative Flow with Invertible 1×1 Convolutions
[DL輪読会]Glow: Generative Flow with Invertible 1×1 Convolutions[DL輪読会]Glow: Generative Flow with Invertible 1×1 Convolutions
[DL輪読会]Glow: Generative Flow with Invertible 1×1 ConvolutionsDeep Learning JP
 
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling ProblemDeep Learning JP
 
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...Deep Learning JP
 
【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者cvpaper. challenge
 
Active Convolution, Deformable Convolution ―形状・スケールを学習可能なConvolution―
Active Convolution, Deformable Convolution ―形状・スケールを学習可能なConvolution―Active Convolution, Deformable Convolution ―形状・スケールを学習可能なConvolution―
Active Convolution, Deformable Convolution ―形状・スケールを学習可能なConvolution―Yosuke Shinya
 
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision TransformerYusuke Uchida
 

Was ist angesagt? (20)

SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
 
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)
 
Vision and Language(メタサーベイ )
Vision and Language(メタサーベイ )Vision and Language(メタサーベイ )
Vision and Language(メタサーベイ )
 
Transformer メタサーベイ
Transformer メタサーベイTransformer メタサーベイ
Transformer メタサーベイ
 
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
 
ドメイン適応の原理と応用
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用
 
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習
 
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
 
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
 
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
【DL輪読会】Perceiver io  a general architecture for structured inputs & outputs 【DL輪読会】Perceiver io  a general architecture for structured inputs & outputs
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
 
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!Transformer
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
 
[DL輪読会]World Models
[DL輪読会]World Models[DL輪読会]World Models
[DL輪読会]World Models
 
[DL輪読会]Glow: Generative Flow with Invertible 1×1 Convolutions
[DL輪読会]Glow: Generative Flow with Invertible 1×1 Convolutions[DL輪読会]Glow: Generative Flow with Invertible 1×1 Convolutions
[DL輪読会]Glow: Generative Flow with Invertible 1×1 Convolutions
 
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
 
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
 
【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者
 
Active Convolution, Deformable Convolution ―形状・スケールを学習可能なConvolution―
Active Convolution, Deformable Convolution ―形状・スケールを学習可能なConvolution―Active Convolution, Deformable Convolution ―形状・スケールを学習可能なConvolution―
Active Convolution, Deformable Convolution ―形状・スケールを学習可能なConvolution―
 
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
 

Ähnlich wie メタスタディ (Vision and Language)

【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...Deep Learning JP
 
CVPRプレゼン動画100本サーベイ
CVPRプレゼン動画100本サーベイCVPRプレゼン動画100本サーベイ
CVPRプレゼン動画100本サーベイYuki Yamashita
 
Unified Vision-Language Pre-Training for Image Captioning and VQA
Unified Vision-Language Pre-Training for Image Captioning and VQAUnified Vision-Language Pre-Training for Image Captioning and VQA
Unified Vision-Language Pre-Training for Image Captioning and VQAharmonylab
 
Visual Question Answering (VQA) - CVPR2018動向分析 (CVPR 2018 完全読破チャレンジ報告会)
Visual Question Answering (VQA) - CVPR2018動向分析 (CVPR 2018 完全読破チャレンジ報告会)Visual Question Answering (VQA) - CVPR2018動向分析 (CVPR 2018 完全読破チャレンジ報告会)
Visual Question Answering (VQA) - CVPR2018動向分析 (CVPR 2018 完全読破チャレンジ報告会)cvpaper. challenge
 
リクルートにおける画像解析事例紹介と周辺技術紹介
リクルートにおける画像解析事例紹介と周辺技術紹介リクルートにおける画像解析事例紹介と周辺技術紹介
リクルートにおける画像解析事例紹介と周辺技術紹介Recruit Technologies
 
リクルートはいかにして、ディープラーニング(深層学習)の導入を成功させたか
リクルートはいかにして、ディープラーニング(深層学習)の導入を成功させたかリクルートはいかにして、ディープラーニング(深層学習)の導入を成功させたか
リクルートはいかにして、ディープラーニング(深層学習)の導入を成功させたかRecruit Technologies
 
大規模画像認識とその周辺
大規模画像認識とその周辺大規模画像認識とその周辺
大規模画像認識とその周辺n_hidekey
 
人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020)
人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020)人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020)
人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020)Shintaro Yoshida
 
Towards Performant Video Recognition
Towards Performant Video RecognitionTowards Performant Video Recognition
Towards Performant Video Recognitioncvpaper. challenge
 
[DL輪読会]Stereo Magnification: Learning view synthesis using multiplane images, +α
[DL輪読会]Stereo Magnification: Learning view synthesis using multiplane images, +α[DL輪読会]Stereo Magnification: Learning view synthesis using multiplane images, +α
[DL輪読会]Stereo Magnification: Learning view synthesis using multiplane images, +αDeep Learning JP
 
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...Deep Learning JP
 
ICCV 2019 論文紹介 (26 papers)
ICCV 2019 論文紹介 (26 papers)ICCV 2019 論文紹介 (26 papers)
ICCV 2019 論文紹介 (26 papers)Hideki Okada
 
Neural Global Shutter: Learn to Restore Video from a Rolling Shutter Camera w...
Neural Global Shutter: Learn to Restore Video from a Rolling Shutter Camera w...Neural Global Shutter: Learn to Restore Video from a Rolling Shutter Camera w...
Neural Global Shutter: Learn to Restore Video from a Rolling Shutter Camera w...tomoaki0705
 
[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会
[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会
[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会S_aiueo32
 
Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...
Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...
Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...Yoshitaka Ushiku
 
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted WindowsDeep Learning JP
 
実装(2) 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第31回】
実装(2) 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第31回】実装(2) 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第31回】
実装(2) 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第31回】Tomoharu ASAMI
 
Cedec2012 ai-contest-design-patterns-principles
Cedec2012 ai-contest-design-patterns-principlesCedec2012 ai-contest-design-patterns-principles
Cedec2012 ai-contest-design-patterns-principlesHironori Washizaki
 
20211220 abeja tech_lt_sr (SRFlow)
20211220 abeja tech_lt_sr (SRFlow)20211220 abeja tech_lt_sr (SRFlow)
20211220 abeja tech_lt_sr (SRFlow)SO0529
 

Ähnlich wie メタスタディ (Vision and Language) (20)

【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
 
CVPRプレゼン動画100本サーベイ
CVPRプレゼン動画100本サーベイCVPRプレゼン動画100本サーベイ
CVPRプレゼン動画100本サーベイ
 
Unified Vision-Language Pre-Training for Image Captioning and VQA
Unified Vision-Language Pre-Training for Image Captioning and VQAUnified Vision-Language Pre-Training for Image Captioning and VQA
Unified Vision-Language Pre-Training for Image Captioning and VQA
 
SIGGRAPH 2019 Report
SIGGRAPH 2019 ReportSIGGRAPH 2019 Report
SIGGRAPH 2019 Report
 
Visual Question Answering (VQA) - CVPR2018動向分析 (CVPR 2018 完全読破チャレンジ報告会)
Visual Question Answering (VQA) - CVPR2018動向分析 (CVPR 2018 完全読破チャレンジ報告会)Visual Question Answering (VQA) - CVPR2018動向分析 (CVPR 2018 完全読破チャレンジ報告会)
Visual Question Answering (VQA) - CVPR2018動向分析 (CVPR 2018 完全読破チャレンジ報告会)
 
リクルートにおける画像解析事例紹介と周辺技術紹介
リクルートにおける画像解析事例紹介と周辺技術紹介リクルートにおける画像解析事例紹介と周辺技術紹介
リクルートにおける画像解析事例紹介と周辺技術紹介
 
リクルートはいかにして、ディープラーニング(深層学習)の導入を成功させたか
リクルートはいかにして、ディープラーニング(深層学習)の導入を成功させたかリクルートはいかにして、ディープラーニング(深層学習)の導入を成功させたか
リクルートはいかにして、ディープラーニング(深層学習)の導入を成功させたか
 
大規模画像認識とその周辺
大規模画像認識とその周辺大規模画像認識とその周辺
大規模画像認識とその周辺
 
人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020)
人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020)人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020)
人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020)
 
Towards Performant Video Recognition
Towards Performant Video RecognitionTowards Performant Video Recognition
Towards Performant Video Recognition
 
[DL輪読会]Stereo Magnification: Learning view synthesis using multiplane images, +α
[DL輪読会]Stereo Magnification: Learning view synthesis using multiplane images, +α[DL輪読会]Stereo Magnification: Learning view synthesis using multiplane images, +α
[DL輪読会]Stereo Magnification: Learning view synthesis using multiplane images, +α
 
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...
 
ICCV 2019 論文紹介 (26 papers)
ICCV 2019 論文紹介 (26 papers)ICCV 2019 論文紹介 (26 papers)
ICCV 2019 論文紹介 (26 papers)
 
Neural Global Shutter: Learn to Restore Video from a Rolling Shutter Camera w...
Neural Global Shutter: Learn to Restore Video from a Rolling Shutter Camera w...Neural Global Shutter: Learn to Restore Video from a Rolling Shutter Camera w...
Neural Global Shutter: Learn to Restore Video from a Rolling Shutter Camera w...
 
[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会
[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会
[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会
 
Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...
Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...
Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...
 
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
 
実装(2) 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第31回】
実装(2) 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第31回】実装(2) 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第31回】
実装(2) 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第31回】
 
Cedec2012 ai-contest-design-patterns-principles
Cedec2012 ai-contest-design-patterns-principlesCedec2012 ai-contest-design-patterns-principles
Cedec2012 ai-contest-design-patterns-principles
 
20211220 abeja tech_lt_sr (SRFlow)
20211220 abeja tech_lt_sr (SRFlow)20211220 abeja tech_lt_sr (SRFlow)
20211220 abeja tech_lt_sr (SRFlow)
 

メタスタディ (Vision and Language)

  • 1. Vision and Language 山本晋太郎 (早稲田大学) Qiu Yue (筑波大学) 1
  • 2. Vision and Language 2 • Computer Vision x Natural Language Processing ・ マルチモーダル問題 ・ Towards AI-complete *[1] VQA *[2] EQA *[3] Image Captioning
  • 3. Agenda 3 • 分野紹介 • - 代表的なVision and Languageの分野を紹介 • Visual Question Answering • - Visual Question Answeringの発展を紹介 • Visual Dialog • - Visual Dialogの発展を紹介 • メタな話し • - CV(NLP) at NLP(CV) conference • - 引用関係から察するメタ • - VQA, Visual Dialogのgiant
  • 5. Image Captioning 5 トレンドの例: ・ 多様性のある、感情のある(ユーモアなど [6])キャプション生成 ・ 詳細なキャプション生成 (dense captioning [7]) ・ “V”or”L”の拡張:Visual Storytelling [8] (画像序列からstory) Video Captioning (ビデオ説明文生成) *[4] MS COCOキャプション例 画像 画像説明文 Baseline modelの一例[5]: Image -> CNN -> LSTM -> Caption 画像から画像説明文を生成するタスク
  • 6. Text to Image 6 画像 画像説明文 *[9] Text-to-Image Synthesis modelの一例[10]: Caption-> Scene Graph -> Scene Layout-> Image 画像説明文から画像を生成するタスク トレンドの例: ・ Scene Layoutを介して画像生成 [9,10] ・ “V”or”L”の拡張:Text to Video [11] Story Visualizaton (textから画像序列) [12]
  • 7. Visual Question Answering 7 画像と質問文から質問を回答するタスク *[1] VQA 画像, 質問文 答え modelの一例[1]: Image -> CNN Question -> LSTM -> point-wise multiplication -> answer トレンドの例: ・ Knowledge Representationと結合 [13] ・ Active Learningと結合[14] ・ “V”or”L”の拡張:Embodied Question Answering [2] Visual Dialog (textから画像序列) [15]
  • 8. Visual Dialog 8 画像,会話履歴,質問から質問を回答するタスク *[15] Visual Dialog 画像, 画像説明文, 会話履歴, 質問文 答え modelの一例[15]: Image -> CNN Question -> LSTM History -> LSTM -> Concatenation -> answer トレンドの例: ・ 画像から会話全体を生成 [16] ・ 多様性を重視した答え文生成 [17] ・ Visual Grounding, Coreference Resolutionと結合 [18] ・ “V”or”L”の拡張:Video Dialog [19]
  • 9. その他 9 Textベース画像編集 [20] ・ Vision and Languageタスクこれからも続出する傾向 ・ 更にMulti-modal (Vision + Language + X (Audio)などの研 究も [19] ) The flower has red petals with yellow stigmas in the middle Language and Vision Navigation [21] 画像、 編集指示 編集後の 画像 3D環境、 移動指示 移動
  • 11. Visual Question Answering (VQA) 11 VQA: ・ 2015年にGeorgia TechのDhruv Batra, Devi Parikhのグループ により提案 ・ 以上の論文現在引用数984 ICCV2015
  • 12. VQA: トレンド分析 12 キーワード: ・ Bottom-up Top-Down attention, Visual Reasoning,Knowledge Representation, Memory Network, Generation
  • 13. VQA: データセット 13 MS COCO画像のVQAデータセット: データセット概要: ・ 規模:画像200K(MS COCO画像),QAペア(VQA1.0:760K, 2.0:1.11M) ・ 収集方法:Crowdsourcing ・ QA内容:Fine-grained recognition;Object detection;Knowledge base reasoning;Commonsense reasoning.など VQA1.0,VQA2.0にデータセットバイアスが重いことが問題視され [1]VQA1.0 [22]VQA2.0 VQA2.0が最も用いられる
  • 14. VQA: データセット 14 CG画像のVQAデータセット: データセット概要: ・ 規模:自動生成なので理論上無限 ・ 収集方法:画像もQAペアも自動生成 ・ QA内容:Attribute identification;Counting;Comparison;Spatial relationship;Logical operations.など [23]CLEVR ・ VQA手法の機能検証用として機能している. ・ 現在state-of-the-art手法がCLEVRにお いてOverall Accuracyすでに98%を超えてい る.
  • 15. VQA: データセット 15 Embodied QAタスク用データセット: データセット概要: ・ 規模:画像(750CG Scene from SUNCG), QAペア数(5,000) ・ 収集方法:画像もQAペアも自動生成 ・ QA内容:Scene recognition;Spatial reasoning;Color recognition.など [2]EQA1.0
  • 16. VQA: データセット 16 Knowledge Representationと結合するVQAタスク用データセット: データセット概要: ・ 規模:画像(2,190), QAペア数(5,826) ・ 収集方法:画像もQAペアも自動生成 ・ QA内容:質問を答えるのに必要なSupporting Fact含む [13]FVQA
  • 17. VQA: 手法(1/4) 17 • LSTM Q + I [1] 手法概要: ・ CNNにより画像特徴を抽出し,LSTMでQuestion特徴を抽出 ・ 線形変換+point-wise multiplicationにより特徴fusion ・ fused特徴からanswerを予測 ・ 多クラス分類モデルである,現在のモデルも基本的にこれをベース
  • 18. VQA: 手法(2/4) 18 • SAN (Stacked Attention Network) [24] 手法概要: ・ Attention mechanismを用いる ・ Question, 画像特徴の線形和によりattention分布を計算 ・ 2層attention layerによりcoarse-to-fine的なattention ・ Spatial情報が持つ画像特徴量を使用
  • 19. VQA: 手法(3/4) 19 • Bottom-Up Top-Down Attention [25] Region Extraction & Bottom-Up attention Top-Down attention 手法概要: ・ Top-DownとともにBottom-up attentionを用いる ・ Bottom-up attention: salient領域抽出と同じ原理 ・ 優れた有用性 (VQA challenge2018top3すべてこれを用いる)
  • 20. VQA: 手法(4/4) 20 • FiLM (Feature Wise Linear Modulation) [26] 手法概要: ・ FiLMを提案 ・ FiLM:入力の質問文をRNNにより条件を抽出し,抽出した条 件により画像特徴をFeature mapごとに修正(修正:*w + b) ・ 構造簡単かつ優れた有用性 (FiLMをベースとした手法がCLEVR, VQA2.0においてstate-of-the-artな性能)
  • 21. VQA: 新規タスク 21 • EQA (Embodied Question Answering) [2] タスク概要: •・ Agentが3次元空間のランダムなlocationからスタートし,与 えられた質問文を回答する.質問文を回答するために,環境で 自己ナビゲーションして,必要な視覚情報を集める
  • 22. VQA: Leaderboard 22 Site: https://visualqa.org/roe.html • VQA challenge 2018:VQA2.0での結果 VQA2.0はまだまだ 難しい
  • 23. VQA: まとめ 23 • タスクの概要: • ・画像,質問文から答えを予測;2015年提案され • キーワード: • ・Bottom-up Top-Down attention, Visual Reasoning, Knowledge Representation, Memory Network, Generation • データセット: • ・VQA1.0,2.0; CLEVR; EQA1.0; FVQA • 手法: • ・LSTM Q + I; Stack attention; Up-Down attention; FiLM (feature modulation) • 新規タスク: • ・EQA • Leaderboard
  • 25. Visual Dialog 25 Visual Dialog: ・ 2016年にGeorgia TechのDhruv Batra, Devi Parikhのグループ により提案 ・ 以上の論文現在引用数167 CVPR2017
  • 26. Visual Dialog: データセット 26 VisDial 1.0 [15] データセット概要: ・ 規模:画像(MS COCO画像123K), Dialog数(1画像1dialog,1dialog 10QA pairs) ・ 収集方法:Crowdsourcing from AMT, real-time chat内容収集 ・ dialog内容:画像の内容を全面的に理解できる程度の会話 VisDialデータセット例 Visual DialogタスクにおいてVisDial データセットが主流
  • 28. Late Fusion Encoder: 画像,会話 履歴,質問の特徴を別々で抽出し, concatenateした後にAffine layer Hierachical Recurrent Encoder: 会 話履歴をQAペアごとに特徴抽出し,その上 attention over history layerを加える Visual Dialog [15] 28 概要: ・ Visual Dialogタスク,VisDial データセットを提案 ・ Visual Dialogの基本構造: Encoder + Decoderを提案 ・ 3種類のEncoder: LF; HRE; MNを提案 ・ 2種類のDecoder: Discriminative, Generativeを提案 Memory Network Encoder: 画像,会話履歴,質 問の特徴を別々で抽出し,メモリーバンクを構成する;画 像と質問特徴によりメモリーバンクに重み付き
  • 29. Learning Cooperative Visual Dialog Agents with Deep Reinforcement Learning [27] 29 概要: ・ 質問するQ-botと回答するA-botが協力し画像を探すタスクの提案 ・ Q-bot:会話の履歴,画像集情報から画像を探すための質問を提出 ・ A-bot:会話の履歴,正解画像情報,Q-botの質問から回答する ・ 強化学習によりQ-bot, A-botをcollaborativeタスクで共同トレーニ ング [] Q-bot A-bot 提案モデル
  • 30. Visual Coreference Resolution in Visual Dialog using Neural Module Networks [18] 30 概要: ・ Visual DialogしながらVisual Coreference Resolution(視覚対 象とその対象を指す代名詞を解析)を行うタスク提案した ・ NMN (Neural Module Network) []をVisual Dialogタスクに適 応した [] Visual Coreference Resolution 提案モデル
  • 31. Audio-Visual Scene-Aware Dialog [28] 31 概要: ・ Audio付きビデオのVisual Dialogタスク,データセット,手法を提案 ・ Dateset構成:11,816video; 11,816 dialog (dialogごとに 10QAペア) ・ Language + Vision + Audio [] Audio-Visual Scene-Aware Dialog 提案モデル
  • 32. Visual Dialog: Leaderboard 32 Site: https://visualdialog.org/challenge/2018#leaderboard • Visual Dialog challenge 2018:VisDial1.0での結果 まだまだ難しい
  • 33. Visual Dialogまとめ 33 • タスクの概要: • ・画像,会話履歴,質問文から答えを予測;2017年提案され • データセット: • ・VisDial 1.0 • 手法: • ・Late Fusion; Hierachical Recurrent Encoder; Memory Network; NMN; • 新規タスク: • ・Q-bot, A-bot; 画像から会話生成; Visual Coreference Resolution + Visual Dialog; Audio-Video Dialog • Leaderboard
  • 35. Conference 35 • CVとNLPの国際会議 – それぞれが独立して開催されている – どちらにもVision and LanguageのWorkshopは存在 http://cvpr2019.thecvf.com/ http://www.acl2019.org/EN/index.xhtml http://languageandvision.com/ At EMNLP 2019 https://www.lantern.uni-saarland.de/
  • 36. CV(NLP) at NLP(CV) conference 36 • 互いにどれくらい影響を与えている? • CVPRとACLを対象に調査 – CVPR2018: question, dialog, caption(ing), language – ACL2018: image(video), visual これらの単語を含む論文がどれだけあるか集計 CVFとACL Anthologyを使用 http://openaccess.thecvf.com/menu.py https://aclanthology.info/
  • 37. CV(NLP) at NLP(CV) conference 37 • 集計結果 – CVPR2018: 979本採択 • question: 22本 • dialog: 5本 • caption(ing): 15本 • language: 6本(1本はsign languageなので除外した) – ACL2018: 383本採択(long 257, short 126) • image(video): 7本(内videoは1本) • visual: 7本 会議全体の論文数の違いはあるがVision and languageの 論文が多く見受けられた
  • 38. 38 • 概要 • 画像からattributeとcaptionを取得 • 取得した2種類の言語情報から答えを推測 NLP会議のVQAその1 [29]
  • 39. 39 • 概要 • VQAにおいて質問文に前提条件が存在するのでは?という研究 • (左の例では,男がラケットを持っている必要がある) • 質問文と画像が関連している場合は答えを,そうでない場合は質問文と 画像のどこが対応していないかを説明 NLP会議のVQAその2 [30]
  • 40. 引用関係から察するメタ 40 • CV, NLPどちらの会議でもVision and Languageが 流行ってるのは分かった – 別々の分野なのにどうやって知識得るんだ? – CV(NLP)の研究室にいるんだけどVision and Language やるにはNLP(CV)の論文どれだけ読めばいいの? →Vision and Language論文が引用してる論文を見れば 分かるんじゃね? ということでCV会議及びNLP会議で発表されたVQAに関 する論文を調べてみた
  • 41. 方法 41 • CVPR, ICCV(CV系)及びACL, EMNLP, NAACL(NLP系)にて 採択されたVQAに関する論文を各5本(計10本ピックアップ) • 各論文が引用している文献を見てどの分野のものかを集計 – CV (CVPR, ECCV, ICCVなど) – NLP (ACL, EMNLP, NAACLなど) – AI, ML (AAAI, ICML, NIPSなど) – Other (上に当てはまらないもの,含arxiv) ※論文が引用しているのがarxiv版の場合,仮にどこかの会議で採択さ れたものであってもOtherにカウントした
  • 42. CV編 42 • 対象論文 • ※数字は次ページの表と対応 1. Antol et al., “VQA: Visual Question Answering.”, ICCV 2015 2. Goyal et al., “Making the V in VQA Matter: Elevating the Role of Image Understanding in Visual Question Answering.”, CVPR 2017 3. Das et al., “Embodied Question Answering”, CVPR 2018 4. Kafle et al., “DVQA: Understanding Data Visualizations via Question Answering.”, CVPR 2018 5. Li et al., “Visual Question Generation as Dual Task of Visual Question Answering.” CVPR 2018
  • 44. NLP編 44 • 対象論文 • ※数字は次ページの表と対応 1. Li et al., “Tell-and-Answer: Towards Explainable Visual Question Answering using Attributes and Captions.”, EMNLP 2018 2. Patro et al., “Multimodal Differential Network for Visual Question Generation.”, EMNLP 2018 3. Chao et al., “Being Negative but Constructively: Lessons Learnt from Creating Better Visual Question Answering Datasets.”, NAACL 2018 4. Mahendru et al., “The Promise of Premise: Harnessing Question Premises in Visual Question Answering.”, EMNLP 2017 5. Fukui et al., “Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding.” EMNLP 2016
  • 46. VQA@NLP会議 46 今回調べた論文を眺めて • VQA論文をNLP系会議で通してるのはどんな研究室か? – CV系を中心に出してる研究室が多そう(e.g. Trevor Darrel@UC Berkley) – 逆にメインがNLPという研究室は(今回統計とった5本の論文には) なかった – 更に言うと共著者にNLPが専門の人が入っている様子でもなかった • CVerでもACLやEMNLPを狙うチャンスは十分にある? • NLPerがあまり参入していないため,逆に手を組むことで NLP的なcontributionも狙えるのでは?
  • 47. VQAとVisual DialogのGiant 47 • Georgia Tech: Dhruv Batra, Devi Parikhグループ • ・VQA, Visual Dialogタスクを提案 • ・VQA Challenge, Visual Dialog Challengeを主催 • ・重要なデータセット:VQA1.0, 2.0, VisDial1.0を提案 • ・VQA, Visual Dialogのほとんどの重要研究 • ・Vision and Languageの新しいタスクをどんどん生み出し ている Site: https://www.cc.gatech.edu/~dbatra/index.html#group https://www.cc.gatech.edu/~parikh/vil.html
  • 48. VQAとVisual DialogのGiant 48 • Georgia Tech: Dhruv Batra, Devi Parikhグループ • 代表研究: ・ 研究方向的にも,手法的にもリード
  • 49. VQAとVisual DialogのGiant 49 • Georgia Tech: Dhruv Batra, Devi Parikhグループ • 新しい研究タスク: ・ 研究方向的にも,手法的にもリード Audio-Visual Scene-Aware Dialog [28] Audio含めたVideo Dialog TextVQA:画像中の文字理解
  • 50. まとめ 50 • 分野紹介 • - 代表的なVision and Languageの分野を紹介 • Visual Question Answering • - Visual Question Answeringの発展を紹介 • Visual Dialog • - Visual Dialogの発展を紹介 • メタな話し • - CV(NLP) at NLP(CV) conference • - 引用関係から察するメタ • - VQA, Visual Dialogのgiant
  • 51. 参考文献 51 [1] Antol, Stanislaw, et al. "Vqa: Visual question answering." Proceedings of the IEEE international conference on computer vision. 2015. [2] Das, Abhishek, et al. "Embodied question answering." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops. 2018. [3] Kiros, Ryan, Ruslan Salakhutdinov, and Rich Zemel. "Multimodal neural language models." International Conference on Machine Learning. 2014. [4] Chen, Xinlei, et al. "Microsoft COCO captions: Data collection and evaluation server." arXiv preprint arXiv:1504.00325 (2015). [5] Xu, Kelvin, et al. "Show, attend and tell: Neural image caption generation with visual attention." International conference on machine learning. 2015. [6] Yoshida, Kota, et al. "Neural Joking Machine: Humorous image captioning." arXiv preprint arXiv:1805.11850 (2018). [7] Johnson, Justin, Andrej Karpathy, and Li Fei-Fei. "Densecap: Fully convolutional localization networks for dense captioning." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016. [8] Huang, Ting-Hao Kenneth, et al. "Visual storytelling." Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. 2016. [9] Hong, Seunghoon, et al. "Inferring semantic layout for hierarchical text-to-image synthesis." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018. [10] Johnson, Justin, Agrim Gupta, and Li Fei-Fei. "Image generation from scene graphs." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018.
  • 52. 参考文献 52 [11] Li, Yitong, et al. "Video generation from text." Thirty-Second AAAI Conference on Artificial Intelligence. 2018. [12] Li, Yitong, et al. "StoryGAN: A Sequential Conditional GAN for Story Visualization." arXiv preprint arXiv:1812.02784 (2018). [13] Wang, Peng, et al. "Fvqa: Fact-based visual question answering." IEEE transactions on pattern analysis and machine intelligence (2017). [14] Misra, Ishan, et al. "Learning by Asking Questions." arXiv preprint arXiv:1712.01238 (2017). [15] Das, Abhishek, et al. "Visual dialog." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017. [16] Massiceti, Daniela, et al. "Flipdial: A generative model for two-way visual dialogue." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018. [17] Wu, Qi, et al. "Are you talking to me? reasoned visual dialog generation through adversarial learning." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018. [18] Kottur, Satwik, et al. "Visual coreference resolution in visual dialog using neural module networks." Proceedings of the European Conference on Computer Vision (ECCV). 2018. [19] Hori, Chiori, et al. "End-to-end audio visual scene-aware dialog using multimodal attention-based video features." arXiv preprint arXiv:1806.08409 (2018). [20] Chen, Jianbo, et al. "Language-based image editing with recurrent attentive models." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018. [21] Anderson, Peter, et al. "Vision-and-language navigation: Interpreting visually-grounded navigation instructions in real environments." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018.
  • 53. 参考文献 53 [22] Goyal, Yash, et al. "Making the V in VQA matter: Elevating the role of image understanding in Visual Question Answering." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017. [23] Johnson, Justin, et al. "Clevr: A diagnostic dataset for compositional language and elementary visual reasoning." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017. [24] Yang, Zichao, et al. "Stacked attention networks for image question answering." Proceedings of the IEEE conference on computer vision and pattern recognition. 2016. [25] Anderson, Peter, et al. "Bottom-up and top-down attention for image captioning and visual question answering." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018. [26] Perez, Ethan, et al. "Film: Visual reasoning with a general conditioning layer." Thirty-Second AAAI Conference on Artificial Intelligence. 2018. [27] Das, Abhishek, et al. "Learning cooperative visual dialog agents with deep reinforcement learning." Proceedings of the IEEE International Conference on Computer Vision. 2017. [28] Alamri, Huda, et al. "Audio-Visual Scene-Aware Dialog." arXiv preprint arXiv:1901.09107 (2019). [29] Li, Qing, et al. ““Tell-and-Answer: Towards Explainable Visual Question Answering using Attributes and Captions.”, EMNLP 2018 [30] Mahendru, Aroma, et al., “The Promise of Premise: Harnessing Question Premises in Visual Question Answering.”, EMNLP 2017