More Related Content Similar to Unified Vision-Language Pre-Training for Image Captioning and VQA (20) More from harmonylab (20) Unified Vision-Language Pre-Training for Image Captioning and VQA2. 論文情報
• タイトル
• Unified Vision-Language Pre-Training for Image
Captioning and VQA
• 著者
• Luowei Zhou, Hamid Palangi, Lei Zhang,
Houdong Hu, Jason J. Corso, Jianfeng Gao
• 学会
• AAAI 2020
2
8. 関連研究:Transformer
• 提案論文:
• “Attention Is All You Need” (Vaswani et al.,
2017)
•https://papers.nips.cc/paper/7181-attention-is-all-you-need
• Attentionという機構のみを用いて自然言語処理を行う
Encoder-Decoderモデル
8
Transformerの図
(提案論文より)
Encoder Decoder
Transformer
Block
input
output
9. 関連研究-BERT
• 提案論文
• “BERT: Pre-training of Deep Bidirectional
Transformers for Language Understanding”
• https://www.aclweb.org/anthology/N19-1423/
• 双方向Transformerを用いた言語モデルと、自然言語処理タ
スクにおける事前学習の重要性などを示した
• 本論文のモデルのベースとなっている
9
11. モデル - 全体像 11
全体図:Fig2より
encoderdecoder
input
encoderdecoder
・・・
12層
encoderdecoder
12. モデル – 入出力
• 入力:画像の領域(N個)、単語(T個)の埋め込みベクトル(d
次元) [CLS], [SEP], [STOP]の特殊トークン3つ
• 画像の領域
•𝑅𝑖:i番目の領域の特徴量ベクトル
•𝐶𝑖:i番目の領域のクラス分布
•𝐺𝑖:i番目の領域の座標に関するベクトル
•𝑊は学習すべき重み
• 単語𝑦𝑡
d次元の埋め込みベクトル
• 特殊トークン
•[CLS]:入力の開始 [SEP]:画像と文を分ける [STOP]: 入力の
終了
12
13. モデル – 入出力
• 本当の入力は前ページのものを合わせた
𝐻0 = [𝑟 𝐶𝐿𝑆 , 𝑟1, 𝑟2, … , 𝑟 𝑁, 𝑦 𝑆𝐸𝑃 , 𝑦1, 𝑦2, … , 𝑦 𝑇, 𝑦 𝑆𝑇𝑂𝑃 ]
• 以下の式でTransformer Blockを計算
𝐻 𝑙 = 𝑇𝑟𝑎𝑛𝑠𝑓𝑜𝑚𝑒𝑟(𝐻 𝑙−1)
• 出力:
𝐻 𝐿 = ℎ 𝑟 𝐶𝐿𝑆
, ℎ 𝑟1
, … , ℎ𝑦 𝑆𝐸𝑃 , ℎ𝑦1, … , ℎ𝑦 𝑇, ℎ𝑦 𝑆𝑇𝑂𝑃
13
17. 実験と結果 – データセット
• 事前学習用データセット
• Conceptual Captions(CC)
•Web上にある画像とキャプションのペア約3百万件
• 画像キャプション用データセット
• COCO Captions, Flickr30k
• VQA用データセット
• VQA 2.0
17
18. 実験と結果 - 他のモデルとの比較
• 多くの指標においてSOTAを達成
• 特にFlickr30kではCIDErで5.1pt、BLEU@4で2.8ptの上昇
18
Table2 cross-entropyで最適化した場合の各指標
※B@4: BLEU@4, M: METEOR, C: CIDEr, S: SPICEを表し、
すべて大きいほど良いスコア
20. 実験と結果 – 事前学習の効果
• 下流タスクでの性能差から、Unified VLPが他の事前学習モ
デルよりも優れたものであることを示した
20
Table4 事前学習手法の違いによる下流タスクの性能差
21. 実験と結果 – 事前学習の際の初期化
• 事前学習を行う際の重さの初期値についての実験
• ゼロから事前学習をするよりも、他の言語モデルで初期化を
した場合の方が最終的な性能が高くなる傾向がある
21
Table5 事前学習を行う際の初期化
22. 実験と結果 - 画像情報の保持に関する実験
• Faster R-CNNの出力
• 領域の特徴量ベクトル、領域のラベル
•ラベルを予測するpretext taskを追加する[1]
•ラベル分布を入力としてとらえる(本手法)
22
[1] Tan, H., and Bansal, M. 2019. Lxmert: Learning crossmodality encoder
representations from transformers. arXiv preprint arXiv:1908.07490.
23. 実験と結果 – 出力例と定性的評価
• Unified VLPではumbrellaを認識できている
• テキストのみから特徴量を抽出するより、画像との関係性をう
まくとらえられているのではないか
23
Figure3から抜粋
Editor's Notes 実装を掲載しておく CCの質について 各スコアはパーセント記法ではないので注意 小さい