SlideShare a Scribd company logo
1 of 24
1
北海道大学調和系工学研究室
B4 平田航大
Unified Vision-Language Pre-
Training for Image Captioning and
VQA
論文情報
• タイトル
• Unified Vision-Language Pre-Training for Image
Captioning and VQA
• 著者
• Luowei Zhou, Hamid Palangi, Lei Zhang,
Houdong Hu, Jason J. Corso, Jianfeng Gao
• 学会
• AAAI 2020
2
概要
• Vision-Language タスクにおける統一的なモデルUnified
Vision-Language Pre-trainingモデルを提案
• Understanding(e.g. VQA)とgeneration(e.g. 画像
キャプション)タスクを統一的なモデルで扱える
• EncoderとDecoderでも統一的なTransformerを使用
3
タスクの紹介
• 画像キャプション
画像を説明する文章を生成
する
4
• VQA
画像とそれに関する質問分を
入力とし、答えを返す
引用元:「日本語による画像キャプ
ション自動生成AIを作ったので丁寧
に解説します!」
https://qiita.com/oreyutarover/items/6
eb0e12ba0d169a480df
引用元:"VQA: Visual Question
Answering“(Antol et al. 2015)
背景
• BERT,GPTなどの言語モデルにおいて、pre-trainingがモデル
性能を向上させている
→cross-modalな表現(i.g. 画像ー言語)への応用
5
Fig1より
背景
• これまでの研究では・・・
• EncoderとDecoderで異なるモデルを用いるものが一
般的
• Understanding taskとGeneration taskでモデルが
異なることが一般的
→これらを統一したモデルの提案
6
背景 - 統一的なモデル 7
同じ構造のモデルが用
いられている
関連研究:Transformer
• 提案論文:
• “Attention Is All You Need” (Vaswani et al.,
2017)
•https://papers.nips.cc/paper/7181-attention-is-all-you-need
• Attentionという機構のみを用いて自然言語処理を行う
Encoder-Decoderモデル
8
Transformerの図
(提案論文より)
Encoder Decoder
Transformer
Block
input
output
関連研究-BERT
• 提案論文
• “BERT: Pre-training of Deep Bidirectional
Transformers for Language Understanding”
• https://www.aclweb.org/anthology/N19-1423/
• 双方向Transformerを用いた言語モデルと、自然言語処理タ
スクにおける事前学習の重要性などを示した
• 本論文のモデルのベースとなっている
9
事前学習-Masked Language Model
• 入力の一部を[MASK]トークンに置き換えて、それを予測する
タスク
• My dog is hairy. -> My dog is [MASK].
• [MASK]部以外を利用して[MASK]を予想する
10
モデル - 全体像 11
全体図:Fig2より
encoderdecoder
input
encoderdecoder
・・・
12層
encoderdecoder
モデル – 入出力
• 入力:画像の領域(N個)、単語(T個)の埋め込みベクトル(d
次元) [CLS], [SEP], [STOP]の特殊トークン3つ
• 画像の領域
•𝑅𝑖:i番目の領域の特徴量ベクトル
•𝐶𝑖:i番目の領域のクラス分布
•𝐺𝑖:i番目の領域の座標に関するベクトル
•𝑊は学習すべき重み
• 単語𝑦𝑡
d次元の埋め込みベクトル
• 特殊トークン
•[CLS]:入力の開始 [SEP]:画像と文を分ける [STOP]: 入力の
終了
12
モデル – 入出力
• 本当の入力は前ページのものを合わせた
𝐻0 = [𝑟 𝐶𝐿𝑆 , 𝑟1, 𝑟2, … , 𝑟 𝑁, 𝑦 𝑆𝐸𝑃 , 𝑦1, 𝑦2, … , 𝑦 𝑇, 𝑦 𝑆𝑇𝑂𝑃 ]
• 以下の式でTransformer Blockを計算
𝐻 𝑙 = 𝑇𝑟𝑎𝑛𝑠𝑓𝑜𝑚𝑒𝑟(𝐻 𝑙−1)
• 出力:
𝐻 𝐿 = ℎ 𝑟 𝐶𝐿𝑆
, ℎ 𝑟1
, … , ℎ𝑦 𝑆𝐸𝑃 , ℎ𝑦1, … , ℎ𝑦 𝑇, ℎ𝑦 𝑆𝑇𝑂𝑃
13
学習条件の設定
• Bidirectional(双方向)
• ある単語のAttentionを計算するときに後ろの単語も
参照できる
• Seq2seq
• ある単語のAttentionを計算するときに前の単語しか
参照できない
※本モデルでは2つの条件をバッチごとに変えて学習
• 割合をパラメータλで指定
• 事前学習ではλ=0.75で75%がseq2seq
14
各タスクの解き方
• 画像キャプション
1. 画像の領域を切り出し、(1)式でベクトル化
2. 画像と[MASK]をモデルに入力し、[MASK]を予測
3. 画像と最初の単語の予測結果、[MASK]をモデルに入
力し、2つ目の[MASK]を予測
4. これを[STOP]が予測されるまで繰り返す
※λ=1.0に設定
15
各タスクの解き方
• VQA
• 答えの候補となるクラスをあらかじめ定めておき、多
クラス分類として定式化
• [CLS]と[SEP]に対する出力を使い、クラス分類問題
を解く
※λ=0に設定
16
実験と結果 – データセット
• 事前学習用データセット
• Conceptual Captions(CC)
•Web上にある画像とキャプションのペア約3百万件
• 画像キャプション用データセット
• COCO Captions, Flickr30k
• VQA用データセット
• VQA 2.0
17
実験と結果 - 他のモデルとの比較
• 多くの指標においてSOTAを達成
• 特にFlickr30kではCIDErで5.1pt、BLEU@4で2.8ptの上昇
18
Table2 cross-entropyで最適化した場合の各指標
※B@4: BLEU@4, M: METEOR, C: CIDEr, S: SPICEを表し、
すべて大きいほど良いスコア
実験と結果 – 他モデルとの比較
• CIDErに対して最適化した場合も他のモデルを抜いてSOTAを
達成
19
Table3
実験と結果 – 事前学習の効果
• 下流タスクでの性能差から、Unified VLPが他の事前学習モ
デルよりも優れたものであることを示した
20
Table4 事前学習手法の違いによる下流タスクの性能差
実験と結果 – 事前学習の際の初期化
• 事前学習を行う際の重さの初期値についての実験
• ゼロから事前学習をするよりも、他の言語モデルで初期化を
した場合の方が最終的な性能が高くなる傾向がある
21
Table5 事前学習を行う際の初期化
実験と結果 - 画像情報の保持に関する実験
• Faster R-CNNの出力
• 領域の特徴量ベクトル、領域のラベル
•ラベルを予測するpretext taskを追加する[1]
•ラベル分布を入力としてとらえる(本手法)
22
[1] Tan, H., and Bansal, M. 2019. Lxmert: Learning crossmodality encoder
representations from transformers. arXiv preprint arXiv:1908.07490.
実験と結果 – 出力例と定性的評価
• Unified VLPではumbrellaを認識できている
• テキストのみから特徴量を抽出するより、画像との関係性をう
まくとらえられているのではないか
23
Figure3から抜粋
まとめ
• Vision-Languageタスクに対してUnified VLPというモデルを提
案
• 単一のTransformerを用いているという点
• 画像キャプション、VQAを同一のモデルで扱える点
• 画像 - テキスト間の特徴量を事前学習で獲得し、モデルの
性能を向上させることに成功した
24

More Related Content

What's hot

Trainable Calibration Measures for Neural Networks from Kernel Mean Embeddings
Trainable Calibration Measures for Neural Networks from Kernel Mean EmbeddingsTrainable Calibration Measures for Neural Networks from Kernel Mean Embeddings
Trainable Calibration Measures for Neural Networks from Kernel Mean Embeddings
harmonylab
 
Towards Knowledge-Based Personalized Product Description Generation in E-comm...
Towards Knowledge-Based Personalized Product Description Generation in E-comm...Towards Knowledge-Based Personalized Product Description Generation in E-comm...
Towards Knowledge-Based Personalized Product Description Generation in E-comm...
harmonylab
 

What's hot (11)

Trainable Calibration Measures for Neural Networks from Kernel Mean Embeddings
Trainable Calibration Measures for Neural Networks from Kernel Mean EmbeddingsTrainable Calibration Measures for Neural Networks from Kernel Mean Embeddings
Trainable Calibration Measures for Neural Networks from Kernel Mean Embeddings
 
Can increasing input dimensionality improve deep reinforcement learning?
Can increasing input dimensionality improve deep reinforcement learning?Can increasing input dimensionality improve deep reinforcement learning?
Can increasing input dimensionality improve deep reinforcement learning?
 
機関リポジトリから収集した学術論文のテキスト解析に関する一検討
機関リポジトリから収集した学術論文のテキスト解析に関する一検討機関リポジトリから収集した学術論文のテキスト解析に関する一検討
機関リポジトリから収集した学術論文のテキスト解析に関する一検討
 
Mutual Mean-Teaching:Pseudo Label Refinery for Unsupervised Domain Adaption o...
Mutual Mean-Teaching:Pseudo Label Refinery for Unsupervised Domain Adaption o...Mutual Mean-Teaching:Pseudo Label Refinery for Unsupervised Domain Adaption o...
Mutual Mean-Teaching:Pseudo Label Refinery for Unsupervised Domain Adaption o...
 
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
 
深層学習を用いたコンピュータビジョン技術と運転行動モニタリングへの応用
深層学習を用いたコンピュータビジョン技術と運転行動モニタリングへの応用深層学習を用いたコンピュータビジョン技術と運転行動モニタリングへの応用
深層学習を用いたコンピュータビジョン技術と運転行動モニタリングへの応用
 
Towards Knowledge-Based Personalized Product Description Generation in E-comm...
Towards Knowledge-Based Personalized Product Description Generation in E-comm...Towards Knowledge-Based Personalized Product Description Generation in E-comm...
Towards Knowledge-Based Personalized Product Description Generation in E-comm...
 
Vision and Language(メタサーベイ )
Vision and Language(メタサーベイ )Vision and Language(メタサーベイ )
Vision and Language(メタサーベイ )
 
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)
 
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
 
[DL輪読会]One Model To Learn Them All
[DL輪読会]One Model To Learn Them All[DL輪読会]One Model To Learn Them All
[DL輪読会]One Model To Learn Them All
 

Similar to Unified Vision-Language Pre-Training for Image Captioning and VQA

An example of how to make the accessibility ready theme
An example of how to make the accessibility ready themeAn example of how to make the accessibility ready theme
An example of how to make the accessibility ready theme
Takeshi Kashihara
 

Similar to Unified Vision-Language Pre-Training for Image Captioning and VQA (20)

Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...
Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...
Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...
 
論文紹介:A Survey of Vision-Language Pre-Trained Models
論文紹介:A Survey of Vision-Language Pre-Trained Models論文紹介:A Survey of Vision-Language Pre-Trained Models
論文紹介:A Survey of Vision-Language Pre-Trained Models
 
SIGGRAPH 2019 Report
SIGGRAPH 2019 ReportSIGGRAPH 2019 Report
SIGGRAPH 2019 Report
 
文献紹介:VideoCLIP: Contrastive Pre-training for Zero-shot Video-Text Understanding
文献紹介:VideoCLIP: Contrastive Pre-training for Zero-shot Video-Text Understanding文献紹介:VideoCLIP: Contrastive Pre-training for Zero-shot Video-Text Understanding
文献紹介:VideoCLIP: Contrastive Pre-training for Zero-shot Video-Text Understanding
 
勉強会用資料:Javaアプリ作成
勉強会用資料:Javaアプリ作成勉強会用資料:Javaアプリ作成
勉強会用資料:Javaアプリ作成
 
[DL輪読会]MUTAN: Multimodal Tucker Fusion for Visual Question Answering
 [DL輪読会]MUTAN: Multimodal Tucker Fusion for Visual Question Answering [DL輪読会]MUTAN: Multimodal Tucker Fusion for Visual Question Answering
[DL輪読会]MUTAN: Multimodal Tucker Fusion for Visual Question Answering
 
Sequence Level Training with Recurrent Neural Networks (関東CV勉強会 強化学習論文読み会)
Sequence Level Training with Recurrent Neural Networks (関東CV勉強会 強化学習論文読み会)Sequence Level Training with Recurrent Neural Networks (関東CV勉強会 強化学習論文読み会)
Sequence Level Training with Recurrent Neural Networks (関東CV勉強会 強化学習論文読み会)
 
論文紹介:InternVideo: General Video Foundation Models via Generative and Discrimi...
論文紹介:InternVideo: General Video Foundation Models via Generative and Discrimi...論文紹介:InternVideo: General Video Foundation Models via Generative and Discrimi...
論文紹介:InternVideo: General Video Foundation Models via Generative and Discrimi...
 
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? 【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
 
Few-Shot Unsupervised Image-to-Image Translation
Few-Shot Unsupervised Image-to-Image TranslationFew-Shot Unsupervised Image-to-Image Translation
Few-Shot Unsupervised Image-to-Image Translation
 
An example of how to make the accessibility ready theme
An example of how to make the accessibility ready themeAn example of how to make the accessibility ready theme
An example of how to make the accessibility ready theme
 
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
 
電光掲示板のコード C#で画像処理
電光掲示板のコード C#で画像処理電光掲示板のコード C#で画像処理
電光掲示板のコード C#で画像処理
 
設計/コンポーネント設計(2) 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第21回】
設計/コンポーネント設計(2) 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第21回】設計/コンポーネント設計(2) 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第21回】
設計/コンポーネント設計(2) 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第21回】
 
CVPR2017 参加報告 速報版 本会議 1日目
CVPR2017 参加報告 速報版 本会議 1日目CVPR2017 参加報告 速報版 本会議 1日目
CVPR2017 参加報告 速報版 本会議 1日目
 
[DL輪読会] MoCoGAN: Decomposing Motion and Content for Video Generation
[DL輪読会] MoCoGAN: Decomposing Motion and Content for Video Generation[DL輪読会] MoCoGAN: Decomposing Motion and Content for Video Generation
[DL輪読会] MoCoGAN: Decomposing Motion and Content for Video Generation
 
Offshore Agile Development in XP
Offshore Agile Development in XPOffshore Agile Development in XP
Offshore Agile Development in XP
 
Android ReactNative UITesting
Android ReactNative UITestingAndroid ReactNative UITesting
Android ReactNative UITesting
 
Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演
Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演
Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演
 
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation 「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 

More from harmonylab

【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
harmonylab
 
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
harmonylab
 
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
harmonylab
 

More from harmonylab (20)

【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
 
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
 
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
 
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
 
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
 
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
 
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile BackboneDLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
 
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat ModelsDLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
 
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
Voyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language ModelsVoyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language Models
 
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose EstimationDLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
 
ReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language ModelsReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language Models
 
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
 
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
 
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
 
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
 
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
 
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
 
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
 
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
 

Recently uploaded

Recently uploaded (12)

Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 

Unified Vision-Language Pre-Training for Image Captioning and VQA

Editor's Notes

  1. 実装を掲載しておく
  2. CCの質について
  3. 各スコアはパーセント記法ではないので注意
  4. 小さい