SlideShare ist ein Scribd-Unternehmen logo
1 von 11
Downloaden Sie, um offline zu lesen
Length-Controllable
Image Captioning
Chaorui Deng, Ning Ding, Mingkui Tan, and Qi Wu
ECCV2020
2022/11/11
仁田智也 (名工大玉木研)
概要
nImage Captioningの生成文の長さを調整する手法の提案
• 既存のモデルに対して適用可能
• 既存のモデルに適用することで同等以上の性能
nImage CaptionigモデルのLaBERTの提案
• 非自己回帰モデル
• 計算量が生成する文の長さに比例しない
• 生成文の長さの調整を適応可能
2 C. Deng et al.
Reference image captions
A pizza on a pan sitting on a table.
A close up of a pizza in a pan on a table.
A pizza sits on a plate on a dark surface.
A person sitting at a table where a pizza is sitting.
A pizza topped with different toppings is brought to a table.
Predicted image captions
Rough VLP A pizza sitting on top of a pan on a table.
Ours Lv1 A pizza that is sitting on a table.
Ours Lv2 A pizza with tomatoes and spinach on a table.
Ours Lv3 A pizza with tomatoes cheese and toppings on it sitting on a table.
Detailed Ours Lv4 A pizza sitting on top of a pan with a lot of cheese spinach and tomatoes on it.
関連研究
n生成文の制御
• ASG2Caption model (Chen+, CVPR2020)
• シーングラフを用いて生成文の多様性を制御
• 多様性の向上
• 精度の低下
• 菊池らの研究 (Kikuchi+, EMNLP2016)
• 生成文の長さの制御
• 一部モデルのみに適用可能
• 柔軟性が欠如
n非自己回帰生成モデル
• NAT (Gu+, arXiv2017)
• 翻訳タスクでの非自己回帰モデル
• 計算量が系列長に比例しない
生成文の長さの制御
nアノテーションの文章の長さの範囲で長さレベルを定める
• 文章の単語数によって分割
• Ex. [1, 9], [10, 14], [15, 19], [20, 25]
• 分割する単語数の基準はデータがある程度均等になるように定める
nWord embeddingの際に長さレベルの埋め込み情報を加える
• i番目の単語に対する埋め込みベクトル:𝒙!!
= 𝒆" + 𝒆#,!!
+ 𝒆%,&
• 𝒆#,!!
:単語埋め込み
• 𝒆%,&:位置埋め込み
• 𝒆":長さレベル埋め込み
• 𝒆" = 𝑊"
'
𝑡"
• 𝑊"
'
∈ ℝ(×*:学習可能な埋め込み行列
• 𝑡" ∈ ℝ( :長さレベルに対応するワンホットベクトル
LaBERT
n入力画像のembedding
• 入力画像に学習済み物体検出をかける
• 𝒇+,&:検出物体iに対応する特徴量ベクトル
• 𝒇,,&:検出物体iに対応するクラス確率分布
• 𝒇",&:検出物体iに対応する局所特徴量
• ex. [左上x座標, 左上y座標, 右下x座標, 右下y座標, bboxの面積比]
• 𝒙-!
= 𝑾+
'𝒇+,& + 𝑾%
' LN 𝒇,,& , LN 𝒇",& + 𝒆&./
• 𝒆&./:埋め込みベクトル
Length-Controllable Image Captioning 7
A . . .
N× Transformer Blocks
[MASK] in a [MASK] [EOS]
. . .
. . .
. . .
"#$
"#%
"#&
"#'
"($
"(%
"(&
"()
"(*
"(+
person kayak
Image type embedding
Location embedding
Visual embedding
Length level embedding
Position embedding
Word embedding
LaBERT
nWord embedding
• 長さレベル埋め込みを同様に行う
• 学習時
• 文章にランダムにマスクをかけてembeddingをする
• マスクをかけた部分の単語を推論する
Length-Controllable Image Captioning 7
A . . .
N× Transformer Blocks
[MASK] in a [MASK] [EOS]
. . .
. . .
. . .
"#$
"#%
"#&
"#'
"($
"(%
"(&
"()
"(*
"(+
person kayak
Image type embedding
Location embedding
Visual embedding
Length level embedding
Position embedding
Word embedding
LaBERT
n推論時
• 生成文の最大の長さのマスクを入力
• 各単語を推論する
• 𝑝& 𝑠& = [𝐸𝑂𝑆] ← 𝛾0"!#"1&
𝑝& 𝑠& = [𝐸𝑂𝑆] , ∀&∈ [𝐿"2#, 𝐿3&/3]
• 系列が最後の方になるにつれて[𝐸𝑂𝑆]の確率をあげる
• 推論時の各単語のconfidence scoreを以下のように更新する
• 𝑐& ← :
max
!
𝑝& 𝑠& = 𝑠 i is masked position
,!4567
$
%! !!8!
9
otherwise
• 各単語のconfidence scoreが下位n個にマスクをかけてもう一度推論を行う
• nはステップが進む毎に減衰させる
Length-Controllable Image Captioning 9
Mask-predict-update process
Step 1 [MASK] [MASK] [MASK] [MASK] [MASK] [MASK]…..[MASK] [MASK] [MASK]
A dog is on the the on a a a a a a a a walking in the sidewalk.
A dog laying on the side of a street with a a walking a a walking in the sidewalk.
A dog laying on the side of a street with a woman walking on the sidewalk of the street.
Step T A dog sitting on the side of a street with a woman walking on the sidewalk in the background.
実験設定
n長さレベル埋め込み
• モデル
• AoANet (Huang+, ICCV2019)
• VLP (Zhou+, AAAI2020)
• データセット
• MSCOCO (Lin+, ECCV2014)
• 評価指標
• BLUE (Papineni+, ACL2002)
• METEOR (Banerjee & Lavie,
ACL Workshop2005)
• CIDEr-D (Vedantam+,
CVPR2015)
• SPICE (Fernando+,
ECCV2016)
nLaBERT
• 物体検出:Faster RCNN (Ren+,
NuerIPS2015)
• 𝒇+,&:fc6レイヤーの特徴量
• 𝒇,,&:softmax後のベクトル
• 𝒇",&:Bboxの座標+面積比
• 長さレベル埋め込み
• 1レベル
• 4レベル
• 評価指標
• ROUGE (Lin, ACL
Workshop2004)を追加
• 推論
• 25ステップで生成
実験結果:長さレベル埋め込み
nLv1, 2:どの評価指標でも元のモデルと同等の性能
nLv3, 4:BLUE, CIDEr-Dでは元のモデルより大幅に低下
• n-gramベースの評価指標は長い文章に対して低下する傾向がある
• SPICE, METEORでは低下が見られない
Length-Controllable Image Captioning 11
Table 1. Performance of the length-aware version of AoANet and VLP on MS COCO
Karpathy’s test split. S, C, M and B@N, are short for SPICE, CIDEr-D, METEOR,
and BLEU@N scores, respectively. The original results of AoANet and VLP are ob-
tained from models trained by ourselves with the official codes and settings provided
by the authors. All values are reported as a percentage (%).
Metrics S C M B@4 S C M B@4
Models AoANet VLP
Original Results 21.3 118.4 28.3 36.9 21.2 116.9 28.5 36.5
4-Level
Lv 1 (1-9) 19.6 107.4 25.9 33.1 18.9 103.0 25.2 31.8
Lv 2 (10-14) 21.7 117.6 28.6 35.8 21.4 118.7 28.8 36.0
Lv 3 (15-19) 22.7 79.9 28.7 26.6 22.4 92.5 29.3 28.4
Lv 4 (20-25) 22.7 29.5 27.7 20.2 22.4 40.0 28.5 21.9
5-Level
Lv 1 (1-9) 19.7 108.7 26.0 33.5 18.7 101.0 25.0 30.9
Lv 2 (10-13) 21.6 118.8 28.5 36.1 21.2 117.3 28.4 35.9
Lv 3 (14-17) 22.6 92.9 29.0 28.7 22.3 100.5 29.3 29.9
Lv 4 (18-21) 23.0 48.4 28.2 22.7 22.4 60.4 28.7 24.0
Lv 5 (22-25) 22.9 18.9 27.2 18.8 22.5 28.1 28.1 20.3
実験結果:LaBERT
n長さレベル埋め込み
• なしに比べてLv2では性能が向上している
nSOTAとの比較
• Lv3, 4ではSPICEスコアで上回っている
12 C. Deng et al.
Table 2. Performance of LaBERT on MS COCO Karpathy’s test split. R represents
ROUGE. The results of AoANet and VLP are obtained from their papers.
Metrics S C M R B@1 B@2 B@3 B@4
State-Of-The-Art Models
VLP [53] 21.2 116.9 28.4 - - - - 36.5
AoANet [20] 21.3 119.8 28.4 57.5 77.4 - - 37.2
Single-Level LaBERT
Single Level (1-25) 21.7 116.8 27.9 57.0 77.4 61.0 46.5 35.0
4-Level LaBERT
lvl 1 (1-9) 19.5 101.6 25.4 54.7 72.5 56.3 41.8 30.0
lvl 2 (10-14) 21.8 118.2 28.4 57.4 77.6 61.3 46.9 35.3
lvl 3 (15-19) 22.3 90.5 28.6 53.1 66.8 50.6 37.0 26.8
lvl 4 (20-25) 22.2 39.9 27.7 46.9 56.1 40.9 28.6 19.9
まとめ
n長さレベル埋め込みの提案
• 文章の長さに応じた埋め込みベクトルをword embedding時に加える
• 既存のモデルに対して適応可能
• 生成時に指定した長さレベルの長さの文章を生成可能
• 長い生成文に対しても精度が保たれる
nLaBERTの提案
• 非回帰型モデルによる文章の生成
• 生成文の長さに計算量が比例しない
• 長さレベル埋め込みを用いることで精度の向上
• SOTAと比較して精度の向上

Weitere ähnliche Inhalte

Ähnlich wie 文献紹介:Length-Controllable Image Captioning

統計をとって高速化する
Scala開発 by CyberZ,Inc.
統計をとって高速化する
Scala開発 by CyberZ,Inc.統計をとって高速化する
Scala開発 by CyberZ,Inc.
統計をとって高速化する
Scala開発 by CyberZ,Inc.scalaconfjp
 
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)kanejaki
 
文献紹介:TSM: Temporal Shift Module for Efficient Video Understanding
文献紹介:TSM: Temporal Shift Module for Efficient Video Understanding文献紹介:TSM: Temporal Shift Module for Efficient Video Understanding
文献紹介:TSM: Temporal Shift Module for Efficient Video UnderstandingToru Tamaki
 
Hello Dark-Side C# (Part. 1)
Hello Dark-Side C# (Part. 1)Hello Dark-Side C# (Part. 1)
Hello Dark-Side C# (Part. 1)Yuto Takei
 
transformer解説~Chat-GPTの源流~
transformer解説~Chat-GPTの源流~transformer解説~Chat-GPTの源流~
transformer解説~Chat-GPTの源流~MasayoshiTsutsui
 
単語分散表現を用いた多層 Denoising Auto-Encoder による評価極性分類
単語分散表現を用いた多層 Denoising Auto-Encoder による評価極性分類単語分散表現を用いた多層 Denoising Auto-Encoder による評価極性分類
単語分散表現を用いた多層 Denoising Auto-Encoder による評価極性分類Peinan ZHANG
 
文献紹介:Learnable Gated Temporal Shift Module for Free-form Video Inpainting
文献紹介:Learnable Gated Temporal Shift Module for Free-form Video Inpainting文献紹介:Learnable Gated Temporal Shift Module for Free-form Video Inpainting
文献紹介:Learnable Gated Temporal Shift Module for Free-form Video InpaintingToru Tamaki
 
文献紹介:2D or not 2D? Adaptive 3D Convolution Selection for Efficient Video Reco...
文献紹介:2D or not 2D? Adaptive 3D Convolution Selection for Efficient Video Reco...文献紹介:2D or not 2D? Adaptive 3D Convolution Selection for Efficient Video Reco...
文献紹介:2D or not 2D? Adaptive 3D Convolution Selection for Efficient Video Reco...Toru Tamaki
 
Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...
Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...
Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...Yoshitaka Ushiku
 
論文紹介:ProbVLM: Probabilistic Adapter for Frozen Vison-Language Models
論文紹介:ProbVLM: Probabilistic Adapter for Frozen Vison-Language Models論文紹介:ProbVLM: Probabilistic Adapter for Frozen Vison-Language Models
論文紹介:ProbVLM: Probabilistic Adapter for Frozen Vison-Language ModelsToru Tamaki
 
[チュートリアル講演]画像データを対象とする情報ハイディング〜JPEG画像を利用したハイディング〜
[チュートリアル講演]画像データを対象とする情報ハイディング〜JPEG画像を利用したハイディング〜[チュートリアル講演]画像データを対象とする情報ハイディング〜JPEG画像を利用したハイディング〜
[チュートリアル講演]画像データを対象とする情報ハイディング〜JPEG画像を利用したハイディング〜Michiharu Niimi
 
Optimization night 4_dp
Optimization night 4_dpOptimization night 4_dp
Optimization night 4_dpKensuke Otsuki
 
Ruby を用いた超絶技巧プログラミング(夏のプログラミングシンポジウム 2012)
Ruby を用いた超絶技巧プログラミング(夏のプログラミングシンポジウム 2012)Ruby を用いた超絶技巧プログラミング(夏のプログラミングシンポジウム 2012)
Ruby を用いた超絶技巧プログラミング(夏のプログラミングシンポジウム 2012)mametter
 
初めてのグラフカット
初めてのグラフカット初めてのグラフカット
初めてのグラフカットTsubasa Hirakawa
 

Ähnlich wie 文献紹介:Length-Controllable Image Captioning (15)

統計をとって高速化する
Scala開発 by CyberZ,Inc.
統計をとって高速化する
Scala開発 by CyberZ,Inc.統計をとって高速化する
Scala開発 by CyberZ,Inc.
統計をとって高速化する
Scala開発 by CyberZ,Inc.
 
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
 
文献紹介:TSM: Temporal Shift Module for Efficient Video Understanding
文献紹介:TSM: Temporal Shift Module for Efficient Video Understanding文献紹介:TSM: Temporal Shift Module for Efficient Video Understanding
文献紹介:TSM: Temporal Shift Module for Efficient Video Understanding
 
MIRU2018 tutorial
MIRU2018 tutorialMIRU2018 tutorial
MIRU2018 tutorial
 
Hello Dark-Side C# (Part. 1)
Hello Dark-Side C# (Part. 1)Hello Dark-Side C# (Part. 1)
Hello Dark-Side C# (Part. 1)
 
transformer解説~Chat-GPTの源流~
transformer解説~Chat-GPTの源流~transformer解説~Chat-GPTの源流~
transformer解説~Chat-GPTの源流~
 
単語分散表現を用いた多層 Denoising Auto-Encoder による評価極性分類
単語分散表現を用いた多層 Denoising Auto-Encoder による評価極性分類単語分散表現を用いた多層 Denoising Auto-Encoder による評価極性分類
単語分散表現を用いた多層 Denoising Auto-Encoder による評価極性分類
 
文献紹介:Learnable Gated Temporal Shift Module for Free-form Video Inpainting
文献紹介:Learnable Gated Temporal Shift Module for Free-form Video Inpainting文献紹介:Learnable Gated Temporal Shift Module for Free-form Video Inpainting
文献紹介:Learnable Gated Temporal Shift Module for Free-form Video Inpainting
 
文献紹介:2D or not 2D? Adaptive 3D Convolution Selection for Efficient Video Reco...
文献紹介:2D or not 2D? Adaptive 3D Convolution Selection for Efficient Video Reco...文献紹介:2D or not 2D? Adaptive 3D Convolution Selection for Efficient Video Reco...
文献紹介:2D or not 2D? Adaptive 3D Convolution Selection for Efficient Video Reco...
 
Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...
Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...
Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...
 
論文紹介:ProbVLM: Probabilistic Adapter for Frozen Vison-Language Models
論文紹介:ProbVLM: Probabilistic Adapter for Frozen Vison-Language Models論文紹介:ProbVLM: Probabilistic Adapter for Frozen Vison-Language Models
論文紹介:ProbVLM: Probabilistic Adapter for Frozen Vison-Language Models
 
[チュートリアル講演]画像データを対象とする情報ハイディング〜JPEG画像を利用したハイディング〜
[チュートリアル講演]画像データを対象とする情報ハイディング〜JPEG画像を利用したハイディング〜[チュートリアル講演]画像データを対象とする情報ハイディング〜JPEG画像を利用したハイディング〜
[チュートリアル講演]画像データを対象とする情報ハイディング〜JPEG画像を利用したハイディング〜
 
Optimization night 4_dp
Optimization night 4_dpOptimization night 4_dp
Optimization night 4_dp
 
Ruby を用いた超絶技巧プログラミング(夏のプログラミングシンポジウム 2012)
Ruby を用いた超絶技巧プログラミング(夏のプログラミングシンポジウム 2012)Ruby を用いた超絶技巧プログラミング(夏のプログラミングシンポジウム 2012)
Ruby を用いた超絶技巧プログラミング(夏のプログラミングシンポジウム 2012)
 
初めてのグラフカット
初めてのグラフカット初めてのグラフカット
初めてのグラフカット
 

Mehr von Toru Tamaki

論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...Toru Tamaki
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video UnderstandingToru Tamaki
 
論文紹介:Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Gene...
論文紹介:Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Gene...論文紹介:Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Gene...
論文紹介:Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Gene...Toru Tamaki
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...Toru Tamaki
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNetToru Tamaki
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A surveyToru Tamaki
 
論文紹介:MOSE: A New Dataset for Video Object Segmentation in Complex Scenes
論文紹介:MOSE: A New Dataset for Video Object Segmentation in Complex Scenes論文紹介:MOSE: A New Dataset for Video Object Segmentation in Complex Scenes
論文紹介:MOSE: A New Dataset for Video Object Segmentation in Complex ScenesToru Tamaki
 
論文紹介:MoLo: Motion-Augmented Long-Short Contrastive Learning for Few-Shot Acti...
論文紹介:MoLo: Motion-Augmented Long-Short Contrastive Learning for Few-Shot Acti...論文紹介:MoLo: Motion-Augmented Long-Short Contrastive Learning for Few-Shot Acti...
論文紹介:MoLo: Motion-Augmented Long-Short Contrastive Learning for Few-Shot Acti...Toru Tamaki
 
論文紹介:Tracking Anything with Decoupled Video Segmentation
論文紹介:Tracking Anything with Decoupled Video Segmentation論文紹介:Tracking Anything with Decoupled Video Segmentation
論文紹介:Tracking Anything with Decoupled Video SegmentationToru Tamaki
 
論文紹介:Real-Time Evaluation in Online Continual Learning: A New Hope
論文紹介:Real-Time Evaluation in Online Continual Learning: A New Hope論文紹介:Real-Time Evaluation in Online Continual Learning: A New Hope
論文紹介:Real-Time Evaluation in Online Continual Learning: A New HopeToru Tamaki
 
論文紹介:PointNet: Deep Learning on Point Sets for 3D Classification and Segmenta...
論文紹介:PointNet: Deep Learning on Point Sets for 3D Classification and Segmenta...論文紹介:PointNet: Deep Learning on Point Sets for 3D Classification and Segmenta...
論文紹介:PointNet: Deep Learning on Point Sets for 3D Classification and Segmenta...Toru Tamaki
 
論文紹介:Multitask Vision-Language Prompt Tuning
論文紹介:Multitask Vision-Language Prompt Tuning論文紹介:Multitask Vision-Language Prompt Tuning
論文紹介:Multitask Vision-Language Prompt TuningToru Tamaki
 
論文紹介:MovieCLIP: Visual Scene Recognition in Movies
論文紹介:MovieCLIP: Visual Scene Recognition in Movies論文紹介:MovieCLIP: Visual Scene Recognition in Movies
論文紹介:MovieCLIP: Visual Scene Recognition in MoviesToru Tamaki
 
論文紹介:Discovering Universal Geometry in Embeddings with ICA
論文紹介:Discovering Universal Geometry in Embeddings with ICA論文紹介:Discovering Universal Geometry in Embeddings with ICA
論文紹介:Discovering Universal Geometry in Embeddings with ICAToru Tamaki
 
論文紹介:Efficient Video Action Detection with Token Dropout and Context Refinement
論文紹介:Efficient Video Action Detection with Token Dropout and Context Refinement論文紹介:Efficient Video Action Detection with Token Dropout and Context Refinement
論文紹介:Efficient Video Action Detection with Token Dropout and Context RefinementToru Tamaki
 
論文紹介:Learning from Noisy Pseudo Labels for Semi-Supervised Temporal Action Lo...
論文紹介:Learning from Noisy Pseudo Labels for Semi-Supervised Temporal Action Lo...論文紹介:Learning from Noisy Pseudo Labels for Semi-Supervised Temporal Action Lo...
論文紹介:Learning from Noisy Pseudo Labels for Semi-Supervised Temporal Action Lo...Toru Tamaki
 
論文紹介:MeMViT: Memory-Augmented Multiscale Vision Transformer for Efficient Lon...
論文紹介:MeMViT: Memory-Augmented Multiscale Vision Transformer for Efficient Lon...論文紹介:MeMViT: Memory-Augmented Multiscale Vision Transformer for Efficient Lon...
論文紹介:MeMViT: Memory-Augmented Multiscale Vision Transformer for Efficient Lon...Toru Tamaki
 
論文紹介:Revealing the unseen: Benchmarking video action recognition under occlusion
論文紹介:Revealing the unseen: Benchmarking video action recognition under occlusion論文紹介:Revealing the unseen: Benchmarking video action recognition under occlusion
論文紹介:Revealing the unseen: Benchmarking video action recognition under occlusionToru Tamaki
 
論文紹介:Video Task Decathlon: Unifying Image and Video Tasks in Autonomous Driving
論文紹介:Video Task Decathlon: Unifying Image and Video Tasks in Autonomous Driving論文紹介:Video Task Decathlon: Unifying Image and Video Tasks in Autonomous Driving
論文紹介:Video Task Decathlon: Unifying Image and Video Tasks in Autonomous DrivingToru Tamaki
 
論文紹介:Spatio-Temporal Action Detection Under Large Motion
論文紹介:Spatio-Temporal Action Detection Under Large Motion論文紹介:Spatio-Temporal Action Detection Under Large Motion
論文紹介:Spatio-Temporal Action Detection Under Large MotionToru Tamaki
 

Mehr von Toru Tamaki (20)

論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
論文紹介:Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Gene...
論文紹介:Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Gene...論文紹介:Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Gene...
論文紹介:Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Gene...
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
 
論文紹介:MOSE: A New Dataset for Video Object Segmentation in Complex Scenes
論文紹介:MOSE: A New Dataset for Video Object Segmentation in Complex Scenes論文紹介:MOSE: A New Dataset for Video Object Segmentation in Complex Scenes
論文紹介:MOSE: A New Dataset for Video Object Segmentation in Complex Scenes
 
論文紹介:MoLo: Motion-Augmented Long-Short Contrastive Learning for Few-Shot Acti...
論文紹介:MoLo: Motion-Augmented Long-Short Contrastive Learning for Few-Shot Acti...論文紹介:MoLo: Motion-Augmented Long-Short Contrastive Learning for Few-Shot Acti...
論文紹介:MoLo: Motion-Augmented Long-Short Contrastive Learning for Few-Shot Acti...
 
論文紹介:Tracking Anything with Decoupled Video Segmentation
論文紹介:Tracking Anything with Decoupled Video Segmentation論文紹介:Tracking Anything with Decoupled Video Segmentation
論文紹介:Tracking Anything with Decoupled Video Segmentation
 
論文紹介:Real-Time Evaluation in Online Continual Learning: A New Hope
論文紹介:Real-Time Evaluation in Online Continual Learning: A New Hope論文紹介:Real-Time Evaluation in Online Continual Learning: A New Hope
論文紹介:Real-Time Evaluation in Online Continual Learning: A New Hope
 
論文紹介:PointNet: Deep Learning on Point Sets for 3D Classification and Segmenta...
論文紹介:PointNet: Deep Learning on Point Sets for 3D Classification and Segmenta...論文紹介:PointNet: Deep Learning on Point Sets for 3D Classification and Segmenta...
論文紹介:PointNet: Deep Learning on Point Sets for 3D Classification and Segmenta...
 
論文紹介:Multitask Vision-Language Prompt Tuning
論文紹介:Multitask Vision-Language Prompt Tuning論文紹介:Multitask Vision-Language Prompt Tuning
論文紹介:Multitask Vision-Language Prompt Tuning
 
論文紹介:MovieCLIP: Visual Scene Recognition in Movies
論文紹介:MovieCLIP: Visual Scene Recognition in Movies論文紹介:MovieCLIP: Visual Scene Recognition in Movies
論文紹介:MovieCLIP: Visual Scene Recognition in Movies
 
論文紹介:Discovering Universal Geometry in Embeddings with ICA
論文紹介:Discovering Universal Geometry in Embeddings with ICA論文紹介:Discovering Universal Geometry in Embeddings with ICA
論文紹介:Discovering Universal Geometry in Embeddings with ICA
 
論文紹介:Efficient Video Action Detection with Token Dropout and Context Refinement
論文紹介:Efficient Video Action Detection with Token Dropout and Context Refinement論文紹介:Efficient Video Action Detection with Token Dropout and Context Refinement
論文紹介:Efficient Video Action Detection with Token Dropout and Context Refinement
 
論文紹介:Learning from Noisy Pseudo Labels for Semi-Supervised Temporal Action Lo...
論文紹介:Learning from Noisy Pseudo Labels for Semi-Supervised Temporal Action Lo...論文紹介:Learning from Noisy Pseudo Labels for Semi-Supervised Temporal Action Lo...
論文紹介:Learning from Noisy Pseudo Labels for Semi-Supervised Temporal Action Lo...
 
論文紹介:MeMViT: Memory-Augmented Multiscale Vision Transformer for Efficient Lon...
論文紹介:MeMViT: Memory-Augmented Multiscale Vision Transformer for Efficient Lon...論文紹介:MeMViT: Memory-Augmented Multiscale Vision Transformer for Efficient Lon...
論文紹介:MeMViT: Memory-Augmented Multiscale Vision Transformer for Efficient Lon...
 
論文紹介:Revealing the unseen: Benchmarking video action recognition under occlusion
論文紹介:Revealing the unseen: Benchmarking video action recognition under occlusion論文紹介:Revealing the unseen: Benchmarking video action recognition under occlusion
論文紹介:Revealing the unseen: Benchmarking video action recognition under occlusion
 
論文紹介:Video Task Decathlon: Unifying Image and Video Tasks in Autonomous Driving
論文紹介:Video Task Decathlon: Unifying Image and Video Tasks in Autonomous Driving論文紹介:Video Task Decathlon: Unifying Image and Video Tasks in Autonomous Driving
論文紹介:Video Task Decathlon: Unifying Image and Video Tasks in Autonomous Driving
 
論文紹介:Spatio-Temporal Action Detection Under Large Motion
論文紹介:Spatio-Temporal Action Detection Under Large Motion論文紹介:Spatio-Temporal Action Detection Under Large Motion
論文紹介:Spatio-Temporal Action Detection Under Large Motion
 

Kürzlich hochgeladen

Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイスCRI Japan, Inc.
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)Hiroshi Tomioka
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルCRI Japan, Inc.
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NTT DATA Technology & Innovation
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 

Kürzlich hochgeladen (7)

Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 

文献紹介:Length-Controllable Image Captioning

  • 1. Length-Controllable Image Captioning Chaorui Deng, Ning Ding, Mingkui Tan, and Qi Wu ECCV2020 2022/11/11 仁田智也 (名工大玉木研)
  • 2. 概要 nImage Captioningの生成文の長さを調整する手法の提案 • 既存のモデルに対して適用可能 • 既存のモデルに適用することで同等以上の性能 nImage CaptionigモデルのLaBERTの提案 • 非自己回帰モデル • 計算量が生成する文の長さに比例しない • 生成文の長さの調整を適応可能 2 C. Deng et al. Reference image captions A pizza on a pan sitting on a table. A close up of a pizza in a pan on a table. A pizza sits on a plate on a dark surface. A person sitting at a table where a pizza is sitting. A pizza topped with different toppings is brought to a table. Predicted image captions Rough VLP A pizza sitting on top of a pan on a table. Ours Lv1 A pizza that is sitting on a table. Ours Lv2 A pizza with tomatoes and spinach on a table. Ours Lv3 A pizza with tomatoes cheese and toppings on it sitting on a table. Detailed Ours Lv4 A pizza sitting on top of a pan with a lot of cheese spinach and tomatoes on it.
  • 3. 関連研究 n生成文の制御 • ASG2Caption model (Chen+, CVPR2020) • シーングラフを用いて生成文の多様性を制御 • 多様性の向上 • 精度の低下 • 菊池らの研究 (Kikuchi+, EMNLP2016) • 生成文の長さの制御 • 一部モデルのみに適用可能 • 柔軟性が欠如 n非自己回帰生成モデル • NAT (Gu+, arXiv2017) • 翻訳タスクでの非自己回帰モデル • 計算量が系列長に比例しない
  • 4. 生成文の長さの制御 nアノテーションの文章の長さの範囲で長さレベルを定める • 文章の単語数によって分割 • Ex. [1, 9], [10, 14], [15, 19], [20, 25] • 分割する単語数の基準はデータがある程度均等になるように定める nWord embeddingの際に長さレベルの埋め込み情報を加える • i番目の単語に対する埋め込みベクトル:𝒙!! = 𝒆" + 𝒆#,!! + 𝒆%,& • 𝒆#,!! :単語埋め込み • 𝒆%,&:位置埋め込み • 𝒆":長さレベル埋め込み • 𝒆" = 𝑊" ' 𝑡" • 𝑊" ' ∈ ℝ(×*:学習可能な埋め込み行列 • 𝑡" ∈ ℝ( :長さレベルに対応するワンホットベクトル
  • 5. LaBERT n入力画像のembedding • 入力画像に学習済み物体検出をかける • 𝒇+,&:検出物体iに対応する特徴量ベクトル • 𝒇,,&:検出物体iに対応するクラス確率分布 • 𝒇",&:検出物体iに対応する局所特徴量 • ex. [左上x座標, 左上y座標, 右下x座標, 右下y座標, bboxの面積比] • 𝒙-! = 𝑾+ '𝒇+,& + 𝑾% ' LN 𝒇,,& , LN 𝒇",& + 𝒆&./ • 𝒆&./:埋め込みベクトル Length-Controllable Image Captioning 7 A . . . N× Transformer Blocks [MASK] in a [MASK] [EOS] . . . . . . . . . "#$ "#% "#& "#' "($ "(% "(& "() "(* "(+ person kayak Image type embedding Location embedding Visual embedding Length level embedding Position embedding Word embedding
  • 6. LaBERT nWord embedding • 長さレベル埋め込みを同様に行う • 学習時 • 文章にランダムにマスクをかけてembeddingをする • マスクをかけた部分の単語を推論する Length-Controllable Image Captioning 7 A . . . N× Transformer Blocks [MASK] in a [MASK] [EOS] . . . . . . . . . "#$ "#% "#& "#' "($ "(% "(& "() "(* "(+ person kayak Image type embedding Location embedding Visual embedding Length level embedding Position embedding Word embedding
  • 7. LaBERT n推論時 • 生成文の最大の長さのマスクを入力 • 各単語を推論する • 𝑝& 𝑠& = [𝐸𝑂𝑆] ← 𝛾0"!#"1& 𝑝& 𝑠& = [𝐸𝑂𝑆] , ∀&∈ [𝐿"2#, 𝐿3&/3] • 系列が最後の方になるにつれて[𝐸𝑂𝑆]の確率をあげる • 推論時の各単語のconfidence scoreを以下のように更新する • 𝑐& ← : max ! 𝑝& 𝑠& = 𝑠 i is masked position ,!4567 $ %! !!8! 9 otherwise • 各単語のconfidence scoreが下位n個にマスクをかけてもう一度推論を行う • nはステップが進む毎に減衰させる Length-Controllable Image Captioning 9 Mask-predict-update process Step 1 [MASK] [MASK] [MASK] [MASK] [MASK] [MASK]…..[MASK] [MASK] [MASK] A dog is on the the on a a a a a a a a walking in the sidewalk. A dog laying on the side of a street with a a walking a a walking in the sidewalk. A dog laying on the side of a street with a woman walking on the sidewalk of the street. Step T A dog sitting on the side of a street with a woman walking on the sidewalk in the background.
  • 8. 実験設定 n長さレベル埋め込み • モデル • AoANet (Huang+, ICCV2019) • VLP (Zhou+, AAAI2020) • データセット • MSCOCO (Lin+, ECCV2014) • 評価指標 • BLUE (Papineni+, ACL2002) • METEOR (Banerjee & Lavie, ACL Workshop2005) • CIDEr-D (Vedantam+, CVPR2015) • SPICE (Fernando+, ECCV2016) nLaBERT • 物体検出:Faster RCNN (Ren+, NuerIPS2015) • 𝒇+,&:fc6レイヤーの特徴量 • 𝒇,,&:softmax後のベクトル • 𝒇",&:Bboxの座標+面積比 • 長さレベル埋め込み • 1レベル • 4レベル • 評価指標 • ROUGE (Lin, ACL Workshop2004)を追加 • 推論 • 25ステップで生成
  • 9. 実験結果:長さレベル埋め込み nLv1, 2:どの評価指標でも元のモデルと同等の性能 nLv3, 4:BLUE, CIDEr-Dでは元のモデルより大幅に低下 • n-gramベースの評価指標は長い文章に対して低下する傾向がある • SPICE, METEORでは低下が見られない Length-Controllable Image Captioning 11 Table 1. Performance of the length-aware version of AoANet and VLP on MS COCO Karpathy’s test split. S, C, M and B@N, are short for SPICE, CIDEr-D, METEOR, and BLEU@N scores, respectively. The original results of AoANet and VLP are ob- tained from models trained by ourselves with the official codes and settings provided by the authors. All values are reported as a percentage (%). Metrics S C M B@4 S C M B@4 Models AoANet VLP Original Results 21.3 118.4 28.3 36.9 21.2 116.9 28.5 36.5 4-Level Lv 1 (1-9) 19.6 107.4 25.9 33.1 18.9 103.0 25.2 31.8 Lv 2 (10-14) 21.7 117.6 28.6 35.8 21.4 118.7 28.8 36.0 Lv 3 (15-19) 22.7 79.9 28.7 26.6 22.4 92.5 29.3 28.4 Lv 4 (20-25) 22.7 29.5 27.7 20.2 22.4 40.0 28.5 21.9 5-Level Lv 1 (1-9) 19.7 108.7 26.0 33.5 18.7 101.0 25.0 30.9 Lv 2 (10-13) 21.6 118.8 28.5 36.1 21.2 117.3 28.4 35.9 Lv 3 (14-17) 22.6 92.9 29.0 28.7 22.3 100.5 29.3 29.9 Lv 4 (18-21) 23.0 48.4 28.2 22.7 22.4 60.4 28.7 24.0 Lv 5 (22-25) 22.9 18.9 27.2 18.8 22.5 28.1 28.1 20.3
  • 10. 実験結果:LaBERT n長さレベル埋め込み • なしに比べてLv2では性能が向上している nSOTAとの比較 • Lv3, 4ではSPICEスコアで上回っている 12 C. Deng et al. Table 2. Performance of LaBERT on MS COCO Karpathy’s test split. R represents ROUGE. The results of AoANet and VLP are obtained from their papers. Metrics S C M R B@1 B@2 B@3 B@4 State-Of-The-Art Models VLP [53] 21.2 116.9 28.4 - - - - 36.5 AoANet [20] 21.3 119.8 28.4 57.5 77.4 - - 37.2 Single-Level LaBERT Single Level (1-25) 21.7 116.8 27.9 57.0 77.4 61.0 46.5 35.0 4-Level LaBERT lvl 1 (1-9) 19.5 101.6 25.4 54.7 72.5 56.3 41.8 30.0 lvl 2 (10-14) 21.8 118.2 28.4 57.4 77.6 61.3 46.9 35.3 lvl 3 (15-19) 22.3 90.5 28.6 53.1 66.8 50.6 37.0 26.8 lvl 4 (20-25) 22.2 39.9 27.7 46.9 56.1 40.9 28.6 19.9
  • 11. まとめ n長さレベル埋め込みの提案 • 文章の長さに応じた埋め込みベクトルをword embedding時に加える • 既存のモデルに対して適応可能 • 生成時に指定した長さレベルの長さの文章を生成可能 • 長い生成文に対しても精度が保たれる nLaBERTの提案 • 非回帰型モデルによる文章の生成 • 生成文の長さに計算量が比例しない • 長さレベル埋め込みを用いることで精度の向上 • SOTAと比較して精度の向上