SlideShare ist ein Scribd-Unternehmen logo
1 von 22
Downloaden Sie, um offline zu lesen
Image-to-Image Retrieval by Learning
Similarity between Scene Graphs
Sangwoong Yoon, Woo Young Kang, Sungwook Jeon, SeongEun Lee, Changjin Han, Jonghun Park, and Eun-Sol Kim
1
社内論文読み会 Paper Friday 20210510
Kazuhiro Ota
Image-to-Image retrieval: 画像から画像を検索するタスク
2
Image-to-Image retrieval: 画像から画像を検索するタスク
3
クエリ画像
Image-to-Image retrieval: 画像から画像を検索するタスク
4
ResNet特徴量の
Cosine類似度で検索
縦線が入ってたりグレスケな
のはあってるけど、テニスして
なかったりスケボー乗ってな
かったり・・・
Image-to-Image retrieval: 画像から画像を検索するタスク
5
提案手法
より画像のコンテキストに
即した検索を可能に
複雑なコンテキストを持つ画像を検索するために
画像内の物体やその関連性を利用するためにScene Graph [Johnson et al. 2015] に着目
6
既存研究(Scene Graphの提案と検索応用)
検索対象画像中の物体のBBoxに対してクエリ
SceneGraphをCRFによって対応付けてその尤度
からMAP
● 大規模な画像検索には不向き
● 事前にBBoxを検出しておく必要あり
7
Image Retrieval using Scene Graphs [Johnson et al. 2015]
提案手法: Image Retrieval with Scene Graph Similarity (IRSGS)
画像のScene GraphをGraph Neural NetworkでEmbeddingに変換しその類似度に基づいて検索
このGNNを学習することが提案手法の学習となる
8
Query Image Scene Graph
Graph Embedding
Similarity
Target Image
Graph Embedding
Scene Graph
提案手法: Image Retrieval with Scene Graph Similarity (IRSGS)
画像のScene GraphをGraph Neural NetworkでEmbeddingに変換しその類似度に基づいて検索
このGNNを学習することが提案手法の学習となる
9
Query Image Scene Graph
Graph Embedding
Similarity
Target Image
Graph Embedding
Scene Graph
GNNには下記の2種を利用
● Graph Convolutional Network [Kipf, 2016] (IRSGS-GCN)
● Graph Isomorphism Network [Xu, 2018] (IRSGS-GIN)
提案手法: Image Retrieval with Scene Graph Similarity (IRSGS)
画像のScene GraphをGraph Neural NetworkでEmbeddingに変換しその類似度に基づいて検索
このGNNを学習することが提案手法の学習となる
10
Query Image Scene Graph
Graph Embedding
Similarity
Target Image
Graph Embedding
Scene Graph
Scene Graph生成には下記の手法( pretrained)を利用
Bottom-up and top-down attention for image captioning
and visual question answering [Anderson et al. 2016]
GNNの学習には画像キャプション類似度を利用
大規模な画像データセットに対して類似度ラベルを人手
でアノテーションするのは大変(N2
)
画像に付与されているキャプションの類似度を画像類似
度の代わりとする(キャプションが似ていれば画像のコン
テキストも似ているだろう)
11
MS COCOデータセット キャプション例
IRSGS Training Overview
12
画像に付与されているキャプションの SBERT特徴量の類似度を教師情報として Graph Neural Networkを学習
SceneGraph生成とSBERTはpre-trained
: trainable path
Experiments: Training Data
● VG-COCO
○ 下記のデータセットにおいて共通する画像 Train: 35,017枚, Test: 13,203枚
■ Visual Genome
■ MS-COCO
○ ラベル
■ Scene Graph(Visual Genomから)
■ キャプション(MS-COCOから)
● Flickr30k
○ Train: 30,000枚, Test: 1,000枚
○ ラベルはキャプションのみ
13
Experiments: Similarity Baselines for Retrieval
● 画像特徴量
○ ResNet-152
○ ResNet-152 (キャプション類似度で Fine Tune)
● キャプション生成
○ Soft attention model [Xu et al. 2015]
● 物体カウント
○ Scene Graphから物体数だけをカウントしてベクトル化
● Scene Graphの類似度
○ Gromov-Wasserstein Learning [Xu et al. 2019] [Xie et al. 2018]
○ Graph Matching Networks [Li et al. 2019]
14
Experiments: Evaluation Metrics
● nDCG
○ 各比較手法で検索した際の DCG / 画像キャプション類似度で検索した際の DCG
● Human Agreement
○ 各比較手法による類似度判定と人間による類似判定との一致度合いを計算
○ 全29名
○ 詳しくは次ページから
15
Human Agreement
16
Query
Image 1 Image 2
1. the first image is more similar to the query
2. the second image is more similar to the query
3. all three images are identical
4. the candidates as irrelevant
それぞれを選択したアノテータの人数
各検索手法によって類似度が高いと選択
された画像の番号
アノテータの回答をもとに下式で Human
Agreement Scoreを計算
アノテーション画面(イメージ)
Results on VG-COCO w/ human-annotated scene graphs
17
提案手法
(シーングラフ生成なし)
ベースライン
Results on VG-COCO w/ machine-generated scene graphs
18
ベースライン
提案手法
(シーングラフ生成あり)
Results on Flicker30k w/ machine-generated scene graphs
19
ベースライン
提案手法
(シーングラフ生成あり)
Qualitative Results
20
提案手法 提案手法
ObjectCount
窓の数だけで検索されてきた
ResNet
相変わらず画像の表面的な特
徴しか捉えられてない
Ablation Study
21
Conclusion
● 複雑なコンテキストを持つ画像を検索するための、Scene Graph間の類似度を算出す
るGraph Neural Networkに基づく手法を提案
● 代理類似度として画像キャプション類似度を使って学習する手法も提案
22

Weitere ähnliche Inhalte

Was ist angesagt?

Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)Yamato OKAMOTO
 
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化Yusuke Uchida
 
【DL輪読会】NeRF-VAE: A Geometry Aware 3D Scene Generative Model
【DL輪読会】NeRF-VAE: A Geometry Aware 3D Scene Generative Model【DL輪読会】NeRF-VAE: A Geometry Aware 3D Scene Generative Model
【DL輪読会】NeRF-VAE: A Geometry Aware 3D Scene Generative ModelDeep Learning JP
 
Transformer メタサーベイ
Transformer メタサーベイTransformer メタサーベイ
Transformer メタサーベイcvpaper. challenge
 
Graph Neural Networks
Graph Neural NetworksGraph Neural Networks
Graph Neural Networkstm1966
 
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language SupervisionDeep Learning JP
 
機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)Satoshi Hara
 
【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fields【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fieldscvpaper. challenge
 
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision TransformerYusuke Uchida
 
三次元点群を取り扱うニューラルネットワークのサーベイ
三次元点群を取り扱うニューラルネットワークのサーベイ三次元点群を取り扱うニューラルネットワークのサーベイ
三次元点群を取り扱うニューラルネットワークのサーベイNaoya Chiba
 
Attentionの基礎からTransformerの入門まで
Attentionの基礎からTransformerの入門までAttentionの基礎からTransformerの入門まで
Attentionの基礎からTransformerの入門までAGIRobots
 
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...Deep Learning JP
 
Deeplearning輪読会
Deeplearning輪読会Deeplearning輪読会
Deeplearning輪読会正志 坪坂
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!TransformerArithmer Inc.
 
MS COCO Dataset Introduction
MS COCO Dataset IntroductionMS COCO Dataset Introduction
MS COCO Dataset IntroductionShinagawa Seitaro
 
グラフニューラルネットワークとグラフ組合せ問題
グラフニューラルネットワークとグラフ組合せ問題グラフニューラルネットワークとグラフ組合せ問題
グラフニューラルネットワークとグラフ組合せ問題joisino
 
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)Masahiro Suzuki
 
[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係についてDeep Learning JP
 
オープンワールド認識 (第34回全脳アーキテクチャ若手の会 勉強会)
オープンワールド認識 (第34回全脳アーキテクチャ若手の会 勉強会)オープンワールド認識 (第34回全脳アーキテクチャ若手の会 勉強会)
オープンワールド認識 (第34回全脳アーキテクチャ若手の会 勉強会)Takuma Yagi
 
ドメイン適応の原理と応用
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用Yoshitaka Ushiku
 

Was ist angesagt? (20)

Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)
 
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化
 
【DL輪読会】NeRF-VAE: A Geometry Aware 3D Scene Generative Model
【DL輪読会】NeRF-VAE: A Geometry Aware 3D Scene Generative Model【DL輪読会】NeRF-VAE: A Geometry Aware 3D Scene Generative Model
【DL輪読会】NeRF-VAE: A Geometry Aware 3D Scene Generative Model
 
Transformer メタサーベイ
Transformer メタサーベイTransformer メタサーベイ
Transformer メタサーベイ
 
Graph Neural Networks
Graph Neural NetworksGraph Neural Networks
Graph Neural Networks
 
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
 
機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)
 
【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fields【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fields
 
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
 
三次元点群を取り扱うニューラルネットワークのサーベイ
三次元点群を取り扱うニューラルネットワークのサーベイ三次元点群を取り扱うニューラルネットワークのサーベイ
三次元点群を取り扱うニューラルネットワークのサーベイ
 
Attentionの基礎からTransformerの入門まで
Attentionの基礎からTransformerの入門までAttentionの基礎からTransformerの入門まで
Attentionの基礎からTransformerの入門まで
 
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...
 
Deeplearning輪読会
Deeplearning輪読会Deeplearning輪読会
Deeplearning輪読会
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!Transformer
 
MS COCO Dataset Introduction
MS COCO Dataset IntroductionMS COCO Dataset Introduction
MS COCO Dataset Introduction
 
グラフニューラルネットワークとグラフ組合せ問題
グラフニューラルネットワークとグラフ組合せ問題グラフニューラルネットワークとグラフ組合せ問題
グラフニューラルネットワークとグラフ組合せ問題
 
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)
 
[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について
 
オープンワールド認識 (第34回全脳アーキテクチャ若手の会 勉強会)
オープンワールド認識 (第34回全脳アーキテクチャ若手の会 勉強会)オープンワールド認識 (第34回全脳アーキテクチャ若手の会 勉強会)
オープンワールド認識 (第34回全脳アーキテクチャ若手の会 勉強会)
 
ドメイン適応の原理と応用
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用
 

Mehr von Kazuhiro Ota

広告クリエイティブ制作におけるコンピュータビジョングラフィックデザイン CA Data Engineering & Data Analysis WS #9
広告クリエイティブ制作におけるコンピュータビジョングラフィックデザイン CA Data Engineering & Data Analysis WS #9広告クリエイティブ制作におけるコンピュータビジョングラフィックデザイン CA Data Engineering & Data Analysis WS #9
広告クリエイティブ制作におけるコンピュータビジョングラフィックデザイン CA Data Engineering & Data Analysis WS #9Kazuhiro Ota
 
社内論文読み会 LADN: Local Adversarial Disentangling Network for Facial Makeup and D...
社内論文読み会 LADN: Local Adversarial Disentangling Network for Facial Makeup and D...社内論文読み会 LADN: Local Adversarial Disentangling Network for Facial Makeup and D...
社内論文読み会 LADN: Local Adversarial Disentangling Network for Facial Makeup and D...Kazuhiro Ota
 
社内論文読み会 Paper Friday, Invertible Grayscale
社内論文読み会 Paper Friday, Invertible Grayscale社内論文読み会 Paper Friday, Invertible Grayscale
社内論文読み会 Paper Friday, Invertible GrayscaleKazuhiro Ota
 
PaperFriday: SAVOIAS: A Diverse, Multi-Category Visual Complexity Dataset
PaperFriday: SAVOIAS: A Diverse, Multi-Category Visual Complexity DatasetPaperFriday: SAVOIAS: A Diverse, Multi-Category Visual Complexity Dataset
PaperFriday: SAVOIAS: A Diverse, Multi-Category Visual Complexity DatasetKazuhiro Ota
 
社内論文読み会 20180316 - Unpaired Image-to-Image Translation using Cycle-Consistent...
社内論文読み会 20180316 - Unpaired Image-to-Image Translation using Cycle-Consistent...社内論文読み会 20180316 - Unpaired Image-to-Image Translation using Cycle-Consistent...
社内論文読み会 20180316 - Unpaired Image-to-Image Translation using Cycle-Consistent...Kazuhiro Ota
 
黄色い象と共に生きる
黄色い象と共に生きる黄色い象と共に生きる
黄色い象と共に生きるKazuhiro Ota
 
Wowzaを用いた配信基盤 Takusuta tech conf01
Wowzaを用いた配信基盤 Takusuta tech conf01Wowzaを用いた配信基盤 Takusuta tech conf01
Wowzaを用いた配信基盤 Takusuta tech conf01Kazuhiro Ota
 

Mehr von Kazuhiro Ota (7)

広告クリエイティブ制作におけるコンピュータビジョングラフィックデザイン CA Data Engineering & Data Analysis WS #9
広告クリエイティブ制作におけるコンピュータビジョングラフィックデザイン CA Data Engineering & Data Analysis WS #9広告クリエイティブ制作におけるコンピュータビジョングラフィックデザイン CA Data Engineering & Data Analysis WS #9
広告クリエイティブ制作におけるコンピュータビジョングラフィックデザイン CA Data Engineering & Data Analysis WS #9
 
社内論文読み会 LADN: Local Adversarial Disentangling Network for Facial Makeup and D...
社内論文読み会 LADN: Local Adversarial Disentangling Network for Facial Makeup and D...社内論文読み会 LADN: Local Adversarial Disentangling Network for Facial Makeup and D...
社内論文読み会 LADN: Local Adversarial Disentangling Network for Facial Makeup and D...
 
社内論文読み会 Paper Friday, Invertible Grayscale
社内論文読み会 Paper Friday, Invertible Grayscale社内論文読み会 Paper Friday, Invertible Grayscale
社内論文読み会 Paper Friday, Invertible Grayscale
 
PaperFriday: SAVOIAS: A Diverse, Multi-Category Visual Complexity Dataset
PaperFriday: SAVOIAS: A Diverse, Multi-Category Visual Complexity DatasetPaperFriday: SAVOIAS: A Diverse, Multi-Category Visual Complexity Dataset
PaperFriday: SAVOIAS: A Diverse, Multi-Category Visual Complexity Dataset
 
社内論文読み会 20180316 - Unpaired Image-to-Image Translation using Cycle-Consistent...
社内論文読み会 20180316 - Unpaired Image-to-Image Translation using Cycle-Consistent...社内論文読み会 20180316 - Unpaired Image-to-Image Translation using Cycle-Consistent...
社内論文読み会 20180316 - Unpaired Image-to-Image Translation using Cycle-Consistent...
 
黄色い象と共に生きる
黄色い象と共に生きる黄色い象と共に生きる
黄色い象と共に生きる
 
Wowzaを用いた配信基盤 Takusuta tech conf01
Wowzaを用いた配信基盤 Takusuta tech conf01Wowzaを用いた配信基盤 Takusuta tech conf01
Wowzaを用いた配信基盤 Takusuta tech conf01
 

社内論文読み会資料 Image-to-Image Retrieval by Learning Similarity between Scene Graphs