SlideShare ist ein Scribd-Unternehmen logo
1 von 22
Graph R-CNN for Scene Graph Generation
2019/8/25
かのさわ(@kano_sawa)
自己紹介
• 名前:さわだ、かのさわ
• 仕事:メーカー研究開発職
Mixed Reality型HMD Robot Vision
Twitter
@kano_sawa
趣味:ノベルゲーム制作
https://novelgame.jp/games/show/2209
紹介する論文
• 論文名
• Graph R-CNN for Scene Graph Generation
• 概要
• Graph Convolutionを使ってScene Graphを生成
• 発表年月
• 2018年8月(arXiv)
• 採択
• ECCV 2018
紹介のモチベーション
• Scene Graphを広めたい
• Graph Convolutionの画像認識への応用例を知りたい
• 1年で引用45件は、Scene Graph分野では多い
Scene Graph Generation(SGG)とは
• 画像に写っている”物の位置と種類(ノード)”と”物同士
の関係性(エッジ)”を推定し、グラフ化すること
Visual Question Answering
Scene Graph
Robot Plannning
…
SGGの課題と従来手法
課題
1. ノードの個数nに対して、エッジの本数がO(n2)となる
2. 周辺物体のcontextを考慮するのが難しい
従来手法
1. ランダムサンプリング
2. RNN
“Scene Graph Generation by Iterative Message Passing”
SGGの課題と従来手法
課題
1. ノードの個数nに対して、エッジの本数がO(n2)となる
2. 周辺物体のcontextを考慮するのが難しい
従来手法
1. ランダムサンプリング
2. RNN
“Scene Graph Generation by Iterative Message Passing”
もっと良い方法
あるのでは
提案手法の流れ
①Faster R-CNN ②RePN
③aGCN
物体の位置と
class probabilityを
推定
Relational Proposal Network
attentional Graph
Convolutional Network
ノード間の関係性の
高さを推定し、
pruning
Contextを考慮しながら
物体種類と関係性を推定
②Relational Proposal Network(RePN)
Relational Proposal Network ・output
物体間のrelatedness
→上位のエッジを残す
・input
各物体のclass probablity
MLP
内積
(主語)
(目的語)
Graph Convolutional Network(復習)
l層における
ノードiの特徴ベクトル
(l+1)層における
ノードiの特徴ベクトル
隣接ノード
線形変換
(学習重み)
隣接マトリクス(の要素)
非接続:0
接続:正規化係数
まとめると
Kipf, T.N., et. Al, “Semi-supervised classication with graph convolutional
③attentional Graph Convolutional Network(aGCN)
l層における
ノードiの特徴ベクトル
(l+1)層における
ノードiの特徴ベクトル
隣接ノード
線形変換
(学習重み)
attention
③attentional Graph Convolutional Network(aGCN)
l層における
ノードiの特徴ベクトル
(l+1)層における
ノードiの特徴ベクトル
隣接ノード
線形変換
(学習重み)
attention
重みベクトル
(学習重み)
線形変換
(学習重み)
concat ノードj ノードi
③aGCNのScene Graph Generationへの適用
• ノード特徴とエッジ特徴を別々に定義
• 接続の種類が異なると、影響の仕方も異なる
zo zo
zr
zo
zr
影響が伝搬
CNNCNN ノード特徴 zo エッジ特徴 zr
WroZoαro
WrsZoαrs
WorZrαor
WsrZrαsr
o : object
s : subject
r : relation
• ノード特徴とエッジ特徴はお互いに影響を与え合う
③aGCNのScene Graph Generationへの適用
skip connection
(結局)全ノード同士を
直接繋いじゃう
ノード
S
zo
O
zo
zr
zo
zr
zr
zr
エッジ(関係性)特徴
ノード(物体)特徴
Loss関数
①Faster R-CNN ②RePN
③aGCN
binary cross entropy
multi-class cross entropy
エッジ有無の分類
物体種類と関係性のクラス分類
学習データセット
• Visual Genome
• 訓練画像:75651枚
• テスト画像:32422枚
• 物体数:11.5個/枚
• 関係数:6.2個/枚
評価指標
• SGGen:triplet (subject-predicate-object)による評価
1. 推定tripletのprobability(各probabilityの積)を計算
2. 推定tripletのうちTop K(K=50, 100)を抽出
3. Recall(再現率:正解tripletのうち抽出できた割合)を計算
※正しそうな推定がfalse positiveになってしまうので、Recallを使う
• SGGenの問題点
• subject-predicate-objectのうち、一つでも間違えると評価
値が0になってしまう
正解 全間違い 一部間違い
評価指標
• 新しい評価指標:SGGen+
物体の位置とクラスが
正解だった数
関係性が
正解だった数
両方が
正解だった数
(SGGen)
全組み合わせ数
評価結果
• 従来手法との比較
RNN手法
提案手法
SGGen, SGGen+の両方の評価指標において
提案手法が最も良い結果となった
評価結果
• 各コンポーネントの効果検証
“RePNによるpruning”で評価値向上
“GCN”で評価値向上
“attention追加”で評価値向上
• RePN, GCN, attention追加の全てが評価値向上に寄与
• 特にRePNによる評価値向上が大きい
まとめ
• RePNとaGCNでScene Graphを生成する手法を紹介した
• RePN : Relational Proposal Network
• aGCN : attentional Graph Convolutional Network
• 評価指標として、SGGenの改良であるSGGen+を紹介し、
提案手法が両方の評価指標において、従来手法よりも優れ
ていることを示した
ご清聴ありがとうございました

Weitere ähnliche Inhalte

Ähnlich wie Graph R-CNN for Scene Graph Generation

GDC ラウンドテーブルで得た情報量 2016 - Demystifying VFX, Art Director & Leadership, RiotGa...
GDC ラウンドテーブルで得た情報量 2016 - Demystifying VFX, Art Director & Leadership, RiotGa...GDC ラウンドテーブルで得た情報量 2016 - Demystifying VFX, Art Director & Leadership, RiotGa...
GDC ラウンドテーブルで得た情報量 2016 - Demystifying VFX, Art Director & Leadership, RiotGa...TARO KOBAYASHI
 
グラフモデルとSoEとGraphQL データ指向アプリケーションデザインから見るGraphQL
グラフモデルとSoEとGraphQL データ指向アプリケーションデザインから見るGraphQLグラフモデルとSoEとGraphQL データ指向アプリケーションデザインから見るGraphQL
グラフモデルとSoEとGraphQL データ指向アプリケーションデザインから見るGraphQLYutaka Tachibana
 
WWW2017論文読み会 Information Cascades と Graph Algorithms
WWW2017論文読み会 Information Cascades と Graph AlgorithmsWWW2017論文読み会 Information Cascades と Graph Algorithms
WWW2017論文読み会 Information Cascades と Graph Algorithmscyberagent
 
A practical guide to machine learning on GCP
A practical guide to machine learning on GCPA practical guide to machine learning on GCP
A practical guide to machine learning on GCPHayato Yoshikawa
 
【HTML5 Conference 2018】あんずフォト:PlayCanvasでリッチアドコンテンツを開発して発信してみた(2018/11/25講演)
【HTML5 Conference 2018】あんずフォト:PlayCanvasでリッチアドコンテンツを開発して発信してみた(2018/11/25講演)【HTML5 Conference 2018】あんずフォト:PlayCanvasでリッチアドコンテンツを開発して発信してみた(2018/11/25講演)
【HTML5 Conference 2018】あんずフォト:PlayCanvasでリッチアドコンテンツを開発して発信してみた(2018/11/25講演)PlayCanvas運営事務局
 
この3D全盛時代にもう一度考えたい2Dゲームのこと
この3D全盛時代にもう一度考えたい2Dゲームのことこの3D全盛時代にもう一度考えたい2Dゲームのこと
この3D全盛時代にもう一度考えたい2DゲームのことKei Nakazawa
 
映像解析における周辺要素
映像解析における周辺要素映像解析における周辺要素
映像解析における周辺要素Takashi Kaneda
 
WebARで作るDukeが飛び出すカード
WebARで作るDukeが飛び出すカードWebARで作るDukeが飛び出すカード
WebARで作るDukeが飛び出すカードHideyuki Fujikawa
 
GraphQLについての5分間
GraphQLについての5分間GraphQLについての5分間
GraphQLについての5分間Matsuo Obu
 
rChartsによるインタラクティブな可視化表現
rChartsによるインタラクティブな可視化表現rChartsによるインタラクティブな可視化表現
rChartsによるインタラクティブな可視化表現Yasuyuki Sugai
 
Mastering open cv kinectv1 marker based ar
Mastering open cv kinectv1 marker based arMastering open cv kinectv1 marker based ar
Mastering open cv kinectv1 marker based arSatoshi Fujimoto
 
【CVPR 2020 メタサーベイ】Scene Analysis and Understanding
【CVPR 2020 メタサーベイ】Scene Analysis and Understanding【CVPR 2020 メタサーベイ】Scene Analysis and Understanding
【CVPR 2020 メタサーベイ】Scene Analysis and Understandingcvpaper. challenge
 
ゲームアプリの数学@GREE GameDevelopers' Meetup
ゲームアプリの数学@GREE GameDevelopers' Meetupゲームアプリの数学@GREE GameDevelopers' Meetup
ゲームアプリの数学@GREE GameDevelopers' Meetupgree_tech
 
ゲームアプリの数学@GREE GameDevelopers' Meetup
ゲームアプリの数学@GREE GameDevelopers' Meetupゲームアプリの数学@GREE GameDevelopers' Meetup
ゲームアプリの数学@GREE GameDevelopers' MeetupRyuichi Kubuki
 
CEDEC2015「加算合成コストが0になる!?すぐに使えるP-MAPブレンドテクニック」発表スライド
CEDEC2015「加算合成コストが0になる!?すぐに使えるP-MAPブレンドテクニック」発表スライドCEDEC2015「加算合成コストが0になる!?すぐに使えるP-MAPブレンドテクニック」発表スライド
CEDEC2015「加算合成コストが0になる!?すぐに使えるP-MAPブレンドテクニック」発表スライドToshiyasu Miyabe
 
映像解析クラスタの アプリエンジニアから見た Rancher&Kubernetes
映像解析クラスタのアプリエンジニアから見たRancher&Kubernetes映像解析クラスタのアプリエンジニアから見たRancher&Kubernetes
映像解析クラスタの アプリエンジニアから見た Rancher&KubernetesYuusuke Kounoike
 

Ähnlich wie Graph R-CNN for Scene Graph Generation (20)

SIGGRAPH 2019レポート
SIGGRAPH 2019レポートSIGGRAPH 2019レポート
SIGGRAPH 2019レポート
 
GDC ラウンドテーブルで得た情報量 2016 - Demystifying VFX, Art Director & Leadership, RiotGa...
GDC ラウンドテーブルで得た情報量 2016 - Demystifying VFX, Art Director & Leadership, RiotGa...GDC ラウンドテーブルで得た情報量 2016 - Demystifying VFX, Art Director & Leadership, RiotGa...
GDC ラウンドテーブルで得た情報量 2016 - Demystifying VFX, Art Director & Leadership, RiotGa...
 
グラフモデルとSoEとGraphQL データ指向アプリケーションデザインから見るGraphQL
グラフモデルとSoEとGraphQL データ指向アプリケーションデザインから見るGraphQLグラフモデルとSoEとGraphQL データ指向アプリケーションデザインから見るGraphQL
グラフモデルとSoEとGraphQL データ指向アプリケーションデザインから見るGraphQL
 
WWW2017論文読み会 Information Cascades と Graph Algorithms
WWW2017論文読み会 Information Cascades と Graph AlgorithmsWWW2017論文読み会 Information Cascades と Graph Algorithms
WWW2017論文読み会 Information Cascades と Graph Algorithms
 
A practical guide to machine learning on GCP
A practical guide to machine learning on GCPA practical guide to machine learning on GCP
A practical guide to machine learning on GCP
 
【HTML5 Conference 2018】あんずフォト:PlayCanvasでリッチアドコンテンツを開発して発信してみた(2018/11/25講演)
【HTML5 Conference 2018】あんずフォト:PlayCanvasでリッチアドコンテンツを開発して発信してみた(2018/11/25講演)【HTML5 Conference 2018】あんずフォト:PlayCanvasでリッチアドコンテンツを開発して発信してみた(2018/11/25講演)
【HTML5 Conference 2018】あんずフォト:PlayCanvasでリッチアドコンテンツを開発して発信してみた(2018/11/25講演)
 
この3D全盛時代にもう一度考えたい2Dゲームのこと
この3D全盛時代にもう一度考えたい2Dゲームのことこの3D全盛時代にもう一度考えたい2Dゲームのこと
この3D全盛時代にもう一度考えたい2Dゲームのこと
 
映像解析における周辺要素
映像解析における周辺要素映像解析における周辺要素
映像解析における周辺要素
 
WebARで作るDukeが飛び出すカード
WebARで作るDukeが飛び出すカードWebARで作るDukeが飛び出すカード
WebARで作るDukeが飛び出すカード
 
AndroidのAR最新動向
AndroidのAR最新動向AndroidのAR最新動向
AndroidのAR最新動向
 
GraphQLについての5分間
GraphQLについての5分間GraphQLについての5分間
GraphQLについての5分間
 
CoronaSDKのご紹介
CoronaSDKのご紹介CoronaSDKのご紹介
CoronaSDKのご紹介
 
APIを作ってみた
APIを作ってみたAPIを作ってみた
APIを作ってみた
 
rChartsによるインタラクティブな可視化表現
rChartsによるインタラクティブな可視化表現rChartsによるインタラクティブな可視化表現
rChartsによるインタラクティブな可視化表現
 
Mastering open cv kinectv1 marker based ar
Mastering open cv kinectv1 marker based arMastering open cv kinectv1 marker based ar
Mastering open cv kinectv1 marker based ar
 
【CVPR 2020 メタサーベイ】Scene Analysis and Understanding
【CVPR 2020 メタサーベイ】Scene Analysis and Understanding【CVPR 2020 メタサーベイ】Scene Analysis and Understanding
【CVPR 2020 メタサーベイ】Scene Analysis and Understanding
 
ゲームアプリの数学@GREE GameDevelopers' Meetup
ゲームアプリの数学@GREE GameDevelopers' Meetupゲームアプリの数学@GREE GameDevelopers' Meetup
ゲームアプリの数学@GREE GameDevelopers' Meetup
 
ゲームアプリの数学@GREE GameDevelopers' Meetup
ゲームアプリの数学@GREE GameDevelopers' Meetupゲームアプリの数学@GREE GameDevelopers' Meetup
ゲームアプリの数学@GREE GameDevelopers' Meetup
 
CEDEC2015「加算合成コストが0になる!?すぐに使えるP-MAPブレンドテクニック」発表スライド
CEDEC2015「加算合成コストが0になる!?すぐに使えるP-MAPブレンドテクニック」発表スライドCEDEC2015「加算合成コストが0になる!?すぐに使えるP-MAPブレンドテクニック」発表スライド
CEDEC2015「加算合成コストが0になる!?すぐに使えるP-MAPブレンドテクニック」発表スライド
 
映像解析クラスタの アプリエンジニアから見た Rancher&Kubernetes
映像解析クラスタのアプリエンジニアから見たRancher&Kubernetes映像解析クラスタのアプリエンジニアから見たRancher&Kubernetes
映像解析クラスタの アプリエンジニアから見た Rancher&Kubernetes
 

Kürzlich hochgeladen

Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video UnderstandingToru Tamaki
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Hiroshi Tomioka
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsWSO2
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptxsn679259
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルCRI Japan, Inc.
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Gamesatsushi061452
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...Toru Tamaki
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイスCRI Japan, Inc.
 

Kürzlich hochgeladen (11)

Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 

Graph R-CNN for Scene Graph Generation