SlideShare ist ein Scribd-Unternehmen logo
1 von 85
CVPR 2019 読み会
Reinforced Cross-Modal Matching and
Self-Supervised Imitation Learning for
Vision-Language Navigation
牛久 祥孝
losnuevetoros
以上、現地報告でした。
お前は誰だ?
~2014.3 博士(情報理工学)、東京大学
• 画像説明文の自動生成
• 大規模画像分類
2014.4~ NTT コミュニケーション科学基礎研究所
お前は誰だ?
~2014.3 博士(情報理工学)、東京大学
• 画像説明文の自動生成
• 大規模画像分類
2014.4~2016.3 NTT コミュニケーション科学基礎研究所
2016.4~ 東京大学 大学院情報理工学系研究科
知能機械情報学専攻 講師 (原田・牛久研究室)
お前は誰だ?
~2014.3 博士(情報理工学)、東京大学
• 画像説明文の自動生成
• 大規模画像分類
2014.4~2016.3 NTT コミュニケーション科学基礎研究所
2016.4~ 東京大学 大学院情報理工学系研究科
知能機械情報学専攻 講師 (原田・牛久研究室)
自己紹介
2014.4 博士(情報理工学)、東京大学
2014.4~2016.3 NTT CS研 研究員
2016.4~ 東京大学 講師 (原田・牛久研究室)
2016.9~ 産業技術総合研究所 協力研究員
2016.12~ 国立国語研究所 共同研究員
2018.4~ オムロンサイニックエックス株式会社
技術アドバイザ(NEW!!)
[Ushiku+, ACMMM 2012]
[Ushiku+, ICCV 2015]
画像キャプション生成 主観的な感性表現を持つ
画像キャプション生成
動画の特定区間と
キャプションの相互検索
[Yamaguchi+, ICCV 2017]
A guy is skiing with no shirt on and
yellow snow pants.
A zebra standing in a field with a
tree in the dirty background.
[Shin+, BMVC 2016]
A yellow train on the tracks near a
train station.
自己紹介
2014.3 博士(情報理工学)、東京大学
2014.4~2016.3 NTTコミュニケーション科学基礎研究所 研究員
2016.4~2018.9 東京大学 講師 (原田・牛久研究室)
2016.9~ 産業技術総合研究所 協力研究員
2016.12~2018.9 国立国語研究所 共同研究員
2018.4~2018.9 オムロンサイニックエックス株式会社 技術アドバイザ
2018.10~ オムロンサイニックエックス株式会社
Principal Investigator
2019.1~ 株式会社Ridge-I 社外 Chief Research Officer
[Ushiku+, ACMMM 2012]
[Ushiku+, ICCV 2015]
画像キャプション生成 主観的な感性表現を持つ
画像キャプション生成
動画の特定区間と
キャプションの相互検索
[Yamaguchi+, ICCV 2017]
A guy is skiing with no shirt on and
yellow snow pants.
A zebra standing in a field with a
tree in the dirty background.
[Shin+, BMVC 2016]
A yellow train on the tracks near a
train station.
自己紹介
2014.3 博士(情報理工学)、東京大学
2014.4~2016.3 NTTコミュニケーション科学基礎研究所 研究員
2016.4~2018.9 東京大学 講師 (原田・牛久研究室)
2016.9~ 産業技術総合研究所 協力研究員
2016.12~2018.9 国立国語研究所 共同研究員
2018.4~2018.9 オムロンサイニックエックス株式会社 技術アドバイザ
2018.10~ オムロンサイニックエックス株式会社
Principal Investigator
2019.1~ 株式会社Ridge-I 社外 Chief Research Officer
[Ushiku+, ACMMM 2012]
[Ushiku+, ICCV 2015]
画像キャプション生成 主観的な感性表現を持つ
画像キャプション生成
動画の特定区間と
キャプションの相互検索
[Yamaguchi+, ICCV 2017]
A guy is skiing with no shirt on and
yellow snow pants.
A zebra standing in a field with a
tree in the dirty background.
[Shin+, BMVC 2016]
A yellow train on the tracks near a
train station.
いよっ!job-hopp…
関東CV勉強会のおかげで
転職も兼職もできました!
現職sに至った経緯は?
大企業/大学における研究者人生の不安
• 局所的なキャリアパスの不安
– 今やっていることはキャリアに資するだろうか
cf. 削られる研究時間、増える雑用
• 大域的なキャリアパスの不安
– いま上にいる人のキャリアが正しいのだろうか
cf. 仕事できない上司、人間性のない教授
• 新たな社会でのキャリアに対する不安
– そもそも平成の社会じゃなくて令和の社会だし
展示準備して。特許書いて。教育
して。事業所行って。(中略)
余った時間でもちろん研究して。
言語指示を受けたエージェントの不安
• 局所的な移動パスの不安
– 今の動作はゴールに近づく動作だろうか
cf. 言語による指示と今の視界との関連付け
• 大域的な移動パスの不安
– ゴールに辿り着いたパスが正しいのだろうか
cf. ランダムに動いてもゴールには辿り着く
• 未知の環境での移動に対する不安
– そもそも既知の環境じゃなくて未知の環境だし
階段を上がって右を向いて。
バスルームを通り過ぎてベッドの
そばで止まって。
言語指示を受けた移動ロボットの不安
• 局所的な移動パスの不安
– 今の動作はゴールに近づく動作だろうか
cf. 言語による指示と今の視界との関連付け
• 大域的な移動パスの不安
– ゴールに辿り着いたパスが正しいのだろうか
cf. ランダムに動いてもゴールには辿り着く
• 未知の環境での移動に対する不安
– そもそも既知の環境じゃなくて未知の環境だし
階段を上がって右を向いて。
バスルームを通り過ぎてベッドの
そばで止まって。
Vision-Language Navigation=人生
視覚と自然言語によるエージェントのナビゲーション
本日の論文
Vision-Language Navigation (VNL) タスクのために
• 局所的/大域的な移動パスのマッチング
• 未知環境下での自己教示模倣学習
→VNLタスクでState-of-the-art達成
CVPR 2019 Best Student Paper Award
CVPR 2019 読み会
Reinforced Cross-Modal Matching and
Self-Supervised Imitation Learning for
Vision-Language Navigation
牛久 祥孝
losnuevetoros
Room-to-Room (R2R) タスク
実体をもつエージェントが
• 言語によるインストラクション 𝜒 = 𝑥1, 𝑥2, … , 𝑥 𝑛 を受け
• 𝑡番目のカメラ位置𝑠𝑡に基づいて、シミュレータから
エージェントの見える光景 𝑣 𝑡,𝑗 𝑗=1
𝑚
(𝑚はカメラ角度)を受け
• 行動(移動)𝑎 𝑡を決定
「停止」を選ぶまで続ける
行動
インストラクション
ゴールまでの距離
・3m未満になったら成功
・エージェントは知らない数字
実世界3次元データセットの活用
• 他のRGBDデータだと…
– NYUv2, SUN RGB-D, ScanNet
– 動画像なのでパスの選択肢がほとんどない
• Matterport 3D [Chang+, 3DV 2017]
– 90の建造物で総計10,800点のパノラマRGBD画像を収集
– 各点で18方向のRGBD画像を収集→パノラマ化
– 平均2.25m間隔、人の目線の高さ、カメラポーズも記録
Matterport3D Simulator
観測データ
• 3次元位置
観測地点に量子化
• 水平/鉛直方向のカメラ角度
• 𝑡ステップ目のRGB画像(観測)
本来Matterport3DはDepth付きだが、今回はまずRGBのみ
エージェントの行動
• 視界の中から次の地点を選択したり
• カメラ角度を更新したり
Matterport3D Simulator のグラフ表現
各位置をノードとする重み付き無向グラフ
• 5m以上離れたエッジや障害物を挟むエッジは削除
• エッジが張られているノードのうち、現在の視界
に含まれるノードに移動
R2R データセット
Amazon Mechanical Turk で収集
• 7189経路を抽出
– 5m以上離れた2地点
→平均10m程度
– 最低4~6回移動
• 経路あたり3つずつの
インストラクションを
収集
– 平均29単語
(類似課題に比べて長め)
– 約3100語彙
(類似課題に比べて少量)
R2R データセット
Amazon Mechanical Turk で収集
• 7189経路を抽出
– 5m以上離れた2地点
→平均10m程度
– 最低4~6回移動
• 経路あたり3つずつの
インストラクションを
収集
– 平均29単語
(類似課題に比べて長め)
– 約3100語彙
(類似課題に比べて少量)
R2R データセット
Amazon Mechanical Turk で収集
• 7189経路を抽出
– 5m以上離れた2地点
→平均10m程度
– 最低4~6回移動
• 経路あたり3つずつの
インストラクションを
収集
– 平均29単語
(類似課題に比べて長め)
– 約3100語彙
(類似課題に比べて少量)
集められたインストラクションの例
• Pass the pool and go indoors
using the double glass doors.
Pass the large table with
chairs and turn left and wait
by the wine bottles that have
grapes by them.
• Go up the stairs and turn
right. Go past the bathroom
and stop next to the bed.
Speaker-Follower モデル
• データセット提案論文 [Anderson+, CVPR 2018]:
– 道順を聞いて動くエージェント (Follower) のみモデル
– Follower は正面の画像のみ見ている設定
• 本研究:
– 道順そのものを新たな経路から生成できるエージェント
(Speaker) を用意→訓練データを拡張
– Follower は360°画像を利用
[Fried+, NeurIPS 2018]
本論文の課題意識と解決策
局所的な移動パスの不安
画像と言語指示から推論を進めなければならない
• 指示と今の視覚的状況を結び付けないといけない
• 全体の移動経路と指示のマッチングも必要
Instruction
1. Turn right and head towards the kitchen.
2. Then turn left, pass a table and enter the hallway.
3. Walk down the hallway and turn into the entry
way to your right without doors.
4. Stop in front of the toilet.
Local visual scene
大域的な移動パスの不安
フィードバックが粗い
• 目的地の近くに到達したら成功
• Path Bは目的地の手前で止まったので失敗
• Path Cはランダムに動いているだけだが成功
→ 正解Path Aに対する類似性を用いるべきでは
未知の環境での移動に対する不安
未知の環境下だと既知の環境下の様に振舞えない
cf. [Tan+, NAACL 2019] ← arXiv 2019年4月公開
• 同様の動機からEnvironmental Dropoutを提案
• 実は本論文を少し上回る性能を達成している
(本論文のarXiv公開は2018年11月)
本研究の貢献点
• Reinforced Cross-Modal Matching (RCM)
– 局所的+大域的な移動パスの不安に対応
– Reasoning Navigator
各指示と周囲画像の局所的マッチング
– Matching Critic
指示全体と移動経路の大域的マッチング
• Self-Supervised Imitation Learning (SIL)
– 未知の環境での移動に対する不安に対応
– 既知環境のインストラクションによって
未知環境下でReplay Bufferを構築
→自己教示+模倣学習に利用
Reinforced Cross-Modal Matching
Reinforced Cross-Modal Matching
Cross-Modal Reasoning Navigator
インストラクション 𝒘𝒊 𝒊=𝟏
𝒏
と各時点𝒕での視覚情報(パノラマ
画像の各方向の視界の集合) 𝒗 𝒕,𝒋 𝒋=𝟏
𝒎
から行動𝒂 𝒕を計算したい
Cross-Modal Reasoning Navigator
1. パノラマ画像に𝑚個ある視点の画像に対して、履歴の文脈
ℎ 𝑡からアテンションを用いて画像特徴量𝑣 𝑡を算出
Cross-Modal Reasoning Navigator
2. 画像特徴量と直前の行動𝑎 𝑡−1をLSTMに入力してℎ 𝑡を更新
Cross-Modal Reasoning Navigator
3. 更新されたℎ 𝑡から、インストラクションの各単語 𝑤𝑖 𝑖=1
𝑛
の
アテンションを計算
→テキストの文脈ベクトル𝑐𝑡
𝑡𝑒𝑥𝑡
を算出
Cross-Modal Reasoning Navigator
4. テキストの文脈ベクトル𝑐𝑡
𝑡𝑒𝑥𝑡
からパノラマ画像に𝑚個ある
視点の画像に対するアテンションを計算
→画像の文脈ベクトル𝑐𝑡
𝑣𝑖𝑠𝑢𝑎𝑙
を算出
Cross-Modal Reasoning Navigator
5. 全文脈ベクトルℎ 𝑡, 𝑐𝑡
𝑡𝑒𝑥𝑡
, 𝑐𝑡
𝑣𝑖𝑠𝑢𝑎𝑙
と𝑘番目の方向へ移動する先
の画像および角度の正弦・余弦をつないだ𝑢 𝑘の双線形積
→行動𝑎 𝑡の決定
Reinforced Cross-Modal Matching
Reinforced Cross-Modal Matching
Cross-Modal Matching Critic
1. 移動パス𝜏 = 𝑠1, 𝑎1 , 𝑠2, 𝑎2 , … , 𝑠 𝑇, 𝑎 𝑇 をReasoning
Navigatorから算出
2. 移動パス𝜏からインストラクション𝜒の再構成を試みた
際の確率𝑅𝑖𝑛𝑡𝑟 = 𝑝 𝛽(𝜒|𝜏)をIntrinsic Rewardとして利用
なおIntrinsic Rewardに対してExtrinsic Reward 𝑅 𝑒𝑥𝑡𝑟は
• 時点𝑡→時点𝑡 + 1で目的地までの距離が縮んだ量𝑟 𝑠𝑡, 𝑎 𝑡
• 時点𝑇で目的地までの距離が一定以下なら1、それ以外は0
• 時点𝑡以降の𝑟𝑡(𝑠𝑡, 𝑎 𝑡)を減衰率𝛾を掛けながら𝑇まで足した和
の総和
Self-Supervised Imitation Learning
• 通常のVLN:既知環境で学習、未知環境で評価
• 本論文:既知環境で学習後、評価前に未知環境を探索(教
師データ無し)
1. 出発/目的地点のないインストラクション𝜒をサンプリング
2. Reasoning Navigator 𝝅 𝜽から𝐾本の経路を算出
3. Matching Critic 𝑉𝛽を最大にするパス 𝜏をReplay Bufferへ
4. Replay Bufferにあるデータを用いてNavigatorを更新
実験結果
実験設定
R2Rデータセットを利用
• 7189経路を抽出
• 4つに分割
– 既知&訓練データ+既知&検証データ
– 未知&検証データ+未知&評価データ
提案手法の学習方法
• 最初はアテンション付き翻訳モデルとして最尤推定による訓練
• 途中から提案するRCMとSILによる訓練に切り替え
評価指標
• PL: Path Length 生成パスの長さ
• NE: Navigation Error 生成パスの終点とゴールの間の長さ
• OSR: Oracle Success Rate パスがゴールの近くを通る確率
• SR: Success Rate パスがゴールの近くで止まる確率
• SPL: SR weighted by inverse PL PLの逆数で重みづけたSR
1. Turn right and head towards the kitchen.
2. Then turn left, pass a table and enter the
hallway.
3. Walk down the hallway and turn into the
entry way to your right without doors.
4. Stop in front of the toilet.
定量比較1
未知環境下での評価データによる比較
PL: Path Length
NE: Navigation Error
OSR: Oracle Success Rate
SR: Success Rate
SPL: SR weighted by inverse PL
定量比較1
未知環境下での評価データによる比較
PL: Path Length
NE: Navigation Error
OSR: Oracle Success Rate
SR: Success Rate
SPL: SR weighted by inverse PL
データセット提案論文から
• ランダムなパス
• アテンション付き翻訳モデル
定量比較1
未知環境下での評価データによる比較
PL: Path Length
NE: Navigation Error ()
OSR: Oracle Success Rate
SR: Success Rate
SPL: SR weighted by inverse PL
関連研究
• Spearker-Followerが今のSOTA
• beam searchは各時点のパスを複数蓄積
成功率(OSR, SR)が上昇するがPLも増大
定量比較1
未知環境下でのテストデータによる比較
PL: Path Length
NE: Navigation Error ()
OSR: Oracle Success Rate
SR: Success Rate
SPL: SR weighted by inverse PL
提案手法
• RCMとRCM+SIL (train) が関連研究と同条件(テストデータを見ないで学習)
SOTA達成 & 訓練データでの自己教示模倣学習(SIL)も効果アリ
• RCM+SIL (unseen) はテストデータを見るので条件が異なるが効果大
関連研究
• Spearker-Followerが今のSOTA
• beam searchは各時点のパスを複数蓄積
成功率(OSR, SR)が上昇するがPLも増大
定量比較2
既知環境/未知環境でのAblation Study
PL: Path Length
NE: Navigation Error ()
OSR: Oracle Success Rate
SR: Success Rate
定量比較2
既知環境/未知環境でのAblation Study
PL: Path Length
NE: Navigation Error ()
OSR: Oracle Success Rate
SR: Success Rate
関連研究 vs. 提案手法
• 同一条件下での比較
• 特に未知環境で提案手法の優位性を確認
定量比較2
既知環境/未知環境でのAblation Study
PL: Path Length
NE: Navigation Error ()
OSR: Oracle Success Rate
SR: Success Rate
SIL→𝑅𝑖𝑛𝑡𝑟→𝑅 𝑒𝑥𝑡𝑟→Navigatorの順に除去
• 5番目は単純なアテンション付き翻訳モデル
• 特に未知環境のSRで各モジュールが大事
定量比較2
既知環境/未知環境でのAblation Study
PL: Path Length
NE: Navigation Error ()
OSR: Oracle Success Rate
SR: Success Rate
SILを既知環境で実行 vs. 未知環境で実行
• 既知環境と未知環境の両方で精度が改善
• 特に既知環境と未知環境のギャップが縮小
実行結果1
• Exit the door and turn left towards the staircase.
• Walk all the way up the stairs, and stop at the top of the stairs.
実行結果1
• Exit the door and turn left towards the staircase.
• Walk all the way up the stairs, and stop at the top of the stairs.
実行結果1
• Exit the door and turn left towards the staircase.
• Walk all the way up the stairs, and stop at the top of the
stairs.
実行結果1
• Exit the door and turn left towards the staircase.
• Walk all the way up the stairs, and stop at the top of the
stairs.
実行結果1
• Exit the door and turn left towards the staircase.
• Walk all the way up the stairs, and stop at the top of the
stairs.
実行結果1
• Exit the door and turn left towards the staircase.
• Walk all the way up the stairs, and stop at the top of the
stairs.
Intrinsic Reward: 0.53 Result: Success (error = 0m)
実行結果2
• Turn right and go down the stairs.
• Turn left and go straight until you get to the laundry room.
• Wait there.
実行結果2
• Turn right and go down the stairs.
• Turn left and go straight until you get to the laundry room.
• Wait there.
実行結果2
• Turn right and go down the stairs.
• Turn left and go straight until you get to the laundry room.
• Wait there.
実行結果2
• Turn right and go down the stairs.
• Turn left and go straight until you get to the laundry room.
• Wait there.
実行結果2
• Turn right and go down the stairs.
• Turn left and go straight until you get to the laundry room.
• Wait there.
実行結果2
• Turn right and go down the stairs.
• Turn left and go straight until you get to the laundry room.
• Wait there.
Intrinsic Reward: 0.54 Result: Failure (error = 5.5m)
さっき見切れていた laundry room を見過ごしていた
まとめ
Vision-Language Navigation (VNL) のために
• Reinforced Cross-Modal Matching (RCM)
局所的/大域的な移動パスのマッチング
• Self-Supervised Imitation Learning (SIL)
未知環境下での自己教示模倣学習
CVPR 2019 Best Student Paper Award
• 同様の動機の論文でSOTA更新済み[Tan+, NAACL 2019]
• ただしこちらはBest Paperではない(よいこと)
さいごに
The 1st CVPR 2019 Workshop on Computer Vision After 5 Years
Cross-Modal Matching Criticも使っている
Cycle consistencyといえばコレ!
過去の後悔
Graphical Model: We should have never gone there!
ConvNets: We should have gone there earlier!
次の5年間の(CVの)ために
Potential Liabilities / Future Regrets に基づいて
選ばれたトピックの一つが
Vision + Language !!!
Vision + Language…?
For x = 0 to 99,
– CVPR 20xx: here is a great new Vision+Language
dataset everyone should use!!!
– CVPR 20xx+1: oops, nearest neighbors, blind
baselines bet everything…
たしかに。
ただEfros先生も
“Controversial, but love to be proven wrong!”
と言っているので頑張りましょう

Weitere ähnliche Inhalte

Was ist angesagt?

【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? 【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? Deep Learning JP
 
Transformer 動向調査 in 画像認識
Transformer 動向調査 in 画像認識Transformer 動向調査 in 画像認識
Transformer 動向調査 in 画像認識Kazuki Maeno
 
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)cvpaper. challenge
 
【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fields【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fieldscvpaper. challenge
 
20160724_cv_sfm_revisited
20160724_cv_sfm_revisited20160724_cv_sfm_revisited
20160724_cv_sfm_revisitedKyohei Unno
 
[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介
[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介
[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介Deep Learning JP
 
MIRU2020長尾賞受賞論文解説:Attention Branch Networkの展開
MIRU2020長尾賞受賞論文解説:Attention Branch Networkの展開MIRU2020長尾賞受賞論文解説:Attention Branch Networkの展開
MIRU2020長尾賞受賞論文解説:Attention Branch Networkの展開Hironobu Fujiyoshi
 
三次元点群を取り扱うニューラルネットワークのサーベイ
三次元点群を取り扱うニューラルネットワークのサーベイ三次元点群を取り扱うニューラルネットワークのサーベイ
三次元点群を取り扱うニューラルネットワークのサーベイNaoya Chiba
 
StyleGAN解説 CVPR2019読み会@DeNA
StyleGAN解説 CVPR2019読み会@DeNAStyleGAN解説 CVPR2019読み会@DeNA
StyleGAN解説 CVPR2019読み会@DeNAKento Doi
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Yusuke Uchida
 
リクルート式 自然言語処理技術の適応事例紹介
リクルート式 自然言語処理技術の適応事例紹介リクルート式 自然言語処理技術の適応事例紹介
リクルート式 自然言語処理技術の適応事例紹介Recruit Technologies
 
Devil is in the Edges: Learning Semantic Boundaries from Noisy Annotations
Devil is in the Edges: Learning Semantic Boundaries from Noisy AnnotationsDevil is in the Edges: Learning Semantic Boundaries from Noisy Annotations
Devil is in the Edges: Learning Semantic Boundaries from Noisy AnnotationsKazuyuki Miyazawa
 
論文紹介「PointNetLK: Robust & Efficient Point Cloud Registration Using PointNet」
論文紹介「PointNetLK: Robust & Efficient Point Cloud Registration Using PointNet」論文紹介「PointNetLK: Robust & Efficient Point Cloud Registration Using PointNet」
論文紹介「PointNetLK: Robust & Efficient Point Cloud Registration Using PointNet」Naoya Chiba
 
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked AutoencodersDeep Learning JP
 
深層学習時代の自然言語処理
深層学習時代の自然言語処理深層学習時代の自然言語処理
深層学習時代の自然言語処理Yuya Unno
 
Transformer メタサーベイ
Transformer メタサーベイTransformer メタサーベイ
Transformer メタサーベイcvpaper. challenge
 
深層学習によるHuman Pose Estimationの基礎
深層学習によるHuman Pose Estimationの基礎深層学習によるHuman Pose Estimationの基礎
深層学習によるHuman Pose Estimationの基礎Takumi Ohkuma
 
【DL輪読会】SDEdit: Guided Image Synthesis and Editing with Stochastic Differentia...
【DL輪読会】SDEdit: Guided Image Synthesis and Editing with Stochastic Differentia...【DL輪読会】SDEdit: Guided Image Synthesis and Editing with Stochastic Differentia...
【DL輪読会】SDEdit: Guided Image Synthesis and Editing with Stochastic Differentia...Deep Learning JP
 

Was ist angesagt? (20)

【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? 【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
 
Transformer 動向調査 in 画像認識
Transformer 動向調査 in 画像認識Transformer 動向調査 in 画像認識
Transformer 動向調査 in 画像認識
 
研究効率化Tips Ver.2
研究効率化Tips Ver.2研究効率化Tips Ver.2
研究効率化Tips Ver.2
 
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)
 
【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fields【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fields
 
20160724_cv_sfm_revisited
20160724_cv_sfm_revisited20160724_cv_sfm_revisited
20160724_cv_sfm_revisited
 
[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介
[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介
[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介
 
MIRU2020長尾賞受賞論文解説:Attention Branch Networkの展開
MIRU2020長尾賞受賞論文解説:Attention Branch Networkの展開MIRU2020長尾賞受賞論文解説:Attention Branch Networkの展開
MIRU2020長尾賞受賞論文解説:Attention Branch Networkの展開
 
三次元点群を取り扱うニューラルネットワークのサーベイ
三次元点群を取り扱うニューラルネットワークのサーベイ三次元点群を取り扱うニューラルネットワークのサーベイ
三次元点群を取り扱うニューラルネットワークのサーベイ
 
StyleGAN解説 CVPR2019読み会@DeNA
StyleGAN解説 CVPR2019読み会@DeNAStyleGAN解説 CVPR2019読み会@DeNA
StyleGAN解説 CVPR2019読み会@DeNA
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
 
リクルート式 自然言語処理技術の適応事例紹介
リクルート式 自然言語処理技術の適応事例紹介リクルート式 自然言語処理技術の適応事例紹介
リクルート式 自然言語処理技術の適応事例紹介
 
Devil is in the Edges: Learning Semantic Boundaries from Noisy Annotations
Devil is in the Edges: Learning Semantic Boundaries from Noisy AnnotationsDevil is in the Edges: Learning Semantic Boundaries from Noisy Annotations
Devil is in the Edges: Learning Semantic Boundaries from Noisy Annotations
 
論文紹介「PointNetLK: Robust & Efficient Point Cloud Registration Using PointNet」
論文紹介「PointNetLK: Robust & Efficient Point Cloud Registration Using PointNet」論文紹介「PointNetLK: Robust & Efficient Point Cloud Registration Using PointNet」
論文紹介「PointNetLK: Robust & Efficient Point Cloud Registration Using PointNet」
 
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
 
20210711 deepI2P
20210711 deepI2P20210711 deepI2P
20210711 deepI2P
 
深層学習時代の自然言語処理
深層学習時代の自然言語処理深層学習時代の自然言語処理
深層学習時代の自然言語処理
 
Transformer メタサーベイ
Transformer メタサーベイTransformer メタサーベイ
Transformer メタサーベイ
 
深層学習によるHuman Pose Estimationの基礎
深層学習によるHuman Pose Estimationの基礎深層学習によるHuman Pose Estimationの基礎
深層学習によるHuman Pose Estimationの基礎
 
【DL輪読会】SDEdit: Guided Image Synthesis and Editing with Stochastic Differentia...
【DL輪読会】SDEdit: Guided Image Synthesis and Editing with Stochastic Differentia...【DL輪読会】SDEdit: Guided Image Synthesis and Editing with Stochastic Differentia...
【DL輪読会】SDEdit: Guided Image Synthesis and Editing with Stochastic Differentia...
 

Ähnlich wie Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vision-Language Navigation(関東CV勉強会 CVPR 2019 読み会)

CVPR2016 reading - 特徴量学習とクロスモーダル転移について
CVPR2016 reading - 特徴量学習とクロスモーダル転移についてCVPR2016 reading - 特徴量学習とクロスモーダル転移について
CVPR2016 reading - 特徴量学習とクロスモーダル転移についてAkisato Kimura
 
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...cvpaper. challenge
 
【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2Hirokatsu Kataoka
 
Jubatusにおける大規模分散オンライン機械学習
Jubatusにおける大規模分散オンライン機械学習Jubatusにおける大規模分散オンライン機械学習
Jubatusにおける大規模分散オンライン機械学習Preferred Networks
 
論文紹介 LexToMap: lexical-based topological mapping
論文紹介 LexToMap: lexical-based topological mapping論文紹介 LexToMap: lexical-based topological mapping
論文紹介 LexToMap: lexical-based topological mappingAkira Taniguchi
 
Sequence Level Training with Recurrent Neural Networks (関東CV勉強会 強化学習論文読み会)
Sequence Level Training with Recurrent Neural Networks (関東CV勉強会 強化学習論文読み会)Sequence Level Training with Recurrent Neural Networks (関東CV勉強会 強化学習論文読み会)
Sequence Level Training with Recurrent Neural Networks (関東CV勉強会 強化学習論文読み会)Yoshitaka Ushiku
 
東工大長谷川修研紹介 2011 (8月1日版)
東工大長谷川修研紹介 2011 (8月1日版)東工大長谷川修研紹介 2011 (8月1日版)
東工大長谷川修研紹介 2011 (8月1日版)SOINN Inc.
 
CVPR2018 参加報告(速報版)初日
CVPR2018 参加報告(速報版)初日CVPR2018 参加報告(速報版)初日
CVPR2018 参加報告(速報版)初日Atsushi Hashimoto
 
Leveraging Visual Question Answering for Image-Caption Ranking (関東CV勉強会 ECCV ...
Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV ...Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV ...
Leveraging Visual Question Answering for Image-Caption Ranking (関東CV勉強会 ECCV ...Yoshitaka Ushiku
 
Women Also Snowboard: Overcoming Bias in Captioning Models(関東CV勉強会 ECCV 2018 ...
Women Also Snowboard: Overcoming Bias in Captioning Models(関東CV勉強会 ECCV 2018 ...Women Also Snowboard: Overcoming Bias in Captioning Models(関東CV勉強会 ECCV 2018 ...
Women Also Snowboard: Overcoming Bias in Captioning Models(関東CV勉強会 ECCV 2018 ...Yoshitaka Ushiku
 
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View SynthesisDeep Learning JP
 
[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...
[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...
[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...Deep Learning JP
 
東工大 長谷川修研の環境学習・認識・探索技術
東工大 長谷川修研の環境学習・認識・探索技術東工大 長谷川修研の環境学習・認識・探索技術
東工大 長谷川修研の環境学習・認識・探索技術SOINN Inc.
 
画像認識と深層学習
画像認識と深層学習画像認識と深層学習
画像認識と深層学習Yusuke Uchida
 
SSII2019企画: 画像および LiDAR を用いた自動走行に関する動向
SSII2019企画: 画像および LiDAR を用いた自動走行に関する動向SSII2019企画: 画像および LiDAR を用いた自動走行に関する動向
SSII2019企画: 画像および LiDAR を用いた自動走行に関する動向SSII
 
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View SynthesisKento Doi
 
Deep learning勉強会20121214ochi
Deep learning勉強会20121214ochiDeep learning勉強会20121214ochi
Deep learning勉強会20121214ochiOhsawa Goodfellow
 
CVPR2019 読み会「Understanding the Limitations of CNN-based Absolute Camera Pose ...
CVPR2019 読み会「Understanding the Limitations of CNN-based Absolute Camera Pose ...CVPR2019 読み会「Understanding the Limitations of CNN-based Absolute Camera Pose ...
CVPR2019 読み会「Understanding the Limitations of CNN-based Absolute Camera Pose ...Sho Kagami
 

Ähnlich wie Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vision-Language Navigation(関東CV勉強会 CVPR 2019 読み会) (20)

CVPR2016 reading - 特徴量学習とクロスモーダル転移について
CVPR2016 reading - 特徴量学習とクロスモーダル転移についてCVPR2016 reading - 特徴量学習とクロスモーダル転移について
CVPR2016 reading - 特徴量学習とクロスモーダル転移について
 
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
 
【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2
 
Jubatusにおける大規模分散オンライン機械学習
Jubatusにおける大規模分散オンライン機械学習Jubatusにおける大規模分散オンライン機械学習
Jubatusにおける大規模分散オンライン機械学習
 
論文紹介 LexToMap: lexical-based topological mapping
論文紹介 LexToMap: lexical-based topological mapping論文紹介 LexToMap: lexical-based topological mapping
論文紹介 LexToMap: lexical-based topological mapping
 
Sequence Level Training with Recurrent Neural Networks (関東CV勉強会 強化学習論文読み会)
Sequence Level Training with Recurrent Neural Networks (関東CV勉強会 強化学習論文読み会)Sequence Level Training with Recurrent Neural Networks (関東CV勉強会 強化学習論文読み会)
Sequence Level Training with Recurrent Neural Networks (関東CV勉強会 強化学習論文読み会)
 
東工大長谷川修研紹介 2011 (8月1日版)
東工大長谷川修研紹介 2011 (8月1日版)東工大長谷川修研紹介 2011 (8月1日版)
東工大長谷川修研紹介 2011 (8月1日版)
 
CVPR2018 参加報告(速報版)初日
CVPR2018 参加報告(速報版)初日CVPR2018 参加報告(速報版)初日
CVPR2018 参加報告(速報版)初日
 
Leveraging Visual Question Answering for Image-Caption Ranking (関東CV勉強会 ECCV ...
Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV ...Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV ...
Leveraging Visual Question Answering for Image-Caption Ranking (関東CV勉強会 ECCV ...
 
Eccv2018 report day3
Eccv2018 report day3Eccv2018 report day3
Eccv2018 report day3
 
Women Also Snowboard: Overcoming Bias in Captioning Models(関東CV勉強会 ECCV 2018 ...
Women Also Snowboard: Overcoming Bias in Captioning Models(関東CV勉強会 ECCV 2018 ...Women Also Snowboard: Overcoming Bias in Captioning Models(関東CV勉強会 ECCV 2018 ...
Women Also Snowboard: Overcoming Bias in Captioning Models(関東CV勉強会 ECCV 2018 ...
 
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
 
[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...
[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...
[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...
 
東工大 長谷川修研の環境学習・認識・探索技術
東工大 長谷川修研の環境学習・認識・探索技術東工大 長谷川修研の環境学習・認識・探索技術
東工大 長谷川修研の環境学習・認識・探索技術
 
画像認識と深層学習
画像認識と深層学習画像認識と深層学習
画像認識と深層学習
 
SSII2019企画: 画像および LiDAR を用いた自動走行に関する動向
SSII2019企画: 画像および LiDAR を用いた自動走行に関する動向SSII2019企画: 画像および LiDAR を用いた自動走行に関する動向
SSII2019企画: 画像および LiDAR を用いた自動走行に関する動向
 
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
 
Deep learning勉強会20121214ochi
Deep learning勉強会20121214ochiDeep learning勉強会20121214ochi
Deep learning勉強会20121214ochi
 
CVPR2019 読み会「Understanding the Limitations of CNN-based Absolute Camera Pose ...
CVPR2019 読み会「Understanding the Limitations of CNN-based Absolute Camera Pose ...CVPR2019 読み会「Understanding the Limitations of CNN-based Absolute Camera Pose ...
CVPR2019 読み会「Understanding the Limitations of CNN-based Absolute Camera Pose ...
 
Eccv2018 report day2
Eccv2018 report day2Eccv2018 report day2
Eccv2018 report day2
 

Mehr von Yoshitaka Ushiku

機械学習を民主化する取り組み
機械学習を民主化する取り組み機械学習を民主化する取り組み
機械学習を民主化する取り組みYoshitaka Ushiku
 
ドメイン適応の原理と応用
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用Yoshitaka Ushiku
 
これからの Vision & Language ~ Acadexit した4つの理由
これからの Vision & Language ~ Acadexit した4つの理由これからの Vision & Language ~ Acadexit した4つの理由
これからの Vision & Language ~ Acadexit した4つの理由Yoshitaka Ushiku
 
Learning Cooperative Visual Dialog with Deep Reinforcement Learning(関東CV勉強会 I...
Learning Cooperative Visual Dialog with Deep Reinforcement Learning(関東CV勉強会 I...Learning Cooperative Visual Dialog with Deep Reinforcement Learning(関東CV勉強会 I...
Learning Cooperative Visual Dialog with Deep Reinforcement Learning(関東CV勉強会 I...Yoshitaka Ushiku
 
Frontiers of Vision and Language: Bridging Images and Texts by Deep Learning
Frontiers of Vision and Language: Bridging Images and Texts by Deep LearningFrontiers of Vision and Language: Bridging Images and Texts by Deep Learning
Frontiers of Vision and Language: Bridging Images and Texts by Deep LearningYoshitaka Ushiku
 
今後のPRMU研究会を考える
今後のPRMU研究会を考える今後のPRMU研究会を考える
今後のPRMU研究会を考えるYoshitaka Ushiku
 
Self-Critical Sequence Training for Image Captioning (関東CV勉強会 CVPR 2017 読み会)
Self-Critical Sequence Training for Image Captioning (関東CV勉強会 CVPR 2017 読み会)Self-Critical Sequence Training for Image Captioning (関東CV勉強会 CVPR 2017 読み会)
Self-Critical Sequence Training for Image Captioning (関東CV勉強会 CVPR 2017 読み会)Yoshitaka Ushiku
 
Asymmetric Tri-training for Unsupervised Domain Adaptation
Asymmetric Tri-training for Unsupervised Domain AdaptationAsymmetric Tri-training for Unsupervised Domain Adaptation
Asymmetric Tri-training for Unsupervised Domain AdaptationYoshitaka Ushiku
 
Recognize, Describe, and Generate: Introduction of Recent Work at MIL
Recognize, Describe, and Generate: Introduction of Recent Work at MILRecognize, Describe, and Generate: Introduction of Recent Work at MIL
Recognize, Describe, and Generate: Introduction of Recent Work at MILYoshitaka Ushiku
 
Deep Learning による視覚×言語融合の最前線
Deep Learning による視覚×言語融合の最前線Deep Learning による視覚×言語融合の最前線
Deep Learning による視覚×言語融合の最前線Yoshitaka Ushiku
 
We Are Humor Beings: Understanding and Predicting Visual Humor (関東CV勉強会 CVPR ...
We Are Humor Beings: Understanding and Predicting Visual Humor (関東CV勉強会 CVPR ...We Are Humor Beings: Understanding and Predicting Visual Humor (関東CV勉強会 CVPR ...
We Are Humor Beings: Understanding and Predicting Visual Humor (関東CV勉強会 CVPR ...Yoshitaka Ushiku
 
ごあいさつ 或いはMATLAB教徒がPythonistaに改宗した話 (関東CV勉強会)
ごあいさつ 或いはMATLAB教徒がPythonistaに改宗した話 (関東CV勉強会)ごあいさつ 或いはMATLAB教徒がPythonistaに改宗した話 (関東CV勉強会)
ごあいさつ 或いはMATLAB教徒がPythonistaに改宗した話 (関東CV勉強会)Yoshitaka Ushiku
 
Generating Notifications for Missing Actions: Don’t forget to turn the lights...
Generating Notifications for Missing Actions:Don’t forget to turn the lights...Generating Notifications for Missing Actions:Don’t forget to turn the lights...
Generating Notifications for Missing Actions: Don’t forget to turn the lights...Yoshitaka Ushiku
 
Unsupervised Object Discovery and Localization in the Wild: Part-Based Match...
Unsupervised Object Discovery and Localization in the Wild:Part-Based Match...Unsupervised Object Discovery and Localization in the Wild:Part-Based Match...
Unsupervised Object Discovery and Localization in the Wild: Part-Based Match...Yoshitaka Ushiku
 
CVPR 2015 論文紹介(NTT研究所内勉強会用資料)
CVPR 2015 論文紹介(NTT研究所内勉強会用資料)CVPR 2015 論文紹介(NTT研究所内勉強会用資料)
CVPR 2015 論文紹介(NTT研究所内勉強会用資料)Yoshitaka Ushiku
 
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Yoshitaka Ushiku
 

Mehr von Yoshitaka Ushiku (16)

機械学習を民主化する取り組み
機械学習を民主化する取り組み機械学習を民主化する取り組み
機械学習を民主化する取り組み
 
ドメイン適応の原理と応用
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用
 
これからの Vision & Language ~ Acadexit した4つの理由
これからの Vision & Language ~ Acadexit した4つの理由これからの Vision & Language ~ Acadexit した4つの理由
これからの Vision & Language ~ Acadexit した4つの理由
 
Learning Cooperative Visual Dialog with Deep Reinforcement Learning(関東CV勉強会 I...
Learning Cooperative Visual Dialog with Deep Reinforcement Learning(関東CV勉強会 I...Learning Cooperative Visual Dialog with Deep Reinforcement Learning(関東CV勉強会 I...
Learning Cooperative Visual Dialog with Deep Reinforcement Learning(関東CV勉強会 I...
 
Frontiers of Vision and Language: Bridging Images and Texts by Deep Learning
Frontiers of Vision and Language: Bridging Images and Texts by Deep LearningFrontiers of Vision and Language: Bridging Images and Texts by Deep Learning
Frontiers of Vision and Language: Bridging Images and Texts by Deep Learning
 
今後のPRMU研究会を考える
今後のPRMU研究会を考える今後のPRMU研究会を考える
今後のPRMU研究会を考える
 
Self-Critical Sequence Training for Image Captioning (関東CV勉強会 CVPR 2017 読み会)
Self-Critical Sequence Training for Image Captioning (関東CV勉強会 CVPR 2017 読み会)Self-Critical Sequence Training for Image Captioning (関東CV勉強会 CVPR 2017 読み会)
Self-Critical Sequence Training for Image Captioning (関東CV勉強会 CVPR 2017 読み会)
 
Asymmetric Tri-training for Unsupervised Domain Adaptation
Asymmetric Tri-training for Unsupervised Domain AdaptationAsymmetric Tri-training for Unsupervised Domain Adaptation
Asymmetric Tri-training for Unsupervised Domain Adaptation
 
Recognize, Describe, and Generate: Introduction of Recent Work at MIL
Recognize, Describe, and Generate: Introduction of Recent Work at MILRecognize, Describe, and Generate: Introduction of Recent Work at MIL
Recognize, Describe, and Generate: Introduction of Recent Work at MIL
 
Deep Learning による視覚×言語融合の最前線
Deep Learning による視覚×言語融合の最前線Deep Learning による視覚×言語融合の最前線
Deep Learning による視覚×言語融合の最前線
 
We Are Humor Beings: Understanding and Predicting Visual Humor (関東CV勉強会 CVPR ...
We Are Humor Beings: Understanding and Predicting Visual Humor (関東CV勉強会 CVPR ...We Are Humor Beings: Understanding and Predicting Visual Humor (関東CV勉強会 CVPR ...
We Are Humor Beings: Understanding and Predicting Visual Humor (関東CV勉強会 CVPR ...
 
ごあいさつ 或いはMATLAB教徒がPythonistaに改宗した話 (関東CV勉強会)
ごあいさつ 或いはMATLAB教徒がPythonistaに改宗した話 (関東CV勉強会)ごあいさつ 或いはMATLAB教徒がPythonistaに改宗した話 (関東CV勉強会)
ごあいさつ 或いはMATLAB教徒がPythonistaに改宗した話 (関東CV勉強会)
 
Generating Notifications for Missing Actions: Don’t forget to turn the lights...
Generating Notifications for Missing Actions:Don’t forget to turn the lights...Generating Notifications for Missing Actions:Don’t forget to turn the lights...
Generating Notifications for Missing Actions: Don’t forget to turn the lights...
 
Unsupervised Object Discovery and Localization in the Wild: Part-Based Match...
Unsupervised Object Discovery and Localization in the Wild:Part-Based Match...Unsupervised Object Discovery and Localization in the Wild:Part-Based Match...
Unsupervised Object Discovery and Localization in the Wild: Part-Based Match...
 
CVPR 2015 論文紹介(NTT研究所内勉強会用資料)
CVPR 2015 論文紹介(NTT研究所内勉強会用資料)CVPR 2015 論文紹介(NTT研究所内勉強会用資料)
CVPR 2015 論文紹介(NTT研究所内勉強会用資料)
 
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
 

Kürzlich hochgeladen

SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものですiPride Co., Ltd.
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムsugiuralab
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdftaisei2219
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略Ryo Sasaki
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNetToru Tamaki
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A surveyToru Tamaki
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Yuma Ohgami
 
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Danieldanielhu54
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...Toru Tamaki
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)Hiroki Ichikura
 

Kürzlich hochgeladen (10)

SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
 
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Daniel
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
 

Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vision-Language Navigation(関東CV勉強会 CVPR 2019 読み会)