Diese Präsentation wurde erfolgreich gemeldet.
Wir verwenden Ihre LinkedIn Profilangaben und Informationen zu Ihren Aktivitäten, um Anzeigen zu personalisieren und Ihnen relevantere Inhalte anzuzeigen. Sie können Ihre Anzeigeneinstellungen jederzeit ändern.
CVPR 2018 読み会
Vision-and-Language Navigation:
Interpreting visually-grounded
navigation instructions in real environments
...
牛久 祥孝
losnuevetoros
CVPR 2018 読み会
Preclosing
自己紹介
2014.4 博士(情報理工学)、東京大学
2014.4~2016.3 NTT CS研 研究員
2016.4~ 東京大学 講師 (原田・牛久研究室)
2016.9~ 産業技術総合研究所 協力研究員
2016.12~ 国立国語研究所 共...
宣伝
OMRON SINIC X では Researcher+Engineer を募集中です!!
Jiaxin Ma
栗原 聡
(慶應大)
橋本 敦史
Felix von Drigalski
片岡 裕雄
(産総研)
米谷 竜
(東大)
諏訪 正...
お礼
お願い
• 関東CV幹事(会場係)として
– 会議室をご提供いただける企業様を募集中です!
• その他のスポンサーも大歓迎です!
– 茶菓、懇親会etc.
CVPR読み会 後編@CyberAgent アクセス
渋谷プライムプラザで行います
涼しいお勧めルートをご案内!
暑いのに外歩くの?
しかも道玄坂をのぼるの?
CVPR読み会 後編@CyberAgent アクセス
• 井の頭線渋谷駅の改札へ
向かう道を進みます。
• 改札への道を右手に見ながらエス
カレーターを上がります。
• 少し道なりに進むとまたエスカ
レーターがあるので、4階に上がり
ます。
•...
CVPR読み会 後編@CyberAgent アクセス
• 井の頭線渋谷駅の改札へ向かう道
を進みます。
• 改札への道を右手に見な
がらエスカレーターを上
がります。
• 少し道なりに進むとまたエスカ
レーターがあるので、4階に上がり
ます。
...
CVPR読み会 後編@CyberAgent アクセス
• 井の頭線渋谷駅の改札へ向かう道
を進みます。
• 改札への道を右手に見ながらエス
カレーターを上がります。
• 少し道なりに進むとまた
エスカレーターがあるの
で、4階に上がります。
•...
CVPR読み会 後編@CyberAgent アクセス
• 井の頭線渋谷駅の改札へ向かう道
を進みます。
• 改札への道を右手に見ながらエス
カレーターを上がります。
• 少し道なりに進むとまた
エスカレーターがあるの
で、4階に上がります。
•...
CVPR読み会 後編@CyberAgent アクセス
• 井の頭線渋谷駅の改札へ向かう道
を進みます。
• 改札への道を右手に見ながらエス
カレーターを上がります。
• 少し道なりに進むとまたエスカ
レーターがあるので、4階に上がり
ます。
•...
CVPR読み会 後編@CyberAgent アクセス
• 井の頭線渋谷駅の改札へ向かう道
を進みます。
• 改札への道を右手に見ながらエス
カレーターを上がります。
• 少し道なりに進むとまたエスカ
レーターがあるので、4階に上がり
ます。
•...
CVPR読み会 後編@CyberAgent アクセス
• 井の頭線渋谷駅の改札へ向かう道
を進みます。
• 改札への道を右手に見ながらエス
カレーターを上がります。
• 少し道なりに進むとまたエスカ
レーターがあるので、4階に上がり
ます。
•...
CVPR読み会 後編@CyberAgent アクセス
• 井の頭線渋谷駅の改札へ向かう道
を進みます。
• 改札への道を右手に見ながらエス
カレーターを上がります。
• 少し道なりに進むとまたエスカ
レーターがあるので、4階に上がり
ます。
•...
CVPR読み会 後編@CyberAgent アクセス
• 井の頭線渋谷駅の改札へ向かう道
を進みます。
• 改札への道を右手に見ながらエス
カレーターを上がります。
• 少し道なりに進むとまたエスカ
レーターがあるので、4階に上がり
ます。
•...
CVPR読み会 後編@CyberAgent アクセス
• 井の頭線渋谷駅の改札へ向かう道
を進みます。
• 改札への道を右手に見ながらエス
カレーターを上がります。
• 少し道なりに進むとまたエスカ
レーターがあるので、4階に上がり
ます。
•...
CVPR読み会 後編@CyberAgent アクセス
• 井の頭線渋谷駅の改札へ向かう道
を進みます。
• 改札への道を右手に見ながらエス
カレーターを上がります。
• 少し道なりに進むとまたエスカ
レーターがあるので、4階に上がり
ます。
•...
本日の論文
Vision-and-Language Navigation: Interpreting visually-grounded
navigation instructions in real environments
実世界の建物シミ...
牛久 祥孝
losnuevetoros
CVPR 2018 読み会
Preclosing
牛久 祥孝
losnuevetoros
CVPR 2018 読み会
Preclosing
という名の枕でした
CVPR 2018 読み会
Vision-and-Language Navigation:
Interpreting visually-grounded
navigation instructions in real environments
...
Contributions
1. Matterport3D Simulator
– 既存の Matterport3D [Chang+, 3DV 2017] データセット
で強化学習を遂行するためのフレームワーク
2. Room-to-Room ...
よくある3次元強化学習環境:人工データ
DeepMind Lab [Beattie+, 2016]ViZDoom [Kempka+, CIG 2016]
AI2-THOR [Kolve+, 2017] CHALET [Yan+, 2018]
H...
実世界3次元データセットの活用
• Matterport 3D [Chang+, 3DV 2017]
– 90の建造物で総計10,800点のパノラマRGBD画像を収集
– 各点で18方向のRGBD画像を収集→パノラマ化
– 平均2.25m間隔、...
Matterport3D Simulator
観測データ
• 3次元位置𝒗 ∈ 𝑉
観測地点に量子化
• 水平/鉛直方向のカメラ角度𝜓、𝜃
• 𝑡ステップ目のRGB画像(観測)𝑜𝑡
本来Matterport3DはDepth付きだが、今回はまずR...
Matterport3D Simulator のグラフ表現
各位置𝒗をノードとする重み付き無向グラフ
• 5m以上離れたエッジや障害物を挟むエッジは削除
• エッジが張られているノードのうち、現在の視界
に含まれるノードに移動
Room-to-Room (R2R) タスク
実体をもつエージェントが
• 言語によるインストラクション 𝑥 = 𝑥1, 𝑥2, … , 𝑥 𝐿 を受け
• 𝑡番目のカメラパラメータ 𝑣 𝑡, 𝜓 𝑡, 𝜃𝑡に基づいて、
シミュレータからエージ...
R2R データセット
Amazon Mechanical Turk で収集
• 7189経路を抽出
– 5m以上離れた2地点
→平均10m程度
– 最低4~6回移動
• 経路あたり3つずつの
インストラクションを
収集
– 平均29単語
(類似...
R2R データセット
Amazon Mechanical Turk で収集
• 7189経路を抽出
– 5m以上離れた2地点
→平均10m程度
– 最低4~6回移動
• 経路あたり3つずつの
インストラクションを
収集
– 平均29単語
(類似...
R2R データセット
Amazon Mechanical Turk で収集
• 7189経路を抽出
– 5m以上離れた2地点
→平均10m程度
– 最低4~6回移動
• 経路あたり3つずつの
インストラクションを
収集
– 平均29単語
(類似...
集められたインストラクションの例
• Pass the pool and go indoors
using the double glass doors.
Pass the large table with
chairs and turn le...
頻出単語マップ
• 先頭4単語ずつ
中心から外へ並ぶ
• 円弧が割合
白い部分は細か
すぎるので省略
R2R データセットの分割
• Train データ
– 61の建造物の14,025インストラクション
• Val Seen データ
– Trainと同じ61の建造物の1020インストラクション
• Val Unseen データ
– 上記と違う1...
ベースライン
• Vision-and-Language Navigation (VLN) は文と画
像を入力して系列を出力する問題
– Visual Question Answering (VQA) も同じでは?
→著者「入力画像が時々刻々で...
ベースライン
• Vision-and-Language Navigation (VLN) は文と画
像を入力して系列を出力する問題
– Visual Question Answering (VQA) も同じでは?
→著者「入力画像が時々刻々で...
Sequence-to-Sequence
• Encoderに単語を一つずつ入力して隠れ変数𝒉を
計算する
• 隠れ変数を𝒉 としたDecoderに<EOS>を入力して
1単語目を獲得
• <EOS>が出るまで、𝑛 − 1番目の単語を入力して
...
Sequence-to-Sequence
• Encoderに単語を一つずつ入力して隠れ変数𝒉を
計算する
• 隠れ変数を𝒉 としたDecoderに<EOS>を入力して
1単語目を獲得
• <EOS>が出るまで、𝑛 − 1番目の単語を入力して
...
アテンションを用いた機械翻訳
• 元の Sequence-to-Sequenceは…
– 一旦EncodeしたらあとはDecoderに任せる
– 長い文は扱えないのでは
• 双方向RNNとアテンションの利用
[Bahdanau+, ICLR 2...
Sequence-to-Sequence with Attention
[Luong+, EMNLP 2015]
学習するべきパラメータ
• 大域的アテンション
– 𝑡番目の隠れ変数を仮決め 𝒉 𝑡 = LSTM(𝒉 𝑡−1)
– 入力文のどこ...
Sequence-to-Sequence with Attention
• 局所的アテンション(参考)
– 隠れ変数𝒉 𝑡から、アテンションをあてる位置𝑝𝑡を計算
𝑝𝑡 = 𝑆 ⋅ sigmoid 𝒗 𝑝
⊤tanh 𝑊𝑝 𝒉 𝑡
– 𝑝𝑡を中...
更なる問題:Exposure Bias
通常のRNNによる系列生成モデル学習では…
• 学習時:Teacher forcing
– 入力は𝑡 − 1番目までの
教師データ
• テスト時:Free running
– 入力は𝑡 − 1番目までで
...
解決策:Student Forcing
Scheduled Sampling [Venkatraman+, AAAI 2015]
• 毎回コイントスして
– 教師系列から次を推定
– 生成中の系列から次を推定
のどちらかを選ぶ
• 次第に生成中...
実験結果(学習の進行比較)
手法: Teacher-forcing vs. Student-forcing
データセット: Train, Val Seen, Val Unseen
Trainでは学習が進んでもVal Unseenでは停滞
• 建...
実験結果(ゴールまでの最終距離比較)
Student-forcingで3m未満までの到達率が向上
実験結果(精度比較)
• Val Seen と Val Unseen
– Oracle Success: 一番ゴールに近い点で強制終了
– (Success: 「停止」をエージェントが選ぶまで続行)
• 精度としても Student-forci...
実験結果(精度比較)
• Test Unseenで比較
• Teacher-forcingの代わりにHumanを導入
Amazon Mechanical Turk で人にインストラクションを
頼りに行動してもらった結果
• 人はずっと精度よくゴ...
まとめ
Vision-and-Language Navigation 問題を提議
1. Matterport3D Simulator の実装と公開
2. Room-to-Room (R2R) dataset の収集と公開
3. Seq2seq-...
所感
魅力的な新問題とデータセットの提供、十分な実験
• 著者「視覚のアテンションの利用は将来課題」
• 著者の別のCVPR2018論文
– 画像キャプション生成
– Visual Question Answering
に使える新規アテンション...
ぜひご参加ご検討ください!
https://sites.google.com/view/miru2018sapporo/
早期登録受付中
Vision-and-Language Navigation: Interpreting visually-grounded navigation instructions in real environments(関東CV勉強会 CVPR 2...
Nächste SlideShare
Wird geladen in …5
×

Vision-and-Language Navigation: Interpreting visually-grounded navigation instructions in real environments(関東CV勉強会 CVPR 2018 読み会)

1.397 Aufrufe

Veröffentlicht am

言葉で道案内を受けたら人間は目的地まで辿り着ける(ことが多い)ですが、現在のロボット(いわゆる人工知能)だとどうか。
CVとNLPとRoboticsの交点が広がりつつあるので読みました。

Veröffentlicht in: Technologie
  • Als Erste(r) kommentieren

Vision-and-Language Navigation: Interpreting visually-grounded navigation instructions in real environments(関東CV勉強会 CVPR 2018 読み会)

  1. 1. CVPR 2018 読み会 Vision-and-Language Navigation: Interpreting visually-grounded navigation instructions in real environments 牛久 祥孝 losnuevetoros
  2. 2. 牛久 祥孝 losnuevetoros CVPR 2018 読み会 Preclosing
  3. 3. 自己紹介 2014.4 博士(情報理工学)、東京大学 2014.4~2016.3 NTT CS研 研究員 2016.4~ 東京大学 講師 (原田・牛久研究室) 2016.9~ 産業技術総合研究所 協力研究員 2016.12~ 国立国語研究所 共同研究員 2018.4~ オムロンサイニックエックス株式会社 技術アドバイザ(NEW!!) [Ushiku+, ACMMM 2012] [Ushiku+, ICCV 2015] 画像キャプション生成 主観的な感性表現を持つ 画像キャプション生成 動画の特定区間と キャプションの相互検索 [Yamaguchi+, ICCV 2017] A guy is skiing with no shirt on and yellow snow pants. A zebra standing in a field with a tree in the dirty background. [Shin+, BMVC 2016] A yellow train on the tracks near a train station.
  4. 4. 宣伝 OMRON SINIC X では Researcher+Engineer を募集中です!! Jiaxin Ma 栗原 聡 (慶應大) 橋本 敦史 Felix von Drigalski 片岡 裕雄 (産総研) 米谷 竜 (東大) 諏訪 正樹 小西 光春 井尻 善久 牛久 祥孝 (東大) 松原 崇充 (NAIST)
  5. 5. お礼
  6. 6. お願い • 関東CV幹事(会場係)として – 会議室をご提供いただける企業様を募集中です! • その他のスポンサーも大歓迎です! – 茶菓、懇親会etc.
  7. 7. CVPR読み会 後編@CyberAgent アクセス 渋谷プライムプラザで行います 涼しいお勧めルートをご案内! 暑いのに外歩くの? しかも道玄坂をのぼるの?
  8. 8. CVPR読み会 後編@CyberAgent アクセス • 井の頭線渋谷駅の改札へ 向かう道を進みます。 • 改札への道を右手に見ながらエス カレーターを上がります。 • 少し道なりに進むとまたエスカ レーターがあるので、4階に上がり ます。 • 道なりに奥に進むと、出口が見え てきます。 • オブジェをくぐってすぐの信号を 渡り、左に曲がって道玄坂を少し だけのぼります。 • 会場のある渋谷プライムプラザが 見えてきます。 • 土日は右手の通用口から通ること になると思います。
  9. 9. CVPR読み会 後編@CyberAgent アクセス • 井の頭線渋谷駅の改札へ向かう道 を進みます。 • 改札への道を右手に見な がらエスカレーターを上 がります。 • 少し道なりに進むとまたエスカ レーターがあるので、4階に上がり ます。 • 道なりに奥に進むと、出口が見え てきます。 • オブジェをくぐってすぐの信号を 渡り、左に曲がって道玄坂を少し だけのぼります。 • 会場のある渋谷プライムプラザが 見えてきます。 • 土日は右手の通用口から通ること になると思います。
  10. 10. CVPR読み会 後編@CyberAgent アクセス • 井の頭線渋谷駅の改札へ向かう道 を進みます。 • 改札への道を右手に見ながらエス カレーターを上がります。 • 少し道なりに進むとまた エスカレーターがあるの で、4階に上がります。 • 道なりに奥に進むと、出口が見え てきます。 • オブジェをくぐってすぐの信号を 渡り、左に曲がって道玄坂を少し だけのぼります。 • 会場のある渋谷プライムプラザが 見えてきます。 • 土日は右手の通用口から通ること になると思います。
  11. 11. CVPR読み会 後編@CyberAgent アクセス • 井の頭線渋谷駅の改札へ向かう道 を進みます。 • 改札への道を右手に見ながらエス カレーターを上がります。 • 少し道なりに進むとまた エスカレーターがあるの で、4階に上がります。 • 道なりに奥に進むと、出口が見え てきます。 • オブジェをくぐってすぐの信号を 渡り、左に曲がって道玄坂を少し だけのぼります。 • 会場のある渋谷プライムプラザが 見えてきます。 • 土日は右手の通用口から通ること になると思います。
  12. 12. CVPR読み会 後編@CyberAgent アクセス • 井の頭線渋谷駅の改札へ向かう道 を進みます。 • 改札への道を右手に見ながらエス カレーターを上がります。 • 少し道なりに進むとまたエスカ レーターがあるので、4階に上がり ます。 • 道なりに奥に進むと、出 口が見えてきます。 • オブジェをくぐってすぐの信号を 渡り、左に曲がって道玄坂を少し だけのぼります。 • 会場のある渋谷プライムプラザが 見えてきます。 • 土日は右手の通用口から通ること になると思います。
  13. 13. CVPR読み会 後編@CyberAgent アクセス • 井の頭線渋谷駅の改札へ向かう道 を進みます。 • 改札への道を右手に見ながらエス カレーターを上がります。 • 少し道なりに進むとまたエスカ レーターがあるので、4階に上がり ます。 • 道なりに奥に進むと、出口が見え てきます。 • オブジェをくぐってすぐ の信号を渡り、左に曲 がって道玄坂を少しだけ のぼります。 • 会場のある渋谷プライムプラザが 見えてきます。 • 土日は右手の通用口から通ること になると思います。
  14. 14. CVPR読み会 後編@CyberAgent アクセス • 井の頭線渋谷駅の改札へ向かう道 を進みます。 • 改札への道を右手に見ながらエス カレーターを上がります。 • 少し道なりに進むとまたエスカ レーターがあるので、4階に上がり ます。 • 道なりに奥に進むと、出口が見え てきます。 • オブジェをくぐってすぐ の信号を渡り、左に曲 がって道玄坂を少しだけ のぼります。 • 会場のある渋谷プライムプラザが 見えてきます。 • 土日は右手の通用口から通ること になると思います。
  15. 15. CVPR読み会 後編@CyberAgent アクセス • 井の頭線渋谷駅の改札へ向かう道 を進みます。 • 改札への道を右手に見ながらエス カレーターを上がります。 • 少し道なりに進むとまたエスカ レーターがあるので、4階に上がり ます。 • 道なりに奥に進むと、出口が見え てきます。 • オブジェをくぐってすぐの信号を 渡り、左に曲がって道玄坂を少し だけのぼります。 • 会場のある渋谷プライム プラザが見えてきます。 • 土日は右手の通用口から通ること になると思います。
  16. 16. CVPR読み会 後編@CyberAgent アクセス • 井の頭線渋谷駅の改札へ向かう道 を進みます。 • 改札への道を右手に見ながらエス カレーターを上がります。 • 少し道なりに進むとまたエスカ レーターがあるので、4階に上がり ます。 • 道なりに奥に進むと、出口が見え てきます。 • オブジェをくぐってすぐの信号を 渡り、左に曲がって道玄坂を少し だけのぼります。 • 会場のある渋谷プライムプラザが 見えてきます。 • 土日は右手の通用口から 通ることになると思いま す。
  17. 17. CVPR読み会 後編@CyberAgent アクセス • 井の頭線渋谷駅の改札へ向かう道 を進みます。 • 改札への道を右手に見ながらエス カレーターを上がります。 • 少し道なりに進むとまたエスカ レーターがあるので、4階に上がり ます。 • 道なりに奥に進むと、出口が見え てきます。 • オブジェをくぐってすぐの信号を 渡り、左に曲がって道玄坂を少し だけのぼります。 • 会場のある渋谷プライムプラザが 見えてきます。 • 土日は右手の通用口から 通ることになると思いま す。 こうした言葉によるインストラクションで 人間は目的地に辿り着ける(はず)
  18. 18. CVPR読み会 後編@CyberAgent アクセス • 井の頭線渋谷駅の改札へ向かう道 を進みます。 • 改札への道を右手に見ながらエス カレーターを上がります。 • 少し道なりに進むとまたエスカ レーターがあるので、4階に上がり ます。 • 道なりに奥に進むと、出口が見え てきます。 • オブジェをくぐってすぐの信号を 渡り、左に曲がって道玄坂を少し だけのぼります。 • 会場のある渋谷プライムプラザが 見えてきます。 • 土日は右手の通用口から 通ることになると思いま す。 ではロボットが同様に言葉で インストラクションを受けたら 目的地に辿り着けるだろうか?
  19. 19. 本日の論文 Vision-and-Language Navigation: Interpreting visually-grounded navigation instructions in real environments 実世界の建物シミュレータ+言語での道案内データセット ロボットは言葉の道案内だけで目的地にたどり着けるか? [Anderson+, CVPR 2018]
  20. 20. 牛久 祥孝 losnuevetoros CVPR 2018 読み会 Preclosing
  21. 21. 牛久 祥孝 losnuevetoros CVPR 2018 読み会 Preclosing という名の枕でした
  22. 22. CVPR 2018 読み会 Vision-and-Language Navigation: Interpreting visually-grounded navigation instructions in real environments 牛久 祥孝 losnuevetoros
  23. 23. Contributions 1. Matterport3D Simulator – 既存の Matterport3D [Chang+, 3DV 2017] データセット で強化学習を遂行するためのフレームワーク 2. Room-to-Room (R2R) dataset – Vision-and-Language Navigation (VLN) 問題を提議 – 実際にインストラクションのテキストを収集 3. Vision-and-Language Navigation (VLN) の ベースラインを提案して実験 – ニューラル機械翻訳で有名な Sequence-to-Sequence with Attention [Luong+, EMNLP 2015] を利用 入力 Head upstairs and walk past the piano through an archway directly in front. Turn right when the hallway ends at pictures and table. Wait by the moose antlers hanging on the wall. インストラクション 視界 行動 観測
  24. 24. よくある3次元強化学習環境:人工データ DeepMind Lab [Beattie+, 2016]ViZDoom [Kempka+, CIG 2016] AI2-THOR [Kolve+, 2017] CHALET [Yan+, 2018] House3D [Wu+, ICLR WS 2018] HoME Platform [Brodeur+, ICLR WS 2018]
  25. 25. 実世界3次元データセットの活用 • Matterport 3D [Chang+, 3DV 2017] – 90の建造物で総計10,800点のパノラマRGBD画像を収集 – 各点で18方向のRGBD画像を収集→パノラマ化 – 平均2.25m間隔、人の目線の高さ、カメラポーズも記録 – 他のRGBDデータ (cf. NYUv2, SUN RGB-D, ScanNet) は… →動画像なのでパスの選択肢がほとんどない • 他の3次元データセット – Gibson Env [Zamir+, CVPR 2018] – こちらも Spotlight 発表
  26. 26. Matterport3D Simulator 観測データ • 3次元位置𝒗 ∈ 𝑉 観測地点に量子化 • 水平/鉛直方向のカメラ角度𝜓、𝜃 • 𝑡ステップ目のRGB画像(観測)𝑜𝑡 本来Matterport3DはDepth付きだが、今回はまずRGBのみ エージェントの行動 • 視界の中から次の地点𝒗 𝑡+1を選択したり • カメラ角度𝜓、𝜃を更新したり
  27. 27. Matterport3D Simulator のグラフ表現 各位置𝒗をノードとする重み付き無向グラフ • 5m以上離れたエッジや障害物を挟むエッジは削除 • エッジが張られているノードのうち、現在の視界 に含まれるノードに移動
  28. 28. Room-to-Room (R2R) タスク 実体をもつエージェントが • 言語によるインストラクション 𝑥 = 𝑥1, 𝑥2, … , 𝑥 𝐿 を受け • 𝑡番目のカメラパラメータ 𝑣 𝑡, 𝜓 𝑡, 𝜃𝑡に基づいて、 シミュレータからエージェントの見える光景𝑠𝑡を受け • 行動(移動)𝑎 𝑡を決定 「停止」を選ぶまで続ける 行動 インストラクション ゴールまでの距離 ・3m未満になったら成功 ・エージェントは知らない数字
  29. 29. R2R データセット Amazon Mechanical Turk で収集 • 7189経路を抽出 – 5m以上離れた2地点 →平均10m程度 – 最低4~6回移動 • 経路あたり3つずつの インストラクションを 収集 – 平均29単語 (類似課題に比べて長め) – 約3100語彙 (類似課題に比べて少量)
  30. 30. R2R データセット Amazon Mechanical Turk で収集 • 7189経路を抽出 – 5m以上離れた2地点 →平均10m程度 – 最低4~6回移動 • 経路あたり3つずつの インストラクションを 収集 – 平均29単語 (類似課題に比べて長め) – 約3100語彙 (類似課題に比べて少量)
  31. 31. R2R データセット Amazon Mechanical Turk で収集 • 7189経路を抽出 – 5m以上離れた2地点 →平均10m程度 – 最低4~6回移動 • 経路あたり3つずつの インストラクションを 収集 – 平均29単語 (類似課題に比べて長め) – 約3100語彙 (類似課題に比べて少量)
  32. 32. 集められたインストラクションの例 • Pass the pool and go indoors using the double glass doors. Pass the large table with chairs and turn left and wait by the wine bottles that have grapes by them. • Go up the stairs and turn right. Go past the bathroom and stop next to the bed.
  33. 33. 頻出単語マップ • 先頭4単語ずつ 中心から外へ並ぶ • 円弧が割合 白い部分は細か すぎるので省略
  34. 34. R2R データセットの分割 • Train データ – 61の建造物の14,025インストラクション • Val Seen データ – Trainと同じ61の建造物の1020インストラクション • Val Unseen データ – 上記と違う11の建造物の2349インストラクション • Test Unseen データ – さらに上記と違う18の建造物の4173インストラクション – 下図はこの Test Unseen で初出となっている語彙の例 hieroglyphs Squiggle painting mannequins teapot
  35. 35. ベースライン • Vision-and-Language Navigation (VLN) は文と画 像を入力して系列を出力する問題 – Visual Question Answering (VQA) も同じでは? →著者「入力画像が時々刻々で異なるところが違う」 • もともとVQAは答えをクラス識別で求めていて、 系列生成してないのでは…? • この論文の著者、VQA論文もCVPR 2018で発表しているけど、 まさにクラス識別でVQAやってるよね…
  36. 36. ベースライン • Vision-and-Language Navigation (VLN) は文と画 像を入力して系列を出力する問題 – Visual Question Answering (VQA) も同じでは? →著者「入力画像が時々刻々で異なるところが違う」 • 入力:系列→出力:系列の問題 – 機械翻訳と類似した入出力構造
  37. 37. Sequence-to-Sequence • Encoderに単語を一つずつ入力して隠れ変数𝒉を 計算する • 隠れ変数を𝒉 としたDecoderに<EOS>を入力して 1単語目を獲得 • <EOS>が出るまで、𝑛 − 1番目の単語を入力して 𝑛単語目を獲得 • ただし… – 2つの異なるRNNが同じように並んでいるので注意 – 入力文の単語を逆から入れる (順方向で入れると、LSTMでも文頭を忘れてしまう) 入力 出力 [Sutskever+, NIPS 2014]
  38. 38. Sequence-to-Sequence • Encoderに単語を一つずつ入力して隠れ変数𝒉を 計算する • 隠れ変数を𝒉 としたDecoderに<EOS>を入力して 1単語目を獲得 • <EOS>が出るまで、𝑛 − 1番目の単語を入力して 𝑛単語目を獲得 • ただし… – 2つの異なるLSTMが同じように並んでいるので注意 – 入力文の単語を逆から入れる→本論文でも同じ (順方向で入れると、最初の方の指示を忘れてしまう) 入力 出力 [Sutskever+, NIPS 2014] Encoder 用 LSTM Decoder 用 LSTM
  39. 39. アテンションを用いた機械翻訳 • 元の Sequence-to-Sequenceは… – 一旦EncodeしたらあとはDecoderに任せる – 長い文は扱えないのでは • 双方向RNNとアテンションの利用 [Bahdanau+, ICLR 2015] – アテンションとは… • 「𝑡番目の単語を出力する時に、 入力文のどこを翻訳すればよいか」 • 入力文の単語数𝑇と同じ数の ベクトル 𝒂 𝑡を計算 – 隠れ変数𝒉 𝑡の重みづけ和を計算 →LSTMへ入力
  40. 40. Sequence-to-Sequence with Attention [Luong+, EMNLP 2015] 学習するべきパラメータ • 大域的アテンション – 𝑡番目の隠れ変数を仮決め 𝒉 𝑡 = LSTM(𝒉 𝑡−1) – 入力文のどこにアテンションをあてるかを計算 𝒂 𝑡 𝑠 = align 𝒉 𝑡, 𝒉 𝑠 = exp 𝒉 𝑡 ⊤ 𝑊𝑎 𝒉 𝑠 𝑠′ exp 𝒉 𝑡 ⊤ 𝑊𝑎 𝒉 𝑠′ – コンテキストを求める 𝒄 𝑡 = 𝑠 𝒂 𝑡 𝑠 𝒉 𝑠 – 最終的な隠れ変数 𝒉 𝑡 = tanh(𝑊𝑐 𝒄 𝑡; 𝒉 𝑡 )
  41. 41. Sequence-to-Sequence with Attention • 局所的アテンション(参考) – 隠れ変数𝒉 𝑡から、アテンションをあてる位置𝑝𝑡を計算 𝑝𝑡 = 𝑆 ⋅ sigmoid 𝒗 𝑝 ⊤tanh 𝑊𝑝 𝒉 𝑡 – 𝑝𝑡を中心としたアテンション 𝒂 𝑡(𝑠) = align 𝒉 𝑡, 𝒉 𝑠 ⋅ exp − 𝑠 − 𝑝𝑡 2 2𝜎2 – 後の計算は同様 – 今回読んでいる論文では 大域的アテンションを利用 [Luong+, EMNLP 2015] 学習するべきパラメータ文長
  42. 42. 更なる問題:Exposure Bias 通常のRNNによる系列生成モデル学習では… • 学習時:Teacher forcing – 入力は𝑡 − 1番目までの 教師データ • テスト時:Free running – 入力は𝑡 − 1番目までで 自身が推定したデータ 学習時は教師データのパスしか見たことがない → テスト時の生成系列が学習時から外れだすと エラーが蓄積し続ける(Exposure Bias)
  43. 43. 解決策:Student Forcing Scheduled Sampling [Venkatraman+, AAAI 2015] • 毎回コイントスして – 教師系列から次を推定 – 生成中の系列から次を推定 のどちらかを選ぶ • 次第に生成中の系列のみを選ぶ様にスケジュール Student Forcing • 最初から「生成中の系列から次を推定」のみ – つまりコイントスをしない • この論文では Scheduled Sampling より良かった – 著者「Scheduled Sampling は正解が多様な言語生成など で有効なのだと思われる」
  44. 44. 実験結果(学習の進行比較) 手法: Teacher-forcing vs. Student-forcing データセット: Train, Val Seen, Val Unseen Trainでは学習が進んでもVal Unseenでは停滞 • 建造物固有の視覚-言語関係を学習している可能性 • Weight-decayとDrop-outではまだ正則化が不十分 最小化する損失関数 目的地までの最終距離 3m未満地点への到達率
  45. 45. 実験結果(ゴールまでの最終距離比較) Student-forcingで3m未満までの到達率が向上
  46. 46. 実験結果(精度比較) • Val Seen と Val Unseen – Oracle Success: 一番ゴールに近い点で強制終了 – (Success: 「停止」をエージェントが選ぶまで続行) • 精度としても Student-forcing がよい 正解経路を辿る ランダムに辿る
  47. 47. 実験結果(精度比較) • Test Unseenで比較 • Teacher-forcingの代わりにHumanを導入 Amazon Mechanical Turk で人にインストラクションを 頼りに行動してもらった結果 • 人はずっと精度よくゴールまで到達可能だった
  48. 48. まとめ Vision-and-Language Navigation 問題を提議 1. Matterport3D Simulator の実装と公開 2. Room-to-Room (R2R) dataset の収集と公開 3. Seq2seq-attn でのベースラインによる実験 – Student-forcing の有効性を実証 – コード+データセット公開済み
  49. 49. 所感 魅力的な新問題とデータセットの提供、十分な実験 • 著者「視覚のアテンションの利用は将来課題」 • 著者の別のCVPR2018論文 – 画像キャプション生成 – Visual Question Answering に使える新規アテンション 手法の提案 →絶対すでに着手してる 本論文 4.2 節最後の文 収集するのに幾らかかったんだろう…
  50. 50. ぜひご参加ご検討ください! https://sites.google.com/view/miru2018sapporo/ 早期登録受付中

×