Diese Präsentation wurde erfolgreich gemeldet.
Wir verwenden Ihre LinkedIn Profilangaben und Informationen zu Ihren Aktivitäten, um Anzeigen zu personalisieren und Ihnen relevantere Inhalte anzuzeigen. Sie können Ihre Anzeigeneinstellungen jederzeit ändern.

ICML2016読み会資料

3.572 Aufrufe

Veröffentlicht am

ICML2016読み会で発表する資料です。Dynamic Memory Network for Visual and Textual Question Answeringという論文について発表します。

Veröffentlicht in: Technologie
  • Als Erste(r) kommentieren

ICML2016読み会資料

  1. 1. Dynamic Memory Network for Visual and Textual Question Answering ICML2016 読み会@ドワンゴセミナールーム IBM T. J. Watson Research Center 花木 健太郎
  2. 2. 紹介する論文 • Dynamic Memory Networks for Visual and Textual Question Answering Caiming Xiong, Stephen Merity and Richard Socher https://arxiv.org/abs/1603.01417 • Ask Me Anything: Dynamic Memory Networks for Natural Language Processing Ankit Kumar, Ozan Irsoy, Peter Ondruska, Mohit Iyyer, James Bradbury, Ishaan Gulrajani, Victor Zhong, Romain Paulus, Richard Socher http://arxiv.org/abs/1506.07285 MetaMind(2016年4月にSalesforceが買収)のRichard Socherたちの論文
  3. 3. 自己紹介  名前:花木 健太郎  所属:IBM T. J. Watson Research Center (IBM Research本部)  役職:Cognitive Software Engineer (主にNLP、QA、etc.)  経歴:東大(生物化学)→東工大修士(素粒子論)→ミシガン大博士(素粒子論) →…→ニューヨーク大修士(データサイエンス)→IBM Research(NLP) その他、Goldman Sachs、Facebook AI Researchでインターンなど。  Twitter: @csstudyabroad 大学院留学したい人、アメリカで働きたい人は相談に乗ります!
  4. 4. Overview
  5. 5. この論文でやっていること  (End-to-End) Memory Networkのmemory moduleの改良  Memory NetworkのVisual Question Answeringへの応用
  6. 6. Question Answering (QA、質問応答)  証拠となる(構造化、非構造化)データに基づき、 自然言語の形で与えられた質問に答えるタスク  ほとんどのNLPタスクはQAの形に置き換えられる 例) It started boring, but then it got interesting. Q: What is the sentiment? A: Positive Q: POS tags? A: PRP VBD JJ , CC RB PRP VBD JJ .  その意味で、NLPにおける最重要タスクの一つ
  7. 7. Memory Network  Weston(2014), Sukhbaatar(2015)によるembeddingベースのQAアルゴリズム  情報を全て外部メモリに保存、クエリに応じてメモリから情報を取得  (層を重ねることで)推論が必要な質問に対しても回答できる Q u e r y Memory … Memoryから 値取得 P r e d C a n d スコア 計算  Query/Memoryは各文から表現を抽出(BoW)  値の取得はAttention (Weighted sum)  Memoryから取得した値からQueryを引く  スコア計算はCross Entropy/Ranking Loss ここを改善!!!
  8. 8. Visual Question Answering  普通のQAタスク → 証拠が文章、Knowledge Base  画像を証拠としてQAタスクを解くことはできるか?
  9. 9. Dynamic Memory Network (DMN+)
  10. 10. Dynamic Memory Network  Memory Module = Input Module + Episodic Memory Module  Input Module: 証拠となる文章/画像から事実を抽出(質問とは独立)  Episodic Memory Module: 質問を元に事実を(複数回)読み込んで答えを作る
  11. 11. Input Module (Text)  Sentence Reader: 各文から文章表現(位置情報含む)を抽出  Input Fusion Layer: 各文に文脈の情報を入れる (例えば代名詞など。元のMemory Networkでは各文が独立)  一単語ずつ読んで文章の終わりに事実を出力するよりも強力(後で見る)
  12. 12. Positional Encoder  Bag-of-Wordsは位置情報を含まない (A is north of B = B is north of A)  RNNは位置情報も考慮できるが、計算時間が問題  Positional Encoder:表現力と計算時間の妥協点 Position index Embedding index
  13. 13. Input Module (Visual)  VGG-19を使用し、448x448→512x14x14まで次元削減  Linear layer w/ tanhで14x14個のQuestionと同じ次元のembeddingを生成  あとは文章の場合と同じ(局所特徴量にも文脈が必要)
  14. 14. Dynamic Memory Network  Memory Module = Input Module + Episodic Memory Module  Input Module: 証拠となる文章/画像から事実を抽出(質問とは独立)  Episodic Memory Module: 質問を元に事実を(複数回)読み込んで答えを作る
  15. 15. Episodic Memory Module 例) Mary got the football there John moved to the bedroom John got the football there John moved to the hallway John put down the football there Q: Where is the football? 1st pass:Where is the football → John put the football there 2nd pass:Where is “there” → John moved to the bedroom QAには複数回のpass(hop)が必要
  16. 16. Episodic Memory Module  各pass毎に、どの事実に注目するかを計算(Gate Attention)  Attention-Based GRUでmemoryに保存する事実を抽出(位置情報も保存) Q&直前のメモリと 事実の類似度計算 和を1に規格化 Linear Layer w/ ReLU (ちょっとだけ改善)
  17. 17. Attention Based GRU Gated Recurrent Unit (GRU)  Inputを更新ゲートの値uだけ、前のactivationを(1-u)だけ通す Attention-Based GRU  更新ゲートuの値として前項のgate attentionの値を採用する
  18. 18. 実験
  19. 19. 実験概要  bAbI-10k dataset (Text QA)  人工データセット  20の標準的なQAタスク(yes/no、数え上げ、推論、etc.)  10k train、1k test QAペア  https://research.facebook.com/research/babi/  Microsoft COCO dataset (Visual QA)  123,287 train/valid、81,434 test images  248,349 train、121,523 valid、244,302 test QAペア 最適化はAdamを使用、ハイパーパラメーターは論文参照
  20. 20. Textual Question Answering  End-to-End Memory Networkを一部タスクで大きく上回る  Input layerは単語にGRUよりも文章(w/ Positional Encoder)にGRUをかけるのが良い
  21. 21. Visual Question Answering
  22. 22. Attention
  23. 23. Conclusion  Memory NetworkのMemory Moduleを改良  Input fusion layer + Positional Encoderが非常に効く  Episodic Memory LayerにはAttention-based GRU  QAタスクのベースラインそして広く利用される  Visual QAへのMemory Networkの適用  Visual QAでもそれなりに良い精度が出る
  24. 24. Thank you!

×