Suche senden
Hochladen
[DL輪読会]What do Models Learn from Question Answering Datasets?
•
Als PPTX, PDF herunterladen
•
2 gefällt mir
•
1,213 views
Deep Learning JP
Folgen
2020/10/23 Deep Learning JP: http://deeplearning.jp/seminar-2/
Weniger lesen
Mehr lesen
Technologie
Melden
Teilen
Melden
Teilen
1 von 24
Jetzt herunterladen
Empfohlen
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
Deep Learning JP
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
Deep Learning JP
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
Deep Learning JP
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
Deep Learning JP
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
Deep Learning JP
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
Deep Learning JP
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
Deep Learning JP
Empfohlen
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
Deep Learning JP
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
Deep Learning JP
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
Deep Learning JP
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
Deep Learning JP
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
Deep Learning JP
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
Deep Learning JP
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
Deep Learning JP
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
Deep Learning JP
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
Deep Learning JP
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
Deep Learning JP
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
Deep Learning JP
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
Deep Learning JP
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
Deep Learning JP
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
Deep Learning JP
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
Deep Learning JP
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
Deep Learning JP
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Deep Learning JP
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
Deep Learning JP
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
Deep Learning JP
【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】マルチモーダル 基盤モデル
Deep Learning JP
【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...
【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...
Deep Learning JP
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
Deep Learning JP
【DL輪読会】大量API・ツールの扱いに特化したLLM
【DL輪読会】大量API・ツールの扱いに特化したLLM
Deep Learning JP
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
Deep Learning JP
【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...
【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...
Deep Learning JP
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NTT DATA Technology & Innovation
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
UEHARA, Tetsutaro
Weitere ähnliche Inhalte
Mehr von Deep Learning JP
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
Deep Learning JP
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
Deep Learning JP
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
Deep Learning JP
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
Deep Learning JP
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
Deep Learning JP
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
Deep Learning JP
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
Deep Learning JP
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
Deep Learning JP
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
Deep Learning JP
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Deep Learning JP
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
Deep Learning JP
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
Deep Learning JP
【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】マルチモーダル 基盤モデル
Deep Learning JP
【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...
【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...
Deep Learning JP
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
Deep Learning JP
【DL輪読会】大量API・ツールの扱いに特化したLLM
【DL輪読会】大量API・ツールの扱いに特化したLLM
Deep Learning JP
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
Deep Learning JP
【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...
【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...
Deep Learning JP
Mehr von Deep Learning JP
(20)
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...
【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
【DL輪読会】大量API・ツールの扱いに特化したLLM
【DL輪読会】大量API・ツールの扱いに特化したLLM
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...
【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...
Kürzlich hochgeladen
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NTT DATA Technology & Innovation
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
UEHARA, Tetsutaro
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
Yuki Kikuchi
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
Hiroshi Tomioka
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
博三 太田
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
FumieNakayama
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
FumieNakayama
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
sugiuralab
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
akihisamiyanaga1
Kürzlich hochgeladen
(9)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
[DL輪読会]What do Models Learn from Question Answering Datasets?
1.
1 DEEP LEARNING JP [DL
Papers] http://deeplearning.jp/ What do Models Learn from Question Answering Datasets? Kazutoshi Shinoda, Aizawa Lab
2.
書誌情報 • What do
Models Learn from Question Answering Datasets? • 著者: Priyanka Sen, Amir Saffari • 所属: Amazon Alexa • EMNLP 2020 long 2
3.
概要 • 背景 – QAモデルが本当に読解できるようになったのかはまだよくわかっていない •
何をしたか – 5つのQAデータセット・6つのタスクで,モデルが何を学習しているのかについて調査を行った • 何がわかったか – あるデータセットから他のデータセットにはうまく汎化できない – 読解を妨げるような編集に対してなぜか頑健 – 質問文への簡単な編集にはうまく対処できていない • What do Models Learn from Question Answering Datasets? – モデルはただ質問と文章の語彙の重複やentity typeについての単純なヒューリスティックを 学習しているだけで,読解をしているとはあまり言えない 3
4.
導入 • AIは読解でも人間を超えた! 4 https://rajpurkar.github.io/SQuAD-explorer/
5.
導入 • ところが… 5 • 簡単なcontext/type
matching heuristicsを使うとSQuAD 1.1ではいい スコアをとれてしまう (Weissenborn et al., 2017) • 複雑な推論をしなくても解けてしまう
6.
導入 • ところが… 6 • 一貫しない予測をするQAモデル
(Ribeiro et al., 2019)
7.
導入 • ところが… 7 • 敵対的攻撃に対して脆弱(Jia
and Liang, 2017, Wallace et al., 2019)
8.
導入 • もしもQAモデルが「読解」をせずにテストセットで良いスコアを出していたら, テストセット自体に欠陥があると言える • そのためQAデータセットからモデルは何を学んだいるのか理解する必要が ある •
この研究では以下の3つのResearch Questionに答える – (1) 個別のデータセットでの性能は他のデータセットにも汎化するのか? – (2) モデルはQAデータセットで読解をする必要があるのか? – (3) モデルは質問への編集にうまく対処できるのか? 8
9.
実験設定 • データセット – SQuAD
2.0 • Wikipedia – TriviaQA • 雑学 – Natural Questions • Googleの検索履歴 – QuAC • 対話形式のQA – NewsQA • CNNの記事 (SQuAD 2.0に合わせるために全て のデータセットにunanswerableな質問 を混ぜる) 9 • モデル – BERT-base – ハイパラはデフォルト • バッチサイズ:24 • 学習率:3e-5 • エポック数:2 • 最大系列長:384 • Doc Stride:128
10.
Research Questions (RQs) それぞれのRQに答えるための実験を行った •
RQ1:個別のデータセットでの性能は他のデータセットにも汎化するのか? – 実験1 • RQ2:モデルはQAデータセットで読解をする必要があるのか? – 実験2-1, 2-2, 2-3 • RQ3:モデルは質問への編集にうまく対処できるのか? – 実験3-1, 3-2 10
11.
RQ1:他のデータセットに汎化するのか? • あるデータセットで精度が良くても,新しいデータセットでは精度が悪いと実 用上問題がある • 実際既存研究でQAモデルの汎化性能には課題があることがわかっている (Talmor
and Berant, 2019; Yatskar, 2019; Fisch et al., 2019; Dua et al., 2019) 11
12.
実験1:他のデータセットへの汎化性能 • あるデータセットでfine-tuneした後に,他のデータセットで評価 12 • データセットを超えて汎化 しているとは言えない •
テストセットによって難易 度に差がある
13.
補足:ちなみに難易度はどれくらい異なるのか? • 5つの異なるモデルが正答した問いはどれくらい重複しているのかを調べた 13 • より多くのモデルに共通して正答 されていたら簡単な質問だと考え る •
QuACとNewsQAは比較的難しいの ではないか • SQuAD,TriviaQA, NQは半分以上の 質問が簡単
14.
補足:何が質問を簡単にしているのか? • 質問と文章の語彙の重複度合いが高いと: - answerableな質問は簡単 14 -
unanswerableな質問は難しい
15.
RQ2: QAデータセットは読解力を必要とするのか? • SoTAモデルはQAで高いスコアを出しているが,高いスコアは高い読解力を意味 しているのか?それとも読解をせずに答えに至るまでのショートカットを学習して いるだけ? •
以下の(データセットに対する)ablationを行った – Random labels / Shuffled contexts / Incomplete questions • 15
16.
実験2-1:Random Labels • もしもNoiseを多く含む訓練データを使ってもテストセットで性能が良かった ら,モデルが何を学んでいるのか疑問である •
訓練:Random labels, 評価:オリジナル 16 • Labelを置き換える訓練データの 割合が – 10%: TriviaQA, QuAC以外のデータ では下げ幅は小さい = reasonable なノイズには頑健 – 90%: SQuADとNQの一部の質問は 読解をしなくても解けると言えそう
17.
実験2-2:Shuffled Context • 文単位で文章をシャッフルしてモデルに与える •
訓練:オリジナル,評価:Shuffled context 17 • SQuADとQuACはほとんど性能 が悪化しなかった =文章全体の構造を理解しなくても答 えを正しく予測できる質問がある • TriviaQAとNewsQAで性能が大 きく悪化したのは入力文章が長 いのが原因ではないか.
18.
実験2-3:Incomplete Input • 質問文の最初の半分/一単語を使う,または全消去する •
訓練:オリジナル,評価:Incomplete Input 18 • 質問文が不完全だとやはり精度 は落ちるが解けるものは解ける • 質問を与えなくてもそれなりに正 答できている – 文章の中で答えになりそうなスパン を学習するだけで解ける?
19.
補足:質問文を全て見なくても解けるのはなぜか? • NER(固有表現抽出)で解いてみる – First
Word NER: 質問文の最初の単語と対応するNEのうち最初に文章に出てくるも のを答えとする(who ->人, when->日時) – Person NER: 文章に出てくる最初の人の名前を答えとする 19 • 質問のタイプと対応するタイプの 固有表現を持ってくるだけで答え られる質問がある • 質問を全く見なくてもNEを抽出す るだけで答えられる場合がある
20.
RQ3:QAモデルは多様な質問に対応できるか? • 質問に特徴が追加されてもモデルは頑健なのかを調べるために,以下の ablationを行った – Filler
word / Negation 20
21.
実験3-1:Filler Words • もしQAモデルが質問を理解できているなら,意味的に等価な質問も同様に 扱えるはず •
Really, definitely, actuallyのいずれかを質問の動詞の前に加えた • 訓練:オリジナル,評価:Filler words 21 • 性能はそれほど悪化しないが, こんなに簡単な変更でも悪影響 がある • より複雑なParaphraseを使ったら さらに性能は悪化するのではな いか
22.
実験3-2:Negation • 全ての質問を否定系にして(notを挿入)も同じ答えを返すのか? – 読解ができているなら理想は””(unanswerable)と答えてスコアは0に近づいて欲しい •
訓練:オリジナル,評価:Negation 22 • Baselineと性能があまり変わらないの はNegationを理解できていないことを 意味する • SQuAD以外:質問を否定系にしても正 答率があまり下がらないということは, Negationを無視していることになる • SQuADで訓練するとNegationを理解で きる…?
23.
補足:SQuADで訓練するとNegationを理解できるのか? • SQuADのモデルはNegationを理解しているのか,それともバイアスの影響 なのか? 23 • SQuADにある否定語を含む質問の 9割方はunanswerableな質問だった –
つまり「否定語があるならば unanswerableである」と言うデータセッ トに特有のヒューリスティックを学習し ているだけだった • 結局どのデータセットを使っても Negationを理解できるようにはなっ ていないのでは
24.
まとめ • 実験の結果,QAモデルは – (1)他のデータセットにうまく汎化できない –
(2)読解を妨げるような編集に対して頑健=読解しなくても解ける – (3)質問文への簡単な編集にはうまく対処できていない=質問を完全に理解できていない • What do Models Learn from Question Answering Datasets? – 質問と文章の語彙の重複や固有名詞のタイプについてのヒューリスティックを学習している だけ(と言えそう) • 今後は – 複数のデータセット間での汎化性能を評価するべき – 簡単なヒューリスティックで解ける質問はテストセットからなくすべき – モデルがショートカットを学習していないことを確かめるべき – 様々な質問の種類を用意してモデルがそれらに対応できるか評価するべき – (SQuADなどのフォーマットに合わせてデータセット作って欲しい) 24
Jetzt herunterladen