[DL輪読会]It's not just size that maters small language models are also few shot learners

Exploiting Cloze Questions for Few Shot Text Classification and
Natural Language Inference (EACL, 2021)
It’s Not Just Size That Matters: Small Language Models
Are Also Few-Shot Learners (NAACL, 2021)
1
Kazuki Fujikawa

サマリ
• 書誌情報
– Exploiting Cloze Questions for Few Shot Text Classification and Natural Language
Inference
• EACL 2021
– It’s Not Just Size That Matters: Small Language Models Are Also Few-Shot Learners
• NAACL 2021, Outstanding Long Papers
• 著者
– Timo Schick, Hinrich Schütze
• 概要
– 自然言語処理におけるFew-shotタスクに対する新たなアプローチ: PET・iPETを提案
（EACL2021）
– PET・iPETの各モジュールに対する有効性を検証し、GPT-3に対する優位性を確認
（NAACL2021）
2

アウトライン
• 背景
• 関連研究
• 提案手法
• 実験・結果
• 考察
3

アウトライン
• 背景
• 関連研究
• 提案手法
• 実験・結果
• 考察
4

背景
• Transformer を Fine-tuning するアプローチは様々なNLPタスクで有効
– 事前学習で言語モデルを学習した上で、Head を目標タスク用に置き換えて
再学習を行うアプローチ
– 目標タスクを解かせるためには、十分な教師ありデータを準備する必要がある
• GPT-3 の登場で、Priming というアプローチが提案された
– 少ない教師データで目標タスクを解くアプローチ
– モデルの大きさ・教師データのトークン数に対する制約など、実用に課題も持つ
（詳細は後述）
5
GPT-3の課題を解決するモデルを考えたい

• 背景
• 関連研究
• 提案手法
• 実験・結果
• 考察
アウトライン
6

関連研究: GPT-3 [Brown+, NeurIPS2020]
• 少ない教師データで目標タスクを解くための新たな対応法: Priming
– 大規模なコーパスで学習したTransformer言語モデルをそのまま利用
– 目標タスクの再学習は行わず、以下のテキストを入力に、続きを出力させる
• task description: 問題設定
• example: 目標タスクの教師情報
• prompt: 目標タスクの推論対象
– 目標タスクの推論を促すテンプレートを設計する必要がある（Prompt engineering）
• 以下課題（例）を持つ
– GPT-3 自体が超巨大モデルであり、一般的な計算環境では扱うことが困難
– 教師データをモデルの入力に加えるため、教師データが増えるとスケールしない
（一般的にTransformerへのトークン数は多くて2048 tokenなどに限られる）
7

アウトライン
• 背景
• 関連研究
• 提案手法
• 実験・結果
• 考察
8

• 目標タスクをMLMの穴埋め問題に変換（PET: Pattern-Exploiting Training）
– タスク毎に Pattern-Verbalizer Pair（PVP）を準備
• Pattern P(x): 目標タスクを穴埋め問題に変換するパターン（テンプレート）
• verbalizer v(y): 目標タスクのラベルを単語に変換するマッピング
– 少量サンプルの穴埋め問題（CELoss）で Fine-tuning
• 複数のPVPで独立にモデルを構築
– 複数モデルを蒸留して1つの分類器を作成
• 教師無しデータ D に対して複数モデルの出力平均（アンサンブル）を疑似ラベルとして付与
提案手法: PET / iPET [Shick+, EACL2021]
9

• 少量データに対する再学習は不安定 → 複数のアプローチで安定化
– 教師なしデータ D に対する疑似ラベル・知識蒸留を繰り返す（iPET）
• 教師なしデータからサンプリングされるテキスト・PVPの選び方に対する分散を小さくする
– 破滅的忘却を防ぐため、教師無しデータの MLMLoss 最小化を同時に解かせる
提案手法: PET / iPET [Shick+, EACL2021]
10

【推論】
● 分割されたトークンを1つずつ挿入した場合の
スコア積を取る
【訓練】
● 推論時と同等にしたいが、分割されたトークン数分の
z’ を準備するのはコストがかかる
● z の状態で全てのLossを計算してしまう
• PET・iPETの課題: 予測対象が1トークンであることを前提としている
– トーカナイザが terrible → terri + *ble と分割する場合、v(y) で terrible に変換できない
• 複数トークンを予測対象とする場合を定式化
提案手法: 複数トークン対応 [Shick+, NAACL2021]
11

アウトライン
• 背景
• 関連研究
• 提案手法
• 実験・結果
• 考察
12

• SuperGLUEタスク [Wang+, 2019]
実験
13
BoolQ [Clark+, 2019]
文章: p を読んで、後の問い: q に
答えるタスク
（QAタスク）
p. Question: q? Answer: _.
p. Based on the previous passage, q? _.
Based on the following passage, q? _. p
CB [De Marneffe+, 2019]
RTE [Dagan+, 2006]
p が正しい場合、必ず h が正しく
なるかどうかを推定するタスク
（含意認識タスク）
h? | _. p
“h”? | _. “p”
h? | _, p
“h”? | _, “p”
yes, true
no, false
yes
no
maybe
文章: p は、c1, c2 のどちらと
因果関係があるかを推定するタスク
（因果推論タスク）
COPA [Gordon+, 2012]
“c1” or “c1”? p, so _.
c1 or c1? p, so _.
c1 or c2
そのまま
2文 s1, s2 間で、単語 w が同じ
意味で使われているかどうかを
推定するタスク
（語義曖昧解消タスク）
WiC
[Pilehvar and Camacho-
Collados, 2019]
“s1” / “s2”. Similar sense of “w”? _.
s1 s2 Does w have the same meaning in
both sentences? _
yes
no
タスク名概要パターン例回答例

• SuperGLUEタスク [Wang+, 2019]
実験
14
WSC [Levesque+, 2011]
文: s 中の代名詞: p が指す
名詞: n を推定するタスク
（共参照解析）
s The pronoun ‘*p*’ refers to _.
s In the previous sentence, the pronoun
‘*p*’ refers to _.
MultiRC
[Khashabi+, 2018]
文章: p を読んで、後の問い: q に
対する回答: a が正しいかどうかを
答えるタスク
（QAタスク）
p. Question: q? Is it a ? _.
p. Question: q? I the correct answer
“a”? _.
該当する名詞を
抜き出して回答
yes/true
no/false
文章: p 中の、空欄: q に当てはまる
単語を、候補: a から選ぶタスク
（穴埋め問題）
ReCoRD [Zhang+, 2018]
タスク自体が穴埋め問題であるため、
タスクの文章: p, 空欄: q を
そのまま利用
回答候補のうち
正しい単語を
回答
タスク名概要パターン例回答例

実験結果: 定量評価
• PET, iPETのSuperGLUEに対する精度をGPT-3と比較
– PET, iPET: 事前学習モデルにALBERTを採用
– GPT-3と比較して、少ないパラメータ数で巨大モデルに匹敵する性能を示している
– COPA, WSC, ReCoRDでマルチトークン化対応を実施
• 回答をそのまま出力する形式に必要とされた
15

アウトライン
• 背景
• 関連研究
• 提案手法
• 実験・結果
• 考察
16

考察
• GPT-3 と PET, iPET との違いに着目し、以下のモジュールの有効性を検証
1. 提案法のパターンの有効性検証
• 利用するパターンの影響確認（GPT-3 vs PET）
2. 教師なしデータ利用法の有効性検証
• 蒸留の必要性・影響の確認
• 蒸留を複数回繰り返すことの有効性検証（iPET）
3. 教師ありデータ利用法の有効性検証
• 通常のFine-tuning・Primingとの比較
17

考察
18

考察1: 提案法のパターンの有効性検証
• PETの枠組みで、以下のパターンを利用した場合の実験を実施
– p ours: 提案法のパターン
– p GPT-3: GPT-3で利用されたプロンプト
– p comb: ours, GPT-3 の組み合わせ
• 結果
– CB, MultiRC では ours, RTEでは GPT-3
• → タスクに適したパターンを考案することは、タスクの性能に直結する
– パターンを増やすことは、性能改善につながる（p comp）
19

考察
20

• 知識蒸留の影響を調べるため、以下の性能を比較
– PET (p ours/comb) ¬ dist: 複数PVPで得たモデルのアンサンブル（下図: (2)）
– PET (p ours/comb): 教師なしデータに対する疑似ラベルで蒸留したモデル（下図 (3)）
• 結果
– 蒸留なしのアンサンブルの方が性能は高い結果
– 蒸留は性能を上げるためではなく、最終モデルのパラメータを減らす目的で実施
考察2: 教師なしデータ利用法の有効性検証
21

• 蒸留を複数回繰り返すことの有用性を検証
– iPETの各世代のスコア平均と標準偏差をグラフ化（下図）
• 結果
– MultiRC以外の3タスクで、iPETによる性能向上を確認
– 試行に対する標準偏差も、4世代目でほぼゼロになった
• 少数データに対するFine-tuningに対する学習の不安定さも排除できた
考察2: 教師なしデータ利用法の有効性検証
22

考察
23

• パターンを利用した学習法の有効性を確認するため、以下を比較
– PET: 提案法
– unsupervised: 全PVPを利用、Fine-tuning無しのアンサンブル
– supervised: パターンを利用せず、Transformerにclassifier headを配置
– PET (XLNet): 提案法のバックボーンをXLNetに変更したもの
– Priming (XLNet): XLNetを使って Priming で Few-shot 推論したもの
• 結果
– PETが unsupervised, supervised, priming を大きく上回る結果
– MultiRCでは長文を入力するため、priming で推論することができなかった
• 32件の訓練データをプライミングで与えるためには10,000トークン以上のシーケンス長に
対応する必要がある
– プライミングと比較して、推論時のシーケンス長が短い点もPETの有用性の一つ
考察3: 教師ありデータ利用法の有効性検証
24

まとめ
• 自然言語処理におけるFew-shotタスクに対する新たなアプローチ:
PET・iPET を提案 [EACL2021]
– PET: Pattern-Verbalizer Pair (PVP) を利用した学習フレームワークを提案
– iPET: 知識蒸留を複数繰り返すことでFine-tuingの安定性を向上
• PET・iPETの各モジュールに対する有効性を検証し、GPT-3に対する
優位性を確認 [NAACL2021]
– 巨大なGPT-3に匹敵する性能を少ないパラメータ数で実現
– Maskトークンが複数に分割される場合に対しても対処可能にした
25

References
• Schick, Timo, and Hinrich Schütze. "Exploiting Cloze Questions for Few Shot Text Classification and Natural
Language Inference.” In EACL 2021.
• Schick, Timo, and Hinrich Schütze. "It's Not Just Size That Matters: Small Language Models Are Also Few-
Shot Learners.” In NAACL 2021.
• Brown, Tom B., et al. "Language models are few-shot learners." In NeurIPS 2020.
• Wang, Alex, et al. "Superglue: A stickier benchmark for general-purpose language understanding
systems." In NeurIPS 2019.
26

[DL輪読会]It's not just size that maters small language models are also few shot learners

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Ähnlich wie [DL輪読会]It's not just size that maters small language models are also few shot learners

Ähnlich wie [DL輪読会]It's not just size that maters small language models are also few shot learners (20)

Mehr von Deep Learning JP

Mehr von Deep Learning JP (20)

Kürzlich hochgeladen

Kürzlich hochgeladen (11)

[DL輪読会]It's not just size that maters small language models are also few shot learners