SlideShare ist ein Scribd-Unternehmen logo
1 von 26
Exploiting Cloze Questions for Few Shot Text Classification and
Natural Language Inference (EACL, 2021)
It’s Not Just Size That Matters: Small Language Models
Are Also Few-Shot Learners (NAACL, 2021)
1
Kazuki Fujikawa
サマリ
• 書誌情報
– Exploiting Cloze Questions for Few Shot Text Classification and Natural Language
Inference
• EACL 2021
– It’s Not Just Size That Matters: Small Language Models Are Also Few-Shot Learners
• NAACL 2021, Outstanding Long Papers
• 著者
– Timo Schick, Hinrich Schütze
• 概要
– 自然言語処理におけるFew-shotタスクに対する新たなアプローチ: PET・iPETを提案
(EACL2021)
– PET・iPETの各モジュールに対する有効性を検証し、GPT-3に対する優位性を確認
(NAACL2021)
2
アウトライン
• 背景
• 関連研究
• 提案手法
• 実験・結果
• 考察
3
アウトライン
• 背景
• 関連研究
• 提案手法
• 実験・結果
• 考察
4
背景
• Transformer を Fine-tuning するアプローチは様々なNLPタスクで有効
– 事前学習で言語モデルを学習した上で、Head を目標タスク用に置き換えて
再学習を行うアプローチ
– 目標タスクを解かせるためには、十分な教師ありデータを準備する必要がある
• GPT-3 の登場で、Priming というアプローチが提案された
– 少ない教師データで目標タスクを解くアプローチ
– モデルの大きさ・教師データのトークン数に対する制約など、実用に課題も持つ
(詳細は後述)
5
GPT-3の課題を解決するモデルを考えたい
• 背景
• 関連研究
• 提案手法
• 実験・結果
• 考察
アウトライン
6
関連研究: GPT-3 [Brown+, NeurIPS2020]
• 少ない教師データで目標タスクを解くための新たな対応法: Priming
– 大規模なコーパスで学習したTransformer言語モデルをそのまま利用
– 目標タスクの再学習は行わず、以下のテキストを入力に、続きを出力させる
• task description: 問題設定
• example: 目標タスクの教師情報
• prompt: 目標タスクの推論対象
– 目標タスクの推論を促すテンプレートを設計する必要がある(Prompt engineering)
• 以下課題(例)を持つ
– GPT-3 自体が超巨大モデルであり、一般的な計算環境では扱うことが困難
– 教師データをモデルの入力に加えるため、教師データが増えるとスケールしない
(一般的にTransformerへのトークン数は多くて2048 tokenなどに限られる)
7
アウトライン
• 背景
• 関連研究
• 提案手法
• 実験・結果
• 考察
8
• 目標タスクをMLMの穴埋め問題に変換(PET: Pattern-Exploiting Training)
– タスク毎に Pattern-Verbalizer Pair(PVP)を準備
• Pattern P(x): 目標タスクを穴埋め問題に変換するパターン(テンプレート)
• verbalizer v(y): 目標タスクのラベルを単語に変換するマッピング
– 少量サンプルの穴埋め問題(CELoss)で Fine-tuning
• 複数のPVPで独立にモデルを構築
– 複数モデルを蒸留して1つの分類器を作成
• 教師無しデータ D に対して複数モデルの出力平均(アンサンブル)を疑似ラベルとして付与
提案手法: PET / iPET [Shick+, EACL2021]
9
• 少量データに対する再学習は不安定 → 複数のアプローチで安定化
– 教師なしデータ D に対する疑似ラベル・知識蒸留を繰り返す(iPET)
• 教師なしデータからサンプリングされるテキスト・PVPの選び方に対する分散を小さくする
– 破滅的忘却を防ぐため、教師無しデータの MLMLoss 最小化を同時に解かせる
提案手法: PET / iPET [Shick+, EACL2021]
10
【推論】
● 分割されたトークンを1つずつ挿入した場合の
スコア積を取る
【訓練】
● 推論時と同等にしたいが、分割されたトークン数分の
z’ を準備するのはコストがかかる
● z の状態で全てのLossを計算してしまう
• PET・iPETの課題: 予測対象が1トークンであることを前提としている
– トーカナイザが terrible → terri + *ble と分割する場合、v(y) で terrible に変換できない
• 複数トークンを予測対象とする場合を定式化
提案手法: 複数トークン対応 [Shick+, NAACL2021]
11
アウトライン
• 背景
• 関連研究
• 提案手法
• 実験・結果
• 考察
12
• SuperGLUEタスク [Wang+, 2019]
実験
13
BoolQ [Clark+, 2019]
文章: p を読んで、後の問い: q に
答えるタスク
(QAタスク)
p. Question: q? Answer: _.
p. Based on the previous passage, q? _.
Based on the following passage, q? _. p
CB [De Marneffe+, 2019]
RTE [Dagan+, 2006]
p が正しい場合、必ず h が正しく
なるかどうかを推定するタスク
(含意認識タスク)
h? | _. p
“h”? | _. “p”
h? | _, p
“h”? | _, “p”
yes, true
no, false
yes
no
maybe
文章: p は、c1, c2 のどちらと
因果関係があるかを推定するタスク
(因果推論タスク)
COPA [Gordon+, 2012]
“c1” or “c1”? p, so _.
c1 or c1? p, so _.
c1 or c2
そのまま
2文 s1, s2 間で、単語 w が同じ
意味で使われているかどうかを
推定するタスク
(語義曖昧解消タスク)
WiC
[Pilehvar and Camacho-
Collados, 2019]
“s1” / “s2”. Similar sense of “w”? _.
s1 s2 Does w have the same meaning in
both sentences? _
yes
no
タスク名 概要 パターン例 回答例
• SuperGLUEタスク [Wang+, 2019]
実験
14
WSC [Levesque+, 2011]
文: s 中の代名詞: p が指す
名詞: n を推定するタスク
(共参照解析)
s The pronoun ‘*p*’ refers to _.
s In the previous sentence, the pronoun
‘*p*’ refers to _.
MultiRC
[Khashabi+, 2018]
文章: p を読んで、後の問い: q に
対する回答: a が正しいかどうかを
答えるタスク
(QAタスク)
p. Question: q? Is it a ? _.
p. Question: q? I the correct answer
“a”? _.
該当する名詞を
抜き出して回答
yes/true
no/false
文章: p 中の、空欄: q に当てはまる
単語を、候補: a から選ぶタスク
(穴埋め問題)
ReCoRD [Zhang+, 2018]
タスク自体が穴埋め問題であるため、
タスクの文章: p, 空欄: q を
そのまま利用
回答候補のうち
正しい単語を
回答
タスク名 概要 パターン例 回答例
実験結果: 定量評価
• PET, iPETのSuperGLUEに対する精度をGPT-3と比較
– PET, iPET: 事前学習モデルにALBERTを採用
– GPT-3と比較して、少ないパラメータ数で巨大モデルに匹敵する性能を示している
– COPA, WSC, ReCoRDでマルチトークン化対応を実施
• 回答をそのまま出力する形式に必要とされた
15
アウトライン
• 背景
• 関連研究
• 提案手法
• 実験・結果
• 考察
16
考察
• GPT-3 と PET, iPET との違いに着目し、以下のモジュールの有効性を検証
1. 提案法のパターンの有効性検証
• 利用するパターンの影響確認(GPT-3 vs PET)
2. 教師なしデータ利用法の有効性検証
• 蒸留の必要性・影響の確認
• 蒸留を複数回繰り返すことの有効性検証(iPET)
3. 教師ありデータ利用法の有効性検証
• 通常のFine-tuning・Primingとの比較
17
• GPT-3 と PET, iPET との違いに着目し、以下のモジュールの有効性を検証
1. 提案法のパターンの有効性検証
• 利用するパターンの影響確認(GPT-3 vs PET)
2. 教師なしデータ利用法の有効性検証
• 蒸留の必要性・影響の確認
• 蒸留を複数回繰り返すことの有効性検証(iPET)
3. 教師ありデータ利用法の有効性検証
• 通常のFine-tuning・Primingとの比較
考察
18
考察1: 提案法のパターンの有効性検証
• PETの枠組みで、以下のパターンを利用した場合の実験を実施
– p ours: 提案法のパターン
– p GPT-3: GPT-3で利用されたプロンプト
– p comb: ours, GPT-3 の組み合わせ
• 結果
– CB, MultiRC では ours, RTEでは GPT-3
• → タスクに適したパターンを考案することは、タスクの性能に直結する
– パターンを増やすことは、性能改善につながる(p comp)
19
• GPT-3 と PET, iPET との違いに着目し、以下のモジュールの有効性を検証
1. 提案法のパターンの有効性検証
• 利用するパターンの影響確認(GPT-3 vs PET)
2. 教師なしデータ利用法の有効性検証
• 蒸留の必要性・影響の確認
• 蒸留を複数回繰り返すことの有効性検証(iPET)
3. 教師ありデータ利用法の有効性検証
• 通常のFine-tuning・Primingとの比較
考察
20
• 知識蒸留の影響を調べるため、以下の性能を比較
– PET (p ours/comb) ¬ dist: 複数PVPで得たモデルのアンサンブル(下図: (2))
– PET (p ours/comb): 教師なしデータに対する疑似ラベルで蒸留したモデル(下図 (3))
• 結果
– 蒸留なしのアンサンブルの方が性能は高い結果
– 蒸留は性能を上げるためではなく、最終モデルのパラメータを減らす目的で実施
考察2: 教師なしデータ利用法の有効性検証
21
• 蒸留を複数回繰り返すことの有用性を検証
– iPETの各世代のスコア平均と標準偏差をグラフ化(下図)
• 結果
– MultiRC以外の3タスクで、iPETによる性能向上を確認
– 試行に対する標準偏差も、4世代目でほぼゼロになった
• 少数データに対するFine-tuningに対する学習の不安定さも排除できた
考察2: 教師なしデータ利用法の有効性検証
22
考察
• GPT-3 と PET, iPET との違いに着目し、以下のモジュールの有効性を検証
1. 提案法のパターンの有効性検証
• 利用するパターンの影響確認(GPT-3 vs PET)
2. 教師なしデータ利用法の有効性検証
• 蒸留の必要性・影響の確認
• 蒸留を複数回繰り返すことの有効性検証(iPET)
3. 教師ありデータ利用法の有効性検証
• 通常のFine-tuning・Primingとの比較
23
• パターンを利用した学習法の有効性を確認するため、以下を比較
– PET: 提案法
– unsupervised: 全PVPを利用、Fine-tuning無しのアンサンブル
– supervised: パターンを利用せず、Transformerにclassifier headを配置
– PET (XLNet): 提案法のバックボーンをXLNetに変更したもの
– Priming (XLNet): XLNetを使って Priming で Few-shot 推論したもの
• 結果
– PETが unsupervised, supervised, priming を大きく上回る結果
– MultiRCでは長文を入力するため、priming で推論することができなかった
• 32件の訓練データをプライミングで与えるためには10,000トークン以上のシーケンス長に
対応する必要がある
– プライミングと比較して、推論時のシーケンス長が短い点もPETの有用性の一つ
考察3: 教師ありデータ利用法の有効性検証
24
まとめ
• 自然言語処理におけるFew-shotタスクに対する新たなアプローチ:
PET・iPET を提案 [EACL2021]
– PET: Pattern-Verbalizer Pair (PVP) を利用した学習フレームワークを提案
– iPET: 知識蒸留を複数繰り返すことでFine-tuingの安定性を向上
• PET・iPETの各モジュールに対する有効性を検証し、GPT-3に対する
優位性を確認 [NAACL2021]
– 巨大なGPT-3に匹敵する性能を少ないパラメータ数で実現
– Maskトークンが複数に分割される場合に対しても対処可能にした
25
References
• Schick, Timo, and Hinrich Schütze. "Exploiting Cloze Questions for Few Shot Text Classification and Natural
Language Inference.” In EACL 2021.
• Schick, Timo, and Hinrich Schütze. "It's Not Just Size That Matters: Small Language Models Are Also Few-
Shot Learners.” In NAACL 2021.
• Brown, Tom B., et al. "Language models are few-shot learners." In NeurIPS 2020.
• Wang, Alex, et al. "Superglue: A stickier benchmark for general-purpose language understanding
systems." In NeurIPS 2019.
26

Weitere ähnliche Inhalte

Was ist angesagt?

【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? 【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? Deep Learning JP
 
[DL輪読会]Understanding Black-box Predictions via Influence Functions
[DL輪読会]Understanding Black-box Predictions via Influence Functions [DL輪読会]Understanding Black-box Predictions via Influence Functions
[DL輪読会]Understanding Black-box Predictions via Influence Functions Deep Learning JP
 
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...Deep Learning JP
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習cvpaper. challenge
 
コンピュータビジョンの研究開発状況
コンピュータビジョンの研究開発状況コンピュータビジョンの研究開発状況
コンピュータビジョンの研究開発状況cvpaper. challenge
 
GAN(と強化学習との関係)
GAN(と強化学習との関係)GAN(と強化学習との関係)
GAN(と強化学習との関係)Masahiro Suzuki
 
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向SSII
 
【DL輪読会】Dropout Reduces Underfitting
【DL輪読会】Dropout Reduces Underfitting【DL輪読会】Dropout Reduces Underfitting
【DL輪読会】Dropout Reduces UnderfittingDeep Learning JP
 
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational AutoencoderDeep Learning JP
 
論文紹介-Multi-Objective Deep Reinforcement Learning
論文紹介-Multi-Objective Deep Reinforcement Learning論文紹介-Multi-Objective Deep Reinforcement Learning
論文紹介-Multi-Objective Deep Reinforcement LearningShunta Nomura
 
Anomaly detection 系の論文を一言でまとめた
Anomaly detection 系の論文を一言でまとめたAnomaly detection 系の論文を一言でまとめた
Anomaly detection 系の論文を一言でまとめたぱんいち すみもと
 
【DL輪読会】Foundation Models for Decision Making: Problems, Methods, and Opportun...
【DL輪読会】Foundation Models for Decision Making: Problems, Methods, and Opportun...【DL輪読会】Foundation Models for Decision Making: Problems, Methods, and Opportun...
【DL輪読会】Foundation Models for Decision Making: Problems, Methods, and Opportun...Deep Learning JP
 
帰納バイアスが成立する条件
帰納バイアスが成立する条件帰納バイアスが成立する条件
帰納バイアスが成立する条件Shinobu KINJO
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII
 
[DL輪読会]Pay Attention to MLPs (gMLP)
[DL輪読会]Pay Attention to MLPs	(gMLP)[DL輪読会]Pay Attention to MLPs	(gMLP)
[DL輪読会]Pay Attention to MLPs (gMLP)Deep Learning JP
 
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
[DL輪読会]data2vec: A General Framework for  Self-supervised Learning in Speech,...[DL輪読会]data2vec: A General Framework for  Self-supervised Learning in Speech,...
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...Deep Learning JP
 
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII
 
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement LearningDeep Learning JP
 
[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for Vision[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for VisionDeep Learning JP
 
【メタサーベイ】Video Transformer
 【メタサーベイ】Video Transformer 【メタサーベイ】Video Transformer
【メタサーベイ】Video Transformercvpaper. challenge
 

Was ist angesagt? (20)

【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? 【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
 
[DL輪読会]Understanding Black-box Predictions via Influence Functions
[DL輪読会]Understanding Black-box Predictions via Influence Functions [DL輪読会]Understanding Black-box Predictions via Influence Functions
[DL輪読会]Understanding Black-box Predictions via Influence Functions
 
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
 
コンピュータビジョンの研究開発状況
コンピュータビジョンの研究開発状況コンピュータビジョンの研究開発状況
コンピュータビジョンの研究開発状況
 
GAN(と強化学習との関係)
GAN(と強化学習との関係)GAN(と強化学習との関係)
GAN(と強化学習との関係)
 
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
 
【DL輪読会】Dropout Reduces Underfitting
【DL輪読会】Dropout Reduces Underfitting【DL輪読会】Dropout Reduces Underfitting
【DL輪読会】Dropout Reduces Underfitting
 
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
 
論文紹介-Multi-Objective Deep Reinforcement Learning
論文紹介-Multi-Objective Deep Reinforcement Learning論文紹介-Multi-Objective Deep Reinforcement Learning
論文紹介-Multi-Objective Deep Reinforcement Learning
 
Anomaly detection 系の論文を一言でまとめた
Anomaly detection 系の論文を一言でまとめたAnomaly detection 系の論文を一言でまとめた
Anomaly detection 系の論文を一言でまとめた
 
【DL輪読会】Foundation Models for Decision Making: Problems, Methods, and Opportun...
【DL輪読会】Foundation Models for Decision Making: Problems, Methods, and Opportun...【DL輪読会】Foundation Models for Decision Making: Problems, Methods, and Opportun...
【DL輪読会】Foundation Models for Decision Making: Problems, Methods, and Opportun...
 
帰納バイアスが成立する条件
帰納バイアスが成立する条件帰納バイアスが成立する条件
帰納バイアスが成立する条件
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
 
[DL輪読会]Pay Attention to MLPs (gMLP)
[DL輪読会]Pay Attention to MLPs	(gMLP)[DL輪読会]Pay Attention to MLPs	(gMLP)
[DL輪読会]Pay Attention to MLPs (gMLP)
 
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
[DL輪読会]data2vec: A General Framework for  Self-supervised Learning in Speech,...[DL輪読会]data2vec: A General Framework for  Self-supervised Learning in Speech,...
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
 
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
 
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning
 
[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for Vision[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for Vision
 
【メタサーベイ】Video Transformer
 【メタサーベイ】Video Transformer 【メタサーベイ】Video Transformer
【メタサーベイ】Video Transformer
 

Ähnlich wie [DL輪読会]It's not just size that maters small language models are also few shot learners

大規模日本語ブログコーパスにおける言語モデルの構築と評価
大規模日本語ブログコーパスにおける言語モデルの構築と評価大規模日本語ブログコーパスにおける言語モデルの構築と評価
大規模日本語ブログコーパスにおける言語モデルの構築と評価Yahoo!デベロッパーネットワーク
 
CIが分からない PE(SETエンジニア)の1年生がWebAPIの負荷テストを 背伸びしてCI運用した
CIが分からないPE(SETエンジニア)の1年生がWebAPIの負荷テストを背伸びしてCI運用したCIが分からないPE(SETエンジニア)の1年生がWebAPIの負荷テストを背伸びしてCI運用した
CIが分からない PE(SETエンジニア)の1年生がWebAPIの負荷テストを 背伸びしてCI運用したssuser0be501
 
組合せ最適化を体系的に知ってPythonで実行してみよう PyCon 2015
組合せ最適化を体系的に知ってPythonで実行してみよう PyCon 2015組合せ最適化を体系的に知ってPythonで実行してみよう PyCon 2015
組合せ最適化を体系的に知ってPythonで実行してみよう PyCon 2015SaitoTsutomu
 
Guiding neural machine translation with retrieved translation pieces
Guiding neural machine translation with retrieved translation piecesGuiding neural machine translation with retrieved translation pieces
Guiding neural machine translation with retrieved translation piecesSatoru Katsumata
 
Approximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLPApproximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLPKoji Matsuda
 
Incorporating syntactic and semantic information in word embeddings using gra...
Incorporating syntactic and semantic information in word embeddings using gra...Incorporating syntactic and semantic information in word embeddings using gra...
Incorporating syntactic and semantic information in word embeddings using gra...Hiroki Iida
 
Beyond Accuracy Behavioral Testing of NLP Models with CheckList
Beyond Accuracy Behavioral Testing of NLP Models with CheckListBeyond Accuracy Behavioral Testing of NLP Models with CheckList
Beyond Accuracy Behavioral Testing of NLP Models with CheckListDannis Lai
 
STAIR Lab Seminar 202105
STAIR Lab Seminar 202105STAIR Lab Seminar 202105
STAIR Lab Seminar 202105Sho Takase
 
20140801ACL2014読み会
20140801ACL2014読み会20140801ACL2014読み会
20140801ACL2014読み会Peinan ZHANG
 
第2回nips+読み会: Learning to learn by gradient decent by gradient decent
第2回nips+読み会: Learning to learn by gradient decent by gradient decent第2回nips+読み会: Learning to learn by gradient decent by gradient decent
第2回nips+読み会: Learning to learn by gradient decent by gradient decentTaku Tsuzuki
 
NeurIPS'21参加報告 tanimoto_public
NeurIPS'21参加報告 tanimoto_publicNeurIPS'21参加報告 tanimoto_public
NeurIPS'21参加報告 tanimoto_publicAkira Tanimoto
 
Variational Template Machine for Data-to-Text Generation
Variational Template Machine for Data-to-Text GenerationVariational Template Machine for Data-to-Text Generation
Variational Template Machine for Data-to-Text Generationharmonylab
 
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
LCCC2010:Learning on Cores,  Clusters and Cloudsの解説LCCC2010:Learning on Cores,  Clusters and Cloudsの解説
LCCC2010:Learning on Cores, Clusters and Cloudsの解説Preferred Networks
 
ICASSP読み会2020
ICASSP読み会2020ICASSP読み会2020
ICASSP読み会2020Yuki Saito
 
[DL輪読会]Explainable Reinforcement Learning: A Survey
[DL輪読会]Explainable Reinforcement Learning: A Survey[DL輪読会]Explainable Reinforcement Learning: A Survey
[DL輪読会]Explainable Reinforcement Learning: A SurveyDeep Learning JP
 
A closer look at few shot classification
A closer look at few shot classificationA closer look at few shot classification
A closer look at few shot classificationKazuki Fujikawa
 
[DL輪読会]A closer look at few shot classification
[DL輪読会]A closer look at few shot classification[DL輪読会]A closer look at few shot classification
[DL輪読会]A closer look at few shot classificationDeep Learning JP
 
最適輸送入門
最適輸送入門最適輸送入門
最適輸送入門joisino
 

Ähnlich wie [DL輪読会]It's not just size that maters small language models are also few shot learners (20)

大規模日本語ブログコーパスにおける言語モデルの構築と評価
大規模日本語ブログコーパスにおける言語モデルの構築と評価大規模日本語ブログコーパスにおける言語モデルの構築と評価
大規模日本語ブログコーパスにおける言語モデルの構築と評価
 
CIが分からない PE(SETエンジニア)の1年生がWebAPIの負荷テストを 背伸びしてCI運用した
CIが分からないPE(SETエンジニア)の1年生がWebAPIの負荷テストを背伸びしてCI運用したCIが分からないPE(SETエンジニア)の1年生がWebAPIの負荷テストを背伸びしてCI運用した
CIが分からない PE(SETエンジニア)の1年生がWebAPIの負荷テストを 背伸びしてCI運用した
 
BERT+XLNet+RoBERTa
BERT+XLNet+RoBERTaBERT+XLNet+RoBERTa
BERT+XLNet+RoBERTa
 
組合せ最適化を体系的に知ってPythonで実行してみよう PyCon 2015
組合せ最適化を体系的に知ってPythonで実行してみよう PyCon 2015組合せ最適化を体系的に知ってPythonで実行してみよう PyCon 2015
組合せ最適化を体系的に知ってPythonで実行してみよう PyCon 2015
 
Guiding neural machine translation with retrieved translation pieces
Guiding neural machine translation with retrieved translation piecesGuiding neural machine translation with retrieved translation pieces
Guiding neural machine translation with retrieved translation pieces
 
Approximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLPApproximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLP
 
Incorporating syntactic and semantic information in word embeddings using gra...
Incorporating syntactic and semantic information in word embeddings using gra...Incorporating syntactic and semantic information in word embeddings using gra...
Incorporating syntactic and semantic information in word embeddings using gra...
 
Beyond Accuracy Behavioral Testing of NLP Models with CheckList
Beyond Accuracy Behavioral Testing of NLP Models with CheckListBeyond Accuracy Behavioral Testing of NLP Models with CheckList
Beyond Accuracy Behavioral Testing of NLP Models with CheckList
 
PFI Christmas seminar 2009
PFI Christmas seminar 2009PFI Christmas seminar 2009
PFI Christmas seminar 2009
 
STAIR Lab Seminar 202105
STAIR Lab Seminar 202105STAIR Lab Seminar 202105
STAIR Lab Seminar 202105
 
20140801ACL2014読み会
20140801ACL2014読み会20140801ACL2014読み会
20140801ACL2014読み会
 
第2回nips+読み会: Learning to learn by gradient decent by gradient decent
第2回nips+読み会: Learning to learn by gradient decent by gradient decent第2回nips+読み会: Learning to learn by gradient decent by gradient decent
第2回nips+読み会: Learning to learn by gradient decent by gradient decent
 
NeurIPS'21参加報告 tanimoto_public
NeurIPS'21参加報告 tanimoto_publicNeurIPS'21参加報告 tanimoto_public
NeurIPS'21参加報告 tanimoto_public
 
Variational Template Machine for Data-to-Text Generation
Variational Template Machine for Data-to-Text GenerationVariational Template Machine for Data-to-Text Generation
Variational Template Machine for Data-to-Text Generation
 
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
LCCC2010:Learning on Cores,  Clusters and Cloudsの解説LCCC2010:Learning on Cores,  Clusters and Cloudsの解説
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
 
ICASSP読み会2020
ICASSP読み会2020ICASSP読み会2020
ICASSP読み会2020
 
[DL輪読会]Explainable Reinforcement Learning: A Survey
[DL輪読会]Explainable Reinforcement Learning: A Survey[DL輪読会]Explainable Reinforcement Learning: A Survey
[DL輪読会]Explainable Reinforcement Learning: A Survey
 
A closer look at few shot classification
A closer look at few shot classificationA closer look at few shot classification
A closer look at few shot classification
 
[DL輪読会]A closer look at few shot classification
[DL輪読会]A closer look at few shot classification[DL輪読会]A closer look at few shot classification
[DL輪読会]A closer look at few shot classification
 
最適輸送入門
最適輸送入門最適輸送入門
最適輸送入門
 

Mehr von Deep Learning JP

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving PlannersDeep Learning JP
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについてDeep Learning JP
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...Deep Learning JP
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-ResolutionDeep Learning JP
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxivDeep Learning JP
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLMDeep Learning JP
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...Deep Learning JP
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place RecognitionDeep Learning JP
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?Deep Learning JP
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究についてDeep Learning JP
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )Deep Learning JP
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...Deep Learning JP
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"Deep Learning JP
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "Deep Learning JP
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat ModelsDeep Learning JP
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"Deep Learning JP
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...Deep Learning JP
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...Deep Learning JP
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...Deep Learning JP
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...Deep Learning JP
 

Mehr von Deep Learning JP (20)

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
 

Kürzlich hochgeladen

新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...Toru Tamaki
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Gamesatsushi061452
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルCRI Japan, Inc.
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Hiroshi Tomioka
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイスCRI Japan, Inc.
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsWSO2
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video UnderstandingToru Tamaki
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptxsn679259
 

Kürzlich hochgeladen (11)

新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 

[DL輪読会]It's not just size that maters small language models are also few shot learners

  • 1. Exploiting Cloze Questions for Few Shot Text Classification and Natural Language Inference (EACL, 2021) It’s Not Just Size That Matters: Small Language Models Are Also Few-Shot Learners (NAACL, 2021) 1 Kazuki Fujikawa
  • 2. サマリ • 書誌情報 – Exploiting Cloze Questions for Few Shot Text Classification and Natural Language Inference • EACL 2021 – It’s Not Just Size That Matters: Small Language Models Are Also Few-Shot Learners • NAACL 2021, Outstanding Long Papers • 著者 – Timo Schick, Hinrich Schütze • 概要 – 自然言語処理におけるFew-shotタスクに対する新たなアプローチ: PET・iPETを提案 (EACL2021) – PET・iPETの各モジュールに対する有効性を検証し、GPT-3に対する優位性を確認 (NAACL2021) 2
  • 3. アウトライン • 背景 • 関連研究 • 提案手法 • 実験・結果 • 考察 3
  • 4. アウトライン • 背景 • 関連研究 • 提案手法 • 実験・結果 • 考察 4
  • 5. 背景 • Transformer を Fine-tuning するアプローチは様々なNLPタスクで有効 – 事前学習で言語モデルを学習した上で、Head を目標タスク用に置き換えて 再学習を行うアプローチ – 目標タスクを解かせるためには、十分な教師ありデータを準備する必要がある • GPT-3 の登場で、Priming というアプローチが提案された – 少ない教師データで目標タスクを解くアプローチ – モデルの大きさ・教師データのトークン数に対する制約など、実用に課題も持つ (詳細は後述) 5 GPT-3の課題を解決するモデルを考えたい
  • 6. • 背景 • 関連研究 • 提案手法 • 実験・結果 • 考察 アウトライン 6
  • 7. 関連研究: GPT-3 [Brown+, NeurIPS2020] • 少ない教師データで目標タスクを解くための新たな対応法: Priming – 大規模なコーパスで学習したTransformer言語モデルをそのまま利用 – 目標タスクの再学習は行わず、以下のテキストを入力に、続きを出力させる • task description: 問題設定 • example: 目標タスクの教師情報 • prompt: 目標タスクの推論対象 – 目標タスクの推論を促すテンプレートを設計する必要がある(Prompt engineering) • 以下課題(例)を持つ – GPT-3 自体が超巨大モデルであり、一般的な計算環境では扱うことが困難 – 教師データをモデルの入力に加えるため、教師データが増えるとスケールしない (一般的にTransformerへのトークン数は多くて2048 tokenなどに限られる) 7
  • 8. アウトライン • 背景 • 関連研究 • 提案手法 • 実験・結果 • 考察 8
  • 9. • 目標タスクをMLMの穴埋め問題に変換(PET: Pattern-Exploiting Training) – タスク毎に Pattern-Verbalizer Pair(PVP)を準備 • Pattern P(x): 目標タスクを穴埋め問題に変換するパターン(テンプレート) • verbalizer v(y): 目標タスクのラベルを単語に変換するマッピング – 少量サンプルの穴埋め問題(CELoss)で Fine-tuning • 複数のPVPで独立にモデルを構築 – 複数モデルを蒸留して1つの分類器を作成 • 教師無しデータ D に対して複数モデルの出力平均(アンサンブル)を疑似ラベルとして付与 提案手法: PET / iPET [Shick+, EACL2021] 9
  • 10. • 少量データに対する再学習は不安定 → 複数のアプローチで安定化 – 教師なしデータ D に対する疑似ラベル・知識蒸留を繰り返す(iPET) • 教師なしデータからサンプリングされるテキスト・PVPの選び方に対する分散を小さくする – 破滅的忘却を防ぐため、教師無しデータの MLMLoss 最小化を同時に解かせる 提案手法: PET / iPET [Shick+, EACL2021] 10
  • 11. 【推論】 ● 分割されたトークンを1つずつ挿入した場合の スコア積を取る 【訓練】 ● 推論時と同等にしたいが、分割されたトークン数分の z’ を準備するのはコストがかかる ● z の状態で全てのLossを計算してしまう • PET・iPETの課題: 予測対象が1トークンであることを前提としている – トーカナイザが terrible → terri + *ble と分割する場合、v(y) で terrible に変換できない • 複数トークンを予測対象とする場合を定式化 提案手法: 複数トークン対応 [Shick+, NAACL2021] 11
  • 12. アウトライン • 背景 • 関連研究 • 提案手法 • 実験・結果 • 考察 12
  • 13. • SuperGLUEタスク [Wang+, 2019] 実験 13 BoolQ [Clark+, 2019] 文章: p を読んで、後の問い: q に 答えるタスク (QAタスク) p. Question: q? Answer: _. p. Based on the previous passage, q? _. Based on the following passage, q? _. p CB [De Marneffe+, 2019] RTE [Dagan+, 2006] p が正しい場合、必ず h が正しく なるかどうかを推定するタスク (含意認識タスク) h? | _. p “h”? | _. “p” h? | _, p “h”? | _, “p” yes, true no, false yes no maybe 文章: p は、c1, c2 のどちらと 因果関係があるかを推定するタスク (因果推論タスク) COPA [Gordon+, 2012] “c1” or “c1”? p, so _. c1 or c1? p, so _. c1 or c2 そのまま 2文 s1, s2 間で、単語 w が同じ 意味で使われているかどうかを 推定するタスク (語義曖昧解消タスク) WiC [Pilehvar and Camacho- Collados, 2019] “s1” / “s2”. Similar sense of “w”? _. s1 s2 Does w have the same meaning in both sentences? _ yes no タスク名 概要 パターン例 回答例
  • 14. • SuperGLUEタスク [Wang+, 2019] 実験 14 WSC [Levesque+, 2011] 文: s 中の代名詞: p が指す 名詞: n を推定するタスク (共参照解析) s The pronoun ‘*p*’ refers to _. s In the previous sentence, the pronoun ‘*p*’ refers to _. MultiRC [Khashabi+, 2018] 文章: p を読んで、後の問い: q に 対する回答: a が正しいかどうかを 答えるタスク (QAタスク) p. Question: q? Is it a ? _. p. Question: q? I the correct answer “a”? _. 該当する名詞を 抜き出して回答 yes/true no/false 文章: p 中の、空欄: q に当てはまる 単語を、候補: a から選ぶタスク (穴埋め問題) ReCoRD [Zhang+, 2018] タスク自体が穴埋め問題であるため、 タスクの文章: p, 空欄: q を そのまま利用 回答候補のうち 正しい単語を 回答 タスク名 概要 パターン例 回答例
  • 15. 実験結果: 定量評価 • PET, iPETのSuperGLUEに対する精度をGPT-3と比較 – PET, iPET: 事前学習モデルにALBERTを採用 – GPT-3と比較して、少ないパラメータ数で巨大モデルに匹敵する性能を示している – COPA, WSC, ReCoRDでマルチトークン化対応を実施 • 回答をそのまま出力する形式に必要とされた 15
  • 16. アウトライン • 背景 • 関連研究 • 提案手法 • 実験・結果 • 考察 16
  • 17. 考察 • GPT-3 と PET, iPET との違いに着目し、以下のモジュールの有効性を検証 1. 提案法のパターンの有効性検証 • 利用するパターンの影響確認(GPT-3 vs PET) 2. 教師なしデータ利用法の有効性検証 • 蒸留の必要性・影響の確認 • 蒸留を複数回繰り返すことの有効性検証(iPET) 3. 教師ありデータ利用法の有効性検証 • 通常のFine-tuning・Primingとの比較 17
  • 18. • GPT-3 と PET, iPET との違いに着目し、以下のモジュールの有効性を検証 1. 提案法のパターンの有効性検証 • 利用するパターンの影響確認(GPT-3 vs PET) 2. 教師なしデータ利用法の有効性検証 • 蒸留の必要性・影響の確認 • 蒸留を複数回繰り返すことの有効性検証(iPET) 3. 教師ありデータ利用法の有効性検証 • 通常のFine-tuning・Primingとの比較 考察 18
  • 19. 考察1: 提案法のパターンの有効性検証 • PETの枠組みで、以下のパターンを利用した場合の実験を実施 – p ours: 提案法のパターン – p GPT-3: GPT-3で利用されたプロンプト – p comb: ours, GPT-3 の組み合わせ • 結果 – CB, MultiRC では ours, RTEでは GPT-3 • → タスクに適したパターンを考案することは、タスクの性能に直結する – パターンを増やすことは、性能改善につながる(p comp) 19
  • 20. • GPT-3 と PET, iPET との違いに着目し、以下のモジュールの有効性を検証 1. 提案法のパターンの有効性検証 • 利用するパターンの影響確認(GPT-3 vs PET) 2. 教師なしデータ利用法の有効性検証 • 蒸留の必要性・影響の確認 • 蒸留を複数回繰り返すことの有効性検証(iPET) 3. 教師ありデータ利用法の有効性検証 • 通常のFine-tuning・Primingとの比較 考察 20
  • 21. • 知識蒸留の影響を調べるため、以下の性能を比較 – PET (p ours/comb) ¬ dist: 複数PVPで得たモデルのアンサンブル(下図: (2)) – PET (p ours/comb): 教師なしデータに対する疑似ラベルで蒸留したモデル(下図 (3)) • 結果 – 蒸留なしのアンサンブルの方が性能は高い結果 – 蒸留は性能を上げるためではなく、最終モデルのパラメータを減らす目的で実施 考察2: 教師なしデータ利用法の有効性検証 21
  • 22. • 蒸留を複数回繰り返すことの有用性を検証 – iPETの各世代のスコア平均と標準偏差をグラフ化(下図) • 結果 – MultiRC以外の3タスクで、iPETによる性能向上を確認 – 試行に対する標準偏差も、4世代目でほぼゼロになった • 少数データに対するFine-tuningに対する学習の不安定さも排除できた 考察2: 教師なしデータ利用法の有効性検証 22
  • 23. 考察 • GPT-3 と PET, iPET との違いに着目し、以下のモジュールの有効性を検証 1. 提案法のパターンの有効性検証 • 利用するパターンの影響確認(GPT-3 vs PET) 2. 教師なしデータ利用法の有効性検証 • 蒸留の必要性・影響の確認 • 蒸留を複数回繰り返すことの有効性検証(iPET) 3. 教師ありデータ利用法の有効性検証 • 通常のFine-tuning・Primingとの比較 23
  • 24. • パターンを利用した学習法の有効性を確認するため、以下を比較 – PET: 提案法 – unsupervised: 全PVPを利用、Fine-tuning無しのアンサンブル – supervised: パターンを利用せず、Transformerにclassifier headを配置 – PET (XLNet): 提案法のバックボーンをXLNetに変更したもの – Priming (XLNet): XLNetを使って Priming で Few-shot 推論したもの • 結果 – PETが unsupervised, supervised, priming を大きく上回る結果 – MultiRCでは長文を入力するため、priming で推論することができなかった • 32件の訓練データをプライミングで与えるためには10,000トークン以上のシーケンス長に 対応する必要がある – プライミングと比較して、推論時のシーケンス長が短い点もPETの有用性の一つ 考察3: 教師ありデータ利用法の有効性検証 24
  • 25. まとめ • 自然言語処理におけるFew-shotタスクに対する新たなアプローチ: PET・iPET を提案 [EACL2021] – PET: Pattern-Verbalizer Pair (PVP) を利用した学習フレームワークを提案 – iPET: 知識蒸留を複数繰り返すことでFine-tuingの安定性を向上 • PET・iPETの各モジュールに対する有効性を検証し、GPT-3に対する 優位性を確認 [NAACL2021] – 巨大なGPT-3に匹敵する性能を少ないパラメータ数で実現 – Maskトークンが複数に分割される場合に対しても対処可能にした 25
  • 26. References • Schick, Timo, and Hinrich Schütze. "Exploiting Cloze Questions for Few Shot Text Classification and Natural Language Inference.” In EACL 2021. • Schick, Timo, and Hinrich Schütze. "It's Not Just Size That Matters: Small Language Models Are Also Few- Shot Learners.” In NAACL 2021. • Brown, Tom B., et al. "Language models are few-shot learners." In NeurIPS 2020. • Wang, Alex, et al. "Superglue: A stickier benchmark for general-purpose language understanding systems." In NeurIPS 2019. 26