2. 1NLP分野における半教師あり学習および疑似データ学習法の最近の進展 ||| 2020/09/06 ||| Jun Suzuki
l 本⽇のお題
u (⼀般論として) ⼿元の⾃然⾔語処理 (NLP) タスクの
性能を上げる⽅法論を議論したい
u 特にデータにまつわる⽅法論に焦点を当てる
p 特定のタスクに依存した話はしない
p 細かいアルゴリズムの話はしない => 考え⽅の話に絞る
p 考え⽅/⽅法論/アプローチの俯瞰を捉える
3. 2NLP分野における半教師あり学習および疑似データ学習法の最近の進展 ||| 2020/09/06 ||| Jun Suzuki
前フリ:典型的なNLPタスクの構成例
l おおよそ以下の形式とみなせる
: :
世界⼀⾼い⼭の標⾼は? 8,848m質問応答
対話⾵邪引いちゃった。 あらら。熱あるの?
𝑥 𝑦変換規則: 𝑓 𝑥
構⽂解析Economic news had little effect.
Economic news had little effect.
nmod sbj
obj
nmod
Very good movie. すばらしい映画だ。⾃動翻訳
⼊⼒ 出⼒
9. 8NLP分野における半教師あり学習および疑似データ学習法の最近の進展 ||| 2020/09/06 ||| Jun Suzuki
学習データを“良くする”
l データを増やす
u 正解データを増やす (対象外)
=>「ここではこの⽅法は取れない場合を議論する」
u 不完全なデータも活⽤していく
p 教師なしデータを利⽤
p 疑似データを (勝⼿に) ⽣成し利⽤
p (正解データの代替なりそうな別のデータを利⽤) <= 本⽇の
対象外
10. 9NLP分野における半教師あり学習および疑似データ学習法の最近の進展 ||| 2020/09/06 ||| Jun Suzuki
l 教師なしデータの活⽤
u 教師なしデータ = ⼊⼒データx 単体 = ⽂章の集合
u web上などから⽐較的容易かつ⼤量に獲得可能
u 典型的なNLPタスクの正解データ量 (数万⽂) の少な
くとも数千倍以上
Common Crawl
https://commoncrawl.org
Wikipedia
https://www.wikipedia.org
11. 10NLP分野における半教師あり学習および疑似データ学習法の最近の進展 ||| 2020/09/06 ||| Jun Suzuki
教師なしデータの使い⽅
l Task-agnostic approach
u 基本的に⼆段階⽅式
p 例:ニューラル⾔語モデル
l Task-specific approach
u 主に通常の教師あり学習の⽅法論と合わせて同時学習
既に分野でデファクトスタン
ダードとなった(と考えられ
る)⽅法
半教師あり学習法の⼀種とみ
なせる
12. 11NLP分野における半教師あり学習および疑似データ学習法の最近の進展 ||| 2020/09/06 ||| Jun Suzuki
Task-agnostic approach
l 事前学習済み (⼤規模) ニューラル⾔語モデル
u 代表例1:ELMo
p ⽂字単位から組み上げる
p RNN⾔語モデル (2層)
p NAACL-2018 best paper
u 代表例2:BERT
p Subwordから組み上げる,
p Transformer (24層), Masked LM
p NAALC-2019 best paper
u 以降,数多くの⾔語モデルが提案
p モデルサイズ 増↑
p 学習データ量 増↑
– 例:RoBERTa, XLNet, ALBERT, ELECTA, T5, GPT-2/3, ...
(Embeddings from Language Models
(Bidirectional Encoder Representations from Transformers)
13. 12NLP分野における半教師あり学習および疑似データ学習法の最近の進展 ||| 2020/09/06 ||| Jun Suzuki
l 各単語の⽂脈に応じた出現確率をモデル化して
いるだけだけど?
u 特定のタスクを良くすることは意図していない
なぜニューラル⾔語モデルが効くのか?
<S>
A
A
puppy hid
puppy
???
hid
出⼒
⼊⼒
1 2 3 4 5時刻
???
<MASK>
hid ???
<S>
<CLS>
A
A
hid slow
通常のNeural LMs
次の(部分)単語を予測する問題を
モデル化
Masked LMs
マスク(或いは置換)された(部分)単
語を予測する問題をモデル化
1 2 3 4 5
14. 13NLP分野における半教師あり学習および疑似データ学習法の最近の進展 ||| 2020/09/06 ||| Jun Suzuki
なぜニューラル⾔語モデルが効くのか?
l ⾃然⾔語処理の「世界モデル」という位置付け
u 単語の出現傾向,意味的な類似性,よく使われる表現
などをモデル内に内包
u NLPタスクに散⾒される「データスパースネス問題」
を⼤幅に軽減
p (多くのNLPタスクで 例:⽂書分類,質問応答,固有表現抽出) 少量の対
象タスクの教師データによる事前学習済ニューラル⾔語の
finetuningで現在の最⾼性能達成
l キモは「⼤規模データ」を使っているところ
Elmo BERT
15. 14NLP分野における半教師あり学習および疑似データ学習法の最近の進展 ||| 2020/09/06 ||| Jun Suzuki
[余談] 考え⽅は昔からおなじ
l 教師なしデータから学習した単語クラス
タリング (Brown clustering)の特徴を追
加して教師あり学習する⽅法論を提案
https://www.aclweb.org/anthology/N04-1043/NAACL-2004
16. 15NLP分野における半教師あり学習および疑似データ学習法の最近の進展 ||| 2020/09/06 ||| Jun Suzuki
[余談] 考え⽅は昔からおなじ
https://www-cs.stanford.edu/~pliang/
papers/meng-thesis.pdf
https://www.aclweb.org/anthology/P08-1068/
l Brown clustering [Brown et al, 1992]
l Similar words appear in similar
contexts
l Similar words have similar
distributions of words to their
immediate left and right
MIT master thesis ACL-2008
17. 16NLP分野における半教師あり学習および疑似データ学習法の最近の進展 ||| 2020/09/06 ||| Jun Suzuki
[余談] 考え⽅は昔からおなじ
l 単語分散表現 => ニューラル⾔語モデル
word2vec-LM
(e.g., CBoW)
E
W
lookup
Embedding
Matrix
Output
Layer
Logit
Mat_mul.
sum
softmax
Prob.
E
W(=E)
Mat_mul.
Self-attention
Masked-LM
(e.g., BERT)
softmax
Weight
tying
Hidden Unit
lookup
mask
19. 18NLP分野における半教師あり学習および疑似データ学習法の最近の進展 ||| 2020/09/06 ||| Jun Suzuki
l Task-specific approach
u 主に通常の教師あり学習の⽅法論と合わせて同時学習
p Entropy Regularizer
– 確率分布の尖度を滑らかにする正則化
– 正則化なのでDNNではあまり⽤いられない
p Self-training
– ⾃らの予測結果を正解として活⽤
– 理論的にはあまり効果が期待できない
=> ただしDNNの⽂脈では様々な⼯夫で効果がある場合も散⾒
p Cross View Training (CVT)
p Virtual Adversarial Training (VAT)
p Auxiliary Model Approach
20. 19NLP分野における半教師あり学習および疑似データ学習法の最近の進展 ||| 2020/09/06 ||| Jun Suzuki
Cross View Training (CVT)
l 補助モデル (Auxiliary Prediction Modules)とメ
インモデルの予測を⼀致させるように学習
https://www.aclweb.org/anthology/D18-1217.pdfEMNLP-2018
正解データからの学習 教師なしデータからの学習
予測場所
限定された情報からでもメインモデルと同じ予測ができるように頑張る
21. 20NLP分野における半教師あり学習および疑似データ学習法の最近の進展 ||| 2020/09/06 ||| Jun Suzuki
Virtual Adversarial Training (VAT)
l 「⼊⼒データに敵対的摂動を加えたデータ」と
元⼊⼒データの予測を⼀致させるように学習
ICLR-2017 ACL-2019 https://www.aclweb.org/anthology/P19-1020
元データ
摂動を加えた
データ
元データの近傍は同じ予測になるようにする
22. 21NLP分野における半教師あり学習および疑似データ学習法の最近の進展 ||| 2020/09/06 ||| Jun Suzuki
[参考]Adversarial Perturbation / 敵対的摂動
l Adversarial perturbations induce prediction error
[Szegedy, ICLR-2014, Goodfellow, ICLR-2015]
[Goodfellow et al., ICLR-2015]
Input Image Adversarial
Perturbation
Adversarial
Example
パンダ テナガザル?
分離平⾯
パンダデータ
パンダデータ+摂動
テナガザルデータ
敵対的摂動も含めて正しく分類
できるように分離平⾯を修正したい
23. 22NLP分野における半教師あり学習および疑似データ学習法の最近の進展 ||| 2020/09/06 ||| Jun Suzuki
Mixture of Expert/Imitator Networks (MEIN)
l 補助モデル(imitator networks) はメインモデル
の予測を⼀致させるように学習
Auxiliary Model Approach
AAAI-2019
orks:
amework
Inui1,2
ligence Project
.ac.jp
y
Ours
Mixture of Expert/Imitator Networks (MEIN)
MLP
Sum
!
LSTM 1st IMN I-th IMN
() (*
Softmax
"($|!)
2nd IMN
(+
…
…
…
…
…
…
…
…0.9 0.1
big joke not even … be funny $ big joke not even funny… be $
…
…
…
…
Compute Imitation Loss (KL-divergence)
MLP
Softmax
LSTM
教師なしデータ
モデル構造
教師なしデータからの学習
l Imitatorは元モデルの出⼒を模倣
l Imitatorの予測の確からしさをメインモデ
ルが正解データで再評価する機構付き
24. 23NLP分野における半教師あり学習および疑似データ学習法の最近の進展 ||| 2020/09/06 ||| Jun Suzuki
キモ
l 「似た⼊⼒は似た出⼒になる」という直感に基
づいた⽅法論
u 教師なしデータは正解がわからない => 正解に基づく
学習は難しい => 何か別の使える基準 => 類似性
u 数式的にはそれぞれのモデルのKL-distanceを⼩さく
するようにパラメタ調整
CVT:
VAT:
MEIN:
29. 28NLP分野における半教師あり学習および疑似データ学習法の最近の進展 ||| 2020/09/06 ||| Jun Suzuki
Back-translation
l 出⼒から⼊⼒の予測モデルを考えてデータを⽣
成
u 翻訳,⽂法誤り訂正などの⽣成系タスクに適した⽅法
https://www.aclweb.org/anthology/P16-1009/ACL-2016
出⼒側⾔語 ⼊⼒側⾔語
正解
データ +
単⾔語
データ
翻訳モデル学習
出⼒側⾔語 ⼊⼒側⾔語
(逆)翻訳
モデル
翻訳
モデル
+
出⼒側⾔語⼊⼒側⾔語
①
②
30. 29NLP分野における半教師あり学習および疑似データ学習法の最近の進展 ||| 2020/09/06 ||| Jun Suzuki
New Insight?
l ⼆つの正解データを”混ぜたもの“を使って学習
する⽅法論
https://www.aclweb.org/anthology/2020.acl-main.529/
ACL-2020
[参考] mixup:
⼆つのサンプルを”混ぜる”
l 個⼈的にまだ効く直感が完全にはよくわからない
33. 32NLP分野における半教師あり学習および疑似データ学習法の最近の進展 ||| 2020/09/06 ||| Jun Suzuki
本⽇のまとめ
l (前提:正解データを増やせないなら) 不完全な
データでも⼯夫して使ってみる
u 教師なしデータ:Task-agnostic approach
p 例:事前学習済みニューラルLM
p 分布仮説に基づく単語間類似度がベースの考え
p ⼤規模データを使うことで⾔語の持つ特性が使える
u 教師なしデータ: Task-specific approach
p 例:CVT, VAT, MEIN
p 「似た⼊⼒は似た出⼒になる」という直感に基づいた⽅法論
u 疑似データ
p 例:AdvT, Back-translation, Mixup?
p 出⼒側を固定して⼊⼒側を⼯夫して⽔増しする
34. 33NLP分野における半教師あり学習および疑似データ学習法の最近の進展 ||| 2020/09/06 ||| Jun Suzuki
Take-home messages
l ⾊んな⼿法が提案されているが根本の考え⽅は
共通している (似ている) 場合が多い
u 根本的に使える考え⽅だから
=> こういった考え⽅を把握して広く活⽤していく
l 効果的なデータを作る/活⽤する⽅法を考えるこ
とで新しい⽅法論がつくれる
u ⾝の回りに使えるデータがないか考えてみる
u モデル単体を改良するより⼤きな効果(があるかも)