[DL輪読会]Are Sixteen Heads Really Better than One?

1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
Are Sixteen Heads Really Better than One?
MasakiTashiro, Keio University

書誌情報
• Are Sixteen Heads Really Better than One?
• https://arxiv.org/abs/1905.10650
• Paul Michel, Omer Levy, Graham Neubig.
2
選んだ理由
• BERT等のattentionの挙動について興味があったから
＊断りのない限り, 図は論文より引用

概要
背景・課題
• 近年のNLPで流行のmulti-head attention(MHA)を用いたモデル
はメモリを大量に消費し時間もかかる
提案
• Multi-headで訓練したモデルの中のheadの多くは精度を落とさず
に取り去ることができる
結論
• MHAは学習初期段階の相互作用のために重要であるが、一度学
習できたら推論時にはいらないことがある
3

背景
• BERT (Bidirectional Encoder Representations from
Transformers)
• 汎用的な言語表現モデルで総合的な言語理解能力を試すGLUE
において飛躍的なスコアの向上を達成
詳しくはこちらを参考
• https://qiita.com/Kosuke-Szk/items/4b74b5cce84f423b7125
4
出典 : https://arxiv.org/abs/1810.04805

背景
Transformer
• 2017年にAttention Is All You Need にて
提案されたモデル
• 機械翻訳において主流であった
RNNやLSTMを用いずにSOTAを達成した
5

背景
• Single-Headed Attention
6

背景
• Multi-headed Attention
• Masking Attention Heads
7

課題
• MHAが具体的にどのような役割を果たしているかわかってない
• MHAによってモデルのパラメータは大きく増大する。それに伴って
メモリを大量に消費し推論に時間がかかる
8

関連研究
• Elena Voita, David Talbot, Fedor Moiseev, Rico Sennrich, Ivan
Titov. Analyzing multi-head self-attention: Specialized heads do
the heavy lifting, the rest can be pruned. In ACL, 2019.
• Kevin Clark, Urvashi Khandelwal, Omer Levy, Christopher D.
Manning. What Does BERT Look At? An Analysis of BERT's
Attention. In BlackBoxNLP, 2019
9

実験
基本的には二つのタスク
• WMT2014 English to French corpusで訓練したlarge transformer
のnewstest2013 test setでの評価
• MultiNLIデータにおいてfinetuningをしたBERTの”base-uncased”
モデルの”matched” validation setにおける評価
10

実験1 : 一つの層からheadを削除する
条件1 : 削除したheadは一つ
結果 : ほとんどのheadは削除しても
統計的に優位な差を見せなかった
11

条件2 : 一つのhead以外を削除
結果 : 多くの層で一つのheadは十分なスコアを出せる
ただ、層によっての複数のheadが必要な層もある
12

条件3 : 違うデータセットでheadを削除したモデルを試す
結果 : データセット間でスコアには正の相関が見られ、
重要であると考えられたheadはデータセットに
関わらず重要であると考えられる
13

実験2 : 複数の層からheadを削除する
目的
• 複数の層のheadによる複合効果があるかを検証する
方向性
• Importance scoreによって全てのattention head をソートし重要で
ないものから貪欲的に枝刈りしていく
14

Head Importance score for Pruning
• 勾配ベースで重要度を決定
• 重要度は層別にnormalizeする
15

Pruningと精度(BLEU/Accuracy)の関係
• 実験1で求めたaccuracyベースのもの(緑)と勾配ベース(青)のもの
を比較
• 勾配ベースの方が良い
• 一定までは精度の低下が小さいが一定以上で大きく減少
16

Pruningと推論効率の関係
• 約3分の1のパラメータがMHAに使われている
• 時間に関してはsingle exampleの推論において大きな速度向上を
もたらした
17

層の種類によるhead削減の効果
• 実験1で層によって必要なheadの数が異なることがわかった
• Enc-Dec間ではmulti-headsがより重要であると考えられる
18

Headの重要性の変化
• 各epochでのheadの削減率とscoreの減少度を比較した
• 初期段階ではheadの削減が与える影響が大きいが学習が進むに
つれて影響が小さくなる
• 初期段階で重要なheadは決定される
19

結論
• MHAは常にモデルの表現力を上げるという訳ではない
• 層によって削除できるheadの割合は変わっている
• 学習の初期段階で重要なheadは決まってくる
20

Appendix
著者のTwitterより
• Lottery ticket hypothesisとの関係について
• 重要なheadは単に初期値が良かった訳ではないことを主張
21

Appendix
重要であると考えられたheadについて
• 同様の研究がAnalyzing multi-head self-attention: Specialized
heads do the heavy lifting, the rest can be pruned. でも行われて
いて具体的に重要なheadがどのような役割をしているのかを調べ
た
• Syntax的な役割, positionalな役割, rare wordへの対処に関する
役割などが観察された
22

Appendix
Headの役割に関して
• より具体的なheadの役割(文法的)についてはWhat Does BERT
Look At? An Analysis of BERT‘s Attention で研究されていた
23

[DL輪読会]Are Sixteen Heads Really Better than One?

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Mehr von Deep Learning JP

Mehr von Deep Learning JP (20)

Kürzlich hochgeladen

Kürzlich hochgeladen (10)

[DL輪読会]Are Sixteen Heads Really Better than One?