Diese Präsentation wurde erfolgreich gemeldet.
Wir verwenden Ihre LinkedIn Profilangaben und Informationen zu Ihren Aktivitäten, um Anzeigen zu personalisieren und Ihnen relevantere Inhalte anzuzeigen. Sie können Ihre Anzeigeneinstellungen jederzeit ändern.

[DL輪読会]Big Bird: Transformers for Longer Sequences

324 Aufrufe

Veröffentlicht am

2020/09/11
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Veröffentlicht in: Technologie
  • Als Erste(r) kommentieren

  • Gehören Sie zu den Ersten, denen das gefällt!

[DL輪読会]Big Bird: Transformers for Longer Sequences

  1. 1. DEEP LEARNING JP [DL Papers] “Big Bird:Transformers for Longer Sequences” Takuya MATSUDATE http://deeplearning.jp/
  2. 2. 目次 • 書誌情報 • 概要 • 背景 • 提案手法 • 理論的分析 • 実験 • まとめ 2
  3. 3. 書誌情報 Big Bird: Transformers for Longer Sequences (arXiv:2007.14062) Manzil Zaheer, Guru Guruganesh, Avinava Dubey, Joshua Ainslie, Chris Alberti, Santiago Ontanon, Philip Pham, Anirudh Ravula, Qifan Wang, Li Yang, Amr Ahmed Google Research https://arxiv.org/abs/2007.14062 3
  4. 4. 概要 1. Transformerベースのモデルのシーケンス長さに対する二次の計算量の依存性を線形 にまで減らすスパースな注意機構によるモデルBigBirdを提案 2. Transformerの持つシーケンス-シーケンス関数のUniversal approximatorとTuring完 全の特性を、BigBirdも維持することを示す 3. より長い入力( ~ 8x)を扱えるようになり、質問応答や要約など比較的長い入力をもつ NLPタスクや、ゲノミクスデータの分析で性能の向上を確認 4
  5. 5. 背景 ● 一般的に利用可能なハードウェアでは、概ね512トークンの長さまで ● 長い文脈を必要とするタスクへの直接の適用を難しくする ○ 質問回答や文書要約など 5 Transformerの(完全な)Attentionはシーケンスの長さに対し2次の計算量とメ モリを必要とする
  6. 6. 先行研究 Transformerの二次の依存性を緩和する方法が模索されてきた ● 何らかの方法で、文書中から重要な短い文章を選び出す 選び出す処理の扱いが難しい。学習も難しい。 ● より小さなAttentionを作る ○ Sparse factorizations (of Attention matrix) ○ Reformer (Kitaev+, ICLR 2020) ■ 似たトークン間のみでAttentionを作る (LSHによる近傍点探索) ○ Longformer (Beltagy +, arXiv 2020) ■ Local windowed attention + Global attention ■ BigBirdの直接の先行研究 6
  7. 7. Generalized attention mechanism 7 : アテンションを計算する対象 (のスタック) KeyQuery 入力 に対して Value
  8. 8. Generalized attention mechanism 8 Attentionを隣接行列としてみる
  9. 9. Generalized attention mechanism 9 BERT ● 全ての要素が1 ● それぞれが全ての入力に対し注意を計算 ● 入力の長さに対して2次の計算コスト
  10. 10. Graph sparsification problem 10 計算量の削減は隣接行列のスパース化 ● 既存のスパース化の手法が使える ?
  11. 11. 先行研究 (Longformer) Window attention + Global attention → Longformer 11 * (*) I. Beltagy, M. E. Peters, and A. Cohan., arXiv 2020
  12. 12. 提案手法 Random attention + Window attention + Global attention → BigBird 12
  13. 13. Random attention • Random graphによるComplete graphの近似から着想 – Erdös-Rényi モデル • 各Queryは r 個のKeyをランダムに選ぶ 13
  14. 14. Window attention • Locality of reference – “あるトークンに対する重要な情報は、隣接するトークンから導き出 される” という現象 – NLP, Computational biologyで見られる • Small world graphの生成モデルを類用 – 一方で、Watts-Strogatz モデルのエッジの消去などの処理はハー ドウエアでは難しい • クエリ位置 i に対し、i − w/2 から i + w/2 までの位置の Keyを対象にする – w はWindow幅 14
  15. 15. Global attention • Global Token – シーケンス内のすべてのトークンに寄与し、すべてのトークンの寄 与を受ける – 理論的解析からも重要性が認識された • Universal Approximatorの証明にスターグラフの構造が使わ れる • 2つの導入方法を検討 – Big Bird - ITC (Internal Transformer Construction) シーケンスの中からGlobal Tokenを選ぶ – Big Bird - ETC (Extended Transformer Construction) シーケンスに新たなトークンを結合し、Global Tokenとして使用 する。いわゆる “CLS” トークン 15 0 ...
  16. 16. BigBird : 3つのAttentionの組み合わせ 構築ステップ 1. g 個のGlobal Token と全てのトークンを接続 (Global attention) 2. それぞれのクエリに対し、ランダムに r 個の Key を接続 (Random attention) 3. それぞれのクエリ位置から幅 w でKeyを接続 (Window attention) 実際には、このようなスパースな構造だとGPUでは効率的に計算で きないため、いくつかの工夫を施して使用する (Appendix D., Block化, Gather演算回数の最小化) 16
  17. 17. Sparse attention v.s. Full attention 17 Sparse attentionの能力について、2つの側面で理論的検討を行った 1. Encoder単体としての能力 • Transformerはシーケンス-シーケンス関数のUniversal approximatorであると示された (Yun et al., ICML 2020) • Sparse attentionを持つBigBirdもUniversal approximatorと示せる – Global attentionによるスターグラフの構造をもつことが重要
  18. 18. Sparse attention v.s. Full attention 18 2. Encoder-Decoderモデルの能力 • Turing 完全性 ~ 任意のアルゴリズムを実装する能力をもつこと • TransformerのEncoder-Decoderモデルは、特定の(非現実的な)仮定のもとにTuring完全であるこ とが示される (Pérez et al., ICLR 2019) • 同じ仮定のもとでBigBirdのEncoder-DecoderモデルもTuring完全が示せる – 基本的にはPérezの証明と同じ流れ。Attentionがスパースになる部分の工夫が示されている。
  19. 19. 実験 19 • 長い入力シーケンスを扱えるようになり、長いコンテキストを必要とするタスクでの性能 の改善が期待される • 2つの領域で性能を確認 – 自然言語処理 • Encoderのみのタスク • Encoder-Decoderによるタスク – ゲノミクス
  20. 20. 自然言語処理 / 事前学習 • BERT, RoBERTaと同様にBigBirdの事前学習を行う – マスクされたトークンの予測など – RoBERTaの学習済みモデルからWarm-upする形で用意 – 入力の最大長は4096 • 現実的な 16GB memory/chip、バッチサイズ 32-64 に対する最大長 • 学習には4つのデータセットを使用 (Table 2) • BPC(Bits per character)ではBigBird-ETCが最も良い性能 (Table 3) 20
  21. 21. 自然言語処理 / Question Answering Question Answering タスク • 参照文に対し、与えられた質問文への回答を選ぶタスク • 必要なのはエンコーダーのみ • 4つのデータセットで実験 BigBird-ETCが一貫して良い性能を発揮する 21
  22. 22. 自然言語処理 / Question Answering 各データセット特化のモデルとの比較 ● BigBird側もタスクに合わせて新たな正則化など調整を実施 ● NaturalQ 以外のSotaモデルはアンサンブルが行われている ○ BigBirdは単一モデル ● Fusion-in-DecoderはBigBirdと似たアテンションの構造を持つ 22
  23. 23. 自然言語処理 / Document Classification Document Classification タスク • 文章のクラス分けを行うタスク • 必要なのはエンコーダのみ • 5つのデータセットで実験 • より長い文書(Arxiv)とより少ないデータ(Hyperpartisan) 下で改善がみられる • 短い文章 / 豊富なデータ量がある場合には有意なゲインは無い 23
  24. 24. 自然言語処理 / Summarization Summarization タスク • テキスト文書の短く正確な要約を作成するタスク • Encoder-Decoder構成によるテキスト生成 • 3つのデータセットで実験 • 事前学習には要約タスク特化の手法Pegasus(Zhang+, ICML 2020)も使用 • 出力の文章は短文であるとして、Encoder側のみにSparse Attentionを使用 24
  25. 25. 自然言語処理 / Summarization BigBirdにより大幅な改善が見られた 25
  26. 26. ゲノミクス / 事前学習 • 長いシーケンスが一度に扱えるようになったことから、DNAシーケンスの分析での効果 が期待される – DNAの多くの機能が極めてシーケンスの中で非局所的(highly non-local)に存在 • DNAフラグメントに対し事前学習を行う – Byte Pair Encodingを作成する • 1トークンの平均で8.78塩基対 – BigBirdによりBPC(Bits per char)も改善がみられた 26
  27. 27. ゲノミクス / Promoter Region Prediction Promoter Region Prediction • 与えられたDNAフラグメントがPromoterかそうでないかに分類するタスク – Promoter領域の判別の遺伝子制御学では重要 • 学習済みのBigBirdをFine-tuningし分類を行った • 報告された最高のモデルを凌駕し、ほぼ完全な性能を発揮 27
  28. 28. ゲノミクス / Chromatin-Profile Prediction Chromatin-Profile Prediction • 与えられたNon-coding領域のDNAを、919クラスのChromatin-Profileに分類する – Non-coding領域の機能的効果の解明に寄与 • 919個の二値分類器を共同で学習 • Chromatin-Profile (919クラス) – Transcription factors (TF) : 690 クラス – DNase I sensitivity (DHS) profiles : 125 クラス – Histone-mark (HM) profiles : 104 クラス • HMに対するパフォーマンスが有意に向上 – 他に比べ長いレンジの相関があると知られている 28
  29. 29. まとめ (ほぼ再掲) 1. Transformerベースのモデルのシーケンス長さに対する二次の計算量の依存性を線形 にまで減らすスパースな注意機構によるモデルBigBirdを提案した – Random Attention + Window Attention + Global Attention 2. Transformerの持つシーケンス-シーケンス関数のUniversal approximatorとTuring完 全の特性を、BigBirdも維持することを示した – Global Tokenの導入が重要な役割を持った 3. より長い入力( ~ 8x)を扱えるようになり、質問応答や要約など比較的長い入力をもつ NLPタスクや、ゲノミクスデータの分析で性能の向上を確認した 29
  30. 30. 30
  31. 31. 予備 (Block化) 31
  32. 32. 予備 (計算効率化) 32
  33. 33. 予備 (Summarization) 33

×