Weitere ähnliche Inhalte
Mehr von Deep Learning JP (20)
[DL輪読会]Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks (ACL, 2020)
- 1. 1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
Don’t Stop Pretraining: Adapt Language Models
to Domains andTasks (ACL, 2020)
Kazuki Fujikawa
- 2. サマリ
• 書誌情報
– Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks
• ACL 2020 Best Paper (honorable mention)
• Suchin Gururangan, Ana Marasovic, Swabha Swayamdipta, Kyle Lo, Iz Beltagy,
Doug Downey, Noah A. Smith.
• 概要
– 広範で膨大なリソースで事前学習されたモデルを、対象タスクのドメインに合わせて
再事前学習することの有用性を調査
– ドメイン間の距離が大きいほどパフォーマンス改善することを確認(DAPT)
– 大規模な計算資源が利用できない環境でも、単純なデータ選択戦略によるデータ拡張で
パフォーマンス向上可能であることを確認(TAPT, knn-TAPT)
2
- 7. 関連研究
• ドメイン適応のための転移学習
– タスクのドメインで再事前学習する有効性は、一部の分野で確認されている
• Publicly Available Clinical BERT Embeddings [Alsentzer+], BioBERT [Lee+]
• 転移学習のためのデータ選択
– NMTの学習に利用するデータをDistilBERTの埋め込み空間から選択 [Aharoni+]
• 本研究の貢献: 多様な実験設定に対する再事前学習の有効性との関係を調査
– 事前学習ドメインとタスクドメインとの差分の大小関係
– 再事前学習に利用するデータ数の大小
– 再事前学習に利用するデータの選択方法
7
- 9. 実験1: Domain-Adaptive Pretraining (DAPT)
• ターゲットドメインのデータを使ってRoBERTaを再事前学習
– 4ドメイン x 2タスクに対して同様の実験を実施
– ドメインのデータが必要なのか、単にデータが必要なのかを切り分ける実験も実施
9
https://virtual.acl2020.org/paper_main.740.html
- 10. 実験1: Domain-Adaptive Pretraining (DAPT)
• 予備調査: ドメインギャップの大きさを定量化
– 各コーパスの語彙上位1万件の重複割合をドメインギャップの大きさと定義
• 4ドメイン x 2タスクに対するFinetuneの性能を、Pretrain種別に比較
– RoBERTaのドメインから離れているタスクほど性能改善があることを確認
– ドメイン間の距離 (下図2): 各データ上位の語彙上位1万件の重複割合で比較
– 無関係のドメインでの再Pretrain(¬DAPT)よりも一貫して良い結果
10
- 11. 実験2: Task-Adaptive Pretraining (TAPT)
• ターゲットタスクのデータを使ってRoBERTaを再事前学習
– DAPTとの組み合わせ(DAPT+TAPT)についても実験を実施
11
https://virtual.acl2020.org/paper_main.740.html
- 12. 実験2: Task-Adaptive Pretraining (TAPT)
• 4ドメイン x 2タスクに対するFinetuneの性能を、Pretrain種別に比較
– DAPTと比べて小規模データであるものの、性能改善に寄与することを確認
– DAPT→TAPT→Finetuneの順で訓練したものがベストであった
– 同ドメイン別タスクによるTransfer-TAPTはTAPTと比べて性能劣化
→ TAPTの有効性を確認
12
- 13. 実験3: TAPT + Data Augmentation (kNN-TAPT)
• TAPTで使用したターゲットタスクの各サンプルに対し、DAPTで使用した
ドメインデータからk件の類似データをMLMの訓練データに追加
• TAPTとDAPTの中間的な位置づけ、小規模な計算資源で実施可能
• DAPT, TAPT, kNN-TAPT, RAND-TAPTで比較
– TAPT < kNN-TAPT < DAPTという結果、kを増加するほどDAPTに近づく
– 計算資源が限られた環境下での有用性を示唆
13