Distilling Knowledge Learned in BERT for Text Generation
1. Distilling Knowledge Learned in BERT
for Text Generation
著者︓Yen-Chun Chen, Zhe Gan, Yu Cheng, Jingzhou Liu, Jingjing Liu
所属︓Microsoft Dynamics 365 AI Research, Carnegie Mellon University
2. ⾃⼰紹介
l 名前︓
• 吉⽥ 将⼤
• Twitter: @master_bomber
l 所属︓
• ソニー株式会社 R&Dセンター
l 現在の研究テーマ
• エンタメ向けの⽣成モデル
l その他の研究興味
• レシピの⾃動⽣成
l ⼀⾔
• ⾃然⾔語は今年始めたばかりなので、⾊々突っ込んでください︕
8. 提案モデル︓Knowledge Distillation Step
l Fine TuneされたBERTの予測結果をSoft Labelとして扱う
• 例えば、Seq2Seqで!"を予測するには、BERTの!"の予測結果との差を損失とする
• Soft Labelの方がHard Labelよりも詳細な情報を持つと考えられる
• このステップではBERTのパラメータは更新しない
l 任意のSeq2Seqモデルが適用可能
• 実験ではTransformerを使っている
Figure 1: Illustration of distilling knowledge from BERT for text generation
Soft Label