SlideShare ist ein Scribd-Unternehmen logo
1 von 14
Downloaden Sie, um offline zu lesen
Distilling Knowledge Learned in BERT
for Text Generation
著者︓Yen-Chun Chen, Zhe Gan, Yu Cheng, Jingzhou Liu, Jingjing Liu
所属︓Microsoft Dynamics 365 AI Research, Carnegie Mellon University
⾃⼰紹介
l 名前︓
• 吉⽥ 将⼤
• Twitter: @master_bomber
l 所属︓
• ソニー株式会社 R&Dセンター
l 現在の研究テーマ
• エンタメ向けの⽣成モデル
l その他の研究興味
• レシピの⾃動⽣成
l ⼀⾔
• ⾃然⾔語は今年始めたばかりなので、⾊々突っ込んでください︕
3⾏まとめ
l BERTを有効に応⽤して⽂書⽣成しようって⾔う論⽂
l 従来のSeq2Seqモデルでは、学習時にDecoderで予測対象よりも先の情報を使え
ないと⾔う⽋点がある
l そこで、学習時にBERTを応⽤するモデルを提案
具体的には︓
• Seq2Seqの学習時に、予測対象を事前学習されたBERTで予測
• BERTの予測結果をSoft Labelとして扱って、損失を計算してSeq2Seqを学習する
背景
l BERTがNLPのあらゆるタスクのSOTAを塗り替えた
• GLEU (複数の⾔語理解タスク)︓ALBERTの亜種がSOTA(2020/08/16現在)
• SQuAD (質疑応答タスク)︓ ALBERTの亜種がSOTA (2020/08/16現在)
• Swag (エンディング選択)︓BERTアーキテクチャを応⽤したモデルがSOTA (2020/08/16現在)
l BERTを応⽤した「⽂書⽣成」アプリケーションはまだ少ない
• そもそもBERTは⽂書⽣成⽤にデザインされてない
l 本論⽂では、⽂書⽣成においてBERTを有効に活⽤するモデルを提案
GLEUのリーダーボード SQuADのリーダーボード
https://rajpurkar.github.io/SQuAD-explorer/
https://gluebenchmark.com/
既存⼿法
l 多くの⽂章⽣成モデルはSeq2Seqの形を取る
l Seq2Seqの⽋点
• 学習時にDecoderは予測対象の単語より右にある単語の情報を活⽤出来ない
– 例︓ !"を予測するときは!#の情報を使えない
Encoder
$%
Decoder
!%
& !"
& !#
&
<eos>Attention
Seq2Seqの概念図
$" $# $' <bos> !% !" !#
BERT(復習)
l Masked Language Modeling (MLM)で学習
• 15%のマスクされた単語を、全てのマスクされてない単語を使って予測
! "#
$
, … , "'
$
, (#
$
, … , ()
$
| +,, -, ( +,, -, はマスクされてない単語の集合、 +$, -$ はマスクされた単語の集合)
l BERTの問題点
• Seq2Seqのように⾃⼰回帰モデルではないので、推論時にシーケンシャルに単語を⽣成できない
BERT (MLM)
"# ". <mask> "/ (# (0<sep><cls> <sep>(/<mask>
(.
1
"0
1
MLMの概念図
提案モデル︓Fine Tuning Step
l Conditional MLM
• ⽂書⽣成では、ソース(!)に対するターゲット(")の関係のみを学習できれば良い
→ターゲット(")のみマスクするように制約を与えて学習する
# $%
&
, … , $)
&
|!, "+
BERT (Conditional MLM)
,% ,- ,. ,/ $% $.<sep><cls> <sep>$/<mask>
$-
0
MLMの概念図
提案モデル︓Knowledge Distillation Step
l Fine TuneされたBERTの予測結果をSoft Labelとして扱う
• 例えば、Seq2Seqで!"を予測するには、BERTの!"の予測結果との差を損失とする
• Soft Labelの方がHard Labelよりも詳細な情報を持つと考えられる
• このステップではBERTのパラメータは更新しない
l 任意のSeq2Seqモデルが適用可能
• 実験ではTransformerを使っている
Figure 1: Illustration of distilling knowledge from BERT for text generation
Soft Label
損失関数
!" #$ :BERTの予測確率
!% #$ :Seq2Seqの予測確率
&: ターゲット'の単語数
(: 単語集合
): ハイパーパラメータ
Hard Labelの損失関数
234(6) = − :
$;<
=
log !% #$|#<:$B<, D
Soft Labelの損失関数
2HIJI(6) = − :
K∈M
!" #$ = N|'O, D P log !% #$ = N|#<:$B<, D
最終的な損失関数
2 6 = )2HIJI 6 + 1 − ) 234 6
実験環境
Tasks
l Machine Translation
• Metric: BLEU
• Datasets
– IWSLT15 English-Vietnamese (113k training sample)
– IWSLT15 English-German (160k training sample)
– WMT14 English-German (4.5M training)
l Abstractive Summarization
• Metric: ROUGE F1-score
• Datasets
– Gigaword Summarization Dataset (train/valid/test = 3.8M/190k/2k)
Model
l 本実験では、Seq2SeqモデルとしてTransformerを使⽤
結果︓Machine Translation
• いずれのタスクでもSOTAを達成
• BERTを適用することでTransformerの精度が改善
結果︓Abstractive Summarization
Table4:
筆者の独自のルールでTrain-Test-Splitして評価
Table5:
Gigawordの公式なテストセットで評価
筆者曰く、公式なテストセットは分布に偏りがある
結果︓Ablation Study
l 双⽅向に学習したことの影響を確認
• !"#$%&': 将来の情報をマスクして学習に使わないでFineTuneしたモデル
l パラメータ数が増えたことによる影響を確認
• !"#$(): BERTの層を減らしてFineTuneしたモデル
まとめ
l ⽂書⽣成ではSeq2Seq(Transformer含む)が使われることが多いが、デコーダ側
で予測対象よりも先の情報を学習に使えないと⾔う⽋点がある。
l そこで、Transformerの双⽅向エンコーダであるBERTを応⽤するモデルを提案
→具体的には、BERTの出⼒をsoft labelとして、Seq2Seqモデルを学習するモデ
ルを提案
l Machine Translation とAbstractive Summarizationのタスクにおいて、
Transformerや他のベンチマーク⼿法を差し置いてSOTAを達成

Weitere ähnliche Inhalte

Ähnlich wie Distilling Knowledge Learned in BERT for Text Generation

大規模JSプロジェクト ロードオブナイツの管理手法紹介 2012-11-06
大規模JSプロジェクト ロードオブナイツの管理手法紹介 2012-11-06大規模JSプロジェクト ロードオブナイツの管理手法紹介 2012-11-06
大規模JSプロジェクト ロードオブナイツの管理手法紹介 2012-11-06
俊仁 小林
 
Towards Knowledge-Based Personalized Product Description Generation in E-comm...
Towards Knowledge-Based Personalized Product Description Generation in E-comm...Towards Knowledge-Based Personalized Product Description Generation in E-comm...
Towards Knowledge-Based Personalized Product Description Generation in E-comm...
harmonylab
 
【schoo WEB-campus】#49業務改善のためのデータサイエンス 先生:倉橋一成
【schoo WEB-campus】#49業務改善のためのデータサイエンス 先生:倉橋一成【schoo WEB-campus】#49業務改善のためのデータサイエンス 先生:倉橋一成
【schoo WEB-campus】#49業務改善のためのデータサイエンス 先生:倉橋一成
webcampusschoo
 

Ähnlich wie Distilling Knowledge Learned in BERT for Text Generation (20)

makoto shing (stability ai) - image model fine-tuning - wandb_event_230525.pdf
makoto shing (stability ai) - image model fine-tuning - wandb_event_230525.pdfmakoto shing (stability ai) - image model fine-tuning - wandb_event_230525.pdf
makoto shing (stability ai) - image model fine-tuning - wandb_event_230525.pdf
 
ChatGPTの仕組みの解説と実務でのLLMの適用の紹介_latest.pdf
ChatGPTの仕組みの解説と実務でのLLMの適用の紹介_latest.pdfChatGPTの仕組みの解説と実務でのLLMの適用の紹介_latest.pdf
ChatGPTの仕組みの解説と実務でのLLMの適用の紹介_latest.pdf
 
今年のKDDベストペーパーを実装・公開しました
今年のKDDベストペーパーを実装・公開しました今年のKDDベストペーパーを実装・公開しました
今年のKDDベストペーパーを実装・公開しました
 
【WEB公開版】ロボ連2021プログラミング教育展望
【WEB公開版】ロボ連2021プログラミング教育展望【WEB公開版】ロボ連2021プログラミング教育展望
【WEB公開版】ロボ連2021プログラミング教育展望
 
大規模JSプロジェクト ロードオブナイツの管理手法紹介 2012-11-06
大規模JSプロジェクト ロードオブナイツの管理手法紹介 2012-11-06大規模JSプロジェクト ロードオブナイツの管理手法紹介 2012-11-06
大規模JSプロジェクト ロードオブナイツの管理手法紹介 2012-11-06
 
C#でもメタプログラミングがしたい!!
C#でもメタプログラミングがしたい!!C#でもメタプログラミングがしたい!!
C#でもメタプログラミングがしたい!!
 
データ分析を武器にしたエンジニアの道の拓き方
データ分析を武器にしたエンジニアの道の拓き方データ分析を武器にしたエンジニアの道の拓き方
データ分析を武器にしたエンジニアの道の拓き方
 
How to organize data science project (データサイエンスプロジェクトの始め方101)
How to organize data science project (データサイエンスプロジェクトの始め方101)How to organize data science project (データサイエンスプロジェクトの始め方101)
How to organize data science project (データサイエンスプロジェクトの始め方101)
 
DataRobot活用状況@リクルートテクノロジーズ
DataRobot活用状況@リクルートテクノロジーズDataRobot活用状況@リクルートテクノロジーズ
DataRobot活用状況@リクルートテクノロジーズ
 
今日から始めるEnvoyの開発
今日から始めるEnvoyの開発今日から始めるEnvoyの開発
今日から始めるEnvoyの開発
 
大規模Perl初心者研修を支える技術
大規模Perl初心者研修を支える技術大規模Perl初心者研修を支える技術
大規模Perl初心者研修を支える技術
 
研究紹介 2014年版
研究紹介 2014年版研究紹介 2014年版
研究紹介 2014年版
 
ChatGPT 人間のフィードバックから強化学習した対話AI
ChatGPT 人間のフィードバックから強化学習した対話AIChatGPT 人間のフィードバックから強化学習した対話AI
ChatGPT 人間のフィードバックから強化学習した対話AI
 
Towards Knowledge-Based Personalized Product Description Generation in E-comm...
Towards Knowledge-Based Personalized Product Description Generation in E-comm...Towards Knowledge-Based Personalized Product Description Generation in E-comm...
Towards Knowledge-Based Personalized Product Description Generation in E-comm...
 
チケット駆動開発の解説~タスク管理からプロセス改善へ
チケット駆動開発の解説~タスク管理からプロセス改善へチケット駆動開発の解説~タスク管理からプロセス改善へ
チケット駆動開発の解説~タスク管理からプロセス改善へ
 
JAWSDAYS 2018 LUNCH SESSION
JAWSDAYS 2018 LUNCH SESSIONJAWSDAYS 2018 LUNCH SESSION
JAWSDAYS 2018 LUNCH SESSION
 
Ryogoku performance meeting4
Ryogoku performance meeting4Ryogoku performance meeting4
Ryogoku performance meeting4
 
【CVPR 2020 メタサーベイ】Neural Generative Models
【CVPR 2020 メタサーベイ】Neural Generative Models【CVPR 2020 メタサーベイ】Neural Generative Models
【CVPR 2020 メタサーベイ】Neural Generative Models
 
足を地に着け落ち着いて考える
足を地に着け落ち着いて考える足を地に着け落ち着いて考える
足を地に着け落ち着いて考える
 
【schoo WEB-campus】#49業務改善のためのデータサイエンス 先生:倉橋一成
【schoo WEB-campus】#49業務改善のためのデータサイエンス 先生:倉橋一成【schoo WEB-campus】#49業務改善のためのデータサイエンス 先生:倉橋一成
【schoo WEB-campus】#49業務改善のためのデータサイエンス 先生:倉橋一成
 

Kürzlich hochgeladen

Kürzlich hochgeladen (12)

LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 

Distilling Knowledge Learned in BERT for Text Generation