ElectraとpQRNNについて

ELECTRAと
pQRNN
BERTを超えて
濱野　莞月

自然言語モデルの現状

今、精度の高い自然言語モデル
NLP(自然言語タスク)ではBERTやGPTなどの汎用言語モデルが高い精度を実現
MicrosoftはGPT-3の独占的ライセンスをOpenAIから取得（Ingite 2020で発表）
https://s3-us-west-2.amazonaws.com/openai-assets/research-
covers/language-unsupervised/language_understanding_pape
r.pdf
https://arxiv.org/pdf/1810.04805.pdf
BERTの構成と事前/転移学習方法 GPTの構成と転移学習方法

BERTが抱える課題
GPTはとても巨大なモデルで計算リソースの観点からBERTの方が利用頻度が高い
しかしながらBERTにもいくつかの課題が残る
https://ai-scholar.tech/articles/treatise/electra-ai-382
マスクされた単語を予測するMLM
メジャーな自然言語モデルの速度と実行環境の一例
MLM:Masked Language Modeling(BERTの構築)
文章内で一部(15%程度)MASKされた単語を予測
マスクされていない単語はそのまま出力すれば正解となる
ため、85%の単語が学習に活かされてない
転移学習時や推論時に、それなりの計算リソースを有する
環境（高価なGPUやTPU）を用意しなければいけない
Train/Infer FLOPs & Hardwear

言語モデルの研究動向（2020年）

最近の自然言語モデル
精度や速度の向上を目指し、2020年に発表された新たな自然言語モデルや手法
アプローチ手法の名前概要発表時期
精度の改善
ELECTRA
GANの仕組みに触発され、MLMに代わるRTD:Replaced Token
Detection(置き換えられた単語の検出)を提案。BERTよりも少ない学習時間で
高い精度を実現
2020年5月
Longformer
局所的なAttentionとタスクに紐づいたGlobal Attentionの導入により、既存の
Transformerよりも長い時系列が扱える
2020年4月
速度の改善
pQRNN
低次元に射影するレイヤーを使うPRADOをベースに、LSTMよりも高速な
QRNNレイヤー組み込んだモデル。BERTと同じくらいの精度で、BERTよりもパ
ラメータ数が大幅に削減(1/300)されたモデル。
2020年9月
Reformer
LSH:Locality-Sensitive-Hashing(局所的鋭敏型ハッシュ)とReversible
Residual Layerの導入により、既存のTransformerのメモリ効率を向上
2020年1月
(初版)
本日 
ご紹介

ELECTRAの作り方
GANの仕組みをベースにMLMの出力結果を利用したRTDを提案
学習済みDiscriminatorは汎用言語モデルとして様々なタスク用に転移学習可能
生成器(BERTなど) 　識別器(ELECTRA本体)
RTD:Replace Token Detectionで作るELECTRAの事前学習
ほどほどの精度のMLMを使うことで、元の文章内の一部(15%程
度)の単語が、元の単語のままだったり、別の単語に置き換わったり
する
文章内の各単語が、元の単語か置き換わった単語か予測
文章内の各単語に対して予測を行うため、全ての
単語をフルに学習に活用

ELECTRAがBERTの性能を上回る
GLUEデータセットにおいては、XLNetの1/4の学習量で同程度のスコアを達成
他のデータセットにおいても、BERT系のモデルのスコアを上回ることがほとんど
GLUEデータセットにおける精度比較
様々なデータセットにおける精度比較
https://ai.googleblog.com/2020/03/more-eﬃcient-nlp-model-pre-training.html

ELECTRAの使用方法
2020年5月のGoogle AI Blogでの発表時TensorFlow v1でのコードとモデルが公開
2020年6月には日本語の事前学習済みELECTRAが公開
1. Googleが公開しているTensorFlow v1ベースのELECTRA
https://github.com/google-research/electra
2. Huggin FaceのTransformersでのELECTRA
https://huggingface.co/transformers/model_doc/electra.html
3. 株式会社シナモンが公開している日本語での事前学習済みELECTRA
https://github.com/Cinnamon/electra_japanese

PRADO（pQRNNの元となったモデル）
単語を低次元に射影して埋め込むレイヤー(Projected Embedding Layer)を使用する
ことで、200KB以下のモデルサイズを実現
https://www.aclweb.org/anthology/D19-1506.pdf
Yelpデータセットで小型LSTMとの比較
PRADOの構造
⇐射影&単語埋め込み層
⇐畳み込み
　＆アテンション層

pQRNN
PRADOをベースに、シーケンシャルデータの並列計算を可能にした
QRNN:quasi-recurrent neural networkを使用したモデル
BERTとほぼ同精度ながらもパラメータ数が300分の1に削減されたモデルを実現
https://ai.googleblog.com/2020/09/advancing-nlp-with-eﬃcient-projection.html?utm_campaign=piqcy&utm_medium=email&utm_source=Revue%20newsletter
civil_commentsデータセットでBERTとの比較
LSTM層、CNN層、QRNN層の違い https://arxiv.org/pdf/1611.01576.pdf
pQENNの構造

まとめ
大抵は既存手法をベースにした新手
法が次々と発表されている
いつ、どの手法がトレンドになっても、
すぐに対応できるよう、早めに基礎を
固めておくのは大切

ElectraとpQRNNについて

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (17)

Ähnlich wie ElectraとpQRNNについて

Ähnlich wie ElectraとpQRNNについて (10)

ElectraとpQRNNについて