SlideShare ist ein Scribd-Unternehmen logo
1 von 14
Downloaden Sie, um offline zu lesen
ELECTRAと
pQRNN
BERTを超えて
濱野 莞月
自然言語モデルの現状
今、精度の高い自然言語モデル
NLP(自然言語タスク)ではBERTやGPTなどの汎用言語モデルが高い精度を実現
MicrosoftはGPT-3の独占的ライセンスをOpenAIから取得(Ingite 2020で発表)
https://s3-us-west-2.amazonaws.com/openai-assets/research-
covers/language-unsupervised/language_understanding_pape
r.pdf
https://arxiv.org/pdf/1810.04805.pdf
BERTの構成と事前/転移学習方法 GPTの構成と転移学習方法
BERTが抱える課題
GPTはとても巨大なモデルで計算リソースの観点からBERTの方が利用頻度が高い
しかしながらBERTにもいくつかの課題が残る
https://arxiv.org/pdf/2003.10555.pdf
https://ai-scholar.tech/articles/treatise/electra-ai-382
マスクされた単語を予測するMLM
メジャーな自然言語モデルの速度と実行環境の一例
MLM:Masked Language Modeling(BERTの構築)
文章内で一部(15%程度)MASKされた単語を予測
マスクされていない単語はそのまま出力すれば正解となる
ため、85%の単語が学習に活かされてない
転移学習時や推論時に、それなりの計算リソースを有する
環境(高価なGPUやTPU)を用意しなければいけない
Train/Infer FLOPs & Hardwear
言語モデルの研究動向(2020年)
最近の自然言語モデル
精度や速度の向上を目指し、2020年に発表された新たな自然言語モデルや手法
アプローチ 手法の名前 概要 発表時期
精度の改善
ELECTRA
GANの仕組みに触発され、MLMに代わるRTD:Replaced Token
Detection(置き換えられた単語の検出)を提案。BERTよりも少ない学習時間で
高い精度を実現
2020年5月
Longformer
局所的なAttentionとタスクに紐づいたGlobal Attentionの導入により、既存の
Transformerよりも長い時系列が扱える
2020年4月
速度の改善
pQRNN
低次元に射影するレイヤーを使うPRADOをベースに、LSTMよりも高速な
QRNNレイヤー組み込んだモデル。BERTと同じくらいの精度で、BERTよりもパ
ラメータ数が大幅に削減(1/300)されたモデル。
2020年9月
Reformer
LSH:Locality-Sensitive-Hashing(局所的鋭敏型ハッシュ)とReversible
Residual Layerの導入により、既存のTransformerのメモリ効率を向上
2020年1月
(初版)
本日

ご紹介

ELECTRA
ELECTRAの作り方
GANの仕組みをベースにMLMの出力結果を利用したRTDを提案
学習済みDiscriminatorは汎用言語モデルとして様々なタスク用に転移学習可能
生成器(BERTなど)   識別器(ELECTRA本体)
RTD:Replace Token Detectionで作るELECTRAの事前学習
ほどほどの精度のMLMを使うことで、元の文章内の一部(15%程
度)の単語が、元の単語のままだったり、別の単語に置き換わったり
する
文章内の各単語が、元の単語か置き換わった単語か予測
文章内の各単語に対して予測を行うため、全ての
単語をフルに学習に活用
https://arxiv.org/pdf/2003.10555.pdf
ELECTRAがBERTの性能を上回る
GLUEデータセットにおいては、XLNetの1/4の学習量で同程度のスコアを達成
他のデータセットにおいても、BERT系のモデルのスコアを上回ることがほとんど
https://arxiv.org/pdf/2003.10555.pdf
GLUEデータセットにおける精度比較
様々なデータセットにおける精度比較
https://ai.googleblog.com/2020/03/more-efficient-nlp-model-pre-training.html
ELECTRAの使用方法
2020年5月のGoogle AI Blogでの発表時TensorFlow v1でのコードとモデルが公開
2020年6月には日本語の事前学習済みELECTRAが公開
1. Googleが公開しているTensorFlow v1ベースのELECTRA
https://github.com/google-research/electra
2. Huggin FaceのTransformersでのELECTRA
https://huggingface.co/transformers/model_doc/electra.html
3. 株式会社シナモンが公開している日本語での事前学習済みELECTRA
https://github.com/Cinnamon/electra_japanese
pQRNN
PRADO(pQRNNの元となったモデル)
単語を低次元に射影して埋め込むレイヤー(Projected Embedding Layer)を使用する
ことで、200KB以下のモデルサイズを実現
https://www.aclweb.org/anthology/D19-1506.pdf
Yelpデータセットで小型LSTMとの比較
PRADOの構造
⇐射影&単語埋め込み層
⇐畳み込み
 &アテンション層
pQRNN
PRADOをベースに、シーケンシャルデータの並列計算を可能にした
QRNN:quasi-recurrent neural networkを使用したモデル
BERTとほぼ同精度ながらもパラメータ数が300分の1に削減されたモデルを実現
https://ai.googleblog.com/2020/09/advancing-nlp-with-efficient-projection.html?utm_campaign=piqcy&utm_medium=email&utm_source=Revue%20newsletter
civil_commentsデータセットでBERTとの比較
LSTM層、CNN層、QRNN層の違い https://arxiv.org/pdf/1611.01576.pdf
pQENNの構造
まとめ
大抵は既存手法をベースにした新手
法が次々と発表されている
いつ、どの手法がトレンドになっても、
すぐに対応できるよう、早めに基礎を
固めておくのは大切

Weitere ähnliche Inhalte

Was ist angesagt?

Getting Started with Graph Database with Python
Getting Started with Graph Database with PythonGetting Started with Graph Database with Python
Getting Started with Graph Database with Pythonロフト くん
 
A Chainer MeetUp Talk
A Chainer MeetUp TalkA Chainer MeetUp Talk
A Chainer MeetUp TalkYusuke Oda
 
introduce to Multimodal Deep Learning for Robust RGB-D Object Recognition
introduce to Multimodal Deep Learning for Robust RGB-D Object Recognitionintroduce to Multimodal Deep Learning for Robust RGB-D Object Recognition
introduce to Multimodal Deep Learning for Robust RGB-D Object RecognitionWEBFARMER. ltd.
 
転移学習ランキング・ドメイン適応
転移学習ランキング・ドメイン適応転移学習ランキング・ドメイン適応
転移学習ランキング・ドメイン適応Elpo González Valbuena
 
S03 t2 sta_py_tsuji_0810_slides
S03 t2 sta_py_tsuji_0810_slidesS03 t2 sta_py_tsuji_0810_slides
S03 t2 sta_py_tsuji_0810_slidesTakeshi Akutsu
 
機械学習モデルフォーマットの話:さようならPMML、こんにちはPFA
機械学習モデルフォーマットの話:さようならPMML、こんにちはPFA機械学習モデルフォーマットの話:さようならPMML、こんにちはPFA
機械学習モデルフォーマットの話:さようならPMML、こんにちはPFAShohei Hido
 
Facebookの人工知能アルゴリズム「memory networks」について調べてみた
Facebookの人工知能アルゴリズム「memory networks」について調べてみたFacebookの人工知能アルゴリズム「memory networks」について調べてみた
Facebookの人工知能アルゴリズム「memory networks」について調べてみた株式会社メタップスホールディングス
 
Visual Studio による開発環境・プログラミングの進化
Visual Studio による開発環境・プログラミングの進化Visual Studio による開発環境・プログラミングの進化
Visual Studio による開発環境・プログラミングの進化Fujio Kojima
 
Tensor flow勉強会 (ayashiminagaranotensorflow)
Tensor flow勉強会 (ayashiminagaranotensorflow)Tensor flow勉強会 (ayashiminagaranotensorflow)
Tensor flow勉強会 (ayashiminagaranotensorflow)tak9029
 
Jubatusの紹介@第6回さくさくテキストマイニング
Jubatusの紹介@第6回さくさくテキストマイニングJubatusの紹介@第6回さくさくテキストマイニング
Jubatusの紹介@第6回さくさくテキストマイニングYuya Unno
 
情報抽出入門 〜非構造化データを構造化させる技術〜
情報抽出入門 〜非構造化データを構造化させる技術〜情報抽出入門 〜非構造化データを構造化させる技術〜
情報抽出入門 〜非構造化データを構造化させる技術〜Yuya Unno
 
Chainerのテスト環境とDockerでのCUDAの利用
Chainerのテスト環境とDockerでのCUDAの利用Chainerのテスト環境とDockerでのCUDAの利用
Chainerのテスト環境とDockerでのCUDAの利用Yuya Unno
 
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパスJTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパスShinnosuke Takamichi
 

Was ist angesagt? (17)

Getting Started with Graph Database with Python
Getting Started with Graph Database with PythonGetting Started with Graph Database with Python
Getting Started with Graph Database with Python
 
A Chainer MeetUp Talk
A Chainer MeetUp TalkA Chainer MeetUp Talk
A Chainer MeetUp Talk
 
introduce to Multimodal Deep Learning for Robust RGB-D Object Recognition
introduce to Multimodal Deep Learning for Robust RGB-D Object Recognitionintroduce to Multimodal Deep Learning for Robust RGB-D Object Recognition
introduce to Multimodal Deep Learning for Robust RGB-D Object Recognition
 
転移学習ランキング・ドメイン適応
転移学習ランキング・ドメイン適応転移学習ランキング・ドメイン適応
転移学習ランキング・ドメイン適応
 
Why python
Why pythonWhy python
Why python
 
Why python
Why pythonWhy python
Why python
 
S03 t2 sta_py_tsuji_0810_slides
S03 t2 sta_py_tsuji_0810_slidesS03 t2 sta_py_tsuji_0810_slides
S03 t2 sta_py_tsuji_0810_slides
 
機械学習モデルフォーマットの話:さようならPMML、こんにちはPFA
機械学習モデルフォーマットの話:さようならPMML、こんにちはPFA機械学習モデルフォーマットの話:さようならPMML、こんにちはPFA
機械学習モデルフォーマットの話:さようならPMML、こんにちはPFA
 
Facebookの人工知能アルゴリズム「memory networks」について調べてみた
Facebookの人工知能アルゴリズム「memory networks」について調べてみたFacebookの人工知能アルゴリズム「memory networks」について調べてみた
Facebookの人工知能アルゴリズム「memory networks」について調べてみた
 
#nwstudy の紹介
#nwstudy の紹介#nwstudy の紹介
#nwstudy の紹介
 
Visual Studio による開発環境・プログラミングの進化
Visual Studio による開発環境・プログラミングの進化Visual Studio による開発環境・プログラミングの進化
Visual Studio による開発環境・プログラミングの進化
 
Tensor flow勉強会 (ayashiminagaranotensorflow)
Tensor flow勉強会 (ayashiminagaranotensorflow)Tensor flow勉強会 (ayashiminagaranotensorflow)
Tensor flow勉強会 (ayashiminagaranotensorflow)
 
Jubatusの紹介@第6回さくさくテキストマイニング
Jubatusの紹介@第6回さくさくテキストマイニングJubatusの紹介@第6回さくさくテキストマイニング
Jubatusの紹介@第6回さくさくテキストマイニング
 
Extract and edit
Extract and editExtract and edit
Extract and edit
 
情報抽出入門 〜非構造化データを構造化させる技術〜
情報抽出入門 〜非構造化データを構造化させる技術〜情報抽出入門 〜非構造化データを構造化させる技術〜
情報抽出入門 〜非構造化データを構造化させる技術〜
 
Chainerのテスト環境とDockerでのCUDAの利用
Chainerのテスト環境とDockerでのCUDAの利用Chainerのテスト環境とDockerでのCUDAの利用
Chainerのテスト環境とDockerでのCUDAの利用
 
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパスJTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
 

Ähnlich wie ElectraとpQRNNについて

15. Transformerを用いた言語処理技術の発展.pdf
15. Transformerを用いた言語処理技術の発展.pdf15. Transformerを用いた言語処理技術の発展.pdf
15. Transformerを用いた言語処理技術の発展.pdf幸太朗 岩澤
 
ChatGPT Impact - その社会的/ビジネス価値を考える -
ChatGPT Impact - その社会的/ビジネス価値を考える -ChatGPT Impact - その社会的/ビジネス価値を考える -
ChatGPT Impact - その社会的/ビジネス価値を考える -Daiyu Hatakeyama
 
pkgsrc で gimp がアレだった件 - デマと放置と私
pkgsrc で gimp がアレだった件 - デマと放置と私pkgsrc で gimp がアレだった件 - デマと放置と私
pkgsrc で gimp がアレだった件 - デマと放置と私Akio OBATA
 
オープンソースのビッグデータ・IoT向け スケールアウト型データベースGridDBとPython連携 〜GridDBとPythonと私〜
オープンソースのビッグデータ・IoT向け スケールアウト型データベースGridDBとPython連携 〜GridDBとPythonと私〜オープンソースのビッグデータ・IoT向け スケールアウト型データベースGridDBとPython連携 〜GridDBとPythonと私〜
オープンソースのビッグデータ・IoT向け スケールアウト型データベースGridDBとPython連携 〜GridDBとPythonと私〜griddb
 
.NET micro FrameWork for TOPPERS (.NET基礎)@基礎勉強会
.NET micro  FrameWork for TOPPERS  (.NET基礎)@基礎勉強会.NET micro  FrameWork for TOPPERS  (.NET基礎)@基礎勉強会
.NET micro FrameWork for TOPPERS (.NET基礎)@基礎勉強会Kiyoshi Ogawa
 
Azure Machine Learning Build 2020
Azure Machine Learning Build 2020Azure Machine Learning Build 2020
Azure Machine Learning Build 2020Keita Onabuta
 
AI とデジタル変革
AI とデジタル変革AI とデジタル変革
AI とデジタル変革Osaka University
 

Ähnlich wie ElectraとpQRNNについて (10)

15. Transformerを用いた言語処理技術の発展.pdf
15. Transformerを用いた言語処理技術の発展.pdf15. Transformerを用いた言語処理技術の発展.pdf
15. Transformerを用いた言語処理技術の発展.pdf
 
GPT
GPTGPT
GPT
 
no12.pptx
no12.pptxno12.pptx
no12.pptx
 
ChatGPT Impact - その社会的/ビジネス価値を考える -
ChatGPT Impact - その社会的/ビジネス価値を考える -ChatGPT Impact - その社会的/ビジネス価値を考える -
ChatGPT Impact - その社会的/ビジネス価値を考える -
 
pkgsrc で gimp がアレだった件 - デマと放置と私
pkgsrc で gimp がアレだった件 - デマと放置と私pkgsrc で gimp がアレだった件 - デマと放置と私
pkgsrc で gimp がアレだった件 - デマと放置と私
 
オープンソースのビッグデータ・IoT向け スケールアウト型データベースGridDBとPython連携 〜GridDBとPythonと私〜
オープンソースのビッグデータ・IoT向け スケールアウト型データベースGridDBとPython連携 〜GridDBとPythonと私〜オープンソースのビッグデータ・IoT向け スケールアウト型データベースGridDBとPython連携 〜GridDBとPythonと私〜
オープンソースのビッグデータ・IoT向け スケールアウト型データベースGridDBとPython連携 〜GridDBとPythonと私〜
 
ChatGPTのLINEボット
ChatGPTのLINEボットChatGPTのLINEボット
ChatGPTのLINEボット
 
.NET micro FrameWork for TOPPERS (.NET基礎)@基礎勉強会
.NET micro  FrameWork for TOPPERS  (.NET基礎)@基礎勉強会.NET micro  FrameWork for TOPPERS  (.NET基礎)@基礎勉強会
.NET micro FrameWork for TOPPERS (.NET基礎)@基礎勉強会
 
Azure Machine Learning Build 2020
Azure Machine Learning Build 2020Azure Machine Learning Build 2020
Azure Machine Learning Build 2020
 
AI とデジタル変革
AI とデジタル変革AI とデジタル変革
AI とデジタル変革
 

ElectraとpQRNNについて