Suche senden
Hochladen
ElectraとpQRNNについて
•
0 gefällt mir
•
178 views
I
Itsuki Slide
Folgen
自然言語分野で2020年内に発表された手法の紹介。
Weniger lesen
Mehr lesen
Daten & Analysen
Melden
Teilen
Melden
Teilen
1 von 14
Jetzt herunterladen
Downloaden Sie, um offline zu lesen
Empfohlen
Derivative models from BERT
Derivative models from BERT
Junya Kamura
ICML2013読み会 ELLA: An Efficient Lifelong Learning Algorithm
ICML2013読み会 ELLA: An Efficient Lifelong Learning Algorithm
Yuya Unno
200122 bert slideshare
200122 bert slideshare
SohOhara
統計的係り受け解析入門
統計的係り受け解析入門
Yuya Unno
[FUNAI輪講] BERT
[FUNAI輪講] BERT
Takanori Ebihara
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
Deep Learning JP
BERT+XLNet+RoBERTa
BERT+XLNet+RoBERTa
禎晃 山崎
BERT の解剖学: interpret-text による自然言語処理 (NLP) モデル解釈
BERT の解剖学: interpret-text による自然言語処理 (NLP) モデル解釈
順也 山口
Empfohlen
Derivative models from BERT
Derivative models from BERT
Junya Kamura
ICML2013読み会 ELLA: An Efficient Lifelong Learning Algorithm
ICML2013読み会 ELLA: An Efficient Lifelong Learning Algorithm
Yuya Unno
200122 bert slideshare
200122 bert slideshare
SohOhara
統計的係り受け解析入門
統計的係り受け解析入門
Yuya Unno
[FUNAI輪講] BERT
[FUNAI輪講] BERT
Takanori Ebihara
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
Deep Learning JP
BERT+XLNet+RoBERTa
BERT+XLNet+RoBERTa
禎晃 山崎
BERT の解剖学: interpret-text による自然言語処理 (NLP) モデル解釈
BERT の解剖学: interpret-text による自然言語処理 (NLP) モデル解釈
順也 山口
Getting Started with Graph Database with Python
Getting Started with Graph Database with Python
ロフト くん
A Chainer MeetUp Talk
A Chainer MeetUp Talk
Yusuke Oda
introduce to Multimodal Deep Learning for Robust RGB-D Object Recognition
introduce to Multimodal Deep Learning for Robust RGB-D Object Recognition
WEBFARMER. ltd.
転移学習ランキング・ドメイン適応
転移学習ランキング・ドメイン適応
Elpo González Valbuena
Why python
Why python
Mikio Kubo
Why python
Why python
Mikio Kubo
S03 t2 sta_py_tsuji_0810_slides
S03 t2 sta_py_tsuji_0810_slides
Takeshi Akutsu
機械学習モデルフォーマットの話:さようならPMML、こんにちはPFA
機械学習モデルフォーマットの話:さようならPMML、こんにちはPFA
Shohei Hido
Facebookの人工知能アルゴリズム「memory networks」について調べてみた
Facebookの人工知能アルゴリズム「memory networks」について調べてみた
株式会社メタップスホールディングス
#nwstudy の紹介
#nwstudy の紹介
Hiyou Shinnonome
Visual Studio による開発環境・プログラミングの進化
Visual Studio による開発環境・プログラミングの進化
Fujio Kojima
Tensor flow勉強会 (ayashiminagaranotensorflow)
Tensor flow勉強会 (ayashiminagaranotensorflow)
tak9029
Jubatusの紹介@第6回さくさくテキストマイニング
Jubatusの紹介@第6回さくさくテキストマイニング
Yuya Unno
Extract and edit
Extract and edit
禎晃 山崎
情報抽出入門 〜非構造化データを構造化させる技術〜
情報抽出入門 〜非構造化データを構造化させる技術〜
Yuya Unno
Chainerのテスト環境とDockerでのCUDAの利用
Chainerのテスト環境とDockerでのCUDAの利用
Yuya Unno
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
Shinnosuke Takamichi
15. Transformerを用いた言語処理技術の発展.pdf
15. Transformerを用いた言語処理技術の発展.pdf
幸太朗 岩澤
GPT
GPT
norimatsu5
no12.pptx
no12.pptx
Penguin49
ChatGPT Impact - その社会的/ビジネス価値を考える -
ChatGPT Impact - その社会的/ビジネス価値を考える -
Daiyu Hatakeyama
pkgsrc で gimp がアレだった件 - デマと放置と私
pkgsrc で gimp がアレだった件 - デマと放置と私
Akio OBATA
Weitere ähnliche Inhalte
Was ist angesagt?
Getting Started with Graph Database with Python
Getting Started with Graph Database with Python
ロフト くん
A Chainer MeetUp Talk
A Chainer MeetUp Talk
Yusuke Oda
introduce to Multimodal Deep Learning for Robust RGB-D Object Recognition
introduce to Multimodal Deep Learning for Robust RGB-D Object Recognition
WEBFARMER. ltd.
転移学習ランキング・ドメイン適応
転移学習ランキング・ドメイン適応
Elpo González Valbuena
Why python
Why python
Mikio Kubo
Why python
Why python
Mikio Kubo
S03 t2 sta_py_tsuji_0810_slides
S03 t2 sta_py_tsuji_0810_slides
Takeshi Akutsu
機械学習モデルフォーマットの話:さようならPMML、こんにちはPFA
機械学習モデルフォーマットの話:さようならPMML、こんにちはPFA
Shohei Hido
Facebookの人工知能アルゴリズム「memory networks」について調べてみた
Facebookの人工知能アルゴリズム「memory networks」について調べてみた
株式会社メタップスホールディングス
#nwstudy の紹介
#nwstudy の紹介
Hiyou Shinnonome
Visual Studio による開発環境・プログラミングの進化
Visual Studio による開発環境・プログラミングの進化
Fujio Kojima
Tensor flow勉強会 (ayashiminagaranotensorflow)
Tensor flow勉強会 (ayashiminagaranotensorflow)
tak9029
Jubatusの紹介@第6回さくさくテキストマイニング
Jubatusの紹介@第6回さくさくテキストマイニング
Yuya Unno
Extract and edit
Extract and edit
禎晃 山崎
情報抽出入門 〜非構造化データを構造化させる技術〜
情報抽出入門 〜非構造化データを構造化させる技術〜
Yuya Unno
Chainerのテスト環境とDockerでのCUDAの利用
Chainerのテスト環境とDockerでのCUDAの利用
Yuya Unno
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
Shinnosuke Takamichi
Was ist angesagt?
(17)
Getting Started with Graph Database with Python
Getting Started with Graph Database with Python
A Chainer MeetUp Talk
A Chainer MeetUp Talk
introduce to Multimodal Deep Learning for Robust RGB-D Object Recognition
introduce to Multimodal Deep Learning for Robust RGB-D Object Recognition
転移学習ランキング・ドメイン適応
転移学習ランキング・ドメイン適応
Why python
Why python
Why python
Why python
S03 t2 sta_py_tsuji_0810_slides
S03 t2 sta_py_tsuji_0810_slides
機械学習モデルフォーマットの話:さようならPMML、こんにちはPFA
機械学習モデルフォーマットの話:さようならPMML、こんにちはPFA
Facebookの人工知能アルゴリズム「memory networks」について調べてみた
Facebookの人工知能アルゴリズム「memory networks」について調べてみた
#nwstudy の紹介
#nwstudy の紹介
Visual Studio による開発環境・プログラミングの進化
Visual Studio による開発環境・プログラミングの進化
Tensor flow勉強会 (ayashiminagaranotensorflow)
Tensor flow勉強会 (ayashiminagaranotensorflow)
Jubatusの紹介@第6回さくさくテキストマイニング
Jubatusの紹介@第6回さくさくテキストマイニング
Extract and edit
Extract and edit
情報抽出入門 〜非構造化データを構造化させる技術〜
情報抽出入門 〜非構造化データを構造化させる技術〜
Chainerのテスト環境とDockerでのCUDAの利用
Chainerのテスト環境とDockerでのCUDAの利用
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
Ähnlich wie ElectraとpQRNNについて
15. Transformerを用いた言語処理技術の発展.pdf
15. Transformerを用いた言語処理技術の発展.pdf
幸太朗 岩澤
GPT
GPT
norimatsu5
no12.pptx
no12.pptx
Penguin49
ChatGPT Impact - その社会的/ビジネス価値を考える -
ChatGPT Impact - その社会的/ビジネス価値を考える -
Daiyu Hatakeyama
pkgsrc で gimp がアレだった件 - デマと放置と私
pkgsrc で gimp がアレだった件 - デマと放置と私
Akio OBATA
オープンソースのビッグデータ・IoT向け スケールアウト型データベースGridDBとPython連携 〜GridDBとPythonと私〜
オープンソースのビッグデータ・IoT向け スケールアウト型データベースGridDBとPython連携 〜GridDBとPythonと私〜
griddb
ChatGPTのLINEボット
ChatGPTのLINEボット
Hirokazu Tokuno
.NET micro FrameWork for TOPPERS (.NET基礎)@基礎勉強会
.NET micro FrameWork for TOPPERS (.NET基礎)@基礎勉強会
Kiyoshi Ogawa
Azure Machine Learning Build 2020
Azure Machine Learning Build 2020
Keita Onabuta
AI とデジタル変革
AI とデジタル変革
Osaka University
Ähnlich wie ElectraとpQRNNについて
(10)
15. Transformerを用いた言語処理技術の発展.pdf
15. Transformerを用いた言語処理技術の発展.pdf
GPT
GPT
no12.pptx
no12.pptx
ChatGPT Impact - その社会的/ビジネス価値を考える -
ChatGPT Impact - その社会的/ビジネス価値を考える -
pkgsrc で gimp がアレだった件 - デマと放置と私
pkgsrc で gimp がアレだった件 - デマと放置と私
オープンソースのビッグデータ・IoT向け スケールアウト型データベースGridDBとPython連携 〜GridDBとPythonと私〜
オープンソースのビッグデータ・IoT向け スケールアウト型データベースGridDBとPython連携 〜GridDBとPythonと私〜
ChatGPTのLINEボット
ChatGPTのLINEボット
.NET micro FrameWork for TOPPERS (.NET基礎)@基礎勉強会
.NET micro FrameWork for TOPPERS (.NET基礎)@基礎勉強会
Azure Machine Learning Build 2020
Azure Machine Learning Build 2020
AI とデジタル変革
AI とデジタル変革
ElectraとpQRNNについて
1.
ELECTRAと pQRNN BERTを超えて 濱野 莞月
2.
自然言語モデルの現状
3.
今、精度の高い自然言語モデル NLP(自然言語タスク)ではBERTやGPTなどの汎用言語モデルが高い精度を実現 MicrosoftはGPT-3の独占的ライセンスをOpenAIから取得(Ingite 2020で発表) https://s3-us-west-2.amazonaws.com/openai-assets/research- covers/language-unsupervised/language_understanding_pape r.pdf https://arxiv.org/pdf/1810.04805.pdf BERTの構成と事前/転移学習方法 GPTの構成と転移学習方法
4.
BERTが抱える課題 GPTはとても巨大なモデルで計算リソースの観点からBERTの方が利用頻度が高い しかしながらBERTにもいくつかの課題が残る https://arxiv.org/pdf/2003.10555.pdf https://ai-scholar.tech/articles/treatise/electra-ai-382 マスクされた単語を予測するMLM メジャーな自然言語モデルの速度と実行環境の一例 MLM:Masked Language Modeling(BERTの構築) 文章内で一部(15%程度)MASKされた単語を予測 マスクされていない単語はそのまま出力すれば正解となる ため、85%の単語が学習に活かされてない 転移学習時や推論時に、それなりの計算リソースを有する 環境(高価なGPUやTPU)を用意しなければいけない Train/Infer
FLOPs & Hardwear
5.
言語モデルの研究動向(2020年)
6.
最近の自然言語モデル 精度や速度の向上を目指し、2020年に発表された新たな自然言語モデルや手法 アプローチ 手法の名前 概要
発表時期 精度の改善 ELECTRA GANの仕組みに触発され、MLMに代わるRTD:Replaced Token Detection(置き換えられた単語の検出)を提案。BERTよりも少ない学習時間で 高い精度を実現 2020年5月 Longformer 局所的なAttentionとタスクに紐づいたGlobal Attentionの導入により、既存の Transformerよりも長い時系列が扱える 2020年4月 速度の改善 pQRNN 低次元に射影するレイヤーを使うPRADOをベースに、LSTMよりも高速な QRNNレイヤー組み込んだモデル。BERTと同じくらいの精度で、BERTよりもパ ラメータ数が大幅に削減(1/300)されたモデル。 2020年9月 Reformer LSH:Locality-Sensitive-Hashing(局所的鋭敏型ハッシュ)とReversible Residual Layerの導入により、既存のTransformerのメモリ効率を向上 2020年1月 (初版) 本日 ご紹介
7.
ELECTRA
8.
ELECTRAの作り方 GANの仕組みをベースにMLMの出力結果を利用したRTDを提案 学習済みDiscriminatorは汎用言語モデルとして様々なタスク用に転移学習可能 生成器(BERTなど) 識別器(ELECTRA本体) RTD:Replace
Token Detectionで作るELECTRAの事前学習 ほどほどの精度のMLMを使うことで、元の文章内の一部(15%程 度)の単語が、元の単語のままだったり、別の単語に置き換わったり する 文章内の各単語が、元の単語か置き換わった単語か予測 文章内の各単語に対して予測を行うため、全ての 単語をフルに学習に活用 https://arxiv.org/pdf/2003.10555.pdf
9.
ELECTRAがBERTの性能を上回る GLUEデータセットにおいては、XLNetの1/4の学習量で同程度のスコアを達成 他のデータセットにおいても、BERT系のモデルのスコアを上回ることがほとんど https://arxiv.org/pdf/2003.10555.pdf GLUEデータセットにおける精度比較 様々なデータセットにおける精度比較 https://ai.googleblog.com/2020/03/more-efficient-nlp-model-pre-training.html
10.
ELECTRAの使用方法 2020年5月のGoogle AI Blogでの発表時TensorFlow
v1でのコードとモデルが公開 2020年6月には日本語の事前学習済みELECTRAが公開 1. Googleが公開しているTensorFlow v1ベースのELECTRA https://github.com/google-research/electra 2. Huggin FaceのTransformersでのELECTRA https://huggingface.co/transformers/model_doc/electra.html 3. 株式会社シナモンが公開している日本語での事前学習済みELECTRA https://github.com/Cinnamon/electra_japanese
11.
pQRNN
12.
PRADO(pQRNNの元となったモデル) 単語を低次元に射影して埋め込むレイヤー(Projected Embedding Layer)を使用する ことで、200KB以下のモデルサイズを実現 https://www.aclweb.org/anthology/D19-1506.pdf Yelpデータセットで小型LSTMとの比較 PRADOの構造 ⇐射影&単語埋め込み層 ⇐畳み込み &アテンション層
13.
pQRNN PRADOをベースに、シーケンシャルデータの並列計算を可能にした QRNN:quasi-recurrent neural networkを使用したモデル BERTとほぼ同精度ながらもパラメータ数が300分の1に削減されたモデルを実現 https://ai.googleblog.com/2020/09/advancing-nlp-with-efficient-projection.html?utm_campaign=piqcy&utm_medium=email&utm_source=Revue%20newsletter civil_commentsデータセットでBERTとの比較 LSTM層、CNN層、QRNN層の違い
https://arxiv.org/pdf/1611.01576.pdf pQENNの構造
14.
まとめ 大抵は既存手法をベースにした新手 法が次々と発表されている いつ、どの手法がトレンドになっても、 すぐに対応できるよう、早めに基礎を 固めておくのは大切
Jetzt herunterladen