SlideShare ist ein Scribd-Unternehmen logo
1 von 23
Downloaden Sie, um offline zu lesen
©2018 ARISE analytics
2018/08/24
鶴野 瞬
論文読み会
Universal Language Model Fine-tuning for Text Classification
©2018 ARISE analytics 2
概要
タイトル: Universal Language Model Fine-tuning for Text Classification
著者: Jeremy Howard, Sebastian Ruder
https://arxiv.org/pdf/1801.06146.pdf
一言で言うと
すごい点
感想
大規模コーパスで学習させた言語モデルを転移学習させる
アノテーション無しの事前学習によって、分類タスクの精度が向
上
BERTなどに比べて精度向上幅は小さそうだが、少ない計算量で精
度改善できるのは魅力的
モチベーション 転移学習を使って高精度なテキスト分類モデルを簡単に作りたい
©2018 ARISE analytics 3
本日の論文
主旨:転移学習を用いて、少量のデータでも高精度のテキスト分類モデルを構築する手法
(ULMFiT)を開発した
出典: https://arxiv.org/pdf/1801.06146.pdf
Annual Meeting of the Association for Computational Linguistics (ACL 2018)に採択された
©2018 ARISE analytics 4
自然言語処理(NLP)とは
NLPとは、人間が日常的に使っている自然言語をコンピュータに処理させる一連の技術のことである。
典型的なタスクには、テキスト分類や機械翻訳、質疑応答などがある。
• NLPの典型的なタスクとその応用例
 機械翻訳: google翻訳
 情報検索: google検索
 言語モデリング: テキスト入力予測
 テキスト分類: 記事のカテゴリ分け
 質疑応答: チャットボット
©2018 ARISE analytics 5
教師データが少ないときの対処方法
NLPタスクに取り組んでいて、教師データの入手に苦労した。
教師データが少ないときの対処方法の一つに、転移学習(Transfer learning)がある
出典: http://publications.idiap.ch/downloads/papers/2011/Tommasi_CVPR2010.pdf
モデルの精度と訓練量の関係
©2018 ARISE analytics 6
転移学習とは
転移学習とは、あるタスク/ドメインで学習させたモデルを別のタスク/ドメインに適応させる技術のことで
ある
出典: https://www.cse.ust.hk/~qyang/Docs/2009/tkde_transfer_learning.pdf
通常の教師あり学習 転移学習
©2018 ARISE analytics 7
転移学習の方法
典型的な転移学習の方法は、深層学習(DL)モデルを大きなデータセットで訓練した後、タスク用の
データを使って出力近くの層を訓練し直すことである
出典: https://arxiv.org/pdf/1808.01974.pdf
©2018 ARISE analytics 8
NLPにおける転移学習の例: word2vec
NLPでよく使われる転移学習の例として、事前学習した単語ベクトルをモデルの入力層に用いることが
ある。しかし、単語レベルの情報しか転移できない。
出典: https://www.aclweb.org/anthology/N13-1090
性別 単数/複数
©2018 ARISE analytics 9
NLPにおける転移学習の例: CoVe
より高次の転移学習としては、機械翻訳モデルのエンコーダー部分の出力を使った例がある。
しかし、タスクごとにモデルを作る必要がある。
Learned in Translation: Contextualized Word Vectors https://arxiv.org/abs/1708.00107
©2018 ARISE analytics 10
言語モデルとは
言語モデルとは、ある単語列が与えられたときに次の単語を予測するモデルである。
教師ラベルを付与することなく構築でき、言語の高次な特徴を学習する。
※http://ruder.io/transfer-learning/index.html
言語モデル タスク 言語モデルが学習する(と思われる)特徴※
• 言語の構造
• 単語間の関係、共起しやすさ
• 文中で離れている単語間の依存
• etc
転移学習に用いられないか?
今日 の 昼食 は とんこつ __
• ラーメン 97%
• うどん 2%
• カレー 0.5%
• … …
予測
©2018 ARISE analytics 11
AWD-LSTM
AWD-LSTMはRNNを用いた高精度な言語モデルである。
本日の論文で用いられている。
※ https://arxiv.org/pdf/1708.02182.pdf
LSTM
LSTM
LSTM
モデルの構成 言語モデルの精度(perplexity)※
©2018 ARISE analytics 12
ULMFiT
本論文で提案されたULMFiTとは、大量のテキストを使って言語モデルを訓練した後、転移学習によっ
てタスク用の分類モデルを作成する汎用的な手法である。実現のために複数のテクニックを用いている。
出典: https://arxiv.org/pdf/1801.06146.pdf
言語モデル
事前訓練
言語モデル
fine-tuning
分類モデル
fine-tuning
WikiText-103
(1億個以上の単語)
タスクのテキスト タスクのテキスト+教師ラベル
使用
データ
テクニック
学習率を層によって変
える(Discriminative
fine-tuning)
学習率をイテレーション
よって変える(Slanted
triangular learning
rates)
出力層側から徐々に解
凍する(Gradual
unfreezing)
1
2
3
©2018 ARISE analytics 13
fine-tuningのテクニック
上記テクニックによって、事前学習で学んだことを忘れないようにしながら、分類タスクにモデルを最適化
させることを狙っている
学習率を層によって変える
(discr)
学習率をイテレーションよって変える
(stlr)
学
習
率
大
小
出力層側から徐々に解凍する
(freez)
解
凍
順
序
各層は異なる抽象度/情報を捉えるので、
それぞれに適した程度でチューニングする
モデルのパラメータをタスク特異的な特徴
に適応させるため、はじめにパラメータ空間
内の探索領域を大きく変え、その後にゆっ
くりと最適解を探索する
1 2 3
入力層に近いほど言語の一般的な情報
を捉えているので、それを忘れないように学
習する
©2018 ARISE analytics 14
分類タスク
試したタスクは、感情分析、質問分類、トピック分類の3種類(6データセット)。
データセットのサイズ、分類クラス数は様々。
©2018 ARISE analytics 15
ULMFiTモデルの分類精度
試したすべてのタスクにおいて、state-of-the-artの成績を達成した
©2018 ARISE analytics 16
小さなデータセットに対する精度
ULMFiTを使うと、ゼロからモデルを訓練する場合に比べて数分の1から数百分の1のサイズのデータ
セットで同等の精度を得られた
言語モデルのfine-tuning時に使用するデータによって、2つのシナリオを試している。supervised:ラベル付きデータ
のみ、 semi-supervised:全データ
fine-tuning用データのサイズと分類精度の関係
感情分析(IMDb) 質問分類(TREC-6) トピック分類(AG)
データサイズ 25k 5.5k 120k
©2018 ARISE analytics 17
言語モデル事前学習の効果
言語モデルの事前学習は、分類モデルの精度向上に有用である。
影響の程度は小さなデータセットで顕著である。
事前学習の有無による分類精度の違い
©2018 ARISE analytics 18
言語モデルの質の影響
言語モデルの質は分類モデルの精度に影響する。
影響の程度は小さなデータセットで顕著である。
Vanilla LMはAWD-LSTM LMからdropoutを除いたもの
モデル構成による分類精度の違い
©2018 ARISE analytics 19
言語モデルfine-tuningの効果
言語モデルのfine-tuningは、分類モデルの精度向上に有用である。
精度向上に学習率に関するテクニックが効果的である。
Fullは全層をfine-tuningすること
言語モデルfine-tuningの各テクニックが分類精度に与える影響 テクニック
学習率を層によって変
える(discr)
学習率をイテレーション
よって変える(stlr)
1
2
©2018 ARISE analytics 20
分類モデルfine-tuningの効果
分類モデルのfine-tuningは、分類モデルの精度向上に有用である。
精度向上に開発したテクニックが効果的である。
Fullは初めから全層を解凍してfine-tuningすること
分類モデルfine-tuningの各テクニックが分類精度に与える影響 テクニック
学習率を層によって変
える(discr)
学習率をイテレーション
よって変える(stlr)
出力層側から徐々に解
凍する(freez)
1
2
3
©2018 ARISE analytics 21
転移学習による忘却
分類モデルのfine-tuning時に上記のテクニックを使うことで、事前学習で学んだこと情報を忘れずに、
分類精度を向上させることができる
fine-tuning用データのサイズと分類精度の関係
感情分析(IMDb) 質問分類(TREC-6) トピック分類(AG)
テクニック有
テクニック無
学習エポック
エラー率
©2018 ARISE analytics 22
類似の取り組み
テキスト分類以外のタスク(含意、類似判定、Q&A)でも、言語モデルをベースにしたモデルを構築する
ことで高い精度が得られる
Improving Language Understanding by Generative Pre-Training
https://openai.com/blog/language-unsupervised/
モデル構成とタスク用fine-tuning 含意タスクに対するモデルの精度
• 注意機構を持ったモデル(Transformer)を使用した
• fine-tuning時にタスク用データの入力方法を工夫した
【論文読み会】Universal Language Model Fine-tuning for Text Classification

Weitere ähnliche Inhalte

Was ist angesagt?

Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門
Shuyo Nakatani
 
変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)
Takao Yamanaka
 
グラフィカルモデル入門
グラフィカルモデル入門グラフィカルモデル入門
グラフィカルモデル入門
Kawamoto_Kazuhiko
 

Was ist angesagt? (20)

Transformerを用いたAutoEncoderの設計と実験
Transformerを用いたAutoEncoderの設計と実験Transformerを用いたAutoEncoderの設計と実験
Transformerを用いたAutoEncoderの設計と実験
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
 
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings  (EMNLP 2021)【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings  (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
 
最適輸送入門
最適輸送入門最適輸送入門
最適輸送入門
 
強化学習その3
強化学習その3強化学習その3
強化学習その3
 
Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門
 
グラフィカル Lasso を用いた異常検知
グラフィカル Lasso を用いた異常検知グラフィカル Lasso を用いた異常検知
グラフィカル Lasso を用いた異常検知
 
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習
 
機械学習モデルのハイパパラメータ最適化
機械学習モデルのハイパパラメータ最適化機械学習モデルのハイパパラメータ最適化
機械学習モデルのハイパパラメータ最適化
 
Optimizer入門&最新動向
Optimizer入門&最新動向Optimizer入門&最新動向
Optimizer入門&最新動向
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!Transformer
 
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
 
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
 
Triplet Loss 徹底解説
Triplet Loss 徹底解説Triplet Loss 徹底解説
Triplet Loss 徹底解説
 
[DL輪読会]近年のエネルギーベースモデルの進展
[DL輪読会]近年のエネルギーベースモデルの進展[DL輪読会]近年のエネルギーベースモデルの進展
[DL輪読会]近年のエネルギーベースモデルの進展
 
最適輸送の解き方
最適輸送の解き方最適輸送の解き方
最適輸送の解き方
 
変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)
 
グラフィカルモデル入門
グラフィカルモデル入門グラフィカルモデル入門
グラフィカルモデル入門
 
[DL輪読会] マルチエージェント強化学習と心の理論
[DL輪読会] マルチエージェント強化学習と心の理論[DL輪読会] マルチエージェント強化学習と心の理論
[DL輪読会] マルチエージェント強化学習と心の理論
 
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてTransformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法について
 

Ähnlich wie 【論文読み会】Universal Language Model Fine-tuning for Text Classification

Ähnlich wie 【論文読み会】Universal Language Model Fine-tuning for Text Classification (9)

サービスのスケール化のための検索システム改善
サービスのスケール化のための検索システム改善サービスのスケール化のための検索システム改善
サービスのスケール化のための検索システム改善
 
商用運用管理ツールからHinemos ver.6.0へ ~ 事例、移行ソリューション紹介~
商用運用管理ツールからHinemos ver.6.0へ ~ 事例、移行ソリューション紹介~商用運用管理ツールからHinemos ver.6.0へ ~ 事例、移行ソリューション紹介~
商用運用管理ツールからHinemos ver.6.0へ ~ 事例、移行ソリューション紹介~
 
【論文読み会】Self-Attention Generative Adversarial Networks
【論文読み会】Self-Attention Generative  Adversarial Networks【論文読み会】Self-Attention Generative  Adversarial Networks
【論文読み会】Self-Attention Generative Adversarial Networks
 
転移学習ランキング・ドメイン適応
転移学習ランキング・ドメイン適応転移学習ランキング・ドメイン適応
転移学習ランキング・ドメイン適応
 
【論文読み会】Signing at Scale: Learning to Co-Articulate Signs for Large-Scale Pho...
【論文読み会】Signing at Scale: Learning to Co-Articulate  Signs for Large-Scale Pho...【論文読み会】Signing at Scale: Learning to Co-Articulate  Signs for Large-Scale Pho...
【論文読み会】Signing at Scale: Learning to Co-Articulate Signs for Large-Scale Pho...
 
Icml2018読み会_overview&GANs
Icml2018読み会_overview&GANsIcml2018読み会_overview&GANs
Icml2018読み会_overview&GANs
 
Erpと自然言語処理
Erpと自然言語処理Erpと自然言語処理
Erpと自然言語処理
 
言葉のもつ広がりを、モデルの学習に活かそう -one-hot to distribution in language modeling-
言葉のもつ広がりを、モデルの学習に活かそう -one-hot to distribution in language modeling-言葉のもつ広がりを、モデルの学習に活かそう -one-hot to distribution in language modeling-
言葉のもつ広がりを、モデルの学習に活かそう -one-hot to distribution in language modeling-
 
論文読み会 Data Augmentation for Low-Resource Neural Machine Translation
論文読み会 Data Augmentation for Low-Resource Neural Machine Translation論文読み会 Data Augmentation for Low-Resource Neural Machine Translation
論文読み会 Data Augmentation for Low-Resource Neural Machine Translation
 

Mehr von ARISE analytics

Mehr von ARISE analytics (19)

【第3回生成AIなんでもLT会資料】_動画生成AIと物理法則_v0.2.pptx
【第3回生成AIなんでもLT会資料】_動画生成AIと物理法則_v0.2.pptx【第3回生成AIなんでもLT会資料】_動画生成AIと物理法則_v0.2.pptx
【第3回生成AIなんでもLT会資料】_動画生成AIと物理法則_v0.2.pptx
 
【第3回】生成AIなんでもLT会 2024_0304なんでも生成AI_sergicalsix.pptx
【第3回】生成AIなんでもLT会 2024_0304なんでも生成AI_sergicalsix.pptx【第3回】生成AIなんでもLT会 2024_0304なんでも生成AI_sergicalsix.pptx
【第3回】生成AIなんでもLT会 2024_0304なんでも生成AI_sergicalsix.pptx
 
めんどうな環境構築とはおさらば!Dockerの概要と使い方
めんどうな環境構築とはおさらば!Dockerの概要と使い方めんどうな環境構築とはおさらば!Dockerの概要と使い方
めんどうな環境構築とはおさらば!Dockerの概要と使い方
 
【論文レベルで理解しよう!】​ 欠測値処理編​
【論文レベルで理解しよう!】​ 欠測値処理編​【論文レベルで理解しよう!】​ 欠測値処理編​
【論文レベルで理解しよう!】​ 欠測値処理編​
 
【論文レベルで理解しよう!】​ 大規模言語モデル(LLM)編​
【論文レベルで理解しよう!】​ 大規模言語モデル(LLM)編​【論文レベルで理解しよう!】​ 大規模言語モデル(LLM)編​
【論文レベルで理解しよう!】​ 大規模言語モデル(LLM)編​
 
Hierarchical Metadata-Aware Document Categorization under Weak Supervision​ (...
Hierarchical Metadata-Aware Document Categorization under Weak Supervision​ (...Hierarchical Metadata-Aware Document Categorization under Weak Supervision​ (...
Hierarchical Metadata-Aware Document Categorization under Weak Supervision​ (...
 
教師なしGNNによるIoTデバイスの異常通信検知の検討
教師なしGNNによるIoTデバイスの異常通信検知の検討教師なしGNNによるIoTデバイスの異常通信検知の検討
教師なしGNNによるIoTデバイスの異常通信検知の検討
 
【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri...
【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri...【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri...
【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri...
 
【論文読み会】Analytic-DPM_an Analytic Estimate of the Optimal Reverse Variance in D...
【論文読み会】Analytic-DPM_an Analytic Estimate of the Optimal Reverse Variance in D...【論文読み会】Analytic-DPM_an Analytic Estimate of the Optimal Reverse Variance in D...
【論文読み会】Analytic-DPM_an Analytic Estimate of the Optimal Reverse Variance in D...
 
【論文読み会】Autoregressive Diffusion Models.pptx
【論文読み会】Autoregressive Diffusion Models.pptx【論文読み会】Autoregressive Diffusion Models.pptx
【論文読み会】Autoregressive Diffusion Models.pptx
 
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx
 
【論文読み会】PiCO_Contrastive Label Disambiguation for Partial Label Learning.pptx
【論文読み会】PiCO_Contrastive Label Disambiguation for Partial Label Learning.pptx【論文読み会】PiCO_Contrastive Label Disambiguation for Partial Label Learning.pptx
【論文読み会】PiCO_Contrastive Label Disambiguation for Partial Label Learning.pptx
 
【論文読み会】Deep Reinforcement Learning at the Edge of the Statistical Precipice
【論文読み会】Deep Reinforcement Learning at the Edge of the Statistical Precipice【論文読み会】Deep Reinforcement Learning at the Edge of the Statistical Precipice
【論文読み会】Deep Reinforcement Learning at the Edge of the Statistical Precipice
 
【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)
【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)
【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)
 
【論文読み会】On the Expressivity of Markov Reward
【論文読み会】On the Expressivity of Markov Reward【論文読み会】On the Expressivity of Markov Reward
【論文読み会】On the Expressivity of Markov Reward
 
【論文読み会】MAUVE: Measuring the Gap Between Neural Text and Human Text using Dive...
【論文読み会】MAUVE: Measuring the Gap Between Neural Text and Human Text using Dive...【論文読み会】MAUVE: Measuring the Gap Between Neural Text and Human Text using Dive...
【論文読み会】MAUVE: Measuring the Gap Between Neural Text and Human Text using Dive...
 
【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds
【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds
【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds
 
Counterfaual Machine Learning(CFML)のサーベイ
Counterfaual Machine Learning(CFML)のサーベイCounterfaual Machine Learning(CFML)のサーベイ
Counterfaual Machine Learning(CFML)のサーベイ
 
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
 

【論文読み会】Universal Language Model Fine-tuning for Text Classification

  • 1. ©2018 ARISE analytics 2018/08/24 鶴野 瞬 論文読み会 Universal Language Model Fine-tuning for Text Classification
  • 2. ©2018 ARISE analytics 2 概要 タイトル: Universal Language Model Fine-tuning for Text Classification 著者: Jeremy Howard, Sebastian Ruder https://arxiv.org/pdf/1801.06146.pdf 一言で言うと すごい点 感想 大規模コーパスで学習させた言語モデルを転移学習させる アノテーション無しの事前学習によって、分類タスクの精度が向 上 BERTなどに比べて精度向上幅は小さそうだが、少ない計算量で精 度改善できるのは魅力的 モチベーション 転移学習を使って高精度なテキスト分類モデルを簡単に作りたい
  • 3. ©2018 ARISE analytics 3 本日の論文 主旨:転移学習を用いて、少量のデータでも高精度のテキスト分類モデルを構築する手法 (ULMFiT)を開発した 出典: https://arxiv.org/pdf/1801.06146.pdf Annual Meeting of the Association for Computational Linguistics (ACL 2018)に採択された
  • 4. ©2018 ARISE analytics 4 自然言語処理(NLP)とは NLPとは、人間が日常的に使っている自然言語をコンピュータに処理させる一連の技術のことである。 典型的なタスクには、テキスト分類や機械翻訳、質疑応答などがある。 • NLPの典型的なタスクとその応用例  機械翻訳: google翻訳  情報検索: google検索  言語モデリング: テキスト入力予測  テキスト分類: 記事のカテゴリ分け  質疑応答: チャットボット
  • 5. ©2018 ARISE analytics 5 教師データが少ないときの対処方法 NLPタスクに取り組んでいて、教師データの入手に苦労した。 教師データが少ないときの対処方法の一つに、転移学習(Transfer learning)がある 出典: http://publications.idiap.ch/downloads/papers/2011/Tommasi_CVPR2010.pdf モデルの精度と訓練量の関係
  • 6. ©2018 ARISE analytics 6 転移学習とは 転移学習とは、あるタスク/ドメインで学習させたモデルを別のタスク/ドメインに適応させる技術のことで ある 出典: https://www.cse.ust.hk/~qyang/Docs/2009/tkde_transfer_learning.pdf 通常の教師あり学習 転移学習
  • 7. ©2018 ARISE analytics 7 転移学習の方法 典型的な転移学習の方法は、深層学習(DL)モデルを大きなデータセットで訓練した後、タスク用の データを使って出力近くの層を訓練し直すことである 出典: https://arxiv.org/pdf/1808.01974.pdf
  • 8. ©2018 ARISE analytics 8 NLPにおける転移学習の例: word2vec NLPでよく使われる転移学習の例として、事前学習した単語ベクトルをモデルの入力層に用いることが ある。しかし、単語レベルの情報しか転移できない。 出典: https://www.aclweb.org/anthology/N13-1090 性別 単数/複数
  • 9. ©2018 ARISE analytics 9 NLPにおける転移学習の例: CoVe より高次の転移学習としては、機械翻訳モデルのエンコーダー部分の出力を使った例がある。 しかし、タスクごとにモデルを作る必要がある。 Learned in Translation: Contextualized Word Vectors https://arxiv.org/abs/1708.00107
  • 10. ©2018 ARISE analytics 10 言語モデルとは 言語モデルとは、ある単語列が与えられたときに次の単語を予測するモデルである。 教師ラベルを付与することなく構築でき、言語の高次な特徴を学習する。 ※http://ruder.io/transfer-learning/index.html 言語モデル タスク 言語モデルが学習する(と思われる)特徴※ • 言語の構造 • 単語間の関係、共起しやすさ • 文中で離れている単語間の依存 • etc 転移学習に用いられないか? 今日 の 昼食 は とんこつ __ • ラーメン 97% • うどん 2% • カレー 0.5% • … … 予測
  • 11. ©2018 ARISE analytics 11 AWD-LSTM AWD-LSTMはRNNを用いた高精度な言語モデルである。 本日の論文で用いられている。 ※ https://arxiv.org/pdf/1708.02182.pdf LSTM LSTM LSTM モデルの構成 言語モデルの精度(perplexity)※
  • 12. ©2018 ARISE analytics 12 ULMFiT 本論文で提案されたULMFiTとは、大量のテキストを使って言語モデルを訓練した後、転移学習によっ てタスク用の分類モデルを作成する汎用的な手法である。実現のために複数のテクニックを用いている。 出典: https://arxiv.org/pdf/1801.06146.pdf 言語モデル 事前訓練 言語モデル fine-tuning 分類モデル fine-tuning WikiText-103 (1億個以上の単語) タスクのテキスト タスクのテキスト+教師ラベル 使用 データ テクニック 学習率を層によって変 える(Discriminative fine-tuning) 学習率をイテレーション よって変える(Slanted triangular learning rates) 出力層側から徐々に解 凍する(Gradual unfreezing) 1 2 3
  • 13. ©2018 ARISE analytics 13 fine-tuningのテクニック 上記テクニックによって、事前学習で学んだことを忘れないようにしながら、分類タスクにモデルを最適化 させることを狙っている 学習率を層によって変える (discr) 学習率をイテレーションよって変える (stlr) 学 習 率 大 小 出力層側から徐々に解凍する (freez) 解 凍 順 序 各層は異なる抽象度/情報を捉えるので、 それぞれに適した程度でチューニングする モデルのパラメータをタスク特異的な特徴 に適応させるため、はじめにパラメータ空間 内の探索領域を大きく変え、その後にゆっ くりと最適解を探索する 1 2 3 入力層に近いほど言語の一般的な情報 を捉えているので、それを忘れないように学 習する
  • 14. ©2018 ARISE analytics 14 分類タスク 試したタスクは、感情分析、質問分類、トピック分類の3種類(6データセット)。 データセットのサイズ、分類クラス数は様々。
  • 15. ©2018 ARISE analytics 15 ULMFiTモデルの分類精度 試したすべてのタスクにおいて、state-of-the-artの成績を達成した
  • 16. ©2018 ARISE analytics 16 小さなデータセットに対する精度 ULMFiTを使うと、ゼロからモデルを訓練する場合に比べて数分の1から数百分の1のサイズのデータ セットで同等の精度を得られた 言語モデルのfine-tuning時に使用するデータによって、2つのシナリオを試している。supervised:ラベル付きデータ のみ、 semi-supervised:全データ fine-tuning用データのサイズと分類精度の関係 感情分析(IMDb) 質問分類(TREC-6) トピック分類(AG) データサイズ 25k 5.5k 120k
  • 17. ©2018 ARISE analytics 17 言語モデル事前学習の効果 言語モデルの事前学習は、分類モデルの精度向上に有用である。 影響の程度は小さなデータセットで顕著である。 事前学習の有無による分類精度の違い
  • 18. ©2018 ARISE analytics 18 言語モデルの質の影響 言語モデルの質は分類モデルの精度に影響する。 影響の程度は小さなデータセットで顕著である。 Vanilla LMはAWD-LSTM LMからdropoutを除いたもの モデル構成による分類精度の違い
  • 19. ©2018 ARISE analytics 19 言語モデルfine-tuningの効果 言語モデルのfine-tuningは、分類モデルの精度向上に有用である。 精度向上に学習率に関するテクニックが効果的である。 Fullは全層をfine-tuningすること 言語モデルfine-tuningの各テクニックが分類精度に与える影響 テクニック 学習率を層によって変 える(discr) 学習率をイテレーション よって変える(stlr) 1 2
  • 20. ©2018 ARISE analytics 20 分類モデルfine-tuningの効果 分類モデルのfine-tuningは、分類モデルの精度向上に有用である。 精度向上に開発したテクニックが効果的である。 Fullは初めから全層を解凍してfine-tuningすること 分類モデルfine-tuningの各テクニックが分類精度に与える影響 テクニック 学習率を層によって変 える(discr) 学習率をイテレーション よって変える(stlr) 出力層側から徐々に解 凍する(freez) 1 2 3
  • 21. ©2018 ARISE analytics 21 転移学習による忘却 分類モデルのfine-tuning時に上記のテクニックを使うことで、事前学習で学んだこと情報を忘れずに、 分類精度を向上させることができる fine-tuning用データのサイズと分類精度の関係 感情分析(IMDb) 質問分類(TREC-6) トピック分類(AG) テクニック有 テクニック無 学習エポック エラー率
  • 22. ©2018 ARISE analytics 22 類似の取り組み テキスト分類以外のタスク(含意、類似判定、Q&A)でも、言語モデルをベースにしたモデルを構築する ことで高い精度が得られる Improving Language Understanding by Generative Pre-Training https://openai.com/blog/language-unsupervised/ モデル構成とタスク用fine-tuning 含意タスクに対するモデルの精度 • 注意機構を持ったモデル(Transformer)を使用した • fine-tuning時にタスク用データの入力方法を工夫した