Weitere ähnliche Inhalte
Ähnlich wie 【論文読み会】Universal Language Model Fine-tuning for Text Classification (9)
Mehr von ARISE analytics (19)
【論文読み会】Universal Language Model Fine-tuning for Text Classification
- 2. ©2018 ARISE analytics 2
概要
タイトル: Universal Language Model Fine-tuning for Text Classification
著者: Jeremy Howard, Sebastian Ruder
https://arxiv.org/pdf/1801.06146.pdf
一言で言うと
すごい点
感想
大規模コーパスで学習させた言語モデルを転移学習させる
アノテーション無しの事前学習によって、分類タスクの精度が向
上
BERTなどに比べて精度向上幅は小さそうだが、少ない計算量で精
度改善できるのは魅力的
モチベーション 転移学習を使って高精度なテキスト分類モデルを簡単に作りたい
- 3. ©2018 ARISE analytics 3
本日の論文
主旨:転移学習を用いて、少量のデータでも高精度のテキスト分類モデルを構築する手法
(ULMFiT)を開発した
出典: https://arxiv.org/pdf/1801.06146.pdf
Annual Meeting of the Association for Computational Linguistics (ACL 2018)に採択された
- 4. ©2018 ARISE analytics 4
自然言語処理(NLP)とは
NLPとは、人間が日常的に使っている自然言語をコンピュータに処理させる一連の技術のことである。
典型的なタスクには、テキスト分類や機械翻訳、質疑応答などがある。
• NLPの典型的なタスクとその応用例
機械翻訳: google翻訳
情報検索: google検索
言語モデリング: テキスト入力予測
テキスト分類: 記事のカテゴリ分け
質疑応答: チャットボット
- 5. ©2018 ARISE analytics 5
教師データが少ないときの対処方法
NLPタスクに取り組んでいて、教師データの入手に苦労した。
教師データが少ないときの対処方法の一つに、転移学習(Transfer learning)がある
出典: http://publications.idiap.ch/downloads/papers/2011/Tommasi_CVPR2010.pdf
モデルの精度と訓練量の関係
- 6. ©2018 ARISE analytics 6
転移学習とは
転移学習とは、あるタスク/ドメインで学習させたモデルを別のタスク/ドメインに適応させる技術のことで
ある
出典: https://www.cse.ust.hk/~qyang/Docs/2009/tkde_transfer_learning.pdf
通常の教師あり学習 転移学習
- 7. ©2018 ARISE analytics 7
転移学習の方法
典型的な転移学習の方法は、深層学習(DL)モデルを大きなデータセットで訓練した後、タスク用の
データを使って出力近くの層を訓練し直すことである
出典: https://arxiv.org/pdf/1808.01974.pdf
- 8. ©2018 ARISE analytics 8
NLPにおける転移学習の例: word2vec
NLPでよく使われる転移学習の例として、事前学習した単語ベクトルをモデルの入力層に用いることが
ある。しかし、単語レベルの情報しか転移できない。
出典: https://www.aclweb.org/anthology/N13-1090
性別 単数/複数
- 9. ©2018 ARISE analytics 9
NLPにおける転移学習の例: CoVe
より高次の転移学習としては、機械翻訳モデルのエンコーダー部分の出力を使った例がある。
しかし、タスクごとにモデルを作る必要がある。
Learned in Translation: Contextualized Word Vectors https://arxiv.org/abs/1708.00107
- 10. ©2018 ARISE analytics 10
言語モデルとは
言語モデルとは、ある単語列が与えられたときに次の単語を予測するモデルである。
教師ラベルを付与することなく構築でき、言語の高次な特徴を学習する。
※http://ruder.io/transfer-learning/index.html
言語モデル タスク 言語モデルが学習する(と思われる)特徴※
• 言語の構造
• 単語間の関係、共起しやすさ
• 文中で離れている単語間の依存
• etc
転移学習に用いられないか?
今日 の 昼食 は とんこつ __
• ラーメン 97%
• うどん 2%
• カレー 0.5%
• … …
予測
- 11. ©2018 ARISE analytics 11
AWD-LSTM
AWD-LSTMはRNNを用いた高精度な言語モデルである。
本日の論文で用いられている。
※ https://arxiv.org/pdf/1708.02182.pdf
LSTM
LSTM
LSTM
モデルの構成 言語モデルの精度(perplexity)※
- 12. ©2018 ARISE analytics 12
ULMFiT
本論文で提案されたULMFiTとは、大量のテキストを使って言語モデルを訓練した後、転移学習によっ
てタスク用の分類モデルを作成する汎用的な手法である。実現のために複数のテクニックを用いている。
出典: https://arxiv.org/pdf/1801.06146.pdf
言語モデル
事前訓練
言語モデル
fine-tuning
分類モデル
fine-tuning
WikiText-103
(1億個以上の単語)
タスクのテキスト タスクのテキスト+教師ラベル
使用
データ
テクニック
学習率を層によって変
える(Discriminative
fine-tuning)
学習率をイテレーション
よって変える(Slanted
triangular learning
rates)
出力層側から徐々に解
凍する(Gradual
unfreezing)
1
2
3
- 13. ©2018 ARISE analytics 13
fine-tuningのテクニック
上記テクニックによって、事前学習で学んだことを忘れないようにしながら、分類タスクにモデルを最適化
させることを狙っている
学習率を層によって変える
(discr)
学習率をイテレーションよって変える
(stlr)
学
習
率
大
小
出力層側から徐々に解凍する
(freez)
解
凍
順
序
各層は異なる抽象度/情報を捉えるので、
それぞれに適した程度でチューニングする
モデルのパラメータをタスク特異的な特徴
に適応させるため、はじめにパラメータ空間
内の探索領域を大きく変え、その後にゆっ
くりと最適解を探索する
1 2 3
入力層に近いほど言語の一般的な情報
を捉えているので、それを忘れないように学
習する
- 16. ©2018 ARISE analytics 16
小さなデータセットに対する精度
ULMFiTを使うと、ゼロからモデルを訓練する場合に比べて数分の1から数百分の1のサイズのデータ
セットで同等の精度を得られた
言語モデルのfine-tuning時に使用するデータによって、2つのシナリオを試している。supervised:ラベル付きデータ
のみ、 semi-supervised:全データ
fine-tuning用データのサイズと分類精度の関係
感情分析(IMDb) 質問分類(TREC-6) トピック分類(AG)
データサイズ 25k 5.5k 120k
- 17. ©2018 ARISE analytics 17
言語モデル事前学習の効果
言語モデルの事前学習は、分類モデルの精度向上に有用である。
影響の程度は小さなデータセットで顕著である。
事前学習の有無による分類精度の違い
- 18. ©2018 ARISE analytics 18
言語モデルの質の影響
言語モデルの質は分類モデルの精度に影響する。
影響の程度は小さなデータセットで顕著である。
Vanilla LMはAWD-LSTM LMからdropoutを除いたもの
モデル構成による分類精度の違い
- 19. ©2018 ARISE analytics 19
言語モデルfine-tuningの効果
言語モデルのfine-tuningは、分類モデルの精度向上に有用である。
精度向上に学習率に関するテクニックが効果的である。
Fullは全層をfine-tuningすること
言語モデルfine-tuningの各テクニックが分類精度に与える影響 テクニック
学習率を層によって変
える(discr)
学習率をイテレーション
よって変える(stlr)
1
2
- 20. ©2018 ARISE analytics 20
分類モデルfine-tuningの効果
分類モデルのfine-tuningは、分類モデルの精度向上に有用である。
精度向上に開発したテクニックが効果的である。
Fullは初めから全層を解凍してfine-tuningすること
分類モデルfine-tuningの各テクニックが分類精度に与える影響 テクニック
学習率を層によって変
える(discr)
学習率をイテレーション
よって変える(stlr)
出力層側から徐々に解
凍する(freez)
1
2
3
- 21. ©2018 ARISE analytics 21
転移学習による忘却
分類モデルのfine-tuning時に上記のテクニックを使うことで、事前学習で学んだこと情報を忘れずに、
分類精度を向上させることができる
fine-tuning用データのサイズと分類精度の関係
感情分析(IMDb) 質問分類(TREC-6) トピック分類(AG)
テクニック有
テクニック無
学習エポック
エラー率
- 22. ©2018 ARISE analytics 22
類似の取り組み
テキスト分類以外のタスク(含意、類似判定、Q&A)でも、言語モデルをベースにしたモデルを構築する
ことで高い精度が得られる
Improving Language Understanding by Generative Pre-Training
https://openai.com/blog/language-unsupervised/
モデル構成とタスク用fine-tuning 含意タスクに対するモデルの精度
• 注意機構を持ったモデル(Transformer)を使用した
• fine-tuning時にタスク用データの入力方法を工夫した