【論文読み会】Universal Language Model Fine-tuning for Text Classification

©2018 ARISE analytics
2018/08/24
鶴野瞬
論文読み会
Universal Language Model Fine-tuning for Text Classification

©2018 ARISE analytics 2
概要
タイトル: Universal Language Model Fine-tuning for Text Classification
著者: Jeremy Howard, Sebastian Ruder
https://arxiv.org/pdf/1801.06146.pdf
一言で言うと
すごい点
感想
大規模コーパスで学習させた言語モデルを転移学習させる
アノテーション無しの事前学習によって、分類タスクの精度が向
上
BERTなどに比べて精度向上幅は小さそうだが、少ない計算量で精
度改善できるのは魅力的
モチベーション転移学習を使って高精度なテキスト分類モデルを簡単に作りたい

本日の論文
主旨：転移学習を用いて、少量のデータでも高精度のテキスト分類モデルを構築する手法
(ULMFiT)を開発した
出典： https://arxiv.org/pdf/1801.06146.pdf
Annual Meeting of the Association for Computational Linguistics (ACL 2018)に採択された

自然言語処理(NLP)とは
NLPとは、人間が日常的に使っている自然言語をコンピュータに処理させる一連の技術のことである。
典型的なタスクには、テキスト分類や機械翻訳、質疑応答などがある。
• NLPの典型的なタスクとその応用例
 機械翻訳: google翻訳
 情報検索: google検索
 言語モデリング: テキスト入力予測
 テキスト分類: 記事のカテゴリ分け
 質疑応答: チャットボット

教師データが少ないときの対処方法
NLPタスクに取り組んでいて、教師データの入手に苦労した。
教師データが少ないときの対処方法の一つに、転移学習(Transfer learning)がある
出典： http://publications.idiap.ch/downloads/papers/2011/Tommasi_CVPR2010.pdf
モデルの精度と訓練量の関係

転移学習とは
転移学習とは、あるタスク/ドメインで学習させたモデルを別のタスク/ドメインに適応させる技術のことで
ある
出典： https://www.cse.ust.hk/~qyang/Docs/2009/tkde_transfer_learning.pdf
通常の教師あり学習転移学習

転移学習の方法
典型的な転移学習の方法は、深層学習(DL)モデルを大きなデータセットで訓練した後、タスク用の
データを使って出力近くの層を訓練し直すことである

NLPにおける転移学習の例: word2vec
NLPでよく使われる転移学習の例として、事前学習した単語ベクトルをモデルの入力層に用いることが
ある。しかし、単語レベルの情報しか転移できない。
出典： https://www.aclweb.org/anthology/N13-1090
性別単数/複数

NLPにおける転移学習の例: CoVe
より高次の転移学習としては、機械翻訳モデルのエンコーダー部分の出力を使った例がある。
しかし、タスクごとにモデルを作る必要がある。
Learned in Translation: Contextualized Word Vectors https://arxiv.org/abs/1708.00107

言語モデルとは
言語モデルとは、ある単語列が与えられたときに次の単語を予測するモデルである。
教師ラベルを付与することなく構築でき、言語の高次な特徴を学習する。
※http://ruder.io/transfer-learning/index.html
言語モデルタスク言語モデルが学習する（と思われる）特徴※
• 言語の構造
• 単語間の関係、共起しやすさ
• 文中で離れている単語間の依存
• etc
転移学習に用いられないか？
今日の昼食はとんこつ＿＿
• ラーメン 97%
• うどん 2%
• カレー 0.5%
• … …
予測

AWD-LSTM
AWD-LSTMはRNNを用いた高精度な言語モデルである。
本日の論文で用いられている。
※ https://arxiv.org/pdf/1708.02182.pdf
LSTM
LSTM
LSTM
モデルの構成言語モデルの精度(perplexity)※

ULMFiT
本論文で提案されたULMFiTとは、大量のテキストを使って言語モデルを訓練した後、転移学習によっ
てタスク用の分類モデルを作成する汎用的な手法である。実現のために複数のテクニックを用いている。
言語モデル
事前訓練
言語モデル
fine-tuning
分類モデル
fine-tuning
WikiText-103
(1億個以上の単語)
タスクのテキストタスクのテキスト＋教師ラベル
使用
データ
テクニック
学習率を層によって変
える(Discriminative
fine-tuning)
学習率をイテレーション
よって変える(Slanted
triangular learning
rates)
出力層側から徐々に解
凍する(Gradual
unfreezing)
1
2
3

fine-tuningのテクニック
上記テクニックによって、事前学習で学んだことを忘れないようにしながら、分類タスクにモデルを最適化
させることを狙っている
学習率を層によって変える
(discr)
学習率をイテレーションよって変える
(stlr)
学
習
率
大
小
出力層側から徐々に解凍する
(freez)
解
凍
順
序
各層は異なる抽象度/情報を捉えるので、
それぞれに適した程度でチューニングする
モデルのパラメータをタスク特異的な特徴
に適応させるため、はじめにパラメータ空間
内の探索領域を大きく変え、その後にゆっ
くりと最適解を探索する
1 2 3
入力層に近いほど言語の一般的な情報
を捉えているので、それを忘れないように学
習する

分類タスク
試したタスクは、感情分析、質問分類、トピック分類の3種類（６データセット）。
データセットのサイズ、分類クラス数は様々。

ULMFiTモデルの分類精度
試したすべてのタスクにおいて、state-of-the-artの成績を達成した

小さなデータセットに対する精度
ULMFiTを使うと、ゼロからモデルを訓練する場合に比べて数分の1から数百分の１のサイズのデータ
セットで同等の精度を得られた
言語モデルのfine-tuning時に使用するデータによって、2つのシナリオを試している。supervised：ラベル付きデータ
のみ、 semi-supervised：全データ
fine-tuning用データのサイズと分類精度の関係
感情分析(IMDb) 質問分類(TREC-6) トピック分類(AG)
データサイズ 25k 5.5k 120k

言語モデル事前学習の効果
言語モデルの事前学習は、分類モデルの精度向上に有用である。
影響の程度は小さなデータセットで顕著である。
事前学習の有無による分類精度の違い

言語モデルの質の影響
言語モデルの質は分類モデルの精度に影響する。
影響の程度は小さなデータセットで顕著である。
Vanilla LMはAWD-LSTM LMからdropoutを除いたもの
モデル構成による分類精度の違い

言語モデルfine-tuningの効果
言語モデルのfine-tuningは、分類モデルの精度向上に有用である。
精度向上に学習率に関するテクニックが効果的である。
Fullは全層をfine-tuningすること
言語モデルfine-tuningの各テクニックが分類精度に与える影響テクニック
える(discr)
よって変える(stlr)
1
2

分類モデルfine-tuningの効果
分類モデルのfine-tuningは、分類モデルの精度向上に有用である。
精度向上に開発したテクニックが効果的である。
Fullは初めから全層を解凍してfine-tuningすること
分類モデルfine-tuningの各テクニックが分類精度に与える影響テクニック
える(discr)
よって変える(stlr)
出力層側から徐々に解
凍する(freez)
1
2
3

転移学習による忘却
分類モデルのfine-tuning時に上記のテクニックを使うことで、事前学習で学んだこと情報を忘れずに、
分類精度を向上させることができる
fine-tuning用データのサイズと分類精度の関係
感情分析(IMDb) 質問分類(TREC-6) トピック分類(AG)
テクニック有
テクニック無
学習エポック
エラー率

類似の取り組み
テキスト分類以外のタスク(含意、類似判定、Q&A)でも、言語モデルをベースにしたモデルを構築する
ことで高い精度が得られる
Improving Language Understanding by Generative Pre-Training
https://openai.com/blog/language-unsupervised/
モデル構成とタスク用fine-tuning 含意タスクに対するモデルの精度
• 注意機構を持ったモデル(Transformer)を使用した
• fine-tuning時にタスク用データの入力方法を工夫した

【論文読み会】Universal Language Model Fine-tuning for Text Classification

【論文読み会】Universal Language Model Fine-tuning for Text Classification

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Ähnlich wie 【論文読み会】Universal Language Model Fine-tuning for Text Classification

Ähnlich wie 【論文読み会】Universal Language Model Fine-tuning for Text Classification (9)

Mehr von ARISE analytics

Mehr von ARISE analytics (19)

【論文読み会】Universal Language Model Fine-tuning for Text Classification