BERT を中心に解説した資料です.BERT に比べると,XLNet と RoBERTa の内容は詳細に追ってないです.
あと,自作の図は上から下ですが,引っ張ってきた図は下から上になっているので注意してください.
もし間違い等あったら修正するので,言ってください.
(特に,RoBERTa の英語を読み間違えがちょっと怖いです.言い訳すいません.)
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
XLNet: Generalized Autoregressive Pretraining for Language Understanding
RoBERTa: A Robustly Optimized BERT Pretraining Approach
1. BERT+α(BERT[1], XLNet [20], RoBERTa [21])
2019/09/26
1
[1] Devlin, Jacob, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. "Bert: Pre-training of deep bidirectional
transformers for language understanding." arXiv preprint arXiv:1810.04805 (2018).
[20] Yang, Zhilin, Zihang Dai, Yiming Yang, Jaime Carbonell, Ruslan Salakhutdinov, and Quoc V. Le. "XLNet:
Generalized Autoregressive Pretraining for Language Understanding." arXiv preprint arXiv:1906.08237 (2019).
[21] Liu, Yinhan, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke
Zettlemoyer, and Veselin Stoyanov. "Roberta: A robustly optimized BERT pretraining approach." arXiv preprint
arXiv:1907.11692 (2019).
2. 最近,盛んになっている pre-training モデルの紹介
◆ BERT: Pre-training of Deep Bidirectional Transformers
for Language Understanding
◆ XLNet: Generalized Autoregressive Pretraining for
Language Understanding
◆ RoBERTa: A Robustly Optimized BERT Pretraining Approach
2
本日の内容
本スライドは BERT を中心に,最近の動向についても紹介
※BERT 以外は詳細には追っていません
BERT の検証とチューニング
3. BERT: Pre-training of
Deep Bidirectional Transformers
for Language Understanding[1]
3
[1] Devlin, Jacob, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. "Bert: Pre-training of deep
bidirectional transformers for language understanding." arXiv preprint arXiv:1810.04805 (2018).
NAACL 2019 BEST PAPER
Google AI
5. 5
事前学習の流行
事前学習(pre-training)を応用タスクに用いる方法として
◆ feature-based アプローチ
(追加の)特徴量として使用し,応用タスクを学習
◆ fine-tuning アプローチ(転移学習)
タスク固有の最小限の構造を追加し,応用タスクを学習
翻訳モデルの学習前に言語モデルを学習し重みを利用[2]
※言語モデルは通常のコーパス(≠対訳データ)で学習
言語モデルによる事前学習は様々なタスクで効果を発揮
[2] Dai, Andrew M., and Quoc V. Le. "Semi-supervised sequence learning." In Advances in neural information
processing systems, pp. 3079-3087. 2015.
13. 1つの文と関連のある連続した文を区別した入力形式
◆ WordPiece によってサブワード化された token
◆ CLS: 分類(classification)タスク用の token
⇒ CLS の末端の隠れ層を使用して分類
◆ SEP: 文章の区切り(separation)を示す token
⇒ SEP が間に挟まっている = 連続した文の塊
◆ 最大系列長は512
13
入力に使う token
[CLS] my dog is my [SEP] he likes play # #ing [SEP]Input
playing のサブワード[CLS] に対する出力を分類に使用
sentence A sentence B
14. 3種類の埋め込み表現を合計(≠結合)し,入力表現を作成
◆ Token Embeddings: token に対する埋め込み表現
◆ Segment Embeddings: token の登場する文を示す情報
◆ Position Embeddings: token の文中における位置情報
14
入力表現
[CLS]
E[CLS]
EA
E0
+
+
my
Emy
EA
E1
+
+
dog
Edog
EA
E2
+
+
is
Eis
EA
E3
+
+
my
Ecute
EA
E4
+
+
[SEP]
E[SEP]
EA
E5
+
+
he
Ehe
EB
E6
+
+
likes
Elikes
EB
E7
+
+
play
Eplay
EB
E8
+
+
# #ing
E# #ing
EB
E9
+
+
[SEP]
E[SEP]
EB
E10
+
+
Input
Token
Embeddings
Segment
Embeddings
Position
Embeddings
15. Masked Language Model (MLM)は 𝑐𝑙𝑜𝑧𝑒 テストに類似
15
事前学習
Masked Language Model
◆ 直感的に,一方向よりも双方向モデルの方が良さそう
◆ 双方向モデルでは関節的に「自分自身」の情報が混入
⇒ ランダムにマスクされた単語(≠次の単語)を予測
𝑐𝑙𝑜𝑧𝑒 テスト[12] マスクした単語の予測
the man _____ to the store the man [MASK] to the store
MLM: [MASK] = goes, went などと予測するモデル
※マスクされた単語のみ予測するため,auto-encoder とは別物
goes, went, …goes, went, …
16. 16
事前学習
マスク時の対策
マスクによる新たな課題
◆ マスクした割合しか学習できず,必要な学習回数が増加
◆ [MASK] は応用タスクには存在せず,MLM 固有の token
[MASK] の影響を緩和するため,3種のマスク方法を用意
ランダムに全体の15%をマスクし,マスク方法は知らせず学習
マスク方法 割合 マスク結果(原文:my dog is hairy)
[MASK]による単語の置き換え 80% my dog is [MASK]
ランダムな単語による置き換え 10% my dog is apple
そのまま(正例へのバイアス) 10% my dog is hairy
17. ◆ 通常の言語モデルでは文章間の関係の取得が困難
◆ 質問応答などのタスクでは文章間の関係が重要
⇒ 事前学習時に,文章が連続しているかの2値分類
17
事前学習
Next Sentence Prediction (NSP)
正例と負例を50%ずつの割合で作成し,分類モデルを学習
[CLS] the man [MASK] to the store [SEP]
penguin [MASK] are flight # #less birds [SEP]
Input: Input:
Label: NotNext(負例)
[CLS] the man went to [MASK] store [SEP]
he bought a gallon [MASK] milk [SEP]
Label: IsNext(正例)
事前学習モデルは98%の精度で分類可能
正例: sentence A に続く文 負例: ランダムに取得した文
事前学習モデルは98%の精度で分類可能
24. 24
GLUE とは
GLUE:言語理解の8つのタスクで構成された評価方法
◆Train/Dev/Test に分割されたデータセット
◆Test データのラベルは非公開で,評価サーバ上でテスト
e.g. MNLI (前提・仮説の関係が含意/矛盾/中立かを予測)
e.g. SST-2 (映画レビューの2値文分類)
Premise(前提) Hypothesis(仮説) Label
At the other end of Pennsylvania
Avenue, people began to line up for
a White House tour.
People formed a line at the
end of Pennsylvania Avenue.
entailment
レビュー Label
This is one of polanski's best films. 1 (positive)
No movement, no yuks, not much of anything. 0 (negative)
27. ◆ Input Question:
When were the Normans in Normandy?
◆ Input Paragraph:
The Normans …. were the people who in the 10th and 11th centuries
gave their name to Normandy, a region in France. …
◆ Ground Truth Answer: 10th and 11th centuries
27
SQuAD の仕組み
SQuAD: 質問に対応する部分のテキストを回答
◆Test データは非公開で,評価の依頼が必要
◆public データやデータオーグメンテーションは利用可能
今回は start span (10th) と end span (centuries) を予測
質問に対する回答を与えられた paragraph から抽出
28. 28
BERT の
SQuAD 1.1 における評価結果
System Dev Test
EM F1 EM F1
Human - - 82.3 91.2
BiDAF + ELMo (Single) - 85.8 - -
R.M. Reader (Single) 78.9 86.3 79.5 86.6
R.M. Reader (Ensemble) 81.2 87.9 82.3 88.3
BERTBASE (Single) 80.8 88.5 - -
BERTLARGE (Single) 84.1 90.9 - -
BERTLARGE (Ensemble) 85.8 91.8 - -
BERTLARGE (Sgl. + TriviaQA) 84.2 91.1 85.1 91.8
BERTLARGE (Ens. + TriviaQA) 86.2 92.2 87.4 93.2
外部データに Trivia QA [17] を加えたモデルでは
single, ensemble 共に既存手法および Human power 超え
人よりも良い結果
30. BERTBASE を用いて事前学習タスクの効果を検証
◆ BERTBASE
BERT の BASE モデル
◆ No NSP
章の連続性を予測しないモデル
◆ Left To Right (LTR) & No NSP
一方向の LM (= No MLM)のため,実質 OpenAI GPT
◆ Left To Right (LTR) & No NSP + BiLSTM
fine-tuning モデルの上に BiLSTM を追加したモデル
30
効果検証
事前学習のタスク1
4種のモデルで実験し,MLM・NSP の効果を検証
※LTR + RTL はコストの増加と QA タスクでは RTL が直感的でないため排除
31. A) NSP を取り除くと,QNLI, SQuAD などで精度が低下
⇒ NSP は各タスクに対して効果を発揮
B) MLM は全てのタスクで LTR よりも高い精度
⇒ 一方向では,双方向に比べて使える情報に制限
C) BiLSTM を追加しても,SQuAD が改善するのみ
31
効果検証
事前学習のタスク2
System MNLI-m
(Acc)
QNLI-m
(Acc)
MRPC
(Acc)
SST-2
(Acc)
SQuAD
(F1)
BERTBASE 84.4 88.4 86.7 92.7 88.5
No NSP 83.9 84.9 86.5 92.6 87.9
LTR & No NSP 82.1 84.3 77.5 92.1 77.8
+ BiLSTM 82.1 84.1 75.7 91.6 84.9
A
C
B
34. ◆ 学習モデル
2層の BiLSTM + 分類レイヤ
◆ 特徴量の抽出
➢BERT のパラメータは固定
➢学習モデルに各 layer を接続
34
効果検証
BERT を用いた feature-based
feature-based アプローチを用いる2つの利点
①タスク特有の構造を使用可能 ②一度の学習を再利用可能
特徴量の抽出に用いた Layer Dev F1
Finetune All 96.4
First Layer (Embeddings) 91.0
Second-to-Last Hidden 95.6
Last Hidden 94.9
Sum Last Four Hidden 95.9
Concat Last Four Hidden 96.1
Sum All 12 Layers 95.5
BERT による feature-based アプローチを NER のタスクで検証
Embeddings より精度が向上
⇒ 特徴量の抽出も可能
36. XLNet: Generalized
Autoregressive Pretraining
for Language Understanding[20]
36
[20] Yang, Zhilin, Zihang Dai, Yiming Yang, Jaime Carbonell, Ruslan Salakhutdinov, and Quoc V. Le.
"XLNet: Generalized Autoregressive Pretraining for Language Understanding." arXiv preprint
arXiv:1906.08237 (2019).
NIPS 2019
Carnegie Mellon University & Google Brain
43. ◆ BERT との比較
XLNet は MASK しないため,より多くの依存関係をカバー
43
BERT や言語モデルとの比較
◆ 言語モデルとの比較
BERT 同様に,双方向かつ密な構造を XLNet は保持
e.g.) New York is a city ⇒ [MASK] [MASK] is a city
In BERT:
log 𝑝 New is a city) + log 𝑝 York is a city)
In XLNet:
log 𝑝 New is a city) + log 𝑝 York New, is a city)
XLNet は欠損なく,New と York の依存関係を学習可能
45. XLNet は BERT を上回り,他手法と比べても高い精度を獲得
45
XLNet の
GLUE における評価結果
GLUE:言語理解の8つのタスクで構成された評価方法
System (single-single) MNLI-m QQP SST-2 CoLA MRPC
BERT 86.6 91.3 93.2 60.6 88.0
XLNet 89.8 91.8 95.6 63.6 89.2
※single-single: single task & single model, multi-ensemble: multi task & ensemble
System (multi-ensemble) MNLI-m QQP SST-2 CoLA MRPC
Snorkel* [28] 87.6 89.9 96.2 63.8 91.5
ALICE* (StructBERT [29]) 88.2 90.7 95.2 68.6 92.6
XLNet* 90.2 90.3 96.8 67.8 93.0
Dev result
Test result
46. Input Paragraph:
The Normans …. were the people who in the 10th and 11th centuries
gave their name to Normandy, a region in France. …
46
SQuAD のバージョンの違い
v2.0 [25] から与えられた情報だけでは答えられない質問が追加
v1.1 の Q & A
◆ Q: In what country is Normandy located?
◆ A: France
v2.0 で追加された Q & A
◆ Q: What is France a region of?
◆ A: None 答えが存在しない問題
答えが存在する問題
47. System v1.1 v2.0
EM F1 EM F1
Human 82.3 91.2 - -
BERT* [1] 87.4 93.2 - -
BERT + N-Gram + Self-Training [1] - - 85.2 87.7
BERT + DAE + AoA*
(Attention over Attention [26])
- - 85.9 88.6
SG-Net [27] - - 85.2 87.9
XLNet (+ NewsQA [32]) 89.9 95.1 86.4 89.1
XLNet + SG-Net* [27] - - 88.2 90.7
47
XLNet の
SQuAD における評価結果
single model で Human と ensemble の BERT を上回る結果
* 付きは ensemble model
※ XLNet + SG-Net は後に紹介する RoBERTa より良い?(RoBERTa + SG-Net がないので)
Human・ensemble
よりも良い結果
48. RoBERTa: A Robustly Optimized
BERT Pretraining Approach[21]
48
[21] Liu, Yinhan, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike
Lewis, Luke Zettlemoyer, and Veselin Stoyanov. "Roberta: A robustly optimized BERT pretraining
approach." arXiv preprint arXiv:1907.11692 (2019).
???
Washington University & Facebook AI
54. hyperparameter,コーパスサイズが検証可能な環境で実験
54
RoBERTa の実験環境
モデル コーパス コーパスサイズ
BERT BookCorpus, English Wikipedia 13 GB
XLNet BookCorpus, English Wikipedia, CC-News,
OpenWebText [36], Common Crawl
160 GB
◆コーパス
RoBERTa は16 GB (≈ BERT),160 GB のコーパスで実験
◆パラメータ数
RoBERTa は BERT とほぼ同数のパラメータ数
モデル名 L H A 総パラメータ数
BERTLARGE 24 1,024 16 340M
RoBERTaLARGE 24 1,024 16 355M
subword units
増加の影響
55. RoBERTa は複数のタスクで BERT, XLNet よりも高い精度を獲得
◆ コーパスサイズを増やすことで精度が向上
◆ 学習回数(steps)を増やすことで精度が向上
55
主な実験結果
Model Info data bsz steps SQuAD 2.0 MNLI-m SST-2
BERTLARGE With Books + Wiki 13 GB 256 1 M 81.8 86.6 93.7
XLNetLARGE With Books + Wiki 13 GB 256 1 M 87.8 88.4 94.4
XLNetLARGE + additional data 126 GB 2 K 500 K 88.8 89.8 95.6
RoBERTa With Books + Wiki 16 GB 8 K 100 K 87.3 89.0 95.3
RoBERTa + additional data 160 GB 8 K 100 K 87.7 89.3 95.6
RoBERTa + pretrain longer 160 GB 8 K 300 K 88.7 90.0 96.1
RoBERTa + pretrain even longer 160 GB 8 K 500 K 89.4 90.2 96.4
最近の成果を
どう判断すべき?
※個人の感想
56. モデル構造がほとんど同じなのにもかかわらず,精度が向上
⇒ モデルの構造はどの程度影響したのか検証が必要?
56
RoBERTa の
GLUE における評価結果
System (single-single) MNLI-m QQP SST-2 CoLA MRPC
BERTLARGE 86.6 91.3 93.2 60.6 88.0
XLNetLARGE 89.8 91.8 95.6 63.6 89.2
RoBERTa 90.2 92.2 96.4 68.0 90.9
※single-single: single task & single model, multi-ensemble: multi task & ensemble
System (multi-ensemble) MNLI-m QQP SST-2 CoLA MRPC
ALICE* (StructBERT [29]) 88.2 90.7 95.2 68.6 92.6
XLNet* 90.2 90.3 96.8 67.8 93.0
RoBERTa (single-ensemble) 90.8 90.2 96.7 67.8 92.3
Dev result
Test result
single task を学習したモデルで他手法と同等以上の成果
57. System Dev (w/o additional) Test
EM F1 EM F1
BERTLARGE 79.0 81.8 - -
XLNetLARGE 86.1 88.8 - -
RoBERTa 86.5 89.4 - -
XLNet (+ additional) - - 86.3 89.1
RoBERTa - - 86.8 89.8
XLNet + SG-Net* (+ additional) [27] - - 87.0 89.9
57
RoBERTa の
SQuAD 2.0 における評価結果
◆additional data なしの時,RoBERTa は BERT, XLNet を凌駕
◆Test でも,additional data なしで XLNet を上回る結果
⇒ RoBERTa は少ないデータでも十分な結果を出せる傾向
58. ◆ BERT
➢ MASK した単語を予測することで双方向化を実現
➢ Next Sentence Prediction loss も考慮し予測
◆ XLNet
➢ モデル内での順序を交換することで双方向化を実現
➢ Next Sentence Prediction loss は考慮せず予測
◆ RoBERTa
➢ 4つの改善を行うことで BERT のスコアの改善を実証
➢ Next Sentence Prediction loss は考慮せずに予測
58
まとめ
pre-training モデルは NLP の応用タスクで SOTA を達成
2018-19にかけて様々なモデルが提案・検証されている中
今回は BERT・XLNet・RoBERTa を紹介
59. 気が付けば,RoBERTa も3位に(ほぼ同等にも見える)[23]
59
おまけ
Rank Name Model Score
1 ALBERT-Team Google Language ALBERT (Ensemble) 89.4
2 Microsoft D365 AI & UMD Adv-RoBERTa (ensemble) 88.8
3 Facebook AI RoBERTa 88.5
4 XLNet Team XLNet-Large (ensemble) 88.4
5 Microsoft D365 AI & MSR AI MT-DNN-ensemble 87.6
6 GLUE Human Baselines GLUE Human Baselines 87.1
7 王玮
ALICE large ensemble
(Alibaba DAMO NLP)
87.0
8 Stanford Hazy Research Snorkel MeTaL 83.2
9 XLM Systems XLM (English only) 83.1
10 Zhuosheng Zhang SemBERT 82.9
BERT 関連の paper は github のまとめ [24] が参考になります
[23] https://gluebenchmark.com/leaderboard (2019/09/25 参照)
[24] https://github.com/tomohideshibata/BERT-related-papers
60. [3] Sutskever, Ilya, Oriol Vinyals, and Quoc V. Le. "Sequence to
sequence learning with neural networks." In Advances in neural
information processing systems, pp. 3104-3112. 2014.
[4] Vaswani, Ashish, Noam Shazeer, Niki Parmar, Jakob Uszkoreit,
Llion Jones, Aidan N. Gomez, Łukasz Kaiser, and Illia Polosukhin.
"Attention is all you need." In Advances in neural information
processing systems, pp. 5998-6008. 2017.
[5]根石 将人,吉永 直樹.”英日翻訳タスクにおけるスワップモ
デルを通した seq2seq と Transformer の比較” 言語処理学会
(2019).
https://www.anlp.jp/proceedings/annual_meeting/2019/pdf_dir/
P5-21.pdf
[6] Logeswaran, Lajanugen, and Honglak Lee. "An efficient
framework for learning sentence representations." arXiv preprint
arXiv:1803.02893 (2018).
60
参考文献(1)
61. [7] Le, Quoc, and Tomas Mikolov. "Distributed representations of
sentences and documents." In International conference on
machine learning, pp. 1188-1196. 2014.
[8] Mikolov, Tomas, Kai Chen, Greg Corrado, and Jeffrey Dean.
"Efficient estimation of word representations in vector
space." arXiv preprint arXiv:1301.3781 (2013).
[9] Peters, Matthew E., Mark Neumann, Mohit Iyyer, Matt
Gardner, Christopher Clark, Kenton Lee, and Luke Zettlemoyer.
"Deep contextualized word representations." arXiv preprint
arXiv:1802.05365 (2018).
[11] Radford, Alec, Karthik Narasimhan, Tim Salimans, and Ilya Sutskever.
"Improving language understanding by generative pre-training." URL
https://s3-us-west-2. amazonaws. com/openai-
assets/researchcovers/languageunsupervised/language understanding
paper. pdf (2018).
61
参考文献(2)
62. [12] Taylor, Wilson L. "“Cloze procedure”: A new tool for
measuring readability." Journalism Bulletin 30, no. 4 (1953):
415-433.
[13] Wang, Alex, Amanpreet Singh, Julian Michael, Felix Hill,
Omer Levy, and Samuel R. Bowman. "Glue: A multi-task
benchmark and analysis platform for natural language
understanding." arXiv preprint arXiv:1804.07461 (2018).
[14] Rajpurkar, Pranav, Jian Zhang, Konstantin Lopyrev, and
Percy Liang. "Squad: 100,000+ questions for machine
comprehension of text." arXiv preprint
arXiv:1606.05250(2016).
[15] Sang, Erik F., and Fien De Meulder. "Introduction to the
CoNLL-2003 shared task: Language-independent named
entity recognition." arXiv preprint cs/0306050 (2003).
62
参考文献(3)
63. [16] Zellers, Rowan, Yonatan Bisk, Roy Schwartz, and Yejin Choi.
"Swag: A large-scale adversarial dataset for grounded
commonsense inference." arXiv preprint arXiv:1808.05326(2018).
[17] Joshi, Mandar, Eunsol Choi, Daniel S. Weld, and Luke
Zettlemoyer. "Triviaqa: A large scale distantly supervised challenge
dataset for reading comprehension." arXiv preprint
arXiv:1705.03551 (2017).
[18] Peters, Matthew E., Mark Neumann, Mohit Iyyer, Matt
Gardner, Christopher Clark, Kenton Lee, and Luke Zettlemoyer.
"Deep contextualized word representations." arXiv preprint
arXiv:1802.05365 (2018).
[19] Chen, Qian, Xiaodan Zhu, Zhenhua Ling, Si Wei, Hui Jiang, and
Diana Inkpen. "Enhanced lstm for natural language
inference." arXiv preprint arXiv:1609.06038 (2016).
[25] Rajpurkar, Pranav, Robin Jia, and Percy Liang. "Know What
You Don't Know: Unanswerable Questions for SQuAD." arXiv
preprint arXiv:1806.03822 (2018).
63
参考文献(4)
64. [26] Cui, Yiming, Zhipeng Chen, Si Wei, Shijin Wang, Ting Liu, and
Guoping Hu. "Attention-over-attention neural networks for
reading comprehension." arXiv preprint arXiv:1607.04423 (2016).
[27] Zhang, Zhuosheng, Yuwei Wu, Junru Zhou, Sufeng Duan, and
Hai Zhao. "SG-Net: Syntax-Guided Machine Reading
Comprehension." arXiv preprint arXiv:1908.05147 (2019).
[28] Ratner, Alexander, Stephen H. Bach, Henry Ehrenberg, Jason
Fries, Sen Wu, and Christopher Ré. "Snorkel: Rapid training data
creation with weak supervision." Proceedings of the VLDB
Endowment 11, no. 3 (2017): 269-282.
[29] Wang, Wei, Bin Bi, Ming Yan, Chen Wu, Zuyi Bao, Liwei Peng,
and Luo Si. "StructBERT: Incorporating Language Structures into
Pre-training for Deep Language Understanding." arXiv preprint
arXiv:1908.04577 (2019).
64
参考文献(5)
65. [30] Dai, Zihang, Zhilin Yang, Yiming Yang, William W. Cohen,
Jaime Carbonell, Quoc V. Le, and Ruslan Salakhutdinov.
"Transformer-xl: Attentive language models beyond a fixed-length
context." arXiv preprint arXiv:1901.02860 (2019).
[31] Radford, Alec, Jeffrey Wu, Rewon Child, David Luan, Dario
Amodei, and Ilya Sutskever. "Language models are unsupervised
multitask learners." OpenAI Blog 1, no. 8 (2019).
[32] Trischler, Adam, Tong Wang, Xingdi Yuan, Justin Harris,
Alessandro Sordoni, Philip Bachman, and Kaheer Suleman.
"Newsqa: A machine comprehension dataset." arXiv preprint
arXiv:1611.09830 (2016).
[33] Parker, Robert, David Graff, Junbo Kong, Ke Chen, and Kazuaki
Maeda. "English gigaword fifth edition, linguistic data
consortium." Google Scholar (2011).
[34] Callan, Jamie, Mark Hoy, Changkuk Yoo, and Le Zhao.
"Clueweb09 data set." (2009): 670-681.
65
参考文献(6)
66. [35] Common Crawl, Common crawl,, https://commoncrawl.org/,
2019/09/26
[36] Gokaslan, and Vanya Cohen, OpenWebText CorpusAaron,
http://Skylion007.github.io/OpenWebTextCorpus, 2019/09/26
66
参考文献(7)
68. 68
NER における評価結果
NER: 人か組織かなどの名詞の属性情報を予測するタスク
例 Jim Hen # #son was a puppet # #eer
PER PER X O O O X
input:
output:
entity: PER=人, ORG=組織,・・・,O=その他,X=予測なし
System Dev Test
ELMo + BiLSTM + CRF 95.7 92.2
CVT + Multi[18] - 92.6
BERTBASE 96.4 92.4
BERTLARGE 96.6 92.8
NER における Test の結果
◆BERT は高精度を獲得
◆既存研究と横並び
69. 例:A girl is going across a set of monkey bars. She
(1) jumps up across the money bars.
(2) struggles onto the bras to grab her head.
(3) gets to the end and stands on a wooden plank.
(4) jump up and does a back flip.
69
SWAG における評価結果
SWAG: 4つの選択肢から尤もらしい答えを選択するタスク
正解は3
System Dev Test
ESIM[19] + GloVe 51.9 52.7
ESIM + ELMo 59.1 59.2
BERTBASE 81.6 -
BERTLARGE 86.6 86.3
Human (expert) - 85.0
Human (5 annotions) - 88.0
SWAG における Test の結果
◆ BERT は既存手法を凌駕
◆ 人による annotation と
ほぼ同等の結果