言語モデル入門

言語モデル入門
2014年4月18日
藤沼祥成

Overview
• Introduction
– 言語モデルとは？
• 基礎編
– スムージング
– 言語モデルの評価
• 応用編：言語モデルの最近の研究
• ツールキットのお話

今回メインで使用した資料
• Coursera
• IME本

言語モデルって何？
• 人間が用いるであろう言葉らしさ、を確率とし
てモデル化する
• 例：P(<BOS>我輩は猫である<EOS>） >
P(<BOS>は猫である<EOS>）
• IME本210ページより

モデル化するデータは？
• コーパスが整備されている。
• Brownコーパス
• 新聞コーパス（読売、毎日、日経等々）
• Google 日本語 n-gramコーパス
• 日本語書き言葉均衡コーパス（BCCWJ）
• …

言語モデルは何に使うの？
• 例：基本タスク
– 機械翻訳
• 翻訳した日本語は日本語らしいか。
– かな漢字変換
• 変換候補はよく使われる漢字（+送り仮名等）か。
• 例：変化球系タスク
– 翻字（マイケル=Michael)検出（Li+ ACL 2004）
– Twitter上のTopic tracking(Lin+ KDD 2011)
– ユーザのオンラインコミュニティの退会予測
（Danescu-Niculescu-Mizil+ WWW 2013）

Noisy Channel Model
（Bayes Rule applied）
• O: output, I: input
• かな漢字変換
– O: 変換候補, I: ひらがな列
– P(I|O): かな漢字モデル
• 機械翻訳：
– O: 日本語, I: 英語
– P(I|O): 翻訳モデル（言語間の対応）
言語モデル！

• 基礎編：言語モデルとスムー
ジング

シャノンゲーム
• 次の単語はなにがくる？
• I want to go to ______
• P(w | I want to go to)でモデル化しよう！

スムージング
• コーパスに登場する単語は有限である。
• 例：<BOS>/我輩/は/猫/で/あ/る/<EOS>
• P(私 | <BOS>) = 0
• コーパスに登場していない単語にどう対応す
るか？（＝ゼロ頻度問題）
• ⇒解決策：スムージング

スムージングの種類
• 加算スムージング ⇒ 不十分
• n-1, n-2, …と低次のn-gramを用いよう！
• 補完（interpolated）型
– 常に低次を考慮
– Interpolated Kneser-neyスムージング
• バックオフ型
– 高次のngramが存在しない場合、低次を考慮
– Good Turingによる推定値で低次をDiscount

加算スムージング
• 一番単純：定数を頻度に加算する
• n(w):コーパス中の単語の出現回数
• C:コーパス中の全単語の出現回数
• k：加算する定数
• P(w) = (n(w) + k) / (C + kV)

Good Turing 推定：バックオフ型
• 頻度の頻度を用いた、頻度の補正
• N_c: 頻度の頻度
• 例：マグロ：２、鮭：３、こはだ：１, 玉子：１, い
か：１
– 合計８単語
• N_1 = 3, N_2 = 1, N_3 = 1
• 1回しか観測されていない単語を「未知の単
語が観測される確率」と扱う

Good Turing 推定：例
• P_gt(ゼロ頻度) = N_1 / N
• 一回だけ観測された単語：
– c*(こはだ) =2 * N_2 / N_1 = 2/3
– P_gt(一回だけの単語) = 2/3 / 8 = 1/12
• ゼロ頻度：
– P_gt（ゼロ頻度） = 3/8

Kneser-neyスムージング：
Discounting
• Good turingは結局ほ
ぼ0.75ぐらいを
discount
– AP corpus
– (Church & Gale 1991)
• ⇒定数でdiscountすれ
ばいい！
c C*
0 0.000027026
1 0.4457
2 1.260
3 2.237
4 3.236
5 4.23
6 5.19
7 6.21
8 7.24

Kneser-neyスムージング：
overview
• 実験的に一番良いスムージング
• いくつかバリエーションがある
– Interpolated Kneser-ney (Kneser & Ney 1995)
• 今回はこっちを説明
– Modified Kneser-ney(Chen & Goodman 1999)
• アイディアは：
– 学習データで観測したn-gramは学習データ外の
未知データとくらべて頻度が高いのでDiscount
– 直前の単語の種類数を重視
• 例：bigramにおけるKneser-ney

Kneser-neyスムージング：例
• I want to go to ______
– Toyama? Fransisco?
– Fransiscoは頻度が高いが、ほぼSanの後に続く
• 通常の場合：unigramの頻度
– 単語wは現れている頻度は？
• Kneser-neyのアイディア：
– P_continuation: 単語wは直前の単語toの後に
続く単語として、未知の例かどうか？

Kneser-neyスムージングによるバ
イグラム確率
w_i-1の直後に現れる単語
の種類数
Interpolation
weight
全ての単語の直前にくる単
語の種類数

パープレキシティ
• 情報理論的距離
• 低いほど言語モデルに近く、高いほどモデル
から遠い
• D: テスト文書
• N: 単語数
• 長さNで正規化しているイメージ

クロスエントロピー
• 実質パープレキシティと同じ
• PP(D) = 2^H(D)
• D_i: 文書Dに含まれる単語

発展1：ニューラル言語モデル
(Bengio+ 2003)
• 分散表現
– 単語を固定長のベクトルで表す
• AP newsコーパスではModified Kneser-ney
よりPerplexityが低い
model n Perplexity
Neural LM 6 109
N-gram (Kneser-ney) 3 127
※ただしNeural LMはinterpolated trigramも使用している

発展2：大規模データによる言語モ
デル (Brants+ EMNLP 2007)
• Stupid back off
– 文字通りstupidだが、意外とうまくいく
– Discoutingなし
• 確率ではなくスコア
– α = 0.4
• Unigramは

発展2：大規模データによる言語モ
デル (Brants+ EMNLP 2007)
BLEU
scoreは
stupid
backoffの
方が上！

発展３：ベイズ階層言語モデル
• Hierarchical Dirichlet Language Model (Mackay,
NLE 1998)
– Kneser-neyにPPで勝てない。。。
• Hierarchical Pitman-Yor Language Model (Teh,
ACL 2006)
– Priorをディリクレ過程ではなくPitman-Yor過程に変えたら
Modified Kneser-neyと同じぐらい！
• Nested Pitman-Yor Language Model (持橋+,
ACL 2009)

• ツールキットのお話

主な言語モデルツール
• CMU-Cambridge language model toolkit
– 自分が使ったやつ
– Kneser-neyがないのであまりおすすめしない
• SRI language model toolkit
– Kneser-neyはある
– Bengioらもこれを使った。多分これが一番使わ
れている？

CMU（と多分他のツールもある）
オプション
• 段落や文章の終わりはどう扱う？
• Force back-off
– P(おはよー| <BOS>, <EOS>，！，おはよう) =
P(おはよー | <BOS>)
<BOS> おはよう！ <EOS>
<BOS> おはよー！ <EOS>

実際のコマンド (CMU toolkit)
• -backoff_from_ccs_inc
– Inclusive force back offを指定
– P(おはよー| <BOS>, <EOS>，！，おはよう)
• P(おはよー | <BOS>): inclusive
• P(おはよー): exclusive
• -include_unks
– 未知語をPerplexity算出に含めるか
– 同じ文字トークン（<unk>）として扱うか
– 別々の文字トークン（<unk_1>, <unk_2>…)

参考文献
• 日本語入力を支える技術
• StanfordのNLPの授業
– https://class.coursera.org/nlp/lecture
• NYUの言語モデルの授業スライド
– http://www.cs.nyu.edu/~petrov/lecture2.pdf
• Univ. of Marylandの言語モデルの授業スライド
– http://www.umiacs.umd.edu/~jimmylin/cloud-2010-
Spring/session9-slides.pdf
• Neural Language Modelの授業スライド
– http://www.inf.ed.ac.uk/teaching/courses/asr/2013-
14/asr09-nnlm.pdf

言語モデル入門

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Andere mochten auch

Andere mochten auch (10)

Ähnlich wie 言語モデル入門

Ähnlich wie 言語モデル入門 (10)

Mehr von Yoshinari Fujinuma

Mehr von Yoshinari Fujinuma (15)

Kürzlich hochgeladen

Kürzlich hochgeladen (10)

言語モデル入門