Neural Network Language Model For Chinese Pinyin Input Method Engine

Neural Network Language Model
for Chinese Pinyin Input Method Engine
長岡技術科学大学自然言語処理研究室
修士1年西山浩気
Shien-Yuan Chen, Rui Wang, Hai Zhao, 29th Pacific Asia Conference on Language,
Information and Computation pages 455 – 461, Shanghai, China, 10.30-11.1, 2015

1. 概要
2
 NNLMを用いた IMEの構築
back-off n-gram言語モデルに変換する
ことで高性能なIMEを構築
従来のn-gramを用いた手法に比べ、
高い予測性能を獲得

 IME (Input Method Editor)
 キーボード入力を出力したい言語に変換
 多くの中国語のIMEが Pinyin(中国語の発音表現)を採用
 500種類のPinyinから約6,000種類の中国語に
変換する必要がある
2. はじめに
3
ＩＭＥ

 Pinyinから中国語に変換する際に曖昧性
 先行研究 (IME)
 Back-off N-gram language model (BNLMs)
[Chen and Goodman, 1996; 1999; Stolcke, 2002a]
✓ Pinyin IME で広く利用
 Neural Network Language model (NNLMs)
[Bengio et al., 2003; Schwenk, 2007; Le at al.,2010]
✓ IMEとして利用するには出力に時間がかかりすぎる
2. はじめに
4

 先行研究 (NNLMs 高速化)
 [Arisoy et al., 2014][Vaswani et al.,2013]
[Devlin et al., 2014]
 音声認識, 機械翻訳タスク
2. はじめに
5
 BNLMs と NNLMs を組み合わせる
 N-gramの確率をNNLMsで再計算
 再計算された確率を使って、
n-gramモデルでIMEを構築する

 モデルの計算過程
1. Pinyin分割
 ルールベースのPinyin分割[Goh et al., 2005]
2. 候補となる単語を取得
 Pinyinの音節に対応する単語を辞書から取得
3. 候補文の生成
2.1 Pinyin IME モデル
6

 言語モデル[Chen and Lee, 2000; Zhao et al., 2013]
を用いて、確率が最大となる文を生成
 Vitabiアルゴリズムで最も尤もらしい経路を選択
7

 言語モデル[Chen and Lee, 2000; Zhao et al., 2013]
を用いて、確率が最大となる文を生成
8

2.2 Back-off n-gram 言語モデル
10

2.3 NNLM-enhanced BNLM 提案手法
13
 NNLMの欠点
 言語モデルの計算コストが大きい
 NNLMの出力 (再計算された確率) で,
BNLMの確率を上書きする
確率の計算を事前にNNLMで行う
実装はBNLMなので高速

3.1 実験設定実験
14
 中国語コーパス[Yang et al., 2012]
 人民日報から抽出
 単語ごとにpinyinが付与, 単語分割済み
 中国語-pinyin 辞書[Wang et al., 2013a; Wang et al,. 2014]
 914,728語

3.2 実行時間の比較実験
15
 実行時間を各モデル3回ずつ計測
✓ NNLMがBNLMに比べ100倍近く遅い
✓ 提案手法ではBNLMと同程度の実行速度

3.3 Perplexityの比較実験
16
 モデルの複雑さを提案手法とBaselineで比較
 Baseline : Trigram言語モデル (Kneser-Ney smoothing)
 提案手法の方がPerplexityは低い

3.4 Pinyin IMEにおいてのパフォーマンス実験
17
 IMEとして利用する際の正解率を評価
✓ 第一候補文の正解率 (HRF)
✓ 上位10候補文での正解率 (HRF10)
✓ 第一候補文に含まれる単語の正解率(CA)
提案手法により IMEとしての性能が向上

3.4 Pinyin IMEにおいてのパフォーマンス実験
18
 テストセット
 Pinyinが10~30文字の割合が高い
 提案手法では10文字以上のPinyinに対し、
従来手法に比べて精度が高い
テストセット中のPinyin文字数の分布

4. まとめ
19
 Pinyin IMEの性能向上に向けた取り組み
 従来は Ngram言語モデル
 NNLMを用いた性能向上
 NNLMは出力に時間がかかりIMEに向かない
 Ngramの確率をNNLMで学習させる
✓ 実行時間は従来と同程度
✓ IMEとしての性能が向上

Neural Network Language Model For Chinese Pinyin Input Method Engine

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Mehr von 浩気西山

Mehr von 浩気西山 (7)