Weitere ähnliche Inhalte Ähnlich wie ACL読み会2014@PFI "Two Knives Cut Better Than One: Chinese Word Segmentation with Dual Decomposition" (20) Mehr von Preferred Networks (20) ACL読み会2014@PFI "Two Knives Cut Better Than One: Chinese Word Segmentation with Dual Decomposition"1. “Two Knives Cut Better Than One:
Chinese Word Segmentation with
Dual Decomposition”
Mengqiu Wang, Rob Voigt, Christopher D. Manning
ACL読み会2014@PFI
株式会社Preferred Infrastructure 岩田 英一郎(@eiichiroi)
2014 年 7 月 12 日
※スライド中の図・表は上記の論文から引用しました
2. 自己紹介
岩田 英一郎(@eiichiroi)
– 元さいたまの競技プログラマー(引退済み)
経歴
– 2009年 PFIでアルバイト開始
– 2010年 埼玉大学 大学院 修了
– 2010年 PFI入社
仕事
– ソフトウェアエンジニア
検索エンジンや自然言語処理ツールの開発・保守(主に繋ぎ込み担当)
研究開発の成果を製品へ取り込む
自然言語処理初心者(重要!)
– 単語分割の論文を読み始めて一週間…
2
3. 論文の要旨
(中国語の)単語分割を双対分解で解くと良いよ
既存の手法
– 文字ベースのモデル
– 単語ベースのモデル
– 文字ベース/単語ベースの手法を組み合わせたモデル
提案手法
– 文字ベース/単語ベースの手法を組み合わせて双対分解で解く
提案手法の利点
– 実装が簡単
– SIGHAN 2003, 2005のデータセットの6/7で最高精度を達成
– 文字ベース/単語ベースのモデルをそのまま使える(再学習不要)
3
7. 既存手法(1) - 文字ベースのモデル
系列ラベリングとして定式化 [Xue, 2003]
– 各文字に対して、単語の境界かどうかのラベルを付ける
– CRFがstate-of-the-art [Lafferty et al., 2001] [Tseng et al., 2005]
動的計画法でyを求められる
◯ 未知語に強い
– 周辺文字のn-gram
– 形態論的な接尾辞・接頭辞
× 広い文脈を捉えにくい
– マルコフ性の仮定
7
x: 文字列
y: ラベル列(0 or 1の列)
θ: パラメータ(素性関数の重み)のベクトル
f: 素性関数のベクトル
Z: 確率分布にするための係数(定数)
0 1 2 3 4 5 6 7 8 9
x 私 の 名 前 は 中 野 で す 。
y 1 1 0 1 1 0 1 0 1 1
8. 既存手法(2) - 単語ベースのモデル
スコア関数を使って単語分割の候補(リスト)を探索
– 辞書を使った最大マッチング [Chen and Liu, 1992]
– 線形モデル(average perceptron) [Collins, 2002] [Zhang and Clark, 2007]
探索空間GEN(x)は広い
– Beam Searchで探索
各ステップで上位k件以外は枝刈り
– 1文字読んだら、単語分割の各候補に対して ([“私の”], [“私”, “の”]) + “名”
最後の単語にくっ付ける [“私の名”], [“私”, “の名”]
その文字から新しい単語を始める [“私の”, “名”], [“私”, “の”, “名”]
– ※最後の単語が辞書に含まれるものだけ
– 一番長い範囲を扱う素性は単語bigram(動的計画法だと解の空間が広すぎる)
8
x: 文字列
y: ラベル列(0 or 1の列)
F(y|x): ラベル列yで分割したときのスコア
GEN(x): 文字列xのラベル列の候補
α: パラメータベクトル
Φ: 素性ベクトル
9. 既存手法(3) - 文字ベース/単語ベースの組み合わせ
のモデル
モデルが複雑な手法 [Sun et al., 2009]
– 学習に時間がかかる
特徴のbagging(?) [Wang et al., 2006], [Sun, 2010]
– 最適な分割を求めるのに時間がかかる
双対分解によるモデルの組み合わせの様々な問題への適用
– 係り受け解析
– 対訳系列タグ付け
– 単語のアライメント
単語分割に双対分解を適用してみよう
9
10. 提案手法 (1/4)
- モデルを組み合わせる
基本的なアイデア
– 文字ベース/単語ベースの両方のモデルが合意できる単語分割を見つける
目的関数
yc: 文字ベースのCRFで求めた単語分割
yw: 単語ベースのパーセプトロンで求めた単語分割
制約付きの凸最適化問題を解くには…?
– ラグランジュの未定乗数法!
10
14. 実験
モデルの組み合わせとハイパーパラメーター
– 文字ベースのモデル
Stanford CRF segmenter [Tseng et al., 2005]
L2正則化項のλは3
– 単語ベースのモデル
Perceptron segmenter [Zhang and Clark, 2007]
学習はビームサイズ200で10イテレーション
– 双対分解
最大イテレーションはT = 100
ステップ幅は0.1
データセット
– SIGHAN 2003, 2005
14
15. 結果 (1/3) – ベースのモデルとの性能比較
15
P: 精度
R: 再現率
F1: F値
Roov: 未知語に対する再現率
C: 分割の一貫性(※低い方が良い)
• 4種類のドメインに対してロバスト
• 未知語に対するブレが少ない
• -> ROOV
• 分割の一貫性が高い
• 後段の精度向上に繋がる
• -> C
16. 結果 (2/3) – 他の手法との性能比較
6/7のデータセットで
– F値が最高精度を達成
16
17. 結果 (3/3) – モデル間で分割が一致するまでの時間
100イテレーションで
– 99.1%のデータで分割が一致
最初のイテレーションで
– 77.4%のデータで分割が一致
17
19. エラー分析 (2/2)
ベースモデル両方が同じ分割方法で間違えても正解できるケース
– CRF: 分割がたりない
– PCRT: 分割がたりない
“一点点”
– “A little bit”
なぜか?
– 分割方法を決めるときに情報を共有できるから
他にも、双対分解で正解できる400以上の例があった
ただし、手法上、ベースモデルの間違いは再現しやすい
– 上記の例は大丈夫だけど、ダメなケースもあるのではないか?
– 詳細は書かれていなかった
19
20. まとめ (論文の要旨の再掲)
(中国語の)単語分割を双対分解で解くと良いよ
既存の手法
– 文字ベースのモデル
– 単語ベースのモデル
– 文字ベース/単語ベースの手法を組み合わせたモデル
提案手法
– 文字ベース/単語ベースの手法を組み合わせて双対分解で解く
提案手法の利点
– 実装が簡単
– SIGHAN 2003, 2005のデータセットの6/7で最高精度を達成
– 文字ベース/単語ベースのモデルをそのまま使える(再学習不要)
20
21. 参考文献 (1/2) – 論文
Mangqiu Wang, Rob Voigt, Christopher D. Manning. “Two
Knives Cut Better Than One: Chinese Word Segmentation
with Dual Decomposition”. ACL 2014
– 本論文
Referencesの論文で特に参考にしたもの
– Huihsin Tseng, Pichuan Chang, Galen Andrew, Daniel Jurafsky,
Christopher Manning. “A Conditional Random Field Segmenter for Sighan
Bakeoff 2005”. 4-th SIGHAN workshop on Chinese language Processing
文字ベースの中国語の単語分割器。ベースに使用したモデル
– Yue Zhang, Stephen Clark. “Chinese Segmentation with a Word-Based
Perceptron Algorithm”. ACL 2007
単語ベースの中国語の単語分割器。ベースに使用したモデル
21
22. 参考文献 (2/2) – ブログ
双対分解による構造学習
– http://research.preferred.jp/2010/11/dual-decomposition/
– 弊社の岡野原による双対分解の解説
– とても詳しく書かれており、参考にしました
劣微分を用いた最適化手法について(1)〜(4)、(完)
– http://research.preferred.jp/2010/11/subgradient-optimization-1/
– 弊社の徳永による劣微分の解説
– 論文では劣微分の値を使って最適化しているので、劣微分について理解するた
めに参考にしました
22