ACL読み会2014@PFI "Two Knives Cut Better Than One: Chinese Word Segmentation with Dual Decomposition"

“Two Knives Cut Better Than One:
Chinese Word Segmentation with
Dual Decomposition”
Mengqiu Wang, Rob Voigt, Christopher D. Manning
ACL読み会2014@PFI
株式会社Preferred Infrastructure 岩田英一郎(@eiichiroi)
2014 年 7 月 12 日
※スライド中の図・表は上記の論文から引用しました

自己紹介
 岩田英一郎(@eiichiroi)
– 元さいたまの競技プログラマー(引退済み)
 経歴
– 2009年 PFIでアルバイト開始
– 2010年埼玉大学大学院修了
– 2010年 PFI入社
 仕事
– ソフトウェアエンジニア
 検索エンジンや自然言語処理ツールの開発・保守(主に繋ぎ込み担当)
 研究開発の成果を製品へ取り込む
 自然言語処理初心者(重要！)
– 単語分割の論文を読み始めて一週間…
2

論文の要旨
 (中国語の)単語分割を双対分解で解くと良いよ
 既存の手法
– 文字ベースのモデル
– 単語ベースのモデル
– 文字ベース/単語ベースの手法を組み合わせたモデル
 提案手法
– 文字ベース/単語ベースの手法を組み合わせて双対分解で解く
 提案手法の利点
– 実装が簡単
– SIGHAN 2003, 2005のデータセットの6/7で最高精度を達成
– 文字ベース/単語ベースのモデルをそのまま使える(再学習不要)
3

単語分割とは
 単語分割とは、単語の区切りを求める処理
– 素敵な例文が欲しいです。
– 素敵＿な＿例文＿が＿欲しい＿です＿。
 日本語や中国語、タイ語では単語の区切りに空白を入れない
– 分かち書きしない言語では重要な処理
4

単語分割の意義
 後続の処理に大きな影響を与える重要なタスク
– 品詞タグ付け
– 構文解析
– 機械翻訳
 高い精度で切れないと困る
– うまく切れていない例 →
 新しい技術を創りだす
 エンジニアカンパニー
 最新の研究成果の性能は高い
– F値は0.95前後
5
※会社HPのリニューアル直後のFacebookのサムネール

既存手法の概要
1. 文字ベースのモデル
– 文字単位で単語の区切りかどうかを判別する
– ◯ 未知語 × 広い文脈
2. 単語ベースのモデル
– 辞書を元に単語の分割方法を探索する
– ◯ 広い文脈 × 未知語
3. 文字ベース/単語ベースの組み合わせのモデル
– ◯ 未知語、広い文脈 × 複雑、計算コストが高い
 まだ課題は残っている
6

既存手法(1) - 文字ベースのモデル
 系列ラベリングとして定式化 [Xue, 2003]
– 各文字に対して、単語の境界かどうかのラベルを付ける
– CRFがstate-of-the-art [Lafferty et al., 2001] [Tseng et al., 2005]
 動的計画法でyを求められる
 ◯ 未知語に強い
– 周辺文字のn-gram
– 形態論的な接尾辞・接頭辞
 × 広い文脈を捉えにくい
– マルコフ性の仮定
7
x: 文字列
y: ラベル列(0 or 1の列)
θ: パラメータ(素性関数の重み)のベクトル
f: 素性関数のベクトル
Z: 確率分布にするための係数(定数)
0 1 2 3 4 5 6 7 8 9
x 私の名前は中野です。
y 1 1 0 1 1 0 1 0 1 1

既存手法(2) - 単語ベースのモデル
 スコア関数を使って単語分割の候補(リスト)を探索
– 辞書を使った最大マッチング [Chen and Liu, 1992]
– 線形モデル(average perceptron) [Collins, 2002] [Zhang and Clark, 2007]
 探索空間GEN(x)は広い
– Beam Searchで探索
 各ステップで上位k件以外は枝刈り
– 1文字読んだら、単語分割の各候補に対して ([“私の”], [“私”, “の”]) + “名”
 最後の単語にくっ付ける [“私の名”], [“私”, “の名”]
 その文字から新しい単語を始める [“私の”, “名”], [“私”, “の”, “名”]
– ※最後の単語が辞書に含まれるものだけ
– 一番長い範囲を扱う素性は単語bigram(動的計画法だと解の空間が広すぎる)
8
x: 文字列
y: ラベル列(0 or 1の列)
F(y|x): ラベル列yで分割したときのスコア
GEN(x): 文字列xのラベル列の候補
α: パラメータベクトル
Φ: 素性ベクトル

既存手法(3) - 文字ベース/単語ベースの組み合わせ
のモデル
 モデルが複雑な手法 [Sun et al., 2009]
– 学習に時間がかかる
 特徴のbagging(?) [Wang et al., 2006], [Sun, 2010]
– 最適な分割を求めるのに時間がかかる
 双対分解によるモデルの組み合わせの様々な問題への適用
– 係り受け解析
– 対訳系列タグ付け
– 単語のアライメント
 単語分割に双対分解を適用してみよう
9

提案手法 (1/4)
- モデルを組み合わせる
 基本的なアイデア
– 文字ベース/単語ベースの両方のモデルが合意できる単語分割を見つける
 目的関数
 yc: 文字ベースのCRFで求めた単語分割
 yw: 単語ベースのパーセプトロンで求めた単語分割
 制約付きの凸最適化問題を解くには…？
– ラグランジュの未定乗数法！
10

提案手法 (2/4)
- ラグランジュ緩和後の双対問題を考える
 元の目的関数
 ラグランジュ緩和
– ui: 位置iの乗数
– 位置iでの分割が異なっているときのペナルティ
 ラグランジュ緩和した後の目的関数
– 等式の制約を外せる
 双対問題を考える
– 主問題と双対問題の最適解は同じ
11

提案手法 (3/4)
- ラグランジュ緩和後の双対問題を考える
 双対問題を考える
– 主問題と双対問題の最適解は同じ
 主問題が最大化なら
 双対問題は最小化
 maxを含んでいるので微分できない
– 劣勾配は計算できる
 劣勾配を計算してuを更新する
– 分割が一致するか、一定回数更新するまで
12

提案手法 (4/4)
- 双対分解で一番良い分割を求めるアルゴリズム
13

実験
 モデルの組み合わせとハイパーパラメーター
 Stanford CRF segmenter [Tseng et al., 2005]
 L2正則化項のλは3
 Perceptron segmenter [Zhang and Clark, 2007]
 学習はビームサイズ200で10イテレーション
– 双対分解
 最大イテレーションはT = 100
 ステップ幅は0.1
 データセット
– SIGHAN 2003, 2005
14

結果 (1/3) – ベースのモデルとの性能比較
15
 P: 精度
 R: 再現率
 F1: F値
 Roov: 未知語に対する再現率
 C: 分割の一貫性(※低い方が良い)
• 4種類のドメインに対してロバスト
• 未知語に対するブレが少ない
• -> ROOV
• 分割の一貫性が高い
• 後段の精度向上に繋がる
• -> C

結果 (2/3) – 他の手法との性能比較
 6/7のデータセットで
– F値が最高精度を達成
16

結果 (3/3) – モデル間で分割が一致するまでの時間
 100イテレーションで
– 99.1%のデータで分割が一致
 最初のイテレーションで
– 77.4%のデータで分割が一致
17

エラー分析 (1/2)
 ベースモデル両方が異なる分割方法で間違えても正解できるケース
– CRF: 分割がたりない
– PCRT: 分割しすぎ
 同じ文字からなる名前の分割
– 日本語で言うと「仲里依紗」？
 仲 / 里依紗 (なか / りいさ)
18
※ 仲里依紗の画像は
削除されました

エラー分析 (2/2)
 ベースモデル両方が同じ分割方法で間違えても正解できるケース
– CRF: 分割がたりない
– PCRT: 分割がたりない
 “一点点”
– “A little bit”
 なぜか？
– 分割方法を決めるときに情報を共有できるから
 他にも、双対分解で正解できる400以上の例があった
 ただし、手法上、ベースモデルの間違いは再現しやすい
– 上記の例は大丈夫だけど、ダメなケースもあるのではないか？
– 詳細は書かれていなかった
19

まとめ (論文の要旨の再掲)
 (中国語の)単語分割を双対分解で解くと良いよ
 既存の手法
– 文字ベース/単語ベースの手法を組み合わせたモデル
 提案手法
– 文字ベース/単語ベースの手法を組み合わせて双対分解で解く
 提案手法の利点
– 実装が簡単
– SIGHAN 2003, 2005のデータセットの6/7で最高精度を達成
– 文字ベース/単語ベースのモデルをそのまま使える(再学習不要)
20

参考文献 (1/2) – 論文
 Mangqiu Wang, Rob Voigt, Christopher D. Manning. “Two
Knives Cut Better Than One: Chinese Word Segmentation
with Dual Decomposition”. ACL 2014
– 本論文
 Referencesの論文で特に参考にしたもの
– Huihsin Tseng, Pichuan Chang, Galen Andrew, Daniel Jurafsky,
Christopher Manning. “A Conditional Random Field Segmenter for Sighan
Bakeoff 2005”. 4-th SIGHAN workshop on Chinese language Processing
 文字ベースの中国語の単語分割器。ベースに使用したモデル
– Yue Zhang, Stephen Clark. “Chinese Segmentation with a Word-Based
Perceptron Algorithm”. ACL 2007
 単語ベースの中国語の単語分割器。ベースに使用したモデル
21

参考文献 (2/2) – ブログ
 双対分解による構造学習
– http://research.preferred.jp/2010/11/dual-decomposition/
– 弊社の岡野原による双対分解の解説
– とても詳しく書かれており、参考にしました
 劣微分を用いた最適化手法について(1)〜(4)、(完)
– http://research.preferred.jp/2010/11/subgradient-optimization-1/
– 弊社の徳永による劣微分の解説
– 論文では劣微分の値を使って最適化しているので、劣微分について理解するた
めに参考にしました
22

ACL読み会2014@PFI "Two Knives Cut Better Than One: Chinese Word Segmentation with Dual Decomposition"

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (11)

Ähnlich wie ACL読み会2014@PFI "Two Knives Cut Better Than One: Chinese Word Segmentation with Dual Decomposition"

Ähnlich wie ACL読み会2014@PFI "Two Knives Cut Better Than One: Chinese Word Segmentation with Dual Decomposition" (20)

Mehr von Preferred Networks

Mehr von Preferred Networks (20)

ACL読み会2014@PFI "Two Knives Cut Better Than One: Chinese Word Segmentation with Dual Decomposition"