SlideShare ist ein Scribd-Unternehmen logo
1 von 8
Downloaden Sie, um offline zu lesen
ベむズ階局蚀語モデルによる教垫なし圢態玠解析
持橋 倧地 山田 歊士 侊田 修功
NTT コミュニケヌション科孊基瀎研究所
〒 619-0237 京郜府盞楜郡粟華町「けいはんな孊研郜垂」光台 2–4
daichi@cslab.kecl.ntt.co.jp {yamada,ueda}@cslab.kecl.ntt.co.jp
抂芁
本論文では, 教垫デヌタや蟞曞を必芁ずせず, あらゆる蚀語に適甚できる教垫なし圢態玠解析噚および蚀語
モデルを提案する. 芳枬された文字列を, 文字 nグラム-単語 nグラムをノンパラメトリックベむズ法の枠組
で統合した確率モデルからの出力ずみなし, MCMC 法ず動的蚈画法を甚いお, 繰り返し隠れた「単語」を
掚定する. 提案法は, あらゆる蚀語の生文字列から盎接, 党く知識なしに Kneser-Ney ず同等に高粟床にス
ムヌゞングされ, 未知語のない nグラム蚀語モデルを構築する方法ずみなすこずもできる.
話し蚀葉や叀文を含む日本語, および䞭囜語単語分割の暙準的なデヌタセットでの実隓により, 提案法の有
効性および効率性を確認した.
キヌワヌド: 圢態玠解析, 単語分割, 蚀語モデル, ノンパラメトリックベむズ法, MCMC
Bayesian Unsupervised Word Segmentation
with Hierarchical Language Modeling
Daichi Mochihashi Takeshi Yamada Naonori Ueda
NTT Communication Science Laboratories
Hikaridai 2-4, Keihanna Science City, Kyoto Japan 619-0237
daichi@cslab.kecl.ntt.co.jp {yamada,ueda}@cslab.kecl.ntt.co.jp
Abstract
This paper proposes a novel unsupervised morphological analyzer of arbitrary language that does not
need any supervised segmentation nor dictionary. Assuming a string as the output from a nonpara-
metric Bayesian hierarchical n-gram language model of words and characters, “words” are iteratively
estimated during inference by a combination of MCMC and an efficient dynamic programming. This
model can also be considered as a method to learn an accurate n-gram language model directly from
characters without any “word” information.
Keywords: Word segmentation, Language Modeling, Nonparametric Bayes, MCMC
1 はじめに
日本語の圢態玠解析は珟圚 99%以䞊の性胜を持っお
いるず蚀われるが [1], はたしお本圓だろうか.
珟圚の高粟床な圢態玠解析噚はすべお, 人手で䜜
成した教垫デヌタをもずに機械孊習たたはルヌルに
よっお構築されおおり, その際の教垫デヌタは新聞蚘
事がほずんどである. 話し蚀葉や, ブログ等でみられ
る口語䜓の日本語には次々に新語や新しい衚珟が生
たれ, たた単語分割の基準が曖昧なため, 圢態玠解析
を高粟床に行うこずは困難である. 教垫デヌタを人
手で䜜成する堎合でも, その構築やメンテナンスに
は莫倧なコストがかかり, それが䜕らかの意味で「正
解」であるずいう保蚌もない.1
さらに, 叀文や未知の蚀語などにはそもそも教垫
デヌタがなく, これたで圢態玠解析は䞍可胜であった.
図 1 に, 『源氏物語』の冒頭の䞀郚を MeCab [2] で
1新聞蚘事の堎合でも問題は同様であり, 「正解」デヌタは本
質的に䞀意ではない. よっお, 耇数の品詞䜓系やタグ付け基準が
あり, 教垫あり孊習はそうした恣意性から逃れるこずができない.
圢態玠解析した䟋を瀺す. 「たぐひなしず」「なほ
にほはしさ」などの解析結果を芋るずわかる
ように, 珟代文の教垫あり孊習に基づく圢態玠解析噚
では, こうした文を適切に分割するこずができない.
圢態玠解析された結果は, かな挢字倉換や統蚈的機
械翻蚳, 音声認識など倚くの堎合, そこで甚いられる
nグラムなどの蚀語モデルぞの入力ずしお䜿われる.
人手による教垫デヌタを基本ずした埓来の圢態玠解
析には, 適甚の際のこうした性胜を最適化しおいない
ずいう問題もあった. たた理孊的あるいは蚈算蚀語
孊的にみるず, たずえ未知の蚀語であったずしおも,
蚀語デヌタに隠れた統蚈的性質を甚いお, 「単語」の
ような基瀎的な単䜍に぀いおは導出できるこずが望
たしい.
こうした考えに基づき, 本論文では任意の蚀語に぀
いお, 芳枬された文字列のみから蟞曞や教垫デヌタを
党く䜿わずに「単語」を掚定するこずのできる, ノン
パラメトリックベむズ法に基づいた教垫なし圢態玠
解析噚および蚀語モデルを提案する. 提案法は任意
1
䞖にたぐひなしず芋たおた぀りたたひ、
名高うおはする宮の埡容貌にも、
なほにほはしさはたずぞむ方な
く、う぀くしげなるを、䞖の人光
る君ず聞こゆ。藀壌ならびたたひ
お、埡おがえもずりどりなれば、か
かやく日の宮ず聞こゆ。· · ·
図 1: 『源氏物語』の MeCab による解析.
の蚀語の文字列から盎接蚀語モデルを孊習する方法
ずも芋なすこずができ, 掚論の際に効率的な MCMC
法を甚いお繰り返し単語分割を改良しおいくこずで
孊習を行う. 最終的に孊習デヌタの最適な単語分割
ず蚀語モデルが埗られ, 蚀語モデルを甚いおビタビア
ルゎリズムで解析するこずにより未知デヌタの圢態
玠解析も行うこずができる.
教垫なし孊習のため, 提案法は孊習デヌタを原理的
にいくらでも増やすこずができ, 「未知語」が存圚せ
ず, ドメむン適応も容易である. たた, 教垫ありデヌ
タを事前知識ずしお組み蟌むこずもできる.
以䞋ではたず, 2 章で教垫なし圢態玠解析の定匏化
ず, これたでの関連研究に぀いお説明する. 3 章で
は階局ベむズ法による nグラムモデルを文字–単語ず
さらに階局化しお埗られる蚀語モデルを瀺し, 4 章で
MCMC 法ず動的蚈画法を組み合わせた孊習法に぀い
お述べる. 5 章で新聞蚘事・話し蚀葉・叀文の日本語,
および䞭囜語, 英語の単語分割の実隓を行っお有効性
を瀺し, 6 章で考察を行っお党䜓をたずめる.
2 教垫なし圢態玠解析ずは
自然蚀語の文字列 s=c1c2 · · · cN が䞎えられたずき,
教垫なし圢態玠解析ずは, s を分割しお埗られる単語
列 w = w1w2 · · · wM の確率 p(w|s) を最倧にする単
語列 ˆw を求める問題ず考えるこずができる. 2
ˆw = argmax
w
p(w|s) (1)
これは, 「蚀語ずしお最も自然な単語分割」を求め
たいずいうこずず等しい. 「圢態玠解析」ずいうず
w の品詞タグ付けも含むこずが倚いが, 品詞の決定
には本来, 構文解析を必芁ずするず考えられるこず,
たた nグラムや統蚈的機械翻蚳など倚くのタスクに
おいお単語分割のみが必芁ずされるこずから, 本論文
では「圢態玠解析」ずは最も基本的な, 単語分割を指
すこずずする.3
(1) 匏の確率 p(w|s) は蚀語モデルによっお蚈算す
るこずができ, これを最倧化する ˆw は, 単語蟞曞お
よび蚀語モデルが存圚すれば, 可胜な単語の組み合わ
せに぀いおビタビアルゎリズムを適甚するこずで埗
るこずができる.
しかし, 教垫なし圢態玠解析においおはそもそも単
語が未知である. [3][5] ではこの制玄をやや緩め, 未
2この定匏化は䞀般化するず統蚈翻蚳ずみるこずができ, s が
ひらがな列のずき, かな挢字倉換ず等䟡ずなる.
3簡単な教垫なし品詞掚定には, 提案法によっお単語分割を行っ
た埌, HMM を走らせる方法 [4] がある.
s = 圌 女 の 蚀 っ た 蚀 葉 は · · ·
z = 0 1 1 1 0 1 0 1 1 · · ·
w = 圌 女 の 蚀 っ た 蚀 葉 は · · ·
図 2: 単語分割ず朜圚倉数ベクトル z.
知語の単語らしさを文字 nグラムで䞎えたり, 単語リ
ストを䞎えた䞋で, (1) 匏による分割ず蚀語モデルを
亀互に最適化する方法を瀺したが, 䟝然ずしお単語分
割枈みコヌパスや, 単語リストを必芁ずしおいた. こ
れらは未知の蚀語に぀いおは原理的に準備䞍可胜で
あり, たた既知の蚀語に぀いおも, 単語分割の「正解」
は䞀意ではなく [6], たずえば話し蚀葉や口語䜓に぀
いおは䜕を「単語」ずすべきか同定するこずも非垞
に難しい. さらに, 単語の皮類は有限ではなく, テキ
ストには既存の単語リストでカバヌできない倧量の
「未知語」が含たれおおり, こうした未知語の取り扱
いが圢態玠解析の重芁な問題ずなっおきおいる [7].
玔粋に統蚈的機械孊習の問題ずしおみるず, (1) 匏
は s の各文字 ci にその盎埌が単語境界のずき 1, そ
うでないずき 0 をずる朜圚倉数 zi があるず考えれば,
w は朜圚倉数ベクトル z = z1z2 · · · zN ず同䞀芖で
きるから,
ˆz = argmax
z
p(z|s) (2)
を最倧化する ˆz を求める孊習問題ず考えるこずがで
きる. これは z を隠れ状態ずする, semi-Markov モ
デルたたは分割モデル [8] ず呌ばれる HMM の倉皮
であり, 各文 s に぀いお可胜な z は指数的に存圚する
ため, 効率的な孊習が必芁ずなる.
簡単な方法ずしお最近のものに, MDL を基準に文
字のチャンキングを繰り返す方法 [9] があり, たたよ
りベむズ的な方法ずしお, [10] は階局ディリクレ過皋
(HDP) による単語バむグラムモデルを甚いお, zi を
ギブスサンプラにより䞀文字ず぀曎新する方法を瀺
した.
しかし, これらの方法は単語分割を䞀箇所ず぀倉え
るために, 膚倧な蚈算量を必芁ずする. さらに, 単語
分割では異なる zi の間に高い盞関があるために収束
がきわめお遅く, 非垞に少量のコヌパスに぀いおしか
適甚できなかった. たた, この方法では単語のバむグ
ラムたでしか考慮するこずができず, モデルも単語分
割のために補助的に導入されたもので, 䜕が「単語ら
しい」かの基準を持っおいないずいう問題がある.
これに察し本論文では, 文字–単語の階局 nグラム蚀
語モデルの性胜ず, それに基づく単語分割を盎接最適
化する方法を瀺し, このために動的蚈画法ず MCMC
を組み合わせた効率的な孊習法を提案する.
提案法は nグラム蚀語モデルのベむズモデルであ
る HPYLM を基にしおいるため, 次にたず HPYLM
に぀いお説明し, 続いおそれを文字–単語ず階局化す
るこずで, あらゆる蚀語および未知語に察応し圢態玠
解析を行うこずのできる蚀語モデルを瀺す.
2
(a) Pitman-Yor 過皋による, nグラム分垃 Gn
の階局的な生成.
(b) 等䟡な CRP を甚いた衚珟. 孊習デヌタの各単語を「客」
ずみお, 察応する文脈ノヌドに䞀぀ず぀远加しおいく.
図 3: n グラム蚀語モデルのベむズ孊習.
3 HPYLM から NPYLM ぞ
3.1 HPYLM: ベむズ n グラム蚀語モデル
蚀語モデルを甚いお圢態玠解析を行うためには, 可
胜なあらゆる単語分割に぀いお確率を䞎える方法が
必芁ずなる. 埓来これには, 未知語を衚す特別なトヌ
クン UNK を導入しお確率を求めるなど, ヒュヌリス
ティックな方法が䜿甚されおきたが [3], ディリクレ
過皋およびその䞀般化である Pitman-Yor 過皋によ
る nグラムモデルを甚いるこずで, 理論的に芋通しよ
く, 粟密なモデル化が可胜になる. これに぀いお簡単
に説明する.
Pitman-Yor(PY) 過皋は, 基底枬床ずよばれるある
確率分垃 G0 に䌌たランダムな離散確率分垃 G を生
成する確率過皋であり, 䞋のように曞かれる.
G ∌ PY(G0, d, Ξ) . (3)
d はディスカりント係数, Ξ は G が平均的にどのくら
い G0 ず䌌おいるかを制埡する, PY 過皋のパラメヌ
タである. d = 0 のずき, PY(G0, 0, Ξ) はディリクレ
過繋 DP(Ξ) ず䞀臎する.
いたナニグラム分垃 G1 = { p(·) } があるずするず,
単語 v を文脈ずしたバむグラム分垃 G2 = { p(·|v) }
は G1 ずは異なるが, 高頻床語などに぀いお G1 を
反映しおいるず考えられるから, G1 を基底枬床ずし
た PY 過皋により G2 ∌ PY(G1, d, Ξ) ず生成された
ず仮定するこずができる. 同様にトラむグラム分垃
G3 = { p(·|v v) } はバむグラム分垃を基底枬床ずし
お G3 ∌ PY(G2, d, Ξ) ず生成でき, G1, G2, G3 は図
3(a) のような朚構造をなすこずになる.
実際には G は積分消去するこずができ, このずき,
階局 Pitman-Yor 過皋に基づく nグラム蚀語モデル
(HPYLM) は図 3(b) のように, 階局的な CRP(䞭華
料理店過皋) で衚珟するこずができる. この CRP で
は, 孊習デヌタの各単語を「客」ず呌び, nグラム文
脈に察応する朚の葉に䞀぀ず぀远加しおいく. 䟋え
ば, トラむグラムの孊習デヌタに「圌 は 行く」ずい
う文があったずき, 4 人の客 “圌” “は” “行く” “$”
を, それぞれ盎前の 2 単語 “$ $” “$ 圌” “圌 は” “は
行く” の文脈に察応する葉に远加する. “$” は蚀語モ
デルで必芁な文境界を衚す, 長さ 0 の単語である.
単語 w の客をノヌド h に远加するこずは, 察応す
る nグラムカりント c(w|h) を 1 増やすこずを意味す
る. ただし, バックオフず同じ意味でこれは本圓は,
芪ノヌドでの 1 ぀短い文脈 h を甚いた (n−1) グラ
ムから生成された可胜性がある.4
この時, 客 w のコ
ピヌを「代理客」ずしお芪 h にも同様に远加する.
この客の远加は再垰的に行うため, すべおの皮類の単
語は必ず, 察応する客をナニグラムすなわち根ノヌド
に 1 ぀以䞊持぀こずになる (図 3(b)).
こうしお, カりント c(w|h) のうち, 芪ノヌドから生
成されたず掚定された回数を thw ずおくず, HPYLM
での nグラム確率 p(w|h)は (n−1)グラム確率 p(w|h )
を䜿っお, 次のように階局的に衚すこずができる.
p(w|h) =
c(w|h)−d·thw
Ξ+c(h)
+
Ξ+d·th ·
Ξ+c(h)
· p(w|h ) (4)
ここで, th · =
∑
w thw, c(h)=
∑
w c(w|h) ずした.
䞀般には thw は c(w|h) の察数のオヌダヌの数に
なるが [11], thw を垞に 1 にするず (4) は Kneser-Ney
スムヌゞング [12] ず䞀臎し, HPYLM は Kneser-Ney
nグラムの, より粟密なベむズモデルであるこずがわ
かる. 孊習の際には MCMC 法を甚い, 客をランダム
に遞んで削陀し, たた远加するこずを繰り返すこず
で thw を最適化しおいく. d, Ξ の掚定など詳しくは,
[11] を参照されたい.
3.2 HPYLM の階局化
(4) 匏は単語ナニグラムの堎合は, p(w|h ) が単語の
事前確率を衚すれログラムずなるが, これはどのよう
に䞎えたらよいだろうか.
語圙が有限ならば 1/|V | (V は語圙集合) ずすれば
よいが, 圢態玠解析においおは語圙は無限であり, あ
らゆる郚分文字列が単語ずなる可胜性がある.
ただし, 蚀語においお単語ずなるべき綎りは決しお
ランダムではない. そこで, 本研究では [3] ず同様に,
単語の事前確率をその綎りの文字 nグラムによっお
䞎え,
G0(w) = p(c1c2 · · · ck) (5)
4もずもず c(w|h)=0 だったずき, 確率 0 の事象からカりント
が生成されたこずになっおしたうから, 最初は必ず芪から生成さ
れたものである. しかし, 2 回目以降はそうずは限らない.
3
ず事前確率を蚈算するこずにする. c1 · · · ck は, 単語
w の文字列ずしおの衚蚘である. p(c1 · · · ck) は文字
HPYLM によっお同様に蚈算される.5
文字 nグラム
オヌダヌ n に察する䟝存性を避けるため, 本研究で
は文字モデルには可倉長の ∞-グラム蚀語モデル [13]
を甚いた. このずき, 単語ナニグラム分垃 G1 は (5)
匏で䞎えられる単語事前確率 G0 を基底枬床ずしお,
G1 ∌ PY(G0, d0, Ξ0) のように同様に PY 過皋から生
成されるこずになる.
これは図 4 のように, 単語 HPYLM の基底枬床にた
た文字 HPYLM が埋め蟌たれた, 階局 nグラムモデ
ルであり, 以䞋 Nested Pitman-Yor Language Model
(NPYLM) ず呌ぶ.6
このモデルでは, たず文字 nグ
ラムによっお単語が無限に生成され, それを単語 nグ
ラムによっお組み合わせるこずで文字列が生成され
る. われわれの目暙は, 芳枬倀であるこの文字列のみ
から, 隠れた「単語」を掚定し, 単語モデルず文字モ
デルを同時に求めるこずである.
(5) 匏はあらゆる綎りに確率を䞎えるため, G0, お
よびそこから生成される G1, G2, · · · はすべお可算
無限次元ずなるこずに泚意されたい. その堎合でも
CRP に基づき, (4) 匏および (5) 匏を玠盎に適甚す
るこずで nグラム確率が求たる. こうした構成から,
NPYLM での単語 nグラム確率には぀ねに, 文字 nグ
ラムで蚈算される単語の衚蚘確率が反映されおおり,
䞡者を芋通しよく統合する蚀語モデルずなっおいる.
実際には, (5) 匏だけでは長い単語の確率が小さく
なりすぎるため, 本研究では単語長がポア゜ン分垃
に埓うようにさらに補正を行った. これに぀いおは
4.3 節で詳しく述べる.
CRP 衚珟 NPYLM では単語モデルず文字モデル
は独立ではなく, CRP を介しお繋がっおいる. 単語
HPYLM のナニグラムに単語 w が新しく珟れたり,
察応する倉数 t w が 1 増えたずき, これは w がナニ
グラムの基底枬床, すなわち文字 HPYLM から生成
されたこずを意味するので, w を文字列 c1 · · · ck に
分解しお埗られた “文” を文字 HPYLM にデヌタず
しお远加する. 逆にナニグラムから w が消えたり,
t w が 1 枛った堎合, 察応するデヌタが無効ずなった
こずを意味するので, 文字 HPYLM からそのデヌタ
を削陀する.
これらはすべお, 通垞の HPYLM ず同様に MCMC
の䞭で単語の削陀ず再远加をランダムに繰り返すず
きに起こるが, いた単語は未知であるから, たず文を
単語に分解する必芁がある. 本研究ではこれを動的
蚈画法によっお効率的に行い, MCMC ず組み合わせ
おモデル党䜓を孊習しおいく. これに぀いお次に説
明する.
5文字 HPYLM での最終的な基底枬床 G0 には, 察象ずする
蚀語の可胜な文字集合 (JIS X0208 ならば 6879 個) に぀いお等
確率の事前分垃を甚いる.
6厳密には, これは Nested Dirichlet Process [14] の意味で
「ネスト」しおいるわけではないが, 盎芳的な名称を甚いた.
図 4: NPYLM の階局 CRP 衚珟.
4 å­Šç¿’
各文の単語分割 w, すなわち z を求める最も簡単
な方法は, z1, . . . , zD の䞭から 1 ぀の文字に察応する
zi をランダムに遞び, それが 1 か 0 かを蚀語モデル
から埗られる確率を甚いおサンプリングし, その結果
によっお蚀語モデルを曎新する, ずいうギブスサンプ
リングを繰り返す方法である. 充分サンプリングを
繰り返せば, z は真の分垃である (2) 匏からのサンプ
ルに収束する. [15]
しかし, この方法は孊習デヌタのすべおの文字毎
にサンプリングを繰り返すため, 2 章で述べたように
特に単語分割の堎合はきわめお非効率的であり7
, ア
ニヌリングを行わない限り収束も難しい [10]. たた,
隣同士の単語の関係のみを芋おいるため, バむグラム
たでしか考慮できないずいう問題もある.
4.1 Blocked Gibbs Sampler
これに代わり, 本研究では文ごずの単語分割 w を,
動的蚈画法により効率的にサンプリングする. w す
なわち z をたずめおサンプリングするため, これは
ブロック化ギブスサンプラ [15] ず呌ばれるものずな
り, 図 5 に瀺したアルゎリズムずなる.
最初は単語が未知のため, 文字列 s 党䜓が䞀぀の
「単語」ずなりそのたた文字モデルに枡されるが, 2
回目以降は叀い単語分割によるデヌタを蚀語モデル
から削陀した埌, s の新しい単語分割 w(s) を p(w|s)
からサンプルし, 蚀語モデルを曎新する. この操䜜を
すべおの文に぀いおランダムな順番で繰り返し行い,
1: for j = 1 · · · J do
2: for s in randperm (s1, · · · , sD) do
3: if j >1 then
4: Remove customers of w(s) from Θ
5: end if
6: Draw w(s) according to p(w|s, Θ)
7: Add customers of w(s) to Θ
8: end for
9: Sample hyperparameters of Θ
10: end for
図 5: NPYLM Θ のブロック化ギブスサンプラ.
7[16] では, この方法は “Direct Gibbs” ず呌ばれおいる.
4
図 6: 可胜な単語分割 j の呚蟺化による前向き確率
α[t][k] の蚈算.
1: for t = 1 to N do
2: for k = max(1, t−L) to t do
3: Compute α[t][k] according to (6).
4: end for
5: end for
6: Initialize t ← N, i ← 0, w0 ← $
7: while t > 0 do
8: Draw k ∝ p(wi|ct
t−k+1, Θ) · α[t][k]
9: Set wi ← ct
t−k+1
10: Set t ← t − k, i ← i + 1
11: end while
12: Return w = wi, wi−1, · · · , w1.
図 7: 単語分割 w の Forward-Backward サンプリン
グ (バむグラムの堎合).
単語分割ずそれに基づく蚀語モデルを亀互に最適化
しおいく. 「京郜倧孊」のように耇数の分割がありう
る堎合, 「京郜倧孊」ず「京郜 倧孊」の䞡方を確率
的に考慮するこずで, 局所解に陥るこずを避け, より
よいモデルを埗るこずができる. 図 8 に, 京倧コヌパ
スにおいお Gibbs の繰り返し毎に単語分割 w(s) が
確率的に改良されおいく様子を瀺した.
4.2 Forward filtering-Backward sampling
それでは, 具䜓的に w(s) をサンプリングするにはど
うすればいいのだろうか. HMM のベむズ孊習で知
られおいる Forward filtering-Backward sampling 法
[16] を応甚するず, これは PCFG の構文朚の MCMC
によるサンプリング [17] ず本質的に同じ方法で行う
こずができるこずがわかる.
Forward filtering このために, バむグラムの堎合
は前向き確率 α[t][k] を導入する. α[t][k] は s の郚分
文字列 c1 · · · ct が, 最埌の k 文字を単語ずしお生成
された確率であり (図 6), 次の再垰匏により, それ以
前の可胜な分割すべおに぀いお呚蟺化されおいる.
α[t][k] =
t−k∑
j=1
p(ct
t−k+1|ct−k
t−k−j+1) · α[t−k][j] (6)
ただし α[0][0]=1 であり, cn · · · cm =cm
n ず曞いた.
この関係が成り立぀理由は以䞋である. 二倀倉数
列 z1 · · · zN を保持するこずは, 各時刻 t においお巊
偎の最も近い単語境界ぞの距離 qt を保持するこずず
等䟡であるから,
α[t][k] = p(ct
1, qt =k) (7)
1 神戞では異人通 街の 二十棟 が砎損した 。
2 神戞 では 異人通 街の 二十棟 が砎損した 。
10 神戞 では 異人通 街の 二十棟 が砎損した 。
50 神戞 で は異人 通 街 の 二 十 棟 が 砎損 し た 。
100 神戞 で は 異 人通 街 の 二 十 棟 が 砎損 し た 。
200 神戞 で は 異人通 街 の 二 十 棟 が 砎損 し た 。
図 8: ギブスサンプリングの繰り返しず単語分割 w(s)
の改良. w(s) は最尀解ずは限らず, 確率的である.
=
∑
j
p(ct
t−k+1, ct−k
1 , qt =k, qt−k =j) (8)
=
∑
j
p(ct
t−k+1|ct−k
1 , qt−k =j)p(ct−k
1 , qt−k =j) (9)
=
∑
j
p(ct
t−k+1|ct−k
t−k−j+1)α[t−k][j] (10)
が成り立っおいる. ここで, (9) 匏で qt ず qt−k の条
件぀き独立性を甚いた.
Backward sampling 前向き確率テヌブル α[t][k]
が求たるず, 文末から埌向きに可胜な単語分割をサン
プリングするこずができる. α[N][k] は文字列 cN
1 の
うち最埌の k 文字が単語である確率であり, 文末には
必ず特別な単語$が存圚するから, p($|cN
N−k)·α[N][k]
に比䟋する確率で k をサンプルし, 最埌の単語を決
めるこずができる. その前の単語も今決めた単語に
前接するように同様にサンプルでき, これを文字列の
先頭に達するたで繰り返す. (図 7)
トラむグラム 䞊では簡単のためバむグラムの堎合
を説明したが, トラむグラムの堎合は, 前向き確率に
α[t][k][j] を甚いる. 8
これは文字列 ct
1 が, 最埌の k
文字, およびさらにその前の j 文字を単語ずしお生成
された確率である. Forward-Backward アルゎリズ
ムは耇雑になるため省略するが, 2 次の HMM のビタ
ビアルゎリズム[19] ず同様にしお導出するこずがで
きる.
蚈算量 このアルゎリズムの蚈算量は文字列長を N
ずしお, 文ごずにバむグラムの堎合は O(NL2
), トラ
むグラムは O(NL3
) である. ただし, L は単語の可
胜な最倧長 (≀ N) ずした.
4.3 単語モデルずポア゜ン補正
このモデルはベむズ的な階局 nグラムモデルずしお
自然なものであるが, 実際には匏 (5) だけでは, カタ
カナ語など, 綎りの長い単語の確率が小さくなりすぎ
るずいう問題が生じる [3]. 単語長は倧たかにポア゜
ン分垃に埓うから, これを補正するために, (5) 匏を
p(c1 · · · ck) = p(c1 · · · ck, k|Θ) (11)
=
p(c1 · · · ck, k|Θ)
p(k|Θ)
Po(k|λ) (12)
ず倉圢する. p(k|Θ) は文字 nグラムモデル Θ から
8理論的には 4 グラムやそれ以䞊も可胜であるが, あたりに耇
雑になる䞀方で, 差はそれほど倧きくないず考えられる. むしろ
このような堎合は Particle MCMC 法 [18] が有望だず思われる
が, 予備実隓では動的蚈画法ほど効率的ではなかった.
5
モデル P R F LP LR LF
NPYLM 74.8 75.2 75.0 47.8 59.7 53.1
HDP 61.9 47.6 53.8 57.0 57.5 57.2
è¡š 1: 英語音玠列デヌタでの性胜比范. NPYLM が提
案法を瀺す. “HDP” の結果は [10] から匕甚した.
モデル 蚈算時間 iteration
NPYLM 17 分 200
HDP 10 時間 55 分 20000
è¡š 2: è¡š 1 の結果に芁した蚈算量. NPYLM は実際に
は 50 回, 4 分ほどでほが収束した.
長さ k の単語が出珟する確率であり, [3] などでは
p(k|Θ) = (1 − p($))k−1
p($) ず蚈算しおいるが, これ
はナニグラムの堎合以倖は正しくない. 本研究では,
モンテカルロサンプリングを甚いお Θ から単語をラ
ンダムに生成し, 正確な倀を掚定した.9
λ の掚定 本研究では (12) のポア゜ン分垃 Po(k|λ)
のパラメヌタ λ も定数ではなく, ガンマ事前分垃
p(λ) = Ga(a, b) =
ba
Γ(a)
λa−1
e−bλ
(13)
を䞎えお, デヌタから自動的に掚定する. a, b は p(λ)
がほが䞀様分垃ずなるハむパヌパラメヌタである.
単語分割で埗られた語圙集合を W ずするず, λ の
事埌分垃は | · | を単語の長さを返す関数ずしお,
p(λ|W) ∝ p(W|λ)p(λ)
=
∏
w∈W
(
e−λ λ|w|
|w|!
)t(w)
·
ba
Γ(a)
λa−1
e−bλ
= Ga
(
a+
∑
w∈W
t(w)|w|, b+
∑
w∈W
t(w)
)
(14)
ずなる. ここで, t(w) は同じ単語 w が文字 HPYLM
から生成されたず掚定された回数, すなわち単語ナニ
グラムでの t w である. カタカナ語や挢字など, 単語
皮毎に長さの分垃は異なるため [3], 各単語皮10
毎に
異なる λ を甚い, Gibbs の繰り返し毎に λ を (14) か
らサンプリングした.
5 実隓
5.1 英語音玠列デヌタ
盎接の先行研究である [10] ず比范するため, 最初に
[10] で䜿われおいる英語の音玠列デヌタを甚いお実
隓を行った. このデヌタは CHILDES デヌタベヌス
を基に䜜成された, 9,790 個の音玠列曞き起こしデヌ
タである.11
䞀文の平均は 9.79 文字ずかなり短いた
め, 実隓では L=4 ずした.
9この蚈算は, 珟圚の蚈算機では数秒で終了する.
10単語皮ずしおは, 英字, 数字, 蚘号, ひらがな, カタカナ, 挢字,
挢字+ひらがな混合, 挢字+カタカナ混合, それ以倖の蚈 9 皮を甚
いた. 実装は Unicode で行っお文字皮刀定には ICU [20] を䜿甚
しおいるため, 蚀語には䟝存しない.
11このデヌタは実装および評䟡甚プログラムずずもに, http://
homepages.inf.ed.ac.uk/sgwater/ から入手できる.
モデル MSR CITYU 京倧
NPY(2) 0.802 (51.9) 0.824 (126.5) 0.621 (23.1)
NPY(3) 0.807 (48.8) 0.817 (128.3) 0.666 (20.6)
NPY(+) 0.804 (38.8) 0.823 (126.0) 0.682 (19.1)
ZK08 0.667 (—) 0.692 (—) —
è¡š 3: 正解ずの䞀臎率 (F 倀) および, 文字あたりパヌ
プレキシティ. NPY(2), NPY(3) は単語バむグラム
およびトラむグラムの NPYLM, NPY(+) は NPY(3)
の孊習デヌタを 2 倍にした堎合. ZK08 は [21] での
最高倀を瀺す. 文字モデルには ∞ グラムを甚いた.
MSR CITYU 京倧
Semi 0.893 (48.8) 0.895 (124.6) 0.914 (20.3)
Sup 0.945 (81.5) 0.941 (194.8) 0.971 (21.3)
è¡š 4: 半教垫ありおよび教垫あり孊習の粟床. 半教垫
あり孊習では, 10000 文の教垫デヌタを甚いた.
è¡š 1 に, 200 回の Gibbs iteration 埌の結果を瀺す.
粟床 (P), 再珟率 (R), F 倀 (F) ずも [10] に比べお倧
幅に䞊昇しおおり, 提案法の性胜の高さを瀺しおい
る. 䞀方, 単語分割で埗られた語圙に察する同様の倀
(LP,LR,LF) は必ずしも䞊昇しおいるわけではない.
è¡š 2 に, è¡š 1 の結果を埗るために必芁ずした蚈算時間
を瀺す. [10] の繰り返し回数は, 論文に曞かれおいる
ものを䜿甚した. MCMC の収束は䞀意ではないが,
掚定も非垞に効率的になっおいるこずがわかる.
5.2 日本語および䞭囜語コヌパス
次に, 実際の暙準的なコヌパスずしお, 公開デヌタ
セットである䞭囜語の SIGHAN Bakeoff 2005 [22]
の単語分割デヌタセットおよび京倧コヌパスを䜿っ
お実隓を行った.
䞭囜語 教垫なしでの最新の結果である[21] (Bakeoff
2006 のクロヌズドデヌタを䜿甚) ず比范するため,
二者で共通なものずしお簡䜓䞭囜語甚に Microsoft
Research Asia (MSR) のセット, 繁䜓䞭囜語甚に City
University of Hong Kong (CITYU) のセットを䜿甚
した. それぞれ 50,000 文をランダムに遞んで孊習
デヌタずし, 評䟡デヌタは同梱のものを甚いた.
日本語 京倧コヌパスバヌゞョン 4 のうち, ランダム
に遞んだ 1,000 文を評䟡デヌタ, 残りの 37,400 文を
孊習デヌタずしお甚いた.
いずれも孊習デヌタは空癜をすべお取り陀いた生
文字列であり, 䞭囜語では L=4, 日本語では L=8 ず
した.
なお, 䞊蚘の元デヌタは京倧コヌパス玄 3.7 䞇文,
MSR 8.6 䞇文, CITYU 5.3 䞇文であるが, 提案法は
教垫なし孊習のため, 孊習デヌタを原理的にいくら
でも増やすこずができる. この効果を怜蚌するため,
さらに同量の孊習デヌタを京倧コヌパスは毎日新聞
1996 幎床12
から, MSR は未䜿甚の郚分および PKU
12京倧コヌパス (1995 幎床毎日新聞) ず近い幎床を甚いた.
6
九 日 付 の 英 有力 箙 タむムズ は 、 同 囜 南郚の
りェむマス に近い ポヌトランド の 海軍基地 を 欧
州 向け 物資 の 陞揚げ 基地 ずしお 日本 䌁業 ない
し 䌁業 連合 に そっくり 売华 する 構想 が 浮䞊 し
お い る ず 報じ た 。
五茪 五 䜍 の 枅氎宏保 は むンカレ も  皮目 を 制
し お おり 、 堀井 に どこ たで è¿« る か 。
第癟十二回 芥川 ・ 盎朚賞 の 遞考 委員 䌚 は 、 十
二 日 倜 、 東京 ・ 築地 の 「 新 喜楜 」 で 行われ 、
芥川 賞 、 盎朚賞 ず も 該圓 䜜 なし ず 決た った 。
図 9: 京倧コヌパスの圢態玠解析 (NPY(3+)).
セットから, CITYU は Sinica セットから远加した実
隓も同時に行った.
結果 400 回の Gibbs iteration 埌の京倧コヌパスの
テストデヌタの圢態玠解析䟋を図 9 に, 数倀結果を
è¡š 3 に瀺す.13
京倧コヌパスの F 倀が盎感ほど高く
ないのは, “正解コヌパス” ず掻甚語尟の扱いが異な
るこずや, 「に近い」のような慣甚句, 「海軍基地」
「枅氎宏保」ずいった固有名詞が提案法では適切に結
合されおいるこずにあるず考えられる. 䞀方で䜎頻
床語はデヌタが少ないため助詞ず結合する堎合があ
り, 予め文字モデルを孊習したり, さらにデヌタを増
やす必芁がある.
䞭囜語ではいずれのセットに぀いおも, ヒュヌリス
ティックな [21] での最高倀を倧きく䞊回っおおり, 粟
密な確率モデルに基づく提案法の有効性を瀺しおい
る. 䞭囜語に぀いおはバむグラムずトラむグラムの
結果に倧きな違いはないが, 日本語ではトラむグラ
ムの方が性胜がかなり䞊昇しおいる. 実際に衚 3 に
は衚れおいないが, 単語あたりパヌプレキシティは
336.1(バむグラム) から 154.0(トラむグラム) ぞず倧
きく枛少しおいる. これはトラむグラムが日本語の
単語間の耇雑な関係をずらえ, 高粟床な予枬ずより
短い単語分割を生んでいる (孊習デヌタの平均単語長
2.02→1.80) こずを意味する.
半教垫あり孊習 提案法は完党な生成モデルである
が, 教垫なし孊習だけではなく, 半教垫あり孊習や教
垫あり孊習も行うこずができる. これには図 5 のア
ルゎリズムにおいお, 単語分割 w(s) を教垫ありのも
のに固定すればよい. è¡š 4 に, 通垞の孊習デヌタのう
ちそれぞれ 1 䞇文を教垫ありずした堎合, およびすべ
お教垫ありずした堎合の粟床を瀺す. 教垫ありの堎
合, 日本語で 97%, 䞭囜語で 94%皋床, 半教垫ありの
堎合も, 1/5 皋床の教垫ありデヌタで日本語・䞭囜語
ずも 90%皋床の性胜を達成する.
ただし, 教垫なし孊習にずっお人手による分割ずの
䞀臎率が高いこずが「正解」ずは限らないこずに泚
意されたい. 実際にテストデヌタの文字あたりパヌプ
レキシティは, 教垫なし, 半教垫ありの方が正解コヌ
パスの単語分割を甚いた堎合よりずっず高い性胜を
持っおおり, 人手で䞎えた単語分割が蚀語モデルずし
お最適ずは限らないこずを瀺しおいる.
13日本語は L=8 ず探玢範囲が広いため, 組み合わせも考慮す
るず, 䞭囜語より問題がかなり難しい.
いづれ の 埡 時 に か 、 女埡 曎衣 あたた さぶら
ひ たたひ け る 䞭に 、 いず やむごず なき 際 に
は あら ぬ が 、 すぐれお 時めき たたふ あり けり
。 はじめより 我 は ず 思ひ あが り たたぞ る 埡
方々 、 めざたし き ものに おずしめ そねみ たたふ
。 同じ ほど 、 それ より 例 臈 の 曎衣 たち は 、
たしお やす から ず 。 朝倕 の 宮仕 に぀けお も 、
人の 心を のみ 動か し 、 恚みを 負ふ ぀も り にや
あり け ん 、 いず あ぀し く な り ゆき 、 も の 心
现 げ に 里 がち なる を 、 いよいよ あかず あはれ
なる ものに 思ほし お 、 · · ·
図 10: 『源氏物語』の教垫なし圢態玠解析.
5.3 話し蚀葉コヌパス
提案法は話し蚀葉やブログ等にみられる口語など, 単
語の基準が曖昧な堎合に特に効果的だず考えられる.
これを調べるため, [9] ず同様に, 日本語話し蚀葉コヌ
パス [23] (CSJ) の「察話」郚分を甚いお実隓を行っ
た. [9] では文ずいう単䜍が存圚しないなど前凊理が
異なるが, 孊習および評䟡に甚いた曞き起こしデヌタ
は同䞀である. このデヌタは孊習 6405 文, テスト 322
文ずかなり少ないため, さらに「察話」郚分以倖から
5 䞇文を孊習デヌタずしお远加した実隓も行った.
図 11 に単語分割の䟋を, è¡š 5 に文字あたりパヌプ
レキシティの比范を瀺す. 「っおいうの」のような䌚
話文特有の衚珟やフィラヌが教垫なしで認識されお
おり, 文字あたりパヌプレキシティでは CSJ の短単
䜍を甚いた堎合よりも優れた性胜を持っおいる. 14
NPY(2) NPY(2+) NPY(3) NPY(3+) 短単䜍 (+)
16.8 13.9 21.2 18.1 14.9
è¡š 5: CSJ の文字圓たりテストセットパヌプレキシ
ティ. +は孊習デヌタを増やした堎合を衚す.
5.4 叀文および西欧語
提案法は教垫デヌタを必芁ずせず, すべおのパラメヌ
タをデヌタから孊習するため, あらゆる蚀語に適甚
するこずができる. 特に, 叀文や文語文の圢態玠解析
は, 本手法により初めお完党に可胜になった. 図 10
に, 『源氏物語』の冒頭を圢態玠解析した䟋を瀺す.
珟代文の堎合ず同様に, 䜎頻床語ず助詞が結合する
こずがあるが, 叀兞文法や教垫デヌタを䞀切䞎えおい
ないにもかかわらず, 倚くの堎合にきわめお適切な単
口 が 口 が 動い お たす よ ね 口 の 圢 が はい 口
っおいうの は 唇 も含める んだ けど あヌ はい は
い から 喉 も含める んだ けど も そう いった 運動
のこずを 調音運動 っお 蚀う èš³ うん うん
あ ヌ その 蚀葉の 発声 する 時 の そう そうそう 運
動 蚀葉 を 発声 する 為に 為に 行なう その ヌ 舌
だずか 唇 だずか はい あるいは 喉頭 だずか ふヌん
そう いった もの が こう みんな 協力しお こう 協
調 し お 非垞に こう 玠早く 動く èš³ です よ ね は
い そう いった もの を それ を 調音運動 っお 蚀う
んです ね ほヌ お
図 11: 日本語話し蚀葉コヌパスの圢態玠解析.
14バむグラムの性胜が高い理由は, 比范の必芁からフィラヌを
残したため, デヌタが少ない堎合はトラむグラムが情報源ずしお
ふさわしくないためだず考えられる.
7
lastly,shepicturedtoherselfhowthissamelittlesisterofhe
rswould,intheafter-time,beherselfagrownwoman;andh
owshewouldkeep,throughallherriperyears,thesimplean
dlovingheartofherchildhood:andhowshewouldgathera
boutherotherlittlechildren,andmaketheireyesbrightan
deagerwithmanyastrangetale,perhapsevenwiththedre
amofwonderlandoflongago:andhowshewouldfeelwitha
lltheirsimplesorrows,andfindapleasureinalltheirsimple
joys,rememberingherownchild-life,andthehappysumm
erdays.
(a) 孊習デヌタ (郚分).
last ly , she pictured to herself how this same little
sister of her s would , inthe after - time , be herself
agrown woman ; and how she would keep , through
allher ripery ears , the simple and loving heart of her
child hood : and how she would gather about her
other little children ,and make theireyes bright and
eager with many a strange tale , perhaps even with
the dream of wonderland of longago : and how she
would feel with all their simple sorrow s , and find a
pleasure in all their simple joys , remember ing her
own child - life , and thehappy summerday s .
(b) 単語分割結果. 蟞曞は䞀切䜿甚しおいない.
図 12: “Alice in Wonderland ” の単語分割.
語分割が埗られおいるこずがわかる. 䜎頻床語に぀
いおも, 叀文の芋出し語を文字モデルに事前に䞎えお
おくこずによっお, さらに改善されるず期埅できる.
最埌に, 提案法は東掋語だけでなく, 西欧語やアラ
ビア語にもそのたた適甚するこずができる. 図 12 に,
空癜をすべお削陀した “Alice in Wonderland ” の孊
習テキストず, そこから掚定した単語分割を瀺す. こ
の孊習テキストは 1,431 文, 115,961 文字ず非垞に小
さいにもかかわらず, 教垫なしで驚くほど正確な単語
分割が埗られおいる. たた, last-ly, her-s など接尟蟞
が自動的に分離されおいるこずに泚意されたい. こ
うした結果は屈折や耇合語の倚いドむツ語, フィンラ
ンド語等の解析に特に有甚だず考えられる.
6 考察およびたずめ
本研究では, 階局 Pitman-Yor 過皋によるベむズ nグ
ラム蚀語モデルを文字–単語ずさらに階局化した蚀語
モデルを甚い, MCMC 法ず動的蚈画法により, あら
ゆる蚀語に隠れた「単語」を文字列から発芋する蚀
語モデルおよび圢態玠解析噚を提案した.
提案法は識別モデルにおける CRF のような前向
き–埌ろ向きアルゎリズムの教垫なし孊習版ずもみる
こずができ, CRF+HMM による半教垫あり品詞タグ
付け [24] のように, 識別孊習ずの融合の基盀を䞎え
るず考えられる. 䞀方で, より高床な単語モデルや隠
れ状態を甚いるなど, 蚀語モデル自䜓の高床化による
高粟床化も行っおいきたい.
謝蟞
本研究を行う動機付けずなった Vikash Mansinghka
氏 (MIT), 実装に関しお有益なアドバむスをいただ
いた高林哲氏 (Google), 実隓デヌタの詳现を教えお
いただいた束原勇介氏 (東倧) に感謝したす.
参考文献
[1] 工藀拓, 山本薫, 束本裕治. Conditional Random Fields を
甚いた日本語圢態玠解析. 情報凊理孊䌚研究報告 NL-161,
pages 89–96, 2004.
[2] Taku Kudo. MeCab: Yet Another Part-of-Speech
and Morphological Analyzer. http://mecab.
sourceforge.net/.
[3] 氞田昌明. 単語出珟頻床の期埅倀に基づくテキストからの語
圙獲埗. 情報凊理孊䌚論文誌, 40(9):3373–3386, 1999.
[4] Sharon Goldwater and Tom Griffiths. A Fully Bayesian
Approach to Unsupervised Part-of-Speech Tagging. In
Proceedings of ACL 2007, pages 744–751, 2007.
[5] 山本博文, 菊井玄䞀郎. 教垫なし孊習による文の分割. In 蚀
語凊理孊䌚第 8 回幎次倧䌚発衚論文集 (NLP2002), pages
579–582, 2002.
[6] 工藀拓. 圢態玠呚蟺確率を甚いた分かち曞きの䞀般化ずその
応甚. In 蚀語凊理孊䌚党囜倧䌚論文集 NLP-2005, 2005.
[7] 䞭川哲治, 束本裕治. 単語レベルず文字レベルの情報を甚いた
䞭囜語・日本語単語分割. 情報凊理孊䌚論文誌, 46(11):2714–
2727, 2005.
[8] Kevin Murphy. Hidden semi-Markov models (seg-
ment models), 2002. http://www.cs.ubc.ca/˜murphyk/
Papers/segment.pdf.
[9] 束原勇介, 秋葉友良, 蟻井最䞀. 最小蚘述長原理に基づいた
日本語話し蚀葉の単語分割. In 蚀語凊理孊䌚第 13 回幎次倧
䌚発衚論文集 (NLP2007), 2007.
[10] Sharon Goldwater, Thomas L. Griffiths, and Mark
Johnson. Contextual Dependencies in Unsupervised
Word Segmentation. In Proceedings of ACL/COLING
2006, pages 673–680, 2006.
[11] Yee Whye Teh. A Bayesian Interpretation of Interpo-
lated Kneser-Ney. Technical Report TRA2/06, School
of Computing, NUS, 2006.
[12] Reinhard Kneser and Hermann Ney. Improved backing-
off for m-gram language modeling. In Proceedings of
ICASSP, volume 1, pages 181–184, 1995.
[13] 持橋倧地, 隅田英䞀郎. Pitman-Yor 過皋に基づく可倉長
n-gram 蚀語モデル. 情報凊理孊䌚研究報告 2007-NL-178,
pages 63–70, 2007.
[14] Abel Rodriguez, David Dunson, and Alan Gelfand. The
Nested Dirichlet Process. Journal of the American Sta-
tistical Association, 103:1131–1154, 2008.
[15] W. R. Gilks, S. Richardson, and D. J. Spiegelhalter.
Markov Chain Monte Carlo in Practice. Chapman &
Hall / CRC, 1996.
[16] Steven L. Scott. Bayesian Methods for Hidden Markov
Models. Journal of the American Statistical Associa-
tion, 97:337–351, 2002.
[17] Mark Johnson, Thomas L. Griffiths, and Sharon Gold-
water. Bayesian Inference for PCFGs via Markov Chain
Monte Carlo. In Proceedings of HLT/NAACL 2007,
pages 139–146, 2007.
[18] Arnaud Doucet, Christophe Andrieu, and Roman
Holenstein. Particle Markov Chain Monte Carlo. in
submission, 2009.
[19] Yang He. Extended Viterbi algorithm for second order
hidden Markov process. In Proceedings of ICPR 1988,
pages 718–720, 1988.
[20] ICU: International Components for Unicode.
http://site.icu-project.org/.
[21] Hai Zhao and Chunyu Kit. An Empirical Comparison
of Goodness Measures for Unsupervised Chinese Word
Segmentation with a Unified Framework. In Proceedings
of IJCNLP 2008, 2008.
[22] Tom Emerson. SIGHAN Bakeoff 2005, 2005.
http://www.sighan.org/bakeoff2005/.
[23] 囜立囜語研究所. 日本語話し蚀葉コヌパス, 2008.
http://www.kokken.go.jp/katsudo/seika/corpus/.
[24] Jun Suzuki, Akinori Fujino, and Hideki Isozaki. Semi-
Supervised Structured Output Learning Based on a Hy-
brid Generative and Discriminative Approach. In Pro-
ceedings of EMNLP-CoNLL 2007, pages 791–800, 2007.
8

Weitere Àhnliche Inhalte

Andere mochten auch

Pylm public
Pylm publicPylm public
Pylm publicKei Uchiumi
 
nodalities_issue7.pdf
nodalities_issue7.pdfnodalities_issue7.pdf
nodalities_issue7.pdfHiroshi Ono
 
kademlia-1227143905867010-8.pdf
kademlia-1227143905867010-8.pdfkademlia-1227143905867010-8.pdf
kademlia-1227143905867010-8.pdfHiroshi Ono
 
genpaxospublic-090703114743-phpapp01.pdf
genpaxospublic-090703114743-phpapp01.pdfgenpaxospublic-090703114743-phpapp01.pdf
genpaxospublic-090703114743-phpapp01.pdfHiroshi Ono
 
pragmaticrealworldscalajfokus2009-1233251076441384-2.pdf
pragmaticrealworldscalajfokus2009-1233251076441384-2.pdfpragmaticrealworldscalajfokus2009-1233251076441384-2.pdf
pragmaticrealworldscalajfokus2009-1233251076441384-2.pdfHiroshi Ono
 
Gamecenter抂説
Gamecenter抂説Gamecenter抂説
Gamecenter抂説Hiroshi Ono
 
EventDrivenArchitecture
EventDrivenArchitectureEventDrivenArchitecture
EventDrivenArchitectureHiroshi Ono
 
Voltdb - wikipedia
Voltdb - wikipediaVoltdb - wikipedia
Voltdb - wikipediaHiroshi Ono
 
自然蚀語凊理のためのDeep Learning
自然蚀語凊理のためのDeep Learning自然蚀語凊理のためのDeep Learning
自然蚀語凊理のためのDeep LearningYuta Kikuchi
 

Andere mochten auch (9)

Pylm public
Pylm publicPylm public
Pylm public
 
nodalities_issue7.pdf
nodalities_issue7.pdfnodalities_issue7.pdf
nodalities_issue7.pdf
 
kademlia-1227143905867010-8.pdf
kademlia-1227143905867010-8.pdfkademlia-1227143905867010-8.pdf
kademlia-1227143905867010-8.pdf
 
genpaxospublic-090703114743-phpapp01.pdf
genpaxospublic-090703114743-phpapp01.pdfgenpaxospublic-090703114743-phpapp01.pdf
genpaxospublic-090703114743-phpapp01.pdf
 
pragmaticrealworldscalajfokus2009-1233251076441384-2.pdf
pragmaticrealworldscalajfokus2009-1233251076441384-2.pdfpragmaticrealworldscalajfokus2009-1233251076441384-2.pdf
pragmaticrealworldscalajfokus2009-1233251076441384-2.pdf
 
Gamecenter抂説
Gamecenter抂説Gamecenter抂説
Gamecenter抂説
 
EventDrivenArchitecture
EventDrivenArchitectureEventDrivenArchitecture
EventDrivenArchitecture
 
Voltdb - wikipedia
Voltdb - wikipediaVoltdb - wikipedia
Voltdb - wikipedia
 
自然蚀語凊理のためのDeep Learning
自然蚀語凊理のためのDeep Learning自然蚀語凊理のためのDeep Learning
自然蚀語凊理のためのDeep Learning
 

Mehr von Hiroshi Ono

downey08semaphores.pdf
downey08semaphores.pdfdowney08semaphores.pdf
downey08semaphores.pdfHiroshi Ono
 
BOF1-Scala02.pdf
BOF1-Scala02.pdfBOF1-Scala02.pdf
BOF1-Scala02.pdfHiroshi Ono
 
TwitterOct2008.pdf
TwitterOct2008.pdfTwitterOct2008.pdf
TwitterOct2008.pdfHiroshi Ono
 
camel-scala.pdf
camel-scala.pdfcamel-scala.pdf
camel-scala.pdfHiroshi Ono
 
stateyouredoingitwrongjavaone2009-090617031310-phpapp02.pdf
stateyouredoingitwrongjavaone2009-090617031310-phpapp02.pdfstateyouredoingitwrongjavaone2009-090617031310-phpapp02.pdf
stateyouredoingitwrongjavaone2009-090617031310-phpapp02.pdfHiroshi Ono
 
SACSIS2009_TCP.pdf
SACSIS2009_TCP.pdfSACSIS2009_TCP.pdf
SACSIS2009_TCP.pdfHiroshi Ono
 
scalaliftoff2009.pdf
scalaliftoff2009.pdfscalaliftoff2009.pdf
scalaliftoff2009.pdfHiroshi Ono
 
stateyouredoingitwrongjavaone2009-090617031310-phpapp02.pdf
stateyouredoingitwrongjavaone2009-090617031310-phpapp02.pdfstateyouredoingitwrongjavaone2009-090617031310-phpapp02.pdf
stateyouredoingitwrongjavaone2009-090617031310-phpapp02.pdfHiroshi Ono
 
program_draft3.pdf
program_draft3.pdfprogram_draft3.pdf
program_draft3.pdfHiroshi Ono
 
nodalities_issue7.pdf
nodalities_issue7.pdfnodalities_issue7.pdf
nodalities_issue7.pdfHiroshi Ono
 
genpaxospublic-090703114743-phpapp01.pdf
genpaxospublic-090703114743-phpapp01.pdfgenpaxospublic-090703114743-phpapp01.pdf
genpaxospublic-090703114743-phpapp01.pdfHiroshi Ono
 
kademlia-1227143905867010-8.pdf
kademlia-1227143905867010-8.pdfkademlia-1227143905867010-8.pdf
kademlia-1227143905867010-8.pdfHiroshi Ono
 
pragmaticrealworldscalajfokus2009-1233251076441384-2.pdf
pragmaticrealworldscalajfokus2009-1233251076441384-2.pdfpragmaticrealworldscalajfokus2009-1233251076441384-2.pdf
pragmaticrealworldscalajfokus2009-1233251076441384-2.pdfHiroshi Ono
 
downey08semaphores.pdf
downey08semaphores.pdfdowney08semaphores.pdf
downey08semaphores.pdfHiroshi Ono
 
BOF1-Scala02.pdf
BOF1-Scala02.pdfBOF1-Scala02.pdf
BOF1-Scala02.pdfHiroshi Ono
 
TwitterOct2008.pdf
TwitterOct2008.pdfTwitterOct2008.pdf
TwitterOct2008.pdfHiroshi Ono
 
pamphlet_honsyou.pdf
pamphlet_honsyou.pdfpamphlet_honsyou.pdf
pamphlet_honsyou.pdfHiroshi Ono
 
camel-scala.pdf
camel-scala.pdfcamel-scala.pdf
camel-scala.pdfHiroshi Ono
 
program_draft3.pdf
program_draft3.pdfprogram_draft3.pdf
program_draft3.pdfHiroshi Ono
 
nodalities_issue7.pdf
nodalities_issue7.pdfnodalities_issue7.pdf
nodalities_issue7.pdfHiroshi Ono
 

Mehr von Hiroshi Ono (20)

downey08semaphores.pdf
downey08semaphores.pdfdowney08semaphores.pdf
downey08semaphores.pdf
 
BOF1-Scala02.pdf
BOF1-Scala02.pdfBOF1-Scala02.pdf
BOF1-Scala02.pdf
 
TwitterOct2008.pdf
TwitterOct2008.pdfTwitterOct2008.pdf
TwitterOct2008.pdf
 
camel-scala.pdf
camel-scala.pdfcamel-scala.pdf
camel-scala.pdf
 
stateyouredoingitwrongjavaone2009-090617031310-phpapp02.pdf
stateyouredoingitwrongjavaone2009-090617031310-phpapp02.pdfstateyouredoingitwrongjavaone2009-090617031310-phpapp02.pdf
stateyouredoingitwrongjavaone2009-090617031310-phpapp02.pdf
 
SACSIS2009_TCP.pdf
SACSIS2009_TCP.pdfSACSIS2009_TCP.pdf
SACSIS2009_TCP.pdf
 
scalaliftoff2009.pdf
scalaliftoff2009.pdfscalaliftoff2009.pdf
scalaliftoff2009.pdf
 
stateyouredoingitwrongjavaone2009-090617031310-phpapp02.pdf
stateyouredoingitwrongjavaone2009-090617031310-phpapp02.pdfstateyouredoingitwrongjavaone2009-090617031310-phpapp02.pdf
stateyouredoingitwrongjavaone2009-090617031310-phpapp02.pdf
 
program_draft3.pdf
program_draft3.pdfprogram_draft3.pdf
program_draft3.pdf
 
nodalities_issue7.pdf
nodalities_issue7.pdfnodalities_issue7.pdf
nodalities_issue7.pdf
 
genpaxospublic-090703114743-phpapp01.pdf
genpaxospublic-090703114743-phpapp01.pdfgenpaxospublic-090703114743-phpapp01.pdf
genpaxospublic-090703114743-phpapp01.pdf
 
kademlia-1227143905867010-8.pdf
kademlia-1227143905867010-8.pdfkademlia-1227143905867010-8.pdf
kademlia-1227143905867010-8.pdf
 
pragmaticrealworldscalajfokus2009-1233251076441384-2.pdf
pragmaticrealworldscalajfokus2009-1233251076441384-2.pdfpragmaticrealworldscalajfokus2009-1233251076441384-2.pdf
pragmaticrealworldscalajfokus2009-1233251076441384-2.pdf
 
downey08semaphores.pdf
downey08semaphores.pdfdowney08semaphores.pdf
downey08semaphores.pdf
 
BOF1-Scala02.pdf
BOF1-Scala02.pdfBOF1-Scala02.pdf
BOF1-Scala02.pdf
 
TwitterOct2008.pdf
TwitterOct2008.pdfTwitterOct2008.pdf
TwitterOct2008.pdf
 
pamphlet_honsyou.pdf
pamphlet_honsyou.pdfpamphlet_honsyou.pdf
pamphlet_honsyou.pdf
 
camel-scala.pdf
camel-scala.pdfcamel-scala.pdf
camel-scala.pdf
 
program_draft3.pdf
program_draft3.pdfprogram_draft3.pdf
program_draft3.pdf
 
nodalities_issue7.pdf
nodalities_issue7.pdfnodalities_issue7.pdf
nodalities_issue7.pdf
 

KÃŒrzlich hochgeladen

IFIP IP3での資栌制床を察象ずする囜際認定IPSJ86党囜倧䌚シンポゞりム
IFIP IP3での資栌制床を察象ずする囜際認定IPSJ86党囜倧䌚シンポゞりムIFIP IP3での資栌制床を察象ずする囜際認定IPSJ86党囜倧䌚シンポゞりム
IFIP IP3での資栌制床を察象ずする囜際認定IPSJ86党囜倧䌚シンポゞりムssuser539845
 
2024 01 Virtual_Counselor
2024 01 Virtual_Counselor 2024 01 Virtual_Counselor
2024 01 Virtual_Counselor arts yokohama
 
持続可胜なDrupal Meetupのコツ - Drupal Meetup Tokyoの知芋
持続可胜なDrupal Meetupのコツ - Drupal Meetup Tokyoの知芋持続可胜なDrupal Meetupのコツ - Drupal Meetup Tokyoの知芋
持続可胜なDrupal Meetupのコツ - Drupal Meetup Tokyoの知芋Shumpei Kishi
 
2024 02 Nihon-Tanken Towards a More Inclusive Japan
2024 02 Nihon-Tanken Towards a More Inclusive Japan2024 02 Nihon-Tanken Towards a More Inclusive Japan
2024 02 Nihon-Tanken Towards a More Inclusive Japanarts yokohama
 
TaketoFujikawa_台本䞭の動䜜衚珟に基づくアニメヌション原画システムの提案_SIGEC71.pdf
TaketoFujikawa_台本䞭の動䜜衚珟に基づくアニメヌション原画システムの提案_SIGEC71.pdfTaketoFujikawa_台本䞭の動䜜衚珟に基づくアニメヌション原画システムの提案_SIGEC71.pdf
TaketoFujikawa_台本䞭の動䜜衚珟に基づくアニメヌション原画システムの提案_SIGEC71.pdfMatsushita Laboratory
 
「今からでも間に合う」GPTsによる 掻甚LT䌚 - 人ずAIが協調するHumani-in-the-Loopぞ
「今からでも間に合う」GPTsによる 掻甚LT䌚 - 人ずAIが協調するHumani-in-the-Loopぞ「今からでも間に合う」GPTsによる 掻甚LT䌚 - 人ずAIが協調するHumani-in-the-Loopぞ
「今からでも間に合う」GPTsによる 掻甚LT䌚 - 人ずAIが協調するHumani-in-the-LoopぞTetsuya Nihonmatsu
 
情報凊理孊䌚86回党囜倧䌚_Generic OAMをDeep Learning技術によっお実珟するための課題ず解決方法
情報凊理孊䌚86回党囜倧䌚_Generic OAMをDeep Learning技術によっお実珟するための課題ず解決方法情報凊理孊䌚86回党囜倧䌚_Generic OAMをDeep Learning技術によっお実珟するための課題ず解決方法
情報凊理孊䌚86回党囜倧䌚_Generic OAMをDeep Learning技術によっお実珟するための課題ず解決方法ssuser370dd7
 
2024 04 minnanoito
2024 04 minnanoito2024 04 minnanoito
2024 04 minnanoitoarts yokohama
 
ARスタヌトアップOnePlanetの Apple Vision Proぞの情熱ず挑戊
ARスタヌトアップOnePlanetの Apple Vision Proぞの情熱ず挑戊ARスタヌトアップOnePlanetの Apple Vision Proぞの情熱ず挑戊
ARスタヌトアップOnePlanetの Apple Vision Proぞの情熱ず挑戊Sadao Tokuyama
 
20240326_IoTLT_vol109_kitazaki_v1___.pdf
20240326_IoTLT_vol109_kitazaki_v1___.pdf20240326_IoTLT_vol109_kitazaki_v1___.pdf
20240326_IoTLT_vol109_kitazaki_v1___.pdfAyachika Kitazaki
 

KÃŒrzlich hochgeladen (12)

IFIP IP3での資栌制床を察象ずする囜際認定IPSJ86党囜倧䌚シンポゞりム
IFIP IP3での資栌制床を察象ずする囜際認定IPSJ86党囜倧䌚シンポゞりムIFIP IP3での資栌制床を察象ずする囜際認定IPSJ86党囜倧䌚シンポゞりム
IFIP IP3での資栌制床を察象ずする囜際認定IPSJ86党囜倧䌚シンポゞりム
 
2024 01 Virtual_Counselor
2024 01 Virtual_Counselor 2024 01 Virtual_Counselor
2024 01 Virtual_Counselor
 
What is the world where you can make your own semiconductors?
What is the world where you can make your own semiconductors?What is the world where you can make your own semiconductors?
What is the world where you can make your own semiconductors?
 
持続可胜なDrupal Meetupのコツ - Drupal Meetup Tokyoの知芋
持続可胜なDrupal Meetupのコツ - Drupal Meetup Tokyoの知芋持続可胜なDrupal Meetupのコツ - Drupal Meetup Tokyoの知芋
持続可胜なDrupal Meetupのコツ - Drupal Meetup Tokyoの知芋
 
2024 02 Nihon-Tanken Towards a More Inclusive Japan
2024 02 Nihon-Tanken Towards a More Inclusive Japan2024 02 Nihon-Tanken Towards a More Inclusive Japan
2024 02 Nihon-Tanken Towards a More Inclusive Japan
 
TaketoFujikawa_台本䞭の動䜜衚珟に基づくアニメヌション原画システムの提案_SIGEC71.pdf
TaketoFujikawa_台本䞭の動䜜衚珟に基づくアニメヌション原画システムの提案_SIGEC71.pdfTaketoFujikawa_台本䞭の動䜜衚珟に基づくアニメヌション原画システムの提案_SIGEC71.pdf
TaketoFujikawa_台本䞭の動䜜衚珟に基づくアニメヌション原画システムの提案_SIGEC71.pdf
 
「今からでも間に合う」GPTsによる 掻甚LT䌚 - 人ずAIが協調するHumani-in-the-Loopぞ
「今からでも間に合う」GPTsによる 掻甚LT䌚 - 人ずAIが協調するHumani-in-the-Loopぞ「今からでも間に合う」GPTsによる 掻甚LT䌚 - 人ずAIが協調するHumani-in-the-Loopぞ
「今からでも間に合う」GPTsによる 掻甚LT䌚 - 人ずAIが協調するHumani-in-the-Loopぞ
 
情報凊理孊䌚86回党囜倧䌚_Generic OAMをDeep Learning技術によっお実珟するための課題ず解決方法
情報凊理孊䌚86回党囜倧䌚_Generic OAMをDeep Learning技術によっお実珟するための課題ず解決方法情報凊理孊䌚86回党囜倧䌚_Generic OAMをDeep Learning技術によっお実珟するための課題ず解決方法
情報凊理孊䌚86回党囜倧䌚_Generic OAMをDeep Learning技術によっお実珟するための課題ず解決方法
 
2024 03 CTEA
2024 03 CTEA2024 03 CTEA
2024 03 CTEA
 
2024 04 minnanoito
2024 04 minnanoito2024 04 minnanoito
2024 04 minnanoito
 
ARスタヌトアップOnePlanetの Apple Vision Proぞの情熱ず挑戊
ARスタヌトアップOnePlanetの Apple Vision Proぞの情熱ず挑戊ARスタヌトアップOnePlanetの Apple Vision Proぞの情熱ず挑戊
ARスタヌトアップOnePlanetの Apple Vision Proぞの情熱ず挑戊
 
20240326_IoTLT_vol109_kitazaki_v1___.pdf
20240326_IoTLT_vol109_kitazaki_v1___.pdf20240326_IoTLT_vol109_kitazaki_v1___.pdf
20240326_IoTLT_vol109_kitazaki_v1___.pdf
 

nl190segment

  • 1. ベむズ階局蚀語モデルによる教垫なし圢態玠解析 持橋 倧地 山田 歊士 侊田 修功 NTT コミュニケヌション科孊基瀎研究所 〒 619-0237 京郜府盞楜郡粟華町「けいはんな孊研郜垂」光台 2–4 daichi@cslab.kecl.ntt.co.jp {yamada,ueda}@cslab.kecl.ntt.co.jp 抂芁 本論文では, 教垫デヌタや蟞曞を必芁ずせず, あらゆる蚀語に適甚できる教垫なし圢態玠解析噚および蚀語 モデルを提案する. 芳枬された文字列を, 文字 nグラム-単語 nグラムをノンパラメトリックベむズ法の枠組 で統合した確率モデルからの出力ずみなし, MCMC 法ず動的蚈画法を甚いお, 繰り返し隠れた「単語」を 掚定する. 提案法は, あらゆる蚀語の生文字列から盎接, 党く知識なしに Kneser-Ney ず同等に高粟床にス ムヌゞングされ, 未知語のない nグラム蚀語モデルを構築する方法ずみなすこずもできる. 話し蚀葉や叀文を含む日本語, および䞭囜語単語分割の暙準的なデヌタセットでの実隓により, 提案法の有 効性および効率性を確認した. キヌワヌド: 圢態玠解析, 単語分割, 蚀語モデル, ノンパラメトリックベむズ法, MCMC Bayesian Unsupervised Word Segmentation with Hierarchical Language Modeling Daichi Mochihashi Takeshi Yamada Naonori Ueda NTT Communication Science Laboratories Hikaridai 2-4, Keihanna Science City, Kyoto Japan 619-0237 daichi@cslab.kecl.ntt.co.jp {yamada,ueda}@cslab.kecl.ntt.co.jp Abstract This paper proposes a novel unsupervised morphological analyzer of arbitrary language that does not need any supervised segmentation nor dictionary. Assuming a string as the output from a nonpara- metric Bayesian hierarchical n-gram language model of words and characters, “words” are iteratively estimated during inference by a combination of MCMC and an efficient dynamic programming. This model can also be considered as a method to learn an accurate n-gram language model directly from characters without any “word” information. Keywords: Word segmentation, Language Modeling, Nonparametric Bayes, MCMC 1 はじめに 日本語の圢態玠解析は珟圚 99%以䞊の性胜を持っお いるず蚀われるが [1], はたしお本圓だろうか. 珟圚の高粟床な圢態玠解析噚はすべお, 人手で䜜 成した教垫デヌタをもずに機械孊習たたはルヌルに よっお構築されおおり, その際の教垫デヌタは新聞蚘 事がほずんどである. 話し蚀葉や, ブログ等でみられ る口語䜓の日本語には次々に新語や新しい衚珟が生 たれ, たた単語分割の基準が曖昧なため, 圢態玠解析 を高粟床に行うこずは困難である. 教垫デヌタを人 手で䜜成する堎合でも, その構築やメンテナンスに は莫倧なコストがかかり, それが䜕らかの意味で「正 解」であるずいう保蚌もない.1 さらに, 叀文や未知の蚀語などにはそもそも教垫 デヌタがなく, これたで圢態玠解析は䞍可胜であった. 図 1 に, 『源氏物語』の冒頭の䞀郚を MeCab [2] で 1新聞蚘事の堎合でも問題は同様であり, 「正解」デヌタは本 質的に䞀意ではない. よっお, 耇数の品詞䜓系やタグ付け基準が あり, 教垫あり孊習はそうした恣意性から逃れるこずができない. 圢態玠解析した䟋を瀺す. 「たぐひなしず」「なほ にほはしさ」などの解析結果を芋るずわかる ように, 珟代文の教垫あり孊習に基づく圢態玠解析噚 では, こうした文を適切に分割するこずができない. 圢態玠解析された結果は, かな挢字倉換や統蚈的機 械翻蚳, 音声認識など倚くの堎合, そこで甚いられる nグラムなどの蚀語モデルぞの入力ずしお䜿われる. 人手による教垫デヌタを基本ずした埓来の圢態玠解 析には, 適甚の際のこうした性胜を最適化しおいない ずいう問題もあった. たた理孊的あるいは蚈算蚀語 孊的にみるず, たずえ未知の蚀語であったずしおも, 蚀語デヌタに隠れた統蚈的性質を甚いお, 「単語」の ような基瀎的な単䜍に぀いおは導出できるこずが望 たしい. こうした考えに基づき, 本論文では任意の蚀語に぀ いお, 芳枬された文字列のみから蟞曞や教垫デヌタを 党く䜿わずに「単語」を掚定するこずのできる, ノン パラメトリックベむズ法に基づいた教垫なし圢態玠 解析噚および蚀語モデルを提案する. 提案法は任意 1
  • 2. 䞖にたぐひなしず芋たおた぀りたたひ、 名高うおはする宮の埡容貌にも、 なほにほはしさはたずぞむ方な く、う぀くしげなるを、䞖の人光 る君ず聞こゆ。藀壌ならびたたひ お、埡おがえもずりどりなれば、か かやく日の宮ず聞こゆ。· · · 図 1: 『源氏物語』の MeCab による解析. の蚀語の文字列から盎接蚀語モデルを孊習する方法 ずも芋なすこずができ, 掚論の際に効率的な MCMC 法を甚いお繰り返し単語分割を改良しおいくこずで 孊習を行う. 最終的に孊習デヌタの最適な単語分割 ず蚀語モデルが埗られ, 蚀語モデルを甚いおビタビア ルゎリズムで解析するこずにより未知デヌタの圢態 玠解析も行うこずができる. 教垫なし孊習のため, 提案法は孊習デヌタを原理的 にいくらでも増やすこずができ, 「未知語」が存圚せ ず, ドメむン適応も容易である. たた, 教垫ありデヌ タを事前知識ずしお組み蟌むこずもできる. 以䞋ではたず, 2 章で教垫なし圢態玠解析の定匏化 ず, これたでの関連研究に぀いお説明する. 3 章で は階局ベむズ法による nグラムモデルを文字–単語ず さらに階局化しお埗られる蚀語モデルを瀺し, 4 章で MCMC 法ず動的蚈画法を組み合わせた孊習法に぀い お述べる. 5 章で新聞蚘事・話し蚀葉・叀文の日本語, および䞭囜語, 英語の単語分割の実隓を行っお有効性 を瀺し, 6 章で考察を行っお党䜓をたずめる. 2 教垫なし圢態玠解析ずは 自然蚀語の文字列 s=c1c2 · · · cN が䞎えられたずき, 教垫なし圢態玠解析ずは, s を分割しお埗られる単語 列 w = w1w2 · · · wM の確率 p(w|s) を最倧にする単 語列 ˆw を求める問題ず考えるこずができる. 2 ˆw = argmax w p(w|s) (1) これは, 「蚀語ずしお最も自然な単語分割」を求め たいずいうこずず等しい. 「圢態玠解析」ずいうず w の品詞タグ付けも含むこずが倚いが, 品詞の決定 には本来, 構文解析を必芁ずするず考えられるこず, たた nグラムや統蚈的機械翻蚳など倚くのタスクに おいお単語分割のみが必芁ずされるこずから, 本論文 では「圢態玠解析」ずは最も基本的な, 単語分割を指 すこずずする.3 (1) 匏の確率 p(w|s) は蚀語モデルによっお蚈算す るこずができ, これを最倧化する ˆw は, 単語蟞曞お よび蚀語モデルが存圚すれば, 可胜な単語の組み合わ せに぀いおビタビアルゎリズムを適甚するこずで埗 るこずができる. しかし, 教垫なし圢態玠解析においおはそもそも単 語が未知である. [3][5] ではこの制玄をやや緩め, 未 2この定匏化は䞀般化するず統蚈翻蚳ずみるこずができ, s が ひらがな列のずき, かな挢字倉換ず等䟡ずなる. 3簡単な教垫なし品詞掚定には, 提案法によっお単語分割を行っ た埌, HMM を走らせる方法 [4] がある. s = 圌 女 の 蚀 っ た 蚀 葉 は · · · z = 0 1 1 1 0 1 0 1 1 · · · w = 圌 女 の 蚀 っ た 蚀 葉 は · · · 図 2: 単語分割ず朜圚倉数ベクトル z. 知語の単語らしさを文字 nグラムで䞎えたり, 単語リ ストを䞎えた䞋で, (1) 匏による分割ず蚀語モデルを 亀互に最適化する方法を瀺したが, 䟝然ずしお単語分 割枈みコヌパスや, 単語リストを必芁ずしおいた. こ れらは未知の蚀語に぀いおは原理的に準備䞍可胜で あり, たた既知の蚀語に぀いおも, 単語分割の「正解」 は䞀意ではなく [6], たずえば話し蚀葉や口語䜓に぀ いおは䜕を「単語」ずすべきか同定するこずも非垞 に難しい. さらに, 単語の皮類は有限ではなく, テキ ストには既存の単語リストでカバヌできない倧量の 「未知語」が含たれおおり, こうした未知語の取り扱 いが圢態玠解析の重芁な問題ずなっおきおいる [7]. 玔粋に統蚈的機械孊習の問題ずしおみるず, (1) 匏 は s の各文字 ci にその盎埌が単語境界のずき 1, そ うでないずき 0 をずる朜圚倉数 zi があるず考えれば, w は朜圚倉数ベクトル z = z1z2 · · · zN ず同䞀芖で きるから, ˆz = argmax z p(z|s) (2) を最倧化する ˆz を求める孊習問題ず考えるこずがで きる. これは z を隠れ状態ずする, semi-Markov モ デルたたは分割モデル [8] ず呌ばれる HMM の倉皮 であり, 各文 s に぀いお可胜な z は指数的に存圚する ため, 効率的な孊習が必芁ずなる. 簡単な方法ずしお最近のものに, MDL を基準に文 字のチャンキングを繰り返す方法 [9] があり, たたよ りベむズ的な方法ずしお, [10] は階局ディリクレ過皋 (HDP) による単語バむグラムモデルを甚いお, zi を ギブスサンプラにより䞀文字ず぀曎新する方法を瀺 した. しかし, これらの方法は単語分割を䞀箇所ず぀倉え るために, 膚倧な蚈算量を必芁ずする. さらに, 単語 分割では異なる zi の間に高い盞関があるために収束 がきわめお遅く, 非垞に少量のコヌパスに぀いおしか 適甚できなかった. たた, この方法では単語のバむグ ラムたでしか考慮するこずができず, モデルも単語分 割のために補助的に導入されたもので, 䜕が「単語ら しい」かの基準を持っおいないずいう問題がある. これに察し本論文では, 文字–単語の階局 nグラム蚀 語モデルの性胜ず, それに基づく単語分割を盎接最適 化する方法を瀺し, このために動的蚈画法ず MCMC を組み合わせた効率的な孊習法を提案する. 提案法は nグラム蚀語モデルのベむズモデルであ る HPYLM を基にしおいるため, 次にたず HPYLM に぀いお説明し, 続いおそれを文字–単語ず階局化す るこずで, あらゆる蚀語および未知語に察応し圢態玠 解析を行うこずのできる蚀語モデルを瀺す. 2
  • 3. (a) Pitman-Yor 過皋による, nグラム分垃 Gn の階局的な生成. (b) 等䟡な CRP を甚いた衚珟. 孊習デヌタの各単語を「客」 ずみお, 察応する文脈ノヌドに䞀぀ず぀远加しおいく. 図 3: n グラム蚀語モデルのベむズ孊習. 3 HPYLM から NPYLM ぞ 3.1 HPYLM: ベむズ n グラム蚀語モデル 蚀語モデルを甚いお圢態玠解析を行うためには, 可 胜なあらゆる単語分割に぀いお確率を䞎える方法が 必芁ずなる. 埓来これには, 未知語を衚す特別なトヌ クン UNK を導入しお確率を求めるなど, ヒュヌリス ティックな方法が䜿甚されおきたが [3], ディリクレ 過皋およびその䞀般化である Pitman-Yor 過皋によ る nグラムモデルを甚いるこずで, 理論的に芋通しよ く, 粟密なモデル化が可胜になる. これに぀いお簡単 に説明する. Pitman-Yor(PY) 過皋は, 基底枬床ずよばれるある 確率分垃 G0 に䌌たランダムな離散確率分垃 G を生 成する確率過皋であり, 䞋のように曞かれる. G ∌ PY(G0, d, Ξ) . (3) d はディスカりント係数, Ξ は G が平均的にどのくら い G0 ず䌌おいるかを制埡する, PY 過皋のパラメヌ タである. d = 0 のずき, PY(G0, 0, Ξ) はディリクレ 過繋 DP(Ξ) ず䞀臎する. いたナニグラム分垃 G1 = { p(·) } があるずするず, 単語 v を文脈ずしたバむグラム分垃 G2 = { p(·|v) } は G1 ずは異なるが, 高頻床語などに぀いお G1 を 反映しおいるず考えられるから, G1 を基底枬床ずし た PY 過皋により G2 ∌ PY(G1, d, Ξ) ず生成された ず仮定するこずができる. 同様にトラむグラム分垃 G3 = { p(·|v v) } はバむグラム分垃を基底枬床ずし お G3 ∌ PY(G2, d, Ξ) ず生成でき, G1, G2, G3 は図 3(a) のような朚構造をなすこずになる. 実際には G は積分消去するこずができ, このずき, 階局 Pitman-Yor 過皋に基づく nグラム蚀語モデル (HPYLM) は図 3(b) のように, 階局的な CRP(䞭華 料理店過皋) で衚珟するこずができる. この CRP で は, 孊習デヌタの各単語を「客」ず呌び, nグラム文 脈に察応する朚の葉に䞀぀ず぀远加しおいく. 䟋え ば, トラむグラムの孊習デヌタに「圌 は 行く」ずい う文があったずき, 4 人の客 “圌” “は” “行く” “$” を, それぞれ盎前の 2 単語 “$ $” “$ 圌” “圌 は” “は 行く” の文脈に察応する葉に远加する. “$” は蚀語モ デルで必芁な文境界を衚す, 長さ 0 の単語である. 単語 w の客をノヌド h に远加するこずは, 察応す る nグラムカりント c(w|h) を 1 増やすこずを意味す る. ただし, バックオフず同じ意味でこれは本圓は, 芪ノヌドでの 1 ぀短い文脈 h を甚いた (n−1) グラ ムから生成された可胜性がある.4 この時, 客 w のコ ピヌを「代理客」ずしお芪 h にも同様に远加する. この客の远加は再垰的に行うため, すべおの皮類の単 語は必ず, 察応する客をナニグラムすなわち根ノヌド に 1 ぀以䞊持぀こずになる (図 3(b)). こうしお, カりント c(w|h) のうち, 芪ノヌドから生 成されたず掚定された回数を thw ずおくず, HPYLM での nグラム確率 p(w|h)は (n−1)グラム確率 p(w|h ) を䜿っお, 次のように階局的に衚すこずができる. p(w|h) = c(w|h)−d·thw Ξ+c(h) + Ξ+d·th · Ξ+c(h) · p(w|h ) (4) ここで, th · = ∑ w thw, c(h)= ∑ w c(w|h) ずした. 䞀般には thw は c(w|h) の察数のオヌダヌの数に なるが [11], thw を垞に 1 にするず (4) は Kneser-Ney スムヌゞング [12] ず䞀臎し, HPYLM は Kneser-Ney nグラムの, より粟密なベむズモデルであるこずがわ かる. 孊習の際には MCMC 法を甚い, 客をランダム に遞んで削陀し, たた远加するこずを繰り返すこず で thw を最適化しおいく. d, Ξ の掚定など詳しくは, [11] を参照されたい. 3.2 HPYLM の階局化 (4) 匏は単語ナニグラムの堎合は, p(w|h ) が単語の 事前確率を衚すれログラムずなるが, これはどのよう に䞎えたらよいだろうか. 語圙が有限ならば 1/|V | (V は語圙集合) ずすれば よいが, 圢態玠解析においおは語圙は無限であり, あ らゆる郚分文字列が単語ずなる可胜性がある. ただし, 蚀語においお単語ずなるべき綎りは決しお ランダムではない. そこで, 本研究では [3] ず同様に, 単語の事前確率をその綎りの文字 nグラムによっお 䞎え, G0(w) = p(c1c2 · · · ck) (5) 4もずもず c(w|h)=0 だったずき, 確率 0 の事象からカりント が生成されたこずになっおしたうから, 最初は必ず芪から生成さ れたものである. しかし, 2 回目以降はそうずは限らない. 3
  • 4. ず事前確率を蚈算するこずにする. c1 · · · ck は, 単語 w の文字列ずしおの衚蚘である. p(c1 · · · ck) は文字 HPYLM によっお同様に蚈算される.5 文字 nグラム オヌダヌ n に察する䟝存性を避けるため, 本研究で は文字モデルには可倉長の ∞-グラム蚀語モデル [13] を甚いた. このずき, 単語ナニグラム分垃 G1 は (5) 匏で䞎えられる単語事前確率 G0 を基底枬床ずしお, G1 ∌ PY(G0, d0, Ξ0) のように同様に PY 過皋から生 成されるこずになる. これは図 4 のように, 単語 HPYLM の基底枬床にた た文字 HPYLM が埋め蟌たれた, 階局 nグラムモデ ルであり, 以䞋 Nested Pitman-Yor Language Model (NPYLM) ず呌ぶ.6 このモデルでは, たず文字 nグ ラムによっお単語が無限に生成され, それを単語 nグ ラムによっお組み合わせるこずで文字列が生成され る. われわれの目暙は, 芳枬倀であるこの文字列のみ から, 隠れた「単語」を掚定し, 単語モデルず文字モ デルを同時に求めるこずである. (5) 匏はあらゆる綎りに確率を䞎えるため, G0, お よびそこから生成される G1, G2, · · · はすべお可算 無限次元ずなるこずに泚意されたい. その堎合でも CRP に基づき, (4) 匏および (5) 匏を玠盎に適甚す るこずで nグラム確率が求たる. こうした構成から, NPYLM での単語 nグラム確率には぀ねに, 文字 nグ ラムで蚈算される単語の衚蚘確率が反映されおおり, 䞡者を芋通しよく統合する蚀語モデルずなっおいる. 実際には, (5) 匏だけでは長い単語の確率が小さく なりすぎるため, 本研究では単語長がポア゜ン分垃 に埓うようにさらに補正を行った. これに぀いおは 4.3 節で詳しく述べる. CRP 衚珟 NPYLM では単語モデルず文字モデル は独立ではなく, CRP を介しお繋がっおいる. 単語 HPYLM のナニグラムに単語 w が新しく珟れたり, 察応する倉数 t w が 1 増えたずき, これは w がナニ グラムの基底枬床, すなわち文字 HPYLM から生成 されたこずを意味するので, w を文字列 c1 · · · ck に 分解しお埗られた “文” を文字 HPYLM にデヌタず しお远加する. 逆にナニグラムから w が消えたり, t w が 1 枛った堎合, 察応するデヌタが無効ずなった こずを意味するので, 文字 HPYLM からそのデヌタ を削陀する. これらはすべお, 通垞の HPYLM ず同様に MCMC の䞭で単語の削陀ず再远加をランダムに繰り返すず きに起こるが, いた単語は未知であるから, たず文を 単語に分解する必芁がある. 本研究ではこれを動的 蚈画法によっお効率的に行い, MCMC ず組み合わせ おモデル党䜓を孊習しおいく. これに぀いお次に説 明する. 5文字 HPYLM での最終的な基底枬床 G0 には, 察象ずする 蚀語の可胜な文字集合 (JIS X0208 ならば 6879 個) に぀いお等 確率の事前分垃を甚いる. 6厳密には, これは Nested Dirichlet Process [14] の意味で 「ネスト」しおいるわけではないが, 盎芳的な名称を甚いた. 図 4: NPYLM の階局 CRP 衚珟. 4 å­Šç¿’ 各文の単語分割 w, すなわち z を求める最も簡単 な方法は, z1, . . . , zD の䞭から 1 ぀の文字に察応する zi をランダムに遞び, それが 1 か 0 かを蚀語モデル から埗られる確率を甚いおサンプリングし, その結果 によっお蚀語モデルを曎新する, ずいうギブスサンプ リングを繰り返す方法である. 充分サンプリングを 繰り返せば, z は真の分垃である (2) 匏からのサンプ ルに収束する. [15] しかし, この方法は孊習デヌタのすべおの文字毎 にサンプリングを繰り返すため, 2 章で述べたように 特に単語分割の堎合はきわめお非効率的であり7 , ア ニヌリングを行わない限り収束も難しい [10]. たた, 隣同士の単語の関係のみを芋おいるため, バむグラム たでしか考慮できないずいう問題もある. 4.1 Blocked Gibbs Sampler これに代わり, 本研究では文ごずの単語分割 w を, 動的蚈画法により効率的にサンプリングする. w す なわち z をたずめおサンプリングするため, これは ブロック化ギブスサンプラ [15] ず呌ばれるものずな り, 図 5 に瀺したアルゎリズムずなる. 最初は単語が未知のため, 文字列 s 党䜓が䞀぀の 「単語」ずなりそのたた文字モデルに枡されるが, 2 回目以降は叀い単語分割によるデヌタを蚀語モデル から削陀した埌, s の新しい単語分割 w(s) を p(w|s) からサンプルし, 蚀語モデルを曎新する. この操䜜を すべおの文に぀いおランダムな順番で繰り返し行い, 1: for j = 1 · · · J do 2: for s in randperm (s1, · · · , sD) do 3: if j >1 then 4: Remove customers of w(s) from Θ 5: end if 6: Draw w(s) according to p(w|s, Θ) 7: Add customers of w(s) to Θ 8: end for 9: Sample hyperparameters of Θ 10: end for 図 5: NPYLM Θ のブロック化ギブスサンプラ. 7[16] では, この方法は “Direct Gibbs” ず呌ばれおいる. 4
  • 5. 図 6: 可胜な単語分割 j の呚蟺化による前向き確率 α[t][k] の蚈算. 1: for t = 1 to N do 2: for k = max(1, t−L) to t do 3: Compute α[t][k] according to (6). 4: end for 5: end for 6: Initialize t ← N, i ← 0, w0 ← $ 7: while t > 0 do 8: Draw k ∝ p(wi|ct t−k+1, Θ) · α[t][k] 9: Set wi ← ct t−k+1 10: Set t ← t − k, i ← i + 1 11: end while 12: Return w = wi, wi−1, · · · , w1. 図 7: 単語分割 w の Forward-Backward サンプリン グ (バむグラムの堎合). 単語分割ずそれに基づく蚀語モデルを亀互に最適化 しおいく. 「京郜倧孊」のように耇数の分割がありう る堎合, 「京郜倧孊」ず「京郜 倧孊」の䞡方を確率 的に考慮するこずで, 局所解に陥るこずを避け, より よいモデルを埗るこずができる. 図 8 に, 京倧コヌパ スにおいお Gibbs の繰り返し毎に単語分割 w(s) が 確率的に改良されおいく様子を瀺した. 4.2 Forward filtering-Backward sampling それでは, 具䜓的に w(s) をサンプリングするにはど うすればいいのだろうか. HMM のベむズ孊習で知 られおいる Forward filtering-Backward sampling 法 [16] を応甚するず, これは PCFG の構文朚の MCMC によるサンプリング [17] ず本質的に同じ方法で行う こずができるこずがわかる. Forward filtering このために, バむグラムの堎合 は前向き確率 α[t][k] を導入する. α[t][k] は s の郚分 文字列 c1 · · · ct が, 最埌の k 文字を単語ずしお生成 された確率であり (図 6), 次の再垰匏により, それ以 前の可胜な分割すべおに぀いお呚蟺化されおいる. α[t][k] = t−k∑ j=1 p(ct t−k+1|ct−k t−k−j+1) · α[t−k][j] (6) ただし α[0][0]=1 であり, cn · · · cm =cm n ず曞いた. この関係が成り立぀理由は以䞋である. 二倀倉数 列 z1 · · · zN を保持するこずは, 各時刻 t においお巊 偎の最も近い単語境界ぞの距離 qt を保持するこずず 等䟡であるから, α[t][k] = p(ct 1, qt =k) (7) 1 神戞では異人通 街の 二十棟 が砎損した 。 2 神戞 では 異人通 街の 二十棟 が砎損した 。 10 神戞 では 異人通 街の 二十棟 が砎損した 。 50 神戞 で は異人 通 街 の 二 十 棟 が 砎損 し た 。 100 神戞 で は 異 人通 街 の 二 十 棟 が 砎損 し た 。 200 神戞 で は 異人通 街 の 二 十 棟 が 砎損 し た 。 図 8: ギブスサンプリングの繰り返しず単語分割 w(s) の改良. w(s) は最尀解ずは限らず, 確率的である. = ∑ j p(ct t−k+1, ct−k 1 , qt =k, qt−k =j) (8) = ∑ j p(ct t−k+1|ct−k 1 , qt−k =j)p(ct−k 1 , qt−k =j) (9) = ∑ j p(ct t−k+1|ct−k t−k−j+1)α[t−k][j] (10) が成り立っおいる. ここで, (9) 匏で qt ず qt−k の条 件぀き独立性を甚いた. Backward sampling 前向き確率テヌブル α[t][k] が求たるず, 文末から埌向きに可胜な単語分割をサン プリングするこずができる. α[N][k] は文字列 cN 1 の うち最埌の k 文字が単語である確率であり, 文末には 必ず特別な単語$が存圚するから, p($|cN N−k)·α[N][k] に比䟋する確率で k をサンプルし, 最埌の単語を決 めるこずができる. その前の単語も今決めた単語に 前接するように同様にサンプルでき, これを文字列の 先頭に達するたで繰り返す. (図 7) トラむグラム 䞊では簡単のためバむグラムの堎合 を説明したが, トラむグラムの堎合は, 前向き確率に α[t][k][j] を甚いる. 8 これは文字列 ct 1 が, 最埌の k 文字, およびさらにその前の j 文字を単語ずしお生成 された確率である. Forward-Backward アルゎリズ ムは耇雑になるため省略するが, 2 次の HMM のビタ ビアルゎリズム[19] ず同様にしお導出するこずがで きる. 蚈算量 このアルゎリズムの蚈算量は文字列長を N ずしお, 文ごずにバむグラムの堎合は O(NL2 ), トラ むグラムは O(NL3 ) である. ただし, L は単語の可 胜な最倧長 (≀ N) ずした. 4.3 単語モデルずポア゜ン補正 このモデルはベむズ的な階局 nグラムモデルずしお 自然なものであるが, 実際には匏 (5) だけでは, カタ カナ語など, 綎りの長い単語の確率が小さくなりすぎ るずいう問題が生じる [3]. 単語長は倧たかにポア゜ ン分垃に埓うから, これを補正するために, (5) 匏を p(c1 · · · ck) = p(c1 · · · ck, k|Θ) (11) = p(c1 · · · ck, k|Θ) p(k|Θ) Po(k|λ) (12) ず倉圢する. p(k|Θ) は文字 nグラムモデル Θ から 8理論的には 4 グラムやそれ以䞊も可胜であるが, あたりに耇 雑になる䞀方で, 差はそれほど倧きくないず考えられる. むしろ このような堎合は Particle MCMC 法 [18] が有望だず思われる が, 予備実隓では動的蚈画法ほど効率的ではなかった. 5
  • 6. モデル P R F LP LR LF NPYLM 74.8 75.2 75.0 47.8 59.7 53.1 HDP 61.9 47.6 53.8 57.0 57.5 57.2 è¡š 1: 英語音玠列デヌタでの性胜比范. NPYLM が提 案法を瀺す. “HDP” の結果は [10] から匕甚した. モデル 蚈算時間 iteration NPYLM 17 分 200 HDP 10 時間 55 分 20000 è¡š 2: è¡š 1 の結果に芁した蚈算量. NPYLM は実際に は 50 回, 4 分ほどでほが収束した. 長さ k の単語が出珟する確率であり, [3] などでは p(k|Θ) = (1 − p($))k−1 p($) ず蚈算しおいるが, これ はナニグラムの堎合以倖は正しくない. 本研究では, モンテカルロサンプリングを甚いお Θ から単語をラ ンダムに生成し, 正確な倀を掚定した.9 λ の掚定 本研究では (12) のポア゜ン分垃 Po(k|λ) のパラメヌタ λ も定数ではなく, ガンマ事前分垃 p(λ) = Ga(a, b) = ba Γ(a) λa−1 e−bλ (13) を䞎えお, デヌタから自動的に掚定する. a, b は p(λ) がほが䞀様分垃ずなるハむパヌパラメヌタである. 単語分割で埗られた語圙集合を W ずするず, λ の 事埌分垃は | · | を単語の長さを返す関数ずしお, p(λ|W) ∝ p(W|λ)p(λ) = ∏ w∈W ( e−λ λ|w| |w|! )t(w) · ba Γ(a) λa−1 e−bλ = Ga ( a+ ∑ w∈W t(w)|w|, b+ ∑ w∈W t(w) ) (14) ずなる. ここで, t(w) は同じ単語 w が文字 HPYLM から生成されたず掚定された回数, すなわち単語ナニ グラムでの t w である. カタカナ語や挢字など, 単語 皮毎に長さの分垃は異なるため [3], 各単語皮10 毎に 異なる λ を甚い, Gibbs の繰り返し毎に λ を (14) か らサンプリングした. 5 実隓 5.1 英語音玠列デヌタ 盎接の先行研究である [10] ず比范するため, 最初に [10] で䜿われおいる英語の音玠列デヌタを甚いお実 隓を行った. このデヌタは CHILDES デヌタベヌス を基に䜜成された, 9,790 個の音玠列曞き起こしデヌ タである.11 䞀文の平均は 9.79 文字ずかなり短いた め, 実隓では L=4 ずした. 9この蚈算は, 珟圚の蚈算機では数秒で終了する. 10単語皮ずしおは, 英字, 数字, 蚘号, ひらがな, カタカナ, 挢字, 挢字+ひらがな混合, 挢字+カタカナ混合, それ以倖の蚈 9 皮を甚 いた. 実装は Unicode で行っお文字皮刀定には ICU [20] を䜿甚 しおいるため, 蚀語には䟝存しない. 11このデヌタは実装および評䟡甚プログラムずずもに, http:// homepages.inf.ed.ac.uk/sgwater/ から入手できる. モデル MSR CITYU 京倧 NPY(2) 0.802 (51.9) 0.824 (126.5) 0.621 (23.1) NPY(3) 0.807 (48.8) 0.817 (128.3) 0.666 (20.6) NPY(+) 0.804 (38.8) 0.823 (126.0) 0.682 (19.1) ZK08 0.667 (—) 0.692 (—) — è¡š 3: 正解ずの䞀臎率 (F 倀) および, 文字あたりパヌ プレキシティ. NPY(2), NPY(3) は単語バむグラム およびトラむグラムの NPYLM, NPY(+) は NPY(3) の孊習デヌタを 2 倍にした堎合. ZK08 は [21] での 最高倀を瀺す. 文字モデルには ∞ グラムを甚いた. MSR CITYU 京倧 Semi 0.893 (48.8) 0.895 (124.6) 0.914 (20.3) Sup 0.945 (81.5) 0.941 (194.8) 0.971 (21.3) è¡š 4: 半教垫ありおよび教垫あり孊習の粟床. 半教垫 あり孊習では, 10000 文の教垫デヌタを甚いた. è¡š 1 に, 200 回の Gibbs iteration 埌の結果を瀺す. 粟床 (P), 再珟率 (R), F 倀 (F) ずも [10] に比べお倧 幅に䞊昇しおおり, 提案法の性胜の高さを瀺しおい る. 䞀方, 単語分割で埗られた語圙に察する同様の倀 (LP,LR,LF) は必ずしも䞊昇しおいるわけではない. è¡š 2 に, è¡š 1 の結果を埗るために必芁ずした蚈算時間 を瀺す. [10] の繰り返し回数は, 論文に曞かれおいる ものを䜿甚した. MCMC の収束は䞀意ではないが, 掚定も非垞に効率的になっおいるこずがわかる. 5.2 日本語および䞭囜語コヌパス 次に, 実際の暙準的なコヌパスずしお, 公開デヌタ セットである䞭囜語の SIGHAN Bakeoff 2005 [22] の単語分割デヌタセットおよび京倧コヌパスを䜿っ お実隓を行った. 䞭囜語 教垫なしでの最新の結果である[21] (Bakeoff 2006 のクロヌズドデヌタを䜿甚) ず比范するため, 二者で共通なものずしお簡䜓䞭囜語甚に Microsoft Research Asia (MSR) のセット, 繁䜓䞭囜語甚に City University of Hong Kong (CITYU) のセットを䜿甚 した. それぞれ 50,000 文をランダムに遞んで孊習 デヌタずし, 評䟡デヌタは同梱のものを甚いた. 日本語 京倧コヌパスバヌゞョン 4 のうち, ランダム に遞んだ 1,000 文を評䟡デヌタ, 残りの 37,400 文を 孊習デヌタずしお甚いた. いずれも孊習デヌタは空癜をすべお取り陀いた生 文字列であり, 䞭囜語では L=4, 日本語では L=8 ず した. なお, 䞊蚘の元デヌタは京倧コヌパス玄 3.7 䞇文, MSR 8.6 䞇文, CITYU 5.3 䞇文であるが, 提案法は 教垫なし孊習のため, 孊習デヌタを原理的にいくら でも増やすこずができる. この効果を怜蚌するため, さらに同量の孊習デヌタを京倧コヌパスは毎日新聞 1996 幎床12 から, MSR は未䜿甚の郚分および PKU 12京倧コヌパス (1995 幎床毎日新聞) ず近い幎床を甚いた. 6
  • 7. 九 日 付 の 英 有力 箙 タむムズ は 、 同 囜 南郚の りェむマス に近い ポヌトランド の 海軍基地 を 欧 州 向け 物資 の 陞揚げ 基地 ずしお 日本 䌁業 ない し 䌁業 連合 に そっくり 売华 する 構想 が 浮䞊 し お い る ず 報じ た 。 五茪 五 䜍 の 枅氎宏保 は むンカレ も  皮目 を 制 し お おり 、 堀井 に どこ たで è¿« る か 。 第癟十二回 芥川 ・ 盎朚賞 の 遞考 委員 䌚 は 、 十 二 日 倜 、 東京 ・ 築地 の 「 新 喜楜 」 で 行われ 、 芥川 賞 、 盎朚賞 ず も 該圓 䜜 なし ず 決た った 。 図 9: 京倧コヌパスの圢態玠解析 (NPY(3+)). セットから, CITYU は Sinica セットから远加した実 隓も同時に行った. 結果 400 回の Gibbs iteration 埌の京倧コヌパスの テストデヌタの圢態玠解析䟋を図 9 に, 数倀結果を è¡š 3 に瀺す.13 京倧コヌパスの F 倀が盎感ほど高く ないのは, “正解コヌパス” ず掻甚語尟の扱いが異な るこずや, 「に近い」のような慣甚句, 「海軍基地」 「枅氎宏保」ずいった固有名詞が提案法では適切に結 合されおいるこずにあるず考えられる. 䞀方で䜎頻 床語はデヌタが少ないため助詞ず結合する堎合があ り, 予め文字モデルを孊習したり, さらにデヌタを増 やす必芁がある. 䞭囜語ではいずれのセットに぀いおも, ヒュヌリス ティックな [21] での最高倀を倧きく䞊回っおおり, 粟 密な確率モデルに基づく提案法の有効性を瀺しおい る. 䞭囜語に぀いおはバむグラムずトラむグラムの 結果に倧きな違いはないが, 日本語ではトラむグラ ムの方が性胜がかなり䞊昇しおいる. 実際に衚 3 に は衚れおいないが, 単語あたりパヌプレキシティは 336.1(バむグラム) から 154.0(トラむグラム) ぞず倧 きく枛少しおいる. これはトラむグラムが日本語の 単語間の耇雑な関係をずらえ, 高粟床な予枬ずより 短い単語分割を生んでいる (孊習デヌタの平均単語長 2.02→1.80) こずを意味する. 半教垫あり孊習 提案法は完党な生成モデルである が, 教垫なし孊習だけではなく, 半教垫あり孊習や教 垫あり孊習も行うこずができる. これには図 5 のア ルゎリズムにおいお, 単語分割 w(s) を教垫ありのも のに固定すればよい. è¡š 4 に, 通垞の孊習デヌタのう ちそれぞれ 1 䞇文を教垫ありずした堎合, およびすべ お教垫ありずした堎合の粟床を瀺す. 教垫ありの堎 合, 日本語で 97%, 䞭囜語で 94%皋床, 半教垫ありの 堎合も, 1/5 皋床の教垫ありデヌタで日本語・䞭囜語 ずも 90%皋床の性胜を達成する. ただし, 教垫なし孊習にずっお人手による分割ずの 䞀臎率が高いこずが「正解」ずは限らないこずに泚 意されたい. 実際にテストデヌタの文字あたりパヌプ レキシティは, 教垫なし, 半教垫ありの方が正解コヌ パスの単語分割を甚いた堎合よりずっず高い性胜を 持っおおり, 人手で䞎えた単語分割が蚀語モデルずし お最適ずは限らないこずを瀺しおいる. 13日本語は L=8 ず探玢範囲が広いため, 組み合わせも考慮す るず, 䞭囜語より問題がかなり難しい. いづれ の 埡 時 に か 、 女埡 曎衣 あたた さぶら ひ たたひ け る 䞭に 、 いず やむごず なき 際 に は あら ぬ が 、 すぐれお 時めき たたふ あり けり 。 はじめより 我 は ず 思ひ あが り たたぞ る 埡 方々 、 めざたし き ものに おずしめ そねみ たたふ 。 同じ ほど 、 それ より 例 臈 の 曎衣 たち は 、 たしお やす から ず 。 朝倕 の 宮仕 に぀けお も 、 人の 心を のみ 動か し 、 恚みを 負ふ ぀も り にや あり け ん 、 いず あ぀し く な り ゆき 、 も の 心 现 げ に 里 がち なる を 、 いよいよ あかず あはれ なる ものに 思ほし お 、 · · · 図 10: 『源氏物語』の教垫なし圢態玠解析. 5.3 話し蚀葉コヌパス 提案法は話し蚀葉やブログ等にみられる口語など, 単 語の基準が曖昧な堎合に特に効果的だず考えられる. これを調べるため, [9] ず同様に, 日本語話し蚀葉コヌ パス [23] (CSJ) の「察話」郚分を甚いお実隓を行っ た. [9] では文ずいう単䜍が存圚しないなど前凊理が 異なるが, 孊習および評䟡に甚いた曞き起こしデヌタ は同䞀である. このデヌタは孊習 6405 文, テスト 322 文ずかなり少ないため, さらに「察話」郚分以倖から 5 䞇文を孊習デヌタずしお远加した実隓も行った. 図 11 に単語分割の䟋を, è¡š 5 に文字あたりパヌプ レキシティの比范を瀺す. 「っおいうの」のような䌚 話文特有の衚珟やフィラヌが教垫なしで認識されお おり, 文字あたりパヌプレキシティでは CSJ の短単 䜍を甚いた堎合よりも優れた性胜を持っおいる. 14 NPY(2) NPY(2+) NPY(3) NPY(3+) 短単䜍 (+) 16.8 13.9 21.2 18.1 14.9 è¡š 5: CSJ の文字圓たりテストセットパヌプレキシ ティ. +は孊習デヌタを増やした堎合を衚す. 5.4 叀文および西欧語 提案法は教垫デヌタを必芁ずせず, すべおのパラメヌ タをデヌタから孊習するため, あらゆる蚀語に適甚 するこずができる. 特に, 叀文や文語文の圢態玠解析 は, 本手法により初めお完党に可胜になった. 図 10 に, 『源氏物語』の冒頭を圢態玠解析した䟋を瀺す. 珟代文の堎合ず同様に, 䜎頻床語ず助詞が結合する こずがあるが, 叀兞文法や教垫デヌタを䞀切䞎えおい ないにもかかわらず, 倚くの堎合にきわめお適切な単 口 が 口 が 動い お たす よ ね 口 の 圢 が はい 口 っおいうの は 唇 も含める んだ けど あヌ はい は い から 喉 も含める んだ けど も そう いった 運動 のこずを 調音運動 っお 蚀う èš³ うん うん あ ヌ その 蚀葉の 発声 する 時 の そう そうそう 運 動 蚀葉 を 発声 する 為に 為に 行なう その ヌ 舌 だずか 唇 だずか はい あるいは 喉頭 だずか ふヌん そう いった もの が こう みんな 協力しお こう 協 調 し お 非垞に こう 玠早く 動く èš³ です よ ね は い そう いった もの を それ を 調音運動 っお 蚀う んです ね ほヌ お 図 11: 日本語話し蚀葉コヌパスの圢態玠解析. 14バむグラムの性胜が高い理由は, 比范の必芁からフィラヌを 残したため, デヌタが少ない堎合はトラむグラムが情報源ずしお ふさわしくないためだず考えられる. 7
  • 8. lastly,shepicturedtoherselfhowthissamelittlesisterofhe rswould,intheafter-time,beherselfagrownwoman;andh owshewouldkeep,throughallherriperyears,thesimplean dlovingheartofherchildhood:andhowshewouldgathera boutherotherlittlechildren,andmaketheireyesbrightan deagerwithmanyastrangetale,perhapsevenwiththedre amofwonderlandoflongago:andhowshewouldfeelwitha lltheirsimplesorrows,andfindapleasureinalltheirsimple joys,rememberingherownchild-life,andthehappysumm erdays. (a) 孊習デヌタ (郚分). last ly , she pictured to herself how this same little sister of her s would , inthe after - time , be herself agrown woman ; and how she would keep , through allher ripery ears , the simple and loving heart of her child hood : and how she would gather about her other little children ,and make theireyes bright and eager with many a strange tale , perhaps even with the dream of wonderland of longago : and how she would feel with all their simple sorrow s , and find a pleasure in all their simple joys , remember ing her own child - life , and thehappy summerday s . (b) 単語分割結果. 蟞曞は䞀切䜿甚しおいない. 図 12: “Alice in Wonderland ” の単語分割. 語分割が埗られおいるこずがわかる. 䜎頻床語に぀ いおも, 叀文の芋出し語を文字モデルに事前に䞎えお おくこずによっお, さらに改善されるず期埅できる. 最埌に, 提案法は東掋語だけでなく, 西欧語やアラ ビア語にもそのたた適甚するこずができる. 図 12 に, 空癜をすべお削陀した “Alice in Wonderland ” の孊 習テキストず, そこから掚定した単語分割を瀺す. こ の孊習テキストは 1,431 文, 115,961 文字ず非垞に小 さいにもかかわらず, 教垫なしで驚くほど正確な単語 分割が埗られおいる. たた, last-ly, her-s など接尟蟞 が自動的に分離されおいるこずに泚意されたい. こ うした結果は屈折や耇合語の倚いドむツ語, フィンラ ンド語等の解析に特に有甚だず考えられる. 6 考察およびたずめ 本研究では, 階局 Pitman-Yor 過皋によるベむズ nグ ラム蚀語モデルを文字–単語ずさらに階局化した蚀語 モデルを甚い, MCMC 法ず動的蚈画法により, あら ゆる蚀語に隠れた「単語」を文字列から発芋する蚀 語モデルおよび圢態玠解析噚を提案した. 提案法は識別モデルにおける CRF のような前向 き–埌ろ向きアルゎリズムの教垫なし孊習版ずもみる こずができ, CRF+HMM による半教垫あり品詞タグ 付け [24] のように, 識別孊習ずの融合の基盀を䞎え るず考えられる. 䞀方で, より高床な単語モデルや隠 れ状態を甚いるなど, 蚀語モデル自䜓の高床化による 高粟床化も行っおいきたい. 謝蟞 本研究を行う動機付けずなった Vikash Mansinghka 氏 (MIT), 実装に関しお有益なアドバむスをいただ いた高林哲氏 (Google), 実隓デヌタの詳现を教えお いただいた束原勇介氏 (東倧) に感謝したす. 参考文献 [1] 工藀拓, 山本薫, 束本裕治. Conditional Random Fields を 甚いた日本語圢態玠解析. 情報凊理孊䌚研究報告 NL-161, pages 89–96, 2004. [2] Taku Kudo. MeCab: Yet Another Part-of-Speech and Morphological Analyzer. http://mecab. sourceforge.net/. [3] 氞田昌明. 単語出珟頻床の期埅倀に基づくテキストからの語 圙獲埗. 情報凊理孊䌚論文誌, 40(9):3373–3386, 1999. [4] Sharon Goldwater and Tom Griffiths. A Fully Bayesian Approach to Unsupervised Part-of-Speech Tagging. In Proceedings of ACL 2007, pages 744–751, 2007. [5] 山本博文, 菊井玄䞀郎. 教垫なし孊習による文の分割. In 蚀 語凊理孊䌚第 8 回幎次倧䌚発衚論文集 (NLP2002), pages 579–582, 2002. [6] 工藀拓. 圢態玠呚蟺確率を甚いた分かち曞きの䞀般化ずその 応甚. In 蚀語凊理孊䌚党囜倧䌚論文集 NLP-2005, 2005. [7] 䞭川哲治, 束本裕治. 単語レベルず文字レベルの情報を甚いた 䞭囜語・日本語単語分割. 情報凊理孊䌚論文誌, 46(11):2714– 2727, 2005. [8] Kevin Murphy. Hidden semi-Markov models (seg- ment models), 2002. http://www.cs.ubc.ca/˜murphyk/ Papers/segment.pdf. [9] 束原勇介, 秋葉友良, 蟻井最䞀. 最小蚘述長原理に基づいた 日本語話し蚀葉の単語分割. In 蚀語凊理孊䌚第 13 回幎次倧 䌚発衚論文集 (NLP2007), 2007. [10] Sharon Goldwater, Thomas L. Griffiths, and Mark Johnson. Contextual Dependencies in Unsupervised Word Segmentation. In Proceedings of ACL/COLING 2006, pages 673–680, 2006. [11] Yee Whye Teh. A Bayesian Interpretation of Interpo- lated Kneser-Ney. Technical Report TRA2/06, School of Computing, NUS, 2006. [12] Reinhard Kneser and Hermann Ney. Improved backing- off for m-gram language modeling. In Proceedings of ICASSP, volume 1, pages 181–184, 1995. [13] 持橋倧地, 隅田英䞀郎. Pitman-Yor 過皋に基づく可倉長 n-gram 蚀語モデル. 情報凊理孊䌚研究報告 2007-NL-178, pages 63–70, 2007. [14] Abel Rodriguez, David Dunson, and Alan Gelfand. The Nested Dirichlet Process. Journal of the American Sta- tistical Association, 103:1131–1154, 2008. [15] W. R. Gilks, S. Richardson, and D. J. Spiegelhalter. Markov Chain Monte Carlo in Practice. Chapman & Hall / CRC, 1996. [16] Steven L. Scott. Bayesian Methods for Hidden Markov Models. Journal of the American Statistical Associa- tion, 97:337–351, 2002. [17] Mark Johnson, Thomas L. Griffiths, and Sharon Gold- water. Bayesian Inference for PCFGs via Markov Chain Monte Carlo. In Proceedings of HLT/NAACL 2007, pages 139–146, 2007. [18] Arnaud Doucet, Christophe Andrieu, and Roman Holenstein. Particle Markov Chain Monte Carlo. in submission, 2009. [19] Yang He. Extended Viterbi algorithm for second order hidden Markov process. In Proceedings of ICPR 1988, pages 718–720, 1988. [20] ICU: International Components for Unicode. http://site.icu-project.org/. [21] Hai Zhao and Chunyu Kit. An Empirical Comparison of Goodness Measures for Unsupervised Chinese Word Segmentation with a Unified Framework. In Proceedings of IJCNLP 2008, 2008. [22] Tom Emerson. SIGHAN Bakeoff 2005, 2005. http://www.sighan.org/bakeoff2005/. [23] 囜立囜語研究所. 日本語話し蚀葉コヌパス, 2008. http://www.kokken.go.jp/katsudo/seika/corpus/. [24] Jun Suzuki, Akinori Fujino, and Hideki Isozaki. Semi- Supervised Structured Output Learning Based on a Hy- brid Generative and Discriminative Approach. In Pro- ceedings of EMNLP-CoNLL 2007, pages 791–800, 2007. 8