Workshop20110305slide011. コーパス日本語学ワークショップ 2012 1
通時コーパスと言語空間論
山元啓史 † 田中牧郎 ‡ 近藤泰弘 ‡∗
† 東京工業大学 /カリフォルニア大学サンディエゴ校
‡ 国立国語研究所言語資源研究系
∗ 青山学院大学
March 6th 2012
2. コーパス日本語学ワークショップ 2012 2
通時コーパスの設計
1. 資料の選定
2. 電子化と情報付与
(異文・原文表記、引用、文体など)
3. 各時代対応の形態素解析
→ 通時研究の目的は?アプローチは?
6. コーパス日本語学ワークショップ 2012 6
共時態と通時態
• 共時態... 点
• 通時態... 線
「時間を隔てた2つの点が違う」をいうには?
→2点の差をとる(引き算をする)
!
• 言語データを数理的な形式に変えて、差分をとる
• 各層の差分を変化量として分析する
7. コーパス日本語学ワークショップ 2012 7
共時態の各層から差分をとる
A B C D
A-B B-C C-D
B-A C-B D-C
A+B B+C C+D
BC-AB CD-BC
図1 共時態の各層から差分をとる:ABCDは時間軸に並べられた任意の資料。差分をとるだけでなく、
両者の体系に共通の原理を抽出し、その抽出したものをさらに隣接の抽出したものと比較して分析していく。
8. コーパス日本語学ワークショップ 2012 8
方法のポイント
• 変化量に注目
→ 比較の計画
• 各時代辞書、各時代シソーラス
→ コーパス+αの開発
• 現代人は古典語について内省できない
→ 網羅的な調査
• 内省に代わる感知の機構を手に入れる
→ 構造性、規則性、原理の探究
→時間軸を紡ぎ、内省を網羅的大量処理で補完する
9. コーパス日本語学ワークショップ 2012 9
コーパスと記述
Parole Langue
コーパス 言語の記述
複雑系の科学
静的 静的
パターンの探索
言語の構造 シーケンシャルリーダ 言語の形式
観察・操作できる 観察・操作できない
結果の可視化
通時的変遷を動的に示せるか?
図2 コーパスと記述、langue と parole: 一般的に記述されたものは静的ではあるが、言語の存在
自体は常に変わりつづける動的なものである。その動的な記述はどうすればできるのであろうか。
言語の要素はさまざまなものからなり、コーパスにて観察できる姿は複雑多岐にわたる要素が
絡み合った現象である。
11. コーパス日本語学ワークショップ 2012 11
方法のポイント
• 比較の計画
• 各時代辞書、各時代シソーラス
• 網羅的な調査
• 内省に代わる感知の機構
上記を動的にやってくれるシステム
→コーパスロボット
12. コーパス日本語学ワークショップ 2012 12
コーパスロボット
← →
文字列 配列
図4 コーパスロボット(シーケンシャルリーダ):
DNA を構成するアミノ酸探索ロボットからヒント。データマイニングツール。
コーパスの文字列を行き来しながら、何回でも瞬時に仮説を検証することができる機械。
13. コーパス日本語学ワークショップ 2012 13
計画的な比較をするには?
1. 系列:同じ内容、類似の内容
→源氏物語、異本の比較
→ある作品、現代語訳の比較
→時系列で順に比較
2. モデル:数理的表現に置き換える
3. 比較:差分をとる
4. 集合論:交差を見る
5. 分類:内容の違いと言語の違いを区別
14. コーパス日本語学ワークショップ 2012 14
数理モデル:鶯と時鳥の統合モデル
ふりしぼる
手 6
山時鳥
老
青柳 10
夏山 9
横
挿頭す 6 五月雨 鳴き声 8 8
4
4 4 触れる 聞く11 聞える 夏
14 10 一声
21
縫う 6 69 37
笠 枝 春 39
借りる
12
6 10 10
時鳥
7 23 19
10
とまる 20
去年
35 88
隠れる 梅 泣く 174
29
15 声 10
29
6
56 261 20
62 110 42
花 138 鴬 145 鳴く
26
44 五月 6
今朝 羽ばたく
10 20 9 梢
17
野辺
22 30
山19 11
9
10
8
毎朝 10 9
52 20
6
近く 9 まだ 10
音羽 7 越える
10
折る 立田
8
10 何時の間に
散る 5
7
4 誘い出す 4 10 6 7 あやめ草 はるか
案内 条理
9 10
4 梢高い
7
5
7 木高い 惜しむ 別れ
送る
春霞 立つ
添える
香
鴬-CT-23-229-3.73-15 時鳥-CT-40-370-3.27-16
19. コーパス日本語学ワークショップ 2012 19
Residual
CT (秋の 末近くなって帰り道についた)龍田姫(が道中の無事を願って)手 向け
OP — —— — — — — — — — 立田姫 — — — — — — — 手向ける
CT (をする)神があるからこそ秋の木の葉(が)幣(となって) 散っ(ているのだろ) う
OP — — 神のあれ ば こそ秋の木の葉 [の] 幣 と — — 散る — — — — らめ
Figure 1: Example of the matching process in the case of kks 298 in Ko-
machiya (1982)
20. コーパス日本語学ワークショップ 2012 20
+-------- # of pair
| +----- value of matching level, exact=17, field=13, group=10
| | +-- # of POS
| | |
| | | # of element of OP ----+ +- # of element of CT
| | | element of OP -+ | | +--- element of CT
| | | | | | |
1 17 11 立 田 姫 00 <-> 12 龍 田 姫 (Tatsutahime)
2 17 47 手 04 <-> 25 手 (hand)
3 17 47 向 け る 05 <-> 26 向 け る (toward)
4 17 2 神 06 <-> 32 神 (god)
5 10 61 の 07 <-> 33 が (SUB)
6 17 47 有 り 08 <-> 34 あ る (be)
7 10 64 ば 09 <-> 35 か ら (because)
8 17 65 こ そ 11 <-> 36 こ そ (EM)
9 17 2 秋 12 <-> 38 秋 (autumn)
10 17 71 の 13 <-> 39 の (CON)
11 17 2 木 の 葉 14 <-> 40 木 の 葉 (leaf of tree)
12 17 2 幣 19 <-> 45 幣 (present)
13 17 61 と 20 <-> 46 と (CRD)
14 17 47 散 る 21 <-> 49 散 る (fall)
15 13 74 ら む 22 <-> 54 う (CJR)
Figure 2: Example of the matching process
21. コーパス日本語学ワークショップ 2012 21
Components of OP
Table 1: Result of subtracting the elements of OP(298) from those
of CT(298, koma): it indicates the ratio of the ingredients
of OP(298).
OP (valid number of element) = 16
E (ratio of exact match) 12/16 = 0.750
F (ratio of field match) 1/16 = 0.062
G (ratio of group match) 2/16 = 0.125
T (ratio of total match) 15/16 = 0.938
U (ratio of unmatched OP) 1 - T = 0.062
22. コーパス日本語学ワークショップ 2012 22
差分の方法の例:田中(2011)
1. 比較:今昔物語集 v.s. 日本霊異記/宇治拾遺物語
→今昔と宇治拾遺の同文説話表現の比較
2. 言語の変化により入れ替わったもの
3. 翻訳者が何らかの基準で取捨選択したもの
23. コーパス日本語学ワークショップ 2012 23
系列比較のための変遷要素の差分モデル
A 2.1
f (x) 2.3
A′
2.2
3.0
1.0
T
t1 t2
図3 系列比較のための変遷要素の差分モデル: A は t1 の時に発生した、あるまとまりを持った内容、
A は t2 時に発生した、A に対応するまとまりを持った内容。
T は時間軸。f (x) は A の任意の要素 x を A の要素とするための関数。
24. コーパス日本語学ワークショップ 2012 24
系列比較モデル
1. 何を系列と見るかを考えなければならない。
→源氏物語、異本の比較
→ある作品、現代語訳の比較
→時系列で順に比較
→任意2対象の相対的な比較
2. 比較は分析の基本的技術。
3. 同じとはどういうことか?
→課題はたくさん!
25. コーパス日本語学ワークショップ 2012 25
今後の課題
1. 処理の単位→ノビチヂミする機構?
2. 作品別形態素解析辞書
→連接確率(syntagmatic)
→語彙差分(paradigmatic)
3. 作品間を比較するためのシソーラス
→表記の異同をコントロールする仕組み
上記は「研究テーマ集」の一部(基礎編)
27. コーパス日本語学ワークショップ 2012 27
A 2.1
f (x) 2.3
A′
2.2
3.0
1.0
S
s1 s2
図4 系列比較モデル(共時): 通時のモデルの時間軸 T を共時軸 S にしただけである。
ただし、T は時間しか表さないが、共時軸 S は、同じ時に発生した同じテキストの異なる言い方や文化、
翻訳、方言など、さまざまな場合が考えられる。
28. コーパス日本語学ワークショップ 2012 28
A′′
3.0
s2
2.3
synchronic
2.2 f (x)
2.1
A 2.1 f (x) 2.3
A′
2.2
s1
3.0
1.0
T
t1 t2
diachronic
S
図5 系列比較モデル(共時/通時): 縦軸が共時 (synchronic)、横軸が通時 (diachronic)。
共時と考えられる関係であっても時間の幅を持つ要素が含まれることもある。