2. 談話解析・文脈解析 大規模言語データからの知識獲得
構文解析・意味解析
Web情報分析(言論マップ)
■言語理解のための基盤技術
■基礎理論
■応用技術
o
o
o
o
o
x
x
x
x
x
x
o
o
o
o
o
x
o
γ
OBJ
AM-‐LOC
AGENT
PRODUCT
THEME
MATERIAL
AGENT
THEME
CONJ
COORD
COORD
COORD
CONJ
NMOD
NAME
LOC
APPO
PMOD
SBJ
Bell
,
based
in
Los
Angeles
,
makes
and
distributes
electronic
,
computer
and
building
products
.
product.01
base.01
building.01
distribute.01
make.01
INSTITUTION
AGENT
電話をかけ(行為)たけれども通じ(効果)ない
電話をかけ(行為)続けても通じ(効果)ない
電話をかけ(行為)ようとしても通じ(効果)ない
電話をかけ(行為)てみるものの通じ(効果)ない
<verb;action>ても<verb;effect>ない
<verb;action>ないと<verb;effect>ない
<verb;action>たけれども<verb;effect>ない
<verb;action>うとしても<verb;effect>ない
<verb;action>続けても<verb;effect>ない
サンタバーバラに電話をかけてくれて、…、
また電話が通じないので、…
司会者に電話をかけてもらいます。…電話が
通じるなり、…
文内共起事例
文章内共起事例
Xをかける(行為)→Xが通じる(効果)X={電話,願い,魔法,呪い,…}
Xにかける(行為)→Xに通じる(効果)X={相手,彼女,彼,闘争,…}
共起パターン
Xをかける<関係不明>Xが通じる X={電話,願い,魔法,呪い,…}
Xにかける<関係不明>Xに通じる X={相手,彼女,彼,闘争,…}
Xをかける<関係不明>Xを通じる X={電話,生涯,鏝絵,税,…}
言語の数理モデル
Webには様々な人が様々な立場から書いた
文書が混在しています。それらを自動解析し、
重複する内容や矛盾する内容を検出すること
によって、例えば右図のように、一つの文書
を読むだけでは分からない多角的な情報分析
ができるようになる可能性があります。
Mariah
Carey
Japan
Her
voice
many
people
I
Mariah
Carey
came
to
Japan.
Her
voice
aMracted
many
people.
I
wished
to
go
to
her
concert.
p(y|x) =
exp
⇤
k kfk(x, y)
⇥
⇤
y exp
⇤
k kfk(x, y)
⇥
l( |D) = log
n⌅
i=1
p(yi|xi)
⇥
⇤
k
2
k
2⇥2
=
n⇤
i=1
⇤
k
kfk(xi, yi) log Z (x)
⇥ ⇤
k
2
k
2⇥2
( |D)
⇥k
=
n⇤
i=1
fk(xi, yi)
⇤
y
fk(xi, y)p(y|xi)
⇥
⇥k
⇤2
言語の意味を解析し、高度な言語理解に繋げるに
は、言語が持つ性質を数理統計的に捉え、言語の
数理モデルを構築する必要があります。Webから
マイニングした膨大な経験情報と組み合わせれば、
人の行動や思考の原理に迫れるかもしれません。
機械学習や確率統計、論理などの枠組みを駆使し
たモデル化に取り組みます。
文の構文構造(単語間の修飾関係、右
図の上部)やそれが意味する内容(例
えば、右図の下部のような出来事を表
す述語とその構成要素)を高精度で頑
健に自動解析する研究を進めます。
数億文規模の大規模言語データから、例えばイベント間
の因果関係や目的手段関係などの知識を自動獲得します。
獲得した知識は意味・談話解析の高度化に利用します。
下の文章の her は Mariah Carey を
指します。言語理解では、このように
文章中の要素間の参照関係や論理構造
を認識する処理も必要です。
英作文支援のための用例検索
ネット上に流通している情報の背後にある論理
構造を解析しその整合性を分析することで、
安全・危険に関する多角的な判断材料を人や
社会に提供します。
Web文書集合
情報の論理構造とリスクの分析
英作文において適切な表現の選択を支援するた
め、 参照するに相応しい英文用例を検索・提示
する用例検索システムの研究を行っています。
乾・岡崎研究室 研究テーマ例