Weitere ähnliche Inhalte
Mehr von Koji Matsuda (19)
知識を紡ぐための言語処理と、そのための言語資源
- 4. 言語構造解析による
一般・専門知識の自動獲得
ディープラーニングによる
意味の分散表現の学習
WD(w)∧ e(edis, Disappoint, w, s)∧ fact(edis)∧ shareholders(s)∧ but(edis, etout),
they(t)∧ e(etout, ToughOut, t, l)∧ fact(etout)∧ momentary-loss(l)
Western Digital disappointed their shareholders this season.
But they toughed out the momentary losses.
Semantic
Parsing
Observation O:
Candidate hypothesis H:
expected-fact(es)∧ expected-non-fact(es)∧
assoc(edis, es)∧ assoc(etout, es)
∧ but(edis, etout)
e(e1, Make, w, l2)∧ expected-fact(e1)
∧ loss(l2)∧ rel(l2, s)∧ assoc(edis, e1)
∧ e(edis, Disappoint, w, s)∧ fact(edis)
assoc(etout, es)∧ expected-non-fact(es)
∧ e(es, Avoid, t, l)
∧ e(etout, ToughOut, t, l)∧ fact(etout)
Input :
Axiom of discourse
Axiom of causality
Axiom of ontological relation
e(es, Avoid, s, l2)∧ expected-fact(es)∧ assoc(edis, es),
∧ e(e1, Make, w, l2)∧ expected-fact(e1)∧ loss(l2)∧ rel(l2, s)
Axiom of causality
s=t,
l=l2
Explanation of contrast relation ``but’’
・s=t: they is coref with shareholders
・l=l2: ``memontary loss’’ is coref
with inferred loss
Shareholders were expected
to avoid the loss
Shareholders were
expected to make a loss
論理仮説推論による
「行間を読む」言語理解
世界最高速の仮説推論エンジン
(判断の根拠を説明できる機械)
意味解析
グラウンディング
高度に構造化された
一般・専門知識ベース
質問
応答
情報
分析
知識
推論
シーン
理解
世界最大規模の知識獲得基盤
カ
フ
カ
変
身
カ
ミ
ュ
異
邦
人
… …
不
注
意
交
通
事
故
タ
バ
コ
病
気
… …
Xが執筆したY
Xの作品Y
…
Xが起こすY
Xが原因のY
… … … … … … …
0 0 … 32 57 …
0 0 … 23 68 …
… … … … … …
34 22 … 0 0 …
43 24 … 0 0 …
パターン(フレーズ)×関係インスタンス行列
著者
関係
因果
関係
大規模コーパス
(60億文, 600GB)
powered by:
パターン抽出 行列構築
大規模なデータ
に対して高速・
高効率に動作
東北大NLPの戦略
「行間を読む」 言語解析
判断の根拠を説明できる
達成事項
達成事項
達成事項
達成事項
画像との統合理解へ多様な同義・反義関係を計算
4
- 10. 場所参照表現タグ付きコーパス
[松田ら, 2015], [Matsuda et al., 2015]
宮城県 白石市,武家屋敷近くのバス停で
事故発生.通行時は気をつけてください.
白石沢端バス停
北緯38.00 東経140.62
地名辞書 施設名辞書
人手で対応を付与
Web上のデータから辞書を構築
宮城県
北緯38.26 東経140.87
宮城県白石市
北緯38.00 東経140.62
武家屋敷
北緯38.00 東経140.62
宮城県 白石市,武家屋敷近くのバス停で
事故発生.通行時は気をつけてください.
宮城県 白石市,武家屋敷近くのバス停で
事故発生.通行時は気をつけてください.SNSからサンプリング
10
- 13. 拡張固有表現+Wikipediaデータ
[関根ら, 2016], [鈴木ら, 2016]
(ランゲージクラフト/ニューヨーク大学 関根聡先生との共同研究)
製品 > 主義方式 > 競技
世界のありとあらゆるものを 200クラスに階層化した辞書
イベント > 催し物 > 競技会
組織 > 競技組織
地名> GPE > 市区町村 施設 > GOE > 競技施設 13
http://www.languagecraft.com/enew/
- 14. 名前 名前_その他
人名
組織名 組織名_その他
国際組織名
公園組織名
家系名
民族名 民族名_その他
競技組織名 競技組織名_その他
法人名 法人名_その他
政治的組織名 政治的組織名_その他
国籍名
プロ競技組織名
競技リーグ名
企業名 / 企業グループ名
政府組織名 / 政党名 /
内閣名 / 軍隊名
地名 地名_その他
温泉名
GPE GPE_その他
地域名 地域名_その他
地形名 地形名_その他
天体名 天体名_その他
アドレス アドレス_その他
市区町村名 / 郡名
都道府県州名 / 国名
大陸地域名
国内地域名
山地名 / 島名 / 河川名
湖沼名 / 海洋名 / 湾名
恒星 / 惑星 / 星座
郵便住所 / 電話番号
電子メイル / URL
施設名 施設名_その他
施設部分名
遺跡名 遺跡名_その他
GOE GOE_その他
路線名 路線名_その他
古墳名
公共機関名 / 学校名 / 研究機
関名 / 取引所名 / 公園名 / 競
技施設名 / 美術博物館名 / 動
植物園名 / 遊園施設名 / 劇場
名 / 神社寺名 / 停車場名 / 電
車駅名 / 空港名 / 港名
電車路線名 / 道路名 / 運河名
航路名 / トンネル名 / 橋名
製品名 製品名_その他
材料名 / 衣類名 / 貨幣名 /
医薬品名 / 武器名 / 株名 /
賞名 / 勲章名 / 罪名 / 便名
等級名 / キャラクター名 /
識別番号
乗り物名 乗り物名_その他
食べ物名 食べ物名_その他
芸術作品名 芸術作品名_その他
出版物名 出版物名_その他
主義方式名 主義方式名_その他
規則名 規則名_その他
称号名 称号名_その他
言語名 言語名_その他
単位名 単位名_その他
車名 / 列車名 / 飛行機名
宇宙船名 / 船名
料理名
絵画名 / 番組名 / 映画名 /
公演名 / 音楽名 / 文学名
新聞名 / 雑誌名
文化名 / 宗教名 / 学問名 /
競技名 / 流派名 / 運動名
理論名 / 政策計画名
条約名 / 法令名
地位職業名
国語名
通貨名
イベント名
催し物名 催し物名_その他
事件事故名 事件事故名_その他
自然現象名 自然災害名_その他
例祭名 / 競技会名
会議名
戦争名
自然災害名
地震名
自然物名 自然物名_その他
元素名
化合物名
鉱物名
生物名 生物名_その他
真菌類名 / 軟体動物_節足動
物名 / 昆虫類名 / 魚類名 両生
類名 / 爬虫類名 / 爬虫類名 /
鳥類名 / 哺乳類名 / 植物名
生物部位名 生物部位名_その他
病気名 病気名_その他
動物病気名
神名
色名 色名_その他
自然色名
数値表現 数値表現_その他
金額表現 / 株指標 / ポイン
ト / 割合表現 / 倍数表現 /
頻度表現 / 年齢 / 学齢 / 序
数 / 順位表現 / 緯度経度
寸法表現 寸法表現_その他
個数 個数_その他
長さ / 面積 / 体積 / 重量 /
速度 / 密度 / 温度 / カロ
リー / 震度 / マグニチュー
ド
人数 / 組織数 / 場所数_そ
の他 / 国数 / 施設数 / 製品
数 / イベント数 / 自然物数
_その他 / 動物数 / 植物数
時間表現
時刻表現 / 日付表現 / 曜日表
現 / 時代表現 / 期間_その他 /
時刻期間 / 日数期間 / 週数期
間 / 月数期間 / 年数期間
動物部位名 / 植物部位名
14
- 15. 拡張固有表現+Wikipediaデータ
[関根ら, 2016], [鈴木ら, 2016]
{ "SID": 161224,
"wikipedia_ID": "259974",
"entry": "東京都立新宿高等学校",
"clean_entry": "東京都立新宿高等学校",
"page_property": "Normal",
"redirect_to": "",
“redirect_from”: [“新宿高校”, “新宿高等学校”, “都立
新宿高等学校”, “東京都立新宿高校", "東京府立第六中学校
"],
"link_from_N": 276,
“link_anchor”: [{“count”: 1, “anchor”: “新宿高等学
校"}, {"count": 1, "anchor": "東京都立新宿高校"}],
“category_info”: [“東京都区部の公立高等学校|しんしゆ
く”, “新宿区の学校|しんしゆくこう”, “学校記事”],
“first_sentence”: “東京都立新宿高等学校(とうきょうと
りつ しんじゅくこうとうがっこう)は、東京都新宿区内藤町
に所在する都立高等学校。",
“listed_in”: [“旧制中等学校・新制高校のナンバース
クール一覧”, “東京都立新宿高等学校の人物一覧", "東京都
高等学校一覧", "旧制中等教育学校の一覧 (東京都)"],
"ENE": ["学校名”],
"annotation_flag": "HAND.LC_annotator_201511”
}
拡張固有表現クラス
リダイレクト
元
リンク元
カテゴリ情報
自動付与?
手動付与?
扱いやすい JSON 形式:
他の分析にも是非!!
15
Wikipedia 日本語記事 200万記事に対して ディープラーニング
で自動でラベル付与した結果を公開 (精度 : 90%くらい)
- 16. 日本語 Wikipedia Entity ベクトル
[鈴木ら, 2016]
16
Wikipedia記事間のリンク構造と、リンク元の文脈を利用
一般の「単語」と Wikipedia記事を同じベクトル空間に
学習はSGNS
(word2vecと同じ)
http://www.cl.ecei.tohoku.ac.jp/~m-suzuki/jawiki_vector/
Word2vec は「単語」をベクトルに変換
「Wikipediaの記事」に対しても同じアイディアが適用できないだろうか?
- 17. 日本語 Wikipedia Entity ベクトル
エンティティ同士の演算ができます
に類似したエンティティは?ヤマハ
に類似したエンティティは?ヤマハ発動機
17
北海道 札幌市 沖縄における は でいうと?
- 18. NEologd ファミリー への期待
• 現状:継続的にメンテナンスされる言語資源
は殆ど無い!
– 毎月更新されてる!すごい!
• 現状:研究者/エンジニアは「手法」に関心
が行きがち
– 「リソース」も同程度に重要!
• 現状:「言語リソースは客観性が重要」「リ
ソース作成過程も再現性が無くては」
– 関根先生(関根の拡張固有表現階層)、佐藤さん
(Neologd) :「個人の主観が入ったっていいじゃ
ない!」← 超同感
18
- 21. リソースの配布元
• 日本語 Wikification コーパス
– http://www.cl.ecei.tohoku.ac.jp/jawikify/
• 場所参照表現タグ付きコーパス
– http://www.cl.ecei.tohoku.ac.jp/~matsuda/LRE_corpus/
• 日本語 Wikipedia Entity ベクトル
– http://www.cl.ecei.tohoku.ac.jp/~m-suzuki/jawiki_vector/
• 拡張固有表現 + Wikipedia データ
– http://www.languagecraft.com/enew/
– ランゲージクラフト研究所の担当者にお問い合わ
せ下さい
21
- 22. Reference
• [Jargalsaikhan et al., 2016] Davaajav Jargalsaikhan, 岡崎直観, 松
田耕史, 乾健太郎. 日本語Wikificationコーパスの構築に向けて.
pp.793-796, 言語処理学会第22回年次大会, March 2016.
• [松田ら, 2015] 松田耕史, 佐々木 彬, 岡崎直観, 乾健太郎. 場所参照表
現タグ付きコーパスの構築と評価. 情報処理学会研究報告 自然言語
処理(NL), 2015-NL-220(12), pp.1-10, January 2015.
• [Matsuda et al., 2015] Koji Matsuda, Akira Sasaki, Naoaki Okazaki
and Kentaro Inui. Annotating Geographical Entities on Microblog
Text. In Proceedings of the 9th Linguistic Annotation Workshop
(LAW IX 2015), pp.85–94, June 2015.
• [鈴木ら, 2016] 鈴木正敏, 松田耕史, 関根聡, 岡崎直観, 乾健太郎.
Wikipedia記事に対する拡張固有表現ラベルの多重付与. pp.797-800,
言語処理学会第22回年次大会, March 2016.
• [関根ら, 2016] 関根聡, 安藤まや, 松田耕史, 鈴木正敏, 乾健太郎.
「拡張固有表表現+Wikipedia」データ. pp.41-44, 言語処理学会第
22回年次大会, March 2016.
22