系列パターンマイニングを用いた単語パターン学習とWikipediaからの組織名抽出

系列パターンマイニン
グを用いた単語パター
ン学習とWikipediaか
らの組織名抽出
関口宏司＠ロンウイット

背景
• Lucene/Solr ｘ固有表現抽出＝便利！
• 形態素解析辞書の充実化
• ipadic: Noun.org.dic

• 固有表現
• クラス：人名、地名、組織名、・・・

• 固有表現抽出の方法
• 固有表現辞書の整備
• 固有表現タグ付きコーパスからの学習

Copyright (c) 2013 RONDHUIT 2

全体フロー
組織名辞書（学習データ）
e.g. 日外アソシエーツ DCS-機関名辞書
Wikipedia
見出し語
Lucene ※ lucene-gosen推奨データ
インデックス
（Noun.org.dicを除いてビルド）

東京大学
組織名
正規表現情報処理学会
単語パターン
パターンマッチ :
学習
系列パターンマイニング

(.+)大学$
日本(.+)協会$
(.+)学会$
要重複正規表現のチェック :

単語パターンの学習方法
• 系列パターンマイニング（PrefixSpan）を利用
• 最小サポート：閾値以上出現する「頻出」パターン
• 各系列をprefixとpostfixに分けて考え、最も短いprefixから探索を開始
• 頻出するprefixに後続するpostfixのみ探索を段階的に繰り返す

• 組織名のための例外
• 接尾辞情報（〜大学など）が汎化される規則は適用しない
• 構成単語数が2以下のものは最初から除外


系列パターンマイニングの例
最小サポート=2 "a" "ab"
b=1
2.bc 2.c c=1
c=1

"b"
1.a
"" a=2
2.c
c=1
a=3 3.a
1.cdba
b=3
2.abc
c=3 "c" "cb"
3.cba
d=1
1.dba a=2 1.a 結果
a=2
3.ba b=2 3.a
a:3
b:3
c:3
"d" "db" ba : 2
ca : 2
a=1 cb : 2
1.ba 1.a a=1
b=1 cba : 2


学習結果の例
• IPAdic 2.7 の Noun.org.dic に最小サポート40での例

建設$ 物産$ 印刷$ 商事$
サービス$ 県立.+高等学校$ 総合.*病院$ 女子.*大学$
研究所$ 工業.*高等専門学校$ 市立.+病院$ 県立.+学校$
食品$ 商会$ 日本.+協会$ 薬品$
銀行$ 会.*病院$ 駐屯地$ 信用金庫$
女子大$ 電気$ 中央.*病院$ 女子.*短期大学$
保険$ システム$ 製薬$ エンジニアリング$
製作所$ 放送局$ 工業.*専門学校$ 学園.*短期大学$
学院$ センター$ 電機$ 女子.*短大$
工業.+学校$ 開発$ 新聞社$ 産業$
工業.*高等.*学校$ ホテル$ 販売$
テック$ 化学工業$ 学園.*短大$


Wikipediaに適用した出力例
• 正解例
日本電気欧州中央銀行横浜銀行
ベル研究所国際復興開発銀行聖教新聞社
米国立スーパーコンピュータ応用研究所埼玉りそな銀行産業経済新聞社
みずほ銀行富士銀行東京総合車両センター
りそな銀行日本興業銀行ケイトー研究所
UFJ銀行茨城県立取手第二高等学校イスラム銀行
三井住友銀行国立生物工学情報センタージャパンネット銀行
フランス国立宇宙研究センター雨宮製作所ソニー銀行
日本音楽著作権協会全日本ぷよ協会楽天銀行
パナウェーブ研究所足利銀行セブン銀行
東京大学物性研究所山陰合同銀行第百十国立銀行
第一勧業銀行日本百貨店協会お茶の水女子大学
宇宙科学研究所読売新聞社三洋電機
さくら銀行日立製作所アントウェルペン王立芸術学院
日本サッカー協会清水銀行日本スポーツ振興センター
ジャストシステム静岡銀行 :


Wikipediaに適用した出力例（つづき）
• 誤り抽出例
オペレーティングシステム
印刷
ファイルシステム
販売
組み込みオペレーティングシステム
組み込みシステム
銀行
新たな形態の銀行
大学院
研究所
サービス
GNU/Linuxシステム
システム
法令データ提供システム
発電機
:


正規表現の重複チェック
• "信用金庫$"と"金庫$"はそれぞれの正規表現がマッチする文字列の集合
が"信用金庫$"⊆"金庫$"の関係
• 再現率重視の場合は"金庫$"を採用
• 精度重視の場合は"信用金庫$"を採用

• 正規表現の包含関係を多項式時間で調べるアルゴリズム
• 参考文献[2]
• そのHaskell実装が参考文献[3]


参考文献
1. 接尾辞情報を利用した文書からの組織名抽出、乾、村上、橋本、内海、
石川、人工知能学会論文誌 24巻6号C、2009年
2. The Inclusion Problem for Regular Expressions, Dag Hovland,
http://hdl.handle.net/1956/3956
3. http://www.ii.uib.no/~dagh/inclusion.tar.bz2
4. http://sourceforge.jp/projects/ipadic/


系列パターンマイニングを用いた単語パターン学習とWikipediaからの組織名抽出

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Andere mochten auch

Andere mochten auch (20)

Mehr von Koji Sekiguchi

Mehr von Koji Sekiguchi (20)

Kürzlich hochgeladen

Kürzlich hochgeladen (8)

系列パターンマイニングを用いた単語パターン学習とWikipediaからの組織名抽出