SlideShare ist ein Scribd-Unternehmen logo
1 von 10
系列パターンマイニン
グを用いた単語パター
ン学習とWikipediaか
らの組織名抽出
関口宏司@ロンウイット
背景
•   Lucene/Solr x固有表現抽出=便利!
•   形態素解析辞書の充実化
     •   ipadic: Noun.org.dic

•   固有表現
     •   クラス:人名、地名、組織名、・・・

•   固有表現抽出の方法
     •   固有表現辞書の整備
     •   固有表現タグ付きコーパスからの学習




Copyright (c) 2013 RONDHUIT     2
全体フロー
組織名辞書(学習データ)
e.g. 日外アソシエーツ DCS-機関名辞書
                                                           Wikipedia
                                                           見出し語
                         Lucene   ※ lucene-gosen推奨          データ
                        インデックス
                                  (Noun.org.dicを除いてビルド)



                                                                           東京大学
                          組織名
                                                           正規表現            情報処理学会
                        単語パターン
                                                          パターンマッチ            :
                           学習
                                   系列パターンマイニング


                                        (.+)大学$
                                        日本(.+)協会$
                                        (.+)学会$
          要重複正規表現のチェック                       :
  Copyright (c) 2013 RONDHUIT                                          3
単語パターンの学習方法
•   系列パターンマイニング(PrefixSpan)を利用
     •   最小サポート:閾値以上出現する「頻出」パターン
     •   各系列をprefixとpostfixに分けて考え、最も短いprefixから探索を開始
     •   頻出するprefixに後続するpostfixのみ探索を段階的に繰り返す

•   組織名のための例外
     •   接尾辞情報(〜大学など)が汎化される規則は適用しない
     •   構成単語数が2以下のものは最初から除外




Copyright (c) 2013 RONDHUIT                           4
系列パターンマイニングの例
 最小サポート=2                           "a"               "ab"
                                          b=1
                              2.bc              2.c          c=1
                                          c=1


                                    "b"
                              1.a
    ""                                    a=2
                              2.c
                                          c=1
              a=3             3.a
 1.cdba
              b=3
 2.abc
              c=3                   "c"               "cb"
 3.cba
              d=1
                              1.dba       a=2   1.a                          結果
                                                             a=2
                              3.ba        b=2   3.a
                                                                   a:3
                                                                   b:3
                                                                   c:3
                                    "d"               "db"         ba : 2
                                                                   ca : 2
                                          a=1                      cb : 2
                              1.ba              1.a          a=1
                                          b=1                      cba : 2


Copyright (c) 2013 RONDHUIT                                                  5
学習結果の例
•   IPAdic 2.7 の Noun.org.dic に最小サポート40での例

        建設$                   物産$           印刷$         商事$
        サービス$                 県立.+高等学校$     総合.*病院$     女子.*大学$
        研究所$                  工業.*高等専門学校$   市立.+病院$     県立.+学校$
        食品$                   商会$           日本.+協会$     薬品$
        銀行$                   会.*病院$        駐屯地$        信用金庫$
        女子大$                  電気$           中央.*病院$     女子.*短期大学$
        保険$                   システム$         製薬$         エンジニアリング$
        製作所$                  放送局$          工業.*専門学校$   学園.*短期大学$
        学院$                   センター$         電機$         女子.*短大$
        工業.+学校$               開発$           新聞社$        産業$
        工業.*高等.*学校$           ホテル$          販売$
        テック$                  化学工業$         学園.*短大$


Copyright (c) 2013 RONDHUIT                                6
Wikipediaに適用した出力例
•   正解例
         日本電気                 欧州中央銀行         横浜銀行
         ベル研究所                国際復興開発銀行       聖教新聞社
         米国立スーパーコンピュータ応用研究所   埼玉りそな銀行        産業経済新聞社
         みずほ銀行                富士銀行           東京総合車両センター
         りそな銀行                日本興業銀行         ケイトー研究所
         UFJ銀行                茨城県立取手第二高等学校   イスラム銀行
         三井住友銀行               国立生物工学情報センター   ジャパンネット銀行
         フランス国立宇宙研究センター       雨宮製作所          ソニー銀行
         日本音楽著作権協会            全日本ぷよ協会        楽天銀行
         パナウェーブ研究所            足利銀行           セブン銀行
         東京大学物性研究所            山陰合同銀行         第百十国立銀行
         第一勧業銀行               日本百貨店協会        お茶の水女子大学
         宇宙科学研究所              読売新聞社          三洋電機
         さくら銀行                日立製作所          アントウェルペン王立芸術学院
         日本サッカー協会             清水銀行           日本スポーツ振興センター
         ジャストシステム             静岡銀行            :


Copyright (c) 2013 RONDHUIT                       7
Wikipediaに適用した出力例(つづき)
•   誤り抽出例
         オペレーティングシステム
         印刷
         ファイルシステム
         販売
         組み込みオペレーティングシステム
         組み込みシステム
         銀行
         新たな形態の銀行
         大学院
         研究所
         サービス
         GNU/Linuxシステム
         システム
         法令データ提供システム
         発電機
          :


Copyright (c) 2013 RONDHUIT   8
正規表現の重複チェック
•   "信用金庫$"と"金庫$"はそれぞれの正規表現がマッチする文字列の集合
    が"信用金庫$"⊆"金庫$"の関係
     •   再現率重視の場合は"金庫$"を採用
     •   精度重視の場合は"信用金庫$"を採用

•   正規表現の包含関係を多項式時間で調べるアルゴリズム
     •   参考文献[2]
     •   そのHaskell実装が参考文献[3]




Copyright (c) 2013 RONDHUIT               9
参考文献
1.     接尾辞情報を利用した文書からの組織名抽出、乾、村上、橋本、内海、
       石川、人工知能学会論文誌 24巻6号C、2009年
2.     The Inclusion Problem for Regular Expressions, Dag Hovland,
       http://hdl.handle.net/1956/3956
3.     http://www.ii.uib.no/~dagh/inclusion.tar.bz2
4.     http://sourceforge.jp/projects/ipadic/




Copyright (c) 2013 RONDHUIT                                          10

Weitere ähnliche Inhalte

Andere mochten auch

異常検知と変化検知 第4章 近傍法による異常検知
異常検知と変化検知 第4章 近傍法による異常検知異常検知と変化検知 第4章 近傍法による異常検知
異常検知と変化検知 第4章 近傍法による異常検知Ken'ichi Matsui
 
機械学習を用いた異常検知入門
機械学習を用いた異常検知入門機械学習を用いた異常検知入門
機械学習を用いた異常検知入門michiaki ito
 
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)NTT DATA OSS Professional Services
 
FIT2012招待講演「異常検知技術のビジネス応用最前線」
FIT2012招待講演「異常検知技術のビジネス応用最前線」FIT2012招待講演「異常検知技術のビジネス応用最前線」
FIT2012招待講演「異常検知技術のビジネス応用最前線」Shohei Hido
 
形態素解析の過去・現在・未来
形態素解析の過去・現在・未来形態素解析の過去・現在・未来
形態素解析の過去・現在・未来Preferred Networks
 
KDD読み会(図なし版)
KDD読み会(図なし版)KDD読み会(図なし版)
KDD読み会(図なし版)Keisuke OTAKI
 
バンディットアルゴリズム入門と実践
バンディットアルゴリズム入門と実践バンディットアルゴリズム入門と実践
バンディットアルゴリズム入門と実践智之 村上
 
機会学習ハッカソン:ランダムフォレスト
機会学習ハッカソン:ランダムフォレスト機会学習ハッカソン:ランダムフォレスト
機会学習ハッカソン:ランダムフォレストTeppei Baba
 
今日から使える! みんなのクラスタリング超入門
今日から使える! みんなのクラスタリング超入門今日から使える! みんなのクラスタリング超入門
今日から使える! みんなのクラスタリング超入門toilet_lunch
 
ロジスティック回帰の考え方・使い方 - TokyoR #33
ロジスティック回帰の考え方・使い方 - TokyoR #33ロジスティック回帰の考え方・使い方 - TokyoR #33
ロジスティック回帰の考え方・使い方 - TokyoR #33horihorio
 
Rで階層ベイズモデル
Rで階層ベイズモデルRで階層ベイズモデル
Rで階層ベイズモデルYohei Sato
 
トピックモデルを用いた 潜在ファッション嗜好の推定
トピックモデルを用いた 潜在ファッション嗜好の推定トピックモデルを用いた 潜在ファッション嗜好の推定
トピックモデルを用いた 潜在ファッション嗜好の推定Takashi Kaneda
 
パターン認識 第10章 決定木
パターン認識 第10章 決定木 パターン認識 第10章 決定木
パターン認識 第10章 決定木 Miyoshi Yuya
 
SVMについて
SVMについてSVMについて
SVMについてmknh1122
 
はじめてでもわかるベイズ分類器 -基礎からMahout実装まで-
はじめてでもわかるベイズ分類器 -基礎からMahout実装まで-はじめてでもわかるベイズ分類器 -基礎からMahout実装まで-
はじめてでもわかるベイズ分類器 -基礎からMahout実装まで-Naoki Yanai
 
「はじめてでもわかる RandomForest 入門-集団学習による分類・予測 -」 -第7回データマイニング+WEB勉強会@東京
「はじめてでもわかる RandomForest 入門-集団学習による分類・予測 -」 -第7回データマイニング+WEB勉強会@東京「はじめてでもわかる RandomForest 入門-集団学習による分類・予測 -」 -第7回データマイニング+WEB勉強会@東京
「はじめてでもわかる RandomForest 入門-集団学習による分類・予測 -」 -第7回データマイニング+WEB勉強会@東京Koichi Hamada
 

Andere mochten auch (20)

異常検知と変化検知 第4章 近傍法による異常検知
異常検知と変化検知 第4章 近傍法による異常検知異常検知と変化検知 第4章 近傍法による異常検知
異常検知と変化検知 第4章 近傍法による異常検知
 
機械学習を用いた異常検知入門
機械学習を用いた異常検知入門機械学習を用いた異常検知入門
機械学習を用いた異常検知入門
 
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
 
FIT2012招待講演「異常検知技術のビジネス応用最前線」
FIT2012招待講演「異常検知技術のビジネス応用最前線」FIT2012招待講演「異常検知技術のビジネス応用最前線」
FIT2012招待講演「異常検知技術のビジネス応用最前線」
 
形態素解析の過去・現在・未来
形態素解析の過去・現在・未来形態素解析の過去・現在・未来
形態素解析の過去・現在・未来
 
KDD読み会(図なし版)
KDD読み会(図なし版)KDD読み会(図なし版)
KDD読み会(図なし版)
 
バンディットアルゴリズム入門と実践
バンディットアルゴリズム入門と実践バンディットアルゴリズム入門と実践
バンディットアルゴリズム入門と実践
 
はじめての「R」
はじめての「R」はじめての「R」
はじめての「R」
 
決定木学習
決定木学習決定木学習
決定木学習
 
機会学習ハッカソン:ランダムフォレスト
機会学習ハッカソン:ランダムフォレスト機会学習ハッカソン:ランダムフォレスト
機会学習ハッカソン:ランダムフォレスト
 
今日から使える! みんなのクラスタリング超入門
今日から使える! みんなのクラスタリング超入門今日から使える! みんなのクラスタリング超入門
今日から使える! みんなのクラスタリング超入門
 
ロジスティック回帰の考え方・使い方 - TokyoR #33
ロジスティック回帰の考え方・使い方 - TokyoR #33ロジスティック回帰の考え方・使い方 - TokyoR #33
ロジスティック回帰の考え方・使い方 - TokyoR #33
 
Rで階層ベイズモデル
Rで階層ベイズモデルRで階層ベイズモデル
Rで階層ベイズモデル
 
一般向けのDeep Learning
一般向けのDeep Learning一般向けのDeep Learning
一般向けのDeep Learning
 
深層学習による自然言語処理の研究動向
深層学習による自然言語処理の研究動向深層学習による自然言語処理の研究動向
深層学習による自然言語処理の研究動向
 
トピックモデルを用いた 潜在ファッション嗜好の推定
トピックモデルを用いた 潜在ファッション嗜好の推定トピックモデルを用いた 潜在ファッション嗜好の推定
トピックモデルを用いた 潜在ファッション嗜好の推定
 
パターン認識 第10章 決定木
パターン認識 第10章 決定木 パターン認識 第10章 決定木
パターン認識 第10章 決定木
 
SVMについて
SVMについてSVMについて
SVMについて
 
はじめてでもわかるベイズ分類器 -基礎からMahout実装まで-
はじめてでもわかるベイズ分類器 -基礎からMahout実装まで-はじめてでもわかるベイズ分類器 -基礎からMahout実装まで-
はじめてでもわかるベイズ分類器 -基礎からMahout実装まで-
 
「はじめてでもわかる RandomForest 入門-集団学習による分類・予測 -」 -第7回データマイニング+WEB勉強会@東京
「はじめてでもわかる RandomForest 入門-集団学習による分類・予測 -」 -第7回データマイニング+WEB勉強会@東京「はじめてでもわかる RandomForest 入門-集団学習による分類・予測 -」 -第7回データマイニング+WEB勉強会@東京
「はじめてでもわかる RandomForest 入門-集団学習による分類・予測 -」 -第7回データマイニング+WEB勉強会@東京
 

Mehr von Koji Sekiguchi

20221209-ApacheSolrによるはじめてのセマンティックサーチ.pdf
20221209-ApacheSolrによるはじめてのセマンティックサーチ.pdf20221209-ApacheSolrによるはじめてのセマンティックサーチ.pdf
20221209-ApacheSolrによるはじめてのセマンティックサーチ.pdfKoji Sekiguchi
 
Solr から使う OpenNLP の日本語固有表現抽出
Solr から使う OpenNLP の日本語固有表現抽出Solr から使う OpenNLP の日本語固有表現抽出
Solr から使う OpenNLP の日本語固有表現抽出Koji Sekiguchi
 
Learning-to-Rank meetup Vol. 1
Learning-to-Rank meetup Vol. 1Learning-to-Rank meetup Vol. 1
Learning-to-Rank meetup Vol. 1Koji Sekiguchi
 
Lucene 6819-good-bye-index-time-boost
Lucene 6819-good-bye-index-time-boostLucene 6819-good-bye-index-time-boost
Lucene 6819-good-bye-index-time-boostKoji Sekiguchi
 
NLP4L - 情報検索における性能改善のためのコーパスの活用とランキング学習
NLP4L - 情報検索における性能改善のためのコーパスの活用とランキング学習NLP4L - 情報検索における性能改善のためのコーパスの活用とランキング学習
NLP4L - 情報検索における性能改善のためのコーパスの活用とランキング学習Koji Sekiguchi
 
An Introduction to NLP4L (Scala by the Bay / Big Data Scala 2015)
An Introduction to NLP4L (Scala by the Bay / Big Data Scala 2015)An Introduction to NLP4L (Scala by the Bay / Big Data Scala 2015)
An Introduction to NLP4L (Scala by the Bay / Big Data Scala 2015)Koji Sekiguchi
 
An Introduction to NLP4L
An Introduction to NLP4LAn Introduction to NLP4L
An Introduction to NLP4LKoji Sekiguchi
 
コーパス学習による Apache Solr の徹底活用
コーパス学習による Apache Solr の徹底活用コーパス学習による Apache Solr の徹底活用
コーパス学習による Apache Solr の徹底活用Koji Sekiguchi
 
情報検索の基礎からデータの徹底活用まで
情報検索の基礎からデータの徹底活用まで情報検索の基礎からデータの徹底活用まで
情報検索の基礎からデータの徹底活用までKoji Sekiguchi
 
LUCENE-5252 NGramSynonymTokenizer
LUCENE-5252 NGramSynonymTokenizerLUCENE-5252 NGramSynonymTokenizer
LUCENE-5252 NGramSynonymTokenizerKoji Sekiguchi
 
情報検索におけるランキング計算の紹介
情報検索におけるランキング計算の紹介情報検索におけるランキング計算の紹介
情報検索におけるランキング計算の紹介Koji Sekiguchi
 
Luceneインデックスの共起単語分析とSolrによる共起単語サジェスチョン
Luceneインデックスの共起単語分析とSolrによる共起単語サジェスチョンLuceneインデックスの共起単語分析とSolrによる共起単語サジェスチョン
Luceneインデックスの共起単語分析とSolrによる共起単語サジェスチョンKoji Sekiguchi
 
Lucene terms extraction
Lucene terms extractionLucene terms extraction
Lucene terms extractionKoji Sekiguchi
 
Visualize terms network in Lucene index
Visualize terms network in Lucene indexVisualize terms network in Lucene index
Visualize terms network in Lucene indexKoji Sekiguchi
 
WikipediaからのSolr用類義語辞書の自動生成
WikipediaからのSolr用類義語辞書の自動生成WikipediaからのSolr用類義語辞書の自動生成
WikipediaからのSolr用類義語辞書の自動生成Koji Sekiguchi
 
OpenNLP - MEM and Perceptron
OpenNLP - MEM and PerceptronOpenNLP - MEM and Perceptron
OpenNLP - MEM and PerceptronKoji Sekiguchi
 

Mehr von Koji Sekiguchi (20)

20221209-ApacheSolrによるはじめてのセマンティックサーチ.pdf
20221209-ApacheSolrによるはじめてのセマンティックサーチ.pdf20221209-ApacheSolrによるはじめてのセマンティックサーチ.pdf
20221209-ApacheSolrによるはじめてのセマンティックサーチ.pdf
 
Solr から使う OpenNLP の日本語固有表現抽出
Solr から使う OpenNLP の日本語固有表現抽出Solr から使う OpenNLP の日本語固有表現抽出
Solr から使う OpenNLP の日本語固有表現抽出
 
Learning-to-Rank meetup Vol. 1
Learning-to-Rank meetup Vol. 1Learning-to-Rank meetup Vol. 1
Learning-to-Rank meetup Vol. 1
 
Lucene 6819-good-bye-index-time-boost
Lucene 6819-good-bye-index-time-boostLucene 6819-good-bye-index-time-boost
Lucene 6819-good-bye-index-time-boost
 
NLP4L - 情報検索における性能改善のためのコーパスの活用とランキング学習
NLP4L - 情報検索における性能改善のためのコーパスの活用とランキング学習NLP4L - 情報検索における性能改善のためのコーパスの活用とランキング学習
NLP4L - 情報検索における性能改善のためのコーパスの活用とランキング学習
 
An Introduction to NLP4L (Scala by the Bay / Big Data Scala 2015)
An Introduction to NLP4L (Scala by the Bay / Big Data Scala 2015)An Introduction to NLP4L (Scala by the Bay / Big Data Scala 2015)
An Introduction to NLP4L (Scala by the Bay / Big Data Scala 2015)
 
An Introduction to NLP4L
An Introduction to NLP4LAn Introduction to NLP4L
An Introduction to NLP4L
 
Nlp4 l intro-20150513
Nlp4 l intro-20150513Nlp4 l intro-20150513
Nlp4 l intro-20150513
 
コーパス学習による Apache Solr の徹底活用
コーパス学習による Apache Solr の徹底活用コーパス学習による Apache Solr の徹底活用
コーパス学習による Apache Solr の徹底活用
 
情報検索の基礎からデータの徹底活用まで
情報検索の基礎からデータの徹底活用まで情報検索の基礎からデータの徹底活用まで
情報検索の基礎からデータの徹底活用まで
 
LUCENE-5252 NGramSynonymTokenizer
LUCENE-5252 NGramSynonymTokenizerLUCENE-5252 NGramSynonymTokenizer
LUCENE-5252 NGramSynonymTokenizer
 
情報検索におけるランキング計算の紹介
情報検索におけるランキング計算の紹介情報検索におけるランキング計算の紹介
情報検索におけるランキング計算の紹介
 
Luceneインデックスの共起単語分析とSolrによる共起単語サジェスチョン
Luceneインデックスの共起単語分析とSolrによる共起単語サジェスチョンLuceneインデックスの共起単語分析とSolrによる共起単語サジェスチョン
Luceneインデックスの共起単語分析とSolrによる共起単語サジェスチョン
 
Html noise reduction
Html noise reductionHtml noise reduction
Html noise reduction
 
Lucene terms extraction
Lucene terms extractionLucene terms extraction
Lucene terms extraction
 
Visualize terms network in Lucene index
Visualize terms network in Lucene indexVisualize terms network in Lucene index
Visualize terms network in Lucene index
 
WikipediaからのSolr用類義語辞書の自動生成
WikipediaからのSolr用類義語辞書の自動生成WikipediaからのSolr用類義語辞書の自動生成
WikipediaからのSolr用類義語辞書の自動生成
 
HMM viterbi
HMM viterbiHMM viterbi
HMM viterbi
 
NLP x Lucene/Solr
NLP x Lucene/SolrNLP x Lucene/Solr
NLP x Lucene/Solr
 
OpenNLP - MEM and Perceptron
OpenNLP - MEM and PerceptronOpenNLP - MEM and Perceptron
OpenNLP - MEM and Perceptron
 

Kürzlich hochgeladen

NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NTT DATA Technology & Innovation
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)Hiroshi Tomioka
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?akihisamiyanaga1
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 

Kürzlich hochgeladen (8)

NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 

系列パターンマイニングを用いた単語パターン学習とWikipediaからの組織名抽出

  • 2. 背景 • Lucene/Solr x固有表現抽出=便利! • 形態素解析辞書の充実化 • ipadic: Noun.org.dic • 固有表現 • クラス:人名、地名、組織名、・・・ • 固有表現抽出の方法 • 固有表現辞書の整備 • 固有表現タグ付きコーパスからの学習 Copyright (c) 2013 RONDHUIT 2
  • 3. 全体フロー 組織名辞書(学習データ) e.g. 日外アソシエーツ DCS-機関名辞書 Wikipedia 見出し語 Lucene ※ lucene-gosen推奨 データ インデックス (Noun.org.dicを除いてビルド) 東京大学 組織名 正規表現 情報処理学会 単語パターン パターンマッチ : 学習 系列パターンマイニング (.+)大学$ 日本(.+)協会$ (.+)学会$ 要重複正規表現のチェック : Copyright (c) 2013 RONDHUIT 3
  • 4. 単語パターンの学習方法 • 系列パターンマイニング(PrefixSpan)を利用 • 最小サポート:閾値以上出現する「頻出」パターン • 各系列をprefixとpostfixに分けて考え、最も短いprefixから探索を開始 • 頻出するprefixに後続するpostfixのみ探索を段階的に繰り返す • 組織名のための例外 • 接尾辞情報(〜大学など)が汎化される規則は適用しない • 構成単語数が2以下のものは最初から除外 Copyright (c) 2013 RONDHUIT 4
  • 5. 系列パターンマイニングの例 最小サポート=2 "a" "ab" b=1 2.bc 2.c c=1 c=1 "b" 1.a "" a=2 2.c c=1 a=3 3.a 1.cdba b=3 2.abc c=3 "c" "cb" 3.cba d=1 1.dba a=2 1.a 結果 a=2 3.ba b=2 3.a a:3 b:3 c:3 "d" "db" ba : 2 ca : 2 a=1 cb : 2 1.ba 1.a a=1 b=1 cba : 2 Copyright (c) 2013 RONDHUIT 5
  • 6. 学習結果の例 • IPAdic 2.7 の Noun.org.dic に最小サポート40での例 建設$ 物産$ 印刷$ 商事$ サービス$ 県立.+高等学校$ 総合.*病院$ 女子.*大学$ 研究所$ 工業.*高等専門学校$ 市立.+病院$ 県立.+学校$ 食品$ 商会$ 日本.+協会$ 薬品$ 銀行$ 会.*病院$ 駐屯地$ 信用金庫$ 女子大$ 電気$ 中央.*病院$ 女子.*短期大学$ 保険$ システム$ 製薬$ エンジニアリング$ 製作所$ 放送局$ 工業.*専門学校$ 学園.*短期大学$ 学院$ センター$ 電機$ 女子.*短大$ 工業.+学校$ 開発$ 新聞社$ 産業$ 工業.*高等.*学校$ ホテル$ 販売$ テック$ 化学工業$ 学園.*短大$ Copyright (c) 2013 RONDHUIT 6
  • 7. Wikipediaに適用した出力例 • 正解例 日本電気 欧州中央銀行 横浜銀行 ベル研究所 国際復興開発銀行 聖教新聞社 米国立スーパーコンピュータ応用研究所 埼玉りそな銀行 産業経済新聞社 みずほ銀行 富士銀行 東京総合車両センター りそな銀行 日本興業銀行 ケイトー研究所 UFJ銀行 茨城県立取手第二高等学校 イスラム銀行 三井住友銀行 国立生物工学情報センター ジャパンネット銀行 フランス国立宇宙研究センター 雨宮製作所 ソニー銀行 日本音楽著作権協会 全日本ぷよ協会 楽天銀行 パナウェーブ研究所 足利銀行 セブン銀行 東京大学物性研究所 山陰合同銀行 第百十国立銀行 第一勧業銀行 日本百貨店協会 お茶の水女子大学 宇宙科学研究所 読売新聞社 三洋電機 さくら銀行 日立製作所 アントウェルペン王立芸術学院 日本サッカー協会 清水銀行 日本スポーツ振興センター ジャストシステム 静岡銀行 : Copyright (c) 2013 RONDHUIT 7
  • 8. Wikipediaに適用した出力例(つづき) • 誤り抽出例 オペレーティングシステム 印刷 ファイルシステム 販売 組み込みオペレーティングシステム 組み込みシステム 銀行 新たな形態の銀行 大学院 研究所 サービス GNU/Linuxシステム システム 法令データ提供システム 発電機 : Copyright (c) 2013 RONDHUIT 8
  • 9. 正規表現の重複チェック • "信用金庫$"と"金庫$"はそれぞれの正規表現がマッチする文字列の集合 が"信用金庫$"⊆"金庫$"の関係 • 再現率重視の場合は"金庫$"を採用 • 精度重視の場合は"信用金庫$"を採用 • 正規表現の包含関係を多項式時間で調べるアルゴリズム • 参考文献[2] • そのHaskell実装が参考文献[3] Copyright (c) 2013 RONDHUIT 9
  • 10. 参考文献 1. 接尾辞情報を利用した文書からの組織名抽出、乾、村上、橋本、内海、 石川、人工知能学会論文誌 24巻6号C、2009年 2. The Inclusion Problem for Regular Expressions, Dag Hovland, http://hdl.handle.net/1956/3956 3. http://www.ii.uib.no/~dagh/inclusion.tar.bz2 4. http://sourceforge.jp/projects/ipadic/ Copyright (c) 2013 RONDHUIT 10