Weitere ähnliche Inhalte
Ähnlich wie 形態素解析器 MeCab の新語・固有表現辞書 mecab-ipadic-NEologd のご紹介 (20)
Kürzlich hochgeladen (12)
形態素解析器 MeCab の新語・固有表現辞書 mecab-ipadic-NEologd のご紹介
- 2. まとめ
- mecab-ipadic-NEologd は IPADIC を拡張した
mecab のシステム辞書
- 新語・固有表現などを読み仮名・原型付きで
168万組を再録(異表記な重複エントリ込)
- 最低月2回アップデート(初旬・中旬)
- Rを使ったテキストマイニングに今後必須
- 3. 佐藤 敏紀 ( @overlast )
現職 : LINE 株式会社のエンジニア
- 自然言語処理、検索、機械学習まわり
前職 : ヤフー株式会社のエンジニア
- 検索エンジンのキーワードのスペル訂正等
学生 : 東京工業大学大学院 奥村研究室
- 比較表現抽出の研究
- blogWatcher の開発運用
- 4. その他
- DSIRNLP という勉強会を主催しています
- 初心者にもやさしく雰囲気も良いです^^
- YouTube で「DSIRNLP」を検索
- 夏に開催されるNLP若手の会 第10回シンポジ
ウムに是非ご参加ください(まだ詳細未定)
http://yans.anlp.jp/
- 僕の現職や前職について何か聞きたい方は、
お気軽にお声がけください
- 12. 初回インストール (例: OSX)
Step.0 : 必要なライブラリをインストール
- $ brew install mecab mecab-ipadic git curl xz
Step.1 : git clone する
- $ git clone --depth 1 https://github.com/neologd/mecab-ipadic-neologd.git
Step.2 : インストールする
- $ cd mecab-ipadic-neologd; ./bin/install-mecab-ipadic-neologd -n
- 13. 初回インストール (例: OSXなRユーザ)
Step.0 : 必要なライブラリをインストール
- $ brew install mecab mecab-ipadic git curl xz
Step.1 : git clone する
- $ git clone --depth 1 https://github.com/neologd/mecab-ipadic-neologd.git
Step.2 : インストールする & ユーザ辞書を作る
- $ cd mecab-ipadic-neologd; ./bin/install-mecab-ipadic-neologd -n /
--create_user_dic
- 24. Q. なぜ IPADIC を拡張したの?
Web上には長単位な辞書エントリに変換しやすい言語資源が多い
既存の形態素解析辞書に対して長単位なエントリを追加する作業は、短単
位なエントリを追加する作業よりも難易度が低いと感じられた
- 人間の目視による検査は最小化したい
用言や副詞など、体言以外のエントリについて自分でも考えたかった
- 今後、人手で確実に対処したい
既知の固有表現の単語境界に関してチャンキングを不要にしたかった
- 固有表現の内部構造が必要なときは別の辞書による結果を混ぜる
固有表現の読み仮名を推定なしで取得したかった
- 26. Q. 今後 UNIDIC には対応しないの?
mecab-unidic-neologd をリリースする予定がある
- 先に mecab-ipadic-neologd に体言以外のエントリを追加する
対応する理由
- NEologd で生成する辞書の性能や性質を評価するため
- 副作用に関する評価を中心におこないたい
追加するエントリの単位
- 短単位エントリの追加作業は個人的に利益とコストが見合わない
- 短単位以上で長単位以下のエントリを追加することになるはず
対応時期は
- 年内
- 27. Q. なぜ Apache Licence 2.0 なの?
mecab-ipadic-neologd に関連する著作権周りの
ことに関して悩むのは僕だけで十分だから
Apache Licence 2.0な OSS をどう取り扱うべきか
は、ググれば分かるはずだから
- 28. Q. 開発の経緯は?
2014年1月、2月 : 形態素解析処理後のチャンキング処理の正解率の向上に限界を感じる
2014年3月
- NLP2014 に参加して意識が高まり、本質的な解決方法に取り組むことに
- 15年前から「未知語が辞書に登録されていない」という問題に変化が無いことに着目
- 単語境界が既知ならチャンキングせず辞書引きすれば良い、という方針を選択
2014年4月9日 : 社内で新語辞書のシードデータ生成器の試作を開始
2014年7月9日 : 社内で新語辞書パッケージ first commit
2014年7月16日 : 社内で新語辞書パッケージ を初めてアップデート
2014年8月〜2015年1月
- (他の開発作業と並行して )粛々と機能改良とパッケージの更新とバグ修正を続ける
2015年2月1日 : 社内で開発した成果物を社外に出していくことになる
2015年2月24日 : 辞書のライセンスを Apache Licence 2.0 に決定
2015年3月9日 : 社外で mecab-ipadic-NEologd を first commit
2015年3月11日 : 友人・知人に試用を依頼。動作確認と修正を繰り返す
2015年3月13日 : 社外でリリースした後の広報を開始
2015年3月14日〜19日 : 致命的なバグの修正や利便性を高める機能の追加をする
2015年3月24日 : tag / v0.0.1 をリリース
- 29. Q. 最新情報の集め方は?
1. Twitter で @overlast をフォロー
2. たまに #neologd を検索する
3. neologd、形態素解析器、固有表現抽
出などに対する関する不満を Twitter
上で言ってみる
- 30. まとめ:
- mecab-ipadic-NEologd は IPADIC を拡張した
mecab のシステム辞書
- 新語・固有表現などを読み仮名・原型付きで
168万組を再録(異表記な重複エントリ込)
- 最低月2回アップデート(初旬・中旬)
- Rを使ったテキストマイニングに今後必須
- 31. 今後の発展
- tag / v0.0.2 : 副詞の追加
- mecab-unidic-NEologd の生成
- 定量的な評価とその結果の発表
- 32. 参考資料
MeCab 用の新語辞書 mecab-ipadic-neologd を公開しました
- http://diary.overlasting.net/2015-03-13-1.html
日本語のREADME
- https://github.com/neologd/mecab-ipadic-neologd/blob/master/README.ja.md#
日本語で詳細な説明を書いたWiki
- https://github.com/neologd/mecab-ipadic-neologd/wiki#
解析前に行うことが望ましい文字列の正規化処理
- https://github.com/neologd/mecab-ipadic-neologd/wiki/Regexp.ja