SlideShare ist ein Scribd-Unternehmen logo
1 von 33
Downloaden Sie, um offline zu lesen
進藤 裕之 松本 裕治
奈良先端科学技術大学院大学
2015/09/27
自然言語処理研究会(NL)
畳み込みニューラルネットワークを用いた
複単語表現の解析
背景
... in getting their money back ...
VBG
IN PRP$ NN
出力
入力(文)
... in getting their money back ...
複単語表現の同定と品詞タグ付け
get ~ back: 取り戻す
複単語表現(MWE)
トークナイズ + 品詞タグ付与
これまでの複単語表現に関する研究
個別の複単語表現のみを対象としたコーパス構築と解析
・複合名詞 [Kim and Baldwin '08]
・軽動詞構文 [Tu and Roth '11]
・句動詞の一部 [Cook et al. '08]
など
・データが小規模
・解析手法の良し悪しを互いに比較することが困難
近年の複単語表現に関する研究
複単語表現の網羅的な注釈付けと解析
・Schneiderら(2014):
Web TreebankのReview部(3812文)に複単語表現の注釈付け
・Shigetoら(2013):
Penn TreebankのWSJ部に機能語相当の複単語表現の注釈付け
ex. "according to", "as well as", "because of"
・駒井ら(2014):
OntoNotesコーパスのWSJ部に,句動詞の注釈付け
ex. "get back", "pick up", "look forward to"
本研究の対象とする複単語表現
・Schneiderら(2014):
Web TreebankのReview部(3812文)に複単語表現の注釈付け
・Shigetoら(2013):
Penn TreebankのWSJ部に機能語相当の複単語表現の注釈付け
ex. "according to", "as well as", "because of"
・駒井ら(2014):
OntoNotesコーパスのWSJ部に,句動詞の注釈付け
ex. "get back", "pick up", "look forward to"
OntoNotes: 約37000文
複単語表現の注釈: 約1400種類,12000事例
併合
日本語形態素解析との違い
複単語表現は,文中に連続して出現するとは限らない
非連続パターンを扱える解析手法が必要
... in getting their money back ...
VBG
IN PRP$ NN
従来研究の問題点
非連続パターンを扱える系列ラベリング手法 [Schneider et al. '14]
(品詞を事前に与えて,複単語表現の同定のみを行う)
素性を人手で設計する必要がある
1. capital
2. word shape
3. prefix
4. suffix
5. has digit
6. has non-alphanumeric
7. context word
8. context bigram
9. lemma
10. context POS
11. context bigram POS
etc...
有効な特徴量を発見するのはコスト大
1.様々なレベル(文字,単語,複単語)の
素性が必要
2.連続/非連続パターンの取り扱い
本研究
畳み込みニューラルネットワークを用いて,複単語表現
の解析に有効な特徴量を自動的に学習する
関連研究:
畳み込みニューラルネットワークによる単語の品詞タグ付け
[Collobert et al. '11, Santos and Zadrozny '14 ]
→ 複単語表現レベルまで拡張したものが本研究
・素性テンプレートが不要
・既存手法と同等以上の解析性能
提案手法
解析の流れ
(1) 入力文の単語列から,複単語表現の候補を検索する
(2) 各複単語表現の候補に対して,
a) 畳み込みニューラルネットワークで特徴ベクトルを計算
b) 複単語表現かどうかを判別
(3) 各トークンに対して,(2)の特徴ベクトルから品詞を判別
トークナイズと品詞推定のパイプライン処理(点推定)
トークナイズ
品詞タグ付け
解析の流れ
... in getting their money back ...
特徴ベクトル
(d次元密ベクトル) VBG
IN PRP$ NN
特徴ベクトルの計算
in getting their money back
... ... ... ...
g e t t i n gi n b a c k
... ...
... ... ... ...
getting ... back
文字
単語
複単語
畳み込み
ニューラル
ネットワーク
畳み込み
ニューラル
ネットワーク
特徴ベクトルの計算
in getting their money back
... ... ... ...
g e t t i n gi n b a c k
... ...
... ... ... ...
getting ... back
文字
単語
複単語
畳み込み
ニューラル
ネットワーク
畳み込み
ニューラル
ネットワーク
文字レベルの特徴ベクトル
g e t t i n g
Wz+b
10 dim.
窓幅:3
z
文字レベルの特徴ベクトル
g e t t i n g
Wz+b
10 dim.
窓幅:3
z
文字レベルの特徴ベクトル
g e t t i n g
... ... ... ...
10 dim.
文字レベルの特徴ベクトル
g e t t i n g
... ... ... ...
max-pooling
vchar
10 dim.
max
重要な特徴量
を抽出
文字レベルの特徴ベクトル
g e t t i n g
... ... ... ...
max-pooling
vchar
10 dim.
max
重要な特徴量
を抽出
特徴ベクトルの計算
in getting their money back
... ... ... ...
g e t t i n gi n b a c k
... ...
... ... ... ...
getting ... back
文字
単語
複単語
畳み込み
ニューラル
ネットワーク
畳み込み
ニューラル
ネットワーク
単語レベルの特徴ベクトル
in getting their money back... ... ... ...
vchar
文字ベクトルと,単語ベクトルを連結する
単語レベルの特徴ベクトル
in getting their money back... ... ... ...
vchar
vword
文字ベクトルと,単語ベクトルを連結する
特徴ベクトルの計算
in getting their money back
... ... ... ...
g e t t i n gi n b a c k
... ...
... ... ... ...
getting ... back
文字
単語
複単語
畳み込み
ニューラル
ネットワーク
畳み込み
ニューラル
ネットワーク
複単語レベルの特徴ベクトル
getting ... back
vmwe
max-pooling
in getting their money back... ... ... ...
複単語レベルの特徴ベクトル
非連続パターンの場合:
getting ... back
in getting their money back... ... ... ...
WOz+bO
WIz+bI
max-pooling
解析の流れ
... in getting their money back ...
特徴ベクトル
(d次元密ベクトル) VBG
IN PRP$ NN
特徴ベクトルの計算
in getting their money back
... ... ... ...
g e t t i n gi n b a c k
... ...
... ... ... ...
getting ... back
文字
単語
複単語
実験
実験設定
データセット
OntoNotesコーパス(約37000文)
複単語表現の注釈: 約1400種類,12000事例
学習データ: セクション02-21,テストデータ:セクション23
評価
トークンと品詞タグの完全一致基準で適合率,再現率,F値
提案モデルの学習
・クロスエントロピー損失関数
・確率的勾配法(SGD)
実験設定
提案手法の主なハイパーパラメータ
・文字ベクトル次元: 10
・単語ベクトル次元: 150
・複単語ベクトル次元: 300
・文字CNNの窓幅: 5
・単語CNNの窓幅: 5
実験設定
比較手法
1.規則ベース
if 複単語表現の候補が文中で連続 then 正例
else 負例
2.拡張BIO系列ラベリング [Schneider et al. '14]
固有表現抽出の手法を,非連続パターンを扱えるように拡張
... in getting their money back ...
O B o o I
1と2は,品詞タグを事前に与える必要がある
→ Stanford Tagger + 10-fold jack-knife法で品詞を付与
実験結果
全トークンに対する評価結果
複単語表現(2単語以上)のみの評価結果
まとめ
タスク:
複単語表現の同定と品詞タグ付け
手法:
階層的畳み込みニューラルネットワーク
文字,単語,複単語の特徴ベクトルを自動的に学習
結果:
既存手法を上回る解析精度

Weitere ähnliche Inhalte

Mehr von 奈良先端大 情報科学研究科

マイコンと機械学習を使って行動認識システムを作ろう
マイコンと機械学習を使って行動認識システムを作ろうマイコンと機械学習を使って行動認識システムを作ろう
マイコンと機械学習を使って行動認識システムを作ろう奈良先端大 情報科学研究科
 
20. 地理ビッグデータ利活用: リスク予測型自動避難誘導,地理的リスク分析
20. 地理ビッグデータ利活用: リスク予測型自動避難誘導,地理的リスク分析20. 地理ビッグデータ利活用: リスク予測型自動避難誘導,地理的リスク分析
20. 地理ビッグデータ利活用: リスク予測型自動避難誘導,地理的リスク分析奈良先端大 情報科学研究科
 
11.実装の脆弱性を利用して強力な暗号を解読してみよう!
11.実装の脆弱性を利用して強力な暗号を解読してみよう!11.実装の脆弱性を利用して強力な暗号を解読してみよう!
11.実装の脆弱性を利用して強力な暗号を解読してみよう!奈良先端大 情報科学研究科
 
16. マイコンと機械学習を使って行動認識システムを作ろう
16. マイコンと機械学習を使って行動認識システムを作ろう16. マイコンと機械学習を使って行動認識システムを作ろう
16. マイコンと機械学習を使って行動認識システムを作ろう奈良先端大 情報科学研究科
 
14. ビデオシースルーHMDで視覚拡張の世界を体感しよう
14. ビデオシースルーHMDで視覚拡張の世界を体感しよう14. ビデオシースルーHMDで視覚拡張の世界を体感しよう
14. ビデオシースルーHMDで視覚拡張の世界を体感しよう奈良先端大 情報科学研究科
 
18. 計測に基づいた写実的なコンピュータグラフィクスの生成法
18. 計測に基づいた写実的なコンピュータグラフィクスの生成法18. 計測に基づいた写実的なコンピュータグラフィクスの生成法
18. 計測に基づいた写実的なコンピュータグラフィクスの生成法奈良先端大 情報科学研究科
 
21. 人の動作・行動センシングに基づく拡張現実感システムの開発
21. 人の動作・行動センシングに基づく拡張現実感システムの開発21. 人の動作・行動センシングに基づく拡張現実感システムの開発
21. 人の動作・行動センシングに基づく拡張現実感システムの開発奈良先端大 情報科学研究科
 
20. 友好的関係を構築する人と対話ロボットのコミュニケーション技術開発
20. 友好的関係を構築する人と対話ロボットのコミュニケーション技術開発20. 友好的関係を構築する人と対話ロボットのコミュニケーション技術開発
20. 友好的関係を構築する人と対話ロボットのコミュニケーション技術開発奈良先端大 情報科学研究科
 
9. マイコンと機械学習を使って行動認識システムを作ろう
9. マイコンと機械学習を使って行動認識システムを作ろう9. マイコンと機械学習を使って行動認識システムを作ろう
9. マイコンと機械学習を使って行動認識システムを作ろう奈良先端大 情報科学研究科
 
14. モバイルエージェントによる並列分散学習システムの構築
14. モバイルエージェントによる並列分散学習システムの構築14. モバイルエージェントによる並列分散学習システムの構築
14. モバイルエージェントによる並列分散学習システムの構築奈良先端大 情報科学研究科
 

Mehr von 奈良先端大 情報科学研究科 (20)

テレコミュニケーションを支援してみよう
テレコミュニケーションを支援してみようテレコミュニケーションを支援してみよう
テレコミュニケーションを支援してみよう
 
マイコンと機械学習を使って行動認識システムを作ろう
マイコンと機械学習を使って行動認識システムを作ろうマイコンと機械学習を使って行動認識システムを作ろう
マイコンと機械学習を使って行動認識システムを作ろう
 
5G時代を支えるNFVによるネットワーク最適設計
5G時代を支えるNFVによるネットワーク最適設計5G時代を支えるNFVによるネットワーク最適設計
5G時代を支えるNFVによるネットワーク最適設計
 
21.Raspberry Piを用いたIoTアプリの開発
21.Raspberry Piを用いたIoTアプリの開発21.Raspberry Piを用いたIoTアプリの開発
21.Raspberry Piを用いたIoTアプリの開発
 
20. 地理ビッグデータ利活用: リスク予測型自動避難誘導,地理的リスク分析
20. 地理ビッグデータ利活用: リスク予測型自動避難誘導,地理的リスク分析20. 地理ビッグデータ利活用: リスク予測型自動避難誘導,地理的リスク分析
20. 地理ビッグデータ利活用: リスク予測型自動避難誘導,地理的リスク分析
 
11.実装の脆弱性を利用して強力な暗号を解読してみよう!
11.実装の脆弱性を利用して強力な暗号を解読してみよう!11.実装の脆弱性を利用して強力な暗号を解読してみよう!
11.実装の脆弱性を利用して強力な暗号を解読してみよう!
 
8. ミニ・スーパコンピュータを自作しよう!
8. ミニ・スーパコンピュータを自作しよう!8. ミニ・スーパコンピュータを自作しよう!
8. ミニ・スーパコンピュータを自作しよう!
 
16. マイコンと機械学習を使って行動認識システムを作ろう
16. マイコンと機械学習を使って行動認識システムを作ろう16. マイコンと機械学習を使って行動認識システムを作ろう
16. マイコンと機械学習を使って行動認識システムを作ろう
 
15. テレイグジスタンスシステムを制作してみよう
15. テレイグジスタンスシステムを制作してみよう15. テレイグジスタンスシステムを制作してみよう
15. テレイグジスタンスシステムを制作してみよう
 
14. ビデオシースルーHMDで視覚拡張の世界を体感しよう
14. ビデオシースルーHMDで視覚拡張の世界を体感しよう14. ビデオシースルーHMDで視覚拡張の世界を体感しよう
14. ビデオシースルーHMDで視覚拡張の世界を体感しよう
 
19. 生物に学ぶ人工知能とロボット制御
19. 生物に学ぶ人工知能とロボット制御19. 生物に学ぶ人工知能とロボット制御
19. 生物に学ぶ人工知能とロボット制御
 
13. SDRで学ぶ無線通信
13. SDRで学ぶ無線通信13. SDRで学ぶ無線通信
13. SDRで学ぶ無線通信
 
18. 計測に基づいた写実的なコンピュータグラフィクスの生成法
18. 計測に基づいた写実的なコンピュータグラフィクスの生成法18. 計測に基づいた写実的なコンピュータグラフィクスの生成法
18. 計測に基づいた写実的なコンピュータグラフィクスの生成法
 
21. 人の動作・行動センシングに基づく拡張現実感システムの開発
21. 人の動作・行動センシングに基づく拡張現実感システムの開発21. 人の動作・行動センシングに基づく拡張現実感システムの開発
21. 人の動作・行動センシングに基づく拡張現実感システムの開発
 
20. 友好的関係を構築する人と対話ロボットのコミュニケーション技術開発
20. 友好的関係を構築する人と対話ロボットのコミュニケーション技術開発20. 友好的関係を構築する人と対話ロボットのコミュニケーション技術開発
20. 友好的関係を構築する人と対話ロボットのコミュニケーション技術開発
 
9. マイコンと機械学習を使って行動認識システムを作ろう
9. マイコンと機械学習を使って行動認識システムを作ろう9. マイコンと機械学習を使って行動認識システムを作ろう
9. マイコンと機械学習を使って行動認識システムを作ろう
 
6. 生物に学ぶ人工知能とロボット制御
6. 生物に学ぶ人工知能とロボット制御6. 生物に学ぶ人工知能とロボット制御
6. 生物に学ぶ人工知能とロボット制御
 
14. モバイルエージェントによる並列分散学習システムの構築
14. モバイルエージェントによる並列分散学習システムの構築14. モバイルエージェントによる並列分散学習システムの構築
14. モバイルエージェントによる並列分散学習システムの構築
 
17. 100台の小型ロボットを協調させよう
17. 100台の小型ロボットを協調させよう17. 100台の小型ロボットを協調させよう
17. 100台の小型ロボットを協調させよう
 
5. ミニ・スーパコンピュータを自作しよう!
5. ミニ・スーパコンピュータを自作しよう!5. ミニ・スーパコンピュータを自作しよう!
5. ミニ・スーパコンピュータを自作しよう!
 

畳み込みニューラルネットワークを用いた複単語表現の解析