SlideShare ist ein Scribd-Unternehmen logo
1 von 18
Downloaden Sie, um offline zu lesen
Unsupervised Morphology
Induction Using Word
Embeddings
NAACL2015読み会 首都大学東京 小町研究室
2015/06/24 M1 北川善彬
Radu soricut, Franz Och
Abstract
• Word embedding を使って形態素の変換を見つける話
• 6個の異なる言語で改善を見せた
• 例: cars car と dogs dog の関係が似ているという直感
• 有名な King = man + Queen - women の形態素verみたいな感じ
• つまり cars = car + dogs - dog
2
dog
dogs
car
cars
dogs - dog dogs - dog
Main contribution
1. 教師なしで形態素のルールを獲得する手法を提案
2. ルールを知られている単語に適用する仕組みを提案

例: boldly → bold + ly とか onlyには適用しなくて
大丈夫とか
3. ルールを未知、あるいは低頻度の単語に適用する仕
組みを提案

3
形態素の変換の主な流れ
• 今回の論文では他の形態素の変換は考えていなくてこの2つ
の主な形態素の変換を考える
• 形態素の変換は4つのステージに分けて行う
1. 語彙(V)から prefix/suffix の候補を選択
2. Word embedding のトレーニング
3. 候補として出てきたルールの質を評価
4. 形態素の変換の生成
4
形態素の変換の主な流れ
• 今回の論文では他の形態素の変換は考えていなくてこの2つ
の主な形態素の変換を考える
• 形態素の変換は4つのステージに分けて行う
1. 語彙(V)から prefix/suffix の候補を選択
2. Word embedding のトレーニング
3. 候補として出てきたルールの質を評価
4. 形態素の変換の生成
5
1. 語彙(V)から prefix/
suffix の候補を選択
• 語彙から2つのペアの組みあわせを考え可能な全て
のペアを候補として抽出
• 候補は type: from: to の 3つ組で考える

例: suffix: ed: ing だったら (bored,borring)
• この候補の中には正しくないルールも含まれる

例: prefix: S: ε (Scream, cream), (Scope, cope)

3. 候補として出てきたルールの質を評価 で取り除く
6
形態素の変換の主な流れ
• 今回の論文では他の形態素の変換は考えていなくてこの2つ
の主な形態素の変換を考える
• 形態素の変換は4つのステージに分けて行う
1. 語彙(V)から prefix/suffix の候補を選択
2. Word embedding のトレーニング
3. 候補として出てきたルールの質を評価
4. 形態素の変換の生成
7
2. Word embedding のトレーニング
• これは word2vec を使用してトレーニングしている (https://
code.google.com/p/word2vec/)(ほんのちょっと違うらしい)
• 例: 入力: france これは単なるcos類似度の近い単語を探す例
8
形態素の変換の主な流れ
• 今回の論文では他の形態素の変換は考えていなくてこの2つ
の主な形態素の変換を考える
• 形態素の変換は4つのステージに分けて行う
1. 語彙(V)から prefix/suffix の候補を選択
2. Word embedding のトレーニング
3. 候補として出てきたルールの質を評価
4. 形態素の変換の生成
9
3. 候補として出てきたルールの質を評価(1/2)
• 候補を以下のように表現:
• ここから十分な数だけサンプリング 1000

1000個とれば prefix/suffix 変換が網羅できるのだろう
• 評価関数を作成する単純に類似度をとってランクを出す関数:
• それぞれの(1)のスコアが100(事前に決めた閾値)以下である率: hit rate
10
3. 候補として出てきたルールの質を評価 (2/2)
• 候補の評価例
• 意味のある変換は

高いhit rate

例(suffix: ed: ing)

過去/今 の意味をもつ
• 意味のない変換は

低いhit rate
11
形態素の変換の主な流れ
• 今回の論文では他の形態素の変換は考えていなくてこの2つ
の主な形態素の変換を考える
• 形態素の変換は4つのステージに分けて行う
1. 語彙(V)から prefix/suffix の候補を選択
2. Word embedding のトレーニング
3. 候補として出てきたルールの質を評価
4. 形態素の変換の生成
12
4. 形態素の変換の生成
• only を on にするような変換は避けたい

(hit rate 32% なら 68% は避けたい)
• 2つの閾値(r, c)を使って避ける

rank = 30 and cos類似度 = 0.5
13
node: w, edge: 重み(r, c)で
グラフを書くと
• 綺麗なグラフが
かける
• 同じ矢印が2本あ
るのは同じ変換
でも意味の違う
変換があるから
(ここでは最大2
本としている)

例: 

複数形の s 

三単現の s
ルールを作ってグラフを1:1
にマッピングすると
• ルールを自分で決めるこ
とで欲しいグラフができ
る
• 正規化へ向かう流れに近
い(もしそうな
ら create が一番下が良
い)
• これはもっともよく使わ
れる created へのマッ
ピング
15
これを使ってRare wordにア
プローチ
• さっき示した1:1のグラフから変換ルールの系列 sを獲得(グラフの
下から上に るようなやつ)
1. 適用できる系列 s があればそれを適用
2. 適用できる系列 s がなければ以下のようにする (d=1で事前に定義)
16
• 例: 系列が s=prefix : un : ε, suffix : ness : ε なら

unassertiveness → assertive.
s
Results(6言語で比較)
• SG: skip-gram SG+morph: 提案手法
• LSM2013, BB2014: 先行研究
• DEのZGテストセットを除くすべてのテストセットで提案手法が優
位
17
Conclusion
• 教師なしで形態素を見つける手法を提案した
• 必要なのは単言語のコーパスのみ(word
embedding の学習のため)
• 提案手法で多様な language family を発見できた
• スタンフォードのリッチなのRare-word dataset
において stage-of-the-art の結果を改善した
18

Weitere ähnliche Inhalte

Mehr von Ace12358

Can language models be biomedical knowledge bases
Can language models be biomedical knowledge basesCan language models be biomedical knowledge bases
Can language models be biomedical knowledge basesAce12358
 
I know what you asked graph path learning using amr for commonsense reasoning
I know what you asked  graph path learning using amr for commonsense reasoningI know what you asked  graph path learning using amr for commonsense reasoning
I know what you asked graph path learning using amr for commonsense reasoningAce12358
 
A semantics aware-transformer_model_of_relation_linking_for_knowledge_base_qu...
A semantics aware-transformer_model_of_relation_linking_for_knowledge_base_qu...A semantics aware-transformer_model_of_relation_linking_for_knowledge_base_qu...
A semantics aware-transformer_model_of_relation_linking_for_knowledge_base_qu...Ace12358
 
A semantics aware-transformer_model_of_relation_linking_for_knowledge_base_qu...
A semantics aware-transformer_model_of_relation_linking_for_knowledge_base_qu...A semantics aware-transformer_model_of_relation_linking_for_knowledge_base_qu...
A semantics aware-transformer_model_of_relation_linking_for_knowledge_base_qu...Ace12358
 
Camouflaged chinese spam_content_detection_with_semi-supervised_generative_ac...
Camouflaged chinese spam_content_detection_with_semi-supervised_generative_ac...Camouflaged chinese spam_content_detection_with_semi-supervised_generative_ac...
Camouflaged chinese spam_content_detection_with_semi-supervised_generative_ac...Ace12358
 
The contribution of_stylistic_information_to_content-based_mobile_spam_filtering
The contribution of_stylistic_information_to_content-based_mobile_spam_filteringThe contribution of_stylistic_information_to_content-based_mobile_spam_filtering
The contribution of_stylistic_information_to_content-based_mobile_spam_filteringAce12358
 
Dual tkb a-dual_learning_bridge_between_text_and_knowledge_base
Dual tkb  a-dual_learning_bridge_between_text_and_knowledge_baseDual tkb  a-dual_learning_bridge_between_text_and_knowledge_base
Dual tkb a-dual_learning_bridge_between_text_and_knowledge_baseAce12358
 
Knowledge_graph_alignment_with_entity-pair_embedding
Knowledge_graph_alignment_with_entity-pair_embeddingKnowledge_graph_alignment_with_entity-pair_embedding
Knowledge_graph_alignment_with_entity-pair_embeddingAce12358
 
Low-dimensional hyperbolic knowledge graph embeddings
Low-dimensional hyperbolic knowledge graph embeddingsLow-dimensional hyperbolic knowledge graph embeddings
Low-dimensional hyperbolic knowledge graph embeddingsAce12358
 
Neural relation extraction for knowledge base enrichment introduced by Yoshia...
Neural relation extraction for knowledge base enrichment introduced by Yoshia...Neural relation extraction for knowledge base enrichment introduced by Yoshia...
Neural relation extraction for knowledge base enrichment introduced by Yoshia...Ace12358
 
Emnl preading2016
Emnl preading2016Emnl preading2016
Emnl preading2016Ace12358
 
Chainer meetup lt
Chainer meetup ltChainer meetup lt
Chainer meetup ltAce12358
 
Emnlp2015 reading festival_lstm_cws
Emnlp2015 reading festival_lstm_cwsEmnlp2015 reading festival_lstm_cws
Emnlp2015 reading festival_lstm_cwsAce12358
 
Acl reading 2nd
Acl reading 2ndAcl reading 2nd
Acl reading 2ndAce12358
 
DeepLearning論文紹介@Ace12358
DeepLearning論文紹介@Ace12358DeepLearning論文紹介@Ace12358
DeepLearning論文紹介@Ace12358Ace12358
 
DeepLearning3@Ace12358
DeepLearning3@Ace12358DeepLearning3@Ace12358
DeepLearning3@Ace12358Ace12358
 
EMNLPreading@Ace12358
EMNLPreading@Ace12358 EMNLPreading@Ace12358
EMNLPreading@Ace12358 Ace12358
 
ACLreading2014@Ace12358
ACLreading2014@Ace12358ACLreading2014@Ace12358
ACLreading2014@Ace12358Ace12358
 

Mehr von Ace12358 (18)

Can language models be biomedical knowledge bases
Can language models be biomedical knowledge basesCan language models be biomedical knowledge bases
Can language models be biomedical knowledge bases
 
I know what you asked graph path learning using amr for commonsense reasoning
I know what you asked  graph path learning using amr for commonsense reasoningI know what you asked  graph path learning using amr for commonsense reasoning
I know what you asked graph path learning using amr for commonsense reasoning
 
A semantics aware-transformer_model_of_relation_linking_for_knowledge_base_qu...
A semantics aware-transformer_model_of_relation_linking_for_knowledge_base_qu...A semantics aware-transformer_model_of_relation_linking_for_knowledge_base_qu...
A semantics aware-transformer_model_of_relation_linking_for_knowledge_base_qu...
 
A semantics aware-transformer_model_of_relation_linking_for_knowledge_base_qu...
A semantics aware-transformer_model_of_relation_linking_for_knowledge_base_qu...A semantics aware-transformer_model_of_relation_linking_for_knowledge_base_qu...
A semantics aware-transformer_model_of_relation_linking_for_knowledge_base_qu...
 
Camouflaged chinese spam_content_detection_with_semi-supervised_generative_ac...
Camouflaged chinese spam_content_detection_with_semi-supervised_generative_ac...Camouflaged chinese spam_content_detection_with_semi-supervised_generative_ac...
Camouflaged chinese spam_content_detection_with_semi-supervised_generative_ac...
 
The contribution of_stylistic_information_to_content-based_mobile_spam_filtering
The contribution of_stylistic_information_to_content-based_mobile_spam_filteringThe contribution of_stylistic_information_to_content-based_mobile_spam_filtering
The contribution of_stylistic_information_to_content-based_mobile_spam_filtering
 
Dual tkb a-dual_learning_bridge_between_text_and_knowledge_base
Dual tkb  a-dual_learning_bridge_between_text_and_knowledge_baseDual tkb  a-dual_learning_bridge_between_text_and_knowledge_base
Dual tkb a-dual_learning_bridge_between_text_and_knowledge_base
 
Knowledge_graph_alignment_with_entity-pair_embedding
Knowledge_graph_alignment_with_entity-pair_embeddingKnowledge_graph_alignment_with_entity-pair_embedding
Knowledge_graph_alignment_with_entity-pair_embedding
 
Low-dimensional hyperbolic knowledge graph embeddings
Low-dimensional hyperbolic knowledge graph embeddingsLow-dimensional hyperbolic knowledge graph embeddings
Low-dimensional hyperbolic knowledge graph embeddings
 
Neural relation extraction for knowledge base enrichment introduced by Yoshia...
Neural relation extraction for knowledge base enrichment introduced by Yoshia...Neural relation extraction for knowledge base enrichment introduced by Yoshia...
Neural relation extraction for knowledge base enrichment introduced by Yoshia...
 
Emnl preading2016
Emnl preading2016Emnl preading2016
Emnl preading2016
 
Chainer meetup lt
Chainer meetup ltChainer meetup lt
Chainer meetup lt
 
Emnlp2015 reading festival_lstm_cws
Emnlp2015 reading festival_lstm_cwsEmnlp2015 reading festival_lstm_cws
Emnlp2015 reading festival_lstm_cws
 
Acl reading 2nd
Acl reading 2ndAcl reading 2nd
Acl reading 2nd
 
DeepLearning論文紹介@Ace12358
DeepLearning論文紹介@Ace12358DeepLearning論文紹介@Ace12358
DeepLearning論文紹介@Ace12358
 
DeepLearning3@Ace12358
DeepLearning3@Ace12358DeepLearning3@Ace12358
DeepLearning3@Ace12358
 
EMNLPreading@Ace12358
EMNLPreading@Ace12358 EMNLPreading@Ace12358
EMNLPreading@Ace12358
 
ACLreading2014@Ace12358
ACLreading2014@Ace12358ACLreading2014@Ace12358
ACLreading2014@Ace12358
 

Kürzlich hochgeladen

モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?akihisamiyanaga1
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NTT DATA Technology & Innovation
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)Hiroshi Tomioka
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案sugiuralab
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi
 

Kürzlich hochgeladen (9)

モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
 

Naacl2015unsupervised morph