Suche senden
Hochladen
Naacl2015unsupervised morph
•
1 gefällt mir
•
505 views
A
Ace12358
Folgen
首都大学東京 小町研究室 NAACL読み会2015 北川善彬 @Ace1235813
Weniger lesen
Mehr lesen
Technologie
Melden
Teilen
Melden
Teilen
1 von 18
Jetzt herunterladen
Downloaden Sie, um offline zu lesen
Empfohlen
放送大学テキスト「自然言語処理」 7章 構文の解析(1)
放送大学テキスト「自然言語処理」 7章 構文の解析(1)
Yasuhide Miura
Hangyo acl paperreading2016
Hangyo acl paperreading2016
Hangyo Masatsugu
Tefl20140722 13key
Tefl20140722 13key
youwatari
読解支援7 10
読解支援7 10
kentshioda
Graduation thesis
Graduation thesis
Roy Ray
自然言語をラムダ式で解釈する体系PTQのHaskell実装
自然言語をラムダ式で解釈する体系PTQのHaskell実装
Masahiro Sakai
Jidoushi-Tadoushi_Grammatical category
Jidoushi-Tadoushi_Grammatical category
Tomonari Kuroda
平易な表現への言い換えに必要なテキスト修正処理
平易な表現への言い換えに必要なテキスト修正処理
swenbe
Empfohlen
放送大学テキスト「自然言語処理」 7章 構文の解析(1)
放送大学テキスト「自然言語処理」 7章 構文の解析(1)
Yasuhide Miura
Hangyo acl paperreading2016
Hangyo acl paperreading2016
Hangyo Masatsugu
Tefl20140722 13key
Tefl20140722 13key
youwatari
読解支援7 10
読解支援7 10
kentshioda
Graduation thesis
Graduation thesis
Roy Ray
自然言語をラムダ式で解釈する体系PTQのHaskell実装
自然言語をラムダ式で解釈する体系PTQのHaskell実装
Masahiro Sakai
Jidoushi-Tadoushi_Grammatical category
Jidoushi-Tadoushi_Grammatical category
Tomonari Kuroda
平易な表現への言い換えに必要なテキスト修正処理
平易な表現への言い換えに必要なテキスト修正処理
swenbe
Can language models be biomedical knowledge bases
Can language models be biomedical knowledge bases
Ace12358
I know what you asked graph path learning using amr for commonsense reasoning
I know what you asked graph path learning using amr for commonsense reasoning
Ace12358
A semantics aware-transformer_model_of_relation_linking_for_knowledge_base_qu...
A semantics aware-transformer_model_of_relation_linking_for_knowledge_base_qu...
Ace12358
A semantics aware-transformer_model_of_relation_linking_for_knowledge_base_qu...
A semantics aware-transformer_model_of_relation_linking_for_knowledge_base_qu...
Ace12358
Camouflaged chinese spam_content_detection_with_semi-supervised_generative_ac...
Camouflaged chinese spam_content_detection_with_semi-supervised_generative_ac...
Ace12358
The contribution of_stylistic_information_to_content-based_mobile_spam_filtering
The contribution of_stylistic_information_to_content-based_mobile_spam_filtering
Ace12358
Dual tkb a-dual_learning_bridge_between_text_and_knowledge_base
Dual tkb a-dual_learning_bridge_between_text_and_knowledge_base
Ace12358
Knowledge_graph_alignment_with_entity-pair_embedding
Knowledge_graph_alignment_with_entity-pair_embedding
Ace12358
Low-dimensional hyperbolic knowledge graph embeddings
Low-dimensional hyperbolic knowledge graph embeddings
Ace12358
Neural relation extraction for knowledge base enrichment introduced by Yoshia...
Neural relation extraction for knowledge base enrichment introduced by Yoshia...
Ace12358
Emnl preading2016
Emnl preading2016
Ace12358
Chainer meetup lt
Chainer meetup lt
Ace12358
Emnlp2015 reading festival_lstm_cws
Emnlp2015 reading festival_lstm_cws
Ace12358
Acl reading 2nd
Acl reading 2nd
Ace12358
DeepLearning論文紹介@Ace12358
DeepLearning論文紹介@Ace12358
Ace12358
DeepLearning3@Ace12358
DeepLearning3@Ace12358
Ace12358
EMNLPreading@Ace12358
EMNLPreading@Ace12358
Ace12358
ACLreading2014@Ace12358
ACLreading2014@Ace12358
Ace12358
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
博三 太田
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
akihisamiyanaga1
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
FumieNakayama
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NTT DATA Technology & Innovation
Weitere ähnliche Inhalte
Mehr von Ace12358
Can language models be biomedical knowledge bases
Can language models be biomedical knowledge bases
Ace12358
I know what you asked graph path learning using amr for commonsense reasoning
I know what you asked graph path learning using amr for commonsense reasoning
Ace12358
A semantics aware-transformer_model_of_relation_linking_for_knowledge_base_qu...
A semantics aware-transformer_model_of_relation_linking_for_knowledge_base_qu...
Ace12358
A semantics aware-transformer_model_of_relation_linking_for_knowledge_base_qu...
A semantics aware-transformer_model_of_relation_linking_for_knowledge_base_qu...
Ace12358
Camouflaged chinese spam_content_detection_with_semi-supervised_generative_ac...
Camouflaged chinese spam_content_detection_with_semi-supervised_generative_ac...
Ace12358
The contribution of_stylistic_information_to_content-based_mobile_spam_filtering
The contribution of_stylistic_information_to_content-based_mobile_spam_filtering
Ace12358
Dual tkb a-dual_learning_bridge_between_text_and_knowledge_base
Dual tkb a-dual_learning_bridge_between_text_and_knowledge_base
Ace12358
Knowledge_graph_alignment_with_entity-pair_embedding
Knowledge_graph_alignment_with_entity-pair_embedding
Ace12358
Low-dimensional hyperbolic knowledge graph embeddings
Low-dimensional hyperbolic knowledge graph embeddings
Ace12358
Neural relation extraction for knowledge base enrichment introduced by Yoshia...
Neural relation extraction for knowledge base enrichment introduced by Yoshia...
Ace12358
Emnl preading2016
Emnl preading2016
Ace12358
Chainer meetup lt
Chainer meetup lt
Ace12358
Emnlp2015 reading festival_lstm_cws
Emnlp2015 reading festival_lstm_cws
Ace12358
Acl reading 2nd
Acl reading 2nd
Ace12358
DeepLearning論文紹介@Ace12358
DeepLearning論文紹介@Ace12358
Ace12358
DeepLearning3@Ace12358
DeepLearning3@Ace12358
Ace12358
EMNLPreading@Ace12358
EMNLPreading@Ace12358
Ace12358
ACLreading2014@Ace12358
ACLreading2014@Ace12358
Ace12358
Mehr von Ace12358
(18)
Can language models be biomedical knowledge bases
Can language models be biomedical knowledge bases
I know what you asked graph path learning using amr for commonsense reasoning
I know what you asked graph path learning using amr for commonsense reasoning
A semantics aware-transformer_model_of_relation_linking_for_knowledge_base_qu...
A semantics aware-transformer_model_of_relation_linking_for_knowledge_base_qu...
A semantics aware-transformer_model_of_relation_linking_for_knowledge_base_qu...
A semantics aware-transformer_model_of_relation_linking_for_knowledge_base_qu...
Camouflaged chinese spam_content_detection_with_semi-supervised_generative_ac...
Camouflaged chinese spam_content_detection_with_semi-supervised_generative_ac...
The contribution of_stylistic_information_to_content-based_mobile_spam_filtering
The contribution of_stylistic_information_to_content-based_mobile_spam_filtering
Dual tkb a-dual_learning_bridge_between_text_and_knowledge_base
Dual tkb a-dual_learning_bridge_between_text_and_knowledge_base
Knowledge_graph_alignment_with_entity-pair_embedding
Knowledge_graph_alignment_with_entity-pair_embedding
Low-dimensional hyperbolic knowledge graph embeddings
Low-dimensional hyperbolic knowledge graph embeddings
Neural relation extraction for knowledge base enrichment introduced by Yoshia...
Neural relation extraction for knowledge base enrichment introduced by Yoshia...
Emnl preading2016
Emnl preading2016
Chainer meetup lt
Chainer meetup lt
Emnlp2015 reading festival_lstm_cws
Emnlp2015 reading festival_lstm_cws
Acl reading 2nd
Acl reading 2nd
DeepLearning論文紹介@Ace12358
DeepLearning論文紹介@Ace12358
DeepLearning3@Ace12358
DeepLearning3@Ace12358
EMNLPreading@Ace12358
EMNLPreading@Ace12358
ACLreading2014@Ace12358
ACLreading2014@Ace12358
Kürzlich hochgeladen
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
博三 太田
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
akihisamiyanaga1
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
FumieNakayama
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NTT DATA Technology & Innovation
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
UEHARA, Tetsutaro
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
FumieNakayama
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
Hiroshi Tomioka
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
sugiuralab
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
Yuki Kikuchi
Kürzlich hochgeladen
(9)
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
Naacl2015unsupervised morph
1.
Unsupervised Morphology Induction Using
Word Embeddings NAACL2015読み会 首都大学東京 小町研究室 2015/06/24 M1 北川善彬 Radu soricut, Franz Och
2.
Abstract • Word embedding
を使って形態素の変換を見つける話 • 6個の異なる言語で改善を見せた • 例: cars car と dogs dog の関係が似ているという直感 • 有名な King = man + Queen - women の形態素verみたいな感じ • つまり cars = car + dogs - dog 2 dog dogs car cars dogs - dog dogs - dog
3.
Main contribution 1. 教師なしで形態素のルールを獲得する手法を提案 2.
ルールを知られている単語に適用する仕組みを提案 例: boldly → bold + ly とか onlyには適用しなくて 大丈夫とか 3. ルールを未知、あるいは低頻度の単語に適用する仕 組みを提案 3
4.
形態素の変換の主な流れ • 今回の論文では他の形態素の変換は考えていなくてこの2つ の主な形態素の変換を考える • 形態素の変換は4つのステージに分けて行う 1.
語彙(V)から prefix/suffix の候補を選択 2. Word embedding のトレーニング 3. 候補として出てきたルールの質を評価 4. 形態素の変換の生成 4
5.
形態素の変換の主な流れ • 今回の論文では他の形態素の変換は考えていなくてこの2つ の主な形態素の変換を考える • 形態素の変換は4つのステージに分けて行う 1.
語彙(V)から prefix/suffix の候補を選択 2. Word embedding のトレーニング 3. 候補として出てきたルールの質を評価 4. 形態素の変換の生成 5
6.
1. 語彙(V)から prefix/ suffix
の候補を選択 • 語彙から2つのペアの組みあわせを考え可能な全て のペアを候補として抽出 • 候補は type: from: to の 3つ組で考える 例: suffix: ed: ing だったら (bored,borring) • この候補の中には正しくないルールも含まれる 例: prefix: S: ε (Scream, cream), (Scope, cope) 3. 候補として出てきたルールの質を評価 で取り除く 6
7.
形態素の変換の主な流れ • 今回の論文では他の形態素の変換は考えていなくてこの2つ の主な形態素の変換を考える • 形態素の変換は4つのステージに分けて行う 1.
語彙(V)から prefix/suffix の候補を選択 2. Word embedding のトレーニング 3. 候補として出てきたルールの質を評価 4. 形態素の変換の生成 7
8.
2. Word embedding
のトレーニング • これは word2vec を使用してトレーニングしている (https:// code.google.com/p/word2vec/)(ほんのちょっと違うらしい) • 例: 入力: france これは単なるcos類似度の近い単語を探す例 8
9.
形態素の変換の主な流れ • 今回の論文では他の形態素の変換は考えていなくてこの2つ の主な形態素の変換を考える • 形態素の変換は4つのステージに分けて行う 1.
語彙(V)から prefix/suffix の候補を選択 2. Word embedding のトレーニング 3. 候補として出てきたルールの質を評価 4. 形態素の変換の生成 9
10.
3. 候補として出てきたルールの質を評価(1/2) • 候補を以下のように表現: •
ここから十分な数だけサンプリング 1000 1000個とれば prefix/suffix 変換が網羅できるのだろう • 評価関数を作成する単純に類似度をとってランクを出す関数: • それぞれの(1)のスコアが100(事前に決めた閾値)以下である率: hit rate 10
11.
3. 候補として出てきたルールの質を評価 (2/2) •
候補の評価例 • 意味のある変換は 高いhit rate 例(suffix: ed: ing) 過去/今 の意味をもつ • 意味のない変換は 低いhit rate 11
12.
形態素の変換の主な流れ • 今回の論文では他の形態素の変換は考えていなくてこの2つ の主な形態素の変換を考える • 形態素の変換は4つのステージに分けて行う 1.
語彙(V)から prefix/suffix の候補を選択 2. Word embedding のトレーニング 3. 候補として出てきたルールの質を評価 4. 形態素の変換の生成 12
13.
4. 形態素の変換の生成 • only
を on にするような変換は避けたい (hit rate 32% なら 68% は避けたい) • 2つの閾値(r, c)を使って避ける rank = 30 and cos類似度 = 0.5 13
14.
node: w, edge:
重み(r, c)で グラフを書くと • 綺麗なグラフが かける • 同じ矢印が2本あ るのは同じ変換 でも意味の違う 変換があるから (ここでは最大2 本としている) 例: 複数形の s 三単現の s
15.
ルールを作ってグラフを1:1 にマッピングすると • ルールを自分で決めるこ とで欲しいグラフができ る • 正規化へ向かう流れに近 い(もしそうな ら
create が一番下が良 い) • これはもっともよく使わ れる created へのマッ ピング 15
16.
これを使ってRare wordにア プローチ • さっき示した1:1のグラフから変換ルールの系列
sを獲得(グラフの 下から上に るようなやつ) 1. 適用できる系列 s があればそれを適用 2. 適用できる系列 s がなければ以下のようにする (d=1で事前に定義) 16 • 例: 系列が s=prefix : un : ε, suffix : ness : ε なら unassertiveness → assertive. s
17.
Results(6言語で比較) • SG: skip-gram
SG+morph: 提案手法 • LSM2013, BB2014: 先行研究 • DEのZGテストセットを除くすべてのテストセットで提案手法が優 位 17
18.
Conclusion • 教師なしで形態素を見つける手法を提案した • 必要なのは単言語のコーパスのみ(word embedding
の学習のため) • 提案手法で多様な language family を発見できた • スタンフォードのリッチなのRare-word dataset において stage-of-the-art の結果を改善した 18
Jetzt herunterladen