論文読み会 Enriching Word Vectors with Subword Information

•

0 gefällt mir•657 views

Kanji Takahashi

Enriching Word Vectors with Subword Information

Ingenieurwesen

Enriching Word Vectors with Subword Information
1
Piotr Bojanowski and Edouard Grave and Armand Joulin and Tomas Mikolov
, Enriching Word Vectors with Subword Information, Transactions of the
Association for Computational Linguistics, Vol.5, pp.135-146, 2017
Skip-gramモデルを改良し、形態論を考慮できるよう文字単位で学習できるようにし
た

はじめに
2
単語表現の学習はNLP分野での課題
→大規模コーパスから統計で学習でき始めている
既存のWord2Vecは1単語に対して1つのベクトル（状態）
→形態論は無視
文字情報も組み込むと、いい分散表現が学習できるのでは？

関連研究
3
形態論を使った研究
接頭辞や品詞などをモデルに組み込む
形態素から単語の表現を学習
文字ベースの研究
形態素解析や単語分割、品詞付与など成功事例が増えてきた
機械翻訳も文字単位で処理

Skip-gram
4
ある単語から周辺の単語を予測するモデル
画像はこちらから

Skip-gramから発展
5
単語予測のモデルはwt
に対してwc
のみを推定
単語がありそう・なさそうということも考慮して推定する
Nt,c
は負例（文脈にでなさそう）

文字列も考慮
6
単語を使うと、語構成など考慮しないので、別のスコア関数で文字列を考慮する
whereの例（文字3-gram）
<wh, whe, her, er, re>, <where>
スコア関数
gw
は与えられたwに対するn-gram
Zg
はn-gramに対応するベクトル

実験設定
7
様々な言語で実験を行う
データはWikipediaから（アラビア語、チェコ語、ドイツ語、英語など）
ベースライン
Word2vecパッケージのskipgramとcbow

人間による類似度との関係
8
スピアマンの順位相関係数で、人の判断と単語ベクトル表現の関係を評価
いろいろな言語のタスクを用いて評価

9
ほとんどのタスクで提案モデルsisgが良い
sisg-とsisgの比較から、文字列情報は有効であることがわかる

文字列情報が有効な例
10
ドイツ語の卓球：Tischtennis
文字列だと、’Tennis’という情報を使える
低頻度語にも有効
文字列が単語表現の学習に寄与していると考えられる

単語類推タスク
11
A is to B as C is to D（AとBの関係はCとDの関係と同様である）において、Dを予
測するタスク
Semanticには寄与しないが、Syntacticには寄与

未知語の写像
14
x軸が未知語で、赤がCosine類似度が高い
connecとlinkが高いのが面白い

まとめ
15
文字列情報も考慮したSkip-gramモデルを提案
人の類似の感じ方に近づいた
未知語に対してうまく写像できる
すごいのは、実装が公開されており爆速で学習できる

Empfohlen

Visualizing and understanding neural models in NLPNaoaki Okazaki

Multi reference training with pseudo-references for neural translation and te...ryoma yoshimura

論文紹介: Differentiable reasoning over a virtual knowledge basenaoto moriyama

会話ドメインと感情を考慮したニューラル対話モデルの構築KozoChikai

思考プログラムの単位についてKeisuke NAKAMURA

ならばTomoaki Hiramoto

深層学習を用いた文生成モデルの歴史と研究動向Shunta Ito

Twitterテキストのトピック分析Nobuyuki Kawagashira

Empfohlen

Visualizing and understanding neural models in NLPNaoaki Okazaki

Multi reference training with pseudo-references for neural translation and te...ryoma yoshimura

論文紹介: Differentiable reasoning over a virtual knowledge basenaoto moriyama

会話ドメインと感情を考慮したニューラル対話モデルの構築KozoChikai

思考プログラムの単位についてKeisuke NAKAMURA

ならばTomoaki Hiramoto

深層学習を用いた文生成モデルの歴史と研究動向Shunta Ito

Twitterテキストのトピック分析Nobuyuki Kawagashira

【DL輪読会】Non-Linguistic Supervision for Contrastive Learning of Sentence Embedd...Deep Learning JP

さくさくテキストマイニング入門セッションantibayesian 俺がS式だ

Semi supervised sequence tagging with bidirectional language models浩気西山

Segmenting Sponteneous Japanese using MDL principleYusuke Matsubara

VCWE[論文読み会]Shunta Nagasawa

Interop2017tak9029

形態素解析Works Applications

[論文紹介] Skip-Thought VectorsHiroki Shimanaka

日本語の語彙平易化システムおよび評価セットの構築Tomoyuki Kajiwara

大規模な組合せ最適化問題に対する発見的解法Shunji Umetani

第8回Language and Robotics研究会20221010_AkiraTaniguchiAkira Taniguchi

Character word lstm language models浩気西山

20180718Eightニュースフィード活性化のための自然言語処理の取り組みKanji Takahashi

論文読み会 Creating Speech and Language Data With Amazon’s Mechanical TurkKanji Takahashi

第17回Machine Learning 15 minutes!：ビジネスの出会いを科学するKanji Takahashi

論文読み会 Data Augmentation for Low-Resource Neural Machine TranslationKanji Takahashi

言語処理学会第23回年次大会参加報告Kanji Takahashi

20170203The Effects of Data Size and Frequency Range on Distributional Semant...Kanji Takahashi

20161215Neural Machine Translation of Rare Words with Subword UnitsKanji Takahashi

Enriching Morphologically Poor Languages for Statistical Machine TranslationKanji Takahashi

A Beam-Search Decoder for Normalization of Social Media Text with Application...Kanji Takahashi

Reducing the Impact of Data Sparsity in Statistical Machine TranslationKanji Takahashi

Weitere ähnliche Inhalte

Ähnlich wie 論文読み会 Enriching Word Vectors with Subword Information

【DL輪読会】Non-Linguistic Supervision for Contrastive Learning of Sentence Embedd...Deep Learning JP

さくさくテキストマイニング入門セッションantibayesian 俺がS式だ

Semi supervised sequence tagging with bidirectional language models浩気西山

Segmenting Sponteneous Japanese using MDL principleYusuke Matsubara

VCWE[論文読み会]Shunta Nagasawa

Interop2017tak9029

形態素解析Works Applications

[論文紹介] Skip-Thought VectorsHiroki Shimanaka

日本語の語彙平易化システムおよび評価セットの構築Tomoyuki Kajiwara

大規模な組合せ最適化問題に対する発見的解法Shunji Umetani

第8回Language and Robotics研究会20221010_AkiraTaniguchiAkira Taniguchi

Character word lstm language models浩気西山

Ähnlich wie 論文読み会 Enriching Word Vectors with Subword Information (12)

【DL輪読会】Non-Linguistic Supervision for Contrastive Learning of Sentence Embedd...

さくさくテキストマイニング入門セッション

Semi supervised sequence tagging with bidirectional language models

Segmenting Sponteneous Japanese using MDL principle

VCWE[論文読み会]

Interop2017

形態素解析

[論文紹介] Skip-Thought Vectors

日本語の語彙平易化システムおよび評価セットの構築

大規模な組合せ最適化問題に対する発見的解法

第8回Language and Robotics研究会20221010_AkiraTaniguchi

Character word lstm language models

Mehr von Kanji Takahashi

20180718Eightニュースフィード活性化のための自然言語処理の取り組みKanji Takahashi

論文読み会 Creating Speech and Language Data With Amazon’s Mechanical TurkKanji Takahashi

第17回Machine Learning 15 minutes!：ビジネスの出会いを科学するKanji Takahashi

論文読み会 Data Augmentation for Low-Resource Neural Machine TranslationKanji Takahashi

言語処理学会第23回年次大会参加報告Kanji Takahashi

20170203The Effects of Data Size and Frequency Range on Distributional Semant...Kanji Takahashi

20161215Neural Machine Translation of Rare Words with Subword UnitsKanji Takahashi

Enriching Morphologically Poor Languages for Statistical Machine TranslationKanji Takahashi

A Beam-Search Decoder for Normalization of Social Media Text with Application...Kanji Takahashi

Reducing the Impact of Data Sparsity in Statistical Machine TranslationKanji Takahashi

文献紹介：Morphological analysis for Statistical Machine TranslationKanji Takahashi

Distributed Representations of Words and Phrases and their CompositionallyKanji Takahashi

Nlp2016参加報告（高橋）Kanji Takahashi

Domain-spesific Paraphrase ExtractionKanji Takahashi

Vietnamese Word Segmentation with CRFs and SVMs: An InvestigationKanji Takahashi

Improving vietnamese word segmentation and pos tagging using MEM with various...Kanji Takahashi

日本語機能表現の自動検出と統計的係り受け解析への応用Kanji Takahashi

20150916How Far are We from Fully Automatic High Quality Grammatical Error Co...Kanji Takahashi

20150728So similar and yet incompatible:Toward automated identification of s...Kanji Takahashi

20150701 Improving SMT quality with morpho-syntactic analysisKanji Takahashi

Mehr von Kanji Takahashi (20)

20180718Eightニュースフィード活性化のための自然言語処理の取り組み

論文読み会 Creating Speech and Language Data With Amazon’s Mechanical Turk

第17回Machine Learning 15 minutes!：ビジネスの出会いを科学する

論文読み会 Data Augmentation for Low-Resource Neural Machine Translation

言語処理学会第23回年次大会参加報告

20170203The Effects of Data Size and Frequency Range on Distributional Semant...

20161215Neural Machine Translation of Rare Words with Subword Units

Enriching Morphologically Poor Languages for Statistical Machine Translation

A Beam-Search Decoder for Normalization of Social Media Text with Application...

Reducing the Impact of Data Sparsity in Statistical Machine Translation

文献紹介：Morphological analysis for Statistical Machine Translation

Distributed Representations of Words and Phrases and their Compositionally

Nlp2016参加報告（高橋）

Domain-spesific Paraphrase Extraction

Vietnamese Word Segmentation with CRFs and SVMs: An Investigation

Improving vietnamese word segmentation and pos tagging using MEM with various...

日本語機能表現の自動検出と統計的係り受け解析への応用

20150916How Far are We from Fully Automatic High Quality Grammatical Error Co...

20150728So similar and yet incompatible:Toward automated identification of s...

20150701 Improving SMT quality with morpho-syntactic analysis

論文読み会 Enriching Word Vectors with Subword Information

1. Sansan株式会社 R&D論文読み会(2017/11/29) Enriching Word Vectors with Subword Information Data Strategy & Operation Center, R&D Group, 高橋寛治 ※図や式は論文より引用しています。

2. Enriching Word Vectors with Subword Information 1 Piotr Bojanowski and Edouard Grave and Armand Joulin and Tomas Mikolov , Enriching Word Vectors with Subword Information, Transactions of the Association for Computational Linguistics, Vol.5, pp.135-146, 2017 Skip-gramモデルを改良し、形態論を考慮できるよう文字単位で学習できるようにした

3. はじめに 2 単語表現の学習はNLP分野での課題 →大規模コーパスから統計で学習でき始めている既存のWord2Vecは1単語に対して1つのベクトル（状態） →形態論は無視文字情報も組み込むと、いい分散表現が学習できるのでは？

5. Skip-gram 4 ある単語から周辺の単語を予測するモデル画像はこちらから

6. Skip-gramから発展 5 単語予測のモデルはwt に対してwc のみを推定単語がありそう・なさそうということも考慮して推定する Nt,c は負例（文脈にでなさそう）

7. 文字列も考慮 6 単語を使うと、語構成など考慮しないので、別のスコア関数で文字列を考慮する whereの例（文字3-gram） <wh, whe, her, er, re>, <where> スコア関数 gw は与えられたwに対するn-gram Zg はn-gramに対応するベクトル

8. 実験設定 7 様々な言語で実験を行うデータはWikipediaから（アラビア語、チェコ語、ドイツ語、英語など）ベースライン Word2vecパッケージのskipgramとcbow

9. 人間による類似度との関係 8 スピアマンの順位相関係数で、人の判断と単語ベクトル表現の関係を評価いろいろな言語のタスクを用いて評価

10. 9 ほとんどのタスクで提案モデルsisgが良い sisg-とsisgの比較から、文字列情報は有効であることがわかる

11. 文字列情報が有効な例 10 ドイツ語の卓球：Tischtennis 文字列だと、’Tennis’という情報を使える低頻度語にも有効文字列が単語表現の学習に寄与していると考えられる

12. 単語類推タスク 11 A is to B as C is to D（AとBの関係はCとDの関係と同様である）において、Dを予測するタスク Semanticには寄与しないが、Syntacticには寄与

13. コーパスサイズと性能 12

14. よく似てる単語例 13

15. 未知語の写像 14 x軸が未知語で、赤がCosine類似度が高い connecとlinkが高いのが面白い

16. まとめ 15 文字列情報も考慮したSkip-gramモデルを提案人の類似の感じ方に近づいた未知語に対してうまく写像できるすごいのは、実装が公開されており爆速で学習できる

17. 16