Weitere ähnliche Inhalte
Ähnlich wie 流行りの分散表現を用いた文書分類について Netadashi Meetup 7 (20)
Mehr von Teruyuki Sakaue (15)
Kürzlich hochgeladen (11)
流行りの分散表現を用いた文書分類について Netadashi Meetup 7
- 11. ● Word2Vec…3次元に圧縮するケース
分散表現入門
俺 の イタリアン 行っ た
1 0 0 0 0
「俺」のone-hot表現 「イタリアン」のone-hot表現
俺 の イタリアン 行っ た
0 0 1 0 0
0.1 0.9 0.1 0.01 0.01
俺 の イタリアン 行っ た
0.01 0.5 0.02 0.001 0.002
ハズレ アタリ ハズレ ハズレ ハズレ
中間層
入力層
出力層
確率
ラベル
周辺の単語、
「俺」
「イタリアン」
から
「の」を当てにいくタスク。 確率(0~1)にするための関数を適用
ここで得られる重みづけが分
散表現になる
11
- 24. ● 学習済み分散表現
・白ヤギコーポレーションのモデル:full model形式(Gensim)
→Wikipedia日本語版をコーパス
・東北大学 乾・岡崎研究室のモデル:KeyedVectors形式(Gensim)
→Wikipedia日本語版をコーパス(エンティティーなどの分散表現も推定している)
・Facebookの学習済みFastTextモデル:KeyedVectors形式(Gensim)
→Wikipediaなどをコーパス
・NWJC から取得した単語の分散表現データ (nwjc2vec):KeyedVectors形式(Gensim)
→国語研日本語ウェブコーパス
・NNLM embedding trained on Google News:TensorFlow
→Googleニュースをコーパス
公開されているものはfull model形式のものが少ない。
学習済みの分散表現の紹介
24
- 28. 実践例
28
テキストの一例
バス トイレ 別 バルコニー エアコン フローリ
ング 浴室 乾燥機 オートロック 室内 洗濯
置 システムキッチン エレベーター 宅配ボッ
クス 入居 可 最上階 バイク 置場 CS BS
テキストの文字数ヒストグラム
- 29. ● 手法など
・Scikit-learnのExtremely Randomized Treesを用いる
・特徴量は以下の3つ
・設備情報に含まれる単語ごとの分散表現を足し合わせたもの
・設備情報に含まれる単語ごとの分散表現の平均値をとったもの
・設備情報に含まれる単語ごとの分散表現をTF-IDFで重み付けしたもの
・評価指標はAUC(うまく分類できているかの指標で0.5~1の間の値)
・5分割クロスバリデーションの平均スコアを比較する
実践例
29
- 31. 実践例
31
実践例
物件情報 白ヤギ 東北大学 FastText 梵天
分散表現(平均) 0.789 0.820 0.890 0.936 0.920
分散表現(合計) 0.783 0.821 0.865 0.897 0.875
分散表現(TF-IDF) 0.779 0.829 0.903 0.945 0.926
5分割クロスバリデーションの AUCの平均値
※「物件情報」は物件情報のテキストだけで学習したもの
※※「白ヤギ」は物件情報で再学習したもの
※※※それ以外は学習済み分散表現をそのまま使っています。
- 34. ● 堅山 耀太郎(2017)「Word Embeddingモデル再訪」
● 斎藤 康毅(2018)『ゼロから作るDeep Learning ❷――自然言語処理編』
● 新納 浩幸(2017)『Chainer v2による実践深層学習』
● @Hironsan(2017)「なぜ自然言語処理にとって単語の分散表現は重要なのか?」
● リクルートテクノロジーズ(2015)「リクルート式 自然言語処理技術の適応事例紹介」
● 馬場 et al.(2015)「検索連動型広告におけるテキスト自動生成とその評価指標の検討」
● ナード戦隊データマン(2018)「Word Embeddingだけで文書分類する」
● Gensim「Why use KeyedVectors instead of a full model?」
参考文献
34