Weitere ähnliche Inhalte
Ähnlich wie TensorFlowを使ってテキストをクラス分類してみたら精度96.8%の分類器を簡単に得ることができた話 (20)
TensorFlowを使ってテキストをクラス分類してみたら精度96.8%の分類器を簡単に得ることができた話
- 7. 加藤 勇也
7
かとう ゆうや / Yuya Kato
株式会社 那由多屋
代表取締役 (2007年∼)
な ゆ た や
twitter: nayutaya
GitHub: nayutaya
Facebook: yuyakato1984
ソフトウェア開発 (2000年∼)
大分出身・神戸在住 (2006年∼)
趣味:
・ものづくり全般 (DIY、電子工作)
・3Dプリンタ (2013年∼)
・ボルダリング (2011年∼)
- 12. MNIST For ML Beginners
https://www.tensorflow.org/versions/r0.7/tutorials/mnist/beginners/index.html
12
エムニスト
- 13. どうやってテキストを入力する?
13
「This is a pen.」
テキストは可変長
入力ノード数は学習時に決定入力は実数
(画像は https://www.tensorflow.org/versions/r0.7/tutorials/mnist/beginners/index.html より引用)
- 14. 自然言語処理
• 単語の特徴化 / 文の特徴化
• 単語化
• 形態素解析
• N-gram言語モデル
14
NLP: Natural Language Processing
- 15. 単語の特徴化 - One-hot表現
15
One-hot Representation
「This is a pen.」
This This
That
The
Thou
.
.
.
.
.
.
[]
0
0
0
1
.
.
.
.
.
.
[]
辞書
辞書と
同サイズ
の
ベクトル
- 16. 文の特徴化 - Bag of Words
16
「This is a pen.」
This
is
pen
Thou
.
.
.
.
.
.
[]
a 1
1
1
1
.
.
.
.
.
.[]
0
辞書と
同サイズ
の
ベクトル
スパース(疎, スカスカ)
順序が失われる
頻度が失われる
未知語が扱えない
- 18. 形態素解析
18
名詞 助詞 名詞 助動詞 補助記号
Morphological Analysis
「本日は晴天なり。」
今回は形態素解析ライブラリ「janome」を使用
- 21. 学習データ / 評価環境
• 記事タイトル約14万件
• 鉄道: 6,321件 / その他: 131,069件
• それぞれ1,000件 (計2,000件) をテストデータとして使用
• 残りを教師データとして使用
• 学習ステップ数: 500 / ミニバッチサイズ: 100
• Amazon EC2 r3.xlarge (仮想CPU: 4, メモリ: 30.5GiB)
21
- 22. 評価結果 (1)
22
手法
前処理
時間
学習
時間
単語数
辞書
サイズ
モデル
サイズ
精度
文字
1-gram
0.2 min 2.0 min 2,553 9.8 KiB 20 KiB 96.8%
文字
2-gram
0.3 min 9.7 min 60,728 398 KiB 475 KiB 95.7%
文字
3-gram
0.4 min 15.0 min 95,537 868 KiB 747 KiB 90.3%
形態素
1-gram
9.3 min 5.2 min 16,846 135 KiB 132 KiB 95.9%
形態素
2-gram
11.6 min 10.8 min 56,686 575 KiB 443 KiB 87.1%
形態素
3-gram
10.9 min 5.8 min 33,030 430 KiB 258 KiB 72.9%
処理時間はCPU時間