More Related Content
Similar to QnA Makerを使ったFAQチャットボットの検証 (20)
QnA Makerを使ったFAQチャットボットの検証
- 22. 21
3. 分かち書きにしたテキストに以下の加工を行う
同じ意味として認識してほしいのに、言葉の揺らぎにより別単語となってしまっている単語を置き換える
① 類義語・略語 を統一する 例:O365 → Office365
② 同義語辞書(漢字送り仮名) を統一する 例:買い方、買いかた → 買い方
③ 修飾詞・動詞などの活用形 を基本活用に統一する 例:できますか → できる ます か
分類するために、不要な単語を除去する
① ストップワード(除外ワード)辞書 に登録した単語を除去する 例:あのね、あー → (除去)
4.質問文の全ての単語の辞書を作る
Word,Index
office 365,1
excel,2
って,3
どう,4
やる,5
買える,6
買う,7
方法,8
word,9
~
~
o,25
subscription,26
書く,27
いる,28
教える,29
単語単位に番号を1から採番する。
単語の重複は無くす。
3-1.
- 23. 223-1.
5. CNTK用の学習データを作る
0 |# office |Word 1:1 |Label 1:1
0 |# 365 |Word 2:1
0 |# って |Word 3:1
0 |# どう |Word 4:1
0 |# やる |Word 5:1
0 |# 買える |Word 6:1
1 |# office |Word 1:1 |Label 1:1
1 |# 365 |Word 2:1
1 |# 買う |Word 7:1
1 |# 方法 |Word 8:1
2 |# excel |Word 9:1 |Label 2:1
2 |# だけ |Word 10:1
2 |# 買う |Word 7:1
2 |# こと |Word 11:1
2 |# できる |Word 12:1
2 |# ます |Word 13:1
2 |# か |Word 14:1
3 |# excel |Word 9:1 |Label 2:1
3 |# 単体 |Word 15:1
3 |# 買う |Word 7:1
3 |# こと |Word 11:1
3 |# 可能 |Word 16:1
Sparse形式のフォーマット。
左端の番号が文章単位の番号。
Wordが単語辞書での番号。
Labelがラベル番号(回答番号) 。
#の部分はコメント
質問
番号
コメン
ト
単語
番号
回答番
号
- 24. 23
6. 学習させる直前の単語の扱い(実際の格納方法ではなくイメージ)
• ※RNNアルゴリズムでは単語がでてきた順番も考慮される。
7. テストデータも学習データと同様に2~5の加工をして、学習済みデータモデルで予測す
る
元の文章 回答番号
1桁目
(Office)
2桁目
(365)
3桁目
(って)
4桁目
(どう)
5桁目
(やる)
6桁目
(買える)
7桁目
(excel)
8桁目
(を)
9桁目
(買う)
10桁目
(こと)
11桁目
(だけ)
12桁目
(できる)
13桁目
(ます)
14桁目
(方法)
15桁目
(か)
・・・
Office365ってどうやったら
買えるの?
1 1 2 3 4 5 6 0 0 0 0 0 0 0 0 0 ・・・
Office365を買う方法 1 1 2 0 0 0 0 0 3 4 0 0 0 0 5 0 ・・・
Excelだけを買うことできま
すか?
2 0 0 0 0 0 0 1 3 4 5 2 6 7 0 8 ・・・
・・・
3-1.
回答番号:1 数字:123456000000000・・・
回答番号:1 数字:120000034000050・・・
回答番号:2 数字:000000134526708・・・
…
自然言語の文章を数値に変換し、回答番号と
のペアを作る。
これで自然言語が数字に代わり、機械が扱え
るようになりました。