fukui m
- 5. 自由回答文からの5段階評価推定
例) 楽天GORA自由回答文
コメント
総 合 評 価
コストパフォーマンス
スタッフ接客
コー ス/戦略性
食 事 が美味しい
設備が充実
フェアウェイが広い
距 離 が長い
コースは戦略的で面白い。スタッフの方の対応が親切丁寧。お酒が旨い。
4
4
5
4
5
2
2
2
普通のゴルフ場のつもりで行くとダメですよ。練習場の延長と思ってください。 ですが、初心者にとっては、平らだし、距離は短いし良いと思います。
4
3
5
3
3
3
3
2
初めていきましたが、プレッシャーのない広々したコースで気持ちよかったです。 午後の短時間でまわれるのがGOOD!
5
5
4
3
3
3
5
5
特徴語の抽出,評価分布
全体の評価分布
0
0.2
0.4
0.6
1
2
3
4
5
0
0.2
0.4
0.6
1
2
3
4
5
・・・
0
0.2
0.4
1
2
3
4
5
この値段 だったら良い と思います。
- 6. 予備実験
①自由回答文から頻出名詞の抽出
②頻出名詞と係り受け関係にある単語の抽出
③ ②の各組に対する5段階評価の分布
名詞
出現割合[%]
名詞
出現割合[%]
コース
41.9
ホール
5.7
グリーン
20.4
スタッフ
5.3
距離
10.9
スタート
4.6
フェアウェイ
8.4
ゴルフ
4.6
食事
7.8
バンカー
4.3
天気
7.1
感じ
4.2
ゴルフ場
7.0
対応
4.2
スコア
6.7
初心者
4.0
雨
6.2
風
3.4
最高
5.8
戦略性
3.3
ゴルフに関する名詞が上位
→評価対象を推定
例)コース
コース=良い
コース=面白い
コース=綺麗
コース=広い
コース=狭い
コース=楽しい
コース=素晴らしい
コース=整備
コース=戦略的
例)距離
→各名詞に対する評価尺度を推定
④5段階評価の評価分布
距離=短い
距離=ある
距離=長い
距離=ない
距離=長い-ない
距離=ある-ない
距離=出る-ない
距離=遠い
距離=良い
距離=近い
距離=出る
距離=適度
設問「距離が長い」
距離=短い
距離=長い
距離=出る-ない
距離=ある
0
0.2
0.4
0.6
1
2
3
4
5
0
0.2
0.4
0.6
1
2
3
4
5
0
0.2
0.4
0.6
1
2
3
4
5
0
0.2
0.4
1
2
3
4
5
→単語と評価 に関連性
0
20000
40000
60000
80000
100000
120000
140000
160000
180000
1
2
3
4
5
→全体的に肯定的評価への偏り
目的:自由回答文と5段階評価の関連性を調べる
- 7. 自由回答文からの5段階評価推定
例) 楽天GORA自由回答文
コメント
総 合 評 価
コストパフォーマンス
スタッフ接客
コー ス/戦略性
食 事 が美味しい
設備が充実
フェアウェイが広い
距 離 が長い
コースは戦略的で面白い。スタッフの方の対応が親切丁寧。お酒が旨い。
4
4
5
4
5
2
2
2
普通のゴルフ場のつもりで行くとダメですよ。練習場の延長と思ってください。 ですが、初心者にとっては、平らだし、距離は短いし良いと思います。
4
3
5
3
3
3
3
2
初めていきましたが、プレッシャーのない広々したコースで気持ちよかったです。 午後の短時間でまわれるのがGOOD!
5
5
4
3
3
3
5
5
特徴語の抽出,評価分布
全体の評価分布
0
0.2
0.4
0.6
1
2
3
4
5
0
0.2
0.4
0.6
1
2
3
4
5
・・・
0
0.2
0.4
1
2
3
4
5
この値段 だったら良い と思います。
- 8. アプローチ
自由回答文
Ⅰ.頻出名詞から各設問iの関連
名詞集合Ni={n1,n2,…,nmax}の抽出
Ⅱ.各名詞n Niの係り受け関係
={d1,d2,…,dmax}の抽出
項目i 関連名詞集合Ni={n1,n2,…,nmax}
1.コストパフォーマンス コストパフォーマンス,料金,値段,価格
2.スタッフ接客 スタッフ,対応,接客,キャディ
3.コースと戦略性 コース,戦略性
4.食事が美味しい 食事,ごはん
5.設備が充実 設備,お風呂,クラブハウス,カート,トイレ
6.フェアウェイが広い フェアウェイ
7.距離が長い 距離
Ⅲ.名詞と係り受け関係の組ごと
の評価分布 を作成
N1
料金
値段
コストパフォーマンス
価格
N2
スタッフ
対応
接客
キャディ
N7
距離
頻出名詞
短い ある
長い ない
長い-ない
ある-ない
出る-ない
遠い 良い
近い出る
良い
遅い
最高
気持ち良い
迅速
係り受け
距離=短い 距離=長い
0
0.2
0.4
0.6
1 2 3 4 5
0
0.2
0.4
0.6
1 2 3 4 5
評価分布
Ⅳ.Ⅲ以外の評価分布 を作成
0
0.2
0.4
0.6
1 2 3 4 5
距離以外
・・・
Ni
n D
N7 D距離
N 2 D対応
Ni
Dn
d P
Ni
Dn
others P
Ⅲ,Ⅳを用いて推定
- 9. レビューデータの分析
各集合ごとの評価分布作成
出現回数mi 1 2 3 4 5
距離=短い 3249 0.150 0.523 0.297 0.026 0.004
距離=ある 1482 0.005 0.072 0.227 0.466 0.231
距離=長い 785 0.008 0.052 0.192 0.327 0.420
距離=ない 300 0.100 0.473 0.400 0.023 0.003
距離=長い-ない 180 0.011 0.294 0.617 0.078 0
距離=ある-ない 161 0.050 0.422 0.472 0.043 0.012
距離=出る-ない 44 0.068 0.250 0.364 0.227 0.091
距離=遠い 41 0 0.098 0.488 0.341 0.073
距離=良い 40 0.025 0.125 0.500 0.300 0.050
距離=近い 35 0.051 0.256 0.487 0.103 0
距離=出る 26 0.038 0.192 0.385 0.269 0.115
距離以外 87228 0.018 0.135 0.548 0.248 0.050
↓5段階評価の各評価の割合
推定手法
分析用データ:10万件のレビューデータ集合
(「~ほしい」といった要望表現を含むデータは除く)
距離=短い 距離=長い
0
0.2
0.4
0.6
1 2 3 4 5
0
0.2
0.4
0.6
1 2 3 4 5
0
0.2
0.4
0.6
1 2 3 4 5
距離以外
+ + ・・・ +
0
0.5
1
1 2 3 4 5
全体の評価
・各分布を出現回数分足し合わせて合成
・距離について述べていない潜在的な分布は出現回数を0.7倍←単語と評価の関連性に重みをつける
←距離に関する係り受けが出現しない集合の
評価 を利用
単語によっては評価分布 に大きな偏り
→単語から評価の推定に利用
しかし,距離に対する係り受けの集合だけを用い
た場合,全体の評価推定に大きなずれ
Ni
Dn P短い
Ni
Dn P長い
Ni
Dn
others ×m1 P ×m2 ×mothers×0.7
Ni
Dn
d P
Ni
Dn
others P
- 10. 推定手法の評価
テスト用データ:分析用データと異なるゴルフ場20施設の各レビューデータ集合 (1つの集合は1073~2735件)
推定手順
コメント
総合評価
コストパフォーマンス
スタッフ接客
コー ス/戦略性
食 事 が美味しい
設 備 が充実
フェアウェイが広い
距 離 が長い
コースは戦略的で面白い。スタッフの方の対応が親切丁寧。お酒が旨い。
4
4
5
4
5
2
2
2
普通のゴルフ場のつもりで行くとダメですよ。練習場の延長と思ってください。 ですが、初心者にとっては、平らだし、距離は短いし良いと思います。
4
3
5
3
3
3
3
2
初めていきましたが、プレッシャーのない広々したコースで気持ちよかった です。午後の短時間でまわれるのがGOOD!
5
5
4
3
3
3
5
5
提案手法
正解分布
0
0.2
0.4
1
2
3
4
5
0
0.2
0.4
1
2
3
4
5
0
0.5
1
1
2
3
4
5
分析結果
推定
推定結果と正解分布とを比較
- 11. 結果
0
2
4
6
8
10
12
ゴルフ場20施設の推定平均値と正解平均値との誤差
~0.5 1 2 3 4 5
・推定平均値と正解平均値との誤差は全て1.0以下 ・誤差の平均は0.43
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
1
2
3
4
5
推定
正解
あるゴルフ場の推定評価値と正解評価値
コメント
久し振りに行きました。距離は長くはありませんが面白いコー スです。
カートにナビがついてより快適になりました。今の値段でオー ルシーズンやっていただけると助かるのですが。
ナビゲーションも付いていて楽にプレーが出来ました。また行き たいと思います。
・・・
0
0.1
0.2
0.3
0.4
0.5
0.6
1
2
3
4
5
あるゴルフ場集合に対する推定手法適用例