SlideShare ist ein Scribd-Unternehmen logo
1 von 12
Downloaden Sie, um offline zu lesen
レビューデータに基づく格付け 生成に関する研究 
複合情報学専攻 調和系工学研究室 
修士2年 福井知子
背景 
膨大な量の自由回答文(クチコミ,ブログ等)が存在,その数は今後も増加 
レストランA 
味 
雰囲気 
サービス 
料金 
アクセス 
・大規模データの集約 
・複数の対象を相対評価 
宿泊施設,レストラン等のクチコミが多数集まるサイト等での利用 
調べたい対象についての全ての文章を読むのは困難 
→その評価を直感的にわかりやすく提示することが重要
目的 
自由回答文からある設問に対する5段階評価を推定する 
1.分析用データを用意し,自由回答文と5段階評価の関連性を分析 
2.自由回答文から5段階評価の推定手法を検討 
3.評価用データを用意し,推定手法に基づき5段階評価の推定 
推定手法構築に向けたアプローチ 
コストパフォーマンス 
安いのに設備 もキレイで良 かったです! 
平日の料金は 格安! 
この値段だっ たら良いと思 います。
対象とするレビューデータ 
楽天GORAにクチコミとして投稿されたレビューデータ約24万件 
ゴルフ場予約サイト(http://gora.golf.rakuten.co.jp/) 
タイトル 
コメント 
例) 
レビューデータ1件の構成 
・自由回答文(タイトル,コメント) 
・8項目の5段階評価 
・その他詳細情報
自由回答文からの5段階評価推定 
例) 楽天GORA自由回答文 
コメント 
総 合 評 価 
コストパフォーマンス 
スタッフ接客 
コー ス/戦略性 
食 事 が美味しい 
設備が充実 
フェアウェイが広い 
距 離 が長い 
コースは戦略的で面白い。スタッフの方の対応が親切丁寧。お酒が旨い。 
4 
4 
5 
4 
5 
2 
2 
2 
普通のゴルフ場のつもりで行くとダメですよ。練習場の延長と思ってください。 ですが、初心者にとっては、平らだし、距離は短いし良いと思います。 
4 
3 
5 
3 
3 
3 
3 
2 
初めていきましたが、プレッシャーのない広々したコースで気持ちよかったです。 午後の短時間でまわれるのがGOOD! 
5 
5 
4 
3 
3 
3 
5 
5 
特徴語の抽出,評価分布 
全体の評価分布 
0 
0.2 
0.4 
0.6 
1 
2 
3 
4 
5 
0 
0.2 
0.4 
0.6 
1 
2 
3 
4 
5 
・・・ 
0 
0.2 
0.4 
1 
2 
3 
4 
5 
この値段 だったら良い と思います。
予備実験 
①自由回答文から頻出名詞の抽出 
②頻出名詞と係り受け関係にある単語の抽出 
③ ②の各組に対する5段階評価の分布 
名詞 
出現割合[%] 
名詞 
出現割合[%] 
コース 
41.9 
ホール 
5.7 
グリーン 
20.4 
スタッフ 
5.3 
距離 
10.9 
スタート 
4.6 
フェアウェイ 
8.4 
ゴルフ 
4.6 
食事 
7.8 
バンカー 
4.3 
天気 
7.1 
感じ 
4.2 
ゴルフ場 
7.0 
対応 
4.2 
スコア 
6.7 
初心者 
4.0 
雨 
6.2 
風 
3.4 
最高 
5.8 
戦略性 
3.3 
ゴルフに関する名詞が上位 
→評価対象を推定 
例)コース 
コース=良い 
コース=面白い 
コース=綺麗 
コース=広い 
コース=狭い 
コース=楽しい 
コース=素晴らしい 
コース=整備 
コース=戦略的 
例)距離 
→各名詞に対する評価尺度を推定 
④5段階評価の評価分布 
距離=短い 
距離=ある 
距離=長い 
距離=ない 
距離=長い-ない 
距離=ある-ない 
距離=出る-ない 
距離=遠い 
距離=良い 
距離=近い 
距離=出る 
距離=適度 
設問「距離が長い」 
距離=短い 
距離=長い 
距離=出る-ない 
距離=ある 
0 
0.2 
0.4 
0.6 
1 
2 
3 
4 
5 
0 
0.2 
0.4 
0.6 
1 
2 
3 
4 
5 
0 
0.2 
0.4 
0.6 
1 
2 
3 
4 
5 
0 
0.2 
0.4 
1 
2 
3 
4 
5 
→単語と評価 に関連性 
0 
20000 
40000 
60000 
80000 
100000 
120000 
140000 
160000 
180000 
1 
2 
3 
4 
5 
→全体的に肯定的評価への偏り 
目的:自由回答文と5段階評価の関連性を調べる
自由回答文からの5段階評価推定 
例) 楽天GORA自由回答文 
コメント 
総 合 評 価 
コストパフォーマンス 
スタッフ接客 
コー ス/戦略性 
食 事 が美味しい 
設備が充実 
フェアウェイが広い 
距 離 が長い 
コースは戦略的で面白い。スタッフの方の対応が親切丁寧。お酒が旨い。 
4 
4 
5 
4 
5 
2 
2 
2 
普通のゴルフ場のつもりで行くとダメですよ。練習場の延長と思ってください。 ですが、初心者にとっては、平らだし、距離は短いし良いと思います。 
4 
3 
5 
3 
3 
3 
3 
2 
初めていきましたが、プレッシャーのない広々したコースで気持ちよかったです。 午後の短時間でまわれるのがGOOD! 
5 
5 
4 
3 
3 
3 
5 
5 
特徴語の抽出,評価分布 
全体の評価分布 
0 
0.2 
0.4 
0.6 
1 
2 
3 
4 
5 
0 
0.2 
0.4 
0.6 
1 
2 
3 
4 
5 
・・・ 
0 
0.2 
0.4 
1 
2 
3 
4 
5 
この値段 だったら良い と思います。
アプローチ 
自由回答文 
Ⅰ.頻出名詞から各設問iの関連 
名詞集合Ni={n1,n2,…,nmax}の抽出 
Ⅱ.各名詞n Niの係り受け関係 
={d1,d2,…,dmax}の抽出 
項目i 関連名詞集合Ni={n1,n2,…,nmax} 
1.コストパフォーマンス コストパフォーマンス,料金,値段,価格 
2.スタッフ接客 スタッフ,対応,接客,キャディ 
3.コースと戦略性 コース,戦略性 
4.食事が美味しい 食事,ごはん 
5.設備が充実 設備,お風呂,クラブハウス,カート,トイレ 
6.フェアウェイが広い フェアウェイ 
7.距離が長い 距離 
Ⅲ.名詞と係り受け関係の組ごと 
の評価分布 を作成 
N1 
料金 
値段 
コストパフォーマンス 
価格 
N2 
スタッフ 
対応 
接客 
キャディ 
N7 
距離 
頻出名詞 
短い ある 
長い ない 
長い-ない 
ある-ない 
出る-ない 
遠い 良い 
近い出る 
良い 
遅い 
最高 
気持ち良い 
迅速 
係り受け 
距離=短い 距離=長い 
0 
0.2 
0.4 
0.6 
1 2 3 4 5 
0 
0.2 
0.4 
0.6 
1 2 3 4 5 
評価分布 
Ⅳ.Ⅲ以外の評価分布 を作成 
0 
0.2 
0.4 
0.6 
1 2 3 4 5 
距離以外 
・・・ 
 
Ni 
n D 
N7 D距離 
N 2 D対応 
Ni 
Dn 
d P 
Ni 
Dn 
others P 
Ⅲ,Ⅳを用いて推定
レビューデータの分析 
各集合ごとの評価分布作成 
出現回数mi 1 2 3 4 5 
距離=短い 3249 0.150 0.523 0.297 0.026 0.004 
距離=ある 1482 0.005 0.072 0.227 0.466 0.231 
距離=長い 785 0.008 0.052 0.192 0.327 0.420 
距離=ない 300 0.100 0.473 0.400 0.023 0.003 
距離=長い-ない 180 0.011 0.294 0.617 0.078 0 
距離=ある-ない 161 0.050 0.422 0.472 0.043 0.012 
距離=出る-ない 44 0.068 0.250 0.364 0.227 0.091 
距離=遠い 41 0 0.098 0.488 0.341 0.073 
距離=良い 40 0.025 0.125 0.500 0.300 0.050 
距離=近い 35 0.051 0.256 0.487 0.103 0 
距離=出る 26 0.038 0.192 0.385 0.269 0.115 
距離以外 87228 0.018 0.135 0.548 0.248 0.050 
↓5段階評価の各評価の割合 
推定手法 
分析用データ:10万件のレビューデータ集合 
(「~ほしい」といった要望表現を含むデータは除く) 
距離=短い 距離=長い 
0 
0.2 
0.4 
0.6 
1 2 3 4 5 
0 
0.2 
0.4 
0.6 
1 2 3 4 5 
0 
0.2 
0.4 
0.6 
1 2 3 4 5 
距離以外 
+ + ・・・ + 
0 
0.5 
1 
1 2 3 4 5 
全体の評価 
・各分布を出現回数分足し合わせて合成 
・距離について述べていない潜在的な分布は出現回数を0.7倍←単語と評価の関連性に重みをつける 
←距離に関する係り受けが出現しない集合の 
評価 を利用 
単語によっては評価分布 に大きな偏り 
→単語から評価の推定に利用 
しかし,距離に対する係り受けの集合だけを用い 
た場合,全体の評価推定に大きなずれ 
Ni 
Dn P短い 
Ni 
Dn P長い 
Ni 
Dn 
others ×m1 P ×m2 ×mothers×0.7 
Ni 
Dn 
d P 
Ni 
Dn 
others P
推定手法の評価 
テスト用データ:分析用データと異なるゴルフ場20施設の各レビューデータ集合 (1つの集合は1073~2735件) 
推定手順 
コメント 
総合評価 
コストパフォーマンス 
スタッフ接客 
コー ス/戦略性 
食 事 が美味しい 
設 備 が充実 
フェアウェイが広い 
距 離 が長い 
コースは戦略的で面白い。スタッフの方の対応が親切丁寧。お酒が旨い。 
4 
4 
5 
4 
5 
2 
2 
2 
普通のゴルフ場のつもりで行くとダメですよ。練習場の延長と思ってください。 ですが、初心者にとっては、平らだし、距離は短いし良いと思います。 
4 
3 
5 
3 
3 
3 
3 
2 
初めていきましたが、プレッシャーのない広々したコースで気持ちよかった です。午後の短時間でまわれるのがGOOD! 
5 
5 
4 
3 
3 
3 
5 
5 
提案手法 
正解分布 
0 
0.2 
0.4 
1 
2 
3 
4 
5 
0 
0.2 
0.4 
1 
2 
3 
4 
5 
0 
0.5 
1 
1 
2 
3 
4 
5 
分析結果 
推定 
推定結果と正解分布とを比較
結果 
0 
2 
4 
6 
8 
10 
12 
ゴルフ場20施設の推定平均値と正解平均値との誤差 
~0.5 1 2 3 4 5 
・推定平均値と正解平均値との誤差は全て1.0以下 ・誤差の平均は0.43 
0 
0.1 
0.2 
0.3 
0.4 
0.5 
0.6 
0.7 
1 
2 
3 
4 
5 
推定 
正解 
あるゴルフ場の推定評価値と正解評価値 
コメント 
久し振りに行きました。距離は長くはありませんが面白いコー スです。 
カートにナビがついてより快適になりました。今の値段でオー ルシーズンやっていただけると助かるのですが。 
ナビゲーションも付いていて楽にプレーが出来ました。また行き たいと思います。 
・・・ 
0 
0.1 
0.2 
0.3 
0.4 
0.5 
0.6 
1 
2 
3 
4 
5 
あるゴルフ場集合に対する推定手法適用例
まとめ 
自由回答文と5段階評価の関連性を分析し推定手法を提案した 
未知のデータに対して推定手法を適用し5段階評価を推定した 
研究業績 
国内学会発表2件 
本研究は,楽天株式会社よりレビューデータおよび株式会社日立東日本ソリューションズより分析ツール の提供を受けております.

Weitere ähnliche Inhalte

Andere mochten auch (20)

nakano b
nakano bnakano b
nakano b
 
tsuji m
tsuji mtsuji m
tsuji m
 
kobayashi b
kobayashi bkobayashi b
kobayashi b
 
matsuo m
matsuo mmatsuo m
matsuo m
 
yamagata m
yamagata myamagata m
yamagata m
 
hayasaka b
hayasaka bhayasaka b
hayasaka b
 
takahasi m
takahasi mtakahasi m
takahasi m
 
okuyama b
okuyama bokuyama b
okuyama b
 
mori b
mori bmori b
mori b
 
kikuchi_b
kikuchi_bkikuchi_b
kikuchi_b
 
segawa_b
segawa_bsegawa_b
segawa_b
 
yamauchi b
yamauchi byamauchi b
yamauchi b
 
fukui b
fukui bfukui b
fukui b
 
teranishi m
teranishi mteranishi m
teranishi m
 
kin_m
kin_mkin_m
kin_m
 
touya m
touya mtouya m
touya m
 
touya b
touya btouya b
touya b
 
tsuji b
tsuji btsuji b
tsuji b
 
sugawara m
sugawara msugawara m
sugawara m
 
PowerPointで図形の合成
PowerPointで図形の合成PowerPointで図形の合成
PowerPointで図形の合成
 

Mehr von harmonylab

【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
harmonylab
 
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
harmonylab
 
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
harmonylab
 

Mehr von harmonylab (20)

【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
 
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
 
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
 
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
 
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
 
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
 
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile BackboneDLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
 
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat ModelsDLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
 
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
Voyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language ModelsVoyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language Models
 
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose EstimationDLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
 
ReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language ModelsReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language Models
 
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
 
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
 
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
 
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
 
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
 
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
 
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
 
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
 

fukui m

  • 2. 背景 膨大な量の自由回答文(クチコミ,ブログ等)が存在,その数は今後も増加 レストランA 味 雰囲気 サービス 料金 アクセス ・大規模データの集約 ・複数の対象を相対評価 宿泊施設,レストラン等のクチコミが多数集まるサイト等での利用 調べたい対象についての全ての文章を読むのは困難 →その評価を直感的にわかりやすく提示することが重要
  • 3. 目的 自由回答文からある設問に対する5段階評価を推定する 1.分析用データを用意し,自由回答文と5段階評価の関連性を分析 2.自由回答文から5段階評価の推定手法を検討 3.評価用データを用意し,推定手法に基づき5段階評価の推定 推定手法構築に向けたアプローチ コストパフォーマンス 安いのに設備 もキレイで良 かったです! 平日の料金は 格安! この値段だっ たら良いと思 います。
  • 4. 対象とするレビューデータ 楽天GORAにクチコミとして投稿されたレビューデータ約24万件 ゴルフ場予約サイト(http://gora.golf.rakuten.co.jp/) タイトル コメント 例) レビューデータ1件の構成 ・自由回答文(タイトル,コメント) ・8項目の5段階評価 ・その他詳細情報
  • 5. 自由回答文からの5段階評価推定 例) 楽天GORA自由回答文 コメント 総 合 評 価 コストパフォーマンス スタッフ接客 コー ス/戦略性 食 事 が美味しい 設備が充実 フェアウェイが広い 距 離 が長い コースは戦略的で面白い。スタッフの方の対応が親切丁寧。お酒が旨い。 4 4 5 4 5 2 2 2 普通のゴルフ場のつもりで行くとダメですよ。練習場の延長と思ってください。 ですが、初心者にとっては、平らだし、距離は短いし良いと思います。 4 3 5 3 3 3 3 2 初めていきましたが、プレッシャーのない広々したコースで気持ちよかったです。 午後の短時間でまわれるのがGOOD! 5 5 4 3 3 3 5 5 特徴語の抽出,評価分布 全体の評価分布 0 0.2 0.4 0.6 1 2 3 4 5 0 0.2 0.4 0.6 1 2 3 4 5 ・・・ 0 0.2 0.4 1 2 3 4 5 この値段 だったら良い と思います。
  • 6. 予備実験 ①自由回答文から頻出名詞の抽出 ②頻出名詞と係り受け関係にある単語の抽出 ③ ②の各組に対する5段階評価の分布 名詞 出現割合[%] 名詞 出現割合[%] コース 41.9 ホール 5.7 グリーン 20.4 スタッフ 5.3 距離 10.9 スタート 4.6 フェアウェイ 8.4 ゴルフ 4.6 食事 7.8 バンカー 4.3 天気 7.1 感じ 4.2 ゴルフ場 7.0 対応 4.2 スコア 6.7 初心者 4.0 雨 6.2 風 3.4 最高 5.8 戦略性 3.3 ゴルフに関する名詞が上位 →評価対象を推定 例)コース コース=良い コース=面白い コース=綺麗 コース=広い コース=狭い コース=楽しい コース=素晴らしい コース=整備 コース=戦略的 例)距離 →各名詞に対する評価尺度を推定 ④5段階評価の評価分布 距離=短い 距離=ある 距離=長い 距離=ない 距離=長い-ない 距離=ある-ない 距離=出る-ない 距離=遠い 距離=良い 距離=近い 距離=出る 距離=適度 設問「距離が長い」 距離=短い 距離=長い 距離=出る-ない 距離=ある 0 0.2 0.4 0.6 1 2 3 4 5 0 0.2 0.4 0.6 1 2 3 4 5 0 0.2 0.4 0.6 1 2 3 4 5 0 0.2 0.4 1 2 3 4 5 →単語と評価 に関連性 0 20000 40000 60000 80000 100000 120000 140000 160000 180000 1 2 3 4 5 →全体的に肯定的評価への偏り 目的:自由回答文と5段階評価の関連性を調べる
  • 7. 自由回答文からの5段階評価推定 例) 楽天GORA自由回答文 コメント 総 合 評 価 コストパフォーマンス スタッフ接客 コー ス/戦略性 食 事 が美味しい 設備が充実 フェアウェイが広い 距 離 が長い コースは戦略的で面白い。スタッフの方の対応が親切丁寧。お酒が旨い。 4 4 5 4 5 2 2 2 普通のゴルフ場のつもりで行くとダメですよ。練習場の延長と思ってください。 ですが、初心者にとっては、平らだし、距離は短いし良いと思います。 4 3 5 3 3 3 3 2 初めていきましたが、プレッシャーのない広々したコースで気持ちよかったです。 午後の短時間でまわれるのがGOOD! 5 5 4 3 3 3 5 5 特徴語の抽出,評価分布 全体の評価分布 0 0.2 0.4 0.6 1 2 3 4 5 0 0.2 0.4 0.6 1 2 3 4 5 ・・・ 0 0.2 0.4 1 2 3 4 5 この値段 だったら良い と思います。
  • 8. アプローチ 自由回答文 Ⅰ.頻出名詞から各設問iの関連 名詞集合Ni={n1,n2,…,nmax}の抽出 Ⅱ.各名詞n Niの係り受け関係 ={d1,d2,…,dmax}の抽出 項目i 関連名詞集合Ni={n1,n2,…,nmax} 1.コストパフォーマンス コストパフォーマンス,料金,値段,価格 2.スタッフ接客 スタッフ,対応,接客,キャディ 3.コースと戦略性 コース,戦略性 4.食事が美味しい 食事,ごはん 5.設備が充実 設備,お風呂,クラブハウス,カート,トイレ 6.フェアウェイが広い フェアウェイ 7.距離が長い 距離 Ⅲ.名詞と係り受け関係の組ごと の評価分布 を作成 N1 料金 値段 コストパフォーマンス 価格 N2 スタッフ 対応 接客 キャディ N7 距離 頻出名詞 短い ある 長い ない 長い-ない ある-ない 出る-ない 遠い 良い 近い出る 良い 遅い 最高 気持ち良い 迅速 係り受け 距離=短い 距離=長い 0 0.2 0.4 0.6 1 2 3 4 5 0 0.2 0.4 0.6 1 2 3 4 5 評価分布 Ⅳ.Ⅲ以外の評価分布 を作成 0 0.2 0.4 0.6 1 2 3 4 5 距離以外 ・・・  Ni n D N7 D距離 N 2 D対応 Ni Dn d P Ni Dn others P Ⅲ,Ⅳを用いて推定
  • 9. レビューデータの分析 各集合ごとの評価分布作成 出現回数mi 1 2 3 4 5 距離=短い 3249 0.150 0.523 0.297 0.026 0.004 距離=ある 1482 0.005 0.072 0.227 0.466 0.231 距離=長い 785 0.008 0.052 0.192 0.327 0.420 距離=ない 300 0.100 0.473 0.400 0.023 0.003 距離=長い-ない 180 0.011 0.294 0.617 0.078 0 距離=ある-ない 161 0.050 0.422 0.472 0.043 0.012 距離=出る-ない 44 0.068 0.250 0.364 0.227 0.091 距離=遠い 41 0 0.098 0.488 0.341 0.073 距離=良い 40 0.025 0.125 0.500 0.300 0.050 距離=近い 35 0.051 0.256 0.487 0.103 0 距離=出る 26 0.038 0.192 0.385 0.269 0.115 距離以外 87228 0.018 0.135 0.548 0.248 0.050 ↓5段階評価の各評価の割合 推定手法 分析用データ:10万件のレビューデータ集合 (「~ほしい」といった要望表現を含むデータは除く) 距離=短い 距離=長い 0 0.2 0.4 0.6 1 2 3 4 5 0 0.2 0.4 0.6 1 2 3 4 5 0 0.2 0.4 0.6 1 2 3 4 5 距離以外 + + ・・・ + 0 0.5 1 1 2 3 4 5 全体の評価 ・各分布を出現回数分足し合わせて合成 ・距離について述べていない潜在的な分布は出現回数を0.7倍←単語と評価の関連性に重みをつける ←距離に関する係り受けが出現しない集合の 評価 を利用 単語によっては評価分布 に大きな偏り →単語から評価の推定に利用 しかし,距離に対する係り受けの集合だけを用い た場合,全体の評価推定に大きなずれ Ni Dn P短い Ni Dn P長い Ni Dn others ×m1 P ×m2 ×mothers×0.7 Ni Dn d P Ni Dn others P
  • 10. 推定手法の評価 テスト用データ:分析用データと異なるゴルフ場20施設の各レビューデータ集合 (1つの集合は1073~2735件) 推定手順 コメント 総合評価 コストパフォーマンス スタッフ接客 コー ス/戦略性 食 事 が美味しい 設 備 が充実 フェアウェイが広い 距 離 が長い コースは戦略的で面白い。スタッフの方の対応が親切丁寧。お酒が旨い。 4 4 5 4 5 2 2 2 普通のゴルフ場のつもりで行くとダメですよ。練習場の延長と思ってください。 ですが、初心者にとっては、平らだし、距離は短いし良いと思います。 4 3 5 3 3 3 3 2 初めていきましたが、プレッシャーのない広々したコースで気持ちよかった です。午後の短時間でまわれるのがGOOD! 5 5 4 3 3 3 5 5 提案手法 正解分布 0 0.2 0.4 1 2 3 4 5 0 0.2 0.4 1 2 3 4 5 0 0.5 1 1 2 3 4 5 分析結果 推定 推定結果と正解分布とを比較
  • 11. 結果 0 2 4 6 8 10 12 ゴルフ場20施設の推定平均値と正解平均値との誤差 ~0.5 1 2 3 4 5 ・推定平均値と正解平均値との誤差は全て1.0以下 ・誤差の平均は0.43 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 1 2 3 4 5 推定 正解 あるゴルフ場の推定評価値と正解評価値 コメント 久し振りに行きました。距離は長くはありませんが面白いコー スです。 カートにナビがついてより快適になりました。今の値段でオー ルシーズンやっていただけると助かるのですが。 ナビゲーションも付いていて楽にプレーが出来ました。また行き たいと思います。 ・・・ 0 0.1 0.2 0.3 0.4 0.5 0.6 1 2 3 4 5 あるゴルフ場集合に対する推定手法適用例
  • 12. まとめ 自由回答文と5段階評価の関連性を分析し推定手法を提案した 未知のデータに対して推定手法を適用し5段階評価を推定した 研究業績 国内学会発表2件 本研究は,楽天株式会社よりレビューデータおよび株式会社日立東日本ソリューションズより分析ツール の提供を受けております.