SlideShare ist ein Scribd-Unternehmen logo
1 von 30
Downloaden Sie, um offline zu lesen
WEF2107 八木橋和也
自然言語処理を用いたレビュー分析
DIVE INTO CODE 機械学習エンジニアコース 卒業課題
2021.10.31
mail: kazuya99986@gmail.com
1. 自己紹介
2. 課題について
3. モデルについて
4. 推論
5. 分析
6. まとめ
Overview
じ
mail: kazuya99986@gmail.com
自己紹介
mail: kazuya99986@gmail.com
氏名
八木橋 和也
年齢
35歳
職歴
WEBサービス運営 営業
フードケータリングサービス運営 マーケティング
ドローンコンサルティング マーケティング
経験
顧客対応・WEB広告・サービス改善
Introduction
じ
mail: kazuya99986@gmail.com
課題について
mail: kazuya99986@gmail.com
課題
自然言語処理技術を用いて
         ホテルのレビューを分析し、
                   良し悪しの要因を考える
Sentiment Analysis by NLP
mail: kazuya99986@gmail.com
・大手ビジネスホテルチェーン運営の全国 184 ホテル
・直近 1年間の約 6,000クチコミ(※スクレイピングによりデータ取得)
Target
Sex Age
じ
mail: kazuya99986@gmail.com
モデルについて
mail: kazuya99986@gmail.com
• Attention is All You Need by Google(2017)
• Attention layer(非RNN)が搭載されたEncoder-Decoderモデル
Transformer
私 の 仕事 は 機械学習 エンジニア です
Query Key Value
Embedding
Attention(Q, K, V ) = softmax(
QKT
dk
)V
Softmax
attentionスコア(=単語間の類似度)
全体図 Scaled Dot Product Attention
重みへ変換
:
{ }
重みで行列のベクトルを回転 =
1 2 3 4 5 6 7 8
横方向にconcat
MultiHead(Q, K, V ) =
Concat(head1, . . . , headh)WO
Attention
Matrix
Attention
Weight
output
(head)
出力値の調整
私 の 仕事 は 機械学習 エンジニア です
Nomarization & NNへ
mail: kazuya99986@gmail.com
• TransformerのEncoder部分を応用させた機械学習モデル
• 文章を前後双方向から捉えることで、 文脈が理解できる
• 事前学習モデルが用意されており、大規模なデータセットが不要
• 転移学習(Fine-Turning)により、様々なタスクへ特化
• ドメイン特化
  BERT構築フレームワーク
BERT(Bi directional Encoding Representation from transformer)
※株式会社NTTデータ、HPより引⽤
mail: kazuya99986@gmail.com
事前学習モデル
・東北大学乾研究室(cl-tohoku/bert-base-japanese-v2)
・約3,000万コーパス(wikipediaより抽出)の教師なし学習
・形態素解析:MeCab / バイナリ辞書: UniDic
転移学習(Fine Turning)データセット
・リクルート社AI部門(Megagon Labs)が公開
・「じゃらんnet」のクチコミに基づく、5,600文のデータセット
・各レコードに感情極性ラベル(pos/neg/neu)が付与されている
・ACC: 86%(epoc:5, 学習時間:1分程度(Google colab GPU使用))
Model・Dataset
じ
mail: kazuya99986@gmail.com
推論
mail: kazuya99986@gmail.com
レビュー例
• 綺麗でとても快適に時間を過ごすことができ満足です。コロナ感
染指定ホテルであり大浴場と製氷器が使えなかったことが残念だ
けど
加工データ
綺麗でとても快適に時間を過ごすことができ満足です
コロナ感染指定ホテルであり大浴場と製氷器が使えなかったこと
が残念だけど
。 で区切ることで精度が安定
Analysis
mail: kazuya99986@gmail.com
ポジティブ判定例
• 接客など親切丁寧に対応して頂き、良かったです
• お部屋もキレイで、ベッドもふかふか快適でした
ネガティブ判定例
• 清掃がまったく行き届いていない
• 一つ気になる点と言えば、wi
fi
の繋がりが悪かった
ニュートラル判定例
• 出張で使わせていただきました
• 久しぶりに県外に出かけました
目視での確認では9割程度、ふさわしいラベリングがなされていた
Result
mail: kazuya99986@gmail.com
• 多数決方式で総合評価を決定
Pos文, Neg文, Pos文: Positive
Pos文, Neg文, Neg文: Negative
Pos文, Neg文, Neu文: Neutral
• LightGBMで検証(Label Encoding)
【処理前】x = [pos, neg, neu, ・・・・・・・・] ・y=[1 to 5]


【処理後】x = [3, 2, 1, 0, 0, 0, 0, 0, 0, 0, 0,・・・]・y=[1 to 5]
※最長レビューに合わせ、29次元作成(※ブランクは0 padding) ※yはユーザー自身が付けた評価
【結果】Pos評価 : 4.2  Neu評価 : 3.6   Neg評価: 2.8
※各ラベルごとの平均
Classi
fi
cation & Validation
振り分け結果
じ
mail: kazuya99986@gmail.com
分析
mail: kazuya99986@gmail.com
WordCloud of Positives
mail: kazuya99986@gmail.com
WordCloud of Negatives
mail: kazuya99986@gmail.com
Co-occurrence network of Negatives
1
2
mail: kazuya99986@gmail.com
トイレ×便座に関するネガティブレビュー
• しかし、トイレの便座にヒーターが無いのを知らずに      
利用したので、最初に座った瞬間ビックリしました
• 全体に不足はないものの、部屋のトイレが暖房便座ではなくて
冷たかった
朝食×コロナに関するネガティブレビュー
• 朝食はコロナの影響もあり、ご飯、味 汁以外は一人前毎に分
けられており、バイキングで無いのが非常に残念です
• 朝食もバイキング形式をコロナで中止しているなら
じゃらんサイトでの写真も削除すべき
Individual review
mail: kazuya99986@gmail.com
TOP50 Keyword of Negative reviews
mail: kazuya99986@gmail.com
総合ポジティブ × 部屋 ネガティブ
• 駅に近いことが最高。朝食は、美味しかった。部屋がちょっと
狭く、ベットと机の間隔が狭い。大風呂がありかり、いつでも
入れるから良かった。
総合ポジティブ × チェックイン ネガティブ
• チェックインの手続きが面倒くさいです。ホテル、施設は綺麗
です。大浴場も快適でした。景色も良かったです。
総合ポジティブ × 駐車場 ネガティブ
• 館内、部屋含めとてもキレイでした。また近場を観光でき良か
ったです。駐車場があるかと思っていましたが、駐車場は  
なく、提携した駐車場もない為実費となりました。
総合評価に対して決定的に影響を与えているキーワードは?
What is a
ff
ecting to Negative reviews?
mail: kazuya99986@gmail.com
• ロジスティック回帰にて、キーワードごとの結果寄与度を計測
• ポジティブ、ネガティブの上位キーワードを抽出
• ポジティブ、ネガティブそれぞれOneHot Encoding(0 or 1)
※簡素化の為、ニュートラル判定のレビューは除外
Exploring by Logistic regression
駅
無料
朝食
シャワー
清掃
コロナ
フロント
駐車
浴場
近く
気持ち
清潔
部屋
トイレ
音
イン
カレー
安心
チェック
スタッフ
対応
立地
時間
ベッド 店
風呂
方
エレベーター
接客
コンビニ
テレビ
掃除
mail: kazuya99986@gmail.com
• ACC: 89.8%(Precision: 84.7% ・ Recall: 96.6%)
決定係数
• 各変数がどの程度、結果を説明(寄与)しているか
• 絶対値が寄与度の大きさ、正負がネガポジへの影響を示す
Coe
ffi
cient of Logistic regression
じ
mail: kazuya99986@gmail.com
まとめ
mail: kazuya99986@gmail.com
Conclusion
部屋に対する不快感を与えると、
           ネガティブ評価に繋がりやすい
( カレー と 朝食 の例のように) 食 に対する印象は、
              評価に影響を与えやすい
( カレー の出現数が40位であるように)出現数の多い単語が、
      必ずしも評価に影響しているとは言えない
mail: kazuya99986@gmail.com
Librarys(主要)
MeCab
nlplot
学習
形単素解析
計算・データ構造
可視化
mail: kazuya99986@gmail.com
Github
mail: kazuya99986@gmail.com
4ヶ月間、大変お世話になりました
Endding
mail: kazuya99986@gmail.com
ご静聴ありがとうございました
Endding

Weitere ähnliche Inhalte

Was ist angesagt?

不均衡データのクラス分類
不均衡データのクラス分類不均衡データのクラス分類
不均衡データのクラス分類
Shintaro Fukushima
 
今さら聞けないカーネル法とサポートベクターマシン
今さら聞けないカーネル法とサポートベクターマシン今さら聞けないカーネル法とサポートベクターマシン
今さら聞けないカーネル法とサポートベクターマシン
Shinya Shimizu
 
組合せ最適化入門:線形計画から整数計画まで
組合せ最適化入門:線形計画から整数計画まで組合せ最適化入門:線形計画から整数計画まで
組合せ最適化入門:線形計画から整数計画まで
Shunji Umetani
 

Was ist angesagt? (20)

最適輸送入門
最適輸送入門最適輸送入門
最適輸送入門
 
一般化線形モデル (GLM) & 一般化加法モデル(GAM)
一般化線形モデル (GLM) & 一般化加法モデル(GAM) 一般化線形モデル (GLM) & 一般化加法モデル(GAM)
一般化線形モデル (GLM) & 一般化加法モデル(GAM)
 
ChatGPT 人間のフィードバックから強化学習した対話AI
ChatGPT 人間のフィードバックから強化学習した対話AIChatGPT 人間のフィードバックから強化学習した対話AI
ChatGPT 人間のフィードバックから強化学習した対話AI
 
「統計的学習理論」第1章
「統計的学習理論」第1章「統計的学習理論」第1章
「統計的学習理論」第1章
 
機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)
 
DSIRNLP#1 ランキング学習ことはじめ
DSIRNLP#1 ランキング学習ことはじめDSIRNLP#1 ランキング学習ことはじめ
DSIRNLP#1 ランキング学習ことはじめ
 
優れた研究論文の書き方―7つの提案
優れた研究論文の書き方―7つの提案優れた研究論文の書き方―7つの提案
優れた研究論文の書き方―7つの提案
 
線形計画法入門
線形計画法入門線形計画法入門
線形計画法入門
 
[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured Prediction
[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured Prediction[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured Prediction
[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured Prediction
 
不均衡データのクラス分類
不均衡データのクラス分類不均衡データのクラス分類
不均衡データのクラス分類
 
時系列予測にTransformerを使うのは有効か?
時系列予測にTransformerを使うのは有効か?時系列予測にTransformerを使うのは有効か?
時系列予測にTransformerを使うのは有効か?
 
今さら聞けないカーネル法とサポートベクターマシン
今さら聞けないカーネル法とサポートベクターマシン今さら聞けないカーネル法とサポートベクターマシン
今さら聞けないカーネル法とサポートベクターマシン
 
計算論的学習理論入門 -PAC学習とかVC次元とか-
計算論的学習理論入門 -PAC学習とかVC次元とか-計算論的学習理論入門 -PAC学習とかVC次元とか-
計算論的学習理論入門 -PAC学習とかVC次元とか-
 
2 3.GLMの基礎
2 3.GLMの基礎2 3.GLMの基礎
2 3.GLMの基礎
 
組合せ最適化入門:線形計画から整数計画まで
組合せ最適化入門:線形計画から整数計画まで組合せ最適化入門:線形計画から整数計画まで
組合せ最適化入門:線形計画から整数計画まで
 
グラフニューラルネットワークとグラフ組合せ問題
グラフニューラルネットワークとグラフ組合せ問題グラフニューラルネットワークとグラフ組合せ問題
グラフニューラルネットワークとグラフ組合せ問題
 
画像キャプションの自動生成
画像キャプションの自動生成画像キャプションの自動生成
画像キャプションの自動生成
 
機械学習モデルのハイパパラメータ最適化
機械学習モデルのハイパパラメータ最適化機械学習モデルのハイパパラメータ最適化
機械学習モデルのハイパパラメータ最適化
 
ブレインパッドにおける機械学習プロジェクトの進め方
ブレインパッドにおける機械学習プロジェクトの進め方ブレインパッドにおける機械学習プロジェクトの進め方
ブレインパッドにおける機械学習プロジェクトの進め方
 
ガウス過程回帰の導出 ( GPR : Gaussian Process Regression )
ガウス過程回帰の導出 ( GPR : Gaussian Process Regression )ガウス過程回帰の導出 ( GPR : Gaussian Process Regression )
ガウス過程回帰の導出 ( GPR : Gaussian Process Regression )
 

【BERT】自然言語処理を用いたレビュー分析