【BERT】自然言語処理を用いたレビュー分析

WEF2107 八木橋和也
自然言語処理を用いたレビュー分析
DIVE INTO CODE 機械学習エンジニアコース卒業課題
2021.10.31

mail: kazuya99986@gmail.com
1. 自己紹介
2. 課題について
3. モデルについて
4. 推論
5. 分析
6. まとめ
Overview

じ
自己紹介

氏名
八木橋和也
年齢
35歳
職歴
WEBサービス運営営業
フードケータリングサービス運営マーケティング
ドローンコンサルティングマーケティング
経験
顧客対応・WEB広告・サービス改善
Introduction

じ
課題について

課題
自然言語処理技術を用いて
ホテルのレビューを分析し、
良し悪しの要因を考える
Sentiment Analysis by NLP

・大手ビジネスホテルチェーン運営の全国 184 ホテル
・直近 1年間の約 6,000クチコミ（※スクレイピングによりデータ取得）
Target
Sex Age

じ
モデルについて

• Attention is All You Need by Google(2017)
• Attention layer(非RNN)が搭載されたEncoder-Decoderモデル
Transformer
私の仕事は機械学習エンジニアです
Query Key Value
Embedding
Attention(Q, K, V ) = softmax(
QKT
dk
)V
Softmax
attentionスコア（=単語間の類似度）
全体図 Scaled Dot Product Attention
重みへ変換
：
{ }
重みで行列のベクトルを回転 =
1 2 3 4 5 6 7 8
横方向にconcat
MultiHead(Q, K, V ) =
Concat(head1, . . . , headh)WO
Attention
Matrix
Attention
Weight
output
(head)
出力値の調整
私の仕事は機械学習エンジニアです
Nomarization & NNへ

• TransformerのEncoder部分を応用させた機械学習モデル
• 文章を前後双方向から捉えることで、文脈が理解できる
• 事前学習モデルが用意されており、大規模なデータセットが不要
• 転移学習(Fine-Turning)により、様々なタスクへ特化
• ドメイン特化
BERT構築フレームワーク
BERT(Bi directional Encoding Representation from transformer)
※株式会社NTTデータ、HPより引⽤

事前学習モデル
・東北大学乾研究室（cl-tohoku/bert-base-japanese-v2）
・約3,000万コーパス（wikipediaより抽出）の教師なし学習
・形態素解析：MeCab / バイナリ辞書: UniDic
転移学習（Fine Turning）データセット
・リクルート社AI部門（Megagon Labs）が公開
・「じゃらんnet」のクチコミに基づく、5,600文のデータセット
・各レコードに感情極性ラベル（pos/neg/neu)が付与されている
・ACC: 86%（epoc:5, 学習時間：1分程度（Google colab GPU使用))
Model・Dataset

じ
推論

レビュー例
• 綺麗でとても快適に時間を過ごすことができ満足です。コロナ感
染指定ホテルであり大浴場と製氷器が使えなかったことが残念だ
けど
加工データ
綺麗でとても快適に時間を過ごすことができ満足です
コロナ感染指定ホテルであり大浴場と製氷器が使えなかったこと
が残念だけど
。で区切ることで精度が安定
Analysis

ポジティブ判定例
• 接客など親切丁寧に対応して頂き、良かったです
• お部屋もキレイで、ベッドもふかふか快適でした
ネガティブ判定例
• 清掃がまったく行き届いていない
• 一つ気になる点と言えば、wi
fi
の繋がりが悪かった
ニュートラル判定例
• 出張で使わせていただきました
• 久しぶりに県外に出かけました
目視での確認では9割程度、ふさわしいラベリングがなされていた
Result

• 多数決方式で総合評価を決定
Pos文, Neg文, Pos文: Positive
Pos文, Neg文, Neg文: Negative
Pos文, Neg文, Neu文: Neutral
• LightGBMで検証（Label Encoding）
【処理前】x = [pos, neg, neu, ・・・・・・・・] ・y=[1 to 5]

【処理後】x = [3, 2, 1, 0, 0, 0, 0, 0, 0, 0, 0,・・・]・y=[1 to 5]
※最長レビューに合わせ、29次元作成（※ブランクは0 padding） ※yはユーザー自身が付けた評価
【結果】Pos評価 : 4.2 Neu評価 : 3.6 Neg評価: 2.8
※各ラベルごとの平均
Classi
fi
cation & Validation
振り分け結果

じ
分析

WordCloud of Positives

WordCloud of Negatives

Co-occurrence network of Negatives
1
2

トイレ×便座に関するネガティブレビュー
• しかし、トイレの便座にヒーターが無いのを知らずに
利用したので、最初に座った瞬間ビックリしました
• 全体に不足はないものの、部屋のトイレが暖房便座ではなくて
冷たかった
朝食×コロナに関するネガティブレビュー
• 朝食はコロナの影響もあり、ご飯、味汁以外は一人前毎に分
けられており、バイキングで無いのが非常に残念です
• 朝食もバイキング形式をコロナで中止しているなら
じゃらんサイトでの写真も削除すべき
Individual review

TOP50 Keyword of Negative reviews

総合ポジティブ × 部屋ネガティブ
• 駅に近いことが最高。朝食は、美味しかった。部屋がちょっと
狭く、ベットと机の間隔が狭い。大風呂がありかり、いつでも
入れるから良かった。
総合ポジティブ × チェックインネガティブ
• チェックインの手続きが面倒くさいです。ホテル、施設は綺麗
です。大浴場も快適でした。景色も良かったです。
総合ポジティブ × 駐車場ネガティブ
• 館内、部屋含めとてもキレイでした。また近場を観光でき良か
ったです。駐車場があるかと思っていましたが、駐車場は
なく、提携した駐車場もない為実費となりました。
総合評価に対して決定的に影響を与えているキーワードは？
What is a
ff
ecting to Negative reviews?

• ロジスティック回帰にて、キーワードごとの結果寄与度を計測
• ポジティブ、ネガティブの上位キーワードを抽出
• ポジティブ、ネガティブそれぞれOneHot Encoding(0 or 1)
※簡素化の為、ニュートラル判定のレビューは除外
Exploring by Logistic regression
駅
無料
朝食
シャワー
清掃
コロナ
フロント
駐車
浴場
近く
気持ち
清潔
部屋
トイレ
音
イン
カレー
安心
チェック
スタッフ
対応
立地
時間
ベッド店
風呂
方
エレベーター
接客
コンビニ
テレビ
掃除

• ACC: 89.8%(Precision: 84.7% ・ Recall: 96.6%)
決定係数
• 各変数がどの程度、結果を説明(寄与)しているか
• 絶対値が寄与度の大きさ、正負がネガポジへの影響を示す
Coe
ffi
cient of Logistic regression

じ
まとめ

Conclusion
部屋に対する不快感を与えると、
ネガティブ評価に繋がりやすい
( カレーと朝食の例のように）食に対する印象は、
評価に影響を与えやすい
( カレーの出現数が40位であるように)出現数の多い単語が、
必ずしも評価に影響しているとは言えない

Librarys(主要)
MeCab
nlplot
学習
形単素解析
計算・データ構造
可視化

Github

4ヶ月間、大変お世話になりました
Endding

ご静聴ありがとうございました
Endding

【BERT】自然言語処理を用いたレビュー分析

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

【BERT】自然言語処理を用いたレビュー分析