SlideShare ist ein Scribd-Unternehmen logo
1 von 9
Repeat Buyer Prediction
for E-Commerce
Liu et al. KDD2016
2016/10/01 KDD2016勉強会
脇山 宗也
概要
• IJCAI2015でアリババが開催したコンペで構築した予測モデル
の説明
• 筆者らはコンペのStage1で優勝
• 論文内では、どういった特徴量が予測精度向上に効果があるの
かに着目
• 資料に記載の図・表はLiu,2016,Repeat Buyer Prediction for E-
Commerce,KDD2016からの引用です
予測タスク
• 過去の行動ログから、セール(Double 11)で購入を行ったユー
ザが6ヶ月以内に再購入を行うかどうかを予測
• コンペの主催者はリピーターになる可能性があるユーザにプロ
モーションを打つようにしてコストを抑えたい
Double11から6ヶ月以内の再購入の
有無が予測対象
Liu,2016,Repeat Buyer Prediction for E-Commerce,KDD2016
特徴量の種類
• 特徴量の元データとする属性
• ユーザ
• ブランド
• カテゴリ
• 店舗
• アイテム属性
• ユーザ x ブランド
• ユーザ x カテゴリ
• 店舗 x ブランド
• 店舗 x カテゴリ
• ユーザ x 店舗
• 属性の集計方法
• Count/ratio
• Aggregation
• 最大値、平均など
• Recent activity
• Complex feature
• トレンドやPCA、LDAなどを含む。その
他の扱いに近い
• Age/gender related
• 上記の集計を年代別や性別に分けて行う。
上記4つとの組み合わせになる
交互作用
左側にある属性を、右側にある集計方法で処理して特徴量を作成する(合計1364属性)。
例えば、ユーザが店舗でクリックしたユニークアイテム数や、店舗で購入が発生した日数の平均な
どが作成される
特徴量の評価
• XGBoostを利用して特徴量が精度にどの程度影響しているのか
を評価
• Factorization Machine、Ligistic Regression、Random Forest、GBM、
XBGooxtで比較して、モデル単体だとXBGoostが最も精度が高かった
• 他の予測モデルで特徴量を評価しても、特徴量の評価順はほぼ一緒
だったと述べられている
特徴量グループ毎の評価
• AUCは対象の特徴量グループ
のみでモデル構築した場合の
AUC
• Leave-out AUCは、対象の特
徴量を除いてモデル構築した
場合のAUC
• 他の特徴量で代替が難しい?
Liu,2016,Repeat Buyer Prediction for E-Commerce,KDD2016
特徴量グループ毎の評価
• 店舗属性やブランド属性をそ
のまま利用した特徴量は、除
外した方が全特徴量を利用し
た方がAUCが高い
• セール(double 11)当日や、直
近1週間の行動、LDAで作成
した特徴量は除外するとAUC
の下がり幅が大きいので、他
の属性では代替が難しいと思
われる
Liu,2016,Repeat Buyer Prediction for E-Commerce,KDD2016
個別の特徴量の重要度
• XGBoostの特徴量の重要度を用いて算出。1364変数に順位を付ける
• 重要度Top20は、以下の3つが2/3を占める
• User aggregation(7 features)
• ユーザが購入を行った日数の標準偏差(性別と店舗の組み合わせ毎に集計)
• 購入日数の平均(性別・店舗・ブランドの組み合わせ毎に集計)
etc. (購入ログを集約したものが多い)
• Repeat buyer(3 features)
• 再購入が行われた日数の比率(店舗とブランドの組み合わせ毎に集計)
• 特定の年代の再購入の比率 etc.
• Product diversity(3 features)
• ユーザがクリックしたユニークアイテム数
• ユーザが購入したユニークアイテム数 etc.
• 除外するとAUCの低下が大きかったLDAはXGBoost上だと上位に来ない
所感
• モデルに投入する特徴量として、属性の値をそのまま投入するので
はなく、交互作用や性年代、Recencyに着目して集計することでモ
デルの精度が上がることが分かる
• ECで販売されているものはジャンルが幅広いため、こうしたセグメントを区
切って作成した特徴量が有用だと思われる(このブランドは女性は好きと
か)
• 上記の様な集計値以外にもLDAを使って特徴量を作ることで特徴量
を底上げできる
• 他の属性で代替できないようなので、ある程度特徴量を作った後で追加して
も精度向上が見込める
• ただし、自分でLDAで特徴量を作って試してみても精度が上がらなかったの
でチューニングは必須。他の特徴量を作った後に追加を試みるのが良さそう

Weitere ähnliche Inhalte

Ähnlich wie Repeat buyer prediction for e commerce, KDD2016

データベースマーケティングサービス概要
データベースマーケティングサービス概要データベースマーケティングサービス概要
データベースマーケティングサービス概要株式会社ヴィクシア
 
データ分析グループの組織編制とその課題 マーケティングにおけるKPI設計の失敗例 ABテストの活用と、機械学習の導入 #CWT2016
データ分析グループの組織編制とその課題 マーケティングにおけるKPI設計の失敗例 ABテストの活用と、機械学習の導入 #CWT2016データ分析グループの組織編制とその課題 マーケティングにおけるKPI設計の失敗例 ABテストの活用と、機械学習の導入 #CWT2016
データ分析グループの組織編制とその課題 マーケティングにおけるKPI設計の失敗例 ABテストの活用と、機械学習の導入 #CWT2016Tokoroten Nakayama
 
20110617seminar renown
20110617seminar renown20110617seminar renown
20110617seminar renownloftwork
 
イマドキの改善!データ分析SDK導入のポイントとAI活用最新事例 / GTMF2019
イマドキの改善!データ分析SDK導入のポイントとAI活用最新事例 / GTMF2019イマドキの改善!データ分析SDK導入のポイントとAI活用最新事例 / GTMF2019
イマドキの改善!データ分析SDK導入のポイントとAI活用最新事例 / GTMF2019Game Tools & Middleware Forum
 
トレンドの顧客視点から見たリスティング広告
トレンドの顧客視点から見たリスティング広告トレンドの顧客視点から見たリスティング広告
トレンドの顧客視点から見たリスティング広告Masato Kawajiri
 
Mktg07 顧客価値、満足、ロイヤリティーの創造
Mktg07 顧客価値、満足、ロイヤリティーの創造Mktg07 顧客価値、満足、ロイヤリティーの創造
Mktg07 顧客価値、満足、ロイヤリティーの創造Takeshi Matsui
 
10 Steps to Product Market Fit - Japanese Translation
10 Steps to Product Market Fit - Japanese Translation10 Steps to Product Market Fit - Japanese Translation
10 Steps to Product Market Fit - Japanese TranslationMomoko Nagaoka
 

Ähnlich wie Repeat buyer prediction for e commerce, KDD2016 (9)

データベースマーケティングサービス概要
データベースマーケティングサービス概要データベースマーケティングサービス概要
データベースマーケティングサービス概要
 
データ分析グループの組織編制とその課題 マーケティングにおけるKPI設計の失敗例 ABテストの活用と、機械学習の導入 #CWT2016
データ分析グループの組織編制とその課題 マーケティングにおけるKPI設計の失敗例 ABテストの活用と、機械学習の導入 #CWT2016データ分析グループの組織編制とその課題 マーケティングにおけるKPI設計の失敗例 ABテストの活用と、機械学習の導入 #CWT2016
データ分析グループの組織編制とその課題 マーケティングにおけるKPI設計の失敗例 ABテストの活用と、機械学習の導入 #CWT2016
 
20110617seminar renown
20110617seminar renown20110617seminar renown
20110617seminar renown
 
イノベーションマネジメント9
イノベーションマネジメント9イノベーションマネジメント9
イノベーションマネジメント9
 
実績紹介
実績紹介実績紹介
実績紹介
 
イマドキの改善!データ分析SDK導入のポイントとAI活用最新事例 / GTMF2019
イマドキの改善!データ分析SDK導入のポイントとAI活用最新事例 / GTMF2019イマドキの改善!データ分析SDK導入のポイントとAI活用最新事例 / GTMF2019
イマドキの改善!データ分析SDK導入のポイントとAI活用最新事例 / GTMF2019
 
トレンドの顧客視点から見たリスティング広告
トレンドの顧客視点から見たリスティング広告トレンドの顧客視点から見たリスティング広告
トレンドの顧客視点から見たリスティング広告
 
Mktg07 顧客価値、満足、ロイヤリティーの創造
Mktg07 顧客価値、満足、ロイヤリティーの創造Mktg07 顧客価値、満足、ロイヤリティーの創造
Mktg07 顧客価値、満足、ロイヤリティーの創造
 
10 Steps to Product Market Fit - Japanese Translation
10 Steps to Product Market Fit - Japanese Translation10 Steps to Product Market Fit - Japanese Translation
10 Steps to Product Market Fit - Japanese Translation
 

Repeat buyer prediction for e commerce, KDD2016