SlideShare ist ein Scribd-Unternehmen logo
1 von 26
Modeling and Predicting the Growth
and Death of Membership-based
Websites
WWW 2014 輪講会 発表者: 浅谷 公威 Kimitaka Asatani
2014/05/31
ABSTRACT
• 様々な種類の22個のWebsiteのDAU(Daily Active User)を調べる
• Online social networks, grass root movements, online forums and
membership only Internet stores.
• Reaction diffusion decayプロセスを用いて、DAUをフィッティング
• 今後のDAUを予測
• Classify Community
• Self-sustainable vs un-un sustainable
• Classify Startup Process
• Marketing or word of month adoption
DAU(Daily Active User)
• これまでの研究はNumber of membersを使ってWebサイトを評価
• DAUは以下を示す指標としてNumber of membersより優れている
• Social impact
• Potential of revenue
• DAUのデータを入手し予測する
• 生涯にわたって不変なダイナミクスを検出する
• メンバー情報とかの特性をインプットとしない
Reaction diffusion decay equations
• Attention seeking interactions between
• active members
• In-active members
• No Yet members
• Take into account
• webサイトによるユーザーの興味を惹きつけようとする企画を実施
• ユーザー間の相互作用で、ユーザーがアクティブになる
In an information-rich world our attention is
bound to become one of our most scarce,
important and vied-for resources.
(Herbert. A. Simon 1971)
注:
近年では、インフォーメーションの欠乏ではなく注意の欠乏が問題
情報のフィルターをシステムとして実現しなければならない(Herbert. A. Simon 1996)
目次
• Sec. 2 presents the related work.
• Sec. 3 presents our proposed model and the algorithm to fit its
parameters to the datasets.
• Sec. 4 fits the parameters to the datasets and present the fit and
prediction results.
• Sec. 5 presents our conclusions.
Related works
• Adoption model (ユーザーの状態遷移のモデル)
1. Network effect adoption models
• Individual Rationality and adoption cost in game theoretic framework
• E.g. K – core network analysis on Friendster network
• They do not consider Role of user activity
2. Threshold adoption models
• An individual adopts if enough of his or her friends are adopters.
• E.g. Product adoption on network
• Only local view of network is considered
Related works
• Adoption model (ユーザーの状態遷移のモデル)
3. Diffusion of innovation models
• Influence others to adopt through word-of-mouth, marketing…
• Demand forecasting at the aggregate level.
• Various type of S –shaped curve of number of adopters.
4. Adoption models from influence and network structure
• Considering the roles of edge on network.
• E.g. the probability of non-member user joins the network increase linearly with the
number of invitations. 我々のモデルに有用
Related works
• 先行研究はtotal number of user について議論
• DAUを議論する必要がある
• そのためには、attention-seeking interaction between active /
inactive usersについてモデル化する必要がある
• Facebookは他のユーザーのアクティビティを表示し、ユーザーをincites
→Active member の活動がin active memberのactive さへ影響を与えている
といえる
• また、news サイト等は、他のメンバーがコンテンツに惹かれてやってくる
→Non member の活動も考慮する必要がある
Proposed Model
• Chemical Reaction Process
• Molecules
• A: active user
• I: in-active user
• U: Non member
• Reaction
• A + I → 2A (α)
• A → I (β)
• A + U → 2A (γ)
• U → A (λ)
• Under the condition of
• A(t) + I(t) + U(t) = C.
• As C is the fraction of active Internet population
Long time evolution
After a certain – possibly large –
time t, the website nearly exhausts
its pool of non-members
Reaction
A + I → 2A (α)
A → I (β)
A + U → 2A (γ)
U → A (λ)
Long time evolution
Reaction
A + I → 2A (α)
A → I (β)
A + U → 2A (γ)
U → A (λ)
Signature of growth
Media and marketing intensive
Word-of-mouth intensive
Reaction
A + I → 2A (α)
A → I (β)
A + U → 2A (γ)
U → A (λ)
Signature of growth
Reaction
A + I → 2A (α)
A → I (β)
A + U → 2A (γ)
U → A (λ)
Fit the parameter to Dataset
• Dataset
• 22 web sites from 2007 to 2013
• Online social networks, grass root movements, online forums and membership only Internet stores.
• Automatic parameter fit
局所最適解の集合
α, β, λ, γ, and C
初期パラメータ:
α, β, λ, γ, and C
時系列データ
一番よい局所最適解
α, β, λ, γ, and C
k-medoids clustering
Levenberg-Marquardt
algorithm
Levenberg-Marquardt algorithm
• 目的: 非線形最小二乗法を解く
• 与えられたモデル関数 y = f (x , β) がm 個のデータ点 {(xi , yi ); i = 1, ... , m }
に最もよくフィットするようなn 個のパラメータβ = (β1 , ... , βn )を見つける
• Gauss-Newton法の拡張
• 初期推定値からの解の乖離や、非線形性による不安定性を回避
• 具体的な方法
• モデル関数とデータ点の差異を二階微分した点が零になる場所を探す
• ステップ
• (a) 二階微分を一回微分の二乗で近似する (Gauss-Newton法)
• (b) 安定性の向上の工夫を入れる(Levenberg-Marquardt法の独自)
K-medoidsによるクラスタリング
• K-medoids
• クラスタリング手法
• K-meansに比べ、ロバスト、ノイズの
影響を受けない
• 今回は
• K-medoidsを用いてクラスタリング
• 3つ以上の要素を含むクラスタの中
で、最も高いフィッティング精度を
持っているものを抽出
K-medoids
クラスタ内のデータ点で,その点以外のクラ
スタ内の点でまでの非類似度の総和が最小
になる点
K-means
1. 各点にランダムにクラスタを割当
2. クラスタの重心の点を計算
3. 点のクラスタを、一番近い重心のクラスタに変更
4. 変化がなければ終了。あれば 2. に戻る
Long-term DAU
sustainability
• Self-Sustaining
• Huffingtonpost
• Facebook等は意外とこの傾向
が強くない
• Unsustainable
• Party website
• Fads (12second.tv)
• Dating(true.com)
• 中間
• (Immoral dating)MarriedSecrets,
AshleyMadison
• 一般的な認識と一致
Reaction
A + I → 2A (α)
A → I (β)
A + U → 2A (γ)
U → A (λ)
Signatures of growth
• Media and campaign
• Ebay, theblaze(保守系ニュース)
• Word of mouth
• Others
• 基本的には口コミによって広
がっていくと言える
• Theblazeがメディア・キャンペー
ンなのに、Huffingtonpostと
Daily Newsが口コミであること
が不明
Reaction
A + I → 2A (α)
A → I (β)
A + U → 2A (γ)
U → A (λ)
Predicting future trends
• First Few Yearsのみのデータをインプットして、パラメータをフィッティ
ング
• その後のDAUの時系列をシミュレートし、実際のデータと比較する
Predicting future trends
Unsustainable
• フィッティング出来たと
著者は主張
• Inaccurate
• True.com Adaptu.com.
• strong competitor
• Brandstack.com
• Change the policy
Reaction
A + I → 2A (α)
A → I (β)
A + U → 2A (γ)
U → A (λ)
Predicting future trends
Self - sustainable
• Good result
• Facebook.com
• Changing the growth
strategy during the
period
• TheHuffingtonPost.com
• Unpredictable spike
• TheBlaze.com
Reaction
A + I → 2A (α)
A → I (β)
A + U → 2A (γ)
U → A (λ)
Conclusion
• Through reaction – decay - diffusion process, we model the dynamics of
websites.
• Predict the trend
• DAU signatures of growth
• media & marketing versus word-of-mouth
• DAU signatures of long term stability
• self-sustaining versus unsustainable
• Future work
• tailor the above reaction-diffusion-decay dynamics to specific types of websites and
changing environments (e.g., new technologies and competition)
• Modeling a broad range of dynamics of societal movements
感想
• モデルについて
• モデルは単純なので他に応用可能
• 問題点
• パラメータは時系列で変化するのでは?
• 反応方程式のように各状態のユーザーの量に比例した確率でいいの?
• β>>αでないと最終的に収束する過程は観測できない
• Exogenousな効果はあつかえない
• Sirモデルとの対比
• ネットワークが存在しない
• I -> A が繰り返し起き、現実に近い
• パラメータ数が多くフィッティングしやすい
Reaction
A + I → 2A (α)
A → I (β)
A + U → 2A (γ)
U → A (λ)
何に使えるか
• 局所最適解の集合をクラスタリングし最適解を導出する手法は勉強
になった
• 今後つかうとしたら
• Niftyのデータに適応可能
• Self-sustaining / unsustainable と word-to-mouth / media-and-campaign とい
う分類をつかう
Reaction
A + I → 2A (α)
A → I (β)
A + U → 2A (γ)
U → A (λ)
Tori lab 輪読会 WWW 2014 - Modeling and predicting  the growth and death

Weitere ähnliche Inhalte

Ähnlich wie Tori lab 輪読会 WWW 2014 - Modeling and predicting the growth and death

分析のモダナイズへのヒント:データ価値を最大化するビジュアル分析とエンタープライズ組織への展開 - 経営課題解決シンポジウム (2018/09/28)
分析のモダナイズへのヒント:データ価値を最大化するビジュアル分析とエンタープライズ組織への展開 - 経営課題解決シンポジウム (2018/09/28)分析のモダナイズへのヒント:データ価値を最大化するビジュアル分析とエンタープライズ組織への展開 - 経営課題解決シンポジウム (2018/09/28)
分析のモダナイズへのヒント:データ価値を最大化するビジュアル分析とエンタープライズ組織への展開 - 経営課題解決シンポジウム (2018/09/28)
Ryusuke Ashiya
 

Ähnlich wie Tori lab 輪読会 WWW 2014 - Modeling and predicting the growth and death (20)

Guide for building a spending.jp site with team members
Guide for building a spending.jp site with team membersGuide for building a spending.jp site with team members
Guide for building a spending.jp site with team members
 
World ia day
World ia dayWorld ia day
World ia day
 
BigQueryとTableauによるカスタマージャーニー分析
BigQueryとTableauによるカスタマージャーニー分析BigQueryとTableauによるカスタマージャーニー分析
BigQueryとTableauによるカスタマージャーニー分析
 
1_各Atlassian製品の紹介
1_各Atlassian製品の紹介1_各Atlassian製品の紹介
1_各Atlassian製品の紹介
 
Data Science Summit 2012 レポート
Data Science Summit 2012 レポートData Science Summit 2012 レポート
Data Science Summit 2012 レポート
 
Hadoopカンファレンス2013
Hadoopカンファレンス2013Hadoopカンファレンス2013
Hadoopカンファレンス2013
 
利益を生み出すAnalytics Teamのあり方
利益を生み出すAnalytics Teamのあり方利益を生み出すAnalytics Teamのあり方
利益を生み出すAnalytics Teamのあり方
 
Webdirection
WebdirectionWebdirection
Webdirection
 
[デブサミ関西2013]チケット駆動で プロジェクトチームを加速せよ
[デブサミ関西2013]チケット駆動でプロジェクトチームを加速せよ[デブサミ関西2013]チケット駆動でプロジェクトチームを加速せよ
[デブサミ関西2013]チケット駆動で プロジェクトチームを加速せよ
 
ビックデータ分析基盤の成⻑の軌跡
ビックデータ分析基盤の成⻑の軌跡ビックデータ分析基盤の成⻑の軌跡
ビックデータ分析基盤の成⻑の軌跡
 
「企業システムにおける意志決定とITサービス運営について」 ユーザ企業との協業によるエンタープライズ・アジャイルの支援 ~東京商工リサーチの事例~
「企業システムにおける意志決定とITサービス運営について」  ユーザ企業との協業によるエンタープライズ・アジャイルの支援 ~東京商工リサーチの事例~「企業システムにおける意志決定とITサービス運営について」  ユーザ企業との協業によるエンタープライズ・アジャイルの支援 ~東京商工リサーチの事例~
「企業システムにおける意志決定とITサービス運営について」 ユーザ企業との協業によるエンタープライズ・アジャイルの支援 ~東京商工リサーチの事例~
 
Tableau Blueprintの概要 for JTUG/RETAIL 2019/10/16
Tableau Blueprintの概要 for JTUG/RETAIL 2019/10/16Tableau Blueprintの概要 for JTUG/RETAIL 2019/10/16
Tableau Blueprintの概要 for JTUG/RETAIL 2019/10/16
 
Prophet入門【R編】Facebookの時系列予測ツール
Prophet入門【R編】Facebookの時系列予測ツールProphet入門【R編】Facebookの時系列予測ツール
Prophet入門【R編】Facebookの時系列予測ツール
 
Prophet入門【Python編】Facebookの時系列予測ツール
Prophet入門【Python編】Facebookの時系列予測ツールProphet入門【Python編】Facebookの時系列予測ツール
Prophet入門【Python編】Facebookの時系列予測ツール
 
サイトサーチアナリティクスとは
サイトサーチアナリティクスとはサイトサーチアナリティクスとは
サイトサーチアナリティクスとは
 
AgileTourOsaka2011 関係者に理解してもらえるアジャイル開発にむけて
AgileTourOsaka2011 関係者に理解してもらえるアジャイル開発にむけてAgileTourOsaka2011 関係者に理解してもらえるアジャイル開発にむけて
AgileTourOsaka2011 関係者に理解してもらえるアジャイル開発にむけて
 
おしゃスタat銀座
おしゃスタat銀座おしゃスタat銀座
おしゃスタat銀座
 
初期レビューを用いた長期間評価推定􏰀
初期レビューを用いた長期間評価推定􏰀初期レビューを用いた長期間評価推定􏰀
初期レビューを用いた長期間評価推定􏰀
 
E-commerce企業におけるビッグデータへの挑戦と課題‐機械学習への期待について‐
E-commerce企業におけるビッグデータへの挑戦と課題‐機械学習への期待について‐E-commerce企業におけるビッグデータへの挑戦と課題‐機械学習への期待について‐
E-commerce企業におけるビッグデータへの挑戦と課題‐機械学習への期待について‐
 
分析のモダナイズへのヒント:データ価値を最大化するビジュアル分析とエンタープライズ組織への展開 - 経営課題解決シンポジウム (2018/09/28)
分析のモダナイズへのヒント:データ価値を最大化するビジュアル分析とエンタープライズ組織への展開 - 経営課題解決シンポジウム (2018/09/28)分析のモダナイズへのヒント:データ価値を最大化するビジュアル分析とエンタープライズ組織への展開 - 経営課題解決シンポジウム (2018/09/28)
分析のモダナイズへのヒント:データ価値を最大化するビジュアル分析とエンタープライズ組織への展開 - 経営課題解決シンポジウム (2018/09/28)
 

Tori lab 輪読会 WWW 2014 - Modeling and predicting the growth and death

  • 1. Modeling and Predicting the Growth and Death of Membership-based Websites WWW 2014 輪講会 発表者: 浅谷 公威 Kimitaka Asatani 2014/05/31
  • 2. ABSTRACT • 様々な種類の22個のWebsiteのDAU(Daily Active User)を調べる • Online social networks, grass root movements, online forums and membership only Internet stores. • Reaction diffusion decayプロセスを用いて、DAUをフィッティング • 今後のDAUを予測 • Classify Community • Self-sustainable vs un-un sustainable • Classify Startup Process • Marketing or word of month adoption
  • 3. DAU(Daily Active User) • これまでの研究はNumber of membersを使ってWebサイトを評価 • DAUは以下を示す指標としてNumber of membersより優れている • Social impact • Potential of revenue • DAUのデータを入手し予測する • 生涯にわたって不変なダイナミクスを検出する • メンバー情報とかの特性をインプットとしない
  • 4. Reaction diffusion decay equations • Attention seeking interactions between • active members • In-active members • No Yet members • Take into account • webサイトによるユーザーの興味を惹きつけようとする企画を実施 • ユーザー間の相互作用で、ユーザーがアクティブになる
  • 5. In an information-rich world our attention is bound to become one of our most scarce, important and vied-for resources. (Herbert. A. Simon 1971) 注: 近年では、インフォーメーションの欠乏ではなく注意の欠乏が問題 情報のフィルターをシステムとして実現しなければならない(Herbert. A. Simon 1996)
  • 6. 目次 • Sec. 2 presents the related work. • Sec. 3 presents our proposed model and the algorithm to fit its parameters to the datasets. • Sec. 4 fits the parameters to the datasets and present the fit and prediction results. • Sec. 5 presents our conclusions.
  • 7. Related works • Adoption model (ユーザーの状態遷移のモデル) 1. Network effect adoption models • Individual Rationality and adoption cost in game theoretic framework • E.g. K – core network analysis on Friendster network • They do not consider Role of user activity 2. Threshold adoption models • An individual adopts if enough of his or her friends are adopters. • E.g. Product adoption on network • Only local view of network is considered
  • 8. Related works • Adoption model (ユーザーの状態遷移のモデル) 3. Diffusion of innovation models • Influence others to adopt through word-of-mouth, marketing… • Demand forecasting at the aggregate level. • Various type of S –shaped curve of number of adopters. 4. Adoption models from influence and network structure • Considering the roles of edge on network. • E.g. the probability of non-member user joins the network increase linearly with the number of invitations. 我々のモデルに有用
  • 9. Related works • 先行研究はtotal number of user について議論 • DAUを議論する必要がある • そのためには、attention-seeking interaction between active / inactive usersについてモデル化する必要がある • Facebookは他のユーザーのアクティビティを表示し、ユーザーをincites →Active member の活動がin active memberのactive さへ影響を与えている といえる • また、news サイト等は、他のメンバーがコンテンツに惹かれてやってくる →Non member の活動も考慮する必要がある
  • 10. Proposed Model • Chemical Reaction Process • Molecules • A: active user • I: in-active user • U: Non member • Reaction • A + I → 2A (α) • A → I (β) • A + U → 2A (γ) • U → A (λ) • Under the condition of • A(t) + I(t) + U(t) = C. • As C is the fraction of active Internet population
  • 11. Long time evolution After a certain – possibly large – time t, the website nearly exhausts its pool of non-members Reaction A + I → 2A (α) A → I (β) A + U → 2A (γ) U → A (λ)
  • 12. Long time evolution Reaction A + I → 2A (α) A → I (β) A + U → 2A (γ) U → A (λ)
  • 13. Signature of growth Media and marketing intensive Word-of-mouth intensive Reaction A + I → 2A (α) A → I (β) A + U → 2A (γ) U → A (λ)
  • 14. Signature of growth Reaction A + I → 2A (α) A → I (β) A + U → 2A (γ) U → A (λ)
  • 15. Fit the parameter to Dataset • Dataset • 22 web sites from 2007 to 2013 • Online social networks, grass root movements, online forums and membership only Internet stores. • Automatic parameter fit 局所最適解の集合 α, β, λ, γ, and C 初期パラメータ: α, β, λ, γ, and C 時系列データ 一番よい局所最適解 α, β, λ, γ, and C k-medoids clustering Levenberg-Marquardt algorithm
  • 16. Levenberg-Marquardt algorithm • 目的: 非線形最小二乗法を解く • 与えられたモデル関数 y = f (x , β) がm 個のデータ点 {(xi , yi ); i = 1, ... , m } に最もよくフィットするようなn 個のパラメータβ = (β1 , ... , βn )を見つける • Gauss-Newton法の拡張 • 初期推定値からの解の乖離や、非線形性による不安定性を回避 • 具体的な方法 • モデル関数とデータ点の差異を二階微分した点が零になる場所を探す • ステップ • (a) 二階微分を一回微分の二乗で近似する (Gauss-Newton法) • (b) 安定性の向上の工夫を入れる(Levenberg-Marquardt法の独自)
  • 17. K-medoidsによるクラスタリング • K-medoids • クラスタリング手法 • K-meansに比べ、ロバスト、ノイズの 影響を受けない • 今回は • K-medoidsを用いてクラスタリング • 3つ以上の要素を含むクラスタの中 で、最も高いフィッティング精度を 持っているものを抽出 K-medoids クラスタ内のデータ点で,その点以外のクラ スタ内の点でまでの非類似度の総和が最小 になる点 K-means 1. 各点にランダムにクラスタを割当 2. クラスタの重心の点を計算 3. 点のクラスタを、一番近い重心のクラスタに変更 4. 変化がなければ終了。あれば 2. に戻る
  • 18. Long-term DAU sustainability • Self-Sustaining • Huffingtonpost • Facebook等は意外とこの傾向 が強くない • Unsustainable • Party website • Fads (12second.tv) • Dating(true.com) • 中間 • (Immoral dating)MarriedSecrets, AshleyMadison • 一般的な認識と一致 Reaction A + I → 2A (α) A → I (β) A + U → 2A (γ) U → A (λ)
  • 19. Signatures of growth • Media and campaign • Ebay, theblaze(保守系ニュース) • Word of mouth • Others • 基本的には口コミによって広 がっていくと言える • Theblazeがメディア・キャンペー ンなのに、Huffingtonpostと Daily Newsが口コミであること が不明 Reaction A + I → 2A (α) A → I (β) A + U → 2A (γ) U → A (λ)
  • 20. Predicting future trends • First Few Yearsのみのデータをインプットして、パラメータをフィッティ ング • その後のDAUの時系列をシミュレートし、実際のデータと比較する
  • 21. Predicting future trends Unsustainable • フィッティング出来たと 著者は主張 • Inaccurate • True.com Adaptu.com. • strong competitor • Brandstack.com • Change the policy Reaction A + I → 2A (α) A → I (β) A + U → 2A (γ) U → A (λ)
  • 22. Predicting future trends Self - sustainable • Good result • Facebook.com • Changing the growth strategy during the period • TheHuffingtonPost.com • Unpredictable spike • TheBlaze.com Reaction A + I → 2A (α) A → I (β) A + U → 2A (γ) U → A (λ)
  • 23. Conclusion • Through reaction – decay - diffusion process, we model the dynamics of websites. • Predict the trend • DAU signatures of growth • media & marketing versus word-of-mouth • DAU signatures of long term stability • self-sustaining versus unsustainable • Future work • tailor the above reaction-diffusion-decay dynamics to specific types of websites and changing environments (e.g., new technologies and competition) • Modeling a broad range of dynamics of societal movements
  • 24. 感想 • モデルについて • モデルは単純なので他に応用可能 • 問題点 • パラメータは時系列で変化するのでは? • 反応方程式のように各状態のユーザーの量に比例した確率でいいの? • β>>αでないと最終的に収束する過程は観測できない • Exogenousな効果はあつかえない • Sirモデルとの対比 • ネットワークが存在しない • I -> A が繰り返し起き、現実に近い • パラメータ数が多くフィッティングしやすい Reaction A + I → 2A (α) A → I (β) A + U → 2A (γ) U → A (λ)
  • 25. 何に使えるか • 局所最適解の集合をクラスタリングし最適解を導出する手法は勉強 になった • 今後つかうとしたら • Niftyのデータに適応可能 • Self-sustaining / unsustainable と word-to-mouth / media-and-campaign とい う分類をつかう Reaction A + I → 2A (α) A → I (β) A + U → 2A (γ) U → A (λ)