5. INTRODUCTION
User participation이 미래 인터넷 서비스의 핵심이다.
그러나 User Behavior를 이해한다는 것은 Complex하고
Difficult.
User Behavior에 관심
을 가지는 것에 대한
정당성
User Behavior 파악에
있어서의 어려움 이유. 인터넷 시스템 사용자는 수십만명인데, 이를 어찌 다 분석?
-> 자신들의 시스템의 강점을 이유로 들고 있음
6. INTRODUCTION
User participation이 미래 인터넷 서비스의 핵심이다.
그러나 User Behavior를 이해한다는 것은 Complex하고
Difficult.
User Behavior에 관심
을 가지는 것에 대한
정당성
User Behavior 파악에
있어서의 어려움 이유. 인터넷 시스템 사용자는 수십만명인데, 이를 어찌 다 분석?
-> 자신들의 시스템의 강점을 이유로 들고 있음
기존 접근 방식의 한계
기존접근방식 = 설문(survey)
한계1. conduct하고 analyse하는데 비용이 높기 때문에 large scale진행 불가능
한계2. 사용자들의 self-identify하지 못하는 부분이 있음
한계3. 이미 알고 있는 지식체계 혹은 가정을 바탕으로함
data 를 받는다는 점data 를 받는다는 점
Clustering한다는 점
대안적인 접근 방식
Clickstream
data-driven approach!
그중에서도 우리는 Clickstream
Clickstream이란 sequences of timestamped events generated by user actions (우리가
흔히 말하는 로그와 비슷한 개념)
7. INTRODUCTION
User participation이 미래 인터넷 서비스의 핵심이다.
그러나 User Behavior를 이해한다는 것은 Complex하고
Difficult.
User Behavior에 관심
을 가지는 것에 대한
정당성
User Behavior 파악에
있어서의 어려움 이유. 인터넷 시스템 사용자는 수십만명인데, 이를 어찌 다 분석?
-> 자신들의 시스템의 강점을 이유로 들고 있음
기존 접근 방식의 한계
기존접근방식 = 설문(survey)
한계1. conduct하고 analyse하는데 비용이 높기 때문에 large scale진행 불가능
한계2. 사용자들의 self-identify하지 못하는 부분이 있음
한계3. 이미 알고 있는 지식체계 혹은 가정을 바탕으로함
data 를 받는다는 점data 를 받는다는 점
Clustering한다는 점
대안적인 접근 방식
Clickstream
data-driven approach!
그중에서도 우리는 Clickstream
Clickstream이란 sequences of timestamped events generated by user actions (우리가
흔히 말하는 로그와 비슷한 개념)
clickstre
am
8. INTRODUCTION
User participation이 미래 인터넷 서비스의 핵심이다.
그러나 User Behavior를 이해한다는 것은 Complex하고
Difficult.
User Behavior에 관심
을 가지는 것에 대한
정당성
User Behavior 파악에
있어서의 어려움 이유. 인터넷 시스템 사용자는 수십만명인데, 이를 어찌 다 분석?
-> 자신들의 시스템의 강점을 이유로 들고 있음
기존 접근 방식의 한계
기존접근방식 = 설문(survey)
한계1. conduct하고 analyse하는데 비용이 높기 때문에 large scale진행 불가능
한계2. 사용자들의 self-identify하지 못하는 부분이 있음
한계3. 이미 알고 있는 지식체계 혹은 가정을 바탕으로함
data 를 받는다는 점data 를 받는다는 점
Clustering한다는 점
대안적인 접근 방식
Clickstream
data-driven approach!
그중에서도 우리는 Clickstream
Clickstream이란 sequences of timestamped events generated by user actions (우리가
흔히 말하는 로그와 비슷한 개념)
기존 ClickStream
연구의 한계
Navigation Path Within a website에 머물고 있음 혹은
Markov Chain Models에 의존하여 popular webpage를 예
측한다.
요구사항1. large noisy clickstream dataset에도 잘 돌아가야한다
요구사항2. 기존에는 알지 못했던 사용자 행동도 캐치해야한다
요구사항3. help others understand할 수 있도록 interactive해야한다.
한계를 극복하기 위한
시스템 요구사항
clickstre
am
9. What they made
요구사항1. large noisy clickstream dataset에도 잘 돌아가야한다
요구사항2. 기존에는 알지 못했던 사용자 행동도 캐치해야한다
요구사항3. help others understand할 수 있도록 interactive해야한다.
한계를 극복하기 위한
시스템 요구사항
Clickstream tool
Interactive Visualisation
Clickstream Analysis
- hierarchical clustering approach
- iterative feature pruning
Clickstream Visualization
11. How they made it- Clickstream Analysis
Sybil은 Fake identities and
user accounts
12. How they made it- Clickstream Analysis
dataset= Σ event
event = Σdata?
Clickstream Datasets- Server side
13. How they made it- Clickstream Analysis
Unsupervised User Behavior Modeling Clickstream and similarity graph
Feature Pruning based Clickstream Clustering
포스팅을 눈팅 Heart 누르기한 유저 친구요청 보내기
Formatting User Clickstream
14. How they made it- Clickstream Analysis
Unsupervised User Behavior Modeling Clickstream and similarity graph
Feature Pruning based Clickstream Clustering
A(t1) B(t2)한 유저 C(t3)
t1 t2 t3
Formatting User Clickstream
3m 40s 10s
15. How they made it- Clickstream Analysis
Unsupervised User Behavior Modeling Clickstream and similarity graph
Feature Pruning based Clickstream Clustering
A(t1) B(t2)한 유저 C(t3)
g1 g2 g3
Formatting User Clickstream
3m 40s 10s
range of time gap = bucket
16. Clickstream Similarity Graph
How they made it- Clickstream Analysis
Unsupervised User Behavior Modeling Clickstream and similarity graph
Feature Pruning based Clickstream Clustering
A(g1)B(g2)C(g3)A(g4)B(g5)
C(g1)C(g2)C(g3)D(g4)A(g5)
node
node
17. Clickstream Similarity Graph
How they made it- Clickstream Analysis
Unsupervised User Behavior Modeling Clickstream and similarity graph
Feature Pruning based Clickstream Clustering
A(g1)B(g2)C(g3)A(g4)B(g5)
C(g1)C(g2)C(g3)D(g4)A(g5)
node
node
A(g1)B(g2)C(g3)A(g4)B(g5)
node
A(g1)B(g2)C(g3)A(g4)B(g5)
node
A(g1)B(g2)C(g3)A(g4)B(g5)
node
18. Clickstream Similarity Graph
How they made it- Clickstream Analysis
Unsupervised User Behavior Modeling Clickstream and similarity graph
Feature Pruning based Clickstream Clustering
A(g1)B(g2)C(g3)A(g4)B(g5)
C(g1)C(g2)C(g3)D(g4)A(g5)
node
node
A(g1)B(g2)C(g3)A(g4)B(g5)
node
A(g1)B(g2)C(g3)A(g4)B(g5)
node
A(g1)B(g2)C(g3)A(g4)B(g5)
node
19. Iterative Feature Pruning & Clustering
How they made it- Clickstream Analysis
Unsupervised User Behavior Modeling Clickstream and similarity graph
Feature Pruning based Clickstream Clustering
-> fine grained user behavior clusters를 찾아내기 위해서
full feature set (union of all k-grams)
parent cluster 탄생!!
20. Iterative Feature Pruning & Clustering
How they made it- Clickstream Analysis
Unsupervised User Behavior Modeling Clickstream and similarity graph
Feature Pruning based Clickstream Clustering
-> fine grained user behavior clusters를 찾아내기 위해서
C2이고 아니고를 결정하는 top
feature(K-grams)를 제외하고 돌
림
C5-6-7 탄생!!
21. How they made it- Clickstream Analysis
Iterative Feature Pruning & Clustering
Unsupervised User Behavior Modeling Clickstream and similarity graph
Feature Pruning based Clickstream Clustering
-> fine grained user behavior clusters를 찾아내기 위해서
대한민국 국민
여성낫 여성 no insight
22. How they made it- Clickstream Analysis
Iterative Feature Pruning & Clustering
Unsupervised User Behavior Modeling Clickstream and similarity graph
Feature Pruning based Clickstream Clustering
-> fine grained user behavior clusters를 찾아내기 위해서
대한민국 국민
여성낫 여성
귀염 도발청순 some insight
24. User Study Results
해석가능한 정보인가? “왜”를 알 수 있는가?
• 컴공과 대학원생 15명을 대상으로 함
• each level에서 dominant한 cluster를 보여줌-> 한문장으로 해석해봐라
• 사전에 app을 써보게 해서, 대략의 기능을 익힘
• 사전에 visualization이 어떻게 작동하고 어떤 정보가 있는지 quick instruction session을 함
25. User Study Results
해석가능한 정보인가? “왜”를 알 수 있는가?
• 컴공과 대학원생 15명을 대상으로 함
• each level에서 dominant한 cluster를 보여줌-> 한문장으로 해석해봐라
• 사전에 app을 써보게 해서, 대략의 기능을 익힘
• 사전에 visualization이 어떻게 작동하고 어떤 정보가 있는지 quick instruction session을 함
• 총 555개의 description을 받음
• 그 중에서 530개에 사람들이 “해석가능-> 한문장으로 표현”, 25개 “해석 불가능-> 해석못하겠다고 표현”
• 한 cluster당 평균 46초 만에 답함
• 외부전문가들에게 consistency를 검증함
26. 기존 ClickStream
연구의 한계
3) 기존의 clustering methods들은 largely supervised 혹은 semi-supervised
4) 왜 그렇게 행동하는가?에 관한 답은 black box로 놔둠
Q3. Supervised의 의미는 무엇인가 Q4. 그럼 이 시스템은 “왜”그런지도 분석해주는가
?
[정답이 없음=exploratory] Unsupervised
learning is the machine learning task of inferring
a function to describe hidden structure from
unlabeled data.
[정답이 있음] Supervised learning is the
machine learning task of inferring a function
from labeled training data.
vs.
not exactly.
visualization을 통해 human의 해석을 도울뿐
DISCUSSION
27. DISCUSSION
기존 ClickStream
연구의 한계
1) Navigation Path Within a website에 머물고 있음
2) Markov Chain Models에 의존하여 popular webpage를 예측한다.
Q1. Navigation Path하고 Clickstream이 어떻게 다른가
이동
Action
-> Markov Chain Model이 문제가 아니라,
popular webpage가 한계였던것
Dependent Condition이어도
converge on predictable distribution
@=0.85
Q2. Markov Chain Model에 의존하여 Popular
Webpage를 예측하는것이 왜 한계인가