SlideShare ist ein Scribd-Unternehmen logo
1 von 30
Unsupervised Clickstream
Clustering for User
Behavior Analysis
+ CHI 2016
-Gang Wang et al.
/이현정
x 2016 Spring
PAPER
Unsupervised ClickStream Clustering
for User Behavior Analysis
PAPER
PAPER
??
INTRODUCTION
User participation이 미래 인터넷 서비스의 핵심이다.
그러나 User Behavior를 이해한다는 것은 Complex하고
Difficult.
User Behavior에 관심
을 가지는 것에 대한
정당성
User Behavior 파악에
있어서의 어려움 이유. 인터넷 시스템 사용자는 수십만명인데, 이를 어찌 다 분석?
-> 자신들의 시스템의 강점을 이유로 들고 있음
INTRODUCTION
User participation이 미래 인터넷 서비스의 핵심이다.
그러나 User Behavior를 이해한다는 것은 Complex하고
Difficult.
User Behavior에 관심
을 가지는 것에 대한
정당성
User Behavior 파악에
있어서의 어려움 이유. 인터넷 시스템 사용자는 수십만명인데, 이를 어찌 다 분석?
-> 자신들의 시스템의 강점을 이유로 들고 있음
기존 접근 방식의 한계
기존접근방식 = 설문(survey)
한계1. conduct하고 analyse하는데 비용이 높기 때문에 large scale진행 불가능
한계2. 사용자들의 self-identify하지 못하는 부분이 있음
한계3. 이미 알고 있는 지식체계 혹은 가정을 바탕으로함
data 를 받는다는 점data 를 받는다는 점
Clustering한다는 점
대안적인 접근 방식
Clickstream
data-driven approach!
그중에서도 우리는 Clickstream
Clickstream이란 sequences of timestamped events generated by user actions (우리가
흔히 말하는 로그와 비슷한 개념)
INTRODUCTION
User participation이 미래 인터넷 서비스의 핵심이다.
그러나 User Behavior를 이해한다는 것은 Complex하고
Difficult.
User Behavior에 관심
을 가지는 것에 대한
정당성
User Behavior 파악에
있어서의 어려움 이유. 인터넷 시스템 사용자는 수십만명인데, 이를 어찌 다 분석?
-> 자신들의 시스템의 강점을 이유로 들고 있음
기존 접근 방식의 한계
기존접근방식 = 설문(survey)
한계1. conduct하고 analyse하는데 비용이 높기 때문에 large scale진행 불가능
한계2. 사용자들의 self-identify하지 못하는 부분이 있음
한계3. 이미 알고 있는 지식체계 혹은 가정을 바탕으로함
data 를 받는다는 점data 를 받는다는 점
Clustering한다는 점
대안적인 접근 방식
Clickstream
data-driven approach!
그중에서도 우리는 Clickstream
Clickstream이란 sequences of timestamped events generated by user actions (우리가
흔히 말하는 로그와 비슷한 개념)
clickstre
am
INTRODUCTION
User participation이 미래 인터넷 서비스의 핵심이다.
그러나 User Behavior를 이해한다는 것은 Complex하고
Difficult.
User Behavior에 관심
을 가지는 것에 대한
정당성
User Behavior 파악에
있어서의 어려움 이유. 인터넷 시스템 사용자는 수십만명인데, 이를 어찌 다 분석?
-> 자신들의 시스템의 강점을 이유로 들고 있음
기존 접근 방식의 한계
기존접근방식 = 설문(survey)
한계1. conduct하고 analyse하는데 비용이 높기 때문에 large scale진행 불가능
한계2. 사용자들의 self-identify하지 못하는 부분이 있음
한계3. 이미 알고 있는 지식체계 혹은 가정을 바탕으로함
data 를 받는다는 점data 를 받는다는 점
Clustering한다는 점
대안적인 접근 방식
Clickstream
data-driven approach!
그중에서도 우리는 Clickstream
Clickstream이란 sequences of timestamped events generated by user actions (우리가
흔히 말하는 로그와 비슷한 개념)
기존 ClickStream
연구의 한계
Navigation Path Within a website에 머물고 있음 혹은
Markov Chain Models에 의존하여 popular webpage를 예
측한다.
요구사항1. large noisy clickstream dataset에도 잘 돌아가야한다
요구사항2. 기존에는 알지 못했던 사용자 행동도 캐치해야한다
요구사항3. help others understand할 수 있도록 interactive해야한다.
한계를 극복하기 위한
시스템 요구사항
clickstre
am
What they made
요구사항1. large noisy clickstream dataset에도 잘 돌아가야한다
요구사항2. 기존에는 알지 못했던 사용자 행동도 캐치해야한다
요구사항3. help others understand할 수 있도록 interactive해야한다.
한계를 극복하기 위한
시스템 요구사항
Clickstream tool
Interactive Visualisation
Clickstream Analysis
- hierarchical clustering approach
- iterative feature pruning
Clickstream Visualization
How they made it- Clickstream Analysis
How they made it- Clickstream Analysis
Sybil은 Fake identities and
user accounts
How they made it- Clickstream Analysis
dataset= Σ event
event = Σdata?
Clickstream Datasets- Server side
How they made it- Clickstream Analysis
Unsupervised User Behavior Modeling Clickstream and similarity graph
Feature Pruning based Clickstream Clustering
포스팅을 눈팅 Heart 누르기한 유저 친구요청 보내기
Formatting User Clickstream
How they made it- Clickstream Analysis
Unsupervised User Behavior Modeling Clickstream and similarity graph
Feature Pruning based Clickstream Clustering
A(t1) B(t2)한 유저 C(t3)
t1 t2 t3
Formatting User Clickstream
3m 40s 10s
How they made it- Clickstream Analysis
Unsupervised User Behavior Modeling Clickstream and similarity graph
Feature Pruning based Clickstream Clustering
A(t1) B(t2)한 유저 C(t3)
g1 g2 g3
Formatting User Clickstream
3m 40s 10s
range of time gap = bucket
Clickstream Similarity Graph
How they made it- Clickstream Analysis
Unsupervised User Behavior Modeling Clickstream and similarity graph
Feature Pruning based Clickstream Clustering
A(g1)B(g2)C(g3)A(g4)B(g5)
C(g1)C(g2)C(g3)D(g4)A(g5)
node
node
Clickstream Similarity Graph
How they made it- Clickstream Analysis
Unsupervised User Behavior Modeling Clickstream and similarity graph
Feature Pruning based Clickstream Clustering
A(g1)B(g2)C(g3)A(g4)B(g5)
C(g1)C(g2)C(g3)D(g4)A(g5)
node
node
A(g1)B(g2)C(g3)A(g4)B(g5)
node
A(g1)B(g2)C(g3)A(g4)B(g5)
node
A(g1)B(g2)C(g3)A(g4)B(g5)
node
Clickstream Similarity Graph
How they made it- Clickstream Analysis
Unsupervised User Behavior Modeling Clickstream and similarity graph
Feature Pruning based Clickstream Clustering
A(g1)B(g2)C(g3)A(g4)B(g5)
C(g1)C(g2)C(g3)D(g4)A(g5)
node
node
A(g1)B(g2)C(g3)A(g4)B(g5)
node
A(g1)B(g2)C(g3)A(g4)B(g5)
node
A(g1)B(g2)C(g3)A(g4)B(g5)
node
Iterative Feature Pruning & Clustering
How they made it- Clickstream Analysis
Unsupervised User Behavior Modeling Clickstream and similarity graph
Feature Pruning based Clickstream Clustering
-> fine grained user behavior clusters를 찾아내기 위해서
full feature set (union of all k-grams)
parent cluster 탄생!!
Iterative Feature Pruning & Clustering
How they made it- Clickstream Analysis
Unsupervised User Behavior Modeling Clickstream and similarity graph
Feature Pruning based Clickstream Clustering
-> fine grained user behavior clusters를 찾아내기 위해서
C2이고 아니고를 결정하는 top
feature(K-grams)를 제외하고 돌
림
C5-6-7 탄생!!
How they made it- Clickstream Analysis
Iterative Feature Pruning & Clustering
Unsupervised User Behavior Modeling Clickstream and similarity graph
Feature Pruning based Clickstream Clustering
-> fine grained user behavior clusters를 찾아내기 위해서
대한민국 국민
여성낫 여성 no insight
How they made it- Clickstream Analysis
Iterative Feature Pruning & Clustering
Unsupervised User Behavior Modeling Clickstream and similarity graph
Feature Pruning based Clickstream Clustering
-> fine grained user behavior clusters를 찾아내기 위해서
대한민국 국민
여성낫 여성
귀염 도발청순 some insight
How they made it- Clickstream Analysis
Application
User Study Results
해석가능한 정보인가? “왜”를 알 수 있는가?
• 컴공과 대학원생 15명을 대상으로 함
• each level에서 dominant한 cluster를 보여줌-> 한문장으로 해석해봐라
• 사전에 app을 써보게 해서, 대략의 기능을 익힘
• 사전에 visualization이 어떻게 작동하고 어떤 정보가 있는지 quick instruction session을 함
User Study Results
해석가능한 정보인가? “왜”를 알 수 있는가?
• 컴공과 대학원생 15명을 대상으로 함
• each level에서 dominant한 cluster를 보여줌-> 한문장으로 해석해봐라
• 사전에 app을 써보게 해서, 대략의 기능을 익힘
• 사전에 visualization이 어떻게 작동하고 어떤 정보가 있는지 quick instruction session을 함
• 총 555개의 description을 받음
• 그 중에서 530개에 사람들이 “해석가능-> 한문장으로 표현”, 25개 “해석 불가능-> 해석못하겠다고 표현”
• 한 cluster당 평균 46초 만에 답함
• 외부전문가들에게 consistency를 검증함
기존 ClickStream
연구의 한계
3) 기존의 clustering methods들은 largely supervised 혹은 semi-supervised
4) 왜 그렇게 행동하는가?에 관한 답은 black box로 놔둠
Q3. Supervised의 의미는 무엇인가 Q4. 그럼 이 시스템은 “왜”그런지도 분석해주는가
?
[정답이 없음=exploratory] Unsupervised
learning is the machine learning task of inferring
a function to describe hidden structure from
unlabeled data.
[정답이 있음] Supervised learning is the
machine learning task of inferring a function
from labeled training data.
vs.
not exactly.
visualization을 통해 human의 해석을 도울뿐
DISCUSSION
DISCUSSION
기존 ClickStream
연구의 한계
1) Navigation Path Within a website에 머물고 있음
2) Markov Chain Models에 의존하여 popular webpage를 예측한다.
Q1. Navigation Path하고 Clickstream이 어떻게 다른가
이동
Action
-> Markov Chain Model이 문제가 아니라,
popular webpage가 한계였던것
Dependent Condition이어도
converge on predictable distribution
@=0.85
Q2. Markov Chain Model에 의존하여 Popular
Webpage를 예측하는것이 왜 한계인가
DISCUSSION
machine이 잘하는 일 human이 잘하는 일
How can machines help humans?
How can/should machines and humans cooperate?
DISCUSSION
machine이 잘하는 일 human이 잘하는 일
Unsupervised Clickstream
Clustering for User
Behavior Analysis
+ CHI 2016
-Gang Wang et al.
/이현정
x 2016 Spring
Thank You!

Weitere ähnliche Inhalte

Andere mochten auch

How Users Manipulate Deformable displays as Input Devices
How Users Manipulate Deformable displays as Input DevicesHow Users Manipulate Deformable displays as Input Devices
How Users Manipulate Deformable displays as Input Devices
Sugyo Han
 
Interacting with an Inferred World: the Challenge of Machine Learning for Hum...
Interacting with an Inferred World: the Challenge of Machine Learning for Hum...Interacting with an Inferred World: the Challenge of Machine Learning for Hum...
Interacting with an Inferred World: the Challenge of Machine Learning for Hum...
Minjoon Kim
 
Developing a Mobile Application for Elderly People: Human-Centered Design App...
Developing a Mobile Application for Elderly People: Human-Centered Design App...Developing a Mobile Application for Elderly People: Human-Centered Design App...
Developing a Mobile Application for Elderly People: Human-Centered Design App...
A-juAn
 

Andere mochten auch (20)

Getting User's Attention in Web Apps in Likable, Minimally Annoying Ways
Getting User's Attention in Web Apps in Likable, Minimally Annoying WaysGetting User's Attention in Web Apps in Likable, Minimally Annoying Ways
Getting User's Attention in Web Apps in Likable, Minimally Annoying Ways
 
How Users Manipulate Deformable displays as Input Devices
How Users Manipulate Deformable displays as Input DevicesHow Users Manipulate Deformable displays as Input Devices
How Users Manipulate Deformable displays as Input Devices
 
Chatting Through Pictures? A Classification of Images Tweeted in One Week in ...
Chatting Through Pictures? A Classification of Images Tweeted in One Week in ...Chatting Through Pictures? A Classification of Images Tweeted in One Week in ...
Chatting Through Pictures? A Classification of Images Tweeted in One Week in ...
 
It's not simply a matter of time
It's not simply a matter of timeIt's not simply a matter of time
It's not simply a matter of time
 
The Augmented Climbing Wall: High-Exertion Proximity Interaction on a Wall-Si...
The Augmented Climbing Wall: High-Exertion Proximity Interaction on a Wall-Si...The Augmented Climbing Wall: High-Exertion Proximity Interaction on a Wall-Si...
The Augmented Climbing Wall: High-Exertion Proximity Interaction on a Wall-Si...
 
Interacting with an Inferred World: the Challenge of Machine Learning for Hum...
Interacting with an Inferred World: the Challenge of Machine Learning for Hum...Interacting with an Inferred World: the Challenge of Machine Learning for Hum...
Interacting with an Inferred World: the Challenge of Machine Learning for Hum...
 
Developing a Mobile Application for Elderly People: Human-Centered Design App...
Developing a Mobile Application for Elderly People: Human-Centered Design App...Developing a Mobile Application for Elderly People: Human-Centered Design App...
Developing a Mobile Application for Elderly People: Human-Centered Design App...
 
SNU UX Lab) Exploring Memory in Email Refinding
SNU UX Lab) Exploring Memory in Email RefindingSNU UX Lab) Exploring Memory in Email Refinding
SNU UX Lab) Exploring Memory in Email Refinding
 
My Phone and Me: Understanding People's Receptivity to Mobile Notifications
My Phone and Me: Understanding People's Receptivity to Mobile Notifications My Phone and Me: Understanding People's Receptivity to Mobile Notifications
My Phone and Me: Understanding People's Receptivity to Mobile Notifications
 
Interacting with bots online
Interacting with bots onlineInteracting with bots online
Interacting with bots online
 
RecoFit: Using a Wearable Sensor to Find, Recognize, and Count Repetitive Exe...
RecoFit: Using a Wearable Sensor to Find, Recognize, and Count Repetitive Exe...RecoFit: Using a Wearable Sensor to Find, Recognize, and Count Repetitive Exe...
RecoFit: Using a Wearable Sensor to Find, Recognize, and Count Repetitive Exe...
 
Applied Artificial Intelligence and Trust
Applied Artificial Intelligence and TrustApplied Artificial Intelligence and Trust
Applied Artificial Intelligence and Trust
 
Pilot and Feasibility Test of a Mobile Health Counseling Intervention for Wei...
Pilot and Feasibility Test of a Mobile Health Counseling Intervention for Wei...Pilot and Feasibility Test of a Mobile Health Counseling Intervention for Wei...
Pilot and Feasibility Test of a Mobile Health Counseling Intervention for Wei...
 
The Quantified Patient in the Doctor's Office: Challenges & Opportunities
The Quantified Patient in the Doctor's Office: Challenges & OpportunitiesThe Quantified Patient in the Doctor's Office: Challenges & Opportunities
The Quantified Patient in the Doctor's Office: Challenges & Opportunities
 
Deployment of Smart Spaces in the Internet of Things: Overview of Design Chal...
Deployment of Smart Spaces in the Internet of Things: Overview of Design Chal...Deployment of Smart Spaces in the Internet of Things: Overview of Design Chal...
Deployment of Smart Spaces in the Internet of Things: Overview of Design Chal...
 
The future sign and its three dimensions
The future sign and  its three dimensionsThe future sign and  its three dimensions
The future sign and its three dimensions
 
MuscleMemory
MuscleMemoryMuscleMemory
MuscleMemory
 
Ai voice shock 2017 리뷰
Ai voice shock 2017 리뷰Ai voice shock 2017 리뷰
Ai voice shock 2017 리뷰
 
Perceptions of fear appeal and preference for feedback in tailored health com...
Perceptions of fear appeal and preference for feedback in tailored health com...Perceptions of fear appeal and preference for feedback in tailored health com...
Perceptions of fear appeal and preference for feedback in tailored health com...
 
More than Telemonitoring [JMIR2015]
More than Telemonitoring [JMIR2015]More than Telemonitoring [JMIR2015]
More than Telemonitoring [JMIR2015]
 

Ähnlich wie Unsupervised Clickstream Clustering for User Behavior Analysis CHI2016

[BSD]DISCOVERy
[BSD]DISCOVERy[BSD]DISCOVERy
[BSD]DISCOVERy
JY LEE
 
Web analytics 2.0 study ch.9
Web analytics 2.0 study ch.9Web analytics 2.0 study ch.9
Web analytics 2.0 study ch.9
Eunyoung Kim
 

Ähnlich wie Unsupervised Clickstream Clustering for User Behavior Analysis CHI2016 (20)

180624 mobile visionnet_baeksucon_jwkang_pub
180624 mobile visionnet_baeksucon_jwkang_pub180624 mobile visionnet_baeksucon_jwkang_pub
180624 mobile visionnet_baeksucon_jwkang_pub
 
Information Architecture
Information ArchitectureInformation Architecture
Information Architecture
 
Understanding My Data Myself [Ubicomp 2011]
Understanding My Data Myself [Ubicomp 2011]Understanding My Data Myself [Ubicomp 2011]
Understanding My Data Myself [Ubicomp 2011]
 
사용자분석 @코더스하이세미나
사용자분석 @코더스하이세미나사용자분석 @코더스하이세미나
사용자분석 @코더스하이세미나
 
412 발제
412 발제412 발제
412 발제
 
How to Create Value from Data, and Its Difficulty
How to Create Value from Data, and Its DifficultyHow to Create Value from Data, and Its Difficulty
How to Create Value from Data, and Its Difficulty
 
비교논문 분석 - 디지털 IoT 도어락 DDiT
비교논문 분석 - 디지털 IoT 도어락 DDiT비교논문 분석 - 디지털 IoT 도어락 DDiT
비교논문 분석 - 디지털 IoT 도어락 DDiT
 
인공지능추천시스템 airs개발기_모델링과시스템
인공지능추천시스템 airs개발기_모델링과시스템인공지능추천시스템 airs개발기_모델링과시스템
인공지능추천시스템 airs개발기_모델링과시스템
 
전혀 새로운 방법의 데이터 탐색 - 김민수 (Tableau)
전혀 새로운 방법의 데이터 탐색 - 김민수 (Tableau)전혀 새로운 방법의 데이터 탐색 - 김민수 (Tableau)
전혀 새로운 방법의 데이터 탐색 - 김민수 (Tableau)
 
[2A7]Linkedin'sDataScienceWhyIsItScience
[2A7]Linkedin'sDataScienceWhyIsItScience[2A7]Linkedin'sDataScienceWhyIsItScience
[2A7]Linkedin'sDataScienceWhyIsItScience
 
[BSD]DISCOVERy
[BSD]DISCOVERy[BSD]DISCOVERy
[BSD]DISCOVERy
 
Data Driven Decision을 위한 데이터플랫폼구축기@kakaomobility
Data Driven Decision을 위한 데이터플랫폼구축기@kakaomobilityData Driven Decision을 위한 데이터플랫폼구축기@kakaomobility
Data Driven Decision을 위한 데이터플랫폼구축기@kakaomobility
 
Bigdate & R programming
Bigdate & R programmingBigdate & R programming
Bigdate & R programming
 
Algorithm Experience Design
Algorithm Experience DesignAlgorithm Experience Design
Algorithm Experience Design
 
딥러닝 세계에 입문하기 위반 분투
딥러닝 세계에 입문하기 위반 분투딥러닝 세계에 입문하기 위반 분투
딥러닝 세계에 입문하기 위반 분투
 
[강의] OOP 개요
[강의] OOP 개요[강의] OOP 개요
[강의] OOP 개요
 
데이터분석의 길 5: “고수는 큰자료를 두려워하지 않는다” (클릭확률예측 상편)
데이터분석의 길 5:  “고수는 큰자료를 두려워하지 않는다” (클릭확률예측 상편)데이터분석의 길 5:  “고수는 큰자료를 두려워하지 않는다” (클릭확률예측 상편)
데이터분석의 길 5: “고수는 큰자료를 두려워하지 않는다” (클릭확률예측 상편)
 
Web analytics 2.0 study ch.9
Web analytics 2.0 study ch.9Web analytics 2.0 study ch.9
Web analytics 2.0 study ch.9
 
스마트폰 위의 딥러닝
스마트폰 위의 딥러닝스마트폰 위의 딥러닝
스마트폰 위의 딥러닝
 
Week1 ot
Week1 otWeek1 ot
Week1 ot
 

Unsupervised Clickstream Clustering for User Behavior Analysis CHI2016

  • 1. Unsupervised Clickstream Clustering for User Behavior Analysis + CHI 2016 -Gang Wang et al. /이현정 x 2016 Spring
  • 5. INTRODUCTION User participation이 미래 인터넷 서비스의 핵심이다. 그러나 User Behavior를 이해한다는 것은 Complex하고 Difficult. User Behavior에 관심 을 가지는 것에 대한 정당성 User Behavior 파악에 있어서의 어려움 이유. 인터넷 시스템 사용자는 수십만명인데, 이를 어찌 다 분석? -> 자신들의 시스템의 강점을 이유로 들고 있음
  • 6. INTRODUCTION User participation이 미래 인터넷 서비스의 핵심이다. 그러나 User Behavior를 이해한다는 것은 Complex하고 Difficult. User Behavior에 관심 을 가지는 것에 대한 정당성 User Behavior 파악에 있어서의 어려움 이유. 인터넷 시스템 사용자는 수십만명인데, 이를 어찌 다 분석? -> 자신들의 시스템의 강점을 이유로 들고 있음 기존 접근 방식의 한계 기존접근방식 = 설문(survey) 한계1. conduct하고 analyse하는데 비용이 높기 때문에 large scale진행 불가능 한계2. 사용자들의 self-identify하지 못하는 부분이 있음 한계3. 이미 알고 있는 지식체계 혹은 가정을 바탕으로함 data 를 받는다는 점data 를 받는다는 점 Clustering한다는 점 대안적인 접근 방식 Clickstream data-driven approach! 그중에서도 우리는 Clickstream Clickstream이란 sequences of timestamped events generated by user actions (우리가 흔히 말하는 로그와 비슷한 개념)
  • 7. INTRODUCTION User participation이 미래 인터넷 서비스의 핵심이다. 그러나 User Behavior를 이해한다는 것은 Complex하고 Difficult. User Behavior에 관심 을 가지는 것에 대한 정당성 User Behavior 파악에 있어서의 어려움 이유. 인터넷 시스템 사용자는 수십만명인데, 이를 어찌 다 분석? -> 자신들의 시스템의 강점을 이유로 들고 있음 기존 접근 방식의 한계 기존접근방식 = 설문(survey) 한계1. conduct하고 analyse하는데 비용이 높기 때문에 large scale진행 불가능 한계2. 사용자들의 self-identify하지 못하는 부분이 있음 한계3. 이미 알고 있는 지식체계 혹은 가정을 바탕으로함 data 를 받는다는 점data 를 받는다는 점 Clustering한다는 점 대안적인 접근 방식 Clickstream data-driven approach! 그중에서도 우리는 Clickstream Clickstream이란 sequences of timestamped events generated by user actions (우리가 흔히 말하는 로그와 비슷한 개념) clickstre am
  • 8. INTRODUCTION User participation이 미래 인터넷 서비스의 핵심이다. 그러나 User Behavior를 이해한다는 것은 Complex하고 Difficult. User Behavior에 관심 을 가지는 것에 대한 정당성 User Behavior 파악에 있어서의 어려움 이유. 인터넷 시스템 사용자는 수십만명인데, 이를 어찌 다 분석? -> 자신들의 시스템의 강점을 이유로 들고 있음 기존 접근 방식의 한계 기존접근방식 = 설문(survey) 한계1. conduct하고 analyse하는데 비용이 높기 때문에 large scale진행 불가능 한계2. 사용자들의 self-identify하지 못하는 부분이 있음 한계3. 이미 알고 있는 지식체계 혹은 가정을 바탕으로함 data 를 받는다는 점data 를 받는다는 점 Clustering한다는 점 대안적인 접근 방식 Clickstream data-driven approach! 그중에서도 우리는 Clickstream Clickstream이란 sequences of timestamped events generated by user actions (우리가 흔히 말하는 로그와 비슷한 개념) 기존 ClickStream 연구의 한계 Navigation Path Within a website에 머물고 있음 혹은 Markov Chain Models에 의존하여 popular webpage를 예 측한다. 요구사항1. large noisy clickstream dataset에도 잘 돌아가야한다 요구사항2. 기존에는 알지 못했던 사용자 행동도 캐치해야한다 요구사항3. help others understand할 수 있도록 interactive해야한다. 한계를 극복하기 위한 시스템 요구사항 clickstre am
  • 9. What they made 요구사항1. large noisy clickstream dataset에도 잘 돌아가야한다 요구사항2. 기존에는 알지 못했던 사용자 행동도 캐치해야한다 요구사항3. help others understand할 수 있도록 interactive해야한다. 한계를 극복하기 위한 시스템 요구사항 Clickstream tool Interactive Visualisation Clickstream Analysis - hierarchical clustering approach - iterative feature pruning Clickstream Visualization
  • 10. How they made it- Clickstream Analysis
  • 11. How they made it- Clickstream Analysis Sybil은 Fake identities and user accounts
  • 12. How they made it- Clickstream Analysis dataset= Σ event event = Σdata? Clickstream Datasets- Server side
  • 13. How they made it- Clickstream Analysis Unsupervised User Behavior Modeling Clickstream and similarity graph Feature Pruning based Clickstream Clustering 포스팅을 눈팅 Heart 누르기한 유저 친구요청 보내기 Formatting User Clickstream
  • 14. How they made it- Clickstream Analysis Unsupervised User Behavior Modeling Clickstream and similarity graph Feature Pruning based Clickstream Clustering A(t1) B(t2)한 유저 C(t3) t1 t2 t3 Formatting User Clickstream 3m 40s 10s
  • 15. How they made it- Clickstream Analysis Unsupervised User Behavior Modeling Clickstream and similarity graph Feature Pruning based Clickstream Clustering A(t1) B(t2)한 유저 C(t3) g1 g2 g3 Formatting User Clickstream 3m 40s 10s range of time gap = bucket
  • 16. Clickstream Similarity Graph How they made it- Clickstream Analysis Unsupervised User Behavior Modeling Clickstream and similarity graph Feature Pruning based Clickstream Clustering A(g1)B(g2)C(g3)A(g4)B(g5) C(g1)C(g2)C(g3)D(g4)A(g5) node node
  • 17. Clickstream Similarity Graph How they made it- Clickstream Analysis Unsupervised User Behavior Modeling Clickstream and similarity graph Feature Pruning based Clickstream Clustering A(g1)B(g2)C(g3)A(g4)B(g5) C(g1)C(g2)C(g3)D(g4)A(g5) node node A(g1)B(g2)C(g3)A(g4)B(g5) node A(g1)B(g2)C(g3)A(g4)B(g5) node A(g1)B(g2)C(g3)A(g4)B(g5) node
  • 18. Clickstream Similarity Graph How they made it- Clickstream Analysis Unsupervised User Behavior Modeling Clickstream and similarity graph Feature Pruning based Clickstream Clustering A(g1)B(g2)C(g3)A(g4)B(g5) C(g1)C(g2)C(g3)D(g4)A(g5) node node A(g1)B(g2)C(g3)A(g4)B(g5) node A(g1)B(g2)C(g3)A(g4)B(g5) node A(g1)B(g2)C(g3)A(g4)B(g5) node
  • 19. Iterative Feature Pruning & Clustering How they made it- Clickstream Analysis Unsupervised User Behavior Modeling Clickstream and similarity graph Feature Pruning based Clickstream Clustering -> fine grained user behavior clusters를 찾아내기 위해서 full feature set (union of all k-grams) parent cluster 탄생!!
  • 20. Iterative Feature Pruning & Clustering How they made it- Clickstream Analysis Unsupervised User Behavior Modeling Clickstream and similarity graph Feature Pruning based Clickstream Clustering -> fine grained user behavior clusters를 찾아내기 위해서 C2이고 아니고를 결정하는 top feature(K-grams)를 제외하고 돌 림 C5-6-7 탄생!!
  • 21. How they made it- Clickstream Analysis Iterative Feature Pruning & Clustering Unsupervised User Behavior Modeling Clickstream and similarity graph Feature Pruning based Clickstream Clustering -> fine grained user behavior clusters를 찾아내기 위해서 대한민국 국민 여성낫 여성 no insight
  • 22. How they made it- Clickstream Analysis Iterative Feature Pruning & Clustering Unsupervised User Behavior Modeling Clickstream and similarity graph Feature Pruning based Clickstream Clustering -> fine grained user behavior clusters를 찾아내기 위해서 대한민국 국민 여성낫 여성 귀염 도발청순 some insight
  • 23. How they made it- Clickstream Analysis Application
  • 24. User Study Results 해석가능한 정보인가? “왜”를 알 수 있는가? • 컴공과 대학원생 15명을 대상으로 함 • each level에서 dominant한 cluster를 보여줌-> 한문장으로 해석해봐라 • 사전에 app을 써보게 해서, 대략의 기능을 익힘 • 사전에 visualization이 어떻게 작동하고 어떤 정보가 있는지 quick instruction session을 함
  • 25. User Study Results 해석가능한 정보인가? “왜”를 알 수 있는가? • 컴공과 대학원생 15명을 대상으로 함 • each level에서 dominant한 cluster를 보여줌-> 한문장으로 해석해봐라 • 사전에 app을 써보게 해서, 대략의 기능을 익힘 • 사전에 visualization이 어떻게 작동하고 어떤 정보가 있는지 quick instruction session을 함 • 총 555개의 description을 받음 • 그 중에서 530개에 사람들이 “해석가능-> 한문장으로 표현”, 25개 “해석 불가능-> 해석못하겠다고 표현” • 한 cluster당 평균 46초 만에 답함 • 외부전문가들에게 consistency를 검증함
  • 26. 기존 ClickStream 연구의 한계 3) 기존의 clustering methods들은 largely supervised 혹은 semi-supervised 4) 왜 그렇게 행동하는가?에 관한 답은 black box로 놔둠 Q3. Supervised의 의미는 무엇인가 Q4. 그럼 이 시스템은 “왜”그런지도 분석해주는가 ? [정답이 없음=exploratory] Unsupervised learning is the machine learning task of inferring a function to describe hidden structure from unlabeled data. [정답이 있음] Supervised learning is the machine learning task of inferring a function from labeled training data. vs. not exactly. visualization을 통해 human의 해석을 도울뿐 DISCUSSION
  • 27. DISCUSSION 기존 ClickStream 연구의 한계 1) Navigation Path Within a website에 머물고 있음 2) Markov Chain Models에 의존하여 popular webpage를 예측한다. Q1. Navigation Path하고 Clickstream이 어떻게 다른가 이동 Action -> Markov Chain Model이 문제가 아니라, popular webpage가 한계였던것 Dependent Condition이어도 converge on predictable distribution @=0.85 Q2. Markov Chain Model에 의존하여 Popular Webpage를 예측하는것이 왜 한계인가
  • 28. DISCUSSION machine이 잘하는 일 human이 잘하는 일 How can machines help humans?
  • 29. How can/should machines and humans cooperate? DISCUSSION machine이 잘하는 일 human이 잘하는 일
  • 30. Unsupervised Clickstream Clustering for User Behavior Analysis + CHI 2016 -Gang Wang et al. /이현정 x 2016 Spring Thank You!