Data analysis with Tajo

Tajo를 이용한 실무 데이터 분석
고영경
ykko@gruter.com

©2014 Gruter. All rights reserved.
오늘의 주제
허접 데이터 분석가의 Tajo 사용기
“Tajo 를 이용한 실무 데이터 분석”
1. 개인용 분석엔진으로 Tajo 사용하기
2. Tajo 데이터 분석을 예제로 맛보기
- Cohort 분석
- RFM 모델
- 아파치 웹로그 분석
1GB 데이터를 요리조리
살펴보고 싶은데 뭘로 하지?
엑셀?
MySQL?
Script ?
R ?
하둡에 올려서 분산처리? 헉…
Tajo 로 한번 해 볼까?

개인용 분석엔진으로 Tajo 사용하기
Tajo는 데이터 분석가를 위한 유연하고 확장성있는 분석 엔진
• Tajo는 대용량 분산 DW 시스템으로 설계되었지만
• 데스크탑 환경에서 개인 개발 환경으로도 유용한 도구
• 인터랙티브 분석과 대용량 데이터 처리를 모두 지원
• 아키텍처 변경 없이 대용량 분산 환경에 적용 가능
• 다양한 스토리지 지원 (HDFS, Local File, S3, Swift, HBase, ElasticSearch…)
• Pluggable 커스텀 스캐너 - 비정형 데이터도 별도 변환 없이 SQL 분석
Tajo Desktop Package
• Mac, Linux 에서 쉽게 설치할 수 있는 standalone Tajo 설치 패키지
• (Windows 버전은 개발 중)
• Hadoop 필요 없이 Local File system 을 스토리지로 이용
3

Tajo Desktop Package 설치
1. 그루터 홈페이지에서 다운로드
http://gruter.com/download.html
2. 압축 풀고
$ tar xvfz tajo-0.x.tar.gz
$ cd tajo-0.x
3. 환경 설정
$ bin/configure.sh
4. Tajo 실행
$ bin/startup.sh
4
5. 샘플 데이터셋 로드 (optional)
$ bin/make-test.sh
6. TSQL 실행
$ bin/tsql
Try ? for help.
default>
7. Tajo 종료
$ bin/shutdown.sh

Tajo 관리 UI
http://tajo-master-ip:26080/
5

Tajo JDBC driver를 이용한 외부 툴 연동
6
Tajo JDBC
HDFS HBase
AWS
S3
Local
Storage
OpenStack
Swift
Tajo Cluster
ETL Tools BI Tools Reporting tools

개인용 분석 엔진 Tajo vs. Mysql
• RDB와 비교한 Tajo의 특징
– RDB 는 성숙하고 익숙한 기술, Tajo는 계속 발전중인 기술
– ETL 과정이 필요 없음  처리 시간, 저장 공간, 개발 노력 절약
– Index 가 없음  질의 성격과 데이터 크기에 따라 유불리 달라짐
– 커스텀 스캐너를 이용하여, 다양한 포맷의 데이터를 유연하게 처리 가능
– 단일 머신에서도 복수 Worker 로 분산 처리 가능
– 작은 데이터에서는 RDB와 큰 속도 차이 없이 인터랙티브 분석 가능
– 데이터 크기가 커질수록 Tajo 가 유리
7

데이터 준비
데이터 파일을 External Table 로 연결
8
CREATE EXTERNAL TABLE orders (
O_ORDERKEY bigint, O_CUSTKEY bigint, O_ORDERSTATUS text,
O_TOTALPRICE double, O_ORDERDATE text, O_ORDERPRIORITY text,
O_CLERK text, O_SHIPPRIORITY int, O_COMMENT text)
USING text with ('csvfile.delimiter'='|')
LOCATION ‘file:///Users/ykko/tajo/tajo-desktop-weblog-
2.0/data/tpc-h10m/orders.txt';
SELECT * FROM orders LIMIT 10;
/Users/ykko/tajo/tajo-desktop-weblog-2.0/data/tpc-h10m/orders.txt

분석 예제 1 – Cohort Analysis (1)
Cohort 분석
– 동일한 특성을 가진 고객들을 그룹(Cohort)로 묶어
– 시간의 흐름에 따라 각 그룹의 성과(유지율, 사용량, 고객가치 등)를 비교하는
분석 방법
9
* 출처: 하용호 “스타트업은 데이터를 어떻게 바라봐야 할까?”
http://www.slideshare.net/yongho/ss-32267675

이 예제에서는
– TPC-H 샘플 데이터의 orders 테이블에서
– 특정 월에 첫 구매한 사용자들을 Cohort 로 묶고
– 각 그룹의 이후 월 단위 재구매 패턴을 비교
원하는 결과
10
Cohort 첫 구매월 1달 후 2달 후 3달 후 4달 후 5달 후
1월 첫구매 그룹 151,292 151,330 150,063 149,407 149,510 152,193
2월 첫구매 그룹 150,624 153,407 151,847 148,187 149,797
3월 첫구매 그룹 150,328 152,783 149,548 154,045
4월 첫구매 그룹 151,178 149,859 148,542
5월 첫구매 그룹 152,174 150,412
6월 첫구매 그룹 151,265
Column 설명
o_orderkey 주문번호
o_custkey 고객번호
o_totalprice 주문금액
o_orderdate 주문일자
…
Table: orders

Cohort 구하기
– Cohort 정의: 특정 월에 첫 구매한 사용자 그룹
11
CREATE TABLE cohort AS
SELECT o_custkey, -- 고객번호
min(o_orderdate) as cohort_date, -- 최초 주문일
min(substr(o_orderdate,0,8)) as cohort -- cohort 그룹
FROM orders
WHERE o_orderdate between '1992-01-01' and '1992-06-30'
GROUP BY o_custkey
ORDER BY o_custkey;
결과

각 Cohort 의 월별 재구매 계산
12
-- cohort, 주문 월, 주문자 수, 주문건수, 주문총액, 평균주문액
CREATE TABLE cohort_analysis AS
SELECT c.cohort,
substr(o_orderdate,0,8) as order_month,
count(distinct(o.o_custkey)) as buyer_cnt,
count(o.o_orderkey) as order_cnt,
round(sum(o.o_totalprice)) as amount,
round(avg(o.o_totalprice)) as avg_amount
FROM orders o
JOIN cohort c ON o.o_custkey = c.o_custkey
WHERE o.o_orderdate between '1992-01-01' and '1992-06-30'
GROUP BY c.cohort, substr(o_orderdate,0,8)
ORDER BY c.cohort, substr(o_orderdate,0,8) ASC

13
-- cohort, 주문 월, 평균주문액
CREATE TABLE cohort_analysis AS
SELECT c.cohort,
substr(o_orderdate,0,8) as order_month,
round(avg(o.o_totalprice)) as avg_amount
FROM orders o JOIN (
SELECT o_custkey,
min(o_orderdate) as cohort_date,
min(substr(o_orderdate,0,8)) as cohort
FROM orders
WHERE o_orderdate between '1992-01-01' and '1992-06-30'
GROUP BY o_custkey
) c ON o.o_custkey = c.o_custkey
WHERE o.o_orderdate between '1992-01-01' and '1992-06-30'
GROUP BY c.cohort, substr(o_orderdate,0,8)
ORDER BY c.cohort, substr(o_orderdate,0,8) ASC
Sub Query 로 합쳐 보면

15
Cohort 1992-01 1992-02 1992-03 1992-04 1992-05 1992-06
1992-01 151,292 151,330 150,063 149,407 149,510 152,193
1992-02 150,624 153,407 151,847 148,187 149,797
1992-03 150,328 152,783 149,548 154,045
1992-04 151,178 149,859 148,542
1992-05 152,174 150,412
1992-06 151,265
1월 첫구매 그룹 151,292 151,330 150,063 149,407 149,510 152,193
2월 첫구매 그룹 150,624 153,407 151,847 148,187 149,797
3월 첫구매 그룹 150,328 152,783 149,548 154,045
4월 첫구매 그룹 151,178 149,859 148,542
5월 첫구매 그룹 152,174 150,412
6월 첫구매 그룹 151,265
첫
구
매
재 구매

16
144,000
146,000
148,000
150,000
152,000
154,000
156,000
첫 구매월 1달 후 2달 후 3달 후 4달 후 5달 후
1월 첫구매 그룹
1월 첫구매 그룹 151,292 151,330 150,063 149,407 149,510 152,193
2월 첫구매 그룹 150,624 153,407 151,847 148,187 149,797
3월 첫구매 그룹 150,328 152,783 149,548 154,045
4월 첫구매 그룹 151,178 149,859 148,542
5월 첫구매 그룹 152,174 150,412
6월 첫구매 그룹 151,265

실무 적용 사례 – Cohort Analysis on AWS
17
Locket - 스마트폰 잠금화면에 인기 컨텐츠를 보여주는 App
고객의 App 사용 행동 로그를 이용하여 Cohort 분석 수행
EC2 인스턴스 10대로 Tajo 클러스터 구성, 수행시간 40초
EC2
Tajo
EC2
Tajo
EC2
Tajo
S3
Source Data Tajo Tables
RDS
MySQL
EC2
Tajo
1. Cohort Analysis 2. Save Output Data
3. Load

분석 예제 2 – RFM 모델 (1)
• RFM 모델
– 과거의 거래 데이터에서 R, F, M 속성으로 고객을 분류하는 간단한 모델
– Recency :거래의 최근성
– Frequency : 거래 빈도
– Monetary : 거래 규모
– 고객의 가치 계산, 마케팅 타겟 유저 선별, 재구매 예측 모델 등에 사용
• 이 예제에서는
– Orders 테이블의 주문 데이터를 이용하여
– R, F, M 을 각각 3등급으로 나누어
– 개별 고객의 R,F,M score 를 구하고
– 이후 1년의 재구매 데이터와 JOIN 하여
– 재구매 예측 모델을 만들기 위한 데이터를 준비
18

분석 예제 – RFM 모델 (2)
각 고객의 R,F,M 값 구하기
19
-- 고객번호, Recency, Frequency, Monentary
CREATE TABLE rfm_1995
AS
SELECT o_custkey,
MAX(CASE WHEN o_orderdate >= '1995-11-01' THEN 2
WHEN o_orderdate >= '1995-07-01' THEN 1
ELSE 0 END) AS r_score,
CASE WHEN count(o_orderkey) >= 4 THEN 2
WHEN count(o_orderkey) >= 2 THEN 1
ELSE 0 END AS f_score,
CASE WHEN sum(o_totalprice) >= 500000 THEN 2
WHEN sum(o_totalprice) >= 200000 THEN 1
ELSE 0 END AS m_score
FROM orders
WHERE o_orderdate BETWEEN '1995-01-01' AND '1995-12-31'
GROUP BY o_custkey
Recency 기준 R_score
직전 2개월 내 구매 2
직전 6개월 내 구매 1
Else 0

R, F, M 그룹 통계
20
-- R-score, F-score, M-score, # of users
SELECT r_score, f_score, m_score,
count(*) as cnt
FROM rfm_1995
GROUP BY r_score, f_score, m_score
ORDER BY r_score, f_score, m_score;
r_score, f_score, m_score, cnt
-------------------------------
0, 0, 0, 8105
0, 0, 1, 3488
0, 1, 0, 1375
0, 1, 1, 5477
0, 1, 2, 1151
0, 2, 0, 3
0, 2, 1, 222
0, 2, 2, 726
1, 0, 0, 5631
1, 0, 1, 2466
1, 1, 0, 2790
1, 1, 1, 12234
1, 1, 2, 3681
1, 2, 0, 31
1, 2, 1, 1607
1, 2, 2, 6674
2, 0, 0, 2703
2, 0, 1, 1178
2, 1, 0, 1859
2, 1, 1, 9390
2, 1, 2, 3293
2, 2, 0, 30
2, 2, 1, 2023
2, 2, 2, 10436
결과
자주 오지만 돈 안 되는 고객 그룹
이탈 고객 그룹
우수 고객 그룹
재획득 마케팅
Upsell 유도
VIP 마케팅

과거 구매 데이터(test set) + 이후 재구매 데이터(validation set) 으로
재구매 예측 모델을 만들거나, 고객 가치를 계산하여 고객 세분화에 활용
ex) 다중 회귀 분석 모델 Y = a + w1R + w2F + w3M
21
-- custkey, R-score, F-score, M-score, 이후 1년간 재구매액
CREATE TABLE rfm_model_data
AS
SELECT T1.o_custkey, T1.r_score, T1.f_score, T1.m_score,
COALESCE(T2.repurchase_amount,0) as repurchase_amount
FROM rfm_1995 T1 LEFT OUTER JOIN
( SELECT o_custkey,
sum(o_totalprice) as repurchase_amount
FROM orders
WHERE o_orderdate BETWEEN '1996-01-01' AND '1996-12-31'
GROUP BY o_custkey
) T2
ON T1.o_custkey = T2.o_custkey

분석 예제 3 – 아파치 웹로그 분석 (1)
커스텀 스캐너를 이용하여 웹로그 파일에 직접 SQL 질의 실행
커스텀 스캐너:
커스텀 포맷의 데이터를 읽어 Tajo Tuple로 바꾸는 reader 모듈
비정형 데이터를 별도 변환 없이 바로 SQL 분석
22
TajoJSON
Scanner
원본 데이터
Apache Log
Apache Log
Scanner
My Custom
Scanner
Pluggable Scanner
col1 col2 col3
Tajo Tuple Tajo Engine
SQL
Result Set
col1 col2 col3col1 col2 col3
JSONJSONJSON file
My Custom
Log

웹로그 파일을 External Table 로 연결
23
61.23.4.16 - - [15/Oct/2014:09:00:22 +0900] "GET /main HTTP/1.1" 200 942 "-" "Mozilla/...“
65.13.2.96 - - [15/Oct/2014:09:01:23 +0900] "GET /help HTTP/1.1" 200 242 "-" "Mozilla/..."
CREATE EXTERNAL TABLE web_logs (
remote_addr TEXT, logname TEXT, remote_user TEXT,
access_timestamp TIMESTAMP, request_method TEXT,
request_path TEXT, http_version TEXT, response_status TEXT,
transferred_bytes INT, referrer TEXT, user_agent TEXT
) USING TEXT WITH (
'text.serde'='org.apache.tajo.storage.text.ApacheLogLineSerDe',
'text.delimiter'=' ','text.null'='-'
) LOCATION 'file:///Users/ykko/tajo/tajo-desktop-weblog-
1.0/data/web-log';
LogFormat "%h %l %u %t "%r" %>s %b "%{Referer}i" "%{User-Agent}i"" combined
Apache Log Scanner

Request 가 많은 IP Top 10
24
SELECT remote_addr, count(*) as cnt
FROM web_logs
GROUP BY remote_addr
ORDER BY cnt desc
LIMIT 10;
시간대별 트래픽
SELECT hh, repeat('*', (cnt / 1000) ) as traffic
FROM (
SELECT extract(hour from access_timestamp) as hh,
count(*) as cnt
FROM web_logs
GROUP BY hh
ORDER by hh
) T1

©2014 Gruter. All rights reserved.25
hh, traffic
-------------------------------
0.0, *********************************************
1.0, *************
2.0, ****************
3.0, *************
4.0, **********
5.0, ******
6.0, *****
7.0, ****
8.0, **
9.0, **
10.0, *
11.0, *
12.0, *
13.0,
14.0,
15.0,
16.0, **
17.0, *********
18.0, ************
19.0, *************
20.0, ***********
21.0, *****
22.0, **********
23.0, ***************

H/M/L 분석 : Heavy, Medium, Light 유저의 비율과 추이
26
-- 날짜, heavy users, medium users, light users, total users
SELECT logdate,
sum(CASE WHEN requests >= 10 THEN 1 ELSE 0 END) as heavy,
sum(CASE WHEN requests BETWEEN 2 AND 9 THEN 1 ELSE 0 END) as medium,
sum(CASE WHEN requests < 2 THEN 1 ELSE 0 END) as light,
count(1) as total
FROM (
-- 날짜, 유저ID, requests
SELECT extract(day from access_timestamp) as logdate, remote_addr,
count(*) as requests
FROM web_logs
WHERE access_timestamp
BETWEEN to_timestamp('2012-01-23','FMYYYY-FMMM-FMDD')
AND to_timestamp('2012-01-28', 'FMYYYY-FMMM-FMDD')
GROUP BY logdate, remote_addr
) T1
GROUP BY logdate
ORDER BY logdate;

27
logdate, heavy, medium, light, total
-------------------------------
23.0, 34, 56, 264, 354
24.0, 79, 55, 290, 424
25.0, 77, 121, 284, 482
26.0, 79, 92, 256, 427
27.0, 59, 99, 233, 391
이어지는 궁금증, Tajo 질의로 풀어 본다면?
1월 heavy 유저 중, 2월에도 heavy 유저인 사람은 얼마나 되나?
Heavy 유저들이 많이 찾는 페이지는 무엇일까? light 유저들의 그것과 차이가 있을까?
…
logdate heavy medium light total H user % M user % L user %
23 34 56 264 354 9.6% 15.8% 74.6%
24 79 55 290 424 18.6% 13.0% 68.4%
25 77 121 284 482 16.0% 25.1% 58.9%
26 79 92 256 427 18.5% 21.5% 60.0%
27 59 99 233 391 15.1% 25.3% 59.6%

Wrap-up
Tajo는 개인용 분석 도구로도 편리하게 사용할 수 있다.
Tajo JDBC driver를 이용하여 외부 툴과 연동할 수 있다.
커스텀 스캐너를 plug-in 하여 비정형 데이터도 쉽게 분석할 수 있다.
Tajo-0.10.0 버전이 곧 나온답니다!
28

Data analysis with Tajo

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Data analysis with Tajo

Similar to Data analysis with Tajo (20)

More from Gruter

More from Gruter (20)

Data analysis with Tajo