3. 트레저데이터(Treasure Data) 회사 - 개요
Some of our 250+ Global Enterprise Customers
Treasure Data 는 클라우드 서비스 형태로 데이터의 수집/저장/처리/분석/활용 플랫폼을
제공하는 글로벌 선도 기업으로서, 수많은 종류와 양의 데이터에 대한 데이터 파이프라인
과 데이터 플랫폼 관리의 각종 복잡한 이슈를 해결함으로써, 기업이 1~2개월의 빠른 시간
안에 최소한의 비용과 사람만으로 데이터로부터 실질적인 가치를 창출하도록 돕고 있습니
다.
Treasure Data Investors
Jerry Yang
Yahoo! Founder
James Lindenbaum
Heroku Founder
Bill Tai
Leading Angel Investor
Investme
nt
Treasure Data’s
Data Technology Open Source Users• 2011년 창업 / 2012년 서비스 시작 / 헤드쿼터 : Silicon Valley (Mountain View, CA)
• 투자 : 글로벌 탑 VC들로부터 총 $54M 펀드 레이징 / 시리즈 C
• 글로벌 팀 : Mountain View, CA – USA, Tokyo – Japan, Seoul – Korea, New Delhi – India
• 글로벌 데이터 분석 업계의 기술 혁신을 오픈소스를 통해 주도
Fluentd | Fluent-bit | Embulk | MessagePack | PlazmaDB | DigDag | Hivemall | Presto
4. 트레저데이터(Treasure Data) 회사 - 성장
T
19T
38T
56T
75T
Oct
2011
Mar
2012
Aug
2012
Jan
2013
Jun
2013
Nov
2013
Apr
2014
Sep
2014
Feb
2015
July
2015
Dec
2015
May
2016
Oct
2016
Data Records Stored in the Treasure Data
Cloud Service
Treasure Data By the Numbers at January 2017
75T+ records of data imported since launch
2M+ records imported each second
5T+ records imported each month
30B records sent per day by one customer
Service Launched
5T Records
Series A Funding
10T Records
25T Records
50T Records
75T Records
Series B Funding
200 Customers
Series C Funding
Treasure Data DMP
Announcement
Live Data Management
Launch
5. Treasure Data Security Compliance Programs
(Details)
ISO 27001 Certified. Certificate number: 006-022817-001
Internationally recognized. Risk based framework
Favorable SSAE 16 SOC 2 Type II audit completed and
performed by external auditors
Services based control framework
Privacy Shield Registered
Compliance with EU Privacy Laws
TRUSTe for Privacy Shield dispute resolution
General Data Protection Regulation
Treasure Data to meet the regulation required date of May 2018
8. 트레저데이터가 해결하고 있는 문제
“성공적인 비즈니스는 제품과 서비스를 향상시키는 데이터 액션이 필요하
다! ”
“데이터 액션에 필요한 인프라를 갖추는 것이 가장 어려운 문제이며
수많은 시간, 돈, 사람의 투입이 필요하다! ”
9. 트레저데이터의 문제 해결 방법
“Plug-n-play managed analytics infrastructure in the cloud”
수집 저장
처리, 분석
(머신러닝, 시각화)
액션
TREASURE DATA
• 필요한 액션을 수행하는 애플리케이션을 데이터로 제어
• 데이터 액션의 결과값을 다시 수집하여 재활용
• 데이터 전체 흐름(파이프라인)을 모니터링하고 제어
10. 3 관리하기 어려운 분석계
4 활용 안되는 KPIs
2 복잡한 시스템 통합
1 흩어져 있는 데이터 저장소들
Before Treasure Data
11. 3
쉬운 솔루션 연계
2 관리 부담 제로
1
쉬운 데이터 수집
50+ Data Outputs
Multi-Tenant Cloud Service
300+ Data Sources
After Treasure Data
12. 트레저데이터 (Treasure Data) 플랫폼 솔루션
개요
ANALYST CONSOLE Connectors UI SQL IDE Result
Output
Micro Segmentation Audience Insights
Dynamic, Multi-Touch
Attributions
CUSTOMER DATA & INSIGHT SOLUTIONS
ID Syndication Personalization
API
MANAGE Resiliency Security (Certification) ACL
ORCHESTRATE & AUTOMATE APIs Workflow Process
Automation
15. 수많은 데이터 수집과 처리의 문제
서비스와 비즈니스를 위한 수많은 데이터들
• 정형데이터 vs 비정형데이터
• 실시간 스트리밍 데이터 vs 주기적 생성 데이터
• 클라우드 상의 데이터 vs 내부 시스템 상의 데이터
• 다양한데 각각 고립되어 있는 데이터
• 각각을 처리하기 위한 개별 리소스 투입이 문제
갈수록 중요해지고 있지만 처리가 문제인
대량의 로그 데이터
• 로그를 이용한 실시간 비정상 행위 탐지
• 양에 비례하는 처리 비용 스킴에서 문제 발생
서비스와 비즈니스를 위한 수많은 데이터들, 특히 실시간 로그 데이터들을 수집하고 처리하는 데에 이슈 발생
16. 수많은 데이터 수집과 처리의 문제
Enterprise Output Connectors
Realtime
안정적이고 빠른 성능, 실시간 필터링과 버퍼링, 태그 기반 손쉬운 라우팅과 엔터프라이즈 커넥터를 활용해
복잡도가 높은 데이터 파이프라인 문제를 쉽게 해결하고, 비용을 대폭 감소할 수 있는 여지 마련
17. Fluentd 의 활용 기본
로그를 수집하는 동시에 필터링 처리하여 필요한 부분만 원하는 저장소로 다중 동시 포워딩. 버퍼를 통한 안정화
Routing based on tags
Copy to multiple storages
buffer
access.log
in_tail
Retry automatically
Exponential retry wait
Persistent on a disk
Slice files based on time
2016-01-01/01/access.log.gz
2016-01-01/02/access.log.gz
2016-01-01/03/access.log.gz
…
18. AWS와 관련된 Fluentd 의 또다른 활용 사례
Atlassian 의 클라우드 로깅 및 분석 플랫폼에 활용
Elasticsearch
cluster
Ingestion
service
• At-most-once / At-least-once
• HA (failover)
• Load-balancing
AWS 상에 대용량 다중 로그 포워딩 (NC Soft, etc.)
20. 광고 데이터 통합, 분석, 시각화
Web 사이트
실제 매장
모바일 앱
다수의 채널사이트, 앱, 점포)
에서 데이터를 통합하고 행동 분석 / 시각화
각 유저마다 최적의 타이밍, 최적의
수단으로 적합한 액션을 실행
실시 내용
유저 행동을 각 채널마다 파악
분석 한 결과를 직접 다양하게 연계하여 실행
과제
MetLife, LG, 무인양품, 스카이락, 쿡 패드
리크루트, MonotaRO, U-NEXT, Retty
GREE, 반다이 남코, 드리 콤
고객 사례
매출 향상
사이트, 앱 개선
1to1마케팅 (이메일 / 반응형 웹)
추천 정확도 향상
기대 효과
데이터 소스 데이터 통합 / 분석 BI 대시보드
고객 정보
데이터 소스를 통합하고, 데이터를 분석/시각화 하고, 분석 내용을 공유
21. 21
광고 데이터 통합, 분석, 시각화
• 매번 정형 보고서를 만드는 데에
단조로운 작업이 많이 필요
• 보고 싶은 보고서를 보는 데에 많은
화면 전환이 필요
• 복수의 데이터 테이블을 다운로드하고
엑셀로 재집계하는 작업이 필요
• Web UI 에서 조작하기에는 불편한
점들이 있음
• 정형 보고서를 자동화할 수 있게 됨
• 보고 싶은 레포트를 Tableau 에서
손쉽게 볼 수 있게 됨
• 빅데이터의 고속 집계 및 애드혹
분석이 가능하게 됨
• 원천 데이터를 보존하고 있기 때문에,
모든 분석 요소 축과 조건을 활용한
시각화가 가능해짐
• 매일 CSV로 만들어지는 전체 원천
데이터를 트레저데이터로 자동 수집
저장
• 1차로 정제한 후에 Tableau 서버에
자동으로 전송
• Tableau Server 에서 기본 레포팅을
하고, Tableau Desktop 에서 Adhoc
분석을 실행
Raw Data
(Standard, Rich, Conversion)
Match Type Data
(Campaign, Site, Keywords, etc)
FTP 서버 자동 수집
레포트 자동 갱신
Adhoc 분석
(커스텀 레포트, 탐색 분석)
・기본 레포트
・어트리뷰션 레포트
・키워드 레포트 등
23. • AXA 는 타겟 마케팅 캠페인을 통해서 보다 뛰어난 가망 고객 스코어링과 고객과의 상호작용을 원했음
• 디지털 고객에 대한 인사이트를 제대로 활용해서 디지털 소비자의 터치포인트를 제대로 건드려서 폭발적인 성장을 만들고 싶음. 예를 들어
보다 높은 고객 전환율을 위해서는 구체적으로 어떤 인구통계학적 요소가 영향을 미치는가?
• 확장성 있고 유연한 고객 데이터 관리 플랫폼을 갖고 있지 않았기 때문에 이러한 전환점을 마련하기에는 한계가 있었음
CDP : 다양한 고객 데이터 접점으로부터 통찰을
수집하고 통합
PC, 태블릿, 스마트폰 등으로 엄청난 양의 보험 문의가
들어오는데… 그들이 구체적으로 누구인지 전혀 모르고
있다!
인구통계특성 – 가족관계, 생애단계, 수입
행동 이력 – 브랜드와 제품에 걸친 구매 의도 추론 가능 행동
관심사
CRM Data – 기존 고객 or 경쟁사 고객
웹, 모바일, 소셜미디어 상의 데이터
TD 의 트래커와 태깅 기술을 이용하여, 웹과 모바일의 행동
데이터 및 SFDC 에 있는 CRM 데이터를 모두 연결 통합
가망 고객에 대한 정교한 스코어링을 위한 원천 데이터의 추출,
가공과 세그먼트 정보의 가공
광고 집행 및 콘텐츠 노출을 해야 하는 각종 매체 채널과의
신디케이션 (언제 누구에게 어떤 콘텐츠를 보여주는 지 제어)
타겟 고객 세그먼트의 확인과 지정
양질의 가망 고객 추출을 대규모로 진행
가장 수익성이 좋은 세그먼트에 집중하여 광고 캠페인 진행
고객 리텐션(잔존율)이 높은 방향으로 광고 캠페인 집중
Customer,
Leads/Prospects
Media & Agencies
Web site
AXA Data Unification Layer
Aggregation & Analytics
Cookie data &
Lead scoring
Sales Cloud (SFDC)
Informatica PowerCenter
ETL
JS Tags
DataConnector
JS Tags
AXA
Bulk Upload
25. 1955
Average F500 life expectancy 75 years
2015
Average F500 life expectancy 15 yearsvs
지난 15년간,
Fortune 500대 기업의 52%가
세상에서 사라졌다
“Digital Darwinism is unkind to those who wait.”
Ray R Wang, Constellation Research
26. AND THERE’S DIGITAL DISRUPTORS
Google, Facebook, Amazon, NetFlix, Uber and AirBnB
이들의 시가 총액을 합치면 $1.38 Trillion
이들 모두의 공통점이 있다면 무엇인가?
27. 이들 모두 개인화된 경험을 대규모로 제공
- Personalized Information
- Personalized Communication
- Personalized Commerce
- Personalized Hospitality
- Personalized Transportation
28. 오늘날 소비자들은 ‘경험’에 의해서 구매를 한다
• Amazon 이 전세계 모든 브랜드에게 보여준 것 - “소비자의 디지털 경험 및 개인화가 중요하다”
• Amazon Garage – 자동차에 대한 쇼핑 화면이 아니라, Car Life 를 전방위 케어. 왜?
• Amazon.com 은 이제 더 이상 물건을 사러 방문하는 디지털 공간이 아니라 필요한 물건을
발견하기 위해 시간을 보내는 공간. 이 시간동안 얼마나 많은 경험의 족적을 우리는 남기는가?
• 이제 Amazon 은 오프라인 매장 공간에도 진출(O2O, 옴니채널). AR 과 VR 까지 고려한다면?
29. 1. 디지털의 파괴적 혁신자들은 개개인의 고객에 대해 하나로 통합된 360도 전방위로
살펴볼 수 있는 데이터 환경을 갖추고, 고객이 최적의 타이밍에 최적의 경험을 할 수
있게 하는 고객의 행동과 속성 모두를 활용한다.
2. 하지만, 고객의 데이터는 종종 파편화 되어있다. 마케터의 74%는 10개 이상의 도구를
사용하고 있다. 마케터의 91%는 빠르게 성과를 내기 위해서 올인원 솔루션보다는 각
목적에 최적화된 분야별 최고의 솔루션들을 여러 개 사용하고 있다. 이것은 데이터의
파편화를 가중시키는 원인이기도 하다.
3. 고객의 데이터를 제대로 통합해서 활용하려면, 마케터들은 부서간 협력을 통해
데이터에 대한 소유권을 확실하게 갖고 제어해야만 하는 상황이다. 이 문제는 종종
조직에서 또다른 숙제가 되곤 한다.
30. 왜 지 금 C D P ( 고 객 데 이 터 플 랫 폼 ) 를 고 민 해 야 하 는 가 ?
• 당신의 고객들이 당신이 그렇게 하기를 원하고 있다
73% 의 소비자들은 보다 개인화된 고객 경험을 얻기 위해 기꺼이 그들의 데이터를 기업들에게
제공할 용의가 있다. CDP 는 이를 위한 기본 토대이다.
• 당신의 경쟁사들이 이미 그렇게 하고 있다
Gartner 에 따르면, 47% 의 디지털 마케터들은 CDP 솔루션 제공업체 또는 기존의 기술 결합을
통해 CDP 에 해당하는 기능들을 이미 구현했다.
• 미루면 미룰수록 더욱 힘들어진다
Martech 시장의 도구들 개수는 매년 두 배로 성장하고 있으며, 성장이 저하될 기미가 보이질
않는다. 데이터 통합의 문제는 사라질 수가 없으며 이러한 툴들을 통해 파편화될 수록 더욱
어려워질 수밖에 없다.
31. CDP, 고객 데이터 플랫폼의 운영 개괄
개별 고객과의 상호작용은 통합된 고객 데이터를 통해 개인화 되어야만 한다.
고객의 디지털 족적은 그들이 무엇을 원하는지 말해준다. 고객을 기쁘게 하기 위해서는 개인화 배경으로 다가가야 한다.
CDP 는 데이터를 A에서 B로 단순하게 옮기는 것도 아니고, 마케팅 캠페인 과정과 결과를 시각화 하는 것도 아니다.
고객 데이터 통합 캠페인 실행 캠페인 결과 분석/재활용세그먼트 & 개인화
■ 수많은 이종의 데이터 소스로부터
데이터를 통합하여 관리
■ 3rd 파티 데이터의 통합과 1st 파티
데이터와의 연동 단일화
■ 캠페인과 분석 니즈에 따라 다양한
관점으로 유연하게 데이터를
추출할 수 있어야 함
고객 마스터
데이터
타겟 A
타겟 B
타겟 C
웹 & 모바일앱
개인화
Email / SMS
오프라인 상호작용
광고 네트워크
소셜 리타겟팅
캠페인 결과
캠페인
상호작용
고객 행동
2nd / 3rd
파티 데이터
CDP
관전
포인트
CDP
마케
팅
활동
필요
한
준비
사항
■ 고객 데이터의 시각화
■ 다양한 조건과 기준에 따라
유연하게 세그멘테이션 설정 가능
■ 만들어낸 커스텀 세그멘테이션이
캠페인을 실행하는 도구와
끊김없이 자동으로 연결되어야 함
■ 새롭게 형성된 세그멘테이션을
활성화함으로써 즉시 캠페인
실행으로 자동 연결
■ 유연한 캠페인 실행 (시간, 위치,
인구통계 특성 등에 기반한 광고
매체, 오디언스 노출 및 기타
비광고성 마케팅 캠페인 실행)
■ 캠페인 결과 레포트는 자동으로
고객 개인 단위의 데이터와 연동
■ 별도의 준비와 딜레이 없이 시각화
및 분석 활동이 바로 이어져야 함
■ 다음 캠페인의 개선을 위한 결과
반영이 자동으로 적용되어야 함
32. 트레저데이터 고객 데이터 플랫폼 (Treasure CDP)
A Customer Data Platform is a marketer-controlled integrated customer
database that can support coordinated programs across multiple channels
다양한 데이터 수집 고객 프로필 연결 / 세그멘테이션 / 통합 캠페인 실행
광고 로그
웹로그
모바일 앱로그
소셜미디어 데이터
POS 데이터
CRM 데이터
고객 설문 조사
E-Commerce
이용자 인구 통계
Treasure CDP
원천빅데이터 저장 , Data (ID) 통합, 세그멘테이션, 대시보드,
워크플로우 제어, 데이터웨어하우스, 머신러닝 (추천 엔진 등)
통계 데이터
소득 수입 데이터
회사간 연계 데이터
POS 데이터
날씨 데이터
인구 통계 데이터
관심사 데이터
직업 데이터
실시간 스트리밍/
배치 형태로
다양한 데이터
수집
최적의 조건을
알고리즘으로 찾아
캠페인 실행 자동화
34. SHISEIDO – CDP 기반 옴니채널 로열티 최적화
OVERVIEW
고객 로열티에 대한 깊은 역사와 노하우:
무려 80년에 걸쳐 고객 로열티 프로그램을 성공적
으로 운영해 왔으며, 온라인과 결합한 것은 2012
년 부터.
개별 로열티 도구에 파묻힌 고객 특성:
Adobe, Salesforce, public DMP 등의 도구에 많은
투자를 했으나 각각의 분절된 데이터로 인해 정작
ROI 는 낮음.
목표:
광고 노출 디바이스를 타겟팅하는 것이 아니라 고
객을 만족시키는 것으로 (마케팅)리소스를 투입하
는 대상을 전환!
BEFORE
Newsletters
Customer Loyalty
AD Campaigns
Mobile
Web
Offline
35. SHISEIDO – CDP 기반 옴니채널 로열티 최적화
실행데이터통합 / 연계 데이터통합 / 시각화 / 분석 / 연계
3rd Party Cookie 데이터 (오디언스 데이터) 연계
성별 결혼 여부
연령 직업
연수입 흥미/관심사
자녀유무 취미/기호
3rd Party Public DMP
1st Party (사이트검색, 고객데이터)
Private DMP
대량의 원천데이터 축적, 데이터 통합,
세그멘테이션, 연계 실행
점포 POS 데이터
W+ 회원 데이터
OS 구매 데이터
샘플 신청 데이터 등
“와타시 플러스”, ”Beauty &
Co.”
사이트 검색 데이터
미디어 사이트 검색 데이터
2nd Party (미디어 채널 데이터)
LINE
이메일
애드네트워크
DSP
Facebook/Twitter
광고 실행
CRM 실행
마케팅 실행
앱 노티
PC/SP 사이트별 집행
데이터 시각화 데이터 분석
36. SHISEIDO – CDP 기반 옴니채널 로열티 최적화
디지털 트랜스포메이션의 성과
로열티 프로그램 고객 당
매장에서 평균 지출(매출)이
20% 성장
• Adobe Analytics, Salesforce Marketing
Cloud, 각종 고객 로열티 앱들을 포함한
20여개의 흩어진 데이터를 통합하고,
100여개 이상의 브랜딩 웹사이트 행동
패턴 데이터 통합 연결
• 전체 채널에 걸쳐 개인 행동에 기반한 최
적의 개인화를 지속적으로 자동으로 실
시
AFTER
Customer Loyalty
AD Campaigns
Newsletters
37. SUBARU – CDP 기반 데이터 주도 성장
BEFORE:
분절된 데이터로 인한 예산 낭비
• DMP를 포함한 다양한 기술에 투자를
하긴 했음
• 로열티앱, 제휴 콘텐츠, 딜러샵 방문 등
의 여러 채널에 걸친 고객 행동 데이터
가 개인화에 제대로 쓰이지 못함
• 낮은 ROI, 결국 C레벨들 사이에서 성과
기반의 디지털 트랜스포메이션에 대한
구체적인 니즈 발생
Male / Age 25-35 / Lives in
CA
38. SUBARU – CDP 기반 데이터 주도 성장
AFTER:
최적의 타이밍에 최적의 메시지
• 자사 로열티 앱과 딜러 방문
데이터 등을 세그멘테이션에
고도로 활용하여 관련 마케팅
메시지 CTR 350% 상승
• 자사가 직접 만든 솔루션에
비해 솔루션 구축과 운영에
들어간 시간 80% 단축
Male / Age 25-35 / Lives in
CA
39. 인식 딜러샵 방문 구매 결정조사 & 비교 구매 후
자동차 전문 매체
광고 노출
매스미디어, 자동차 박람회
순 방문
딜러샵 방문
딜러샵 검색
총괄적인 고객 여정 분석
광고 ROI 최적화 웹사이트 개인화 / 최적화 고객 여정 기반 캠페인 개인화 및 고객 관계 관리
구매 완료 !
CDP
Data
Flow 광고 집행 로그
오프라인
데이터
소셜 미디어
상호작용
Customer Data Platform
(고객 여정 분석 & 개인화)
Public DMP
접속 로그
딜러샵 네트워크 DBWifi 접속 로그
Subaru ID
Ad-hoc 캠페인 데이터
설문 패널 데이터
자동차 전문 매체
상호작용
SUBARU 의 CDP 기반 캠페인 데이터 관리 흐름
고객 여정
단계
CDP
활용 부분
41. 금융권의 의미 있는 데이터 액션을 위한 조언
• 데이터 액션 : 분석, 예측보다는 가치를 만드는 본질인 실행에 집중하는 데이터 활용법
• 클라우드, 개인정보, ... : 할 수 있는 것부터 빨리 하면서 노하우 축적. 마케팅/광고 개인화부터 실행. ADID/IDFA 키 사용.
하이브리드 클라우드 형태. 웹/앱 행동로그 빅데이터에 기반한 개인화/자동화 등을 논의 중
• DMP 및 데이터 거래 비즈니스 모델에 대한 고민
• 온라인 서비스의 재해석/재구성 필요 (결국 고객의 경험을 디자인하고 분석하는 것)
고객에게 단방향으로 기능/편익/가치를 제공해주는 것은 기본
기본에 덧붙인 기본으로, 그 과정에서 고객의 생각과 의도를 추론할 수 있는 정보 설계
해당 정보를 고객에게 억지로 얻는 것이 아니라 서비스로 편익을 받다보면 자연스럽게 관련 데이터를 의식하지 않고 제공하게끔
서비스 디자인을 하는 것이 핵심
• 오프라인 기반이 있는 금융권 : 오프라인에서의 고객 경험 프로세스 재해석 데이터 축적/통합. 온라인과 오프라인이 따로 놀
수 없음. SUBARU 케이스에서 딜러샵이 금융권에서는? 결국 같음.
• 첫째도 속도, 둘째도 속도, 셋째도 속도. 클라우드를 당장에 싸서 도입하는 것으로 생각하면 큰 오해. Scalability 관점의 총체적
효율이 중요하지만, 그보다 더 중요한 것은 속도. 바로 사용 가능하느냐의 문제와 적절한 커스터마이징 유연성 사이의 밸런싱이
핵심
• 데이터 사이언티스트나 데이터 조직을 셋팅하는 것이 가장 먼저 할 일이 아니라, 명확한 비즈니스 목표와 그 목표를 달성하기
위한 서비스 전략을 구체적으로 수립한 다음에, 이것을 데이터 관점에서 해결할 수 있는 역량을 갖춘 솔루션, 사람을 찾기