4. 이용 가능한 데이터의 증가
고객
소셜미디어
날씨
외부 애플리케이션
광고
Digital User
Engagement
POS
내부 애플리케이션
블루투스 비콘
카메라
주문관리
이벤트
고객지원센터
웹
데이터
증가
생각보다 더 많은,
다양한 데이터가 있습니다.
15
년
사용기간
요구되는 데이터 플랫폼
1,000x
확장
>10x
5년마다
5. 더 많은 사용자의
데이터 접근
분석을 위한
다양한 방법
데이터 사용과 관련된
더 많은 규칙
데이터 과학자
분석가
비즈니스 사용자
애플리케이션
머신러닝 SQL 분석
과학계산
실시간,
스트리밍
광범위한 분석 요구
6. 분석의 기반, 데이터 레이크
무한한
데이터 스토리지
비즈니스 요구에
따라 확장
So Retailers can:
접근성과
데이터 변환
It allows for:
안전한 환경
단일 저장소 AI/ML 역량더 나은, 더 많은 분석미래 대비
11. 데이터 전송
분석
AWS 데이터 분석 포트폴리오
+ 11 more
Redshift
EMR (Spark
& Hadoop)
Athena
Elasticsearch
Service
Kinesis Data
Analytics
Glue (Spark
& Python)
S3/Glacier GlueLake Formation
시각화 및 머신러닝
QuickSigh
t
SageMaker Comprehen
d
Le
x
Polly Rekognition
Database Migration Service | Snowball | Snowmobile | Kinesis Data Firehose | Kinesis Data Streams | Managed Streaming for Kafka
데이터 레이크 인프라스트럭처와 관리
Pinpoint
Amazon
Forecast
Amazon
Personalize
12. 데이터레이크 5 Pillars
Data Ingestion Processing & Analytic
s
User AccessCatalog & Searc
h
Security & Governance
13. 분석 플랫폼 구축 절차
저장소 설정1
데이터 이동2
준비, 정리 및
카탈로그 생성
3
보안 및 규정 준수
정책 구성 및 시행
4
분석을 위한
데이터 제공
5
수집 및 정리 보안 데이터 분석
14. AWS Lake Formation
단 몇 일만에 데이터레이크 구성
Amazon S3
Data Lake Storage
Data
Catalog
Access
Control
Data
import
Lake Formation
Crawlers ML-based
data prep
다양한 분석엔진에 대해
효율적인 보안 정책 시행
셀프 서비스 분석
: 탐색, 공유 및 협업
데이터 준비 간소화 :
식별, 수집, 정리 및 변환
18. Amazon ANDES의 목표
Amazon 비즈니스에 따라 확장 가능한 에코시스템
AWS 기술을 활용하고 Amazon 고객을 위해 개선
개방형 시스템 아키텍처, 분석 기술의 선택 및 옵션 제공
- SQL 기반 솔루션 제공
- 새로운 분석 접근 방식의 활성화에 집중
- 머신 러닝 및 프로그래밍 방식 데이터 분석 포함
- “Bring Your Own Cluster” 및 “Bring Your Own Query” 접근법
19. ANDES 아키텍처
Big Data System
Discovery Service
Synchronized
Metadata, Data
Synchronizers
ETLM Workflow
Service
Execution DAG
Data
Ingestion
Hoot UI
Data Sources
Glue ETL
Orchestration
Spectrum
Andes Metadata &
Governance Service
Completion
Service
Custom EMR
Orchestration
21. ANDES 도입 결과
대규모로 AWS 기반 분석 및 빅 데이터 처리
개방형 시스템 아키텍처로 분석 기술 선택 가능
안정적이고 확장 가능하며 비용 효율적인 스토리지 Amazon S3
2018년 11월 1일 레거시 Oracle 데이터웨어하우스 종료
Peta 바이트 규모의 데이터웨어하우스를 AWS로 마이그레이션
~40K 액티브 데이터셋과 선별된 비즈니스 데이터
~100K 액티브 사용자, ~1M 일일 Job
25. 우리가 지향하는 모습
25
Request &
Feedback
분석가/엔지니어
MD/Marketer Stakeholders/Partners
Visusalization
Data Lake
Analyze,
Modeling &
Data Produce
Consume &
Analyze
Data Injection
Share
26. On-Prem에서 하려고 했더니…
26
• 추가적인 하드웨어 구매, 설치
및 운영에 대한 부담감
• 복잡한 프로세스
• 불필요한 비용과 시간
• 유관부서와의 협업의 어려움
• 등등…
32. Pain Point
32
직매입 상품 선정 기준의 모호함
직매입 상품 재고 예측이 어려움
리스크를 최소화하고 매출에 기
여해야 하나 정작 운용에 대한
MD들의 부담
데이터기반 통계적 직매입 기준 생성
5 ~ 6백만개의 상품 중 후보리스트를 데이터
기반으로 추천
하지만, 엑셀로 리스트를 제공하여 작업하기
에 너무 무겁고 어려웠음
데이터의 제공의 연속성이 없었음
분석가 역시 통계 모델을 통해 작업을 했지만
MD들의 Feedback을 수정된 모델에 빠르게 반
영하기에 어려움
MD들의 직관에 의존 분석가 협업
33. 우리가 지향하는 모습
33
Request &
Feedback
분석가/엔지니어
MD/Marketer Stakeholders/Partners
Visusalization
Data Lake
Analyze,
Modeling &
Data Produce
Consume &
Analyze
Data Injection
Share
34. Architecture Overview
34
AWS Cloud
S3 Data lake
Amazon Athena
Amazon
QuickSight
Landing
Zone
Amazon EKS
Amazon Simple
Notification
Service
Transformed D
ata
Curated D
ata
AWS Glue Amazon EMR
GS SHOP
분석가/데이터엔지니어
MD/분석가
…
…
AWS Glue Amazon EMR
Apps/User
Data
35. Data Processing Layer
35
S3 Data Lake
Landing
Zone
Amazon EKS
Transformed
Data
Curated
Data
AWS Glue Amazon EMR
AWS Glue Amazon EMR
Apps/User
Data
Request &
Feedback
분석가/엔지니어
MD/Marketer Stakeholders/Partners
Visusalization
Data LakeAnalyze,
Modeling &
Data Produce
Consume &
Analyze
Data Injection
Share
36. S3 Bucket Structure
36
S3 Data Lake
Landing
Data
Transformed
Data
Curated
Data
App/User
Data
Request &
Feedback
분석가/엔지니어
MD/Marketer Stakeholders/Partners
Visusalization
Data LakeAnalyze,
Modeling &
Data Produce
Consume &
Analyze
Data Injection
Share
37. Data Serving Layer
37
Amazon
Athena
Amazon
QuickSight
Amazon Simple
Notification
Service
MD/분석가
Request &
Feedback
분석가/엔지니어
MD/Marketer Stakeholders/Partners
Visusalization
Data LakeAnalyze,
Modeling &
Data Produce
Consume &
Analyze
Data Injection
Share
39. 생각지도 못한 이슈들
39
• 실수로 인한 비용 손실
• Glue ETL을 이용하기 위한 대기 시간
• Glue ETL 코드 디버깅의 답답함
• On-Prem에서 작업에서 발견하지 못했던 버그
• Hive와 Athena의 차이로 인해 발생한 문제
• QuickSight Region 과 Data Lake Region과의 차이로 발생한 문제
• Kinesis로 전달된 시간과 S3 Timezone이 달라서 생긴 문제
42. Our Plan
42
Our Ultimate Goal
→ DataOps using Data Lake
- Data Lake Portal 개발
- ETL Automation
- PubSub 구조의 데이터 생산과 소비
- Metadata Service
- Operational Metadata
- Business Metadata
- Data Governance
- Authorization
- Data Life Cycle Management
“하지만 작은 것에부터 하나씩 진행
Cloud가 최선의 선택이다. ”