Weitere ähnliche Inhalte Ähnlich wie 있는 그대로 저장하고, 바로 분석 가능한, 새로운 관점의 데이터 애널리틱 플랫폼 - 정세웅 애널리틱 스페셜리스트, AWS (20) Mehr von Amazon Web Services Korea (20) 있는 그대로 저장하고, 바로 분석 가능한, 새로운 관점의 데이터 애널리틱 플랫폼 - 정세웅 애널리틱 스페셜리스트, AWS1. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
있는 그대로 저장하고, 바로 분석 가능한,
새로운 관점의 데이터 애널리틱 플랫폼
정세웅,
Anlaytics Solutions Architect, AWS
2. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Agenda
데이터레이크
데이터레이크 설계 및 구축
데이터레이크 활용 및 확장
AWS Lake Formation
3. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
4. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
데이터 플랫폼의 목적과 가치
Next-gen
Data
Platform
데이터를 모두
한 곳에 모으는
어떤 종류의
데이터든
수집과 저장
실시간, 배치성
데이터의 처리
데이터 탐색에
서 시각화, ML
까지 확장
확장 고민
없이 무제한
사용하는 리소
스
다양한 유형의
소비자에게
데이터 제공
5. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
AWS의 데이터 레이크, 데이터 수집, 분석에서 ML까지
Amazon SageMaker
AWS Deep Learning AMIs
Amazon Rekognition
Amazon Lex
AWS DeepLens
Amazon Comprehend
Amazon Translate
Amazon Transcribe
Amazon Polly
Amazon Athena
Amazon EMR
Amazon Redshift
Amazon Elasticsearch service
Amazon Kinesis
Amazon QuickSight
Analytics
Machine Learning
AWS Direct Connect
AWS Snowball
AWS Snowmobile
AWS Database Migration Service
AWS IoT Core
Amazon Kinesis Data Firehose
Amazon Kinesis Data Streams
Amazon Kinesis Video Streams
Real-time
Data Movement
On-premises
Data Movement
Data Lake on AWS
Storage | Archival Storage | Data Catalog
Amazon S3 | AWS Glue
6. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Data Lake를 통해 전통적인 DW를 확장
Data Warehouse
Business Intelligence
OLTP ERP CRM LOB
• 다양한 유형의 정형, 비정형 데이터 저장
• TBs–EBs scale
• 인사이트를 얻기 위해 다양한 분석 엔진
• 낮은 비용으로 저장과 분석이 가능
Devices Web Sensors Social
Big Data processing,
real-time, Machine Learning
Data Lake
7. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
데이터 소스
AWS Data Lake 기반의 분석 파이프라인
OLTP ERP
CRM LOB
Social
Devices
Web
Sensors
수집
Kinesis
DataSync
Glue
IoT Core
Database Migration Service
Amazon S3/Glacier AWS Lake Formation AWS Glue
ETL & Catalog
Data Lake
저장
Athena EMRRedshift Elasticsearch Kinesis Data
Analytics
SageMaker Comprehend Forecast Personalize Textract
일반 분석: SQL/Python
고급 분석: AI/ML
QuickSight
API Gateway
소비
8. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
9. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
대표적인 데이터 분석 워크로드 유형
OLTP ERP
CRM LOB
Data Warehouse Business
Intelligence
Data Lake
100110000100101011100101
010111001010100001011111
011010
0011110010110010110
0100011000010
Social
Devices
Web
Sensors
Machine
Learning
DW Queries
Big data
processing
Interactive
Real-time
Log analysis
10. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Amazon S3 — 데이터레이크
보안과
컴플라이언스
3가지의 다른 형태의
암호화기능을 제공; 리전 간
전송시에도 데이터 암호화
전송; CloudTrail로 로그 및
모니터링하며, ML 기반
Macie 로 민감 데이터를
찾아내고 보호할 수 있음
유연한 관리
데이터 사용 트랜드를
분류,보고 및 시각화;
오브젝트에 태그를 붙여
스토리지 사용과 비용 및
보안을 확인가능; 보관기간 및
Tiering 을 자동화하는
수명주기관리 정책 작성
내구성, 가용성과
확장성
99.999999999%의 내구성
설계; 데이터는 AWS Region
내부에 3곳의 물리적 공간에
분산 저장됨; 자동으로 다른
AWS Region 에 복제 구성
가능
즉각적인 쿼리수행
데이터 이전 없이 DataLake
에서 분석 및 ML을 실행할 수
있음; S3 Select 를 사용해서
데이터의 하위 집합을
검색하고 분석 퍼포먼스를
400% 증가할 수 있음
11. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Data Lake - Amazon S3 설계 방식
Redshift EMR Athena
AI
Services
Tier-1: 원본 데이터
• 원본 데이터의 저장과 보관
• 최소한의 데이터 변환 작업만
• S3의 라이프사이클 기능 활용, S3-IA 또는 Glacier
Tier-2: 분석용 데이터
• Parquet / ORC 같은 컬럼방식 포멧의 사용
• 파티션 정책에 따라 분산 및 파티션 유지 관리
• 분석을 위한 최적화
Tier-3: 특정한 분석 목적 데이터 (optional)
• 도메인 레벨로 데이터마트 분리
• Use Case에 적합한 구성
• 특정 분석 방식에 적합한 데이터 변경 (ML, AI)
Data Lake
on AWS
12. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
AWS Glue 데이터 카탈로그
있는 그대로 저장한 데이터를 바로 분석하게 도와주는 핵심 서비스
Data Source : S3, JDBC 호환 Database
크롤러는 자동적으로 데이터 스키마를 찾아서 저장
데이터의 검색과 ETL 작업을 가능
테이블 스키마 정보와 컬럼 레벨 통계 정보를 포함
데이터 분포와 통계정보를 활용하여 쿼리 성능 향상
Glue
데이터 카탈로그
데이터를 탐색하여
스키마 정보 추출
13. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
가장 현실적인 분석 파이프라인 - 서버리스 애널리틱
빠르게 가성비 최고의 분석 환경 구축 가능
S3
Data lake
AWS Glue
(ETL & Data
Catalog)
Athena
Amazon
QuickSight
서버리스
인프라 구축 X
인프라 운영 X
작업이 돌지
않는 동안에는
비용이 제로
$
시스템 장애에
대한 걱정이
없는
사용 워크로드에
맞춰 자동적으로
리소스 확장
Kinesis
Devices Web Sensors Social
14. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Amazon Athena — 대화식 분석
표준SQL을 사용해서 Amazon S3의 데이터를 분석하는 대화식 쿼리 서비스
설정 및 관리해야 할 인프라도 없으며, 로드 해야할 데이터도 없음
Amazon Glacier 에 보관된 데이터에 대해 SQL 쿼리를 실행할 수 있음
즉각적인 Query
셋업 비용이 들지 않음;
S3를 바로 지정하고
쿼리를 수행하면 됨
SQL
개방
ANSI SQL 인터페이스,
JDBC/ODBC 드라이버,
다양한 포멧, 압축 유형,
복잡한 조인 및 데이터
타입
손쉬운 사용
서버리스: 인프라 없음,
관리 불필요
QuickSight 와 통합
Query 당 비용
쿼리 실행에 대해서만
지불; 압축을 통해서
쿼리당 30–90% 비용
절감 가능
$
15. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
AWS Glue ETL - Apache Spark 기반 데이터 처리
확장성과 비용 효율성, 편의성을 갖춘 Data Transform 서비스
서버리스 데이터 변환작업
Apache Spark 기반
클릭 몇번으로 생성되는 ETL code
수정 / 추가가 가능한 PySpark과 Scala 코드
반복 일정과 이벤트에 따른 Job 스케줄링
Jupyter, Zeppelin, PyCharm 등 익숙한 환경에서
수정, 디버그, 테스트가 가능하도록 Dev
Endpoint 제공
Sample ETL Codes : https://github.com/awslabs/aws-glue-samples
16. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
AWS Glue ETL - Apache Spark 기반 데이터 처리
확장성과 비용 효율성, 편의성을 갖춘 Data Transform 서비스
Dev Endpoint를 통해 Jupyter Notebook, Apache Zeppelin 을 쉽게 셋팅해서 즉시
데이터 가공, 탐색 분석이 가능
17. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
18. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
실시간 데이터 수집 - Amazon Kinesis Data Services
Collect, process, and analyze data streams in real time
Amazon
Elasticsearch
Service
SQL
EMR/Spark/
Amazon
SageMaker
Custom code
on EC2
Amazon S3
Amazon
Redshift
Splunk
Ingest
store data
streams
Kinesis Data
Streams
Kinesis Data
Analytics
Aggregate,
filter,
enrich data
Kinesis Data
Firehose
Egress data
streams
AWS Lambda
• Real-time
• Fully-managed
• Scalable
• Secure
• Cost-effective
19. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.S U M M I T
로그 / 텍스트 분석을 위한 최상의 솔루션 - Amazon Elasticsearch
Amazon Elasticsearch Service는 완전 관리형 서비스이며, 쉽게 설치, 관리, 스케일 확장이
가능하며, Elasticsearch와 Kibana 연동을 통해 쉽게 분석과 시각화가 가능합니다.
20. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
엔터프라이즈 규모의 Hadoop & Spark - Amazon EMR
Scale to any size
• Scale compute (EMR) &
storage (S3) independently
• Store, and process any
amount of data—PB to EBs
• Provision one, hundreds,
or thousands of nodes
• Auto-scaling
• Integrated with Spot
Instances
Data Lake
on AWS
Amazon EMR
21. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Data warehouse를 Data Lake로 확장 - Amazon Redshift
Redshift Spectrum
query engine
Query across
Amazon Redshift
and Amazon S3
Amazon Redshift Data Lake
SensorsWebDevicesLOBCRMERPOLTP Social
구조화 된 데이터를 위해 빠른 응답 지원
대시 보드 및 보고서 개발을 위해 BI 도구 지원
세분화 된 엑세스 제어 기능 제공
DW와 data lake간의 joint 쿼리 지원
Lifecycle 관리를 위해 S3로 데이터 백업 지원
22. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
시각화를 넘어 ML을 이용한 분석 - Amazon QuickSight
모든 데이터 소스를 통해 즉시 시각화, 서버리스, ML Insights - 자동화된 ML 알고리즘 기반 분석
ML을 기반으로 한 이상 탐지
ML을 기반으로 한 예측
데이터를 설명 해주는
Auto-narratives
23. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Discover all the hidden trends and
anomalies on millions of metrics
Amazon QuickSight—ML Insights
Example: anomaly detection
24. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
QuickSight ML-powered forecasting Traditional BI forecasting
Captures seasonality and upward trends
Automatically excludes bad data
High confidence band
Captures only seasonality
Missing upward trend
Confidence band influenced by bad data
QuickSight ML Insights vs. traditional BI forecasting
VS.
25. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
ML 알고리즘 선택 알고리즘 성능
최적화
반복적 학습 및
성능 향상
ML 학습을 위한
환경 설정 및 관리
모델 배포 배포된 서비스의
확장 및 생산성 관리
ML 개발, 훈련, 배포 모두를 지원 - Amazon SageMaker
26. Amazon SageMaker Built-in ML Algorithm
Amazon SageMaker는 속도와 큰 데이터 처리에 최적화된 다양한 Built-in ML
Algorithm 제공합니다.
Classification, Regression
• Linear Learner
• XGBoost
• Factorization Machines
• DeepAR
클러스터링, 차원축소
• K-Means
• PCA
Image Classfication
• Image Classifier (Resnet)
Natural language processing
• LDA, NTM (Topic modeling)
• Seq2Seq (Translation)
• BlazingText (Word2Vec)
27. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
S3 데이터 레이크를 모델 훈련 및 배포에 사용 - Amazon SageMaker
완전 관리형 머신러닝 서비스
(손쉬운 머신 러닝 모델 생성/훈련/호스팅 배포)
Image Source: https://www.awsgeek.com/posts/Amazon-SageMaker/
28. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
29. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
데이터 소스
AWS Data Lake 기반의 분석 파이프라인
OLTP ERP
CRM LOB
Social
Devices
Web
Sensors
수집
Kinesis
DataSync
Glue
IoT Core
Database Migration Service
Amazon S3/Glacier AWS Lake Formation AWS Glue
ETL & Catalog
Data Lake
저장
Athena EMRRedshift Elasticsearch Kinesis Data
Analytics
SageMaker Comprehend Forecast Personalize Textract
일반 분석: SQL/Python
고급 분석: AI/ML
QuickSight
API Gateway
소비
30. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
일반적인 Data Lake 구축 단계
데이터 활용 및 분석
데이터 프로세싱 및
카탈로그화
데이터 수집
보안 및 컴플라이언스
정책 설정
Permissions
S3 버킷 생성
31. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
AWS Lake Formation
Preview
Data
Catalog
Access
Control
CrawlersData import ML-based
data prepLake Formation
Amazon S3
Redshift EMR Athena
신속하게 Data Lake 구축
간편해진 보안 설정
데이터 검색 및 공유 향상
안전한 Data Lake를 신속하게 구축
데이터를 보다 신속하게 이동, 저장, 카탈로그 및 정리하고
ML transformation을 사용하여 데이터를 중복 제거할 수
있습니다.
Amazon EMR, Amazon Athena, Amazon Redshift
Spectrum, Amazon SageMaker 및 Amazon
QuickSight에서 테이블 및 컬럼 수준 데이터 액세스를
중앙에서 정의하고 이를 적용할 수 있습니다.
Lake Formation의 데이터 카탈로그를 사용하여
관련 데이터 세트를 쉽게 찾고 공유할 수 있는
메타데이터 기반 검색 기능을 제공합니다.
32. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
AWS Lake Formation
Build a secure data lake in days
Preview
33. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
반복되는 데이터 로딩 작업을 자동화
Loading Data
• Blueprints / Data Importers - 데이터 수집, 변환,
정제, 파티션 작업을 템플릿화 해서 자동화 설정
가능
• ML Transformations – 데이터의 중복, 유사 컬럼
매칭등의 변환 작업을 ML 알고리즘 기반으로 수행
34. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
데이터의 관리와 보안, 거버넌스 설정이 용이
Discoverability and Governance
• Enhanced governance layer - 데이터 카탈로그
레벨에서 보안과 거버넌스를 수행할 수 있게 함
• Enhanced Data Catalog - 테이블의 컬럼레벨까지
유저의 접근 권한을 설정 가능
35. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
AWS Lake Formation 비용
별도의 추가 비용 없음 – Only pay for the
underlying services used (Glue, Athena, S3..)
36. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
37. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Data Source Data Transform Data Analytics
실습 : Analytics Lab Architecture
OLTP
Web
Social
Amazon S3
(Sample
Source Data)
Glue Data catalog
Amazon S3
(Analytics Data)
AWS Glue
(Dev Endpoint)
Jupyter Notebook
Glue Data catalog
Data Catalog
Amazon QuickSight
Amazon Athena
Amazon SageMakerApache Zeppelin
Glue Crawler
https://bit.ly/2Rf5SWB
38. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Thank You for Attending AWS Innovate
We hope you found it interesting! A kind reminder to complete the survey.
Let us know what you thought of today’s event and how we can improve
the event experience for you in the future.
aws-apac-marketing@amazon.com
twitter.com/AWSCloud
facbook.com/AmazonWebServices
youtube.com/user/AmazonWebServices
slideshare.net/AmazonWebServices
twitch.tv/aws