SlideShare ist ein Scribd-Unternehmen logo
1 von 69
Downloaden Sie, um offline zu lesen
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
양승도 | 솔루션즈 아키텍트
2016년 5월 17일
빅데이터를 위한
AWS 모범사례와 아키텍처 구축 패턴
목차
§ 데이터의 증가 & 분석의 진화
§ 참조 아키텍처
§ 어떤 기술을 사용해야 할까?
§ 왜?
§ 어떻게?
§ 고객 사례(MangoPlate)
§ 디자인 패턴
데이터의 폭발적 증가
Volume
Velocity
Variety
빅데이터 진화
배치
보고서
실시간
경보
예측
예보
Amazon
Glacier
S3 DynamoDB
RDS
EMR
Amazon
Redshift
Data Pipeline
Amazon
Kinesis CloudSearch
Kinesis-enabled
app
Lambda ML
SQS
ElastiCache
DynamoDB
Streams
넘쳐나는 도구들
쿨~한 참조 아키텍처가 있는지?
어떤 도구를 사용해야 하는지?
왜? 어떻게?
아키텍처 원칙
“데이터 버스”를 분리
• Data → Store → Process → Answers
작업에 적합한 도구를 사용
• Data structure, latency, throughput, access patterns
람다 아키텍처 아이디어 사용
• Immutable (append-only) log, batch/speed/serving layer
AWS 관리형 서비스 활용
• No/low admin
비용에 대한 고려
• Big data ≠ Big cost
빅데이터 처리를 단순하게…
수집 저장 분석
소비 /
시각화
답변 시간(지연)
처리량
비용
수집
데이터의 종류
트랜잭션
• Database reads & writes (OLTP)
• Cache
검색
• Logs
• Streams
파일
• Log files (/var/log)
• Log collectors & frameworks
스트림
• Log records
• Sensors & IoT data
A
iOS Android
Web Apps
Logstash
Amazon
RDS
Amazon
DynamoDB
Amazon
ES
Amazon
S3
Amazon
Glacier
Amazon
ElastiCache
SearchSQLNoSQLCacheFileStorage
Transactional Data
File Data
Stream Data
Mobile
Apps
Search Data
Database
File
Storage
Search
수집 저장
LoggingIoTApplications
Stream
Storage
저장
스트림
스토리지
A
iOS Android
Web Apps
Logstash
Amazon
RDS
Amazon
DynamoDB
Amazon
ES
Amazon
S3
Apache
Kafka
Amazon
Glacier
Amazon
Kinesis
Amazon
DynamoDB
Amazon
ElastiCache
SearchSQLNoSQLCacheStreamStorageFileStorage
Transactional Data
File Data
Stream Data
Mobile
Apps
Search Data
Database
File
Storage
Search
수집 저장
LoggingIoTApplications
ü
스트림 스토리지 옵션들
AWS 관리형 서비스
• Amazon Kinesis → streams
• Amazon DynamoDB Streams → table + streams
• Amazon SQS → queue
• Amazon SNS → pub/sub
Do-It-Yourself
• Apache Kafka → stream
생산자와 소비자를 분리
영구적인 버퍼
다수의 스트림을 수집
메시지의 순서 유지
스트리밍 맵리듀스
병렬적인 소비
4 4 3 3 2 2 1 1
4 3 2 1
4 3 2 1
4 3 2 1
4 3 2 1
4 4 3 3 2 2 1 1
Shard 1 / Partition 1
Shard 2 / Partition 2
Consumer 1
Count of
Red = 4
Count of
Violet = 4
Consumer 2
Count of
Blue = 4
Count of
Green = 4
DynamoDB Stream Kinesis Stream Kafka Topic
스트림 스토리지
Queues & Pub/Sub ?
• 생산자 및 소비자/가입자를
분리
• 영구적인 버퍼
• 다수의 스트림을 수집
• No 메시지 순서
• No 병렬적 소비 for Amazon
SQS
• Amazon SNS 는 다수의
큐 또는 람다(Lambda)
함수로 전달 가능
• No 스트리밍 맵리듀스
Consumers
Producers
Producers
Amazon SNS
Amazon SQS
queue
topic
function
ʎ
AWS Lambda
Amazon SQS
queue
Subscriber
Amazon
Kinesis
DynamoDB
Streams
Amazon SQS
Amazon SNS
Kafka
Managed Yes Yes Yes No
Ordering Yes Yes No Yes
Delivery at-least-once exactly-once at-least-once at-least-once
Lifetime 7 days 24 hours 14 days Configurable
Replication 3 AZ 3 AZ 3 AZ Configurable
Throughput No Limit No Limit No Limit ~ Nodes
Parallel Clients Yes Yes No (SQS) Yes
MapReduce Yes Yes No Yes
Record size 1MB 400KB 256KB Configurable
Cost Low Higher(table cost) Low-Medium Low (+admin)
어떤 스트림 스토리지를 사용해야 하는가?
파일
스토리지
Amazon
RDS
Amazon
DynamoDB
Amazon
ES
Amazon
S3
Apache
Kafka
Amazon
Glacier
Amazon
Kinesis
Amazon
DynamoDB
Amazon
ElastiCache
SearchSQLNoSQLCacheStreamStorageFileStorage
Transactional Data
File Data
Stream Data
Search Data
Database
Search
저장
A
iOS Android
Web Apps
Logstash
Mobile
Apps
수집
LoggingIoTApplications
ü
왜 Amazon S3가 빅데이터에 좋은가?
• 기본적으로 빅데이터 프레임워크 지원(Spark, Hive, Presto, etc.)
• 스토리지를 위한 컴퓨팅 클러스터가 불필요 (HDFS와 다름)
• Amazon EC2 스팟 인스턴스를 활용하여 하둡 클러스터 운영 가능
• 동일한 데이터로 여러 종류(Spark, Hive, Presto) 클러스터를 동시에 사용
• 오브젝트 갯수 무제한
• 99.999999999%의 내구성을 위한 설계
• 고 가용성 – AZ 장애 극복
• 수명주기를 활용한 계층-스토리지 (Standard, IA, Amazon Glacier)
• 보안 – SSL, client/server-side encryption at rest
• 저비용
• 매우 높은 대역폭 – 총 처리량 제한 없음
왜 Amazon S3가 빅데이터에 좋은가?
• 기본적으로 빅데이터 프레임워크 지원(Spark, Hive, Presto, etc.)
• 스토리지를 위한 컴퓨팅 클러스터가 불필요 (HDFS와 다름)
• Amazon EC2 스팟 인스턴스를 활용하여 하둡 클러스터 운영 가능
• 동일한 데이터로 여러 종류(Spark, Hive, Presto) 클러스터를 동시에 사용
• 오브젝트 갯수 무제한
• 99.999999999%의 내구성을 위한 설계
• 고 가용성 – AZ 장애 극복
• 수명주기를 활용한 계층-스토리지 (Standard, IA, Amazon Glacier)
• 보안 – SSL, client/server-side encryption at rest
• 저비용
• 매우 높은 대역폭 – 총 처리량 제한 없음
• 매우 자주 접근하는(hot) 데이터는
HDFS 사용
• 자주 접근하는 데이터는 Amazon S3
Standard 사용
• 드물게 접근하는 데이터는 Amazon
S3 Standard – IA 사용
• 거의 접근하지 않는(cold) 데이터는
Amazon Glacier 사용하여 아카이브
S3와 HDFS, Amazon Glacier를 함께…
데이터베이스
+ 검색
계층
A
iOS Android
Web Apps
Logstash
Amazon
RDS
Amazon
DynamoDB
Amazon
ES
Amazon
S3
Apache
Kafka
Amazon
Glacier
Amazon
Kinesis
Amazon
DynamoDB
Amazon
ElastiCache
SearchSQLNoSQLCacheStreamStorageFileStorage
Transactional Data
File Data
Stream Data
Mobile
Apps
Search Data
수집 저장
LoggingIoTApplications
ü
Database + Search Tier
데이터베이스 + 검색 계층 Anti-pattern
Data Tier
Search
Amazon
Elasticsearch
Service
Amazon
CloudSearch
Cache
Redis
Memcached
SQL
Amazon Aurora
MySQL
MariaDB
PostgreSQL
Oracle
SQL Server
NoSQL
Cassandra
Amazon
DynamoDB
HBase
MongoDB
Database + Search Tier
모범 사례 – 성격에 맞는 적합한 도구 사용
구체적인 예
데이터 구조와 접근 패턴
접근 패턴 What to use?
Put/Get (Key, Value) Cache, NoSQL
Simple relationships → 1:N, M:N NoSQL
Cross table joins, transaction, SQL SQL
Faceting, Search Search
데이터 구조 What to use?
Fixed schema SQL, NoSQL
Schema-free (JSON) NoSQL, Search
(Key, Value) Cache, NoSQL
데이터 / 접근 온도?
Hot Warm Cold
데이터 용량 MB–GB GB–TB PB
아이템 크기 B–KB KB–MB KB–TB
응답시간 ms ms, sec min, hrs
내구성 Low–High High Very High
요청 비율 Very High High Low
비용/GB $$-$ $-¢¢ ¢
Hot Data Warm Data Cold Data
데이터 / 접근 특성: Hot, Warm, Cold
Cache
SQL
Request Rate
High Low
Cost/GB
High Low
Latency
Low High
Data Volume
Low High
Glacier
Structure
NoSQL
Hot Data Warm Data Cold Data
Low
High
Search
Amazon
ElastiCache
Amazon
DynamoDB
Amazon
Aurora
Amazon
Elasticsearch
Amazon
EMR (HDFS)
Amazon S3 Amazon Glacier
Average
latency
ms ms ms, sec ms,sec sec,min,hrs
ms,sec,min
(~ size)
hrs
Data volume GB
GB–TBs
(no limit)
GB–TB
(64 TB
Max)
GB–TB
GB–PB
(~nodes)
MB–PB
(no limit)
GB–PB
(no limit)
Item size B-KB
KB
(400 KB
max)
KB
(64 KB)
KB
(1 MB max)
MB-GB
KB-GB
(5 TB max)
GB
(40 TB max)
Request rate
High -
Very High
Very High
(no limit)
High High
Low – Very
High
Low –
Very High
(no limit)
Very Low
Storage cost
GB/month
$$ ¢¢ ¢¢
¢¢
¢ ¢ ¢/10
Durability
Low -
Moderate
Very High Very High High High Very High Very High
Hot Data Warm Data Cold Data
Hot Data Warm Data Cold Data
어떤 데이터 저장소를 사용?
분석
분석A
iOS Android
Web Apps
Logstash
Amazon
RDS
Amazon
DynamoDB
Amazon
ES
Amazon
S3
Apache
Kafka
Amazon
Glacier
Amazon
Kinesis
Amazon
DynamoDB
Amazon
Redshift
Impala
Pig
Amazon ML
Amazon
Kinesis
AWS
Lambda
AmazonElasticMapReduce
Amazon
ElastiCache
SearchSQLNoSQLCache
StreamProcessingBatchInteractive
Logging
StreamStorage
IoTApplications
FileStorage
Hot
Cold
War
m
Hot
Hot
ML
Transactional Data
File Data
Stream Data
Mobile
Apps
Search Data
수집 저장 분석
ü ü
Streaming
처리 / 분석
데이터에 대한 분석은 유용한 정보를 발견하고, 결론을
제안하고, 그리고 의사결정을 지원하기 위한 목적으로
데이터를 점검, 정제, 변환, 그리고 모델링 하는 프로세스
예시
대화형 대쉬보드 → 대화형 분석(Interactive Analytics)
일일/주간/월간 보고서 → 배치 분석(Batch Analytics)
결제/사기 경고, 1 분 측정 → 실시간 분석(Real-time Analytics)
심리 분석, 예측 모델 → 기계 학습(Machine learning)
대화형 분석
대용량의 데이터 (warm/cold)
답변을 얻기까지 수 초 소요
예: 셀프 서비스 대쉬보드
배치 분석
대용량의 데이터 (warm/cold)
답변을 얻기까지 수 분 또는 수 시간 소요
예: 일일, 주간, 월간 보고서 작성
실시간 분석
적은 용량의 Hot 한 데이터와 질문
답변을 얻기까지 짧은 시간 소요 (수 밀리초 또는 수 초)
실시간 (이벤트)
• 데이터 스트림에서 이벤트 실시간 응답
• 예: 결제/사기 경고
준 실시간 (마이크로 배치)
• 데이터 스트림의 마이크로 배치를 통한 준 실시간 운영
• 예: 1 분 측정
기계 학습을 통한 예측
기계 학습(ML)은 컴퓨터에게 명시적으로 프로그래밍 하지
않고 학습할 수 있는 기능을 제공
기계 학습 알고리즘:
감독 학습 ← “teach” program
- Classification ← Is this transaction fraud? (Yes/No)
- Regression ← Customer Life-time value?
자율 학습 ← let it learn by itself
- Clustering ← Market Segmentation
기계 학습
• Mahout, Spark ML, Amazon ML
대화형 분석
• Amazon Redshift, Presto, Impala, Spark
배치 분석
• MapReduce, Hive, Pig, Spark
스트림 처리
• Micro-batch: Spark Streaming, KCL, Hive, Pig
• Real-time: Storm, AWS Lambda, KCL
Amazon
Redshift
Impala
Pig
Amazon Machine
Learning
Amazon
Kinesis
AWS
Lambda
AmazonElasticMapReduce
StreamProcessingBatchInteractiveML
분석
Streaming
분석 도구와 프레임워크
Spark Streaming Apache Storm
Amazon Kinesis
Client Library
AWS Lambda
Amazon EMR (Hive,
Pig)
Scale /
Throughput
~ Nodes ~ Nodes ~ Nodes Automatic ~ Nodes
Batch or Real-
time
Real-time Real-time Real-time Real-time Batch
Manageability Yes (Amazon EMR) Do it yourself
Amazon EC2 +
Auto Scaling
AWS managed Yes (Amazon EMR)
Fault Tolerance Single AZ Configurable Multi-AZ Multi-AZ Single AZ
Programming
languages
Java, Python, Scala
Any language
via Thrift
Java, via
MultiLangDaemon (
.Net, Python, Ruby,
Node.js)
Node.js,Java,
Python
Hive, Pig, Streaming
languages
High
어떤 데이터 처리 기술을 사용해야 하는가?
Amazon
Redshift
Impala Presto Spark Hive
Query Latency Low Low Low Low
Medium (Tez) – High
(MapReduce)
Durability High High High High High
Data Volume
1.6 PB
Max
~Nodes ~Nodes ~Nodes ~Nodes
Managed Yes Yes (EMR) Yes (EMR) Yes (EMR) Yes (EMR)
Storage Native HDFS / S3A* HDFS / S3 HDFS / S3 HDFS / S3
SQL
Compatibility
High Medium High Low (SparkSQL) Medium (HQL)
HighMedium
어떤 데이터 처리 기술을 사용해야 하는가?
Store Analyze
https://aws.amazon.com/big-data/partner-solutions/
ETL
What About ETL?
소비 /
시각화
예측
분석 및 시각화
IDE
애플리케이션 & API
Consume
Analysis&VisualizationNotebooks
Predictions
Apps & APIs
IDE
저장 분석 소비ETL
Business
users
Data Scientist,
Developers
Amazon
QuickSight
소비
참조 아키텍처
수집 저장 분석 소비
A
iOS Android
Web Apps
Logstash
Amazon
RDS
Amazon
DynamoDB
Amazon
ES
Amazon
S3
Apache
Kafka
Amazon
Glacier
Amazon
Kinesis
Amazon
DynamoDB
Amazon
Redshift
Impala
Pig
Amazon ML
Amazon
Kinesis
AWS
Lambda
AmazonElasticMapReduce
Amazon
ElastiCache
SearchSQLNoSQLCache
StreamProcessingBatchInteractive
Logging
StreamStorage
IoTApplications
FileStorage
Analysis&Visualization
Hot
Cold
Warm
Hot
Slow
Hot
ML
Fast
Fast
Transactional Data
File Data
Stream Data
Notebooks
Predictions
Apps & APIs
Mobile
Apps
IDE
Search Data
ETL
Streaming
Amazon
QuickSight
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
유호석 | CTO
2016년 5월 17일
Customer Story
MangoPlate
Redshift 기반의 망고플레이트
분석 및 추천 시스템
망고플레이트 소개
사람들이 맛있는 곳을
쉽고 빠르게 찾을 수 있도록
도와주는 서비스[ ]
망고플레이트의 성장
누적다운로드: 250만+
MAU : 180만+
월간 페이지뷰: 2000만+
현재
망고플레이트에서 하고 있는 추천 및 분석 업무
• Recommendation Engine
• Restaurant to Restaurant Similarity 계산
• User to User Similarity 계산
• User to Restaurant Similarity 계산
• Fraud Detection
• Fake review/user Identification
• User/Review/Picture Scoring
• Restaurant Rating
• User Behavior 분석
• Web/App user mapping
• Retention queries
• User segmentation/testing
서비스 성장에 따른 Pain Point들
• 서비스 성장에 따라 기존 시스템으로 계산 시간이 점점 오래 걸림
• 추천 및 Rating 알고리즘 고도화로 분석 Query 가 복잡해짐
• 분석하고 싶은 데이터가 모두 흩어져 있음
어떤 Solution을 이용해야할까?
• 우리팀의 상황
• 별도의 분석 Script를 만들기에는 개발자 부족
• Algorithm의 70%는 Query에 의존
• 분석에 필요한 모든 Log를 수집하여 S3에 저장
• Redshift를 도입하기로 결정
[ ]클라우드에서 실행되는 신속하고 강력한
페타바이트 규모의 SQL기반 데이터
웨어하우스 서비스
Redshift의 장점
• 쉽게 Petabyte 규모까지 Scale 가능
• 빠른 계산 속도
• 저렴한 가격
• dc1.large의 경우 월 20만원으로 시작 가능
• 표준 SQL 지원 및 다양한 Analytics Function 지원
단계별로 AWS 및 Redshift도입
국내 클라우드 서비스
• VM instances
• MySQL
• Redis
AWS Seoul Region
• EC2
• RDS
• Elastic Cache
• VPC
• Route53
• S3
• SNS
• SQS
• Redshift
Migration Consulting
&
Technical Support
AWS Tokyo Region
• S3
• SNS
• SQS
• Redshift
+
2015 2016
망고플레이트의 Architecture
분석이 필요한 모든 데이터를 한곳에
AWS S3 AWS Redshift
. . .
copy table
SQL DB records
to raw file
AWS EC2
Analytics
Visualization &
Consume
Collection Store
AWS RDS
AWS EC2
AWS EC2
AWS RDS
무엇이 좋아졌을까요?
• Algorithm queries
• Restaurant Similarity: 600 초 > 80 초 (7.5배)
• Restaurant/User Recommendation: 720 초 > 80 초 (9배)
• Retention queries
• Base Table: 1200 초 > 60 초 (20배)
• Main: 2400 초 > 200 초 (12배)
분석 속도 개선
무엇이 좋아졌을까요?
• Analytic function(window function) 들 적용
• median, dense_rank
• ntile, stddev_samp/stddev_pop
• JSON function들을 이용하여 쉽게 로그테이블 분석
• Json_extract_path_text
• json_extract_array_element_text
분석 Query들의 단순화
Managed Service by
감사합니다 !
https://www.mangoplate.com/career
디자인 패턴
디자인 패턴
§ 대화형 분석(Interactive Analytics) : 대화형 대쉬보드
§ 배치 분석(Batch Analytics) : 일일/주간/월간 보고서
§ 실시간 분석(Real-time Analytics) : 결제/사기 경고
1 분 측정
§ 기계 학습(Machine learning) : 심리 분석, 예측 모델
여러 단계
처리에서 분리된 스토리지
Store Process Store Process
process
store
“데이터 버스” 분리
다수의 처리 애플리케이션(또는 커넥터)이 다양한
데이터 저장소에서 읽기/쓰기 가능
process
store
Amazon
Kinesis
AWS
Lambda
Amazon
S3
Amazon
DynamoDB
Amazon
Kinesis S3
Connector
Amazon
Kinesis
AWS
Lambda
Amazon
S3
Amazon
DynamoDB
Hive SparkStorm
Amazon
Kinesis S3
Connector
process
store
처리 프레임워크(KCL, Storm, Hive, Spark, etc.)는
다수의 데이터 저장소에서 읽기 가능
Spark Streaming
Apache Storm
AWS Lambda
KCL
Amazon
Redshift Spark
Impala
Presto
Hive
Amazon
Redshift
Hive
Spark
Presto
Impala
Amazon Kinesis
Apache Kafka
Amazon
DynamoDB
Amazon S3data
Hot Cold
데이터 온도
처리응답시간
Low
High Answers
Amazon EMR
(HDFS)
Hive
Native
KCL
AWS Lambda
Batch
데이터 온도 vs. 처리 응답시간
실시간 분석
Producer
Apache
Kafka
KCL
AWS Lambda
Spark
Streaming
Apache
Storm
Amazon
SNS
Amazon
ML
Notifications
Amazon
ElastiCache
(Redis)
Amazon
DynamoDB
Amazon
RDS
Amazon
ES
Alert
App state
Real-time Prediction
KPI
process
store
DynamoDB
Streams
Amazon
Kinesis
대화형 &
배치 분석
Producer Amazon S3
Amazon EMR
Hive
Pig
Spark
Amazon
ML
process
store
Consume
Amazon
Redshift
Amazon EMR
Presto
Impala
Spark
배치
대화형
Batch Prediction
Real-time Prediction
Batch Layer
Amazon
Kinesis
DATA
process
store
Amazon
Kinesis S3
Connector
Amazon S3
A
p
p
l
i
c
a
t
i
o
n
s
Amazon
Redshift
Amazon EMR
Presto
Hive
Pig
Spark ANSWER
Speed Layer
ANSWER
Serving
Layer
Amazon
ElastiCache
Amazon
DynamoDB
Amazon
RDS
Amazon
ES
ANSWER
Amazon
ML
KCL
AWS Lambda
Spark Streaming
Storm
람다 아키텍처
요약
“데이터 버스”를 분리
• Data → Store → Process → Answers
작업에 적합한 도구를 사용
• Data structure, latency, throughput, access patterns
람다 아키텍처 아이디어 사용
• Immutable (append-only) log, batch/speed/serving layer
AWS 관리형 서비스 활용
• No/low admin
비용에 대한 고려
• Big data ≠ Big cost
여러분의 피드백을 기다립니다!
https://www.awssummit.co.kr
모바일 페이지에 접속하셔서, 지금 세션 평가에
참여하시면, 행사후 기념품을 드립니다.
#AWSSummit 해시태그로 소셜 미디어에 여러분의
행사 소감을 올려주세요.
발표 자료 및 녹화 동영상은 AWS Korea 공식 소셜
채널로 곧 공유될 예정입니다.
감사합니다 !
aws.amazon.com/big-data

Weitere ähnliche Inhalte

Was ist angesagt?

AWS 빅데이터 아키텍처 패턴 및 모범 사례- AWS Summit Seoul 2017
AWS 빅데이터 아키텍처 패턴 및 모범 사례- AWS Summit Seoul 2017AWS 빅데이터 아키텍처 패턴 및 모범 사례- AWS Summit Seoul 2017
AWS 빅데이터 아키텍처 패턴 및 모범 사례- AWS Summit Seoul 2017
Amazon Web Services Korea
 
30분만에 만드는 AWS 기반 빅데이터 분석 애플리케이션::안효빈::AWS Summit Seoul 2018
30분만에 만드는 AWS 기반 빅데이터 분석 애플리케이션::안효빈::AWS Summit Seoul 201830분만에 만드는 AWS 기반 빅데이터 분석 애플리케이션::안효빈::AWS Summit Seoul 2018
30분만에 만드는 AWS 기반 빅데이터 분석 애플리케이션::안효빈::AWS Summit Seoul 2018
Amazon Web Services Korea
 

Was ist angesagt? (20)

AWS 빅데이터 아키텍처 패턴 및 모범 사례- AWS Summit Seoul 2017
AWS 빅데이터 아키텍처 패턴 및 모범 사례- AWS Summit Seoul 2017AWS 빅데이터 아키텍처 패턴 및 모범 사례- AWS Summit Seoul 2017
AWS 빅데이터 아키텍처 패턴 및 모범 사례- AWS Summit Seoul 2017
 
Realtime Analytics on AWS
Realtime Analytics on AWSRealtime Analytics on AWS
Realtime Analytics on AWS
 
Masterclass Live: Amazon EMR
Masterclass Live: Amazon EMRMasterclass Live: Amazon EMR
Masterclass Live: Amazon EMR
 
AWS 클라우드 서비스 소개 및 사례 (방희란) - AWS 101 세미나
AWS 클라우드 서비스 소개 및 사례 (방희란) - AWS 101 세미나AWS 클라우드 서비스 소개 및 사례 (방희란) - AWS 101 세미나
AWS 클라우드 서비스 소개 및 사례 (방희란) - AWS 101 세미나
 
30분만에 만드는 AWS 기반 빅데이터 분석 애플리케이션::안효빈::AWS Summit Seoul 2018
30분만에 만드는 AWS 기반 빅데이터 분석 애플리케이션::안효빈::AWS Summit Seoul 201830분만에 만드는 AWS 기반 빅데이터 분석 애플리케이션::안효빈::AWS Summit Seoul 2018
30분만에 만드는 AWS 기반 빅데이터 분석 애플리케이션::안효빈::AWS Summit Seoul 2018
 
Amazon EMR Deep Dive & Best Practices
Amazon EMR Deep Dive & Best PracticesAmazon EMR Deep Dive & Best Practices
Amazon EMR Deep Dive & Best Practices
 
Cost Optimisation on AWS
Cost Optimisation on AWSCost Optimisation on AWS
Cost Optimisation on AWS
 
Deep Dive on Amazon RDS (Relational Database Service)
Deep Dive on Amazon RDS (Relational Database Service)Deep Dive on Amazon RDS (Relational Database Service)
Deep Dive on Amazon RDS (Relational Database Service)
 
Cost Optimization on AWS
Cost Optimization on AWSCost Optimization on AWS
Cost Optimization on AWS
 
BDA311 Introduction to AWS Glue
BDA311 Introduction to AWS GlueBDA311 Introduction to AWS Glue
BDA311 Introduction to AWS Glue
 
AWS Cloud cost optimization
AWS Cloud cost optimizationAWS Cloud cost optimization
AWS Cloud cost optimization
 
20190122 AWS Black Belt Online Seminar Amazon Redshift Update
20190122 AWS Black Belt Online Seminar Amazon Redshift Update20190122 AWS Black Belt Online Seminar Amazon Redshift Update
20190122 AWS Black Belt Online Seminar Amazon Redshift Update
 
[AWS Builders] Effective AWS Glue
[AWS Builders] Effective AWS Glue[AWS Builders] Effective AWS Glue
[AWS Builders] Effective AWS Glue
 
Introducing AWS DataSync - Simplify, automate, and accelerate online data tra...
Introducing AWS DataSync - Simplify, automate, and accelerate online data tra...Introducing AWS DataSync - Simplify, automate, and accelerate online data tra...
Introducing AWS DataSync - Simplify, automate, and accelerate online data tra...
 
Introduction to AWS Glue
Introduction to AWS GlueIntroduction to AWS Glue
Introduction to AWS Glue
 
Intro to AWS: EC2 & Compute Services
Intro to AWS: EC2 & Compute ServicesIntro to AWS: EC2 & Compute Services
Intro to AWS: EC2 & Compute Services
 
Introduce AWS Lambda for newbie and Non-IT
Introduce AWS Lambda for newbie and Non-ITIntroduce AWS Lambda for newbie and Non-IT
Introduce AWS Lambda for newbie and Non-IT
 
AWS Storage Options
AWS Storage OptionsAWS Storage Options
AWS Storage Options
 
Intro to AWS: Storage Services
Intro to AWS: Storage ServicesIntro to AWS: Storage Services
Intro to AWS: Storage Services
 
AWS RDS
AWS RDSAWS RDS
AWS RDS
 

Ähnlich wie 빅데이터를 위한 AWS 모범사례와 아키텍처 구축 패턴 :: 양승도 :: AWS Summit Seoul 2016

클라우드 기반 AWS 데이터베이스 선택 옵션 - AWS Summit Seoul 2017
클라우드 기반 AWS 데이터베이스 선택 옵션 - AWS Summit Seoul 2017 클라우드 기반 AWS 데이터베이스 선택 옵션 - AWS Summit Seoul 2017
클라우드 기반 AWS 데이터베이스 선택 옵션 - AWS Summit Seoul 2017
Amazon Web Services Korea
 
AWS를 통한 빅데이터 기반 비지니스 인텔리전스 구축- AWS Summit Seoul 2017
AWS를 통한 빅데이터 기반 비지니스 인텔리전스 구축- AWS Summit Seoul 2017AWS를 통한 빅데이터 기반 비지니스 인텔리전스 구축- AWS Summit Seoul 2017
AWS를 통한 빅데이터 기반 비지니스 인텔리전스 구축- AWS Summit Seoul 2017
Amazon Web Services Korea
 
AWS CLOUD 2017 - Amazon Redshift 기반 DW 와 비지니스 인텔리전스 구현 방법 (김일호 솔루션즈 아키텍트)
AWS CLOUD 2017 - Amazon Redshift 기반 DW 와 비지니스 인텔리전스 구현 방법 (김일호 솔루션즈 아키텍트)AWS CLOUD 2017 - Amazon Redshift 기반 DW 와 비지니스 인텔리전스 구현 방법 (김일호 솔루션즈 아키텍트)
AWS CLOUD 2017 - Amazon Redshift 기반 DW 와 비지니스 인텔리전스 구현 방법 (김일호 솔루션즈 아키텍트)
Amazon Web Services Korea
 
찾아가는 AWS 세미나(구로,가산,판교) - AWS 클라우드로 서비스 무한대로 확장하기 (박철수 솔루션즈 아키텍트)
찾아가는 AWS 세미나(구로,가산,판교) -  AWS 클라우드로 서비스 무한대로 확장하기 (박철수 솔루션즈 아키텍트)찾아가는 AWS 세미나(구로,가산,판교) -  AWS 클라우드로 서비스 무한대로 확장하기 (박철수 솔루션즈 아키텍트)
찾아가는 AWS 세미나(구로,가산,판교) - AWS 클라우드로 서비스 무한대로 확장하기 (박철수 솔루션즈 아키텍트)
Amazon Web Services Korea
 
찾아가는 AWS 세미나(구로,가산,판교) - AWS에서 작은 서비스 구현하기 (김필중 솔루션즈 아키텍트)
찾아가는 AWS 세미나(구로,가산,판교) -  AWS에서 작은 서비스 구현하기 (김필중 솔루션즈 아키텍트)찾아가는 AWS 세미나(구로,가산,판교) -  AWS에서 작은 서비스 구현하기 (김필중 솔루션즈 아키텍트)
찾아가는 AWS 세미나(구로,가산,판교) - AWS에서 작은 서비스 구현하기 (김필중 솔루션즈 아키텍트)
Amazon Web Services Korea
 
AWS를 활용한 미디어 서비스 혁신 방법 - AWS Summit Seoul 2017
AWS를 활용한 미디어 서비스 혁신 방법 - AWS Summit Seoul 2017AWS를 활용한 미디어 서비스 혁신 방법 - AWS Summit Seoul 2017
AWS를 활용한 미디어 서비스 혁신 방법 - AWS Summit Seoul 2017
Amazon Web Services Korea
 

Ähnlich wie 빅데이터를 위한 AWS 모범사례와 아키텍처 구축 패턴 :: 양승도 :: AWS Summit Seoul 2016 (20)

Ad-Tech on AWS 세미나 | AWS와 데이터 분석
Ad-Tech on AWS 세미나 | AWS와 데이터 분석Ad-Tech on AWS 세미나 | AWS와 데이터 분석
Ad-Tech on AWS 세미나 | AWS와 데이터 분석
 
클라우드 기반 AWS 데이터베이스 선택 옵션 - AWS Summit Seoul 2017
클라우드 기반 AWS 데이터베이스 선택 옵션 - AWS Summit Seoul 2017 클라우드 기반 AWS 데이터베이스 선택 옵션 - AWS Summit Seoul 2017
클라우드 기반 AWS 데이터베이스 선택 옵션 - AWS Summit Seoul 2017
 
AWS를 통한 빅데이터 기반 비지니스 인텔리전스 구축- AWS Summit Seoul 2017
AWS를 통한 빅데이터 기반 비지니스 인텔리전스 구축- AWS Summit Seoul 2017AWS를 통한 빅데이터 기반 비지니스 인텔리전스 구축- AWS Summit Seoul 2017
AWS를 통한 빅데이터 기반 비지니스 인텔리전스 구축- AWS Summit Seoul 2017
 
2017 Ad-Tech on AWS 세미나ㅣAWS에서의 빅데이터와 분석
2017 Ad-Tech on AWS 세미나ㅣAWS에서의 빅데이터와 분석2017 Ad-Tech on AWS 세미나ㅣAWS에서의 빅데이터와 분석
2017 Ad-Tech on AWS 세미나ㅣAWS에서의 빅데이터와 분석
 
AWS 신규 데이터 분석 서비스 - QuickSight, Kinesis Firehose 등 (양승도) :: re:Invent re:Cap ...
AWS 신규 데이터 분석 서비스 - QuickSight, Kinesis Firehose 등 (양승도) :: re:Invent re:Cap ...AWS 신규 데이터 분석 서비스 - QuickSight, Kinesis Firehose 등 (양승도) :: re:Invent re:Cap ...
AWS 신규 데이터 분석 서비스 - QuickSight, Kinesis Firehose 등 (양승도) :: re:Invent re:Cap ...
 
AWS Lambda를 기반으로한 실시간 빅테이터 처리하기
AWS Lambda를 기반으로한 실시간 빅테이터 처리하기AWS Lambda를 기반으로한 실시간 빅테이터 처리하기
AWS Lambda를 기반으로한 실시간 빅테이터 처리하기
 
데이터베이스 운영, 서버리스로 걱정 끝! - 윤석찬, AWS 테크에반젤리스트 - AWS Builders Online Series
데이터베이스 운영, 서버리스로 걱정 끝! - 윤석찬, AWS 테크에반젤리스트 - AWS Builders Online Series데이터베이스 운영, 서버리스로 걱정 끝! - 윤석찬, AWS 테크에반젤리스트 - AWS Builders Online Series
데이터베이스 운영, 서버리스로 걱정 끝! - 윤석찬, AWS 테크에반젤리스트 - AWS Builders Online Series
 
나에게 맞는 AWS 데이터베이스 서비스 선택하기 :: 양승도 :: AWS Summit Seoul 2016
나에게 맞는 AWS 데이터베이스 서비스 선택하기 :: 양승도 :: AWS Summit Seoul 2016나에게 맞는 AWS 데이터베이스 서비스 선택하기 :: 양승도 :: AWS Summit Seoul 2016
나에게 맞는 AWS 데이터베이스 서비스 선택하기 :: 양승도 :: AWS Summit Seoul 2016
 
AWS CLOUD 2017 - Amazon Redshift 기반 DW 와 비지니스 인텔리전스 구현 방법 (김일호 솔루션즈 아키텍트)
AWS CLOUD 2017 - Amazon Redshift 기반 DW 와 비지니스 인텔리전스 구현 방법 (김일호 솔루션즈 아키텍트)AWS CLOUD 2017 - Amazon Redshift 기반 DW 와 비지니스 인텔리전스 구현 방법 (김일호 솔루션즈 아키텍트)
AWS CLOUD 2017 - Amazon Redshift 기반 DW 와 비지니스 인텔리전스 구현 방법 (김일호 솔루션즈 아키텍트)
 
천만사용자를 위한 AWS 클라우드 아키텍처 진화하기 – 문종민, AWS솔루션즈 아키텍트:: AWS Summit Online Korea 2020
천만사용자를 위한 AWS 클라우드 아키텍처 진화하기 – 문종민, AWS솔루션즈 아키텍트::  AWS Summit Online Korea 2020천만사용자를 위한 AWS 클라우드 아키텍처 진화하기 – 문종민, AWS솔루션즈 아키텍트::  AWS Summit Online Korea 2020
천만사용자를 위한 AWS 클라우드 아키텍처 진화하기 – 문종민, AWS솔루션즈 아키텍트:: AWS Summit Online Korea 2020
 
찾아가는 AWS 세미나(구로,가산,판교) - AWS 클라우드로 서비스 무한대로 확장하기 (박철수 솔루션즈 아키텍트)
찾아가는 AWS 세미나(구로,가산,판교) -  AWS 클라우드로 서비스 무한대로 확장하기 (박철수 솔루션즈 아키텍트)찾아가는 AWS 세미나(구로,가산,판교) -  AWS 클라우드로 서비스 무한대로 확장하기 (박철수 솔루션즈 아키텍트)
찾아가는 AWS 세미나(구로,가산,판교) - AWS 클라우드로 서비스 무한대로 확장하기 (박철수 솔루션즈 아키텍트)
 
AWS Summit Seoul 2015 - 게임 서비스 혁신을 위한 데이터 분석
AWS Summit Seoul 2015 - 게임 서비스 혁신을 위한 데이터 분석AWS Summit Seoul 2015 - 게임 서비스 혁신을 위한 데이터 분석
AWS Summit Seoul 2015 - 게임 서비스 혁신을 위한 데이터 분석
 
AWS Enterprise Summit :: 빅데이터 워크로드를 위한 AWS 활용방법 (김기완 솔루션즈 아키텍트)
AWS Enterprise Summit :: 빅데이터 워크로드를 위한 AWS 활용방법 (김기완 솔루션즈 아키텍트)AWS Enterprise Summit :: 빅데이터 워크로드를 위한 AWS 활용방법 (김기완 솔루션즈 아키텍트)
AWS Enterprise Summit :: 빅데이터 워크로드를 위한 AWS 활용방법 (김기완 솔루션즈 아키텍트)
 
찾아가는 AWS 세미나(구로,가산,판교) - AWS에서 작은 서비스 구현하기 (김필중 솔루션즈 아키텍트)
찾아가는 AWS 세미나(구로,가산,판교) -  AWS에서 작은 서비스 구현하기 (김필중 솔루션즈 아키텍트)찾아가는 AWS 세미나(구로,가산,판교) -  AWS에서 작은 서비스 구현하기 (김필중 솔루션즈 아키텍트)
찾아가는 AWS 세미나(구로,가산,판교) - AWS에서 작은 서비스 구현하기 (김필중 솔루션즈 아키텍트)
 
Amazon kinesis와 elasticsearch service로 만드는 실시간 데이터 분석 플랫폼 :: 박철수 :: AWS Summi...
Amazon kinesis와 elasticsearch service로 만드는 실시간 데이터 분석 플랫폼 :: 박철수 :: AWS Summi...Amazon kinesis와 elasticsearch service로 만드는 실시간 데이터 분석 플랫폼 :: 박철수 :: AWS Summi...
Amazon kinesis와 elasticsearch service로 만드는 실시간 데이터 분석 플랫폼 :: 박철수 :: AWS Summi...
 
AWS BigData 전략과 관련 AWS 서비스 이해하기
AWS BigData 전략과 관련 AWS 서비스 이해하기AWS BigData 전략과 관련 AWS 서비스 이해하기
AWS BigData 전략과 관련 AWS 서비스 이해하기
 
AWS Innovate: Best Practices for Migrating to Amazon DynamoDB - Sangpil Kim
AWS Innovate: Best Practices for Migrating to Amazon DynamoDB - Sangpil KimAWS Innovate: Best Practices for Migrating to Amazon DynamoDB - Sangpil Kim
AWS Innovate: Best Practices for Migrating to Amazon DynamoDB - Sangpil Kim
 
데이터 분석가를 위한 신규 분석 서비스 - 김기영, AWS 분석 솔루션즈 아키텍트 / 변규현, 당근마켓 소프트웨어 엔지니어 :: AWS r...
데이터 분석가를 위한 신규 분석 서비스 - 김기영, AWS 분석 솔루션즈 아키텍트 / 변규현, 당근마켓 소프트웨어 엔지니어 :: AWS r...데이터 분석가를 위한 신규 분석 서비스 - 김기영, AWS 분석 솔루션즈 아키텍트 / 변규현, 당근마켓 소프트웨어 엔지니어 :: AWS r...
데이터 분석가를 위한 신규 분석 서비스 - 김기영, AWS 분석 솔루션즈 아키텍트 / 변규현, 당근마켓 소프트웨어 엔지니어 :: AWS r...
 
AWS를 활용한 미디어 서비스 혁신 방법 - AWS Summit Seoul 2017
AWS를 활용한 미디어 서비스 혁신 방법 - AWS Summit Seoul 2017AWS를 활용한 미디어 서비스 혁신 방법 - AWS Summit Seoul 2017
AWS를 활용한 미디어 서비스 혁신 방법 - AWS Summit Seoul 2017
 
민첩하고 비용효율적인 Data Lake 구축 - 문종민 솔루션즈 아키텍트, AWS
민첩하고 비용효율적인 Data Lake 구축 - 문종민 솔루션즈 아키텍트, AWS민첩하고 비용효율적인 Data Lake 구축 - 문종민 솔루션즈 아키텍트, AWS
민첩하고 비용효율적인 Data Lake 구축 - 문종민 솔루션즈 아키텍트, AWS
 

Mehr von Amazon Web Services Korea

Mehr von Amazon Web Services Korea (20)

AWS Modern Infra with Storage Roadshow 2023 - Day 2
AWS Modern Infra with Storage Roadshow 2023 - Day 2AWS Modern Infra with Storage Roadshow 2023 - Day 2
AWS Modern Infra with Storage Roadshow 2023 - Day 2
 
AWS Modern Infra with Storage Roadshow 2023 - Day 1
AWS Modern Infra with Storage Roadshow 2023 - Day 1AWS Modern Infra with Storage Roadshow 2023 - Day 1
AWS Modern Infra with Storage Roadshow 2023 - Day 1
 
사례로 알아보는 Database Migration Service : 데이터베이스 및 데이터 이관, 통합, 분리, 분석의 도구 - 발표자: ...
사례로 알아보는 Database Migration Service : 데이터베이스 및 데이터 이관, 통합, 분리, 분석의 도구 - 발표자: ...사례로 알아보는 Database Migration Service : 데이터베이스 및 데이터 이관, 통합, 분리, 분석의 도구 - 발표자: ...
사례로 알아보는 Database Migration Service : 데이터베이스 및 데이터 이관, 통합, 분리, 분석의 도구 - 발표자: ...
 
Amazon DocumentDB - Architecture 및 Best Practice (Level 200) - 발표자: 장동훈, Sr. ...
Amazon DocumentDB - Architecture 및 Best Practice (Level 200) - 발표자: 장동훈, Sr. ...Amazon DocumentDB - Architecture 및 Best Practice (Level 200) - 발표자: 장동훈, Sr. ...
Amazon DocumentDB - Architecture 및 Best Practice (Level 200) - 발표자: 장동훈, Sr. ...
 
Amazon Elasticache - Fully managed, Redis & Memcached Compatible Service (Lev...
Amazon Elasticache - Fully managed, Redis & Memcached Compatible Service (Lev...Amazon Elasticache - Fully managed, Redis & Memcached Compatible Service (Lev...
Amazon Elasticache - Fully managed, Redis & Memcached Compatible Service (Lev...
 
Internal Architecture of Amazon Aurora (Level 400) - 발표자: 정달영, APAC RDS Speci...
Internal Architecture of Amazon Aurora (Level 400) - 발표자: 정달영, APAC RDS Speci...Internal Architecture of Amazon Aurora (Level 400) - 발표자: 정달영, APAC RDS Speci...
Internal Architecture of Amazon Aurora (Level 400) - 발표자: 정달영, APAC RDS Speci...
 
[Keynote] 슬기로운 AWS 데이터베이스 선택하기 - 발표자: 강민석, Korea Database SA Manager, WWSO, A...
[Keynote] 슬기로운 AWS 데이터베이스 선택하기 - 발표자: 강민석, Korea Database SA Manager, WWSO, A...[Keynote] 슬기로운 AWS 데이터베이스 선택하기 - 발표자: 강민석, Korea Database SA Manager, WWSO, A...
[Keynote] 슬기로운 AWS 데이터베이스 선택하기 - 발표자: 강민석, Korea Database SA Manager, WWSO, A...
 
Demystify Streaming on AWS - 발표자: 이종혁, Sr Analytics Specialist, WWSO, AWS :::...
Demystify Streaming on AWS - 발표자: 이종혁, Sr Analytics Specialist, WWSO, AWS :::...Demystify Streaming on AWS - 발표자: 이종혁, Sr Analytics Specialist, WWSO, AWS :::...
Demystify Streaming on AWS - 발표자: 이종혁, Sr Analytics Specialist, WWSO, AWS :::...
 
Amazon EMR - Enhancements on Cost/Performance, Serverless - 발표자: 김기영, Sr Anal...
Amazon EMR - Enhancements on Cost/Performance, Serverless - 발표자: 김기영, Sr Anal...Amazon EMR - Enhancements on Cost/Performance, Serverless - 발표자: 김기영, Sr Anal...
Amazon EMR - Enhancements on Cost/Performance, Serverless - 발표자: 김기영, Sr Anal...
 
Amazon OpenSearch - Use Cases, Security/Observability, Serverless and Enhance...
Amazon OpenSearch - Use Cases, Security/Observability, Serverless and Enhance...Amazon OpenSearch - Use Cases, Security/Observability, Serverless and Enhance...
Amazon OpenSearch - Use Cases, Security/Observability, Serverless and Enhance...
 
Enabling Agility with Data Governance - 발표자: 김성연, Analytics Specialist, WWSO,...
Enabling Agility with Data Governance - 발표자: 김성연, Analytics Specialist, WWSO,...Enabling Agility with Data Governance - 발표자: 김성연, Analytics Specialist, WWSO,...
Enabling Agility with Data Governance - 발표자: 김성연, Analytics Specialist, WWSO,...
 
Amazon Redshift Deep Dive - Serverless, Streaming, ML, Auto Copy (New feature...
Amazon Redshift Deep Dive - Serverless, Streaming, ML, Auto Copy (New feature...Amazon Redshift Deep Dive - Serverless, Streaming, ML, Auto Copy (New feature...
Amazon Redshift Deep Dive - Serverless, Streaming, ML, Auto Copy (New feature...
 
From Insights to Action, How to build and maintain a Data Driven Organization...
From Insights to Action, How to build and maintain a Data Driven Organization...From Insights to Action, How to build and maintain a Data Driven Organization...
From Insights to Action, How to build and maintain a Data Driven Organization...
 
[Keynote] Accelerating Business Outcomes with AWS Data - 발표자: Saeed Gharadagh...
[Keynote] Accelerating Business Outcomes with AWS Data - 발표자: Saeed Gharadagh...[Keynote] Accelerating Business Outcomes with AWS Data - 발표자: Saeed Gharadagh...
[Keynote] Accelerating Business Outcomes with AWS Data - 발표자: Saeed Gharadagh...
 
Amazon DynamoDB - Use Cases and Cost Optimization - 발표자: 이혁, DynamoDB Special...
Amazon DynamoDB - Use Cases and Cost Optimization - 발표자: 이혁, DynamoDB Special...Amazon DynamoDB - Use Cases and Cost Optimization - 발표자: 이혁, DynamoDB Special...
Amazon DynamoDB - Use Cases and Cost Optimization - 발표자: 이혁, DynamoDB Special...
 
LG전자 - Amazon Aurora 및 RDS 블루/그린 배포를 이용한 데이터베이스 업그레이드 안정성 확보 - 발표자: 이은경 책임, L...
LG전자 - Amazon Aurora 및 RDS 블루/그린 배포를 이용한 데이터베이스 업그레이드 안정성 확보 - 발표자: 이은경 책임, L...LG전자 - Amazon Aurora 및 RDS 블루/그린 배포를 이용한 데이터베이스 업그레이드 안정성 확보 - 발표자: 이은경 책임, L...
LG전자 - Amazon Aurora 및 RDS 블루/그린 배포를 이용한 데이터베이스 업그레이드 안정성 확보 - 발표자: 이은경 책임, L...
 
KB국민카드 - 클라우드 기반 분석 플랫폼 혁신 여정 - 발표자: 박창용 과장, 데이터전략본부, AI혁신부, KB카드│강병억, Soluti...
KB국민카드 - 클라우드 기반 분석 플랫폼 혁신 여정 - 발표자: 박창용 과장, 데이터전략본부, AI혁신부, KB카드│강병억, Soluti...KB국민카드 - 클라우드 기반 분석 플랫폼 혁신 여정 - 발표자: 박창용 과장, 데이터전략본부, AI혁신부, KB카드│강병억, Soluti...
KB국민카드 - 클라우드 기반 분석 플랫폼 혁신 여정 - 발표자: 박창용 과장, 데이터전략본부, AI혁신부, KB카드│강병억, Soluti...
 
SK Telecom - 망관리 프로젝트 TANGO의 오픈소스 데이터베이스 전환 여정 - 발표자 : 박승전, Project Manager, ...
SK Telecom - 망관리 프로젝트 TANGO의 오픈소스 데이터베이스 전환 여정 - 발표자 : 박승전, Project Manager, ...SK Telecom - 망관리 프로젝트 TANGO의 오픈소스 데이터베이스 전환 여정 - 발표자 : 박승전, Project Manager, ...
SK Telecom - 망관리 프로젝트 TANGO의 오픈소스 데이터베이스 전환 여정 - 발표자 : 박승전, Project Manager, ...
 
코리안리 - 데이터 분석 플랫폼 구축 여정, 그 시작과 과제 - 발표자: 김석기 그룹장, 데이터비즈니스센터, 메가존클라우드 ::: AWS ...
코리안리 - 데이터 분석 플랫폼 구축 여정, 그 시작과 과제 - 발표자: 김석기 그룹장, 데이터비즈니스센터, 메가존클라우드 ::: AWS ...코리안리 - 데이터 분석 플랫폼 구축 여정, 그 시작과 과제 - 발표자: 김석기 그룹장, 데이터비즈니스센터, 메가존클라우드 ::: AWS ...
코리안리 - 데이터 분석 플랫폼 구축 여정, 그 시작과 과제 - 발표자: 김석기 그룹장, 데이터비즈니스센터, 메가존클라우드 ::: AWS ...
 
LG 이노텍 - Amazon Redshift Serverless를 활용한 데이터 분석 플랫폼 혁신 과정 - 발표자: 유재상 선임, LG이노...
LG 이노텍 - Amazon Redshift Serverless를 활용한 데이터 분석 플랫폼 혁신 과정 - 발표자: 유재상 선임, LG이노...LG 이노텍 - Amazon Redshift Serverless를 활용한 데이터 분석 플랫폼 혁신 과정 - 발표자: 유재상 선임, LG이노...
LG 이노텍 - Amazon Redshift Serverless를 활용한 데이터 분석 플랫폼 혁신 과정 - 발표자: 유재상 선임, LG이노...
 

Kürzlich hochgeladen

Console API (Kitworks Team Study 백혜인 발표자료)
Console API (Kitworks Team Study 백혜인 발표자료)Console API (Kitworks Team Study 백혜인 발표자료)
Console API (Kitworks Team Study 백혜인 발표자료)
Wonjun Hwang
 
Merge (Kitworks Team Study 이성수 발표자료 240426)
Merge (Kitworks Team Study 이성수 발표자료 240426)Merge (Kitworks Team Study 이성수 발표자료 240426)
Merge (Kitworks Team Study 이성수 발표자료 240426)
Wonjun Hwang
 

Kürzlich hochgeladen (6)

Console API (Kitworks Team Study 백혜인 발표자료)
Console API (Kitworks Team Study 백혜인 발표자료)Console API (Kitworks Team Study 백혜인 발표자료)
Console API (Kitworks Team Study 백혜인 발표자료)
 
Continual Active Learning for Efficient Adaptation of Machine LearningModels ...
Continual Active Learning for Efficient Adaptation of Machine LearningModels ...Continual Active Learning for Efficient Adaptation of Machine LearningModels ...
Continual Active Learning for Efficient Adaptation of Machine LearningModels ...
 
MOODv2 : Masked Image Modeling for Out-of-Distribution Detection
MOODv2 : Masked Image Modeling for Out-of-Distribution DetectionMOODv2 : Masked Image Modeling for Out-of-Distribution Detection
MOODv2 : Masked Image Modeling for Out-of-Distribution Detection
 
A future that integrates LLMs and LAMs (Symposium)
A future that integrates LLMs and LAMs (Symposium)A future that integrates LLMs and LAMs (Symposium)
A future that integrates LLMs and LAMs (Symposium)
 
캐드앤그래픽스 2024년 5월호 목차
캐드앤그래픽스 2024년 5월호 목차캐드앤그래픽스 2024년 5월호 목차
캐드앤그래픽스 2024년 5월호 목차
 
Merge (Kitworks Team Study 이성수 발표자료 240426)
Merge (Kitworks Team Study 이성수 발표자료 240426)Merge (Kitworks Team Study 이성수 발표자료 240426)
Merge (Kitworks Team Study 이성수 발표자료 240426)
 

빅데이터를 위한 AWS 모범사례와 아키텍처 구축 패턴 :: 양승도 :: AWS Summit Seoul 2016

  • 1. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. 양승도 | 솔루션즈 아키텍트 2016년 5월 17일 빅데이터를 위한 AWS 모범사례와 아키텍처 구축 패턴
  • 2. 목차 § 데이터의 증가 & 분석의 진화 § 참조 아키텍처 § 어떤 기술을 사용해야 할까? § 왜? § 어떻게? § 고객 사례(MangoPlate) § 디자인 패턴
  • 5. Amazon Glacier S3 DynamoDB RDS EMR Amazon Redshift Data Pipeline Amazon Kinesis CloudSearch Kinesis-enabled app Lambda ML SQS ElastiCache DynamoDB Streams 넘쳐나는 도구들
  • 6. 쿨~한 참조 아키텍처가 있는지? 어떤 도구를 사용해야 하는지? 왜? 어떻게?
  • 7. 아키텍처 원칙 “데이터 버스”를 분리 • Data → Store → Process → Answers 작업에 적합한 도구를 사용 • Data structure, latency, throughput, access patterns 람다 아키텍처 아이디어 사용 • Immutable (append-only) log, batch/speed/serving layer AWS 관리형 서비스 활용 • No/low admin 비용에 대한 고려 • Big data ≠ Big cost
  • 8. 빅데이터 처리를 단순하게… 수집 저장 분석 소비 / 시각화 답변 시간(지연) 처리량 비용
  • 10. 데이터의 종류 트랜잭션 • Database reads & writes (OLTP) • Cache 검색 • Logs • Streams 파일 • Log files (/var/log) • Log collectors & frameworks 스트림 • Log records • Sensors & IoT data A iOS Android Web Apps Logstash Amazon RDS Amazon DynamoDB Amazon ES Amazon S3 Amazon Glacier Amazon ElastiCache SearchSQLNoSQLCacheFileStorage Transactional Data File Data Stream Data Mobile Apps Search Data Database File Storage Search 수집 저장 LoggingIoTApplications Stream Storage
  • 13. 스트림 스토리지 옵션들 AWS 관리형 서비스 • Amazon Kinesis → streams • Amazon DynamoDB Streams → table + streams • Amazon SQS → queue • Amazon SNS → pub/sub Do-It-Yourself • Apache Kafka → stream
  • 14. 생산자와 소비자를 분리 영구적인 버퍼 다수의 스트림을 수집 메시지의 순서 유지 스트리밍 맵리듀스 병렬적인 소비 4 4 3 3 2 2 1 1 4 3 2 1 4 3 2 1 4 3 2 1 4 3 2 1 4 4 3 3 2 2 1 1 Shard 1 / Partition 1 Shard 2 / Partition 2 Consumer 1 Count of Red = 4 Count of Violet = 4 Consumer 2 Count of Blue = 4 Count of Green = 4 DynamoDB Stream Kinesis Stream Kafka Topic 스트림 스토리지
  • 15. Queues & Pub/Sub ? • 생산자 및 소비자/가입자를 분리 • 영구적인 버퍼 • 다수의 스트림을 수집 • No 메시지 순서 • No 병렬적 소비 for Amazon SQS • Amazon SNS 는 다수의 큐 또는 람다(Lambda) 함수로 전달 가능 • No 스트리밍 맵리듀스 Consumers Producers Producers Amazon SNS Amazon SQS queue topic function ʎ AWS Lambda Amazon SQS queue Subscriber
  • 16. Amazon Kinesis DynamoDB Streams Amazon SQS Amazon SNS Kafka Managed Yes Yes Yes No Ordering Yes Yes No Yes Delivery at-least-once exactly-once at-least-once at-least-once Lifetime 7 days 24 hours 14 days Configurable Replication 3 AZ 3 AZ 3 AZ Configurable Throughput No Limit No Limit No Limit ~ Nodes Parallel Clients Yes Yes No (SQS) Yes MapReduce Yes Yes No Yes Record size 1MB 400KB 256KB Configurable Cost Low Higher(table cost) Low-Medium Low (+admin) 어떤 스트림 스토리지를 사용해야 하는가?
  • 18. 왜 Amazon S3가 빅데이터에 좋은가? • 기본적으로 빅데이터 프레임워크 지원(Spark, Hive, Presto, etc.) • 스토리지를 위한 컴퓨팅 클러스터가 불필요 (HDFS와 다름) • Amazon EC2 스팟 인스턴스를 활용하여 하둡 클러스터 운영 가능 • 동일한 데이터로 여러 종류(Spark, Hive, Presto) 클러스터를 동시에 사용 • 오브젝트 갯수 무제한 • 99.999999999%의 내구성을 위한 설계 • 고 가용성 – AZ 장애 극복 • 수명주기를 활용한 계층-스토리지 (Standard, IA, Amazon Glacier) • 보안 – SSL, client/server-side encryption at rest • 저비용 • 매우 높은 대역폭 – 총 처리량 제한 없음
  • 19. 왜 Amazon S3가 빅데이터에 좋은가? • 기본적으로 빅데이터 프레임워크 지원(Spark, Hive, Presto, etc.) • 스토리지를 위한 컴퓨팅 클러스터가 불필요 (HDFS와 다름) • Amazon EC2 스팟 인스턴스를 활용하여 하둡 클러스터 운영 가능 • 동일한 데이터로 여러 종류(Spark, Hive, Presto) 클러스터를 동시에 사용 • 오브젝트 갯수 무제한 • 99.999999999%의 내구성을 위한 설계 • 고 가용성 – AZ 장애 극복 • 수명주기를 활용한 계층-스토리지 (Standard, IA, Amazon Glacier) • 보안 – SSL, client/server-side encryption at rest • 저비용 • 매우 높은 대역폭 – 총 처리량 제한 없음
  • 20. • 매우 자주 접근하는(hot) 데이터는 HDFS 사용 • 자주 접근하는 데이터는 Amazon S3 Standard 사용 • 드물게 접근하는 데이터는 Amazon S3 Standard – IA 사용 • 거의 접근하지 않는(cold) 데이터는 Amazon Glacier 사용하여 아카이브 S3와 HDFS, Amazon Glacier를 함께…
  • 21. 데이터베이스 + 검색 계층 A iOS Android Web Apps Logstash Amazon RDS Amazon DynamoDB Amazon ES Amazon S3 Apache Kafka Amazon Glacier Amazon Kinesis Amazon DynamoDB Amazon ElastiCache SearchSQLNoSQLCacheStreamStorageFileStorage Transactional Data File Data Stream Data Mobile Apps Search Data 수집 저장 LoggingIoTApplications ü
  • 22. Database + Search Tier 데이터베이스 + 검색 계층 Anti-pattern
  • 23. Data Tier Search Amazon Elasticsearch Service Amazon CloudSearch Cache Redis Memcached SQL Amazon Aurora MySQL MariaDB PostgreSQL Oracle SQL Server NoSQL Cassandra Amazon DynamoDB HBase MongoDB Database + Search Tier 모범 사례 – 성격에 맞는 적합한 도구 사용
  • 25. 데이터 구조와 접근 패턴 접근 패턴 What to use? Put/Get (Key, Value) Cache, NoSQL Simple relationships → 1:N, M:N NoSQL Cross table joins, transaction, SQL SQL Faceting, Search Search 데이터 구조 What to use? Fixed schema SQL, NoSQL Schema-free (JSON) NoSQL, Search (Key, Value) Cache, NoSQL
  • 27. Hot Warm Cold 데이터 용량 MB–GB GB–TB PB 아이템 크기 B–KB KB–MB KB–TB 응답시간 ms ms, sec min, hrs 내구성 Low–High High Very High 요청 비율 Very High High Low 비용/GB $$-$ $-¢¢ ¢ Hot Data Warm Data Cold Data 데이터 / 접근 특성: Hot, Warm, Cold
  • 28. Cache SQL Request Rate High Low Cost/GB High Low Latency Low High Data Volume Low High Glacier Structure NoSQL Hot Data Warm Data Cold Data Low High Search
  • 29. Amazon ElastiCache Amazon DynamoDB Amazon Aurora Amazon Elasticsearch Amazon EMR (HDFS) Amazon S3 Amazon Glacier Average latency ms ms ms, sec ms,sec sec,min,hrs ms,sec,min (~ size) hrs Data volume GB GB–TBs (no limit) GB–TB (64 TB Max) GB–TB GB–PB (~nodes) MB–PB (no limit) GB–PB (no limit) Item size B-KB KB (400 KB max) KB (64 KB) KB (1 MB max) MB-GB KB-GB (5 TB max) GB (40 TB max) Request rate High - Very High Very High (no limit) High High Low – Very High Low – Very High (no limit) Very Low Storage cost GB/month $$ ¢¢ ¢¢ ¢¢ ¢ ¢ ¢/10 Durability Low - Moderate Very High Very High High High Very High Very High Hot Data Warm Data Cold Data Hot Data Warm Data Cold Data 어떤 데이터 저장소를 사용?
  • 31. 분석A iOS Android Web Apps Logstash Amazon RDS Amazon DynamoDB Amazon ES Amazon S3 Apache Kafka Amazon Glacier Amazon Kinesis Amazon DynamoDB Amazon Redshift Impala Pig Amazon ML Amazon Kinesis AWS Lambda AmazonElasticMapReduce Amazon ElastiCache SearchSQLNoSQLCache StreamProcessingBatchInteractive Logging StreamStorage IoTApplications FileStorage Hot Cold War m Hot Hot ML Transactional Data File Data Stream Data Mobile Apps Search Data 수집 저장 분석 ü ü Streaming
  • 32. 처리 / 분석 데이터에 대한 분석은 유용한 정보를 발견하고, 결론을 제안하고, 그리고 의사결정을 지원하기 위한 목적으로 데이터를 점검, 정제, 변환, 그리고 모델링 하는 프로세스 예시 대화형 대쉬보드 → 대화형 분석(Interactive Analytics) 일일/주간/월간 보고서 → 배치 분석(Batch Analytics) 결제/사기 경고, 1 분 측정 → 실시간 분석(Real-time Analytics) 심리 분석, 예측 모델 → 기계 학습(Machine learning)
  • 33. 대화형 분석 대용량의 데이터 (warm/cold) 답변을 얻기까지 수 초 소요 예: 셀프 서비스 대쉬보드
  • 34. 배치 분석 대용량의 데이터 (warm/cold) 답변을 얻기까지 수 분 또는 수 시간 소요 예: 일일, 주간, 월간 보고서 작성
  • 35. 실시간 분석 적은 용량의 Hot 한 데이터와 질문 답변을 얻기까지 짧은 시간 소요 (수 밀리초 또는 수 초) 실시간 (이벤트) • 데이터 스트림에서 이벤트 실시간 응답 • 예: 결제/사기 경고 준 실시간 (마이크로 배치) • 데이터 스트림의 마이크로 배치를 통한 준 실시간 운영 • 예: 1 분 측정
  • 36. 기계 학습을 통한 예측 기계 학습(ML)은 컴퓨터에게 명시적으로 프로그래밍 하지 않고 학습할 수 있는 기능을 제공 기계 학습 알고리즘: 감독 학습 ← “teach” program - Classification ← Is this transaction fraud? (Yes/No) - Regression ← Customer Life-time value? 자율 학습 ← let it learn by itself - Clustering ← Market Segmentation
  • 37. 기계 학습 • Mahout, Spark ML, Amazon ML 대화형 분석 • Amazon Redshift, Presto, Impala, Spark 배치 분석 • MapReduce, Hive, Pig, Spark 스트림 처리 • Micro-batch: Spark Streaming, KCL, Hive, Pig • Real-time: Storm, AWS Lambda, KCL Amazon Redshift Impala Pig Amazon Machine Learning Amazon Kinesis AWS Lambda AmazonElasticMapReduce StreamProcessingBatchInteractiveML 분석 Streaming 분석 도구와 프레임워크
  • 38. Spark Streaming Apache Storm Amazon Kinesis Client Library AWS Lambda Amazon EMR (Hive, Pig) Scale / Throughput ~ Nodes ~ Nodes ~ Nodes Automatic ~ Nodes Batch or Real- time Real-time Real-time Real-time Real-time Batch Manageability Yes (Amazon EMR) Do it yourself Amazon EC2 + Auto Scaling AWS managed Yes (Amazon EMR) Fault Tolerance Single AZ Configurable Multi-AZ Multi-AZ Single AZ Programming languages Java, Python, Scala Any language via Thrift Java, via MultiLangDaemon ( .Net, Python, Ruby, Node.js) Node.js,Java, Python Hive, Pig, Streaming languages High 어떤 데이터 처리 기술을 사용해야 하는가?
  • 39. Amazon Redshift Impala Presto Spark Hive Query Latency Low Low Low Low Medium (Tez) – High (MapReduce) Durability High High High High High Data Volume 1.6 PB Max ~Nodes ~Nodes ~Nodes ~Nodes Managed Yes Yes (EMR) Yes (EMR) Yes (EMR) Yes (EMR) Storage Native HDFS / S3A* HDFS / S3 HDFS / S3 HDFS / S3 SQL Compatibility High Medium High Low (SparkSQL) Medium (HQL) HighMedium 어떤 데이터 처리 기술을 사용해야 하는가?
  • 42. 예측 분석 및 시각화 IDE 애플리케이션 & API Consume Analysis&VisualizationNotebooks Predictions Apps & APIs IDE 저장 분석 소비ETL Business users Data Scientist, Developers Amazon QuickSight 소비
  • 44. 수집 저장 분석 소비 A iOS Android Web Apps Logstash Amazon RDS Amazon DynamoDB Amazon ES Amazon S3 Apache Kafka Amazon Glacier Amazon Kinesis Amazon DynamoDB Amazon Redshift Impala Pig Amazon ML Amazon Kinesis AWS Lambda AmazonElasticMapReduce Amazon ElastiCache SearchSQLNoSQLCache StreamProcessingBatchInteractive Logging StreamStorage IoTApplications FileStorage Analysis&Visualization Hot Cold Warm Hot Slow Hot ML Fast Fast Transactional Data File Data Stream Data Notebooks Predictions Apps & APIs Mobile Apps IDE Search Data ETL Streaming Amazon QuickSight
  • 45. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. 유호석 | CTO 2016년 5월 17일 Customer Story MangoPlate
  • 47. 망고플레이트 소개 사람들이 맛있는 곳을 쉽고 빠르게 찾을 수 있도록 도와주는 서비스[ ]
  • 48. 망고플레이트의 성장 누적다운로드: 250만+ MAU : 180만+ 월간 페이지뷰: 2000만+ 현재
  • 49. 망고플레이트에서 하고 있는 추천 및 분석 업무 • Recommendation Engine • Restaurant to Restaurant Similarity 계산 • User to User Similarity 계산 • User to Restaurant Similarity 계산 • Fraud Detection • Fake review/user Identification • User/Review/Picture Scoring • Restaurant Rating • User Behavior 분석 • Web/App user mapping • Retention queries • User segmentation/testing
  • 50. 서비스 성장에 따른 Pain Point들 • 서비스 성장에 따라 기존 시스템으로 계산 시간이 점점 오래 걸림 • 추천 및 Rating 알고리즘 고도화로 분석 Query 가 복잡해짐 • 분석하고 싶은 데이터가 모두 흩어져 있음
  • 51. 어떤 Solution을 이용해야할까? • 우리팀의 상황 • 별도의 분석 Script를 만들기에는 개발자 부족 • Algorithm의 70%는 Query에 의존 • 분석에 필요한 모든 Log를 수집하여 S3에 저장 • Redshift를 도입하기로 결정 [ ]클라우드에서 실행되는 신속하고 강력한 페타바이트 규모의 SQL기반 데이터 웨어하우스 서비스
  • 52. Redshift의 장점 • 쉽게 Petabyte 규모까지 Scale 가능 • 빠른 계산 속도 • 저렴한 가격 • dc1.large의 경우 월 20만원으로 시작 가능 • 표준 SQL 지원 및 다양한 Analytics Function 지원
  • 53. 단계별로 AWS 및 Redshift도입 국내 클라우드 서비스 • VM instances • MySQL • Redis AWS Seoul Region • EC2 • RDS • Elastic Cache • VPC • Route53 • S3 • SNS • SQS • Redshift Migration Consulting & Technical Support AWS Tokyo Region • S3 • SNS • SQS • Redshift + 2015 2016
  • 54. 망고플레이트의 Architecture 분석이 필요한 모든 데이터를 한곳에 AWS S3 AWS Redshift . . . copy table SQL DB records to raw file AWS EC2 Analytics Visualization & Consume Collection Store AWS RDS AWS EC2 AWS EC2 AWS RDS
  • 55. 무엇이 좋아졌을까요? • Algorithm queries • Restaurant Similarity: 600 초 > 80 초 (7.5배) • Restaurant/User Recommendation: 720 초 > 80 초 (9배) • Retention queries • Base Table: 1200 초 > 60 초 (20배) • Main: 2400 초 > 200 초 (12배) 분석 속도 개선
  • 56. 무엇이 좋아졌을까요? • Analytic function(window function) 들 적용 • median, dense_rank • ntile, stddev_samp/stddev_pop • JSON function들을 이용하여 쉽게 로그테이블 분석 • Json_extract_path_text • json_extract_array_element_text 분석 Query들의 단순화
  • 57. Managed Service by 감사합니다 ! https://www.mangoplate.com/career
  • 59. 디자인 패턴 § 대화형 분석(Interactive Analytics) : 대화형 대쉬보드 § 배치 분석(Batch Analytics) : 일일/주간/월간 보고서 § 실시간 분석(Real-time Analytics) : 결제/사기 경고 1 분 측정 § 기계 학습(Machine learning) : 심리 분석, 예측 모델
  • 60. 여러 단계 처리에서 분리된 스토리지 Store Process Store Process process store “데이터 버스” 분리
  • 61. 다수의 처리 애플리케이션(또는 커넥터)이 다양한 데이터 저장소에서 읽기/쓰기 가능 process store Amazon Kinesis AWS Lambda Amazon S3 Amazon DynamoDB Amazon Kinesis S3 Connector
  • 62. Amazon Kinesis AWS Lambda Amazon S3 Amazon DynamoDB Hive SparkStorm Amazon Kinesis S3 Connector process store 처리 프레임워크(KCL, Storm, Hive, Spark, etc.)는 다수의 데이터 저장소에서 읽기 가능
  • 63. Spark Streaming Apache Storm AWS Lambda KCL Amazon Redshift Spark Impala Presto Hive Amazon Redshift Hive Spark Presto Impala Amazon Kinesis Apache Kafka Amazon DynamoDB Amazon S3data Hot Cold 데이터 온도 처리응답시간 Low High Answers Amazon EMR (HDFS) Hive Native KCL AWS Lambda Batch 데이터 온도 vs. 처리 응답시간
  • 65. 대화형 & 배치 분석 Producer Amazon S3 Amazon EMR Hive Pig Spark Amazon ML process store Consume Amazon Redshift Amazon EMR Presto Impala Spark 배치 대화형 Batch Prediction Real-time Prediction
  • 66. Batch Layer Amazon Kinesis DATA process store Amazon Kinesis S3 Connector Amazon S3 A p p l i c a t i o n s Amazon Redshift Amazon EMR Presto Hive Pig Spark ANSWER Speed Layer ANSWER Serving Layer Amazon ElastiCache Amazon DynamoDB Amazon RDS Amazon ES ANSWER Amazon ML KCL AWS Lambda Spark Streaming Storm 람다 아키텍처
  • 67. 요약 “데이터 버스”를 분리 • Data → Store → Process → Answers 작업에 적합한 도구를 사용 • Data structure, latency, throughput, access patterns 람다 아키텍처 아이디어 사용 • Immutable (append-only) log, batch/speed/serving layer AWS 관리형 서비스 활용 • No/low admin 비용에 대한 고려 • Big data ≠ Big cost
  • 68. 여러분의 피드백을 기다립니다! https://www.awssummit.co.kr 모바일 페이지에 접속하셔서, 지금 세션 평가에 참여하시면, 행사후 기념품을 드립니다. #AWSSummit 해시태그로 소셜 미디어에 여러분의 행사 소감을 올려주세요. 발표 자료 및 녹화 동영상은 AWS Korea 공식 소셜 채널로 곧 공유될 예정입니다.