Weitere ähnliche Inhalte Ähnlich wie 데이터 분석가를 위한 신규 분석 서비스 - 김기영, AWS 분석 솔루션즈 아키텍트 / 변규현, 당근마켓 소프트웨어 엔지니어 :: AWS re:Invent re:Cap 2021 (20) Mehr von Amazon Web Services Korea (20) 데이터 분석가를 위한 신규 분석 서비스 - 김기영, AWS 분석 솔루션즈 아키텍트 / 변규현, 당근마켓 소프트웨어 엔지니어 :: AWS re:Invent re:Cap 20211. © 2022, Amazon Web Services, Inc. or its affiliates. All rights reserved.
데이터 분석가를 위한 신규 분석 서비스
김기영
분석 솔루션즈 아키텍트
AWS
2. © 2022, Amazon Web Services, Inc. or its affiliates. All rights reserved.
확장 가능한
데이터 레이크
성능과 비용을
위한 목적에 맞춘
서비스
서버리스 및
쉬운 사용
통합 데이터
액세스, 보안 및
거버넌스
내장된 머신 러닝
3. © 2022, Amazon Web Services, Inc. or its affiliates. All rights reserved.
분석 서비스 업데이트
Serverless and On-demand analytics
Agenda
4. © 2022, Amazon Web Services, Inc. or its affiliates. All rights reserved.
수집, ETL, 스트리밍
EMR, Glue, MSK, Kinesis
5. © 2022, Amazon Web Services, Inc. or its affiliates. All rights reserved.
What’s new
• Amazon EMR Serverless
• Performance improvements
• Managed scaling enhancements
• EMR Studio
- SQL Explorer integrated in Jupyter
- Collaborate in real time
- Schedule notebook pipelines
• Security
- User execution role
- FGAC using AWS Lake Formation
- Audit using AWS Lake Formation via AWS
CloudTrail
• Hudi 0.9.0 (Spark SQL DML support)
Amazon EMR
preview
coming soon
coming soon
coming soon
preview
preview
preview
• Amazon MSK Serverless
• Securely connect over the internet
Amazon MSK
• Amazon Kinesis Data Streams on demand
• Amazon Kinesis Data Analytics supports
Apache Flink v1.13
Amazon Kinesis
preview
6. © 2022, Amazon Web Services, Inc. or its affiliates. All rights reserved.
What’s new - cont
• AWS Glue 3.0
• AWS Glue Auto scaling
• AWS Glue Streaming Auto scaling
• AWS Glue Interactive Sessions
• AWS Glue Studio Notebook
• Event-driven workflows using Amazon EventBridge
• AWS Glue custom blueprints
• AWS Glue PII Detection and remediation
• Migrate you traditions ETL jobs
AWS Glue
preview
preview
preview
preview
preview
preview
7. © 2022, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Amazon EMR 성능 향상
*Based on TPC-DS 3 TB benchmarking running 6
node C5.9XL cluster and EMR 6.5.0 running Spark 3.0
Spark 3.1.2 on EMR 6.5.0
*Based on TPC-DS 3 TB benchmarking running
16 node M5.8xlarge cluster
Saprk - OSS Spark 대비
3.1x 더 빠른 성능
Apache Hive 3.1.2 on
EMR 6.4 vs EMR 6.3
85
107
0 0.5 1 1.5 2
EMR 6.4
EMR 6.3
Seconds
Geometric meanof 98derived
queryruntimes
(lowerisbetter)
Hive - EMR 6.3 대비 EMR 6.4
1.25x 더 빠른 성능
0 10 20 30 40 50 60 70
EMR 6.5
OSS Spark (3.1.2)
Geometric Mean of
Runtime in Seconds (lower
is better)
8. © 2022, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Amazon EMR – EMR Studio
Single sign-on
integration with IdP
Fully-managed Jupyter
Notebooks
Integrated with Git
Repositories
Simplified debugging
with Spark UI and YARN
UI
Browse, create or delete
EMR clusters
Run interactive data analysis
using EMR or EKS clusters
Run Notebooks in
workflows using APIs
9. © 2022, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Amazon EMR – EMR Studio
SELECT * FROM customer_tbl LIMIT 50
Jupyter에 통합 된 SQL Explorer
10. © 2022, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Amazon EMR – EMR Studio
실시간 협업
11. © 2022, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Amazon EMR – EMR Studio
노트북 파이프라인 스케줄러
12. © 2022, Amazon Web Services, Inc. or its affiliates. All rights reserved.
AWS Glue 3.0
열(row) 기반 읽기 및 행(column) 기반
쓰기에 최적화
C++ SIMD 기반 Vectorized readers
In-memory 처리를 위한 열(column) 데이터
구조
AWS Glue 2.0만큼 빠르고 예측 가능한
시작 시간
AWS Glue 3.0은 AWS Glue 2.0보다 2.5배 빠름
초당 수백만 행(row) 처리량
13. © 2022, Amazon Web Services, Inc. or its affiliates. All rights reserved.
AWS Glue Auto Scaling
잠재적인
비용 절감
비용 = 연산의 합
작업 실행 Timeline
t1 t4 t8 t9 t10 t11
t5 t6
Without Autoscaling
t7
With Autoscaling
t2 t3
대량 연산
데이터 파티션의
불균등한 분포
AWS Gluejob
작업 리스트
14. © 2022, Amazon Web Services, Inc. or its affiliates. All rights reserved.
AWS Glue Streaming Auto Scaling
작업 실행 Timeline
비용 = 연산의 합
잠재적인
비용 절감
초기
확장
스트림 활동에
맞게 축소
Peak 스트리밍
데이터 처리
스트림 활동이
감소함에 따라 축소
낮은 스트림
활동
t1 t2 t3 t4 t8 t9 t10 t11
t7
With Autoscaling
t5 t6
Without Autoscaling
AWS Gluejob
15. © 2022, Amazon Web Services, Inc. or its affiliates. All rights reserved.
분석, 시각화, 거버넌스
Redshift, Athena, OpenSearch, QuickSight, Lake Formation
16. © 2022, Amazon Web Services, Inc. or its affiliates. All rights reserved.
What’s new
• Amazon Redshift Serverless
• Amazon Redshift Query Editor v2
• Automatic materialized views
• Grafana plugin
• AWS Data Exchange integration
• Streaming ingestion
• Concurrency scaling for writes
Amazon Redshift
• Amazon Athena ACID transactions
- Apache Iceberg Integration
• Amazon Athena Engine Upgrade
• 3x faster performance at the same price
• Support AWS Glue Partition Indexes
• Control costs with compression
• Console upgrade
• Step Functions integration
• Cross-account federated query
• Cost details to query execution plan
• Grafana Plug-in
Amazon Athena
preview preview
coming soon
preview
preview
17. © 2022, Amazon Web Services, Inc. or its affiliates. All rights reserved.
What’s new - cont
• SPICE Incremental Refresh
• Versioning in datasets
• Amazon QuickSight adds new
Exasol data connector
• Sheet Change Performance
Optimizations is now generally
available for Amazon QuickSight
• Amazon QuickSight adds support
for Pixel-Perfect dashboards
• Amazon QuickSight Q
Amazon QuickSight
• Lake Formation Governed Tables
• Lake Formation Fine-grained security
• Lake Formation Storage optimization
• AWS PrivateLink support
AWS Lake Foramtion
• Cross-cluster replication
• High cardinality anomaly detections
(Support for 1 million entities)
• Higher availability and resiliency
• Improve performance
Amazon OpenSearch
coming soon
coming soon
18. © 2022, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Amazon Athena Iceberg Integration
방대한 분석 데이터 세트를 위한 오픈 테이블 형식
19. © 2022, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Amazon Athena Iceberg Integration
INSERT INTO tablename VALUES (v1, v2, …) … UPDATE tablename SET xx=yy[,…] [WHERE predicate]
DELETE FROM tablename [WHERE predicate]
ACID 트랜잭션: row-level Write, Delete, Update
20. © 2022, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Amazon Athena Iceberg Integration
ACID 트랜잭션: Version and Time travel 쿼리
SELECT * FROM database.table
FOR [SYSTEM_TIME | SYSTEM_VERSION]
AS OF [timestamp | version]
SELECT * FROM ”table$iceberg_history"
21. © 2022, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Amazon Athena Iceberg Integration
ACID 트랜잭션: Schema evolution 쿼리
ALTER TABLE tablename ADD COLUMNS
[column_name data_type [,...])
22. © 2022, Amazon Web Services, Inc. or its affiliates. All rights reserved.
AWS Lake Formation
통합
보안을 위한 행 수준
필터링
S3 데이터 레이크의
빠른 분석을 위한
최적화
Atomic, Consistent,
Isolated, Durable
(ACID) 트랜잭션
ACID
23. © 2022, Amazon Web Services, Inc. or its affiliates. All rights reserved.
AWS Lake Formation
ACID
ACID 트랜잭션
메타데이터, 데이터
여러 작업
다수의 테이블
다수의 유저
다양한 엔진
락인(lock-in) 없음
데이터 제어 유지
S3 버킷에 유지
오픈 파일 포맷:
Parquet, CSV, JSON, . . .
가져오기, 내보내기
인기 테이블 형식
Apache Hudi, Delta Lake,
Apache Iceberg
Time travel
이전 시점의 데이터 레
이크 버전에 접근
Governed Table – 새로운 유형의 S3 테이블
24. © 2022, Amazon Web Services, Inc. or its affiliates. All rights reserved.
테이블, 컬럼, 행 수준 (row-level) 보안 정책
로우(Row) 필터 표현식
“PartiQL” 의 “WHERE” 문
다양한 S3 기반 테이블 형식 지원
Open and managed
Governed, Amazon Redshift data shares, Apache Hive
Apache Iceberg, Apachi Hudi, Delta Lake, . . .
쉬운 권한 및 액세스 감사
행 수준 보안(row-level security)
AWS Lake Formation
25. © 2022, Amazon Web Services, Inc. or its affiliates. All rights reserved.
AWS Lake Formation
자동 병합(compats)
작은 파일들을 큰 파일로.
델타(delta) 병합.
Apache Arrow 형식의
필터링 된 행(row)
PartiQL
Storage optimizer
Push-down 필터와 집계
행 수준(row-level) 보안은 PartiQL 지원
인라인 필터링 및 집계에 사용.
데이터 전송 감소.
S3 데이터 레이크 자동 최적화
26. © 2022, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Serverless and on-demand analytics
27. © 2022, Amazon Web Services, Inc. or its affiliates. All rights reserved.
28. © 2022, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Amazon Redshift Serverless
사용자 경험 간소화
Redshift 모든 기능과 성능
지능형, 동적 컴퓨팅
사용한 만큼 지불
Amazon EMR Serverless
손쉬운 사용
고성능, 고가용성
높은 확장성
비용 효율적
Amazon MSK Serverless Amazon KINESIS ON-DEMAND
관리 할 서버 없음
유동적인 온디맨드 용량(Capacity)
처리량에 따른 비용
MSK와 동일한 고가용성, 보안, 호환성
관리 할 서버 없음
높은 확장성
처리량에 따른 가격 지불
Kinesis와 동일한 높은 내구성, 고가용성, 보안
29. © 2022, Amazon Web Services, Inc. or its affiliates. All rights reserved.
사용자 경험 간소화
동적 컴퓨팅
사용한 만큼 비용 지불
Serverless and on-demand analytics
30. © 2022, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Amazon Redshift Serverless
31. © 2022, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Amazon Redshift
모든 규모에서
빠른 성능
다른 클라우드 데이터 웨어하우스보다 최대 3배 더 나은 가격 대비
성능과 동적으로 확장하여 복잡하고 중요한 워크로드에 대한 쿼리
속도를 개선
모두를 위한
손쉬운 분석
인프라에 대한 걱정 없이 몇 초 만에 데이터에서 통찰력을 얻고
비즈니스 결과를 제공하는 데 집중하십시오
모든 데이터
분석
운영 데이터베이스, 데이터 레이크, 데이터 웨어하우스 전반에 걸쳐
복잡하고 확장된 데이터에 대한 실시간 예측 분석을 실행하는 통찰력
확보
32. © 2022, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Amazon Redshift Serverless
Amazon Redshift Data API
JDBC/ODBC
Tools 어플리케이션
Amazon S3
데이터 레이크
Amazon Redshift Serverless
지능적이고
동적인
컴퓨팅
관리
ML 기반
워크로드 모니터링
자동 튜닝
자동 스케일링
자동 워크로드 관리
사용한 만큼만 지불
어떠한 규모에서든
최상의 성능
자동 유지관리
AWS Lambda, AWS Cloud9, Java, Go,
PowerShell, Node.js, C#, Python, and Ruby
Amazon Redshift
관리형 스토리지
Amazon Aurora/
RDS 데이터베이스
애플리케이션을 Amazon Redshift Serverless
엔드포인트로 지정하고 실행을 시작하기만 하면
됩니다
모든 Redshift SQL 기능 적용
보안 및 사용자 관리
복잡한 조인(Join)
반정형(Semi-structured) 데이터
데이터 쉐어링
머신 러닝 함수
데이터 레이크 쿼리
Federated query
내구성,
트랜잭션(Transactional) 보장
JDBC/ODBC, Data API
추가적 기능들..
33. © 2022, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Amazon Redshift Serverless
데이터 웨어하우스 클러스터를 관리할 필요 없이
분석 실행 및 확장
사용자 경험 간소화
지속적으로 빠른 성능을 제공하기 위해 데이터
웨어하우스 용량을 자동으로 프로비저닝 및 확장
지능형, 동적 컴퓨팅
Amazon Redshift의 풍부한 SQL 기능, 원활한
데이터 레이크 통합, 업계 최고의 가격 대비 규모
활용
Redshift 모든 기능과 성능
초 단위로 워크로드 사용에 대해서만 컴퓨팅
용량으로 비용 지불. 유휴 시간에 대한 요금 없음.
사용한 만큼 지불
34. © 2022, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Amazon Redshift Serverless
35. © 2022, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Amazon Redshift Serverless
비용
• RPUs(Redshift Processing Units)
• 1 RPU = 2vCPU, 16GB 메모리
• 초당 RPU 사용량에 대해 시간으로 사용
비용 청구 (최소 사용 60초)
• 사용자 스냅샷
• Redshift 관리형 스토리지
비용 시나리오
• 비용은 트랜잭션(Transaction)당
• 부트스트랩/자동 작업 쿼리는 청구되지 않음
Billing
Pricing Dimension Unit Price per unit
1 RPU per hour $0.50
US East (N.Virgina)
36. © 2022, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Amazon Redshift Serverless
쿼리 실행
없음
37. © 2022, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Amazon Redshift Serverless
Why
• 리소스의 자동 프로비저닝 및 확장을 통해 컴퓨팅 생성 및 관리를
위한 수동 개입 없음
• 유휴 기간에 대해 비용을 지불할 필요가 없습니다.
query_count scanned_data
38. © 2022, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Amazon Redshift Serverless
Why
• 워크로드 급증에 따라 원활하고 자동으로 확장 및 축소
• 규모에 따른 일관된 성능
query_count scanned_data
39. © 2022, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Amazon Redshift Serverless
• 기본 RPU 용량
• 기본값: 128 RPU(Production), 32 RPU(Fee trial)
• 범위: 32 - 512
• 비용 조정
• 일/주/월별 RPU 시간의 최대 컴퓨팅 사용량 제한
• 제한에 도달했을 때의 조치: 쿼리 중지/경고
• Create/modify/list/delete 사용 제한
Cost control
40. © 2022, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Amazon Redshift Serverless
여러 컴퓨팅 요구 사항이 있는 다양한 사용 사례
예측하기 어려운 다양한
워크로드
데이터 웨어하우스 관리에
대한 지식이 거의 또는 전혀
없는 사용자
인스턴스 선택, 크기 조정, 확장과 조정에 대한 고민
없이 데이터 액세스
41. © 2022, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Amazon EMR Serverless
42. © 2022, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Amazon EMR Serverless
관리 할 클러스터 없음
매우 간편한 사용
오픈 소스 보다 2배 이상 빠름
대화형 데이터 분석 및 머신 러닝
맞춤형 설정
S3 데이터 레이크 통합
43. © 2022, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Amazon EMR Serverless
결정해야 할 사항이 적음
인스턴스 유형이나 클러스터 크기에 대해 생각할 필요가 없음
클러스터를 구성, 최적화, 운영 및 보호할 필요가 없음
OS 등의 패치를 관리할 필요가 없음
세분화된 확장은 워크로드의 모든 단계에서 Worker를 추가 및 제거
데이터 볼륨이 변경될 때 재구성할 필요 없음
사용한 리소스에 대해서만 비용 지불
최대 확장 제한을 지정하여 비용 제어
자동 확장. 클러스터 크기를
추측할 필요가 없습니다.
오픈 소스 프레임워크를 더 쉽게
실행. 버전을 선택하고
실행하기만 하면 됩니다.
44. © 2022, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Amazon EMR Serverless
Apache Spark 및 Apache Hive용 Amazon EMR Runtime 최적화
버전 사용
OSS 출시 후 60일 이내 신규 버전 출시
오픈 소스 호환 유지
Amazon EMR on
• Amazon EC2
• EKS
• Outpost
Amazon EMR Serverless
EMR Runtime을 사용하여 빌드한 애플리케이션은 모든 배포 모델에서
사용 가능하며, 향후 다른 배포로 마이그레이션할 수 있는 유연성 유지
한 번 빌드, 모든 배포
프레임워크에서 실행
Amazon EMR의 성능 최적화
런타임 및 오픈 소스 호환 유지
45. © 2022, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Amazon EMR Serverless
시작
인스턴스와 클러스터 사이즈 결정
클러스터 생성
작업(Job) 실행
클러스터 종료
종료
시작
애플리케이션 생성
작업(Job) 실행
종료
데이터 파이프라인
46. © 2022, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Amazon EMR Serverless
Application 생성
47. © 2022, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Amazon EMR Serverless
Job 실행
48. © 2022, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Amazon EMR Serverless
Availability Zone 1
Service Account
Atep A
3 Worker 필요
EMR Application A
Step A – 3 Worker 실행
Worker 수 = 3
49. © 2022, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Amazon EMR Serverless
Availability Zone 1
Atep B
8 Worker 필요
Step C
10 Worker 필요
Service Account
EMR Application A
Step B – 8 Worekr 실행
Step C – 10 Worekr 실행
Worker 수 = 18
50. © 2022, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Amazon EMR Serverless
비용
• 사용한 컴퓨팅 시간과 리소스에 대해서만
비용을 지불
Billing
Pricing Dimension Unit Price per unit
vCPU per hour $0.052624
Memory (GB) per hour $0.0057785
Storage (GB) per hour $0.000111
US East (N.Virgina)
지원 Worker 구성
CPU Memory Ephemeral Storage
1 vCPU
최소 2 GB, 최대 8 GB
1GB로 증가
기본 20GB
2 vCPU
최소 4 GB, 최대 16 GB
1GB로 증가
기본 20GB
4 vCPU
최소 8 GB, 최대 30 GB
1GB로 증가
기본 20GB
US East (N.Virgina)
51. © 2022, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Amazon MSK Serverless
52. © 2022, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Amazon MSK
깊이 있는 AWS 통합
데이터 소스로서 AWS IoT, 데이터 소비자로서 AWS Lambda, AWS Glue Schema
Registry를 사용한 스키마 관리, Amazon Kinesis Data Analytics를 사용한 스트림 처리
확장성
브로커 추가, 브로커 크기 변경, 스토리지 추가
손쉬운 모니터링
Amazon CloudWatch를 통해 로그 및 지표 모니터링 또는 Prometheus용 Open
Monitoring으로 JMX 지표 추출
Rolling 버전 업그레이드
클러스터의 다운타임 없이 Kafka 버전 업그레이드
53. © 2022, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Amazon MSK Serverless
고객으로 부터의 의견
“매달 판매일이 있고 수요에 따라 클러스터를 계속 확장해야 합니다.
자동 크기 조정 기능이 있으면 운영 오버헤드가 줄어들 것입니다.”
“MSK 확장, 축소 후 재조정하는 기능을 원합니다.”
54. © 2022, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Amazon MSK Serverless
"우리 은행 애플리케이션은 주로
업무 시간에 사용됩니다.
비용 효율성을 유지하려면
클러스터를 확장, 축소해야 합니다.”
"우리의 워크로드는 예측할 수
없는 최소/최대가 있으며 필요에
따라 확장 및 축소할 수 있다면 나쁜
고객 경험을 피할 수 있습니다.”
55. © 2022, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Amazon MSK Serverless
관리할 서버 없음
유동적인 온디맨드 용
량(Capacity)
처리량에 따른 비용
완벽한 호환
MSK와 동일한 보안
MSK와 동일한
고가용성
56. © 2022, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Amazon MSK Serverless
• 자동 Scale up & down
• 클러스터 당 최대 200 MBps write, 400 MBps read throughput
• 각 파티션 최대 5 MBps write, 10MBps read throughput
필요에 따른 스트리밍 용량 제공
• 자동 파티션 배치 및 Broker scale in/out
• Broker 상태에 따른 파티션 자동 이동
• Broker는 사용자에게 노출되지 않음
파티션 자동 배치
57. © 2022, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Amazon MSK Serverless
• Cluster 이름만으로 간편한 생성 가능
• Kafka version, Broker node type 선택 불가
(정보 제공되지 않음)
• Cluster storage limit 존재
• Maximum data retention 1일
• Partition 당 최대 저장용량 250 GB *
• 최대 파티션 수 120 *
* Partition 당 최대 저장용량 및 클러스터 당 최대 파티션 수는 GA
시 상향조정 예정
58. © 2022, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Amazon MSK Serverless
Pricing Dimension Unit Price per unit
Cluster per hour $0.75
Partition per hour $0.0015
Storage per GiB-month $0.10
Data In per GiB $0.10
Data Out per GiB $0.05
US East (Ohio)
비용
• MSK Serverless 클러스터, 파티션 시간 당
• 데이터 송신, 수신 GB 당
• 데이터 보존 GB-월 당
Billing
59. © 2022, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Amazon MSK Serverless
용량(Capacity) 및 설정 제어
안정적이고 예측 가능한 워크로드
용량 제한 없는 대규모 워크로드
MSK
용량(Capacity)에 대한 관리 부담 없음
특정 유형 워크로드
새롭게 시작하는 단계에서 사용
MSK Serverless
60. © 2022, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Amazon Kinesis On-demand
61. © 2022, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Amazon Kinesis Data Streams On-Demand
실제 사용
갑작스런 증가로
인한 용량 부족
프로비저닝 된 용량
예측하지 못한 워크로드
62. © 2022, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Amazon Kinesis Data Streams On-Demand
용량(Capacity)에
대한 관리 걱정 없음
사용 경험에
대한 차이 없음
동일한 고성능,
가용성 및 내구성
사용한 만큼 지불
63. © 2022, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Amazon Kinesis Data Streams On-Demand
쓰기: 4 MB/s,
4,000 records/s
쓰기: 200 MB/s,
200,000 records/s
읽기: 8 MB/s
읽기: 400 MB/s
최대
새로운 on-demand
스트림
64. © 2022, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Amazon Kinesis Data Streams On-Demand
• KDS는 지난 30일 Peak보다 2배 많은 트래픽을 흡수할 수 있는 충분한
용량을 갖도록 스트림 확장
• 쓰기 트래픽이 이전 피크의 2배 이상 증가하면 KDS는 15분 이내에 확장
• 각 On-demand 스트림은 Write throughput의 최소 2배인 Read
throughput 제공
• Enhanced fan-out을 사용하여 더 많은 Consumer 추가 가능
스케일링 메카니즘
65. © 2022, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Amazon Kinesis Data Streams On-Demand
• 스트림 생성 또는 기존 스트림 전환
• 동일한 PutRecords 또는 PutRecord API 사용
• 동일한 GetRecords 및 SubscribeToShard API 사용
• 스트림/24 시간당 2번의 Provisioned – On-Demand
전환 가능.
• 쓰기, 읽기 애플리케이션에 중단이 없으며 코드를
변경 필요 없음
• 최대 쓰기 처리량은 초당 200 MB, 읽기 처리량은
초당 400 MB
• 두 모드 중 하나로 전환한 후에도 샤드 수는
동일하게 유지
66. © 2022, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Amazon Kinesis Data Streams On-Demand
사용량
• 수신 GB당
• 송신 GB당
• 온디맨드로 운영되는 스트림당(분 단위로)
다른 기능들
• 송신 Enhanced Fan-out GB당
• 데이터 보존 기간 연장 GB당-월 (2~7일)
• 장기간 데이터 보존 기간 GB당-월 (7일 이상)
Billing
Asia Pacific (Seoul)
Pricing Dimension Price per unit
Per stream, per hour $0.049
Data ingested, per GB (24시간 retention) $0.099
Data retrievals, per GB $0.049
Enhanced fan-out data retrievals, per GB $0.062
Data stored, per GB-month (24시간~7일) $0.114
Data stored, per GB-month (7일 이후) $0.025
67. © 2022, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Amazon Kinesis Data Streams On-Demand
새로운 데이터 스트림에 워크로드를 알기
어려울 경우
애플리케이션에 예측할 수 없는 트래픽 발생
용량을 관리할 필요가 없는 간편함 선호
용량 관리 없이 비용 절감을 원할 경우
초당 쓰기 200 MB, 읽기 400 MB의 처리량으로
제한
On-Dmand
애플리케이션이 예측 가능한 트래픽 보유
애플리케이션이 일관 된 트래픽 실행
비용 관리를 위한 용량을 예측할 수 있음
샤드를 엄격하게 제어하고 싶을 때
프로비저닝된 스트림에 대한 용량 제한 없음
Provisioned
68. © 2022, Amazon Web Services, Inc. or its affiliates. All rights reserved.
AWS Analytics Services
Interactive
query
AMAZON ATHENA AMAZON EMR
Big data
processing
Interactive
query
AMAZON OPENSEARCH
SERVICE
AMAZON KINESIS
AMAZON MSK
Real-time
analytics
AMAZON REDSHIFT
Data
warehousing
AMAZON GLUE
Data
integration
AMAZON
QUICKSIGHT
Business
Intelligence
AWS
LAKE FORMATION
Data
governance
69. © 2022, Amazon Web Services, Inc. or its affiliates. All rights reserved.
여러분의 소중한 피드백을 기다립니다.
행사 종료 후, 행사 및 강연 평가에 참여해 주세요!
70. © 2022, Amazon Web Services, Inc. or its affiliates. All rights reserved.
데이터 분석가를 위한 신규 분석 서비스
변규현 AWS Serverless Hero
소프트웨어엔지니어
당근마켓
AWS Serverless Hero에게 듣는다!
71. © 2022, Amazon Web Services, Inc. or its affiliates. All rights reserved.
• Apache Managed Kafka(MSK) Serverless
• Easily build, secure, and share data with AWS Lakeformation
Agenda
72. © 2022, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Apache Kafka Usecases
• Message Queue
• Metrics
• Log Aggregation
• Stream Processing
• Event Sourcing
73. © 2022, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Amazon MSK(Apache Managed Kafka)
• MSK(Apache Managed Kafka)
• 고가용성 Apache Kafka 및 Kafka Connect 클러스터의 프로비저닝,
구성 및 유지 관리 등의 운영 오버헤드를 제거
• Apache Kafka용으로 구축된 애플리케이션 및 도구를 코드 변경 없이
바로 사용하고 클러스터 용량을 자동으로 확장
• 네이티브 AWS 통합을 사용하여 안전하게 규정을 준수하며
프로덕션용 애플리케이션을 쉽게 배포
74. © 2022, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Kafka Metrics at Karrot
75. © 2022, Amazon Web Services, Inc. or its affiliates. All rights reserved.
{Preview} Amazon MSK Serverless
• Autocaling
• On-demand
• Partition rebalacing
• Lowers operational overhead
• Cost effective
76. © 2022, Amazon Web Services, Inc. or its affiliates. All rights reserved.
High-level architecture
77. © 2022, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Introducing Amazon MSK Serverless
https://youtu.be/k-tytAqaomc
78. © 2022, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Building and securing
data lakes
can take months
79. © 2022, Amazon Web Services, Inc. or its affiliates. All rights reserved.
AWS Lakeformation
80. © 2022, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Challenge: Data ingestion & management
81. © 2022, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Why is data ingestion and management hard?
82. © 2022, Amazon Web Services, Inc. or its affiliates. All rights reserved.
AWS Lake Formation Governed Tables
83. © 2022, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Why is managing data lake permissions hard
84. © 2022, Amazon Web Services, Inc. or its affiliates. All rights reserved.
AWS Lake Formation permissions model
85. © 2022, Amazon Web Services, Inc. or its affiliates. All rights reserved.
AWS Lake Formation permissions on
86. © 2022, Amazon Web Services, Inc. or its affiliates. All rights reserved.
{New} Permissions management with LF–TBAC
87. © 2022, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Audit and monitor in real time
• AWS CloudTrail에 저장됨
• CloudTrail과 기존 모니터링
시스템과 통합 가능
• 실시간으로 모니터링이 가능
88. © 2022, Amazon Web Services, Inc. or its affiliates. All rights reserved.
More about Lake Formation
https://youtu.be/jSjPCHKmIxw
89. © 2022, Amazon Web Services, Inc. or its affiliates. All rights reserved.
References
• https://youtu.be/k-tytAqaomc
• https://youtu.be/jSjPCHKmIxw
• https://aws.amazon.com/ko/msk/
• https://aws.amazon.com/ko/msk/features/msk-serverless/
90. © 2022, Amazon Web Services, Inc. or its affiliates. All rights reserved.
AWSKRUG SWAG 퀴즈 이벤트
https://bit.ly/awskrug-swag-quiz
AWS한국사용자모임에서는 AWS 15주년 및 AWS re:Invent 10주년 기념 전천후 바람막이를 선물로 드립니다.
150개
한정 추첨
1회만 응모 가능
91. © 2022, Amazon Web Services, Inc. or its affiliates. All rights reserved.
AWSKRUG SWAG 퀴즈 이벤트
https://bit.ly/awskrug-swag-quiz
AWS한국사용자모임에서는 AWS 15주년 및 AWS re:Invent 10주년 기념 전천후 바람막이를 선물로 드립니다.
Q: 최근에 AWS에서는 다양한 데이터 분석 서비스를 서버리스
기반으로 제공하도록 발표하였습니다. 다음 중 아직 서버리스
기반으로 제공하지 않는 서비스는 무엇일까요?
1. Amazon Athena
2. Amazon OpenSearch Service
3. Amazon EMR
4. Amazon Redshift
92. © 2022, Amazon Web Services, Inc. or its affiliates. All rights reserved.
감사합니다