SlideShare a Scribd company logo
1 of 49
Download to read offline
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.
S E O U L | M A Y 4 , 2 0 2 3
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.
CDC !
Modern Transactional Data Lake
AWS
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Agenda
• Append-Only
• CDC-based UPSERT
▪ View
▪ Open Table Formats – Apache Iceberg, Hudi, Delta Lake
• Modern Transactional Data Lake Architecture
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.
CRM
IoT
WEB
Messages
CDC*
Event Streams
* CDC: Change Data Capture
RDBMS Data Insights
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.
RDBMS Scalability
RDBMS
(Replica)
RDBMS
(Primary)
Query
Engine
(1)
Storage
Query
Engine
(2)
Query
Engine
(3)
Storage
interface
Scale-Out
Scale-Out
Primary-Replica Cluster
RDBMS
(Primary)
Scale-Up
RDBMS
(Replica)
Scale-Out
Replica
Primary
Distributed File System
RDBMS
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.
DFS*
Stream
Storage
Data Lake
Data
Mart
AI/ML
CRM
IoT
WEB
Messages
CDC
Event Streams
Data Lake
* DFS: Distributed File System
Data
Ware
house
Stream
Delivery
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.
CRM
IoT
WEB
Messages
CDC
Event Streams
Data Lake
Amazon Kinesis
Data Streams
Amazon Kinesis
Data Firehose
Amazon Athena
Amazon S3
Data Lake
Amazon QuickSight
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.
IMMUTABLE Objects
Distributed
CAN NOT Update/Delete In-Place
Insert (Append)-Only
interface (HTTPS, SDK APIs)
Transactional (X)
MUTABLE Records
Files per tables
Update/Delete In-Place
Insert/Update/Delete
table1
table2
table3
RDBMS
Transactional (O)
RDBMS vs. S3 (≈ Distributed Object Storage)
File
System
File
System
File
System
Amazon S3
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.
RDBMS
CDC
CDC Update/Delete ?
Amazon Kinesis
Data Streams
Amazon Kinesis
Data Firehose
Amazon Athena
Amazon S3
AWS DMS
datalake/
year=2023/month=05/day=03/hour=01/
obj1.parquet
obj2.parquet
…
year=2023/month=05/day=03/hour=02/
updated-obj1.parquet
…
Data Lake
Operation
Changed Data
I, pk1, c1, c2, t1
U, pk1, c1, c2, t2
D, pk0, c1, c2, t3
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.
View UPSERT : Merge-On-Read
RDBMS
Updated/
Deleted
Data
Inserted Data
View Table
Operation
Changed Data
I, pk1, c1, c2, t1
U, pk1, c1, c2, t2
I, pk1, c1, c2, t1
U, pk1, c1, c2, t2
D, pk0, c1, c2, t3
I, pk1, c1, c2, t1
U, pk1, c1, c2, t2
I, pk0, c1, c2, t0
D, pk0, c1, c2, t3
I, pk0, c1, c2, t0
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.
View UPSERT : Merge-On-Read
RDBMS
Updated/Deleted
Data
Inserted Data
View Table
Amazon S3
Amazon Athena
Amazon Redshift
Logical View
Materialized
View
CDC
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Logical View vs. Materialized View
CREATE VIEW view_tbl AS
SELECT *
FROM org_tbl, delta_tbl
SELECT *
FROM view_tbl
SELECT *
FROM (
SELECT *
FROM org_tbl, delta_tbl
)
SELECT *
FROM view_tbl
Materialized View
Logical View
org_tbl
Amazon S3
view_tbl
+
delta_tbl
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Amazon Redshift Materialized Views
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Amazon Kinesis
Data Streams
Amazon Redshift / Redshift Serverless
Permanent
Tables
Real-time
Materialized
View
Streaming
Table
…
…
Amazon
QuickSight
Amazon MSK
Amazon Redshift Streaming Ingestion
M A T E R I A L I Z E D V I E W
Auto Refresh
Data Source
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.
t1 t2
Inserted Data
(t1)
Amazon S3
Inserted Data
(t2)
+
+ a b c d e f
Merge & Compaction
time
Data Size
Updated/
Deleted Data
(t1)
Updated/
Deleted Data
(t2)
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.
year=2022/month=01/day=01/hour=00/
p1.parquet
p2.parauet
year=2022/month=02/day=01/hour=00/
...
year=2022/month=12/day=01/hour=00/
...
year=2023/month=01/day=02/hour=00/
p1.parquet
p2.parauet
year=2023/month=01/day=02/hour=01/
p1.parquet
p2.parauet
S3 Glacier
Deep
Archive
S3
Standard
Logical View
Update/
Delete
View
Merge-On-Read
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Logical View
• – Read ,
•
• = Merge & Compaction +
•
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Real-time
Materialized View
org_tbl
delta_tbl
Auto Refresh
Streaming
Table
Permanent
Table
Materialized View
Amazon Redshift
Data
Volume
Data
Volume
Data
Volume
t1
tN time
t2
Data Size Unlimited Data Volume
.....
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Real-time
Materialized View
org_tbl
delta_tbl
Auto Refresh
Table
data files commit log
Merge-On-Read
Streaming
Table
Permanent
Table
Amazon S3
Materialized View S3 ?
Amazon Redshift
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Table
data files commit log
Merge-On-Read
Amazon S3
“Table Format” = Layout of Files in Table
commit_log
date=2023-01-01
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Amazon S3 RDBMS
RDBMS
Index
Field1
(v1, t1)
Files
binlog
Read
Field1
(v2, t2)
my_table/
date=2023-01-01/
file-1.parquet
......
file-2.parquet
......
commit_log/
00000.json
00001.json
......
Amazon S3
Write
t1 t2 time
Table
data files
Merge-On-Read
commit log
Insert file-1.parquet
Insert file-2.parquet
Delete file-1.parquet
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.
“Table Format” = Layout of Files in Table
O P E N T A B L E F O R M A T S
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Apache Hudi
© hudi.apache.org
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Apache Hudi
© hudi.apache.org
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Apache Iceberg
s0
Data
Snapshots
t0 t1
Partition
File
Location
Schema
Format
Stats
Write & Commit
time
Snapshots: State of table at some time
s1
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Apache Iceberg
M E T A D A T A F I L E S T O T R A C K D A T A
schema, partitions, snapshots
list of files and mappings to snapshots
tracks data files and statistics
© iceberg.apache.org
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Apache Iceberg
M E T A D A T A F I L E S T O T R A C K D A T A
my_table/
├── metadata/
│ ├── 00000.metadata.json
│ ├── 00001.metadata.json
│ ├── 00002.metadata.json
│ .......
│ ├── a39f-e190-b871-ac8e5b-m0.avro
│ ├── a39f-e190-b871-ac8e5b-m1.avro
│ ├── a39f-e190-b871-ac8e5b-m2.avro
│ .......
│ ├── snap-1954-1-2e934.avro
│ ├── snap-4381-1-255b.avro
│ ├── snap-4866-1-8bf57.avro
└── data/
├── date=2023-01-01
│ └── file-1.parquet
└── date=2023-01-02
└── file-2.parquet
© iceberg.apache.org
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Delta Lake
my_table/
├── _delta_log
│ ├── 00000.json
│ ├── 00001.json
│ ├── 00002.json
│ .......
│ ├── 00010.json
│ └── 00010.checkpoint.parquet
├── date=2023-01-01
│ └── file-1.parquet
└── date=2023-01-02
└── file-2.parquet
Transaction Log
Single commits
Checkpoint Files
(Optional) Partition Directories
Data Files
Add 1.parquet
Add 2.parquet
Remove 1.parquet
Remove 2.parquet
Add 3.parquet
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Open Table Formats – Iceberg, Hudi, Delta Lake
Apache Iceberg Hudi Delta Lake
ACID Yes Yes Yes
Partition Evolution Yes No No
Schema Evolution Yes Partial Limited
Time Travel Yes Yes Yes
Merge Yes Yes Yes
Compaction API based Manual Automated
Data Format Parquet, Avro, ORC, CSV Parquet, ORC Parquet
Current Pointer Metastore, File system with
version File
Timeline commit Transaction log
Conflict Resolution Optimistic Optimistic Optimistic
Programming
Language
Java & Python Scala, Java & Python Java & Python
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Modern Transactional Data Lake
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Typical Data Pipeline & Data Lake
AWS DMS Amazon Kinesis
Data Streams
Amazon Athena
Amazon S3
Amazon RDS
Payments
• : Insert
• : Update
• : Delete
• :
Append Only
Amazon Kinesis
Data Firehose
Data Source Data Pipeline Data Lake
User Profile
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.
CDC-based UPSERT Data Lake
AWS DMS Amazon Kinesis
Data Streams
Amazon Athena
Amazon S3
Amazon RDS Amazon Kinesis
Data Firehose
S3
User Profile iceberg
Payments
parquet, orc, avro
iceberg, hudi, delta lake
Athena Hudi Iceberg Delta Lake
Insert X O X
Delete X O X
Select O O O
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.
CDC-based UPSERT Data Lake
AWS DMS Amazon Kinesis
Data Streams
Amazon Athena
Amazon S3
Amazon RDS
S3
User Profile iceberg
Payments
parquet, orc, avro
iceberg, hudi, delta lake
Athena Hudi Iceberg Delta Lake
Insert X O X
Delete X O X
Select O O O
AWS Glue
Flink /
Spark
Amazon EMR
Open Source
Serverless Fully Managed
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.
CDC-based UPSERT Data Lake
AWS DMS Amazon Kinesis
Data Streams
Amazon Athena
Amazon S3
Amazon RDS AWS Glue
Streaming
Operation
Changed Data
I, pk1, c1, c2, t1
U, pk1, c1, c2, t2
D, pk0, c1, c2, t3
CDC
{ JSON }
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Transactional Data Lake
AWS DMS Amazon Kinesis
Data Streams
AWS Glue
Streaming
Amazon Athena
Amazon S3
Amazon RDS
AWS DMS Amazon Kinesis
Data Streams
Amazon Athena
Amazon S3
Amazon RDS Amazon Kinesis
Data Firehose
{JSON}
{JSON}
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Demo
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Reference Architecture
https://github.com/aws-samples/transactional-datalake-using-apache-iceberg-on-aws-glue
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Spark + Glue Context
Kinesis Data Streams
Apache Iceberg
Insert/Update/Delete
1
2
3
Glue Streaming Job Code
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Glue Streaming Job Code
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.
5
Glue Streaming
Upsert
Delete
1
2
3
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Summary
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.
“Table Format” = Layout of Files in Table
O P E N T A B L E F O R M A T S
Amazon S3
Update/Delete In-Place
table1
table2
table3
RDBMS
Transactional
Data Lake RDBMS
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Transactional Data Lake:
AWS DMS Amazon Kinesis
Data Streams
AWS Glue
ETL
Amazon Athena
Amazon S3
Amazon RDS
(Apache Iceberg,
Hudi, Delta Lake)
Amazon S3
Amazon Kinesis
Data Firehose
Raw Zone Curated Zone
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Transactional Data Lake: +
L A M B D A A R C H I T E C T U R E
AWS DMS Amazon Kinesis
Data Streams
AWS Glue
ETL
Amazon Athena
Amazon S3
Amazon RDS
Amazon Redshift / Redshift Serverless
Real-Time
Materialized
View
Streaming
Table
Permanent
Tables
(Apache Iceberg,
Hudi, Delta Lake)
Amazon S3
Amazon Kinesis
Data Firehose
Raw Zone Curated Zone
Batch Layer
Speed Layer
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Transactional Data Lake:
AWS DMS Amazon Kinesis
Data Streams
AWS Glue
Streaming
Amazon Athena
Amazon S3
Amazon RDS
(Apache Iceberg,
Hudi, Delta Lake)
Amazon Redshift / Redshift Serverless
Real-Time
Materialized
View
Streaming
Table
Permanent
Tables
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.
On-Premise Transactional Data Lake
Generic
database
Corporate
data center
Long Time-to-build High Cost in TCO
Deep Expertise
Required
Security
HDFS
Kafka
Connect
Connect
Hive /
Presto
Flink /
Spark
Streaming
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Generic
database
AWS DMS Amazon Kinesis
Data Streams
AWS Glue
Streaming
Amazon Athena
Amazon S3
Corporate
data center
AWS Cloud
Streaming Migrations for Analytics on
Generic
database
Corporate
data center
HDFS
Hive /
Presto
Kafka
Connect
Connect
(Apache Iceberg,
Hudi, Delta Lake)
(Apache Iceberg,
Hudi, Delta Lake)
Flink /
Spark
S
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Data Lake
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.
감사합니다
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.

More Related Content

What's hot

What's hot (20)

AWS Summit Seoul 2023 | 삼성전자/쿠팡의 대규모 트래픽 처리를 위한 클라우드 네이티브 데이터베이스 활용
AWS Summit Seoul 2023 | 삼성전자/쿠팡의 대규모 트래픽 처리를 위한 클라우드 네이티브 데이터베이스 활용AWS Summit Seoul 2023 | 삼성전자/쿠팡의 대규모 트래픽 처리를 위한 클라우드 네이티브 데이터베이스 활용
AWS Summit Seoul 2023 | 삼성전자/쿠팡의 대규모 트래픽 처리를 위한 클라우드 네이티브 데이터베이스 활용
 
AWS Summit Seoul 2023 | 서버리스, 이제는 데이터 분석에서 활용해요!
AWS Summit Seoul 2023 | 서버리스, 이제는 데이터 분석에서 활용해요!AWS Summit Seoul 2023 | 서버리스, 이제는 데이터 분석에서 활용해요!
AWS Summit Seoul 2023 | 서버리스, 이제는 데이터 분석에서 활용해요!
 
Amazon OpenSearch - Use Cases, Security/Observability, Serverless and Enhance...
Amazon OpenSearch - Use Cases, Security/Observability, Serverless and Enhance...Amazon OpenSearch - Use Cases, Security/Observability, Serverless and Enhance...
Amazon OpenSearch - Use Cases, Security/Observability, Serverless and Enhance...
 
AWS Black Belt Tech シリーズ 2016 - Amazon SES
AWS Black Belt Tech シリーズ 2016 - Amazon SESAWS Black Belt Tech シリーズ 2016 - Amazon SES
AWS Black Belt Tech シリーズ 2016 - Amazon SES
 
컨테이너 및 서버리스를 위한 효율적인 CI/CD 아키텍처 구성하기 - 현창훈 데브옵스 엔지니어, Flex / 송주영 데브옵스 엔지니어, W...
컨테이너 및 서버리스를 위한 효율적인 CI/CD 아키텍처 구성하기 - 현창훈 데브옵스 엔지니어, Flex / 송주영 데브옵스 엔지니어, W...컨테이너 및 서버리스를 위한 효율적인 CI/CD 아키텍처 구성하기 - 현창훈 데브옵스 엔지니어, Flex / 송주영 데브옵스 엔지니어, W...
컨테이너 및 서버리스를 위한 효율적인 CI/CD 아키텍처 구성하기 - 현창훈 데브옵스 엔지니어, Flex / 송주영 데브옵스 엔지니어, W...
 
AWS Summit Seoul 2023 | Snowflake: 모든 데이터 워크로드를 위한 하나의 클라우드 데이터 플랫폼
AWS Summit Seoul 2023 | Snowflake: 모든 데이터 워크로드를 위한 하나의 클라우드 데이터 플랫폼AWS Summit Seoul 2023 | Snowflake: 모든 데이터 워크로드를 위한 하나의 클라우드 데이터 플랫폼
AWS Summit Seoul 2023 | Snowflake: 모든 데이터 워크로드를 위한 하나의 클라우드 데이터 플랫폼
 
AWS Summit Seoul 2023 | 천만 사용자를 위한 카카오의 AWS Native 글로벌 채팅 서비스
AWS Summit Seoul 2023 | 천만 사용자를 위한 카카오의 AWS Native 글로벌 채팅 서비스AWS Summit Seoul 2023 | 천만 사용자를 위한 카카오의 AWS Native 글로벌 채팅 서비스
AWS Summit Seoul 2023 | 천만 사용자를 위한 카카오의 AWS Native 글로벌 채팅 서비스
 
AWS Summit Seoul 2023 |투자를 모두에게, 토스증권의 MTS 구축 사례
AWS Summit Seoul 2023 |투자를 모두에게, 토스증권의 MTS 구축 사례AWS Summit Seoul 2023 |투자를 모두에게, 토스증권의 MTS 구축 사례
AWS Summit Seoul 2023 |투자를 모두에게, 토스증권의 MTS 구축 사례
 
AWS Summit Seoul 2023 | 모두를 위한 BI, QuickSight
AWS Summit Seoul 2023 | 모두를 위한 BI, QuickSightAWS Summit Seoul 2023 | 모두를 위한 BI, QuickSight
AWS Summit Seoul 2023 | 모두를 위한 BI, QuickSight
 
효율적인 빅데이터 분석 및 처리를 위한 Glue, EMR 활용 - 김태현 솔루션즈 아키텍트, AWS :: AWS Summit Seoul 2019
효율적인 빅데이터 분석 및 처리를 위한 Glue, EMR 활용 - 김태현 솔루션즈 아키텍트, AWS :: AWS Summit Seoul 2019효율적인 빅데이터 분석 및 처리를 위한 Glue, EMR 활용 - 김태현 솔루션즈 아키텍트, AWS :: AWS Summit Seoul 2019
효율적인 빅데이터 분석 및 처리를 위한 Glue, EMR 활용 - 김태현 솔루션즈 아키텍트, AWS :: AWS Summit Seoul 2019
 
Amazon RDS Proxy 집중 탐구 - 윤석찬 :: AWS Unboxing 온라인 세미나
Amazon RDS Proxy 집중 탐구 - 윤석찬 :: AWS Unboxing 온라인 세미나Amazon RDS Proxy 집중 탐구 - 윤석찬 :: AWS Unboxing 온라인 세미나
Amazon RDS Proxy 집중 탐구 - 윤석찬 :: AWS Unboxing 온라인 세미나
 
AWS Summit Seoul 2023 | 금융 디지털 서비스 혁신을 리딩하는 교보정보통신의 클라우드 마이그레이션 사례 소개
AWS Summit Seoul 2023 | 금융 디지털 서비스 혁신을 리딩하는 교보정보통신의 클라우드 마이그레이션 사례 소개AWS Summit Seoul 2023 | 금융 디지털 서비스 혁신을 리딩하는 교보정보통신의 클라우드 마이그레이션 사례 소개
AWS Summit Seoul 2023 | 금융 디지털 서비스 혁신을 리딩하는 교보정보통신의 클라우드 마이그레이션 사례 소개
 
KB국민카드 - 클라우드 기반 분석 플랫폼 혁신 여정 - 발표자: 박창용 과장, 데이터전략본부, AI혁신부, KB카드│강병억, Soluti...
KB국민카드 - 클라우드 기반 분석 플랫폼 혁신 여정 - 발표자: 박창용 과장, 데이터전략본부, AI혁신부, KB카드│강병억, Soluti...KB국민카드 - 클라우드 기반 분석 플랫폼 혁신 여정 - 발표자: 박창용 과장, 데이터전략본부, AI혁신부, KB카드│강병억, Soluti...
KB국민카드 - 클라우드 기반 분석 플랫폼 혁신 여정 - 발표자: 박창용 과장, 데이터전략본부, AI혁신부, KB카드│강병억, Soluti...
 
20200623 AWS Black Belt Online Seminar Amazon Elasticsearch Service
20200623 AWS Black Belt Online Seminar Amazon Elasticsearch Service20200623 AWS Black Belt Online Seminar Amazon Elasticsearch Service
20200623 AWS Black Belt Online Seminar Amazon Elasticsearch Service
 
AWS Summit Seoul 2023 | Amazon EKS, 중요한 건 꺾이지 않는 안정성
AWS Summit Seoul 2023 | Amazon EKS, 중요한 건 꺾이지 않는 안정성AWS Summit Seoul 2023 | Amazon EKS, 중요한 건 꺾이지 않는 안정성
AWS Summit Seoul 2023 | Amazon EKS, 중요한 건 꺾이지 않는 안정성
 
20190424 AWS Black Belt Online Seminar Amazon Aurora MySQL
20190424 AWS Black Belt Online Seminar Amazon Aurora MySQL20190424 AWS Black Belt Online Seminar Amazon Aurora MySQL
20190424 AWS Black Belt Online Seminar Amazon Aurora MySQL
 
AWS Summit Seoul 2023 | 오픈소스 데이터베이스로 탈 오라클! Why not?
AWS Summit Seoul 2023 | 오픈소스 데이터베이스로 탈 오라클! Why not?AWS Summit Seoul 2023 | 오픈소스 데이터베이스로 탈 오라클! Why not?
AWS Summit Seoul 2023 | 오픈소스 데이터베이스로 탈 오라클! Why not?
 
AWS Summit Seoul 2023 | Amazon EKS 데이터 전송 비용 절감 및 카오스 엔지니어링 적용 사례
AWS Summit Seoul 2023 | Amazon EKS 데이터 전송 비용 절감 및 카오스 엔지니어링 적용 사례AWS Summit Seoul 2023 | Amazon EKS 데이터 전송 비용 절감 및 카오스 엔지니어링 적용 사례
AWS Summit Seoul 2023 | Amazon EKS 데이터 전송 비용 절감 및 카오스 엔지니어링 적용 사례
 
Amazon EMR - Enhancements on Cost/Performance, Serverless - 발표자: 김기영, Sr Anal...
Amazon EMR - Enhancements on Cost/Performance, Serverless - 발표자: 김기영, Sr Anal...Amazon EMR - Enhancements on Cost/Performance, Serverless - 발표자: 김기영, Sr Anal...
Amazon EMR - Enhancements on Cost/Performance, Serverless - 발표자: 김기영, Sr Anal...
 
AWS Summit Seoul 2023 | AWS에서 OpenTelemetry 기반의 애플리케이션 Observability 구축/활용하기
AWS Summit Seoul 2023 | AWS에서 OpenTelemetry 기반의 애플리케이션 Observability 구축/활용하기AWS Summit Seoul 2023 | AWS에서 OpenTelemetry 기반의 애플리케이션 Observability 구축/활용하기
AWS Summit Seoul 2023 | AWS에서 OpenTelemetry 기반의 애플리케이션 Observability 구축/활용하기
 

Similar to AWS Summit Seoul 2023 | 실시간 CDC 데이터 처리! Modern Transactional Data Lake 구축하기

Similar to AWS Summit Seoul 2023 | 실시간 CDC 데이터 처리! Modern Transactional Data Lake 구축하기 (20)

AWS Summit Seoul 2023 | Amazon Redshift Serverless를 활용한 LG 이노텍의 데이터 분석 플랫폼 혁신 과정
AWS Summit Seoul 2023 | Amazon Redshift Serverless를 활용한 LG 이노텍의 데이터 분석 플랫폼 혁신 과정AWS Summit Seoul 2023 | Amazon Redshift Serverless를 활용한 LG 이노텍의 데이터 분석 플랫폼 혁신 과정
AWS Summit Seoul 2023 | Amazon Redshift Serverless를 활용한 LG 이노텍의 데이터 분석 플랫폼 혁신 과정
 
AWS Summit Seoul 2023 | 스타트업의 서버리스 기반 SaaS 데이터 처리 및 데이터웨어하우스 구축 사례
AWS Summit Seoul 2023 | 스타트업의 서버리스 기반 SaaS 데이터 처리 및 데이터웨어하우스 구축 사례AWS Summit Seoul 2023 | 스타트업의 서버리스 기반 SaaS 데이터 처리 및 데이터웨어하우스 구축 사례
AWS Summit Seoul 2023 | 스타트업의 서버리스 기반 SaaS 데이터 처리 및 데이터웨어하우스 구축 사례
 
AWS Summit Seoul 2023 | 천만 사용자 서비스를 위한 Amazon SageMaker 활용 방법 진화하기
AWS Summit Seoul 2023 | 천만 사용자 서비스를 위한 Amazon SageMaker 활용 방법 진화하기AWS Summit Seoul 2023 | 천만 사용자 서비스를 위한 Amazon SageMaker 활용 방법 진화하기
AWS Summit Seoul 2023 | 천만 사용자 서비스를 위한 Amazon SageMaker 활용 방법 진화하기
 
AWS Summit Seoul 2023 | Amazon Neptune 및 Elastic을 이용한 추천 서비스 및 검색 플랫폼 구축하기
AWS Summit Seoul 2023 | Amazon Neptune 및 Elastic을 이용한 추천 서비스 및 검색 플랫폼 구축하기AWS Summit Seoul 2023 | Amazon Neptune 및 Elastic을 이용한 추천 서비스 및 검색 플랫폼 구축하기
AWS Summit Seoul 2023 | Amazon Neptune 및 Elastic을 이용한 추천 서비스 및 검색 플랫폼 구축하기
 
AWS Summit Seoul 2023 | 가격은 저렴, 성능은 최대로! 확 달라진 Amazon EC2 알아보기
AWS Summit Seoul 2023 | 가격은 저렴, 성능은 최대로! 확 달라진 Amazon EC2 알아보기AWS Summit Seoul 2023 | 가격은 저렴, 성능은 최대로! 확 달라진 Amazon EC2 알아보기
AWS Summit Seoul 2023 | 가격은 저렴, 성능은 최대로! 확 달라진 Amazon EC2 알아보기
 
AWS Summit Seoul 2023 | AWS 마이그레이션을 통한 엔카닷컴의 DT 전략
AWS Summit Seoul 2023 | AWS 마이그레이션을 통한 엔카닷컴의 DT 전략AWS Summit Seoul 2023 | AWS 마이그레이션을 통한 엔카닷컴의 DT 전략
AWS Summit Seoul 2023 | AWS 마이그레이션을 통한 엔카닷컴의 DT 전략
 
AWS Summit Seoul 2023 | 롯데면세점이 고객에게 차별화된 경험을 제공하는 방법: AWS Native 서비스를 활용한 초개인...
AWS Summit Seoul 2023 | 롯데면세점이 고객에게 차별화된 경험을 제공하는 방법: AWS Native 서비스를 활용한 초개인...AWS Summit Seoul 2023 | 롯데면세점이 고객에게 차별화된 경험을 제공하는 방법: AWS Native 서비스를 활용한 초개인...
AWS Summit Seoul 2023 | 롯데면세점이 고객에게 차별화된 경험을 제공하는 방법: AWS Native 서비스를 활용한 초개인...
 
AWS Summit Seoul 2023 | "이봐, 해봤어?" 해본! 사람의 Modern Data Architecture 비밀 노트
AWS Summit Seoul 2023 | "이봐, 해봤어?" 해본! 사람의 Modern Data Architecture 비밀 노트AWS Summit Seoul 2023 | "이봐, 해봤어?" 해본! 사람의 Modern Data Architecture 비밀 노트
AWS Summit Seoul 2023 | "이봐, 해봤어?" 해본! 사람의 Modern Data Architecture 비밀 노트
 
AWS Summit Seoul 2023 | LG유플러스 IPTV 서비스, 무중단 클라우드 마이그레이션 이야기
AWS Summit Seoul 2023 | LG유플러스 IPTV 서비스, 무중단 클라우드 마이그레이션 이야기AWS Summit Seoul 2023 | LG유플러스 IPTV 서비스, 무중단 클라우드 마이그레이션 이야기
AWS Summit Seoul 2023 | LG유플러스 IPTV 서비스, 무중단 클라우드 마이그레이션 이야기
 
AWS Summit Seoul 2023 | 플로 AWS All-in 전략을 통해 음원서비스의 혁신을 이루다
AWS Summit Seoul 2023 | 플로 AWS All-in 전략을 통해 음원서비스의 혁신을 이루다AWS Summit Seoul 2023 | 플로 AWS All-in 전략을 통해 음원서비스의 혁신을 이루다
AWS Summit Seoul 2023 | 플로 AWS All-in 전략을 통해 음원서비스의 혁신을 이루다
 
AWS Summit Seoul 2023 | Global scale service의 중앙 집중식 Observability 구축
AWS Summit Seoul 2023 | Global scale service의 중앙 집중식 Observability 구축AWS Summit Seoul 2023 | Global scale service의 중앙 집중식 Observability 구축
AWS Summit Seoul 2023 | Global scale service의 중앙 집중식 Observability 구축
 
AWS Summit Seoul 2023 | 클라우드를 통한 온/오프라인 비즈니스의 통합, GS리테일의 현대화
AWS Summit Seoul 2023 | 클라우드를 통한 온/오프라인 비즈니스의 통합, GS리테일의 현대화AWS Summit Seoul 2023 | 클라우드를 통한 온/오프라인 비즈니스의 통합, GS리테일의 현대화
AWS Summit Seoul 2023 | 클라우드를 통한 온/오프라인 비즈니스의 통합, GS리테일의 현대화
 
AWS Summit Seoul 2023 | 스타트업의 빠른 성장, 안정적인 서비스 운영 노하우는?
AWS Summit Seoul 2023 | 스타트업의 빠른 성장, 안정적인 서비스 운영 노하우는?AWS Summit Seoul 2023 | 스타트업의 빠른 성장, 안정적인 서비스 운영 노하우는?
AWS Summit Seoul 2023 | 스타트업의 빠른 성장, 안정적인 서비스 운영 노하우는?
 
AWS Summit Seoul 2023 | 스마트한 클라우드 스토리지 비용 관리 전략
AWS Summit Seoul 2023 | 스마트한 클라우드 스토리지 비용 관리 전략AWS Summit Seoul 2023 | 스마트한 클라우드 스토리지 비용 관리 전략
AWS Summit Seoul 2023 | 스마트한 클라우드 스토리지 비용 관리 전략
 
AWS Summit Seoul 2023 | 성공적인 AWS RDS 마이그레이션을 위한 여정과 필수 고려사항
AWS Summit Seoul 2023 | 성공적인 AWS RDS 마이그레이션을 위한 여정과 필수 고려사항AWS Summit Seoul 2023 | 성공적인 AWS RDS 마이그레이션을 위한 여정과 필수 고려사항
AWS Summit Seoul 2023 | 성공적인 AWS RDS 마이그레이션을 위한 여정과 필수 고려사항
 
Amazon Redshift Deep Dive - Serverless, Streaming, ML, Auto Copy (New feature...
Amazon Redshift Deep Dive - Serverless, Streaming, ML, Auto Copy (New feature...Amazon Redshift Deep Dive - Serverless, Streaming, ML, Auto Copy (New feature...
Amazon Redshift Deep Dive - Serverless, Streaming, ML, Auto Copy (New feature...
 
AWS Summit Seoul 2023 | 혁신의 키워드는 '조직'과 '문화' - 하이브리드 클라우드 플랫폼과 agile 조직이 만드는 혁신
AWS Summit Seoul 2023 | 혁신의 키워드는 '조직'과 '문화' - 하이브리드 클라우드 플랫폼과 agile 조직이 만드는 혁신AWS Summit Seoul 2023 | 혁신의 키워드는 '조직'과 '문화' - 하이브리드 클라우드 플랫폼과 agile 조직이 만드는 혁신
AWS Summit Seoul 2023 | 혁신의 키워드는 '조직'과 '문화' - 하이브리드 클라우드 플랫폼과 agile 조직이 만드는 혁신
 
AWS Summit Seoul 2023 | 클라우드 환경에서 두 마리 토끼잡기 : 비즈니스 서비스 품질 향상 & 모니터링 비용 최적화
AWS Summit Seoul 2023 | 클라우드 환경에서 두 마리 토끼잡기 : 비즈니스 서비스 품질 향상 & 모니터링 비용 최적화AWS Summit Seoul 2023 | 클라우드 환경에서 두 마리 토끼잡기 : 비즈니스 서비스 품질 향상 & 모니터링 비용 최적화
AWS Summit Seoul 2023 | 클라우드 환경에서 두 마리 토끼잡기 : 비즈니스 서비스 품질 향상 & 모니터링 비용 최적화
 
AWS Summit Seoul 2023 | 진짜로 코드 없이 기계학습 모델을 만드는 것이 가능하다구요? SageMaker로 No/Low 코...
AWS Summit Seoul 2023 | 진짜로 코드 없이 기계학습 모델을 만드는 것이 가능하다구요? SageMaker로 No/Low 코...AWS Summit Seoul 2023 | 진짜로 코드 없이 기계학습 모델을 만드는 것이 가능하다구요? SageMaker로 No/Low 코...
AWS Summit Seoul 2023 | 진짜로 코드 없이 기계학습 모델을 만드는 것이 가능하다구요? SageMaker로 No/Low 코...
 
AWS Summit Seoul 2023 | 팬덤을 위한 아티스트 IP 기반의 디지털 콜렉터블 플랫폼
AWS Summit Seoul 2023 | 팬덤을 위한 아티스트 IP 기반의 디지털 콜렉터블 플랫폼AWS Summit Seoul 2023 | 팬덤을 위한 아티스트 IP 기반의 디지털 콜렉터블 플랫폼
AWS Summit Seoul 2023 | 팬덤을 위한 아티스트 IP 기반의 디지털 콜렉터블 플랫폼
 

More from Amazon Web Services Korea

More from Amazon Web Services Korea (19)

AWS Modern Infra with Storage Roadshow 2023 - Day 2
AWS Modern Infra with Storage Roadshow 2023 - Day 2AWS Modern Infra with Storage Roadshow 2023 - Day 2
AWS Modern Infra with Storage Roadshow 2023 - Day 2
 
AWS Modern Infra with Storage Roadshow 2023 - Day 1
AWS Modern Infra with Storage Roadshow 2023 - Day 1AWS Modern Infra with Storage Roadshow 2023 - Day 1
AWS Modern Infra with Storage Roadshow 2023 - Day 1
 
Amazon DocumentDB - Architecture 및 Best Practice (Level 200) - 발표자: 장동훈, Sr. ...
Amazon DocumentDB - Architecture 및 Best Practice (Level 200) - 발표자: 장동훈, Sr. ...Amazon DocumentDB - Architecture 및 Best Practice (Level 200) - 발표자: 장동훈, Sr. ...
Amazon DocumentDB - Architecture 및 Best Practice (Level 200) - 발표자: 장동훈, Sr. ...
 
Amazon Elasticache - Fully managed, Redis & Memcached Compatible Service (Lev...
Amazon Elasticache - Fully managed, Redis & Memcached Compatible Service (Lev...Amazon Elasticache - Fully managed, Redis & Memcached Compatible Service (Lev...
Amazon Elasticache - Fully managed, Redis & Memcached Compatible Service (Lev...
 
[Keynote] 슬기로운 AWS 데이터베이스 선택하기 - 발표자: 강민석, Korea Database SA Manager, WWSO, A...
[Keynote] 슬기로운 AWS 데이터베이스 선택하기 - 발표자: 강민석, Korea Database SA Manager, WWSO, A...[Keynote] 슬기로운 AWS 데이터베이스 선택하기 - 발표자: 강민석, Korea Database SA Manager, WWSO, A...
[Keynote] 슬기로운 AWS 데이터베이스 선택하기 - 발표자: 강민석, Korea Database SA Manager, WWSO, A...
 
Demystify Streaming on AWS - 발표자: 이종혁, Sr Analytics Specialist, WWSO, AWS :::...
Demystify Streaming on AWS - 발표자: 이종혁, Sr Analytics Specialist, WWSO, AWS :::...Demystify Streaming on AWS - 발표자: 이종혁, Sr Analytics Specialist, WWSO, AWS :::...
Demystify Streaming on AWS - 발표자: 이종혁, Sr Analytics Specialist, WWSO, AWS :::...
 
Enabling Agility with Data Governance - 발표자: 김성연, Analytics Specialist, WWSO,...
Enabling Agility with Data Governance - 발표자: 김성연, Analytics Specialist, WWSO,...Enabling Agility with Data Governance - 발표자: 김성연, Analytics Specialist, WWSO,...
Enabling Agility with Data Governance - 발표자: 김성연, Analytics Specialist, WWSO,...
 
From Insights to Action, How to build and maintain a Data Driven Organization...
From Insights to Action, How to build and maintain a Data Driven Organization...From Insights to Action, How to build and maintain a Data Driven Organization...
From Insights to Action, How to build and maintain a Data Driven Organization...
 
[Keynote] Accelerating Business Outcomes with AWS Data - 발표자: Saeed Gharadagh...
[Keynote] Accelerating Business Outcomes with AWS Data - 발표자: Saeed Gharadagh...[Keynote] Accelerating Business Outcomes with AWS Data - 발표자: Saeed Gharadagh...
[Keynote] Accelerating Business Outcomes with AWS Data - 발표자: Saeed Gharadagh...
 
Amazon DynamoDB - Use Cases and Cost Optimization - 발표자: 이혁, DynamoDB Special...
Amazon DynamoDB - Use Cases and Cost Optimization - 발표자: 이혁, DynamoDB Special...Amazon DynamoDB - Use Cases and Cost Optimization - 발표자: 이혁, DynamoDB Special...
Amazon DynamoDB - Use Cases and Cost Optimization - 발표자: 이혁, DynamoDB Special...
 
SK Telecom - 망관리 프로젝트 TANGO의 오픈소스 데이터베이스 전환 여정 - 발표자 : 박승전, Project Manager, ...
SK Telecom - 망관리 프로젝트 TANGO의 오픈소스 데이터베이스 전환 여정 - 발표자 : 박승전, Project Manager, ...SK Telecom - 망관리 프로젝트 TANGO의 오픈소스 데이터베이스 전환 여정 - 발표자 : 박승전, Project Manager, ...
SK Telecom - 망관리 프로젝트 TANGO의 오픈소스 데이터베이스 전환 여정 - 발표자 : 박승전, Project Manager, ...
 
코리안리 - 데이터 분석 플랫폼 구축 여정, 그 시작과 과제 - 발표자: 김석기 그룹장, 데이터비즈니스센터, 메가존클라우드 ::: AWS ...
코리안리 - 데이터 분석 플랫폼 구축 여정, 그 시작과 과제 - 발표자: 김석기 그룹장, 데이터비즈니스센터, 메가존클라우드 ::: AWS ...코리안리 - 데이터 분석 플랫폼 구축 여정, 그 시작과 과제 - 발표자: 김석기 그룹장, 데이터비즈니스센터, 메가존클라우드 ::: AWS ...
코리안리 - 데이터 분석 플랫폼 구축 여정, 그 시작과 과제 - 발표자: 김석기 그룹장, 데이터비즈니스센터, 메가존클라우드 ::: AWS ...
 
LG 이노텍 - Amazon Redshift Serverless를 활용한 데이터 분석 플랫폼 혁신 과정 - 발표자: 유재상 선임, LG이노...
LG 이노텍 - Amazon Redshift Serverless를 활용한 데이터 분석 플랫폼 혁신 과정 - 발표자: 유재상 선임, LG이노...LG 이노텍 - Amazon Redshift Serverless를 활용한 데이터 분석 플랫폼 혁신 과정 - 발표자: 유재상 선임, LG이노...
LG 이노텍 - Amazon Redshift Serverless를 활용한 데이터 분석 플랫폼 혁신 과정 - 발표자: 유재상 선임, LG이노...
 
[Keynote] Data Driven Organizations with AWS Data - 발표자: Agnes Panosian, Head...
[Keynote] Data Driven Organizations with AWS Data - 발표자: Agnes Panosian, Head...[Keynote] Data Driven Organizations with AWS Data - 발표자: Agnes Panosian, Head...
[Keynote] Data Driven Organizations with AWS Data - 발표자: Agnes Panosian, Head...
 
AWS Summit Seoul 2023 | 생성 AI 모델의 임베딩 벡터를 이용한 서버리스 추천 검색 구현하기
AWS Summit Seoul 2023 | 생성 AI 모델의 임베딩 벡터를 이용한 서버리스 추천 검색 구현하기AWS Summit Seoul 2023 | 생성 AI 모델의 임베딩 벡터를 이용한 서버리스 추천 검색 구현하기
AWS Summit Seoul 2023 | 생성 AI 모델의 임베딩 벡터를 이용한 서버리스 추천 검색 구현하기
 
AWS Summit Seoul 2023 | 12가지 디자인 패턴으로 알아보는 클라우드 네이티브 마이크로서비스 아키텍처
AWS Summit Seoul 2023 | 12가지 디자인 패턴으로 알아보는 클라우드 네이티브 마이크로서비스 아키텍처AWS Summit Seoul 2023 | 12가지 디자인 패턴으로 알아보는 클라우드 네이티브 마이크로서비스 아키텍처
AWS Summit Seoul 2023 | 12가지 디자인 패턴으로 알아보는 클라우드 네이티브 마이크로서비스 아키텍처
 
AWS Summit Seoul 2023 | 갤럭시 규모의 서비스를 위한 Amazon DynamoDB의 역할과 비용 최적화 방법
AWS Summit Seoul 2023 | 갤럭시 규모의 서비스를 위한 Amazon DynamoDB의 역할과 비용 최적화 방법AWS Summit Seoul 2023 | 갤럭시 규모의 서비스를 위한 Amazon DynamoDB의 역할과 비용 최적화 방법
AWS Summit Seoul 2023 | 갤럭시 규모의 서비스를 위한 Amazon DynamoDB의 역할과 비용 최적화 방법
 
AWS Summit Seoul 2023 | 클라우드의 경계를 허무는 AWS Hybrid Cloud Services
AWS Summit Seoul 2023 | 클라우드의 경계를 허무는 AWS Hybrid Cloud ServicesAWS Summit Seoul 2023 | 클라우드의 경계를 허무는 AWS Hybrid Cloud Services
AWS Summit Seoul 2023 | 클라우드의 경계를 허무는 AWS Hybrid Cloud Services
 
AWS Summit Seoul 2023 | 기업 고객 대상 기계학습 기반 콜센터 도입을 위한 여정
AWS Summit Seoul 2023 | 기업 고객 대상 기계학습 기반 콜센터 도입을 위한 여정AWS Summit Seoul 2023 | 기업 고객 대상 기계학습 기반 콜센터 도입을 위한 여정
AWS Summit Seoul 2023 | 기업 고객 대상 기계학습 기반 콜센터 도입을 위한 여정
 

Recently uploaded

Grid Layout (Kitworks Team Study 장현정 발표자료)
Grid Layout (Kitworks Team Study 장현정 발표자료)Grid Layout (Kitworks Team Study 장현정 발표자료)
Grid Layout (Kitworks Team Study 장현정 발표자료)
Wonjun Hwang
 

Recently uploaded (7)

Continual Active Learning for Efficient Adaptation of Machine LearningModels ...
Continual Active Learning for Efficient Adaptation of Machine LearningModels ...Continual Active Learning for Efficient Adaptation of Machine LearningModels ...
Continual Active Learning for Efficient Adaptation of Machine LearningModels ...
 
MOODv2 : Masked Image Modeling for Out-of-Distribution Detection
MOODv2 : Masked Image Modeling for Out-of-Distribution DetectionMOODv2 : Masked Image Modeling for Out-of-Distribution Detection
MOODv2 : Masked Image Modeling for Out-of-Distribution Detection
 
캐드앤그래픽스 2024년 5월호 목차
캐드앤그래픽스 2024년 5월호 목차캐드앤그래픽스 2024년 5월호 목차
캐드앤그래픽스 2024년 5월호 목차
 
[Terra] Terra Money: Stability and Adoption
[Terra] Terra Money: Stability and Adoption[Terra] Terra Money: Stability and Adoption
[Terra] Terra Money: Stability and Adoption
 
A future that integrates LLMs and LAMs (Symposium)
A future that integrates LLMs and LAMs (Symposium)A future that integrates LLMs and LAMs (Symposium)
A future that integrates LLMs and LAMs (Symposium)
 
Grid Layout (Kitworks Team Study 장현정 발표자료)
Grid Layout (Kitworks Team Study 장현정 발표자료)Grid Layout (Kitworks Team Study 장현정 발표자료)
Grid Layout (Kitworks Team Study 장현정 발표자료)
 
도심 하늘에서 시속 200km로 비행할 수 있는 미래 항공 모빌리티 'S-A2'
도심 하늘에서 시속 200km로 비행할 수 있는 미래 항공 모빌리티 'S-A2'도심 하늘에서 시속 200km로 비행할 수 있는 미래 항공 모빌리티 'S-A2'
도심 하늘에서 시속 200km로 비행할 수 있는 미래 항공 모빌리티 'S-A2'
 

AWS Summit Seoul 2023 | 실시간 CDC 데이터 처리! Modern Transactional Data Lake 구축하기

  • 1. © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. S E O U L | M A Y 4 , 2 0 2 3
  • 2. © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. CDC ! Modern Transactional Data Lake AWS
  • 3. © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. Agenda • Append-Only • CDC-based UPSERT ▪ View ▪ Open Table Formats – Apache Iceberg, Hudi, Delta Lake • Modern Transactional Data Lake Architecture
  • 4. © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. CRM IoT WEB Messages CDC* Event Streams * CDC: Change Data Capture RDBMS Data Insights
  • 5. © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. RDBMS Scalability RDBMS (Replica) RDBMS (Primary) Query Engine (1) Storage Query Engine (2) Query Engine (3) Storage interface Scale-Out Scale-Out Primary-Replica Cluster RDBMS (Primary) Scale-Up RDBMS (Replica) Scale-Out Replica Primary Distributed File System RDBMS
  • 6. © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. DFS* Stream Storage Data Lake Data Mart AI/ML CRM IoT WEB Messages CDC Event Streams Data Lake * DFS: Distributed File System Data Ware house Stream Delivery
  • 7. © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. CRM IoT WEB Messages CDC Event Streams Data Lake Amazon Kinesis Data Streams Amazon Kinesis Data Firehose Amazon Athena Amazon S3 Data Lake Amazon QuickSight
  • 8. © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. IMMUTABLE Objects Distributed CAN NOT Update/Delete In-Place Insert (Append)-Only interface (HTTPS, SDK APIs) Transactional (X) MUTABLE Records Files per tables Update/Delete In-Place Insert/Update/Delete table1 table2 table3 RDBMS Transactional (O) RDBMS vs. S3 (≈ Distributed Object Storage) File System File System File System Amazon S3
  • 9. © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. RDBMS CDC CDC Update/Delete ? Amazon Kinesis Data Streams Amazon Kinesis Data Firehose Amazon Athena Amazon S3 AWS DMS datalake/ year=2023/month=05/day=03/hour=01/ obj1.parquet obj2.parquet … year=2023/month=05/day=03/hour=02/ updated-obj1.parquet … Data Lake Operation Changed Data I, pk1, c1, c2, t1 U, pk1, c1, c2, t2 D, pk0, c1, c2, t3
  • 10. © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. View UPSERT : Merge-On-Read RDBMS Updated/ Deleted Data Inserted Data View Table Operation Changed Data I, pk1, c1, c2, t1 U, pk1, c1, c2, t2 I, pk1, c1, c2, t1 U, pk1, c1, c2, t2 D, pk0, c1, c2, t3 I, pk1, c1, c2, t1 U, pk1, c1, c2, t2 I, pk0, c1, c2, t0 D, pk0, c1, c2, t3 I, pk0, c1, c2, t0
  • 11. © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. View UPSERT : Merge-On-Read RDBMS Updated/Deleted Data Inserted Data View Table Amazon S3 Amazon Athena Amazon Redshift Logical View Materialized View CDC
  • 12. © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. Logical View vs. Materialized View CREATE VIEW view_tbl AS SELECT * FROM org_tbl, delta_tbl SELECT * FROM view_tbl SELECT * FROM ( SELECT * FROM org_tbl, delta_tbl ) SELECT * FROM view_tbl Materialized View Logical View org_tbl Amazon S3 view_tbl + delta_tbl
  • 13. © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon Redshift Materialized Views
  • 14. © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon Kinesis Data Streams Amazon Redshift / Redshift Serverless Permanent Tables Real-time Materialized View Streaming Table … … Amazon QuickSight Amazon MSK Amazon Redshift Streaming Ingestion M A T E R I A L I Z E D V I E W Auto Refresh Data Source
  • 15. © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. t1 t2 Inserted Data (t1) Amazon S3 Inserted Data (t2) + + a b c d e f Merge & Compaction time Data Size Updated/ Deleted Data (t1) Updated/ Deleted Data (t2)
  • 16. © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. year=2022/month=01/day=01/hour=00/ p1.parquet p2.parauet year=2022/month=02/day=01/hour=00/ ... year=2022/month=12/day=01/hour=00/ ... year=2023/month=01/day=02/hour=00/ p1.parquet p2.parauet year=2023/month=01/day=02/hour=01/ p1.parquet p2.parauet S3 Glacier Deep Archive S3 Standard Logical View Update/ Delete View Merge-On-Read
  • 17. © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. Logical View • – Read , • • = Merge & Compaction + •
  • 18. © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. Real-time Materialized View org_tbl delta_tbl Auto Refresh Streaming Table Permanent Table Materialized View Amazon Redshift Data Volume Data Volume Data Volume t1 tN time t2 Data Size Unlimited Data Volume .....
  • 19. © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. Real-time Materialized View org_tbl delta_tbl Auto Refresh Table data files commit log Merge-On-Read Streaming Table Permanent Table Amazon S3 Materialized View S3 ? Amazon Redshift
  • 20. © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. Table data files commit log Merge-On-Read Amazon S3 “Table Format” = Layout of Files in Table commit_log date=2023-01-01
  • 21. © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon S3 RDBMS RDBMS Index Field1 (v1, t1) Files binlog Read Field1 (v2, t2) my_table/ date=2023-01-01/ file-1.parquet ...... file-2.parquet ...... commit_log/ 00000.json 00001.json ...... Amazon S3 Write t1 t2 time Table data files Merge-On-Read commit log Insert file-1.parquet Insert file-2.parquet Delete file-1.parquet
  • 22. © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. “Table Format” = Layout of Files in Table O P E N T A B L E F O R M A T S
  • 23. © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. Apache Hudi © hudi.apache.org
  • 24. © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. Apache Hudi © hudi.apache.org
  • 25. © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. Apache Iceberg s0 Data Snapshots t0 t1 Partition File Location Schema Format Stats Write & Commit time Snapshots: State of table at some time s1
  • 26. © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. Apache Iceberg M E T A D A T A F I L E S T O T R A C K D A T A schema, partitions, snapshots list of files and mappings to snapshots tracks data files and statistics © iceberg.apache.org
  • 27. © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. Apache Iceberg M E T A D A T A F I L E S T O T R A C K D A T A my_table/ ├── metadata/ │ ├── 00000.metadata.json │ ├── 00001.metadata.json │ ├── 00002.metadata.json │ ....... │ ├── a39f-e190-b871-ac8e5b-m0.avro │ ├── a39f-e190-b871-ac8e5b-m1.avro │ ├── a39f-e190-b871-ac8e5b-m2.avro │ ....... │ ├── snap-1954-1-2e934.avro │ ├── snap-4381-1-255b.avro │ ├── snap-4866-1-8bf57.avro └── data/ ├── date=2023-01-01 │ └── file-1.parquet └── date=2023-01-02 └── file-2.parquet © iceberg.apache.org
  • 28. © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. Delta Lake my_table/ ├── _delta_log │ ├── 00000.json │ ├── 00001.json │ ├── 00002.json │ ....... │ ├── 00010.json │ └── 00010.checkpoint.parquet ├── date=2023-01-01 │ └── file-1.parquet └── date=2023-01-02 └── file-2.parquet Transaction Log Single commits Checkpoint Files (Optional) Partition Directories Data Files Add 1.parquet Add 2.parquet Remove 1.parquet Remove 2.parquet Add 3.parquet
  • 29. © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. Open Table Formats – Iceberg, Hudi, Delta Lake Apache Iceberg Hudi Delta Lake ACID Yes Yes Yes Partition Evolution Yes No No Schema Evolution Yes Partial Limited Time Travel Yes Yes Yes Merge Yes Yes Yes Compaction API based Manual Automated Data Format Parquet, Avro, ORC, CSV Parquet, ORC Parquet Current Pointer Metastore, File system with version File Timeline commit Transaction log Conflict Resolution Optimistic Optimistic Optimistic Programming Language Java & Python Scala, Java & Python Java & Python
  • 30. © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. Modern Transactional Data Lake
  • 31. © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. Typical Data Pipeline & Data Lake AWS DMS Amazon Kinesis Data Streams Amazon Athena Amazon S3 Amazon RDS Payments • : Insert • : Update • : Delete • : Append Only Amazon Kinesis Data Firehose Data Source Data Pipeline Data Lake User Profile
  • 32. © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. CDC-based UPSERT Data Lake AWS DMS Amazon Kinesis Data Streams Amazon Athena Amazon S3 Amazon RDS Amazon Kinesis Data Firehose S3 User Profile iceberg Payments parquet, orc, avro iceberg, hudi, delta lake Athena Hudi Iceberg Delta Lake Insert X O X Delete X O X Select O O O
  • 33. © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. CDC-based UPSERT Data Lake AWS DMS Amazon Kinesis Data Streams Amazon Athena Amazon S3 Amazon RDS S3 User Profile iceberg Payments parquet, orc, avro iceberg, hudi, delta lake Athena Hudi Iceberg Delta Lake Insert X O X Delete X O X Select O O O AWS Glue Flink / Spark Amazon EMR Open Source Serverless Fully Managed
  • 34. © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. CDC-based UPSERT Data Lake AWS DMS Amazon Kinesis Data Streams Amazon Athena Amazon S3 Amazon RDS AWS Glue Streaming Operation Changed Data I, pk1, c1, c2, t1 U, pk1, c1, c2, t2 D, pk0, c1, c2, t3 CDC { JSON }
  • 35. © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. Transactional Data Lake AWS DMS Amazon Kinesis Data Streams AWS Glue Streaming Amazon Athena Amazon S3 Amazon RDS AWS DMS Amazon Kinesis Data Streams Amazon Athena Amazon S3 Amazon RDS Amazon Kinesis Data Firehose {JSON} {JSON}
  • 36. © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. Demo
  • 37. © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. Reference Architecture https://github.com/aws-samples/transactional-datalake-using-apache-iceberg-on-aws-glue
  • 38. © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. Spark + Glue Context Kinesis Data Streams Apache Iceberg Insert/Update/Delete 1 2 3 Glue Streaming Job Code
  • 39. © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. Glue Streaming Job Code
  • 40. © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. 5 Glue Streaming Upsert Delete 1 2 3
  • 41. © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. Summary
  • 42. © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. “Table Format” = Layout of Files in Table O P E N T A B L E F O R M A T S Amazon S3 Update/Delete In-Place table1 table2 table3 RDBMS Transactional Data Lake RDBMS
  • 43. © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. Transactional Data Lake: AWS DMS Amazon Kinesis Data Streams AWS Glue ETL Amazon Athena Amazon S3 Amazon RDS (Apache Iceberg, Hudi, Delta Lake) Amazon S3 Amazon Kinesis Data Firehose Raw Zone Curated Zone
  • 44. © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. Transactional Data Lake: + L A M B D A A R C H I T E C T U R E AWS DMS Amazon Kinesis Data Streams AWS Glue ETL Amazon Athena Amazon S3 Amazon RDS Amazon Redshift / Redshift Serverless Real-Time Materialized View Streaming Table Permanent Tables (Apache Iceberg, Hudi, Delta Lake) Amazon S3 Amazon Kinesis Data Firehose Raw Zone Curated Zone Batch Layer Speed Layer
  • 45. © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. Transactional Data Lake: AWS DMS Amazon Kinesis Data Streams AWS Glue Streaming Amazon Athena Amazon S3 Amazon RDS (Apache Iceberg, Hudi, Delta Lake) Amazon Redshift / Redshift Serverless Real-Time Materialized View Streaming Table Permanent Tables
  • 46. © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. On-Premise Transactional Data Lake Generic database Corporate data center Long Time-to-build High Cost in TCO Deep Expertise Required Security HDFS Kafka Connect Connect Hive / Presto Flink / Spark Streaming
  • 47. © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. Generic database AWS DMS Amazon Kinesis Data Streams AWS Glue Streaming Amazon Athena Amazon S3 Corporate data center AWS Cloud Streaming Migrations for Analytics on Generic database Corporate data center HDFS Hive / Presto Kafka Connect Connect (Apache Iceberg, Hudi, Delta Lake) (Apache Iceberg, Hudi, Delta Lake) Flink / Spark S
  • 48. © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. Data Lake
  • 49. © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. 감사합니다 © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.