AWS Analytics Immersion Day - Build BI System from Scratch (Day1, Day2 Full Version)

Sungmin Kim
Solutions Architect, AWS
Analytics Immersion Day
Build BI System from Scratch

What is Architecting?
Art of Trade-off

Data
The world’s most
valuable resource is
no longer oil, but data.*
*Copyright: The Economist, 2017, David Parkins
“
”

Answers &
Insights
Collect
Consume
Store
Process/
Analyze
Data
14
09
5
*Copyright: Fractionating column, 2009 science-resources.co.uk

Structured, Unstructured, and Semi-Structured

Data Temperature SpectrumStructure
Hot data Warm data Cold data
Low
High
High Request rate
LowHigh Cost / GB
Low HighLatency
Low HighData Volume
Low
In-Memory SQL
NoSQL Search
Object Storage
Archive
Storage
Graph

Simplify Big Data Processing
Collect ConsumeStore Process/
Analyze
Data
1 4
0 9
5
Answers &
Insights
Time to answer(Latency)
Throughput
Cost

Let’s build Business Intelligence System

Business Intelligence System
CRM
IoT
WEB
Messages
CDC*
Event Streams
* CDC: Change Data Capture

QuickSightAmazon RDS

Relational
Databases
Flat Files
And Many Others!
Retail Data
Ops Data
Marketing Data
Amazon QuickSight
Fast BI Service with Pay-per-Session Pricing and ML Insights for everyone

Is it Well-Architected?

AWS Well-Architecture Framework
Performance
efficiency
Cost
optimization
SecurityReliability
Operational
excellence
Set of questions you can use to evaluate how well an architecture is
aligned to AWS best practices

Is it Well-Architected?
Operation excellence
ü Scale-up: CPU, Memory, Disk
ü Connection Pooling
ü Schema changes: alter table
ü Schema validation
Reliability
ü High availability: Master-Slave fail-over
ü Data loss
Performance efficiency
ü Slow SQL queries caused by poor
database indexing
ü Number of writes >>> Number of reads
Cost optimization
ü Management of RDMS
ü Compute(Instance), Storage cost
Security
ü Encryption data at rest and in transition

Key considerations for storing data
• Storage Volume
• Data Model
• Data Scheme
• Access Patterns
ü SQL Supported
ü Put/Get(key, value)
ü Range Query
ü Join Query
• Serverless or Managed Service
• Current skill set

QuickSight
Redshift S3
Amazon RDS
DocumentDB
(with MongoDB
compatability)
DynamoDB
Object StorageData WarehouseNoSQL
Elasticsearch
Service

QuickSight
Redshift S3Elasticsearch
Service
DocumentDB
(with MongoDB
compatability)
DynamoDB
DynamoDB

QuickSightDocumentDB (with
MongoDB compatibility)
Service
DocumentDB
(with MongoDB
compatability)
DynamoDB

QuickSightElasticsearch
Service
Service
DocumentDB
(with MongoDB
compatability)
DynamoDB

QuickSightRedshift
Service
DocumentDB
(with MongoDB
compatability)
DynamoDB

QuickSightS3
Service
DocumentDB
(with MongoDB
compatability)
DynamoDB

Storage Engine Comparison
S3 Redshift Elasticsearch DocumentDB DynamoDB
Storage volume Unlimited
Limited
(~ tens of TB)
Limited
(~ tens of TB)
Limited
(~ tens of TB)
Unlimited
Data model Object Relational Document Document Key-value
Data scheme Schema-free Fixed schema Schema-free (JSON) Schema-free (JSON) (Key, value)
SQL supported Query engine dependent Yes Yes No No
Put/Get (key, value) Yes Yes Yes Yes Yes
Range query Query engine dependent Yes Yes Yes Difficult
Join query Query engine dependent Yes No Difficult Very Difficult
Serverless Yes No No Yes Yes
v https://db-engines.com/en/system/Amazon+DocumentDB%3BAmazon+DynamoDB%3BAmazon+Redshift%3BElasticsearch

Use Amazon S3 as Your Persistent Data Store
• Natively supported by big data frameworks (Spark, Hive, Presto, etc.)
• Decouple storage and compute
• No need to run compute clusters for storage (unlike HDFS)
• Can run transient Amazon EMR clusters with Amazon EC2 Spot
Instances
• Multiple & heterogeneous analysis clusters and services can use the
same data
• Designed for 99.999999999% durability
• No need to pay for data replication within a region
• Secure: SSL, client/server-side encryption at rest
• Low cost

S3 QuickSight
Ingestion Query engine

Kinesis
Data Firehose
S3 QuickSight

Amazon Kinesis Data Firehose
Prepare and load real-time data streams into data stores and analytics
tools

Kinesis
Data Firehose
S3 QuickSight
Glue Athena EMR
Batch Interactive

Comparison of SQL Processing engines
Data Structure Semi Semi Semi Full
Languages API/SQL SQL SQL SQL
Data Store
S3 (Glue),
S3/HDFS (Spark)
S3/HDFS S3 Local
Use case Transformation
SQL Queries
for S3/HDFS
Serverless SQL
Queries for S3
Fully Featured
SQL Database
Performance
AWS Glue Amazon Athena Amazon Redshift

Kinesis
Data Firehose
S3 Athena QuickSight

Data Processing: ETL vs ELT
Source1
Source2 Target
Source1
Source2
Staging
tables
Final
tables
Target
(MPP database)
Extract Transform Load
E → T → L
Extract & Load Transform
E → L → T
Source3Source3

How about Real-time Analytics?
Kinesis
Data Firehose
Real-time Analysis Layer
ü Streaming data processing
ü Latency: milliseconds ~ seconds
Messages
CDC
Event
Streams

Real-time Analytics
Kinesis
Data Firehose
SQS
Kinesis
Data Streams
MSK

• Decouple producers & consumers
• Persistent buffer
• Collect multiple streams
• Preserve client ordering
• Parallel consumption
• Streaming MapReduce
4 4 3 3 2 2 1 1
4 3 2 1
4 3 2 1
4 3 2 1
4 3 2 1
4 4 3 3 2 2 1 1
Producer 1
shard 1 / partition 1
shard 2 / partition 2
Consumer 1
Count of
red = 4
Count of
violet = 4
Consumer 2
Count of
blue = 4
Count of
green = 4
Producer 2
Producer 3
Producer n
Key = Red
Key = Green
Key = Blue
Key = Violet
Amazon Kinesis
Data Streams
Amazon Managed
Streaming for Kafka
…
Why Stream Storage?

• Decouple producers & consumers
• Persistent buffer
• Collect multiple streams
• No client ordering (standard)
• FIFO queue preserves client
ordering
• No streaming MapReduce
• No parallel consumption
• Amazon SNS can publish to
multiple SNS subscribers
(queues or Lambda functions)
Consumers
4 3 2 1
12344 3 2 1
1234
2134
13342
Standard
FIFO
Producers
Amazon SQS Queue
Publisher
Amazon SNS
Topic
AWS Lambda
function
Amazon SQS
queue
Queue
Subscriber
What about Amazon SQS?

Real-time Analytics
Kinesis
Data Firehose
Kinesis
Data Streams

Real-time Analytics
Kinesis
Data Firehose
Kinesis
Data Streams
Kinesis
Data Analytics
on EMR Elasticsearch
Service
on EMR

RDD Operator RDD RDD …Operator
Operator
Data
Sink
OperatorOperator
Data
Source
Amazon EMR
Applications
Framework
Process Layer
Data Layer
Infrastructure
S3
EMRFS
Amazon
S3
Instances Spot Instances

Real-time Analytics with Spark or Flink on EMR, RDS
Kinesis
Data Firehose
Kinesis
Data Streams
QuickSightEMR Amazon RDS

Real-time Analytics with Spark or Flink on EMR, DynamoDB
Kinesis
Data Firehose
Kinesis
Data Streams
EMR DynamoDB real-time
dashboard

Real-time Analytics with Spark or Flink on EMR, ElastiCache
Kinesis
Data Firehose
Kinesis
Data Streams
EMR real-time
dashboard
ElastiCache

Amazon Kinesis Data Analytics
Easily process and analyze streaming data with standard SQL

Real-time Analytics with Kinesis Data Analytics, RDS
Kinesis
Data Firehose
Kinesis
Data Streams
Kinesis
Data Analytics
Lambda
function
QuickSightAmazon RDSKinesis
Data Streams

Real-time Analytics with Kinesis Data Analytics, DynamoDB
Kinesis
Data Firehose
Kinesis
Data Streams
Kinesis
Data Analytics
Lambda
function
Kinesis
Data Streams
real-time
dashboard
DynamoDB

Real-time Analytics with Kinesis Data Analytics, ElastiCache
Kinesis
Data Firehose
Kinesis
Data Streams
Kinesis
Data Analytics
Lambda
function
Kinesis
Data Streams
real-time
dashboard
ElastiCache

Amazon Elasticsearch Service
Fully managed, scalable, and secure Elasticsearch service

Real-time Analytics with Elasticsearch Service
Kinesis
Data Firehose
Kinesis
Data Streams
Lambda function Elasticsearch Service Kibana

3 ways to build Real-time Analytics
Kinesis
Data Streams
Lambda
function
Elasticsearch Service Kibana
EMR
real-time
dashboard
ElastiCache
Kinesis
Data Analytics
Lambda
function
QuickSight
Amazon RDS
Kinesis
Data Streams
DynamoDB
1
2
3

Kinesis
Data Firehose
Kinesis
Data Streams

<demo>
https://github.com/ksmin23/aws-analytics-immersion-day
</demo>

Kinesis
Data Firehose
Kinesis
Data Streams
Batch Layer Serving Layer
Speed Layer
Lambda Architecture

Lambda vs Kappa Architecture
Lambda
Kappa

Beyond Data Analytics: Expand Business Intelligence
• Network(Graph) Analysis
• Social networking
• Recommendation engines
• Fraud detection
• Knowledge Graphs
• Recommendation
• Personalized recommendations
• Personalized search
• Personalized notifications
• Machine Learning
• Forecast(Predictive Analytics)
• Classification
• Sentiment Analysis
• and more …

Amazon Neptune
Fully managed graph database
Social Networking Recommendation Engines
Fraud Detection Knowledge Graphs

Beyond Data Analytics – Network Analysis(with Neptune)
Kinesis
Data Firehose
Kinesis
Data Streams
NeptuneLambda function API GatewayLambda function

Deliver high-quality
recommendations
Deliver
personalization in
days, not months
Real-time Works with any
product or content
Amazon Personalize
Real-time personalization and recommendation, based on the same
technology used at Amazon.com

Beyond Data Analytics: Recommendation(with Personalize)
Kinesis
Data Firehose
Kinesis
Data Streams
S3
ElastiCache API Gateway
Event
(time-based)
Lambda
function
Personalize
Lambda function
EMR

Fully managed
hosting with
auto scaling
One-click
deployment
Notebook
instances
Built-in, high-
performance
algorithms
Automatic
model tuning
One-click
training
Build Train Deploy
Amazon SageMaker
Build, Train, and Deploy Machine Learning Models Quickly & Easily, at
Scale

Beyond Data Analytics: Machine Learning(with SageMaker)
Kinesis Data Firehose S3 Athena QuickSight
Kinesis
Data Streams
TrainNotebook
Model
Models
bucket
SageMaker
Endpoint
SageMaker

Collect ConsumeStore Process/
Analyze
Data
1 4
0 9
5 Answers &
Insights
Amazon Kinesis
Data Firehose
Amazon Kinesis
Data Streams
Amazon Managed
Streams for Kafka
Amazon S3
Amazon Kinesis
Data Analytics
AWS Glue
Amazon EMR
Amazon Athena Amazon QuickSight
Amazon Redshift
Amazon Elasticsearch
Service
Amazon Machine
Learning
AWS Lambda

Lessons Learned: Architectural Principles
• Build decoupled systems
- Data → Store → Process → Store → Analyze → Answers
• Use the right tool for the job
- Data structure, latency, throughput, access patterns
• Leverage managed and serverless services
- Scalable/elastic, available, reliable, secure, no/low admin
• Use log-centric design patterns
- Immutable logs (data lake), materialized views
• Be cost-conscious
- Big data ≠ Big cost
• Working backwards
- Design from consume to collect

Learn more
- Big Data Analytics Architectural Patterns and Best Practices (ANT201-R1) - AWS re:Invent 2018
https://www.slideshare.net/AmazonWebServices/big-data-analytics-architectural-patterns-and-best-
practices-ant201r1-aws-reinvent-2018
- Everything You Need to Know About Big Data: From Architectural Principles to Best Practices
https://www.slideshare.net/AmazonWebServices/everything-you-need-to-know-about-big-data-
from-architectural-principles-to-best-practices
- Big Data Analytics Options on AWS
https://d1.awsstatic.com/whitepapers/Big_Data_Analytics_Options_on_AWS.pdf
- AWS Big Data Blog
https://aws.amazon.com/ko/blogs/big-data
- AWS Well-Architected Labs
https://wellarchitectedlabs.com

AWS Analytics Immersion Day - Build BI System from Scratch (Day1, Day2 Full Version)

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Ähnlich wie AWS Analytics Immersion Day - Build BI System from Scratch (Day1, Day2 Full Version)

Ähnlich wie AWS Analytics Immersion Day - Build BI System from Scratch (Day1, Day2 Full Version) (20)

Mehr von Sungmin Kim

Mehr von Sungmin Kim (14)

Kürzlich hochgeladen

Kürzlich hochgeladen (20)

AWS Analytics Immersion Day - Build BI System from Scratch (Day1, Day2 Full Version)