BigDataAWSArquitectura

© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Alberto Ortiz
Technical Account Manager
Amazon Web Services
MXO203
Patrones arquitectónicos y mejores
prácticas de Big Data en AWS

Que esperar de ésta sesión
Retos de Big Data
Principios de arquitectura
Como simplificar el procesamiento de Big Data
¿Qué tecnologías usar? ¿Por qué? ¿Cómo?
Arquitectura de referencia
Patrones de diseño

Big Data es cada vez mas grande
Volumen
Velocidad
Variedad

Evolución de Big Data
Procesamiento
batch
Procesamiento
de streams
Inteligencia
artificial

Evolución de servicios de nube
Máquinas
virtuales
Servicios
administrados
Serverless

Muchas herramientas
Amazon
Glacier
Amazon S3 Amazon DynamoDB
Amazon RDS
Amazon EMR
Amazon
Redshift
Amazon
Kinesis
Lambda Amazon ML
Amazon SQS
ElastiCache
Amazon DynamoDB
Streams
Amazon ES
Amazon Kinesis
Data Analytics
Amazon
QuickSight AWS Glue

Retos de Big Data
¿Porqué?
¿Cómo?
¿Qué herramientas
debo usar?
¿Hay una arquitectura de
referencia?

Principios de arquitectura
Construir sistemas desacoplados
datos → almacenar → proceso → almacenar → analizar → respuestas
Usar la herramienta correcta para el trabajo
estructura de datos, latencia, throughput, patrones de acceso
Aprovechar servicios administrados y serverless
escalable/elástico, disponible, confiable, seguro, baja o nula administración
Usar patrones de diseño log-centric
logs inmutables (data lake), vistas materializdas
Efectivo en costos
big data ≠ big costs
Habilitar aplicaciones para AI/ML

Procesamiento de Big Data simplificado
Recolectar Almacenar
Procesar/
Analizar
Consumir
Tiempo para responder (latencia)
Throughput
Costo

¿Cuál es la temperatura de sus datos?

Cracterísticas de los datos: caliente, tibio y frio
Caliente Tibio Frio
Volumen MB–GB GB–TB PB–EB
Tamaño de
elemento B–KB KB–MB KB–TB
Latencia ms ms, sec min, hrs
Durabilidad bajo–alto alta muy alta
Velocidad muy alta alta baja
Costo/GB $$-$ $-¢¢ ¢

Recolectar

Tipo de datos
Dispositivos
Sensores
Plataformas IoT
AWS IoT Streams
IoT
EventosStreams de datos
Migración
Snowball
Logging
Amazon
CloudWatch
AWS
CloudTrail
Archivos
Transporteyloggingdedatos
AWS Import/Export
Archivos
Logs
Media
Mobile apps
Web apps
Data centers AWS Direct
Connect
Registros
Aplicaciones
Transacciones
Estructuras de datos
Registros de base de datos
Recolectar

Almacenar

Tipo de datos
Dispositivos
Sensores
Plataformas IoT
AWS IoT Streams
IoT
Streams de datos
Migración
Snowball
Logging
Amazon
CloudWatch
AWS
CloudTrail
Archivos
Import/export
Logs
Media
Mobile apps
Web apps
Connect
Registros
Aplicaciones
Estructuras de datos
Registros de base de datos NoSQL
In-memory
SQL
Almacenamiento
de archivo/
objectos
Almacenamiento
de Streams

Dispositivos
Sensores
Plataformas IoT
AWS IoT Streams
IoT
Migración
Snowball
Logging
Amazon
CloudWatch
AWS
CloudTrail
Archivos
Import/export
Mobile apps
Web apps
Connect
Registros
Aplicaciones
NoSQL
In-memory
SQL
Almacenamiento
de archivo/
objectos
Almacenamiento
de Streams

Almacenamiento de Streams
Apache Kafka
• Plataforma distribuída de alto desempeño para
streaming
Amazon Kinesis Streams
• Almacenamiento de streams administrado
Amazon Kinesis Data Firehose
• Entrega de datos administrada
Dispositivos
Sensores
Plataformas IoT
AWS IoT Streams
IoT
Migración
Snowball
Logging
Amazon
CloudWatch
AWS
CloudTrail
Archivos
Import/export
Mobile apps
Web apps
Connect
Registros
Aplicaciones
NoSQL
In-memory
SQL
Almacenamiento
de archivo/
objectos
Amazon Kinesis
Data Firehose
Amazon Kinesis
Data Streams
Apache Kafka

¿Por qué almacenamiento de streams?
Desacopla productores &
consumidores
Buffer persistente
Colección de multiples streams
Preserva órden del cliente
Consumo paralelo
Streaming MapReduce
4 4 3 3 2 2 1 1
4 3 2 1
4 3 2 1
4 3 2 1
4 3 2 1
4 4 3 3 2 2 1 1
shard 1 / partición 1
shard 2 / partición 2
Consumidor 1
Conteo de
rojo = 4
Conteo de
violeta = 4
Consumidor 2
Conteo de
azul= 4
Conteo de
verde= 4
DynamoDB stream Amazon Kinesis Data Stream Kafka topic

¿Qué hay de Amazon SQS?
• Desacopla productores y consumidores
• Buffer persistente
• Colecciona multiples streams
• Sin ordenamiento de cliente (estandard)
• FIFO preserva ordenamiento
de cliente
• Sin streaming MapReduce
• Sin consume en paralelo
• Amazon SNS puede publicar
a multiple suscriptores de
Amazon SNS (colas o funciones AWS
Lambda)
Consumidores
4 3 2 1
12344 3 2 1
1234
2134
13342
Standard
FIFO
Productores
Amazon SQS queue
Publicador
Amazon SNS
Tópico
AWS Lambda
function
Amazon SQS
queue
Queue
Suscriptor

¿Qué almacenamiento de mensajes/streams debo usar?
Caliente Tibio
Amazon
Kinesis Data
Streams
Amazon
Kinesis
Data Firehose
Apache
Kafka (en Amazon
EC2)
Amazon
SQS (Standard)
Amazon SQS
(FIFOa)
Administrado por AWS Si Si No Si Si
Garantiza ordenamiento Si No Si No Si
Entrega (desduplica) Al menos uno Al menos uno Al menos/A lo
mas/exactamente uno
Al menos uno Exactamente
uno
Período de retención 7 días N/A Configurable 14 días 14 días
Disponibilidad 3 AZ 3 AZ Configurable 3 AZ 3 AZ
Escala /
throughput
Sin límite/
~ shards
Sin límite/
automático
Sin límite/
~ nodos
Sin límite/
automático
300 TPS /
queue
Consumo paralelo Si No Si No No
Stream MapReduce Si N/A Si N/A N/A
Tamaño de
registro/objeto
1 MB Tamaño del
registro/objeto
destino
Configurable 256 KB 256 KB
Costo Bajo Bajo Bajo (+admin) Bajo-medio Bajo-medio

Almacenamiento de
archivos/objetos
Amazon S3
Servicio administrado de almacenamiento de
objetos construído para almacenar y recuperar
cualquier cantidad de datos
Dispositivos
Sensores
Plataformas IoT
AWS IoT Streams
IoT
Migración
Snowball
Logging
Amazon
CloudWatch
AWS
CloudTrail
Archivos
AWS Import/Export
Mobile apps
Web apps
Connect
Registros
Aplicaciones
NoSQL
In-memory
SQL
Amazon Kinesis
Data Firehose
Amazon Kinesis
Data Streams
Apache Kafka
Archivos
Amazon S3
Caliente
Streams

Use Amazon S3 para almacenamiento persistente
• Compatible nativamente con marcos de trabajo de big data
(Spark, Hive, Presto, etc.)
• Desacopla el almacenamiento y el cómputo
• No es necesario tener clústeres para el almacenamiento (a
diferencia de HDFS)
• Puede ejecutar clústeres de Amazon EMR transitorios con
instancias Spot de Amazon EC2
• Pueden usar los mismos datos varios clústeres y servicios
• Diseñado para 99.999999999% de durabilidad
• No es necesario pagar por la replicación de datos dentro de una
región
• Seguro: SSL, encriptación cliente / servidor en reposo
• Bajo costo

¿Qué hay de HDFS y niveles de datos (tiering)?
• Use HDFS para los conjuntos de datos más calientes (por
ejemplo, lectura iterativa en los mismos conjuntos de datos)
• Utilice Amazon S3 Standard para acceso frecuente a los
datos
• Use Amazon S3 Standard - IA para datos a los que se
accede con menos frecuencia
• Use Amazon Glacier para archivar datos fríos
• Use Amazon S3 Analytics para optimizar la estrategia de
tiering

Cache y base de datos
Amazon ElastiCache
• Memcached o Redis administrado
Amazon DynamoDB Accelerator
(DAX)
• Cache en memoria de DynamoDB
administrado
Amazon DynamoDB
• NoSQL administrado
Amazon RDS
• Base de datos relacional administrada
Dispositivos
Sensores
Plataformas IoT
AWS IoT Streams
IoT
Migración
Snowball
Logging
Amazon
CloudWatch
AWS
CloudTrail
Archivos
AWS Import/Export
Mobile apps
Web apps
Connect
Registros
Aplicaciones Recolectar Almacenar
Amazon Kinesis
Data Firehose
Amazon Kinesis
Data Streams
Apache Kafka
Archivos
Amazon S3
Caliente
Streams
Amazon
DynamoDB
Amazon RDS
Amazon Aurora
Amazon DAX
Amazon ElastiCache
SQLNoSQLCache

Anti-patrón
Capa de Datos

Mejor práctica: usar la herramienta adecuada para el
trabajo
SearchIn-memory SQLNoSQL
Capa de Datos
GraphDB
Amazon RDS/Amazon AuroraAmazon DynamoDBAmazon ElastiCache Amazon
DynamoDB
Accelerator
SAP HANA
Amazon ES Amazon
CloudSearch

Vistas materializadas y logs inmutables
Vista de
cache
Vista de
búsqueda
Log inmutable

¿Qué almacén de datos debo usar?
Estructura de datos → Esquema-fijo, JSON, Llave / Valor
Patrones de acceso → Almacenar datos en el formato como
será accedido
Características de los datos → Caliente, tibio, frío
Costo → Costo adecuado

Estructura de datos y patrones de acceso
Patrones de acceso ¿Qué usar?
Put/Get (llave, valore) In-memory, NoSQL
Relaciones simples → 1:N, M:N NoSQL
Joins muti-tabla, transacciones,
SQL
SQL
Faceting, Búsqueda Search
Recorrido de grafos GraphDB
Estructura de datos ¿Qué usar?
Esquema fijo SQL, NoSQL
Esquema libre
(JSON)
NoSQL, Search
Llave/Valor In-memory, NoSQL
Grafo GraphDB

In-memory
SQL
Velocidad de peticiones
Alto Bajo
Costo/GB
Alto Bajo
Latencia
Bajo Alto
Volumen de datos
Bajo Alto
Amazon
Glacier
Estructura
NoSQL
Caliente Frío
Baja
Alta

¿Qué almacén de datos debo usar?
Amazon
ElastiCache
DynamoDB
Accelerator
(DAX)
Amazon
DynamoDB
Amazon
RDS (Aurora)
Amazon ES Amazon S3
Amazon
Glacier
Latencia
promedio
µs-ms µs-ms ms ms, sec ms,sec ms,sec,min
(~ size)
hrs
Volumen
típico
GB GB GB–TBs
(sin límite)
GB–TB
(64 TB max)
GB–TB MB–PB
(sin límite)
GB–PB
(sin límite)
Tamaño
típico por
elemento
B-KB KB
(400 KB max)
KB
(400 KB max)
KB
(64 KB max)
B-KB
(2 GB max)
KB-TB
(5 TB max)
GB
(40 TB max)
Ritmo de
peticiones
alto – muy
alto
alto – muy alto muy alto
(sin límite)
alto alto bajo – alto
(sin límite)
muy bajo
Costo
GB/mes
$$ $$ ¢¢ ¢¢ ¢¢ ¢ ¢4/10
Durabilidad bajo -
moderado
NA muy alto muy alto alto muy alto muy alto
Disponibilidad alto
2 AZ
alto
3 AZ
muy alto
3 AZ
muy alto
3 AZ
alto
2 AZ
muy alto
3 AZ
muy alto
3 AZ
Caliente Frío

Diseño para reducir costo
Ejemplo: ¿Debo usar Amazon S3 o Amazon DynamoDB?
“Estoy dimensionando un proyecto. Se piden archivos muy
pequeños, hasta mil millones. El tamaño total estará en el
órden de 1.5 TB al mes ... ”
Ritmo de
peticiones
(escritura/seg)
Tamaño de
objeto
(Bytes)
Tamaño total
(GB/mes)
Objetos por mes
300 2048 1483 777,600,000

¿Amazon S3 o Amazon DynamoDB?
https://calculator.s3.amazonaws.com/index.html
Ritmo de
peticiones
(escritura/seg)
Tamaño de
objeto
(bytes)
Tamaño total
(GB/mes)
Objetos por
mes
300 2048 1483 777,600,000

Amazon S3 o
Amazon DynamoDB
Amazon S3
Wins!
300 23,730 777,600,00032,768
Amazon DynamoDB
Wins!
Request rate
(writes/sec)
Object size
(bytes)
Total size
(GB/month)
Objectsper
month
300 2,048 1,483 777,600,000
Escenario 2
Escenario 1
Amazon S3 Standard
Storage $34
Put/list requests $3,888
Total $3,922
Amazon DynamoDB
Provisioned throughput $273
Indexed data storage $383
Total $656
Amazon S3 Standard
Storage $545
Put/List Requests $3,888
Total $4,433
Amazon DynamoDB
Provisioned Throughput $4,556
Indexed Data Storage $5,944
Total $10,500

Procesar/
Analizar

Analítica predictiva
Servicios impulsados por API
• Amazon Lex - Reconocimiento de voz
• Amazon Polly - Texto a voz
• Amazon Rekognition - Análisis de imágenes
• Amazon Transcribe/Translate
• Amazon Comprehend
Plataformas administradas de ML
• Amazon ML
• Apache Spark ML en Amazon EMR
• Amazon SageMaker
AWS Deep Learning AMI
• Preinstalado con MXNet, TensorFlow, Caffe2 (y
Caffe), Theano, Torch, Microsoft Cognitive Toolkit y
Keras; además de herramientas / drivers DL
Predictiva
AmazonAI
Lex PollyAML Rekognition
AWS DL AMI
Amazon AI
Desarrolladores
Científicos de datos
Expertos
en deep learning
Procesar/
Analizar

Analítica interactiva y batch
Amazon ES
• Servicio administrado para Elasticsearch
Amazon Redshift y Amazon Redshift Spectrum
• Data warehouse administrado
• Spectrum permite consultar Amazon S3
Amazon Athena
• Servicio de consulta interactiva serverless
Amazon EMR
• Hadoop administrado para ejecutar Apache
Spark, Flink, Presto, Tez, Hive, Pig, HBase, etc.
Procesar/
Analizar
Amazon Redshift
Spectrum
Amazon Athena
BatchInteractivo
Amazon ES
Presto
Amazon
EMR

Analítica de stream/tiempo-real
Spark Streaming en Amazon EMR
Amazon Kinesis Data Analytics
• Servicio administrado para ejecutar SQL en
la transmisión de datos
KCL de Amazon
• Amazon Kinesis Client Library
AWS Lambda
• Ejecutar código sin servidor (sin
aprovisionar o administrar servidores)
• Servicios como Amazon S3 pueden
publicar eventos en Lambda
• Lambda puede agrupar eventos de Kinesis KCL
Apps
AWS Lambda
Amazon Kinesis
Data Analytics
Stream
Streaming
Amazon EMR
Procesar/
Analizar

¿Qué tipo de analítica debo usar?
Batch
• Toma minutos a horas
• Ejemplo: reportes diarios / semanales / mensuales
• Amazon EMR (MapReduce, Hive, Pig, Spark)
Interactivo
• Toma segundos
• Ejemplo: tablero de autoservicio
• Amazon Redshift, Amazon Athena, Amazon EMR (Presto, Spark)
Stream
• Toma milisegundos a segundos
• Ejemplo: alertas de fraude, métricas de 1 minuto
• Amazon EMR (Spark Streaming), Amazon Kinesis Data Analytics, KCL,
AWS Lambda, etc.
Predictivo
• Toma milisegundos (tiempo real) a minutos (batch)
• Ejemplo: detección de fraude, predicción de demanda, reconocimiento de
voz
• Amazon AI (Lex, Polly, ML, Amazon Rekognition), Amazon EMR (Spark
ML), Deep Learning AMI (MXNet, TensorFlow, Theano, Torch, CNTK y
Caffe)
Streaming
Amazon Kinesis Data
Analytics
KCL
Apps
AWS Lambda
Stream
Amazon EMR
Rápido
Amazon ES
Amazon Redshift
Spectrum
Presto
Amazon
EMR
Amazon Athena
BatchIneractivo
RápidoLento
Predictivo
AmazonAI
AWS DL AMI
Procesar/
Analizar

¿Qué tecnología de procesamiento de streams debo
usar? Amazon EMR
(Spark
Streaming)
KCL Application Amazon Kinesis
Data Analytics
AWS Lambda
Servicio
administrado
si No (EC2 + Auto
Scaling)
si si
Serverless No No si si
Escala/Throughput Sin límites /
~ nodes
Sin límites /
~ nodes
Sin límites /
automático
Sin límites /
automático
Disponibilidad Single AZ Multi-AZ Multi-AZ Multi-AZ
Lenguajes Java, Python,
Scala
Java, others via
MultiLangDaemon
ANSI SQL con
extensiones
Node.js, Java, Python
Función de ventana
deslizable
Built-in Implementado en
aplicación
Built-in No
Confiabilidad KCL y Spark
checkpoints
Manejado por KCL Manejado por
Kinesis Data
Analytics
Manejado por AWS Lambda

¿Qué herramienta para analítica debo usar?
Amazon Redshift Amazon Redshift
Spectrum
Amazon Athena Amazon EMR
Presto Spark Hive
Caso de uso Optimizado para
datawarehouse
Consulta Amazon
S3 desde Amazon
Redshift
Consultas
interactivas sobre
Amazon S3
Consultas
interactiva
Propósito
general
Batch
Escala/Throughput ~Nodos ~Nodos Automático ~ Nodos
Servicio administrado si si si, serverless si
Almacenamiento local Amazon S3 Amazon S3 Amazon S3, HDFS
Optimización Columnar,
compresión, y zone
maps
AVRO, PARQUET
TEXT, SEQ
RCFILE, ORC, etc.
AVRO, PARQUET
TEXT, SEQ
RCFILE, ORC, etc.
Depende del framework
Metadata Amazon Redshift
Catalog
AWS Glue Catalog AWS Glue Catalog Glue Catalog or
Hive Meta-store
Autorización/control
de acceso
IAM, usuarios,
grupos, y control de
acceso
IAM, usuarios,
grupos, y control de
acceso
IAM IAM, LDAP & Kerberos
Soporte a UDF si (Scalar) si (Scalar) No si
Lento

¿Qué hay de ETL?
ETLSTORE PROCESS / ANALYZE
Data Integration Partners
Reduce el esfuerzo de mover, limpiar, sincronizar,
administrar y automatizar procesos de datos.
AWS Glue es un ETL administrado y serverless, que hace
simple y efectivo en costo la categorización de sus datos,
limpieza, enriquecimiento y movimiento, de manera confiable
y entre varios almacenes de datos.
Data Catalog Job Authoring Job Execution
AWS Glue

Streaming
Amazon Kinesis Data
Analytics
KCL
Apps
AWS Lambda
Stream
Amazon EMR
Rápido
Amazon ES
Amazon Redshift
& Amazon Redshift
Spectrum
Presto
Amazon
EMR
Amazon Athena
BatchIneractivo
RápidoLento
Predictivo
AmazonAI
AWS DL AMI
Procesar/
Analizar
Dispositivos
Sensores
Plataformas IoT
AWS IoT Streams
IoT
Migración
Snowball
Logging
Amazon
CloudWatch
AWS
CloudTrail
Archivos
AWS Import/Export
Mobile apps
Web apps
Connect
Registros
Aplicaciones Recolectar Almacenar
Amazon Kinesis
Data Firehose
Amazon Kinesis
Data Streams
Apache Kafka
Archivos
Amazon S3
Caliente
Streams
Amazon
DynamoDB
Amazon RDS
Amazon Aurora
Amazon DAX
Amazon ElastiCache
SQLNoSQLCache
CalienteTibio
ETL
Consumir

Consumir

Procesar/
Analizar
Recolectar Almacenar ETL
Consumir
Predictivo
AmazonAI
AWS DL AMI
Modelo
Entrenar/
Evaluar
Modelo
s
Desplegar
Cienciade
Datos
AI Apps
Amazon ECS
Apps
AWS Greengrass
Amazon
QuickSight
AnálisisyVisualización
Usuarios de
negocio
DevOps
Científicos de datos
• Aplicaciones BI/AI
• Amazon EC2 o
Amazon ECS
Containers
• AWS Greengrass
• Ciencia de Datos
• Notebooks
• DS Platforms
• IDEs
• Análisis y Visualización
• Amazon QuickSight
• Tableau
• Etc.

Poniendolo todo junto

Procesar/
Analizar
Recolectar Almacenar ETL Consumir
Modelo
Entrenar/
Evaluar
Modelo
s
Desplegar
CienciadeDatos
AI Apps
Amazon ECS
Apps
AWS Greengrass
Amazon
QuickSight
AnálisisyVisualización
Streaming
Amazon Kinesis Data
Analytics
KCL
Apps
AWS Lambda
Stream
Amazon EMR
Rápido
Amazon ES
Amazon Redshift
& Amazon Redshift
Spectrum
Presto
Amazon
EMR
Amazon Athena
BatchIneractivo
RápidoLento
Predictivo
AmazonAI
AWS DL AMI
Dispositivos
Sensores
Plataformas IoT
AWS IoT Streams
IoT
Migración
Snowball
Logging
Amazon
CloudWatch
AWS
CloudTrail
Archivos
AWS Import/Export
Mobile apps
Web apps
Connect
Registros
Aplicaciones
Amazon Kinesis
Data Firehose
Amazon Kinesis
Data Streams
Apache Kafka
Archivos
Amazon S3
Caliente
Streams
Amazon
DynamoDB
Amazon RDS
Amazon Aurora
Amazon DAX
Amazon ElastiCache
SQLNoSQLCache
CalienteTibio

Patrones de diseño

Spark Streaming
AWS Lambda
KCL apps
Amazon
Redshift
Amazon
Redshift
Hive
Spark
Presto
TecnologíadeProcesamiento
RápidoLento
Respuestas
Hive
Native apps
KCL apps
AWS Lambda
Amazon
Athena
Amazon Kinesis Amazon
DynamoDB/RDS
Amazon S3Data
Caliente Frío
Almacén de datos

Analítica en Tiempo Real
Amazon EMR
KCL app
AWS Lambda
Spark
Streaming
Amazon
AI
Predicción en tiempo-real
Amazon
ElastiCache
(Redis)
Amazon
DynamoDB
Amazon
RDS
Amazon
ES
Estado de
aplicación o
vista
materializada
KPI
procesamiento
almacenamiento
Amazon
Kinesis
Amazon Kinesis
Data Analytics
Amazon
SNS NotificationesAlertas
Amazon
S3
Log
Amazon
KinesisFan out Downstream

Analítica
Interactiva
y Batch
procesamiento
almacenamiento Batch
Interactivo
Amazon EMR
Hive
Pig
Spark
Amazon
AI
Predicción batch
Predicción en tiempo-real
Amazon S3
Archivos
Amazon
Kinesis
Data Firehose
Amazon Kinesis
Data Analytics
Amazon Redshift
Amazon ES
Consumo
Amazon EMR
Presto
Spark
Amazon Athena

Tiempo-real
Estado aplicativo o
vista materializada
Interactivo
y batch
Data lake
Amazon S3
Amazon Redshift
Amazon EMR
Presto
Hive
Pig
Spark
Amazon
ElastiCache
Amazon
DynamoDB
Amazon
RDS
Amazon
ES
AWS Lambda
Spark Streaming
on Amazon EMR
Aplicaciones
Amazon
Kinesis
KCL
Amazon
AI
Amazon
DynamoDB
Amazon
RDS
Change Data
Capture or Export
Transacciones
Stream
Archivos
Amazon Kinesis
Data Analytics
Amazon Athena
Amazon
Kinesis
Data Firehose
Amazon ES

¿Qué hay de la metadata?
AWS Glue Catalog
• Compatible con Hive Metastore
• Crawlers – Detecta nuevos datos, esquemas y particiones
• Compatible con Amazon Athena, Amazon EMR, y Amazon Redshift
Spectrum
Hive Metastore (Presto, Spark, Hive, Pig)
• Puede alojarse en una Amazon RDS
Metadata
Metastore Amazon RDS
AWS Glue
Catalog AWS Glue

Seguridad y Gobernanza
• AWS Identity and Access Management (IAM)
• Amazon Cognito
• Amazon CloudWatch & AWS CloudTrail
• AWS KMS
• AWS Directory Service
• Apache Ranger
Seguridad y
Gobernanza IAM Amazon
CloudWatch
AWS
CloudTrail
AWSKMS AWS
CloudHSM
AWS Directory
Service
Amazon
Cognito

Resumen
Arquitectura de
Referencia de un
Data lake

Resumen
Construir sistemas desacoplados
datos → almacenar → proceso → almacenar → analizar → respuestas
Usar la herramienta correcta para el trabajo
estructura de datos, latencia, throughput, patrones de acceso
Aprovechar servicios administrados y serverless
escalable/elástico, disponible, confiable, seguro, baja o nula administración
Usar patrones de diseño log-centric
logs inmutables (data lake), vistas materializdas
Efectivo en costos
big data ≠ big costs
Habilitar aplicaciones para AI/ML

Gracias!

BigDataAWSArquitectura

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Similar a BigDataAWSArquitectura

Similar a BigDataAWSArquitectura (20)

Más de Amazon Web Services

Más de Amazon Web Services (20)

BigDataAWSArquitectura