SlideShare una empresa de Scribd logo
1 de 57
Descargar para leer sin conexión
© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Alberto Ortiz
Technical Account Manager
Amazon Web Services
MXO203
Patrones arquitectónicos y mejores
prácticas de Big Data en AWS
© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Que esperar de ésta sesión
Retos de Big Data
Principios de arquitectura
Como simplificar el procesamiento de Big Data
¿Qué tecnologías usar? ¿Por qué? ¿Cómo?
Arquitectura de referencia
Patrones de diseño
© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Big Data es cada vez mas grande
Volumen
Velocidad
Variedad
© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Evolución de Big Data
Procesamiento
batch
Procesamiento
de streams
Inteligencia
artificial
© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Evolución de servicios de nube
Máquinas
virtuales
Servicios
administrados
Serverless
© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Muchas herramientas
Amazon
Glacier
Amazon S3 Amazon DynamoDB
Amazon RDS
Amazon EMR
Amazon
Redshift
Amazon
Kinesis
Lambda Amazon ML
Amazon SQS
ElastiCache
Amazon DynamoDB
Streams
Amazon ES
Amazon Kinesis
Data Analytics
Amazon
QuickSight AWS Glue
© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Retos de Big Data
¿Porqué?
¿Cómo?
¿Qué herramientas
debo usar?
¿Hay una arquitectura de
referencia?
© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Principios de arquitectura
Construir sistemas desacoplados
datos → almacenar → proceso → almacenar → analizar → respuestas
Usar la herramienta correcta para el trabajo
estructura de datos, latencia, throughput, patrones de acceso
Aprovechar servicios administrados y serverless
escalable/elástico, disponible, confiable, seguro, baja o nula administración
Usar patrones de diseño log-centric
logs inmutables (data lake), vistas materializdas
Efectivo en costos
big data ≠ big costs
Habilitar aplicaciones para AI/ML
© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Procesamiento de Big Data simplificado
Recolectar Almacenar
Procesar/
Analizar
Consumir
Tiempo para responder (latencia)
Throughput
Costo
© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.
¿Cuál es la temperatura de sus datos?
© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Cracterísticas de los datos: caliente, tibio y frio
Caliente Tibio Frio
Volumen MB–GB GB–TB PB–EB
Tamaño de
elemento B–KB KB–MB KB–TB
Latencia ms ms, sec min, hrs
Durabilidad bajo–alto alta muy alta
Velocidad muy alta alta baja
Costo/GB $$-$ $-¢¢ ¢
© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Recolectar
© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Tipo de datos
Dispositivos
Sensores
Plataformas IoT
AWS IoT Streams
IoT
EventosStreams de datos
Migración
Snowball
Logging
Amazon
CloudWatch
AWS
CloudTrail
Archivos
Transporteyloggingdedatos
AWS Import/Export
Archivos
Logs
Media
Mobile apps
Web apps
Data centers AWS Direct
Connect
Registros
Aplicaciones
Transacciones
Estructuras de datos
Registros de base de datos
Recolectar
© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Almacenar
© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Tipo de datos
Dispositivos
Sensores
Plataformas IoT
AWS IoT Streams
IoT
Streams de datos
Migración
Snowball
Logging
Amazon
CloudWatch
AWS
CloudTrail
Archivos
Transporteyloggingdedatos
Import/export
Logs
Media
Mobile apps
Web apps
Data centers AWS Direct
Connect
Registros
Aplicaciones
Estructuras de datos
Registros de base de datos NoSQL
In-memory
SQL
Almacenamiento
de archivo/
objectos
Almacenamiento
de Streams
Recolectar Almacenar
© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Dispositivos
Sensores
Plataformas IoT
AWS IoT Streams
IoT
Migración
Snowball
Logging
Amazon
CloudWatch
AWS
CloudTrail
Archivos
Transporteyloggingdedatos
Import/export
Mobile apps
Web apps
Data centers AWS Direct
Connect
Registros
Aplicaciones
NoSQL
In-memory
SQL
Almacenamiento
de archivo/
objectos
Almacenamiento
de Streams
Recolectar Almacenar
© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Almacenamiento de Streams
Apache Kafka
• Plataforma distribuída de alto desempeño para
streaming
Amazon Kinesis Streams
• Almacenamiento de streams administrado
Amazon Kinesis Data Firehose
• Entrega de datos administrada
Dispositivos
Sensores
Plataformas IoT
AWS IoT Streams
IoT
Migración
Snowball
Logging
Amazon
CloudWatch
AWS
CloudTrail
Archivos
Transporteyloggingdedatos
Import/export
Mobile apps
Web apps
Data centers AWS Direct
Connect
Registros
Aplicaciones
NoSQL
In-memory
SQL
Almacenamiento
de archivo/
objectos
Recolectar Almacenar
Amazon Kinesis
Data Firehose
Amazon Kinesis
Data Streams
Apache Kafka
© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.
¿Por qué almacenamiento de streams?
Desacopla productores &
consumidores
Buffer persistente
Colección de multiples streams
Preserva órden del cliente
Consumo paralelo
Streaming MapReduce
4 4 3 3 2 2 1 1
4 3 2 1
4 3 2 1
4 3 2 1
4 3 2 1
4 4 3 3 2 2 1 1
shard 1 / partición 1
shard 2 / partición 2
Consumidor 1
Conteo de
rojo = 4
Conteo de
violeta = 4
Consumidor 2
Conteo de
azul= 4
Conteo de
verde= 4
DynamoDB stream Amazon Kinesis Data Stream Kafka topic
© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.
¿Qué hay de Amazon SQS?
• Desacopla productores y consumidores
• Buffer persistente
• Colecciona multiples streams
• Sin ordenamiento de cliente (estandard)
• FIFO preserva ordenamiento
de cliente
• Sin streaming MapReduce
• Sin consume en paralelo
• Amazon SNS puede publicar
a multiple suscriptores de
Amazon SNS (colas o funciones AWS
Lambda)
Consumidores
4 3 2 1
12344 3 2 1
1234
2134
13342
Standard
FIFO
Productores
Amazon SQS queue
Publicador
Amazon SNS
Tópico
AWS Lambda
function
Amazon SQS
queue
Queue
Suscriptor
© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.
¿Qué almacenamiento de mensajes/streams debo usar?
Caliente Tibio
Amazon
Kinesis Data
Streams
Amazon
Kinesis
Data Firehose
Apache
Kafka (en Amazon
EC2)
Amazon
SQS (Standard)
Amazon SQS
(FIFOa)
Administrado por AWS Si Si No Si Si
Garantiza ordenamiento Si No Si No Si
Entrega (desduplica) Al menos uno Al menos uno Al menos/A lo
mas/exactamente uno
Al menos uno Exactamente
uno
Período de retención 7 días N/A Configurable 14 días 14 días
Disponibilidad 3 AZ 3 AZ Configurable 3 AZ 3 AZ
Escala /
throughput
Sin límite/
~ shards
Sin límite/
automático
Sin límite/
~ nodos
Sin límite/
automático
300 TPS /
queue
Consumo paralelo Si No Si No No
Stream MapReduce Si N/A Si N/A N/A
Tamaño de
registro/objeto
1 MB Tamaño del
registro/objeto
destino
Configurable 256 KB 256 KB
Costo Bajo Bajo Bajo (+admin) Bajo-medio Bajo-medio
© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Almacenamiento de
archivos/objetos
Amazon S3
Servicio administrado de almacenamiento de
objetos construído para almacenar y recuperar
cualquier cantidad de datos
Dispositivos
Sensores
Plataformas IoT
AWS IoT Streams
IoT
Migración
Snowball
Logging
Amazon
CloudWatch
AWS
CloudTrail
Archivos
Transporteyloggingdedatos
AWS Import/Export
Mobile apps
Web apps
Data centers AWS Direct
Connect
Registros
Aplicaciones
NoSQL
In-memory
SQL
Recolectar Almacenar
Amazon Kinesis
Data Firehose
Amazon Kinesis
Data Streams
Apache Kafka
Archivos
Amazon S3
Caliente
Streams
© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Use Amazon S3 para almacenamiento persistente
• Compatible nativamente con marcos de trabajo de big data
(Spark, Hive, Presto, etc.)
• Desacopla el almacenamiento y el cómputo
• No es necesario tener clústeres para el almacenamiento (a
diferencia de HDFS)
• Puede ejecutar clústeres de Amazon EMR transitorios con
instancias Spot de Amazon EC2
• Pueden usar los mismos datos varios clústeres y servicios
• Diseñado para 99.999999999% de durabilidad
• No es necesario pagar por la replicación de datos dentro de una
región
• Seguro: SSL, encriptación cliente / servidor en reposo
• Bajo costo
© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.
¿Qué hay de HDFS y niveles de datos (tiering)?
• Use HDFS para los conjuntos de datos más calientes (por
ejemplo, lectura iterativa en los mismos conjuntos de datos)
• Utilice Amazon S3 Standard para acceso frecuente a los
datos
• Use Amazon S3 Standard - IA para datos a los que se
accede con menos frecuencia
• Use Amazon Glacier para archivar datos fríos
• Use Amazon S3 Analytics para optimizar la estrategia de
tiering
© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Cache y base de datos
Amazon ElastiCache
• Memcached o Redis administrado
Amazon DynamoDB Accelerator
(DAX)
• Cache en memoria de DynamoDB
administrado
Amazon DynamoDB
• NoSQL administrado
Amazon RDS
• Base de datos relacional administrada
Dispositivos
Sensores
Plataformas IoT
AWS IoT Streams
IoT
Migración
Snowball
Logging
Amazon
CloudWatch
AWS
CloudTrail
Archivos
Transporteyloggingdedatos
AWS Import/Export
Mobile apps
Web apps
Data centers AWS Direct
Connect
Registros
Aplicaciones Recolectar Almacenar
Amazon Kinesis
Data Firehose
Amazon Kinesis
Data Streams
Apache Kafka
Archivos
Amazon S3
Caliente
Streams
Amazon
DynamoDB
Amazon RDS
Amazon Aurora
Amazon DAX
Amazon ElastiCache
SQLNoSQLCache
© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Anti-patrón
Capa de Datos
© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Mejor práctica: usar la herramienta adecuada para el
trabajo
SearchIn-memory SQLNoSQL
Capa de Datos
GraphDB
Amazon RDS/Amazon AuroraAmazon DynamoDBAmazon ElastiCache Amazon
DynamoDB
Accelerator
SAP HANA
Amazon ES Amazon
CloudSearch
© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Vistas materializadas y logs inmutables
Vista de
cache
Vista de
búsqueda
Log inmutable
© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.
¿Qué almacén de datos debo usar?
Estructura de datos → Esquema-fijo, JSON, Llave / Valor
Patrones de acceso → Almacenar datos en el formato como
será accedido
Características de los datos → Caliente, tibio, frío
Costo → Costo adecuado
© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Estructura de datos y patrones de acceso
Patrones de acceso ¿Qué usar?
Put/Get (llave, valore) In-memory, NoSQL
Relaciones simples → 1:N, M:N NoSQL
Joins muti-tabla, transacciones,
SQL
SQL
Faceting, Búsqueda Search
Recorrido de grafos GraphDB
Estructura de datos ¿Qué usar?
Esquema fijo SQL, NoSQL
Esquema libre
(JSON)
NoSQL, Search
Llave/Valor In-memory, NoSQL
Grafo GraphDB
© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.
In-memory
SQL
Velocidad de peticiones
Alto Bajo
Costo/GB
Alto Bajo
Latencia
Bajo Alto
Volumen de datos
Bajo Alto
Amazon
Glacier
Estructura
NoSQL
Caliente Frío
Baja
Alta
© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.
¿Qué almacén de datos debo usar?
Amazon
ElastiCache
DynamoDB
Accelerator
(DAX)
Amazon
DynamoDB
Amazon
RDS (Aurora)
Amazon ES Amazon S3
Amazon
Glacier
Latencia
promedio
µs-ms µs-ms ms ms, sec ms,sec ms,sec,min
(~ size)
hrs
Volumen
típico
GB GB GB–TBs
(sin límite)
GB–TB
(64 TB max)
GB–TB MB–PB
(sin límite)
GB–PB
(sin límite)
Tamaño
típico por
elemento
B-KB KB
(400 KB max)
KB
(400 KB max)
KB
(64 KB max)
B-KB
(2 GB max)
KB-TB
(5 TB max)
GB
(40 TB max)
Ritmo de
peticiones
alto – muy
alto
alto – muy alto muy alto
(sin límite)
alto alto bajo – alto
(sin límite)
muy bajo
Costo
GB/mes
$$ $$ ¢¢ ¢¢ ¢¢ ¢ ¢4/10
Durabilidad bajo -
moderado
NA muy alto muy alto alto muy alto muy alto
Disponibilidad alto
2 AZ
alto
3 AZ
muy alto
3 AZ
muy alto
3 AZ
alto
2 AZ
muy alto
3 AZ
muy alto
3 AZ
Caliente Frío
© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Diseño para reducir costo
Ejemplo: ¿Debo usar Amazon S3 o Amazon DynamoDB?
“Estoy dimensionando un proyecto. Se piden archivos muy
pequeños, hasta mil millones. El tamaño total estará en el
órden de 1.5 TB al mes ... ”
Ritmo de
peticiones
(escritura/seg)
Tamaño de
objeto
(Bytes)
Tamaño total
(GB/mes)
Objetos por mes
300 2048 1483 777,600,000
© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.
¿Amazon S3 o Amazon DynamoDB?
https://calculator.s3.amazonaws.com/index.html
Ritmo de
peticiones
(escritura/seg)
Tamaño de
objeto
(bytes)
Tamaño total
(GB/mes)
Objetos por
mes
300 2048 1483 777,600,000
© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Amazon S3 o
Amazon DynamoDB
Amazon S3
Wins!
300 23,730 777,600,00032,768
Amazon DynamoDB
Wins!
Request rate
(writes/sec)
Object size
(bytes)
Total size
(GB/month)
Objectsper
month
300 2,048 1,483 777,600,000
Escenario 2
Escenario 1
Amazon S3 Standard
Storage $34
Put/list requests $3,888
Total $3,922
Amazon DynamoDB
Provisioned throughput $273
Indexed data storage $383
Total $656
Amazon S3 Standard
Storage $545
Put/List Requests $3,888
Total $4,433
Amazon DynamoDB
Provisioned Throughput $4,556
Indexed Data Storage $5,944
Total $10,500
© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Procesar/
Analizar
© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Analítica predictiva
Servicios impulsados por API
• Amazon Lex - Reconocimiento de voz
• Amazon Polly - Texto a voz
• Amazon Rekognition - Análisis de imágenes
• Amazon Transcribe/Translate
• Amazon Comprehend
Plataformas administradas de ML
• Amazon ML
• Apache Spark ML en Amazon EMR
• Amazon SageMaker
AWS Deep Learning AMI
• Preinstalado con MXNet, TensorFlow, Caffe2 (y
Caffe), Theano, Torch, Microsoft Cognitive Toolkit y
Keras; además de herramientas / drivers DL
Predictiva
AmazonAI
Lex PollyAML Rekognition
AWS DL AMI
Amazon AI
Desarrolladores
Científicos de datos
Expertos
en deep learning
Procesar/
Analizar
© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Analítica interactiva y batch
Amazon ES
• Servicio administrado para Elasticsearch
Amazon Redshift y Amazon Redshift Spectrum
• Data warehouse administrado
• Spectrum permite consultar Amazon S3
Amazon Athena
• Servicio de consulta interactiva serverless
Amazon EMR
• Hadoop administrado para ejecutar Apache
Spark, Flink, Presto, Tez, Hive, Pig, HBase, etc.
Procesar/
Analizar
Amazon Redshift
Spectrum
Amazon Athena
BatchInteractivo
Amazon ES
Presto
Amazon
EMR
© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Analítica de stream/tiempo-real
Spark Streaming en Amazon EMR
Amazon Kinesis Data Analytics
• Servicio administrado para ejecutar SQL en
la transmisión de datos
KCL de Amazon
• Amazon Kinesis Client Library
AWS Lambda
• Ejecutar código sin servidor (sin
aprovisionar o administrar servidores)
• Servicios como Amazon S3 pueden
publicar eventos en Lambda
• Lambda puede agrupar eventos de Kinesis KCL
Apps
AWS Lambda
Amazon Kinesis
Data Analytics
Stream
Streaming
Amazon EMR
Procesar/
Analizar
© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.
¿Qué tipo de analítica debo usar?
Batch
• Toma minutos a horas
• Ejemplo: reportes diarios / semanales / mensuales
• Amazon EMR (MapReduce, Hive, Pig, Spark)
Interactivo
• Toma segundos
• Ejemplo: tablero de autoservicio
• Amazon Redshift, Amazon Athena, Amazon EMR (Presto, Spark)
Stream
• Toma milisegundos a segundos
• Ejemplo: alertas de fraude, métricas de 1 minuto
• Amazon EMR (Spark Streaming), Amazon Kinesis Data Analytics, KCL,
AWS Lambda, etc.
Predictivo
• Toma milisegundos (tiempo real) a minutos (batch)
• Ejemplo: detección de fraude, predicción de demanda, reconocimiento de
voz
• Amazon AI (Lex, Polly, ML, Amazon Rekognition), Amazon EMR (Spark
ML), Deep Learning AMI (MXNet, TensorFlow, Theano, Torch, CNTK y
Caffe)
Streaming
Amazon Kinesis Data
Analytics
KCL
Apps
AWS Lambda
Stream
Amazon EMR
Rápido
Amazon ES
Amazon Redshift
Spectrum
Presto
Amazon
EMR
Amazon Athena
BatchIneractivo
RápidoLento
Predictivo
AmazonAI
Lex PollyAML Rekognition
AWS DL AMI
Procesar/
Analizar
© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.
¿Qué tecnología de procesamiento de streams debo
usar? Amazon EMR
(Spark
Streaming)
KCL Application Amazon Kinesis
Data Analytics
AWS Lambda
Servicio
administrado
si No (EC2 + Auto
Scaling)
si si
Serverless No No si si
Escala/Throughput Sin límites /
~ nodes
Sin límites /
~ nodes
Sin límites /
automático
Sin límites /
automático
Disponibilidad Single AZ Multi-AZ Multi-AZ Multi-AZ
Lenguajes Java, Python,
Scala
Java, others via
MultiLangDaemon
ANSI SQL con
extensiones
Node.js, Java, Python
Función de ventana
deslizable
Built-in Implementado en
aplicación
Built-in No
Confiabilidad KCL y Spark
checkpoints
Manejado por KCL Manejado por
Kinesis Data
Analytics
Manejado por AWS Lambda
© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.
¿Qué herramienta para analítica debo usar?
Amazon Redshift Amazon Redshift
Spectrum
Amazon Athena Amazon EMR
Presto Spark Hive
Caso de uso Optimizado para
datawarehouse
Consulta Amazon
S3 desde Amazon
Redshift
Consultas
interactivas sobre
Amazon S3
Consultas
interactiva
Propósito
general
Batch
Escala/Throughput ~Nodos ~Nodos Automático ~ Nodos
Servicio administrado si si si, serverless si
Almacenamiento local Amazon S3 Amazon S3 Amazon S3, HDFS
Optimización Columnar,
compresión, y zone
maps
AVRO, PARQUET
TEXT, SEQ
RCFILE, ORC, etc.
AVRO, PARQUET
TEXT, SEQ
RCFILE, ORC, etc.
Depende del framework
Metadata Amazon Redshift
Catalog
AWS Glue Catalog AWS Glue Catalog Glue Catalog or
Hive Meta-store
Autorización/control
de acceso
IAM, usuarios,
grupos, y control de
acceso
IAM, usuarios,
grupos, y control de
acceso
IAM IAM, LDAP & Kerberos
Soporte a UDF si (Scalar) si (Scalar) No si
Lento
© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.
¿Qué hay de ETL?
ETLSTORE PROCESS / ANALYZE
Data Integration Partners
Reduce el esfuerzo de mover, limpiar, sincronizar,
administrar y automatizar procesos de datos.
AWS Glue es un ETL administrado y serverless, que hace
simple y efectivo en costo la categorización de sus datos,
limpieza, enriquecimiento y movimiento, de manera confiable
y entre varios almacenes de datos.
Data Catalog Job Authoring Job Execution
AWS Glue
© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Streaming
Amazon Kinesis Data
Analytics
KCL
Apps
AWS Lambda
Stream
Amazon EMR
Rápido
Amazon ES
Amazon Redshift
& Amazon Redshift
Spectrum
Presto
Amazon
EMR
Amazon Athena
BatchIneractivo
RápidoLento
Predictivo
AmazonAI
Lex PollyAML Rekognition
AWS DL AMI
Procesar/
Analizar
Dispositivos
Sensores
Plataformas IoT
AWS IoT Streams
IoT
Migración
Snowball
Logging
Amazon
CloudWatch
AWS
CloudTrail
Archivos
Transporteyloggingdedatos
AWS Import/Export
Mobile apps
Web apps
Data centers AWS Direct
Connect
Registros
Aplicaciones Recolectar Almacenar
Amazon Kinesis
Data Firehose
Amazon Kinesis
Data Streams
Apache Kafka
Archivos
Amazon S3
Caliente
Streams
Amazon
DynamoDB
Amazon RDS
Amazon Aurora
Amazon DAX
Amazon ElastiCache
SQLNoSQLCache
CalienteTibio
ETL
Consumir
© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Consumir
© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Procesar/
Analizar
Recolectar Almacenar ETL
Consumir
Predictivo
AmazonAI
Lex PollyAML Rekognition
AWS DL AMI
Modelo
Entrenar/
Evaluar
Modelo
s
Desplegar
Cienciade
Datos
AI Apps
Amazon ECS
Apps
AWS Greengrass
Amazon
QuickSight
AnálisisyVisualización
Usuarios de
negocio
DevOps
Científicos de datos
• Aplicaciones BI/AI
• Amazon EC2 o
Amazon ECS
Containers
• AWS Greengrass
• Ciencia de Datos
• Notebooks
• DS Platforms
• IDEs
• Análisis y Visualización
• Amazon QuickSight
• Tableau
• Etc.
© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Poniendolo todo junto
© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Procesar/
Analizar
Recolectar Almacenar ETL Consumir
Modelo
Entrenar/
Evaluar
Modelo
s
Desplegar
CienciadeDatos
AI Apps
Amazon ECS
Apps
AWS Greengrass
Amazon
QuickSight
AnálisisyVisualización
Streaming
Amazon Kinesis Data
Analytics
KCL
Apps
AWS Lambda
Stream
Amazon EMR
Rápido
Amazon ES
Amazon Redshift
& Amazon Redshift
Spectrum
Presto
Amazon
EMR
Amazon Athena
BatchIneractivo
RápidoLento
Predictivo
AmazonAI
Lex PollyAML Rekognition
AWS DL AMI
Dispositivos
Sensores
Plataformas IoT
AWS IoT Streams
IoT
Migración
Snowball
Logging
Amazon
CloudWatch
AWS
CloudTrail
Archivos
Transporteyloggingdedatos
AWS Import/Export
Mobile apps
Web apps
Data centers AWS Direct
Connect
Registros
Aplicaciones
Amazon Kinesis
Data Firehose
Amazon Kinesis
Data Streams
Apache Kafka
Archivos
Amazon S3
Caliente
Streams
Amazon
DynamoDB
Amazon RDS
Amazon Aurora
Amazon DAX
Amazon ElastiCache
SQLNoSQLCache
CalienteTibio
© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Patrones de diseño
© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Spark Streaming
AWS Lambda
KCL apps
Amazon
Redshift
Amazon
Redshift
Hive
Spark
Presto
TecnologíadeProcesamiento
RápidoLento
Respuestas
Hive
Native apps
KCL apps
AWS Lambda
Amazon
Athena
Amazon Kinesis Amazon
DynamoDB/RDS
Amazon S3Data
Caliente Frío
Almacén de datos
© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Analítica en Tiempo Real
Amazon EMR
KCL app
AWS Lambda
Spark
Streaming
Amazon
AI
Predicción en tiempo-real
Amazon
ElastiCache
(Redis)
Amazon
DynamoDB
Amazon
RDS
Amazon
ES
Estado de
aplicación o
vista
materializada
KPI
procesamiento
almacenamiento
Amazon
Kinesis
Amazon Kinesis
Data Analytics
Amazon
SNS NotificationesAlertas
Amazon
S3
Log
Amazon
KinesisFan out Downstream
© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Analítica
Interactiva
y Batch
procesamiento
almacenamiento Batch
Interactivo
Amazon EMR
Hive
Pig
Spark
Amazon
AI
Predicción batch
Predicción en tiempo-real
Amazon S3
Archivos
Amazon
Kinesis
Data Firehose
Amazon Kinesis
Data Analytics
Amazon Redshift
Amazon ES
Consumo
Amazon EMR
Presto
Spark
Amazon Athena
© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Tiempo-real
Estado aplicativo o
vista materializada
Interactivo
y batch
Data lake
Amazon S3
Amazon Redshift
Amazon EMR
Presto
Hive
Pig
Spark
Amazon
ElastiCache
Amazon
DynamoDB
Amazon
RDS
Amazon
ES
AWS Lambda
Spark Streaming
on Amazon EMR
Aplicaciones
Amazon
Kinesis
KCL
Amazon
AI
Amazon
DynamoDB
Amazon
RDS
Change Data
Capture or Export
Transacciones
Stream
Archivos
Amazon Kinesis
Data Analytics
Amazon Athena
Amazon
Kinesis
Data Firehose
Amazon ES
© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.
¿Qué hay de la metadata?
AWS Glue Catalog
• Compatible con Hive Metastore
• Crawlers – Detecta nuevos datos, esquemas y particiones
• Compatible con Amazon Athena, Amazon EMR, y Amazon Redshift
Spectrum
Hive Metastore (Presto, Spark, Hive, Pig)
• Puede alojarse en una Amazon RDS
Metadata
Metastore Amazon RDS
AWS Glue
Catalog AWS Glue
© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Seguridad y Gobernanza
• AWS Identity and Access Management (IAM)
• Amazon Cognito
• Amazon CloudWatch & AWS CloudTrail
• AWS KMS
• AWS Directory Service
• Apache Ranger
Seguridad y
Gobernanza IAM Amazon
CloudWatch
AWS
CloudTrail
AWSKMS AWS
CloudHSM
AWS Directory
Service
Amazon
Cognito
© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Resumen
Arquitectura de
Referencia de un
Data lake
© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Resumen
Construir sistemas desacoplados
datos → almacenar → proceso → almacenar → analizar → respuestas
Usar la herramienta correcta para el trabajo
estructura de datos, latencia, throughput, patrones de acceso
Aprovechar servicios administrados y serverless
escalable/elástico, disponible, confiable, seguro, baja o nula administración
Usar patrones de diseño log-centric
logs inmutables (data lake), vistas materializdas
Efectivo en costos
big data ≠ big costs
Habilitar aplicaciones para AI/ML
© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Gracias!

Más contenido relacionado

La actualidad más candente

Un Voyage dans le Cloud: Qu'est-ce que AWS?
Un Voyage dans le Cloud: Qu'est-ce que AWS?Un Voyage dans le Cloud: Qu'est-ce que AWS?
Un Voyage dans le Cloud: Qu'est-ce que AWS?Amazon Web Services
 
Scaling up to Your First 10 Million Users
Scaling up to Your First 10 Million UsersScaling up to Your First 10 Million Users
Scaling up to Your First 10 Million UsersAmazon Web Services
 
cloud-POS-reference-architecture.pdf
cloud-POS-reference-architecture.pdfcloud-POS-reference-architecture.pdf
cloud-POS-reference-architecture.pdfsaurabhnolakha2
 
Building the business case for AWS
Building the business case for AWSBuilding the business case for AWS
Building the business case for AWSAmazon Web Services
 
Los beneficios de migrar sus cargas de trabajo de big data a AWS
Los beneficios de migrar sus cargas de trabajo de big data a AWSLos beneficios de migrar sus cargas de trabajo de big data a AWS
Los beneficios de migrar sus cargas de trabajo de big data a AWSAmazon Web Services LATAM
 
Cloud Operating Models for Accelerated Cloud Transformation - AWS Summit Sydney
Cloud Operating Models for Accelerated Cloud Transformation - AWS Summit SydneyCloud Operating Models for Accelerated Cloud Transformation - AWS Summit Sydney
Cloud Operating Models for Accelerated Cloud Transformation - AWS Summit SydneyAmazon Web Services
 
Patrones de Arquitectura para Big Data en AWS
Patrones de Arquitectura para Big Data en AWSPatrones de Arquitectura para Big Data en AWS
Patrones de Arquitectura para Big Data en AWSAmazon Web Services LATAM
 
Data Warehouse Best Practices
Data Warehouse Best PracticesData Warehouse Best Practices
Data Warehouse Best PracticesEduardo Castro
 
Big Data Architectural Patterns and Best Practices
Big Data Architectural Patterns and Best PracticesBig Data Architectural Patterns and Best Practices
Big Data Architectural Patterns and Best PracticesAmazon Web Services
 
Introducing Cloudflare Workers
Introducing Cloudflare WorkersIntroducing Cloudflare Workers
Introducing Cloudflare WorkersMeghan Weinreich
 
Building event-driven (Micro)Services with Apache Kafka
Building event-driven (Micro)Services with Apache KafkaBuilding event-driven (Micro)Services with Apache Kafka
Building event-driven (Micro)Services with Apache KafkaGuido Schmutz
 
Deep Dive on Amazon S3 - AWS Online Tech Talks
Deep Dive on Amazon S3 - AWS Online Tech TalksDeep Dive on Amazon S3 - AWS Online Tech Talks
Deep Dive on Amazon S3 - AWS Online Tech TalksAmazon Web Services
 

La actualidad más candente (20)

Un Voyage dans le Cloud: Qu'est-ce que AWS?
Un Voyage dans le Cloud: Qu'est-ce que AWS?Un Voyage dans le Cloud: Qu'est-ce que AWS?
Un Voyage dans le Cloud: Qu'est-ce que AWS?
 
Scaling up to Your First 10 Million Users
Scaling up to Your First 10 Million UsersScaling up to Your First 10 Million Users
Scaling up to Your First 10 Million Users
 
cloud-POS-reference-architecture.pdf
cloud-POS-reference-architecture.pdfcloud-POS-reference-architecture.pdf
cloud-POS-reference-architecture.pdf
 
Application Migrations
Application MigrationsApplication Migrations
Application Migrations
 
Building the business case for AWS
Building the business case for AWSBuilding the business case for AWS
Building the business case for AWS
 
Aws certified solutions architect
Aws certified solutions architectAws certified solutions architect
Aws certified solutions architect
 
Los beneficios de migrar sus cargas de trabajo de big data a AWS
Los beneficios de migrar sus cargas de trabajo de big data a AWSLos beneficios de migrar sus cargas de trabajo de big data a AWS
Los beneficios de migrar sus cargas de trabajo de big data a AWS
 
Construyendo un data lake en la nube aws
Construyendo un data lake en la nube awsConstruyendo un data lake en la nube aws
Construyendo un data lake en la nube aws
 
Improve IT Operations
Improve IT OperationsImprove IT Operations
Improve IT Operations
 
Cloud Operating Models for Accelerated Cloud Transformation - AWS Summit Sydney
Cloud Operating Models for Accelerated Cloud Transformation - AWS Summit SydneyCloud Operating Models for Accelerated Cloud Transformation - AWS Summit Sydney
Cloud Operating Models for Accelerated Cloud Transformation - AWS Summit Sydney
 
Itil telefonica
Itil telefonicaItil telefonica
Itil telefonica
 
AWS Security and SecOps
AWS Security and SecOpsAWS Security and SecOps
AWS Security and SecOps
 
Td devops itil4
Td devops itil4Td devops itil4
Td devops itil4
 
Patrones de Arquitectura para Big Data en AWS
Patrones de Arquitectura para Big Data en AWSPatrones de Arquitectura para Big Data en AWS
Patrones de Arquitectura para Big Data en AWS
 
Data Warehouse Best Practices
Data Warehouse Best PracticesData Warehouse Best Practices
Data Warehouse Best Practices
 
Big Data Architectural Patterns and Best Practices
Big Data Architectural Patterns and Best PracticesBig Data Architectural Patterns and Best Practices
Big Data Architectural Patterns and Best Practices
 
Construindo seu Data Lake na AWS
Construindo seu Data Lake na AWSConstruindo seu Data Lake na AWS
Construindo seu Data Lake na AWS
 
Introducing Cloudflare Workers
Introducing Cloudflare WorkersIntroducing Cloudflare Workers
Introducing Cloudflare Workers
 
Building event-driven (Micro)Services with Apache Kafka
Building event-driven (Micro)Services with Apache KafkaBuilding event-driven (Micro)Services with Apache Kafka
Building event-driven (Micro)Services with Apache Kafka
 
Deep Dive on Amazon S3 - AWS Online Tech Talks
Deep Dive on Amazon S3 - AWS Online Tech TalksDeep Dive on Amazon S3 - AWS Online Tech Talks
Deep Dive on Amazon S3 - AWS Online Tech Talks
 

Similar a BigDataAWSArquitectura

Generación de lagos de datos y analítica sobre AWS - MXO204 - Mexico City Summit
Generación de lagos de datos y analítica sobre AWS - MXO204 - Mexico City SummitGeneración de lagos de datos y analítica sobre AWS - MXO204 - Mexico City Summit
Generación de lagos de datos y analítica sobre AWS - MXO204 - Mexico City SummitAmazon Web Services
 
AWS Initiate Day Mexico City | Building Data Lakes & Analytics on AWS
AWS Initiate Day Mexico City | Building Data Lakes & Analytics on AWSAWS Initiate Day Mexico City | Building Data Lakes & Analytics on AWS
AWS Initiate Day Mexico City | Building Data Lakes & Analytics on AWSAmazon Web Services LATAM
 
Arquitecturas Serverless con IoT, Machine Learning y Asistentes de Voz
Arquitecturas Serverless con IoT, Machine Learning y Asistentes de VozArquitecturas Serverless con IoT, Machine Learning y Asistentes de Voz
Arquitecturas Serverless con IoT, Machine Learning y Asistentes de VozAmazon Web Services LATAM
 
AWS Summits América Latina 2015 Arquitecturas y mejores practicas de Big Dat...
 AWS Summits América Latina 2015 Arquitecturas y mejores practicas de Big Dat... AWS Summits América Latina 2015 Arquitecturas y mejores practicas de Big Dat...
AWS Summits América Latina 2015 Arquitecturas y mejores practicas de Big Dat...Amazon Web Services LATAM
 
AWS Summit Bogotá Track Avanzado: Arquitecturas y mejores practicas de big da...
AWS Summit Bogotá Track Avanzado: Arquitecturas y mejores practicas de big da...AWS Summit Bogotá Track Avanzado: Arquitecturas y mejores practicas de big da...
AWS Summit Bogotá Track Avanzado: Arquitecturas y mejores practicas de big da...Amazon Web Services
 
¿Qué base de datos usar y cuándo? - MXO206 - Mexico City Summit
¿Qué base de datos usar y cuándo? - MXO206 - Mexico City Summit¿Qué base de datos usar y cuándo? - MXO206 - Mexico City Summit
¿Qué base de datos usar y cuándo? - MXO206 - Mexico City SummitAmazon Web Services
 
Cómputo de usuario final en AWS con Amazon WorkSpaces y Amazon AppStream - MX...
Cómputo de usuario final en AWS con Amazon WorkSpaces y Amazon AppStream - MX...Cómputo de usuario final en AWS con Amazon WorkSpaces y Amazon AppStream - MX...
Cómputo de usuario final en AWS con Amazon WorkSpaces y Amazon AppStream - MX...Amazon Web Services
 
Arquitecturas y estrategias para generar aplicaciones modernas en AWS - MXO20...
Arquitecturas y estrategias para generar aplicaciones modernas en AWS - MXO20...Arquitecturas y estrategias para generar aplicaciones modernas en AWS - MXO20...
Arquitecturas y estrategias para generar aplicaciones modernas en AWS - MXO20...Amazon Web Services
 
Reinvención de SAP en AWS: Mejorar y simplificar las operaciones SAP en AWS -...
Reinvención de SAP en AWS: Mejorar y simplificar las operaciones SAP en AWS -...Reinvención de SAP en AWS: Mejorar y simplificar las operaciones SAP en AWS -...
Reinvención de SAP en AWS: Mejorar y simplificar las operaciones SAP en AWS -...Amazon Web Services
 
AnalyticZ - De la A a la Z con Amazon Web Services
AnalyticZ - De la A a la Z con Amazon Web ServicesAnalyticZ - De la A a la Z con Amazon Web Services
AnalyticZ - De la A a la Z con Amazon Web ServicesAmazon Web Services LATAM
 
Building and governing modern data lakes and data warehouses - ADB201 - Mexic...
Building and governing modern data lakes and data warehouses - ADB201 - Mexic...Building and governing modern data lakes and data warehouses - ADB201 - Mexic...
Building and governing modern data lakes and data warehouses - ADB201 - Mexic...Amazon Web Services
 
Construyendo aplicaciones de Big Data en AWS
Construyendo aplicaciones de Big Data en AWSConstruyendo aplicaciones de Big Data en AWS
Construyendo aplicaciones de Big Data en AWSAmazon Web Services LATAM
 
Construyendo aplicaciones de Big Data en AWS
Construyendo aplicaciones de Big Data en AWSConstruyendo aplicaciones de Big Data en AWS
Construyendo aplicaciones de Big Data en AWSAmazon Web Services LATAM
 
Big Data: Arquitectura y mejores prácticas en AWS
Big Data: Arquitectura y mejores prácticas en AWSBig Data: Arquitectura y mejores prácticas en AWS
Big Data: Arquitectura y mejores prácticas en AWSAmazon Web Services LATAM
 
AWS Initiate Day Mexico City | Big Data y AI - Impulsando la información y ag...
AWS Initiate Day Mexico City | Big Data y AI - Impulsando la información y ag...AWS Initiate Day Mexico City | Big Data y AI - Impulsando la información y ag...
AWS Initiate Day Mexico City | Big Data y AI - Impulsando la información y ag...Amazon Web Services LATAM
 
Construyendo aplicaciones de Big Data en AWS
Construyendo aplicaciones de Big Data en AWSConstruyendo aplicaciones de Big Data en AWS
Construyendo aplicaciones de Big Data en AWSAmazon Web Services LATAM
 

Similar a BigDataAWSArquitectura (20)

Generación de lagos de datos y analítica sobre AWS - MXO204 - Mexico City Summit
Generación de lagos de datos y analítica sobre AWS - MXO204 - Mexico City SummitGeneración de lagos de datos y analítica sobre AWS - MXO204 - Mexico City Summit
Generación de lagos de datos y analítica sobre AWS - MXO204 - Mexico City Summit
 
Innovación Amazon
Innovación AmazonInnovación Amazon
Innovación Amazon
 
AWS Initiate Day Mexico City | Building Data Lakes & Analytics on AWS
AWS Initiate Day Mexico City | Building Data Lakes & Analytics on AWSAWS Initiate Day Mexico City | Building Data Lakes & Analytics on AWS
AWS Initiate Day Mexico City | Building Data Lakes & Analytics on AWS
 
Arquitecturas Serverless con IoT, Machine Learning y Asistentes de Voz
Arquitecturas Serverless con IoT, Machine Learning y Asistentes de VozArquitecturas Serverless con IoT, Machine Learning y Asistentes de Voz
Arquitecturas Serverless con IoT, Machine Learning y Asistentes de Voz
 
AWS Database Day - Español
AWS Database Day - EspañolAWS Database Day - Español
AWS Database Day - Español
 
AWS Summits América Latina 2015 Arquitecturas y mejores practicas de Big Dat...
 AWS Summits América Latina 2015 Arquitecturas y mejores practicas de Big Dat... AWS Summits América Latina 2015 Arquitecturas y mejores practicas de Big Dat...
AWS Summits América Latina 2015 Arquitecturas y mejores practicas de Big Dat...
 
AWS Summit Bogotá Track Avanzado: Arquitecturas y mejores practicas de big da...
AWS Summit Bogotá Track Avanzado: Arquitecturas y mejores practicas de big da...AWS Summit Bogotá Track Avanzado: Arquitecturas y mejores practicas de big da...
AWS Summit Bogotá Track Avanzado: Arquitecturas y mejores practicas de big da...
 
¿Qué base de datos usar y cuándo? - MXO206 - Mexico City Summit
¿Qué base de datos usar y cuándo? - MXO206 - Mexico City Summit¿Qué base de datos usar y cuándo? - MXO206 - Mexico City Summit
¿Qué base de datos usar y cuándo? - MXO206 - Mexico City Summit
 
Cómputo de usuario final en AWS con Amazon WorkSpaces y Amazon AppStream - MX...
Cómputo de usuario final en AWS con Amazon WorkSpaces y Amazon AppStream - MX...Cómputo de usuario final en AWS con Amazon WorkSpaces y Amazon AppStream - MX...
Cómputo de usuario final en AWS con Amazon WorkSpaces y Amazon AppStream - MX...
 
Arquitecturas y estrategias para generar aplicaciones modernas en AWS - MXO20...
Arquitecturas y estrategias para generar aplicaciones modernas en AWS - MXO20...Arquitecturas y estrategias para generar aplicaciones modernas en AWS - MXO20...
Arquitecturas y estrategias para generar aplicaciones modernas en AWS - MXO20...
 
Reinvención de SAP en AWS: Mejorar y simplificar las operaciones SAP en AWS -...
Reinvención de SAP en AWS: Mejorar y simplificar las operaciones SAP en AWS -...Reinvención de SAP en AWS: Mejorar y simplificar las operaciones SAP en AWS -...
Reinvención de SAP en AWS: Mejorar y simplificar las operaciones SAP en AWS -...
 
AWS Summit Lima 2015: Key Note Presentation
AWS Summit Lima 2015: Key Note PresentationAWS Summit Lima 2015: Key Note Presentation
AWS Summit Lima 2015: Key Note Presentation
 
[Webinar] AWS Storage Day - Español
[Webinar] AWS Storage Day - Español[Webinar] AWS Storage Day - Español
[Webinar] AWS Storage Day - Español
 
AnalyticZ - De la A a la Z con Amazon Web Services
AnalyticZ - De la A a la Z con Amazon Web ServicesAnalyticZ - De la A a la Z con Amazon Web Services
AnalyticZ - De la A a la Z con Amazon Web Services
 
Building and governing modern data lakes and data warehouses - ADB201 - Mexic...
Building and governing modern data lakes and data warehouses - ADB201 - Mexic...Building and governing modern data lakes and data warehouses - ADB201 - Mexic...
Building and governing modern data lakes and data warehouses - ADB201 - Mexic...
 
Construyendo aplicaciones de Big Data en AWS
Construyendo aplicaciones de Big Data en AWSConstruyendo aplicaciones de Big Data en AWS
Construyendo aplicaciones de Big Data en AWS
 
Construyendo aplicaciones de Big Data en AWS
Construyendo aplicaciones de Big Data en AWSConstruyendo aplicaciones de Big Data en AWS
Construyendo aplicaciones de Big Data en AWS
 
Big Data: Arquitectura y mejores prácticas en AWS
Big Data: Arquitectura y mejores prácticas en AWSBig Data: Arquitectura y mejores prácticas en AWS
Big Data: Arquitectura y mejores prácticas en AWS
 
AWS Initiate Day Mexico City | Big Data y AI - Impulsando la información y ag...
AWS Initiate Day Mexico City | Big Data y AI - Impulsando la información y ag...AWS Initiate Day Mexico City | Big Data y AI - Impulsando la información y ag...
AWS Initiate Day Mexico City | Big Data y AI - Impulsando la información y ag...
 
Construyendo aplicaciones de Big Data en AWS
Construyendo aplicaciones de Big Data en AWSConstruyendo aplicaciones de Big Data en AWS
Construyendo aplicaciones de Big Data en AWS
 

Más de Amazon Web Services

Come costruire servizi di Forecasting sfruttando algoritmi di ML e deep learn...
Come costruire servizi di Forecasting sfruttando algoritmi di ML e deep learn...Come costruire servizi di Forecasting sfruttando algoritmi di ML e deep learn...
Come costruire servizi di Forecasting sfruttando algoritmi di ML e deep learn...Amazon Web Services
 
Big Data per le Startup: come creare applicazioni Big Data in modalità Server...
Big Data per le Startup: come creare applicazioni Big Data in modalità Server...Big Data per le Startup: come creare applicazioni Big Data in modalità Server...
Big Data per le Startup: come creare applicazioni Big Data in modalità Server...Amazon Web Services
 
Esegui pod serverless con Amazon EKS e AWS Fargate
Esegui pod serverless con Amazon EKS e AWS FargateEsegui pod serverless con Amazon EKS e AWS Fargate
Esegui pod serverless con Amazon EKS e AWS FargateAmazon Web Services
 
Costruire Applicazioni Moderne con AWS
Costruire Applicazioni Moderne con AWSCostruire Applicazioni Moderne con AWS
Costruire Applicazioni Moderne con AWSAmazon Web Services
 
Come spendere fino al 90% in meno con i container e le istanze spot
Come spendere fino al 90% in meno con i container e le istanze spot Come spendere fino al 90% in meno con i container e le istanze spot
Come spendere fino al 90% in meno con i container e le istanze spot Amazon Web Services
 
Rendi unica l’offerta della tua startup sul mercato con i servizi Machine Lea...
Rendi unica l’offerta della tua startup sul mercato con i servizi Machine Lea...Rendi unica l’offerta della tua startup sul mercato con i servizi Machine Lea...
Rendi unica l’offerta della tua startup sul mercato con i servizi Machine Lea...Amazon Web Services
 
OpsWorks Configuration Management: automatizza la gestione e i deployment del...
OpsWorks Configuration Management: automatizza la gestione e i deployment del...OpsWorks Configuration Management: automatizza la gestione e i deployment del...
OpsWorks Configuration Management: automatizza la gestione e i deployment del...Amazon Web Services
 
Microsoft Active Directory su AWS per supportare i tuoi Windows Workloads
Microsoft Active Directory su AWS per supportare i tuoi Windows WorkloadsMicrosoft Active Directory su AWS per supportare i tuoi Windows Workloads
Microsoft Active Directory su AWS per supportare i tuoi Windows WorkloadsAmazon Web Services
 
Database Oracle e VMware Cloud on AWS i miti da sfatare
Database Oracle e VMware Cloud on AWS i miti da sfatareDatabase Oracle e VMware Cloud on AWS i miti da sfatare
Database Oracle e VMware Cloud on AWS i miti da sfatareAmazon Web Services
 
Crea la tua prima serverless ledger-based app con QLDB e NodeJS
Crea la tua prima serverless ledger-based app con QLDB e NodeJSCrea la tua prima serverless ledger-based app con QLDB e NodeJS
Crea la tua prima serverless ledger-based app con QLDB e NodeJSAmazon Web Services
 
API moderne real-time per applicazioni mobili e web
API moderne real-time per applicazioni mobili e webAPI moderne real-time per applicazioni mobili e web
API moderne real-time per applicazioni mobili e webAmazon Web Services
 
Database Oracle e VMware Cloud™ on AWS: i miti da sfatare
Database Oracle e VMware Cloud™ on AWS: i miti da sfatareDatabase Oracle e VMware Cloud™ on AWS: i miti da sfatare
Database Oracle e VMware Cloud™ on AWS: i miti da sfatareAmazon Web Services
 
Tools for building your MVP on AWS
Tools for building your MVP on AWSTools for building your MVP on AWS
Tools for building your MVP on AWSAmazon Web Services
 
How to Build a Winning Pitch Deck
How to Build a Winning Pitch DeckHow to Build a Winning Pitch Deck
How to Build a Winning Pitch DeckAmazon Web Services
 
Building a web application without servers
Building a web application without serversBuilding a web application without servers
Building a web application without serversAmazon Web Services
 
AWS_HK_StartupDay_Building Interactive websites while automating for efficien...
AWS_HK_StartupDay_Building Interactive websites while automating for efficien...AWS_HK_StartupDay_Building Interactive websites while automating for efficien...
AWS_HK_StartupDay_Building Interactive websites while automating for efficien...Amazon Web Services
 
Introduzione a Amazon Elastic Container Service
Introduzione a Amazon Elastic Container ServiceIntroduzione a Amazon Elastic Container Service
Introduzione a Amazon Elastic Container ServiceAmazon Web Services
 

Más de Amazon Web Services (20)

Come costruire servizi di Forecasting sfruttando algoritmi di ML e deep learn...
Come costruire servizi di Forecasting sfruttando algoritmi di ML e deep learn...Come costruire servizi di Forecasting sfruttando algoritmi di ML e deep learn...
Come costruire servizi di Forecasting sfruttando algoritmi di ML e deep learn...
 
Big Data per le Startup: come creare applicazioni Big Data in modalità Server...
Big Data per le Startup: come creare applicazioni Big Data in modalità Server...Big Data per le Startup: come creare applicazioni Big Data in modalità Server...
Big Data per le Startup: come creare applicazioni Big Data in modalità Server...
 
Esegui pod serverless con Amazon EKS e AWS Fargate
Esegui pod serverless con Amazon EKS e AWS FargateEsegui pod serverless con Amazon EKS e AWS Fargate
Esegui pod serverless con Amazon EKS e AWS Fargate
 
Costruire Applicazioni Moderne con AWS
Costruire Applicazioni Moderne con AWSCostruire Applicazioni Moderne con AWS
Costruire Applicazioni Moderne con AWS
 
Come spendere fino al 90% in meno con i container e le istanze spot
Come spendere fino al 90% in meno con i container e le istanze spot Come spendere fino al 90% in meno con i container e le istanze spot
Come spendere fino al 90% in meno con i container e le istanze spot
 
Open banking as a service
Open banking as a serviceOpen banking as a service
Open banking as a service
 
Rendi unica l’offerta della tua startup sul mercato con i servizi Machine Lea...
Rendi unica l’offerta della tua startup sul mercato con i servizi Machine Lea...Rendi unica l’offerta della tua startup sul mercato con i servizi Machine Lea...
Rendi unica l’offerta della tua startup sul mercato con i servizi Machine Lea...
 
OpsWorks Configuration Management: automatizza la gestione e i deployment del...
OpsWorks Configuration Management: automatizza la gestione e i deployment del...OpsWorks Configuration Management: automatizza la gestione e i deployment del...
OpsWorks Configuration Management: automatizza la gestione e i deployment del...
 
Microsoft Active Directory su AWS per supportare i tuoi Windows Workloads
Microsoft Active Directory su AWS per supportare i tuoi Windows WorkloadsMicrosoft Active Directory su AWS per supportare i tuoi Windows Workloads
Microsoft Active Directory su AWS per supportare i tuoi Windows Workloads
 
Computer Vision con AWS
Computer Vision con AWSComputer Vision con AWS
Computer Vision con AWS
 
Database Oracle e VMware Cloud on AWS i miti da sfatare
Database Oracle e VMware Cloud on AWS i miti da sfatareDatabase Oracle e VMware Cloud on AWS i miti da sfatare
Database Oracle e VMware Cloud on AWS i miti da sfatare
 
Crea la tua prima serverless ledger-based app con QLDB e NodeJS
Crea la tua prima serverless ledger-based app con QLDB e NodeJSCrea la tua prima serverless ledger-based app con QLDB e NodeJS
Crea la tua prima serverless ledger-based app con QLDB e NodeJS
 
API moderne real-time per applicazioni mobili e web
API moderne real-time per applicazioni mobili e webAPI moderne real-time per applicazioni mobili e web
API moderne real-time per applicazioni mobili e web
 
Database Oracle e VMware Cloud™ on AWS: i miti da sfatare
Database Oracle e VMware Cloud™ on AWS: i miti da sfatareDatabase Oracle e VMware Cloud™ on AWS: i miti da sfatare
Database Oracle e VMware Cloud™ on AWS: i miti da sfatare
 
Tools for building your MVP on AWS
Tools for building your MVP on AWSTools for building your MVP on AWS
Tools for building your MVP on AWS
 
How to Build a Winning Pitch Deck
How to Build a Winning Pitch DeckHow to Build a Winning Pitch Deck
How to Build a Winning Pitch Deck
 
Building a web application without servers
Building a web application without serversBuilding a web application without servers
Building a web application without servers
 
Fundraising Essentials
Fundraising EssentialsFundraising Essentials
Fundraising Essentials
 
AWS_HK_StartupDay_Building Interactive websites while automating for efficien...
AWS_HK_StartupDay_Building Interactive websites while automating for efficien...AWS_HK_StartupDay_Building Interactive websites while automating for efficien...
AWS_HK_StartupDay_Building Interactive websites while automating for efficien...
 
Introduzione a Amazon Elastic Container Service
Introduzione a Amazon Elastic Container ServiceIntroduzione a Amazon Elastic Container Service
Introduzione a Amazon Elastic Container Service
 

BigDataAWSArquitectura

  • 1. © 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved. Alberto Ortiz Technical Account Manager Amazon Web Services MXO203 Patrones arquitectónicos y mejores prácticas de Big Data en AWS
  • 2. © 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved. Que esperar de ésta sesión Retos de Big Data Principios de arquitectura Como simplificar el procesamiento de Big Data ¿Qué tecnologías usar? ¿Por qué? ¿Cómo? Arquitectura de referencia Patrones de diseño
  • 3. © 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved. Big Data es cada vez mas grande Volumen Velocidad Variedad
  • 4. © 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved. Evolución de Big Data Procesamiento batch Procesamiento de streams Inteligencia artificial
  • 5. © 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved. Evolución de servicios de nube Máquinas virtuales Servicios administrados Serverless
  • 6. © 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved. Muchas herramientas Amazon Glacier Amazon S3 Amazon DynamoDB Amazon RDS Amazon EMR Amazon Redshift Amazon Kinesis Lambda Amazon ML Amazon SQS ElastiCache Amazon DynamoDB Streams Amazon ES Amazon Kinesis Data Analytics Amazon QuickSight AWS Glue
  • 7. © 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved. Retos de Big Data ¿Porqué? ¿Cómo? ¿Qué herramientas debo usar? ¿Hay una arquitectura de referencia?
  • 8. © 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved. Principios de arquitectura Construir sistemas desacoplados datos → almacenar → proceso → almacenar → analizar → respuestas Usar la herramienta correcta para el trabajo estructura de datos, latencia, throughput, patrones de acceso Aprovechar servicios administrados y serverless escalable/elástico, disponible, confiable, seguro, baja o nula administración Usar patrones de diseño log-centric logs inmutables (data lake), vistas materializdas Efectivo en costos big data ≠ big costs Habilitar aplicaciones para AI/ML
  • 9. © 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved. Procesamiento de Big Data simplificado Recolectar Almacenar Procesar/ Analizar Consumir Tiempo para responder (latencia) Throughput Costo
  • 10. © 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved. ¿Cuál es la temperatura de sus datos?
  • 11. © 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved. Cracterísticas de los datos: caliente, tibio y frio Caliente Tibio Frio Volumen MB–GB GB–TB PB–EB Tamaño de elemento B–KB KB–MB KB–TB Latencia ms ms, sec min, hrs Durabilidad bajo–alto alta muy alta Velocidad muy alta alta baja Costo/GB $$-$ $-¢¢ ¢
  • 12. © 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved. Recolectar
  • 13. © 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved. Tipo de datos Dispositivos Sensores Plataformas IoT AWS IoT Streams IoT EventosStreams de datos Migración Snowball Logging Amazon CloudWatch AWS CloudTrail Archivos Transporteyloggingdedatos AWS Import/Export Archivos Logs Media Mobile apps Web apps Data centers AWS Direct Connect Registros Aplicaciones Transacciones Estructuras de datos Registros de base de datos Recolectar
  • 14. © 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved. Almacenar
  • 15. © 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved. Tipo de datos Dispositivos Sensores Plataformas IoT AWS IoT Streams IoT Streams de datos Migración Snowball Logging Amazon CloudWatch AWS CloudTrail Archivos Transporteyloggingdedatos Import/export Logs Media Mobile apps Web apps Data centers AWS Direct Connect Registros Aplicaciones Estructuras de datos Registros de base de datos NoSQL In-memory SQL Almacenamiento de archivo/ objectos Almacenamiento de Streams Recolectar Almacenar
  • 16. © 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved. Dispositivos Sensores Plataformas IoT AWS IoT Streams IoT Migración Snowball Logging Amazon CloudWatch AWS CloudTrail Archivos Transporteyloggingdedatos Import/export Mobile apps Web apps Data centers AWS Direct Connect Registros Aplicaciones NoSQL In-memory SQL Almacenamiento de archivo/ objectos Almacenamiento de Streams Recolectar Almacenar
  • 17. © 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved. Almacenamiento de Streams Apache Kafka • Plataforma distribuída de alto desempeño para streaming Amazon Kinesis Streams • Almacenamiento de streams administrado Amazon Kinesis Data Firehose • Entrega de datos administrada Dispositivos Sensores Plataformas IoT AWS IoT Streams IoT Migración Snowball Logging Amazon CloudWatch AWS CloudTrail Archivos Transporteyloggingdedatos Import/export Mobile apps Web apps Data centers AWS Direct Connect Registros Aplicaciones NoSQL In-memory SQL Almacenamiento de archivo/ objectos Recolectar Almacenar Amazon Kinesis Data Firehose Amazon Kinesis Data Streams Apache Kafka
  • 18. © 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved. ¿Por qué almacenamiento de streams? Desacopla productores & consumidores Buffer persistente Colección de multiples streams Preserva órden del cliente Consumo paralelo Streaming MapReduce 4 4 3 3 2 2 1 1 4 3 2 1 4 3 2 1 4 3 2 1 4 3 2 1 4 4 3 3 2 2 1 1 shard 1 / partición 1 shard 2 / partición 2 Consumidor 1 Conteo de rojo = 4 Conteo de violeta = 4 Consumidor 2 Conteo de azul= 4 Conteo de verde= 4 DynamoDB stream Amazon Kinesis Data Stream Kafka topic
  • 19. © 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved. ¿Qué hay de Amazon SQS? • Desacopla productores y consumidores • Buffer persistente • Colecciona multiples streams • Sin ordenamiento de cliente (estandard) • FIFO preserva ordenamiento de cliente • Sin streaming MapReduce • Sin consume en paralelo • Amazon SNS puede publicar a multiple suscriptores de Amazon SNS (colas o funciones AWS Lambda) Consumidores 4 3 2 1 12344 3 2 1 1234 2134 13342 Standard FIFO Productores Amazon SQS queue Publicador Amazon SNS Tópico AWS Lambda function Amazon SQS queue Queue Suscriptor
  • 20. © 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved. ¿Qué almacenamiento de mensajes/streams debo usar? Caliente Tibio Amazon Kinesis Data Streams Amazon Kinesis Data Firehose Apache Kafka (en Amazon EC2) Amazon SQS (Standard) Amazon SQS (FIFOa) Administrado por AWS Si Si No Si Si Garantiza ordenamiento Si No Si No Si Entrega (desduplica) Al menos uno Al menos uno Al menos/A lo mas/exactamente uno Al menos uno Exactamente uno Período de retención 7 días N/A Configurable 14 días 14 días Disponibilidad 3 AZ 3 AZ Configurable 3 AZ 3 AZ Escala / throughput Sin límite/ ~ shards Sin límite/ automático Sin límite/ ~ nodos Sin límite/ automático 300 TPS / queue Consumo paralelo Si No Si No No Stream MapReduce Si N/A Si N/A N/A Tamaño de registro/objeto 1 MB Tamaño del registro/objeto destino Configurable 256 KB 256 KB Costo Bajo Bajo Bajo (+admin) Bajo-medio Bajo-medio
  • 21. © 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved. Almacenamiento de archivos/objetos Amazon S3 Servicio administrado de almacenamiento de objetos construído para almacenar y recuperar cualquier cantidad de datos Dispositivos Sensores Plataformas IoT AWS IoT Streams IoT Migración Snowball Logging Amazon CloudWatch AWS CloudTrail Archivos Transporteyloggingdedatos AWS Import/Export Mobile apps Web apps Data centers AWS Direct Connect Registros Aplicaciones NoSQL In-memory SQL Recolectar Almacenar Amazon Kinesis Data Firehose Amazon Kinesis Data Streams Apache Kafka Archivos Amazon S3 Caliente Streams
  • 22. © 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved. Use Amazon S3 para almacenamiento persistente • Compatible nativamente con marcos de trabajo de big data (Spark, Hive, Presto, etc.) • Desacopla el almacenamiento y el cómputo • No es necesario tener clústeres para el almacenamiento (a diferencia de HDFS) • Puede ejecutar clústeres de Amazon EMR transitorios con instancias Spot de Amazon EC2 • Pueden usar los mismos datos varios clústeres y servicios • Diseñado para 99.999999999% de durabilidad • No es necesario pagar por la replicación de datos dentro de una región • Seguro: SSL, encriptación cliente / servidor en reposo • Bajo costo
  • 23. © 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved. ¿Qué hay de HDFS y niveles de datos (tiering)? • Use HDFS para los conjuntos de datos más calientes (por ejemplo, lectura iterativa en los mismos conjuntos de datos) • Utilice Amazon S3 Standard para acceso frecuente a los datos • Use Amazon S3 Standard - IA para datos a los que se accede con menos frecuencia • Use Amazon Glacier para archivar datos fríos • Use Amazon S3 Analytics para optimizar la estrategia de tiering
  • 24. © 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved. Cache y base de datos Amazon ElastiCache • Memcached o Redis administrado Amazon DynamoDB Accelerator (DAX) • Cache en memoria de DynamoDB administrado Amazon DynamoDB • NoSQL administrado Amazon RDS • Base de datos relacional administrada Dispositivos Sensores Plataformas IoT AWS IoT Streams IoT Migración Snowball Logging Amazon CloudWatch AWS CloudTrail Archivos Transporteyloggingdedatos AWS Import/Export Mobile apps Web apps Data centers AWS Direct Connect Registros Aplicaciones Recolectar Almacenar Amazon Kinesis Data Firehose Amazon Kinesis Data Streams Apache Kafka Archivos Amazon S3 Caliente Streams Amazon DynamoDB Amazon RDS Amazon Aurora Amazon DAX Amazon ElastiCache SQLNoSQLCache
  • 25. © 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved. Anti-patrón Capa de Datos
  • 26. © 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved. Mejor práctica: usar la herramienta adecuada para el trabajo SearchIn-memory SQLNoSQL Capa de Datos GraphDB Amazon RDS/Amazon AuroraAmazon DynamoDBAmazon ElastiCache Amazon DynamoDB Accelerator SAP HANA Amazon ES Amazon CloudSearch
  • 27. © 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved. Vistas materializadas y logs inmutables Vista de cache Vista de búsqueda Log inmutable
  • 28. © 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved. ¿Qué almacén de datos debo usar? Estructura de datos → Esquema-fijo, JSON, Llave / Valor Patrones de acceso → Almacenar datos en el formato como será accedido Características de los datos → Caliente, tibio, frío Costo → Costo adecuado
  • 29. © 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved. Estructura de datos y patrones de acceso Patrones de acceso ¿Qué usar? Put/Get (llave, valore) In-memory, NoSQL Relaciones simples → 1:N, M:N NoSQL Joins muti-tabla, transacciones, SQL SQL Faceting, Búsqueda Search Recorrido de grafos GraphDB Estructura de datos ¿Qué usar? Esquema fijo SQL, NoSQL Esquema libre (JSON) NoSQL, Search Llave/Valor In-memory, NoSQL Grafo GraphDB
  • 30. © 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved. In-memory SQL Velocidad de peticiones Alto Bajo Costo/GB Alto Bajo Latencia Bajo Alto Volumen de datos Bajo Alto Amazon Glacier Estructura NoSQL Caliente Frío Baja Alta
  • 31. © 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved. ¿Qué almacén de datos debo usar? Amazon ElastiCache DynamoDB Accelerator (DAX) Amazon DynamoDB Amazon RDS (Aurora) Amazon ES Amazon S3 Amazon Glacier Latencia promedio µs-ms µs-ms ms ms, sec ms,sec ms,sec,min (~ size) hrs Volumen típico GB GB GB–TBs (sin límite) GB–TB (64 TB max) GB–TB MB–PB (sin límite) GB–PB (sin límite) Tamaño típico por elemento B-KB KB (400 KB max) KB (400 KB max) KB (64 KB max) B-KB (2 GB max) KB-TB (5 TB max) GB (40 TB max) Ritmo de peticiones alto – muy alto alto – muy alto muy alto (sin límite) alto alto bajo – alto (sin límite) muy bajo Costo GB/mes $$ $$ ¢¢ ¢¢ ¢¢ ¢ ¢4/10 Durabilidad bajo - moderado NA muy alto muy alto alto muy alto muy alto Disponibilidad alto 2 AZ alto 3 AZ muy alto 3 AZ muy alto 3 AZ alto 2 AZ muy alto 3 AZ muy alto 3 AZ Caliente Frío
  • 32. © 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved. Diseño para reducir costo Ejemplo: ¿Debo usar Amazon S3 o Amazon DynamoDB? “Estoy dimensionando un proyecto. Se piden archivos muy pequeños, hasta mil millones. El tamaño total estará en el órden de 1.5 TB al mes ... ” Ritmo de peticiones (escritura/seg) Tamaño de objeto (Bytes) Tamaño total (GB/mes) Objetos por mes 300 2048 1483 777,600,000
  • 33. © 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved. ¿Amazon S3 o Amazon DynamoDB? https://calculator.s3.amazonaws.com/index.html Ritmo de peticiones (escritura/seg) Tamaño de objeto (bytes) Tamaño total (GB/mes) Objetos por mes 300 2048 1483 777,600,000
  • 34. © 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon S3 o Amazon DynamoDB Amazon S3 Wins! 300 23,730 777,600,00032,768 Amazon DynamoDB Wins! Request rate (writes/sec) Object size (bytes) Total size (GB/month) Objectsper month 300 2,048 1,483 777,600,000 Escenario 2 Escenario 1 Amazon S3 Standard Storage $34 Put/list requests $3,888 Total $3,922 Amazon DynamoDB Provisioned throughput $273 Indexed data storage $383 Total $656 Amazon S3 Standard Storage $545 Put/List Requests $3,888 Total $4,433 Amazon DynamoDB Provisioned Throughput $4,556 Indexed Data Storage $5,944 Total $10,500
  • 35. © 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved. Procesar/ Analizar
  • 36. © 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved. Analítica predictiva Servicios impulsados por API • Amazon Lex - Reconocimiento de voz • Amazon Polly - Texto a voz • Amazon Rekognition - Análisis de imágenes • Amazon Transcribe/Translate • Amazon Comprehend Plataformas administradas de ML • Amazon ML • Apache Spark ML en Amazon EMR • Amazon SageMaker AWS Deep Learning AMI • Preinstalado con MXNet, TensorFlow, Caffe2 (y Caffe), Theano, Torch, Microsoft Cognitive Toolkit y Keras; además de herramientas / drivers DL Predictiva AmazonAI Lex PollyAML Rekognition AWS DL AMI Amazon AI Desarrolladores Científicos de datos Expertos en deep learning Procesar/ Analizar
  • 37. © 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved. Analítica interactiva y batch Amazon ES • Servicio administrado para Elasticsearch Amazon Redshift y Amazon Redshift Spectrum • Data warehouse administrado • Spectrum permite consultar Amazon S3 Amazon Athena • Servicio de consulta interactiva serverless Amazon EMR • Hadoop administrado para ejecutar Apache Spark, Flink, Presto, Tez, Hive, Pig, HBase, etc. Procesar/ Analizar Amazon Redshift Spectrum Amazon Athena BatchInteractivo Amazon ES Presto Amazon EMR
  • 38. © 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved. Analítica de stream/tiempo-real Spark Streaming en Amazon EMR Amazon Kinesis Data Analytics • Servicio administrado para ejecutar SQL en la transmisión de datos KCL de Amazon • Amazon Kinesis Client Library AWS Lambda • Ejecutar código sin servidor (sin aprovisionar o administrar servidores) • Servicios como Amazon S3 pueden publicar eventos en Lambda • Lambda puede agrupar eventos de Kinesis KCL Apps AWS Lambda Amazon Kinesis Data Analytics Stream Streaming Amazon EMR Procesar/ Analizar
  • 39. © 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved. ¿Qué tipo de analítica debo usar? Batch • Toma minutos a horas • Ejemplo: reportes diarios / semanales / mensuales • Amazon EMR (MapReduce, Hive, Pig, Spark) Interactivo • Toma segundos • Ejemplo: tablero de autoservicio • Amazon Redshift, Amazon Athena, Amazon EMR (Presto, Spark) Stream • Toma milisegundos a segundos • Ejemplo: alertas de fraude, métricas de 1 minuto • Amazon EMR (Spark Streaming), Amazon Kinesis Data Analytics, KCL, AWS Lambda, etc. Predictivo • Toma milisegundos (tiempo real) a minutos (batch) • Ejemplo: detección de fraude, predicción de demanda, reconocimiento de voz • Amazon AI (Lex, Polly, ML, Amazon Rekognition), Amazon EMR (Spark ML), Deep Learning AMI (MXNet, TensorFlow, Theano, Torch, CNTK y Caffe) Streaming Amazon Kinesis Data Analytics KCL Apps AWS Lambda Stream Amazon EMR Rápido Amazon ES Amazon Redshift Spectrum Presto Amazon EMR Amazon Athena BatchIneractivo RápidoLento Predictivo AmazonAI Lex PollyAML Rekognition AWS DL AMI Procesar/ Analizar
  • 40. © 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved. ¿Qué tecnología de procesamiento de streams debo usar? Amazon EMR (Spark Streaming) KCL Application Amazon Kinesis Data Analytics AWS Lambda Servicio administrado si No (EC2 + Auto Scaling) si si Serverless No No si si Escala/Throughput Sin límites / ~ nodes Sin límites / ~ nodes Sin límites / automático Sin límites / automático Disponibilidad Single AZ Multi-AZ Multi-AZ Multi-AZ Lenguajes Java, Python, Scala Java, others via MultiLangDaemon ANSI SQL con extensiones Node.js, Java, Python Función de ventana deslizable Built-in Implementado en aplicación Built-in No Confiabilidad KCL y Spark checkpoints Manejado por KCL Manejado por Kinesis Data Analytics Manejado por AWS Lambda
  • 41. © 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved. ¿Qué herramienta para analítica debo usar? Amazon Redshift Amazon Redshift Spectrum Amazon Athena Amazon EMR Presto Spark Hive Caso de uso Optimizado para datawarehouse Consulta Amazon S3 desde Amazon Redshift Consultas interactivas sobre Amazon S3 Consultas interactiva Propósito general Batch Escala/Throughput ~Nodos ~Nodos Automático ~ Nodos Servicio administrado si si si, serverless si Almacenamiento local Amazon S3 Amazon S3 Amazon S3, HDFS Optimización Columnar, compresión, y zone maps AVRO, PARQUET TEXT, SEQ RCFILE, ORC, etc. AVRO, PARQUET TEXT, SEQ RCFILE, ORC, etc. Depende del framework Metadata Amazon Redshift Catalog AWS Glue Catalog AWS Glue Catalog Glue Catalog or Hive Meta-store Autorización/control de acceso IAM, usuarios, grupos, y control de acceso IAM, usuarios, grupos, y control de acceso IAM IAM, LDAP & Kerberos Soporte a UDF si (Scalar) si (Scalar) No si Lento
  • 42. © 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved. ¿Qué hay de ETL? ETLSTORE PROCESS / ANALYZE Data Integration Partners Reduce el esfuerzo de mover, limpiar, sincronizar, administrar y automatizar procesos de datos. AWS Glue es un ETL administrado y serverless, que hace simple y efectivo en costo la categorización de sus datos, limpieza, enriquecimiento y movimiento, de manera confiable y entre varios almacenes de datos. Data Catalog Job Authoring Job Execution AWS Glue
  • 43. © 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved. Streaming Amazon Kinesis Data Analytics KCL Apps AWS Lambda Stream Amazon EMR Rápido Amazon ES Amazon Redshift & Amazon Redshift Spectrum Presto Amazon EMR Amazon Athena BatchIneractivo RápidoLento Predictivo AmazonAI Lex PollyAML Rekognition AWS DL AMI Procesar/ Analizar Dispositivos Sensores Plataformas IoT AWS IoT Streams IoT Migración Snowball Logging Amazon CloudWatch AWS CloudTrail Archivos Transporteyloggingdedatos AWS Import/Export Mobile apps Web apps Data centers AWS Direct Connect Registros Aplicaciones Recolectar Almacenar Amazon Kinesis Data Firehose Amazon Kinesis Data Streams Apache Kafka Archivos Amazon S3 Caliente Streams Amazon DynamoDB Amazon RDS Amazon Aurora Amazon DAX Amazon ElastiCache SQLNoSQLCache CalienteTibio ETL Consumir
  • 44. © 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved. Consumir
  • 45. © 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved. Procesar/ Analizar Recolectar Almacenar ETL Consumir Predictivo AmazonAI Lex PollyAML Rekognition AWS DL AMI Modelo Entrenar/ Evaluar Modelo s Desplegar Cienciade Datos AI Apps Amazon ECS Apps AWS Greengrass Amazon QuickSight AnálisisyVisualización Usuarios de negocio DevOps Científicos de datos • Aplicaciones BI/AI • Amazon EC2 o Amazon ECS Containers • AWS Greengrass • Ciencia de Datos • Notebooks • DS Platforms • IDEs • Análisis y Visualización • Amazon QuickSight • Tableau • Etc.
  • 46. © 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved. Poniendolo todo junto
  • 47. © 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved. Procesar/ Analizar Recolectar Almacenar ETL Consumir Modelo Entrenar/ Evaluar Modelo s Desplegar CienciadeDatos AI Apps Amazon ECS Apps AWS Greengrass Amazon QuickSight AnálisisyVisualización Streaming Amazon Kinesis Data Analytics KCL Apps AWS Lambda Stream Amazon EMR Rápido Amazon ES Amazon Redshift & Amazon Redshift Spectrum Presto Amazon EMR Amazon Athena BatchIneractivo RápidoLento Predictivo AmazonAI Lex PollyAML Rekognition AWS DL AMI Dispositivos Sensores Plataformas IoT AWS IoT Streams IoT Migración Snowball Logging Amazon CloudWatch AWS CloudTrail Archivos Transporteyloggingdedatos AWS Import/Export Mobile apps Web apps Data centers AWS Direct Connect Registros Aplicaciones Amazon Kinesis Data Firehose Amazon Kinesis Data Streams Apache Kafka Archivos Amazon S3 Caliente Streams Amazon DynamoDB Amazon RDS Amazon Aurora Amazon DAX Amazon ElastiCache SQLNoSQLCache CalienteTibio
  • 48. © 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved. Patrones de diseño
  • 49. © 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved. Spark Streaming AWS Lambda KCL apps Amazon Redshift Amazon Redshift Hive Spark Presto TecnologíadeProcesamiento RápidoLento Respuestas Hive Native apps KCL apps AWS Lambda Amazon Athena Amazon Kinesis Amazon DynamoDB/RDS Amazon S3Data Caliente Frío Almacén de datos
  • 50. © 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved. Analítica en Tiempo Real Amazon EMR KCL app AWS Lambda Spark Streaming Amazon AI Predicción en tiempo-real Amazon ElastiCache (Redis) Amazon DynamoDB Amazon RDS Amazon ES Estado de aplicación o vista materializada KPI procesamiento almacenamiento Amazon Kinesis Amazon Kinesis Data Analytics Amazon SNS NotificationesAlertas Amazon S3 Log Amazon KinesisFan out Downstream
  • 51. © 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved. Analítica Interactiva y Batch procesamiento almacenamiento Batch Interactivo Amazon EMR Hive Pig Spark Amazon AI Predicción batch Predicción en tiempo-real Amazon S3 Archivos Amazon Kinesis Data Firehose Amazon Kinesis Data Analytics Amazon Redshift Amazon ES Consumo Amazon EMR Presto Spark Amazon Athena
  • 52. © 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved. Tiempo-real Estado aplicativo o vista materializada Interactivo y batch Data lake Amazon S3 Amazon Redshift Amazon EMR Presto Hive Pig Spark Amazon ElastiCache Amazon DynamoDB Amazon RDS Amazon ES AWS Lambda Spark Streaming on Amazon EMR Aplicaciones Amazon Kinesis KCL Amazon AI Amazon DynamoDB Amazon RDS Change Data Capture or Export Transacciones Stream Archivos Amazon Kinesis Data Analytics Amazon Athena Amazon Kinesis Data Firehose Amazon ES
  • 53. © 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved. ¿Qué hay de la metadata? AWS Glue Catalog • Compatible con Hive Metastore • Crawlers – Detecta nuevos datos, esquemas y particiones • Compatible con Amazon Athena, Amazon EMR, y Amazon Redshift Spectrum Hive Metastore (Presto, Spark, Hive, Pig) • Puede alojarse en una Amazon RDS Metadata Metastore Amazon RDS AWS Glue Catalog AWS Glue
  • 54. © 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved. Seguridad y Gobernanza • AWS Identity and Access Management (IAM) • Amazon Cognito • Amazon CloudWatch & AWS CloudTrail • AWS KMS • AWS Directory Service • Apache Ranger Seguridad y Gobernanza IAM Amazon CloudWatch AWS CloudTrail AWSKMS AWS CloudHSM AWS Directory Service Amazon Cognito
  • 55. © 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved. Resumen Arquitectura de Referencia de un Data lake
  • 56. © 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved. Resumen Construir sistemas desacoplados datos → almacenar → proceso → almacenar → analizar → respuestas Usar la herramienta correcta para el trabajo estructura de datos, latencia, throughput, patrones de acceso Aprovechar servicios administrados y serverless escalable/elástico, disponible, confiable, seguro, baja o nula administración Usar patrones de diseño log-centric logs inmutables (data lake), vistas materializdas Efectivo en costos big data ≠ big costs Habilitar aplicaciones para AI/ML
  • 57. © 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved. Gracias!