1. 05/07/2013
1
EMC GreenPlum
New Platform for New Era
Luis Rodriguez
Lima, 05 de julio de 2013
• Las bases de datos OLTP tradicionales no están
optimizadas para el tratamiento y análisis masivo de
datos heterogéneos
• Según TDWI, el 50% de las organizaciones
reemplazarán sus arquitecturas de Datawarehouse en
los próximos tres años
Source: TDWI Next Gen Database Study, 2010
No soporta análisis
avanzado
No puede manejar
grandes volúmenes
de datos
Baja respuesta de consultas
No soporta análisis avanzado
Velocidad de carga inadecuada
No es escalable a grandes volúmenes
Altos costos de escalabilidad
Soporte escaso para cargas en tiempo real o a demanda
45%
40%
39%
37%
33%
29%
Las infraestructuras de análisis de datos,
necesitan adaptarse para BIG DATA
Alto Rendimiento
• Mantener el
rendimiento cuando
crecen los datos
• Modelos analíticos
complejos
• Disminuir los
tiempos de
respuesta
• Velocidad de
carga
Escalabilidad a
Petabytes
Acceso Unificado
• Consolidación de
fuentes de datos y
métodos de acceso
• Estructurados y no-
estructurados
• SQL, MapReduce,
computación
estadística, ELT,..
• Herramientas de BI
• Análisis “in-
database”
• Escalabilidad
lineal, de pocos
TB a Peta-bytes,
• Control de costes
• Sin elementos
comunes ni
cuellos de botella
¿Que es necesario para poder consolidar y
analizar grandes volúmenes de datos?
3. 05/07/2013
3
Componentes de la solución
• Base Datos
– Tecnología MPP
– Consultas complejas muy rápidas
– Carga de grandes volúmenes de datos
• Hadoop
– Sistema de archivos distribuidos
– Procesado y ejecución en paralelo
– Compatible con consultas SQL
– Integración 100% módulo de BD
• Entorno Colaborativo
– Creación de Datasets
– Consultas
Chorus
UAP Interoperability
GPHD data in/out
in GPDB Query
GPDB
External Table
GPHD
File on
HDFS
Virtual Environment
Administrar Bases de Datos
Creación de tablas
Movimiento de Datos
Entorno Colaborativo
Análisis de datos
Autoservicio
Chorus
4. 05/07/2013
4
Greenplum Unified
Private/Hybrid Cloud Infrastructure or Appliance
Data Access & Query Layer
3rd Party/Partner Tools
Greenplum Chorus
Greenplum
Hadoop
Data
Scientist
Data
Engineer
Data
Analyst
Bl
Analyst
LOB
User
Greenplum
Database
Data
Platform
Admin
DATASCIENCETEAM
All Data Types
SQL, MapReduce, C, Phyton…
Analytics Platform - UAP
Un stack completo para análisis de BIG DATA
Network
Interconnect
... ...
......
Master
Servers
Query planning &
dispatch
Segment
Servers
Query processing &
data storage
External
Sources
Loading, streaming,
etc.
La Base de Datos
MPP de GreenPlum
tiene alta escalabilidad
Todos los nodos
pueden escanear y
procesar en paralelo
Escalabilidad lineal
simplemente
agregando nodos
EMC Greenplum - Características
MPP shared nothing
Polymorphic Table Storage ™
• Soporte para Information Lifecycle Management (ILM)
• Tipo de almacenamiento mixto para tablas y bases de datos
– Cutro tipos de tablas: heap, row-oriented AO, column-oriented,
external
– Compresión: Gzip (Niveles 1-9), QuickLZ
• Permite elegir el modelo de procesamiento para cualquier tabla o
particion
TABLA ‘CUSTOMER’
Mar
‘11
Apr
‘11
May
‘11
Jun
‘11
Jul
‘11
Aug
‘11
Sept
‘11
Oct
‘11
Nov
‘11
Orientado a filas: HOT DATAOrientado a columnas: COLD DATA
EMC Greenplum - Características
5. 05/07/2013
5
gNet Software
Interconnect
ETL Servers
•Parallel-everywhere: Paralelismo para la carga de datos
•Los datos cargados desde cualquier fuente se distribuyen en
todos los nodos
•Carga de datos se realiza en todos los nodos en paralelo
•Soporta tanto cargas masivas por lotes, como cargas
incrementales en near-real time
EMC Greenplum - Caracteristicas
Fast Data Load
Master Server Data Protection
• Transaction logs replicados: En caso de falla del servidor
• RAID protection: Opcional en caso de fallo de disco
En caso de fallo del servidor
• Servidor de contingencia activo
• Alertas a los administradores
• Conmutación automatizada
Segment Server Data Protection
• Segmentos en espejo en caso de fallas
• RAID protection: Opcional en caso de fallo de disco
En caso de fallo del servidor
• Segmentos en espejo toman la carga
• Recuperación diferencial en linea
Master
Segment Segment Segment Segment
Master
High Availability
EMC Greenplum - Características
Simple To Manage
• Greenplum Command Center
– Plataforma completa de administración y control
• Greenplum Package Manager
– Automatiza la instalación, desinstalación, actualización de extensiones
– Soporte a la migración y actualización de paquetes, recuperación de
segmentos, expansión e inicialización
EMC Greenplum - Características
6. 05/07/2013
6
Opciones de Infraestructura para Greenplum
Data Computing Appliance: Escalabilidad modular
1st Rack
Add ¼ rack
Increments
Aggregation Rack
Add ¼ rack
Increments
Functional
Module
Functional
Module
Functional
Module
Greenplum
Database
(GPDB)
or
or
Greenplum
Database
(GPDB)
or
or
Functional
Module
Functional
Module
Functional
Module
Functional
Module
GPDB
(required)
Infraestructura para Greenplum
Gracias por su atención
7. 05/07/2013
7
LATINOAMÉRICA info@powerdataam.com
Chile
Av. Presidente Errázuriz Nº 2999 - Oficina 202
Las Condes, Santiago CP 7550357
Tel: (+56) 2 892 0362
Colombia
Calle 100 No. 8A-55 Torre C. Of. 718
Bogotá
Tel: (+57 1) 616 77 96
México
Insurgentes Sur Nº 600 Of. 301 y 302,
Col. del Valle, Benito Juarez
Distrito Federal, México, 03100
Tel: (+52 55) 1107-0812
Perú
Calle Los Zorzales Nº 160, piso 9
San Isidro, Lima
Tel: (+51) 1634 4901
Argentina
Avenida Leandro N Alem 530, Piso 4
CD C100 1AAN Ciudad Autónoma de Buenos Aires
Tel: (+54) 11 4314 1370
www.powerdataam.com
Barcelona
C/ Frederic Mompou, 4B 1º, 3º
08960 Sant Just Desvern
T (+34) 934 45 60 01
Valencia
Edificio Europa - 5º I Avda, Aragón, 30
46021 Valencia
T (+34) 960 91 60 25
Madrid
C/ Miguel Yuste, 17, 4º C
28037 Madrid
T (+34) 911 29 72 97
info@powerdata.es www.powerdata.esESPAÑA