3. Solving Big Data Issues 3
HISTORIA
Su matriz y equipo llevan
más de 10 años
haciendo computación
distribuida.
Una iniciativa conjunta
de Banco Santander con la
Universidad Alfonso X el
Sabio.
Especializada en tecnologías
Big Data (y Cloud
Computing)
Composición del equipo
técnico:
§ DataScientists
§ Desarrolladores
§ Sistemas
2005 2014 2016
4. Solving Big Data Issues 4
ANTECEDENTES
GRID
COMPUTING HPC
CLOUD
COMPUTING
Grids de cómputo
financiero y científicos
Laboratorio de cálculo
acelerado por GPUs
Despliegues de Clouds
Privados
NUESTRO RECORRIDO HACIA BIG DATA
DESDE 2005 HACIENDO PROYECTOS DE INNOVACIÓN Y COMPUTACIÓN DISTRIBUIDA
6. Plataforma
Servicios
Keedio tiene en propiedad una plataforma Big Data
(Keedio Data Stack)
Es OpenSource y está en producción.
Big Data Assessment (Descubriendo casos de uso).
Desarrollo de proyectos y soporte a la posventa. Sobre
cualquier tecnología, propietaria o no.
Formación comercial y a desarrolladores Big Data.
El abordaje de los proyectos, lo hacemos preferiblemente
de forma conjunta con nuestros partners. La unión de
conocimientos de ambos, garantiza el E2E.
8. OBJETIVO
En este taller haremos un recorrido desde los
conceptos básicos de Big Data hasta las plataformas
más utilizadas en los entornos empresariales.
Los ejemplos reales mostrarán diferentes casos de
éxito y fracaso a la hora de implantar sistemas de
tratamiento de datos masivos.
DESMITIFICAR BIGDATA
Big Data o Data Analytic o Big Data Analytic, es hacer
análisis de datos.
Los datos del operacional y otros, se analizan con las
tecnologías Big Data
9. ÍNDICE
Lo que es Big Data
(Qué) - Casos de uso
(Cómo) - Lo hacemos: Con una plataforma
Futuro: Data Centric
10. LO QUE ES BIG DATA
PROCESAMIENTO DISTRIBUIDO DE DATOS Y DE
LA INFORMACIÓN
11. Solving Big Data Issues 11
LO QUE DICE LA UE RESPECTO A BIG DATA (HORIZONTE 2020)
Empresas
4 de cada 10
desaparecerán (no tendrán
capacidad de
transformarse).
Profesionales
47% de los empleos van a
desaparecer.
53% van a cambiar.
2 Millones de posiciones no se
cubrirán por falta de
cualificación.
Lo que requerirá el mercado:
• Robótica
• Realidad aumentada
• Big Data.
Profesiones
Big Data, Data & Analytics (D&A):
• Acelera el crecimiento de una
organización hasta en un 40%.
• Las ofertas de empleo Big Data
aumentaron un 92% en 2015.
• IOT en el mundo va a facturar 1.9
Billones (Europeos) en la UE. 6
veces la industria farmacéutica.
Realidad aumentada va a aumentar por
30 su facturación.
Conclusión: Hay que estar en el mundo de Big Data (Data Analytic)
http://www.ticbeat.com/tecnologias/ofertas-empleo-big-data/
12. Solving Big Data Issues 12
EVOLUCIÓN
De los pueblos y las ciudades, al mundo virtual: analítica imprescindible
MUNDO PASADO MUNDO VIRTUAL
Aquí nos conocemos todos, o
podríamos hacerlo. El proveedor elige o
el cliente, como ocurría en los pueblos.
Aquí no tenemos contactos físicos,
hay que conocer al cliente por medio
de otros canales
13. Solving Big Data Issues
Sí es Big Data
13
DATOS Y PROCESAMIENTO: OPERACIONAL Y EL ANALÍTICO
§ Un conjunto de tecnologías para hacer análisis de
información
§ Data analytic
§ (Plataforma + casos de uso)
§ Dato Distribuido.
§ Distribución de procesos y almacenamiento en
diferentes nodos.
§ Operacional: Liquidación de cuentas, transferencias,
domiciliaciones…
§ ERP y CRM
§ Transaccional
§ Data Centric (not yet…)
No es Big Data
14. Solving Big Data Issues 14
CULTURILLA: LAS ∞ V,S DE BIG DATA
“Conjunto de nuevas
tecnologías capaces de
obtener valor de datos que
por su situación, volumen,
variedad o velocidad, antes
no se aprovechaban.”
Volume
Velocity
Variety
Visibility
Viscosity
Value
Veracity
Vampire
….
“Esa cantidad de datos que
no sabía que tenía ni que
podía usar y ahora que lo se
quiero hacerlo.”
Marketing, Sector Retail
15. Solving Big Data Issues
Big Data no solo
aplica para tratar
grandes
volúmenes de
datos
15
BIG DATA, ES EL MOMENTO DE LAS NUEVAS OPORTUNIDADES
§ De manera no estructurada y también
estructurada.
§ Diversas fuentes de información: Internas y
Externas.
Reducción
de Costes
Datos
Escalabilidad y Volumen
§ Hardware barato. Commodity
§ Plataforma barata.
§ Desarrollo divide los tiempos entre 4
Streaming
§ Procesado en real-time o near-real-time.
§ Imposible o muy costoso con tecnologías
convencionales.
§ Interpretación de los datos.
16. Solving Big Data Issues 16
BIG DATA: INFORMACIÓN ESTRUCTURADA Y/O NO ESTRUCTURADA
El 80% de los datos que existen son
No estructurados
El 20% de los datos que existen son
estructurados
Por eso Big Data está muy ligado a las bases de datos NoSQL (Not Only SQL)
La información almacenada caduca… la mejor base de datos es Internet. Hay en la Red una
ingente cantidad de información, actualizada al minuto por instituciones y particulares.
- Fuente Madiva -
17. Solving Big Data Issues 17
MAGNITUDES
¿QUÉ PASA EN
1 MINUTO
EN INTERNET?
Actividad
Mundial en
Internet en
2016
60SEGUNDOS
69.444
horas
visionadas
701.389
logins en
Facebook
527.760
fotos compartidas
en Snapchat
51.000
descargas desde
App Store
2,78
millones
de vídeos vistos
972.222
swipes en Tinder
2,4 millones
de búsquedas
+120
cuentas nuevas
de Linkedin
203.596$
en ventas
38.052
horas de música
en Spotify
347.222
nuevos tuits
38.194
posts
1.389
carreras
150
millones
emails
enviados
+20,8
millones
de mensajes
en Whatsapp
1,04
millones
de loops en Vine
18. Solving Big Data Issues 18
BIG DATA “VS” BI
BI
Vs
Menor Coste
Pocos Casos de Uso
Existentes
Mayor flujo de Datos
Mayor Escalabilidad
Mayor Coste
Más Casos de Uso
Existentes
Menor flujo de Datos
Menor Escalabilidad
Mayor Novedad Mayor Madurez
19. Solving Big Data Issues 19
LA CADENA DE VALOR BIG DATA
INGESTIÓN
NoesETLtradicional,esadaptadoaBIGDATA
ALMACENAMIENTO
Datos en crudo, sin tratar HDFS
BBDD NoSQL
Computación y tratamiento de los datos
CONSULTA
VISUALIZACIÓN
APLICACIONES
EXTERNAS
MACHINE LEARNING Y
PREDICITVE
TRATAMIENTO
Computación y tratamiento de los datos.
Batch, Tiempo Real, Streaming.
21. Solving Big Data Issues 21
EVOLUCIÓN ECOSISTEMA APACHE HADOOP
Apache Hadoop
Spark Research Paper
2004 2010 2015
2006
Google MapReduce Seminal Paper
Spark becomes an
Apache Top Level project
2014
Spark Becomes the standard for batch
processing development on Hadoop
Apache Flink superseedes
Apache Spark for both Batch
and Stream processing
2017
22. Solving Big Data Issues 22
EJEMPLO DE EVOLUCIÓN DEL ECOSISTEMA BIG DATA
Daytona Gray: Para conocer la rapidez con que un sistema puede ordenar 100 TB de datos
(1 Billón de registros)
https://databricks.com/blog/2014/11/05/spark-officially-
sets-a-new-record-in-large-scale-sorting.html
DAYTONA GRAY SORT 100TB BENCHMARK
Generación Data size Time Nodes Cores
I
Hadoop
MR
102.5
TB
72 min 2,100
50,400
physical
II
Apache
Spark
100 TB 23 min 206
6,592
virtualized
Benchmarks independientes nos dicen que con
el pasar del tiempo las herramientas de Big
Data se van haciendo más eficientes.
Las nuevas generaciones de herramientas
consiguen el mismo resultado con menos
recursos y en menor tiempo.
23. Solving Big Data Issues 23
EVOLUCIÓN DEL ECOSISTEMA BIG DATA
¿Tercera generación
de frameworks de
procesamiento?
No lo sabemos
26. Solving Big Data Issues 26
EJEMPLOS DE CASOS DE USO: ELECCIONES USA
Desde las primeras elecciones tras la
Guerra de Secesión, las casas de apuestas
han acertado siempre los resultados y las
encuestas no.
• Con BigData es posible emular lo que sucede
en las casa de apuestas.
• [La predicción de las casas de apuestas falló
ante una de las Guerras]
En las últimas elecciones americanas Nov.
2016 los resultados entre ambos
candidatos, estuvo tan igualado porque
ambos utilizaron técnicas BigData basadas
en Spark cada vez que iban a una ciudad.
• Sabían lo que les preocupa en la ciudades que
visitaban y los dos más o menos decían lo
mismo.
• Se trabajó con BigData para analizar Blogs, Redes
sociales etc..]
Allan Lichtman, (American University) lleva 32
años pronosticando correctamente el resultado
de todas las elecciones presidenciales
americanas.
• Ha desarrollado un sistema científico/matemático
basado en 13 preguntas que se pueden responder de
manera objetiva con un sí o un no .
• Analizan cómo ha sido la gestión del partido que ha
estado los últimos cuatro años en la Casa Blanca. Preguntas
MétodoCasas de apuestas y BigData
Vs
Demoscopia (Encuestas)
27. Solving Big Data Issues 27
"¿El partido actualmente en la Casa Blanca ha ganado escaños en el Congreso en las elecciones en mitad de
legislatura?”
”¿El actual presidente es también el candidato de sus partido a la Casa Blanca?”
”¿Hay un tercer partido o un candidato independiente que tenga una presencia significativa?”
“Durante la campaña electoral, ¿se encuentra la economía en recesión?”
”¿El crecimiento económico en la última legislatura ha sido igual o superior al registrado en las dos
anteriores?”
”¿Ha habido escándalos graves?”
”¿Ha habido derrotas militares o fracasos en la política exterior?”
”¿Se han llevado a cabo durante la legislatura reformas importantes?"... Hasta 13.
Las preguntas son del tipo:
Con Big Data es posible hacer esas preguntas consultando la “red de redes”
28. Solving Big Data Issues 28
EJEMPLOS DE CASOS DE USO: BANCA
Analizando el registro de
operaciones se puede relacionar
FIFO la venta con la compra y
aplicar la norma antireposición
para obtener una orientación
sobre el Impacto fiscal de una
operación de capital.
Detección Fraude en tarjetas:
• Tarjetas con denuncia de robo
no real.
• Uso de tarjetas no activadas en
manos de su verdadero usuario.
Análisis de texto libre.
Análisis del campo observaciones
incluido en cada operación (texto
libre) y extraer conclusiones
valiosas sobre la propia operación,
la relación con el cliente y para un
mejor perfilado. (semántico)
Monitorizar flujos de negocio.
Ante una operación de negocio y
definido su patrón, se puede hacer
seguimiento de las mismas a fin
de detectar de forma temprana,
detecciones anómalas, errores y
finalmente analítica y estadísticas
de sus circunstancias.
29. Solving Big Data Issues 29
EJEMPLOS DE CASOS DE USO: EMPRESAS
IOT (SCADA) - Sector industria (Mantenimiento)
Mediante la colocación de centralitas de medición en las máquinas y
dispositivos, y mediante predictivos, se puede ser muy preciso en:
• MTBF (Mean Time Between Failures)
• MTTR (Mean Time To Reparation)
• Intervenciones predictivas
• Órdenes de trabajo, gestión de expedientes.
Logística transporte
Mediante la colocación de centralitas de
medición, asociado a IOT o no, pero siempre
vía predictivos:
• Planificar de forma óptima las rutas.
• Rutas óptimas mediante la predicción de la
demanda.
• Derivar información a la agenda comercial.
• Detección de incidencias en las rutas tales como:
Paradas anómalas, sobrecargas, exceso de
velocidad.
Ahorro de costes: Migrando
información a analizar de BI (BD +
Entornos caros) a Big Data (BD +
Entornos baratos, se pueden obtener
ahorros de hasta un 90% a la vez
que se aceleran los tiempos de
consulta de la información
30. Solving Big Data Issues 30
EJEMPLOS DE CASOS DE USO: SANIDAD
Información genética: El análisis
de datos genéticos mediante Big
Data, permitirá detectar nuevas
mutaciones patológicas y
facilitará las técnicas de edición
genética.
En el ámbito de Urgencias Médicas, el
análisis en tiempo real de la información
generada en las pruebas complementarias
(analíticas, RMN, TAC, ECG...) mejora la
rapidez en el triaje y priorizaría el
tratamiento.
La información generada por los nuevos
dispositivos portátiles, económicos y sencillos de
utilizar por los propios pacientes se podrá enviar a
un repositorio centralizado y automatizar el
análisis y diagnóstico.
Mecanismos implantables inteligentes para
dosificación de medicación y medición de variables
biológicas, permitirán diagnosticos precoces,
evitar desplazamientos...
32. Solving Big Data Issues 32
DISYUNTIVA: ME CONSTRUYO YO LA PLATAFORMA O ME SUSCRIBO A UNA?
¿Qué hago, en que
escenario voy a hacer
Big Data?
A Me compongo yo mi propia
plataforma
B Trabajo con una plataforma de
mercado
33. Solving Big Data Issues 33
SI QUIERES CREAR TU PROPIA PLATAFORMA…
DEFINIR TU PROPIA
CADENA DE VALOR
BIG DATA
PARA CADA PASO
SELECIONAR UNO O MÁS
DE 1200 ELEMENTOS
DARLE FORMA… … Y QUE FUNCIONE
Y TÚ HACES
MANTENIMIENTO
CORRECTIVO Y EVOLUTIVO
AL FINAL ALGO FALLA
SEGURO Y LLAMAS A KEEDIO
1 2
3 4
5 6 7
35. Solving Big Data Issues 35
LA CADENA DE VALOR BIG DATA
INGESTIÓN
NoesETLtradicional,esadaptadoaBIGDATA
ALMACENAMIENTO
Datos en crudo, sin tratar HDFS
BBDD NoSQL
Computación y tratamiento de los datos
CONSULTA
VISUALIZACIÓN
APLICACIONES
EXTERNAS
MACHINE LEARNING Y
PREDICITVE
TRATAMIENTO
Computación y tratamiento de los datos.
Batch, Tiempo Real, Streaming.
36. Solving Big Data Issues 36
UNA PLATAFORMA Y SU DESCOMPOSICIÓN EN MÓDULOS
MESSAGE
BUS
BROKER
BATCH DATA
PROCESING
BATCH
REAL TIME DATA
PROCESSING
STREAM
MACHINE LEARNING & PREDICTIVE
NEURONA
LONG TERM DATA STORAGE
ARCHIVE
DATA
ORCHESTATION
WORKFLOW
OPERATIONAL
DATA
STORAGE
OPERATIONAL
DATA GOVERNANCE
AUDITOR
KEEDIO MANAGER & SECURITY
KEEDIO MANAGER
REST API KIO
BI Tools
Dashboards
& Reports
JDBC client
ODBC client
Data Science
Tools
DATA
INGESTION
ENTRY
37. Solving Big Data Issues 37
A TENER EN CUENTA AL ELEGIR UNA PLATAFORMA
No Vendor Lock-in
• Sólo se usan herramientas estables
ampliamente usadas y contrastadas
• Parches y plugins son liberados
como open source
Distribuciones a medida para cada
cliente
• Que se pueda adaptar a las necesidades
de cada cliente o caso de uso.
No reinventar la rueda
• Aprovechar la potencia y capacidad
de desarrollo de la comunidad para
cada módulo.
Integración entre módulos
• A pesar de poder desplegarse de
forma independiente, que exista
estrecha integración entre cada uno
de los módulos.
Analítica avanzada de datos en tiempo
real
• Batch, tiempo real, streaming y predictivo.
38. Solving Big Data Issues
Soluciones Big Data para crear
una plataforma común
La Iniciativa Plataforma Open Data (ODP) es
un esfuerzo de la industria para compartir y
promocionar las tecnologías Apache
Hadoop® y Big Data para la empresa
38
INICIATIVA OPEN DATA PLATFORM
39. Solving Big Data Issues 39
EL VECTOR DE LOS MUNDOS DE PLATAFORMAS:
PROPIETARIO OPEN
40. Solving Big Data Issues
PLATAFORMAS BIG DATA: COMMUNITY “VS” ENTERPRISE
OPCIONES COMMUNITY
SUSCRIPCIÓN
ENTERPRISE
Módulos
Mantenimiento
evolutivo
Soporte
40
41. Solving Big Data Issues 41
UNA DISTRIBUCIÓN BIG DATA PUEDE IR ON-PREMISE O EN LA NUBE
Replicación a 3
• Asegura tolerancia a fallos, evita single one point failure.
• No es necesario cabinas de discos ni sistemas RAID.
• Acelera la lectura de los datos.
ON-PREMISENUBE
Escalará horizontalmente cuando el procesamiento / almacenamiento aumente.
BIG DATA, distribuye sin limite el procesamiento en servidores sin limite.
42. Solving Big Data Issues 42
DISYUNTIVA: ME CONSTRUYO YO LA PLATAFORMA O ME SUSCRIBO A UNA?
¿Qué hago?
A Me compongo yo mi
propia plataforma
B Trabajo con una
plataforma de mercado
Ventajas: Precio,
absolutamente a medida.
Inconvenientes: Me la
mantengo yo, se va el que la ha
construido.
Ventajas: Mantenimiento correctivo
y evolutivo garantizado.
Inconvenientes: Pequeña factura de
suscripción, si es Vendor lock-in es un
gran problema.
44. Solving Big Data Issues 44
ERP
APLICACIONES PRODUCTOS
ERP
Comercial
UUN SISTEMA DE INFORMACIÓN ES UN HYBRID MODEL
Herramienta
analítica
RECONCILACIÓN DE
DATOS
45. Solving Big Data Issues 45
Legacy
Call
Center
Legacy
CRM
Campaign
Manager
Mobile
App E-
commerce
TPV App
Digital
Marketing
DATA
CENTRIC
FUTURO: DATO EN EL MEDIO PARA OPERACIONAL + ANALÍTICO
APLICACIONES PRODUCTOS
ÚNICA BASE
DE DATOS
46. Calle Virgilio 25
Edificio Ayessa I, Bajo D
Pozuelo de Alarcón
28223 Madrid
@keedioinfo@keedio.comwww.keedio.com keedio
Hinweis der Redaktion
por qué se justifica nuestra experiencia en proyectos Big Data. ANTECEDENTES
hemos estado haciendo durante 10 años proyectos de innovación tecnológica y computación distribuida como grids de cómputo financiero y científicos, labotatorios de cálculo acelerado por GPU y despliegues de Clouds privados. Todo esto en ocasiones sin estar ni de moda las palabras. Entonces lo hilo con que en algún momento, se puede decir, que hemos estado haciendo Big Data sin saber que se llamaba Big Data, pero ahora con las mejores herramientas...
en un menor 18K, el Partner quería instalar y parametrizar
Reducción de costes: No para determinados organismos con poco apetito de riesgo. 175 K BigData vs 2000 K BI
El técnico de seguros que dinamita la reunión: “Somos expertos en destrozar reuniones”.
CIO y su cadena lo ven como una amenaza.
En ocasiones no somos capaces de demostrar valor.
Organismos oficiales 1 a 10 BI y rechazan BigData
Hay dos mundos radicalmente distintos en Bigdata: La aplicación al negocio / tecnología.
Hay que ingestar (Blogs, Foros y Redes Sociales).
Data Scientics = dar valor al dato; semántico.
Importante: Segmentar votantes; geolocalización, lenguaje, horas…
X Segmento = Pensar en el mensaje que va a calar
España 2016 - Los sondeos públicos predijeron 117 escaños para el PP, The Messina Group predijo 135, resultado final 137“
Conclusión = Fiabilidad + Precio
El triaje (del francés triage = clasificación) o protocolo de intervención, es un método de selección y clasificación de pacientes
Información genética: Anderson 1 hora
Conclusión a las tendencias: Customer centric + Fraude
Podemos montarnos una plataforma nosotros
Mantenimiento correctivo y evolutivo delicado.
Error, caso de Fracaso: Piensan en la plataforma sin pensar en los casos de uso que van a implementar / desarrollar.
Ya estamos convencidos de que hay que ir a una plataforma.
Error: Construirte la tuya… en ocasiones al final ha habido que suscribirse a una y “reescribir” todo el código.
Ál final de la mañana: Cómo empezamos + cómo se hace un proyecto
Lo está contando BdE / Caixabank etc…
Problema = Transaccional, no un CICS
No es un problema de BigData, es un problema de normalización de datos y de definición de Bases de Datos