Big Data de verdad, en 4K y en tiempo real; Arquitectura Logtrust

•

2 gefällt mir•1,351 views

Este mes vamos a ver una arquitectura Big Data de verdad (TB por cliente/día) donde se explicara como se lee y escribe tal cantidad de datos, como se procesa y como se muestra al usuario para sacarle verdadero partido. Los ponentes serán Joaquín Diez (@joaquindiez) y Juan Vicente Herrera (@jvicenteherrera) de Logtrust. Se explicara como era la arquitectura inicial, todos los problemas surgidos y sus soluciones, los puntos débiles a mejorar y como se administra todo a día de hoy mediante Ansible y la propia herramienta (Logtrust) para la monitorización de todo evento sucedido en la plataforma. También se explicará la diferencia entre una instalación en nodos físicos y en la nube que es un punto muy sensible a la hora de tratar datos tanto por rendimiento como por seguridad de los mismos.

Daten & Analysen

Big Data de verdad, en
4K y en tiempo real;
Arquitectura Logtrust
Juan Vicente Herrera @jvicenteherrera
Joaquin Díez Gómez @joaquindiez

All data that is not a ﬁt for a
traditional RDBMS, whether used
for OLTP or Analytics purposes
@eddie_satterly - Splunk

• Devops
• Desarrolladores: detección de errores, análisis de
uso de sus aplicaciones (Web, Apps)
• Analíticas en Tiempo Real (User & Business)
• Detección de anomalías, análisis de tendencias.

• CAPTURAMOS DATOS (Eventos)
• ALMACENAMOS
• EXTRAER SU VALOR POTENCIAL
SIMPLIFICANDO

¿por que no usar una Base de
datos normal?
• cuando se tiene un martillo
todos los problemas son
clavos.
• ACID compromete los limites
escalabilidad y rendimiento
de los sistemas
• No todos los datos necesitan
almacenamientos ACID
• NO ESCALAN
EL PROBLEMA
RDBMS

• 10 servidores
• 8640 eventos por dia ( 1 cada 10 segundos)
• 365 dias
• = 31.536.000 eventos en 1 año

Big Data Technologies
(2011-)
Bases de Datos Relacionales
(muy estructurados)
Sistemas de Archivos Distribuidos
(semi-estructurados)
Clave/Valor, Columnares y otros
(semi-estructurados)
MongoDB
NOSQL
Cassandra
CouchDB
RDBMS
Sharing
HDFS Storage
Map / Reduce

Vamos a desarrollar nuestra propia
tecnología !!!!!!

- Almacenar Datos con y sin estructura
- Almacenarlos en su formato Original
- Escalable
- Tolerante a Fallos
- Muy eﬁciente en escritura y en lectura
- Escalabilidad lineal en el rendimiento
- Sin degradación del rendimiento según se incrementa el volumen de datos.
- Procesar información en Tiempo Real
- Un Lenguaje común: SQL
OBJETIVO

19
100.000 EPS Escritura por core (1 hebra)
1.000.000 EPS Lectura por core = 1 Query 2M EPS
Ubuntu Linux
8 cores
30GB Memoria
2TB disco
EL DATANODO
Alcohol
Malote Malote
51.000 Millones de Eventos (512 bytes)

¿Como se consigue esa
velocidad?
• Eliminando TODO lo que no necesitamos
• No Es ACID
• Solo se implementa Escritura y Lectura de Datos
• Compresión de los datos en crudo. Ratio 12:1
20

21
Escritura 100.000 *8 = 800.000 EPS
Batrasio
MetaMalote

22
Escritura 100.000 *30 = 3.000.000 EPS
60TB = 1.5 Billones de
Eventos
30 datanodos
Consulta 1M *60 = 60.000.000 EPS

SQL
23
Cluster de Almacenamiento
Motor de
Correlación
Motor de Alertas
SQL
Motor de
Agregación
SQL
Web App, Busqueda
Dashboards, Reporting, Aplicaciones
VerticalesSQL
API
REST
Email
JIRA
PushOver
PagerDuty
HTTP/JSON
MySql

Integración contínua
• Hace no mucho…
• Integración contínua a medias. Test pero no
automatizados ni despliegues automáticos
• Despliegues manuales mediante scripts que no
cubrían todo el despliegue
• Sin gestión de conﬁguración (manual)
• Control de versiones mediante git
24

Ansible al rescate
• Despliegues mediante Ansible
• Gestión de la conﬁguración mediante Ansible
• Cifrado mediante Ansible-vault
• Despliegues contínuos (Gitlab + Jenkins + Ansible)
• Notiﬁcaciones de jobs Jenkins mediante Slack (Mucho por
mejorar aún)
• Migración a GitLab (Mejor gestión de permisos)
• Test seguimos mejorándolos: Hemos ﬁchado al primer QA!
25

Infraestructura/Stack
• Agnósticos al proveedor gracias a:
• Ansible (SSH)
• Stack opensource (Ubuntu,
Java,NodeJs,Tomcat, Nginx, HAproxy,
MongoDB, MySQL, RabbitMQ…)
26

Proveedores actuales
• AWS
• Azure
• VDC (Teléfonica)
• VmWare
• Bare metal
27

Tipo de instalaciones
• OnPremise (Cloud y bare metal). Grandes clientes
solo.
• Híbridos (Cloud y bare metal): Datos en servidor
cliente.
• SAS: Solo agente y datos a nuestra nube.
28

https://www.logtrust.com/en/category/jobs/

Empfohlen

Un viaje a la observabilidadElasticsearch

Continuidad del Negocio con Azure SQL DatabaseAdrian Miranda

Microservicios, en qué lío me he metidoErnesto Hernández Rodríguez

Introducción a Amazon Web ServicesFrancisco Rodera

Desmitificando el Big Data por LogtrustLogtrust

Comunicacion en equipos tecnicos, teowaki, javier ramirezjavier ramirez

Arquitectura de tiempo real para un sistema inteligenteandreygio

Mándala - Sistemas de Tiempo RealMayra Rodriguez

Empfohlen

Un viaje a la observabilidadElasticsearch

Continuidad del Negocio con Azure SQL DatabaseAdrian Miranda

Microservicios, en qué lío me he metidoErnesto Hernández Rodríguez

Introducción a Amazon Web ServicesFrancisco Rodera

Desmitificando el Big Data por LogtrustLogtrust

Comunicacion en equipos tecnicos, teowaki, javier ramirezjavier ramirez

Arquitectura de tiempo real para un sistema inteligenteandreygio

Mándala - Sistemas de Tiempo RealMayra Rodriguez

Evolución hacia las plataformas de datos modernas, el Edge-to-cloud continuumAngel Conde Manjon

Tercera Jornada de BI y analítica aplicada a tu negocio.pptxIT-NOVA

Click houset3chfestFco. Javier Sanz Olivera

Introducción a Microsoft Azure SQL Data WarehouseJoseph Lopez

Big Data - Desarrollando soluciones efectivasJoseph Lopez

Big Data - Infraestrucutra de BI para soluciones de BIDatalytics

Azure Realtime analytics: Análisis de datos en tiempo realSoftware Guru

SQL MonitoringSpanishPASSVC

Conferencia MySQL, NoSQL & Cloud: Construyendo una infraestructura de big dat...Socialmetrix

Base de datos 1johanna jauregui

BI real time analyticsSolidQ

Microsoft Azure Data EnvironmentJoseph Lopez

13 14 keynote dando sentido al internet de las cosas, infobrightSoftware Guru

Gestión de grandes volúmenes de informaciónGuatemala User Group

Mejores prácticas de Data Warehouse con SQL ServerSpanishPASSVC

AWS Summit Barcelona - Data Analysis on AWSAmazon Web Services

Administrando SQL Server, mejores practicas para un DBASpanishPASSVC

Gánale la partida a tu SQL Server, configuración ideal para que todo vaya bie...SolidQ

Escalabilidad en azure web sites y sql databaseEduardo Castro

IT Nova - Jaspersoft Versión 9.0 Webinario IT-NOVA

Industria musical de EUA vs Industria musical Corea del Sur (2024).pdfJC Díaz Herrera

AA CUADRO DE TEORIA DEL CASO. (1) (1).docxLuisAngelYomonaYomon

Weitere ähnliche Inhalte

Ähnlich wie Big Data de verdad, en 4K y en tiempo real; Arquitectura Logtrust

Evolución hacia las plataformas de datos modernas, el Edge-to-cloud continuumAngel Conde Manjon

Tercera Jornada de BI y analítica aplicada a tu negocio.pptxIT-NOVA

Click houset3chfestFco. Javier Sanz Olivera

Introducción a Microsoft Azure SQL Data WarehouseJoseph Lopez

Big Data - Desarrollando soluciones efectivasJoseph Lopez

Big Data - Infraestrucutra de BI para soluciones de BIDatalytics

Azure Realtime analytics: Análisis de datos en tiempo realSoftware Guru

SQL MonitoringSpanishPASSVC

Conferencia MySQL, NoSQL & Cloud: Construyendo una infraestructura de big dat...Socialmetrix

Base de datos 1johanna jauregui

BI real time analyticsSolidQ

Microsoft Azure Data EnvironmentJoseph Lopez

13 14 keynote dando sentido al internet de las cosas, infobrightSoftware Guru

Gestión de grandes volúmenes de informaciónGuatemala User Group

Mejores prácticas de Data Warehouse con SQL ServerSpanishPASSVC

AWS Summit Barcelona - Data Analysis on AWSAmazon Web Services

Administrando SQL Server, mejores practicas para un DBASpanishPASSVC

Gánale la partida a tu SQL Server, configuración ideal para que todo vaya bie...SolidQ

Escalabilidad en azure web sites y sql databaseEduardo Castro

IT Nova - Jaspersoft Versión 9.0 Webinario IT-NOVA

Ähnlich wie Big Data de verdad, en 4K y en tiempo real; Arquitectura Logtrust (20)

Evolución hacia las plataformas de datos modernas, el Edge-to-cloud continuum

Tercera Jornada de BI y analítica aplicada a tu negocio.pptx

Click houset3chfest

Introducción a Microsoft Azure SQL Data Warehouse

Big Data - Desarrollando soluciones efectivas

Big Data - Infraestrucutra de BI para soluciones de BI

Azure Realtime analytics: Análisis de datos en tiempo real

SQL Monitoring

Conferencia MySQL, NoSQL & Cloud: Construyendo una infraestructura de big dat...

Base de datos 1

BI real time analytics

Microsoft Azure Data Environment

13 14 keynote dando sentido al internet de las cosas, infobright

Gestión de grandes volúmenes de información

Mejores prácticas de Data Warehouse con SQL Server

AWS Summit Barcelona - Data Analysis on AWS

Administrando SQL Server, mejores practicas para un DBA

Gánale la partida a tu SQL Server, configuración ideal para que todo vaya bie...

Escalabilidad en azure web sites y sql database

IT Nova - Jaspersoft Versión 9.0 Webinario

Kürzlich hochgeladen

Industria musical de EUA vs Industria musical Corea del Sur (2024).pdfJC Díaz Herrera

AA CUADRO DE TEORIA DEL CASO. (1) (1).docxLuisAngelYomonaYomon

Las mujeres más ricas del mundo (2024).pdfJC Díaz Herrera

Las familias más ricas del sionismo en el siglo XXI.pdfJC Díaz Herrera

Novelas Turcas vs Series de EUA en audiencia (2024).pdfJC Díaz Herrera

Listas de Fundamentos de Programación 2024AndrsReinosoSnchez1

Premios_nobel_por_grupo_racial_ (2024).pdfJC Díaz Herrera

Familias_más_ricas_de_AL_en_la_historia.pdfJC Díaz Herrera

Los artistas mexicanos con más ventas de discos en la historia (2024).pdfJC Díaz Herrera

Posiciones del IDH a nivel global en México (1982-2024).pdfJC Díaz Herrera

presentacion de conjuntos para primaria.pptMelina Alama Visitacion

PIB PERÚ datos y análisis de los últimos añosEstefaniaRojas54

La importancia de las pruebas de producto para tu empresamerca6

Data Warehouse.gestion de bases de datosssuser948499

Panorama Sociodemográfico de México 2020: GUANAJUATOJuan Carlos Fonseca Mata

Tipos de Educacion en diferentes partes del mundo.pptxMiguelPerz4

Evolución de la fortuna de la familia Slim (1994-2024).pdfJC Díaz Herrera

Cuáles son las características biológicas que están marcadas en tu individual...israel garcia

Análisis de datos en acción: Optimizando el crecimiento de CyclisticJamithGarcia1

Países por velocidad de sus misiles hipersónicos (2024).pdfJC Díaz Herrera

Kürzlich hochgeladen (20)

Industria musical de EUA vs Industria musical Corea del Sur (2024).pdf

AA CUADRO DE TEORIA DEL CASO. (1) (1).docx

Las mujeres más ricas del mundo (2024).pdf

Las familias más ricas del sionismo en el siglo XXI.pdf

Novelas Turcas vs Series de EUA en audiencia (2024).pdf

Listas de Fundamentos de Programación 2024

Premios_nobel_por_grupo_racial_ (2024).pdf

Familias_más_ricas_de_AL_en_la_historia.pdf

Los artistas mexicanos con más ventas de discos en la historia (2024).pdf

Posiciones del IDH a nivel global en México (1982-2024).pdf

presentacion de conjuntos para primaria.ppt

PIB PERÚ datos y análisis de los últimos años

La importancia de las pruebas de producto para tu empresa

Data Warehouse.gestion de bases de datos

Panorama Sociodemográfico de México 2020: GUANAJUATO

Tipos de Educacion en diferentes partes del mundo.pptx

Evolución de la fortuna de la familia Slim (1994-2024).pdf

Cuáles son las características biológicas que están marcadas en tu individual...

Análisis de datos en acción: Optimizando el crecimiento de Cyclistic

Países por velocidad de sus misiles hipersónicos (2024).pdf

Big Data de verdad, en 4K y en tiempo real; Arquitectura Logtrust

1. Big Data de verdad, en 4K y en tiempo real; Arquitectura Logtrust Juan Vicente Herrera @jvicenteherrera Joaquin Díez Gómez @joaquindiez

3. BIG DATA en Tiempo Real

4. ¿Por qué BIG DATA?

5. All data that is not a ﬁt for a traditional RDBMS, whether used for OLTP or Analytics purposes @eddie_satterly - Splunk

6. Eventos

10. BIG DATA en Tiempo Real

11. Casos de Uso

12. • Devops • Desarrolladores: detección de errores, análisis de uso de sus aplicaciones (Web, Apps) • Analíticas en Tiempo Real (User & Business) • Detección de anomalías, análisis de tendencias.

13. • CAPTURAMOS DATOS (Eventos) • ALMACENAMOS • EXTRAER SU VALOR POTENCIAL SIMPLIFICANDO

14. ¿por que no usar una Base de datos normal? • cuando se tiene un martillo todos los problemas son clavos. • ACID compromete los limites escalabilidad y rendimiento de los sistemas • No todos los datos necesitan almacenamientos ACID • NO ESCALAN EL PROBLEMA RDBMS

15. • 10 servidores • 8640 eventos por dia ( 1 cada 10 segundos) • 365 dias • = 31.536.000 eventos en 1 año

16. Big Data Technologies (2011-) Bases de Datos Relacionales (muy estructurados) Sistemas de Archivos Distribuidos (semi-estructurados) Clave/Valor, Columnares y otros (semi-estructurados) MongoDB NOSQL Cassandra CouchDB RDBMS Sharing HDFS Storage Map / Reduce

17. Vamos a desarrollar nuestra propia tecnología !!!!!!

18. - Almacenar Datos con y sin estructura - Almacenarlos en su formato Original - Escalable - Tolerante a Fallos - Muy eﬁciente en escritura y en lectura - Escalabilidad lineal en el rendimiento - Sin degradación del rendimiento según se incrementa el volumen de datos. - Procesar información en Tiempo Real - Un Lenguaje común: SQL OBJETIVO

19. 19 100.000 EPS Escritura por core (1 hebra) 1.000.000 EPS Lectura por core = 1 Query 2M EPS Ubuntu Linux 8 cores 30GB Memoria 2TB disco EL DATANODO Alcohol Malote Malote 51.000 Millones de Eventos (512 bytes)

20. ¿Como se consigue esa velocidad? • Eliminando TODO lo que no necesitamos • No Es ACID • Solo se implementa Escritura y Lectura de Datos • Compresión de los datos en crudo. Ratio 12:1 20

21. 21 Escritura 100.000 *8 = 800.000 EPS Batrasio MetaMalote

22. 22 Escritura 100.000 *30 = 3.000.000 EPS 60TB = 1.5 Billones de Eventos 30 datanodos Consulta 1M *60 = 60.000.000 EPS

23. SQL 23 Cluster de Almacenamiento Motor de Correlación Motor de Alertas SQL Motor de Agregación SQL Web App, Busqueda Dashboards, Reporting, Aplicaciones VerticalesSQL API REST Email JIRA PushOver PagerDuty HTTP/JSON MySql

24. Integración contínua • Hace no mucho… • Integración contínua a medias. Test pero no automatizados ni despliegues automáticos • Despliegues manuales mediante scripts que no cubrían todo el despliegue • Sin gestión de conﬁguración (manual) • Control de versiones mediante git 24

25. Ansible al rescate • Despliegues mediante Ansible • Gestión de la configuración mediante Ansible • Cifrado mediante Ansible-vault • Despliegues contínuos (Gitlab + Jenkins + Ansible) • Notificaciones de jobs Jenkins mediante Slack (Mucho por mejorar aún) • Migración a GitLab (Mejor gestión de permisos) • Test seguimos mejorándolos: Hemos fichado al primer QA! 25

26. Infraestructura/Stack • Agnósticos al proveedor gracias a: • Ansible (SSH) • Stack opensource (Ubuntu, Java,NodeJs,Tomcat, Nginx, HAproxy, MongoDB, MySQL, RabbitMQ…) 26

27. Proveedores actuales • AWS • Azure • VDC (Teléfonica) • VmWare • Bare metal 27

28. Tipo de instalaciones • OnPremise (Cloud y bare metal). Grandes clientes solo. • Híbridos (Cloud y bare metal): Datos en servidor cliente. • SAS: Solo agente y datos a nuestra nube. 28

29. Demo Time 29

30. 30

31. https://www.logtrust.com/en/category/jobs/