SlideShare una empresa de Scribd logo
1 de 35
Descargar para leer sin conexión
How to build your own
data platform
(from zero to hero)
Viernes, 28 de Abril, 2023. Salmorejo Tech.
Agenda
Acerca de Adevinta
¿Qué es una plataforma de datos?
Mundo operacional vs mundo
analítico
¿Quienes son nuestros usuari@s?
Solución simple
Solución intermedia
Solución avanzada
Q&A
01
04
05
06
07
08
09
10
El equipo de la plataforma de datos
02
¿Quién soy yo?
03
Adevinta is a global online
classifieds specialist, operating
digital marketplaces in 11 countries
We provide technology-based services to connect buyers
with sellers and to facilitate transactions, from job offers
to real estate, cars, consumer goods and more.
Adevinta’s portfolio spans 25 digital products and
websites, covering one billion people and with around
three billion monthly visits.
Our Global
Tech Hubs
Barcelona Paris
Amsterdam Berlin
Our local brands are supported by Global Product &
Tech teams based in our Tech Hubs in Paris,
Barcelona, Berlin and Amsterdam.
We use cutting edge technology to build highly
scalable and customisable products, platforms and
services, which all of our marketplaces can use.
Our Tech Hubs are also home to our Global Teams,
who bring our marketplaces together and make sure
we’re all working towards our shared purpose.
25
11
8,100
3
1.5bn
514m
Global view of all our brands
Quienes conforman el equipo de data platform en
Adevinta Spain
● Christian Herrera - Data Engineer
● Enric Martinez - Data Engineer Enabler Lead
● Gustavo Martin - Data Engineer
● Ismael Arab - SRE
● Jaime Gonzalez - SRE
● Javier Carravilla - Data Engineer
● Joel Llacer - SRE
● Marc Planagumà - Data Platform & Governance Director
● Marta Diaz - Product Owner Data Platform
● Naveen Kumar - Data Engineer
● Roger Escuder - SRE
● Sergio Couto - Data Engineer
● Victor Colomé - Data Engineer
¿Quién soy yo?
● Gustavo Martin Morcuende.
● Más de 10 años de experiencia como desarrollador de backend y frontend.
● También trabajé como arquitecto fullstack en diferentes empresas.
● Actualmente trabajo como Data Platform Engineer en Adevinta Spain. Cuando la
situación lo requiere me convierto en Data Platform Tech Lead.
● https://gumartinm.name/
● https://fosstodon.org/@gumartinm
Mundo operacional vs mundo analítico
¿Qué es una plataforma de datos?
● Una plataforma de datos permite la adquisición, almacenamiento, preparación, reparto y gobierno de datos.
También añade una capa de seguridad para los usuari@s y aplicaciones.
https://www.mongodb.com/what-is-a-data-platform
● Una plataforma de datos es una solución completa para la ingestión, procesado, análisis y presentación de
datos generados por sistemas, procesos e infraestructuras de las organizaciones digitales modernas.
https://www.splunk.com/en_us/data-insider/what-is-a-data-platform.html
¿Quiénes son nuestros usuari@s?
● Data Engineers
● Data Analysts
● Data Scientists
● Machine Learning Engineers
● Cualquier otra persona interesada en trabajar con datos
¿Qué hace un Data Engineer?
Se enfoca en el diseño, construcción,
mantenimiento y gestión de infraestructuras de
datos.
● Implementación y gestión de sistemas de
almacenamiento de datos (bases de
datos, almacenamientos en la nube, etc,
etc)
● Asegurar que los datos estén limpios,
organizados y estructurados de manera
adecuada para que puedan ser utilizados
de manera efectiva.
¿Quiénes son nuestros usuari@s?
¿Qué hace un Data Scientist?
Utiliza técnicas estadísticas y de análisis de datos
para extraer información útil con el objetivo de
mejorar la toma de decisiones y la eficacia de una
empresa.
Recopila, procesa y analiza datos para ayudar a las
empresas a tomar decisiones informadas. Su trabajo
es proporcionar información relevante y accionable
para impulsar el crecimiento y el éxito empresarial.
¿Qué hace un Data Analyst?
Desarrolla y optimiza modelos de aprendizaje automático
para resolver problemas empresariales complejos. Su
trabajo es construir sistemas que puedan aprender y
mejorar a medida que se exponen a más datos.
¿Qué hace un Machine Learning Engineer?
¿Quiénes son nuestros usuarios?
Solución simple
Mundo operacional y analítico comparten la misma base de datos
Solución simple Base de datos
● postgresql, mysql, oracle, etc, etc
● esquemas
● tablas
● permisos
Aplicaciones
● Leen tablas de la base de datos, realizan una
transformación y escriben los resultados en otras
tablas.
● ETL, extract, transform, load
Dashboards
● Diagramas donde se muestran datos de interés
Machine learning
● MLFlow
● Kubeflow
Solución simple
● Base de datos, por ejemplo
PostgreSQL
● Crear esquemas y tablas, modelo
entidad-relación
CREATE TABLE ESTUDIANTES(
ID INT PRIMARY KEY NOT NULL,
NAME TEXT NOT NULL
);
● Asignar permisos
GRANT SELECT ON ESTUDIANTES TO
analistas_de_datos;
● Gobernanza: definición de estándares,
nombres, etc.
● Aplicaciones, por ejemplo
Apache Airflow
● Dashboards: Qlik, Tableau,
etc
● Machine Learning, por
ejemplo Kubeflow
Solución simple
Apache Airflow
Solución simple
Apache Airflow
Solución intermedia
Mundo operacional y analítico separados
Solución intermedia
Consumo
● aplicaciones para la extracción de datos del
mundo operacional
Data Warehouse
● AWS Redshift, BigQuery
● esquemas
● tablas
● permisos
Aplicaciones
● Leen tablas del data warehouse, realizan una
transformación y escriben los resultados en
otras tablas.
● ETL, extract, transform, load
Dashboards
● Diagramas donde se muestran datos de interés
Machine learning
● MLFlow
● Kubeflow
Solución intermedia
¿Qué es un Data Warehouse?
● Es una base de datos centralizada que integra muchas fuentes de datos.
● Permite aislar los sistemas operacionales de los analíticos.
● Queries lanzadas desde el sistema analítico no afectan al operacional.
● Permite reorganizar la información de forma que sea más fácilmente analizable.
● Proporciona un único modelo de datos.
● Permite mantener un histórico de información que el operacional, por no necesitarla,
puede borrar.
● Permite integrar múltiples fuentes de datos en un único lugar.
Solución intermedia
¿Qué es un Data Warehouse?
● Modelado específico, esquema en estrella.
● Compuesto de tablas de hechos y de dimensiones.
Tabla de hechos: sucesión de hechos, alto número de registros.
Tabla de dimensiones: descripción de los hechos, pocos registros y muchos atributos.
● Permite la optimización de las queries en modo lectura.
● Permite queries más simples, sin necesidad de múltiples JOINs como podría suceder en un modelo
normalizado de entidad-relación.
● Permisos vía GRANTs en tablas.
Solución intermedia
● Base de datos, por ejemplo
AWS Redshift
● Crear esquemas y tablas (hechos y
dimensiones)
CREATE TABLE HECHOS_ESTUDIANTES(
EDAD INT NOT NULL,
TIEMPO INT NOT NULL,
);
● Asignar permisos
GRANT SELECT ON HECHOS_ESTUDIANTES TO
analistas_de_datos;
● Gobernanza: definición de estándares,
nombres, etc.
● Aplicaciones, por ejemplo
Apache Airflow
● Dashboards: Qlik, Tableau,
etc
● Machine Learning, por
ejemplo Kubeflow
Solución intermedia
¿Qué es AWS Redshift?
¡Usar infraestructura como código! Ejemplo Terraform.
Solución intermedia
¿Qué es AWS Redshift?
Solución avanzada
Solución avanzada
Consumo
● aplicaciones para la extracción de datos del
mundo operacional
Data Warehouse
● AWS Redshift, BigQuery
● esquemas
● tablas
● permisos
Aplicaciones
● Leen tablas del data warehouse, realizan una
transformación y escriben los resultados en
otras tablas.
● ETL, extract, transform, load
Dashboards
● Diagramas donde se muestran datos de interés
Data Lake o Lakehouse
● AWS S3
Machine learning
● MLFlow
● Kubeflow
Solución avanzada
¿Qué es un Data Lake o Lakehouse?
● Es un sistema de almacenamiento de datos masivo y barato.
● Se utiliza para almacenar grandes cantidades de información en su formato nativo, sin
necesidad de que los datos estén estructurados de una manera particular (JSON, XML,
logs, etc)
● Los datos pueden provenir de diferentes fuentes, bases de datos, sensores, registros de
máquinas, APIs, etc.
● Permite aislar los sistemas operacionales de los analíticos.
● Se utilizan sistemas distribuidos como AWS S3 de Amazon o HDFS (sistema de archivos
de Hadoop)
Solución avanzada
¿Qué es un Data Lake o Lakehouse implementado en AWS S3?
● En Adevinta, implementado en AWS S3 (en Amazon Cloud)
● Puede verse como un sistema de archivos con carpetas
● ¡Pero no es un sistema de archivos!
● Los archivos se llaman objetos.
● Podemos usarlo mediante el Hadoop File System, Apache Spark, etc, etc.
● Permisos vía IAM Roles.
Solución avanzada
● Base de datos, por ejemplo
AWS Redshift
● Crear esquemas y tablas (hechos y
dimensiones)
CREATE TABLE HECHOS_ESTUDIANTES(
EDAD INT NOT NULL,
TIEMPO INT NOT NULL,
);
● Asignar permisos
GRANT SELECT ON HECHOS_ESTUDIANTES TO
analistas_de_datos;
● Gobernanza: definición de estándares,
nombres, etc.
● Aplicaciones, por ejemplo
Apache Airflow, Apache Spark
● Dashboards: Qlik, Tableau,
etc
● Machine Learning, por
ejemplo Kubeflow
● Data Lake, AWS S3
Solución avanzada
Ejemplo notebook con Apache Spark
Q&A
thank you | gracias | merci
grazie | obrigado | danke
köszönöm | спасибо | ‫ﺷﻛرا‬

Más contenido relacionado

Similar a Cómo construir tu propia data platform. From zero to hero.

Topicos de ingeneria_de_sistema_sii_calzada1
Topicos de ingeneria_de_sistema_sii_calzada1Topicos de ingeneria_de_sistema_sii_calzada1
Topicos de ingeneria_de_sistema_sii_calzada1
Calzada Meza
 
Bd eq. #3 actividad 2 unidad 2 comparacion oracle y mysql
Bd eq. #3 actividad 2 unidad 2 comparacion oracle y mysqlBd eq. #3 actividad 2 unidad 2 comparacion oracle y mysql
Bd eq. #3 actividad 2 unidad 2 comparacion oracle y mysql
KARY
 
Bd eq. #3 actividad 2 unidad 2 oracle y mysql
Bd eq. #3 actividad 2 unidad 2 oracle y mysqlBd eq. #3 actividad 2 unidad 2 oracle y mysql
Bd eq. #3 actividad 2 unidad 2 oracle y mysql
KARY
 
Bd eq. #3 actividad extra comparacion oracle y mysql
Bd eq. #3 actividad extra comparacion oracle y mysqlBd eq. #3 actividad extra comparacion oracle y mysql
Bd eq. #3 actividad extra comparacion oracle y mysql
KARY
 
Bd eq. #3 actividad 2 unidad 2 comparacion oracle y mysql
Bd eq. #3 actividad 2 unidad 2 comparacion oracle y mysqlBd eq. #3 actividad 2 unidad 2 comparacion oracle y mysql
Bd eq. #3 actividad 2 unidad 2 comparacion oracle y mysql
KARY
 
Componentes de sql server 2008
Componentes de sql server 2008Componentes de sql server 2008
Componentes de sql server 2008
Jillian Motoharu
 
Datawarehouse1
Datawarehouse1Datawarehouse1
Datawarehouse1
nestor
 

Similar a Cómo construir tu propia data platform. From zero to hero. (20)

Topicos de ingeneria_de_sistema_sii_calzada1
Topicos de ingeneria_de_sistema_sii_calzada1Topicos de ingeneria_de_sistema_sii_calzada1
Topicos de ingeneria_de_sistema_sii_calzada1
 
Dts y analysis services 2000
Dts y analysis services 2000Dts y analysis services 2000
Dts y analysis services 2000
 
Oracle data integrator (odi)
Oracle data integrator (odi)Oracle data integrator (odi)
Oracle data integrator (odi)
 
Bd eq. #3 actividad 2 unidad 2 comparacion oracle y mysql
Bd eq. #3 actividad 2 unidad 2 comparacion oracle y mysqlBd eq. #3 actividad 2 unidad 2 comparacion oracle y mysql
Bd eq. #3 actividad 2 unidad 2 comparacion oracle y mysql
 
Bd eq. #3 actividad 2 unidad 2 oracle y mysql
Bd eq. #3 actividad 2 unidad 2 oracle y mysqlBd eq. #3 actividad 2 unidad 2 oracle y mysql
Bd eq. #3 actividad 2 unidad 2 oracle y mysql
 
Big data, Big Objects
Big data, Big ObjectsBig data, Big Objects
Big data, Big Objects
 
Mejorar la toma de decisiones y reducir costes con el Logical Data Warehouse ...
Mejorar la toma de decisiones y reducir costes con el Logical Data Warehouse ...Mejorar la toma de decisiones y reducir costes con el Logical Data Warehouse ...
Mejorar la toma de decisiones y reducir costes con el Logical Data Warehouse ...
 
Sql server analysis services 2008
Sql server analysis services 2008Sql server analysis services 2008
Sql server analysis services 2008
 
Bd eq. #3 actividad extra comparacion oracle y mysql
Bd eq. #3 actividad extra comparacion oracle y mysqlBd eq. #3 actividad extra comparacion oracle y mysql
Bd eq. #3 actividad extra comparacion oracle y mysql
 
Bd eq. #3 actividad 2 unidad 2 comparacion oracle y mysql
Bd eq. #3 actividad 2 unidad 2 comparacion oracle y mysqlBd eq. #3 actividad 2 unidad 2 comparacion oracle y mysql
Bd eq. #3 actividad 2 unidad 2 comparacion oracle y mysql
 
Componentes de sql server 2008
Componentes de sql server 2008Componentes de sql server 2008
Componentes de sql server 2008
 
Analisis multidemensional.pdf
Analisis multidemensional.pdfAnalisis multidemensional.pdf
Analisis multidemensional.pdf
 
Integración de Datos sin límites con Pentaho
Integración de Datos sin límites con PentahoIntegración de Datos sin límites con Pentaho
Integración de Datos sin límites con Pentaho
 
Grupo eGlu Bi
Grupo eGlu BiGrupo eGlu Bi
Grupo eGlu Bi
 
Tarea 3 Ayudantía
Tarea 3 AyudantíaTarea 3 Ayudantía
Tarea 3 Ayudantía
 
Tema LOS SGBD O DBMS.pptx
Tema LOS SGBD O DBMS.pptxTema LOS SGBD O DBMS.pptx
Tema LOS SGBD O DBMS.pptx
 
Base de Datos - Daniela Monsalve
Base de Datos - Daniela MonsalveBase de Datos - Daniela Monsalve
Base de Datos - Daniela Monsalve
 
Base de Datos
Base de DatosBase de Datos
Base de Datos
 
Datawarehouse1
Datawarehouse1Datawarehouse1
Datawarehouse1
 
DATAWAREHOUSE
DATAWAREHOUSEDATAWAREHOUSE
DATAWAREHOUSE
 

Último

Último (20)

Análisis de datos en acción: Optimizando el crecimiento de Cyclistic
Análisis de datos en acción: Optimizando el crecimiento de CyclisticAnálisis de datos en acción: Optimizando el crecimiento de Cyclistic
Análisis de datos en acción: Optimizando el crecimiento de Cyclistic
 
Investigacion cualitativa y cuantitativa....pdf
Investigacion cualitativa y cuantitativa....pdfInvestigacion cualitativa y cuantitativa....pdf
Investigacion cualitativa y cuantitativa....pdf
 
El Manierismo. El Manierismo
El Manierismo.              El ManierismoEl Manierismo.              El Manierismo
El Manierismo. El Manierismo
 
Industria musical de EUA vs Industria musical Corea del Sur (2024).pdf
Industria musical de EUA vs Industria musical Corea del Sur (2024).pdfIndustria musical de EUA vs Industria musical Corea del Sur (2024).pdf
Industria musical de EUA vs Industria musical Corea del Sur (2024).pdf
 
CALENDARIZACIÓN ACTUALIZADA DEL 2024 alt.pdf
CALENDARIZACIÓN ACTUALIZADA DEL 2024 alt.pdfCALENDARIZACIÓN ACTUALIZADA DEL 2024 alt.pdf
CALENDARIZACIÓN ACTUALIZADA DEL 2024 alt.pdf
 
Cesar Vilchis Vieyra Cesar Vilchis Vieyra
Cesar Vilchis Vieyra  Cesar Vilchis VieyraCesar Vilchis Vieyra  Cesar Vilchis Vieyra
Cesar Vilchis Vieyra Cesar Vilchis Vieyra
 
Novelas Turcas vs Series de EUA en audiencia (2024).pdf
Novelas Turcas vs Series de EUA en audiencia  (2024).pdfNovelas Turcas vs Series de EUA en audiencia  (2024).pdf
Novelas Turcas vs Series de EUA en audiencia (2024).pdf
 
AA CUADRO DE TEORIA DEL CASO. (1) (1).docx
AA CUADRO DE TEORIA DEL CASO. (1) (1).docxAA CUADRO DE TEORIA DEL CASO. (1) (1).docx
AA CUADRO DE TEORIA DEL CASO. (1) (1).docx
 
Los primeros 60 países por IDH en el año (2024).pdf
Los primeros 60 países por IDH en el año (2024).pdfLos primeros 60 países por IDH en el año (2024).pdf
Los primeros 60 países por IDH en el año (2024).pdf
 
diseño de una linea de produccion de jabon liquido.pptx
diseño de una linea de produccion de jabon liquido.pptxdiseño de una linea de produccion de jabon liquido.pptx
diseño de una linea de produccion de jabon liquido.pptx
 
procedimiento paran la planificación en los centros educativos tipo v(multig...
procedimiento  paran la planificación en los centros educativos tipo v(multig...procedimiento  paran la planificación en los centros educativos tipo v(multig...
procedimiento paran la planificación en los centros educativos tipo v(multig...
 
Triptico-del-Bullying qué es, cómo detectarlo, donde acudir
Triptico-del-Bullying qué es, cómo detectarlo, donde acudirTriptico-del-Bullying qué es, cómo detectarlo, donde acudir
Triptico-del-Bullying qué es, cómo detectarlo, donde acudir
 
Sistema Nacional de Vigilancia en Salud Pública SIVIGILA
Sistema Nacional de Vigilancia en Salud Pública SIVIGILASistema Nacional de Vigilancia en Salud Pública SIVIGILA
Sistema Nacional de Vigilancia en Salud Pública SIVIGILA
 
Principales Retos Demográficos de Puerto Rico
Principales Retos Demográficos de Puerto RicoPrincipales Retos Demográficos de Puerto Rico
Principales Retos Demográficos de Puerto Rico
 
Evolución de la fortuna de la familia Slim (1994-2024).pdf
Evolución de la fortuna de la familia Slim (1994-2024).pdfEvolución de la fortuna de la familia Slim (1994-2024).pdf
Evolución de la fortuna de la familia Slim (1994-2024).pdf
 
Las familias más ricas del sionismo en el siglo XXI.pdf
Las familias más ricas del sionismo en el siglo XXI.pdfLas familias más ricas del sionismo en el siglo XXI.pdf
Las familias más ricas del sionismo en el siglo XXI.pdf
 
llllllllllllllllllllllllllllllllllllllllllllllllllllllllll
llllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllll
llllllllllllllllllllllllllllllllllllllllllllllllllllllllll
 
Los países por porcentaje de población blanca europea en AL (2024).pdf
Los países por porcentaje de población blanca europea en AL (2024).pdfLos países por porcentaje de población blanca europea en AL (2024).pdf
Los países por porcentaje de población blanca europea en AL (2024).pdf
 
COMUNICADO PARA TODO TIPO DE REUNIONES .
COMUNICADO PARA TODO TIPO DE REUNIONES .COMUNICADO PARA TODO TIPO DE REUNIONES .
COMUNICADO PARA TODO TIPO DE REUNIONES .
 
Posiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdf
Posiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdfPosiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdf
Posiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdf
 

Cómo construir tu propia data platform. From zero to hero.

  • 1. How to build your own data platform (from zero to hero) Viernes, 28 de Abril, 2023. Salmorejo Tech.
  • 2. Agenda Acerca de Adevinta ¿Qué es una plataforma de datos? Mundo operacional vs mundo analítico ¿Quienes son nuestros usuari@s? Solución simple Solución intermedia Solución avanzada Q&A 01 04 05 06 07 08 09 10 El equipo de la plataforma de datos 02 ¿Quién soy yo? 03
  • 3. Adevinta is a global online classifieds specialist, operating digital marketplaces in 11 countries We provide technology-based services to connect buyers with sellers and to facilitate transactions, from job offers to real estate, cars, consumer goods and more. Adevinta’s portfolio spans 25 digital products and websites, covering one billion people and with around three billion monthly visits.
  • 4. Our Global Tech Hubs Barcelona Paris Amsterdam Berlin Our local brands are supported by Global Product & Tech teams based in our Tech Hubs in Paris, Barcelona, Berlin and Amsterdam. We use cutting edge technology to build highly scalable and customisable products, platforms and services, which all of our marketplaces can use. Our Tech Hubs are also home to our Global Teams, who bring our marketplaces together and make sure we’re all working towards our shared purpose.
  • 6. Global view of all our brands
  • 7.
  • 8.
  • 9. Quienes conforman el equipo de data platform en Adevinta Spain ● Christian Herrera - Data Engineer ● Enric Martinez - Data Engineer Enabler Lead ● Gustavo Martin - Data Engineer ● Ismael Arab - SRE ● Jaime Gonzalez - SRE ● Javier Carravilla - Data Engineer ● Joel Llacer - SRE ● Marc Planagumà - Data Platform & Governance Director ● Marta Diaz - Product Owner Data Platform ● Naveen Kumar - Data Engineer ● Roger Escuder - SRE ● Sergio Couto - Data Engineer ● Victor Colomé - Data Engineer
  • 10. ¿Quién soy yo? ● Gustavo Martin Morcuende. ● Más de 10 años de experiencia como desarrollador de backend y frontend. ● También trabajé como arquitecto fullstack en diferentes empresas. ● Actualmente trabajo como Data Platform Engineer en Adevinta Spain. Cuando la situación lo requiere me convierto en Data Platform Tech Lead. ● https://gumartinm.name/ ● https://fosstodon.org/@gumartinm
  • 11. Mundo operacional vs mundo analítico
  • 12. ¿Qué es una plataforma de datos? ● Una plataforma de datos permite la adquisición, almacenamiento, preparación, reparto y gobierno de datos. También añade una capa de seguridad para los usuari@s y aplicaciones. https://www.mongodb.com/what-is-a-data-platform ● Una plataforma de datos es una solución completa para la ingestión, procesado, análisis y presentación de datos generados por sistemas, procesos e infraestructuras de las organizaciones digitales modernas. https://www.splunk.com/en_us/data-insider/what-is-a-data-platform.html
  • 13. ¿Quiénes son nuestros usuari@s? ● Data Engineers ● Data Analysts ● Data Scientists ● Machine Learning Engineers ● Cualquier otra persona interesada en trabajar con datos
  • 14. ¿Qué hace un Data Engineer? Se enfoca en el diseño, construcción, mantenimiento y gestión de infraestructuras de datos. ● Implementación y gestión de sistemas de almacenamiento de datos (bases de datos, almacenamientos en la nube, etc, etc) ● Asegurar que los datos estén limpios, organizados y estructurados de manera adecuada para que puedan ser utilizados de manera efectiva. ¿Quiénes son nuestros usuari@s?
  • 15. ¿Qué hace un Data Scientist? Utiliza técnicas estadísticas y de análisis de datos para extraer información útil con el objetivo de mejorar la toma de decisiones y la eficacia de una empresa. Recopila, procesa y analiza datos para ayudar a las empresas a tomar decisiones informadas. Su trabajo es proporcionar información relevante y accionable para impulsar el crecimiento y el éxito empresarial. ¿Qué hace un Data Analyst? Desarrolla y optimiza modelos de aprendizaje automático para resolver problemas empresariales complejos. Su trabajo es construir sistemas que puedan aprender y mejorar a medida que se exponen a más datos. ¿Qué hace un Machine Learning Engineer? ¿Quiénes son nuestros usuarios?
  • 16. Solución simple Mundo operacional y analítico comparten la misma base de datos
  • 17. Solución simple Base de datos ● postgresql, mysql, oracle, etc, etc ● esquemas ● tablas ● permisos Aplicaciones ● Leen tablas de la base de datos, realizan una transformación y escriben los resultados en otras tablas. ● ETL, extract, transform, load Dashboards ● Diagramas donde se muestran datos de interés Machine learning ● MLFlow ● Kubeflow
  • 18. Solución simple ● Base de datos, por ejemplo PostgreSQL ● Crear esquemas y tablas, modelo entidad-relación CREATE TABLE ESTUDIANTES( ID INT PRIMARY KEY NOT NULL, NAME TEXT NOT NULL ); ● Asignar permisos GRANT SELECT ON ESTUDIANTES TO analistas_de_datos; ● Gobernanza: definición de estándares, nombres, etc. ● Aplicaciones, por ejemplo Apache Airflow ● Dashboards: Qlik, Tableau, etc ● Machine Learning, por ejemplo Kubeflow
  • 21. Solución intermedia Mundo operacional y analítico separados
  • 22. Solución intermedia Consumo ● aplicaciones para la extracción de datos del mundo operacional Data Warehouse ● AWS Redshift, BigQuery ● esquemas ● tablas ● permisos Aplicaciones ● Leen tablas del data warehouse, realizan una transformación y escriben los resultados en otras tablas. ● ETL, extract, transform, load Dashboards ● Diagramas donde se muestran datos de interés Machine learning ● MLFlow ● Kubeflow
  • 23. Solución intermedia ¿Qué es un Data Warehouse? ● Es una base de datos centralizada que integra muchas fuentes de datos. ● Permite aislar los sistemas operacionales de los analíticos. ● Queries lanzadas desde el sistema analítico no afectan al operacional. ● Permite reorganizar la información de forma que sea más fácilmente analizable. ● Proporciona un único modelo de datos. ● Permite mantener un histórico de información que el operacional, por no necesitarla, puede borrar. ● Permite integrar múltiples fuentes de datos en un único lugar.
  • 24. Solución intermedia ¿Qué es un Data Warehouse? ● Modelado específico, esquema en estrella. ● Compuesto de tablas de hechos y de dimensiones. Tabla de hechos: sucesión de hechos, alto número de registros. Tabla de dimensiones: descripción de los hechos, pocos registros y muchos atributos. ● Permite la optimización de las queries en modo lectura. ● Permite queries más simples, sin necesidad de múltiples JOINs como podría suceder en un modelo normalizado de entidad-relación. ● Permisos vía GRANTs en tablas.
  • 25. Solución intermedia ● Base de datos, por ejemplo AWS Redshift ● Crear esquemas y tablas (hechos y dimensiones) CREATE TABLE HECHOS_ESTUDIANTES( EDAD INT NOT NULL, TIEMPO INT NOT NULL, ); ● Asignar permisos GRANT SELECT ON HECHOS_ESTUDIANTES TO analistas_de_datos; ● Gobernanza: definición de estándares, nombres, etc. ● Aplicaciones, por ejemplo Apache Airflow ● Dashboards: Qlik, Tableau, etc ● Machine Learning, por ejemplo Kubeflow
  • 26. Solución intermedia ¿Qué es AWS Redshift? ¡Usar infraestructura como código! Ejemplo Terraform.
  • 29. Solución avanzada Consumo ● aplicaciones para la extracción de datos del mundo operacional Data Warehouse ● AWS Redshift, BigQuery ● esquemas ● tablas ● permisos Aplicaciones ● Leen tablas del data warehouse, realizan una transformación y escriben los resultados en otras tablas. ● ETL, extract, transform, load Dashboards ● Diagramas donde se muestran datos de interés Data Lake o Lakehouse ● AWS S3 Machine learning ● MLFlow ● Kubeflow
  • 30. Solución avanzada ¿Qué es un Data Lake o Lakehouse? ● Es un sistema de almacenamiento de datos masivo y barato. ● Se utiliza para almacenar grandes cantidades de información en su formato nativo, sin necesidad de que los datos estén estructurados de una manera particular (JSON, XML, logs, etc) ● Los datos pueden provenir de diferentes fuentes, bases de datos, sensores, registros de máquinas, APIs, etc. ● Permite aislar los sistemas operacionales de los analíticos. ● Se utilizan sistemas distribuidos como AWS S3 de Amazon o HDFS (sistema de archivos de Hadoop)
  • 31. Solución avanzada ¿Qué es un Data Lake o Lakehouse implementado en AWS S3? ● En Adevinta, implementado en AWS S3 (en Amazon Cloud) ● Puede verse como un sistema de archivos con carpetas ● ¡Pero no es un sistema de archivos! ● Los archivos se llaman objetos. ● Podemos usarlo mediante el Hadoop File System, Apache Spark, etc, etc. ● Permisos vía IAM Roles.
  • 32. Solución avanzada ● Base de datos, por ejemplo AWS Redshift ● Crear esquemas y tablas (hechos y dimensiones) CREATE TABLE HECHOS_ESTUDIANTES( EDAD INT NOT NULL, TIEMPO INT NOT NULL, ); ● Asignar permisos GRANT SELECT ON HECHOS_ESTUDIANTES TO analistas_de_datos; ● Gobernanza: definición de estándares, nombres, etc. ● Aplicaciones, por ejemplo Apache Airflow, Apache Spark ● Dashboards: Qlik, Tableau, etc ● Machine Learning, por ejemplo Kubeflow ● Data Lake, AWS S3
  • 34. Q&A
  • 35. thank you | gracias | merci grazie | obrigado | danke köszönöm | спасибо | ‫ﺷﻛرا‬