SlideShare ist ein Scribd-Unternehmen logo
1 von 106
Big Data y ML: como
almacenar y gestionar
grandes volúmenes de
información
STRATEBI BUSINESS SOLUTIONSDestinos
Turísticos
Inteligentes
o Somos una empresa con sedes en Madrid, Barcelona, Sevilla y Alicante
o Formada por profesionales con amplia experiencia en:
o Business Intelligence, IA y Big Data
o Productos Digitales: open-source y Enterprise
o Soluciones tecnológicas: cloud y on-premise
o Hemos implantado con éxito plataformas analíticas en más de 150
organizaciones. Especialistas en Destinos Turísticos Inteligentes
o Microsoft, Amazon AWS, Google Cloud Platform, Cloudera,
Kylingence, Vertica, Snowflake, Talend, Hitachi…
Sobre StrateBI
Índice
o Conceptos básicos sobre
arquitectura de la información
o Ejemplos de arquitectura Cloud y
aplicaciones en Turismo
Inteligente
o Herramientas y Tecnologías
disponibles en el mercado. Casos
de Éxito
Índice
o Conceptos básicos sobre
arquitectura de la información
o Ejemplos de arquitectura
Cloud y aplicaciones
o Herramientas y Tecnologías
disponibles en el mercado.
Casos de Éxito
o ¿Qué es Business Intelligence?
o Término que cubre las aplicaciones, infraestructura, herramientas y mejores prácticas que habilitan el
acceso y el análisis de información para mejorar y optimizar las decisiones y el desempeño.
o Características:
o Accesibilidad a la información. Los datos son la fuente principal de este concepto. Lo primero que
deben garantizar este tipo de herramientas y técnicas será el acceso de los usuarios a los datos con
independencia de la procedencia de estos.
o Apoyo en la toma de decisiones. Se busca ir mas allá en la presentación de la información, de manera
que los usuarios tengan acceso a herramientas de análisis que les permitan seleccionar y manipular solo
aquellos datos que le interesan.
o Orientación al usuario final. Se busca independencia entre los conocimientos técnicos de los usuarios
y su capacidad para utilizar estas herramientas
o En Resumen
o Transformar los datos en información para mejorar nuestro proceso de toma de decisiones
Conceptos básicos: BI
Conceptos básicos: BI
o BI dentro de la organización
Conceptos básicos: BI
o Arquitectura de la información
Conceptos básicos: BI
o ETL: Extract, Transform and Load
Conceptos básicos: BI
o ETL: Extract, Transform and Load
o ¿Qué hace realmente una ETL?
(The Data Warehouse ETL Toolkit 2004):
o Elimina errores y corrige los datos que faltan.
o Proporciona medidas documentadas de
confianza de los datos.
o Captura el flujo de datos transaccionales para
almacenarlo.
o Ajusta datos de diversos orígenes para su
utilización de forma conjunta.
o Estructura los datos que puedan ser utilizados
por herramientas de usuario final.
o En definitiva:
o Extraer datos de múltiples fuentes.
o Aplicar calidad y consistencia (limpiar) a los
datos.
o Conformar (unificar) los datos.
o Cargar los datos en un Data Warehouse.
o Actividad inicial y con ejecución
periódica/programable.
Conceptos básicos: BI
o Data Warehouse
CRM
Facturas
ERP
---
---
Ficheros
ProcesoETL
Data Warehouse
Reporting
Analytics
…
Conceptos básicos: BI
o Características Data Warehouse / Repositorio
o Orientados a tema: los datos Los datos que se
analizan se organizan por departamentos, áreas
o procesos del negocio que se quieren mejorar.
o Integrados: datos procedentes de diferentes
fuentes de origen.
o Variables en el tiempo: datos relativos a un
periodo que se incrementan periódicamente.
o No volátiles: datos almacenados que se añaden,
no se actualizan ni se modifican.
o Diseño tolerante al cambio.
o Permite la extracción y carga de datos de
forma masiva.
Conceptos básicos: BI
o Conceptos Importantes Data Warehouse:
o Dentro del entorno de un Data
Warehouse hay dos conceptos
fundamentales que es importante
entender antes de poder continuar.
o Dimensiones
o Representan aquellos conceptos
desde los que se analizan los hechos
y responden a la pregunta ¿QUIEN,
DONDE, CUANDO?
o Algunas dimensiones habituales son
la Fecha, País, Ciudad, Cliente…
o Hechos
o Representan aquello que se quiere
medir y responden a la pregunta del
¿QUÉ?
o Entre los hechos mas típicos se
encuentran datos como Ventas
Conceptos básicos: BI
o Data Warehouse: con respecto a las dimensiones:
o Contienen los descriptores textuales de los hechos.
o Cada una de las dimensiones esta contenida en una tabla diferente.
o La tendencia de crecimiento de estas tablas es a lo ancho, es decir, lo habitual es que se añada
información adicional relacionada con la dimensión que ayude a filtrar los hechos con mayor detalle
Mes Clave Mes
Enero 1
Febrero 2
Marzo 3
… …
Producto Clave Producto
Libro 1
USB 2
Portatil 3
… …
Localización Clave Localización
Madrid 1
Barcelona 2
Sevilla 3
… …
Conceptos básicos: BI
o Data Warehouse: Ganuralidad - Jerarquías:
o Las dimensiones puede contener varios puntos de vista: Jerarquías
o Una jerarquía esta compuesta de niveles que contienen miembros. Cada nivel tendrá una columna.
o Hay que formularse ¿A qué nivel se tiene la información en origen? y ¿Hasta dónde queremos
llegar?
Pais
Comunidad
Autónoma
Provinc
ia
Municip
io
Dia
Año
Trimestre
Mes
Semana
Año Mes Día
2008 Enero 1
2008 Enero 2
2008 Febrero 1
Conceptos básicos: BI
o Data Warehouse: Con respecto a los Hechos
o Almacena datos numéricos e indicadores clave (KPIs)
o Es la tabla central en un modelo multidimensional (Estrella o Copo de Nieve)
o Los datos se encuentran en un nivel de detalle (grano) determinado y uniforme.
o La tendencia de crecimiento de estas tablas es a lo alto, es decir, no se añaden indicadores nuevos sino
sucesos nuevos.
Clave
Mes
Clave
Producto
Clave
Localización
… Euros Unidades
2 1 3 … 300 5
3 2 1 … 1000 7
1 3 1 … 227 8
… … … … …
Conceptos básicos: BI
o Data Warehouse: Modelo en Estrella (Data Mart)
o El modelo en estrella es la forma de modelado mas
habitual y mas sencilla.
o Tendremos un Data Mart por proceso analizado
o Recibe su nombre por su estructura en la que
aparece una tabla de hechos central
relacionada con múltiples tablas de
dimensiones.
o En él la información se encuentra
desnormalizada, es decir, si tenemos una
dimensión de Localización, todos los datos a
los distintos niveles estarán en la misma
dimensión: Continente, País, Ciudad…
Hechos
Dimensió
n
Dimensió
n
Dimensió
n
Dimensió
n
Conceptos básicos: BI
o KPIs Turismo
o Propósito del viaje
o Look to Book
o CR Cualificado
o Visibilidad del hotel
o RevPar (Revenue Per Room)
o GOPPAR (Gross Op. Per Room)
o Valoración Sentimental
o Presencia Neta
o Emoción Digital Acumulada
o N.º Establecimientos
o N.º Plazas
o Promedio de Plazas
o % Tipo Alojamiento
o N.º Viajeros
o N.º Pernoctaciones
o Estancia Media
o Cuota Nacional de Viajeros
o Etc…
Conceptos básicos: BI
o Aplicaciones (Explotación)
Vista OLAP
Reporting
Dashboard
ML
Conceptos básicos: BI
Demo
o ¿Qué es Big Data?
o Existen múltiples definiciones de este concepto
o ¿Con cual de ellas nos quedamos?
Conceptos básicos: Big Data
Conceptos básicos: Big Data
DEF.1 Activos de información, con altas
componentes de Volumen, Velocidad
y Variedad, que requieren de nuevas
formas de procesamiento para mejorar la
toma decisiones (Gartner)
DEF. 2: Tendencias claves en
tecnología para abrir la puerta a un
nuevo enfoque para entender el mundo y
tomar mejores decisiones (NY Times)
DEF. 3: Conjuntos de datos cuyo
tamaño supera al software tradicional
en cuanto a su adquisición,
almacenamiento, mantenimiento y
análisis (IBM)
DEF. 4: Grandes conjuntos de datos
que pueden ser reunidos y analizados
para descubrir patrones y tomar
mejores decisiones (McKinsey)
Conceptos básicos: Big Data
o Definición del Big Data en relación a las características de los datos:
o Volumen: Escenarios de datos en organizaciones que llegan a Terabytes (103 Gb) e incluso Petabytes
(>1.000.000 Gigabytes)
o Variedad: Aumento en cantidad y heterogeneidad de las fuentes de datos
o Velocidad: Aprovechar los datos en el momento oportuno puede ayudar a reducir los tiempos de
actuación
Datos estructurados Semi estructurados No estructurados
Conceptos básicos: Big Data
o Aplicaciones (Explotación)
Conceptos básicos: Big DataDemo Big Data
o Hadoop es un entorno de código abierto que
o Describe un método de procesamiento de datos distribuido
o Permite escalar usando hardware comercial
o En su núcleo, Hadoop tiene dos funciones principales:
Nodo 1
HDFS
Map 1 Reduce 1
Map 2 Reduce 2
Map n Reduce n
Nodo 2
HDFS
Nodo n
HDFSAlmacenar Datos
(HDFS)
Procesar Datos
(MapReduce)
Conceptos básicos: Big Data
Conceptos básicos: Big Data
o Hadoop
o Las tecnologías del entorno Hadoop cubren las necesidades de cualquier tipo de aplicación Big
Data
o Base de datos análitica (DW) y procesamiento batch: Apache Hive, Impala, Spark,…
o Adquisición y procesamiento real time: Apache Kafka, Flink, Spark,…
o Big Data OLAP: Apache Kylin y Druid,…
o Machine Learning: Apache Spark (Mlib o R)
o Soporte a las lecturas y escrituras aleatorias (Pseudotranscional): Apache HBase,...
Conceptos básicos: Big Data
o Arquitectura
Conceptos básicos: Big Data
o Arquitectura
Conceptos básicos: Ejercicio
o Identificar dimensiones y métricas dado el siguiente fichero origen en formato Excel que hace referencia
a las reservas hoteleras
Conceptos básicos: Ejercicio
o Identificar dimensiones y métricas dado el siguiente fichero origen en formato Excel que hace referencia
a las reservas hoteleras
o Solución (una propuesta):
o Data Mart: Reservas Hoteleras
o Dimensiones:
o Fecha: Año, Mes, Fecha
o Huésped
o N.º Reserva
o Hotel: Provincia, Hotel
o Nacionalidad
o Métricas:
o Importe
o Nº. Huesped
¿Preguntas?
o Conceptos básicos sobre arquitectura de la información
o Ejemplos de arquitectura Cloud y aplicaciones
o Herramientas y Tecnologías disponibles en el mercado. Casos de Éxito
Índice
o Opciones para el despliegue de herramientas o plataformas Big Data
o Despliegue e infraestructura
o On Premise: Local
o Cloud: Azure, Amazon AWS, Google Cloud, Alibaba,…
o Licencia, soporte e interoperabilidad
o Open Source: HDFS, Spark, Hive, Flink, Druid,…
o Enterprise: Versiones enterprise de tecnologías Open Source (ej. Databricks) o software
propietario (ej. Sap Hana).
o Hadoop o No Hadoop
o Ej. Cloudera (o Azure HDInsight) vs stack de Azure o AWS.
Ejemplos de Arquitectura
o Cloudera: Ecosistema Hadoop
Ejemplos de Arquitectura
o Las tecnologías de Azure cubren las necesidades de aplicaciones Big Data
o Almacenamiento:
o Blob Storage, Data Lake, Synapse (SQL DW), Cosmos DB (No SQL)…
o Procesamiento:
o Databricks (Batch, Near Real Time, SQL, ML, Graph,…)
o Stream Analytics (Real Time)
o Movimiento de datos:
o Data Factory (Movimiento batch y orquestación)
o Event Hub & IoT Hub ( Real Time)
o Seguridad, Data Governance, Kubernetes (AKS), …
Ejemplos de Arquitectura
Ejemplos de Arquitectura
o Ejemplo Arquitectura Big Data Analytics con Azure
Ejemplos de Arquitectura
o Recopilatorio de Arquitecturas de por caso de uso en Azure: Análisis Avanzado
Ejemplos de Arquitectura
o Recopilatorio de Arquitecturas de por caso de uso en Azure: Análisis de macrodatos
Ejemplos de Arquitectura
o Ejemplo Arquitectura Big Data Analytics con Google Cloud Platform
Ejemplos de Arquitectura
o Ejemplo Arquitectura LinceBI para
o Destinos Turísticos Inteligentes
o Algunas de la aplicaciones más comunes del Big Data en las organizaciones son:
o Prevención de riesgos, fraude, perdida de clientes,…
o Optimización de operaciones y uso de recursos (ej. energía, espacios, WiFi,…)
o Estudio de impacto, competencia o satisfacción del cliente mediante el análisis de redes sociales,
blogs y emails
o Sistemas de recomendación
o Investigación en ciencia y salud
o Venta de datos a terceros
Casos de Uso
Casos de Uso
Casos de Uso
Casos de Uso
Casos de Uso
o Optimización de operaciones y recursos (ej. energía, espacios, WiFi,…)
Casos de Uso
¿Preguntas?
Índice
o Conceptos básicos sobre arquitectura de la información
o Ejemplos de arquitectura Cloud y aplicaciones
o Herramientas y Tecnologías disponibles en el mercado. Casos de Éxito
Tecnologías
o Para dar soporte al Big Data ha surgido un amplio abanico de tecnologías y herramientas
o La mayoría de estas tecnologías son Open Source
o Problema (Know-How):
o ¿Qué tecnologías usar en cada escenario Big Data?
Tecnologias
Tecnologias
o Para simplificar el escenario tecnológico actual podemos clasificar las tecnologías Big Data en
3 grandes grupos
Tecnologías
o Para simplificar el escenario tecnológico actual podemos clasificar las tecnologías Big Data en
3 grandes grupos:
o Entorno Hadoop
o Entorno de procesamiento que da soporte a la mayoría de aplicaciones Big Data.
o Algunas de las herramientas que incluye pueden considerarse NoSQL.
o Otras NoSQL
o En lugar de un entorno, son aplicaciones para aplicaciones Big Data específicas (ej. Neo4J para
gráfos o MongoDB documental)
o Bases de datos extendidas
o Bases de datos tradicionales a las que se añaden características para procesar el Big Data semi o
estructurado (ej. columnar y distribuido)
Tecnologías
o Distribuciones Hadoop
o La instalación, gestión y escalabilidad resuelta mas sencilla
o Tipos
o On Premise / MultiCloud: Cloudera
o Cloud: Amazon EMR, Azure HD Insight y Google Dataproc
Tecnologias
o Las nubes ofrecen sus propios servicios (stack) para olvidarnos de las distribuciones Hadoop
Tecnologías
o Clasificación de las tecnologías Big Data en base a su funcionalidad
Tecnologías
o Algunas de las tecnologías clave son Open Source o disponen de versiones gratuitas
Tecnologías
o La mayoría de las tecnologías Big Data incorporan la posibilidad de usar el lenguaje de consulta
estándar Sql
Tecnologías: Data Lake
o Consiste en implementar una arquitectura Big Data que soporte el almacenamiento y procesamiento de los
datos que se van generando en nuestra organización.
o Permite la exploración de los datos y desarrollo de aplicaciones iterativo para la extracción de
conocimiento útil de los datos
o Podemos tener o no aplicaciones Big Data definidas en un primer momento
o Damos acceso a distintos perfiles de usuarios: Departamento de I+D+i, Marketing, mantenimiento y
desarrollo de TIC, dirección, …
Tecnologías: Data Lake
o Alternativas:
Tecnologías: Data Lake
o Hadoop es un entorno de código abierto que
o Describe un método de procesamiento de datos distribuido
o Permite escalar usando hardware comercial
o En su núcleo, Hadoop tiene dos funciones principales:
Nodo 1
HDFS
Map 1 Reduce 1
Map 2 Reduce 2
Map n Reduce n
Nodo 2
HDFS
Nodo n
HDFSAlmacenar Datos
(HDFS)
Procesar Datos
(MapReduce)
Tecnologías: Data Lake
o Hadoop Distributed File System (HDFS): Sistema de archivos
diseñado para permitir su distribución a través de un clúster de
servidores
o Escalar = Añadir nuevos equipos al clúster
o Tolerante a fallos
o Permite almacenar cualquier tipo de archivo, pero no es un
sistema de archivos “real”
o No podemos acceder directamente desde el SO
...
...
Tecnologías: Data Lake
o Cada trabajo Map Reduce se descompone en dos procesos
o Map
o Divide la entrada en muchas piezas pequeñas de forma que cada pieza pueda ser
procesada de forma independiente y en paralelo
o Reduce
o Los resultados del procesamiento de cada pieza son recopilados, agregados y
procesados
o Diseñado para la lectura de secuencial de grandes volúmenes de datos
o Menos adecuado para lecturas y escrituras aleatorias de datos
Tecnologías: Data Lake
o Arquitectura Ecosistema Hadoop
HDFS
Sistema de archivos distribuido
MapReduce
Entorno de procesamiento de
datos en paralelo
Hbase
NoSQL
Columnar
Flume
ETL datos
streaming
Sqoop
Carga de
datos
SGBDR
Hive
Data
Warehouse
Pig
Flujos de
datos
Mahout
Minería de Datos
Zookeeper
Coordinación
Oozie
Flujos de
trabajo
Ambari
Gestión y monitorización del clúster Hadoop
Spark
Flujos de
datos
Núcleo
Carga de datos
Procesamiento
y análisis
Gestión
Kafka
Streaming
Tecnologías: Data Lake
o Azure Data Lake Storage Gen 2
o Características principales:
o Unión de las funcionalidades de Azure Blob Storage y Azure Data Lake Gen 1
o Azure Blob Storage:
o Almacenamiento: Contenedores/Blobs
o Estructura: almacén de objetos
o Data Lake Gen 1:
o Almacenamiento: Carpetas/Archivos
o Estructura: sistema de archivos jerárquico
o Acceso compatible con Hadoop: acceso a los datos igual que HDFS
o Rentabilidad: almacenamiento y capacidad de bajo coste gracias de Azure Storage, Gen 2 es 50 % más
económico que Gen 1
o Escalabilidad: escala de forma natural hasta muchos exabytes
Tecnologías: Data Lake
o Ejemplo de Arquitectura Azure Data Lake Storage Gen 2
Tecnologías: Data Lake
o Google Cloud Storage:
o Características principales:
o Almacenamiento de objetos unificados
o Clases de almacenamiento para todo tipo de cargas de trabajo
o Standard: High frecuency access
o Nearline: Less frequent access
o Coldline: Low frequency access
o Archive: Lowest frecuency access
o Varios tipos de ubicación para diferentes necesidades de redundancia y rendimiento
o Administración del ciclo de vida de los objetos, control de versiones de objetos, políticas de retención y
conservación de objetos
o Claves de encriptación facilitadas por el cliente
o Acceso uniforme a nivel de depósito
o Cloud Audit Logs en Cloud Storage
Tecnologías: Data Lake
o Ejemplo Arquitectura
Google Cloud Storage
Tecnologías: Data Lake
o AWS Data Lake Formation
o Desplegar un Data Lake en AWS implica levantar una serie de servicios, mucho más completo y complejo que
sus rivales.
o Algunos de estos servicios: Cognito, API Gateway, Lambda, S3, Dynamo DB, ES, CloudWatch Logs entre otros.
o Características:
o Almacenamiento en S3, cambiando a formatos como Parquet y ORC
o Carga desde servicios de BD en AWS (MySql, PostgreSql, etc..), orígenes externos(ETL Glue), otros servicios de
AWS(S3 Buckets, CloudTrial, CloudFront)
o Permite catalogar y etiquetar los datos, mediante la recopilaciones de metadatos(automático) y asignación de
labels(usuario)
o Transformación de datos mediante Glue y Spark
o Optimización de particiones
o Gestión de la seguridad simplificada(encriptación, definición y gestión de controles de acceso, auditoria de acceso)
Tecnologías: Data Lake
o Ejemplo de arquitectura Data Lake Formation
Tecnologías: ETL
o Alternativas:
Tecnologías: ETL
o Talend Open Studio:
o Herramienta visual Open Source para el procesamiento de datos ETL
o Dispone de múltiples módulos y componentes
o Comunidad de usuarios activa – Talend Community
o Tutoriales, videos, recomendaciones, documentación etc.
o Dispone de una versión comercial con componentes adicionales
o Funcionalidades generales de la herramienta
o Data Integration
o Data Quality
o Data Management
o Business Process Management
Tecnologías: ETL
o Caso de éxito Talend: Investigación sobre los papeles de Panamá
o Se necesitaba una herramienta para reconstruir una base de datos de 2.6TB de datos y 11.5 millones
de documentos
o Talend ha permitido analizar rápidamente los datos relacionando los datos de las sociedades
offshore con las personas que estaban detrás de estas.
o Se han detectado unas 210.000 compañías offshore y se han detectado 140 políticos implicados
de más de 50 países diferentes.
o Objetivo: revolucionar el periodismo de investigación y ofrecer a los ciudadanos un detalle de como
funciona la economía sumergida.
Tecnologías: ETL
Demo Talend
Tecnologías: ETL
o Pentaho Data Integration
o Herramienta gráfica para el diseño ETL que simplifica el procesamiento de datos.
o Diseñada para evitar la programación y el uso de scripts, esta herramienta permite ejecutar una gran
cantidad de transformaciones de forma rápida y eficiente
o Dispone de versión open source y enterprise
o Utilidades Big Data
o Integración con diferentes herramientas Big Data
o Lectura y escritura de datos en HDFS
o Motor de ejecución adaptativa
o Motor por defecto: Kettle
o Motor alternativo: Spark
Tecnologías: ETL
Demo Pentaho Data Integration
Tecnologías: ETL
o Azure Data Factory:
o Es una solución de integración de datos sin
servidor totalmente administrada para la
ingesta, preparación y transformación de
todo tipos de datos a gran escala.
o 100 % Cloud (integración con Azure),
extensible on premise con SSIS
o Mas limitado a nivel de conexiones y
transformaciones que las soluciones
anteriores.
o También realiza la labor de Orquestador,
programando la ejecución o bajo demanda.
o Se ejecuta en Spark de forma
autoadministrada.
Tecnologías: ETL
o Azure Data Factory:
Tecnologías: ETL Real Time & Batch
o Apache Spark:
o Sistema de procesamiento distribuido de datos de código libre.
o Proyecto Apache
o Escalabilidad:
o Los programas Spark se ejecutan igual en 1 que en N máquinas
o Soporta múltiples orígenes de datos:
o Archivos de texto, Hadoop, Hive, Cassandra
o Operaciones típicas de sistemas distribuidos
o Disponible para programar en Scala, Java y Python
o Batch, Streaming y SQL
o Tiene versión Enterprise “Databricks” y disponible como servicio en las nubes
o Mas rápido que Hadoop al trabajar en memoria y no en disco
Tecnologías: ETL Real Time & Batch
Demo Streaming Wikipedia
Tecnologías: Data Warehouse
o Alternativas:
Tecnologías: Data Warehouse
o Azure Synapse:
o Motor de procesamiento masivo en paralelo (MPP) basado en SQL Server.
o Muy alto rendimiento
o Ejecución de consultas SQL en segundos (< 5 segundos)
o Sobre esquemas con 1 o más tablas de miles de millones de filas
o Conexión en modo direct a Power BI
o No es necesario importar datos a Power BI (tiempo ETL)
o Polybase:
o Tablas externas sobre datos en Data Lake o Blob Storage, para su consulta directa.
Tecnologías: Data Warehouse
o Azure Synapse arquitectura
GEN2: DW400C
o Consultas sobre 1.000 millones de filas
Tecnologías: Data Warehouse
o Azure Synapse arquitectura: Benchmark GigaOm´s
Tecnologías: Data Warehouse
o Vertica características principales:
o Motor de procesamiento masivo en paralelo (MPP).
o Almacenamiento columnar, comprimido utilizando proyecciones
o Muy alto rendimiento
o Ejecución de consultas SQL en segundos (< 5 segundos)
o Sobre esquemas con 1 o más tablas de miles de millones de filas
o Tablas externas (flex table), acceso a hdfs, etc…
Tecnologías: Data Warehouse
o Apache Kylin características principales:
o Big Data-OLAP: Consultas analíticas con latencia por debajo de un segundo para tablas de hasta
más de 12.000 millones de filas.
o Soporte para estándar ANSI SQL y conectores J/ODBC
o Integración con herramientas de BI más conocidas
o Power BI, Tableau, Pentaho, Mondrian MDX, Superset , Apache Zeppelin, Microstrategy…
o Escalabilidad (Clúster Hadoop y Clúster Kylin) , soporte para muy alta concurrencia de consultas.
o Monitorización y auto optimización de los cubos
Tecnologías: Data Warehouse
o Apache Kylin características principales:
Tecnologías: Data Warehouse
o Apache Kylin Prueba de rendimiento:
Tecnologías: Explotación
o Alternativas:
¿Preguntas?
Casos de Éxito: Smart Data Andalucia
o Tecnologías:
o Fuente de datos:
o Formato: BD, API, Ficheros, etc…
o Origen: Airbnb, Twitter, Movelia, Google
Trends, Aena, INE, Junta de Andalucia,
Autoridades Portuarias,
Skyscanner,Apple y Google
o Almacenamiento
o Data Lake: Hadoop
o Data Warehouse: Vertica
o ETL
o Pentaho Data Integration
o Script Python
o Repositorio BI: LinceBI
o Explotación: Pentaho CDE + LinceBI Tools
Casos de Éxito: Smart Data Andalucia
Casos de Éxito: Smart Data Andalucia
Casos de Éxito: Smart Data Andalucia
Casos de Éxito: Smart Data Andalucia
Casos de Éxito: Smart Data Andalucia
Casos de Éxito: Smart Data Andalucia
Casos de Éxito: Smart Data Andalucia
Casos de Éxito: Smart Data Andalucia
Casos de Éxito: Smart Data Andalucia
Casos de Éxito: Smart Data Andalucia
Casos de Éxito: Smart Data Andalucia
Casos de Éxito: Globalia
Casos de Éxito: Telefónica
Casos de Éxito: Abanca
Casos de Éxito: Prosegur
Big Data y ML: almacenar y gestionar grandes volúmenes de información

Weitere ähnliche Inhalte

Was ist angesagt?

9 problemas en proyectos Data Analytics
9 problemas en proyectos Data Analytics9 problemas en proyectos Data Analytics
9 problemas en proyectos Data AnalyticsStratebi
 
Talend Introducion
Talend IntroducionTalend Introducion
Talend IntroducionStratebi
 
Aplicaciones de BI con Pentaho
Aplicaciones de BI con PentahoAplicaciones de BI con Pentaho
Aplicaciones de BI con PentahoDatalytics
 
Analítica nueva generacion y BD aplicado a los sistemas informacionales
Analítica nueva generacion y BD aplicado a los sistemas informacionalesAnalítica nueva generacion y BD aplicado a los sistemas informacionales
Analítica nueva generacion y BD aplicado a los sistemas informacionalesBEEVA_es
 
Charla Pentaho - UTN
Charla Pentaho - UTNCharla Pentaho - UTN
Charla Pentaho - UTNDatalytics
 
Periodismo de Datos y Visualización con herramientas Open Source
Periodismo de Datos y Visualización con herramientas Open SourcePeriodismo de Datos y Visualización con herramientas Open Source
Periodismo de Datos y Visualización con herramientas Open SourceStratebi
 
Office y Power BI: Usando Visio y Power Point para visualizar y analizar datos
Office y Power BI: Usando Visio y Power Point para visualizar y analizar datosOffice y Power BI: Usando Visio y Power Point para visualizar y analizar datos
Office y Power BI: Usando Visio y Power Point para visualizar y analizar datosdbLearner
 
Businesss Intelligence con Vertica y PowerBI
Businesss Intelligence con Vertica y PowerBIBusinesss Intelligence con Vertica y PowerBI
Businesss Intelligence con Vertica y PowerBIStratebi
 
Overview sap bo girona nib efimatica
Overview sap bo girona nib efimaticaOverview sap bo girona nib efimatica
Overview sap bo girona nib efimaticaEfimatica
 
Open Source Business Intelligence 2013 (spanish)
Open Source Business Intelligence 2013 (spanish)Open Source Business Intelligence 2013 (spanish)
Open Source Business Intelligence 2013 (spanish)Stratebi
 
Pentaho OSBI - Consorcio SIU
Pentaho OSBI - Consorcio SIUPentaho OSBI - Consorcio SIU
Pentaho OSBI - Consorcio SIUMarcos Pierri
 
Predictive Analytics with Pentaho Data Mining - Análisis Predictivo con Penta...
Predictive Analytics with Pentaho Data Mining - Análisis Predictivo con Penta...Predictive Analytics with Pentaho Data Mining - Análisis Predictivo con Penta...
Predictive Analytics with Pentaho Data Mining - Análisis Predictivo con Penta...Pentaho
 
Excel power pivot ssas tabular
Excel power pivot ssas tabularExcel power pivot ssas tabular
Excel power pivot ssas tabularSalvador Ramos
 
Desmitificando un proyecto de Big Data
Desmitificando un proyecto de Big DataDesmitificando un proyecto de Big Data
Desmitificando un proyecto de Big DataBEEVA_es
 
Herramientas de business intelligence
Herramientas de business intelligenceHerramientas de business intelligence
Herramientas de business intelligencelears0
 
Siete "consejos" para abordar un proyecto con tecnologías Big Data
Siete "consejos" para abordar un proyecto con tecnologías Big DataSiete "consejos" para abordar un proyecto con tecnologías Big Data
Siete "consejos" para abordar un proyecto con tecnologías Big DataBEEVA_es
 
Cursos Big Data Open Source
Cursos Big Data Open SourceCursos Big Data Open Source
Cursos Big Data Open SourceStratebi
 

Was ist angesagt? (20)

Porque Pentaho ?
Porque Pentaho ?Porque Pentaho ?
Porque Pentaho ?
 
9 problemas en proyectos Data Analytics
9 problemas en proyectos Data Analytics9 problemas en proyectos Data Analytics
9 problemas en proyectos Data Analytics
 
Talend Introducion
Talend IntroducionTalend Introducion
Talend Introducion
 
Aplicaciones de BI con Pentaho
Aplicaciones de BI con PentahoAplicaciones de BI con Pentaho
Aplicaciones de BI con Pentaho
 
Analítica nueva generacion y BD aplicado a los sistemas informacionales
Analítica nueva generacion y BD aplicado a los sistemas informacionalesAnalítica nueva generacion y BD aplicado a los sistemas informacionales
Analítica nueva generacion y BD aplicado a los sistemas informacionales
 
Charla Pentaho - UTN
Charla Pentaho - UTNCharla Pentaho - UTN
Charla Pentaho - UTN
 
Sesion 1 pentaho special-edition 2013
Sesion 1  pentaho special-edition 2013Sesion 1  pentaho special-edition 2013
Sesion 1 pentaho special-edition 2013
 
Periodismo de Datos y Visualización con herramientas Open Source
Periodismo de Datos y Visualización con herramientas Open SourcePeriodismo de Datos y Visualización con herramientas Open Source
Periodismo de Datos y Visualización con herramientas Open Source
 
Office y Power BI: Usando Visio y Power Point para visualizar y analizar datos
Office y Power BI: Usando Visio y Power Point para visualizar y analizar datosOffice y Power BI: Usando Visio y Power Point para visualizar y analizar datos
Office y Power BI: Usando Visio y Power Point para visualizar y analizar datos
 
Businesss Intelligence con Vertica y PowerBI
Businesss Intelligence con Vertica y PowerBIBusinesss Intelligence con Vertica y PowerBI
Businesss Intelligence con Vertica y PowerBI
 
Overview sap bo girona nib efimatica
Overview sap bo girona nib efimaticaOverview sap bo girona nib efimatica
Overview sap bo girona nib efimatica
 
Open Source Business Intelligence 2013 (spanish)
Open Source Business Intelligence 2013 (spanish)Open Source Business Intelligence 2013 (spanish)
Open Source Business Intelligence 2013 (spanish)
 
Sap Business Objects - Sector Banca
Sap Business Objects - Sector BancaSap Business Objects - Sector Banca
Sap Business Objects - Sector Banca
 
Pentaho OSBI - Consorcio SIU
Pentaho OSBI - Consorcio SIUPentaho OSBI - Consorcio SIU
Pentaho OSBI - Consorcio SIU
 
Predictive Analytics with Pentaho Data Mining - Análisis Predictivo con Penta...
Predictive Analytics with Pentaho Data Mining - Análisis Predictivo con Penta...Predictive Analytics with Pentaho Data Mining - Análisis Predictivo con Penta...
Predictive Analytics with Pentaho Data Mining - Análisis Predictivo con Penta...
 
Excel power pivot ssas tabular
Excel power pivot ssas tabularExcel power pivot ssas tabular
Excel power pivot ssas tabular
 
Desmitificando un proyecto de Big Data
Desmitificando un proyecto de Big DataDesmitificando un proyecto de Big Data
Desmitificando un proyecto de Big Data
 
Herramientas de business intelligence
Herramientas de business intelligenceHerramientas de business intelligence
Herramientas de business intelligence
 
Siete "consejos" para abordar un proyecto con tecnologías Big Data
Siete "consejos" para abordar un proyecto con tecnologías Big DataSiete "consejos" para abordar un proyecto con tecnologías Big Data
Siete "consejos" para abordar un proyecto con tecnologías Big Data
 
Cursos Big Data Open Source
Cursos Big Data Open SourceCursos Big Data Open Source
Cursos Big Data Open Source
 

Ähnlich wie Big Data y ML: almacenar y gestionar grandes volúmenes de información

Inteligencia de negocios
Inteligencia de negociosInteligencia de negocios
Inteligencia de negociosjo_unwell
 
Inteligencia de negocios
Inteligencia de negociosInteligencia de negocios
Inteligencia de negociosjo_unwell
 
Inteligencia de negocios
Inteligencia de negociosInteligencia de negocios
Inteligencia de negociosjo_unwell
 
Inteligencia de negocios
Inteligencia de negociosInteligencia de negocios
Inteligencia de negociosjo_unwell
 
Minería de datos Presentación
Minería de datos PresentaciónMinería de datos Presentación
Minería de datos Presentaciónedmaga
 
Minera de-datos-presentacin-1205263710628735-3
Minera de-datos-presentacin-1205263710628735-3Minera de-datos-presentacin-1205263710628735-3
Minera de-datos-presentacin-1205263710628735-3Climanfef
 
Componentes de Business Intelligence
Componentes de Business IntelligenceComponentes de Business Intelligence
Componentes de Business IntelligenceCarlos Escobar
 
Software Libre para la Toma de Decisiones
Software Libre para la Toma de DecisionesSoftware Libre para la Toma de Decisiones
Software Libre para la Toma de DecisionesHéctor Neri
 
HD Insight Integracion con SQL Server Power-Pivot Excel
HD Insight Integracion con SQL Server Power-Pivot ExcelHD Insight Integracion con SQL Server Power-Pivot Excel
HD Insight Integracion con SQL Server Power-Pivot ExcelEduardo Castro
 
Herramientas de Microsoft para el Científicos de Datos
Herramientas de Microsoft para el Científicos de DatosHerramientas de Microsoft para el Científicos de Datos
Herramientas de Microsoft para el Científicos de DatosEduardo Castro
 
Electiva
ElectivaElectiva
ElectivaArlin11
 
Business intelligence (bi) y big data0
Business intelligence (bi) y big data0Business intelligence (bi) y big data0
Business intelligence (bi) y big data0Pedro Contreras Flores
 
Que debe saber un DBA de SQL Server sobre Hadoop
Que debe saber un DBA de SQL Server sobre HadoopQue debe saber un DBA de SQL Server sobre Hadoop
Que debe saber un DBA de SQL Server sobre HadoopEduardo Castro
 

Ähnlich wie Big Data y ML: almacenar y gestionar grandes volúmenes de información (20)

Capitulo 2 introducción al business intelligence
Capitulo 2   introducción al business intelligenceCapitulo 2   introducción al business intelligence
Capitulo 2 introducción al business intelligence
 
Inteligencia de negocios
Inteligencia de negociosInteligencia de negocios
Inteligencia de negocios
 
Inteligencia de negocios
Inteligencia de negociosInteligencia de negocios
Inteligencia de negocios
 
Inteligencia de negocios
Inteligencia de negociosInteligencia de negocios
Inteligencia de negocios
 
Inteligencia de negocios
Inteligencia de negociosInteligencia de negocios
Inteligencia de negocios
 
PPTS establecida para los manuales del DAT New.ppt
PPTS establecida para los manuales del DAT New.pptPPTS establecida para los manuales del DAT New.ppt
PPTS establecida para los manuales del DAT New.ppt
 
Minería de datos Presentación
Minería de datos PresentaciónMinería de datos Presentación
Minería de datos Presentación
 
Minera de-datos-presentacin-1205263710628735-3
Minera de-datos-presentacin-1205263710628735-3Minera de-datos-presentacin-1205263710628735-3
Minera de-datos-presentacin-1205263710628735-3
 
Componentes de Business Intelligence
Componentes de Business IntelligenceComponentes de Business Intelligence
Componentes de Business Intelligence
 
Hablemos de Big Data
Hablemos de Big DataHablemos de Big Data
Hablemos de Big Data
 
Software Libre para la Toma de Decisiones
Software Libre para la Toma de DecisionesSoftware Libre para la Toma de Decisiones
Software Libre para la Toma de Decisiones
 
HD Insight Integracion con SQL Server Power-Pivot Excel
HD Insight Integracion con SQL Server Power-Pivot ExcelHD Insight Integracion con SQL Server Power-Pivot Excel
HD Insight Integracion con SQL Server Power-Pivot Excel
 
Herramientas de Microsoft para el Científicos de Datos
Herramientas de Microsoft para el Científicos de DatosHerramientas de Microsoft para el Científicos de Datos
Herramientas de Microsoft para el Científicos de Datos
 
Inteligencia de Negocios
Inteligencia de NegociosInteligencia de Negocios
Inteligencia de Negocios
 
Electiva
ElectivaElectiva
Electiva
 
Kdd fase1
Kdd fase1Kdd fase1
Kdd fase1
 
Claves para entender el actual big data
Claves para entender el actual big dataClaves para entender el actual big data
Claves para entender el actual big data
 
Business intelligence (bi) y big data0
Business intelligence (bi) y big data0Business intelligence (bi) y big data0
Business intelligence (bi) y big data0
 
capacitación Data science.pptx
capacitación Data science.pptxcapacitación Data science.pptx
capacitación Data science.pptx
 
Que debe saber un DBA de SQL Server sobre Hadoop
Que debe saber un DBA de SQL Server sobre HadoopQue debe saber un DBA de SQL Server sobre Hadoop
Que debe saber un DBA de SQL Server sobre Hadoop
 

Mehr von Stratebi

Azure Synapse
Azure SynapseAzure Synapse
Azure SynapseStratebi
 
Options for Dashboards with Python
Options for Dashboards with PythonOptions for Dashboards with Python
Options for Dashboards with PythonStratebi
 
Dashboards with Python
Dashboards with PythonDashboards with Python
Dashboards with PythonStratebi
 
PowerBI Tips y buenas practicas
PowerBI Tips y buenas practicasPowerBI Tips y buenas practicas
PowerBI Tips y buenas practicasStratebi
 
Machine Learning Meetup Spain
Machine Learning Meetup SpainMachine Learning Meetup Spain
Machine Learning Meetup SpainStratebi
 
LinceBI IIoT (Industrial Internet of Things)
LinceBI IIoT (Industrial Internet of Things)LinceBI IIoT (Industrial Internet of Things)
LinceBI IIoT (Industrial Internet of Things)Stratebi
 
A federated information infrastructure that works
A federated information infrastructure that works A federated information infrastructure that works
A federated information infrastructure that works Stratebi
 
Sports Analytics
Sports AnalyticsSports Analytics
Sports AnalyticsStratebi
 
Vertica Extreme Analysis
Vertica Extreme AnalysisVertica Extreme Analysis
Vertica Extreme AnalysisStratebi
 
Vertica Analytics Database general overview
Vertica Analytics Database general overviewVertica Analytics Database general overview
Vertica Analytics Database general overviewStratebi
 
Talend Cloud en detalle
Talend Cloud en detalleTalend Cloud en detalle
Talend Cloud en detalleStratebi
 
Master Data Management (MDM) con Talend
Master Data Management (MDM) con TalendMaster Data Management (MDM) con Talend
Master Data Management (MDM) con TalendStratebi
 
Talent Analytics
Talent AnalyticsTalent Analytics
Talent AnalyticsStratebi
 
El Futuro del Business Intelligence
El Futuro del Business IntelligenceEl Futuro del Business Intelligence
El Futuro del Business IntelligenceStratebi
 
Talend Solutions
Talend SolutionsTalend Solutions
Talend SolutionsStratebi
 
Benchmark Big Data Analytics (español)
Benchmark Big Data Analytics (español)Benchmark Big Data Analytics (español)
Benchmark Big Data Analytics (español)Stratebi
 
Benchmark Big Data Analytics (english)
Benchmark Big Data Analytics (english)Benchmark Big Data Analytics (english)
Benchmark Big Data Analytics (english)Stratebi
 
PCM18 (Big Data Analytics)
PCM18 (Big Data Analytics)PCM18 (Big Data Analytics)
PCM18 (Big Data Analytics)Stratebi
 
PowerBI Portfolio
PowerBI PortfolioPowerBI Portfolio
PowerBI PortfolioStratebi
 
Machine Learning con Anaconda, Jupyter y Python
Machine Learning con Anaconda, Jupyter y PythonMachine Learning con Anaconda, Jupyter y Python
Machine Learning con Anaconda, Jupyter y PythonStratebi
 

Mehr von Stratebi (20)

Azure Synapse
Azure SynapseAzure Synapse
Azure Synapse
 
Options for Dashboards with Python
Options for Dashboards with PythonOptions for Dashboards with Python
Options for Dashboards with Python
 
Dashboards with Python
Dashboards with PythonDashboards with Python
Dashboards with Python
 
PowerBI Tips y buenas practicas
PowerBI Tips y buenas practicasPowerBI Tips y buenas practicas
PowerBI Tips y buenas practicas
 
Machine Learning Meetup Spain
Machine Learning Meetup SpainMachine Learning Meetup Spain
Machine Learning Meetup Spain
 
LinceBI IIoT (Industrial Internet of Things)
LinceBI IIoT (Industrial Internet of Things)LinceBI IIoT (Industrial Internet of Things)
LinceBI IIoT (Industrial Internet of Things)
 
A federated information infrastructure that works
A federated information infrastructure that works A federated information infrastructure that works
A federated information infrastructure that works
 
Sports Analytics
Sports AnalyticsSports Analytics
Sports Analytics
 
Vertica Extreme Analysis
Vertica Extreme AnalysisVertica Extreme Analysis
Vertica Extreme Analysis
 
Vertica Analytics Database general overview
Vertica Analytics Database general overviewVertica Analytics Database general overview
Vertica Analytics Database general overview
 
Talend Cloud en detalle
Talend Cloud en detalleTalend Cloud en detalle
Talend Cloud en detalle
 
Master Data Management (MDM) con Talend
Master Data Management (MDM) con TalendMaster Data Management (MDM) con Talend
Master Data Management (MDM) con Talend
 
Talent Analytics
Talent AnalyticsTalent Analytics
Talent Analytics
 
El Futuro del Business Intelligence
El Futuro del Business IntelligenceEl Futuro del Business Intelligence
El Futuro del Business Intelligence
 
Talend Solutions
Talend SolutionsTalend Solutions
Talend Solutions
 
Benchmark Big Data Analytics (español)
Benchmark Big Data Analytics (español)Benchmark Big Data Analytics (español)
Benchmark Big Data Analytics (español)
 
Benchmark Big Data Analytics (english)
Benchmark Big Data Analytics (english)Benchmark Big Data Analytics (english)
Benchmark Big Data Analytics (english)
 
PCM18 (Big Data Analytics)
PCM18 (Big Data Analytics)PCM18 (Big Data Analytics)
PCM18 (Big Data Analytics)
 
PowerBI Portfolio
PowerBI PortfolioPowerBI Portfolio
PowerBI Portfolio
 
Machine Learning con Anaconda, Jupyter y Python
Machine Learning con Anaconda, Jupyter y PythonMachine Learning con Anaconda, Jupyter y Python
Machine Learning con Anaconda, Jupyter y Python
 

Kürzlich hochgeladen

Presentación del Mapa del Talento Cotec-Ivie 2023
Presentación del Mapa del Talento Cotec-Ivie 2023Presentación del Mapa del Talento Cotec-Ivie 2023
Presentación del Mapa del Talento Cotec-Ivie 2023Ivie
 
SQL SERVER Y MYSQL - ADMINISTRACIÓN DE BASE DE DATOS
SQL SERVER Y MYSQL - ADMINISTRACIÓN DE BASE DE DATOSSQL SERVER Y MYSQL - ADMINISTRACIÓN DE BASE DE DATOS
SQL SERVER Y MYSQL - ADMINISTRACIÓN DE BASE DE DATOSLuisDavidGarciaInga2
 
PREGUNTA I DE LA CONSULTA POPULAR DEL 21 DE ABRIL
PREGUNTA I DE LA CONSULTA POPULAR DEL 21 DE ABRILPREGUNTA I DE LA CONSULTA POPULAR DEL 21 DE ABRIL
PREGUNTA I DE LA CONSULTA POPULAR DEL 21 DE ABRILeluniversocom
 
MAPA DE RIESGOS DE UN ZOOLOGICO ..pdf
MAPA DE RIESGOS DE UN ZOOLOGICO    ..pdfMAPA DE RIESGOS DE UN ZOOLOGICO    ..pdf
MAPA DE RIESGOS DE UN ZOOLOGICO ..pdfCamilaArzate2
 
SESIONES ABRIL para sexto grado de nivel primario.doc
SESIONES ABRIL para sexto grado de nivel primario.docSESIONES ABRIL para sexto grado de nivel primario.doc
SESIONES ABRIL para sexto grado de nivel primario.docrobinsonsjuan
 
Análisis de un mapa de riesgos de una tortillería
Análisis de un mapa de riesgos de una tortillería Análisis de un mapa de riesgos de una tortillería
Análisis de un mapa de riesgos de una tortillería yocelynsanchezerasmo
 
Presentación informe 'Fondos Next Generation European Union destinados a actu...
Presentación informe 'Fondos Next Generation European Union destinados a actu...Presentación informe 'Fondos Next Generation European Union destinados a actu...
Presentación informe 'Fondos Next Generation European Union destinados a actu...Ivie
 
PREGUNTAS Y ANEXOS CONSULTA POPULAR 2024
PREGUNTAS Y ANEXOS CONSULTA POPULAR 2024PREGUNTAS Y ANEXOS CONSULTA POPULAR 2024
PREGUNTAS Y ANEXOS CONSULTA POPULAR 2024eluniversocom
 
2024 2024 202420242024PPT SESIÓN 03.pptx
2024 2024 202420242024PPT SESIÓN 03.pptx2024 2024 202420242024PPT SESIÓN 03.pptx
2024 2024 202420242024PPT SESIÓN 03.pptxccordovato
 
AREA TECNOLOGIA E INFORMATICA.pdf Santiago
AREA TECNOLOGIA E INFORMATICA.pdf SantiagoAREA TECNOLOGIA E INFORMATICA.pdf Santiago
AREA TECNOLOGIA E INFORMATICA.pdf SantiagoSantiagoRodriguezLoz
 
2.8 CRONOGRAMA TALLER DE INVESTIGACION 1 .pptx
2.8 CRONOGRAMA TALLER DE INVESTIGACION 1 .pptx2.8 CRONOGRAMA TALLER DE INVESTIGACION 1 .pptx
2.8 CRONOGRAMA TALLER DE INVESTIGACION 1 .pptxceliajessicapinedava
 
PREGUNTA E REFÉRENDUM 21 DE ABRIL ECUADOR
PREGUNTA E REFÉRENDUM 21 DE ABRIL ECUADORPREGUNTA E REFÉRENDUM 21 DE ABRIL ECUADOR
PREGUNTA E REFÉRENDUM 21 DE ABRIL ECUADOReluniversocom
 
Croquis de riesgo de trabajo gasolinera.pdf
Croquis de riesgo de trabajo gasolinera.pdfCroquis de riesgo de trabajo gasolinera.pdf
Croquis de riesgo de trabajo gasolinera.pdfhernestosoto82
 
Las familias más ricas dentro del sionismo (2024).pdf
Las familias más ricas dentro del sionismo (2024).pdfLas familias más ricas dentro del sionismo (2024).pdf
Las familias más ricas dentro del sionismo (2024).pdfJC Díaz Herrera
 
PREGUNTA G DE CONSULTA POPULAR 21 DE ABRIL
PREGUNTA G DE CONSULTA POPULAR 21 DE ABRILPREGUNTA G DE CONSULTA POPULAR 21 DE ABRIL
PREGUNTA G DE CONSULTA POPULAR 21 DE ABRILeluniversocom
 
El guion museográfico. definición. componentes. parte 1.pptx
El guion museográfico. definición. componentes. parte 1.pptxEl guion museográfico. definición. componentes. parte 1.pptx
El guion museográfico. definición. componentes. parte 1.pptxAngelaMarquez27
 
17 PRACTICAS - MODALIDAAD FAMILIAAR.docx
17 PRACTICAS - MODALIDAAD FAMILIAAR.docx17 PRACTICAS - MODALIDAAD FAMILIAAR.docx
17 PRACTICAS - MODALIDAAD FAMILIAAR.docxmarthaarroyo16
 
PREGUNTA J DE CONSULTA POPULAR 21 DE ABRIL
PREGUNTA J DE CONSULTA POPULAR 21 DE ABRILPREGUNTA J DE CONSULTA POPULAR 21 DE ABRIL
PREGUNTA J DE CONSULTA POPULAR 21 DE ABRILeluniversocom
 
PREGUNTA K DE LA CONSULTA POPULAR 21 DE ABRIL
PREGUNTA K DE LA CONSULTA POPULAR 21 DE ABRILPREGUNTA K DE LA CONSULTA POPULAR 21 DE ABRIL
PREGUNTA K DE LA CONSULTA POPULAR 21 DE ABRILeluniversocom
 
Mapa de riesgos de un taller mecánico 405
Mapa de riesgos de un taller mecánico 405Mapa de riesgos de un taller mecánico 405
Mapa de riesgos de un taller mecánico 405rodrimarxim
 

Kürzlich hochgeladen (20)

Presentación del Mapa del Talento Cotec-Ivie 2023
Presentación del Mapa del Talento Cotec-Ivie 2023Presentación del Mapa del Talento Cotec-Ivie 2023
Presentación del Mapa del Talento Cotec-Ivie 2023
 
SQL SERVER Y MYSQL - ADMINISTRACIÓN DE BASE DE DATOS
SQL SERVER Y MYSQL - ADMINISTRACIÓN DE BASE DE DATOSSQL SERVER Y MYSQL - ADMINISTRACIÓN DE BASE DE DATOS
SQL SERVER Y MYSQL - ADMINISTRACIÓN DE BASE DE DATOS
 
PREGUNTA I DE LA CONSULTA POPULAR DEL 21 DE ABRIL
PREGUNTA I DE LA CONSULTA POPULAR DEL 21 DE ABRILPREGUNTA I DE LA CONSULTA POPULAR DEL 21 DE ABRIL
PREGUNTA I DE LA CONSULTA POPULAR DEL 21 DE ABRIL
 
MAPA DE RIESGOS DE UN ZOOLOGICO ..pdf
MAPA DE RIESGOS DE UN ZOOLOGICO    ..pdfMAPA DE RIESGOS DE UN ZOOLOGICO    ..pdf
MAPA DE RIESGOS DE UN ZOOLOGICO ..pdf
 
SESIONES ABRIL para sexto grado de nivel primario.doc
SESIONES ABRIL para sexto grado de nivel primario.docSESIONES ABRIL para sexto grado de nivel primario.doc
SESIONES ABRIL para sexto grado de nivel primario.doc
 
Análisis de un mapa de riesgos de una tortillería
Análisis de un mapa de riesgos de una tortillería Análisis de un mapa de riesgos de una tortillería
Análisis de un mapa de riesgos de una tortillería
 
Presentación informe 'Fondos Next Generation European Union destinados a actu...
Presentación informe 'Fondos Next Generation European Union destinados a actu...Presentación informe 'Fondos Next Generation European Union destinados a actu...
Presentación informe 'Fondos Next Generation European Union destinados a actu...
 
PREGUNTAS Y ANEXOS CONSULTA POPULAR 2024
PREGUNTAS Y ANEXOS CONSULTA POPULAR 2024PREGUNTAS Y ANEXOS CONSULTA POPULAR 2024
PREGUNTAS Y ANEXOS CONSULTA POPULAR 2024
 
2024 2024 202420242024PPT SESIÓN 03.pptx
2024 2024 202420242024PPT SESIÓN 03.pptx2024 2024 202420242024PPT SESIÓN 03.pptx
2024 2024 202420242024PPT SESIÓN 03.pptx
 
AREA TECNOLOGIA E INFORMATICA.pdf Santiago
AREA TECNOLOGIA E INFORMATICA.pdf SantiagoAREA TECNOLOGIA E INFORMATICA.pdf Santiago
AREA TECNOLOGIA E INFORMATICA.pdf Santiago
 
2.8 CRONOGRAMA TALLER DE INVESTIGACION 1 .pptx
2.8 CRONOGRAMA TALLER DE INVESTIGACION 1 .pptx2.8 CRONOGRAMA TALLER DE INVESTIGACION 1 .pptx
2.8 CRONOGRAMA TALLER DE INVESTIGACION 1 .pptx
 
PREGUNTA E REFÉRENDUM 21 DE ABRIL ECUADOR
PREGUNTA E REFÉRENDUM 21 DE ABRIL ECUADORPREGUNTA E REFÉRENDUM 21 DE ABRIL ECUADOR
PREGUNTA E REFÉRENDUM 21 DE ABRIL ECUADOR
 
Croquis de riesgo de trabajo gasolinera.pdf
Croquis de riesgo de trabajo gasolinera.pdfCroquis de riesgo de trabajo gasolinera.pdf
Croquis de riesgo de trabajo gasolinera.pdf
 
Las familias más ricas dentro del sionismo (2024).pdf
Las familias más ricas dentro del sionismo (2024).pdfLas familias más ricas dentro del sionismo (2024).pdf
Las familias más ricas dentro del sionismo (2024).pdf
 
PREGUNTA G DE CONSULTA POPULAR 21 DE ABRIL
PREGUNTA G DE CONSULTA POPULAR 21 DE ABRILPREGUNTA G DE CONSULTA POPULAR 21 DE ABRIL
PREGUNTA G DE CONSULTA POPULAR 21 DE ABRIL
 
El guion museográfico. definición. componentes. parte 1.pptx
El guion museográfico. definición. componentes. parte 1.pptxEl guion museográfico. definición. componentes. parte 1.pptx
El guion museográfico. definición. componentes. parte 1.pptx
 
17 PRACTICAS - MODALIDAAD FAMILIAAR.docx
17 PRACTICAS - MODALIDAAD FAMILIAAR.docx17 PRACTICAS - MODALIDAAD FAMILIAAR.docx
17 PRACTICAS - MODALIDAAD FAMILIAAR.docx
 
PREGUNTA J DE CONSULTA POPULAR 21 DE ABRIL
PREGUNTA J DE CONSULTA POPULAR 21 DE ABRILPREGUNTA J DE CONSULTA POPULAR 21 DE ABRIL
PREGUNTA J DE CONSULTA POPULAR 21 DE ABRIL
 
PREGUNTA K DE LA CONSULTA POPULAR 21 DE ABRIL
PREGUNTA K DE LA CONSULTA POPULAR 21 DE ABRILPREGUNTA K DE LA CONSULTA POPULAR 21 DE ABRIL
PREGUNTA K DE LA CONSULTA POPULAR 21 DE ABRIL
 
Mapa de riesgos de un taller mecánico 405
Mapa de riesgos de un taller mecánico 405Mapa de riesgos de un taller mecánico 405
Mapa de riesgos de un taller mecánico 405
 

Big Data y ML: almacenar y gestionar grandes volúmenes de información

  • 1. Big Data y ML: como almacenar y gestionar grandes volúmenes de información STRATEBI BUSINESS SOLUTIONSDestinos Turísticos Inteligentes
  • 2. o Somos una empresa con sedes en Madrid, Barcelona, Sevilla y Alicante o Formada por profesionales con amplia experiencia en: o Business Intelligence, IA y Big Data o Productos Digitales: open-source y Enterprise o Soluciones tecnológicas: cloud y on-premise o Hemos implantado con éxito plataformas analíticas en más de 150 organizaciones. Especialistas en Destinos Turísticos Inteligentes o Microsoft, Amazon AWS, Google Cloud Platform, Cloudera, Kylingence, Vertica, Snowflake, Talend, Hitachi… Sobre StrateBI
  • 3. Índice o Conceptos básicos sobre arquitectura de la información o Ejemplos de arquitectura Cloud y aplicaciones en Turismo Inteligente o Herramientas y Tecnologías disponibles en el mercado. Casos de Éxito
  • 4. Índice o Conceptos básicos sobre arquitectura de la información o Ejemplos de arquitectura Cloud y aplicaciones o Herramientas y Tecnologías disponibles en el mercado. Casos de Éxito
  • 5. o ¿Qué es Business Intelligence? o Término que cubre las aplicaciones, infraestructura, herramientas y mejores prácticas que habilitan el acceso y el análisis de información para mejorar y optimizar las decisiones y el desempeño. o Características: o Accesibilidad a la información. Los datos son la fuente principal de este concepto. Lo primero que deben garantizar este tipo de herramientas y técnicas será el acceso de los usuarios a los datos con independencia de la procedencia de estos. o Apoyo en la toma de decisiones. Se busca ir mas allá en la presentación de la información, de manera que los usuarios tengan acceso a herramientas de análisis que les permitan seleccionar y manipular solo aquellos datos que le interesan. o Orientación al usuario final. Se busca independencia entre los conocimientos técnicos de los usuarios y su capacidad para utilizar estas herramientas o En Resumen o Transformar los datos en información para mejorar nuestro proceso de toma de decisiones Conceptos básicos: BI
  • 6. Conceptos básicos: BI o BI dentro de la organización
  • 7. Conceptos básicos: BI o Arquitectura de la información
  • 8. Conceptos básicos: BI o ETL: Extract, Transform and Load
  • 9. Conceptos básicos: BI o ETL: Extract, Transform and Load o ¿Qué hace realmente una ETL? (The Data Warehouse ETL Toolkit 2004): o Elimina errores y corrige los datos que faltan. o Proporciona medidas documentadas de confianza de los datos. o Captura el flujo de datos transaccionales para almacenarlo. o Ajusta datos de diversos orígenes para su utilización de forma conjunta. o Estructura los datos que puedan ser utilizados por herramientas de usuario final. o En definitiva: o Extraer datos de múltiples fuentes. o Aplicar calidad y consistencia (limpiar) a los datos. o Conformar (unificar) los datos. o Cargar los datos en un Data Warehouse. o Actividad inicial y con ejecución periódica/programable.
  • 10. Conceptos básicos: BI o Data Warehouse CRM Facturas ERP --- --- Ficheros ProcesoETL Data Warehouse Reporting Analytics …
  • 11. Conceptos básicos: BI o Características Data Warehouse / Repositorio o Orientados a tema: los datos Los datos que se analizan se organizan por departamentos, áreas o procesos del negocio que se quieren mejorar. o Integrados: datos procedentes de diferentes fuentes de origen. o Variables en el tiempo: datos relativos a un periodo que se incrementan periódicamente. o No volátiles: datos almacenados que se añaden, no se actualizan ni se modifican. o Diseño tolerante al cambio. o Permite la extracción y carga de datos de forma masiva.
  • 12. Conceptos básicos: BI o Conceptos Importantes Data Warehouse: o Dentro del entorno de un Data Warehouse hay dos conceptos fundamentales que es importante entender antes de poder continuar. o Dimensiones o Representan aquellos conceptos desde los que se analizan los hechos y responden a la pregunta ¿QUIEN, DONDE, CUANDO? o Algunas dimensiones habituales son la Fecha, País, Ciudad, Cliente… o Hechos o Representan aquello que se quiere medir y responden a la pregunta del ¿QUÉ? o Entre los hechos mas típicos se encuentran datos como Ventas
  • 13. Conceptos básicos: BI o Data Warehouse: con respecto a las dimensiones: o Contienen los descriptores textuales de los hechos. o Cada una de las dimensiones esta contenida en una tabla diferente. o La tendencia de crecimiento de estas tablas es a lo ancho, es decir, lo habitual es que se añada información adicional relacionada con la dimensión que ayude a filtrar los hechos con mayor detalle Mes Clave Mes Enero 1 Febrero 2 Marzo 3 … … Producto Clave Producto Libro 1 USB 2 Portatil 3 … … Localización Clave Localización Madrid 1 Barcelona 2 Sevilla 3 … …
  • 14. Conceptos básicos: BI o Data Warehouse: Ganuralidad - Jerarquías: o Las dimensiones puede contener varios puntos de vista: Jerarquías o Una jerarquía esta compuesta de niveles que contienen miembros. Cada nivel tendrá una columna. o Hay que formularse ¿A qué nivel se tiene la información en origen? y ¿Hasta dónde queremos llegar? Pais Comunidad Autónoma Provinc ia Municip io Dia Año Trimestre Mes Semana Año Mes Día 2008 Enero 1 2008 Enero 2 2008 Febrero 1
  • 15. Conceptos básicos: BI o Data Warehouse: Con respecto a los Hechos o Almacena datos numéricos e indicadores clave (KPIs) o Es la tabla central en un modelo multidimensional (Estrella o Copo de Nieve) o Los datos se encuentran en un nivel de detalle (grano) determinado y uniforme. o La tendencia de crecimiento de estas tablas es a lo alto, es decir, no se añaden indicadores nuevos sino sucesos nuevos. Clave Mes Clave Producto Clave Localización … Euros Unidades 2 1 3 … 300 5 3 2 1 … 1000 7 1 3 1 … 227 8 … … … … …
  • 16. Conceptos básicos: BI o Data Warehouse: Modelo en Estrella (Data Mart) o El modelo en estrella es la forma de modelado mas habitual y mas sencilla. o Tendremos un Data Mart por proceso analizado o Recibe su nombre por su estructura en la que aparece una tabla de hechos central relacionada con múltiples tablas de dimensiones. o En él la información se encuentra desnormalizada, es decir, si tenemos una dimensión de Localización, todos los datos a los distintos niveles estarán en la misma dimensión: Continente, País, Ciudad… Hechos Dimensió n Dimensió n Dimensió n Dimensió n
  • 17. Conceptos básicos: BI o KPIs Turismo o Propósito del viaje o Look to Book o CR Cualificado o Visibilidad del hotel o RevPar (Revenue Per Room) o GOPPAR (Gross Op. Per Room) o Valoración Sentimental o Presencia Neta o Emoción Digital Acumulada o N.º Establecimientos o N.º Plazas o Promedio de Plazas o % Tipo Alojamiento o N.º Viajeros o N.º Pernoctaciones o Estancia Media o Cuota Nacional de Viajeros o Etc…
  • 18. Conceptos básicos: BI o Aplicaciones (Explotación) Vista OLAP Reporting Dashboard ML
  • 20. o ¿Qué es Big Data? o Existen múltiples definiciones de este concepto o ¿Con cual de ellas nos quedamos? Conceptos básicos: Big Data
  • 21. Conceptos básicos: Big Data DEF.1 Activos de información, con altas componentes de Volumen, Velocidad y Variedad, que requieren de nuevas formas de procesamiento para mejorar la toma decisiones (Gartner) DEF. 2: Tendencias claves en tecnología para abrir la puerta a un nuevo enfoque para entender el mundo y tomar mejores decisiones (NY Times) DEF. 3: Conjuntos de datos cuyo tamaño supera al software tradicional en cuanto a su adquisición, almacenamiento, mantenimiento y análisis (IBM) DEF. 4: Grandes conjuntos de datos que pueden ser reunidos y analizados para descubrir patrones y tomar mejores decisiones (McKinsey)
  • 22. Conceptos básicos: Big Data o Definición del Big Data en relación a las características de los datos: o Volumen: Escenarios de datos en organizaciones que llegan a Terabytes (103 Gb) e incluso Petabytes (>1.000.000 Gigabytes) o Variedad: Aumento en cantidad y heterogeneidad de las fuentes de datos o Velocidad: Aprovechar los datos en el momento oportuno puede ayudar a reducir los tiempos de actuación Datos estructurados Semi estructurados No estructurados
  • 23. Conceptos básicos: Big Data o Aplicaciones (Explotación)
  • 24. Conceptos básicos: Big DataDemo Big Data
  • 25. o Hadoop es un entorno de código abierto que o Describe un método de procesamiento de datos distribuido o Permite escalar usando hardware comercial o En su núcleo, Hadoop tiene dos funciones principales: Nodo 1 HDFS Map 1 Reduce 1 Map 2 Reduce 2 Map n Reduce n Nodo 2 HDFS Nodo n HDFSAlmacenar Datos (HDFS) Procesar Datos (MapReduce) Conceptos básicos: Big Data
  • 26. Conceptos básicos: Big Data o Hadoop o Las tecnologías del entorno Hadoop cubren las necesidades de cualquier tipo de aplicación Big Data o Base de datos análitica (DW) y procesamiento batch: Apache Hive, Impala, Spark,… o Adquisición y procesamiento real time: Apache Kafka, Flink, Spark,… o Big Data OLAP: Apache Kylin y Druid,… o Machine Learning: Apache Spark (Mlib o R) o Soporte a las lecturas y escrituras aleatorias (Pseudotranscional): Apache HBase,...
  • 27. Conceptos básicos: Big Data o Arquitectura
  • 28. Conceptos básicos: Big Data o Arquitectura
  • 29. Conceptos básicos: Ejercicio o Identificar dimensiones y métricas dado el siguiente fichero origen en formato Excel que hace referencia a las reservas hoteleras
  • 30. Conceptos básicos: Ejercicio o Identificar dimensiones y métricas dado el siguiente fichero origen en formato Excel que hace referencia a las reservas hoteleras o Solución (una propuesta): o Data Mart: Reservas Hoteleras o Dimensiones: o Fecha: Año, Mes, Fecha o Huésped o N.º Reserva o Hotel: Provincia, Hotel o Nacionalidad o Métricas: o Importe o Nº. Huesped
  • 32. o Conceptos básicos sobre arquitectura de la información o Ejemplos de arquitectura Cloud y aplicaciones o Herramientas y Tecnologías disponibles en el mercado. Casos de Éxito Índice
  • 33. o Opciones para el despliegue de herramientas o plataformas Big Data o Despliegue e infraestructura o On Premise: Local o Cloud: Azure, Amazon AWS, Google Cloud, Alibaba,… o Licencia, soporte e interoperabilidad o Open Source: HDFS, Spark, Hive, Flink, Druid,… o Enterprise: Versiones enterprise de tecnologías Open Source (ej. Databricks) o software propietario (ej. Sap Hana). o Hadoop o No Hadoop o Ej. Cloudera (o Azure HDInsight) vs stack de Azure o AWS. Ejemplos de Arquitectura
  • 34. o Cloudera: Ecosistema Hadoop Ejemplos de Arquitectura
  • 35. o Las tecnologías de Azure cubren las necesidades de aplicaciones Big Data o Almacenamiento: o Blob Storage, Data Lake, Synapse (SQL DW), Cosmos DB (No SQL)… o Procesamiento: o Databricks (Batch, Near Real Time, SQL, ML, Graph,…) o Stream Analytics (Real Time) o Movimiento de datos: o Data Factory (Movimiento batch y orquestación) o Event Hub & IoT Hub ( Real Time) o Seguridad, Data Governance, Kubernetes (AKS), … Ejemplos de Arquitectura
  • 36. Ejemplos de Arquitectura o Ejemplo Arquitectura Big Data Analytics con Azure
  • 37. Ejemplos de Arquitectura o Recopilatorio de Arquitecturas de por caso de uso en Azure: Análisis Avanzado
  • 38. Ejemplos de Arquitectura o Recopilatorio de Arquitecturas de por caso de uso en Azure: Análisis de macrodatos
  • 39. Ejemplos de Arquitectura o Ejemplo Arquitectura Big Data Analytics con Google Cloud Platform
  • 40. Ejemplos de Arquitectura o Ejemplo Arquitectura LinceBI para o Destinos Turísticos Inteligentes
  • 41. o Algunas de la aplicaciones más comunes del Big Data en las organizaciones son: o Prevención de riesgos, fraude, perdida de clientes,… o Optimización de operaciones y uso de recursos (ej. energía, espacios, WiFi,…) o Estudio de impacto, competencia o satisfacción del cliente mediante el análisis de redes sociales, blogs y emails o Sistemas de recomendación o Investigación en ciencia y salud o Venta de datos a terceros Casos de Uso
  • 46. o Optimización de operaciones y recursos (ej. energía, espacios, WiFi,…) Casos de Uso
  • 48. Índice o Conceptos básicos sobre arquitectura de la información o Ejemplos de arquitectura Cloud y aplicaciones o Herramientas y Tecnologías disponibles en el mercado. Casos de Éxito
  • 49. Tecnologías o Para dar soporte al Big Data ha surgido un amplio abanico de tecnologías y herramientas o La mayoría de estas tecnologías son Open Source o Problema (Know-How): o ¿Qué tecnologías usar en cada escenario Big Data?
  • 51. Tecnologias o Para simplificar el escenario tecnológico actual podemos clasificar las tecnologías Big Data en 3 grandes grupos
  • 52. Tecnologías o Para simplificar el escenario tecnológico actual podemos clasificar las tecnologías Big Data en 3 grandes grupos: o Entorno Hadoop o Entorno de procesamiento que da soporte a la mayoría de aplicaciones Big Data. o Algunas de las herramientas que incluye pueden considerarse NoSQL. o Otras NoSQL o En lugar de un entorno, son aplicaciones para aplicaciones Big Data específicas (ej. Neo4J para gráfos o MongoDB documental) o Bases de datos extendidas o Bases de datos tradicionales a las que se añaden características para procesar el Big Data semi o estructurado (ej. columnar y distribuido)
  • 53. Tecnologías o Distribuciones Hadoop o La instalación, gestión y escalabilidad resuelta mas sencilla o Tipos o On Premise / MultiCloud: Cloudera o Cloud: Amazon EMR, Azure HD Insight y Google Dataproc
  • 54. Tecnologias o Las nubes ofrecen sus propios servicios (stack) para olvidarnos de las distribuciones Hadoop
  • 55. Tecnologías o Clasificación de las tecnologías Big Data en base a su funcionalidad
  • 56. Tecnologías o Algunas de las tecnologías clave son Open Source o disponen de versiones gratuitas
  • 57. Tecnologías o La mayoría de las tecnologías Big Data incorporan la posibilidad de usar el lenguaje de consulta estándar Sql
  • 58. Tecnologías: Data Lake o Consiste en implementar una arquitectura Big Data que soporte el almacenamiento y procesamiento de los datos que se van generando en nuestra organización. o Permite la exploración de los datos y desarrollo de aplicaciones iterativo para la extracción de conocimiento útil de los datos o Podemos tener o no aplicaciones Big Data definidas en un primer momento o Damos acceso a distintos perfiles de usuarios: Departamento de I+D+i, Marketing, mantenimiento y desarrollo de TIC, dirección, …
  • 59. Tecnologías: Data Lake o Alternativas:
  • 60. Tecnologías: Data Lake o Hadoop es un entorno de código abierto que o Describe un método de procesamiento de datos distribuido o Permite escalar usando hardware comercial o En su núcleo, Hadoop tiene dos funciones principales: Nodo 1 HDFS Map 1 Reduce 1 Map 2 Reduce 2 Map n Reduce n Nodo 2 HDFS Nodo n HDFSAlmacenar Datos (HDFS) Procesar Datos (MapReduce)
  • 61. Tecnologías: Data Lake o Hadoop Distributed File System (HDFS): Sistema de archivos diseñado para permitir su distribución a través de un clúster de servidores o Escalar = Añadir nuevos equipos al clúster o Tolerante a fallos o Permite almacenar cualquier tipo de archivo, pero no es un sistema de archivos “real” o No podemos acceder directamente desde el SO ... ...
  • 62. Tecnologías: Data Lake o Cada trabajo Map Reduce se descompone en dos procesos o Map o Divide la entrada en muchas piezas pequeñas de forma que cada pieza pueda ser procesada de forma independiente y en paralelo o Reduce o Los resultados del procesamiento de cada pieza son recopilados, agregados y procesados o Diseñado para la lectura de secuencial de grandes volúmenes de datos o Menos adecuado para lecturas y escrituras aleatorias de datos
  • 63. Tecnologías: Data Lake o Arquitectura Ecosistema Hadoop HDFS Sistema de archivos distribuido MapReduce Entorno de procesamiento de datos en paralelo Hbase NoSQL Columnar Flume ETL datos streaming Sqoop Carga de datos SGBDR Hive Data Warehouse Pig Flujos de datos Mahout Minería de Datos Zookeeper Coordinación Oozie Flujos de trabajo Ambari Gestión y monitorización del clúster Hadoop Spark Flujos de datos Núcleo Carga de datos Procesamiento y análisis Gestión Kafka Streaming
  • 64. Tecnologías: Data Lake o Azure Data Lake Storage Gen 2 o Características principales: o Unión de las funcionalidades de Azure Blob Storage y Azure Data Lake Gen 1 o Azure Blob Storage: o Almacenamiento: Contenedores/Blobs o Estructura: almacén de objetos o Data Lake Gen 1: o Almacenamiento: Carpetas/Archivos o Estructura: sistema de archivos jerárquico o Acceso compatible con Hadoop: acceso a los datos igual que HDFS o Rentabilidad: almacenamiento y capacidad de bajo coste gracias de Azure Storage, Gen 2 es 50 % más económico que Gen 1 o Escalabilidad: escala de forma natural hasta muchos exabytes
  • 65. Tecnologías: Data Lake o Ejemplo de Arquitectura Azure Data Lake Storage Gen 2
  • 66. Tecnologías: Data Lake o Google Cloud Storage: o Características principales: o Almacenamiento de objetos unificados o Clases de almacenamiento para todo tipo de cargas de trabajo o Standard: High frecuency access o Nearline: Less frequent access o Coldline: Low frequency access o Archive: Lowest frecuency access o Varios tipos de ubicación para diferentes necesidades de redundancia y rendimiento o Administración del ciclo de vida de los objetos, control de versiones de objetos, políticas de retención y conservación de objetos o Claves de encriptación facilitadas por el cliente o Acceso uniforme a nivel de depósito o Cloud Audit Logs en Cloud Storage
  • 67. Tecnologías: Data Lake o Ejemplo Arquitectura Google Cloud Storage
  • 68. Tecnologías: Data Lake o AWS Data Lake Formation o Desplegar un Data Lake en AWS implica levantar una serie de servicios, mucho más completo y complejo que sus rivales. o Algunos de estos servicios: Cognito, API Gateway, Lambda, S3, Dynamo DB, ES, CloudWatch Logs entre otros. o Características: o Almacenamiento en S3, cambiando a formatos como Parquet y ORC o Carga desde servicios de BD en AWS (MySql, PostgreSql, etc..), orígenes externos(ETL Glue), otros servicios de AWS(S3 Buckets, CloudTrial, CloudFront) o Permite catalogar y etiquetar los datos, mediante la recopilaciones de metadatos(automático) y asignación de labels(usuario) o Transformación de datos mediante Glue y Spark o Optimización de particiones o Gestión de la seguridad simplificada(encriptación, definición y gestión de controles de acceso, auditoria de acceso)
  • 69. Tecnologías: Data Lake o Ejemplo de arquitectura Data Lake Formation
  • 71. Tecnologías: ETL o Talend Open Studio: o Herramienta visual Open Source para el procesamiento de datos ETL o Dispone de múltiples módulos y componentes o Comunidad de usuarios activa – Talend Community o Tutoriales, videos, recomendaciones, documentación etc. o Dispone de una versión comercial con componentes adicionales o Funcionalidades generales de la herramienta o Data Integration o Data Quality o Data Management o Business Process Management
  • 72. Tecnologías: ETL o Caso de éxito Talend: Investigación sobre los papeles de Panamá o Se necesitaba una herramienta para reconstruir una base de datos de 2.6TB de datos y 11.5 millones de documentos o Talend ha permitido analizar rápidamente los datos relacionando los datos de las sociedades offshore con las personas que estaban detrás de estas. o Se han detectado unas 210.000 compañías offshore y se han detectado 140 políticos implicados de más de 50 países diferentes. o Objetivo: revolucionar el periodismo de investigación y ofrecer a los ciudadanos un detalle de como funciona la economía sumergida.
  • 74. Tecnologías: ETL o Pentaho Data Integration o Herramienta gráfica para el diseño ETL que simplifica el procesamiento de datos. o Diseñada para evitar la programación y el uso de scripts, esta herramienta permite ejecutar una gran cantidad de transformaciones de forma rápida y eficiente o Dispone de versión open source y enterprise o Utilidades Big Data o Integración con diferentes herramientas Big Data o Lectura y escritura de datos en HDFS o Motor de ejecución adaptativa o Motor por defecto: Kettle o Motor alternativo: Spark
  • 75. Tecnologías: ETL Demo Pentaho Data Integration
  • 76. Tecnologías: ETL o Azure Data Factory: o Es una solución de integración de datos sin servidor totalmente administrada para la ingesta, preparación y transformación de todo tipos de datos a gran escala. o 100 % Cloud (integración con Azure), extensible on premise con SSIS o Mas limitado a nivel de conexiones y transformaciones que las soluciones anteriores. o También realiza la labor de Orquestador, programando la ejecución o bajo demanda. o Se ejecuta en Spark de forma autoadministrada.
  • 77. Tecnologías: ETL o Azure Data Factory:
  • 78. Tecnologías: ETL Real Time & Batch o Apache Spark: o Sistema de procesamiento distribuido de datos de código libre. o Proyecto Apache o Escalabilidad: o Los programas Spark se ejecutan igual en 1 que en N máquinas o Soporta múltiples orígenes de datos: o Archivos de texto, Hadoop, Hive, Cassandra o Operaciones típicas de sistemas distribuidos o Disponible para programar en Scala, Java y Python o Batch, Streaming y SQL o Tiene versión Enterprise “Databricks” y disponible como servicio en las nubes o Mas rápido que Hadoop al trabajar en memoria y no en disco
  • 79. Tecnologías: ETL Real Time & Batch Demo Streaming Wikipedia
  • 81. Tecnologías: Data Warehouse o Azure Synapse: o Motor de procesamiento masivo en paralelo (MPP) basado en SQL Server. o Muy alto rendimiento o Ejecución de consultas SQL en segundos (< 5 segundos) o Sobre esquemas con 1 o más tablas de miles de millones de filas o Conexión en modo direct a Power BI o No es necesario importar datos a Power BI (tiempo ETL) o Polybase: o Tablas externas sobre datos en Data Lake o Blob Storage, para su consulta directa.
  • 82. Tecnologías: Data Warehouse o Azure Synapse arquitectura GEN2: DW400C o Consultas sobre 1.000 millones de filas
  • 83. Tecnologías: Data Warehouse o Azure Synapse arquitectura: Benchmark GigaOm´s
  • 84. Tecnologías: Data Warehouse o Vertica características principales: o Motor de procesamiento masivo en paralelo (MPP). o Almacenamiento columnar, comprimido utilizando proyecciones o Muy alto rendimiento o Ejecución de consultas SQL en segundos (< 5 segundos) o Sobre esquemas con 1 o más tablas de miles de millones de filas o Tablas externas (flex table), acceso a hdfs, etc…
  • 85. Tecnologías: Data Warehouse o Apache Kylin características principales: o Big Data-OLAP: Consultas analíticas con latencia por debajo de un segundo para tablas de hasta más de 12.000 millones de filas. o Soporte para estándar ANSI SQL y conectores J/ODBC o Integración con herramientas de BI más conocidas o Power BI, Tableau, Pentaho, Mondrian MDX, Superset , Apache Zeppelin, Microstrategy… o Escalabilidad (Clúster Hadoop y Clúster Kylin) , soporte para muy alta concurrencia de consultas. o Monitorización y auto optimización de los cubos
  • 86. Tecnologías: Data Warehouse o Apache Kylin características principales:
  • 87. Tecnologías: Data Warehouse o Apache Kylin Prueba de rendimiento:
  • 90. Casos de Éxito: Smart Data Andalucia o Tecnologías: o Fuente de datos: o Formato: BD, API, Ficheros, etc… o Origen: Airbnb, Twitter, Movelia, Google Trends, Aena, INE, Junta de Andalucia, Autoridades Portuarias, Skyscanner,Apple y Google o Almacenamiento o Data Lake: Hadoop o Data Warehouse: Vertica o ETL o Pentaho Data Integration o Script Python o Repositorio BI: LinceBI o Explotación: Pentaho CDE + LinceBI Tools
  • 91. Casos de Éxito: Smart Data Andalucia
  • 92. Casos de Éxito: Smart Data Andalucia
  • 93. Casos de Éxito: Smart Data Andalucia
  • 94. Casos de Éxito: Smart Data Andalucia
  • 95. Casos de Éxito: Smart Data Andalucia
  • 96. Casos de Éxito: Smart Data Andalucia
  • 97. Casos de Éxito: Smart Data Andalucia
  • 98. Casos de Éxito: Smart Data Andalucia
  • 99. Casos de Éxito: Smart Data Andalucia
  • 100. Casos de Éxito: Smart Data Andalucia
  • 101. Casos de Éxito: Smart Data Andalucia
  • 102. Casos de Éxito: Globalia
  • 103. Casos de Éxito: Telefónica
  • 104. Casos de Éxito: Abanca
  • 105. Casos de Éxito: Prosegur