Teacher Master Big Data and Business Intelligence at EOI um Stratebi
24. Nov 2020•0 gefällt mir•698 views
1 von 106
Destinos turisticos inteligentes
24. Nov 2020•0 gefällt mir•698 views
Melden
Daten & Analysen
Como crear Plataformas Big Data y ML basadas en open source: como almacenar y gestionar grandes volúmenes de información con origenes de datos abiertos turisticos y externos de todo tipo: Redes, Telefonía, apps, vuelos, hoteles, estadisticos....
1. Big Data y ML: como
almacenar y gestionar
grandes volúmenes de
información
STRATEBI BUSINESS SOLUTIONSDestinos
Turísticos
Inteligentes
2. o Somos una empresa con sedes en Madrid, Barcelona, Sevilla y Alicante
o Formada por profesionales con amplia experiencia en:
o Business Intelligence, IA y Big Data
o Productos Digitales: open-source y Enterprise
o Soluciones tecnológicas: cloud y on-premise
o Hemos implantado con éxito plataformas analíticas en más de 150
organizaciones. Especialistas en Destinos Turísticos Inteligentes
o Microsoft, Amazon AWS, Google Cloud Platform, Cloudera,
Kylingence, Vertica, Snowflake, Talend, Hitachi…
Sobre StrateBI
3. Índice
o Conceptos básicos sobre
arquitectura de la información
o Ejemplos de arquitectura Cloud y
aplicaciones en Turismo
Inteligente
o Herramientas y Tecnologías
disponibles en el mercado. Casos
de Éxito
4. Índice
o Conceptos básicos sobre
arquitectura de la información
o Ejemplos de arquitectura
Cloud y aplicaciones
o Herramientas y Tecnologías
disponibles en el mercado.
Casos de Éxito
5. o ¿Qué es Business Intelligence?
o Término que cubre las aplicaciones, infraestructura, herramientas y mejores prácticas que habilitan el
acceso y el análisis de información para mejorar y optimizar las decisiones y el desempeño.
o Características:
o Accesibilidad a la información. Los datos son la fuente principal de este concepto. Lo primero que
deben garantizar este tipo de herramientas y técnicas será el acceso de los usuarios a los datos con
independencia de la procedencia de estos.
o Apoyo en la toma de decisiones. Se busca ir mas allá en la presentación de la información, de manera
que los usuarios tengan acceso a herramientas de análisis que les permitan seleccionar y manipular solo
aquellos datos que le interesan.
o Orientación al usuario final. Se busca independencia entre los conocimientos técnicos de los usuarios
y su capacidad para utilizar estas herramientas
o En Resumen
o Transformar los datos en información para mejorar nuestro proceso de toma de decisiones
Conceptos básicos: BI
9. Conceptos básicos: BI
o ETL: Extract, Transform and Load
o ¿Qué hace realmente una ETL?
(The Data Warehouse ETL Toolkit 2004):
o Elimina errores y corrige los datos que faltan.
o Proporciona medidas documentadas de
confianza de los datos.
o Captura el flujo de datos transaccionales para
almacenarlo.
o Ajusta datos de diversos orígenes para su
utilización de forma conjunta.
o Estructura los datos que puedan ser utilizados
por herramientas de usuario final.
o En definitiva:
o Extraer datos de múltiples fuentes.
o Aplicar calidad y consistencia (limpiar) a los
datos.
o Conformar (unificar) los datos.
o Cargar los datos en un Data Warehouse.
o Actividad inicial y con ejecución
periódica/programable.
10. Conceptos básicos: BI
o Data Warehouse
CRM
Facturas
ERP
---
---
Ficheros
ProcesoETL
Data Warehouse
Reporting
Analytics
…
11. Conceptos básicos: BI
o Características Data Warehouse / Repositorio
o Orientados a tema: los datos Los datos que se
analizan se organizan por departamentos, áreas
o procesos del negocio que se quieren mejorar.
o Integrados: datos procedentes de diferentes
fuentes de origen.
o Variables en el tiempo: datos relativos a un
periodo que se incrementan periódicamente.
o No volátiles: datos almacenados que se añaden,
no se actualizan ni se modifican.
o Diseño tolerante al cambio.
o Permite la extracción y carga de datos de
forma masiva.
12. Conceptos básicos: BI
o Conceptos Importantes Data Warehouse:
o Dentro del entorno de un Data
Warehouse hay dos conceptos
fundamentales que es importante
entender antes de poder continuar.
o Dimensiones
o Representan aquellos conceptos
desde los que se analizan los hechos
y responden a la pregunta ¿QUIEN,
DONDE, CUANDO?
o Algunas dimensiones habituales son
la Fecha, País, Ciudad, Cliente…
o Hechos
o Representan aquello que se quiere
medir y responden a la pregunta del
¿QUÉ?
o Entre los hechos mas típicos se
encuentran datos como Ventas
13. Conceptos básicos: BI
o Data Warehouse: con respecto a las dimensiones:
o Contienen los descriptores textuales de los hechos.
o Cada una de las dimensiones esta contenida en una tabla diferente.
o La tendencia de crecimiento de estas tablas es a lo ancho, es decir, lo habitual es que se añada
información adicional relacionada con la dimensión que ayude a filtrar los hechos con mayor detalle
Mes Clave Mes
Enero 1
Febrero 2
Marzo 3
… …
Producto Clave Producto
Libro 1
USB 2
Portatil 3
… …
Localización Clave Localización
Madrid 1
Barcelona 2
Sevilla 3
… …
14. Conceptos básicos: BI
o Data Warehouse: Ganuralidad - Jerarquías:
o Las dimensiones puede contener varios puntos de vista: Jerarquías
o Una jerarquía esta compuesta de niveles que contienen miembros. Cada nivel tendrá una columna.
o Hay que formularse ¿A qué nivel se tiene la información en origen? y ¿Hasta dónde queremos
llegar?
Pais
Comunidad
Autónoma
Provinc
ia
Municip
io
Dia
Año
Trimestre
Mes
Semana
Año Mes Día
2008 Enero 1
2008 Enero 2
2008 Febrero 1
15. Conceptos básicos: BI
o Data Warehouse: Con respecto a los Hechos
o Almacena datos numéricos e indicadores clave (KPIs)
o Es la tabla central en un modelo multidimensional (Estrella o Copo de Nieve)
o Los datos se encuentran en un nivel de detalle (grano) determinado y uniforme.
o La tendencia de crecimiento de estas tablas es a lo alto, es decir, no se añaden indicadores nuevos sino
sucesos nuevos.
Clave
Mes
Clave
Producto
Clave
Localización
… Euros Unidades
2 1 3 … 300 5
3 2 1 … 1000 7
1 3 1 … 227 8
… … … … …
16. Conceptos básicos: BI
o Data Warehouse: Modelo en Estrella (Data Mart)
o El modelo en estrella es la forma de modelado mas
habitual y mas sencilla.
o Tendremos un Data Mart por proceso analizado
o Recibe su nombre por su estructura en la que
aparece una tabla de hechos central
relacionada con múltiples tablas de
dimensiones.
o En él la información se encuentra
desnormalizada, es decir, si tenemos una
dimensión de Localización, todos los datos a
los distintos niveles estarán en la misma
dimensión: Continente, País, Ciudad…
Hechos
Dimensió
n
Dimensió
n
Dimensió
n
Dimensió
n
17. Conceptos básicos: BI
o KPIs Turismo
o Propósito del viaje
o Look to Book
o CR Cualificado
o Visibilidad del hotel
o RevPar (Revenue Per Room)
o GOPPAR (Gross Op. Per Room)
o Valoración Sentimental
o Presencia Neta
o Emoción Digital Acumulada
o N.º Establecimientos
o N.º Plazas
o Promedio de Plazas
o % Tipo Alojamiento
o N.º Viajeros
o N.º Pernoctaciones
o Estancia Media
o Cuota Nacional de Viajeros
o Etc…
20. o ¿Qué es Big Data?
o Existen múltiples definiciones de este concepto
o ¿Con cual de ellas nos quedamos?
Conceptos básicos: Big Data
21. Conceptos básicos: Big Data
DEF.1 Activos de información, con altas
componentes de Volumen, Velocidad
y Variedad, que requieren de nuevas
formas de procesamiento para mejorar la
toma decisiones (Gartner)
DEF. 2: Tendencias claves en
tecnología para abrir la puerta a un
nuevo enfoque para entender el mundo y
tomar mejores decisiones (NY Times)
DEF. 3: Conjuntos de datos cuyo
tamaño supera al software tradicional
en cuanto a su adquisición,
almacenamiento, mantenimiento y
análisis (IBM)
DEF. 4: Grandes conjuntos de datos
que pueden ser reunidos y analizados
para descubrir patrones y tomar
mejores decisiones (McKinsey)
22. Conceptos básicos: Big Data
o Definición del Big Data en relación a las características de los datos:
o Volumen: Escenarios de datos en organizaciones que llegan a Terabytes (103 Gb) e incluso Petabytes
(>1.000.000 Gigabytes)
o Variedad: Aumento en cantidad y heterogeneidad de las fuentes de datos
o Velocidad: Aprovechar los datos en el momento oportuno puede ayudar a reducir los tiempos de
actuación
Datos estructurados Semi estructurados No estructurados
25. o Hadoop es un entorno de código abierto que
o Describe un método de procesamiento de datos distribuido
o Permite escalar usando hardware comercial
o En su núcleo, Hadoop tiene dos funciones principales:
Nodo 1
HDFS
Map 1 Reduce 1
Map 2 Reduce 2
Map n Reduce n
Nodo 2
HDFS
Nodo n
HDFSAlmacenar Datos
(HDFS)
Procesar Datos
(MapReduce)
Conceptos básicos: Big Data
26. Conceptos básicos: Big Data
o Hadoop
o Las tecnologías del entorno Hadoop cubren las necesidades de cualquier tipo de aplicación Big
Data
o Base de datos análitica (DW) y procesamiento batch: Apache Hive, Impala, Spark,…
o Adquisición y procesamiento real time: Apache Kafka, Flink, Spark,…
o Big Data OLAP: Apache Kylin y Druid,…
o Machine Learning: Apache Spark (Mlib o R)
o Soporte a las lecturas y escrituras aleatorias (Pseudotranscional): Apache HBase,...
29. Conceptos básicos: Ejercicio
o Identificar dimensiones y métricas dado el siguiente fichero origen en formato Excel que hace referencia
a las reservas hoteleras
30. Conceptos básicos: Ejercicio
o Identificar dimensiones y métricas dado el siguiente fichero origen en formato Excel que hace referencia
a las reservas hoteleras
o Solución (una propuesta):
o Data Mart: Reservas Hoteleras
o Dimensiones:
o Fecha: Año, Mes, Fecha
o Huésped
o N.º Reserva
o Hotel: Provincia, Hotel
o Nacionalidad
o Métricas:
o Importe
o Nº. Huesped
32. o Conceptos básicos sobre arquitectura de la información
o Ejemplos de arquitectura Cloud y aplicaciones
o Herramientas y Tecnologías disponibles en el mercado. Casos de Éxito
Índice
33. o Opciones para el despliegue de herramientas o plataformas Big Data
o Despliegue e infraestructura
o On Premise: Local
o Cloud: Azure, Amazon AWS, Google Cloud, Alibaba,…
o Licencia, soporte e interoperabilidad
o Open Source: HDFS, Spark, Hive, Flink, Druid,…
o Enterprise: Versiones enterprise de tecnologías Open Source (ej. Databricks) o software
propietario (ej. Sap Hana).
o Hadoop o No Hadoop
o Ej. Cloudera (o Azure HDInsight) vs stack de Azure o AWS.
Ejemplos de Arquitectura
35. o Las tecnologías de Azure cubren las necesidades de aplicaciones Big Data
o Almacenamiento:
o Blob Storage, Data Lake, Synapse (SQL DW), Cosmos DB (No SQL)…
o Procesamiento:
o Databricks (Batch, Near Real Time, SQL, ML, Graph,…)
o Stream Analytics (Real Time)
o Movimiento de datos:
o Data Factory (Movimiento batch y orquestación)
o Event Hub & IoT Hub ( Real Time)
o Seguridad, Data Governance, Kubernetes (AKS), …
Ejemplos de Arquitectura
41. o Algunas de la aplicaciones más comunes del Big Data en las organizaciones son:
o Prevención de riesgos, fraude, perdida de clientes,…
o Optimización de operaciones y uso de recursos (ej. energía, espacios, WiFi,…)
o Estudio de impacto, competencia o satisfacción del cliente mediante el análisis de redes sociales,
blogs y emails
o Sistemas de recomendación
o Investigación en ciencia y salud
o Venta de datos a terceros
Casos de Uso
48. Índice
o Conceptos básicos sobre arquitectura de la información
o Ejemplos de arquitectura Cloud y aplicaciones
o Herramientas y Tecnologías disponibles en el mercado. Casos de Éxito
49. Tecnologías
o Para dar soporte al Big Data ha surgido un amplio abanico de tecnologías y herramientas
o La mayoría de estas tecnologías son Open Source
o Problema (Know-How):
o ¿Qué tecnologías usar en cada escenario Big Data?
51. Tecnologias
o Para simplificar el escenario tecnológico actual podemos clasificar las tecnologías Big Data en
3 grandes grupos
52. Tecnologías
o Para simplificar el escenario tecnológico actual podemos clasificar las tecnologías Big Data en
3 grandes grupos:
o Entorno Hadoop
o Entorno de procesamiento que da soporte a la mayoría de aplicaciones Big Data.
o Algunas de las herramientas que incluye pueden considerarse NoSQL.
o Otras NoSQL
o En lugar de un entorno, son aplicaciones para aplicaciones Big Data específicas (ej. Neo4J para
gráfos o MongoDB documental)
o Bases de datos extendidas
o Bases de datos tradicionales a las que se añaden características para procesar el Big Data semi o
estructurado (ej. columnar y distribuido)
53. Tecnologías
o Distribuciones Hadoop
o La instalación, gestión y escalabilidad resuelta mas sencilla
o Tipos
o On Premise / MultiCloud: Cloudera
o Cloud: Amazon EMR, Azure HD Insight y Google Dataproc
54. Tecnologias
o Las nubes ofrecen sus propios servicios (stack) para olvidarnos de las distribuciones Hadoop
56. Tecnologías
o Algunas de las tecnologías clave son Open Source o disponen de versiones gratuitas
57. Tecnologías
o La mayoría de las tecnologías Big Data incorporan la posibilidad de usar el lenguaje de consulta
estándar Sql
58. Tecnologías: Data Lake
o Consiste en implementar una arquitectura Big Data que soporte el almacenamiento y procesamiento de los
datos que se van generando en nuestra organización.
o Permite la exploración de los datos y desarrollo de aplicaciones iterativo para la extracción de
conocimiento útil de los datos
o Podemos tener o no aplicaciones Big Data definidas en un primer momento
o Damos acceso a distintos perfiles de usuarios: Departamento de I+D+i, Marketing, mantenimiento y
desarrollo de TIC, dirección, …
60. Tecnologías: Data Lake
o Hadoop es un entorno de código abierto que
o Describe un método de procesamiento de datos distribuido
o Permite escalar usando hardware comercial
o En su núcleo, Hadoop tiene dos funciones principales:
Nodo 1
HDFS
Map 1 Reduce 1
Map 2 Reduce 2
Map n Reduce n
Nodo 2
HDFS
Nodo n
HDFSAlmacenar Datos
(HDFS)
Procesar Datos
(MapReduce)
61. Tecnologías: Data Lake
o Hadoop Distributed File System (HDFS): Sistema de archivos
diseñado para permitir su distribución a través de un clúster de
servidores
o Escalar = Añadir nuevos equipos al clúster
o Tolerante a fallos
o Permite almacenar cualquier tipo de archivo, pero no es un
sistema de archivos “real”
o No podemos acceder directamente desde el SO
...
...
62. Tecnologías: Data Lake
o Cada trabajo Map Reduce se descompone en dos procesos
o Map
o Divide la entrada en muchas piezas pequeñas de forma que cada pieza pueda ser
procesada de forma independiente y en paralelo
o Reduce
o Los resultados del procesamiento de cada pieza son recopilados, agregados y
procesados
o Diseñado para la lectura de secuencial de grandes volúmenes de datos
o Menos adecuado para lecturas y escrituras aleatorias de datos
63. Tecnologías: Data Lake
o Arquitectura Ecosistema Hadoop
HDFS
Sistema de archivos distribuido
MapReduce
Entorno de procesamiento de
datos en paralelo
Hbase
NoSQL
Columnar
Flume
ETL datos
streaming
Sqoop
Carga de
datos
SGBDR
Hive
Data
Warehouse
Pig
Flujos de
datos
Mahout
Minería de Datos
Zookeeper
Coordinación
Oozie
Flujos de
trabajo
Ambari
Gestión y monitorización del clúster Hadoop
Spark
Flujos de
datos
Núcleo
Carga de datos
Procesamiento
y análisis
Gestión
Kafka
Streaming
64. Tecnologías: Data Lake
o Azure Data Lake Storage Gen 2
o Características principales:
o Unión de las funcionalidades de Azure Blob Storage y Azure Data Lake Gen 1
o Azure Blob Storage:
o Almacenamiento: Contenedores/Blobs
o Estructura: almacén de objetos
o Data Lake Gen 1:
o Almacenamiento: Carpetas/Archivos
o Estructura: sistema de archivos jerárquico
o Acceso compatible con Hadoop: acceso a los datos igual que HDFS
o Rentabilidad: almacenamiento y capacidad de bajo coste gracias de Azure Storage, Gen 2 es 50 % más
económico que Gen 1
o Escalabilidad: escala de forma natural hasta muchos exabytes
66. Tecnologías: Data Lake
o Google Cloud Storage:
o Características principales:
o Almacenamiento de objetos unificados
o Clases de almacenamiento para todo tipo de cargas de trabajo
o Standard: High frecuency access
o Nearline: Less frequent access
o Coldline: Low frequency access
o Archive: Lowest frecuency access
o Varios tipos de ubicación para diferentes necesidades de redundancia y rendimiento
o Administración del ciclo de vida de los objetos, control de versiones de objetos, políticas de retención y
conservación de objetos
o Claves de encriptación facilitadas por el cliente
o Acceso uniforme a nivel de depósito
o Cloud Audit Logs en Cloud Storage
68. Tecnologías: Data Lake
o AWS Data Lake Formation
o Desplegar un Data Lake en AWS implica levantar una serie de servicios, mucho más completo y complejo que
sus rivales.
o Algunos de estos servicios: Cognito, API Gateway, Lambda, S3, Dynamo DB, ES, CloudWatch Logs entre otros.
o Características:
o Almacenamiento en S3, cambiando a formatos como Parquet y ORC
o Carga desde servicios de BD en AWS (MySql, PostgreSql, etc..), orígenes externos(ETL Glue), otros servicios de
AWS(S3 Buckets, CloudTrial, CloudFront)
o Permite catalogar y etiquetar los datos, mediante la recopilaciones de metadatos(automático) y asignación de
labels(usuario)
o Transformación de datos mediante Glue y Spark
o Optimización de particiones
o Gestión de la seguridad simplificada(encriptación, definición y gestión de controles de acceso, auditoria de acceso)
71. Tecnologías: ETL
o Talend Open Studio:
o Herramienta visual Open Source para el procesamiento de datos ETL
o Dispone de múltiples módulos y componentes
o Comunidad de usuarios activa – Talend Community
o Tutoriales, videos, recomendaciones, documentación etc.
o Dispone de una versión comercial con componentes adicionales
o Funcionalidades generales de la herramienta
o Data Integration
o Data Quality
o Data Management
o Business Process Management
72. Tecnologías: ETL
o Caso de éxito Talend: Investigación sobre los papeles de Panamá
o Se necesitaba una herramienta para reconstruir una base de datos de 2.6TB de datos y 11.5 millones
de documentos
o Talend ha permitido analizar rápidamente los datos relacionando los datos de las sociedades
offshore con las personas que estaban detrás de estas.
o Se han detectado unas 210.000 compañías offshore y se han detectado 140 políticos implicados
de más de 50 países diferentes.
o Objetivo: revolucionar el periodismo de investigación y ofrecer a los ciudadanos un detalle de como
funciona la economía sumergida.
74. Tecnologías: ETL
o Pentaho Data Integration
o Herramienta gráfica para el diseño ETL que simplifica el procesamiento de datos.
o Diseñada para evitar la programación y el uso de scripts, esta herramienta permite ejecutar una gran
cantidad de transformaciones de forma rápida y eficiente
o Dispone de versión open source y enterprise
o Utilidades Big Data
o Integración con diferentes herramientas Big Data
o Lectura y escritura de datos en HDFS
o Motor de ejecución adaptativa
o Motor por defecto: Kettle
o Motor alternativo: Spark
76. Tecnologías: ETL
o Azure Data Factory:
o Es una solución de integración de datos sin
servidor totalmente administrada para la
ingesta, preparación y transformación de
todo tipos de datos a gran escala.
o 100 % Cloud (integración con Azure),
extensible on premise con SSIS
o Mas limitado a nivel de conexiones y
transformaciones que las soluciones
anteriores.
o También realiza la labor de Orquestador,
programando la ejecución o bajo demanda.
o Se ejecuta en Spark de forma
autoadministrada.
78. Tecnologías: ETL Real Time & Batch
o Apache Spark:
o Sistema de procesamiento distribuido de datos de código libre.
o Proyecto Apache
o Escalabilidad:
o Los programas Spark se ejecutan igual en 1 que en N máquinas
o Soporta múltiples orígenes de datos:
o Archivos de texto, Hadoop, Hive, Cassandra
o Operaciones típicas de sistemas distribuidos
o Disponible para programar en Scala, Java y Python
o Batch, Streaming y SQL
o Tiene versión Enterprise “Databricks” y disponible como servicio en las nubes
o Mas rápido que Hadoop al trabajar en memoria y no en disco
81. Tecnologías: Data Warehouse
o Azure Synapse:
o Motor de procesamiento masivo en paralelo (MPP) basado en SQL Server.
o Muy alto rendimiento
o Ejecución de consultas SQL en segundos (< 5 segundos)
o Sobre esquemas con 1 o más tablas de miles de millones de filas
o Conexión en modo direct a Power BI
o No es necesario importar datos a Power BI (tiempo ETL)
o Polybase:
o Tablas externas sobre datos en Data Lake o Blob Storage, para su consulta directa.
84. Tecnologías: Data Warehouse
o Vertica características principales:
o Motor de procesamiento masivo en paralelo (MPP).
o Almacenamiento columnar, comprimido utilizando proyecciones
o Muy alto rendimiento
o Ejecución de consultas SQL en segundos (< 5 segundos)
o Sobre esquemas con 1 o más tablas de miles de millones de filas
o Tablas externas (flex table), acceso a hdfs, etc…
85. Tecnologías: Data Warehouse
o Apache Kylin características principales:
o Big Data-OLAP: Consultas analíticas con latencia por debajo de un segundo para tablas de hasta
más de 12.000 millones de filas.
o Soporte para estándar ANSI SQL y conectores J/ODBC
o Integración con herramientas de BI más conocidas
o Power BI, Tableau, Pentaho, Mondrian MDX, Superset , Apache Zeppelin, Microstrategy…
o Escalabilidad (Clúster Hadoop y Clúster Kylin) , soporte para muy alta concurrencia de consultas.
o Monitorización y auto optimización de los cubos
90. Casos de Éxito: Smart Data Andalucia
o Tecnologías:
o Fuente de datos:
o Formato: BD, API, Ficheros, etc…
o Origen: Airbnb, Twitter, Movelia, Google
Trends, Aena, INE, Junta de Andalucia,
Autoridades Portuarias,
Skyscanner,Apple y Google
o Almacenamiento
o Data Lake: Hadoop
o Data Warehouse: Vertica
o ETL
o Pentaho Data Integration
o Script Python
o Repositorio BI: LinceBI
o Explotación: Pentaho CDE + LinceBI Tools