1. DATAWAREHOUSE
Datawarehouse
Data Warehouse
Fundamentos
CARRERA DE
INGENIERÍA
DE SISTEMAS
2. DATAWAREHOUSE
Agenda
● Introducción
– Problemas
● Data Warehouse.
– Características.
– Componentes.
– Ventajas.
– Problemas.
● OLTP vesrsus Data Warehouse.
● Arquitectura de un Data Warehouse
CARRERA DE
INGENIERÍA
DE SISTEMAS
3. DATAWAREHOUSE
Agenda
● Data Mart.
● Diseño de un Datawarehouse.
● OLTP y OLAP
– Comparación con OLTP versus OLAP.
– Herramientas OLAP
– Base de Datos OLAP
● DataWarehouse y Data Mining
● OLAPy Data Mining
●
CARRERA DE Conclusiones
INGENIERÍA
DE SISTEMAS
4. DATAWAREHOUSE
Introducción
• La información que se quiere investigar sobre
un cierto dominio de la organización se
encuentra en bases de datos y otras fuentes
muy diversas, tanto internas como externas.
• Muchas de estas fuentes son las que se utilizan
para el trabajo diario (bases de datos
operacionales).
CARRERA DE
INGENIERÍA
DE SISTEMAS
5. DATAWAREHOUSE
Introducción
● Sobre estas mismas bases de datos de trabajo
ya se puede extraer conocimiento (visión
tradicional).
● Uso de la base de datos transaccional para:
– Se mantiene el trabajo transaccional diario de
los sistemas de información originales (OLTP,
On-Line Transactional Processing).
– Se hace análisis de los datos en tiempo real
sobre la misma base de datos (OLAP, On-Line
Analytical Processing).
CARRERA DE
INGENIERÍA
DE SISTEMAS
6. DATAWAREHOUSE
Introducción
● Problemas:
– Perturba el trabajo transaccional diario de los
sistemas de información originales (“killer
queries”). Se debe hacer por la noche o en
fines de semana.
– La base de datos está diseñada para el
trabajo transaccional, no para el análisis de
los datos. Generalmente no puede ser en
tiempo real (era AP pero no OLAP).
CARRERA DE
INGENIERÍA
DE SISTEMAS
7. DATAWAREHOUSE
Introducción
● Se desea operar eficientemente con esos
datos...
– Costes de almacenamiento y conectividad se
han reducido en últimos años,
● Parece razonable recoger los datos
(información histórica) en un sistema
separado y específico.
– Data warehouses (Almacenes o Bodegas de
Datos)
– Nace Data-Warehousing.
CARRERA DE
INGENIERÍA
DE SISTEMAS
8. DATAWAREHOUSE
Data Warehouse
Repositorio completo de datos de la empresa,
donde se almacenan datos estratégicos,
tácticos y operativos, con el objeto de obtener
información estratégica y táctica.
CARRERA DE
INGENIERÍA
DE SISTEMAS
9. DATAWAREHOUSE
Data Warehouse
● El almacén de datos es ahora el “sistema de
información central” en todo este proceso.
● Un almacén de datos es una colección de
datos:
– orientada a un dominio
– integrada
– no volátil
– variante en el tiempo
● Para ayudar en la toma de decisiones.
CARRERA DE
INGENIERÍA
DE SISTEMAS
10. DATAWAREHOUSE
Data Warehouse
Almacenes de Datos (AD) (data warehouse)
Disponer de Sistemas de Información de apoyo a la
toma de decisiones*
Disponer de bases de datos que permitan extraer conocimiento
de la información histórica almacenada en la organización
Análisis de la Previsiones de Diseño de
Organización evolución estratégias
* DSS: Decision Support Systems
CARRERA DE
INGENIERÍA
DE SISTEMAS
11. Data Warehouse DATAWAREHOUSE
Almacenes de datos
Base de Datos diseñada con un objetivo de
explotación distinto que el de las bases de
datos de los sistemas operacionales.
Sistema Operacional BD orientada al
(OLTP) proceso
Sistema de Almacén de BD orientada al
Datos análisis
(DW)
CARRERA DE
INGENIERÍA
DE SISTEMAS
12. Data Warehouse DATAWAREHOUSE
Almacenes de Datos
definición
Colección de datos diseñada para dar apoyo a
los procesos de toma de decisiones
características
orientada hacia integrada variable en no volátil
la información* el tiempo
relevante de la
organización
* subject oriented, not process oriented
CARRERA DE
INGENIERÍA
DE SISTEMAS
13. Data Warehouse DATAWAREHOUSE
Se diseña para consultar eficientemente
Orientado hacia la
información información relativa a las actividades
relevante de la (ventas, compras, producción, ...) básicas
organización de la organización, no para soportar los
procesos que se realizan en ella (gestión
de pedidos, facturación, etc).
Base de Datos
Transaccional
PAÍS GAMA
CURSO ... ...
...
VENTA Información
REUNION
... Necesaria
... PRODUCTO
PROTOTIPO ...
...
CARRERA DE
INGENIERÍA
DE SISTEMAS
14. Data Warehouse DATAWAREHOUSE
Integra datos recogidos de diferentes
Integrado sistemas operacionales de la
organización (y/o fuentes externas).
Fuente de Datos 3
Fuente de Datos 1
Fuente de Datos 2
texto
HTML
Base de Datos Transaccional 1
Fuentes Externas
Fuentes Internas
Base de Datos Transaccional 2
Almacén de Datos
CARRERA DE
INGENIERÍA
DE SISTEMAS
15. Data Warehouse DATAWAREHOUSE
Los datos son relativos a un periodo
Variable en de tiempo y deben ser incrementados
el tiempo periódicamente.
Los datos son almacenados como fotos (snapshots)
correspondientes a periodos de tiempo.
Tiempo Datos
01/2003 Datos de Enero
02/2003 Datos de Febrero
03/2003 Datos de Marzo
CARRERA DE
INGENIERÍA
DE SISTEMAS
16. Data Warehouse DATAWAREHOUSE
Los datos almacenados no son
No volátil actualizados, sólo son incrementados.
Carga
Bases de datos operacionales Almacén de Datos
INSERT READ
READ
UPDATE
DELETE
El periodo de tiempo cubierto por un AD
varía entre 2 y 10 años.
CARRERA DE
INGENIERÍA
DE SISTEMAS
17. Data Warehouse DATAWAREHOUSE
Almacenes de Datos
ventajas para las
organizaciones
Rentabilidad de las Aumento de la Aumento de la
inversiones competitividad productividad de los
realizadas para su en el mercado técnicos de dirección
creación
CARRERA DE
INGENIERÍA
DE SISTEMAS
18. Data Warehouse DATAWAREHOUSE
Almacenes de Datos
problemas
Privacidad de
los datos
Infravaloración del
Incremento continuo
esfuerzo necesario
de los requisitos de
para su diseño y
los usuarios
creación
Infravaloración de los recursos
necesarios para la captura,
transformación carga y
almacenamiento de los datos
CARRERA DE
INGENIERÍA
DE SISTEMAS
19. DATAWAREHOUSE
OLTP versus Data Warehouse
Sistema Operacional (OLTP) Almacén de datos (DW)
almacena datos actuales almacena datos históricos
almacena datos de detalle almacena datos de detalle
bases de datos medianas (100Mb-1Gb) bases de datos grandes (100Gb-1Tb)
los datos son dinámicos (actualizables) los datos son estáticos
los procesos (transacciones) son repetitivos los procesos no son previsibles
el número de transacciones es elevado el número de transacciones es bajo o medio
tiempo de respuesta pequeño (segundos) tiempo de respuesta variable (segundos-horas)
dedicado al procesamiento de transacciones dedicado al análisis de datos
orientado a los procesos de la organización orientado a la información relevante
soporta decisiones diarias soporta decisiones estratégicas
sirve a muchos usuarios (administrativos) sirve a técnicos de dirección
CARRERA DE
INGENIERÍA
DE SISTEMAS
20. DATAWAREHOUSE
Arquitectura de un Data Warehouse
• La Arquitectura de un data warehouse viene
determinada por su situación central como fuente
de información para las herramientas de análisis.
Fuentes Herramientas de
Internas consultas e
informes
Base de Datos
Transaccional
Herramientas
EIS
Almacén de Interfaz y
ETL Operadores
Datos
Fuente de
Datos 1 Herramientas
texto OLAP
Fuente de
Datos 3
HTML
Copias de
Seguridad
Herramientas de
Fuente de
Fuentes Minería de Datos
Datos
Externas
CARRERA DE
INGENIERÍA
DE SISTEMAS
21. Arquitectura de un Data Warehouse DATAWAREHOUSE
• Componentes:
• Sistema ETL (Extraction, Transformation, Load):
realiza las funciones de extracción de las fuentes
de datos (transaccionales o externas),
transformación (limpieza, consolidación, ...) y la
carga del Data Warehouse, realizando:
• Extracción de los datos.
• Filtrado de los datos: limpieza, consolidación, etc.
• Carga inicial del almacén: ordenación, agregaciones,
etc.
• Refresco del almacén: operación periódica que
propaga los cambios de las fuentes externas al
almacén de datos.
CARRERA DE
INGENIERÍA
DE SISTEMAS
22. Arquitectura de un Data Warehouse DATAWAREHOUSE
• Componentes:
• Repositorio Propio de Datos: información
relevante, metadatos.
• Interfaces y Gestores de Consulta: permiten
acceder a los datos y sobre ellos se conectan
herramientas más sofisticadas (OLAP, EIS,
minería de datos).
• Sistemas de Integridad y Seguridad: se
encargan de un mantenimiento global, copias de
seguridad, ...
CARRERA DE
INGENIERÍA
DE SISTEMAS
23. Arquitectura de un Data Warehouse DATAWAREHOUSE
• Organización (Externa) de los datos…
Las herramientas de explotación de los
almacenes de datos han adoptado un modelo
multidimensional de datos.
Se ofrece al usuario una visión multidimensional
de los datos que son objeto de análisis.
CARRERA DE
INGENIERÍA
DE SISTEMAS
24. Arquitectura de un Data Warehouse DATAWAREHOUSE
EJEMPLO
Organización: Cadena de supermercados.
Actividad objeto de análisis: ventas de productos.
Información registrada sobre una venta: “del producto
“Tauritón 33cl” se han vendido en el almacén “Almacén nro.1”
el día 17/7/2003, 5 unidades por un importe de 103,19 euros.”
Para hacer el análisis no interesa la venta individual
(ticket) realizada a un cliente sino las ventas diarias de
productos en los distintos almacenes de la cadena.
CARRERA DE
INGENIERÍA
DE SISTEMAS
25. Arquitectura de un Data Warehouse DATAWAREHOUSE
Marca
Descripción
Semana
Categoría
Departamento Mes
Nro_producto Trimestre
Día
as
Tipo Año
nt
Ve
importe
unidades
Almacén
Ciudad
Tipo
Región
CARRERA DE
INGENIERÍA
DE SISTEMAS
26. Arquitectura de un Data Warehouse DATAWAREHOUSE
Dimensiones (puntos de
vista) desde los que se
puede analizar la actividad.
Marca
Producto
Descripción Semana
Categoría
Departamento Mes
Día Trimestre
Nro_producto
as
Tipo Año
nt
Ve
importe
unidades
Almacén
Ciudad
Almacén
Tipo
Actividad que es objeto de
análisis con los indicadores Región
que interesa analizar
CARRERA DE
INGENIERÍA
DE SISTEMAS
27. Arquitectura de un Data Warehouse DATAWAREHOUSE
• El almacén de datos puede estar formado por
varios datamarts y, opcionalmente, por tablas
adicionales.
Subconjunto de un almacén de
Data mart datos, generalmente en forma de
estrella o copo de nieve.
Se definen para satisfacer las necesidades de un
departamento o sección de la organización.
Contiene menos información de detalle y más
información agregada.
CARRERA DE
INGENIERÍA
DE SISTEMAS
28. DATAWAREHOUSE
Data Mart
Repositorio parcial de datos de la empresa,
donde se almacenan datos tácticos y
operativos, con el objeto de obtener información
táctica.
CARRERA DE
INGENIERÍA
DE SISTEMAS
29. Diseño de un Data Warehouse DATAWAREHOUSE
Recogida y análisis de
requisitos
Diseño conceptual
Diseño lógico específico
Diseño físico
Implementación
CARRERA DE
INGENIERÍA
DE SISTEMAS
30. DATAWAREHOUSE
OLTP
OLTP (On-Line Transaction Processing):
Define el comportamiento habitual de un entorno
operacional de gestión:
●
Altas/Bajas/Modificaciones/Consultas
●
Consultas rápidas y escuetas
●
Poco volumen de información
●
Transacciones rápidas
●
Gran nivel de concurrencia
CARRERA DE
INGENIERÍA
DE SISTEMAS
31. DATAWAREHOUSE
OLAP
OLAP: On-Line Analytical Processing: Define
el comportamiento de un sistema de análisis de
datos y elaboración de información:
●
Sólo Consulta
●
Consultas pesadas y no predecibles
●
Gran volumen de información histórica
●
Operaciones lentas
CARRERA DE
INGENIERÍA
DE SISTEMAS
32. DATAWAREHOUSE
OLAP
OLAP: Datawarehouse de análisis
●
Procesos de consolidación
●
Cambio de tecnología de base de datos
●
Sumarizan datos disgregados
●
Transforman datos
●
Consolidan datos de aplicaciones no integradas
CARRERA DE
INGENIERÍA
DE SISTEMAS
33. DATAWAREHOUSE
OLAP
●
Consistencia de consolidación
●
Comprobar la validez de los datos en el entorno
operacional
●
Datos que no se usan
●
Datos que no se mantienen
●
Inconsistencia entre distintas aplicaciones dentro del
sistema
●
Datos no igualmente mantenidos
●
Codificaciones diferentes
CARRERA DE
INGENIERÍA
DE SISTEMAS
34. DATAWAREHOUSE
Arquitectura Data Warehouse
Mecanismos de consolidación
●
Refresco de datos: Volcado completo de los datos
procedentes del sistema operacional
●
Actualización de datos: Volcado incremental,
tomando como criterio la fecha de operación
●
Propagación de datos: Creación de logs en el
entorno transaccional, los cuales se aplican en el
entorno analítico
CARRERA DE
INGENIERÍA
DE SISTEMAS
35. OLTP vs. OLAP
DATAWAREHOUSE
Características OLTP OLAP
Tamaño BD GigaBytes Giga a TeraBytes
Origen Datos Interno Interno y Externo
Actualización On-Line Batch
Periodos Actual Histórico
Consultas Predecibles Ad Hoc
Actividad Operacional Analítica
CARRERA DE
INGENIERÍA
DE SISTEMAS
36. DATAWAREHOUSE
OLTP vs OLAP
Todas estas divergencias hacen que no sea
posible la convivencia en una única BD de los
entornos OLAP y OLTP:
●
Pérdida de rendimiento del entorno OLTP
●
Falta de integración entre distintos aplicaciones OLTP
●
Tecnologías de BD sin capacidad para soportar
aplicaciones OLAP
●
Incorporación de datos externos difícilmente aplicable
a la BD OLTP
●
Distribución de los datos no adecuada para análisis
OLAP
CARRERA DE
INGENIERÍA
DE SISTEMAS
37. DATAWAREHOUSE
Bases Datos OLAP
Tipos de BD
●
BD Relacional
●
BD Multidimensional
●
BD Híbrida
●
BD OLAP (BD Relacional con funcionalidad
OLAP)
CARRERA DE
INGENIERÍA
DE SISTEMAS
38. Herramientas OLAP DATAWAREHOUSE
● Las herramientas de OLAP presentan al usuario una
visión multidimensional de los datos (esquema
multidimensional) para cada actividad que es objeto
de análisis.
● El usuario formula consultas a la herramienta OLAP
seleccionando atributos de este esquema
multidimensional sin conocer la estructura interna
(esquema físico) del almacén de datos.
● La herramienta OLAP genera la correspondiente
consulta y la envía al gestor de consultas del
sistema (p.ej. mediante una sentencia SELECT).
CARRERA DE
INGENIERÍA
DE SISTEMAS
39. DATAWAREHOUSE
Data Warehouse y Data Minig
● Los almacenes de datos no son
imprescindibles para hacer extracción de
conocimiento a partir de datos.
– se puede hacer minería de datos sobre un
simple fichero de datos.
CARRERA DE
INGENIERÍA
DE SISTEMAS
40. DATAWAREHOUSE
Data Warehouse y Data Minig
● Las ventajas de organizar un almacén de
datos para realizar minería de datos se
amortizan sobradamente a medio y largo plazo
cuando:
– tenemos grandes volúmenes de datos, o
– éstos aumentan con el tiempo, o
– provienen de fuentes heterogéneas o
– se van a combinar de maneras arbitrarias y
no predefinidas.
CARRERA DE
INGENIERÍA
DE SISTEMAS
41. DATAWAREHOUSE
OLAP y Data Mining
● Las herramientas OLAP
– proporcionan facilidades para “manejar” y
“transformar” los datos.
– producen otros “datos” (más agregados,
combinados).
– ayudan a analizar los datos porque producen
diferentes vistas de los mismos.
CARRERA DE
INGENIERÍA
DE SISTEMAS
42. DATAWAREHOUSE
OLAP y Data Mining
● Las herramientas de Minería de Datos:
– son muy variadas: permiten “extraer”
patrones, modelos, descubrir relaciones,
regularidades, tendencias, etc.
– producen “reglas” o “patrones”
(“conocimiento”).
CARRERA DE
INGENIERÍA
DE SISTEMAS
43. DATAWAREHOUSE
Conclusiones
● Los almacenes de datos y las técnicas OLAP
son las maneras más efectivas y avanzadas
para integrar, transformar y combinar los
datos para facilitar al usuario o a otros
sistemas el análisis de la información.
CARRERA DE
INGENIERÍA
DE SISTEMAS
44. DATAWAREHOUSE
Conclusiones
● La tecnología OLAP generalmente se asocia
a los almacenes de datos, aunque:
– Podemos tener almacenes de datos sin OLAP y
viceversa.
● Todos en la empresa son responsables, no el
consultor. Todos lo implementan y todos lo
aseguran.
CARRERA DE
INGENIERÍA
DE SISTEMAS