Este documento presenta conceptos generales sobre data warehouse e inteligencia de negocios. Explica que un data warehouse es un conjunto de herramientas y metodologías para la administración de información con fines de análisis y gestión. Describe los componentes clave de un data warehouse como las tablas de hechos y dimensiones, y los modelos de datos estrella y copo de nieve. También cubre temas como tipos de tablas de hechos, dimensiones lentamente variables, y estrategias de almacenamiento.
3. Conceptos Generales
Referencia Bibliográfica
Ralph Kimball: The DataWarehouse Toolkit
Bill Inmon: Building the DataWarehouse
Salvador Ramos: Microsoft Business Intelligence: Vea el cubo Medio Lleno
Sebastián Rodríguez R.: EIAD, Estrategia para la Implementación Inteligente de DW
Thomas Davenport: Analytics at work
www.EasyBI.cl 3
4. Conceptos Generales
Fundamentos.
Registrar y Analizar y
Transacciones
Controlar (OLTP) Evaluar (OLAP)
Ventas
Inventarios Velocidad de Transacción Velocidad de Consultas
Contabilidad Integridad de Información Apoyo Toma de Decisiones
Recursos Humanos Evitar Redundancias “Desnormalizado”
Etc- “3ª Forma Normal”
On-Line Transaction On-Line Analytical
Processing Processing
www.EasyBI.cl 4
5. Conceptos Generales
Definición DataWarehouse
Conjunto de herramientas y metodologías utilizadas
para la administración de información con fines de
análisis y gestión.
NO ES SOLO UNA TABLA DE HECHOS
NO ES SOLO UNA HERRAMIENTA
www.EasyBI.cl 5
6. Conceptos Generales
Definición DataWarehouse, objetivos
Automatizar los procesos de recopilación y generación de información
usuarios utilizan la información, ya no la construyen.
Entregar autonomía a los usuarios
Normalizar el proceso de captura de información
Normalizar el proceso de entrega de información.
Fuente única de Información del Área / Empresa.
Información validada.
www.EasyBI.cl 6
7. Conceptos Generales
Modelo de Dato OLTP
Ciudad
Sucursal Cliente
Factura Sexo
Producto Est. Civil
Det. Factura
www.EasyBI.cl 7
10. Conceptos Generales
Características de un DataWarehouse
Orientado a Los datos son organizados por temas para facilitar el
Temas entendimiento a los usuarios.
Todos los datos relativos a una misma “entidad” quedarán en
una tabla.
Integrado Debido a que la información procede desde distintos
sistemas, es tarea del DW integrar las diversas fuentes y
normalizar los datos.
Histórico Los cambios en los datos relevantes deben quedar
registrados, para luego poder consultarlos en diversos
momentos en el tiempo
No Volátil Una vez introducida la información, debe quedar almacenada
y disponible en formato solo lectura.
www.EasyBI.cl 10
11. Conceptos Generales
Componentes del Cubo
Tabla de Almacena los indicadores del negocio (datos numéricos),
Hechos tanto básicos como elementos calculados.
Tabla de Almacena los datos descriptivos, por lo general son tablas con
Dimensiones un porcentaje muy bajo de filas en relación a las tablas de
Hechos, pero pueden contener muchas más columnas.
Una correcta y completa definición de campos en la tabla de
dimensiones puede ayudar a realizar análisis robusto sobre los
datos.
12. Conceptos Generales
Topología
Estrella Las dimensiones se relacionan directamente con la tabla de
hechos.
Por lo general esta estrategia es utilizada cuando hay grandes
volúmenes de información y/o cuando existe un proceso
robusto de administración de Información (por ejemplo EIAD).
Copo de Las dimensiones se pueden relacionar con las tablas de
Nieve hechos, o con otras dimensiones.
Esta estrategia es mejor para la administración directa en el
modelo de DW.
www.EasyBI.cl 12
13. Conceptos Generales
Tabla de
Modelo de Datos OLAP – Copo de Nieve Dimensiones
Ciudad
Sucursal Tabla de Cliente
Dimensiones
Tabla de Tabla de
Hechos Tabla de
Dimensiones
Dimensiones
Ventas Sexo
Est. Civil
Producto
Tabla de
Dimensiones Tabla de
www.EasyBI.cl Dimensiones
13
14. Conceptos Generales
Modelo de Datos OLAP – Estrella
Sucursal Cliente, Ciudad,
Tabla de Sexo, Est. Civil
Dimensiones
Ventas Tabla de
Dimensiones
Tabla de
Dimensiones
Producto
Tabla de
Hechos
www.EasyBI.cl 14
15. Conceptos Generales
Tipos de Tablas de Hechos.
SnapShot Cada período se agrega un registro para la entidad, sin
remplazar ni modificar la foto del período anterior. Ejemplo:
Balances, Deudas en el sistema financiero.
Transaccional Un registro por cada evento, que ocurre en una fecha
determinada. Solo se pueden hacer inserciones.
Ejemplo: Sistemas de Ventas.
Incremental Un registro por cada ocurrencia, pero la fila contiene
múltiples fechas que indica el cambio de estados. A diferencia
de los anteriores, en este tipo de estructuras se puede
insertar y actualizar los registros. Ejemplo: WorkFlow, Juicios.
www.EasyBI.cl 15
16. Conceptos Generales
Tipos de Dimensiones: Slow Changing Dimension
SCD N° 1 Sobre escribir la información de la dimensión.
No existe referencia histórica de los datos.
SCD N°2 La clave de la dimensión es compuesta, registra, por cada
cambio en la fila de la dimensión (o los campos que sean
relevantes), un nuevo registro.
SCD N° 3 Agregar una columna adicional por cada columna cuyo valor
queremos mantener en la historia.
www.EasyBI.cl 16
17. Conceptos Generales
Tipos de Dimensiones: Otros tipos de dimensiones
Dimensión Junta varias dimensiones en una sola, el objetivo principal es
Compuesta mejorar el rendimiento de la solución. Ejemplo: Tabla de
clientes del modelo ejemplo.
Rol Cuando hay mucha información repetida en una tabla de
Hechos, es posible quitar esta información y “Factorizarla” en
una tabla de dimensión. Esto minimiza el espacio utilizado por
al tabla de Hechos y mejora el análisis sobre los datos.
www.EasyBI.cl 17
18. Conceptos Generales
Tipos de Dimensiones: Dimensión como Tabla de Hechos
Es posible encontrar tablas que cumplen la condición de ser Hechos en un
modelo, y Dimensión en Otro.
Por ejemplo una tabla de hechos que agrupe información de ventas por
clientes, puede ser una tabla de dimensiones en el modelo de ventas por
Productos.
Estas son construcciones poco comunes, que surgen cuando el N° de
iteraciones de revisión de los modelos de DW son mayores a 2.
www.EasyBI.cl 18
19. Conceptos Generales
Modelos de datos complejos: “Constelaciones”
Dim 1
Dim 2
Hechos 1
Dim 3
Dim 7
Dim 5
Hechos 2
Hechos 2
Dim 6
Dim 4
www.EasyBI.cl 19
20. Conceptos Generales
Estrategias de Almacenamiento
MOLAP Almacenamiento Multidimensional.
Requiere alta utilización de disco.
Optimizado para consultas rápidas.
ROLAP Almacenamiento en Base Relacional.
Alta escalabilidad.
Rápida adaptabilidad a cambios en las definiciones
HOLAP Mezcla de ambas estrategias.
www.EasyBI.cl 20
21. Conceptos Generales
Tecnología Disponible.
Bases de Datos Permite la implementación de ROLAP, los proveedores de
Relacionales bases de datos están haciendo esfuerzos por mejorar
esta tecnología para implementar proyectos de DW. (Ej.
SQL Server 2008R2 incorpora optimización para consultas
de tipo “Star Join”).
Bases de Datos Diseñadas especialmente para implementar soluciones
“Columnares”. de tipo analíticas, a diferencia de la anterior, estas B.D.
almacenan la información por Columnas y no por Filas, lo
que otorga mayor velocidad de lectura y compresión de
datos. (Ej. SyBase IQ).
www.EasyBI.cl 21
22. Conceptos Generales
Tecnología Disponible.
Bases de Datos Implementan la estrategia MOLAP y ROLAP, tienen la
Dimensionales. ventaja de precalcular las consultas que harán los
usuarios, por lo cual los tiempos de respuesta serán muy
bajos, sin embargo esto genera tiempos de
preprocesamiento muy largos, lo que dificulta su
utilización en ambientes muy dinámicos. Ej. SQL Server
Analysis Services.
Bases de datos Todas las anteriores tienen la información estructurada.
“NoSQL” Estas bases de datos están diseñadas para buscar
información sobre miles de millones de registros, ya sean
fotos, textos, logs, etc. Los tiempos de respuesta son muy
cortos para la gran cantidad de información que
administra. Ejemplo: Hadoop (estrategia que utiliza
Yahoo y Amazon para sus búsquedas).
www.EasyBI.cl 22
23. Conceptos Generales
Optimización.
Índices Administrar correctamente los índices puede mejorar el
rendimiento en forma importante.
Estadísticas de utilización entregada por herramientas
puede ayudar a definir la estrategia de indexación.
Compresión de La compresión de datos ayuda a mejorar el rendimiento
Datos de las consultas a la base, sin embargo los ETL pueden
verse afectados.
Particionamiento Dividir tablas de hechos muy grandes ayuda a mejorar el
rendimiento de acceso
Discos Optimizar los discos físicos, por ejemplo de Estado Sólido.
www.EasyBI.cl 23
24. Conceptos Generales
Optimización.
Diseño Inicial Un buen diseño desde el inicio del proyecto ayudará a
disminuir las tareas de administración y corrección de datos.
Un buen diseño, según Kimball, debe tener entre 5 a 15
dimensiones.
Surrogate Key Utilizar claves numéricas en todas las tablas mejora en
forma importante el almacenamiento y rendimiento en
búsquedas. En este sentido sustituir las claves provenientes
de los sistemas origen proporciona mecanismos de
independencia frente a cambios en dichos sistemas.
www.EasyBI.cl 24
25. Conceptos Generales
Definición Datamart
Datamart Es un almacén de datos con información referida a un área de
estudio específica, algunas veces vinculada solamente a un
área de la empresa.
Su estructura permite trabajar con millones de registros
En teoría, puede ser implementado en cualquier base de
datos (incluso en Excel).
www.EasyBI.cl 25
26. Conceptos Generales
Estrategias para la Implementación
Inmon Propone definir un Datawarehouse centralizado que
considere el 100% de los requerimientos de la organización,
para luego desarrollar Datamart departamentales que
resuelvan las problemáticas locales de cada área.
Kimball Propone definir e implementar los datamart de cada área,
para luego, a partir de estos datamarts, construir el
Datawarehouse corporativo.
www.EasyBI.cl 26
27. Conceptos Generales
TRIVIA: Mitos y Errores a Prevenir
Los Datawarehouse y/o Datamart solo pueden almacenar información
agregada FALSO
Lo más importante es centrarse en la tecnología.
FALSO, también en requerimientos del negocio.
Proyectos largos aseguran el éxito de la iniciativa.
FALSO, Proyectos interminables se diluyen.
La presentación de resultados es tan importante como el rendimiento.
VERDADERO
La tecnología y los requerimientos no cambian en el tiempo.
FALSO, hay que adaptar los datos a nuevos req.
Los usuarios deben adaptarse a las herramientas complejas
FALSO, no las usarán las personas no especialistas.
www.EasyBI.cl 27
28. Conceptos Generales
Modelos Complejos.
¿Cómo administrar múltiples cubos, con
diferentes características y granularidad,
que comparten algunas dimensiones?
www.EasyBI.cl 28
30. Business Intelligence
Definiciones
Describe a la colección, preparación y distribución de datos para informes,
control de gestión, análisis, supervisión y planificación del rendimiento
empresarial.
Fuente: BI Survey.
Conjunto de estrategias y herramientas enfocadas a la administración y
creación de conocimiento mediante el análisis de datos existentes en
una organización o empresa.
Fuente: Wikipedia.
www.EasyBI.cl 30
31. Business Intelligence
Administración de Entornos Complejos
BICC Business Intelligence Competency Center
SSBI Self-Service Business Intelligence
Analytic
Metodología Thomas Davenport
at Work
www.EasyBI.cl 31
32. Business Intelligence
BICC
Problema que Existen múltiples iniciativas de BI en una organización sin
Resuelve. conexión alguna, lo que en ocasiones genera muchos
problemas de coordinación y de “versión única de la verdad”.
Características Es una solución permanente, conformada interna y
formalmente en una organización, que desarrolla y promueve
el uso efectivo de herramientas de inteligencia de negocios,
las cuales permiten dar apoyo y despliegue a la estrategia
organizacional.
Beneficios • Explota de mejor forma la inversión existente de BI
• Coordina y consolida las diversas iniciativas de BI
• Permite reaccionar rápidamente a cambios del negocio.
• Reduce los riesgos en la implementación de nuevas
iniciativas BI
• Apoya a los usuarios en el entendimiento completo del
negocio a través de diversos análisis.
34. Business Intelligence
BICC
Data Stewardship Administración de Metadata. Estándar, Calidad y Arquitectura
de los datos
Support Resolver dudas y problemas de usuarios técnicos y de
negocio.
BI Delivery Desarrolladores de interfaz de usuario, reporting, pruebas y
mantención de lógica de negocio en las aplicaciones.
Data Acquisition Desarrolladores de integración y almacenamiento de datos,
realizando pruebas y mantención.
Advanced Analytics Minería de Datos, modelos estadísticos, optimización, text
mining y presupuestación.
Training Entrenamiento y capacitación para miembros de proyectos y
usuarios de negocios.
Vendor Contracts
Administrador de licencias de aplicaciones y actualizaciones.
management
35. Business Intelligence
BICC
Fuente: SAS, Capitalize on Competence, Implement a Business Intelligence Competency Center (BICC)
36. Business Intelligence
Self-Service BI
Self Services BI se define como las facilidades dentro de un ambiente BI que
permite a usuarios ser más independiente y menos dependiente de un área de
TI.
Problema:
Tiempo de respuesta de áreas de TI son un cuello de botella impide el
desarrollo de BI como hoy lo conocemos.
La solución:
Generar un ambiente en el cual los analistas puedan crear y acceder a un
conjunto de reportes, consultas y análisis por ellos mismos, con mínima
intervención de TI
Fuente: Self Services Business Intelligence: Empowering Users to Generate Insights - TDWI
37. Business Intelligence
Self-Service BI
Estas facilidades deben estar enfocadas en cuatro objetivos
1. Fácil acceso a fuentes de datos para reportes y análisis.
2. Herramientas de BI fáciles de usar y soporte mejorado para análisis de datos.
3. Rápido de implementar.
4. Datamart Fácil de administrar.
Fuente: Self Services Business Intelligence: Empowering Users to Generate Insights - TDWI
41. Business Intelligence
Áreas de BI: Administración del Tiempo.
Urgencias: Se destina 20% Mejoras: 20% del tiempo
del tiempo. Si no hay final del día se dedica a
urgencias se trabaja en los mejoras y proyectos
proyectos propuestos por las áreas.
Proyectos: 60% del tiempo
será destinado a proyectos.
Se considera para planificar
y comprometer fechas de
entrega
La prioridad sobre el tiempo la tienen las Las urgencias son parte importante del
urgencias, luego los proyectos y finalmente las trabajo diario
mejoras y proyectos internos del área
42. Business Intelligence
Modelos de Comparación
BI Maturity levels (IBM)
Nivel 4
• Conectando Estrategia y
Ejecución
Nivel 3 • Organización formal del
• Estándares elegidos Área
• IT y BI trabaja en • IT, Finanzas y BI trabajar
Nivel 2 conjunto en conjunto
• Algunos equipos • Equipos de BI • Tecnología, personas y
trabajan juntos constituidos estándar de procesos
Nivel 1 • Siguen varios grupos de para BI y PM en marcha
• Se genera consistencia
• Múltiples Herramientas BI, pero comienzan a en enfoques y procesos
de reportes y BI trabajar
• Ambiente caótico colaborativamente
• No hay alineación o
consistencia
• No hay Organización
Fuente: Business Intelligence Strategy, a Practical Guide for Achieving BI Excellence (IBM)
43. Business Intelligence
Modelos de Comparación
The BI Competency Center – Organizing for Success
Cambiar el Comprensión Nuevas fuentes
Negocio del Negocio de Ingresos
Mejorar el Optimizar Retener y
Negocio Relación con Apalancar
StakeHolders
Eficiencia,
Alinear el
Administrar, Mejorar el consistencia,
Negocio Rentabilidad
Negocio
Entender el
Dar Sentido al Negocio Entender
Negocio
Meta Objetivo
Fuente: Gartner Research