1. DATA MARK, DATA WAREHOUSE Y DATA MINING
• LUIS ALBERTO SANCHEZ YNGA.
• FELIPE YACTAYO AUDANTE.
• CRISTOPHER SALAS VALDEZ.
• DANIEL CUENCA BARRAGAN
SISTEMA DE INFORMACIÒN.
ADMINISTRACION DE EMPRESAS Y NEGOCIOS INTERNACIONALES.
2. Las empresas tratan de utilizar la información acumulada por las operaciones diarias de la
investigación de mercado y comercialización. Las empresas que han estado en el negocio
por un tiempo se dan cuenta de que han acumulado enormes cantidades de datos en
diversas bases de datos operacionales.
Por lo tanto, El Data Mining es el proceso de extraer
información de diferentes bases de datos de la
compañía y volver a organizarlo para fines distintos.
Ahora un Data Ware house es un lugar donde los
datos pueden ser almacenados para la minería más
conveniente. Esto generalmente será un sistema de
ordenador rápido con gran capacidad de
almacenamiento de datos.
Y un Data Mart es un sistema de índice y extracción.
En lugar de traer todos los datos de la empresa en
un solo almacén, el mercado de datos sabe qué
datos cada base de datos contiene y cómo extraer
información de múltiples bases de datos
3. Un Data mart es una versión especial de almacén de datos (data warehouse). Son
subconjuntos de datos con el propósito de ayudar a que un área específica dentro del
negocio pueda tomar mejores decisiones. Los datos existentes en este contexto pueden ser
agrupados, explorados y propagados de múltiples formas para que diversos grupos de
usuarios realicen la explotación de los mismos de la forma más conveniente según sus
necesidades.
El Data mart es un sistema orientado a la consulta,
en el que se producen procesos batch de carga de
datos (altas) con una frecuencia baja y conocida. Es
consultado mediante herramientas OLAP (On line
Analytical Processing - Procesamiento Analítico en
Línea) que ofrecen una visión multidimensional de
la información.
Sobre estas bases de datos se pueden
construir EIS (Executive Information Systems,
Sistemas de Información para Directivos)
y DSS (Decision Support Systems, Sistemas de
Ayuda a la toma de Decisiones).
4. *La dependencia de un DATA MART:
Según la tendencia marcada por Inmon sobre los data warehouse, una
data mart dependiente es un subconjunto lógico (vista) o un
subconjunto físico (extracto) de un almacén de datos más grande, que
se ha aislado por alguna de las siguientes razones:
Se necesita para un esquema o modelo de datos espacial (por ejemplo,
para reestructurar los datos para alguna herramienta OLAP).
*Prestaciones: Para descargar el data mart a un ordenador
independiente para mejorar la eficiencia.
*Seguridad: Para separar un subconjunto de datos de forma
selectiva a los que queremos permitir o restringir el acceso.
*Conveniencia: la de poder pasar por alto las autorizaciones
y requerimientos necesarios para poder incorporar una
nueva aplicación en el Data Warehouse principal de la
Empresa.
*Demostración sobre el terreno: para demostrar la viabilidad
y el potencial de una aplicación antes de migrarla al Data
Warehouse de la Empresa.
*Política: Razones internas de la organización para hacer esta
división o separación de los datos del almacén de datos.
5. *Conceptos erróneos de los Data Marts:
Al hablar de los data marts, es inevitable la
comparación con los data warehouse y al
final se acaba diciendo (o entendiendo).
*Son más simples de implementar que un
Data Warehouse: FALSO, la implementación
es muy similar, ya que debe proporcionar las
mismas funcionalidades.
*Son pequeños conjuntos de datos y, en
consecuencia, tienen menor necesidad de
recursos: FALSO, una aplicación corriendo
sobre un data mart necesita los mismos
recursos que si corriera sobre un data
warehouse.
Las consultas son más rápidas, dado el
menor volumen de datos: FALSO, el menor
volumen de datos se debe a que no se tienen
todos los datos de toda la empresa, pero sí
se tienen todos los datos de un determinado
sector de la empresa,
6. ¿QUÉ ES UN DATA WAREHOUSE?
Tras las dificultades de los sistemas tradicionales en satisfacer las necesidades
informacionales, surge el concepto de Data Warehouse, como solución a las necesidades
informacionales globales de la empresa. Este término acuñado por Bill Inmon, se traduce
literalmente como Almacén de Datos. No obstante si el Data Warehouse fuese
exclusivamente un almacén de datos, los problemas seguirían siendo los mismos que en
los Centros de Información.
7. Definiciones de almacén de datos
*Definición de Bill Inmon
Bill Inmon fue uno de los primeros
autores en escribir sobre el tema
de los almacenes de datos, define
una data warehouse (almacén de
datos).
*Orientado a temas.- Los datos en la base
de datos están organizados de manera que
todos los elementos de datos relativos al
mismo evento u objeto del mundo real
queden unidos entre sí.
*Variante en el tiempo.- Los cambios
producidos en los datos a lo largo del
tiempo quedan registrados para que los
informes que se puedan generar reflejen
esas variaciones.
*No volátil.- La información no se
modifica ni se elimina, una vez
almacenado un dato, éste se convierte
en información de sólo lectura, y se
mantiene para futuras consultas.
*Integrado.- La base de datos contiene
los datos de todos los sistemas
operacionales de la organización, y
dichos datos deben ser consistentes.
8. *Definición
Ralph Kimball es otro conocido autor en el tema de los data
warehouse, define un almacén de datos como: "una copia de las
transacciones de datos específicamente estructurada para la
consulta y el análisis". También fue Kimball quien determinó que
un data warehouse no era más que: "la unión de todos los Data
marts de una entidad". Defiende por tanto una metodología
ascendente (bottom-up) a la hora de diseñar un almacén de
datos.
*Una definición más amplia de almacén de datos
Las definiciones anteriores se centran en los datos en sí mismos. Sin embargo, los
medios para obtener esos datos, para extraerlos, transformarlos y cargarlos, las
técnicas para analizarlos y generar información, así como las diferentes formas
para realizar la gestión de datos son componentes esenciales de un almacén de
datos. Muchas referencias a un almacén de datos utilizan esta definición más
amplia.
9. *Función de un almacén de datos
En un almacén de datos lo que se quiere es
contener datos que son necesarios o útiles para
una organización, es decir, que se utiliza como
un repositorio de datos para posteriormente
transformarlos en información útil para el
usuario. En el funcionamiento de un almacén de
datos son muy importantes las siguientes ideas: *Integración de los datos provenientes
de bases de datos distribuidas por las
diferentes unidades de la organización y
que con frecuencia tendrán diferentes
estructuras (fuentes heterogéneas).
*Separación de los datos usados en
operaciones diarias de los datos usados
en el almacén de datos para los
propósitos de divulgación, de ayuda en
la toma de decisiones, para el análisis y
para operaciones de control.
10. *Ventajas e inconvenientes de los
almacenes de datos
Hay muchas ventajas por las que es
recomendable usar un almacén de
datos. Algunas de ellas son:
Poco volumen de datos
Mayor rapidez de consulta
Consultas SQL y/o MDX sencillas
Validación directa de la información
Facilidad para la historización de los datos
11. Las diferencias de un Data Warehouse con un sistema tradicional las podríamos resumir en el
siguiente esquema:
12. El datamining (minería de datos), es el conjunto de técnicas y tecnologías que permiten
explorar grandes bases de datos, de manera automática o semiautomática, con el objetivo
de encontrar patrones repetitivos, tendencias o reglas que expliquen el comportamiento de
los datos en un determinado contexto.
Básicamente, el datamining surge para intentar ayudar a
comprender el contenido de un repositorio de datos. Con
este fin, hace uso de prácticas estadísticas y, en algunos
casos, de algoritmos de búsqueda próximos a la Inteligencia
Artificial y a las redes neuronales.
De forma general, los datos son la materia prima bruta. En
el momento que el usuario les atribuye algún significado
especial pasan a convertirse en información.
13. Vea más diferencias entre
datos, información y
conocimiento. Aunque en
data mining cada caso
concreto puede ser
radicalmente distinto al
anterior, el proceso común
a todos ellos se suele
componer de cuatro etapas
principales:
*Determinación de los
objetivos. Trata de la delimitación de
los objetivos que el cliente desea
bajo la orientación del especialista en
data mining.
Análisis de los
resultados. Veri
fica si los
resultados
obtenidos son
coherentes y
los coteja con
los obtenidos
por los análisis
estadísticos y
de visualización
gráfica.
*Reprocesamiento de los datos. Se
refiere a la selección, la limpieza, el
enriquecimiento, la reducción y la
transformación de las bases de datos.
*Determinación
del modelo. Se
comienza
realizando unos
análisis
estadísticos de
los datos, y
después se lleva
a cabo una
visualización
gráfica de los
mismos para
tener una
primera
aproximación.
14. *Técnicas de Data Mining
Como ya se ha comentado, las técnicas de la
minería de datos provienen de la inteligencia
artificial y de la estadística, dichas técnicas, no
son más que algoritmos, más o menos
sofisticados que se aplican sobre un conjunto
de datos para obtener unos resultados.
Las técnicas más representativas son:
Redes neuronales.- Son un paradigma de aprendizaje y procesamiento automático
inspirado en la forma en que funciona el sistema nervioso de los animales.
*El perceptrón.
*El perceptrón multicapa.
*Los mapas autoorganizados, también conocidos como redes de Kohonen.
Regresión lineal.- Es la más utilizada para formar relaciones entre datos. Rápida y eficaz
pero insuficiente en espacios multidimensionales donde puedan relacionarse más de 2
variables.
15. Árboles de decisión.- Un árbol de decisión es un modelo de predicción utilizado en el ámbito de
la inteligencia artificial, dada una base de datos se construyen estos diagramas de
construcciones lógicas,
Ejemplos:
• Algoritmo ID3.
• Algoritmo C4.5.
Modelos estadísticos.- Es una expresión simbólica en forma de igualdad o ecuación que se
emplea en todos los diseños experimentales y en la regresión para indicar los diferentes factores
que modifican la variable de respuesta.
Agrupamiento o Clustering.- Es un procedimiento de agrupación de una serie de vectores según
criterios habitualmente de distancia;
Ejemplos:
• Algoritmo K-means.
• Algoritmo K-medoids.
Reglas de asociación.- Se utilizan para descubrir hechos que ocurren en común dentro de un
determinado conjunto de datos.
• Algoritmos supervisados (o predictivos): predicen un dato (o un conjunto de ellos)
desconocido a priori, a partir de otros conocidos.
• Algoritmos no supervisados (o del descubrimiento del conocimiento): se descubren
patrones y tendencias en los datos.
16. *Negocios
La minería de datos puede contribuir significativamente en las aplicaciones de administración
empresarial basada en la relación con el cliente. En lugar de contactar con el cliente de forma
indiscriminada a través de un centro de llamadas o enviando e-mails, sólo se contactará con
aquellos que se perciba que tienen una mayor probabilidad de responder positivamente a una
determinada oferta o promoción. Por lo general, las empresas que emplean minería de datos
ven rápidamente el retorno de la inversión, pero también reconocen que el número de
modelos predictivos desarrollados puede crecer muy rápidamente.
En lugar de crear modelos para predecir qué clientes
pueden cambiar, la empresa podría construir modelos
separados para cada región y/o para cada tipo de cliente.
También puede querer determinar qué clientes van a ser
rentables durante una ventana de tiempo (una quincena, un
mes) y sólo enviar las ofertas a las personas que es probable
que sean rentables.
Para mantener esta cantidad de modelos, es necesario
gestionar las versiones de cada modelo y pasar a una
minería de datos lo más automatizada posible.
17. Sánchez Ynga, Luis Alberto: Estos factos de apoyo y de ayuda almacenan datos,
para una organización, es decir, que se utiliza como un repositorio de datos para
posteriormente transformarlos en información útil para el usuario. Brindando así
una información correcta a la gente indicada en el momento óptimo y en el formato
adecuado, para poder tener una buena toma de decisión en el mundo competitivo.
Yactayo Audante, Felipe: Estas Herramientas Son Bien Útiles ya que no solo se
utilizan para almacenar datos sino que las Empresas lo quieren utilizar para las
ventas, marketing y planificación estratégica. En algunos casos una de las
herramientas es la desfragmentación de una de ellas es más rápida en la utilización
de datos pero lo malo es que no almacena mucho pero si es rápido en el resultado
Salas Valdez, Christopher Jefry: Este tipo de herramientas de apoyo, ayudan a dar a
los usuarios acceso a los datos que ellos necesitan para analizarlos más a menudo.
Estos sistemas de almacenamiento proveen los datos en una forma que concuerda la
vista colectiva de los datos por un grupo de usuarios en un departamento o función
de negocio, donde también se mejora el tiempo de respuesta al usuario final debido
a la reducción en el volumen de información a ser accedido, estos “Datas” nos
facilitan la provisión de datos apropiadamente estructurados para satisfacer los
requerimientos de las herramientas de acceso de usuario final.