1. José A. González, MSIE
Recolección y Análisis de Datos
Introducción
La importancia de esta etapa del proyecto es que
da las bases conceptuales o mentales de cómo
se va a modelar el sistema real. Da las pautas
de cómo esta configurado y como funciona el
sistema.
Esta es la etapa que mayor cantidad de tiempo
consume.
Cuando se trata de un sistema nuevo se puede
esperar que exista muy poca información. En el
caso de un sistema existente el problema
consiste en identificar que datos son los que
realmente sirven.
Por lo general los datos que se encuentran deben
ser manipulados (ordenados, filtrados) hasta
obtener la información que realmente sirva.
2. Recolección y Análisis de Datos
Guía para la Recolección de Datos
La recolección de datos se debe hacer en forma sistemática. Es
decir se debe seguir un procedimiento.
En el momento de recolectar datos se debe concentrar en lo
que realmente se necesita. A continuación se encuentra una
guía que se debe tener presente en el momento de recolectar
datos.
1. Cuando se esta definiendo las actividades que ocurren en el
sistema, es muy importante identificar los eventos que causan
la iniciación de dichas actividades.
2. Solo se debe concentrar en recolectar información que
realmente tenga un impacto sobre el sistema según el objetivo
del proyecto de simulación. Esto ayudará a ahorra tiempo en el
desarrollo del modelo.
Ejemplo: Heladería ------> Sabores.
José A. González, MSIE
3. Recolección y Análisis de Datos
Guía para la Recolección de Datos
3. Cuando se esta determinando el tiempo de una actividad, se
debe tener cuidado en aislar el tiempo real que toma hacer dicha
actividad. Se trata de no agregar el tiempo gastado en espera de
material o en espera de algún recurso. Ejemplo: Tiempo de
Reparación.
4. Cuando existe mucha variedad en los datos de entrada se puede
pensar en agrupar dichos datos por alguno de sus atributos. Luego
a cada grupo se le puede asignar una probabilidad de que ocurran.
“El secreto de identificar grupos comunes es el pensar en
probabilidades”.
5. Lo importante en la definición del sistema esta en identificar y
abstraer todas las relaciones causa-efecto. Lo que nos interesa es
la esencia y no la sustancia. Realmente no nos interesa lo que
sucede en una actividad en particular, lo que nos interesa es el
impacto de esta actividad sobre el uso de recursos y el atraso en el
flujo de entidades.
José A. González, MSIE
4. Recolección y Análisis de Datos
Guía para la Recolección de Datos
6. Se debe tener cuidado de no confundir las variables
independientes (de entrada) con las variables dependientes (de
resultado).
Cualquier esfuerzo de recolectar datos debe seguir los
siguientes pasos:
1. Determinar los requerimientos de datos.
2. Identificar fuentes de información.
3. Recolección de datos.
4. Haga los supuestos necesarios.
5. Análisis de los datos.
6. Documentación y aprobación de los datos.
José A. González, MSIE
5. Recolección y Análisis de Datos
Determinar los Requerimientos de Datos
El primer paso en la recolección de datos es el de
determinar con exactitud que datos son
necesarios para la construcción del modelo.
Datos Estructurales: Este tipo de dato describe
la distribución/configuración del sistema a
modelar. Debe incluir datos acerca de los
diferentes elementos del sistema; entidades,
recursos, localizaciones.
Datos Operacionales: Este tipo de dato explica
el como opera/funciona el sistema. Especifica
cuando, donde y como suceden los eventos y
actividades de interés. Suministra datos acerca de
la lógica y comportamiento del sistema, incluye;
rutas, horarios, asignación de recursos y el
comportamiento de downtime.
José A. González, MSIE
6. Recolección y Análisis de Datos
Determinar los Requerimientos de Datos
Datos Numéricos: Este tipo de dato nos da
información cuantitativa del sistema.
Ejemplos incluyen:
- Capacidades.
- Tasa de llegadas.
- Tiempo de actividades.
- Tiempo entre fallas.
Estos datos se convertirán en distribuciones empíricas
o teóricas.
José A. González, MSIE
7. Recolección y Análisis de Datos
Identificar Fuentes de Información
Raramente toda la información necesaria para la construcción de un
modelo de simulación se encontrará en un solo sitio. Por lo general
involucra la revisión de informes, llevar acabo entrevistas,
observaciones personales y hacer muchos supuestos.
Es en esta etapa que el individuo recolectando datos debe ser o
debe aprender a ser paciente y tener muchas persistencia.
Para sistemas existentes por lo general se encuentra buena
cantidad de información disponible. En contraste, para sistemas
nuevos las fuentes de información son pocas y muy limitadas,
muchas veces solo se cuenta con la opinión de algún supuesto
experto.
Cuando se selecciona una fuente de información siempre se debe
tener presente si es confiable y si es de fácil acceso.
Siempre se debe buscar fuentes con la mayor objetividad.
José A. González, MSIE
8. Recolección y Análisis de Datos
Recolectando los Datos
El levantamiento de datos debería seguir el siguiente orden:
1. Definir el flujo general de las entidades.
2. Elaborar una descripción de la operación.
3. Refinar detalles y fortalecer valores.
Lo anterior no quiere decir que la información aparecerá en este
orden sino que el esfuerzo de encontrarla debería ser este.
Definir el Flujo General de las Entidades
La determinación del flujo de entidades sirve para la construcción de
la estructura del modelo, permitirá ver como las diferentes entidades
fluyen a través del sistema. A medida que mas información este
disponible esta se puede añadir.
Diagrama de Flujo de Procesos vs. Diagrama de Flujo de Entidades
José A. González, MSIE
9. Recolección y Análisis de Datos
Elaborar una descripción de la operación
Teniendo el diagrama de flujo de entidades se procede a crear una
descripción de cómo funciona el sistema, es en este momento que se
describe como cada tipo de entidad es procesada a través del sistema.
Para cada ubicación/estación y cada tipo de entidad se debe obtener
información pertinente a:
- Tiempo y requerimientos de recursos de la actividad o operación.
- Donde, cuando y en que cantidades se moverán las entidades.
- Tiempo y requerimientos de recursos necesarios para el movimiento
hacia la siguiente ubicación.
La suma de la descripción del funcionamiento + el flujo de entidades dan
como resultado la estructura necesaria para definir el modelo de
simulación. Posteriormente se le puede agregar mas información.
Es una buena idea realizar un tour del sistema para verificar toda la
información obtenida hasta el momento.
José A. González, MSIE
10. Recolección y Análisis de Datos
Elaborar una descripción de la operación (Cont.)
Es importante poner a funcionar la primera versión del modelo
lo antes posible, ya que esto tiene las siguientes ventajas.
1. Mantiene vivo el interés en el proyecto.
2. Ayuda a determinar si hace falta información.
3. Ayuda en el proceso de validación del modelo.
Refinar Detalles y Fortalecer Valores
Teniendo una versión funcional del modelo el siguiente paso es
el de agregar mas información (detalle) y refinar los datos ya
contenidos en el modelo.
Esta etapa es importante para obtener una representación del
sistema lo mas real posible.
José A. González, MSIE
11. Recolección y Análisis de Datos
Los Supuestos Son Necesarios?
“OJO” Un modelo de simulación puede correr con datos incorrectos,
pero no lo puede hacer con datos incompletos.
Una vez se haya iniciado la tarea de recolectar datos no se tarda en
descubrir que algunos nunca se van a poder conseguir o que la
fuente no es confiable. Es en estos momentos que se hace
necesario hacer supuestos del entorno del sistema o del
funcionamiento del mismo.
En el caso de sistemas nuevos, se debe recordar que la simulación
se va hacer con respecto a ciertas condiciones futuras que por lo
general no se conocen con un alto grado de certeza. Aquí también
es necesario hacer supuestos acerca del modelo y de su entorno.
Por ultimo es importante no olvidar que no deberíamos de confiar
mas en los resultados de la simulación que en los supuestos que
fueron utilizados.
José A. González, MSIE
12. Recolección y Análisis de Datos
Análisis Estadístico de Datos Numéricos
Antes de ser utilizados en un modelo de simulación los datos
recolectados deben ser analizados e interpretados, solo así se podrá
tener confianza de que dichos datos permiten generar una
representación real del sistema.
Antes de desarrollar una representación (distribución) de los datos
estos deben de poseer ciertas características tales como:
independencia (aleatoriedad), homogeneidad (que los datos
provengan de una misma distribución) y que sean estacionarios
(que la distribución no cambie con el tiempo). Sin conocer estas
características no se podrán ajustar los datos a una distribución
teórica.
Pruebas de Independencia:
- Scatter Plot
- Autocorrelation Plot
- Runs Tests
José A. González, MSIE
13. Recolección y Análisis de Datos
Análisis Estadístico de Datos Numéricos
Pruebas de Homogeneidad: Este tipo de prueba es utilizado
para determinar si los datos de una muestra provienen de una
misma población o si representan múltiples poblaciones.
Tiempo de Reparación
Frecuencia
Parte Atorada
Falla Mecánica
José A. González, MSIE
14. Recolección y Análisis de Datos
Análisis Estadístico de Datos Numéricos
Este tipo de prueba tienen dos fines. El primer caso es cuando
necesitamos comprobar si los datos son homogéneos. Ejemplos de datos
que tienden a no ser homogéneos por naturaleza incluyen:
1. Tiempos de actividad que toman mas o menos tiempo dependiendo del tipo de
entidad siendo procesada.
2. Tiempos entre llegadas que fluctúen dependiendo de la hora del día o del día de la
semana.
En el segundo caso se quiere saber si dos muestras de datos que hayan
sido recolectadas provienen de una misma población o si son
idénticamente distribuidos. Ejemplos donde este tipo de pruebas pueden
ser útil son:
1. Tiempos entre llegadas han sido recolectados para diferentes días y se desea saber si
los datos de cada día proviene de la misma distribución.
2. Tiempos de actividad de dos diferentes operarios han sido recolectados y se desea
saber si la misma distribución se puede utilizar para representar a ambos operarios.
José A. González, MSIE
15. Recolección y Análisis de Datos
Repaso Rápido de Estadística
Método Gráficos Usados Para Describir Datos Cuantitativos.
El Histograma, es el método mas popular y tradicional usado cuando se
quiere describir un conjunto de datos cuantitativos. A continuación se
describe los paso a seguir para la construcción de un histograma.
Paso 1. Calculo del intervalo de los datos.
Intervalo = Dato más grande – Dato más pequeño
Paso 2. Divida el intervalo calculado en el primer paso entre 5 y 20 clases de
igual ancho. El numero de clases es arbitrario, sin embargo, para tener una
buena descripción gráfica se recomienda que si se esta trabajando con un
numero pequeño de datos usar pocas clases y si se esta trabajando con un
gran numero de datos usar un mayor numero de clases. Es importante tener
en cuenta que la frontera de la clase mas baja debe estar situada por debajo
del datos mas pequeño y el ancho de la clase debe ser lo suficientemente
ancho de tal manera que ningún dato coincida con la frontera de una clase.
José A. González, MSIE
16. Recolección y Análisis de Datos
Repaso Rápido de Estadística
Regla empírica para calcular el numero de clases de un histograma:
Número de Datos Observados Número de Clases
Menos de 25 5 ó 6
25 a 50 7 a 14
Más de 50 15 a 20
Paso 3. Contar el numero de observaciones que caen en cada una de las
clases. Este número se conoce como la frecuencia de clase.
Paso 4. Determinar la frecuencia relativa de cada clase, así:
Frecuencia Relativa de Clase = Frecuencia de Clase/Número de Observaciones
Paso 5. Básicamente un histograma es una grafica de barras, donde las clases
son representadas por las categorías y la altura de las barras esta
determinada por la frecuencia de clase. En el caso de un histograma de
frecuencia relativa, la altura de las barras esta determinada por la frecuencia
relativa de las diferentes clases.
José A. González, MSIE
17. Recolección y Análisis de Datos
Repaso Rápido de Estadística
Ejercicio No.1 (Datos):
9.98 10.12 9.84
10.26 10.05 10.15
10.05 9.80 10.02
10.29 10.15 9.80
10.03 10.00 9.73
8.05 9.87 10.01
10.55 9.55 9.98
10.26 9.95 8.72
9.97 9.70 8.80
9.87 8.72 9.84
9.19 10.01 8.82
9.63 8.82 8.65
10.10 9.43 8.51
9.70 10.03 9.14
10.09 9.85 9.75
9.60 9.27 8.78
10.05 8.83 9.35
10.12 9.39 9.54
9.49 9.48 9.36
9.37 9.64 8.68
Ubicación Antigua Ubicación Nueva
1. Construya un histograma de frecuencia para la ubicación antigua.
2. Construya un histograma de frecuencia para la ubicación nueva.
José A. González, MSIE
18. Recolección y Análisis de Datos
Repaso Rápido de Estadística
Medidas de Tendencia Central.
La Media Aritmética (Media), de las tres medidas de tendencia central la
media es la mas utilizada en la practica. Se define la media aritmética de un
conjunto de n observaciones y1, y2,……, yn como el promedio de la
observaciones:
José A. González, MSIE
19. Recolección y Análisis de Datos
Repaso Rápido de Estadística
Medidas de Tendencia Central.
La Mediana, de un conjunto de n observaciones y1, y2,……, yn es el número
de la mitad del conjunto cuando este se ordena en forma ascendente, es decir
el valor m es la posición tal que la mitad del área bajo el histograma de
frecuencia relativa se encuentra a la derecha de esta posición y la otra mitad a
su izquierda. Para obtener la mediana primero es necesario ordenar el
conjunto de valores observados en forma ascendente, luego se calcula de la
siguiente forma:
paresnsi
2
yy
imparesnsi
1)(n/2(n/2)
2/)1(ny
m
José A. González, MSIE
20. Recolección y Análisis de Datos
Repaso Rápido de Estadística
Medidas de Tendencia Central.
La Moda, de un conjunto de n observaciones y1, y2,……, yn es el valor y del
conjunto que ocurre con mayor frecuencia.
Medidas de Variación.
El Intervalo es igual a la diferencia entre la observación mas grande y la mas
pequeña del conjunto de datos observados.
Intervalo = Observación más grande – Observación más pequeño
José A. González, MSIE
21. Recolección y Análisis de Datos
Repaso Rápido de Estadística
Ejercicio No.2 (Datos):
9.98 10.12 9.84
10.26 10.05 10.15
10.05 9.80 10.02
10.29 10.15 9.80
10.03 10.00 9.73
8.05 9.87 10.01
10.55 9.55 9.98
10.26 9.95 8.72
9.97 9.70 8.80
9.87 8.72 9.84
9.19 10.01 8.82
9.63 8.82 8.65
10.10 9.43 8.51
9.70 10.03 9.14
10.09 9.85 9.75
9.60 9.27 8.78
10.05 8.83 9.35
10.12 9.39 9.54
9.49 9.48 9.36
9.37 9.64 8.68
Ubicación Antigua Ubicación Nueva
1. Calcule la media, la mediana y la moda para la ubicación antigua.
2. Calcule la media, la mediana y la moda para la ubicación nueva.
José A. González, MSIE
22. Recolección y Análisis de Datos
Repaso Rápido de Estadística
Medidas de Variación.
El Intervalo es igual a la diferencia entre la observación mas grande y la mas
pequeña del conjunto de datos observados.
Intervalo = Observación más grande – Observación más pequeño
La Varianza de una muestra de n observaciones y1, y2,……, yn se define
como:
2
1
12
1
2
2
11
)(
n
n
y
y
n
yy
s
n
i
n
i
i
i
n
i
i
José A. González, MSIE
23. Recolección y Análisis de Datos
Repaso Rápido de Estadística
Medidas de Variación.
La Varianza de la población se define a continuación:
para una población finita con n observaciones.
n
y
n
i
i
1
2
2
)(
José A. González, MSIE
24. Recolección y Análisis de Datos
Repaso Rápido de Estadística
Medidas de Variación.
La Desviación Estándar de una muestra de n observaciones es igual a la
raíz cuadrada de la varianza, se define a continuación:
La Desviación Estándar de la población es:
1
)(
1
2
2
n
yy
ss
n
i
i
2
José A. González, MSIE
25. Recolección y Análisis de Datos
Repaso Rápido de Estadística
Ejercicio No.3 (Datos):
9.98 10.12 9.84
10.26 10.05 10.15
10.05 9.80 10.02
10.29 10.15 9.80
10.03 10.00 9.73
8.05 9.87 10.01
10.55 9.55 9.98
10.26 9.95 8.72
9.97 9.70 8.80
9.87 8.72 9.84
9.19 10.01 8.82
9.63 8.82 8.65
10.10 9.43 8.51
9.70 10.03 9.14
10.09 9.85 9.75
9.60 9.27 8.78
10.05 8.83 9.35
10.12 9.39 9.54
9.49 9.48 9.36
9.37 9.64 8.68
Ubicación Antigua Ubicación Nueva
1. Calcule la varianza y la desviación estándar para la ubicación antigua.
2. Calcule la varianza y la desviación estándar para la ubicación nueva.
José A. González, MSIE
26. Recolección y Análisis de Datos
Repaso Rápido de Estadística
Medidas de Posición Relativa.
Definición: El 100p-ésimo percentil de un conjunto de observaciones es el
valor de y situado de manera que 100p% del área bajo la distribución de
frecuencia relativa de las observaciones queda a la izquierda del 100p-ésimo
percentil, el restante 100(1-p)% del área quedaría a la derecha.
Así el Cuartil Inferior (QL), de un conjunto dado de observaciones es el 25o
percentil. El Cuartil Medio (m), del mismo conjunto de observaciones seria
el 50o percentil. Finalmente, el Cuartil Superior (QU), sería el 75o percentil.
Pasos para obtener los percentiles de un conjunto pequeño de datos:
Paso 1. Ordene el conjunto de observaciones en forma ascendente, así
obteniendo y(1) , y(2) , …… , y(n).
Paso 2. Calcule l = ¼(n+1) y redondéela al entero mas cercano. La
observación que ocupa esta posición denotada y(l) representa el cuatril inferior
o 25o percentil. En caso que l caiga entre los enteros, redondee hacia arriba.
José A. González, MSIE
27. Recolección y Análisis de Datos
Repaso Rápido de Estadística
Medidas de Posición Relativa.
Paso 3. Calcule u = 3/4(n+1) y redondéela al entero mas cercano. La
observación que ocupa esta posición denotada y(u) representa el cuatril
superior o 75o percentil. En caso que u caiga entre los enteros, redondee
hacia abajo.
En General, para obtener el p-ésimo percentil, calcule la cantidad i =
p(n+1)/100 y redondee al entero más cercano. La observación que ocupa
esta posición, denotada por y(i) es el p-ésimo percentil.
José A. González, MSIE
28. Recolección y Análisis de Datos
Repaso Rápido de Estadística
Métodos Para Detectar Datos Fuera De Intervalo.
Definición: Una observación y que es inusualmente grande o pequeña en
relación con las demás observaciones de un conjunto de datos se denomina
valor fuera de intervalo o dato atípico. Estos valores por lo general son
atribuibles a una de los siguientes causas:
1. La observación se observa, registra o digita en el computador
incorrectamente.
2. La observación proviene de una población distinta.
3. La observación es correcta pero representa un suceso poco común.
Definición: El intervalo intercuartiles (IQR), es la distancia entre los cuartiles
superior e inferior:
IQR = QU – QL
José A. González, MSIE
29. Recolección y Análisis de Datos
Repaso Rápido de Estadística
Métodos Para Detectar Datos Fuera De Intervalo.
Pasos a seguir para construir una gráfica de cuadro:
1. Calcule la mediana, m, los cuartiles inferior y superior, QL y QU y el intervalo
intercuartiles, IQR, para los valores y de un conjunto de datos.
2. Construya un cuadro sobre el eje y con QL y QU situados en las esquinas
inferiores. Entonces, el ancho de la base será igual a IQR. Dibuje una línea
vertical dentro del cuadro para ubicar la mediana, m.
3. Establezca dos conjuntos de límites en la gráfica de cuadro. Las cotas
interiores se localizan a una distancia de 1.5(IQR) por debajo de QL y por
arriba de QU; las cotas exteriores se encuentran a una distancia de 3(IQR) por
debajo de QL y por arriba de QU.
José A. González, MSIE
30. Recolección y Análisis de Datos
Repaso Rápido de Estadística
Métodos Para Detectar Datos Fuera De Intervalo.
Pasos a seguir para construir una gráfica de cuadro:
4. Las observaciones que caen entre las cotas interiores y exteriores se
denominan posibles valores fuera de intervalo. Marque los posibles valores
fuera de intervalo en la gráfica de cuadro utilizando asteriscos (*). Las
observaciones que caen fuera de las cotas exteriores se denominan valores
fuera de intervalo muy probables. Utilice círculos pequeños (o) para marcar
los valores fuera de intervalo muy probables.
5. A fin de destacar aún más los valores extremos, se añaden “bigotes” a la
gráfica de cuadro. Marque el valor de y dentro de la región entre QL y la cota
inferior que esté más cercano a la cota interior con una cruz (x) y una x al
cuadro con una línea punteada: un “bigote”. De forma similar, utilice una x y
su “bigote” para ubicar el valor más extremo entre QU y la cota interior
superior.
Algoritmo extraído de: Mendenhall W., Sincich T., “Probabilidad y Estadistica para ingeniería y ciencias”, 4ta. Edición,
Prentice Hall
José A. González, MSIE
31. Recolección y Análisis de Datos
Repaso Rápido de Estadística
Ejercicio No.4 (Datos):
9.98 10.12 9.84
10.26 10.05 10.15
10.05 9.80 10.02
10.29 10.15 9.80
10.03 10.00 9.73
8.05 9.87 10.01
10.55 9.55 9.98
10.26 9.95 8.72
9.97 9.70 8.80
9.87 8.72 9.84
9.19 10.01 8.82
9.63 8.82 8.65
10.10 9.43 8.51
9.70 10.03 9.14
10.09 9.85 9.75
9.60 9.27 8.78
10.05 8.83 9.35
10.12 9.39 9.54
9.49 9.48 9.36
9.37 9.64 8.68
Ubicación Antigua Ubicación Nueva
1. Construya una gráfica de cuadro para la ubicación antigua. ¿Detecta
valores atípicos?
2. Construya una gráfica de cuadro para la ubicación nueva. ¿Detecta valores
atípicos?
José A. González, MSIE
32. Recolección y Análisis de Datos
SPSS
1. Introducción de datos.
2. Comando, AnalyzeDescriptive StatisticsFrequencies, medidas de
tendencia central, medidas de posicionamiento, histogramas.
3. Comando, GraphsInteractiveBoxplot, se recuerdan del diagrama de
cuadro?
José A. González, MSIE
33. Recolección y Análisis de Datos
Stat:Fit
1. Comando, Input.
2. Comando, StatisticsIndependence. Comprobación de la independencia
de los datos.
3. Comando, FitAuto::Fit. Ajuste de una distribución de probabilidad
teórica a los datos recolectados.
4. Métodos para la selección de la distribución de probabilidad teórica que va
a representar un fenómeno estocástico.
José A. González, MSIE