SlideShare ist ein Scribd-Unternehmen logo
1 von 38
Downloaden Sie, um offline zu lesen
Estadística Inferencial I Unidad 4
Página 1
PRUEBAS DE BONDAD DE AJUSTE Y PRUEBAS NO PARAMETRICAS
Estadística Inferencial I Unidad 4
Página 2
4.1 BONDAD DE AJUSTE
Las pruebas de bondad de ajuste tratan de verificar si el conjunto de datos se
puede ajustar o afirmar que proviene de una determinada distribución.
Las pruebas básicas que pueden aplicarse son: la ji-cuadrada y la prueba de
Smirnov-Kolmogorov. Ambas pruebas caen en la categoría de lo que en
estadística se denominan pruebas de “Bondad de Ajuste” y miden, como el
nombre lo indica, el grado de ajuste que existe entre la distribución obtenida a
partir de la muestra y la distribución teórica que se supone debe seguir esa
muestra. Ambas pruebas están basadas en la hipótesis nula de que no hay
diferencias significativas entre la distribución muestral y la teórica, H0 es la
distribución que se supone sigue la muestra aleatoria. La hipótesis alternativa
siempre se enuncia como que los datos no siguen la distribución supuesta.
Hablamos de bondad de ajuste cuando tratamos de comparar una distribución de
frecuencia observada con los valores correspondientes de una distribución
esperada o teórica. Algunos estudios producen resultados sobre los que no
podemos afirmar que se contribuyen normalmente, es decir con forma
acampanada concentradas sobre la media.
Su fórmula es la siguiente:
𝑓𝑜𝑖= Valor observado en la i-ésimo dato.
𝑓𝑒𝑖= Valor esperado en la i-ésimo dato.
𝑘 = Categorías o celdas.
𝑚 = Parámetros estimados sobre la base de los datos de la muestra
Los grados de libertad vienen dados por: gl= K-m-1.
 



k
i e
eo
i
ii
f
ff
1
2
2

Estadística Inferencial I Unidad 4
Página 3
Criterio de decisión es el siguiente:
Se rechaza H0 cuando
2
1;
2
 mKt
. En caso contrario se acepta.
Donde t representa el valor proporcionado por las tablas, según el nivel de
significación elegido.
Cuanto más se aproxima a cero el valor de chi-cuadrada, más ajustadas están
ambas distribuciones.
Estadística Inferencial I Unidad 4
Página 4
4.1.1 ANALISIS JI-CUADRADA
Es considerada como una prueba no paramétrica que mide la discrepancia
(bondad de ajuste) entre una distribución observada a partir de la muestra y otra
teórica que se supone debe seguir esa muestra, indicando en qué medidas las
diferencias existentes entre ambas se deben al azar en el contraste de la
hipótesis.
Esta prueba se basa en la hipótesis nula H0 de que no hay diferencias
significativas entre la distribución muestral y la teórica.
La estructura básica de la prueba para la bondad de ajuste se muestra en la
siguiente tabla:
Clases Frecuencia observada Frecuencia esperada
1 Foi1 Fe1
2 Foi2 Fe2
. . .
. . .
k Foik Fek
Total n n
Donde para calcular la Frecuencia esperada se tiene:
𝜒2
=
( 𝑓𝑜𝑖 − 𝑓𝑒𝑖)2
𝑓𝑒𝑖
Fórmula para el análisis de ji-cuadrada
𝜒2
= ∑
( 𝑓𝑜𝑖−𝑓𝑒𝑖)2
𝑓𝑒𝑖
𝑘
𝑖−1
Interpretación: cuanto mayor sea el valor de ji-cuadrada menos creíble es la
hipótesis nula H0. De la misma forma, cuanto más se aproximan acero el valor de
𝜒2
, más ajustadas están las distribuciones.
𝜒2
= 0 H0 se acepta 𝜒2
> 0 H0 se rechaza
𝑓𝑜𝑖 = 𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑣𝑎𝑙𝑜𝑟𝑒𝑠 𝑑𝑒𝑙 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜
𝑓𝑒𝑖 = 𝑛𝑢𝑚𝑒𝑟𝑜 𝑒𝑠𝑝𝑒𝑟𝑎𝑑𝑜 𝑑𝑒 𝑣𝑎𝑙𝑜𝑟𝑒𝑠 𝑒𝑛 𝑒𝑙 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜
𝑘 = 𝑛𝑢𝑚𝑒𝑟𝑜 𝑑𝑒 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜𝑠 𝑑𝑒 𝑐𝑙𝑎𝑠𝑒
𝑚 = 𝑛𝑢𝑚𝑒𝑟𝑜 𝑑𝑒 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑠 𝑝𝑎𝑟𝑎 𝑒𝑙 𝑒𝑠𝑡𝑢𝑑𝑖𝑜
Estadística Inferencial I Unidad 4
Página 5
4.1.2 PRUEBA DE INDEPENDENCIA
La prueba de independencia trata de la comparación de dos situaciones en las
cuales podemos esperar que sean dependientes o independientes, esto quiere
decir que, pueden o no estar relacionados sus datos debido a muchos factores
que pueden influir en ellos, o bien, un problema no tenga relación con otro.
Su objetivo es determinar si alguna situación es afectada por otra, basándose en
datos estadísticos y valores probabilístico obtenidos de la fabulación de datos o de
pronósticos por medio de formulas y tablas, para esto se basa en un nivel de
significancia en un caso y en el otro a comparar, valiéndonos de tablas de
contingencia para obtener frecuencias esperadas y poder aplicarlas, para así
obtener datos comparativos que son determinantes en la decisión de
independencia.
Para todas las pruebas de independencia, las hipótesis son:
H0: las dos variables de clasificación son independientes.
H1: las dos variables de clasificación son dependientes.
Los métodos para poner a prueba H0 contra H1 son idénticos a los usados para
poner a prueba las diferencias entre proporciones poblacionales basados en la
prueba de 𝝌2. De nuevo compararemos las frecuencias observadas con las
esperadas, las obtenidas bajo el supuesto de que H0, para determinar que tan
grande debe ser el alejamiento permitido para que la hipótesis de independencia
pueda rechazarse. Si el valor del estadístico de prueba 𝝌2 es mayor o igual que el
valor critico calculado, ya no podremos suponer que pueda resultar de dos
variables de clasificación independientes, siendo esta la razón de que todas las
pruebas de 𝝌2 sobre independencia sean de cola derecha.
Estadística Inferencial I Unidad 4
Página 6
La estadística de prueba que será utilizada en la toma de una decisión acerca de
la hipótesis nula es ji cuadrado X2. Los valores de ji-cuadrada se obtienen con la
siguiente fórmula:
𝝌 𝟐
= ∑
(𝑶𝒊 − 𝒆𝒊) 𝟐
𝒆𝒊
𝒊
Grados de libertad
v = (r-1)*(c-1)
Frecuencia Esperada = Total de la columna * Total del renglón
Características
 X2 toma valores no negativos; es decir, puede ser cero o positiva.
 X2 no es simétrica; es asimétrica hacia la derecha.
 Existen muchas distribuciones X2 como en el caso de la distribución t, hay
una distribución, X2 diferente para cada valor de los grados de libertad.
 Nos dan una tabla de contingencia.
El procedimiento de la prueba ji-cuadrada puede también utilizarse para probar la
hipótesis de independencia de dos variables de clasificación.
Ejemplo:
Supóngase que desea determinar si las opiniones de los residentes votantes del
estado de Illinois respecto a una nueva reforma impositiva son independientes de
sus niveles de ingreso. Una muestra aleatoria de 1000 votantes registrados del
estado de Illinois se clasifica de acuerdo con sus ingresos como bajo, medio y alto
y si están a favor o en contra de la nueva reforma impositiva. Las frecuencias
observadas se presentan en la siguiente tabla, la cual se conoce como una tabla
de contingencia.
Gran total
Estadística Inferencial I Unidad 4
Página 7
Tabla de contingencia 2 x 3
Reforma
impositiva
Nivel de ingresos
TotalBajo Medio Alto
A favor
En contra
182
154
213
138
203
110
598
402
Total 336 351 313 1000
A una tabla de contingencia con r renglones y c columnas se le conoce como una
tabla r x c (“r x c” se lee r por c), a los totales de renglones y columnas en la tabla
anterior se les denomina frecuencia marginales. La decisión de aceptar o
rechazar la hipótesis nula, H0, de independencia entre la opinión de votantes
respecto a la nueva reforma de impuestos y su nivel de ingresos se basan en que
tan bien se ajustan las frecuencias observadas en cada una de las 6 celdas de la
tabla, y las frecuencias que se esperarían para cada celda bajo la suposición de
que H0 es verdadera. Para encontrar estas frecuencias esperadas, defínanse los
siguientes eventos:
L: una persona seleccionada esta en el nivel bajo de ingresos.
M: una persona seleccionada esta en el nivel medio de ingresos.
H: una persona seleccionada esta en el nivel alto de ingresos.
F: una persona seleccionada está a favor de la nueva reforma fiscal.
A: una persona seleccionada está en contra de la nueva reforma fiscal.
Estadística Inferencial I Unidad 4
Página 8
Al utilizar las frecuencias marginales, es posible escribir las siguientes
estimaciones de probabilidad:
𝑃( 𝐿) =
336
1000
, 𝑃( 𝑀) =
351
1000
, 𝑃( 𝐻) =
313
1000
,
𝑃( 𝐹) =
598
1000
, 𝑃( 𝐴) =
402
1000
Ahora si H0 es verdadera y las dos variables son independientes, debe tenerse:
P (L⌒F) = P (L) P (F) = (
336
1000
)(
598
1000
) ,
P (L⌒A) = P (L) P (A) = (
336
1000
)(
402
1000
),
P (M⌒F) = P (M) P (F) = (
351
1000
)(
598
1000
),
P (M⌒A) = P (M) P (A) = (
351
1000
)(
402
1000
),
P (H⌒F) = P (H) P (F) = (
313
1000
)(
598
1000
),
P (H⌒A) = P (H) P (A) = (
313
1000
)(
402
1000
) .
Las frecuencias esperadas se obtienen al multiplicar cada probabilidad de una
celda por el número total de observaciones. Como antes, estas frecuencias se
redondean a un decimal de esta manera el número esperado de votantes de bajos
ingresos en la muestra y que favorecen la nueva reforma impositiva, se estima que
es:
(
336
1000
) (
598
1000
) x 100 =
(336)(598)
1000
= 200.9
Cuando H0 es verdadera. La regla general para obtener la frecuencia esperada
de cualquier celda la proporciona la siguiente fórmula:
Estadística Inferencial I Unidad 4
Página 9
Frecuencia Esperada = Total de la columna * Total del renglón
La frecuencia esperada para cada celda se registra entre paréntesis a un lado del
valor observado real en la siguiente tabla. Nótese que la suma de las frecuencias
esperadas en cualquier renglón o columna da el total marginal o apropiado.
Reforma
impositiva
Nivel de ingresos
TotalBajo Medio Alto
A favor
En contra
182(200.9)
154(135.1)
213(209.9)
138(141.1)
203(187.2)
110(125.8)
598
402
Total 336 351 313 1000
En el ejemplo, se necesitan calcular únicamente las dos frecuencias esperadas del
renglón de arriba de la tabla y entonces encontrar las otras por sustracción. El
numero de grados de libertad asociado a la prueba ji cuadrada que se utiliza aquí
es igual al número de frecuencias de celdas que pueden llenarse libremente
cuando se dan los totales marginales y el gran total; en este ejemplo ese número
es 2. Una formula simple que proporciona el número correcto de grados de
libertad es:
v = (r-1)*(c-1)
de aquí que, para este ejemplo V = (2-1)*(3-1) = 2 grados de libertad. Para
probara la hipótesis nula de independencia, se utiliza el siguiente criterio de
decisión:
Gran total
Estadística Inferencial I Unidad 4
Página 10
Prueba De Independencia:
Calcúlese:
𝝌 𝟐
= ∑
(𝑶𝒊 − 𝒆𝒊) 𝟐
𝒆𝒊
𝒊
Donde la sumatoria se extiende a todas las celdas rc en la tabla de contingencia
r x c. Si 𝝌 𝟐
> 𝝌 𝜶
𝟐
con v = (r-1)(c-1) grados de libertad se rechaza la hipótesis nula
de independencia en el nivel de significancia α; de lo contrario, se acepta la
hipótesis nula.
Al aplicar este criterio a este ejemplo, se encuentra que:
𝝌 𝟐
=
(𝟏𝟖𝟐−𝟐𝟎𝟎.𝟗) 𝟐
𝟐𝟎𝟎.𝟗
+
(𝟐𝟏𝟑−𝟐𝟎𝟗.𝟗) 𝟐
𝟐𝟎𝟗.𝟗
+
(𝟐𝟎𝟑−𝟏𝟖𝟕.𝟐) 𝟐
𝟏𝟖𝟕.𝟐
+
(𝟏𝟓𝟒−𝟏𝟑𝟓.𝟏) 𝟐
𝟏𝟑𝟓.𝟏
+
(𝟏𝟑𝟖−𝟏𝟒𝟏.𝟏) 𝟐
𝟏𝟒𝟏.𝟏
+
(𝟏𝟏𝟎−𝟏𝟐𝟓.𝟖) 𝟐
𝟏𝟐𝟓.𝟖
= 7.85
P≅0.02
De la tabla de Valores críticos de las distribuciones 𝝌2 resulta que 𝜒0.05
2
= 5.991
para v= (2-1) (3-1) = 2 grados de libertad. La hipótesis nula se rechaza. Se
concluye que la opinión de un votante referente a la nueva reforma fiscal y su nivel
de ingresos no son independientes.
Es importante recordar que el estadístico sobre el cual se basa la decisión tiene
una distribución que solo se aproxima por la distribución JI cuadrada.
Los valores calculados 𝝌2 dependen de las frecuencias de la celda y, en
consecuencia, son discretos. La distribución ji cuadrada continua parece
aproximar muy bien la distribución muestral discreta de x2 en la medida en la que
el numero de grados de libertad sea mayor que 1. En una tabla de contingencia de
Estadística Inferencial I Unidad 4
Página 11
2 x 2, donde se tiene únicamente un grado de libertad, se aplica una corrección
que recibe el nombre de corrección de yates para continuidad.
La formula corregida se convierte entonces en:
𝝌 𝟐
(𝒄𝒐𝒓𝒓𝒆𝒈𝒊𝒅𝒂) = ∑
(| 𝑶𝒊 − 𝒆𝒊| − 𝟎. 𝟓) 𝟐
𝒆𝒊
𝒊
Si las frecuencias esperadas de celdas son grandes, los resultados corregidos y
sin corregir son casi los mismos. Cuando las frecuencias esperadas están entre 5
y 10, debe aplicarse la corrección de Yates. Para frecuencias esperadas menores
que 5, debe utilizarse la prueba exacta de Fisher-Irwin. Sin embargo, puede
evitarse el uso de la prueba Fisher-Irwin al seleccionar una muestra grande.
Estadística Inferencial I Unidad 4
Página 12
4.1.3 PRUEBA DE LA BONDAD DEL AJUSTE
Es considerada como una prueba no paramétrica que mide la discrepancia entre
una distribución observada y otra teórica, indicando en qué medida las diferencias
existen entre ambas.
En este tema se describe un procedimiento formal para probar la bondad de ajuste
basado en la distribución ji- cuadrada. El procedimiento de prueba requiere una
muestra aleatoria de tamaño n de la población cuya distribución de probabilidad es
desconocida. Éstas n observaciones se ordenan en un histograma de frecuencia,
con k intervalos de clase. Sea Oi la frecuencia observada en el intervalo de clase i.
Se calcula la frecuencia esperada a partir de la distribución de probabilidad
hipotética, para el intervalo de clase i-ésimo, denotado por Ei, el estadístico de
prueba es: 𝜒0
2
= ∑
( 𝑂𝑖−𝐸𝑖)2
𝐸𝑖
𝑘
𝑖=1
Para demostrar que si la población sigue la distribución hipotética propuesta, 𝜒0
2
tiene, aproximadamente, una distribución ji-cuadrada en donde los grados de
libertad vienen dados por:
gl= K-m-1 donde m representa el numero de parámetros de la distribución
hipotética, estimados por los estadísticos muestrales. Esta aproximación mejora
conforme n se incrementa.
El criterio de decisión es el siguiente:
Se rechaza H0 cuando el valor del estadístico de prueba 𝜒0
2
> 𝜒 𝛼,𝑘−𝑝−1
2
. En caso
contrario se acepta.
Donde t representa el valor proporcionado por las tablas, según el nivel de
significación elegido.
Cuanto más se aproxima a cero el valor de ji-cuadrada, más ajustadas están
ambas distribuciones.
Estadística Inferencial I Unidad 4
Página 13
Un punto que cabe destacar en la aplicación de este procedimiento de prueba se
refiere a la magnitud de las frecuencias esperadas. Si éstas frecuencias
esperadas son muy pequeñas, entonces el estadístico de prueba 𝜒0
2
no reflejará la
desviación de las frecuencias observadas y las esperadas, no únicamente la
pequeña magnitud de las frecuencias esperadas. No hay consenso generalizado
en cuanto al valor mínimo de las frecuencias esperadas, pero valores de 3, 4 y 5
se usan ampliamente como mínimos. Algunos autores proponen que una
frecuencia esperada podría ser tan pequeña, como 1 o 2, siempre que la mayoría
de ellas excedan 5. Cuando una frecuencia esperada sea muy pequeña, puede
cambiarse con la frecuencia esperada de un intervalo de clase adyacente. Las
frecuencias observadas correspondientes también se combinarían, y k se reduciría
una unidad. No es necesario que los intervalos de clase tengan la misma anchura.
Ejemplo:
Una distribución continua.
Un ingeniero está probando una fuente de poder usada en una computadora
notebook. Utilizando α = 0.05, el quiere determinar si una distribución normal
describe adecuadamente el voltaje de salida. De una muestra aleatoria de n = 100
unidades obtiene las estimaciones muestrales de la media y la desviación
estándar x = 5.04 V y s = 0.08 V.
Una práctica común cuando se construyen los intervalos de clase para la
distribución de frecuencia usada en la prueba ji-cuadrada de la bondad del ajuste
es elegir los limites de clase de las celdas de tal modo que las frecuencias
esperadas Ei = npi sean iguales para todas lsa celdas o intervalos de clase. Para
usar este método, los limites de clase a0,a1,…,ak de los k intervalos de clase se
elegirían de tal modo que todas las probabilidades
𝑃1 = 𝑃( 𝑎𝑖−1 ≤ 𝑋 ≤ 𝑎𝑖) = ∫ 𝑓( 𝑥) 𝑑𝑥
𝑎𝑖
𝑎𝑖−1
sean iguales. Suponga que se decide usar k = 8 intervalos de clase. Para la
distribución normal estándar, los intervalos que dividen la escala en ocho
segmentos igualmente factibles son [ 0, 0.32), [0.32, 0.675), [0.675, 1.15), [1.15,∞)
y los cuatro intervalos “reflejados” al otro lado de cero.
Estadística Inferencial I Unidad 4
Página 14
Para cada intervalo pi = 1/8 = 0.125, por lo que las frecuencias esperadas de las
celdas son Ei = npi = 100(0.125) = 12.5. La tabla completa de las frecuencias
observadas y las esperadas se presenta a continuación:
Intervalo de clase frecuencia observada frecuencia observada
Oi Ei
x < 4.948 12 12.5
4.948 ≤ x < 4.986 14 12.5
4.986 ≤ x < 5.014 12 12.5
5.014 ≤ x < 5.040 13 12.5
5.040 ≤ x < 5.066 12 12.5
5.066 ≤ x < 5.094 11 12.5
5.094 ≤ x < 5.132 12 12.5
5.132 ≤ x 14 12.5
Totales 100 100
La cota del primer intervalo de clase es x – 1.15s = 4.948. Para el segundo
intervalo de clase es [x – 1.15s, x – 0.675s), y así sucesivamente. Puede aplicarse
el procedimiento de prueba de hipótesis de ocho pasos en este problema.
1. La variable de interés es la forma de la distribución del voltaje de la fuente
de poder.
2. H0: la forma de la distribución es normal.
3. H1: la forma de la distribución no es normal.
4. α = 0.05
5. el estadístico de la prueba es:
𝜒0
2
= ∑
( 𝑂𝑖 − 𝐸𝑖)2
𝐸𝑖
𝑘
𝑖=1
6. puesto que se estimaron dos parámetros de la distribución normal, el
estadístico ji-cuadrada anterior tiene k-p-1 = 8-2-1 = 5 grados de libertad.
Por lo tanto, se rechazará H0 si 𝜒0
2
> 𝜒0.05,5
2
= 11.07
7. cálculos
Estadística Inferencial I Unidad 4
Página 15
𝜒0
2
= ∑
( 𝑂𝑖 − 𝐸𝑖)2
𝐸𝑖
8
𝑖=1
=
(12 − 12.5)2
12.5
+
(14 − 12.5)2
12.5
+ ⋯ +
(14 − 12.5)2
12.5
= 0.64
8. conclusiones: puesto que 𝜒0
2
= 0.64 < 𝜒0.05,5
2
= 11.07 no puede rechazarse
H0 y no hay evidencia robusta que indique que el voltaje de salida no tenga
una distribución normal. El valor P del estadístico ji-cuadrada 𝜒0
2
= 0.64 es
P = 0.9861.
Estadística Inferencial I Unidad 4
Página 16
4.1.4 TABLAS DE CONTINGENCIA
En muchas ocasiones, los n elementos de una muestra de una población pueden
clasificarse con base en dos criterios diferentes. Entonces es de interés saber si
los dos métodos de clasificación son estadísticamente independientes.
Suponga que el primer método de clasificación tiene r niveles y que el segundo
tiene c niveles. Será Oij la frecuencia observada del nivel i del primer método de
clasificación y el nivel j del segundo método de clasificación. Los datos
aparecerían, en general, como en la siguiente tabla. A una tabla como esta se le
llama tabla de contingencia r x c.
TABLA DE CONTINGENCIA r x c
Columnas
1 2 … c
Renglones
1 O11 O12 … O1c
2 O21 O22 … O2c
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
r Orl Or2 … Orc
En estadística las tablas de contingencia se emplean para registrar y analizar la
relación entre dos o más variables, habitualmente de naturaleza cualitativa
(nominales u ordinales).
Sea Pij la probabilidad de que un elemento seleccionado al azar esté en la celda ij,
dado que las dos clasificaciones son independientes. Entonces pij = uivj, donde ui
es la probabilidad de que un elemento seleccionado al azar este en la clase del
renglón i y vj es la probabilidad de que un elemento seleccionado al azar esté en la
clase de la columna j. ahora bien, con el supuesto de independencia, los
estimadores de ui y vj son
𝑢̂ 𝑖 =
1
𝑛
∑ 𝑜𝑖𝑗
𝑐
𝑗=1
𝑣̂𝑗 =
1
𝑛
∑ 𝑜𝑖𝑗
𝑟
𝑖=1
Estadística Inferencial I Unidad 4
Página 17
Por lo tanto, la frecuencia esperada de cada celda es
𝐸𝑖𝑗 = 𝑛𝑢̂ 𝑖 𝑣̂𝑗 =
1
𝑛
∑ 𝑜𝑖𝑗
𝑐
𝑗=1
∑ 𝑜𝑖𝑗
𝑟
𝑖=1
Entonces, para n grande, el estadístico
𝜒0
2
= ∑ ∑
( 𝑂𝑖𝑗 − 𝐸𝑖𝑗)2
𝐸𝑖𝑗
𝑐
𝑗=1
𝑟
𝑖=1
Tiene una distribución ji-cuadrada aproximada con (r-1) (c-1) grados de libertad si
la hipótesis nula es verdadera. Por lo tanto, la hipótesis de independencia se
rechazaría si el valor observado del estadístico de prueba 𝜒0
2
excediera
𝜒 𝛼,(𝑟−1)(𝑐−1)
2
.
Para calcular grados de libertad se tiene la siguiente fórmula:
gl= (r-)(c-1)
NOTA: El cálculo de grados de libertad nos dará la pauta para calcular el valor
total de frecuencias.
Estadística Inferencial I Unidad 4
Página 18
Ejemplo:
Una compañía tiene que elegir entre tres planes de pensiones. La administración
quiere saber si la preferencia por los planes es independiente de la clasificación
laboral y desea usar α = 0.05.
En la siguiente tabla se muestran las opiniones de una muestra aleatoria de 500
empleados.
Clasificación laboral
Plan de pensión
1 2 3 totales
Trabajadores asalariados
Trabajadores por hora
160
40
140
60
40
60
340
160
Totales 200 200 100 500
Para encontrar las frecuencias esperadas, primero debe calcularse
𝑢̂1 = (340/500) = 0.68, 𝑢̂2 = (160/500) = 0.32, 𝑣̂1 = (200/500) = 0.40 y 𝑣̂3 =
(100/500 = 0.20. Ahora pueden calcularse las frecuencias esperadas con la
ecuación
𝐸𝑖𝑗 = 𝑛𝑢̂ 𝑖 𝑣̂𝑗 =
1
𝑛
∑ 𝑜𝑖𝑗
𝑐
𝑗=1
∑ 𝑜𝑖𝑗
𝑟
𝑖=1
Por ejemplo, el número esperado de trabajadores asalariados que prefieren el plan
de pensión 1 es
𝐸𝑖𝑗 = 𝑛𝑢̂ 𝑖 𝑣̂𝑗 = 500(0.68)(0.40) = 136
En la siguiente tabla se muestran las frecuencias esperadas.
Clasificación laboral
Plan de pensión
1 2 3 totales
Trabajadores asalariados
Trabajadores por hora
136
64
136
64
68
32
340
160
Totales 200 200 100 500
Estadística Inferencial I Unidad 4
Página 19
Ahora puede aplicarse el procedimiento de prueba de hipótesis de ocho pasos en
este problema.
1. La variable de interés es la preferencia de los empleados entre los planes
de pensiones.
2. H0: la preferencia es independiente de la clasificación laboral asalariado o
por horas.
3. H1: la preferencia no es independiente de la clasificación laboral asalariado
o por horas.
4. α = 0.05
5. el estadístico de prueba es
𝜒0
2
= ∑ ∑
( 𝑂𝑖𝑗 − 𝐸𝑖𝑗)2
𝐸𝑖𝑗
𝑐
𝑗=1
𝑟
𝑖=1
6. puesto que r = 2 y c = 3, los grados de libertad de ji-cuadrada son
(r-1) (c-1)= (1)(2) = 2, se rechazaría H0 si 𝜒0
2
> 𝜒0.05,2
2
= 5.99
7. cálculos
𝜒0
2
= ∑ ∑
( 𝑂𝑖𝑗 − 𝐸𝑖𝑗)2
𝐸𝑖𝑗
3
𝑗=1
2
𝑖=1
=
(160 − 136)2
136
+
(140 − 136)2
136
+
(40 − 68)2
68
+
(40 − 64)2
64
+
(60− 64)2
64
+
(60− 32)2
32
= 49.63
8. conclusiones: puesto que 𝜒0
2
= 49.63 > 𝜒0.05,2
2
= 5.99, se rechazará la
hipótesis de independencia y se concluye que la preferencia por los planes
de pensiones no es independiente de la clasificación laboral. El valor P para
𝜒0
2
= 49.63 es P = 1.671 x 10-11.
Estadística Inferencial I Unidad 4
Página 20
4.1.5 SOFTWARE ESTADÍSTICO
Los métodos estadísticos cambiaron con la aparición de los ordenadores. Desde
sus orígenes, las computadoras se han empleado en el procedimiento estadístico
de datos.
El procesamiento estadístico es una necesidad muy frecuente en diversas áreas.
Dada esta estandarización de necesidades se han elaborado paquetes estadístico
que difieren entre si en los aspectos de capacidad, facilidad de uso, subprogramas
incorporados, computadoras en las que se pueden ejecutar, apoyo
(documentación) y precio.
Dentro del grupo de paquetes estadísticos mundialmente conocidos, podemos
destacar, además de STARTGRAPHICS los siguientes:
 SAS (Statistical Analysis System): Sistema para el análisis estadístico y
econométrico con gran potencia de manejo de volúmenes extensos de
datos.
 SPSS (Statistical Packge for the Social Sciencies): Se trata de un
paquete especial diseñado para cubrir la mayor parte de las necesidades
del proceso estadístico que suelen plantearse en las necesidades del
proceso estadístico que suelen plantearse en la realización de
investigaciones y estudios de tipo empírico en el campo de las ciencias
sociales y humanas.
 SYSTAT (the SYstem for STATistics): Es un potente paquete estadístico,
susceptible de ser implementado incluso en microordenadores de pequeña
capacidad. Viene avalado por una merecida fama de programa eficiente y
de fácil uso.
 TSP (Time Series Processor): como su nombre indica, sirve para el
procesamiento de series de tiempo; sin embargo, también tiene rutinas de
procesamiento de regresión muy poderosas y toca una gran parte de los
temas económicos
 SCA (Scientific Computing Associates): se trata de un paquete estadístico
que aborda la mayoría de los temas elevados de esta disciplina, con
especial hincapié en el análisis de series temporales.
Estadística Inferencial I Unidad 4
Página 21
Existen muchos otros paquetes, como LISREL, SPAD, STATPACH, MINITAB,
LISA, OSIRIS, ABSTAT y otros más, que con más o menos profundidad tocan
la mayor parte de las materias estadísticas.
Por otro lado encontramos otra herramienta que se utiliza para realizar cálculos
estadísticos.
La Hoja de Cálculo Excel/Calc puede convertirse en una poderosa
herramienta para crear entornos de aprendizaje que enriquezcan la
representación (modelado), comprensión y solución de problemas, en el área
de la estadística y probabilidad. Excel ofrece funcionalidades que van más allá
de la tabulación, cálculo de fórmulas y Graficación de datos:
 En inferencia estadística calcula los intervalos de confianza, el tamaño
de la muestra y se puede aplicar al contraste de hipótesis, tanto en el
bilateral como en el unilateral.
 La instalación del programa es muy sencilla, además Microsoft Excel
incluye un comando para el análisis de datos, dentro de las
"herramientas para el análisis", su uso es poco común, ya que no se
tiene cuidado de instalar todas las funciones dentro de las
"herramientas", perdiendo la oportunidad de utilizar un medio poderoso
para el estudio dentro de la estadística.
Estadística Inferencial I Unidad 4
Página 22
4.2 PRUEBA NO PARAMETRICA
La mayor parte de los procedimientos de prueba de hipótesis que se presentan en
las unidades anteriores se basan en la suposición de que las muestras aleatorias
se seleccionan de poblaciones normales. Afortunadamente, la mayor parte de
estas pruebas aún son confiables cuando experimentamos ligeras desviaciones de
la normalidad, en particular cuando el tamaño de la muestra es grande.
Tradicionalmente, estos procedimientos de prueba se denominan métodos
paramétricos. En esta sección se consideran varios procedimientos de prueba
alternativos, llamados no paramétricos ó métodos de distribución libre, que a
menudo no suponen conocimiento de ninguna clase acerca de las distribuciones
de las poblaciones fundamentales, excepto que éstas son continuas.
Los procedimientos no paramétricos o de distribución libre se usan con mayor
frecuencia por los analistas de datos. Existen muchas aplicaciones en la ciencia y
la ingeniería donde los datos se reportan no como valores de un continuo sino
más bien en una escala ordinal tal que es bastante natural asignar rangos a los
datos.
Se debe señalar que hay desventajas asociadas con las pruebas no paramétricas.
En primer lugar no utilizan la información que proporciona la muestra, y por ello
una prueba no paramétrica será menos eficiente que el procedimiento paramétrico
correspondiente, cuando se pueden aplicar ambos métodos. En consecuencia,
para lograr la misma eficiencia, una prueba no paramétrica requerirá la
correspondiente prueba paramétrica.
Como se indicó anteriormente, ligeras divergencias de la normalidad tienen como
resultado desviaciones menores del ideal para las pruebas paramétricas estándar.
Estadística Inferencial I Unidad 4
Página 23
EJEMPLO.-
Dos jueces deben clasificar cinco marcas de cerveza de mucha demanda
mediante la asignación de un grado de 1 a la marca que se considera que tiene la
mejor calidad global, un grado 2 a la segunda mejor, etcétera. Se puede utilizar
entonces una prueba no paramétrica para determinar donde existe algún acuerdo
entre los dos jueces.
Se debe señalar que hay varias desventajas asociadas con las pruebas no
paramétricas. En primer lugar, no utilizan la información que proporciona la
muestra, y por ello una prueba no paramétrica será menos eficiente que el
procedimiento paramétrico correspondiente, cuando se pueden aplicar ambos
métodos. En consecuencia, para lograr la misma potencia, una prueba no
paramétrica requerirá la correspondiente prueba no paramétrica.
Como se indicó antes, ligeras divergencias de la normalidad tienen como resultado
desviaciones menores del ideal para las pruebas paramétricas estándar. Esto es
cierto en particular para la prueba t y la prueba F. En el caso de la prueba t y la
prueba F, el valor P citado puede ser ligeramente erróneo si existe una violación
moderada de la suposición de normalidad.
En resumen, si se puede aplicar una prueba paramétrica y una no paramétrica al
mismo conjunto de datos, debemos aplicar la técnica paramétrica más eficiente.
Sin embargo, se debe reconocer que las suposiciones de normalidad a menudo no
se pueden justificar, y que no siempre se tienen mediciones cuantitativas.
Estadística Inferencial I Unidad 4
Página 24
4.2.1 ESCALA DE MEDICION
Definición de escala
Cualquier recurso para determinar la magnitud o cantidad de un objeto o hecho de
cualquier clase; instrumento para asignar un número o guarismo que indicará
cuánto hay de algo; un recurso de medición que provee un conjunto de normas
(numeradas de acuerdo con ciertas reglas de trabajo) con las que se puede
comparar el objeto que será medido, para asignarle un número o valor matemático
que represente su magnitud. El término es de amplia aplicación: una escala de
alguna clase está incluida en toda medición o estimación. Implícito en cada caso
hay un conjunto de reglas para asignar números o valores: son estas reglas las
que dan significado a las cantidades. Los objetos pueden ser perceptuales o
conceptuales.
La escala de medida de una característica tiene consecuencias en la manera de
presentación de la información y el resumen. La escala de medición-grado de
precisión de la medida de la característica también determina los métodos
estadísticos que se usan para analizar los datos. Por lo tanto, es importante definir
las características por medir. Las escalas de medición más frecuentes son las
siguientes:
Escala Nominal.- No poseen propiedades cuantitativas y sirven únicamente para
identificar las clases. Los datos empleados con las escalas nominales constan
generalmente de la frecuencia de los valores o de la tabulación de número de
casos en cada clase, según la variable que se está estudiando. El nivel nominal
permite mencionar similitudes y diferencias entre los casos particulares. Los datos
evaluados en una escala nominal se llaman también "observaciones cualitativas",
debido a que describen la calidad de una persona o cosa estudiada, u
"observaciones categóricas" porque los valores se agrupan en categorías. Por lo
regular, los datos nominales o cualitativos se describen en términos de porcentaje
o proporciones. Para exhibir este tipo de información se usan con mayor
frecuencia tablas de contingencia y gráficas de barras.
Estadística Inferencial I Unidad 4
Página 25
Escala Ordinal.- Las clases en las escalas ordinales no solo se diferencian unas
de otras (característica que define a las escalas nominales) sino que mantiene una
especie de relación entre sí. También permite asignar un lugar específico a cada
objeto de un mismo conjunto, de acuerdo con la intensidad, fuerza, etc.; presentes
en el momento de la medición. Una característica importante de la escala ordinal
es el hecho de que, aunque hay orden entre las categorías, la diferencia entre dos
categorías adyacentes no es la misma en toda la extensión de la escala. Algunas
escalas consisten en calificaciones de múltiples factores que se agregan después
para llegar a un índice general.
Debe mencionarse brevemente una clase espacial de escala ordinal llamada
"escala de posición", donde las observaciones se clasifican de mayor a menor (o
viceversa). Al igual que en las escalas nominales, se emplean a menudo
porcentajes y proporciones en escalas ordinales.
Escala de Intervalo.- Refleja distancias equivalentes entre los objetos y en la
propia escala. Es decir, el uso de ésta escala permite indicar exactamente la
separación entre 2 puntos, lo cual, de acuerdo al principio de isomorfismos, se
traduce en la certeza de que los objetos así medidos están igualmente
separados a la distancia o magnitud expresada en la escala.
Escala de Razón.- Constituye el nivel óptimo de medición, posee un cero
verdadero como origen, también denominada escala de proporciones. La
existencia de un cero, natural y absoluto, significa la posibilidad de que el objeto
estudiado carezca de propiedad medida, además de permitir todas las
operaciones aritméticas y el uso de números representada cantidades reales de
la propiedad medida.
Con esto notamos que esta escala no puede ser usada en los fenómenos
psicológicos, pues no se puede hablar de cero inteligencia o cero aprendizaje,
etc.
Estadística Inferencial I Unidad 4
Página 26
4.2.2 METODOS ESTADÍSTICOS CONTRA NO PARAMETRICOS
1.- EL CASO DE DOS MUESTRAS: Las pruebas estadísticas de dos muestras se
usan criando el investigador desea establecer la diferencia entre chis tratamientos o si
un tratamiento es mejor que otro. Por ejemplo adiestramiento, uso de psicofármaco,
en cada caso el grupo que ha sufrido el tratamiento es comparado con el que no lo ha
experimentado o que ha sufrido un tratamiento diferente.
En la comparación de estos grupos, a veces se observan diferencias significativas que
no son el resultado del tratamiento, por ejemplo, en el estudio de los trabajadores que
se someten a un entrenamiento diferente para determinar cuál es el mejor para elevar
su calificación, puede ser que la diferencia no se deba, realmente, a uno u otra
tratamiento, sino que uno de los grupos estaba más motivado por elevar rápidamente
su calificación y, de esta forma, no se refleja verdaderamente la efectividad del
procedimiento de enseñanza.
Una forma de eliminar esta dificultad, es usar MUESTRAS RELACIONADAS estas
se pueden lograr: Cuando el propio sujeto es su propio control. Con parejas de
sujetos en las que se asignan los miembros de cada pareja, a las dos condiciones.
La técnica paramétrica usual para analizar datos provenientes de dos muestras
relacionadas es aplicar la prueba t a los puntajes, estos se pueden obtener de los
dos puntajes de cada pareja igualada o de los puntajes de cada sujeto bajo las dos
condiciones. Éstas pruebas determinan la medida en dije las diferencias de las
muestras indican, de forma convincente, una diferencia en el proceso aplicado en
ellos.
En el caso de dos MUESTRAS INDEPENDIENTES, ellas pueden obtenerse:
Tomando al azar sujetos de dos poblaciones. Asignando al azar ambos tratamientos
a miembros de algunas muestras de orígenes arbitrarios. No es necesario que la
muestra sea del mismo tamaño.
En este caso, la prueba t es la técnica paramétrica indicada para analizar los datos
de las dos muestras independientes.
Estadística Inferencial I Unidad 4
Página 27
Los métodos estadísticos no paramétricos adecuados para estos casos, son:
2.-EL CASO DE K MUESTRA:
Hasta aquí hemos visto las pruebas estadísticas idóneas para probar la significación
de las diferencias. Entre una sola muestra y una población determinada. Entre dos
muestras relacionadas o independientes. Ahora veremos las pruebas que
determinan la significación de las diferencias entre 3 o más grupos, relacionados o
independientes.
A veces las circunstancias requieren de diseños experimentales de más de dos
muestras o condiciones que puedan estudiarse simultáneamente y entonces es
necesario usar una prueba estadística que indique si existe una diferencia total entre
las k muestras o condiciones, ya que no es posible tener confianza en una decisión
acerca de k muestras, en la que el análisis se haga probando las muestras, 2 a 2.La
técnica paramétrica para probar si varias muestras proceden de una misma
población, es el análisis de varianza o prueba F. La misma facilita que no haya
pérdida de precisión al estimar la varianza por separado, pues se utiliza una varianza
combinada.
Estadística Inferencial I Unidad 4
Página 28
En el caso no paramétrico, tenemos:
Estadística Inferencial I Unidad 4
Página 29
EJEMPLO: Una compañía de taxis trata de decidir si el uso de llantas
radiales en lugar de llantas regulares con cinturón mejora la economía
de combustible.se equipan 16 automóviles con llantas radiales y se
manejan por un recorrido de prueba establecido. Sin cambiar de
conductores, se equipan los mismos autos con las llantas regulares
con cinturón y se manejan una vez más por el recorrido de prueba.se
registra el consumo de gasolina, en kilómetros por litro, de la siguiente
manera:
Automóvil Llantas radiales llantas con cinturón
1 4.2 4.1
2 4.7 4.9
3 6.6 6.2
4 7.0 6.9
5 6.7 6.8
6 4.5 4.4
7 5.7 5.7
8 6.0 5.8
9 7.4 6.9
10 4.9 4.9
11 6.1 6.0
12 5.2 4.9
13 5.7 5.3
14 6.9 6.5
15 6.8 7.1
16 4.9 4.8
¿Podemos concluir en el nivel de significancia de 0.05 que los autos
equipados con llantas radiales obtienen mejores economías de
combustible que los equipados con llantas regulares con cinturón?
Estadística Inferencial I Unidad 4
Página 30
Solución: representemos conµ1 y µ2 los kilómetros por litro promedio
para los autos equipados con llantas radiales y con cinturón,
respectivamente.
1. Hо: µ1- µ2= 0
2. H1: µ1- µ2 > 0
3. α= 0.05
4. Estadística de prueba : variable binomial x con p= ½
5. Cálculos:despuésde reemplazar cada diferenciapositiva con un
símbolo “ + `` y cada diferencia negativa con un símbolo "-, y
después descartar las dos diferencias cero ,obtenemos la
secuencia
+ - + - + - + - + - + - + - + - + -+ - +
Para la que n= 14 y x =11. Con el uso de la aproximación de la curva
normal, encontramos que
Z= 10.5 – 7 = 1.87
√14/2
Y entonces P= P(X ≥ 11) ≈ P ( Z>1.87)= 0.0307
6. DECISION: rechazar Ho y concluir que, en promedio, las llantas
radiales mejoran la economía de combustible.
Estadística Inferencial I Unidad 4
Página 31
4.2.3 PRUEBA DE KOLMOGOROV – SMIRNOV
Recuérdese que para aplicar la prueba de bondad de ajuste chi-cuadrada cuando
el modelo propuesto bajo 𝐻0 es continuo, es necesario aproximar 𝐹0(𝑥) mediante
el agrupamiento de los datos observados en un número finito de intervalos de
clase. Este requisito de agrupar los datos implica tener una muestra ´más o menos
grande. De esta manera, la prueba de bondad de ajuste chi-cuadrada se
encuentra limitada cuando 𝐹0(𝑥) es continua y la muestra aleatoria disponible
tiene un tamaño pequeño. Una prueba de bondad de ajuste más apropiada que la
chi-cuadrada cuando 𝐹0(𝑥) es continua, es la basad en la estadística de
Kolmogorov – Smirnov.
La prueba de Kolmogorov – Smirnov no necesita que los datos se encuentren
agrupados y es aplicable a muestras de tamaño pequeño. Ésta se basa en una
comparación entre las funciones de distribución acumulativa que se observa en la
muestra ordenada y la distribución propuesta bajo la hipótesis nula. Si esta
comparación revela una diferencia suficientemente grande entre las funciones de
distribución muestral y propuesta, entonces la hipótesis nula de que la distribución
es 𝐹0 (𝑥), se rechaza.
Considérese la hipótesis nula por 𝐻0: 𝐹(𝑥) = 𝐹0 (𝑥), en donde 𝐹0 (𝑥) se especifica
en forma completa. Denótese por 𝑋(1), 𝑋(2),…, 𝑋(𝑛) a las observaciones ordenadas
de una muestra aleatoria de tamaño 𝑛 y defínase la función de distribución
acumulativa muestral como
𝑆 𝑛(𝑥) = {
0
𝑘/𝑛
1
𝑥 < 𝑥(1),
𝑥(𝑘) ≤ 𝑥 < 𝑥( 𝑘+1),
𝑥 ≥ 𝑥 𝑛.
En otras palabras, para cualquier valor ordenado 𝑥 de la muestra aleatoria, 𝑆 𝑛(𝑥)
es la proporción del número de valores en la muestra que son iguales o menores a
𝑥. Ya que 𝐹0 ( 𝑥) se encuentra completamente especificada, es posible evaluar a
𝐹0 (𝑥) para algún valor deseado de 𝑥, y entonces compara este último con el valor
correspondiente de 𝑆 𝑛(𝑥). Si la hipótesis nula es verdadera, entonces es lógico
Estadística Inferencial I Unidad 4
Página 32
esperar que la diferencia sea relativamente pequeña. La estadística de
Kolmogorov – Smirnov se define como
𝐷 𝑛 =
𝑚á𝑥
𝑥
| 𝑆 𝑛(𝑥) − 𝐹0(𝑥)|.
La estadística 𝐷 𝑛 tiene una distribución que es independiente del modelo
propuesto bajo la hipótesis nula. Por esta razón, se dice 𝐷 𝑛 es una estadística
independiente de la distribución. Lo anterior da como resultado que la función de
distribución para cualquier 𝐹0(𝑥). En la tabla J del apéndice, se proporcionan los
valores cuantiles superiores de 𝐷 𝑛 para varios valores de la muestra. El lector debe
notar que los valores asintóticos de 𝑑 𝑛 que se encuentran en la parte inferior de la
tabla proporcionan una adecuada aproximación para los valores de 𝑛 mayores de
50.
Para un tamaño ∝ del error de tipo i, la región crítica es de la forma
𝑃 (𝐷 𝑛 >
𝑐
√ 𝑛
) =∝.
De acuerdo con lo anterior, la hipótesis 𝐻0 se rechaza si para algún valor 𝑥
observado del valor 𝐷 𝑛 se encuentra dentro de la región crítica de tamaño 𝛼.
Como se hizo anteriormente, la estadística de Kolmogorov – Smirnov es, en
general, superior a la prueba de bondad de ajuste chi – cuadrada cuando los datos
involucran una variable aleatoria continua, debido a que no es necesario agrupar
los datos. Además, la prueba de Kolmogorov – Smirnov tiene la atractiva
propiedad de ser aplicable a muestras de tamaño pequeño. Por otro lado, la
estadística se encuentra limitada, ya que el modelo propuesto bajo 𝐻0 debe
especificarse en forma completa. La estadística de Kolmogorov – Smirnov no se
aplica a todos aquellos casos para los que as observaciones no son
inherentemente cuantitativas a consecuencia de las ambigüedades que pueden
surgir cuando se ordenan las observaciones.
Estadística Inferencial I Unidad 4
Página 33
4.2.4 PRUEBA DE ANDERSON-DARLING.
Esta prueba compara la función de distribución acumulada empírica de los datos
de su muestra con la distribución esperada si los datos son normales. Si esta
diferencia observada es suficientemente grande, la prueba rechazará la hipótesis
nula de normalidad en la población.
En estadística, la prueba de Anderson-Darling es una prueba no paramétrica
sobre si los datos de una muestra provienen de una distribución específica. La
fórmula para el estadístico A determina si los datos (observar
que los datos se deben ordenar) vienen de una distribución con función
acumulativa F
A2 = − N − S
Donde:
El estadístico de la prueba se puede entonces comparar contra las distribuciones
del estadístico de prueba (dependiendo que F se utiliza) para determinar el
P-valor.
Estadística Inferencial I Unidad 4
Página 34
4.2.5 PRUEBA DE RYAN-JOINER
Esta prueba evalúa la normalidad calculando la correlación entre sus datos y las
puntuaciones normales de sus datos. Si el coeficiente de correlación se encuentra
cerca de 1, es probable que la población sea normal.
La estadística de Ryan-Joiner evalúa la solidez de esta correlación; si se
encuentra por debajo del valor crítico apropiado, se rechazará la hipótesis nula H0
de normalidad en la población. Esta prueba es similar a la prueba de normalidad
de Shapiro-Wilk.
Estadística Inferencial I Unidad 4
Página 35
4.2.6 PRUEBA DE SHAPPIRO – WILK
En estadística, la prueba de Shappiro–Wilk, se usa para contrastar la normalidad
de un conjunto de datos. Se plantea como hipótesis nula que una muestra X1,...,
Xn proviene de una población normalmente distribuida. Se considera uno de las
pruebas más potentes para el contraste de normalidad, sobre todo para muestras
pequeñas (n<30).
El estadístico de la prueba de Shappiro – Wilk es:
Donde:
 𝑥( 𝑖)= con el subíndice i entre paréntesis es el número que ocupa la i-ésima
posición en la muestra;
 = (x1 + ... + xn) / n es la media muestral;
 Las constantes ai se calculan
Donde:
Siendo m1,..., mn son los valores medios del estadístico ordenado, de variables
aleatorias independientes e idénticamente distribuidas, muestreadas de
distribuciones normales. V es la matriz de covarianzas de ese estadístico de
orden.
La hipótesis nula se rechazará si W es demasiado pequeño.
Estadística Inferencial I Unidad 4
Página 36
CONCLUSION
De esta manera puedo finalizar que es muy substancial tener siempre en cuenta la
escala de medición que se está utilizando, pues no todos los procedimientos
estadísticos son apropiados para cualquier análisis.
En general, las variables estadísticas se clasifican en variables continuas o
cuantitativas y variables discretas o cualitativas, según el nivel de escala en que
estén medidas. Las variables continuas se refieren a magnitudes medidas en
escala de intervalos o de razón, mientras que las variables discretas comprenden
magnitudes medidas en escalas de nivel nominal y ordinal. Por otro lado puedo
concluir que las pruebas no paramétricas se encargan de estudiar las pruebas y
modelos estadísticos cuya distribución no se ajusta; o sea que no asumen ningún
parámetro de las variables muéstrales, por eso es muy importante el conocimiento
de las pruebas no paramétricas, ya que se aplica en la administración debido a la
prueba de la tabla de contingencia como la de bondad de ajuste analizan datos
nominales u ordinales. Estas pruebas, se usan ampliamente en las aplicaciones
de negocios, lo que demuestra la importancia de la habilidad para manejar datos
categóricos o jerarquizados además de los cuantitativos.
Domínguez Pérez Ruth Abigail
Estadística Inferencial I Unidad 4
Página 37
CONCLUSION
Para el desarrollo de esta unidad nuevamente llevamos a cabo la formulación de
hipótesis, y a partir de ello se realizan diversas pruebas, de las cuales hablare a
continuación. Como pudimos notar el trabajo anterior trato a cerca de las pruebas
de bondad de ajuste y las pruebas no paramétricas, a partir de ello puedo concluir
que, una prueba de bondad de ajuste mide como su nombre lo indica, el grado o
nivel de ajuste que existe entre una distribución obtenida a partir de una muestra y
una distribución teórica que se supone debe seguir dicha muestra. Ambas pruebas
están basadas en la hipótesis nula. Para probar la bondad de ajuste se utiliza un
procedimiento basado en la distribución ji-cuadrada, y al obtener el valor de ji-
cuadrada, mientras más cercano a cero esté, más ajustadas estarán las
distribuciones.
Otra de las pruebas es la de independencia, ésta trata de la comparación de dos
situaciones, basándose en datos estadísticos obtenidos de la formulación de datos
por medio de formulas y tablas, lo cual involucra las denominadas tablas de
contingencia, estas agrupa los datos según renglones y columnas.
Por otra parte tenemos las pruebas no paramétricas, éstas se refieren a aquellas
pruebas que se realizan considerando varios procedimientos alternativos,
llamados no paramétricos y que se encargan de estudiar las pruebas cuya
distribución no se ajusta a los criterios paramétricos; es decir, que no asumen
ningún parámetro de las variables muestrales.
En resumen, las pruebas de Shappiro- Wilk, la de prueba de Anderson-Darling y la
de Ryan-Joiner se utilizan para contrastar la normalidad de un conjunto de datos.
Por otro lado se encuentra la prueba de Kolmogorov-Smirnov la cual es una de
las pruebas básicas de bondad de ajuste.
Para finalizar con el trabajo anterior pude notar que la distribución χ² tiene muchas
aplicaciones en inferencia estadística, la más conocida es la denominada prueba
χ² la cual es utilizada como prueba de bondad de ajuste.
Estévez Ortega Abigail
Estadística Inferencial I Unidad 4
Página 38
BIBLIOGRAFÍA
 Probabilidad y estadística aplicadas a la ingeniería.
2ª edición
Montgomery Runger
Limusa Wiley
 Probabilidad y estadística.
Cuarta edición
Walpole Myers
Mc Graw Hill
 Estadística
Richard C. Weimer
CECSA

Weitere ähnliche Inhalte

Was ist angesagt?

TRABAJO DE DISTRIBUCCION DE PROBABILIDAD
TRABAJO DE DISTRIBUCCION DE PROBABILIDADTRABAJO DE DISTRIBUCCION DE PROBABILIDAD
TRABAJO DE DISTRIBUCCION DE PROBABILIDADjorgemogollon49
 
Estadística Probabilidades
Estadística ProbabilidadesEstadística Probabilidades
Estadística ProbabilidadesEdwin Lema
 
Tarea 15 de PROBABILIDAD Y ESTADISTICA CON RESPUESTAS
Tarea 15 de PROBABILIDAD Y ESTADISTICA CON RESPUESTASTarea 15 de PROBABILIDAD Y ESTADISTICA CON RESPUESTAS
Tarea 15 de PROBABILIDAD Y ESTADISTICA CON RESPUESTASIPN
 
Tarea 11 de probabilidad y estadistica con respuestas
Tarea 11 de probabilidad y estadistica con respuestasTarea 11 de probabilidad y estadistica con respuestas
Tarea 11 de probabilidad y estadistica con respuestasIPN
 
Distribucion muestral de proporciones
Distribucion muestral de proporcionesDistribucion muestral de proporciones
Distribucion muestral de proporcioneseraperez
 
Prueba de hipotesis estadistica aplicada a la ingenieria
Prueba de hipotesis estadistica aplicada a la ingenieriaPrueba de hipotesis estadistica aplicada a la ingenieria
Prueba de hipotesis estadistica aplicada a la ingenieriaHector García Cárdenas
 
Solucionario libro: Probabilidad y estadística para ingenieros 6 ed - walpole
Solucionario libro: Probabilidad y estadística para ingenieros 6 ed - walpoleSolucionario libro: Probabilidad y estadística para ingenieros 6 ed - walpole
Solucionario libro: Probabilidad y estadística para ingenieros 6 ed - walpoleMiguel Leonardo Sánchez Fajardo
 
Regresión lineal multiple autores grillet montaño rodríguez
Regresión lineal multiple  autores grillet montaño rodríguezRegresión lineal multiple  autores grillet montaño rodríguez
Regresión lineal multiple autores grillet montaño rodríguezthomas669
 
Distribuciones muestrales
Distribuciones muestralesDistribuciones muestrales
Distribuciones muestralesMynor Garcia
 
Distribucion muestral de una proporcion
Distribucion muestral de una proporcion Distribucion muestral de una proporcion
Distribucion muestral de una proporcion Oscar Saenz
 
82253086 unidad-iv-pruebas-de-hipotesis-con-dos-muestras-y-varias-muestras-de...
82253086 unidad-iv-pruebas-de-hipotesis-con-dos-muestras-y-varias-muestras-de...82253086 unidad-iv-pruebas-de-hipotesis-con-dos-muestras-y-varias-muestras-de...
82253086 unidad-iv-pruebas-de-hipotesis-con-dos-muestras-y-varias-muestras-de...Ekthor Daniel R G
 
Variables aleatorias discretas y continuas
Variables aleatorias discretas y continuasVariables aleatorias discretas y continuas
Variables aleatorias discretas y continuasScarlet Íglez
 
Trabajo probabilidad
Trabajo probabilidadTrabajo probabilidad
Trabajo probabilidadFreddy Adrian
 
Intervalos de confianza para la diferencia de proporciones
Intervalos de confianza para la diferencia de proporcionesIntervalos de confianza para la diferencia de proporciones
Intervalos de confianza para la diferencia de proporcionesYazmin Venegas
 

Was ist angesagt? (20)

TRABAJO DE DISTRIBUCCION DE PROBABILIDAD
TRABAJO DE DISTRIBUCCION DE PROBABILIDADTRABAJO DE DISTRIBUCCION DE PROBABILIDAD
TRABAJO DE DISTRIBUCCION DE PROBABILIDAD
 
estimacion
estimacionestimacion
estimacion
 
Estadística Probabilidades
Estadística ProbabilidadesEstadística Probabilidades
Estadística Probabilidades
 
Tarea 15 de PROBABILIDAD Y ESTADISTICA CON RESPUESTAS
Tarea 15 de PROBABILIDAD Y ESTADISTICA CON RESPUESTASTarea 15 de PROBABILIDAD Y ESTADISTICA CON RESPUESTAS
Tarea 15 de PROBABILIDAD Y ESTADISTICA CON RESPUESTAS
 
Pruebas de bondad de ajuste vfinal
Pruebas de bondad de ajuste vfinalPruebas de bondad de ajuste vfinal
Pruebas de bondad de ajuste vfinal
 
Tarea 11 de probabilidad y estadistica con respuestas
Tarea 11 de probabilidad y estadistica con respuestasTarea 11 de probabilidad y estadistica con respuestas
Tarea 11 de probabilidad y estadistica con respuestas
 
Distribucion muestral de proporciones
Distribucion muestral de proporcionesDistribucion muestral de proporciones
Distribucion muestral de proporciones
 
Prueba de hipotesis estadistica aplicada a la ingenieria
Prueba de hipotesis estadistica aplicada a la ingenieriaPrueba de hipotesis estadistica aplicada a la ingenieria
Prueba de hipotesis estadistica aplicada a la ingenieria
 
5. regresión lineal multiple
5.  regresión lineal multiple5.  regresión lineal multiple
5. regresión lineal multiple
 
Solucionario libro: Probabilidad y estadística para ingenieros 6 ed - walpole
Solucionario libro: Probabilidad y estadística para ingenieros 6 ed - walpoleSolucionario libro: Probabilidad y estadística para ingenieros 6 ed - walpole
Solucionario libro: Probabilidad y estadística para ingenieros 6 ed - walpole
 
Regresión lineal multiple autores grillet montaño rodríguez
Regresión lineal multiple  autores grillet montaño rodríguezRegresión lineal multiple  autores grillet montaño rodríguez
Regresión lineal multiple autores grillet montaño rodríguez
 
Distribuciones muestrales
Distribuciones muestralesDistribuciones muestrales
Distribuciones muestrales
 
Estadistica 2
Estadistica 2Estadistica 2
Estadistica 2
 
Distribucion muestral de una proporcion
Distribucion muestral de una proporcion Distribucion muestral de una proporcion
Distribucion muestral de una proporcion
 
82253086 unidad-iv-pruebas-de-hipotesis-con-dos-muestras-y-varias-muestras-de...
82253086 unidad-iv-pruebas-de-hipotesis-con-dos-muestras-y-varias-muestras-de...82253086 unidad-iv-pruebas-de-hipotesis-con-dos-muestras-y-varias-muestras-de...
82253086 unidad-iv-pruebas-de-hipotesis-con-dos-muestras-y-varias-muestras-de...
 
Variables aleatorias discretas y continuas
Variables aleatorias discretas y continuasVariables aleatorias discretas y continuas
Variables aleatorias discretas y continuas
 
Trabajo probabilidad
Trabajo probabilidadTrabajo probabilidad
Trabajo probabilidad
 
Análisis de Regresión Múltiple
Análisis de Regresión MúltipleAnálisis de Regresión Múltiple
Análisis de Regresión Múltiple
 
Prueba de hipotesis para proporciones Est ind clase02
Prueba de hipotesis para proporciones Est ind clase02Prueba de hipotesis para proporciones Est ind clase02
Prueba de hipotesis para proporciones Est ind clase02
 
Intervalos de confianza para la diferencia de proporciones
Intervalos de confianza para la diferencia de proporcionesIntervalos de confianza para la diferencia de proporciones
Intervalos de confianza para la diferencia de proporciones
 

Ähnlich wie Pruebas de bondad de ajuste y pruebas no parametricas

Ähnlich wie Pruebas de bondad de ajuste y pruebas no parametricas (20)

Estadistica III Unidad 5.pptx
Estadistica III Unidad 5.pptxEstadistica III Unidad 5.pptx
Estadistica III Unidad 5.pptx
 
Estadistica chi cuadrado
Estadistica chi cuadradoEstadistica chi cuadrado
Estadistica chi cuadrado
 
Pruebas no parametricas
Pruebas no parametricasPruebas no parametricas
Pruebas no parametricas
 
Trabajo estadistica
Trabajo estadisticaTrabajo estadistica
Trabajo estadistica
 
Trabajo hipotesis
Trabajo hipotesisTrabajo hipotesis
Trabajo hipotesis
 
proytecto 044.docx
proytecto 044.docxproytecto 044.docx
proytecto 044.docx
 
Chi cuadrada
Chi cuadradaChi cuadrada
Chi cuadrada
 
Trabajo 11
Trabajo 11Trabajo 11
Trabajo 11
 
UNIDAD II
UNIDAD IIUNIDAD II
UNIDAD II
 
Investigacion unidadii
Investigacion unidadiiInvestigacion unidadii
Investigacion unidadii
 
Investigacion unidad II
Investigacion unidad IIInvestigacion unidad II
Investigacion unidad II
 
Investigacion unidad II
Investigacion unidad IIInvestigacion unidad II
Investigacion unidad II
 
Investigacion unidadii
Investigacion unidadiiInvestigacion unidadii
Investigacion unidadii
 
ESTADISTICA UNIDAD II
ESTADISTICA UNIDAD IIESTADISTICA UNIDAD II
ESTADISTICA UNIDAD II
 
Investigacion unidad II
Investigacion unidad IIInvestigacion unidad II
Investigacion unidad II
 
Intro. a la Probabilidad_IV parte
Intro. a la Probabilidad_IV parteIntro. a la Probabilidad_IV parte
Intro. a la Probabilidad_IV parte
 
Prueba de hipotesis y intervalos de confianza
Prueba de hipotesis y intervalos de confianzaPrueba de hipotesis y intervalos de confianza
Prueba de hipotesis y intervalos de confianza
 
Prueba de normalidad
Prueba de normalidadPrueba de normalidad
Prueba de normalidad
 
Estadistica 8
Estadistica 8Estadistica 8
Estadistica 8
 
El chi cuadrado
El chi cuadradoEl chi cuadrado
El chi cuadrado
 

Kürzlich hochgeladen

exposicion cereales, todo sobre la avena
exposicion cereales, todo sobre la avenaexposicion cereales, todo sobre la avena
exposicion cereales, todo sobre la avenaYuliethRamrezCruz
 
Wal-Mart batalla con RFID...............
Wal-Mart batalla con RFID...............Wal-Mart batalla con RFID...............
Wal-Mart batalla con RFID...............osoriosantiago887
 
gestion y optimizacion de procesos proyecto
gestion y optimizacion de procesos proyectogestion y optimizacion de procesos proyecto
gestion y optimizacion de procesos proyectoclopez37
 
Sistema Operativo Windows Capas Estructura
Sistema Operativo Windows Capas EstructuraSistema Operativo Windows Capas Estructura
Sistema Operativo Windows Capas EstructuraJairoMaxKevinMartine
 
S03 - Perfil del ingeniero industrial UTP - DIAPOS.pdf
S03 - Perfil del ingeniero industrial UTP - DIAPOS.pdfS03 - Perfil del ingeniero industrial UTP - DIAPOS.pdf
S03 - Perfil del ingeniero industrial UTP - DIAPOS.pdfroycordovabocanegra7
 
Presentación GP Nº03.ppt reapso general maqinas electricas
Presentación GP Nº03.ppt  reapso general maqinas electricasPresentación GP Nº03.ppt  reapso general maqinas electricas
Presentación GP Nº03.ppt reapso general maqinas electricasANDREJEANPIERREMACHU
 
10 características de un establecimiento de salud.pptx
10 características de un establecimiento de salud.pptx10 características de un establecimiento de salud.pptx
10 características de un establecimiento de salud.pptxtodotemporales
 
Wal-Mart batalla con RFID...............
Wal-Mart batalla con RFID...............Wal-Mart batalla con RFID...............
Wal-Mart batalla con RFID...............osoriosantiago887
 
IPERC INSTALACION DE EQUIPOS DE AIRE ACONDICIONADO
IPERC INSTALACION DE EQUIPOS DE AIRE ACONDICIONADOIPERC INSTALACION DE EQUIPOS DE AIRE ACONDICIONADO
IPERC INSTALACION DE EQUIPOS DE AIRE ACONDICIONADOEdisonRebattaRojas1
 
DOCUMENTO DE MODELO DISEÑO DE MEZCLA 210 KG CM2
DOCUMENTO DE MODELO DISEÑO DE MEZCLA 210 KG CM2DOCUMENTO DE MODELO DISEÑO DE MEZCLA 210 KG CM2
DOCUMENTO DE MODELO DISEÑO DE MEZCLA 210 KG CM2ErnestoContreras39
 
thinner-acrilico-ac-205- ficha tecnica msds
thinner-acrilico-ac-205- ficha tecnica msdsthinner-acrilico-ac-205- ficha tecnica msds
thinner-acrilico-ac-205- ficha tecnica msdsfioticona20395
 
Análisis de Varianza- Anova y pruebas de estadística
Análisis de Varianza- Anova y pruebas de estadísticaAnálisis de Varianza- Anova y pruebas de estadística
Análisis de Varianza- Anova y pruebas de estadísticaJoellyAlejandraRodrg
 
PROBLEMAS RELACIONADOS RESUELTOS DE GENETICA
PROBLEMAS RELACIONADOS RESUELTOS DE GENETICAPROBLEMAS RELACIONADOS RESUELTOS DE GENETICA
PROBLEMAS RELACIONADOS RESUELTOS DE GENETICAMaxiMus221
 
Dispositivos Semiconductores de Potencia BJT, MOSFET 01.pdf
Dispositivos Semiconductores de Potencia BJT, MOSFET 01.pdfDispositivos Semiconductores de Potencia BJT, MOSFET 01.pdf
Dispositivos Semiconductores de Potencia BJT, MOSFET 01.pdfdego18
 
SESION 1_SSOMA. plan de accion y desarrollo
SESION 1_SSOMA. plan de accion y desarrolloSESION 1_SSOMA. plan de accion y desarrollo
SESION 1_SSOMA. plan de accion y desarrollocchavezl3
 
ESTADISTICA RESUELTO SAN JUAN SOLUCIONARIO CORRECTO.pdf
ESTADISTICA RESUELTO SAN JUAN SOLUCIONARIO CORRECTO.pdfESTADISTICA RESUELTO SAN JUAN SOLUCIONARIO CORRECTO.pdf
ESTADISTICA RESUELTO SAN JUAN SOLUCIONARIO CORRECTO.pdffredyflores58
 
Pueden_los_sistemas_de_informacion_ayudar_a_evitar_una_crisis_de_salud_public...
Pueden_los_sistemas_de_informacion_ayudar_a_evitar_una_crisis_de_salud_public...Pueden_los_sistemas_de_informacion_ayudar_a_evitar_una_crisis_de_salud_public...
Pueden_los_sistemas_de_informacion_ayudar_a_evitar_una_crisis_de_salud_public...jfmolina199
 
EXPOSICION UNIDAD 3 MANTENIMIENTOO .pptx
EXPOSICION UNIDAD 3 MANTENIMIENTOO .pptxEXPOSICION UNIDAD 3 MANTENIMIENTOO .pptx
EXPOSICION UNIDAD 3 MANTENIMIENTOO .pptxKeylaArlethTorresOrt
 
PRESENTACIÓN ANALISIS ESTRUCTURAL II.pptx
PRESENTACIÓN ANALISIS ESTRUCTURAL II.pptxPRESENTACIÓN ANALISIS ESTRUCTURAL II.pptx
PRESENTACIÓN ANALISIS ESTRUCTURAL II.pptxStibeCr
 
FUNDAMENTOS DE LA INTELIGENCIA ARTIFICIAL
FUNDAMENTOS DE LA INTELIGENCIA ARTIFICIALFUNDAMENTOS DE LA INTELIGENCIA ARTIFICIAL
FUNDAMENTOS DE LA INTELIGENCIA ARTIFICIALPamelaGranda5
 

Kürzlich hochgeladen (20)

exposicion cereales, todo sobre la avena
exposicion cereales, todo sobre la avenaexposicion cereales, todo sobre la avena
exposicion cereales, todo sobre la avena
 
Wal-Mart batalla con RFID...............
Wal-Mart batalla con RFID...............Wal-Mart batalla con RFID...............
Wal-Mart batalla con RFID...............
 
gestion y optimizacion de procesos proyecto
gestion y optimizacion de procesos proyectogestion y optimizacion de procesos proyecto
gestion y optimizacion de procesos proyecto
 
Sistema Operativo Windows Capas Estructura
Sistema Operativo Windows Capas EstructuraSistema Operativo Windows Capas Estructura
Sistema Operativo Windows Capas Estructura
 
S03 - Perfil del ingeniero industrial UTP - DIAPOS.pdf
S03 - Perfil del ingeniero industrial UTP - DIAPOS.pdfS03 - Perfil del ingeniero industrial UTP - DIAPOS.pdf
S03 - Perfil del ingeniero industrial UTP - DIAPOS.pdf
 
Presentación GP Nº03.ppt reapso general maqinas electricas
Presentación GP Nº03.ppt  reapso general maqinas electricasPresentación GP Nº03.ppt  reapso general maqinas electricas
Presentación GP Nº03.ppt reapso general maqinas electricas
 
10 características de un establecimiento de salud.pptx
10 características de un establecimiento de salud.pptx10 características de un establecimiento de salud.pptx
10 características de un establecimiento de salud.pptx
 
Wal-Mart batalla con RFID...............
Wal-Mart batalla con RFID...............Wal-Mart batalla con RFID...............
Wal-Mart batalla con RFID...............
 
IPERC INSTALACION DE EQUIPOS DE AIRE ACONDICIONADO
IPERC INSTALACION DE EQUIPOS DE AIRE ACONDICIONADOIPERC INSTALACION DE EQUIPOS DE AIRE ACONDICIONADO
IPERC INSTALACION DE EQUIPOS DE AIRE ACONDICIONADO
 
DOCUMENTO DE MODELO DISEÑO DE MEZCLA 210 KG CM2
DOCUMENTO DE MODELO DISEÑO DE MEZCLA 210 KG CM2DOCUMENTO DE MODELO DISEÑO DE MEZCLA 210 KG CM2
DOCUMENTO DE MODELO DISEÑO DE MEZCLA 210 KG CM2
 
thinner-acrilico-ac-205- ficha tecnica msds
thinner-acrilico-ac-205- ficha tecnica msdsthinner-acrilico-ac-205- ficha tecnica msds
thinner-acrilico-ac-205- ficha tecnica msds
 
Análisis de Varianza- Anova y pruebas de estadística
Análisis de Varianza- Anova y pruebas de estadísticaAnálisis de Varianza- Anova y pruebas de estadística
Análisis de Varianza- Anova y pruebas de estadística
 
PROBLEMAS RELACIONADOS RESUELTOS DE GENETICA
PROBLEMAS RELACIONADOS RESUELTOS DE GENETICAPROBLEMAS RELACIONADOS RESUELTOS DE GENETICA
PROBLEMAS RELACIONADOS RESUELTOS DE GENETICA
 
Dispositivos Semiconductores de Potencia BJT, MOSFET 01.pdf
Dispositivos Semiconductores de Potencia BJT, MOSFET 01.pdfDispositivos Semiconductores de Potencia BJT, MOSFET 01.pdf
Dispositivos Semiconductores de Potencia BJT, MOSFET 01.pdf
 
SESION 1_SSOMA. plan de accion y desarrollo
SESION 1_SSOMA. plan de accion y desarrolloSESION 1_SSOMA. plan de accion y desarrollo
SESION 1_SSOMA. plan de accion y desarrollo
 
ESTADISTICA RESUELTO SAN JUAN SOLUCIONARIO CORRECTO.pdf
ESTADISTICA RESUELTO SAN JUAN SOLUCIONARIO CORRECTO.pdfESTADISTICA RESUELTO SAN JUAN SOLUCIONARIO CORRECTO.pdf
ESTADISTICA RESUELTO SAN JUAN SOLUCIONARIO CORRECTO.pdf
 
Pueden_los_sistemas_de_informacion_ayudar_a_evitar_una_crisis_de_salud_public...
Pueden_los_sistemas_de_informacion_ayudar_a_evitar_una_crisis_de_salud_public...Pueden_los_sistemas_de_informacion_ayudar_a_evitar_una_crisis_de_salud_public...
Pueden_los_sistemas_de_informacion_ayudar_a_evitar_una_crisis_de_salud_public...
 
EXPOSICION UNIDAD 3 MANTENIMIENTOO .pptx
EXPOSICION UNIDAD 3 MANTENIMIENTOO .pptxEXPOSICION UNIDAD 3 MANTENIMIENTOO .pptx
EXPOSICION UNIDAD 3 MANTENIMIENTOO .pptx
 
PRESENTACIÓN ANALISIS ESTRUCTURAL II.pptx
PRESENTACIÓN ANALISIS ESTRUCTURAL II.pptxPRESENTACIÓN ANALISIS ESTRUCTURAL II.pptx
PRESENTACIÓN ANALISIS ESTRUCTURAL II.pptx
 
FUNDAMENTOS DE LA INTELIGENCIA ARTIFICIAL
FUNDAMENTOS DE LA INTELIGENCIA ARTIFICIALFUNDAMENTOS DE LA INTELIGENCIA ARTIFICIAL
FUNDAMENTOS DE LA INTELIGENCIA ARTIFICIAL
 

Pruebas de bondad de ajuste y pruebas no parametricas

  • 1. Estadística Inferencial I Unidad 4 Página 1 PRUEBAS DE BONDAD DE AJUSTE Y PRUEBAS NO PARAMETRICAS
  • 2. Estadística Inferencial I Unidad 4 Página 2 4.1 BONDAD DE AJUSTE Las pruebas de bondad de ajuste tratan de verificar si el conjunto de datos se puede ajustar o afirmar que proviene de una determinada distribución. Las pruebas básicas que pueden aplicarse son: la ji-cuadrada y la prueba de Smirnov-Kolmogorov. Ambas pruebas caen en la categoría de lo que en estadística se denominan pruebas de “Bondad de Ajuste” y miden, como el nombre lo indica, el grado de ajuste que existe entre la distribución obtenida a partir de la muestra y la distribución teórica que se supone debe seguir esa muestra. Ambas pruebas están basadas en la hipótesis nula de que no hay diferencias significativas entre la distribución muestral y la teórica, H0 es la distribución que se supone sigue la muestra aleatoria. La hipótesis alternativa siempre se enuncia como que los datos no siguen la distribución supuesta. Hablamos de bondad de ajuste cuando tratamos de comparar una distribución de frecuencia observada con los valores correspondientes de una distribución esperada o teórica. Algunos estudios producen resultados sobre los que no podemos afirmar que se contribuyen normalmente, es decir con forma acampanada concentradas sobre la media. Su fórmula es la siguiente: 𝑓𝑜𝑖= Valor observado en la i-ésimo dato. 𝑓𝑒𝑖= Valor esperado en la i-ésimo dato. 𝑘 = Categorías o celdas. 𝑚 = Parámetros estimados sobre la base de los datos de la muestra Los grados de libertad vienen dados por: gl= K-m-1.      k i e eo i ii f ff 1 2 2 
  • 3. Estadística Inferencial I Unidad 4 Página 3 Criterio de decisión es el siguiente: Se rechaza H0 cuando 2 1; 2  mKt . En caso contrario se acepta. Donde t representa el valor proporcionado por las tablas, según el nivel de significación elegido. Cuanto más se aproxima a cero el valor de chi-cuadrada, más ajustadas están ambas distribuciones.
  • 4. Estadística Inferencial I Unidad 4 Página 4 4.1.1 ANALISIS JI-CUADRADA Es considerada como una prueba no paramétrica que mide la discrepancia (bondad de ajuste) entre una distribución observada a partir de la muestra y otra teórica que se supone debe seguir esa muestra, indicando en qué medidas las diferencias existentes entre ambas se deben al azar en el contraste de la hipótesis. Esta prueba se basa en la hipótesis nula H0 de que no hay diferencias significativas entre la distribución muestral y la teórica. La estructura básica de la prueba para la bondad de ajuste se muestra en la siguiente tabla: Clases Frecuencia observada Frecuencia esperada 1 Foi1 Fe1 2 Foi2 Fe2 . . . . . . k Foik Fek Total n n Donde para calcular la Frecuencia esperada se tiene: 𝜒2 = ( 𝑓𝑜𝑖 − 𝑓𝑒𝑖)2 𝑓𝑒𝑖 Fórmula para el análisis de ji-cuadrada 𝜒2 = ∑ ( 𝑓𝑜𝑖−𝑓𝑒𝑖)2 𝑓𝑒𝑖 𝑘 𝑖−1 Interpretación: cuanto mayor sea el valor de ji-cuadrada menos creíble es la hipótesis nula H0. De la misma forma, cuanto más se aproximan acero el valor de 𝜒2 , más ajustadas están las distribuciones. 𝜒2 = 0 H0 se acepta 𝜒2 > 0 H0 se rechaza 𝑓𝑜𝑖 = 𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑣𝑎𝑙𝑜𝑟𝑒𝑠 𝑑𝑒𝑙 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜 𝑓𝑒𝑖 = 𝑛𝑢𝑚𝑒𝑟𝑜 𝑒𝑠𝑝𝑒𝑟𝑎𝑑𝑜 𝑑𝑒 𝑣𝑎𝑙𝑜𝑟𝑒𝑠 𝑒𝑛 𝑒𝑙 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜 𝑘 = 𝑛𝑢𝑚𝑒𝑟𝑜 𝑑𝑒 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜𝑠 𝑑𝑒 𝑐𝑙𝑎𝑠𝑒 𝑚 = 𝑛𝑢𝑚𝑒𝑟𝑜 𝑑𝑒 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑠 𝑝𝑎𝑟𝑎 𝑒𝑙 𝑒𝑠𝑡𝑢𝑑𝑖𝑜
  • 5. Estadística Inferencial I Unidad 4 Página 5 4.1.2 PRUEBA DE INDEPENDENCIA La prueba de independencia trata de la comparación de dos situaciones en las cuales podemos esperar que sean dependientes o independientes, esto quiere decir que, pueden o no estar relacionados sus datos debido a muchos factores que pueden influir en ellos, o bien, un problema no tenga relación con otro. Su objetivo es determinar si alguna situación es afectada por otra, basándose en datos estadísticos y valores probabilístico obtenidos de la fabulación de datos o de pronósticos por medio de formulas y tablas, para esto se basa en un nivel de significancia en un caso y en el otro a comparar, valiéndonos de tablas de contingencia para obtener frecuencias esperadas y poder aplicarlas, para así obtener datos comparativos que son determinantes en la decisión de independencia. Para todas las pruebas de independencia, las hipótesis son: H0: las dos variables de clasificación son independientes. H1: las dos variables de clasificación son dependientes. Los métodos para poner a prueba H0 contra H1 son idénticos a los usados para poner a prueba las diferencias entre proporciones poblacionales basados en la prueba de 𝝌2. De nuevo compararemos las frecuencias observadas con las esperadas, las obtenidas bajo el supuesto de que H0, para determinar que tan grande debe ser el alejamiento permitido para que la hipótesis de independencia pueda rechazarse. Si el valor del estadístico de prueba 𝝌2 es mayor o igual que el valor critico calculado, ya no podremos suponer que pueda resultar de dos variables de clasificación independientes, siendo esta la razón de que todas las pruebas de 𝝌2 sobre independencia sean de cola derecha.
  • 6. Estadística Inferencial I Unidad 4 Página 6 La estadística de prueba que será utilizada en la toma de una decisión acerca de la hipótesis nula es ji cuadrado X2. Los valores de ji-cuadrada se obtienen con la siguiente fórmula: 𝝌 𝟐 = ∑ (𝑶𝒊 − 𝒆𝒊) 𝟐 𝒆𝒊 𝒊 Grados de libertad v = (r-1)*(c-1) Frecuencia Esperada = Total de la columna * Total del renglón Características  X2 toma valores no negativos; es decir, puede ser cero o positiva.  X2 no es simétrica; es asimétrica hacia la derecha.  Existen muchas distribuciones X2 como en el caso de la distribución t, hay una distribución, X2 diferente para cada valor de los grados de libertad.  Nos dan una tabla de contingencia. El procedimiento de la prueba ji-cuadrada puede también utilizarse para probar la hipótesis de independencia de dos variables de clasificación. Ejemplo: Supóngase que desea determinar si las opiniones de los residentes votantes del estado de Illinois respecto a una nueva reforma impositiva son independientes de sus niveles de ingreso. Una muestra aleatoria de 1000 votantes registrados del estado de Illinois se clasifica de acuerdo con sus ingresos como bajo, medio y alto y si están a favor o en contra de la nueva reforma impositiva. Las frecuencias observadas se presentan en la siguiente tabla, la cual se conoce como una tabla de contingencia. Gran total
  • 7. Estadística Inferencial I Unidad 4 Página 7 Tabla de contingencia 2 x 3 Reforma impositiva Nivel de ingresos TotalBajo Medio Alto A favor En contra 182 154 213 138 203 110 598 402 Total 336 351 313 1000 A una tabla de contingencia con r renglones y c columnas se le conoce como una tabla r x c (“r x c” se lee r por c), a los totales de renglones y columnas en la tabla anterior se les denomina frecuencia marginales. La decisión de aceptar o rechazar la hipótesis nula, H0, de independencia entre la opinión de votantes respecto a la nueva reforma de impuestos y su nivel de ingresos se basan en que tan bien se ajustan las frecuencias observadas en cada una de las 6 celdas de la tabla, y las frecuencias que se esperarían para cada celda bajo la suposición de que H0 es verdadera. Para encontrar estas frecuencias esperadas, defínanse los siguientes eventos: L: una persona seleccionada esta en el nivel bajo de ingresos. M: una persona seleccionada esta en el nivel medio de ingresos. H: una persona seleccionada esta en el nivel alto de ingresos. F: una persona seleccionada está a favor de la nueva reforma fiscal. A: una persona seleccionada está en contra de la nueva reforma fiscal.
  • 8. Estadística Inferencial I Unidad 4 Página 8 Al utilizar las frecuencias marginales, es posible escribir las siguientes estimaciones de probabilidad: 𝑃( 𝐿) = 336 1000 , 𝑃( 𝑀) = 351 1000 , 𝑃( 𝐻) = 313 1000 , 𝑃( 𝐹) = 598 1000 , 𝑃( 𝐴) = 402 1000 Ahora si H0 es verdadera y las dos variables son independientes, debe tenerse: P (L⌒F) = P (L) P (F) = ( 336 1000 )( 598 1000 ) , P (L⌒A) = P (L) P (A) = ( 336 1000 )( 402 1000 ), P (M⌒F) = P (M) P (F) = ( 351 1000 )( 598 1000 ), P (M⌒A) = P (M) P (A) = ( 351 1000 )( 402 1000 ), P (H⌒F) = P (H) P (F) = ( 313 1000 )( 598 1000 ), P (H⌒A) = P (H) P (A) = ( 313 1000 )( 402 1000 ) . Las frecuencias esperadas se obtienen al multiplicar cada probabilidad de una celda por el número total de observaciones. Como antes, estas frecuencias se redondean a un decimal de esta manera el número esperado de votantes de bajos ingresos en la muestra y que favorecen la nueva reforma impositiva, se estima que es: ( 336 1000 ) ( 598 1000 ) x 100 = (336)(598) 1000 = 200.9 Cuando H0 es verdadera. La regla general para obtener la frecuencia esperada de cualquier celda la proporciona la siguiente fórmula:
  • 9. Estadística Inferencial I Unidad 4 Página 9 Frecuencia Esperada = Total de la columna * Total del renglón La frecuencia esperada para cada celda se registra entre paréntesis a un lado del valor observado real en la siguiente tabla. Nótese que la suma de las frecuencias esperadas en cualquier renglón o columna da el total marginal o apropiado. Reforma impositiva Nivel de ingresos TotalBajo Medio Alto A favor En contra 182(200.9) 154(135.1) 213(209.9) 138(141.1) 203(187.2) 110(125.8) 598 402 Total 336 351 313 1000 En el ejemplo, se necesitan calcular únicamente las dos frecuencias esperadas del renglón de arriba de la tabla y entonces encontrar las otras por sustracción. El numero de grados de libertad asociado a la prueba ji cuadrada que se utiliza aquí es igual al número de frecuencias de celdas que pueden llenarse libremente cuando se dan los totales marginales y el gran total; en este ejemplo ese número es 2. Una formula simple que proporciona el número correcto de grados de libertad es: v = (r-1)*(c-1) de aquí que, para este ejemplo V = (2-1)*(3-1) = 2 grados de libertad. Para probara la hipótesis nula de independencia, se utiliza el siguiente criterio de decisión: Gran total
  • 10. Estadística Inferencial I Unidad 4 Página 10 Prueba De Independencia: Calcúlese: 𝝌 𝟐 = ∑ (𝑶𝒊 − 𝒆𝒊) 𝟐 𝒆𝒊 𝒊 Donde la sumatoria se extiende a todas las celdas rc en la tabla de contingencia r x c. Si 𝝌 𝟐 > 𝝌 𝜶 𝟐 con v = (r-1)(c-1) grados de libertad se rechaza la hipótesis nula de independencia en el nivel de significancia α; de lo contrario, se acepta la hipótesis nula. Al aplicar este criterio a este ejemplo, se encuentra que: 𝝌 𝟐 = (𝟏𝟖𝟐−𝟐𝟎𝟎.𝟗) 𝟐 𝟐𝟎𝟎.𝟗 + (𝟐𝟏𝟑−𝟐𝟎𝟗.𝟗) 𝟐 𝟐𝟎𝟗.𝟗 + (𝟐𝟎𝟑−𝟏𝟖𝟕.𝟐) 𝟐 𝟏𝟖𝟕.𝟐 + (𝟏𝟓𝟒−𝟏𝟑𝟓.𝟏) 𝟐 𝟏𝟑𝟓.𝟏 + (𝟏𝟑𝟖−𝟏𝟒𝟏.𝟏) 𝟐 𝟏𝟒𝟏.𝟏 + (𝟏𝟏𝟎−𝟏𝟐𝟓.𝟖) 𝟐 𝟏𝟐𝟓.𝟖 = 7.85 P≅0.02 De la tabla de Valores críticos de las distribuciones 𝝌2 resulta que 𝜒0.05 2 = 5.991 para v= (2-1) (3-1) = 2 grados de libertad. La hipótesis nula se rechaza. Se concluye que la opinión de un votante referente a la nueva reforma fiscal y su nivel de ingresos no son independientes. Es importante recordar que el estadístico sobre el cual se basa la decisión tiene una distribución que solo se aproxima por la distribución JI cuadrada. Los valores calculados 𝝌2 dependen de las frecuencias de la celda y, en consecuencia, son discretos. La distribución ji cuadrada continua parece aproximar muy bien la distribución muestral discreta de x2 en la medida en la que el numero de grados de libertad sea mayor que 1. En una tabla de contingencia de
  • 11. Estadística Inferencial I Unidad 4 Página 11 2 x 2, donde se tiene únicamente un grado de libertad, se aplica una corrección que recibe el nombre de corrección de yates para continuidad. La formula corregida se convierte entonces en: 𝝌 𝟐 (𝒄𝒐𝒓𝒓𝒆𝒈𝒊𝒅𝒂) = ∑ (| 𝑶𝒊 − 𝒆𝒊| − 𝟎. 𝟓) 𝟐 𝒆𝒊 𝒊 Si las frecuencias esperadas de celdas son grandes, los resultados corregidos y sin corregir son casi los mismos. Cuando las frecuencias esperadas están entre 5 y 10, debe aplicarse la corrección de Yates. Para frecuencias esperadas menores que 5, debe utilizarse la prueba exacta de Fisher-Irwin. Sin embargo, puede evitarse el uso de la prueba Fisher-Irwin al seleccionar una muestra grande.
  • 12. Estadística Inferencial I Unidad 4 Página 12 4.1.3 PRUEBA DE LA BONDAD DEL AJUSTE Es considerada como una prueba no paramétrica que mide la discrepancia entre una distribución observada y otra teórica, indicando en qué medida las diferencias existen entre ambas. En este tema se describe un procedimiento formal para probar la bondad de ajuste basado en la distribución ji- cuadrada. El procedimiento de prueba requiere una muestra aleatoria de tamaño n de la población cuya distribución de probabilidad es desconocida. Éstas n observaciones se ordenan en un histograma de frecuencia, con k intervalos de clase. Sea Oi la frecuencia observada en el intervalo de clase i. Se calcula la frecuencia esperada a partir de la distribución de probabilidad hipotética, para el intervalo de clase i-ésimo, denotado por Ei, el estadístico de prueba es: 𝜒0 2 = ∑ ( 𝑂𝑖−𝐸𝑖)2 𝐸𝑖 𝑘 𝑖=1 Para demostrar que si la población sigue la distribución hipotética propuesta, 𝜒0 2 tiene, aproximadamente, una distribución ji-cuadrada en donde los grados de libertad vienen dados por: gl= K-m-1 donde m representa el numero de parámetros de la distribución hipotética, estimados por los estadísticos muestrales. Esta aproximación mejora conforme n se incrementa. El criterio de decisión es el siguiente: Se rechaza H0 cuando el valor del estadístico de prueba 𝜒0 2 > 𝜒 𝛼,𝑘−𝑝−1 2 . En caso contrario se acepta. Donde t representa el valor proporcionado por las tablas, según el nivel de significación elegido. Cuanto más se aproxima a cero el valor de ji-cuadrada, más ajustadas están ambas distribuciones.
  • 13. Estadística Inferencial I Unidad 4 Página 13 Un punto que cabe destacar en la aplicación de este procedimiento de prueba se refiere a la magnitud de las frecuencias esperadas. Si éstas frecuencias esperadas son muy pequeñas, entonces el estadístico de prueba 𝜒0 2 no reflejará la desviación de las frecuencias observadas y las esperadas, no únicamente la pequeña magnitud de las frecuencias esperadas. No hay consenso generalizado en cuanto al valor mínimo de las frecuencias esperadas, pero valores de 3, 4 y 5 se usan ampliamente como mínimos. Algunos autores proponen que una frecuencia esperada podría ser tan pequeña, como 1 o 2, siempre que la mayoría de ellas excedan 5. Cuando una frecuencia esperada sea muy pequeña, puede cambiarse con la frecuencia esperada de un intervalo de clase adyacente. Las frecuencias observadas correspondientes también se combinarían, y k se reduciría una unidad. No es necesario que los intervalos de clase tengan la misma anchura. Ejemplo: Una distribución continua. Un ingeniero está probando una fuente de poder usada en una computadora notebook. Utilizando α = 0.05, el quiere determinar si una distribución normal describe adecuadamente el voltaje de salida. De una muestra aleatoria de n = 100 unidades obtiene las estimaciones muestrales de la media y la desviación estándar x = 5.04 V y s = 0.08 V. Una práctica común cuando se construyen los intervalos de clase para la distribución de frecuencia usada en la prueba ji-cuadrada de la bondad del ajuste es elegir los limites de clase de las celdas de tal modo que las frecuencias esperadas Ei = npi sean iguales para todas lsa celdas o intervalos de clase. Para usar este método, los limites de clase a0,a1,…,ak de los k intervalos de clase se elegirían de tal modo que todas las probabilidades 𝑃1 = 𝑃( 𝑎𝑖−1 ≤ 𝑋 ≤ 𝑎𝑖) = ∫ 𝑓( 𝑥) 𝑑𝑥 𝑎𝑖 𝑎𝑖−1 sean iguales. Suponga que se decide usar k = 8 intervalos de clase. Para la distribución normal estándar, los intervalos que dividen la escala en ocho segmentos igualmente factibles son [ 0, 0.32), [0.32, 0.675), [0.675, 1.15), [1.15,∞) y los cuatro intervalos “reflejados” al otro lado de cero.
  • 14. Estadística Inferencial I Unidad 4 Página 14 Para cada intervalo pi = 1/8 = 0.125, por lo que las frecuencias esperadas de las celdas son Ei = npi = 100(0.125) = 12.5. La tabla completa de las frecuencias observadas y las esperadas se presenta a continuación: Intervalo de clase frecuencia observada frecuencia observada Oi Ei x < 4.948 12 12.5 4.948 ≤ x < 4.986 14 12.5 4.986 ≤ x < 5.014 12 12.5 5.014 ≤ x < 5.040 13 12.5 5.040 ≤ x < 5.066 12 12.5 5.066 ≤ x < 5.094 11 12.5 5.094 ≤ x < 5.132 12 12.5 5.132 ≤ x 14 12.5 Totales 100 100 La cota del primer intervalo de clase es x – 1.15s = 4.948. Para el segundo intervalo de clase es [x – 1.15s, x – 0.675s), y así sucesivamente. Puede aplicarse el procedimiento de prueba de hipótesis de ocho pasos en este problema. 1. La variable de interés es la forma de la distribución del voltaje de la fuente de poder. 2. H0: la forma de la distribución es normal. 3. H1: la forma de la distribución no es normal. 4. α = 0.05 5. el estadístico de la prueba es: 𝜒0 2 = ∑ ( 𝑂𝑖 − 𝐸𝑖)2 𝐸𝑖 𝑘 𝑖=1 6. puesto que se estimaron dos parámetros de la distribución normal, el estadístico ji-cuadrada anterior tiene k-p-1 = 8-2-1 = 5 grados de libertad. Por lo tanto, se rechazará H0 si 𝜒0 2 > 𝜒0.05,5 2 = 11.07 7. cálculos
  • 15. Estadística Inferencial I Unidad 4 Página 15 𝜒0 2 = ∑ ( 𝑂𝑖 − 𝐸𝑖)2 𝐸𝑖 8 𝑖=1 = (12 − 12.5)2 12.5 + (14 − 12.5)2 12.5 + ⋯ + (14 − 12.5)2 12.5 = 0.64 8. conclusiones: puesto que 𝜒0 2 = 0.64 < 𝜒0.05,5 2 = 11.07 no puede rechazarse H0 y no hay evidencia robusta que indique que el voltaje de salida no tenga una distribución normal. El valor P del estadístico ji-cuadrada 𝜒0 2 = 0.64 es P = 0.9861.
  • 16. Estadística Inferencial I Unidad 4 Página 16 4.1.4 TABLAS DE CONTINGENCIA En muchas ocasiones, los n elementos de una muestra de una población pueden clasificarse con base en dos criterios diferentes. Entonces es de interés saber si los dos métodos de clasificación son estadísticamente independientes. Suponga que el primer método de clasificación tiene r niveles y que el segundo tiene c niveles. Será Oij la frecuencia observada del nivel i del primer método de clasificación y el nivel j del segundo método de clasificación. Los datos aparecerían, en general, como en la siguiente tabla. A una tabla como esta se le llama tabla de contingencia r x c. TABLA DE CONTINGENCIA r x c Columnas 1 2 … c Renglones 1 O11 O12 … O1c 2 O21 O22 … O2c . . . . . . . . . . . . . . . r Orl Or2 … Orc En estadística las tablas de contingencia se emplean para registrar y analizar la relación entre dos o más variables, habitualmente de naturaleza cualitativa (nominales u ordinales). Sea Pij la probabilidad de que un elemento seleccionado al azar esté en la celda ij, dado que las dos clasificaciones son independientes. Entonces pij = uivj, donde ui es la probabilidad de que un elemento seleccionado al azar este en la clase del renglón i y vj es la probabilidad de que un elemento seleccionado al azar esté en la clase de la columna j. ahora bien, con el supuesto de independencia, los estimadores de ui y vj son 𝑢̂ 𝑖 = 1 𝑛 ∑ 𝑜𝑖𝑗 𝑐 𝑗=1 𝑣̂𝑗 = 1 𝑛 ∑ 𝑜𝑖𝑗 𝑟 𝑖=1
  • 17. Estadística Inferencial I Unidad 4 Página 17 Por lo tanto, la frecuencia esperada de cada celda es 𝐸𝑖𝑗 = 𝑛𝑢̂ 𝑖 𝑣̂𝑗 = 1 𝑛 ∑ 𝑜𝑖𝑗 𝑐 𝑗=1 ∑ 𝑜𝑖𝑗 𝑟 𝑖=1 Entonces, para n grande, el estadístico 𝜒0 2 = ∑ ∑ ( 𝑂𝑖𝑗 − 𝐸𝑖𝑗)2 𝐸𝑖𝑗 𝑐 𝑗=1 𝑟 𝑖=1 Tiene una distribución ji-cuadrada aproximada con (r-1) (c-1) grados de libertad si la hipótesis nula es verdadera. Por lo tanto, la hipótesis de independencia se rechazaría si el valor observado del estadístico de prueba 𝜒0 2 excediera 𝜒 𝛼,(𝑟−1)(𝑐−1) 2 . Para calcular grados de libertad se tiene la siguiente fórmula: gl= (r-)(c-1) NOTA: El cálculo de grados de libertad nos dará la pauta para calcular el valor total de frecuencias.
  • 18. Estadística Inferencial I Unidad 4 Página 18 Ejemplo: Una compañía tiene que elegir entre tres planes de pensiones. La administración quiere saber si la preferencia por los planes es independiente de la clasificación laboral y desea usar α = 0.05. En la siguiente tabla se muestran las opiniones de una muestra aleatoria de 500 empleados. Clasificación laboral Plan de pensión 1 2 3 totales Trabajadores asalariados Trabajadores por hora 160 40 140 60 40 60 340 160 Totales 200 200 100 500 Para encontrar las frecuencias esperadas, primero debe calcularse 𝑢̂1 = (340/500) = 0.68, 𝑢̂2 = (160/500) = 0.32, 𝑣̂1 = (200/500) = 0.40 y 𝑣̂3 = (100/500 = 0.20. Ahora pueden calcularse las frecuencias esperadas con la ecuación 𝐸𝑖𝑗 = 𝑛𝑢̂ 𝑖 𝑣̂𝑗 = 1 𝑛 ∑ 𝑜𝑖𝑗 𝑐 𝑗=1 ∑ 𝑜𝑖𝑗 𝑟 𝑖=1 Por ejemplo, el número esperado de trabajadores asalariados que prefieren el plan de pensión 1 es 𝐸𝑖𝑗 = 𝑛𝑢̂ 𝑖 𝑣̂𝑗 = 500(0.68)(0.40) = 136 En la siguiente tabla se muestran las frecuencias esperadas. Clasificación laboral Plan de pensión 1 2 3 totales Trabajadores asalariados Trabajadores por hora 136 64 136 64 68 32 340 160 Totales 200 200 100 500
  • 19. Estadística Inferencial I Unidad 4 Página 19 Ahora puede aplicarse el procedimiento de prueba de hipótesis de ocho pasos en este problema. 1. La variable de interés es la preferencia de los empleados entre los planes de pensiones. 2. H0: la preferencia es independiente de la clasificación laboral asalariado o por horas. 3. H1: la preferencia no es independiente de la clasificación laboral asalariado o por horas. 4. α = 0.05 5. el estadístico de prueba es 𝜒0 2 = ∑ ∑ ( 𝑂𝑖𝑗 − 𝐸𝑖𝑗)2 𝐸𝑖𝑗 𝑐 𝑗=1 𝑟 𝑖=1 6. puesto que r = 2 y c = 3, los grados de libertad de ji-cuadrada son (r-1) (c-1)= (1)(2) = 2, se rechazaría H0 si 𝜒0 2 > 𝜒0.05,2 2 = 5.99 7. cálculos 𝜒0 2 = ∑ ∑ ( 𝑂𝑖𝑗 − 𝐸𝑖𝑗)2 𝐸𝑖𝑗 3 𝑗=1 2 𝑖=1 = (160 − 136)2 136 + (140 − 136)2 136 + (40 − 68)2 68 + (40 − 64)2 64 + (60− 64)2 64 + (60− 32)2 32 = 49.63 8. conclusiones: puesto que 𝜒0 2 = 49.63 > 𝜒0.05,2 2 = 5.99, se rechazará la hipótesis de independencia y se concluye que la preferencia por los planes de pensiones no es independiente de la clasificación laboral. El valor P para 𝜒0 2 = 49.63 es P = 1.671 x 10-11.
  • 20. Estadística Inferencial I Unidad 4 Página 20 4.1.5 SOFTWARE ESTADÍSTICO Los métodos estadísticos cambiaron con la aparición de los ordenadores. Desde sus orígenes, las computadoras se han empleado en el procedimiento estadístico de datos. El procesamiento estadístico es una necesidad muy frecuente en diversas áreas. Dada esta estandarización de necesidades se han elaborado paquetes estadístico que difieren entre si en los aspectos de capacidad, facilidad de uso, subprogramas incorporados, computadoras en las que se pueden ejecutar, apoyo (documentación) y precio. Dentro del grupo de paquetes estadísticos mundialmente conocidos, podemos destacar, además de STARTGRAPHICS los siguientes:  SAS (Statistical Analysis System): Sistema para el análisis estadístico y econométrico con gran potencia de manejo de volúmenes extensos de datos.  SPSS (Statistical Packge for the Social Sciencies): Se trata de un paquete especial diseñado para cubrir la mayor parte de las necesidades del proceso estadístico que suelen plantearse en las necesidades del proceso estadístico que suelen plantearse en la realización de investigaciones y estudios de tipo empírico en el campo de las ciencias sociales y humanas.  SYSTAT (the SYstem for STATistics): Es un potente paquete estadístico, susceptible de ser implementado incluso en microordenadores de pequeña capacidad. Viene avalado por una merecida fama de programa eficiente y de fácil uso.  TSP (Time Series Processor): como su nombre indica, sirve para el procesamiento de series de tiempo; sin embargo, también tiene rutinas de procesamiento de regresión muy poderosas y toca una gran parte de los temas económicos  SCA (Scientific Computing Associates): se trata de un paquete estadístico que aborda la mayoría de los temas elevados de esta disciplina, con especial hincapié en el análisis de series temporales.
  • 21. Estadística Inferencial I Unidad 4 Página 21 Existen muchos otros paquetes, como LISREL, SPAD, STATPACH, MINITAB, LISA, OSIRIS, ABSTAT y otros más, que con más o menos profundidad tocan la mayor parte de las materias estadísticas. Por otro lado encontramos otra herramienta que se utiliza para realizar cálculos estadísticos. La Hoja de Cálculo Excel/Calc puede convertirse en una poderosa herramienta para crear entornos de aprendizaje que enriquezcan la representación (modelado), comprensión y solución de problemas, en el área de la estadística y probabilidad. Excel ofrece funcionalidades que van más allá de la tabulación, cálculo de fórmulas y Graficación de datos:  En inferencia estadística calcula los intervalos de confianza, el tamaño de la muestra y se puede aplicar al contraste de hipótesis, tanto en el bilateral como en el unilateral.  La instalación del programa es muy sencilla, además Microsoft Excel incluye un comando para el análisis de datos, dentro de las "herramientas para el análisis", su uso es poco común, ya que no se tiene cuidado de instalar todas las funciones dentro de las "herramientas", perdiendo la oportunidad de utilizar un medio poderoso para el estudio dentro de la estadística.
  • 22. Estadística Inferencial I Unidad 4 Página 22 4.2 PRUEBA NO PARAMETRICA La mayor parte de los procedimientos de prueba de hipótesis que se presentan en las unidades anteriores se basan en la suposición de que las muestras aleatorias se seleccionan de poblaciones normales. Afortunadamente, la mayor parte de estas pruebas aún son confiables cuando experimentamos ligeras desviaciones de la normalidad, en particular cuando el tamaño de la muestra es grande. Tradicionalmente, estos procedimientos de prueba se denominan métodos paramétricos. En esta sección se consideran varios procedimientos de prueba alternativos, llamados no paramétricos ó métodos de distribución libre, que a menudo no suponen conocimiento de ninguna clase acerca de las distribuciones de las poblaciones fundamentales, excepto que éstas son continuas. Los procedimientos no paramétricos o de distribución libre se usan con mayor frecuencia por los analistas de datos. Existen muchas aplicaciones en la ciencia y la ingeniería donde los datos se reportan no como valores de un continuo sino más bien en una escala ordinal tal que es bastante natural asignar rangos a los datos. Se debe señalar que hay desventajas asociadas con las pruebas no paramétricas. En primer lugar no utilizan la información que proporciona la muestra, y por ello una prueba no paramétrica será menos eficiente que el procedimiento paramétrico correspondiente, cuando se pueden aplicar ambos métodos. En consecuencia, para lograr la misma eficiencia, una prueba no paramétrica requerirá la correspondiente prueba paramétrica. Como se indicó anteriormente, ligeras divergencias de la normalidad tienen como resultado desviaciones menores del ideal para las pruebas paramétricas estándar.
  • 23. Estadística Inferencial I Unidad 4 Página 23 EJEMPLO.- Dos jueces deben clasificar cinco marcas de cerveza de mucha demanda mediante la asignación de un grado de 1 a la marca que se considera que tiene la mejor calidad global, un grado 2 a la segunda mejor, etcétera. Se puede utilizar entonces una prueba no paramétrica para determinar donde existe algún acuerdo entre los dos jueces. Se debe señalar que hay varias desventajas asociadas con las pruebas no paramétricas. En primer lugar, no utilizan la información que proporciona la muestra, y por ello una prueba no paramétrica será menos eficiente que el procedimiento paramétrico correspondiente, cuando se pueden aplicar ambos métodos. En consecuencia, para lograr la misma potencia, una prueba no paramétrica requerirá la correspondiente prueba no paramétrica. Como se indicó antes, ligeras divergencias de la normalidad tienen como resultado desviaciones menores del ideal para las pruebas paramétricas estándar. Esto es cierto en particular para la prueba t y la prueba F. En el caso de la prueba t y la prueba F, el valor P citado puede ser ligeramente erróneo si existe una violación moderada de la suposición de normalidad. En resumen, si se puede aplicar una prueba paramétrica y una no paramétrica al mismo conjunto de datos, debemos aplicar la técnica paramétrica más eficiente. Sin embargo, se debe reconocer que las suposiciones de normalidad a menudo no se pueden justificar, y que no siempre se tienen mediciones cuantitativas.
  • 24. Estadística Inferencial I Unidad 4 Página 24 4.2.1 ESCALA DE MEDICION Definición de escala Cualquier recurso para determinar la magnitud o cantidad de un objeto o hecho de cualquier clase; instrumento para asignar un número o guarismo que indicará cuánto hay de algo; un recurso de medición que provee un conjunto de normas (numeradas de acuerdo con ciertas reglas de trabajo) con las que se puede comparar el objeto que será medido, para asignarle un número o valor matemático que represente su magnitud. El término es de amplia aplicación: una escala de alguna clase está incluida en toda medición o estimación. Implícito en cada caso hay un conjunto de reglas para asignar números o valores: son estas reglas las que dan significado a las cantidades. Los objetos pueden ser perceptuales o conceptuales. La escala de medida de una característica tiene consecuencias en la manera de presentación de la información y el resumen. La escala de medición-grado de precisión de la medida de la característica también determina los métodos estadísticos que se usan para analizar los datos. Por lo tanto, es importante definir las características por medir. Las escalas de medición más frecuentes son las siguientes: Escala Nominal.- No poseen propiedades cuantitativas y sirven únicamente para identificar las clases. Los datos empleados con las escalas nominales constan generalmente de la frecuencia de los valores o de la tabulación de número de casos en cada clase, según la variable que se está estudiando. El nivel nominal permite mencionar similitudes y diferencias entre los casos particulares. Los datos evaluados en una escala nominal se llaman también "observaciones cualitativas", debido a que describen la calidad de una persona o cosa estudiada, u "observaciones categóricas" porque los valores se agrupan en categorías. Por lo regular, los datos nominales o cualitativos se describen en términos de porcentaje o proporciones. Para exhibir este tipo de información se usan con mayor frecuencia tablas de contingencia y gráficas de barras.
  • 25. Estadística Inferencial I Unidad 4 Página 25 Escala Ordinal.- Las clases en las escalas ordinales no solo se diferencian unas de otras (característica que define a las escalas nominales) sino que mantiene una especie de relación entre sí. También permite asignar un lugar específico a cada objeto de un mismo conjunto, de acuerdo con la intensidad, fuerza, etc.; presentes en el momento de la medición. Una característica importante de la escala ordinal es el hecho de que, aunque hay orden entre las categorías, la diferencia entre dos categorías adyacentes no es la misma en toda la extensión de la escala. Algunas escalas consisten en calificaciones de múltiples factores que se agregan después para llegar a un índice general. Debe mencionarse brevemente una clase espacial de escala ordinal llamada "escala de posición", donde las observaciones se clasifican de mayor a menor (o viceversa). Al igual que en las escalas nominales, se emplean a menudo porcentajes y proporciones en escalas ordinales. Escala de Intervalo.- Refleja distancias equivalentes entre los objetos y en la propia escala. Es decir, el uso de ésta escala permite indicar exactamente la separación entre 2 puntos, lo cual, de acuerdo al principio de isomorfismos, se traduce en la certeza de que los objetos así medidos están igualmente separados a la distancia o magnitud expresada en la escala. Escala de Razón.- Constituye el nivel óptimo de medición, posee un cero verdadero como origen, también denominada escala de proporciones. La existencia de un cero, natural y absoluto, significa la posibilidad de que el objeto estudiado carezca de propiedad medida, además de permitir todas las operaciones aritméticas y el uso de números representada cantidades reales de la propiedad medida. Con esto notamos que esta escala no puede ser usada en los fenómenos psicológicos, pues no se puede hablar de cero inteligencia o cero aprendizaje, etc.
  • 26. Estadística Inferencial I Unidad 4 Página 26 4.2.2 METODOS ESTADÍSTICOS CONTRA NO PARAMETRICOS 1.- EL CASO DE DOS MUESTRAS: Las pruebas estadísticas de dos muestras se usan criando el investigador desea establecer la diferencia entre chis tratamientos o si un tratamiento es mejor que otro. Por ejemplo adiestramiento, uso de psicofármaco, en cada caso el grupo que ha sufrido el tratamiento es comparado con el que no lo ha experimentado o que ha sufrido un tratamiento diferente. En la comparación de estos grupos, a veces se observan diferencias significativas que no son el resultado del tratamiento, por ejemplo, en el estudio de los trabajadores que se someten a un entrenamiento diferente para determinar cuál es el mejor para elevar su calificación, puede ser que la diferencia no se deba, realmente, a uno u otra tratamiento, sino que uno de los grupos estaba más motivado por elevar rápidamente su calificación y, de esta forma, no se refleja verdaderamente la efectividad del procedimiento de enseñanza. Una forma de eliminar esta dificultad, es usar MUESTRAS RELACIONADAS estas se pueden lograr: Cuando el propio sujeto es su propio control. Con parejas de sujetos en las que se asignan los miembros de cada pareja, a las dos condiciones. La técnica paramétrica usual para analizar datos provenientes de dos muestras relacionadas es aplicar la prueba t a los puntajes, estos se pueden obtener de los dos puntajes de cada pareja igualada o de los puntajes de cada sujeto bajo las dos condiciones. Éstas pruebas determinan la medida en dije las diferencias de las muestras indican, de forma convincente, una diferencia en el proceso aplicado en ellos. En el caso de dos MUESTRAS INDEPENDIENTES, ellas pueden obtenerse: Tomando al azar sujetos de dos poblaciones. Asignando al azar ambos tratamientos a miembros de algunas muestras de orígenes arbitrarios. No es necesario que la muestra sea del mismo tamaño. En este caso, la prueba t es la técnica paramétrica indicada para analizar los datos de las dos muestras independientes.
  • 27. Estadística Inferencial I Unidad 4 Página 27 Los métodos estadísticos no paramétricos adecuados para estos casos, son: 2.-EL CASO DE K MUESTRA: Hasta aquí hemos visto las pruebas estadísticas idóneas para probar la significación de las diferencias. Entre una sola muestra y una población determinada. Entre dos muestras relacionadas o independientes. Ahora veremos las pruebas que determinan la significación de las diferencias entre 3 o más grupos, relacionados o independientes. A veces las circunstancias requieren de diseños experimentales de más de dos muestras o condiciones que puedan estudiarse simultáneamente y entonces es necesario usar una prueba estadística que indique si existe una diferencia total entre las k muestras o condiciones, ya que no es posible tener confianza en una decisión acerca de k muestras, en la que el análisis se haga probando las muestras, 2 a 2.La técnica paramétrica para probar si varias muestras proceden de una misma población, es el análisis de varianza o prueba F. La misma facilita que no haya pérdida de precisión al estimar la varianza por separado, pues se utiliza una varianza combinada.
  • 28. Estadística Inferencial I Unidad 4 Página 28 En el caso no paramétrico, tenemos:
  • 29. Estadística Inferencial I Unidad 4 Página 29 EJEMPLO: Una compañía de taxis trata de decidir si el uso de llantas radiales en lugar de llantas regulares con cinturón mejora la economía de combustible.se equipan 16 automóviles con llantas radiales y se manejan por un recorrido de prueba establecido. Sin cambiar de conductores, se equipan los mismos autos con las llantas regulares con cinturón y se manejan una vez más por el recorrido de prueba.se registra el consumo de gasolina, en kilómetros por litro, de la siguiente manera: Automóvil Llantas radiales llantas con cinturón 1 4.2 4.1 2 4.7 4.9 3 6.6 6.2 4 7.0 6.9 5 6.7 6.8 6 4.5 4.4 7 5.7 5.7 8 6.0 5.8 9 7.4 6.9 10 4.9 4.9 11 6.1 6.0 12 5.2 4.9 13 5.7 5.3 14 6.9 6.5 15 6.8 7.1 16 4.9 4.8 ¿Podemos concluir en el nivel de significancia de 0.05 que los autos equipados con llantas radiales obtienen mejores economías de combustible que los equipados con llantas regulares con cinturón?
  • 30. Estadística Inferencial I Unidad 4 Página 30 Solución: representemos conµ1 y µ2 los kilómetros por litro promedio para los autos equipados con llantas radiales y con cinturón, respectivamente. 1. Hо: µ1- µ2= 0 2. H1: µ1- µ2 > 0 3. α= 0.05 4. Estadística de prueba : variable binomial x con p= ½ 5. Cálculos:despuésde reemplazar cada diferenciapositiva con un símbolo “ + `` y cada diferencia negativa con un símbolo "-, y después descartar las dos diferencias cero ,obtenemos la secuencia + - + - + - + - + - + - + - + - + -+ - + Para la que n= 14 y x =11. Con el uso de la aproximación de la curva normal, encontramos que Z= 10.5 – 7 = 1.87 √14/2 Y entonces P= P(X ≥ 11) ≈ P ( Z>1.87)= 0.0307 6. DECISION: rechazar Ho y concluir que, en promedio, las llantas radiales mejoran la economía de combustible.
  • 31. Estadística Inferencial I Unidad 4 Página 31 4.2.3 PRUEBA DE KOLMOGOROV – SMIRNOV Recuérdese que para aplicar la prueba de bondad de ajuste chi-cuadrada cuando el modelo propuesto bajo 𝐻0 es continuo, es necesario aproximar 𝐹0(𝑥) mediante el agrupamiento de los datos observados en un número finito de intervalos de clase. Este requisito de agrupar los datos implica tener una muestra ´más o menos grande. De esta manera, la prueba de bondad de ajuste chi-cuadrada se encuentra limitada cuando 𝐹0(𝑥) es continua y la muestra aleatoria disponible tiene un tamaño pequeño. Una prueba de bondad de ajuste más apropiada que la chi-cuadrada cuando 𝐹0(𝑥) es continua, es la basad en la estadística de Kolmogorov – Smirnov. La prueba de Kolmogorov – Smirnov no necesita que los datos se encuentren agrupados y es aplicable a muestras de tamaño pequeño. Ésta se basa en una comparación entre las funciones de distribución acumulativa que se observa en la muestra ordenada y la distribución propuesta bajo la hipótesis nula. Si esta comparación revela una diferencia suficientemente grande entre las funciones de distribución muestral y propuesta, entonces la hipótesis nula de que la distribución es 𝐹0 (𝑥), se rechaza. Considérese la hipótesis nula por 𝐻0: 𝐹(𝑥) = 𝐹0 (𝑥), en donde 𝐹0 (𝑥) se especifica en forma completa. Denótese por 𝑋(1), 𝑋(2),…, 𝑋(𝑛) a las observaciones ordenadas de una muestra aleatoria de tamaño 𝑛 y defínase la función de distribución acumulativa muestral como 𝑆 𝑛(𝑥) = { 0 𝑘/𝑛 1 𝑥 < 𝑥(1), 𝑥(𝑘) ≤ 𝑥 < 𝑥( 𝑘+1), 𝑥 ≥ 𝑥 𝑛. En otras palabras, para cualquier valor ordenado 𝑥 de la muestra aleatoria, 𝑆 𝑛(𝑥) es la proporción del número de valores en la muestra que son iguales o menores a 𝑥. Ya que 𝐹0 ( 𝑥) se encuentra completamente especificada, es posible evaluar a 𝐹0 (𝑥) para algún valor deseado de 𝑥, y entonces compara este último con el valor correspondiente de 𝑆 𝑛(𝑥). Si la hipótesis nula es verdadera, entonces es lógico
  • 32. Estadística Inferencial I Unidad 4 Página 32 esperar que la diferencia sea relativamente pequeña. La estadística de Kolmogorov – Smirnov se define como 𝐷 𝑛 = 𝑚á𝑥 𝑥 | 𝑆 𝑛(𝑥) − 𝐹0(𝑥)|. La estadística 𝐷 𝑛 tiene una distribución que es independiente del modelo propuesto bajo la hipótesis nula. Por esta razón, se dice 𝐷 𝑛 es una estadística independiente de la distribución. Lo anterior da como resultado que la función de distribución para cualquier 𝐹0(𝑥). En la tabla J del apéndice, se proporcionan los valores cuantiles superiores de 𝐷 𝑛 para varios valores de la muestra. El lector debe notar que los valores asintóticos de 𝑑 𝑛 que se encuentran en la parte inferior de la tabla proporcionan una adecuada aproximación para los valores de 𝑛 mayores de 50. Para un tamaño ∝ del error de tipo i, la región crítica es de la forma 𝑃 (𝐷 𝑛 > 𝑐 √ 𝑛 ) =∝. De acuerdo con lo anterior, la hipótesis 𝐻0 se rechaza si para algún valor 𝑥 observado del valor 𝐷 𝑛 se encuentra dentro de la región crítica de tamaño 𝛼. Como se hizo anteriormente, la estadística de Kolmogorov – Smirnov es, en general, superior a la prueba de bondad de ajuste chi – cuadrada cuando los datos involucran una variable aleatoria continua, debido a que no es necesario agrupar los datos. Además, la prueba de Kolmogorov – Smirnov tiene la atractiva propiedad de ser aplicable a muestras de tamaño pequeño. Por otro lado, la estadística se encuentra limitada, ya que el modelo propuesto bajo 𝐻0 debe especificarse en forma completa. La estadística de Kolmogorov – Smirnov no se aplica a todos aquellos casos para los que as observaciones no son inherentemente cuantitativas a consecuencia de las ambigüedades que pueden surgir cuando se ordenan las observaciones.
  • 33. Estadística Inferencial I Unidad 4 Página 33 4.2.4 PRUEBA DE ANDERSON-DARLING. Esta prueba compara la función de distribución acumulada empírica de los datos de su muestra con la distribución esperada si los datos son normales. Si esta diferencia observada es suficientemente grande, la prueba rechazará la hipótesis nula de normalidad en la población. En estadística, la prueba de Anderson-Darling es una prueba no paramétrica sobre si los datos de una muestra provienen de una distribución específica. La fórmula para el estadístico A determina si los datos (observar que los datos se deben ordenar) vienen de una distribución con función acumulativa F A2 = − N − S Donde: El estadístico de la prueba se puede entonces comparar contra las distribuciones del estadístico de prueba (dependiendo que F se utiliza) para determinar el P-valor.
  • 34. Estadística Inferencial I Unidad 4 Página 34 4.2.5 PRUEBA DE RYAN-JOINER Esta prueba evalúa la normalidad calculando la correlación entre sus datos y las puntuaciones normales de sus datos. Si el coeficiente de correlación se encuentra cerca de 1, es probable que la población sea normal. La estadística de Ryan-Joiner evalúa la solidez de esta correlación; si se encuentra por debajo del valor crítico apropiado, se rechazará la hipótesis nula H0 de normalidad en la población. Esta prueba es similar a la prueba de normalidad de Shapiro-Wilk.
  • 35. Estadística Inferencial I Unidad 4 Página 35 4.2.6 PRUEBA DE SHAPPIRO – WILK En estadística, la prueba de Shappiro–Wilk, se usa para contrastar la normalidad de un conjunto de datos. Se plantea como hipótesis nula que una muestra X1,..., Xn proviene de una población normalmente distribuida. Se considera uno de las pruebas más potentes para el contraste de normalidad, sobre todo para muestras pequeñas (n<30). El estadístico de la prueba de Shappiro – Wilk es: Donde:  𝑥( 𝑖)= con el subíndice i entre paréntesis es el número que ocupa la i-ésima posición en la muestra;  = (x1 + ... + xn) / n es la media muestral;  Las constantes ai se calculan Donde: Siendo m1,..., mn son los valores medios del estadístico ordenado, de variables aleatorias independientes e idénticamente distribuidas, muestreadas de distribuciones normales. V es la matriz de covarianzas de ese estadístico de orden. La hipótesis nula se rechazará si W es demasiado pequeño.
  • 36. Estadística Inferencial I Unidad 4 Página 36 CONCLUSION De esta manera puedo finalizar que es muy substancial tener siempre en cuenta la escala de medición que se está utilizando, pues no todos los procedimientos estadísticos son apropiados para cualquier análisis. En general, las variables estadísticas se clasifican en variables continuas o cuantitativas y variables discretas o cualitativas, según el nivel de escala en que estén medidas. Las variables continuas se refieren a magnitudes medidas en escala de intervalos o de razón, mientras que las variables discretas comprenden magnitudes medidas en escalas de nivel nominal y ordinal. Por otro lado puedo concluir que las pruebas no paramétricas se encargan de estudiar las pruebas y modelos estadísticos cuya distribución no se ajusta; o sea que no asumen ningún parámetro de las variables muéstrales, por eso es muy importante el conocimiento de las pruebas no paramétricas, ya que se aplica en la administración debido a la prueba de la tabla de contingencia como la de bondad de ajuste analizan datos nominales u ordinales. Estas pruebas, se usan ampliamente en las aplicaciones de negocios, lo que demuestra la importancia de la habilidad para manejar datos categóricos o jerarquizados además de los cuantitativos. Domínguez Pérez Ruth Abigail
  • 37. Estadística Inferencial I Unidad 4 Página 37 CONCLUSION Para el desarrollo de esta unidad nuevamente llevamos a cabo la formulación de hipótesis, y a partir de ello se realizan diversas pruebas, de las cuales hablare a continuación. Como pudimos notar el trabajo anterior trato a cerca de las pruebas de bondad de ajuste y las pruebas no paramétricas, a partir de ello puedo concluir que, una prueba de bondad de ajuste mide como su nombre lo indica, el grado o nivel de ajuste que existe entre una distribución obtenida a partir de una muestra y una distribución teórica que se supone debe seguir dicha muestra. Ambas pruebas están basadas en la hipótesis nula. Para probar la bondad de ajuste se utiliza un procedimiento basado en la distribución ji-cuadrada, y al obtener el valor de ji- cuadrada, mientras más cercano a cero esté, más ajustadas estarán las distribuciones. Otra de las pruebas es la de independencia, ésta trata de la comparación de dos situaciones, basándose en datos estadísticos obtenidos de la formulación de datos por medio de formulas y tablas, lo cual involucra las denominadas tablas de contingencia, estas agrupa los datos según renglones y columnas. Por otra parte tenemos las pruebas no paramétricas, éstas se refieren a aquellas pruebas que se realizan considerando varios procedimientos alternativos, llamados no paramétricos y que se encargan de estudiar las pruebas cuya distribución no se ajusta a los criterios paramétricos; es decir, que no asumen ningún parámetro de las variables muestrales. En resumen, las pruebas de Shappiro- Wilk, la de prueba de Anderson-Darling y la de Ryan-Joiner se utilizan para contrastar la normalidad de un conjunto de datos. Por otro lado se encuentra la prueba de Kolmogorov-Smirnov la cual es una de las pruebas básicas de bondad de ajuste. Para finalizar con el trabajo anterior pude notar que la distribución χ² tiene muchas aplicaciones en inferencia estadística, la más conocida es la denominada prueba χ² la cual es utilizada como prueba de bondad de ajuste. Estévez Ortega Abigail
  • 38. Estadística Inferencial I Unidad 4 Página 38 BIBLIOGRAFÍA  Probabilidad y estadística aplicadas a la ingeniería. 2ª edición Montgomery Runger Limusa Wiley  Probabilidad y estadística. Cuarta edición Walpole Myers Mc Graw Hill  Estadística Richard C. Weimer CECSA