El documento proporciona información sobre el análisis de varianza (ANOVA). ANOVA es un conjunto de procedimientos estadísticos para analizar respuestas cuantitativas de unidades experimentales. El documento explica los tipos básicos de ANOVA, incluidos los de un factor y dos factores, y distingue entre factores fijos y aleatorios. También presenta fórmulas comunes de ANOVA y ejemplos de diseños como bloques aleatorizados y cuadrados latinos con medidas repetidas.
SESION DE PERSONAL SOCIAL. La convivencia en familia 22-04-24 -.doc
ANOVA
1. ANOVA
ANALISIS DE VARIANZA
INSTITUTO TECNOLÓGICO DE CIUDAD MADERO
INGENIERÍA INDUSTRIAL
MATERIA: CURSO INTEGRADOR
POR: VIRIDIANA TURRUBIATES PERALES
2. Análisis de Varianza
El análisis de varianza (ANOVA), se refiere en general a un conjunto de situaciones experimentales y
procedimientos estadísticos para el análisis de respuestas cuantitativas de unidades
experimentales. El problema más sencillo de ANOVA se conoce como el análisis de varianza de un
solo factor o diseño completamente al azar, éste se utiliza para comparar dos o más tratamientos,
dado que sólo consideran dos fuentes de variabilidad, los tratamientos y el error aleatorio.
El nombre "análisis de varianza" se basa en el enfoque en el cual el procedimiento utiliza las
varianzas para determinar si las medias son diferentes. El procedimiento funciona comparando la
varianza entre las medias de los grupos y la varianza dentro de los grupos como una manera de
determinar si los grupos son todos parte de una población más grande o poblaciones separadas
con características diferentes.
3. Fórmulas
Cuando los factores sean de efectos fijos aparecerán en la fórmula como parámetros (con letras
griegas), cuando los factores sean de efectos aleatorios, aparecerán como variables aleatorias (con
letras mayúsculas latinas). Así:
a) 𝑌𝑖𝑗 = 𝜇 + 𝛼𝑖 + 𝐸𝑖𝑗
b) 𝑌𝑖𝑗 = 𝜇 + 𝐴𝑖 + 𝐸𝑖𝑗
c) 𝑌𝑖𝑗𝑘 = 𝜇 + 𝛼𝑖 + 𝛽𝑗 + 𝐸𝑖𝑗
d) 𝑌𝑖𝑗𝑘 = 𝜇 + 𝛼𝑖 + 𝐵𝑗 + 𝐸𝑖𝑗
El a) es un ANOVA de un factor, efectos fijos; el b) es un ANOVA de un factor, efectos aleatorios; el c) es
un ANOVA de dos factores, efectos fijos; el d) es un ANOVA de dos factores, en el que el factor A es fijo
y el factor B aleatorio; es, por tanto, un modelo mixto; µ es una constante y + Eij es la variable aleatoria
residual o error.
4. Tipos de ANOVA
Minitab tiene diferentes tipos de ANOVA que permiten factores adicionales, tipos de factores y
diseños diferentes que se ajustan a sus necesidades específicas.
5. Tipos de ANOVA
Podemos distinguir tres tipos de modelos según sean de:
Efectos fijos: Donde sólo estudiamos determinados niveles del factor y únicamente
perseguimos sacar conclusiones para éstos.
Efectos aleatorios: En este caso los niveles son infinitos y estudiamos una muestra de los
mismos. Sus resultados también serán aleatorios.
Efectos mixtos: cuando nos encontramos con uno o más factores de las clases anteriores.
6. ¿Qué es un Factor?
Los factores son variables predictoras (también conocidas como variables independientes) que se eligen
para que varíen sistemáticamente durante un experimento con el fin de determinar su efecto en la variable
de respuesta (dependiente).
¿Qué es un factor cruzado?
Dos factores están cruzados cuando cada nivel
de un factor ocurre en combinación con cada
nivel del otro factor.
¿Qué es un factor anidado?
Dos factores están anidados cuando los niveles de
un factor son similares pero no idénticos, y cada uno
ocurre en combinación con diferentes niveles del
otro factor.
7. Factores fijos y aleatorios
En ANOVA, los factores son fijos o aleatorios. Por lo general, si el investigador controla los
niveles de un factor, el factor es fijo. Por el contrario, si el investigador toma una muestra
aleatoria de los niveles de un factor de una población, el factor es aleatorio.
Supongamos que usted tiene un factor denominado "operador" y que éste tiene tres
niveles. Si usted selecciona intencionalmente estos tres operadores y desea que los
resultados se apliquen únicamente a estos operadores, el factor es fijo. Sin embargo, si
toma una muestra aleatoria de tres operadores en un número más grande de operadores y
desea que sus resultados se apliquen a todos los operadores, el factor es aleatorio.
8. Diseño de bloques aleatorizados
Un diseño de bloques aleatorizados es un diseño que suele utilizarse para minimizar el
efecto de la variabilidad cuando está asociada con unidades discretas (por ejemplo,
ubicación, operador, planta, lote, tiempo).
El caso habitual consiste en aleatorizar una réplica de cada combinación de tratamientos
dentro de cada bloque. Por lo general, no hay un interés intrínseco en los bloques y se
considera que son factores aleatorios. El supuesto habitual es que la interacción de bloque y
tratamiento es cero, y esta interacción pasa a ser el término de error para probar los efectos
del tratamiento.
Si identifica a la variable de bloque como Bloque, los términos presentes en el modelo serían
Bloque, A, B y A*B. También especificaría Bloque como un factor aleatorio.
9. Diseño de cuadrados latinos con medidas
repetidas
Un diseño con medidas repetidas es un diseño en el que se efectúan mediciones repetidas en
el mismo sujeto. Existen diversas maneras de asignar tratamientos a los sujetos.
Cuando se trata especialmente de sujetos vivos, puede sospecharse que existen diferencias
sistemáticas (atribuibles al aprendizaje, aclimatación, resistencia, etc.) entre observaciones
sucesivas.
Una manera frecuente de asignar tratamientos a los sujetos consiste en utilizar un diseño de
cuadrados latinos. Una de las ventajas de este diseño para un experimento de medidas
repetidas es que garantiza una fracción balanceada de un factorial completo (es decir, todas
las combinaciones de tratamientos representadas) cuando los sujetos son limitados y el efecto
de la secuencia del tratamiento puede considerarse insignificante.
10. Diseño de cuadrados latinos con medidas
repetidas
Este diseño suele modificarse para proporcionar información acerca de uno o más factores
adicionales. Si a cada grupo se le asignara un nivel diferente del factor A, entonces podría
obtenerse información sobre los efectos de A y A*B con un esfuerzo mínimo si es posible
hacer una suposición sobre el efecto de la secuencia asignada a los grupos. Si los efectos de
la secuencia son insignificantes en comparación con los efectos del factor A, entonces el
efecto de grupo podría atribuirse al factor A. Si las interacciones con el tiempo son
insignificantes, entonces puede obtenerse información parcial sobre la interacción A*B. En el
lenguaje de los diseños de medidas repetidas, el factor A se denomina factor entre sujetos y
el factor B se denomina factor por cada sujeto.
No es necesario aleatorizar los experimentos de medidas repetidas con un diseño de
cuadrados latinos.
11. ANOVA de un factor
La prueba ANOVA nos permite comparar las medias de r grupos, siendo r mayor o igual a 2. El
modelo ANOVA presupone que las varianzas de los grupos son iguales y que los residuos o errores
son aleatorios, independientes e idénticamente distribuidos siguiendo una ley normal con media 0 y
desviación constante. La hipótesis nula de la prueba ANOVA de un factor es:
H0: Las medias de los k grupos son todas iguales
H1: Al menos una de las medias es diferente
Esta prueba se basa en la comparación de las sumas de cuadrados medias debidas a la variabilidad
entre grupos y la debida a la variabilidad intra grupos (dentro de los grupos).
12. Suponga que se tienen a tratamientos o niveles de un solo factor
Se desea comparar los diferentes niveles del factor
La variable de salida a comparar con cada uno de los niveles es una variable aleatoria
ANOVA de un factor
13. Las observaciones se pueden describir mediante un modelo matemático sencillo: Modelo de las
medias
𝑦𝑖𝑗 = 𝜇𝑖 + 𝜀𝑖𝑗
𝑖 = 1, 2, … , 𝑎
𝑗 = 1, 2, … , 𝑛
Donde:
𝑦𝑖𝑗 es la observación ij-ésima,
𝜇𝑖 es la media del nivel del factor o tratamiento i-ésimo, y
𝜀𝑖𝑗 es un componente de error aleatorio (incorpora demás fuentes de variabilidad del experimento:
mediciones, factores no controlados, diferencias en los materiales de prueba, variabilidad con el
tiempo, medio ambiente, etc)
ANOVA de un factor
14. ANOVA de un factor
Otro modelo es considerar que la media tiene dos componentes:
𝜇𝑖 = 𝜇 + 𝜏𝑖, 𝑖 = 1, 2, … , 𝑎
A 𝜇𝑖 se le llama media del nivel, la cual se compone de una media global (𝜇) y un 𝜏𝑖 que es el
efecto del tratamiento i-ésimo.
Por tanto, el modelo matemático queda en definitiva como:
𝑦𝑖𝑗 = 𝜇𝑖 + 𝜀𝑖𝑗
𝑖 = 1, 2, … , 𝑎
𝑗 = 1, 2, … , 𝑛
A este modelo se le llama el modelo de los efectos
15. Tabla de ANOVA
Fuente de
Variación
Suma de Cuadrados Grados de
libertad
Cuadrado Medio F-valor
Entre
Grupos 𝑛 − 1
𝑀𝑆𝑓𝑎𝑐𝑡𝑜𝑟 =
𝑆𝑆𝑓𝑎𝑐𝑡𝑜𝑟
𝑛 − 1
𝐹 =
𝑀𝑆𝑓𝑎𝑐𝑡𝑜𝑟
𝑀𝑆𝑒𝑟𝑟𝑜𝑟
Dentro
Grupos 𝑁 − 𝑛 𝑀𝑆𝑒𝑟𝑟𝑜𝑟 =
𝑆𝑆𝑒𝑟𝑟𝑜𝑟
𝑁 − 𝑛
Total
𝑁 − 1𝑆𝑆𝑡𝑜𝑡𝑎𝑙 = 𝑦𝑖𝑗2 − (
𝑦
𝑁
)
𝑆𝑆𝑒𝑟𝑟𝑜𝑟
= 𝑆𝑆𝑡𝑜𝑡𝑎𝑙 − 𝑆𝑆𝑓𝑎𝑐𝑡𝑜𝑟
nc=no. de columnas
N=no. de datos
𝑆𝑆𝑓𝑎𝑐𝑡𝑜𝑟 =
𝑦2
𝑛𝑐
−
𝑦2
𝑁
16. Caso práctico
ANOVA de un factor
Inflamabilidad de pijamas
La inflamabilidad de los pijamas para niños ha sido un
tema de preocupación constante durante las últimas
décadas. Hoy en día, hay toda una serie de controles de
seguridad que garantizan que las telas con que se
fabrican los pijamas no sean fácilmente inflamables.
Tras seleccionar un determinado fabricante de pijamas y
5 laboratorios diferentes, hemos enviado a cada
laboratorio 11 prendas de dicho fabricante. La idea es
que en cada laboratorio se les aplique un test de
inflamabilidad. Los resultados (expresados en un
determinado índice de inflamabilidad) se muestran a
continuación:
17. Desarrollo
paso a paso
Nuestro objetivo será determinar si las medias obtenidas por cada laboratorio son iguales
(𝐻 𝑜), o si al menos una de las medias es diferente (𝐻1).
𝐻0: 𝜇1 = 𝜇2 = 𝜇3 = 𝜇4
𝐻1: 𝜇1 ≠ 𝜇2 ≠ 𝜇3 ≠ 𝜇4
Prenda LAB 1 LAB 2 LAB 3 LAB 4 LAB 5 𝒚 Prom 𝒚𝒊𝒋 𝟐
𝒚 𝟐
1 2.9 2.7 3.3 3.3 4.1 16.3 3.26 54.29 265.69
2 3.1 3.4 3.3 3.2 4.1 17.1 3.42 59.11 292.41
3 3.1 3.6 3.5 3.4 3.7 17.3 3.46 60.07 299.29
4 3.7 3.2 3.5 2.7 4.2 17.3 3.46 61.11 299.29
5 3.1 4.0 2.8 2.7 3.1 15.7 3.14 50.35 246.49
6 4.2 4.1 2.8 3.3 3.5 17.9 3.58 65.43 320.41
7 3.7 3.8 3.2 2.9 2.8 16.4 3.28 54.62 268.96
8 3.9 3.8 2.8 3.2 3.5 17.2 3.44 59.98 295.84
9 3.1 4.3 3.8 2.9 3.7 17.8 3.56 64.64 316.84
10 3.0 3.4 3.5 2.6 3.5 16 3.2 51.82 256
11 2.9 3.3 3.8 2.8 3.9 16.7 3.34 56.79 278.89
185.7 37.14 638.21 3140.11
En la tabla de los valores se tiene
que calcular ∑y, promedio, ∑yij² y
∑y²
El valor de ∑yij² se saca a partir de
la siguiente tabla, que es el
cuadrado de los datos:
18. Realizamos los cálculos:
Los resultados obtenidos se sustituyen en la tabla de ANOVA.
𝑆𝑆𝑓𝑎𝑐𝑡𝑜𝑟 =
𝑦2
𝑛𝑐
−
(𝑦)2
𝑁
=
3140.11
5
−
(185.7 )2
55
= 1.03127273
nc=5
N=55
𝑆𝑆𝑡𝑜𝑡𝑎𝑙 = 𝑦𝑖𝑗2
−
𝑦
𝑁
= 638.21 −
185.7
55
= 11.2192727
𝑆𝑆𝑒𝑟𝑟𝑜𝑟 = 𝑆𝑆𝑡𝑜𝑡𝑎𝑙 − 𝑆𝑆𝑓𝑎𝑐𝑡𝑜𝑟 = 11.2192727−1.03127273=10.188
19. n=no. de prendas
N=no. de datos
Fuente de
Variación
Suma de Cuadrados Grados de
libertad
Cuadrado Medio F-valor
Entre
Grupos 1.03127273
11 − 1 = 10 𝑀𝑆𝑓𝑎𝑐𝑡𝑜𝑟 =
1.031273
10
= 0.103127
𝐹 =
1.0312727
0.231545
= 4.453875
Dentro
Grupos 10.188 55 − 11 = 44 𝑀𝑆𝑒𝑟𝑟𝑜𝑟 =
10.188
44
= 0.231545
Total
11.2192727 55 − 1 = 54
20. Interpretación de resultados
Buscando en la tabla de Fisher el valor para un
nivel de significancia de 5% (representado por
α=0.05) y 10-44 grados de libertad, equivale a
2.05 en la tabla dado que F=4.453875 :
4.453875>2.05
Se rechaza la hipótesis nula. Las medias resultan no
ser iguales.
Lo que nos dice que la tela con que se hacen las
pijamas si es inflamable.
21. Realización del caso práctico en
Abriremos el software Minitab, e
introduciremos los datos en la ‘Hoja
de trabajo’, de la siguiente manera:
Al introducir los datos
estos quedaran en
distintas columnas, para
apilarlos en un sola
columna, iremos al menú
Datos Apilar
Filas Seleccionar las
columnas y Aceptamos
Nota
22. ANOVA
Para realizar el análisis de los datos, nos
iremos al menú Estadísticas ANOVA Un
solo factor…
Nos desplegara una ventana en la que
seleccionaremos la variable de respuesta y el
facto del experimento, y posteriormente
seleccionamos la opción ‘Gráficas…’
23. En la ventana que se
abrirá, solo
seleccionaremos la
opción ‘Cuatro en
uno’, y daremos
Aceptar
24. Resultados…
Grafica 1: los datos están
normalmente distribuidos, ya
que siguen un línea recta.
Gráfica 2:Los residuos presentan
varianzas constantes.
Gráfica 3:El histograma muestra
una media centrada.
Gráfica 4: los datos circulan
aleatoriamente alrededor de la
línea central, lo cual muestra
normalidad.
Obtendremos las siguientes gráficas en las cuales se podrá apreciar
el comportamiento de los datos:
1 2
3 4
25. Comparación de resultados…
A continuación se compararan los resultados de la tabla que se realizó aquí y la
realizada en Minitab:
En contraste de un análisis y otro podemos darnos cuenta que son los mismos resultados, y con esto se
confirma el rechazo de Ho
Fuente de
Variación
Suma de Cuadrados Grados de
libertad
Cuadrado Medio F-valor
Entre Grupos
1.03127273
11 − 1 = 10 𝑀𝑆𝑓𝑎𝑐𝑡𝑜𝑟 =
1.031273
10
= 0.103127
𝐹 =
1.0312727
0.231545
= 4.453875
Dentro
Grupos 10.188 55 − 11 = 44 𝑀𝑆𝑒𝑟𝑟𝑜𝑟 =
10.188
44
= 0.231545
Total
11.2192727 55 − 1 = 54
26. ANOVA de dos factores
Usaremos el análisis doble de la varianza para estudiar los posibles efectos causados por
diferentes niveles de dos factores sobre la variable dependiente.
Usaremos ANOVA doble para contrastar, para cada uno de los dos factores, la hipótesis
nula de que el resultado de la variable dependiente (crecimiento de patatas, intensidad
del dolor de cabeza, tiempo en adquirir conocimientos, ventas, etc.) no depende del
factor.
27. ANOVA de dos factores
Modelo aditivo (sin interacción)
El modelo aditivo supone que la variación total en los datos puede ser expresada como suma de
variaciones procedentes de fuentes diversas:
(Variación total en los datos) = (Variación debida al primer factor) + (Variación debida al segundo factor) +
(Variación debida al error aleatorio)
Si la variación debida al primer factor fuese mucho mayor que la variación debida al error aleatorio,
dispondríamos de evidencia estadística contra la hipótesis nula de que los distintos niveles del primer
factor tienen el mismo efecto sobre la variable dependiente; de forma similar, si la variación debida al
segundo factor fuese mucho mayor que la variación debida al error aleatorio, deberíamos rechazar la
hipótesis nula de que la variable dependiente no depende de los diversos niveles del segundo factor.
28. ANOVA de dos factores
Modelo con interacción
Un aspecto al que debemos prestar especial atención es el nivel de interacción entre ambos factores; es
decir, el efecto que cada uno de los factores tiene sobre el otro. Así, por ejemplo, en la campaña de
marketing citada anteriormente, el incremento en las ventas debido a un aumento del presupuesto podría
ser el mismo independientemente del medio usado, o bien podría variar dependiendo del medio usado.
En este último caso deberíamos estudiar también la interacción entre los factores presupuesto y medio.
Para ello usaremos los llamados modelos con interacción.
Este modelo supone que la variación total de los datos puede descomponerse de la siguiente forma:
(Variación total en los datos) = (Variación debida al primer factor) + (Variación debida al segundo factor) +
(Variación debida a la interacción entre factores) + (Variación debida al error aleatorio)
29. ANOVA de dos factores
En muchas situaciones prácticas la unidades experimentales no son homogéneas por lo que conviene
agruparlas en distintos conjuntos de observaciones homogéneas. A tales conjuntos se les
denomina bloques.
Los tratamientos se aplican dentro de cada bloque siguiendo las mismas técnicas de aleatorización
expuestas previamente.
Se procurará que los tratamientos estén representados de la misma manera en todos los bloques.
Diseño en bloques al azar
Supongamos que se dispone de r tratamientos a comparar y que se dividen las observaciones en s
bloques con r unidades experimentales cada uno.
Dentro de cada bloque se aplica una vez cada tratamiento utilizando un procedimiento de
aleatorización.
Los datos resultantes serían los siguientes:
30. ANOVA de dos factores
El modelo matemático es ahora:
𝑥𝑖𝑗 = 𝜇𝑖𝑗 + 𝜀𝑖𝑗
𝑥𝑖𝑗 = 𝜇 + 𝑎𝑖 + 𝛽𝑗 + 𝜀𝑖𝑗
Donde 𝛼𝑖 es el efecto debido al bloque, 𝛽𝑖 es el efecto debido al tratamiento y 𝜀𝑖𝑗 es el error
experimental.
Obsérvese que solamente hemos sustraído del residual la parte correspondiente a los bloques.
31. Las hipótesis de que los distintos tratamientos y los bloques no producen ningún efecto
se contrasta mediante el análisis de la varianza de dos factores, comparando la
variabilidad entre bloques y la variabilidad entre tratamientos con la variabilidad dentro
de los grupos.
Los resultados fundamentales se resumen en la tabla siguiente.
Fuente Suma de cuadrados Grados de
libertad
Estimador Valor F
Entre
bloques 𝑄 𝐵 =
𝑖=1
𝑠
𝑟( 𝑥𝑖. − 𝑥)2
𝑠 − 1
𝑆 𝐵
2
=
𝑄 𝐵
𝑠 − 1 𝐹𝐵 =
𝑆 𝐵
2
𝑆 𝑅
2
Entre
Tratam. 𝑄 𝑇 =
𝑗=1
𝑟
𝑠( 𝑥.𝑗 − 𝑥)2
𝑟 − 1
𝑆 𝑇
2
=
𝑄 𝑇
𝑟 − 1 𝐹𝑇 =
𝑆 𝑇
2
𝑆 𝑅
𝑟
Residual
𝑄 𝑅 =
𝑖=1
𝑠
𝑗=1
𝑟
(𝑥𝑖𝑗 − 𝑥𝑖. − 𝑥.𝑗 + 𝑥)2
(𝑟 − 1)(𝑠 − 1) 𝑆 𝑅
2
=
𝑄 𝑅
(𝑟 − 1)(𝑠 − 1)
Total
𝑄 =
𝑖=1
𝑠
𝑗=1
𝑟
(𝑥𝑖𝑗 − 𝑥)2
𝑛 − 1
32. ANOVA de dos factores
Los estimadores de los efectos de los bloques y tratamientos se estiman a partir de
𝜇 = 𝑥
𝛼𝑖𝑗 = 𝑥𝑗. − 𝑥
𝛽𝑗 = 𝑥.𝑗 − 𝑥
y la parte propia de cada observación (o residual)
𝜀𝑖𝑗 = 𝑥𝑖𝑗 − 𝑥𝑖. − 𝑥.𝑗 + 𝑥
Los residuales pueden servirnos para la validación de las hipótesis básicas de la misma
manera que en el diseño de un factor.
33. Fuente Suma de cuadrados Grados de
libertad
Estimador Valor F
Trat. A
𝑆𝑆𝐴 =
1
𝑏𝑛
𝑖=1
𝑦𝑖
2
−
(𝑦𝑖)2
𝑎𝑏𝑛
𝑎 − 1
𝑆𝐴 =
𝑆𝑆𝐴
𝑎 − 1
=
𝑆𝐴
𝑆 𝐸
Trat. B
𝑆𝑆𝐵 =
1
𝑎𝑛
𝑖=1
𝑦𝑗
2
−
(𝑦𝑖)2
𝑎𝑏𝑛
𝑏 − 1
𝑆 𝐵 =
𝑆𝑆𝐵
𝑏 − 1
=
𝑆 𝐵
𝑆 𝐸
Interacc.
AB 𝑆𝑆𝐴𝐵 = 𝑆𝑆 𝑆𝑈𝐵𝑇𝑂𝑇𝐴𝐿 − 𝑆𝑆𝐴 − 𝑆𝑆𝐵
(𝑎 − 1)(𝑏 − 1) 𝑆𝐴𝐵
=
𝑆𝑆𝐴𝐵
(𝑎 − 1)(𝑏 − 1)
=
𝑆𝐴𝐵
𝑆 𝐸
Error 𝑆𝑆𝐸 = 𝑆𝑆𝑇 − 𝑆𝑆𝐴𝐵 − 𝑆𝑆𝐴 − 𝑆𝑆𝐵
𝑆𝑆𝐸 = 𝑆𝑆𝑇 − 𝑆𝑆 𝑆𝑈𝐵𝑇𝑂𝑇𝐴𝐿
𝑎𝑏(𝑛 − 1)
𝑆 𝐸 =
𝑆𝑆𝐸
𝑎𝑏(𝑛 − 1)
Total
𝑆𝑆𝑇 =
𝑖=1
𝑦𝑖𝑗 𝑘2
−
(𝑦𝑖)2
𝑎𝑏𝑛
𝑎𝑏𝑛 − 1
𝑆𝑆 𝑆𝑈𝐵𝑇𝑂𝑇𝐴𝐿 =
1
𝑛
𝑖=1
𝑦𝑖𝑗
2
−
(𝑦𝑖)2
𝑎𝑏𝑛
Las hipótesis de que los distintos factores no producen ningún efecto y de que no existe
interacción se contrastan mediante el análisis de la varianza de dos factores con
interacción, comparando la variabilidad entre los niveles del factor A, la variabilidad
entre los niveles del factor B, y la variabilidad debida a la interacción con la variabilidad
dentro de los grupos o error.
34. Los estimadores de los efectos de los bloques y tratamientos se estiman a partir de:
𝜇 = 𝑥
𝛼𝑖 = 𝑥𝑖.. − 𝑥
𝛽𝑗 = 𝑥.𝑗. − 𝑥
𝛼 𝛽𝑖𝑗 = 𝑥𝑖𝑗. − 𝑥𝑖.. − 𝑥.𝑗. + 𝑥
y la parte propia de cada observación (o residual/error):
𝜀𝑖𝑗 = 𝑥𝑖𝑗𝑘 − 𝑥𝑖𝑗.
Los residuales pueden servirnos para la validación de las hipótesis básicas de la
misma manera que en el diseño de un factor.
35. Caso práctico
ANOVA de dos factores
Conducción de vehículos
A continuación se muestran los datos obtenidos en un
experimento en el que se comprobaron las habilidades de dos
grupos de conductores, los inexpertos y los expertos. Doce
conductores de cada grupo tomaron parte en el experimento.
Se usaron tres tipos de carreteras: autopista, nacional y
comarcal. Mediante un proceso aleatorio, se asignaron a cada
tipo de carretera cuatro conductores expertos y cuatro
inexpertos. Cada conductor estuvo al volante durante 2
kilómetros, en los cuales se registraron los siguientes “errores
de conducción” cometidos:
36. Aplicación…
𝑯 𝟎,𝟏: el factor conductor no influye en el número de errores
𝑯 𝟏,𝟏: el factor conductor influye en el número de errores
𝑯 𝟎,𝟐: el factor tipo de carretera no influye en el número de errores
𝑯 𝟏,𝟐:el factor tipo de carretera influye en el número de errores
𝑯 𝟎,𝟑: no hay interacción entre ambos factores
𝑯 𝟏,𝟑: hay interacción entre ambos factores
37. 𝑌𝑖 = 310
𝑌𝑖
2
= 50788
𝑌𝑖𝑗
2
= 18468
𝑌𝑗 = 310
𝑌𝑗
2
= 34500
𝑌𝑖𝑗𝑘
2
= 5074
Nuestro objetivo será determinar si las medias obtenidas por cada laboratorio son iguales
(𝐻 𝑜), o si al menos una de las medias es diferente (𝐻1).
Conductor Autopista Nacional Comarcal
4 23 16
18 15 27
8 21 23
10 13 14
6 2 20
4 6 15
13 8 8
7 12 17
70 100 140
4900 10000 19600
774 1612 2688
Tipo de carretera
Inexperto
Experto
192 36864 13184
118 13924 5284
𝑌𝑖 𝑌𝑖
2 𝑌𝑖𝑗
2
𝑌𝑗
𝑌𝑗
2
𝑌𝑖𝑗𝑘
2
B
A
Desarrollo
paso a paso
a=2 b=3 n=4En la tabla de los valores se
tiene que calcular:
Yi=Suma de todos los
valores del factor A por
categoría.
Yi2=Yi al cuadrado
Yij2=Suma de los valores
dentro del mismo cuadro,
al cuadrado.
Yj=Suma de los valores del
factor B por categoría.
Yj2=Yj al cuadrado
Yijk2=Suma de los
cuadrados de cada valor
por categoría de B.
40. Interpretación de resultados
Buscando en la tabla de Fisher el valor para un
nivel de significancia de 5% (representado por
α=0.05) y 1-18 grados de libertad para el factor A
‘Conductor’, equivale a 4.41 en la tabla dado que
F=8.9868 :
8.9868>4.41
Se rechaza la hipótesis nula. El factor conductor
influye en el número de errores.
2-18 grados de libertad para el factor B ‘Tipo de
Carretera’, equivale a 3.55 en la tabla dado que
F=6.0719 :
6.0719>3.55
Se rechaza la hipótesis nula. El factor tipo de carretera
influye en el número de errores.
2-18 grados de libertad para la interacción AB
‘Conductor*Tipo de Carretera’, equivale a 3.55 en la
tabla dado que F=1.5032 :
1.5032<3.55
Se acepta la hipótesis nula. No hay interacción entre
ambos factores.
41. 𝑯 𝟎,𝟏: el factor conductor no influye en el número de errores
𝑯 𝟏,𝟏: el factor conductor influye en el número de errores
𝑯 𝟎,𝟐: el factor tipo de carretera no influye en el número de errores
𝑯 𝟏,𝟐:el factor tipo de carretera influye en el número de errores
𝑯 𝟎,𝟑: no hay interacción entre ambos factores
𝑯 𝟏,𝟑: hay interacción entre ambos factores
Realización del caso práctico en
42. Abriremos el software Minitab, e
introduciremos los datos en la
‘Hoja de trabajo’, de la siguiente
manera:
Nota
Se introdujeron los datos en
tres columnas, la primera
‘Conductor’ donde se
colocaron ambos, la segunda
‘Tipo de carretera’, donde
fueron colocadas las 3
carreteras respectivamente al
conductor y por ultimo
‘Errores’.
43. Para determinar si los datos son balanceados cuando se tiene conjuntos de datos grandes, se
debe crear una tabla de tabulación cruzada.
Para crear esta tabla, debemos ir al menú Estadísticas Tablas Tabulación cruzada y Chi-
cuadrada.
Seleccionaremos para
Fila la columna ‘Errores’
y para Columnas
‘Conductor’,
Aceptamos
Se examinarán las celdas en la salida resultante: una celda es la
intersección de una fila y una columna. Si el conteo de una celda
no es igual a los conteos de todas las demás celdas, usted tiene
datos no balanceados.
44. Y como podemos observar, el conteo nos da correctamente en la intersección,
por lo tanto, los datos son balanceados
En la ventana que se despliega seleccionaremos la opción ‘Prueba
Chi-cuadrada’ y daremos Aceptar.
45. Ya comprobado que los datos son
balanceados, procedemos a realizar el
análisis ANOVA; regresamos al menú
Estadísticas ANOVA ANOVA
balanceado
En ‘Respuesta’ se colocará la columna ‘Errores’. En ‘Modelo’, colocaremos las
columnas ‘Conductor’ y ‘Tipo de carretera’, y posteriormente la interacción de
ambas: Conductor*Tipo de carretera
c
46. Grafica de efectos principales
Menú Estadísticas ANOVA Grafica de
efectos principales
En la ventana que nos abre, pondremos en Respuestas
:’Errores’; en Factores: ‘Tipo de carretera y Conductor’, y
Aceptar
47. Resultados…
Los p-valores de los factores Conductor
y Tipo de carretera son bastante
pequeños , pero significativos ya que
son menores a 0.05 el valor de
significancia, por lo que se rechazarán
las hipótesis nulas asociadas a cada
factor. En cuanto a la interacción de los
factores es mayor a 0.05, por lo tanto se
acepta la hipótesis nula para esta.
Los datos demuestran que tanto el tipo
de carretera como la experiencia del
conductor son factores que influyen en
el número de errores de conducción
cometidos.
48. Gráfica
En esta gráfica ya se vuelve
más evidente la influencia de
los dos factores en la cantidad
de errores de conducción.
Los más representativos como
se puede apreciar, en tipo de
carretera es ‘Comarcal’, y en
conductor el ‘Inexperto’.
49. Fuente Suma de cuadrados
Grados de
libertad
Estimador Valor F
Trat. A 228.1666 1 228.1666 8.9868
Trat. B 308.3333 2 154.16 6.0719
Interacc. AB 76.3334 2 38.1667 1.5032
Error 457 18 25.3888
Total 1069.8333 23
Comparación de resultados…
A continuación se compararan los resultados de la tabla que se realizó aquí y la
realizada en Minitab:
En contraste de un análisis y otro podemos darnos cuenta que son iguales los resultados, y con esto se
confirman los mismos, así como también las conclusiones a las que se llegaron con estos.
50. ANEXOS
El archivo del cual se obtuvieron los ejemplos se encuentra en el siguiente link:
https://www.uoc.edu/in3/emath/docs/ANOVA.pdf
La tabla distribución de probabilidad de F de Fisher, esta en:
https://www.uam.es/personal_pdi/ciencias/anabz/Prest/Trabajos/tabla-fisher.pdf