ANOVA

ANOVA
ANALISIS DE VARIANZA
INSTITUTO TECNOLÓGICO DE CIUDAD MADERO
INGENIERÍA INDUSTRIAL
MATERIA: CURSO INTEGRADOR
POR: VIRIDIANA TURRUBIATES PERALES

Análisis de Varianza
 El análisis de varianza (ANOVA), se refiere en general a un conjunto de situaciones experimentales y
procedimientos estadísticos para el análisis de respuestas cuantitativas de unidades
experimentales. El problema más sencillo de ANOVA se conoce como el análisis de varianza de un
solo factor o diseño completamente al azar, éste se utiliza para comparar dos o más tratamientos,
dado que sólo consideran dos fuentes de variabilidad, los tratamientos y el error aleatorio.
 El nombre "análisis de varianza" se basa en el enfoque en el cual el procedimiento utiliza las
varianzas para determinar si las medias son diferentes. El procedimiento funciona comparando la
varianza entre las medias de los grupos y la varianza dentro de los grupos como una manera de
determinar si los grupos son todos parte de una población más grande o poblaciones separadas
con características diferentes.

Fórmulas
 Cuando los factores sean de efectos fijos aparecerán en la fórmula como parámetros (con letras
griegas), cuando los factores sean de efectos aleatorios, aparecerán como variables aleatorias (con
letras mayúsculas latinas). Así:
 a) 𝑌𝑖𝑗 = 𝜇 + 𝛼𝑖 + 𝐸𝑖𝑗
 b) 𝑌𝑖𝑗 = 𝜇 + 𝐴𝑖 + 𝐸𝑖𝑗
 c) 𝑌𝑖𝑗𝑘 = 𝜇 + 𝛼𝑖 + 𝛽𝑗 + 𝐸𝑖𝑗
 d) 𝑌𝑖𝑗𝑘 = 𝜇 + 𝛼𝑖 + 𝐵𝑗 + 𝐸𝑖𝑗
 El a) es un ANOVA de un factor, efectos fijos; el b) es un ANOVA de un factor, efectos aleatorios; el c) es
un ANOVA de dos factores, efectos fijos; el d) es un ANOVA de dos factores, en el que el factor A es fijo
y el factor B aleatorio; es, por tanto, un modelo mixto; µ es una constante y + Eij es la variable aleatoria
residual o error.

Tipos de ANOVA
 Minitab tiene diferentes tipos de ANOVA que permiten factores adicionales, tipos de factores y
diseños diferentes que se ajustan a sus necesidades específicas.

Tipos de ANOVA
Podemos distinguir tres tipos de modelos según sean de:
 Efectos fijos: Donde sólo estudiamos determinados niveles del factor y únicamente
perseguimos sacar conclusiones para éstos.
 Efectos aleatorios: En este caso los niveles son infinitos y estudiamos una muestra de los
mismos. Sus resultados también serán aleatorios.
 Efectos mixtos: cuando nos encontramos con uno o más factores de las clases anteriores.

¿Qué es un Factor?
Los factores son variables predictoras (también conocidas como variables independientes) que se eligen
para que varíen sistemáticamente durante un experimento con el fin de determinar su efecto en la variable
de respuesta (dependiente).
 ¿Qué es un factor cruzado?
Dos factores están cruzados cuando cada nivel
de un factor ocurre en combinación con cada
nivel del otro factor.
 ¿Qué es un factor anidado?
Dos factores están anidados cuando los niveles de
un factor son similares pero no idénticos, y cada uno
ocurre en combinación con diferentes niveles del
otro factor.

Factores fijos y aleatorios
 En ANOVA, los factores son fijos o aleatorios. Por lo general, si el investigador controla los
niveles de un factor, el factor es fijo. Por el contrario, si el investigador toma una muestra
aleatoria de los niveles de un factor de una población, el factor es aleatorio.
 Supongamos que usted tiene un factor denominado "operador" y que éste tiene tres
niveles. Si usted selecciona intencionalmente estos tres operadores y desea que los
resultados se apliquen únicamente a estos operadores, el factor es fijo. Sin embargo, si
toma una muestra aleatoria de tres operadores en un número más grande de operadores y
desea que sus resultados se apliquen a todos los operadores, el factor es aleatorio.

Diseño de bloques aleatorizados
 Un diseño de bloques aleatorizados es un diseño que suele utilizarse para minimizar el
efecto de la variabilidad cuando está asociada con unidades discretas (por ejemplo,
ubicación, operador, planta, lote, tiempo).
 El caso habitual consiste en aleatorizar una réplica de cada combinación de tratamientos
dentro de cada bloque. Por lo general, no hay un interés intrínseco en los bloques y se
considera que son factores aleatorios. El supuesto habitual es que la interacción de bloque y
tratamiento es cero, y esta interacción pasa a ser el término de error para probar los efectos
del tratamiento.
 Si identifica a la variable de bloque como Bloque, los términos presentes en el modelo serían
Bloque, A, B y A*B. También especificaría Bloque como un factor aleatorio.

Diseño de cuadrados latinos con medidas
repetidas
 Un diseño con medidas repetidas es un diseño en el que se efectúan mediciones repetidas en
el mismo sujeto. Existen diversas maneras de asignar tratamientos a los sujetos.
 Cuando se trata especialmente de sujetos vivos, puede sospecharse que existen diferencias
sistemáticas (atribuibles al aprendizaje, aclimatación, resistencia, etc.) entre observaciones
sucesivas.
 Una manera frecuente de asignar tratamientos a los sujetos consiste en utilizar un diseño de
cuadrados latinos. Una de las ventajas de este diseño para un experimento de medidas
repetidas es que garantiza una fracción balanceada de un factorial completo (es decir, todas
las combinaciones de tratamientos representadas) cuando los sujetos son limitados y el efecto
de la secuencia del tratamiento puede considerarse insignificante.

Diseño de cuadrados latinos con medidas
repetidas
 Este diseño suele modificarse para proporcionar información acerca de uno o más factores
adicionales. Si a cada grupo se le asignara un nivel diferente del factor A, entonces podría
obtenerse información sobre los efectos de A y A*B con un esfuerzo mínimo si es posible
hacer una suposición sobre el efecto de la secuencia asignada a los grupos. Si los efectos de
la secuencia son insignificantes en comparación con los efectos del factor A, entonces el
efecto de grupo podría atribuirse al factor A. Si las interacciones con el tiempo son
insignificantes, entonces puede obtenerse información parcial sobre la interacción A*B. En el
lenguaje de los diseños de medidas repetidas, el factor A se denomina factor entre sujetos y
el factor B se denomina factor por cada sujeto.
 No es necesario aleatorizar los experimentos de medidas repetidas con un diseño de
cuadrados latinos.

ANOVA de un factor
 La prueba ANOVA nos permite comparar las medias de r grupos, siendo r mayor o igual a 2. El
modelo ANOVA presupone que las varianzas de los grupos son iguales y que los residuos o errores
son aleatorios, independientes e idénticamente distribuidos siguiendo una ley normal con media 0 y
desviación constante. La hipótesis nula de la prueba ANOVA de un factor es:
H0: Las medias de los k grupos son todas iguales
H1: Al menos una de las medias es diferente
 Esta prueba se basa en la comparación de las sumas de cuadrados medias debidas a la variabilidad
entre grupos y la debida a la variabilidad intra grupos (dentro de los grupos).

 Suponga que se tienen a tratamientos o niveles de un solo factor
 Se desea comparar los diferentes niveles del factor
 La variable de salida a comparar con cada uno de los niveles es una variable aleatoria
ANOVA de un factor

 Las observaciones se pueden describir mediante un modelo matemático sencillo: Modelo de las
medias
𝑦𝑖𝑗 = 𝜇𝑖 + 𝜀𝑖𝑗
𝑖 = 1, 2, … , 𝑎
𝑗 = 1, 2, … , 𝑛
 Donde:
𝑦𝑖𝑗 es la observación ij-ésima,
𝜇𝑖 es la media del nivel del factor o tratamiento i-ésimo, y
𝜀𝑖𝑗 es un componente de error aleatorio (incorpora demás fuentes de variabilidad del experimento:
mediciones, factores no controlados, diferencias en los materiales de prueba, variabilidad con el
tiempo, medio ambiente, etc)
ANOVA de un factor

ANOVA de un factor
 Otro modelo es considerar que la media tiene dos componentes:
𝜇𝑖 = 𝜇 + 𝜏𝑖, 𝑖 = 1, 2, … , 𝑎
 A 𝜇𝑖 se le llama media del nivel, la cual se compone de una media global (𝜇) y un 𝜏𝑖 que es el
efecto del tratamiento i-ésimo.
 Por tanto, el modelo matemático queda en definitiva como:
𝑦𝑖𝑗 = 𝜇𝑖 + 𝜀𝑖𝑗
𝑖 = 1, 2, … , 𝑎
𝑗 = 1, 2, … , 𝑛
 A este modelo se le llama el modelo de los efectos

Tabla de ANOVA
Fuente de
Variación
Suma de Cuadrados Grados de
libertad
Cuadrado Medio F-valor
Entre
Grupos 𝑛 − 1
𝑀𝑆𝑓𝑎𝑐𝑡𝑜𝑟 =
𝑆𝑆𝑓𝑎𝑐𝑡𝑜𝑟
𝑛 − 1
𝐹 =
𝑀𝑆𝑓𝑎𝑐𝑡𝑜𝑟
𝑀𝑆𝑒𝑟𝑟𝑜𝑟
Dentro
Grupos 𝑁 − 𝑛 𝑀𝑆𝑒𝑟𝑟𝑜𝑟 =
𝑆𝑆𝑒𝑟𝑟𝑜𝑟
𝑁 − 𝑛
Total
𝑁 − 1𝑆𝑆𝑡𝑜𝑡𝑎𝑙 = 𝑦𝑖𝑗2 − (
𝑦
𝑁
)
𝑆𝑆𝑒𝑟𝑟𝑜𝑟
= 𝑆𝑆𝑡𝑜𝑡𝑎𝑙 − 𝑆𝑆𝑓𝑎𝑐𝑡𝑜𝑟
nc=no. de columnas
N=no. de datos
𝑆𝑆𝑓𝑎𝑐𝑡𝑜𝑟 =
𝑦2
𝑛𝑐
−
𝑦2
𝑁

Caso práctico
ANOVA de un factor
 Inflamabilidad de pijamas
La inflamabilidad de los pijamas para niños ha sido un
tema de preocupación constante durante las últimas
décadas. Hoy en día, hay toda una serie de controles de
seguridad que garantizan que las telas con que se
fabrican los pijamas no sean fácilmente inflamables.
Tras seleccionar un determinado fabricante de pijamas y
5 laboratorios diferentes, hemos enviado a cada
laboratorio 11 prendas de dicho fabricante. La idea es
que en cada laboratorio se les aplique un test de
inflamabilidad. Los resultados (expresados en un
determinado índice de inflamabilidad) se muestran a
continuación:

Desarrollo
paso a paso
 Nuestro objetivo será determinar si las medias obtenidas por cada laboratorio son iguales
(𝐻 𝑜), o si al menos una de las medias es diferente (𝐻1).
𝐻0: 𝜇1 = 𝜇2 = 𝜇3 = 𝜇4
𝐻1: 𝜇1 ≠ 𝜇2 ≠ 𝜇3 ≠ 𝜇4
Prenda LAB 1 LAB 2 LAB 3 LAB 4 LAB 5 𝒚 Prom 𝒚𝒊𝒋 𝟐
𝒚 𝟐
1 2.9 2.7 3.3 3.3 4.1 16.3 3.26 54.29 265.69
2 3.1 3.4 3.3 3.2 4.1 17.1 3.42 59.11 292.41
3 3.1 3.6 3.5 3.4 3.7 17.3 3.46 60.07 299.29
4 3.7 3.2 3.5 2.7 4.2 17.3 3.46 61.11 299.29
5 3.1 4.0 2.8 2.7 3.1 15.7 3.14 50.35 246.49
6 4.2 4.1 2.8 3.3 3.5 17.9 3.58 65.43 320.41
7 3.7 3.8 3.2 2.9 2.8 16.4 3.28 54.62 268.96
8 3.9 3.8 2.8 3.2 3.5 17.2 3.44 59.98 295.84
9 3.1 4.3 3.8 2.9 3.7 17.8 3.56 64.64 316.84
10 3.0 3.4 3.5 2.6 3.5 16 3.2 51.82 256
11 2.9 3.3 3.8 2.8 3.9 16.7 3.34 56.79 278.89
185.7 37.14 638.21 3140.11
En la tabla de los valores se tiene
que calcular ∑y, promedio, ∑yij² y
∑y²
El valor de ∑yij² se saca a partir de
la siguiente tabla, que es el
cuadrado de los datos:

Realizamos los cálculos:
 Los resultados obtenidos se sustituyen en la tabla de ANOVA.
𝑆𝑆𝑓𝑎𝑐𝑡𝑜𝑟 =
𝑦2
𝑛𝑐
−
(𝑦)2
𝑁
=
3140.11
5
−
(185.7 )2
55
= 1.03127273
nc=5
N=55
𝑆𝑆𝑡𝑜𝑡𝑎𝑙 = 𝑦𝑖𝑗2
−
𝑦
𝑁
= 638.21 −
185.7
55
= 11.2192727
𝑆𝑆𝑒𝑟𝑟𝑜𝑟 = 𝑆𝑆𝑡𝑜𝑡𝑎𝑙 − 𝑆𝑆𝑓𝑎𝑐𝑡𝑜𝑟 = 11.2192727−1.03127273=10.188

 n=no. de prendas
 N=no. de datos
Fuente de
Variación
libertad
Entre
Grupos 1.03127273
11 − 1 = 10 𝑀𝑆𝑓𝑎𝑐𝑡𝑜𝑟 =
1.031273
10
= 0.103127
𝐹 =
1.0312727
0.231545
= 4.453875
Dentro
Grupos 10.188 55 − 11 = 44 𝑀𝑆𝑒𝑟𝑟𝑜𝑟 =
10.188
44
= 0.231545
Total
11.2192727 55 − 1 = 54

Interpretación de resultados
 Buscando en la tabla de Fisher el valor para un
nivel de significancia de 5% (representado por
α=0.05) y 10-44 grados de libertad, equivale a
2.05 en la tabla dado que F=4.453875 :
4.453875>2.05
Se rechaza la hipótesis nula. Las medias resultan no
ser iguales.
 Lo que nos dice que la tela con que se hacen las
pijamas si es inflamable.

Realización del caso práctico en
 Abriremos el software Minitab, e
introduciremos los datos en la ‘Hoja
de trabajo’, de la siguiente manera:
Al introducir los datos
estos quedaran en
distintas columnas, para
apilarlos en un sola
columna, iremos al menú
 Datos  Apilar 
Filas Seleccionar las
columnas y Aceptamos
Nota

ANOVA
 Para realizar el análisis de los datos, nos
iremos al menú Estadísticas  ANOVA  Un
solo factor…
Nos desplegara una ventana en la que
seleccionaremos la variable de respuesta y el
facto del experimento, y posteriormente
seleccionamos la opción ‘Gráficas…’

 En la ventana que se
abrirá, solo
seleccionaremos la
opción ‘Cuatro en
uno’, y daremos
Aceptar

Resultados…
 Grafica 1: los datos están
normalmente distribuidos, ya
que siguen un línea recta.
 Gráfica 2:Los residuos presentan
varianzas constantes.
 Gráfica 3:El histograma muestra
una media centrada.
 Gráfica 4: los datos circulan
aleatoriamente alrededor de la
línea central, lo cual muestra
normalidad.
 Obtendremos las siguientes gráficas en las cuales se podrá apreciar
el comportamiento de los datos:
1 2
3 4

Comparación de resultados…
 A continuación se compararan los resultados de la tabla que se realizó aquí y la
realizada en Minitab:
 En contraste de un análisis y otro podemos darnos cuenta que son los mismos resultados, y con esto se
confirma el rechazo de Ho
Fuente de
Variación
libertad
Entre Grupos
1.03127273
11 − 1 = 10 𝑀𝑆𝑓𝑎𝑐𝑡𝑜𝑟 =
1.031273
10
= 0.103127
𝐹 =
1.0312727
0.231545
= 4.453875
Dentro
Grupos 10.188 55 − 11 = 44 𝑀𝑆𝑒𝑟𝑟𝑜𝑟 =
10.188
44
= 0.231545
Total
11.2192727 55 − 1 = 54

ANOVA de dos factores
 Usaremos el análisis doble de la varianza para estudiar los posibles efectos causados por
diferentes niveles de dos factores sobre la variable dependiente.
 Usaremos ANOVA doble para contrastar, para cada uno de los dos factores, la hipótesis
nula de que el resultado de la variable dependiente (crecimiento de patatas, intensidad
del dolor de cabeza, tiempo en adquirir conocimientos, ventas, etc.) no depende del
factor.

 Modelo aditivo (sin interacción)
El modelo aditivo supone que la variación total en los datos puede ser expresada como suma de
variaciones procedentes de fuentes diversas:
(Variación total en los datos) = (Variación debida al primer factor) + (Variación debida al segundo factor) +
(Variación debida al error aleatorio)
Si la variación debida al primer factor fuese mucho mayor que la variación debida al error aleatorio,
dispondríamos de evidencia estadística contra la hipótesis nula de que los distintos niveles del primer
factor tienen el mismo efecto sobre la variable dependiente; de forma similar, si la variación debida al
segundo factor fuese mucho mayor que la variación debida al error aleatorio, deberíamos rechazar la
hipótesis nula de que la variable dependiente no depende de los diversos niveles del segundo factor.

 Modelo con interacción
Un aspecto al que debemos prestar especial atención es el nivel de interacción entre ambos factores; es
decir, el efecto que cada uno de los factores tiene sobre el otro. Así, por ejemplo, en la campaña de
marketing citada anteriormente, el incremento en las ventas debido a un aumento del presupuesto podría
ser el mismo independientemente del medio usado, o bien podría variar dependiendo del medio usado.
En este último caso deberíamos estudiar también la interacción entre los factores presupuesto y medio.
Para ello usaremos los llamados modelos con interacción.
Este modelo supone que la variación total de los datos puede descomponerse de la siguiente forma:
(Variación total en los datos) = (Variación debida al primer factor) + (Variación debida al segundo factor) +
(Variación debida a la interacción entre factores) + (Variación debida al error aleatorio)

En muchas situaciones prácticas la unidades experimentales no son homogéneas por lo que conviene
agruparlas en distintos conjuntos de observaciones homogéneas. A tales conjuntos se les
denomina bloques.
Los tratamientos se aplican dentro de cada bloque siguiendo las mismas técnicas de aleatorización
expuestas previamente.
Se procurará que los tratamientos estén representados de la misma manera en todos los bloques.
 Diseño en bloques al azar
Supongamos que se dispone de r tratamientos a comparar y que se dividen las observaciones en s
bloques con r unidades experimentales cada uno.
Dentro de cada bloque se aplica una vez cada tratamiento utilizando un procedimiento de
aleatorización.
 Los datos resultantes serían los siguientes:

 El modelo matemático es ahora:
𝑥𝑖𝑗 = 𝜇𝑖𝑗 + 𝜀𝑖𝑗
𝑥𝑖𝑗 = 𝜇 + 𝑎𝑖 + 𝛽𝑗 + 𝜀𝑖𝑗
Donde 𝛼𝑖 es el efecto debido al bloque, 𝛽𝑖 es el efecto debido al tratamiento y 𝜀𝑖𝑗 es el error
experimental.
Obsérvese que solamente hemos sustraído del residual la parte correspondiente a los bloques.

 Las hipótesis de que los distintos tratamientos y los bloques no producen ningún efecto
se contrasta mediante el análisis de la varianza de dos factores, comparando la
variabilidad entre bloques y la variabilidad entre tratamientos con la variabilidad dentro
de los grupos.
 Los resultados fundamentales se resumen en la tabla siguiente.
Fuente Suma de cuadrados Grados de
libertad
Estimador Valor F
Entre
bloques 𝑄 𝐵 =
𝑖=1
𝑠
𝑟( 𝑥𝑖. − 𝑥)2
𝑠 − 1
𝑆 𝐵
2
=
𝑄 𝐵
𝑠 − 1 𝐹𝐵 =
𝑆 𝐵
2
𝑆 𝑅
2
Entre
Tratam. 𝑄 𝑇 =
𝑗=1
𝑟
𝑠( 𝑥.𝑗 − 𝑥)2
𝑟 − 1
𝑆 𝑇
2
=
𝑄 𝑇
𝑟 − 1 𝐹𝑇 =
𝑆 𝑇
2
𝑆 𝑅
𝑟
Residual
𝑄 𝑅 =
𝑖=1
𝑠
𝑗=1
𝑟
(𝑥𝑖𝑗 − 𝑥𝑖. − 𝑥.𝑗 + 𝑥)2
(𝑟 − 1)(𝑠 − 1) 𝑆 𝑅
2
=
𝑄 𝑅
(𝑟 − 1)(𝑠 − 1)
Total
𝑄 =
𝑖=1
𝑠
𝑗=1
𝑟
(𝑥𝑖𝑗 − 𝑥)2
𝑛 − 1

 Los estimadores de los efectos de los bloques y tratamientos se estiman a partir de
𝜇 = 𝑥
𝛼𝑖𝑗 = 𝑥𝑗. − 𝑥
𝛽𝑗 = 𝑥.𝑗 − 𝑥
 y la parte propia de cada observación (o residual)
𝜀𝑖𝑗 = 𝑥𝑖𝑗 − 𝑥𝑖. − 𝑥.𝑗 + 𝑥
 Los residuales pueden servirnos para la validación de las hipótesis básicas de la misma
manera que en el diseño de un factor.

libertad
Estimador Valor F
Trat. A
𝑆𝑆𝐴 =
1
𝑏𝑛
𝑖=1
𝑦𝑖
2
−
(𝑦𝑖)2
𝑎𝑏𝑛
𝑎 − 1
𝑆𝐴 =
𝑆𝑆𝐴
𝑎 − 1
=
𝑆𝐴
𝑆 𝐸
Trat. B
𝑆𝑆𝐵 =
1
𝑎𝑛
𝑖=1
𝑦𝑗
2
−
(𝑦𝑖)2
𝑎𝑏𝑛
𝑏 − 1
𝑆 𝐵 =
𝑆𝑆𝐵
𝑏 − 1
=
𝑆 𝐵
𝑆 𝐸
Interacc.
AB 𝑆𝑆𝐴𝐵 = 𝑆𝑆 𝑆𝑈𝐵𝑇𝑂𝑇𝐴𝐿 − 𝑆𝑆𝐴 − 𝑆𝑆𝐵
(𝑎 − 1)(𝑏 − 1) 𝑆𝐴𝐵
=
𝑆𝑆𝐴𝐵
(𝑎 − 1)(𝑏 − 1)
=
𝑆𝐴𝐵
𝑆 𝐸
Error 𝑆𝑆𝐸 = 𝑆𝑆𝑇 − 𝑆𝑆𝐴𝐵 − 𝑆𝑆𝐴 − 𝑆𝑆𝐵
𝑆𝑆𝐸 = 𝑆𝑆𝑇 − 𝑆𝑆 𝑆𝑈𝐵𝑇𝑂𝑇𝐴𝐿
𝑎𝑏(𝑛 − 1)
𝑆 𝐸 =
𝑆𝑆𝐸
𝑎𝑏(𝑛 − 1)
Total
𝑆𝑆𝑇 =
𝑖=1
𝑦𝑖𝑗 𝑘2
−
(𝑦𝑖)2
𝑎𝑏𝑛
𝑎𝑏𝑛 − 1
𝑆𝑆 𝑆𝑈𝐵𝑇𝑂𝑇𝐴𝐿 =
1
𝑛
𝑖=1
𝑦𝑖𝑗
2
−
(𝑦𝑖)2
𝑎𝑏𝑛
 Las hipótesis de que los distintos factores no producen ningún efecto y de que no existe
interacción se contrastan mediante el análisis de la varianza de dos factores con
interacción, comparando la variabilidad entre los niveles del factor A, la variabilidad
entre los niveles del factor B, y la variabilidad debida a la interacción con la variabilidad
dentro de los grupos o error.

 Los estimadores de los efectos de los bloques y tratamientos se estiman a partir de:
𝜇 = 𝑥
𝛼𝑖 = 𝑥𝑖.. − 𝑥
𝛽𝑗 = 𝑥.𝑗. − 𝑥
𝛼 𝛽𝑖𝑗 = 𝑥𝑖𝑗. − 𝑥𝑖.. − 𝑥.𝑗. + 𝑥
 y la parte propia de cada observación (o residual/error):
𝜀𝑖𝑗 = 𝑥𝑖𝑗𝑘 − 𝑥𝑖𝑗.
 Los residuales pueden servirnos para la validación de las hipótesis básicas de la
misma manera que en el diseño de un factor.

Caso práctico
 Conducción de vehículos
A continuación se muestran los datos obtenidos en un
experimento en el que se comprobaron las habilidades de dos
grupos de conductores, los inexpertos y los expertos. Doce
conductores de cada grupo tomaron parte en el experimento.
Se usaron tres tipos de carreteras: autopista, nacional y
comarcal. Mediante un proceso aleatorio, se asignaron a cada
tipo de carretera cuatro conductores expertos y cuatro
inexpertos. Cada conductor estuvo al volante durante 2
kilómetros, en los cuales se registraron los siguientes “errores
de conducción” cometidos:

Aplicación…
𝑯 𝟎,𝟏: el factor conductor no influye en el número de errores
𝑯 𝟏,𝟏: el factor conductor influye en el número de errores
𝑯 𝟎,𝟐: el factor tipo de carretera no influye en el número de errores
𝑯 𝟏,𝟐:el factor tipo de carretera influye en el número de errores
𝑯 𝟎,𝟑: no hay interacción entre ambos factores
𝑯 𝟏,𝟑: hay interacción entre ambos factores

 𝑌𝑖 = 310
 𝑌𝑖
2
= 50788
 𝑌𝑖𝑗
2
= 18468
 𝑌𝑗 = 310
 𝑌𝑗
2
= 34500
 𝑌𝑖𝑗𝑘
2
= 5074
 Nuestro objetivo será determinar si las medias obtenidas por cada laboratorio son iguales
(𝐻 𝑜), o si al menos una de las medias es diferente (𝐻1).
Conductor Autopista Nacional Comarcal
4 23 16
18 15 27
8 21 23
10 13 14
6 2 20
4 6 15
13 8 8
7 12 17
70 100 140
4900 10000 19600
774 1612 2688
Tipo de carretera
Inexperto
Experto
192 36864 13184
118 13924 5284
𝑌𝑖 𝑌𝑖
2 𝑌𝑖𝑗
2
𝑌𝑗
𝑌𝑗
2
𝑌𝑖𝑗𝑘
2
B
A
Desarrollo
paso a paso
a=2 b=3 n=4En la tabla de los valores se
tiene que calcular:
Yi=Suma de todos los
valores del factor A por
categoría.
Yi2=Yi al cuadrado
Yij2=Suma de los valores
dentro del mismo cuadro,
al cuadrado.
Yj=Suma de los valores del
factor B por categoría.
Yj2=Yj al cuadrado
Yijk2=Suma de los
cuadrados de cada valor
por categoría de B.

Realizamos los cálculos:
 Los resultados obtenidos se sustituyen en la tabla de ANOVA.
𝑆𝑆𝐴 =
1
𝑏𝑛
𝑖=1
𝑦𝑖
2 −
(𝑦𝑖)2
𝑎𝑏𝑛
=
1
12
∗ 50788 −
(310)2
24
= 228.1666
𝑆𝑆𝐵 =
1
𝑎𝑛
𝑖=1
𝑦𝑗
2 −
(𝑦𝑖)2
𝑎𝑏𝑛
=
1
8
∗ 34500 −
(310)2
24
= 308.3333
𝑆𝑆𝐴𝐵 = 𝑆𝑆 𝑆𝑈𝐵𝑇𝑂𝑇𝐴𝐿 − 𝑆𝑆𝐴 − 𝑆𝑆𝐵 = 612.8333 − 228.1666 − 308.3333 = 76.3334
𝑆𝑆𝐸 = 𝑆𝑆𝑇 − 𝑆𝑆𝐴𝐵 − 𝑆𝑆𝐴 − 𝑆𝑆𝐵 = 1069.8333 − 76.3334 − 228.1666 − 308.3333 = 457
𝑆𝑆𝑇 =
𝑖=1
𝑦𝑖𝑗 𝑘2 −
(𝑦𝑖)2
𝑎𝑏𝑛
= 5074 −
(310)2
24
= 1069.8333
𝑆𝑆 𝑆𝑈𝐵𝑇𝑂𝑇𝐴𝐿 =
1
𝑛
𝑖=1
𝑦𝑖𝑗
2
−
(𝑦𝑖)2
𝑎𝑏𝑛
=
1
4
∗ 18468 −
(310)2
24
= 612.8333
 𝑌𝑖 = 310
 𝑌𝑖
2
= 50788
 𝑌𝑖𝑗
2
= 18468
 𝑌𝑗 = 310
 𝑌𝑗
2
= 34500
 𝑌𝑖𝑗𝑘
2
= 5074
a=2 b=3 n=4

libertad
Estimador Valor F
Trat. A
𝑆𝑆𝐴 = 228.1666 1 𝑆𝐴 =
𝑆𝑆𝐴
𝑎 − 1
=
228.1666
1
= 228.1666 𝐹𝐴 =
𝑆𝐴
𝑆 𝐸
= 8.9868
Trat. B
𝑆𝑆𝐵 = 308.3333 2 𝑆 𝐵 =
𝑆𝑆𝐵
𝑏 − 1
=
308.3333
2
= 154.16 𝐹𝐵 =
𝑆 𝐵
𝑆 𝐸
= 6.0719
InteraccA
B 𝑆𝑆𝐴𝐵 = 76.3334 2 𝑆𝐴𝐵 =
𝑆𝑆𝐴𝐵
(𝑎 − 1)(𝑏 − 1)
=
76.3334
2
= 38.1667 𝐹𝐴𝐵 =
𝑆𝐴𝐵
𝑆 𝐸
= 1.5032
Error
𝑆𝑆𝐸 = 457 18 𝑆 𝐸 =
𝑆𝑆𝐸
𝑎𝑏(𝑛 − 1)
=
457
18
= 25.3888
Total SST = 1069.8333 23
Tabla de ANOVA
a=2 b=3 n=4

Interpretación de resultados
 Buscando en la tabla de Fisher el valor para un
nivel de significancia de 5% (representado por
α=0.05) y 1-18 grados de libertad para el factor A
‘Conductor’, equivale a 4.41 en la tabla dado que
F=8.9868 :
8.9868>4.41
Se rechaza la hipótesis nula. El factor conductor
influye en el número de errores.
 2-18 grados de libertad para el factor B ‘Tipo de
Carretera’, equivale a 3.55 en la tabla dado que
F=6.0719 :
6.0719>3.55
Se rechaza la hipótesis nula. El factor tipo de carretera
influye en el número de errores.
 2-18 grados de libertad para la interacción AB
‘Conductor*Tipo de Carretera’, equivale a 3.55 en la
tabla dado que F=1.5032 :
1.5032<3.55
Se acepta la hipótesis nula. No hay interacción entre
ambos factores.

𝑯 𝟎,𝟏: el factor conductor no influye en el número de errores
𝑯 𝟏,𝟏: el factor conductor influye en el número de errores
𝑯 𝟎,𝟐: el factor tipo de carretera no influye en el número de errores
𝑯 𝟏,𝟐:el factor tipo de carretera influye en el número de errores
𝑯 𝟎,𝟑: no hay interacción entre ambos factores
𝑯 𝟏,𝟑: hay interacción entre ambos factores
Realización del caso práctico en

 Abriremos el software Minitab, e
introduciremos los datos en la
‘Hoja de trabajo’, de la siguiente
manera:
Nota
Se introdujeron los datos en
tres columnas, la primera
‘Conductor’ donde se
colocaron ambos, la segunda
‘Tipo de carretera’, donde
fueron colocadas las 3
carreteras respectivamente al
conductor y por ultimo
‘Errores’.

 Para determinar si los datos son balanceados cuando se tiene conjuntos de datos grandes, se
debe crear una tabla de tabulación cruzada.
 Para crear esta tabla, debemos ir al menú Estadísticas  Tablas  Tabulación cruzada y Chi-
cuadrada.
Seleccionaremos para
Fila la columna ‘Errores’
y para Columnas
‘Conductor’,
Aceptamos
Se examinarán las celdas en la salida resultante: una celda es la
intersección de una fila y una columna. Si el conteo de una celda
no es igual a los conteos de todas las demás celdas, usted tiene
datos no balanceados.

 Y como podemos observar, el conteo nos da correctamente en la intersección,
por lo tanto, los datos son balanceados
 En la ventana que se despliega seleccionaremos la opción ‘Prueba
Chi-cuadrada’ y daremos Aceptar.

 Ya comprobado que los datos son
balanceados, procedemos a realizar el
análisis ANOVA; regresamos al menú
Estadísticas  ANOVA  ANOVA
balanceado
 En ‘Respuesta’ se colocará la columna ‘Errores’. En ‘Modelo’, colocaremos las
columnas ‘Conductor’ y ‘Tipo de carretera’, y posteriormente la interacción de
ambas: Conductor*Tipo de carretera
c

Grafica de efectos principales
 Menú Estadísticas  ANOVA  Grafica de
efectos principales
 En la ventana que nos abre, pondremos en Respuestas
:’Errores’; en Factores: ‘Tipo de carretera y Conductor’, y
Aceptar

Resultados…
 Los p-valores de los factores Conductor
y Tipo de carretera son bastante
pequeños , pero significativos ya que
son menores a 0.05 el valor de
significancia, por lo que se rechazarán
las hipótesis nulas asociadas a cada
factor. En cuanto a la interacción de los
factores es mayor a 0.05, por lo tanto se
acepta la hipótesis nula para esta.
 Los datos demuestran que tanto el tipo
de carretera como la experiencia del
conductor son factores que influyen en
el número de errores de conducción
cometidos.

Gráfica
 En esta gráfica ya se vuelve
más evidente la influencia de
los dos factores en la cantidad
de errores de conducción.
 Los más representativos como
se puede apreciar, en tipo de
carretera es ‘Comarcal’, y en
conductor el ‘Inexperto’.

Fuente Suma de cuadrados
Grados de
libertad
Estimador Valor F
Trat. A 228.1666 1 228.1666 8.9868
Trat. B 308.3333 2 154.16 6.0719
Interacc. AB 76.3334 2 38.1667 1.5032
Error 457 18 25.3888
Total 1069.8333 23
Comparación de resultados…
 A continuación se compararan los resultados de la tabla que se realizó aquí y la
realizada en Minitab:
 En contraste de un análisis y otro podemos darnos cuenta que son iguales los resultados, y con esto se
confirman los mismos, así como también las conclusiones a las que se llegaron con estos.

ANEXOS
 El archivo del cual se obtuvieron los ejemplos se encuentra en el siguiente link:
https://www.uoc.edu/in3/emath/docs/ANOVA.pdf
 La tabla distribución de probabilidad de F de Fisher, esta en:
https://www.uam.es/personal_pdi/ciencias/anabz/Prest/Trabajos/tabla-fisher.pdf

Fuentes de Información
 http://asesorias.cuautitlan2.unam.mx/Laboratoriovirtualdeestadistica/CARPETA%203%20INFERENCIA_ES
TADISTICA/DOC_%20INFERENCIA/TEMA%204/11%20ANALISIS%20DE%20VARIANZA.pdf
 http://www.uclm.es/profesorado/mdsalvador/58109/teoria/anova_un_factor-lectura.pdf
 http://support.minitab.com/es-mx/minitab/17/topic-library/modeling-statistics/anova/basics/what-is-
anova/
 http://www.ugr.es/~imartin/TEMA5_ANOVA.pdf
 https://www.uoc.edu/in3/emath/docs/ANOVA.pdf
 http://support.minitab.com/es-mx/minitab/17/topic-library/modeling-statistics/regression-and-
correlation/residuals-and-residual-plots/patterns-in-residual-plots/
 http://biplot.usal.es/problemas/anova/ANOVA.html

ANOVA

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Ähnlich wie ANOVA

Ähnlich wie ANOVA (20)

Kürzlich hochgeladen

Kürzlich hochgeladen (20)

ANOVA