Este documento introduce el análisis de correlación y regresión lineal como una de las siete herramientas básicas para la calidad. Aplica estos conceptos a un ejemplo sobre la relación entre el número de personas que habitan una vivienda y su consumo de agua semanal. Calcula el coeficiente de correlación de Pearson y determina que existe una fuerte correlación positiva, concluyendo que el número de habitantes explica gran parte de la variación en el consumo de agua.
1. Seven Basic Tools of Quality: Linear Correlation and Regression Analysis.
G. Edgar Mata Ortiz
2. Las siete herramientas…
Una de las 7 herramientas básicas para la calidad es el gráfico de
dispersión, que se emplea para el análisis de correlación y regresión lineal.
Las 7 herramientas
básicas para la calidad.
3. En este documento se
introduce el tema de los
gráficos de dispersión y se
plantea y resuelve un ejemplo
de aplicación de la correlación
y regresión lineal.
Gráfico de dispersión
4. Gráfico de dispersión
El análisis de correlación es una
herramienta que tiene por objetivo
determinar si dos variables, una de
ellas llamada independiente (x), y
la otra dependiente(y), están
relacionadas.
Se dice que la variable “y”
depende de la variable “x” cuando
existe una buena correlación entre
ellas.
5. Gráfico de dispersión( ) ( )
2 2
2 2
x y
xy
nr
x y
x y
n n
−
=
− −
El análisis de correlación es útil
porque, una vez establecida la
existencia de una buena
correlación es posible efectuar
predicciones del valor de la
variable dependiente, con base
en el valor de la variable
independiente, utilizando la
función de regresión.
Naturalmente estas predicciones
son solamente aproximadas.
6. Gráfico de dispersión( ) ( )
2 2
2 2
x y
xy
nr
x y
x y
n n
−
=
− −
Cuando la correlación entre las
variables es “lineal”, es decir, se
relacionan proporcionalmente,
entonces se llama correlación y
regresión lineal.
Si solamente existe una variable
independiente recibe el nombre
de correlación lineal simple.
Si son dos o más variables
independientes recibe el nombre
de correlación lineal múltiple.
7. Gráfico de dispersión
Ejemplo 1:
Existen muchas variables que
presentan “dependencia”:
La estatura y el peso de diversas
personas; generalmente un hombre
más alto tendrá un peso mayor que
uno más bajo, aunque seguramente
podremos encontrar contraejemplos
de esta información, casi siempre la
afirmación es cierta.
8. Gráfico de dispersión
Ejemplo 2:
El consumo de agua en una casa habitación
“depende” del número de personas que
viven en ella.
Está claro que esta dependencia o
correlación no es absoluta; seguramente
habrá situaciones en las que alguna casa
habitada por una o dos personas tenga un
mayor consumo que otra en la que viva una
familia de 5 o más personas.
9. Gráfico de
dispersión
Problema:
Se desea estimar el consumo promedio de agua
en cierta área habitacional que se construirá
próximamente, para elaborar un plan de
abastecimiento hacia dicha zona.
10. Problema
Se dispone de información acerca del precio de las casas de
modo que se conoce el nivel socioeconómico promedio de las
familias que habitarán el lugar.
Se ha decidido determinar el consumo promedio de acuerdo
al número de personas que habitan cada casa.
11. Problema
Se toma una muestra de 27 casas habitación en un área con características
socioeconómicas similares al fraccionamiento que se estudia. Los resultados se
encuentran en la siguiente tabla.
Número de personas que
habitan la casa (x)
1 1 1 1 1 2 2 2 2
Consumo de agua por
semana en m3 (y)
2.2 3.1 4.9 4.6 3.5 4.8 5.8 6.2 7.4
Número de personas que
habitan la casa (x)
3 3 3 3 4 4 4 4 5
Consumo de agua por
semana en m3 (y)
7.3 6.1 8.5 9.2 8.5 8.3 9.1 8.7 8.6
Número de personas que
habitan la casa (x)
5 5 5 6 6 6 7 7 7
Consumo de agua por
semana en m3 (y)
8.8 9.5 9.9 9.7 10.1 9.9 10.2 11.5 10.1
12. Problema
Realiza un primer análisis de la información con base en los datos numéricos.
¿Consideras que,
efectivamente, el
consumo de agua
depende del número
de personas que
habitan una casa?
¿Existen excepciones?
¿Las excepciones
invalidan la conjetura
propuesta?
Conjetura de trabajo:
El consumo de agua en una vivienda depende, en gran
medida, del número de personas que habitan la casa.
13. Problema
Una forma de facilitar el análisis es el trazo de un gráfico de dispersión.
Con base en el gráfico:
¿Encuentras evidencia que
confirme la conjetura de
trabajo?
¿O en realidad el número de
personas que habitan una
vivienda no influye en el
consumo de agua?
14. Problema
Una forma de facilitar el análisis es el trazo de un gráfico de dispersión.
Podemos observar una
cierta tendencia ascendente,
es decir, la gráfica parece
indicar que existe una
correlación entre el número
de personas que habitan
una vivienda y el consumo
de agua.
15. Problema
Es necesario cuantificar esta correlación
Afirmaciones tan imprecisas
como las que hicimos
anteriormente no son
suficientes.
Existe una herramienta
estadística para darle valor a
la correlación entre
variables: el coeficiente de
correlación lineal.
16. Correlación
Coeficiente de correlación lineal:
r de Pearson (para una muestra)
r de Pearson (para una población)
Es una medida de la fuerza y dirección de la
correlación lineal entre dos variables cuantitativas.
La variable independiente o explicativa se representa
en el eje “x” y la variable dependiente o variable de
respuesta se representa en el eje “y”.
17. Correlación
Fórmula para obtener el valor de la r de Pearson
( ) ( )
2 2
2 2
x y
xy
nr
x y
x y
n n
−
=
− −
18. Correlación
Fórmula para obtener el valor de la r de Pearson
( ) ( )
2 2
2 2
x y
xy
nr
x y
x y
n n
−
=
− −
Esta es la presentación usual de la fórmula, sin embargo, es posible simplificarla al darnos cuenta que el denominador
es la raíz cuadrada del producto; suma de cuadrados en x por suma de cuadrados en y.
19. Correlación
Simplificación de la fórmula para obtener el valor de la r de Pearson
( ) ( )
2 2
2 2
x y
xy
nr
x y
x y
n n
−
=
− −
Vamos a calcular primero los valores de las sumas de cuadrados y posteriormente se van a sustituir en la fórmula
original.
( )
( )
2
2
2
2
x
y
xy
x
SC x
n
y
SC y
n
x y
SC xy
n
= −
= −
= −
20. Correlación
Simplificación de la fórmula para obtener el valor de la r de Pearson
Los valores necesarios en estas fórmulas se obtiene mediante la tabla de la diapositiva siguiente.
( )
( )
2
2
2
2
x
y
xy
x
SC x
n
y
SC y
n
x y
SC xy
n
= −
= −
= −
xy
x y
SC
r
SC SC
=
21. Correlación
Completa
la tabla
para
obtener el
valor de la r
de Pearson
Número
de dato
Personas que
habitan la casa
x
Consumo
de agua
y
x2 y2 xy
1 1 2.2 (1)2 = 1 (2.2)2 = 4.84 (1)(2.2) = 2.2
2 1 3.1 (1)2 = 1
3 1 4.9 (1)2 = 1
… … … … … …
25 7 10.2 (7)2 = 49
26 7 11.5 (7)2 = 49
27 7 10.1 (7)2 = 49 (10.1)2 = 102.01 (7)(10.1) = 70.7
S
22. Correlación
Verifica que
tus resultados
coincidan con
los que se
proporcionan.
Número
de dato
Personas que
habitan la casa
x
Consumo
de agua
y
x2 y2 xy
1 1 2.2 (1)2 = 1 (2.2)2 = 4.84 (1)(2.2) = 2.2
2 1 3.1 (1)2 = 1
3 1 4.9 (1)2 = 1
… … … … … …
25 7 10.2 (7)2 = 49
26 7 11.5 (7)2 = 49
27 7 10.1 (7)2 = 49 (10.1)2 = 102.01 (7)(10.1) = 70.7
S Sx = 100 Sy = 206.5 Sx2 = 476 Sy2 = 1740.85 Sxy = 883.2
23. Correlación
Sustitución en las fórmulas de sumas de cuadrados.
( ) ( )
( ) ( )
( )( )
2 2
2
2 2
2
100
476 ___________
27
206.5
1740.85 __________
27
100 206.5
883.2 _______
27
x
y
xy
x
SC x
n
y
SC y
n
x y
SC xy
n
= − = − =
= − = − =
= − = − =
24. Correlación
Resultados de la sustitución en las fórmulas de sumas de cuadrados.
( ) ( )
( ) ( )
( )( )
2 2
2
2 2
2
100
476
27
206
105.6296
161.5074
.5
1740.85
27
100 206
118.3
.5
883.2
2
8
7
51
x
y
xy
x
SC x
n
y
SC y
n
x y
SC xy
n
= − = − =
= − = − =
= − = − =
25. Correlación
Sustitución de las sumas de cuadrados en la fórmula de r.
105.6296
161.5074
118.3851
x
y
xy
SC
SC
SC
=
=
=
xy
x y
SC
r
SC SC
=
( )( )
118.3851
105.6296 161.5074
r =
Sustitución
26. Correlación
Resultado de la Sustitución de las sumas de cuadrados en la fórmula de r.
105.6296
161.5074
118.3851
x
y
xy
SC
SC
SC
=
=
=
xy
x y
SC
r
SC SC
=
( )( )
118.3851
105.6296 161.5074
r =
Sustitución
0.906376r =
27. Correlación
Significado del valor de r.
0.906376r =
Según las reglas de
interpretación y de acuerdo con
el valor de r:
Existe una fuerte correlación
lineal positiva entre el número
de personas que habitan una
vivienda y su consumo de
agua.
28. Coeficiente de determinación
El valor del Coeficiente de
Correlación Lineal r de Pearson
tiene ventajas sobre las
explicaciones subjetivas, pero
todavía no resulta claro cómo
caracterizar variaciones en su
valor.
El coeficiente de determinación es más
fácil de interpretar, y se obtiene
sencillamente elevando al cuadrado el
valor de la r de Pearson.
29. Coeficiente de determinación
EL valor del coeficiente de determinación es: r2 = 0.8215
Se interpreta como la
variación de y que puede
ser explicada por los
cambios en x:
El 82.15% de la variación
en el consumo de agua es
explicada por el número de
personas que habitan la
vivienda.
30. Coeficiente de determinación
El valor del coeficiente de determinación es: r2 = 0.8215
El resto de la variación en el consumo de agua (aproximadamente 18%), puede explicarse
por la existencia y tamaño de jardines, hábitos de uso del agua, entre otros factores.
31. Recta de regresión
Aplicando un método llamado de mínimos cuadrados, es
posible encontrar una ecuación llamada de regresión
que nos servirá para calcular el valor de y, para cualquier
valor de x.
El valor del coeficiente de correlación es: r = 0.906376
El valor del coeficiente de determinación es: r2 = 0.8215
Estos valores tan altos implican que la recta de regresión
será una buena herramienta para calcular el consumo de
agua con base en el número de habitantes en una
vivienda.
32. Recta de regresión
Existen diferentes formas de representar la
ecuación de la recta de regresión, no importa
cuáles nombres se utilicen para los coeficientes,
es una ecuación de la forma: y = mx +b
En nuestro caso vamos a emplear la expresión:
Por lo tanto la pendiente estará dada por 𝒎 = 𝒂 𝟏
y la ordenada la origen será 𝒃 = 𝒂 𝟎
0 1y a a x= +
33. Recta de regresión
Aplicando el método de mínimos
cuadrados se obtienen dos fórmulas
que permiten determinar los valores
de los coeficientes de la ecuación
lineal: 𝑎 𝑜 y 𝑎1.
( )2
0
2
2
x y x xy
n x x
a
−
=
−
( )2
1 2
n xy x
n x x
a
y−
=
−
Una vez calculados los valores de 𝑎 𝑜 y 𝑎1 se
sustituyen en la forma pendiente intersección y
obtenemos la ecuación de la recta.
34. Recta de regresión
Sustituyendo en las fórmulas obtenemos:
( )
2
0 22
20
(476)(206.5) (100)(883.2)
27(476) (100)
x y x xy
n
a
a
x x
−
=
−
−
=
−
( )2
1 2
21
27(883.2) (100)(206.5)
27(476) (100)
n xy x y
n
a
x x
a
−
=
−
−
=
−
35. Recta de regresión
Efectuando operaciones y sustituyendo en la forma pendiente intersección:
( )
20
2
2
20
(476)(206.5) (100)(883.2) 9974
27(476) (100)
3.4
2 52
9719
8
x y x xy
n x x
a
a
−
=
−
−
= = =
−
( )
22
2
1
1
27(883.2) (100)(206.5) 3196.4
27(476) (100
1.120
) 2852
7
n xy x y
n x
a
x
a
−
=
−
−
= = =
−
0 1y a a x= +
3.49719 1.1207y x= +
1.1207 3.49719y x= +
Ecuación de la recta:
36. Uso de la recta de regresión
Podemos estimar el consumo de agua (y) de una vivienda, con base en el
número de personas que la habitan (x).
1.1207 3.49719y x= +
El consumo de agua en una
vivienda habitada por una persona
debe ser de 4.61789 m3 por
semana.
Por ejemplo:
¿Cuál debe ser el consumo de agua
de una vivienda habitada por una
sola persona?
Sustituimos x = 1 en la ecuación de
regresión.
1.1207 3.49719
1.1207 3.49719
4.617
)
8
(
9
1y
y
y
= +
= +
=
37. Graficar la recta de regresión
Incluso puede estimarse el consumo de agua de un número de personas
que no se encuentra en los datos.
1.1207 3.49719y x= +
El consumo de agua en una
vivienda habitada por ocho
personas debe ser de 12.4627
m3 por semana.
Por ejemplo:
¿Cuál debe ser el consumo de agua
de una vivienda habitada por ocho
personas?
Sustituimos x = 8 en la ecuación de
regresión.
1.1207 3.49719
8.9656 3.49719
12.46
)
2
(
7
8y
y
y
= +
= +
=
38. Graficar la recta de regresión
Los dos ejemplos de consumo de agua según el número de personas que
habitan una vivienda son dos puntos que pueden emplearse para trazar la
recta de regresión.
x y
1 4.617952
8 12.463253
Se localizan los dos puntos
sobre el plano cartesiano que
contiene los datos.
39. Graficar la recta de regresión
Uniendo esos
dos puntos se
traza la recta de
regresión lineal.
x y
1 4.617952
8 12.463253
40. Graficar la recta de regresión
Puede usarse la
recta para estimar,
a simple vista, el
consumo de agua
para determinado
número de
habitantes.
Por ejemplo: ¿Cuál
es el consumo de
agua en una
vivienda con 3
personas
habitándola.
41. Graficar la recta de regresión
El consumo de agua en
una vivienda habitada
por 3 personas será de
aproximadamente 7 m3
por semana.
Incluso si empleamos la
ecuación de la recta el
consumo será
solamente aproximado.
42. Graficar la recta de regresión
Al hablar de un consumo
aproximado, estamos implicando
que habrá un error.
Es necesario determinar la
magnitud del error.
Los dos ejemplos de consumo de agua según el número de personas que
habitan una vivienda son dos puntos que pueden emplearse para trazar la
recta de regresión.
43. El error estándar
La fórmula para calcular el error es la siguiente:
( )( )
2
2
y
x
y x
x y
xy
n
SC
SC
S
n
−
−
=
−
44. El error estándar
Puede simplificarse un poco:
( )( )
2
2
y
x
y x
x y
xy
n
SC
SC
S
n
−
−
=
−
2
2
xy
y
x
y x
SC
SC
SC
S
n
−
=
−
45. El error estándar
Determinación del error estándar al calcular y para un valor de x.
2
2
xy
y
x
y x
SC
SC
SC
S
n
−
=
−
2
118.3851
161.5074
105.6296
27 2y x
S
−
=
−
105.6296
161.5074
118.3851
x
y
xy
SC
SC
SC
=
=
=
46. El error estándar
El error estándar al calcular y para un valor de x es igual a:
2
2
xy
y
x
y x
SC
SC
SC
S
n
−
=
−
2
118.3851
161.5074
105.6296
27 2y x
S
−
=
−
105.6296
161.5074
118.3851
x
y
xy
SC
SC
SC
=
=
=
1.0738y x
S =
47. El error estándar
El error estándar al calcular y para un valor de x se interpreta como una tolerancia:
1.0738y x
S = x y ± 𝑆 𝑦|𝑥
1 4.617952 ± 1.0738
8 12.463253 ± 1.0738
Cuando en una casa habita una persona el consumo de agua debe ser: 4.617952 ±
1.0738, es decir, debe estar entre 3.544 y 5.691 m3.
Cuando en una casa habitan ocho personas el consumo de agua debe ser:
12.463 ± 1.0738, es decir, debe estar entre 11.389 y 13.537 m3.
48. Gracias por su atención
Referencias:
licmata@hotmail.com
https://sites.google.com/site/mataspc/home
http://licmata-math.blogspot.com/
http://www.scoop.it/t/mathematics-learning
http://www.slideshare.net/licmata/
http://www.facebook.com/licemata
Twitter: @licemata