Este documento presenta un análisis de regresión y correlación de datos sobre rendimiento (y) y temperatura (x) de un proceso. Muestra los pasos para estimar la recta de regresión, incluyendo estimar los parámetros a y b, y realizar pruebas de hipótesis. Explica conceptos como coeficiente de determinación, análisis de residuos y validación de supuestos.
1. Análisis de Regresión y Correlación Analicemos el siguiente ejemplo: En un experimento de laboratorio, se desea conocer el rendimiento de un proceso (y), en relación con la temperatura a la que se desarrolla (x). Los datos obtenidos fueron los siguientes: ¿Puede decirse que exista relación entre los valores de x y de y? x 100 110 120 130 140 150 160 170 180 190 y 45 52 54 63 62 68 75 76 92 88
2. ¿Pueden servir los valores de temperatura para predecir los valores de rendimiento ? Si fuera así, ¿qué forma debería tener un gráfico rendimiento - temperatura ?
4. ¿Qué forma podría tener un modelo que describiera la posible relación entre estas dos variables? Hasta ahora podemos decir que: X es una variable determinística y es intención del análisis de regresión establecer si es explicativa o no. Y es una variable aleatoria de la cuál no sabemos mucho más. Aunque sí, en este caso podríamos pensar que se relaciona de manera lineal con x.
5. f(y) x Y x 1 x 2 x 3 x 4 y 11 y 12 y 21 y 31 y 32 y 33 y 41 y 42 E(Y 1 |x 1 ) E(Y 2 |x 2 ) E(Y 3 |x 3 ) E(Y 4 |x 4 ) Hipótesis y Supuestos
6.
7. ¿Bajo estos supuestos, cuál es la distribución de la variable dependiente para cada valor de x? Recordemos que: Entonces:
8. Habíamos dicho que el objetivo consiste en estimar la mejor recta de regresión que permita describir el comportamiento de la variable explicada (Y) en términos de la explicativa (x). Para ello: ¿qué necesitamos estimar? ¿Qué condición debe cumplir esta recta de modo de lograr la mejor estimación de los valores de la variable explicada?
9. x y e i Gráficamente: Es decir: debe ser mínimo
10. ¿Cómo podemos expresar e i en términos de la información disponible? Entonces deberá minimizarse la expresión: que es lo mismo que: Que habrá que minimizar en a y b, entonces: y
12. Apliquemos lo anterior al ejemplo dado inicialmente. Los datos son: Donde x representa la temperatura a la que se desarrolla un experimento de laboratorio y y el rendimiento porcentual de dicho experimento. ¿Cuál es el primer paso en un análisis de regresión? Hagan!!!!!!!! x 100 110 120 130 140 150 160 170 180 190 y 45 52 54 63 62 68 75 76 92 88
14. ¿Cuál sería el segundo paso? Tienen razón, háganlo Si realizamos la estimación mediante el uso de un software, la salida que entregará será parecida a la siguiente: Coef Est. E.E. LI(95%) LS(95%) T p-valor c onst -4.47 5.63 -17.47 8.52 -0.79 0.45 Temp. 0.50 0.04 0.41 0.58 13.02 <0.0001 ¿Qué indica cada uno de los valores de la tabla anterior? Por lo tanto: y = - 4.47 + 0.50 x ¿tiene sentido el valor de “a” para la situación analizada?
15. Inferencia en la Regresión Lineal Los estimadores de los parámetros son variables aleatorias y los valores obtenidos estimaciones puntuales de los mismos. Para obtener mayor seguridad de que el modelo construido tiene validez, ¿qué recurso podríamos utilizar? Para poder realizarlas, es necesario conocer las distribuciones de los estimadores. ¿Por qué?
16. Prueba de hipótesis para β 1 Distribución de b: donde representa la varianza de los errores en el modelo teórico, por lo tanto resulta necesario estimarla: y ¿Qué propiedades tiene b como estimador?
17. Realicemos la prueba de hipótesis H 0 : H 1 : Estadístico de la prueba: Nivel de significación: según el caso. ¿Por qué?
22. Esta suma de variaciones tiene una propiedad que permite escribir: o SCT = SCR + SCM y ¿qué indica esta última expresión?
23. Salida completa para los datos del ejemplo: Variable N R² Rendimiento 10 0.95 Coeficientes de regresión y estadísticos asociados Coef Est. E.E. LI(95%) LS(95%) T p-valor const -4.47 5.63 -17.47 8.52 -0.79 0.4502 Temperatura 0.50 0.04 0.41 0.58 13.02 <0.0001 Cuadro de Análisis de la Varianza F.V. SC gl CM F p-valor Modelo 2032.61 1 2032.61 169.58 <0.0001 Temperatura 2032.61 1 2032.61 169.58 <0.0001 Error 95.89 8 11.99 Total 2128.50 9
24. Análisis de Correlación Tiene por objetivo valorar la “fuerza” de la asociación entre las variables Para ello se define una medida de asociación: LA COVARIANZA
26. Si estandarizamos la expresión anterior obtenemos otra medida de asociación, pero relativa Llamada coeficiente de correlación muestral Calculemos estas medidas para el ejemplo dado r = 0.98 (ver prueba de hipótesis para este coeficiente)