Este documento presenta los conceptos básicos de regresión lineal y correlación. Explica que la regresión lineal analiza la relación entre una variable dependiente y una independiente para estimar los valores de la variable dependiente en base a la independiente. También describe cómo calcular el coeficiente de correlación de Pearson para medir el grado de relación lineal entre dos variables, y cómo obtener la ecuación de regresión lineal que mejor se ajusta a los datos mediante el método de mínimos cuadrados. Finalmente, presenta un ejemplo práctico para ilustrar
1. UNIDAD Nº 1 Regresión lineal y correlación Mónica Valencia Parra Lic. En matemáticas y computación
2. REGRESION Y CORRELACION Los temas vistos anteriormente, en nuestro curso de estadística descriptiva se han basado en el estudio y análisis de una sóla variable. Con éste tema trataremos el análisis de situaciones que se presentan en una distribución que contienen dos variables X y Y. El espacio muestral de un experimento con dos variables es cierto conjunto de pares ordenados de medidas, es decir, dos observaciones por cada prueba.
3. Nuestro principal objetivo, al analizar las dos variables X y Y, es el poder determinar la relación entre éstas dos variables, es decir como se comportan las dos variables una con respecto a la otra. También nos interesa encontrar una ecuación, de tal manera que basándonos en una determinada cantidad X podamos estimar el promedio de cantidad Y.
4. Así, una ecuación de éste tipo que relaciona las dos variables, una dependiente de la otra se puede considerar como una relación de estimación. La ecuación que relaciona éstas dos variables se llama ecuación de Regresión de Y respecto a X.
5. DIAGRAMAS DE DISPERSION Un diagrama de dispersión es una gráfica en la que cada punto trazado representa un par de valores observados de las variables independientes y dependientes. El valor de la variable independiente X se ubica en el eje horizontal mientras que el valor de la variable dependiente Y se ubica en el eje vertical, una vez ubicados en un plano cartesiano podemos obtener una imagen de como está distribuida la muestra bien sea (línea positiva, línea inversa o no hay relación, entre otras).
11. COEFICIENTE DE CORRELACION DE PEARSON En la mayoría de los casos el principal interés del investigador no solamente está en poder medir la relación que puede existir, entre las dos variables, directa e inversa , sino que además se concentra en determinar si están o no correlacionadas, y en caso afirmativo, en hallar que tan fuerte es éste grado de relación.
12. Esta técnica analítica que se utiliza en hallar este grado de relación, recibe el nombre de análisis de correlación.El valor del coeficiente de correlación puede ir de -1.00 a +1.00. El signo aritmético asociado con el coeficiente de correlación indica la dirección de la relación entre X y Y (positivo igual a directa; negativo igual inversa).
13. Cuando las dos variables no están correlacionadas el coeficiente de correlación es 0 o muy cercano a 0.Con base a éstos hechos, podemos deducir que mientras más cerca esté el valor numérico del coeficiente de correlación a +1 o -1, entonces más estrecho será el grado de relación de las variables estudiadas.A continuaciòn encontraremos la fòrmula que nos permite determinar el coeficiente de correlaciòn de pearson (r).
14. donde:El símbolo sumatoria de Xi *Yi es el total de la columna de la tabla respectivan es el numero de observacionesX barra es la suma de los Xi dividido entre nY barra es la suma de los Yi dividido entre nSumatoria de los Xi al cuadrado, total de la columna de Xi al cuadrado.
15. Y asì sucesivamente se reemplazan los datos en la fòrmula X barra =Sumatoria de Xi dividido entre n Y barra = Sumatoria de Yi dividido entre n
16. Para hacer más cómodos los cálculos podemos realizar la siguiente tabla con las siguientes columnas:
17. ECUACIÓN DE REGRESIÓN LINEAL Es necesario definir una recta de tal manera que las suma de los cuadrados entre las diferencia de los valores de Y y los correspondiente valores calculados por medio de la recta para cada valor de X sea el más pequeño. Este método conocido como el método de los mínimos cuadrados es el más comúnmente usado en estadística para obtener la recta de mejor ajuste.
18. Recordemos que la forma general de la ecuación de la línea recta es Y = mX + b, que es la ecuación que queremos estimar y la llamaremos Y* = mX + b.Para encontrar esta ecuación utilizamos las siguientes fórmulas:
19. Donde m es la pendiente y b el intercepto Y de la lìnea recta Pendiente de la recta Intercepto o corte con el eje Y
20. EJEMPLO PRACTICO Supòngase que se desea determinar la posible relaciòn existente entre la cantidad de agua lluvia en una regiòn, y la cantidad de maiz recolectada en 10 haciendas diferentes, durante un cierto periodo de tiempo:
21.
22. Se desea ahora decidir si la cantidad de maíz recolectada está relacionada con la cantidad de precipitación lluviosa durante el periodo de cultivo de maíz, y tratar de encontrar una ecuación que exprese la cantidad de maíz cosechada en términos de la cantidad de agua recibida. El valor de esta ecuación permitirá estima o predecir el valor de una variable en función de la otra.
23. En este ejercicio debemos determinar:1. El diagrama de dispersiòn2. La ecuaciòn de regresiòn (Mètodo de los mìnimos cuadrados)3. Estimar posibles valores de Y para determinados valores de X.4. Calcular e interpretar el grado de correlaciòn de las dos variables (Coeficiente de Pearson)
27. Tenemos que: Asì que la ecuación de la recta de regresión de Y con respecto a X serà: Y* = 0.176 (X) – 0.64 Nota: Los puntos solo los utilizo para notación decimal.
28. 3. Predicciòn de otros valoresSi X= 40 Y=?Y* = 0.176 (40) – 0.64= 6.4Lo que significa que para un supuesto de 40 met. Cub. de precipitaciòn de agua lluvia se espera una cosecha de 6.4 mill. de lib. de maiz.
29. - Si Y = 9 X=?Lo que significa que para obtener una cosecha de 9 mill. Lib. De maiz deben precipitarse 54.77 met. Cub. de agua lluvia.
30. 4. Grado de correlación de las dos variables (coeficiente de pearson)aplicamos la fòrmula sacando los datos de la tabla respectiva:
31. r = 0.952, lo que significa que existe un alto grado de correlación lineal directa entre las dos variables.