Este documento describe la regresión lineal simple y la correlación. La regresión lineal simple analiza la dependencia de una variable dependiente Y sobre una variable independiente X. El modelo de regresión lineal simple supone que el valor esperado de Y es una función lineal de X más un error aleatorio. El método de mínimos cuadrados estima los coeficientes de la recta de regresión que mejor se ajusta a los datos observados minimizando la suma de los cuadrados de los errores verticales. La correlación determina el grado de asociación entre dos variables aleatorias.
1. UNIVERSIDAD NACIONAL EXPERIMENTAL
“FRANCISCO DE MIRANDA”
DPTO. DE FÍSICA Y MATEMÁTICA
CÁTEDRA: ESTADÍSTICA
TEMA Nº 8. REGRESIÓN LINEAL SIMPLE Y CORRELACIÓN
REGRESIÓN:
Consiste en la medición del “grado de dependencia” de una variable
dependiente Y sobre una variable independiente (o de regresión) X. La variable
independiente es manipulada por el experimentador. Es decir, el
experimentador decide qué valores tomará la variable independiente, mientras
los valores de la variable dependiente están determinados por la relación, si
existe, entre ambas variables.
Por ejemplo, si un investigador mide el grado de dependencia del ritmo
cardíaco en ciertos animales sometiéndolos a temperaturas específicas tales
como: 10ºC, 20ºC, 30ºC. En este caso, la Temperatura no es una variable
aleatoria porque los valores de “T” son establecidos por el investigador. El ritmo
cardíaco, por su parte, si es una VA ya que no está bajo el control del
investigador.
CORRELACIÓN:
Consiste en determinar el “grado de asociación” (interdependencia) entre dos
variable. En la Correlación se está interesado en saber si dos variables
covarían, es decir, si varían juntas.
Por ejemplo, un investigador desea determinar la asociación entre la biomasa
marina y la cantidad de clorofila. El investigador por tanto, saca repetidas
muestras de agua de un lugar de muestreo en un lago y mide la cantidad de
clorofila y la biomasa en cada muestra repetida. En esta situación el
investigador no tiene control sobre una u otra variable, puesto que ambos
valores encontrados en las muestras serán “los que la naturaleza provee”. Por
ello, estas variables son aleatorias y la correlación es el procedimiento
estadístico adecuado.
MODELO DE REGRESIÓN LINEAL SIMPLE:
Continuando con el ejemplo anterior, considérese el diagrama de Dispersión
siguiente donde Y representa el Ritmo Cardíaco de un cierto animal y X la
Temperatura a la cual es sometido dicho animal bajo ciertas condiciones.
2. Ritmo Cardíaco (Y)
Temperatura (X)
Un análisis a este diagrama de dispersión indica que, si bien una curva no pasa
exactamente por todos los puntos, existe una evidencia fuerte de que los
puntos están dispersos de manera aleatoria alrededor de una línea recta. Por
consiguiente, es razonable suponer que la media de la VA Y está relacionada
con X por la siguiente relación lineal:
EY X μY X β0 β1X
Donde:
- β 0 , β1 , reciben el nombre de Coeficientes de Regresión, los cuales son
parámetros que deben estimarse a partir de datos muestrales.
La manera apropiada para generalizar este hecho, con un modelo
Probabilística Lineal es suponer que el valor esperado de Y es una función
lineal de X, pero que para una valor fijo de X, el valor real de Y está
determinado por el valor medio de la función (el modelo lineal) más un término
que representa un error aleatorio, por ejemplo:
Y β0 β1X ε , donde ε : Error aleatorio con =0 y V= 2
Este modelo recibe el nombre de MODELO DE REGRESIÓN LINEAL
SIMPLE, ya que solo tiene una variable independiente o regresor.
MÉTODO DE MÍNIMOS CUADRADOS
Supóngase ahora que se tienen n pares de observaciones (x1, y1); (x2,
y2);…;(xn, yn). En el siguiente gráfico puede observarse una representación
gráfica de dispersión de los datos observados y un candidato para la recta de
Regresión. Las estimaciones de 0 y 1 deben dar como resultado una línea
que, en algún sentido, se “ajuste mejor” a los datos.
3. El Método de Mínimos Cuadrados: consiste en estimar los coeficientes de
regresión ( 0, 1) de modo que se minimice la suma de los cuadrados de las
distancias verticales que hay entre cada valor observado y la recta de regresión
estimada.
Ritmo Cardíaco (Y)
Recta de regresión estimada
Valor observado (y)
Temperatura (X)
Entonces, la recta de regresión estimada o ajustada, es:
ˆ ˆ ˆ
Y β0 β1X
Las estimaciones de mínimos cuadrados de loa ordenada al origen y la
pendiente del modelo de Regresión Lineal Simple son:
ˆ
β0 ˆ
Y β1X
ˆ Xi Yi n X Y Yi Xi X S xy
β1 2 2 2
Xi X X i nX S xx
PREDICCIÓN DE “Y” PARA UN VALOR DADO DE “X” – USO DE LA
ECUACIÓN DE PREDICCIÓN EN ESTIMACIÓN:
Una aplicación importante de un modelo de regresión es la Predicción de
observaciones nuevas o futuras de Y, correspondientes a un valor especificado
de la variable de regresión X. Si X0 es el regresor de interés, entonces:
ˆ ˆ ˆ
Y0 β0 β1X0 ,
4. es el estimador puntual del valor nuevo o futuro de la respuesta Y 0