SlideShare ist ein Scribd-Unternehmen logo
1 von 308
Downloaden Sie, um offline zu lesen
C
CA
AP
PI
IT
TU
UL
LO
O 1
1
E
EL
L M
MO
OD
DE
EL
LO
O D
DE
E R
RE
EG
GR
RE
ES
SI
IÓ
ÓN
N L
LI
IN
NE
EA
AL
L
1
1.
.1
1.
. E
EL
L A
AN
NÁ
ÁL
LI
IS
SI
IS
S D
DE
E R
RE
EG
GR
RE
ES
SI
IÓ
ÓN
N
1.1.1 Interpretación
El inglés Francis Galton1 (1822 - 1911) fue el primero en introducir el término regresión.
Cuando estudiaba la relación entre las estaturas de los hijos y los padres observó que la estatura
de los hijos era alta o baja cuando los padres eran altos o bajos, respectivamente. Sin embargo,
la estatura promedio de los hijos cuyos padres tenían una estatura dada, tendía a moverse o
converger hacia el promedio de la población. Así, determinó una regresión de la estatura de los
hijos hacia el promedio o, en términos de Galton, “una regresión hacia la mediocridad”.
La Ley de Regresión Universal de Galton fue confirmada, años después, por Karl Pearson,
quien realizó un estudio similar utilizando más de mil observaciones. Con el estudio de Pearson
se confirmó que la estatura promedio de los hijos de un grupo de padres altos era menor que la
estatura de sus padres y la estatura promedio de los hijos de padres de estatura baja era mayor
que la de sus padres. Así, se observa que los hijos de estatura alta o baja, “regresan” en forma
similar hacia la estatura promedio de la población.
En este sentido, la regresión de una variable aleatoria Y sobre otra variable X fue entendida
como la media de Y condicional en X, a través de una relación funcional entre X e Y. El
estimador de los coeficientes involucrados en esta forma funcional fue hallado utilizando el
criterio de estimación de Mínimos Cuadrados Ordinarios (MCO), que será estudiado en el
siguiente capítulo, y las observaciones muestrales de X e Y.
1
Francis Galton, “Family Likeness in Stature”, Proceedings of Royal Society, Londres,vol, 40, 1886, pp. 42-72.
Econometría Moderna El Modelo de Regresión Lineal
10
Una interpretación más moderna de regresión indica que la misma es cualquier aproximación
de la distribución de probabilidad de Y condicionada a los valores de las observaciones de X,
siendo Y una función de X. En otras palabras, el análisis de regresión estudia la relación
existente entre una variable endógena o dependiente (Y) y una o más variables exógenas o
independientes (X), con el objeto de estimar la media o valor promedio poblacional de la
primera en términos de los valores conocidos o fijos de las últimas. Ahora, resulta más clara la
relación entre el estudio de Galton y la definición moderna del término regresión.
A menudo se confunden los términos regresión y correlación, los cuales están estrechamente
ligados a pesar de que existen diferencias substanciales entre ellos. Por un lado el análisis de
correlación pretende medir el grado de asociación lineal entre dos variables a través del
coeficiente de correlación2. Por ejemplo, se puede estar interesado en conocer la correlación
entre la cuenta de capitales y la tasa de interés, entre los términos de intercambio y la balanza
comercial, entre la tasa de encaje y créditos del sistema bancario, etc. En cambio, cuando se
analiza una regresión se trata de estimar o de predecir el valor promedio de una variable
(llamada explicada, dependiente o endógena) utilizando valores fijos3 de las variables
explicativas (también llamadas independientes o exógenas) . Utilizando el ejemplo anterior,
puede ser que se desee predecir el saldo de la cuenta de capitales teniendo información muestral
de la tasa de interés o que se desee predecir el monto total de créditos conociendo la tasa de
encaje bancaria. Así, y conociendo la relación existente entre estas variables a través de un
análisis de regresión, será posible predecir valores de la variable dependiente utilizando
realizaciones de las independientes.
1.1.2 ¿Cómo se conecta el análisis económico con el análisis de regresión?
El análisis económico toma en consideración diversas variables en conjunto. La relación
entre las tasas de inflación y el desempleo, la relación intertemporal entre las tasas de interés y
el consumo o la relación entre éste y los precios de los bienes relacionados de un bien, son
algunos de los tantos ejemplos que se encuentran en el análisis empírico en economía. Como
ejemplo concreto, se puede citar la Ley de Okun4, la cual afirma que por cada punto porcentual
que caiga la tasa de desempleo el producto tiende a crecer 3 puntos porcentuales. Esto significa
que existe una relación negativa entre las dos variables y, para contrastar el modelo, se
necesitará utilizar simultáneamente datos de ambas variables.
Para ello, se deben utilizar distribuciones de probabilidad conjuntas o multivariadas5. Se sabe
por nociones básicas de estadística que la función de probabilidad conjunta se puede plantear de
la siguiente forma:
f( y/ x1 , x2 , x3 ) = F ( y/ x1 , x2 , x3 ) * f (x1 , x2 , x3 ) (1.1)
2
El coeficiente de correlación entre dos variables aleatorias expresa el grado de dependencia entre el comportamiento
de dichas variables. Formalmente:
)
)(
(
)
,
(
y
x
X
Y
Cov
σ
σ
ρ =
3
Se debe resaltar que las variables explicativas pueden ser de naturaleza estocástica, pero por simplicidad para el
análisis de regresión se asume que los valores de X no cambian en diversas muestras, es decir son fijos en el muestreo
repetido. De hecho este supuesto deberá imponerse al momento de querer obtener estimados de los verdaderos
parámetros. El problema asociado a la presencia de regresores (variables exógenas) estocásticos, será abordado en
otro capítulo.
4
Se puede expresar matemáticamente de la siguiente manera: )
(
)
(
3 1
1
f
n Q
Q
u
u −
=
− +
+ , donde un y Qf
indican que el
producto está en pleno empleo y por tanto la tasa de desempleo (u) es la natural.
5
Son las funciones de probabilidad generadas por el comportamiento aleatorio conjunto de dos o más variables y se
utilizan en el estudio de las relaciones existentes entre éstas.
Econometría Moderna El Modelo de Regresión Lineal
11
Siendo la primera la función de probabilidad condicional y la segunda la marginal. En el
análisis econométrico, y tal como se indicó anteriormente, se busca estimar la distribución
condicional mientras que la marginal no se utilizará, por el momento.
De esta manera, si se tiene la siguiente función conjunta: C = f (r, Yd, w, Yp), ésta nos
indica que el consumo es una función de la tasa de interés, el ingreso disponible, el salario y el
ingreso permanente. La función anterior expresa únicamente una relación matemática, sin
embargo, y tal como se indicó en la introducción del libro, uno de los objetivos de la
econometría es formular un modelo econométrico a partir de un modelo económico, para luego
proceder a la estimación y comprobación del mismo a partir de los datos muestrales. En
consecuencia, se debe transformar la función anterior en un modelo econométrico, por ejemplo
consideremos el siguiente modelo de regresión lineal6:
µ
β
β
β
β
β +
+
+
+
+
= Yp
w
Yd
r
C 4
3
2
1
0 (1.2)
(1.2)
(1.2)
(1.2)
donde u es el componente estocástico o aleatorio, que recoge los efectos de variables no
incluidas en el modelo que no afectan de manera sistemática a la variable endógena o explicada
(el consumo). Se supone que u es una variable aleatoria y tiene una distribución de probabilidad
conocida que será materia de estudio en un capítulo posterior. El otro miembro de la ecuación
indica la relación exacta entre la variable explicada (C) y las demás variables llamadas
explicativas, es decir, es el componente determinístico (o predecible) del modelo. Los β son
conocidos como parámetros y recogen los efectos ocasionados por las variaciones de las
variables r, Yd, w, y Yp sobre la variable C que se desea explicar. En términos matemáticos7
,
cada parámetro indica la sensibilidad de la variable dependiente ante un cambio unitario en la
variable independiente.
El modelo econométrico especificado en la expresión (1.2), tiene como objetivo estimar el
valor del consumo sobre la base de valores fijos de las variables explicativas, utilizando un
conjunto de datos muestrales. Por tanto, una regresión de C sobre las demás variables se
interpreta como el valor esperado de la distribución de probabilidad de C dado los valores de las
variables r, Yd, w y Yp, es decir, y tal como se dijo en la primera parte de este capítulo, una
regresión puede interpretarse como la media condicional de Y dado X. Formalmente:
E (C /r, Yd, w, Yp ) = f (Xi) (1.3)
Un punto importante que debe notarse es que la estructura de la relación entre la variable
explicada y las variables explicativas se supone que es lineal lo cual puede ser un aproximación
muy gruesa de la realidad porque de hecho muchos eventos o fenómenos que se pretenden
explicar son de naturaleza no lineal. En todo caso el modelo de regresión lineal puede pensarse
como una aproximación lineal de Taylor de un problema no lineal.
1.1.3 Definiciones Básicas
Una vez que hemos entendido el concepto de regresión como la modelación de la media
condicional de una distribución de probabilidades es deseable realizar algunas definiciones
básicas que vamos a utilizar a lo largo del libro.
El modelo de regresión lo podemos plantear de manera general de la siguiente forma:
6
Este modelo será estudiado en el Capítulo III.
7
Formalmente:
i
i
X
Y
β
∂
∂
= es decir, cada parámetro representa la derivada parcial de la variable dependiente con
respecto a cada variable explicativa.
Econometría Moderna El Modelo de Regresión Lineal
12
t
kt
k
t
t
t x
x
x
y µ
β
β
β
β +
+
+
+
+
= ...
..........
3
3
2
2
1
La variable Y que es aquella que condicionamos a los valores que adopte las demás variables
(X) recibe indistintamente le nombre de variable explicada, endógena o dependiente. Las
variables a la derecha del modelo reciben el nombre de variables explicativas, exógenas o
independientes. Como vemos el modelo es un modelo lineal el cual supone que los efectos de
cada una de las variables explicativas se pueden agrupar de manera separada y el efecto
conjunto se da de manera aditiva. El plantear el modelo de esta manera nos permite decir que lo
que estamos haciendo es separar a la variable explicada en dos conjuntos:
• La parte sistemática o determinística que viene representada por :
kt
k
t
t x
x
x β
β
β
β +
+
+
+ ...
..........
3
3
2
2
1
Esta es la parte que es sugerida por el investigador y establece una relación sistemática
y de dependencia entre la variable explicada y las variables explicativas. Dado el
concepto de media condicional de la regresión, la parte sistemática representa lo que en
promedio se dará cuando los valores de las X estén dados. Esta será la parte explicada
por nuestro modelo de los valores de Y. Otra forma de apreciar esta parte es que
representa lo que nosotros podremos predecir con nuestro modelo. Dado el carácter de
media condicional, la predicción será aquel valor que esperamos tenga nuestra variable
dependiente con mayor probabilidad.
• La parte aleatoria o estocástica que viene representada por el término de error ( µ ).
Dado que la economía busca estudiar el comportamiento económico de las personas no
podemos pensar en encontrar relaciones exactas que gobiernen el comportamiento de
los agentes económicos. Las personas, empresas o el Estado se desenvuelven en un
contexto estocástico debido a que existen muchos factores no controlables como los
estados de la naturaleza, movimientos bruscos en el mercado, factores políticos o los
descubrimientos de nuevos productos y tecnologías que pueden afectar de manera
inesperada cualquier relación que queramos estimar. Estos factores pueden ser
importantes en un momento determinado pero no afectan de manera permanente a la
variable dependiente. Un ejemplo de ello puede ser la presencia del fenómeno del niño.
Como sabemos, este fenómeno aparece de manera inesperada y no se sabe cada qué
tiempo afecta al Perú. Así, en un determinado año podríamos tener que todas las
variables que afectan la producto de manera sistemática (incluidas en la parte explicada
de la regresión) tengan un determinado valor. Si utilizamos nuestra relación estimada
podríamos obtener algún resultado esperado, pero si se produce el fenómeno del niño,
nos podríamos alejar considerablemente del valor que el modelo nos arroja como el más
probable.
Otro concepto que debemos utilizar es el referido al tipo de datos que podemos encontrar en la
realización de trabajos empíricos. Los datos pueden clasificarse de la siguiente manera:
• Datos de Series de Tiempo: En este caso podemos pensar que el individuo sobre el cual
se mide la variable es el mismo y se observa éste a lo largo del tiempo. Un ejmplo
podría ser el individuo PERU para el cual se miden a lo largo del tiempo los valores del
producto bruto interno.
• Datos de Corte Transversal: En este caso lo fijo es la unidad de tiempo y lo que varían
son los individuos. Un ejemplo de esto son las encuestas que se hacen en un momento
determinado del tiempo. En el Perú tenemos varios casos de encuestas realizadas como
la Encuesta Nacional de Niveles de Vida (ENNIV) que sirve para analizar la calidad de
Econometría Moderna El Modelo de Regresión Lineal
13
vida de las personas a través de la medición de ingresos y acceso a servicios básicos
como la salud, educación, nutrición. Etc.
• Datos Longitudinales: Esta tercera categoría es una combinación de las dos anteriores.
Podríamos pensar en encuestas o mediciones que se hacen a distintos individuos en
diferentes períodos de tiempo. Esto implica construir un panel de datos cuya realización
es costosa porque implica hacer un seguimiento a los individuos a fin de poder ubicarlos
para realizar la recolección de la información a lo largo del tiempo. En el Perú son
pocos los casos en donde se han construido estos paneles de datos. Sin embargo,
empresas privadas han invertido en la construcción de estos paneles dado que proveen
muy buena información acerca de cambios en los patrones de consumo e ingresos de las
personas.
Una vez realizada esta definición de conceptos básicos es de suma utilidad iniciar el estudio
de los métodos y formas que se encuentran disponibles para la obtención de los parámetros de
los modelos que pretendamos estimar.
1.1.4 ¿Cómo obtener los parámetros?
Si analizamos nuestro modelo, veremos que dada una muestra determinada, conocemos los
valores muestrales tanto de la variable dependiente como de la dependiente. Sin embargo, los
parámetros verdaderos (los β ´s) son desconocidos. Por ello, debemos desarrollar una estrategia
que nos permita realizar una estimación adecuada de los mismos. En este punto es conveniente
tener claro el concepto de estimación. Un estimador se define como cualquier fórmula o función
de los datos que permite obtener estimaciones de los parámetros desconocidos. Así, se deduce
que una estimación es el valor numérico que resulta de la aplicación de esta función a un
conjunto de datos muestrales específicos.8
Según los expuesto, antes de proceder a explicar el proceso de estimación debemos hacer
ciertas aclaraciones. El modelo planteado por el investigador sobre la base de consideraciones
teóricas o apreciaciones intuitivas es un modelo desconocido al cual llamaremos modelo
teórico. El modelo con el cual trabajaremos en la práctica implicará que se reemplazará los
parámetros desconocidos por los estimadores correspondientes. Como estos no son los
verdaderos sino aproximaciones que esperamos cumplan con ciertas condiciones deseables que
veremos más adelante, los errores tampoco serán los verdaderos sino aproximaciones. Lo ideal
es que exista cierta conexión entre el modelo teórico y el empírico. Esto lo podemos ilustrar con
las siguientes expresiones:
Y = X β + u ⇒ Y = X β̂ + e (1.4)
modelo modelo
teórico empírico
En este caso hemos optado por expresar el modelo de manera general donde X es una matriz
que contiene todos los datos de las variables explicativas. Denotaremos al número de variables
explicativas como k y tendremos n datos. Por lo tanto, el orden de la matriz X será nxk. β es
un vector columna que contiene a los k parámetros del modelo. De manera similar el orden del
vector Y y del vector de errores (sean teóricos o empíricos) será de nx1 y .Como se puede
apreciar, en el modelo empírico se ha reemplazado al parámetro verdadero y desconocido ( β )
8
Esto implica que para otra muestra (la cual puede variar debido al método de muestreo) puedo obtener distintos
estimados de los parámetros a pesar de que el estimador (función donde se reemplazan los datos) sea el mismo para
todas las muestras posibles.
Econometría Moderna El Modelo de Regresión Lineal
14
por su estimador ( β̂ ). De igual manera ocurre con los errores teóricos ( µ ) y los errores
empíricos (e). Si bien son dos las magnitudes desconocidas en este modelo (los parámetros y
los errores) debe notarse que una vez que obtenemos los estimados de los parámetros quedan
determinados los errores empíricos. Por ello, el énfasis estará centrado en la estimación de los
parámetros.
La estimación de los parámetros se deriva de un problema de predicción condicional. En
dicho problema se observa la realización de un vector aleatorio X y se desea predecir la
realización de una variable aleatoria Y.
En este punto debemos introducir el concepto de función de pérdida, la cual recibe este
nombre debido a que la presencia de un estimador implica que existe un predictor que trata de
explicar o aproximarse lo más posible al verdadero valor de Y. Así, el planteamiento de una
función de pérdida tiene como objetivo lograr que el modelo sujeto a estimación se parezca lo
más posible a lo observado en la realidad. En consecuencia, el mejor predictor será aquél que
minimice la pérdida esperada de una función de pérdida específica. Dicho predictor resuelve un
problema de minimización de la siguiente forma:
Min E [L (Y - P) / X] (1.5)
P
Observado Estimado
Siendo la función de pérdida L, P denota un predictor de Y y E (L (Y – P) / X ) es la pérdida
esperada, condicional en X, cuando P es usado para predecir Y. Esta función debe satisfacer la
siguiente condición:
0 < u < v ⇒
0=L(0)≤L(u)≤ L(v) (1.6)
0 = L(0) ≤ L(-u ) ≤ L(-v ) (1.7)
Evidentemente, la idea es que la función de pérdida sea lo más pequeña posible, donde u y v
son los valores para el error de predicción (Y – P). Si la función de pérdida es fija, el valor del
mejor predictor depende sólo de la distribución de probabilidad de Y condicional en X. En
otras palabras, la estructura de la función es elegida por el investigador y lo que varía es el error
de predicción para cada observación muestral de X e Y. En consecuencia, el valor del mejor
predictor o estimador dependerá sólo de la distribución de probabilidad mencionada. En este
sentido, y recordando que la regresión es el valor esperado de la distribución condicional de Y
dado X, deducimos que el mejor predictor se obtiene mediante una regresión. Algo que no debe
perderse de vista es que la proximidad entre el valor predicho y el valor verdadero dependerá de
la elección del estimador. Por ello, deberá elegirse aquel estimador que haga mínima la
diferencia dada una función de pérdida.
En la práctica, los mejores predictores son los que se estudian más detalladamente en el
análisis de regresión. Ellos describen brevemente la manera cómo varía Y ante cambios en los
regresores (X). Sin embargo, existen distintas funciones de pérdida interesantes y, a su vez,
muchas maneras de interpretar formalmente la posición de una variable aleatoria. A
continuación se presentan algunas funciones de pérdida conocidas y los distintos predictores
que se derivan de ellas.
i) Pérdida cuadrática: La función de pérdida cuadrática es:
Econometría Moderna El Modelo de Regresión Lineal
15
L (u) ≡ u2
(1.8)
En este caso, el mejor predictor resulta la media condicional de Y en X. Este resultado se
obtiene mediante el método de estimación de Mínimos Cuadrados Ordinarios, como veremos en
el siguiente capítulo.
ii) Pérdida absoluta: Cuya función de pérdida es la siguiente:
L (u) ≡ u  (1.9)
Si tomamos esta función de pérdida, el mejor predictor es la mediana de Y condicional en X.
iii) Pérdida discreta: Dada una constante positiva δ, la función de pérdida discreta sería:
L( * , δ )
L ( u ) ≡ 0 si u  < δ (1.10)
L ( u ) ≡ 1 si u  ≥ δ (1.11)
En este caso, el mejor predictor es el punto medio del intervalo de longitud 2δ que tiene la
más alta probabilidad de contener a Y. En la medida en que δ se aproxime a cero, el mejor
predictor se aproximará a la moda de Y condicional en X.
En general, la media, la mediana y la moda de la regresión de Y en X difieren entre sí. La
media como regresión puede ser lineal en X mientras que la mediana puede no serlo, o ambas
pueden ser lineales pero con diferentes pendientes. Por otro lado, puede ser posible que una
regresión aumente con X mientras la otra decrezca, o viceversa .
En el problema de predicción descrito, la función de pérdida escogida determina la regresión
sujeta a análisis. Dicha función debe reflejar las pérdidas asociadas al error de predicción, en
otras palabras, debe reflejar cuán cerca están las predicciones del modelo con respecto a las
observaciones reales. En ello radica la importancia de escoger una adecuada función de pérdida
aunque dicha necesidad disminuye sólo si uno cuenta con alguna información acerca de la
distribución, lo que implica que distintos predictores se comporten similarmente.
1.2 Métodos de estimación de los parámetros
Cuando se efectúa una regresión se puede seleccionar el método de estimación más
adecuado, dependiendo de la información previa a la que el investigador tiene acceso. Por
ejemplo, si no se cuenta con información acerca de la forma de la regresión o no es de interés la
estimación de un forma particular y sólo se quiere haceruna aproximación general de la función
de densidad, se puede realizar una estimación no paramétrica, concepto que está fuera del
alcance del presente libro9
. De otro modo, si se quiere trabajar con un modelo de regresión
paramétrica existen distintos métodos de estimación que se pueden entre los cuales se puede n
mencionar los siguientes: El método de Mínimos Cuadrados Ordinarios, el de Momentos
Muestrales o el de Máxima Verosimilitud, los cuales se definirán a continuación y
9
El lector interesado puede revisar el trabajo de Pagan y Ullah (1999) “Nonparametric Econometrics” Cambridge
University Press.
Econometría Moderna El Modelo de Regresión Lineal
16
posteriormente se discutirán en detalle. Esos métodos son los más utilizados y responden a
diferentes criterios con sus respectivas funciones de pérdida pero debe tenerse en cuenta que son
arbitrarios. Su utilización generalizada obedece a que cumplen con una serie de propiedades
deseables que facilitan su aplicación.
i) Mínimos Cuadrados Ordinarios (MCO)
El método de Mínimos Cuadrados es uno de los más usados, eficaces y conocidos del
análisis de regresión debido al contenido de las propiedades estadísticas que posee. El principio
sobre el cual descansa esta metodología consiste en hacer mínimos la norma del vector de
errores o perturbaciones del modelo10
. Formalmente este criterio de puede establecer de la
siguiente forma:
Min ∑
=
n
i
i
e
1
2
=∑ − 2
)
ˆ
( β
i
i x
y (1.12)
La minimización de los errores al cuadrado presenta una ventaja con respecto a la
minimización de la suma de errores sin elevar al cuadrado dado que ésta puede verse afectada
por los signos de los errores. Así, podemos tener errores positivos muy grandes y errores
negativos muy grandes que se compensan por lo que la suma podría ser cero pero ello no
implicaría que la regresión estimada sería buena dado que los errores tendrían una magnitud
considerable.
ii) Método de Momentos
El objetivo de este método consiste en aproximar lo más posible los momentos muestrales a
los poblacionales. Recordemos que un momento es un estadístico que resume algunas
características de una distribución de probabilidad, tal como un valor esperado o una desviación
estándar. Las ecuaciones a partir de las cuales se determinan los parámetros se obtienen al
reemplazar los supuestos poblacionales por sus contrapartes muestrales. Si la función de pérdida
está fijada en términos de la distancia entre los momentos poblacionales y los muestrales la
elección de los parámetros será aquella que minimice esta distancia. Este método ha sido
generalizado por Hansen y Singleton (1982) en donde podemos utilizar más de un momento
para la estimación de cada parámetro de un modelo.
iii) Máxima Verosimilitud
Este método consiste en maximizar la probabilidad de que una muestra dada pertenezca a
determinada distribución. Para ello se plantea como supuesto que la variable Y tiene una
distribución de probabilidad y se desea lograr que dicho supuesto inicial sea lo más verosímil
posible, si sólo se cuenta con la muestra. Es decir, los coeficientes estimados son aquellos que
hacen máxima la probabilidad de que la muestra pertenezca a la distribución supuesta.
1.3 Significado de la línea de regresión
Cuando se define la regresión como la media condicional de Y dado los valores de las
observaciones de X, de hecho podemos representar geométricamente este concepto a través de
una línea o curva de regresión.
De este modo, una curva de regresión llamada poblacional, es aquella que muestra el lugar
geométrico de las medias condicionales o esperanzas de la variable endógena para los valores
fijos de la(s) variable(s) exógena(s). Esto se puede apreciar en la siguiente figura:
10
Debe tenerse en cuenta que la minimización de la norma de un vector implica la minización de la raíz cuadrada de
la sumatoria de cada uno de los elementos del vector elevados al cuadrado.
Econometría Moderna El Modelo de Regresión Lineal
17
Figura 1.1
Línea de regresión poblacional
La figura muestra cómo para cada X existen valores poblacionales de Y, y una media
condicional correspondiente. Precisamente, la línea o curva de regresión pasa por las medias
condicionales de la variable Y, y denota alguna función de la variable dependiente X. Así, se
define formalmente la regresión como:
E(Y/X ) = f (Xi) (1.13)
y, en el modelo de regresión lineal simple (donde sólo se incluye una variable explicativa) se
puede tener la siguiente función lineal de X:
E( Y/X ) = β0 +β1Xi (1.14)
Los parámetros o coeficientes de regresión son los β de la ecuación anterior. Asimismo,
β0 es el llamado intercepto y β1 es el coeficiente de la pendiente.
En el análisis de regresión lo que se busca es estimar los parámetros desconocidos teniendo
como base las observaciones de X e Y. Sin embargo, se debe tomar en cuenta que a cada valor
de X no necesariamente le corresponde un valor de Y que se encuentre sobre la línea de
regresión. En otras palabras, el valor de una variable explicada para una observación en
particular se encuentra alrededor de su esperanza condicional. De este modo, se puede expresar
la desviación o perturbación de un valor de Y alrededor de su media o esperado de la siguiente
forma:
)
/
( i
i
i X
Y
E
Y −
=
µ (1.15)
Despejando la ecuación, queda:
Econometría Moderna El Modelo de Regresión Lineal
18
i
i
i X
Y
E
Y µ
+
= )
/
( (1.16)
y reemplazando la ecuación (1.14) en (1.16) resulta:
i
i
i X
Y µ
β
β +
+
= 1
0 i=1,2, ... , n (1.17)
Como se mencionó en la sección anterior, µi es llamado perturbación estocástica o
estructural e introduce el elemento aleatorio a la ecuación de regresión, pudiendo tomar valores
positivos o negativos para cada observación muestral.
Cabe mencionar que en la mayoría de casos, no es posible disponer de todas las
observaciones de la población, dado que en la práctica solamente se cuenta con una muestra de
valores de Y que corresponden a los valores fijos de X. Con dicha información muestral se
deberá estimar la función de regresión anterior, de modo que cuando se reemplacen los valores
estimados para β0 y β1 se hallará la siguiente ecuación, también llamada función de regresión
muestral:
i
i X
Y 1
0
ˆ
ˆ
ˆ β
β +
= (1.18)
La ecuación muestra las estimaciones de los coeficientes de regresión. Esta función es una
aproximación a la ecuación de regresión poblacional, por eso se dice, en algunos casos, que i
Ŷ
sobreestima o subestima la verdadera E(Y/X). Es decir, el valor estimado de Y puede hallarse
sobre la línea de regresión poblacional y como consecuencia presentar un error positivo o el
valor estimado de Y puede encontrarse bajo la línea de regresión poblacional, y por lo tanto
presentar un error negativo. En este sentido, lo importante en el análisis de regresión consiste en
diseñar una regla o método que consiga que dicha aproximación se acerque lo más posible a los
verdaderos valores de los parámetros, aún cuando nunca se llegue a conocerlos.
El siguiente capítulo se ocupará de abordar dicho problema empezando con el análisis de un
modelo de regresión lineal simple. Sin embargo, es importante advertir que en los procesos
económicos, por lo general, se precisa de más de una causa para explicar de forma adecuada el
comportamiento de una variable aleatoria, o bien se utilizan formas más complicadas que la
lineal. A pesar de ello, es conveniente realizar una primera aproximación analizando la
especificación más sencilla, de modo que luego se podrá comprender con menor dificultad el
modelo de regresión lineal múltiple o general, cuyo estudio detallado será materia del Capítulo
3.
2
2 S
SU
UP
PU
UE
ES
ST
TO
OS
S D
DE
EL
L M
MO
OD
DE
EL
LO
O D
DE
E R
RE
EG
GR
RE
ES
SI
IÓ
ÓN
N L
LI
IN
NE
EA
AL
L
El objetivo de un análisis de regresión no sólo consiste en estimar los coeficientes de
regresión, sino también en hacer inferencia acerca de los verdaderos valores de los parámetros
(β0, β1). En otras palabras, se desea saber cuán cerca están los estimadores de sus contrapartes
poblacionales, o cuán cerca está el valor estimado de Y de la verdadera E(Y/X). Por ello, resulta
necesario plantear ciertos supuestos sobre el proceso generador de las variables endógenas (Y).
Así y debido a que la función de regresión poblacional de Y, depende de las variables X y de µi,
es necesaria una especificación de la forma como se generan las variables explicativas y los
errores. En este sentido, los supuestos que se plantean a continuación resultan críticos para
interpretar en forma válida los estimadores de una regresión lineal.
Econometría Moderna El Modelo de Regresión Lineal
19
Antes de proceder con la descripción de los supuestos, cabe mencionar que el modelo clásico
de regresión lineal se atribuye al matemático alemán Carl Friedrich Gauss, por quien también
recibe el nombre de Modelo de Gauss. Este matemático planteó diez supuestos, válidos tanto
para el análisis de regresión simple como para el modelo de regresión lineal múltiple, o de más
de un regresor.
Primer supuesto: El modelo es estocástico
Esto se debe a la inclusión de un componente aleatorio en el modelo, expresado por el
término de error (µi). La inclusión del término de error se debe a las siguientes razones:
• Las respuestas humanas son impredecibles, puesto que las personas no tienen un patrón
preestablecido de preferencias, hábitos de consumo, etc.
• Omisión de variables explicativas que deberían incluirse en el modelo. Pretender que las
variables independientes pueden explicar la estructura o predecir exactamente el
comportamiento de la variable dependiente es una ilusión, debido a que en la realidad
existen otros factores que afectan el comportamiento de la variable explicada que no son
incluidos en el modelo. En efecto, puede suceder que las variables explicativas sean muy
difíciles de medir. Por ejemplo, consideremos un modelo donde se busca explicar la
demanda a través de la utilidad que brinda el consumo de un determinado bien. De hecho, la
cuantificación y medición de la variable utilidad resulta una tarea bastante difícil debido al
carácter subjetivo de la misma. En este sentido, la falta de información muestral conduciría
a una mala medición o a la omisión de una variable relevante. Por otro lado, si dichas
variables pueden medirse pero su impacto sobre Y no es significativo, entonces no amerita
su inclusión.
• Errores de medición en la variable endógena (Y). Esto ocurre frecuentemente debido a que
las estimaciones de Y se realizan sobre la base de muestras finitas, además de que dicha
variable puede no ajustarse a la teoría económica que el investigador desea contrastar. Por
ello, el investigador debe decidir con cuidado el papel que desempeña cada variable, es
decir, debe definir adecuadamente las variables exógenas y la endógena.
• Agregación de variables. En muchos casos, la relación existente entre la variable endógena
y las exógenas es un intento por resumir un conjunto de observaciones individuales en un
agregado económico. Por ejemplo, el gasto agregado intenta resumir un conjunto de
decisiones individuales de gasto. En este sentido, y debido a que las relaciones individuales
son probablemente distintas entre individuos, cualquier intento de relacionar el gasto
agregado con el consumo agregado es una aproximación. Así, la diferencia se le atribuye al
término de error.
Como ya se mencionó existe una distinción entre el error teórico o poblacional (µi) y el error
de estimación o empírico. El primero responde a la necesidad de introducir un elemento
aleatorio en el modelo por razones antes expuestas mientras que el error de estimación se define
como la diferencia entre el estimado de la variable dependiente )
ˆ
X
( β y la verdadera E (Y/X).
Segundo supuesto: La esperanza matemática del término de error o perturbación es cero.
Esto se expresa de la siguiente manera:
E(µi) = 0 (1.19)
Este supuesto indica que el valor de la media condicional del término de error para cualquier
variable explicativa X dada, es idéntico a cero. De este modo, este supuesto garantiza que las
Econometría Moderna El Modelo de Regresión Lineal
20
variables que no están incluidas en el modelo (y que por tanto están incorporadas en µi), no
trasmiten ningún efecto sistemático sobre la media condicional de Y dado X. En términos más
sencillos, los valores negativos de µi se compensan con sus realizaciones positivas. Por ello, en
promedio no presentan ningún efecto sobre la variable dependiente del modelo. Aquellas
variables no incluidas en el modelo pero que afectan de manera sistemática son recogidas por el
intercepto del modelo.
Tercer supuesto: La varianza del error es constante (el error es homocedástico).
Formalmente:
Var(µi) = σ2
i = 1,2,3,...,n (1.20)
Esto implica que el término de error tiene igual(homo) dispersión(cedasticidad). Aquí
debemos mencionar que un supuesto implícito en el modelo de regresión lineal es que cada uno
de los errores proviene de una distribución de probabilidades. El valor que observamos del error
para cada observación es la realización de la variable aleatoria ante la ocurrencia de un
determinado evento. Entonces una forma de entender le presente supuesto es que implica que la
varianza de cada una de las distribuciones de los distintos errores aplicables para cada
observación es la misma. En otras palabras, y dados los valores de X, la varianza del error no
cambia para distintas observaciones11
. El siguiente gráfico ilustra los conceptos que hemos
mencionado hasta el momento:
Figura 1.2
11
Evidentemente, cada término de error representa la realización de un proceso estocástico y lo que se asume a través
de este supuesto es que las distribuciones de donde son “extraídos” estos errores presentan igual dispersión.
Econometría Moderna El Modelo de Regresión Lineal
21
Como podemos apreciar, en el eje de la variable X suponemos que sus distintos valores están
fijos lo que se refleja en las líneas discontinuas que parten de los valores x1 y x2 . Ante estos
valores fijos de la variable explicativa tenemos diversas posibilidades de que ocurran diversos
eventos lo que se refleja en todas la posibilidades de valores que puede tomar la variable
dependiente (y). Estas distintas posibilidades (y sus probabilidades respectivas) determinan la
función de distribución de los errores.
Cuando no se verifica este supuesto, se dice que el término de perturbación es
heterocedástico, es decir, posee una dispersión diferente para cada observación. Formalmente:
Var(µi) = σi
2
i = 1,2,3,..., n (1.21)
El subíndice i indica que la varianza del término de error no es constante ya que presenta un
valor distinto para cada observación de X. En consecuencia, no todos los valores de Y, que
corresponden a distintos valores de X, serán de igual importancia y confianza como indicadores
de la posición de la línea de regresión. Se dicen que son confiables cuando poseen menor
dispersión, es decir, se mide la confiabilidad por la cercanía con la cual se distribuyen los
valores de Y alrededor de sus medias, esto es, sobre la línea de regresión poblacional. Si
analizamos con cuidado la expresión (1.12) notaremos que el error que se minimiza es la
diferencia entre el valor observado (Yi) y el estimado , de este modo se requiere que los valores
observados sean indicadores confiables de la posición de la línea de regresión poblacional, esto
es, E(Y/X).
Cuarto supuesto: Ausencia de autocorrelación entre los errores.
Formalmente:
Cov(µi, µj) = 0 ∀ i ≠ j (1.22)
Lo anterior implica que no existe autocorrelación o correlación serial entre los términos de
error µi y µj, dadas las observaciones xi y xj. En este sentido, podemos definir el término
autocorrelación como la correlación entre miembros de series de observaciones ordenadas en el
tiempo (información de series de tiempo) o en el espacio (en información de corte tranversal).
En otras palabras, si disponemos de datos de series de tiempo, se dice que un error µt para un
periodo de tiempo t, está correlacionado con los términos de error µt+1, µt+2, .. y µt-1, etc.
Un ejemplo típico donde se detecta la presencia de autocorrelación positiva ocurre bajo el
modelo de expectativas adaptativas. Supongamos que los agentes económicos realizan su
pronóstico de la inflación futura basados en la inflación pasada, solamente. Formalmente:
)
ˆ
ˆ
(
ˆ
ˆ 1
e
e
e
P
P
v
P
P −
+
=
+ (1.23)
Esta ecuación implica que la expectativa de la inflación de mañana es una combinación
lineal de la expectativa para el período actual y el error de predicción registrado en este periodo.
En este sentido, y en la medida en que los errores cometidos en el periodo actual se trasmiten al
próximo a través del mecanismo descrito en (1.23), el pronóstico de la inflación evidenciará
cierta inercia, es decir, estará autocorrelacionado con el error de predicción registrado en este
periodo.
En cambio, si se considera un modelo de expectativas racionales sabemos que los agentes
económicos utilizan eficientemente toda la información disponible, ya sea porque conocen y
entienden el modelo que esta utilizando el Estado para hacer política económica o simplemente
conocen al modelo que explica la economía. Por lo tanto, al plantear sus expectativas de
inflación futura lo hacen sobre la base de expectativas sobre las futuras políticas económicas.
De lo anterior se puede inferir que los errores no son sistemáticos o no presentan correlación
Econometría Moderna El Modelo de Regresión Lineal
22
alguna.
Los supuestos tercero y cuarto pueden resumirse en uno solo si pensamos en el moelo
planteado de forma matricial. El vector de errores del modelo es de dimensión Nx1 o Tx1, si se
habla de información muestral de corte transversal o de series de tiempo, respectivamente. Por
consiguiente su matriz de varianza y covarianzas es simétrica y definida positiva, de dimensión
NxN o TxT, para cada caso. Esto se ilustra con la siguiente expresión:














=
=
)
(
)
(
)
(
...
...
...
...
)
(
)
(
)
,
(
...
)
,
(
)
(
)
(
)
'
(
2
,
1
,
2
1
,
2
1
2
1
1
n
n
n
n
Var
Cov
Cov
Var
Cov
Cov
Cov
Var
Var
E
µ
µ
µ
µ
µ
µ
µ
µ
µ
µ
µ
µ
µ
µ
µµ
En términos de esta matriz el tercer supuesto implica que todos los elementos de la diagonal
principal son iguales. Por otro lado, el supuesto de ausencia de autocorrelación, determina que
los elementos fuera de la diagonal principal son cero. De este modo, y de verificarse los dos
supuestos antes analizados, la matriz anterior se puede escribir como:
Var(µ)=σ2
In (1.24)
Esto usualmente se conoce como el supuesto general de que los errores del modelo son
esféricos.
Quinto supuesto: Las variables explicativas y los errores son ortogonales entre sí.
Formalmente:
Cov(xi,µi) = 0 (1.25)
Este supuesto implica que los errores y las variables independientes no presentan
correlación. Como ya hemos mencionado el análisis de regresión lo que hace es descomponer a
la variable dependiente en dos partes: una explicada o determinística y otra aleatoria o no
explicada. Por tanto, este supuesto implica que si no existe relación entre las variables
explicativas (que son el componente esencial de la parte explicada) y aquella parte no explicada,
podemos descomponer el espacio donde está definida la variable dependiente en dos
subespacios que son ortogonales entre sí12
. En otras palabras, cuando se especifica el modelo,
se supone que las variables exógenas y los errores son dos partes separadas y aditivas de la
variable a explicar (Y).
Parte aleatoria µi
Yi =β0 +β1Xi +µi
Parte determinística β0 +β1Xi
Los supuestos 2, 3, 4 y 5, son también conocidos como las condiciones de Gauss-Markov.
12
Podemos ampliar el concepto utilizando conceptos de teoría de conjuntos. Si tomamos que Y representa un
conjunto, el supuesto que estamos presentando implica que se puede descomponer dicho conjunto en dos
subconjuntos disjuntos (es decir, que no presentan intersección).
Econometría Moderna El Modelo de Regresión Lineal
23
Estos garantizan que el estimador de mínimos cuadrados ordinarios es eficiente propiedad que
analizaremos en los capítulos 3 y 4. Por otro lado, los supuestos 2, 3 y 4 garantizan que los
errores del modelo son ruidos blancos.
Sexto supuesto: El modelo es lineal en los parámetros.
Se dice que un modelo tiene una especificación lineal cuando la variable endógena Y, o
alguna transformación monotónica de la misma, se puede expresar como una función lineal de
X o de alguna transformación de ella. Al respecto, consideremos las siguientes relaciones:
Y = α + βX +µ (1.26)
Y = β0 + β1 X + β2 X2
+ β3 X3
+µ (1.27)
Y = β0 + β2
1 X1+ √β2 X2 +µ (1.28)
La ecuación (1.26) muestra una relación lineal simple, mientras que la (1.27) es un modelo
lineal en parámetros, más no en las variables. Por otro lado, la ecuación (1.28) no es lineal en
parámetros, ni tampoco puede reducirse a una función que exprese una relación lineal.
Ahora se considera el siguiente modelo que busca predecir la cantidad demandada(Q) dadas
las observaciones muestrales de la variable explicativa precio(P). El análisis de este modelo
implica la estimación de los parámetros α y β, sin embargo, y de acuerdo al supuesto de
linealidad, el modelo deberá ser transformado de la siguiente manera:
µ
β
α e
P
Q = (1.29)
LnQ = lnα +βlnP +µ (1.30)
La linealiadad en los parámetros es relevante para el análisis de regresión, por consiguiente, de
ahora en adelante cuando se diga que una regresión es lineal se referirá a una regresión que es
lineal en los parámetros. Sin que esto necesariamente implique que también lo sea en las
variables explicativas (X).
Séptimo supuesto: Los parámetros son constantes entre observaciones.
Conocido también como el supuesto de estabilidad temporal, éste implica que los
coeficientes del modelo de regresión lineal son constantes en el tiempo. Igualmente, se supone
que el modelo es idéntico para todas las observaciones de la muestra. De hecho, este supuesto
resulta esencial no sólo si se pretende modelar la estructura que gobierna el comportamiento de
la variable dependiente sobre la base de las independientes, sino principalmente si se busca que
el modelo realice predicciones confiables. Así, si la estructura que modela la variable
dependiente se mantiene inalterada a lo largo de todo el intervalo muestral, podemos asumir que
esta misma estructura se mantiene para periodos fuera del intervalo de la muestra y utilizar la
misma para predecir, este procedimiento es conocido como extrapolación.
Octavo supuesto: Causalidad unidireccional.
El análisis de regresión supone la existencia de una relación causal desde las variables
independientes (X) hacia la variable dependiente (Y).
Cabe mencionar que desde un punto de vista meramente estadístico, el modelo de regresión
no necesariamente tiene una connotación de causalidad. Es decir, de la misma manera como se
Econometría Moderna El Modelo de Regresión Lineal
24
puede estimar una regresión de una variable dependiente Y sobre otra variable independiente X,
se puede estimar una regresión de modo inverso.
En cambio, al plantear un modelo econométrico se debe tener cuidado al especificar las
variables, y definir tanto las explicativas (consideradas fijas), como la variable a explicar
(considerada aleatoria). Así, el investigador debe decidir el papel que le otorga a las diferentes
variables de modo que sólo exista una dirección en la relación de causalidad. A manera de
ejemplo, recordemos que la teoría cuantitativa del dinero afirma que el volumen de
transacciones en una economía es igual a la cantidad de dinero que rota en la misma.
Formalmente:
P.Q=M.V (1.31)
donde:
P= precio
Q= producto
M= dinero
V= velocidad de circulación constante.
En la ecuación anterior existe una relación causal que va de M hacia P, es decir, el nivel de
precios es explicado por la cantidad de dinero en la economía. Sin embargo, no se cumple lo
contrario, puesto que el nivel de precios es una variable aleatoria (endógena), mientras que M es
fija o determinística (exógena).
Sin duda, en términos estadísticos podríamos estimar una relación de este tipo, esto es, una
regresión de la cantidad de dinero sobre el nivel de precios, sin embargo, esta especificación no
tendría ningún sustento teórico. En este sentido, el investigador debe decidir a priori cuál es la
especificación que va a utilizar sobre la base de la teoría que busca verificar y una vez decidida,
se supone una única dirección causal
Noveno supuesto: Las variables explicativas son linealmente independientes.
Este supuesto implica que ninguna de las variables explicativas involucradas en el modelo
puede expresarse en términos de una combinación lineal exacta de las demás. Si alguna de las
variables explicativas fuera una combinación lineal de otra significaría que la primera no aporta
nada adicional al modelo o que los efectos individuales que ésta puede tener sobre la variable
dependiente se confunden con los de la segunda. Este problema es conocido como
multicolinealidad, el cuál será abordado con detalle en el Capítulo (9)
Décimo supuesto: Las variables independientes son fijas o determinísticas (no aleatorias)
Si revisamos con cuidado el análisis hasta ahora expuesto, notaremos que este supuesto ha
estado implícito desde el inicio del capítulo. Este supuesto implica que de poderse repetir el
proceso de muestreo numerosas veces, los valores observados de las variables exógenas no
deben cambiar.
Cuando se trabaja con datos de series temporales, es común la aparición de valores
retardados de la variable explicada (Y) como variables explicativas, ya que a veces las variables
económicas no toman de inmediato el valor esperado por los agentes, y de ese modo incorporan
cierta inercia. De este modo, cuando los retardos (o rezagos) son incluidos en el modelo de
regresión como variables explicativas, se dice que son predeterminadas o en términos más
formales, que son realizaciones del proceso que gobierna el comportamiento de la variable
explicada. Este caso específico se analizará en un capítulo posterior.
3. A MODO DE RESUMEN
Econometría Moderna El Modelo de Regresión Lineal
25
En este capítulo hemos revisado los conceptos básicos que están detrás del análisis de regresión
así como aquellos relevantes respecto a las variables incluidas en el modelo. De la misma
manera hemos revisado los principales supuestos que se realizan con respecto al modelo lineal
general que analizaremos en buena parte del libro. Debe entenderse que estos supuestos son, en
algunos casos, muy restrictivos y será interesante analizar cuáles son los efectos de la relajación
de los mismos sobre los distintos estimadores que estudiaremos más adelante. Habiendo
establecido el lenguaje común que utilizaremos a partir de ahora es importante iniciar la
exploración de los distintos caminos con los que contamos para a obtención de los parámetros
desconocidos de nuestro modelo. En primer lugar, analizaremos el estimador de mínimos
cuadrados ordinarios que es uno de los más analizados y el mejor cuando trabajamos con
modelos lineales.
C
CA
AP
PI
IT
TU
UL
LO
O 2
2
E
EL
L M
ME
ET
TO
OD
DO
O D
DE
E E
ES
ST
TI
IM
MA
AC
CI
IÓ
ÓN
N D
DE
E M
MÍ
ÍN
NI
IM
MO
OS
S C
CU
UA
AD
DR
RA
AD
DO
OS
S
O
OR
RD
DI
IN
NA
AR
RI
IO
OS
S:
:
M
MO
OD
DE
EL
LO
O D
DE
E R
RE
EG
GR
RE
ES
SI
IÓ
ÓN
N B
BI
IV
VA
AR
RI
IA
AD
DO
O
2
2.
.1
1.
. I
IN
NT
TR
RO
OD
DU
UC
CC
CI
IÓ
ÓN
N
Una vez revisados los conceptos básicos en el capítulo 1 estamos listos para iniciar nuestro
camino con el fin de entender la forma más utilizada de estimar los parámetros de un modelo
lineal: El estimador de mínimos cuadrados ordinarios. Como se mencionó en la sección 1.1.4 el
método de Mínimos Cuadrados Ordinarios (MCO) presupone una minimización de la suma de
los errores elevados al cuadrado, para de ese modo estimar los parámetros de la regresión.
Recordemos que para obtener los parámetros partimos de un problema de predicción
condicional donde el mejor predictor de Y condicional en X es una predicción que minimiza la
pérdida esperada con respecto de una función de pérdida específica. Esta función depende de
criterios arbitrarios, algunos de los cuales han sido descritos en la sección (1.1.3):
En este capítulo, iniciaremos nuestro estudio sobre la estimación de los parámetros tomando
en cuenta el modelo de regresión bivariado, modelo de regresión simple o modelo lineal
simple. Este modelo puede ser planteado de la siguiente manera:
i
i
i X
Y µ
β
β +
+
= 1
0 (2.1)
En este caso, observamos que la variable dependiente sólo es explicada por una variable
independiente aparte de la inclusión del intercepto. Debe hacerse una aclaración en este caso
porque muchos lectores pensarán que el intercepto podría ser considerado como una variable
explicativa adicional. Sin embargo, debemos recordar que el intercepto recoge el efecto
promedio de aquellas variables no incluidas en el modelo. Su inclusión no implica que exista
Econometría Moderna MCO: El Modelo de Regresión Bivariado
28
una relación sistemática entre las variaciones de una variable independiente y la dependiente por
lo que su inclusión no es importante como variable explicativa sino para guardar cierta
consistencia de los resultados.
El modelo presentado en la expresión anterior es un modelo teórico. Para poder iniciar el
proceso de estimación de los parámetros desconocidos debemos plantear nuestro modelo
empírico, el cual toma la siguiente forma:
i
i
i e
X
Y +
+
= 1
0
ˆ
ˆ β
β (2.2)
En este caso, estamos reemplazando los parámetros desconocidos por sus estimadores y el
término de error es reemplazado por el error empírico (e). En este caso la primera parte de la
expresión, expresada por:
i
i X
Y 1
0
ˆ
ˆ
ˆ β
β +
= (2.3)
será la parte predicha (o explicada) por el modelo. Esto representará nuestro estimado de la
media condicional de la distribución de Y.
2
2.
.2
2.
. M
MÉ
ÉT
TO
OD
DO
O D
DE
E E
ES
ST
TI
IM
MA
AC
CI
IÓ
ÓN
N D
DE
E M
MÍ
ÍN
NI
IM
MO
OS
S C
CU
UA
AD
DR
RA
AD
DO
OS
S P
PA
AR
RA
A U
UN
N M
MO
OD
DE
EL
LO
O D
DE
E
R
RE
EG
GR
RE
ES
SI
IÓ
ÓN
N L
LI
IN
NE
EA
AL
L S
SI
IM
MP
PL
LE
E
Como ya se mencionó, en este modelo la variable endógena sólo se explica mediante una
variable exógena fija o no aleatoria. El criterio de mínimos cuadrados ordinarios implica
resolver el siguiente problema de minimización:
Min ∑
=
n
i
i
e
1
2
Con respecto a 1
0 β
β y , siendo :
)
1
ˆ
0
ˆ
(
i
X
i
Y
ei β
β −
−
= (2.4)
Así, planteamos el problema de minimización de la forma:
1
0
2
1
0
ˆ
,
ˆ
)
ˆ
ˆ
(
β
β
β
β i
i X
Y
Min −
∑ − (2.5)
si derivamos con respecto a los parámetros, obtenemos las siguientes ecuaciones de primer
orden:
∑
−
=
−
−
∑
−
=
∂
∑
∂
i
i
i
i
e
X
Y
e
2
)
ˆ
ˆ
(
2
ˆ
)
(
1
0
0
2
β
β
β
(2.6)
i
i
i
i
i
i
X
e
X
e
X
Y ∑
∑
∑ −
=
−
−
−
=
∂
∂
2
)
ˆ
(
2
)
(
1
0
1
2
ˆ
ˆ
β
β
β
(2.7)
Si desarollamos estas dos expresiones y las simplificamos, obtenemos las siguientes
fórmulas:
Econometría Moderna MCO: El Modelo de Regresión Bivariado
29
∑
+
∑ ∑
= i
i X
Y 1
0
ˆ
ˆ β
β (2.8)
∑
+
∑ ∑
= 2
1
0
ˆ
ˆ
i
i
i
i X
X
Y
X β
β (2.9)
Estas ecuaciones son llamadas ecuaciones normales de la línea de regresión. Más adelante
veremos que cada una de ellas implica que cada regresor es ortogonal al vector de errores
mínimocuadráticos. Como vemos es un sistema de ecuaciones donde el número de incógnitas es
igual al número de ecuaciones. Si el sistema está exactamente identificado, entonces existe una
solución única.
Para resolver este sistema conviene plantearlo en forma matricial para luego resolverlo
utilizando para ello el método de Kramer. Si escribimos el sistema en forma matricial podemos
expresarlo de la siguiente manera:
(2.10)
Aplicando el método de solución descrito, obtenemos las siguientes soluciones:
( )
( )
( )
2
2
2
2
2
0
ˆ
∑
∑ −
∑ ∑ ∑
−
∑
=
∑
∑
∑
∑
∑
∑
∑
=
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
X
X
n
Y
X
X
X
Y
X
X
X
n
X
Y
X
X
Y
β (2.11)
( )
( )
( )
2
2
2
1
ˆ
∑
−
∑
∑ ∑
∑
−
=
∑
∑
∑
∑
∑
∑
=
i
i
i
i
i
i
i
i
i
i
i
i
X
X
n
Y
X
Y
X
n
Xi
X
X
n
Y
X
X
Y
n
β
Si se trabaja con el denominador y numerador de 1
β̂ , y los dividimos entre n, podemos
llegar a las expresiones siguientes, las cuales resultan mucho más comprensibles en términos
estadísticos:
( ) ( )
n
X
n
X
n
X
X i
i
i
2
2
2
2
−
∑
=
∑
−
∑ (2.12)
2
2
X
n
Xi −
∑
=
2
)
X
X
( i
∑ −
= (2.13)




=
















∑
∑
∑
∑
∑
i
i
i
i
i
Y
X
Y
X
X
X
n
1
0
2 ˆ
ˆ
β
β
Econometría Moderna MCO: El Modelo de Regresión Bivariado
30
Y
X
n
Y
X
Y
X
n
Y
X i
i
i
i
i
i −
∑
∑ =
∑
∑
− )
/
1
(
= Y
X
n
Y
X
n
Y
X
n
Y
X i
i −
+
−
∑
∑
−
∑
+
∑
−
∑
= i
i
i
i Y
X
Y
X
Y
X
Y
X (2.14)
Nótese que la última ecuación puede simplificarse como:
.
( )( )
∑ −
− X
X
Y
Y i
i (2.15)
Reemplazando las ecuaciones (2.13)y (2.15) en la expresión (2.11) se tiene:
( )( )
( ) )
(
)
,
(
ˆ
2
1
X
Var
Y
X
Cov
X
X
X
X
Y
Y
i
i
i
=
∑ −
∑ −
−
=
β (2.16)
La última ecuación muestra que el estimador de Mínimos Cuadrados se puede expresar en
función de los datos muestrales. Donde Y y X expresan las medias muestrales de la variable
endógena y exógena, respectivamente. Para simplificar podemos definir las siguientes variables:
Esta notación se utilizará para representar las desviaciones con respecto a los valores medios
de X e Y, y también para estimar el modelo en desviaciones en un capítulo posterior. Esta
representación resulta una herramienta interesante para demostrar algunas propiedades del
estimador de MCO.
Por otro lado, el intercepto de la función de regresión muestral )
ˆ
( 0
β puede representarse
utilizando la primera ecuación normal y dividiendo ésta entre el tamaño muestral (n):
X
Y 1
0
ˆ
ˆ β
β −
= (2.17)
Con esto se demuestra una propiedad importante del estimador mínimo cuadrático: si el
modelo tiene un intercepto, la línea de regresión pasa por los valores medios de Y y X.
Las ecuaciones (2.16) y (2.17) son de mucha utilidad dado que nos permiten escribir los
estimadores MCO como una función de estadísticos muestrales, sin necesidad de resolver las
ecuaciones normales. El primer paso consiste en calcular la pendiente de X ( 1
β̂ ), para luego
reemplazar dicho valor en la ecuación (2.17). Para ilustrar este método de estimación
consideremos el siguiente ejemplo:
Ejemplo
El gerente de ventas de una tienda de electrodomésticos desea conocer la relación existente
entre el número de artefactos vendidos y el número de representantes de ventas, para luego
(
( )
Y
Y
y
X
X
x
i
i
i
i
−
=
−
=
Econometría Moderna MCO: El Modelo de Regresión Bivariado
31
hacer algunas predicciones acerca de las ventas del próximo año. Para tal fin el gerente observa
las ventas efectuadas en diez días diferentes (ver la Tabla 2.1) Como se anotó en la sección
(1.1.2) se debe plantear un modelo de regresión lineal y a su vez especificar el papel que
desempeña cada una de las variables en función al estudio que se desea realizar. Por lo tanto, en
este caso se define la variable explicativa (X) como el número de representantes de ventas y la
variable explicada (Y) como el número de artefactos vendidos.
Tabla 2.1
DÍAS i
X i
Y i
i Y
X
2
X i
Ŷ i
i
i Y
Y
e ˆ
−
=
1 1 3 3 1 7 -4
2 1 6 6 1 7 -1
3 1 10 10 1 7 3
4 2 5 10 4 8 -3
5 2 10 20 4 8 2
6 2 12 24 4 8 4
7 3 5 15 9 9 -4
8 3 10 30 9 9 1
9 3 10 30 9 9 1
10 2 9 18 4 8 1
Totales 20 80 166 46 80 0
Utilizando la tabla anterior y reemplazando los datos correspondientes a las ecuaciones
normales halladas anteriormente, se tiene:
1
0
ˆ
20
ˆ
10
80 β
β +
=
1
0
ˆ
46
ˆ
20
166 β
β +
=
Si se despeja de la primera ecuación el intercepto y se reemplaza dicho valor en la segunda
se obtienen los siguientes estimadores MCO:
1
ˆ
6
ˆ
1
0
=
=
β
β
Evidentemente, si utilizamos las ecuaciones obtenidas a través del método de Kramer,
también se deben obtener los mismos resultados. La comprobación queda para el lector.
Se puede utilizar el ejemplo anterior para hallar la función de regresión muestral, es decir la
regresión de Y con respecto a X. Formalmente:
i
i X
Y +
= 6
ˆ
Si se sustituyen las observaciones muestrales de X en la ecuación anterior, obtenemos la
sexta columna de la Tabla 2.1 )
ˆ
( i
Y . Estos valores representan las estimaciones de la variable
dependiente obtenidas a través de los parámetros calculados por el método MCO. Comparando
estos valores con aquellos observados para la variable dependiente hallamos los errores
correspondientes a cada observación de la muestra. Debido a que el modelo incluye un
intercepto o término constante, se verifica que la suma de errores estimados es cero.
Econometría Moderna MCO: El Modelo de Regresión Bivariado
32
Hasta aquí el lector ya debe estar apto para estimar una regresión bajo el método de Mínimos
Cuadrados Ordinarios y debe tener claro los siguientes conceptos: regresión, parámetros, línea
de regresión, estimadores, estimación, errores estocásticos. En la siguiente sección, se detallarán
las propiedades del estimador mínimo cuadrático, las que como se verá, resultan de suma
importancia para el análisis de regresión.
Algo importante que debe recalcarse es que todo estimador es una función de los datos y
como éstos pueden cambiar en cada muestra tenemos que serán variables aleatorias. Alguien
podría decir que si las X están fijas siempre tendremos la misma muestra pero pensando de
dicha forma se dejaría de lado la naturaleza aleatoria de Y que, sabemos, depende del vector de
errores. Estos errores no son fijos y si tomamos una nueva muestra podrían variar lo que
implicaría un nuevo valor de Y para cada realización de la muestra.
Si reemplazamos en nuestro estimador una muestra determinada (valores observados de
variables aleatorias) obtendremos los estimados. Por tanto, un estimado es un valor particular de
la función de los datos (estimador) cuando utilizamos una muestra en particular. Es importante
hacer esta distinción porque las propiedades que se analizarán más adelante se referirán a la
variable aleatoria llamada estimador.
2
2.
.3
3.
. P
PR
RO
OP
PI
IE
ED
DA
AD
DE
ES
S D
DE
EL
L E
ES
ST
TI
IM
MA
AD
DO
OR
R M
MC
CO
O
Básicamente son dos la propiedades muestrales que nos interesan analizar del estimador
MCO. Estas son el insesgamiento y la eficiencia. Intuitivamente la primera se refiera a que el
centro de la distribución del estimador es igual al parámetro verdadero mientras que la segunda
nos asegura que nuestro estimador será el de varianza mínima lo que nos dará una mayor
seguridad porque el grado de imprecisión inherente será menor. Estas dos propiedades son
aquellas que denominaremos de muestras pequeñas.
2.3.1 Insesgamiento del estimador MCO.
Formalmente la propiedad de insesgamiento se puede establecer de la siguiente forma:
( ) 0
)
ˆ
( =
− β
β
E
E
Esto quiere decir que el centro de la distribución del estimador de mínimos cuadrados
ordinarios coincide con el verdadero valor del parámetro. Si se cumple esta propiedad podemos
usar con cierta tranquilidad nuestro estimador porque sabremos que cada estimado que
obtengamos provendrá de una distribución cuya media es el verdadero valor del parámetro por
lo que el estimado será equivalente, en términos estadísticos al verdadero parámetro1
.
Para verificar esta propiedad, recordemos la expresión del estimador MCO:
!
( )( )
( )
( ; )
( )
β1 2 2
=
− −
−
= =
∑
∑
∑
∑
Y Y X X
X X
Cov X Y
Var X
x y
x
i i
i
i i
i
(2.28)
Trabajando con el numerador:
1
Debemos mencionar que ello no implica que nuestro estimado particular sea exactamente igual al verdadero
parámetro. De hecho podríamos tener otra muestra y obtener otro estimado. Si el estimador es insesgado, entonces
este nuevo estimado también podremos utilizarlo e interpretarlo como equivalente, en términos estadísticos, al
verdadero parámetro.
Econometría Moderna MCO: El Modelo de Regresión Bivariado
33
( )( ) ( ) ( )
X X Y Y X X Y Y X X
i i i i i
− − = − − −
∑ ∑ ∑
y dado que ya conocemos que ( )
X X
i − =
∑ 0, podemos reexpresar el numerador de la
ecuación (2.28), de la forma2 :
x y x Y
i i i i
= ∑
∑ (2.29)
Ahora, y por propiedades matemáticas de las sumatorias, se puede expresar la ecuación
(2.28) como:
i
i
i
y
x
x
∑








∑
=
2
1
β̂
= ∑k y
i i (2.30)
Siendo:
k
x
x
i
i
i
=
∑ 2
(2.31)
Así, se dice que el estimador MCO es lineal, ya que es una función lineal de la variable
endógena (Y). Nótese que en la ecuación (2.30), !
β1 es una combinación lineal ponderada de Y,
donde ki representa las ponderaciones y dado que las X son fijas estas ponderaciones se pueden
interpretar como constantes.
Digresión:
Propiedades de ki :
i. Las ki son no estocásticas, debido a que las X tampoco lo son.
ii. ki
∑ =
x
x
x
x
i
i
i
i
2 2
0
∑
∑
∑
∑








= =
Dado que xi representa la desviación de dicha variable respecto a su media, el numerador es
siempre cero. Además, se sabe que la suma de las desviaciones al cuadrado, para cualquier
muestra dada, es un valor conocido y diferente de cero.
iii. ki
2
∑ =
( )
x
x x
i
i i
2
2 2 2
1
∑
∑ ∑
=
iv.
( )
k x
x
x
i i
i
i
∑
∑
∑
= =
2
2
1
2
Nótese que únicamente el término Y X X
i
( )
−
∑ puede ser igualado a cero.
Econometría Moderna MCO: El Modelo de Regresión Bivariado
34
Las propiedades anteriores son de mucha utilidad para verificar la insesgabilidad y la
eficiencia del estimador MCO, como se verá más adelante.
Antes de revisar estas propiedades, conviene recordar que uno de los supuestos del modelo
de regresión lineal afirma que las observaciones de X son fijas, es decir, no varían si se utiliza
otra muestra de igual tamaño. En cambio, no se debe olvidar que las observaciones de Y sí
serían diferentes de repetir el proceso de muestreo, debido a que incluye un componente
aleatorio µi cuyas realizaciones variarían al cambiar de muestra. Estos conceptos se utilizarán
repetidamente en la demostración de las propiedades.
Con esto en mente, pasemos ahora a verificar las propiedades del estimador MCO. En primer
lugar, sustituyamos en (2.29) la ecuación del modelo teórico de regresión (1.17) para luego, y
con la ayuda de las propiedades enunciadas en la digresión, demostrar la insesgabilidad de los
estimadores
Resulta fácil comprobar que en la ecuación (2.30) resulta indiferente multiplicar las
ponderaciones por yi o por Yi, para ello se debe reemplazar (2.29) en (2.28) . Así tenemos que:
! ( )
β β β µ
1 0 1
= = + +
∑ ∑
k Y k X
i i i i i
= + +
∑
∑ ∑
k k X k
i i i i i
β β µ
0 1
= + +
= + +
∑
∑ ∑
∑
β β µ
β β µ
0 1
0 1
0 1
k k X k
k
i i i i i
i i
( ) ( )
(2.31)
En la ecuación (2.31) se han utilizado la segunda y cuarta propiedad de ki . Ahora, y dado
que un estimador insesgado es aquél cuya esperanza matemática es idéntica al verdadero valor
del parámetro que se desea estimar, se tomará esperanzas a la ecuación anterior.
( )
E E E k k E
i i i i
(! ) ( ) ( )
β β µ β µ
1 1 1
= + = +
∑ ∑
= +∑
β1 0
ki ( )
E(! )
β β
1 1
= (2.33)
Por consiguiente, se comprueba que !
β1 es un estimador insesgado de β1. Ahora y para
verificar el insesgamiento del estimador del intercepto (β0 ), dividamos la ecuación (1.17) entre
el tamaño muestral (n) para calcular la esperanza de la expresion resultante:
Y X
= + +
β β µ
0 1 (2.34)
E Y E X E X
( ) ( ) ( )
= + + = +
β β µ β β
0 1 0 1 (2.35)
Reemplazando las expresiones (2.33) y (2.35) en la ecuación de la línea de regresión
muestral3(2.17) se obtiene:
3
En adelante, de no indicar lo contrario, nos referiremos a la línea de regresión muestral o estimada, esto es, β̂
i
X .
Econometría Moderna MCO: El Modelo de Regresión Bivariado
35
! !
β β
0 1
= −
Y X
E E Y E X
( ! ) ( ) (! )
β β
0 1
= −
E X E X
( ! ) ( ) ( ! )
β β β β
0 0 1 1
= + −
= + −
β β β
0 1 1
X X
E( ! )
β β
0 0
= (2.36)
De esta manera queda comprobado que los estimadores mínimo cuadráticos de los
verdaderos parámetros, β0 y β1, son insesgados.
2.3.2. Varianzas y covarianzas de los estimadores de MCO
Nótese en las ecuaciones de los estimadores MCO (2.17) y (2.28), que la naturaleza aleatoria
de los mismos proviene de la variable endógena Y, la cuál es estocástica debido a la inclusión
del término de error en el modelo. Por consiguiente, los estimadores !
β son una variable
aleatoria que provienen de una distribución de probabilidad cuya esperanza matemática es el
verdadero valor del parámetro lo que implica que es el valor con la mayor probabilidad de
ocurrencia. Adicionalmente a lo anterior, es preciso disponer también de medidas de dispersión
de los estimadores, de modo que se pueda juzgar el grado en que se aproximan al verdadero
valor del parámetro que se pretende estimar . De ese modo, y para efecto de contrastar si los
regresores cumplen con ciertas condiciones teóricas mediante el análisis de inferencia
estadística, se hallará la expresión analítica de la varianza de cada uno de los estimadores !
β y
una medida de dependencia entre ellos, es decir la covarianza. Así, y partiendo de la expresión
!
β1 (2.32) tenemos:
!
β β µ
1 1
= +∑ki i
!
β β µ
1 1
− = ∑ki i (2.37)
Ahora, recordemos que la varianza puede expresarse en los siguientes términos:
[ ]
Var E E
(! ) ! (! )
β β β
1 1 1
2
= − (2.38)
y dado que el estimador MCO es insesgado, tenemos que:
[ ]
Var E
( ! ) !
β β β
1 1 1
2
= − (2.39)
Sustituyendo la expresión (2.37) en (2.39), queda:
[ ]
Var E ki i
(! )
β µ
1
2
= ∑
= + + +
E k k kn n
( ... )
1 1 2 2
2
µ µ µ
Econometría Moderna MCO: El Modelo de Regresión Bivariado
36
= + + + + + + − −
E k k k k k k k
n n n n n n
( ... ... )
1
2
1
2
2
2
2
2 2 2
1 2 1 2 1 1
2 2
µ µ µ µ µ µ µ
(2.40)
La expresión anterior puede simplificarse si consideramos los supuestos de
homocedasticidad y no autocorrelación. Así tenemos que:
∑
=
∑
=
∑
2
2
2
2
2
2
)
(
)
(
i
i
i
i
i
k
E
k
k
E
µ
σ
µ
µ
0
)
(
)
( =
∑
=
∑ j
i
j
i
j
i
j
i E
k
k
k
k
E µ
µ
µ
µ
y, reemplazando las ecuaciones precedentes, se obtiene:
( )
Var k
x
x X X
i
i
i i
(! )
( )
β σ µ σ µ σ µ
1
2 2 2
2
2 2
2
2
1
= = =
−
∑
∑ ∑
∑ (2.41)
Nótese en la expresión anterior que la varianza de !
β1depende directamente de la varianza
del término de error y mantiene una relación indirecta con las observaciones de la muestra
tomada. En tal sentido, y dada σ µ
2
, cuanto mayor sea la variabilidad de los valores de X,
menor será la varianza del estimador y de este modo la estimación de β1 será más precisa. Por
otro lado, y dada las observaciones de X, cuanto mayor sea la varianza de µ mayor será la del
estimador. Por lo tanto, para garantizar una mayor precisión en la estimación debemos buscar
que las variables explicativas presenten mucha variabilidad.
Por otro lado, para hallar la varianza del estimador del intercepto ( !
β0 ) debemos partir de la
ecuación de la línea de regresión (2.18) y reemplazar la especificación para la media de la
variable endógena (2.34) para obtener:
! ( ) !
β β β µ β
0 1
0 1
= + + −
X X
! (! )
β β β β µ
0 1
0 1
= − − +
X (2.42)
Ahora, y dado que:
!
β β µ
1 1
− = ∑ki i
la ecuación (2.42) se puede escribir como:
( )
!
β β µ µ
0 0
= − ∑ +
ki i X
( )
(! )
β β µ µ
0 0
− = − ∑ +
ki i X (2.43)
Utilicemos ahora un procedimiento similar al propuesto para la varianza del estimador de la
pendiente:
Econometría Moderna MCO: El Modelo de Regresión Bivariado
37
[ ] ( )
( )
Var E E ki i X
(! ) !
β β β µ µ
0 0 0
2 2
= − = − ∑ +
( ) ( )
Var E ki i X X ki i
(! ) ( )
β µ µ µ µ
0
2 2 2
2
= ∑ + ∑


 


− (2.44)
Dado que el valor esperado afecta únicamente a las variables aleatorias, la expresión
anterior, puede representarse como:
Var X E k k E
X
n
E k k k k
n n n n n n n
(! ) ( ... ) ( ) ( ... ... )
β µ µ µ µ µ µ µ µ µ
0
2
1
2
1
2 2 2 2
1 1
2 2
1 1 2 1
2
= + + + − + + + + + −
Por la demostración de la varianza de (! )
β1 , sabemos que:
E k kn n
( ... )
1
2
1
2 2 2
µ µ
+ + = σ µ
2
2
1
( )
X X
i −
∑
y además, por las propiedades de ki y por el supuesto de no autocorrelación entre los errores, se
tiene que:
E k k k k k k E
n n n n n i i i j
( ... ..... ) ( ) ( ) ( )
1 1
2 2
1 1 2 1
2 2
0 0 0
µ µ µ µ µ µ σ µ µ µ σ µ
+ + + + + = + = + =
− ∑ ∑
Ahora, y a partir del tercer y cuarto supuesto del modelo de regresión lineal sabemos que:
E E
n n
n
n
n n n
( ) ( ... ... ) ( )
µ µ µ µ µ µ µ µ σ µ
σ µ
2
2 1
2
2
2 2
1 2 1 2
2
2
1 1
= + + + + + + = =
−
Dadas las expresiones anteriores, la varianza del estimador del intercepto se reduce a:
Var X
X X n
X
X X n
i i
( ! )
( ) ( )
β σ µ
σ µ
σ µ
0
2 2
2
2
2 2
2
1 1 1
=
−
+ =
−
+








∑ ∑
(2.45)
Conociendo la especificación para la varianza de cada uno de los estimadores involucrados,
pasemos ahora a analizar su covarianza. Como sabemos, la definición de covarianza viene dada
por:
[ ][ ]
( )
Cov E E E
(! , ! ) ! (! ) ! (! )
β β β β β β
0 1 0 0 1 1
= − − (2.46)
dada la propiedad de insegabilidad, la ecuación anterior puede escribirse como:
[ ][ ]
( )
Cov E
(! , ! ) ! ( ) ! ( )
β β β β β β
0 1 0 0 1 1
= − − (2.47)
Ahora, recuérdese que :
Econometría Moderna MCO: El Modelo de Regresión Bivariado
38
! !
β β
0 1
= −
Y X
y tomando esperanzas:
)
ˆ
(
)
ˆ
( 1
0 X
E
Y
E β
β −
= 4
(2.48)
Restando las dos expresiones anteriores tenemos:
! (! )
β β β β
0 1
0 1
− = − − X (2.49)
y sustituyendo la última expresión en (2.47), resulta:
[ ]
Cov E X
(! , ! ) (! )
β β β β
0 1 1
2
1
= − −
= − −
XE(! )
β β
1
2
1 (2.50)
Considerando las definiciones propuestas en (2.39) y (2.41), la covarianza entre los
estimadores MCO vendría dado por:
Cov XVar
(! , ! ) (! )
β β β
0 1 1
= −
∑ −
−
= 2
2
)
(
1
X
X
X
i
µ
σ (2.51)
Resumiendo las expresiones obtenidas para la varianza y la covarianza de los estimadores
MCO, se tiene:
Var
x X X
i i
(! )
( )
β
σ µ σ µ
1
2
2
2
2
= =
−
∑ ∑
Var
X
X X n
i
(! )
( )
β σ µ
0
2
2
2
1
=
−
+








∑
Cov X
X X
i
(! , ! )
( )
β β
σ µ
0 1
2
2
= −
−
∑
Nótese que las formulas anteriores pueden ser estimadas a partir de los datos muestrales
excepto por el elemento ( σ µ
2
). Por ello, es preciso estimar mediante el método de Mínimos
Cuadrados Ordinarios el valor de la varianza del modelo, pues como se recordará, la naturaleza
aleatoria de la variable endógena proviene del término de error, por lo que la varianza de Y
resulta igual a la varianza de µ .
4
Recuérdese que Y X
= + +
β β µ
0 1 , donde µ = 0 dado que µi =
∑ 0 . En este caso, la presencia de un término
independiente resulta también indispensable. Recuérdese que el componente aleatorio de un modelo de regresión
lineal es ortogonal al componente determinístico y, en este sentido, se verifica que: β µ
0 0
i
∑ = . Así, E Y Y
( ) = .
Econometría Moderna MCO: El Modelo de Regresión Bivariado
39
2.3.3. La eficiencia del Estimador MCO: El Teorema de Gauss Markov
El cálculo de las varianzas y covarianzas de los estimadores MCO del modelo lineal simple
es indispensable para conocer el grado de dispersión que presenta nuestro estimador. Sin
embargo, si deseamos tener una mayor confiabilidad en nuestro estimador deberíamos tener
alguna certeza que dicha varianza es la menor posible5
. Eso es lo que analiza el Teorema de
Gauss-Markov.
El teorema en palabras simples establece lo siguiente: Los estimadores obtenidos por el
método de Mínimos Cuadrados Ordinarios resultan los mejores estimadores lineales e
insesgados (MELI) pues poseen la mínima varianza entre todas las clases de estimadores
lineales e insesgados.
Para verificar esta propiedad, recordemos que el estimador MCO !
β1puede escribirse como:
! ( )
β β β µ
1 0 1
= = + +
∑ ∑
k Y k X
i i i i i
Ahora, y con el objetivo de demostrar que este estimador es el de mínima varianza,
definamos un estimador lineal alternativo de la forma. En este caso el procedimiento que vamos
a utilizar implica analizar otro estimador arbitrario y si comprobamos que el estimador MCO
tiene menor varianza, podremos generalizar nuestro resultado al resto de estimadores lineales e
insesgados. Teniendo esto en perspectiva definamos otro estimador de la siguiente forma:
~
β1 = ∑v Y
i i (2.55)
De este modo, vi representa las nuevas ponderaciones, las que no necesariamente presentan
las mismas propiedades de ki . Teniendo esto presente, pasemos a comprobar si este nuevo
estimador cumple con la propiedad de insesgamiento:
( )
E E v Y v E Y
i i i i
(
~
) ( )
β1 = =
∑ ∑
= + +
∑v E X
i i i
( )
β β µ
0 1
= + ∑
∑
β β
0 1
v v X
i i i
Así, para que el nuevo estimador sea insesgado se debe cumplir que:
vi
∑ = 0 (2.56)
v X
i i
∑ = 1 (2.57)
Nótese que las dos expresiones precedentes son iguales a las propiedades de ki, enunciadas
anteriormente. Ahora, reemplazando la ecuación (2.55) en la fórmula de la varianza del
estimador, se tiene:
( )
Var Var v Y
i i
(
~
)
β1 = ∑
( )
= ∑v VarY
i i
2
5
En resumen lo que se busca es determinar si el estimador MCO es eficiente.
Econometría Moderna MCO: El Modelo de Regresión Bivariado
40
Como se recordará la varianza de la variable endógena es igual a la del error ( 2
µ
σ ) de modo
que la expresión anterior queda como:
∑
= 2
2
1 )
~
( i
v
Var µ
σ
β (2.58)
Con el fin de escribir la expresión anterior en términos más conocidos, hagamos el siguiente
artificio:
2
2
2
2
∑
∑
∑ 







+
−
=
i
i
i
i
i
x
x
x
x
v
µ
σ








+








−
+








−
=
∑
∑
∑
∑
∑
∑ 2
2
2
2
2
2
2
2 1
2
i
i
i
i
i
i
i
i
i
x
x
x
x
x
v
x
x
v µ
µ
µ σ
σ
σ








+








−
+








−
=
∑
∑
∑
∑
∑
∑ 2
2
2
2
2
2
2
2 1
2
i
i
i
i
i
i
i
i
i
x
x
x
x
x
v
x
x
v µ
µ
µ σ
σ
σ
El segundo término de la expresión anterior es igual a cero, por lo siguiente:
( ) ( )
v
x
x
x
x
v
x
x
x
x
v x
x
x
x
i
i
i
i
i
i
i
i
i
i
i i
i
i
i
−








= −










= −
∑
∑
∑
∑
∑ ∑
∑
∑
∑
∑
∑
2 2 2
2
2 2 2
2
2 2
= − =
∑ ∑
1 1
0
2 2
x x
i i
Este resultado se obtiene debido a que el estimador
~
β1es insesgado y por tanto se cumplen
las condiciones (2.56) y (2.57). Resumiendo, la varianza de
~
β1se expresa como:








+








−
=
∑
∑
∑ 2
2
2
2
2
1
1
)
~
(
i
i
i
i
x
x
x
v
Var µ
µ σ
σ
β
Si analizamos la expresión anterior, notaremos que el segundo sumando es constante e igual
a la varianza de !
β1(obtenida en la sección anterior). De este modo, la varianza mínima se
obtendrá reduciendo al máximo el primer término de dicha expresión. Esto se logra definiendo:
v
x
x
k
i
i
i
i
= =
∑ 2
La expresión anterior nos indica que la varianza de
~
β1 es mayor a la de !
β1, ya que la única
forma de obtener un estimador de mínima varianza es utilizando las ponderaciones ki. Así, el
estimador MCO posee la mínima varianza entre todos los demás estimadores lineales e
Econometría Moderna MCO: El Modelo de Regresión Bivariado
41
insesgados existentes. Esta propiedad también puede verificarse para 0
β̂ utilizando un
procedimiento similar.
Un gráfico nos puede ayudar a analizar lo que el teorema de Gauss-Markov significa. Un
supuesto útil para este fin será que tanto el estimador MCO ( !
β1), como el estimador alternativo
(
~
β1) poseen una distribución conocida que para este caso será un distribución normal.
Figura 2.1
En la figura 2.1, las distribuciones muestrales de ambos estimadores están superpuestas con
el fin de escoger el mejor predictor o estimador. Ambas distribuciones están centradas en el
verdadero valor evidenciando la insesgabilidad de ambos estimadores. El mejor estimador será
aquel que posea mayor probabilidad de acercarse a β1 , lo que se cumple cuando la distribución
de probabilidad del estimador está menos dispersa alrededor del valor de su media, es decir
cuando presenta una menor varianza. Dado lo anterior, resulta sencillo verificar que el
estimador obtenido por el método MCO (aquel cuya distribución se presenta con una línea
continua) es el mejor estimador lineal insesgado ya que posee la mínima varianza, y así su
distribución presenta una mayor probabilidad asociada a su valor medio.
Un hecho que debe destacarse es que para que se verifique el teorema de Gauss-Markov es
necesario que se cumplan del segundo al quinto supuesto de los mencionados en el capítulo 16
.
Estos, como ya mencionamos llevan el nombre de condiciones de Gauss-Markov. Si algunos de
dichos supuestos falla, ya no es válido el teorema por lo que el estimador MCO ya no será el de
mínima varianza y deberá buscarse la forma de transformar los datos o incluir ciertas
condiciones para que se restablezcan estas condiciones a fin de poder seguir utilizando nuestro
estimador MCO.
2
2.
.4
4 O
OT
TR
RO
OS
S R
RE
ES
SU
UL
LT
TA
AD
DO
OS
S R
RE
EF
FE
ER
RI
ID
DO
OS
S A
AL
L E
ES
ST
TI
IM
MA
AD
DO
OR
R M
MC
CO
O
1. La línea de regresión muestral a través del estimador MCO atraviesa los puntos que
representan las medias muestrales de X e Y.
Gráficamente:
6
Estos en esencia nos dicen que la esperanza matemática de los errores es igual a cero, que no existe ni
autocorrelación ni heterocedasticidad y que los regresores fijos no están correlacionados con el término de error.
Econometría Moderna MCO: El Modelo de Regresión Bivariado
42
Figura 2.2
Esta propiedad se obtiene a partir de dividir la línea de regresión entre el número de
observaciones (n):
X
Y 1
0
ˆ
ˆ β
β +
= (2.18)
el término de error desaparece debido a que el promedio de los mismos es cero y por tanto
su sumatoria también lo será.
2. En promedio, el valor estimado de la variable endógena es igual a la media del valor
observado de dicha variable.
Este resultado se puede comprobar fácilmente, partiendo de la ecuación de la función de
regresión muestral y haciendo algunas operaciones algebraicas, tal como se detalla a
continuación:
i
i X
Y 1
0
ˆ
ˆ
ˆ β
β +
= (2.19)
Si se reemplaza la ecuación (2.18) en (2.19), se tiene:
i
i X
X
Y
Y 1
1
ˆ
ˆ
ˆ β
β +
−
=
)
(
ˆ
ˆ
1 X
X
Y
Y i
i −
−
= β (2.20)
Tomando sumatorias a la ecuación (2.20), se obtiene:
∑ ∑ −
−
= )
(
ˆ
ˆ
1 X
X
Y
n
Y i
i β (2.21)
Se puede comprobar fácilmente que la suma de las desviaciones de una variable, (llámese
dependiente o independiente), con respecto a su media muestral es siempre igual a cero, de
modo que:
0
)
( =
∑ − X
Xi (2.22)
Econometría Moderna MCO: El Modelo de Regresión Bivariado
43
Así podemos reexpresar la ecuación (2.21) de la forma:
Y
n
Yi =
∑ ˆ (2.23)
y, dividiendo entre el tamaño muestral:
Y
Y =
ˆ (2.24)
El procedimiento anterior nos permite afirmar que el modelo estimado es representativo. Es
decir que, en promedio, las estimaciones de la variable endógena (realizadas sobre la base de
datos muestrales), representan a sus contrapartes poblacionales.
3. La media de los errores estimados es nula.
Recuérdese que el proceso de minimización que nos permitió estimar los coeficientes de
regresión generó dos ecuaciones (llamadas ecuaciones normales). La primera de ellas (2.6) es la
representación de esta propiedad7:
∑ =
−
− 0
)
ˆ
ˆ
( 1
0 i
X
i
Y β
β
ei
∑ = 0
Por otro lado, y si trabajamos con las expresiones anteriores, tenemos que:
∑ −
−
∑ = )
ˆ
ˆ
( i
i X
i
Y
e 1
0 β
β
∑ ∑
−
∑ = i
Y
i
Y
ei ˆ
0
=
−
=
∑
Y
Y
n
ei ˆ (2.25)
debido a la igualdad propuesta en (2.24)8.
4. El error estimado no está correlacionado con el valor estimado o predicho de la variable
endógena.
Lo anterior, garantiza que el método de MCO cumple con el supuesto de ortogonalidad entre
la parte explicada del modelo de regesión lineal simple y la parte no explicada. Formalmente:
7
De hecho, la presencia de un intercepto o término independiente resulta crucial para la validez de esta propiedad, tal
como se verificará posteriormente. Nótese, además, que la comprobación de esta propiedad está basada en la
ecuación normal del intercepto.
8
En este caso la presencia de un término independiente también resulta indispensable ya que, de otra forma, no sería
posible realizar la sustitución propuesta en (2.20).
Econometría Moderna MCO: El Modelo de Regresión Bivariado
44
i i
Y e
!
∑ = 0 (2.26)
Para demostrar esta propiedad basta reemplazar la función de la línea de regresión muestral
(1.18) en la expresión anterior:
∑ ∑
+
=
∑ + e
X
e
e
X i
i
i
i
i
β
β
β
β ˆ
1
ˆ
0
)
ˆ
1
ˆ
0
(
0
0 1 =
∑ ∑
+
= e
X
e i
i
i β
β ˆ
ˆ (2.27)
Nótese que en (2.27) los coeficientes de regresión (el intercepto y la pendiente) están
multiplicados por la primera y segunda ecuación normal, respectivamente. Como resultado del
proceso de minimización se tiene que dichas ecuaciones son idénticas a cero, por lo que queda
demostrado que la parte predicha o estimada del modelo no guarda relación alguna con la parte
no explicada o estocástica.
2
2.
.5
5 E
ES
ST
TI
IM
MA
AC
CI
IÓ
ÓN
N M
MC
CO
O D
DE
E σ µ
2
Hasta el momento hemos estimado únicamente los parámetros del modelo propuesto pero
aún nos queda la estimación de una última magnitud: la varianza del error. Nótese que hasta el
momento cuando obtuvimos la varianza de los estimadores el término 2
µ
σ ésta quedó expresado
en términos teóricos. Para poder estimar la varianza de los parámetros y la propia varianza de la
variable dependiente necesitamos un estimador de esta magnitud.
Una de las formas más utilizadas para la estimación de la varianza del error parte del modelo
teórico y de su representación en promedios muestrales:
Y X
i i i
= + +
β β µ
0 1
Y X
= + +
β β µ
0 1
a partir de las cuales obtenemos:
Y Y X X
i i i
− = − + −
β µ µ
1( ) ( )
y x
i i i
= +
β µ
1 (2.52)
Recuérdese que el residuo o error estimado puede expresarse como:
e Y X
i i i
= − −
! !
β β
0 1
= − − − = − − −
Y Y X X Y Y X X
i i i i i i
( ! ) ! ( ) ! ( )
β β β
1 1 1
e y x
i i i
= − !
β1
De este modo, reemplazando (2.52) en la última ecuación se obtiene:
i
i
i x
e µ
β
β +
−
−
= )
ˆ
( 1
1
Así, elevando al cuadrado y sumando a ambos lados, resulta:
Econometría Moderna MCO: El Modelo de Regresión Bivariado
45
e x x
i i i i i
2
1 1
2 2
1 1
2
2
∑ ∑ ∑ ∑
= − − − − + −
(! ) (! ) ( ) ( )
β β β β µ µ µ µ
y, tomando valores esperados se tiene:
[ ] [ ]
E e E x E x E
i i i i i
( ) (! ) (! ) ( ) ( )
2
1 1
2 2
1 1
2
2
∑ ∑ ∑ ∑
= − − − − + −
β β β β µ µ µ µ
(2.53)
Analizando la expresión anterior, el primer sumando se reduce a 2
µ
σ , por ser un componente
de la varianza del estimador de β1 . Mientras que el segundo sumando se obtiene mediante el
procedimiento siguiente:
[ ]
E x E k x
i i j j
j
n
i i
j
n
(! ) ( ) ( )
β β µ µ µ µ µ
1 1
1 1
− − =








−


















∑ ∑ ∑
= =
Nótese que, [ ]
E j i
µ µ µ
( )
− = 0, excepto cuando (i = j ). De esta manera, el término anterior
resulta:
[ ]
k x E
x
x
i i i i
i
i
∑
∑
∑
− = =
µ µ µ σ µ σ µ
( ) 2
2
2
2
Por último, trabajando con el tercer sumando se tiene:
( )
( )
µ µ µ µ µ µ
i i i
− = − +
∑ ∑
2 2 2
2
( )
( )
( )
= − + = −
∑ ∑
∑
∑ ∑
µ µ
µ
µ µ
i i
i
i i
n n n
2 2
2
2 2
2 1
y tomando esperanzas:
[ ]
E n
i
( )
µ µ
− =
∑ 2 2
2
2
)
1
( µ
µ
µ σ
σ
σ −
=
− n
De esta manera, y reemplazando las expresiones anteriores en (2.53) concluimos que:
( ) 2
2
2
2
2
)
2
(
)
1
(
2 µ
µ
µ
µ σ
σ
σ
σ −
=
−
+
−
=
∑ n
n
e
E i (2.54)
Por consiguiente, y dado que el estimador MCO de σ µ
2
debe cumplir con la propiedad de
insesgamiento, se tiene que:
( )
E E
e
n n
E e
n
n
i
i
( ! ) ( )
σ µ σ µ σ µ
2
2
2 2 2
2
1
2
1
2
2
=
−








=
−
=
−
− =
∑
∑
Por consiguiente, el estimador MCO de la varianza del error para el modelo lineal simple
viene dado por la siguiente expresión:
Econometría Moderna MCO: El Modelo de Regresión Bivariado
46
2
ˆ 1
2
2
−
=
∑
=
N
e
N
i
i
µ
σ (2.55)
2
2.
.6
6 M
ME
ED
DI
ID
DA
AS
S D
DE
E B
BO
ON
ND
DA
AD
D D
DE
E A
AJ
JU
US
ST
TE
E
Por lo revisado hasta el momento, sabemos que el criterio de Mínimos Cuadrados Ordinarios
garantiza que la línea de regresión obtenida es la que proporciona la menor suma de cuadrados
de residuos de todas las que se podrían obtener si se trazan a través de los valores observados de
X e Y. Sin embargo, en algunos casos el ajuste puede ser muy bueno o perfecto cuando todas las
observaciones caen sobre la línea de regresión, mientras que en otros pueden no obtenerse tan
buenos resultados. Así, se hace necesario considerar la bondad de ajuste de la línea de regresión
dado el conjunto de observaciones. En otras palabras, se desea verificar qué tan bueno es el
ajuste de la línea de regresión a los datos, o cuán cerca están las predicciones del modelo con
respecto a las observaciones reales. De hecho, al construir un modelo estamos suponiendo una
estructura que gobierna el comportamiento de la variable dependiente. Así, la bondad de ajuste
nos permite conocer el grado en que esta estructura recoge el comportamiento de la variable
endógena, dadas las observaciones muestrales. La medida propuesta para tal fin se denomina
coeficiente de determinación, conocido también como r- cuadrado (r2 o R2 en el caso de una
regresión lineal simple o en el de una regresión múltiple, respectivamente).
2.6.1. ¿Cómo se calcula el coeficiente de determinación?
Para el cálculo del r2
se debe partir del modelo de regresión empírico, el cuál puede
escribirse de dos formas:
Y X e
i i i
= + +
! !
β β
0 1
Y Y e
i i i
= +
!
Como se sabe, se puede expresar el modelo en desviaciones restando a la primera ecuación
la expresión de la línea de regresión, del modo siguiente:
( ) ! ( )
Y Y X X e
i i i
− = − +
β1
y y e
i i i
= +
!
En la expresión anterior, resulta indiferente escribir ei o ( )
e e
i − , pues recuérdese que e = 0
por la primera ecuación normal. Luego, elevando dicha expresión al cuadrado y tomando
sumatorias, se tiene:
y y e y e
i i i i i
2 2 2
2
∑ ∑ ∑ ∑
= + +
! !
Por la cuarta propiedad del estimador MCO, se sabe que el tercer sumando de la ecuación
anterior es igual a cero, de modo que:
y y e
i i i
2 2 2
∑ ∑ ∑
= +
! (2.59)
Econometría Moderna MCO: El Modelo de Regresión Bivariado
47
Podemos expresar la ecuación anterior de modo tal que resulte más conocida en términos
estadísticos9
:
( ) ( ! )
Y Y Y Y e
i i i
− = − +
∑ ∑ ∑
2 2 2
(2.60)
Cada una de las expresiones anteriores están relacionadas con sus respectivas varianzas.
Según ello, podemos descomponer la varianza de la variable endógena en dos partes: una
explicada por el modelo a través de la regresión lineal estimada y otra que el modelo no es
capaz de explicar debido a su naturaleza estocástica. Pasemos ahora a definir los componentes
de la expresión (2.59):
yi
2
∑ , suma total de cuadrados de la variable explicada(STC)
!
yi
2
∑ , suma explicada de cudrados (SEC)
ei
2
∑ , suma residual de cuadrados (SRC)
Ahora, y dado que se busca medir el grado en que nuestro modelo recoge el comportamiento
de la variable endógena, nuestra medida de bondad de ajuste (r2 ) vendría dada por el cociente
entre la SEC (variación de Y explicada por el modelo) y la STC (variación registrada para la
variable explicada):
( )
∑
∑
−
=
∑
∑
∑ −
=
∑
∑
=
=
2
i
2
i
2
i
2
i
2
i
2
i
2
i
i
i
2
y
e
1
y
e
y
y
ŷ
)
Y
(
Var
)
Ŷ
(
Var
r (2.61)
Algunas expresiones también útiles para calcular el r2
obtenidas mediante reemplazos de
algunas ecuaciones precedentes son las siguientes:
r
x
y
x
y
Var X
Var Y
i
i
i
i
2 1
2 2
2 1
2
2
2 1
2
= =








=
∑
∑
∑
∑
!
! ! ( )
( )
β
β β
( )
r
x y
x y
i i
i i
2
2
2 2
=
∑
∑ ∑
Así, el coeficiente de determinación se interpreta como la proporción de la variación total de
Y que la regresión es capaz de explicar. En otras palabras, el r2
mide la efectividad que poseen
las variables independientes X para explicar la variación que la variable dependiente
experimenta a lo largo de la muestra. Por lo tanto, cuando r2
es muy cercano a 1 se dice que el
modelo de regresión es capaz de explicar un alto porcentaje de las variaciones que registra la
variable explicada. Por lo tanto, el ajuste de la línea de regresión obtenida por MCO es bastante
bueno, en el sentido que los valores estimados de Y son casi idénticos a los observados y que
los residuos son muy pequeños.
Existen algunos casos en los que el coeficiente de determinación no es una medida confiable,
por ello se debe tener cuidado al interpretarlo. Por ejemplo, si el número de observaciones es
9
Una condición necesaria para que se cumpla (2.60) es que el modelo incorpore un intercepto. De otro modo no se
podrá afirmar que 0
=
e ya que no habría una ecuación normal asociada a este término.
Econometría Moderna MCO: El Modelo de Regresión Bivariado
48
reducido, quizá algún residuo alto puede hacer que el r2
sea insignificante y por tanto se
concluya que la regresión es mala, aunque en realidad el ajuste sea bueno. Otro caso es cuando
las observaciones de X e Y provienen de muestras de series temporales con tendencia similar.
En tal situación, sucede que el coeficiente de determinación es cercano a uno, pues las
variaciones que experimenta la variable dependiente son muy similares a las de la variable
independiente, y en consecuencia: y y
i i
2 2
∑ ∑
≈ ! . Basta con eliminar la tendencia para que el
resultado sea diferente, obteniéndose un coeficiente de determinación menor. En este caso, la
regresión recibe el nombre de espúrea o ficticia, pues el modelo estimado en realidad no recoge
la existencia de una relación de la variable dependiente y los regresores. Esto ocurre cuando las
series de tiempo involucradas presentan ciertas características que distorsionan la distribución
del error sobre la base de la cual se construyen las pruebas de inferencia.
La descomposición de la variación de Y, sobre la base de la cual se construye el r2, puede
ilustrarse de la siguiente manera:
Figura 2.3
La variación de la variable endógena es la suma de dos componentes
La figura 2.3 ilustra lo que hemos derivado de manera matemática. La línea continua sobre el
eje horizontal refleja el valor promedio de la variable dependiente Y. El término Yi refleja una
observación de la misma variable. La distancia vertical entre este punto y la línea del promedio
nos muestra la desviación total de Yi con respecto a su media (lo que equivale a la suma total de
cuadrados si tomamos en cuenta a todas las observaciones). Como vemos esta distancia vertical
la podemos descomponer en dos partes. La primera de ellas está relacionada con el segmento
que parte de la línea de regresión estimada y va hasta la línea del promedio )
ˆ
( Y
Yi − . Esta es la
desviación explicada por la regresión. El segmento restante representa aquella parte que no es
explicada por la regresión y por tanto se relaciona con el residuo ( i
i Y
Y ˆ
− ).
Econometría Moderna MCO: El Modelo de Regresión Bivariado
49
2.6.2 Propiedades del coeficiente de determinación
1. Es un número no negativo. Para demostrarlo basta recordar que éste simboliza el cociente
entre dos sumas de cuadrados. Sin embargo, se debe advertir que en los casos en los que no
se especifique un intercepto en el modelo, el r2 podría resultar negativo y por tanto no
debería tomarse en consideración10
. Por ello, es preciso hallar el coeficiente de
determinación ajustado o corregido, el cuál se estudiará en el siguiente capítulo.
2. Puede tomar valores entre cero y uno, (0≤ r 2 ≤ 1) ¿Qué pasaría si r 2 fuese cero? No
existiría ninguna relación entre la variable endógena y la explicativa y, por tanto, el
estimador de la pendiente de la variable explicativa ( !
β1 ) sería igual a cero y se obtendría
una la línea de regresión horizontal al eje X.
3. No tiene unidades de medida. Recuérdese que es una proporción, siendo, por tanto, un
número puro.
2
2.
.7
7 A
A M
MO
OD
DO
O D
DE
E C
CO
ON
NC
CL
LU
US
SI
IÓ
ÓN
N:
:
En este capítulo hemos obtenido el estimador MCO para el modelo lineal simple. Este modelo
considera sólo una variable explicativa aparte del intercepto. El estimador MCO cumple con una
serie de propiedades deseables como el insesgamiento y la eficiencia lo que asegura que es el
mejor estimador lineal insesgado en el sentido que los estimados obtenidos tendrán la menor
incertidumbre asociados a ellos.
Dentro del largo camino que aún nos queda por recorrer en la exploración de las aplicaciones
del estimador MCO, este ha sido un paso importante porque nos ha permitido comprender la
lógica a partir del cual se deriva el estimador. Hasta aquí la herramienta más utilizada han sido
las sumatorias. Sin embargo, un enfoque más completo se basa principalmente en el análisis
matricial que es el que empezaremos a utilizar en los capítulos siguientes. Para ello se
recomienda que el lector haga un repaso de las principales propiedades de matrices y vectores
así como la interpretación de las distintas operaciones con los mismos.
10
Recuérdese que sólo sí se incluye un intercepto se cumple que STC = SEC + SRC.
C
CA
AP
PI
IT
TU
UL
LO
O 3
3
E
EL
L M
ME
ET
TO
OD
DO
O D
DE
E E
ES
ST
TI
IM
MA
AC
CI
IÓ
ÓN
N D
DE
E M
MÍ
ÍN
NI
IM
MO
OS
S C
CU
UA
AD
DR
RA
AD
DO
OS
S
O
OR
RI
ID
DI
IN
NA
AR
RI
IO
OS
S:
:
M
MO
OD
DE
EL
LO
O L
LI
IN
NE
EA
AL
L G
GE
EN
NE
ER
RA
AL
L
3
3.
.1
1.
. I
IN
NT
TR
RO
OD
DU
UC
CC
CI
IÓ
ÓN
N
En la investigación aplicada buscamos darle contenido empírico a las relaciones que nos
sugiere la teoría y la intuición. En muchos casos lo que buscamos es determinar cuáles son las
principales variables que explican a otra variable a la cual le hemos dado el nombre de variable
dependiente. En el Capítulo precedente se ha limitado el análisis de regresión al estudio de las
relaciones existentes entre una variable endógena o explicada (Y) y una variable exógena o
explicativa (X). Para tal fin, realizamos la estimación de los parámetros desconocidos del
modelo de regresión bivariado y posteriormente demostramos sus propiedades por lo que
concluimos que el estimador MCO es MELI. En el presente Capítulo, Vamos a generalizar el
análisis previo incluyendo más de una variable explicativa (aparte del intercepto) utilizaremos el
mismo criterio de minimización (MCO) y presentaremos el modelo de regresión lineal de k
variables (Y y X1, X2,..., Xk) en notación matricial. Este modelo es conocido como el modelo de
regresión lineal general, pues en él se generaliza el modelo de regresión bivariado estudiado en
el Capítulo 2.
Cabe mencionar que para que el lector pueda comprender con facilidad los conceptos que se
estudiarán a continuación debe recordar algunos conceptos de álgebra matricial. En este modelo
la función de regresión poblacional, definida en el Capítulo 1, está compuesta por la variable
endógena (Y) y k variables exógenas (X). Formalmente:
i
ki
k
i
i
i
i X
X
X
X
Y µ
+
β
+
+
β
+
β
+
β
= ...
3
3
2
2
1
1 i = 1,2,......n (3.1)
La ecuación (3.1) indica que el vector Y observado es la suma del vector de errores (µ ) y de
una combinación lineal de las columnas de X. Nótese que ahora se tienen k pendientes
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf
Econometriamoderna.pdf

Weitere ähnliche Inhalte

Was ist angesagt?

Gregory mankiw macroeconomic 7th edition chapter (10)
Gregory mankiw macroeconomic 7th edition chapter  (10)Gregory mankiw macroeconomic 7th edition chapter  (10)
Gregory mankiw macroeconomic 7th edition chapter (10)Kyaw Thiha
 
Combined effect of both
Combined effect of bothCombined effect of both
Combined effect of bothvideoaakash15
 
General Equilibrium IS-LM Framework for Macroeconomic Analysis
General Equilibrium IS-LM Framework for Macroeconomic AnalysisGeneral Equilibrium IS-LM Framework for Macroeconomic Analysis
General Equilibrium IS-LM Framework for Macroeconomic AnalysisKhemraj Subedi
 
Macro Economics -II Chapter Two AGGREGATE SUPPLY
Macro Economics -II Chapter Two AGGREGATE SUPPLYMacro Economics -II Chapter Two AGGREGATE SUPPLY
Macro Economics -II Chapter Two AGGREGATE SUPPLYZegeye Paulos
 
Gregory mankiw macroeconomic 7th edition chapter (17)
Gregory mankiw macroeconomic 7th edition chapter  (17)Gregory mankiw macroeconomic 7th edition chapter  (17)
Gregory mankiw macroeconomic 7th edition chapter (17)Kyaw Thiha
 
Gregory mankiw macroeconomic 7th edition chapter (15)
Gregory mankiw macroeconomic 7th edition chapter  (15)Gregory mankiw macroeconomic 7th edition chapter  (15)
Gregory mankiw macroeconomic 7th edition chapter (15)Kyaw Thiha
 
Trabajo Grupal De EconòMia Oferta Y Demanda
Trabajo Grupal De EconòMia Oferta Y DemandaTrabajo Grupal De EconòMia Oferta Y Demanda
Trabajo Grupal De EconòMia Oferta Y Demandamireya
 
Gregory mankiw macroeconomic 7th edition chapter (5)
Gregory mankiw macroeconomic 7th edition chapter  (5)Gregory mankiw macroeconomic 7th edition chapter  (5)
Gregory mankiw macroeconomic 7th edition chapter (5)Kyaw Thiha
 
Phillips curve hypothesis
Phillips curve hypothesisPhillips curve hypothesis
Phillips curve hypothesisPrabha Panth
 
Introduction to regression analysis 2
Introduction to regression analysis 2Introduction to regression analysis 2
Introduction to regression analysis 2Sibashis Chakraborty
 
Chapter3 econometrics
Chapter3 econometricsChapter3 econometrics
Chapter3 econometricsVu Vo
 
Revealed preference theory
Revealed preference theoryRevealed preference theory
Revealed preference theorynasab144
 
Gregory mankiw macroeconomic 7th edition chapter (9)
Gregory mankiw macroeconomic 7th edition chapter  (9)Gregory mankiw macroeconomic 7th edition chapter  (9)
Gregory mankiw macroeconomic 7th edition chapter (9)Kyaw Thiha
 
Gregory mankiw macroeconomic 7th edition chapter (12)
Gregory mankiw macroeconomic 7th edition chapter  (12)Gregory mankiw macroeconomic 7th edition chapter  (12)
Gregory mankiw macroeconomic 7th edition chapter (12)Kyaw Thiha
 
Impuestos subsidios
Impuestos subsidiosImpuestos subsidios
Impuestos subsidiosJuan Chin
 

Was ist angesagt? (20)

Gregory mankiw macroeconomic 7th edition chapter (10)
Gregory mankiw macroeconomic 7th edition chapter  (10)Gregory mankiw macroeconomic 7th edition chapter  (10)
Gregory mankiw macroeconomic 7th edition chapter (10)
 
Combined effect of both
Combined effect of bothCombined effect of both
Combined effect of both
 
Dummy variable model
Dummy variable modelDummy variable model
Dummy variable model
 
General Equilibrium IS-LM Framework for Macroeconomic Analysis
General Equilibrium IS-LM Framework for Macroeconomic AnalysisGeneral Equilibrium IS-LM Framework for Macroeconomic Analysis
General Equilibrium IS-LM Framework for Macroeconomic Analysis
 
Tema7 ecuacion slutsky_11
Tema7 ecuacion slutsky_11Tema7 ecuacion slutsky_11
Tema7 ecuacion slutsky_11
 
Macro Economics -II Chapter Two AGGREGATE SUPPLY
Macro Economics -II Chapter Two AGGREGATE SUPPLYMacro Economics -II Chapter Two AGGREGATE SUPPLY
Macro Economics -II Chapter Two AGGREGATE SUPPLY
 
Gregory mankiw macroeconomic 7th edition chapter (17)
Gregory mankiw macroeconomic 7th edition chapter  (17)Gregory mankiw macroeconomic 7th edition chapter  (17)
Gregory mankiw macroeconomic 7th edition chapter (17)
 
Chapter8 ec 222
Chapter8 ec 222Chapter8 ec 222
Chapter8 ec 222
 
Gregory mankiw macroeconomic 7th edition chapter (15)
Gregory mankiw macroeconomic 7th edition chapter  (15)Gregory mankiw macroeconomic 7th edition chapter  (15)
Gregory mankiw macroeconomic 7th edition chapter (15)
 
Trabajo Grupal De EconòMia Oferta Y Demanda
Trabajo Grupal De EconòMia Oferta Y DemandaTrabajo Grupal De EconòMia Oferta Y Demanda
Trabajo Grupal De EconòMia Oferta Y Demanda
 
Gregory mankiw macroeconomic 7th edition chapter (5)
Gregory mankiw macroeconomic 7th edition chapter  (5)Gregory mankiw macroeconomic 7th edition chapter  (5)
Gregory mankiw macroeconomic 7th edition chapter (5)
 
Phillips curve hypothesis
Phillips curve hypothesisPhillips curve hypothesis
Phillips curve hypothesis
 
Introduction to regression analysis 2
Introduction to regression analysis 2Introduction to regression analysis 2
Introduction to regression analysis 2
 
Chapter3 econometrics
Chapter3 econometricsChapter3 econometrics
Chapter3 econometrics
 
Revealed preference theory
Revealed preference theoryRevealed preference theory
Revealed preference theory
 
Gregory mankiw macroeconomic 7th edition chapter (9)
Gregory mankiw macroeconomic 7th edition chapter  (9)Gregory mankiw macroeconomic 7th edition chapter  (9)
Gregory mankiw macroeconomic 7th edition chapter (9)
 
Froyen09
Froyen09Froyen09
Froyen09
 
Gregory mankiw macroeconomic 7th edition chapter (12)
Gregory mankiw macroeconomic 7th edition chapter  (12)Gregory mankiw macroeconomic 7th edition chapter  (12)
Gregory mankiw macroeconomic 7th edition chapter (12)
 
Impuestos subsidios
Impuestos subsidiosImpuestos subsidios
Impuestos subsidios
 
cobb douglas production function
cobb douglas production functioncobb douglas production function
cobb douglas production function
 

Ähnlich wie Econometriamoderna.pdf

1.6.1.1. regresión lineal
1.6.1.1. regresión lineal1.6.1.1. regresión lineal
1.6.1.1. regresión linealk4rol1n4
 
Metodo cualitativo de_analisis_graficos
Metodo cualitativo de_analisis_graficosMetodo cualitativo de_analisis_graficos
Metodo cualitativo de_analisis_graficosWilliam Bahoque
 
Regresión lineal,ajuste de curva,tipos de regresión lineal
Regresión lineal,ajuste de curva,tipos de regresión linealRegresión lineal,ajuste de curva,tipos de regresión lineal
Regresión lineal,ajuste de curva,tipos de regresión linealmiguelescobarrivero
 
Investigación tema 5
Investigación tema 5Investigación tema 5
Investigación tema 5CarmenAlonzo7
 
5 regresion y correlacion
5 regresion y correlacion5 regresion y correlacion
5 regresion y correlacionYuliMita
 
Tema IV Tecnicas de Pronostico Grupo 6.pptx
Tema IV Tecnicas de Pronostico Grupo 6.pptxTema IV Tecnicas de Pronostico Grupo 6.pptx
Tema IV Tecnicas de Pronostico Grupo 6.pptxosdalysmar
 
Modelo de regresión lineal simple
Modelo de regresión lineal simpleModelo de regresión lineal simple
Modelo de regresión lineal simpleLourdes Garcia
 
Modelo de regresión lineal simple
Modelo de regresión lineal simpleModelo de regresión lineal simple
Modelo de regresión lineal simplePekenia Lulu Aicrag
 

Ähnlich wie Econometriamoderna.pdf (20)

Regresion lineal simple
Regresion lineal simpleRegresion lineal simple
Regresion lineal simple
 
1.6.1.1. regresión lineal
1.6.1.1. regresión lineal1.6.1.1. regresión lineal
1.6.1.1. regresión lineal
 
Presentación regreción lineal
Presentación regreción linealPresentación regreción lineal
Presentación regreción lineal
 
Metodo cualitativo de_analisis_graficos
Metodo cualitativo de_analisis_graficosMetodo cualitativo de_analisis_graficos
Metodo cualitativo de_analisis_graficos
 
Tema4 regresionycorrelacion
Tema4 regresionycorrelacionTema4 regresionycorrelacion
Tema4 regresionycorrelacion
 
Regresión lineal,ajuste de curva,tipos de regresión lineal
Regresión lineal,ajuste de curva,tipos de regresión linealRegresión lineal,ajuste de curva,tipos de regresión lineal
Regresión lineal,ajuste de curva,tipos de regresión lineal
 
Analisis grafico
Analisis graficoAnalisis grafico
Analisis grafico
 
Investigación tema 5
Investigación tema 5Investigación tema 5
Investigación tema 5
 
Presentación regreción lineal
Presentación regreción linealPresentación regreción lineal
Presentación regreción lineal
 
Presentación regreción lineal
Presentación regreción linealPresentación regreción lineal
Presentación regreción lineal
 
Regresion estadistica
Regresion estadisticaRegresion estadistica
Regresion estadistica
 
Estadistica aplicada a la educación superior
Estadistica aplicada a la educación superiorEstadistica aplicada a la educación superior
Estadistica aplicada a la educación superior
 
5 regresion y correlacion
5 regresion y correlacion5 regresion y correlacion
5 regresion y correlacion
 
Tema IV Tecnicas de Pronostico Grupo 6.pptx
Tema IV Tecnicas de Pronostico Grupo 6.pptxTema IV Tecnicas de Pronostico Grupo 6.pptx
Tema IV Tecnicas de Pronostico Grupo 6.pptx
 
REPASO MODELOS ECONOMETRICOS.pdf
REPASO MODELOS ECONOMETRICOS.pdfREPASO MODELOS ECONOMETRICOS.pdf
REPASO MODELOS ECONOMETRICOS.pdf
 
REPASO MODELOS ECONOMETRICOS.pdf
REPASO MODELOS ECONOMETRICOS.pdfREPASO MODELOS ECONOMETRICOS.pdf
REPASO MODELOS ECONOMETRICOS.pdf
 
Linear regression correlation coefficient
Linear regression correlation coefficientLinear regression correlation coefficient
Linear regression correlation coefficient
 
Statistic for Business
Statistic for BusinessStatistic for Business
Statistic for Business
 
Modelo de regresión lineal simple
Modelo de regresión lineal simpleModelo de regresión lineal simple
Modelo de regresión lineal simple
 
Modelo de regresión lineal simple
Modelo de regresión lineal simpleModelo de regresión lineal simple
Modelo de regresión lineal simple
 

Mehr von carmenpando1

1. MLG y estimador MCO.pptx
1. MLG y estimador MCO.pptx1. MLG y estimador MCO.pptx
1. MLG y estimador MCO.pptxcarmenpando1
 
2. Inferencia estadística.pptx
2. Inferencia estadística.pptx2. Inferencia estadística.pptx
2. Inferencia estadística.pptxcarmenpando1
 
johnston dinardo Econometric Methods.pdf
johnston dinardo Econometric Methods.pdfjohnston dinardo Econometric Methods.pdf
johnston dinardo Econometric Methods.pdfcarmenpando1
 
Greene_Econometric_Analysis_7th_ed.pdf
Greene_Econometric_Analysis_7th_ed.pdfGreene_Econometric_Analysis_7th_ed.pdf
Greene_Econometric_Analysis_7th_ed.pdfcarmenpando1
 
MACROECONOMIA_INTERMEDIA_PARA_AMERICA_LA.pdf
MACROECONOMIA_INTERMEDIA_PARA_AMERICA_LA.pdfMACROECONOMIA_INTERMEDIA_PARA_AMERICA_LA.pdf
MACROECONOMIA_INTERMEDIA_PARA_AMERICA_LA.pdfcarmenpando1
 
Dialnet-ImportanciaDeLaInnovacionYSuEjecucionEnLaEstrategi-5994740.pdf
Dialnet-ImportanciaDeLaInnovacionYSuEjecucionEnLaEstrategi-5994740.pdfDialnet-ImportanciaDeLaInnovacionYSuEjecucionEnLaEstrategi-5994740.pdf
Dialnet-ImportanciaDeLaInnovacionYSuEjecucionEnLaEstrategi-5994740.pdfcarmenpando1
 
CRISIS ASIATICA II TOPICOS MA GRUPO 6 (1).pptx
CRISIS ASIATICA II TOPICOS MA GRUPO 6 (1).pptxCRISIS ASIATICA II TOPICOS MA GRUPO 6 (1).pptx
CRISIS ASIATICA II TOPICOS MA GRUPO 6 (1).pptxcarmenpando1
 
Diseño sin título (9).pptx
Diseño sin título (9).pptxDiseño sin título (9).pptx
Diseño sin título (9).pptxcarmenpando1
 

Mehr von carmenpando1 (8)

1. MLG y estimador MCO.pptx
1. MLG y estimador MCO.pptx1. MLG y estimador MCO.pptx
1. MLG y estimador MCO.pptx
 
2. Inferencia estadística.pptx
2. Inferencia estadística.pptx2. Inferencia estadística.pptx
2. Inferencia estadística.pptx
 
johnston dinardo Econometric Methods.pdf
johnston dinardo Econometric Methods.pdfjohnston dinardo Econometric Methods.pdf
johnston dinardo Econometric Methods.pdf
 
Greene_Econometric_Analysis_7th_ed.pdf
Greene_Econometric_Analysis_7th_ed.pdfGreene_Econometric_Analysis_7th_ed.pdf
Greene_Econometric_Analysis_7th_ed.pdf
 
MACROECONOMIA_INTERMEDIA_PARA_AMERICA_LA.pdf
MACROECONOMIA_INTERMEDIA_PARA_AMERICA_LA.pdfMACROECONOMIA_INTERMEDIA_PARA_AMERICA_LA.pdf
MACROECONOMIA_INTERMEDIA_PARA_AMERICA_LA.pdf
 
Dialnet-ImportanciaDeLaInnovacionYSuEjecucionEnLaEstrategi-5994740.pdf
Dialnet-ImportanciaDeLaInnovacionYSuEjecucionEnLaEstrategi-5994740.pdfDialnet-ImportanciaDeLaInnovacionYSuEjecucionEnLaEstrategi-5994740.pdf
Dialnet-ImportanciaDeLaInnovacionYSuEjecucionEnLaEstrategi-5994740.pdf
 
CRISIS ASIATICA II TOPICOS MA GRUPO 6 (1).pptx
CRISIS ASIATICA II TOPICOS MA GRUPO 6 (1).pptxCRISIS ASIATICA II TOPICOS MA GRUPO 6 (1).pptx
CRISIS ASIATICA II TOPICOS MA GRUPO 6 (1).pptx
 
Diseño sin título (9).pptx
Diseño sin título (9).pptxDiseño sin título (9).pptx
Diseño sin título (9).pptx
 

Kürzlich hochgeladen

DIAPOSITIVAS DRENAJE POSTURAL E INHALACIONES (3).pptx
DIAPOSITIVAS DRENAJE POSTURAL E INHALACIONES (3).pptxDIAPOSITIVAS DRENAJE POSTURAL E INHALACIONES (3).pptx
DIAPOSITIVAS DRENAJE POSTURAL E INHALACIONES (3).pptxjoselinepolar
 
PPT SESION 5 ARTE Y CREATIVIDAD (1).pptx
PPT SESION 5 ARTE Y CREATIVIDAD (1).pptxPPT SESION 5 ARTE Y CREATIVIDAD (1).pptx
PPT SESION 5 ARTE Y CREATIVIDAD (1).pptxNeymaRojasperez1
 
Usabilidad y experiencia de usuario, UI,UX, Diseño grafico.
Usabilidad y experiencia de usuario, UI,UX, Diseño grafico.Usabilidad y experiencia de usuario, UI,UX, Diseño grafico.
Usabilidad y experiencia de usuario, UI,UX, Diseño grafico.karlapatriciapms16
 
Taller construcción de Prototipos Uno uML
Taller construcción de Prototipos Uno uMLTaller construcción de Prototipos Uno uML
Taller construcción de Prototipos Uno uMLAderMogollonLuna
 
TALLER SOBRE METODOLOGÍAS DE DESARROLLO DE SOFTWARE..pdf
TALLER SOBRE METODOLOGÍAS DE DESARROLLO DE SOFTWARE..pdfTALLER SOBRE METODOLOGÍAS DE DESARROLLO DE SOFTWARE..pdf
TALLER SOBRE METODOLOGÍAS DE DESARROLLO DE SOFTWARE..pdfMiguelGomez900779
 
LAS TETAS DE MARIA GUEVARA REVISTA DIGITAL INF.pdf
LAS TETAS DE MARIA GUEVARA REVISTA DIGITAL INF.pdfLAS TETAS DE MARIA GUEVARA REVISTA DIGITAL INF.pdf
LAS TETAS DE MARIA GUEVARA REVISTA DIGITAL INF.pdfwilangelfmendoza
 
PPT obligaciones ambientales oefa minan.pptx
PPT obligaciones ambientales oefa minan.pptxPPT obligaciones ambientales oefa minan.pptx
PPT obligaciones ambientales oefa minan.pptxDanmherJoelAlmironPu
 

Kürzlich hochgeladen (7)

DIAPOSITIVAS DRENAJE POSTURAL E INHALACIONES (3).pptx
DIAPOSITIVAS DRENAJE POSTURAL E INHALACIONES (3).pptxDIAPOSITIVAS DRENAJE POSTURAL E INHALACIONES (3).pptx
DIAPOSITIVAS DRENAJE POSTURAL E INHALACIONES (3).pptx
 
PPT SESION 5 ARTE Y CREATIVIDAD (1).pptx
PPT SESION 5 ARTE Y CREATIVIDAD (1).pptxPPT SESION 5 ARTE Y CREATIVIDAD (1).pptx
PPT SESION 5 ARTE Y CREATIVIDAD (1).pptx
 
Usabilidad y experiencia de usuario, UI,UX, Diseño grafico.
Usabilidad y experiencia de usuario, UI,UX, Diseño grafico.Usabilidad y experiencia de usuario, UI,UX, Diseño grafico.
Usabilidad y experiencia de usuario, UI,UX, Diseño grafico.
 
Taller construcción de Prototipos Uno uML
Taller construcción de Prototipos Uno uMLTaller construcción de Prototipos Uno uML
Taller construcción de Prototipos Uno uML
 
TALLER SOBRE METODOLOGÍAS DE DESARROLLO DE SOFTWARE..pdf
TALLER SOBRE METODOLOGÍAS DE DESARROLLO DE SOFTWARE..pdfTALLER SOBRE METODOLOGÍAS DE DESARROLLO DE SOFTWARE..pdf
TALLER SOBRE METODOLOGÍAS DE DESARROLLO DE SOFTWARE..pdf
 
LAS TETAS DE MARIA GUEVARA REVISTA DIGITAL INF.pdf
LAS TETAS DE MARIA GUEVARA REVISTA DIGITAL INF.pdfLAS TETAS DE MARIA GUEVARA REVISTA DIGITAL INF.pdf
LAS TETAS DE MARIA GUEVARA REVISTA DIGITAL INF.pdf
 
PPT obligaciones ambientales oefa minan.pptx
PPT obligaciones ambientales oefa minan.pptxPPT obligaciones ambientales oefa minan.pptx
PPT obligaciones ambientales oefa minan.pptx
 

Econometriamoderna.pdf

  • 1. C CA AP PI IT TU UL LO O 1 1 E EL L M MO OD DE EL LO O D DE E R RE EG GR RE ES SI IÓ ÓN N L LI IN NE EA AL L 1 1. .1 1. . E EL L A AN NÁ ÁL LI IS SI IS S D DE E R RE EG GR RE ES SI IÓ ÓN N 1.1.1 Interpretación El inglés Francis Galton1 (1822 - 1911) fue el primero en introducir el término regresión. Cuando estudiaba la relación entre las estaturas de los hijos y los padres observó que la estatura de los hijos era alta o baja cuando los padres eran altos o bajos, respectivamente. Sin embargo, la estatura promedio de los hijos cuyos padres tenían una estatura dada, tendía a moverse o converger hacia el promedio de la población. Así, determinó una regresión de la estatura de los hijos hacia el promedio o, en términos de Galton, “una regresión hacia la mediocridad”. La Ley de Regresión Universal de Galton fue confirmada, años después, por Karl Pearson, quien realizó un estudio similar utilizando más de mil observaciones. Con el estudio de Pearson se confirmó que la estatura promedio de los hijos de un grupo de padres altos era menor que la estatura de sus padres y la estatura promedio de los hijos de padres de estatura baja era mayor que la de sus padres. Así, se observa que los hijos de estatura alta o baja, “regresan” en forma similar hacia la estatura promedio de la población. En este sentido, la regresión de una variable aleatoria Y sobre otra variable X fue entendida como la media de Y condicional en X, a través de una relación funcional entre X e Y. El estimador de los coeficientes involucrados en esta forma funcional fue hallado utilizando el criterio de estimación de Mínimos Cuadrados Ordinarios (MCO), que será estudiado en el siguiente capítulo, y las observaciones muestrales de X e Y. 1 Francis Galton, “Family Likeness in Stature”, Proceedings of Royal Society, Londres,vol, 40, 1886, pp. 42-72.
  • 2. Econometría Moderna El Modelo de Regresión Lineal 10 Una interpretación más moderna de regresión indica que la misma es cualquier aproximación de la distribución de probabilidad de Y condicionada a los valores de las observaciones de X, siendo Y una función de X. En otras palabras, el análisis de regresión estudia la relación existente entre una variable endógena o dependiente (Y) y una o más variables exógenas o independientes (X), con el objeto de estimar la media o valor promedio poblacional de la primera en términos de los valores conocidos o fijos de las últimas. Ahora, resulta más clara la relación entre el estudio de Galton y la definición moderna del término regresión. A menudo se confunden los términos regresión y correlación, los cuales están estrechamente ligados a pesar de que existen diferencias substanciales entre ellos. Por un lado el análisis de correlación pretende medir el grado de asociación lineal entre dos variables a través del coeficiente de correlación2. Por ejemplo, se puede estar interesado en conocer la correlación entre la cuenta de capitales y la tasa de interés, entre los términos de intercambio y la balanza comercial, entre la tasa de encaje y créditos del sistema bancario, etc. En cambio, cuando se analiza una regresión se trata de estimar o de predecir el valor promedio de una variable (llamada explicada, dependiente o endógena) utilizando valores fijos3 de las variables explicativas (también llamadas independientes o exógenas) . Utilizando el ejemplo anterior, puede ser que se desee predecir el saldo de la cuenta de capitales teniendo información muestral de la tasa de interés o que se desee predecir el monto total de créditos conociendo la tasa de encaje bancaria. Así, y conociendo la relación existente entre estas variables a través de un análisis de regresión, será posible predecir valores de la variable dependiente utilizando realizaciones de las independientes. 1.1.2 ¿Cómo se conecta el análisis económico con el análisis de regresión? El análisis económico toma en consideración diversas variables en conjunto. La relación entre las tasas de inflación y el desempleo, la relación intertemporal entre las tasas de interés y el consumo o la relación entre éste y los precios de los bienes relacionados de un bien, son algunos de los tantos ejemplos que se encuentran en el análisis empírico en economía. Como ejemplo concreto, se puede citar la Ley de Okun4, la cual afirma que por cada punto porcentual que caiga la tasa de desempleo el producto tiende a crecer 3 puntos porcentuales. Esto significa que existe una relación negativa entre las dos variables y, para contrastar el modelo, se necesitará utilizar simultáneamente datos de ambas variables. Para ello, se deben utilizar distribuciones de probabilidad conjuntas o multivariadas5. Se sabe por nociones básicas de estadística que la función de probabilidad conjunta se puede plantear de la siguiente forma: f( y/ x1 , x2 , x3 ) = F ( y/ x1 , x2 , x3 ) * f (x1 , x2 , x3 ) (1.1) 2 El coeficiente de correlación entre dos variables aleatorias expresa el grado de dependencia entre el comportamiento de dichas variables. Formalmente: ) )( ( ) , ( y x X Y Cov σ σ ρ = 3 Se debe resaltar que las variables explicativas pueden ser de naturaleza estocástica, pero por simplicidad para el análisis de regresión se asume que los valores de X no cambian en diversas muestras, es decir son fijos en el muestreo repetido. De hecho este supuesto deberá imponerse al momento de querer obtener estimados de los verdaderos parámetros. El problema asociado a la presencia de regresores (variables exógenas) estocásticos, será abordado en otro capítulo. 4 Se puede expresar matemáticamente de la siguiente manera: ) ( ) ( 3 1 1 f n Q Q u u − = − + + , donde un y Qf indican que el producto está en pleno empleo y por tanto la tasa de desempleo (u) es la natural. 5 Son las funciones de probabilidad generadas por el comportamiento aleatorio conjunto de dos o más variables y se utilizan en el estudio de las relaciones existentes entre éstas.
  • 3. Econometría Moderna El Modelo de Regresión Lineal 11 Siendo la primera la función de probabilidad condicional y la segunda la marginal. En el análisis econométrico, y tal como se indicó anteriormente, se busca estimar la distribución condicional mientras que la marginal no se utilizará, por el momento. De esta manera, si se tiene la siguiente función conjunta: C = f (r, Yd, w, Yp), ésta nos indica que el consumo es una función de la tasa de interés, el ingreso disponible, el salario y el ingreso permanente. La función anterior expresa únicamente una relación matemática, sin embargo, y tal como se indicó en la introducción del libro, uno de los objetivos de la econometría es formular un modelo econométrico a partir de un modelo económico, para luego proceder a la estimación y comprobación del mismo a partir de los datos muestrales. En consecuencia, se debe transformar la función anterior en un modelo econométrico, por ejemplo consideremos el siguiente modelo de regresión lineal6: µ β β β β β + + + + + = Yp w Yd r C 4 3 2 1 0 (1.2) (1.2) (1.2) (1.2) donde u es el componente estocástico o aleatorio, que recoge los efectos de variables no incluidas en el modelo que no afectan de manera sistemática a la variable endógena o explicada (el consumo). Se supone que u es una variable aleatoria y tiene una distribución de probabilidad conocida que será materia de estudio en un capítulo posterior. El otro miembro de la ecuación indica la relación exacta entre la variable explicada (C) y las demás variables llamadas explicativas, es decir, es el componente determinístico (o predecible) del modelo. Los β son conocidos como parámetros y recogen los efectos ocasionados por las variaciones de las variables r, Yd, w, y Yp sobre la variable C que se desea explicar. En términos matemáticos7 , cada parámetro indica la sensibilidad de la variable dependiente ante un cambio unitario en la variable independiente. El modelo econométrico especificado en la expresión (1.2), tiene como objetivo estimar el valor del consumo sobre la base de valores fijos de las variables explicativas, utilizando un conjunto de datos muestrales. Por tanto, una regresión de C sobre las demás variables se interpreta como el valor esperado de la distribución de probabilidad de C dado los valores de las variables r, Yd, w y Yp, es decir, y tal como se dijo en la primera parte de este capítulo, una regresión puede interpretarse como la media condicional de Y dado X. Formalmente: E (C /r, Yd, w, Yp ) = f (Xi) (1.3) Un punto importante que debe notarse es que la estructura de la relación entre la variable explicada y las variables explicativas se supone que es lineal lo cual puede ser un aproximación muy gruesa de la realidad porque de hecho muchos eventos o fenómenos que se pretenden explicar son de naturaleza no lineal. En todo caso el modelo de regresión lineal puede pensarse como una aproximación lineal de Taylor de un problema no lineal. 1.1.3 Definiciones Básicas Una vez que hemos entendido el concepto de regresión como la modelación de la media condicional de una distribución de probabilidades es deseable realizar algunas definiciones básicas que vamos a utilizar a lo largo del libro. El modelo de regresión lo podemos plantear de manera general de la siguiente forma: 6 Este modelo será estudiado en el Capítulo III. 7 Formalmente: i i X Y β ∂ ∂ = es decir, cada parámetro representa la derivada parcial de la variable dependiente con respecto a cada variable explicativa.
  • 4. Econometría Moderna El Modelo de Regresión Lineal 12 t kt k t t t x x x y µ β β β β + + + + + = ... .......... 3 3 2 2 1 La variable Y que es aquella que condicionamos a los valores que adopte las demás variables (X) recibe indistintamente le nombre de variable explicada, endógena o dependiente. Las variables a la derecha del modelo reciben el nombre de variables explicativas, exógenas o independientes. Como vemos el modelo es un modelo lineal el cual supone que los efectos de cada una de las variables explicativas se pueden agrupar de manera separada y el efecto conjunto se da de manera aditiva. El plantear el modelo de esta manera nos permite decir que lo que estamos haciendo es separar a la variable explicada en dos conjuntos: • La parte sistemática o determinística que viene representada por : kt k t t x x x β β β β + + + + ... .......... 3 3 2 2 1 Esta es la parte que es sugerida por el investigador y establece una relación sistemática y de dependencia entre la variable explicada y las variables explicativas. Dado el concepto de media condicional de la regresión, la parte sistemática representa lo que en promedio se dará cuando los valores de las X estén dados. Esta será la parte explicada por nuestro modelo de los valores de Y. Otra forma de apreciar esta parte es que representa lo que nosotros podremos predecir con nuestro modelo. Dado el carácter de media condicional, la predicción será aquel valor que esperamos tenga nuestra variable dependiente con mayor probabilidad. • La parte aleatoria o estocástica que viene representada por el término de error ( µ ). Dado que la economía busca estudiar el comportamiento económico de las personas no podemos pensar en encontrar relaciones exactas que gobiernen el comportamiento de los agentes económicos. Las personas, empresas o el Estado se desenvuelven en un contexto estocástico debido a que existen muchos factores no controlables como los estados de la naturaleza, movimientos bruscos en el mercado, factores políticos o los descubrimientos de nuevos productos y tecnologías que pueden afectar de manera inesperada cualquier relación que queramos estimar. Estos factores pueden ser importantes en un momento determinado pero no afectan de manera permanente a la variable dependiente. Un ejemplo de ello puede ser la presencia del fenómeno del niño. Como sabemos, este fenómeno aparece de manera inesperada y no se sabe cada qué tiempo afecta al Perú. Así, en un determinado año podríamos tener que todas las variables que afectan la producto de manera sistemática (incluidas en la parte explicada de la regresión) tengan un determinado valor. Si utilizamos nuestra relación estimada podríamos obtener algún resultado esperado, pero si se produce el fenómeno del niño, nos podríamos alejar considerablemente del valor que el modelo nos arroja como el más probable. Otro concepto que debemos utilizar es el referido al tipo de datos que podemos encontrar en la realización de trabajos empíricos. Los datos pueden clasificarse de la siguiente manera: • Datos de Series de Tiempo: En este caso podemos pensar que el individuo sobre el cual se mide la variable es el mismo y se observa éste a lo largo del tiempo. Un ejmplo podría ser el individuo PERU para el cual se miden a lo largo del tiempo los valores del producto bruto interno. • Datos de Corte Transversal: En este caso lo fijo es la unidad de tiempo y lo que varían son los individuos. Un ejemplo de esto son las encuestas que se hacen en un momento determinado del tiempo. En el Perú tenemos varios casos de encuestas realizadas como la Encuesta Nacional de Niveles de Vida (ENNIV) que sirve para analizar la calidad de
  • 5. Econometría Moderna El Modelo de Regresión Lineal 13 vida de las personas a través de la medición de ingresos y acceso a servicios básicos como la salud, educación, nutrición. Etc. • Datos Longitudinales: Esta tercera categoría es una combinación de las dos anteriores. Podríamos pensar en encuestas o mediciones que se hacen a distintos individuos en diferentes períodos de tiempo. Esto implica construir un panel de datos cuya realización es costosa porque implica hacer un seguimiento a los individuos a fin de poder ubicarlos para realizar la recolección de la información a lo largo del tiempo. En el Perú son pocos los casos en donde se han construido estos paneles de datos. Sin embargo, empresas privadas han invertido en la construcción de estos paneles dado que proveen muy buena información acerca de cambios en los patrones de consumo e ingresos de las personas. Una vez realizada esta definición de conceptos básicos es de suma utilidad iniciar el estudio de los métodos y formas que se encuentran disponibles para la obtención de los parámetros de los modelos que pretendamos estimar. 1.1.4 ¿Cómo obtener los parámetros? Si analizamos nuestro modelo, veremos que dada una muestra determinada, conocemos los valores muestrales tanto de la variable dependiente como de la dependiente. Sin embargo, los parámetros verdaderos (los β ´s) son desconocidos. Por ello, debemos desarrollar una estrategia que nos permita realizar una estimación adecuada de los mismos. En este punto es conveniente tener claro el concepto de estimación. Un estimador se define como cualquier fórmula o función de los datos que permite obtener estimaciones de los parámetros desconocidos. Así, se deduce que una estimación es el valor numérico que resulta de la aplicación de esta función a un conjunto de datos muestrales específicos.8 Según los expuesto, antes de proceder a explicar el proceso de estimación debemos hacer ciertas aclaraciones. El modelo planteado por el investigador sobre la base de consideraciones teóricas o apreciaciones intuitivas es un modelo desconocido al cual llamaremos modelo teórico. El modelo con el cual trabajaremos en la práctica implicará que se reemplazará los parámetros desconocidos por los estimadores correspondientes. Como estos no son los verdaderos sino aproximaciones que esperamos cumplan con ciertas condiciones deseables que veremos más adelante, los errores tampoco serán los verdaderos sino aproximaciones. Lo ideal es que exista cierta conexión entre el modelo teórico y el empírico. Esto lo podemos ilustrar con las siguientes expresiones: Y = X β + u ⇒ Y = X β̂ + e (1.4) modelo modelo teórico empírico En este caso hemos optado por expresar el modelo de manera general donde X es una matriz que contiene todos los datos de las variables explicativas. Denotaremos al número de variables explicativas como k y tendremos n datos. Por lo tanto, el orden de la matriz X será nxk. β es un vector columna que contiene a los k parámetros del modelo. De manera similar el orden del vector Y y del vector de errores (sean teóricos o empíricos) será de nx1 y .Como se puede apreciar, en el modelo empírico se ha reemplazado al parámetro verdadero y desconocido ( β ) 8 Esto implica que para otra muestra (la cual puede variar debido al método de muestreo) puedo obtener distintos estimados de los parámetros a pesar de que el estimador (función donde se reemplazan los datos) sea el mismo para todas las muestras posibles.
  • 6. Econometría Moderna El Modelo de Regresión Lineal 14 por su estimador ( β̂ ). De igual manera ocurre con los errores teóricos ( µ ) y los errores empíricos (e). Si bien son dos las magnitudes desconocidas en este modelo (los parámetros y los errores) debe notarse que una vez que obtenemos los estimados de los parámetros quedan determinados los errores empíricos. Por ello, el énfasis estará centrado en la estimación de los parámetros. La estimación de los parámetros se deriva de un problema de predicción condicional. En dicho problema se observa la realización de un vector aleatorio X y se desea predecir la realización de una variable aleatoria Y. En este punto debemos introducir el concepto de función de pérdida, la cual recibe este nombre debido a que la presencia de un estimador implica que existe un predictor que trata de explicar o aproximarse lo más posible al verdadero valor de Y. Así, el planteamiento de una función de pérdida tiene como objetivo lograr que el modelo sujeto a estimación se parezca lo más posible a lo observado en la realidad. En consecuencia, el mejor predictor será aquél que minimice la pérdida esperada de una función de pérdida específica. Dicho predictor resuelve un problema de minimización de la siguiente forma: Min E [L (Y - P) / X] (1.5) P Observado Estimado Siendo la función de pérdida L, P denota un predictor de Y y E (L (Y – P) / X ) es la pérdida esperada, condicional en X, cuando P es usado para predecir Y. Esta función debe satisfacer la siguiente condición: 0 < u < v ⇒ 0=L(0)≤L(u)≤ L(v) (1.6) 0 = L(0) ≤ L(-u ) ≤ L(-v ) (1.7) Evidentemente, la idea es que la función de pérdida sea lo más pequeña posible, donde u y v son los valores para el error de predicción (Y – P). Si la función de pérdida es fija, el valor del mejor predictor depende sólo de la distribución de probabilidad de Y condicional en X. En otras palabras, la estructura de la función es elegida por el investigador y lo que varía es el error de predicción para cada observación muestral de X e Y. En consecuencia, el valor del mejor predictor o estimador dependerá sólo de la distribución de probabilidad mencionada. En este sentido, y recordando que la regresión es el valor esperado de la distribución condicional de Y dado X, deducimos que el mejor predictor se obtiene mediante una regresión. Algo que no debe perderse de vista es que la proximidad entre el valor predicho y el valor verdadero dependerá de la elección del estimador. Por ello, deberá elegirse aquel estimador que haga mínima la diferencia dada una función de pérdida. En la práctica, los mejores predictores son los que se estudian más detalladamente en el análisis de regresión. Ellos describen brevemente la manera cómo varía Y ante cambios en los regresores (X). Sin embargo, existen distintas funciones de pérdida interesantes y, a su vez, muchas maneras de interpretar formalmente la posición de una variable aleatoria. A continuación se presentan algunas funciones de pérdida conocidas y los distintos predictores que se derivan de ellas. i) Pérdida cuadrática: La función de pérdida cuadrática es:
  • 7. Econometría Moderna El Modelo de Regresión Lineal 15 L (u) ≡ u2 (1.8) En este caso, el mejor predictor resulta la media condicional de Y en X. Este resultado se obtiene mediante el método de estimación de Mínimos Cuadrados Ordinarios, como veremos en el siguiente capítulo. ii) Pérdida absoluta: Cuya función de pérdida es la siguiente: L (u) ≡ u  (1.9) Si tomamos esta función de pérdida, el mejor predictor es la mediana de Y condicional en X. iii) Pérdida discreta: Dada una constante positiva δ, la función de pérdida discreta sería: L( * , δ ) L ( u ) ≡ 0 si u  < δ (1.10) L ( u ) ≡ 1 si u  ≥ δ (1.11) En este caso, el mejor predictor es el punto medio del intervalo de longitud 2δ que tiene la más alta probabilidad de contener a Y. En la medida en que δ se aproxime a cero, el mejor predictor se aproximará a la moda de Y condicional en X. En general, la media, la mediana y la moda de la regresión de Y en X difieren entre sí. La media como regresión puede ser lineal en X mientras que la mediana puede no serlo, o ambas pueden ser lineales pero con diferentes pendientes. Por otro lado, puede ser posible que una regresión aumente con X mientras la otra decrezca, o viceversa . En el problema de predicción descrito, la función de pérdida escogida determina la regresión sujeta a análisis. Dicha función debe reflejar las pérdidas asociadas al error de predicción, en otras palabras, debe reflejar cuán cerca están las predicciones del modelo con respecto a las observaciones reales. En ello radica la importancia de escoger una adecuada función de pérdida aunque dicha necesidad disminuye sólo si uno cuenta con alguna información acerca de la distribución, lo que implica que distintos predictores se comporten similarmente. 1.2 Métodos de estimación de los parámetros Cuando se efectúa una regresión se puede seleccionar el método de estimación más adecuado, dependiendo de la información previa a la que el investigador tiene acceso. Por ejemplo, si no se cuenta con información acerca de la forma de la regresión o no es de interés la estimación de un forma particular y sólo se quiere haceruna aproximación general de la función de densidad, se puede realizar una estimación no paramétrica, concepto que está fuera del alcance del presente libro9 . De otro modo, si se quiere trabajar con un modelo de regresión paramétrica existen distintos métodos de estimación que se pueden entre los cuales se puede n mencionar los siguientes: El método de Mínimos Cuadrados Ordinarios, el de Momentos Muestrales o el de Máxima Verosimilitud, los cuales se definirán a continuación y 9 El lector interesado puede revisar el trabajo de Pagan y Ullah (1999) “Nonparametric Econometrics” Cambridge University Press.
  • 8. Econometría Moderna El Modelo de Regresión Lineal 16 posteriormente se discutirán en detalle. Esos métodos son los más utilizados y responden a diferentes criterios con sus respectivas funciones de pérdida pero debe tenerse en cuenta que son arbitrarios. Su utilización generalizada obedece a que cumplen con una serie de propiedades deseables que facilitan su aplicación. i) Mínimos Cuadrados Ordinarios (MCO) El método de Mínimos Cuadrados es uno de los más usados, eficaces y conocidos del análisis de regresión debido al contenido de las propiedades estadísticas que posee. El principio sobre el cual descansa esta metodología consiste en hacer mínimos la norma del vector de errores o perturbaciones del modelo10 . Formalmente este criterio de puede establecer de la siguiente forma: Min ∑ = n i i e 1 2 =∑ − 2 ) ˆ ( β i i x y (1.12) La minimización de los errores al cuadrado presenta una ventaja con respecto a la minimización de la suma de errores sin elevar al cuadrado dado que ésta puede verse afectada por los signos de los errores. Así, podemos tener errores positivos muy grandes y errores negativos muy grandes que se compensan por lo que la suma podría ser cero pero ello no implicaría que la regresión estimada sería buena dado que los errores tendrían una magnitud considerable. ii) Método de Momentos El objetivo de este método consiste en aproximar lo más posible los momentos muestrales a los poblacionales. Recordemos que un momento es un estadístico que resume algunas características de una distribución de probabilidad, tal como un valor esperado o una desviación estándar. Las ecuaciones a partir de las cuales se determinan los parámetros se obtienen al reemplazar los supuestos poblacionales por sus contrapartes muestrales. Si la función de pérdida está fijada en términos de la distancia entre los momentos poblacionales y los muestrales la elección de los parámetros será aquella que minimice esta distancia. Este método ha sido generalizado por Hansen y Singleton (1982) en donde podemos utilizar más de un momento para la estimación de cada parámetro de un modelo. iii) Máxima Verosimilitud Este método consiste en maximizar la probabilidad de que una muestra dada pertenezca a determinada distribución. Para ello se plantea como supuesto que la variable Y tiene una distribución de probabilidad y se desea lograr que dicho supuesto inicial sea lo más verosímil posible, si sólo se cuenta con la muestra. Es decir, los coeficientes estimados son aquellos que hacen máxima la probabilidad de que la muestra pertenezca a la distribución supuesta. 1.3 Significado de la línea de regresión Cuando se define la regresión como la media condicional de Y dado los valores de las observaciones de X, de hecho podemos representar geométricamente este concepto a través de una línea o curva de regresión. De este modo, una curva de regresión llamada poblacional, es aquella que muestra el lugar geométrico de las medias condicionales o esperanzas de la variable endógena para los valores fijos de la(s) variable(s) exógena(s). Esto se puede apreciar en la siguiente figura: 10 Debe tenerse en cuenta que la minimización de la norma de un vector implica la minización de la raíz cuadrada de la sumatoria de cada uno de los elementos del vector elevados al cuadrado.
  • 9. Econometría Moderna El Modelo de Regresión Lineal 17 Figura 1.1 Línea de regresión poblacional La figura muestra cómo para cada X existen valores poblacionales de Y, y una media condicional correspondiente. Precisamente, la línea o curva de regresión pasa por las medias condicionales de la variable Y, y denota alguna función de la variable dependiente X. Así, se define formalmente la regresión como: E(Y/X ) = f (Xi) (1.13) y, en el modelo de regresión lineal simple (donde sólo se incluye una variable explicativa) se puede tener la siguiente función lineal de X: E( Y/X ) = β0 +β1Xi (1.14) Los parámetros o coeficientes de regresión son los β de la ecuación anterior. Asimismo, β0 es el llamado intercepto y β1 es el coeficiente de la pendiente. En el análisis de regresión lo que se busca es estimar los parámetros desconocidos teniendo como base las observaciones de X e Y. Sin embargo, se debe tomar en cuenta que a cada valor de X no necesariamente le corresponde un valor de Y que se encuentre sobre la línea de regresión. En otras palabras, el valor de una variable explicada para una observación en particular se encuentra alrededor de su esperanza condicional. De este modo, se puede expresar la desviación o perturbación de un valor de Y alrededor de su media o esperado de la siguiente forma: ) / ( i i i X Y E Y − = µ (1.15) Despejando la ecuación, queda:
  • 10. Econometría Moderna El Modelo de Regresión Lineal 18 i i i X Y E Y µ + = ) / ( (1.16) y reemplazando la ecuación (1.14) en (1.16) resulta: i i i X Y µ β β + + = 1 0 i=1,2, ... , n (1.17) Como se mencionó en la sección anterior, µi es llamado perturbación estocástica o estructural e introduce el elemento aleatorio a la ecuación de regresión, pudiendo tomar valores positivos o negativos para cada observación muestral. Cabe mencionar que en la mayoría de casos, no es posible disponer de todas las observaciones de la población, dado que en la práctica solamente se cuenta con una muestra de valores de Y que corresponden a los valores fijos de X. Con dicha información muestral se deberá estimar la función de regresión anterior, de modo que cuando se reemplacen los valores estimados para β0 y β1 se hallará la siguiente ecuación, también llamada función de regresión muestral: i i X Y 1 0 ˆ ˆ ˆ β β + = (1.18) La ecuación muestra las estimaciones de los coeficientes de regresión. Esta función es una aproximación a la ecuación de regresión poblacional, por eso se dice, en algunos casos, que i Ŷ sobreestima o subestima la verdadera E(Y/X). Es decir, el valor estimado de Y puede hallarse sobre la línea de regresión poblacional y como consecuencia presentar un error positivo o el valor estimado de Y puede encontrarse bajo la línea de regresión poblacional, y por lo tanto presentar un error negativo. En este sentido, lo importante en el análisis de regresión consiste en diseñar una regla o método que consiga que dicha aproximación se acerque lo más posible a los verdaderos valores de los parámetros, aún cuando nunca se llegue a conocerlos. El siguiente capítulo se ocupará de abordar dicho problema empezando con el análisis de un modelo de regresión lineal simple. Sin embargo, es importante advertir que en los procesos económicos, por lo general, se precisa de más de una causa para explicar de forma adecuada el comportamiento de una variable aleatoria, o bien se utilizan formas más complicadas que la lineal. A pesar de ello, es conveniente realizar una primera aproximación analizando la especificación más sencilla, de modo que luego se podrá comprender con menor dificultad el modelo de regresión lineal múltiple o general, cuyo estudio detallado será materia del Capítulo 3. 2 2 S SU UP PU UE ES ST TO OS S D DE EL L M MO OD DE EL LO O D DE E R RE EG GR RE ES SI IÓ ÓN N L LI IN NE EA AL L El objetivo de un análisis de regresión no sólo consiste en estimar los coeficientes de regresión, sino también en hacer inferencia acerca de los verdaderos valores de los parámetros (β0, β1). En otras palabras, se desea saber cuán cerca están los estimadores de sus contrapartes poblacionales, o cuán cerca está el valor estimado de Y de la verdadera E(Y/X). Por ello, resulta necesario plantear ciertos supuestos sobre el proceso generador de las variables endógenas (Y). Así y debido a que la función de regresión poblacional de Y, depende de las variables X y de µi, es necesaria una especificación de la forma como se generan las variables explicativas y los errores. En este sentido, los supuestos que se plantean a continuación resultan críticos para interpretar en forma válida los estimadores de una regresión lineal.
  • 11. Econometría Moderna El Modelo de Regresión Lineal 19 Antes de proceder con la descripción de los supuestos, cabe mencionar que el modelo clásico de regresión lineal se atribuye al matemático alemán Carl Friedrich Gauss, por quien también recibe el nombre de Modelo de Gauss. Este matemático planteó diez supuestos, válidos tanto para el análisis de regresión simple como para el modelo de regresión lineal múltiple, o de más de un regresor. Primer supuesto: El modelo es estocástico Esto se debe a la inclusión de un componente aleatorio en el modelo, expresado por el término de error (µi). La inclusión del término de error se debe a las siguientes razones: • Las respuestas humanas son impredecibles, puesto que las personas no tienen un patrón preestablecido de preferencias, hábitos de consumo, etc. • Omisión de variables explicativas que deberían incluirse en el modelo. Pretender que las variables independientes pueden explicar la estructura o predecir exactamente el comportamiento de la variable dependiente es una ilusión, debido a que en la realidad existen otros factores que afectan el comportamiento de la variable explicada que no son incluidos en el modelo. En efecto, puede suceder que las variables explicativas sean muy difíciles de medir. Por ejemplo, consideremos un modelo donde se busca explicar la demanda a través de la utilidad que brinda el consumo de un determinado bien. De hecho, la cuantificación y medición de la variable utilidad resulta una tarea bastante difícil debido al carácter subjetivo de la misma. En este sentido, la falta de información muestral conduciría a una mala medición o a la omisión de una variable relevante. Por otro lado, si dichas variables pueden medirse pero su impacto sobre Y no es significativo, entonces no amerita su inclusión. • Errores de medición en la variable endógena (Y). Esto ocurre frecuentemente debido a que las estimaciones de Y se realizan sobre la base de muestras finitas, además de que dicha variable puede no ajustarse a la teoría económica que el investigador desea contrastar. Por ello, el investigador debe decidir con cuidado el papel que desempeña cada variable, es decir, debe definir adecuadamente las variables exógenas y la endógena. • Agregación de variables. En muchos casos, la relación existente entre la variable endógena y las exógenas es un intento por resumir un conjunto de observaciones individuales en un agregado económico. Por ejemplo, el gasto agregado intenta resumir un conjunto de decisiones individuales de gasto. En este sentido, y debido a que las relaciones individuales son probablemente distintas entre individuos, cualquier intento de relacionar el gasto agregado con el consumo agregado es una aproximación. Así, la diferencia se le atribuye al término de error. Como ya se mencionó existe una distinción entre el error teórico o poblacional (µi) y el error de estimación o empírico. El primero responde a la necesidad de introducir un elemento aleatorio en el modelo por razones antes expuestas mientras que el error de estimación se define como la diferencia entre el estimado de la variable dependiente ) ˆ X ( β y la verdadera E (Y/X). Segundo supuesto: La esperanza matemática del término de error o perturbación es cero. Esto se expresa de la siguiente manera: E(µi) = 0 (1.19) Este supuesto indica que el valor de la media condicional del término de error para cualquier variable explicativa X dada, es idéntico a cero. De este modo, este supuesto garantiza que las
  • 12. Econometría Moderna El Modelo de Regresión Lineal 20 variables que no están incluidas en el modelo (y que por tanto están incorporadas en µi), no trasmiten ningún efecto sistemático sobre la media condicional de Y dado X. En términos más sencillos, los valores negativos de µi se compensan con sus realizaciones positivas. Por ello, en promedio no presentan ningún efecto sobre la variable dependiente del modelo. Aquellas variables no incluidas en el modelo pero que afectan de manera sistemática son recogidas por el intercepto del modelo. Tercer supuesto: La varianza del error es constante (el error es homocedástico). Formalmente: Var(µi) = σ2 i = 1,2,3,...,n (1.20) Esto implica que el término de error tiene igual(homo) dispersión(cedasticidad). Aquí debemos mencionar que un supuesto implícito en el modelo de regresión lineal es que cada uno de los errores proviene de una distribución de probabilidades. El valor que observamos del error para cada observación es la realización de la variable aleatoria ante la ocurrencia de un determinado evento. Entonces una forma de entender le presente supuesto es que implica que la varianza de cada una de las distribuciones de los distintos errores aplicables para cada observación es la misma. En otras palabras, y dados los valores de X, la varianza del error no cambia para distintas observaciones11 . El siguiente gráfico ilustra los conceptos que hemos mencionado hasta el momento: Figura 1.2 11 Evidentemente, cada término de error representa la realización de un proceso estocástico y lo que se asume a través de este supuesto es que las distribuciones de donde son “extraídos” estos errores presentan igual dispersión.
  • 13. Econometría Moderna El Modelo de Regresión Lineal 21 Como podemos apreciar, en el eje de la variable X suponemos que sus distintos valores están fijos lo que se refleja en las líneas discontinuas que parten de los valores x1 y x2 . Ante estos valores fijos de la variable explicativa tenemos diversas posibilidades de que ocurran diversos eventos lo que se refleja en todas la posibilidades de valores que puede tomar la variable dependiente (y). Estas distintas posibilidades (y sus probabilidades respectivas) determinan la función de distribución de los errores. Cuando no se verifica este supuesto, se dice que el término de perturbación es heterocedástico, es decir, posee una dispersión diferente para cada observación. Formalmente: Var(µi) = σi 2 i = 1,2,3,..., n (1.21) El subíndice i indica que la varianza del término de error no es constante ya que presenta un valor distinto para cada observación de X. En consecuencia, no todos los valores de Y, que corresponden a distintos valores de X, serán de igual importancia y confianza como indicadores de la posición de la línea de regresión. Se dicen que son confiables cuando poseen menor dispersión, es decir, se mide la confiabilidad por la cercanía con la cual se distribuyen los valores de Y alrededor de sus medias, esto es, sobre la línea de regresión poblacional. Si analizamos con cuidado la expresión (1.12) notaremos que el error que se minimiza es la diferencia entre el valor observado (Yi) y el estimado , de este modo se requiere que los valores observados sean indicadores confiables de la posición de la línea de regresión poblacional, esto es, E(Y/X). Cuarto supuesto: Ausencia de autocorrelación entre los errores. Formalmente: Cov(µi, µj) = 0 ∀ i ≠ j (1.22) Lo anterior implica que no existe autocorrelación o correlación serial entre los términos de error µi y µj, dadas las observaciones xi y xj. En este sentido, podemos definir el término autocorrelación como la correlación entre miembros de series de observaciones ordenadas en el tiempo (información de series de tiempo) o en el espacio (en información de corte tranversal). En otras palabras, si disponemos de datos de series de tiempo, se dice que un error µt para un periodo de tiempo t, está correlacionado con los términos de error µt+1, µt+2, .. y µt-1, etc. Un ejemplo típico donde se detecta la presencia de autocorrelación positiva ocurre bajo el modelo de expectativas adaptativas. Supongamos que los agentes económicos realizan su pronóstico de la inflación futura basados en la inflación pasada, solamente. Formalmente: ) ˆ ˆ ( ˆ ˆ 1 e e e P P v P P − + = + (1.23) Esta ecuación implica que la expectativa de la inflación de mañana es una combinación lineal de la expectativa para el período actual y el error de predicción registrado en este periodo. En este sentido, y en la medida en que los errores cometidos en el periodo actual se trasmiten al próximo a través del mecanismo descrito en (1.23), el pronóstico de la inflación evidenciará cierta inercia, es decir, estará autocorrelacionado con el error de predicción registrado en este periodo. En cambio, si se considera un modelo de expectativas racionales sabemos que los agentes económicos utilizan eficientemente toda la información disponible, ya sea porque conocen y entienden el modelo que esta utilizando el Estado para hacer política económica o simplemente conocen al modelo que explica la economía. Por lo tanto, al plantear sus expectativas de inflación futura lo hacen sobre la base de expectativas sobre las futuras políticas económicas. De lo anterior se puede inferir que los errores no son sistemáticos o no presentan correlación
  • 14. Econometría Moderna El Modelo de Regresión Lineal 22 alguna. Los supuestos tercero y cuarto pueden resumirse en uno solo si pensamos en el moelo planteado de forma matricial. El vector de errores del modelo es de dimensión Nx1 o Tx1, si se habla de información muestral de corte transversal o de series de tiempo, respectivamente. Por consiguiente su matriz de varianza y covarianzas es simétrica y definida positiva, de dimensión NxN o TxT, para cada caso. Esto se ilustra con la siguiente expresión:               = = ) ( ) ( ) ( ... ... ... ... ) ( ) ( ) , ( ... ) , ( ) ( ) ( ) ' ( 2 , 1 , 2 1 , 2 1 2 1 1 n n n n Var Cov Cov Var Cov Cov Cov Var Var E µ µ µ µ µ µ µ µ µ µ µ µ µ µ µµ En términos de esta matriz el tercer supuesto implica que todos los elementos de la diagonal principal son iguales. Por otro lado, el supuesto de ausencia de autocorrelación, determina que los elementos fuera de la diagonal principal son cero. De este modo, y de verificarse los dos supuestos antes analizados, la matriz anterior se puede escribir como: Var(µ)=σ2 In (1.24) Esto usualmente se conoce como el supuesto general de que los errores del modelo son esféricos. Quinto supuesto: Las variables explicativas y los errores son ortogonales entre sí. Formalmente: Cov(xi,µi) = 0 (1.25) Este supuesto implica que los errores y las variables independientes no presentan correlación. Como ya hemos mencionado el análisis de regresión lo que hace es descomponer a la variable dependiente en dos partes: una explicada o determinística y otra aleatoria o no explicada. Por tanto, este supuesto implica que si no existe relación entre las variables explicativas (que son el componente esencial de la parte explicada) y aquella parte no explicada, podemos descomponer el espacio donde está definida la variable dependiente en dos subespacios que son ortogonales entre sí12 . En otras palabras, cuando se especifica el modelo, se supone que las variables exógenas y los errores son dos partes separadas y aditivas de la variable a explicar (Y). Parte aleatoria µi Yi =β0 +β1Xi +µi Parte determinística β0 +β1Xi Los supuestos 2, 3, 4 y 5, son también conocidos como las condiciones de Gauss-Markov. 12 Podemos ampliar el concepto utilizando conceptos de teoría de conjuntos. Si tomamos que Y representa un conjunto, el supuesto que estamos presentando implica que se puede descomponer dicho conjunto en dos subconjuntos disjuntos (es decir, que no presentan intersección).
  • 15. Econometría Moderna El Modelo de Regresión Lineal 23 Estos garantizan que el estimador de mínimos cuadrados ordinarios es eficiente propiedad que analizaremos en los capítulos 3 y 4. Por otro lado, los supuestos 2, 3 y 4 garantizan que los errores del modelo son ruidos blancos. Sexto supuesto: El modelo es lineal en los parámetros. Se dice que un modelo tiene una especificación lineal cuando la variable endógena Y, o alguna transformación monotónica de la misma, se puede expresar como una función lineal de X o de alguna transformación de ella. Al respecto, consideremos las siguientes relaciones: Y = α + βX +µ (1.26) Y = β0 + β1 X + β2 X2 + β3 X3 +µ (1.27) Y = β0 + β2 1 X1+ √β2 X2 +µ (1.28) La ecuación (1.26) muestra una relación lineal simple, mientras que la (1.27) es un modelo lineal en parámetros, más no en las variables. Por otro lado, la ecuación (1.28) no es lineal en parámetros, ni tampoco puede reducirse a una función que exprese una relación lineal. Ahora se considera el siguiente modelo que busca predecir la cantidad demandada(Q) dadas las observaciones muestrales de la variable explicativa precio(P). El análisis de este modelo implica la estimación de los parámetros α y β, sin embargo, y de acuerdo al supuesto de linealidad, el modelo deberá ser transformado de la siguiente manera: µ β α e P Q = (1.29) LnQ = lnα +βlnP +µ (1.30) La linealiadad en los parámetros es relevante para el análisis de regresión, por consiguiente, de ahora en adelante cuando se diga que una regresión es lineal se referirá a una regresión que es lineal en los parámetros. Sin que esto necesariamente implique que también lo sea en las variables explicativas (X). Séptimo supuesto: Los parámetros son constantes entre observaciones. Conocido también como el supuesto de estabilidad temporal, éste implica que los coeficientes del modelo de regresión lineal son constantes en el tiempo. Igualmente, se supone que el modelo es idéntico para todas las observaciones de la muestra. De hecho, este supuesto resulta esencial no sólo si se pretende modelar la estructura que gobierna el comportamiento de la variable dependiente sobre la base de las independientes, sino principalmente si se busca que el modelo realice predicciones confiables. Así, si la estructura que modela la variable dependiente se mantiene inalterada a lo largo de todo el intervalo muestral, podemos asumir que esta misma estructura se mantiene para periodos fuera del intervalo de la muestra y utilizar la misma para predecir, este procedimiento es conocido como extrapolación. Octavo supuesto: Causalidad unidireccional. El análisis de regresión supone la existencia de una relación causal desde las variables independientes (X) hacia la variable dependiente (Y). Cabe mencionar que desde un punto de vista meramente estadístico, el modelo de regresión no necesariamente tiene una connotación de causalidad. Es decir, de la misma manera como se
  • 16. Econometría Moderna El Modelo de Regresión Lineal 24 puede estimar una regresión de una variable dependiente Y sobre otra variable independiente X, se puede estimar una regresión de modo inverso. En cambio, al plantear un modelo econométrico se debe tener cuidado al especificar las variables, y definir tanto las explicativas (consideradas fijas), como la variable a explicar (considerada aleatoria). Así, el investigador debe decidir el papel que le otorga a las diferentes variables de modo que sólo exista una dirección en la relación de causalidad. A manera de ejemplo, recordemos que la teoría cuantitativa del dinero afirma que el volumen de transacciones en una economía es igual a la cantidad de dinero que rota en la misma. Formalmente: P.Q=M.V (1.31) donde: P= precio Q= producto M= dinero V= velocidad de circulación constante. En la ecuación anterior existe una relación causal que va de M hacia P, es decir, el nivel de precios es explicado por la cantidad de dinero en la economía. Sin embargo, no se cumple lo contrario, puesto que el nivel de precios es una variable aleatoria (endógena), mientras que M es fija o determinística (exógena). Sin duda, en términos estadísticos podríamos estimar una relación de este tipo, esto es, una regresión de la cantidad de dinero sobre el nivel de precios, sin embargo, esta especificación no tendría ningún sustento teórico. En este sentido, el investigador debe decidir a priori cuál es la especificación que va a utilizar sobre la base de la teoría que busca verificar y una vez decidida, se supone una única dirección causal Noveno supuesto: Las variables explicativas son linealmente independientes. Este supuesto implica que ninguna de las variables explicativas involucradas en el modelo puede expresarse en términos de una combinación lineal exacta de las demás. Si alguna de las variables explicativas fuera una combinación lineal de otra significaría que la primera no aporta nada adicional al modelo o que los efectos individuales que ésta puede tener sobre la variable dependiente se confunden con los de la segunda. Este problema es conocido como multicolinealidad, el cuál será abordado con detalle en el Capítulo (9) Décimo supuesto: Las variables independientes son fijas o determinísticas (no aleatorias) Si revisamos con cuidado el análisis hasta ahora expuesto, notaremos que este supuesto ha estado implícito desde el inicio del capítulo. Este supuesto implica que de poderse repetir el proceso de muestreo numerosas veces, los valores observados de las variables exógenas no deben cambiar. Cuando se trabaja con datos de series temporales, es común la aparición de valores retardados de la variable explicada (Y) como variables explicativas, ya que a veces las variables económicas no toman de inmediato el valor esperado por los agentes, y de ese modo incorporan cierta inercia. De este modo, cuando los retardos (o rezagos) son incluidos en el modelo de regresión como variables explicativas, se dice que son predeterminadas o en términos más formales, que son realizaciones del proceso que gobierna el comportamiento de la variable explicada. Este caso específico se analizará en un capítulo posterior. 3. A MODO DE RESUMEN
  • 17. Econometría Moderna El Modelo de Regresión Lineal 25 En este capítulo hemos revisado los conceptos básicos que están detrás del análisis de regresión así como aquellos relevantes respecto a las variables incluidas en el modelo. De la misma manera hemos revisado los principales supuestos que se realizan con respecto al modelo lineal general que analizaremos en buena parte del libro. Debe entenderse que estos supuestos son, en algunos casos, muy restrictivos y será interesante analizar cuáles son los efectos de la relajación de los mismos sobre los distintos estimadores que estudiaremos más adelante. Habiendo establecido el lenguaje común que utilizaremos a partir de ahora es importante iniciar la exploración de los distintos caminos con los que contamos para a obtención de los parámetros desconocidos de nuestro modelo. En primer lugar, analizaremos el estimador de mínimos cuadrados ordinarios que es uno de los más analizados y el mejor cuando trabajamos con modelos lineales.
  • 18. C CA AP PI IT TU UL LO O 2 2 E EL L M ME ET TO OD DO O D DE E E ES ST TI IM MA AC CI IÓ ÓN N D DE E M MÍ ÍN NI IM MO OS S C CU UA AD DR RA AD DO OS S O OR RD DI IN NA AR RI IO OS S: : M MO OD DE EL LO O D DE E R RE EG GR RE ES SI IÓ ÓN N B BI IV VA AR RI IA AD DO O 2 2. .1 1. . I IN NT TR RO OD DU UC CC CI IÓ ÓN N Una vez revisados los conceptos básicos en el capítulo 1 estamos listos para iniciar nuestro camino con el fin de entender la forma más utilizada de estimar los parámetros de un modelo lineal: El estimador de mínimos cuadrados ordinarios. Como se mencionó en la sección 1.1.4 el método de Mínimos Cuadrados Ordinarios (MCO) presupone una minimización de la suma de los errores elevados al cuadrado, para de ese modo estimar los parámetros de la regresión. Recordemos que para obtener los parámetros partimos de un problema de predicción condicional donde el mejor predictor de Y condicional en X es una predicción que minimiza la pérdida esperada con respecto de una función de pérdida específica. Esta función depende de criterios arbitrarios, algunos de los cuales han sido descritos en la sección (1.1.3): En este capítulo, iniciaremos nuestro estudio sobre la estimación de los parámetros tomando en cuenta el modelo de regresión bivariado, modelo de regresión simple o modelo lineal simple. Este modelo puede ser planteado de la siguiente manera: i i i X Y µ β β + + = 1 0 (2.1) En este caso, observamos que la variable dependiente sólo es explicada por una variable independiente aparte de la inclusión del intercepto. Debe hacerse una aclaración en este caso porque muchos lectores pensarán que el intercepto podría ser considerado como una variable explicativa adicional. Sin embargo, debemos recordar que el intercepto recoge el efecto promedio de aquellas variables no incluidas en el modelo. Su inclusión no implica que exista
  • 19. Econometría Moderna MCO: El Modelo de Regresión Bivariado 28 una relación sistemática entre las variaciones de una variable independiente y la dependiente por lo que su inclusión no es importante como variable explicativa sino para guardar cierta consistencia de los resultados. El modelo presentado en la expresión anterior es un modelo teórico. Para poder iniciar el proceso de estimación de los parámetros desconocidos debemos plantear nuestro modelo empírico, el cual toma la siguiente forma: i i i e X Y + + = 1 0 ˆ ˆ β β (2.2) En este caso, estamos reemplazando los parámetros desconocidos por sus estimadores y el término de error es reemplazado por el error empírico (e). En este caso la primera parte de la expresión, expresada por: i i X Y 1 0 ˆ ˆ ˆ β β + = (2.3) será la parte predicha (o explicada) por el modelo. Esto representará nuestro estimado de la media condicional de la distribución de Y. 2 2. .2 2. . M MÉ ÉT TO OD DO O D DE E E ES ST TI IM MA AC CI IÓ ÓN N D DE E M MÍ ÍN NI IM MO OS S C CU UA AD DR RA AD DO OS S P PA AR RA A U UN N M MO OD DE EL LO O D DE E R RE EG GR RE ES SI IÓ ÓN N L LI IN NE EA AL L S SI IM MP PL LE E Como ya se mencionó, en este modelo la variable endógena sólo se explica mediante una variable exógena fija o no aleatoria. El criterio de mínimos cuadrados ordinarios implica resolver el siguiente problema de minimización: Min ∑ = n i i e 1 2 Con respecto a 1 0 β β y , siendo : ) 1 ˆ 0 ˆ ( i X i Y ei β β − − = (2.4) Así, planteamos el problema de minimización de la forma: 1 0 2 1 0 ˆ , ˆ ) ˆ ˆ ( β β β β i i X Y Min − ∑ − (2.5) si derivamos con respecto a los parámetros, obtenemos las siguientes ecuaciones de primer orden: ∑ − = − − ∑ − = ∂ ∑ ∂ i i i i e X Y e 2 ) ˆ ˆ ( 2 ˆ ) ( 1 0 0 2 β β β (2.6) i i i i i i X e X e X Y ∑ ∑ ∑ − = − − − = ∂ ∂ 2 ) ˆ ( 2 ) ( 1 0 1 2 ˆ ˆ β β β (2.7) Si desarollamos estas dos expresiones y las simplificamos, obtenemos las siguientes fórmulas:
  • 20. Econometría Moderna MCO: El Modelo de Regresión Bivariado 29 ∑ + ∑ ∑ = i i X Y 1 0 ˆ ˆ β β (2.8) ∑ + ∑ ∑ = 2 1 0 ˆ ˆ i i i i X X Y X β β (2.9) Estas ecuaciones son llamadas ecuaciones normales de la línea de regresión. Más adelante veremos que cada una de ellas implica que cada regresor es ortogonal al vector de errores mínimocuadráticos. Como vemos es un sistema de ecuaciones donde el número de incógnitas es igual al número de ecuaciones. Si el sistema está exactamente identificado, entonces existe una solución única. Para resolver este sistema conviene plantearlo en forma matricial para luego resolverlo utilizando para ello el método de Kramer. Si escribimos el sistema en forma matricial podemos expresarlo de la siguiente manera: (2.10) Aplicando el método de solución descrito, obtenemos las siguientes soluciones: ( ) ( ) ( ) 2 2 2 2 2 0 ˆ ∑ ∑ − ∑ ∑ ∑ − ∑ = ∑ ∑ ∑ ∑ ∑ ∑ ∑ = i i i i i i i i i i i i i i i X X n Y X X X Y X X X n X Y X X Y β (2.11) ( ) ( ) ( ) 2 2 2 1 ˆ ∑ − ∑ ∑ ∑ ∑ − = ∑ ∑ ∑ ∑ ∑ ∑ = i i i i i i i i i i i i X X n Y X Y X n Xi X X n Y X X Y n β Si se trabaja con el denominador y numerador de 1 β̂ , y los dividimos entre n, podemos llegar a las expresiones siguientes, las cuales resultan mucho más comprensibles en términos estadísticos: ( ) ( ) n X n X n X X i i i 2 2 2 2 − ∑ = ∑ − ∑ (2.12) 2 2 X n Xi − ∑ = 2 ) X X ( i ∑ − = (2.13)     =                 ∑ ∑ ∑ ∑ ∑ i i i i i Y X Y X X X n 1 0 2 ˆ ˆ β β
  • 21. Econometría Moderna MCO: El Modelo de Regresión Bivariado 30 Y X n Y X Y X n Y X i i i i i i − ∑ ∑ = ∑ ∑ − ) / 1 ( = Y X n Y X n Y X n Y X i i − + − ∑ ∑ − ∑ + ∑ − ∑ = i i i i Y X Y X Y X Y X (2.14) Nótese que la última ecuación puede simplificarse como: . ( )( ) ∑ − − X X Y Y i i (2.15) Reemplazando las ecuaciones (2.13)y (2.15) en la expresión (2.11) se tiene: ( )( ) ( ) ) ( ) , ( ˆ 2 1 X Var Y X Cov X X X X Y Y i i i = ∑ − ∑ − − = β (2.16) La última ecuación muestra que el estimador de Mínimos Cuadrados se puede expresar en función de los datos muestrales. Donde Y y X expresan las medias muestrales de la variable endógena y exógena, respectivamente. Para simplificar podemos definir las siguientes variables: Esta notación se utilizará para representar las desviaciones con respecto a los valores medios de X e Y, y también para estimar el modelo en desviaciones en un capítulo posterior. Esta representación resulta una herramienta interesante para demostrar algunas propiedades del estimador de MCO. Por otro lado, el intercepto de la función de regresión muestral ) ˆ ( 0 β puede representarse utilizando la primera ecuación normal y dividiendo ésta entre el tamaño muestral (n): X Y 1 0 ˆ ˆ β β − = (2.17) Con esto se demuestra una propiedad importante del estimador mínimo cuadrático: si el modelo tiene un intercepto, la línea de regresión pasa por los valores medios de Y y X. Las ecuaciones (2.16) y (2.17) son de mucha utilidad dado que nos permiten escribir los estimadores MCO como una función de estadísticos muestrales, sin necesidad de resolver las ecuaciones normales. El primer paso consiste en calcular la pendiente de X ( 1 β̂ ), para luego reemplazar dicho valor en la ecuación (2.17). Para ilustrar este método de estimación consideremos el siguiente ejemplo: Ejemplo El gerente de ventas de una tienda de electrodomésticos desea conocer la relación existente entre el número de artefactos vendidos y el número de representantes de ventas, para luego ( ( ) Y Y y X X x i i i i − = − =
  • 22. Econometría Moderna MCO: El Modelo de Regresión Bivariado 31 hacer algunas predicciones acerca de las ventas del próximo año. Para tal fin el gerente observa las ventas efectuadas en diez días diferentes (ver la Tabla 2.1) Como se anotó en la sección (1.1.2) se debe plantear un modelo de regresión lineal y a su vez especificar el papel que desempeña cada una de las variables en función al estudio que se desea realizar. Por lo tanto, en este caso se define la variable explicativa (X) como el número de representantes de ventas y la variable explicada (Y) como el número de artefactos vendidos. Tabla 2.1 DÍAS i X i Y i i Y X 2 X i Ŷ i i i Y Y e ˆ − = 1 1 3 3 1 7 -4 2 1 6 6 1 7 -1 3 1 10 10 1 7 3 4 2 5 10 4 8 -3 5 2 10 20 4 8 2 6 2 12 24 4 8 4 7 3 5 15 9 9 -4 8 3 10 30 9 9 1 9 3 10 30 9 9 1 10 2 9 18 4 8 1 Totales 20 80 166 46 80 0 Utilizando la tabla anterior y reemplazando los datos correspondientes a las ecuaciones normales halladas anteriormente, se tiene: 1 0 ˆ 20 ˆ 10 80 β β + = 1 0 ˆ 46 ˆ 20 166 β β + = Si se despeja de la primera ecuación el intercepto y se reemplaza dicho valor en la segunda se obtienen los siguientes estimadores MCO: 1 ˆ 6 ˆ 1 0 = = β β Evidentemente, si utilizamos las ecuaciones obtenidas a través del método de Kramer, también se deben obtener los mismos resultados. La comprobación queda para el lector. Se puede utilizar el ejemplo anterior para hallar la función de regresión muestral, es decir la regresión de Y con respecto a X. Formalmente: i i X Y + = 6 ˆ Si se sustituyen las observaciones muestrales de X en la ecuación anterior, obtenemos la sexta columna de la Tabla 2.1 ) ˆ ( i Y . Estos valores representan las estimaciones de la variable dependiente obtenidas a través de los parámetros calculados por el método MCO. Comparando estos valores con aquellos observados para la variable dependiente hallamos los errores correspondientes a cada observación de la muestra. Debido a que el modelo incluye un intercepto o término constante, se verifica que la suma de errores estimados es cero.
  • 23. Econometría Moderna MCO: El Modelo de Regresión Bivariado 32 Hasta aquí el lector ya debe estar apto para estimar una regresión bajo el método de Mínimos Cuadrados Ordinarios y debe tener claro los siguientes conceptos: regresión, parámetros, línea de regresión, estimadores, estimación, errores estocásticos. En la siguiente sección, se detallarán las propiedades del estimador mínimo cuadrático, las que como se verá, resultan de suma importancia para el análisis de regresión. Algo importante que debe recalcarse es que todo estimador es una función de los datos y como éstos pueden cambiar en cada muestra tenemos que serán variables aleatorias. Alguien podría decir que si las X están fijas siempre tendremos la misma muestra pero pensando de dicha forma se dejaría de lado la naturaleza aleatoria de Y que, sabemos, depende del vector de errores. Estos errores no son fijos y si tomamos una nueva muestra podrían variar lo que implicaría un nuevo valor de Y para cada realización de la muestra. Si reemplazamos en nuestro estimador una muestra determinada (valores observados de variables aleatorias) obtendremos los estimados. Por tanto, un estimado es un valor particular de la función de los datos (estimador) cuando utilizamos una muestra en particular. Es importante hacer esta distinción porque las propiedades que se analizarán más adelante se referirán a la variable aleatoria llamada estimador. 2 2. .3 3. . P PR RO OP PI IE ED DA AD DE ES S D DE EL L E ES ST TI IM MA AD DO OR R M MC CO O Básicamente son dos la propiedades muestrales que nos interesan analizar del estimador MCO. Estas son el insesgamiento y la eficiencia. Intuitivamente la primera se refiera a que el centro de la distribución del estimador es igual al parámetro verdadero mientras que la segunda nos asegura que nuestro estimador será el de varianza mínima lo que nos dará una mayor seguridad porque el grado de imprecisión inherente será menor. Estas dos propiedades son aquellas que denominaremos de muestras pequeñas. 2.3.1 Insesgamiento del estimador MCO. Formalmente la propiedad de insesgamiento se puede establecer de la siguiente forma: ( ) 0 ) ˆ ( = − β β E E Esto quiere decir que el centro de la distribución del estimador de mínimos cuadrados ordinarios coincide con el verdadero valor del parámetro. Si se cumple esta propiedad podemos usar con cierta tranquilidad nuestro estimador porque sabremos que cada estimado que obtengamos provendrá de una distribución cuya media es el verdadero valor del parámetro por lo que el estimado será equivalente, en términos estadísticos al verdadero parámetro1 . Para verificar esta propiedad, recordemos la expresión del estimador MCO: ! ( )( ) ( ) ( ; ) ( ) β1 2 2 = − − − = = ∑ ∑ ∑ ∑ Y Y X X X X Cov X Y Var X x y x i i i i i i (2.28) Trabajando con el numerador: 1 Debemos mencionar que ello no implica que nuestro estimado particular sea exactamente igual al verdadero parámetro. De hecho podríamos tener otra muestra y obtener otro estimado. Si el estimador es insesgado, entonces este nuevo estimado también podremos utilizarlo e interpretarlo como equivalente, en términos estadísticos, al verdadero parámetro.
  • 24. Econometría Moderna MCO: El Modelo de Regresión Bivariado 33 ( )( ) ( ) ( ) X X Y Y X X Y Y X X i i i i i − − = − − − ∑ ∑ ∑ y dado que ya conocemos que ( ) X X i − = ∑ 0, podemos reexpresar el numerador de la ecuación (2.28), de la forma2 : x y x Y i i i i = ∑ ∑ (2.29) Ahora, y por propiedades matemáticas de las sumatorias, se puede expresar la ecuación (2.28) como: i i i y x x ∑         ∑ = 2 1 β̂ = ∑k y i i (2.30) Siendo: k x x i i i = ∑ 2 (2.31) Así, se dice que el estimador MCO es lineal, ya que es una función lineal de la variable endógena (Y). Nótese que en la ecuación (2.30), ! β1 es una combinación lineal ponderada de Y, donde ki representa las ponderaciones y dado que las X son fijas estas ponderaciones se pueden interpretar como constantes. Digresión: Propiedades de ki : i. Las ki son no estocásticas, debido a que las X tampoco lo son. ii. ki ∑ = x x x x i i i i 2 2 0 ∑ ∑ ∑ ∑         = = Dado que xi representa la desviación de dicha variable respecto a su media, el numerador es siempre cero. Además, se sabe que la suma de las desviaciones al cuadrado, para cualquier muestra dada, es un valor conocido y diferente de cero. iii. ki 2 ∑ = ( ) x x x i i i 2 2 2 2 1 ∑ ∑ ∑ = iv. ( ) k x x x i i i i ∑ ∑ ∑ = = 2 2 1 2 Nótese que únicamente el término Y X X i ( ) − ∑ puede ser igualado a cero.
  • 25. Econometría Moderna MCO: El Modelo de Regresión Bivariado 34 Las propiedades anteriores son de mucha utilidad para verificar la insesgabilidad y la eficiencia del estimador MCO, como se verá más adelante. Antes de revisar estas propiedades, conviene recordar que uno de los supuestos del modelo de regresión lineal afirma que las observaciones de X son fijas, es decir, no varían si se utiliza otra muestra de igual tamaño. En cambio, no se debe olvidar que las observaciones de Y sí serían diferentes de repetir el proceso de muestreo, debido a que incluye un componente aleatorio µi cuyas realizaciones variarían al cambiar de muestra. Estos conceptos se utilizarán repetidamente en la demostración de las propiedades. Con esto en mente, pasemos ahora a verificar las propiedades del estimador MCO. En primer lugar, sustituyamos en (2.29) la ecuación del modelo teórico de regresión (1.17) para luego, y con la ayuda de las propiedades enunciadas en la digresión, demostrar la insesgabilidad de los estimadores Resulta fácil comprobar que en la ecuación (2.30) resulta indiferente multiplicar las ponderaciones por yi o por Yi, para ello se debe reemplazar (2.29) en (2.28) . Así tenemos que: ! ( ) β β β µ 1 0 1 = = + + ∑ ∑ k Y k X i i i i i = + + ∑ ∑ ∑ k k X k i i i i i β β µ 0 1 = + + = + + ∑ ∑ ∑ ∑ β β µ β β µ 0 1 0 1 0 1 k k X k k i i i i i i i ( ) ( ) (2.31) En la ecuación (2.31) se han utilizado la segunda y cuarta propiedad de ki . Ahora, y dado que un estimador insesgado es aquél cuya esperanza matemática es idéntica al verdadero valor del parámetro que se desea estimar, se tomará esperanzas a la ecuación anterior. ( ) E E E k k E i i i i (! ) ( ) ( ) β β µ β µ 1 1 1 = + = + ∑ ∑ = +∑ β1 0 ki ( ) E(! ) β β 1 1 = (2.33) Por consiguiente, se comprueba que ! β1 es un estimador insesgado de β1. Ahora y para verificar el insesgamiento del estimador del intercepto (β0 ), dividamos la ecuación (1.17) entre el tamaño muestral (n) para calcular la esperanza de la expresion resultante: Y X = + + β β µ 0 1 (2.34) E Y E X E X ( ) ( ) ( ) = + + = + β β µ β β 0 1 0 1 (2.35) Reemplazando las expresiones (2.33) y (2.35) en la ecuación de la línea de regresión muestral3(2.17) se obtiene: 3 En adelante, de no indicar lo contrario, nos referiremos a la línea de regresión muestral o estimada, esto es, β̂ i X .
  • 26. Econometría Moderna MCO: El Modelo de Regresión Bivariado 35 ! ! β β 0 1 = − Y X E E Y E X ( ! ) ( ) (! ) β β 0 1 = − E X E X ( ! ) ( ) ( ! ) β β β β 0 0 1 1 = + − = + − β β β 0 1 1 X X E( ! ) β β 0 0 = (2.36) De esta manera queda comprobado que los estimadores mínimo cuadráticos de los verdaderos parámetros, β0 y β1, son insesgados. 2.3.2. Varianzas y covarianzas de los estimadores de MCO Nótese en las ecuaciones de los estimadores MCO (2.17) y (2.28), que la naturaleza aleatoria de los mismos proviene de la variable endógena Y, la cuál es estocástica debido a la inclusión del término de error en el modelo. Por consiguiente, los estimadores ! β son una variable aleatoria que provienen de una distribución de probabilidad cuya esperanza matemática es el verdadero valor del parámetro lo que implica que es el valor con la mayor probabilidad de ocurrencia. Adicionalmente a lo anterior, es preciso disponer también de medidas de dispersión de los estimadores, de modo que se pueda juzgar el grado en que se aproximan al verdadero valor del parámetro que se pretende estimar . De ese modo, y para efecto de contrastar si los regresores cumplen con ciertas condiciones teóricas mediante el análisis de inferencia estadística, se hallará la expresión analítica de la varianza de cada uno de los estimadores ! β y una medida de dependencia entre ellos, es decir la covarianza. Así, y partiendo de la expresión ! β1 (2.32) tenemos: ! β β µ 1 1 = +∑ki i ! β β µ 1 1 − = ∑ki i (2.37) Ahora, recordemos que la varianza puede expresarse en los siguientes términos: [ ] Var E E (! ) ! (! ) β β β 1 1 1 2 = − (2.38) y dado que el estimador MCO es insesgado, tenemos que: [ ] Var E ( ! ) ! β β β 1 1 1 2 = − (2.39) Sustituyendo la expresión (2.37) en (2.39), queda: [ ] Var E ki i (! ) β µ 1 2 = ∑ = + + + E k k kn n ( ... ) 1 1 2 2 2 µ µ µ
  • 27. Econometría Moderna MCO: El Modelo de Regresión Bivariado 36 = + + + + + + − − E k k k k k k k n n n n n n ( ... ... ) 1 2 1 2 2 2 2 2 2 2 1 2 1 2 1 1 2 2 µ µ µ µ µ µ µ (2.40) La expresión anterior puede simplificarse si consideramos los supuestos de homocedasticidad y no autocorrelación. Así tenemos que: ∑ = ∑ = ∑ 2 2 2 2 2 2 ) ( ) ( i i i i i k E k k E µ σ µ µ 0 ) ( ) ( = ∑ = ∑ j i j i j i j i E k k k k E µ µ µ µ y, reemplazando las ecuaciones precedentes, se obtiene: ( ) Var k x x X X i i i i (! ) ( ) β σ µ σ µ σ µ 1 2 2 2 2 2 2 2 2 1 = = = − ∑ ∑ ∑ ∑ (2.41) Nótese en la expresión anterior que la varianza de ! β1depende directamente de la varianza del término de error y mantiene una relación indirecta con las observaciones de la muestra tomada. En tal sentido, y dada σ µ 2 , cuanto mayor sea la variabilidad de los valores de X, menor será la varianza del estimador y de este modo la estimación de β1 será más precisa. Por otro lado, y dada las observaciones de X, cuanto mayor sea la varianza de µ mayor será la del estimador. Por lo tanto, para garantizar una mayor precisión en la estimación debemos buscar que las variables explicativas presenten mucha variabilidad. Por otro lado, para hallar la varianza del estimador del intercepto ( ! β0 ) debemos partir de la ecuación de la línea de regresión (2.18) y reemplazar la especificación para la media de la variable endógena (2.34) para obtener: ! ( ) ! β β β µ β 0 1 0 1 = + + − X X ! (! ) β β β β µ 0 1 0 1 = − − + X (2.42) Ahora, y dado que: ! β β µ 1 1 − = ∑ki i la ecuación (2.42) se puede escribir como: ( ) ! β β µ µ 0 0 = − ∑ + ki i X ( ) (! ) β β µ µ 0 0 − = − ∑ + ki i X (2.43) Utilicemos ahora un procedimiento similar al propuesto para la varianza del estimador de la pendiente:
  • 28. Econometría Moderna MCO: El Modelo de Regresión Bivariado 37 [ ] ( ) ( ) Var E E ki i X (! ) ! β β β µ µ 0 0 0 2 2 = − = − ∑ + ( ) ( ) Var E ki i X X ki i (! ) ( ) β µ µ µ µ 0 2 2 2 2 = ∑ + ∑       − (2.44) Dado que el valor esperado afecta únicamente a las variables aleatorias, la expresión anterior, puede representarse como: Var X E k k E X n E k k k k n n n n n n n (! ) ( ... ) ( ) ( ... ... ) β µ µ µ µ µ µ µ µ µ 0 2 1 2 1 2 2 2 2 1 1 2 2 1 1 2 1 2 = + + + − + + + + + − Por la demostración de la varianza de (! ) β1 , sabemos que: E k kn n ( ... ) 1 2 1 2 2 2 µ µ + + = σ µ 2 2 1 ( ) X X i − ∑ y además, por las propiedades de ki y por el supuesto de no autocorrelación entre los errores, se tiene que: E k k k k k k E n n n n n i i i j ( ... ..... ) ( ) ( ) ( ) 1 1 2 2 1 1 2 1 2 2 0 0 0 µ µ µ µ µ µ σ µ µ µ σ µ + + + + + = + = + = − ∑ ∑ Ahora, y a partir del tercer y cuarto supuesto del modelo de regresión lineal sabemos que: E E n n n n n n n ( ) ( ... ... ) ( ) µ µ µ µ µ µ µ µ σ µ σ µ 2 2 1 2 2 2 2 1 2 1 2 2 2 1 1 = + + + + + + = = − Dadas las expresiones anteriores, la varianza del estimador del intercepto se reduce a: Var X X X n X X X n i i ( ! ) ( ) ( ) β σ µ σ µ σ µ 0 2 2 2 2 2 2 2 1 1 1 = − + = − +         ∑ ∑ (2.45) Conociendo la especificación para la varianza de cada uno de los estimadores involucrados, pasemos ahora a analizar su covarianza. Como sabemos, la definición de covarianza viene dada por: [ ][ ] ( ) Cov E E E (! , ! ) ! (! ) ! (! ) β β β β β β 0 1 0 0 1 1 = − − (2.46) dada la propiedad de insegabilidad, la ecuación anterior puede escribirse como: [ ][ ] ( ) Cov E (! , ! ) ! ( ) ! ( ) β β β β β β 0 1 0 0 1 1 = − − (2.47) Ahora, recuérdese que :
  • 29. Econometría Moderna MCO: El Modelo de Regresión Bivariado 38 ! ! β β 0 1 = − Y X y tomando esperanzas: ) ˆ ( ) ˆ ( 1 0 X E Y E β β − = 4 (2.48) Restando las dos expresiones anteriores tenemos: ! (! ) β β β β 0 1 0 1 − = − − X (2.49) y sustituyendo la última expresión en (2.47), resulta: [ ] Cov E X (! , ! ) (! ) β β β β 0 1 1 2 1 = − − = − − XE(! ) β β 1 2 1 (2.50) Considerando las definiciones propuestas en (2.39) y (2.41), la covarianza entre los estimadores MCO vendría dado por: Cov XVar (! , ! ) (! ) β β β 0 1 1 = − ∑ − − = 2 2 ) ( 1 X X X i µ σ (2.51) Resumiendo las expresiones obtenidas para la varianza y la covarianza de los estimadores MCO, se tiene: Var x X X i i (! ) ( ) β σ µ σ µ 1 2 2 2 2 = = − ∑ ∑ Var X X X n i (! ) ( ) β σ µ 0 2 2 2 1 = − +         ∑ Cov X X X i (! , ! ) ( ) β β σ µ 0 1 2 2 = − − ∑ Nótese que las formulas anteriores pueden ser estimadas a partir de los datos muestrales excepto por el elemento ( σ µ 2 ). Por ello, es preciso estimar mediante el método de Mínimos Cuadrados Ordinarios el valor de la varianza del modelo, pues como se recordará, la naturaleza aleatoria de la variable endógena proviene del término de error, por lo que la varianza de Y resulta igual a la varianza de µ . 4 Recuérdese que Y X = + + β β µ 0 1 , donde µ = 0 dado que µi = ∑ 0 . En este caso, la presencia de un término independiente resulta también indispensable. Recuérdese que el componente aleatorio de un modelo de regresión lineal es ortogonal al componente determinístico y, en este sentido, se verifica que: β µ 0 0 i ∑ = . Así, E Y Y ( ) = .
  • 30. Econometría Moderna MCO: El Modelo de Regresión Bivariado 39 2.3.3. La eficiencia del Estimador MCO: El Teorema de Gauss Markov El cálculo de las varianzas y covarianzas de los estimadores MCO del modelo lineal simple es indispensable para conocer el grado de dispersión que presenta nuestro estimador. Sin embargo, si deseamos tener una mayor confiabilidad en nuestro estimador deberíamos tener alguna certeza que dicha varianza es la menor posible5 . Eso es lo que analiza el Teorema de Gauss-Markov. El teorema en palabras simples establece lo siguiente: Los estimadores obtenidos por el método de Mínimos Cuadrados Ordinarios resultan los mejores estimadores lineales e insesgados (MELI) pues poseen la mínima varianza entre todas las clases de estimadores lineales e insesgados. Para verificar esta propiedad, recordemos que el estimador MCO ! β1puede escribirse como: ! ( ) β β β µ 1 0 1 = = + + ∑ ∑ k Y k X i i i i i Ahora, y con el objetivo de demostrar que este estimador es el de mínima varianza, definamos un estimador lineal alternativo de la forma. En este caso el procedimiento que vamos a utilizar implica analizar otro estimador arbitrario y si comprobamos que el estimador MCO tiene menor varianza, podremos generalizar nuestro resultado al resto de estimadores lineales e insesgados. Teniendo esto en perspectiva definamos otro estimador de la siguiente forma: ~ β1 = ∑v Y i i (2.55) De este modo, vi representa las nuevas ponderaciones, las que no necesariamente presentan las mismas propiedades de ki . Teniendo esto presente, pasemos a comprobar si este nuevo estimador cumple con la propiedad de insesgamiento: ( ) E E v Y v E Y i i i i ( ~ ) ( ) β1 = = ∑ ∑ = + + ∑v E X i i i ( ) β β µ 0 1 = + ∑ ∑ β β 0 1 v v X i i i Así, para que el nuevo estimador sea insesgado se debe cumplir que: vi ∑ = 0 (2.56) v X i i ∑ = 1 (2.57) Nótese que las dos expresiones precedentes son iguales a las propiedades de ki, enunciadas anteriormente. Ahora, reemplazando la ecuación (2.55) en la fórmula de la varianza del estimador, se tiene: ( ) Var Var v Y i i ( ~ ) β1 = ∑ ( ) = ∑v VarY i i 2 5 En resumen lo que se busca es determinar si el estimador MCO es eficiente.
  • 31. Econometría Moderna MCO: El Modelo de Regresión Bivariado 40 Como se recordará la varianza de la variable endógena es igual a la del error ( 2 µ σ ) de modo que la expresión anterior queda como: ∑ = 2 2 1 ) ~ ( i v Var µ σ β (2.58) Con el fin de escribir la expresión anterior en términos más conocidos, hagamos el siguiente artificio: 2 2 2 2 ∑ ∑ ∑         + − = i i i i i x x x x v µ σ         +         − +         − = ∑ ∑ ∑ ∑ ∑ ∑ 2 2 2 2 2 2 2 2 1 2 i i i i i i i i i x x x x x v x x v µ µ µ σ σ σ         +         − +         − = ∑ ∑ ∑ ∑ ∑ ∑ 2 2 2 2 2 2 2 2 1 2 i i i i i i i i i x x x x x v x x v µ µ µ σ σ σ El segundo término de la expresión anterior es igual a cero, por lo siguiente: ( ) ( ) v x x x x v x x x x v x x x x i i i i i i i i i i i i i i i −         = −           = − ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ 2 2 2 2 2 2 2 2 2 2 = − = ∑ ∑ 1 1 0 2 2 x x i i Este resultado se obtiene debido a que el estimador ~ β1es insesgado y por tanto se cumplen las condiciones (2.56) y (2.57). Resumiendo, la varianza de ~ β1se expresa como:         +         − = ∑ ∑ ∑ 2 2 2 2 2 1 1 ) ~ ( i i i i x x x v Var µ µ σ σ β Si analizamos la expresión anterior, notaremos que el segundo sumando es constante e igual a la varianza de ! β1(obtenida en la sección anterior). De este modo, la varianza mínima se obtendrá reduciendo al máximo el primer término de dicha expresión. Esto se logra definiendo: v x x k i i i i = = ∑ 2 La expresión anterior nos indica que la varianza de ~ β1 es mayor a la de ! β1, ya que la única forma de obtener un estimador de mínima varianza es utilizando las ponderaciones ki. Así, el estimador MCO posee la mínima varianza entre todos los demás estimadores lineales e
  • 32. Econometría Moderna MCO: El Modelo de Regresión Bivariado 41 insesgados existentes. Esta propiedad también puede verificarse para 0 β̂ utilizando un procedimiento similar. Un gráfico nos puede ayudar a analizar lo que el teorema de Gauss-Markov significa. Un supuesto útil para este fin será que tanto el estimador MCO ( ! β1), como el estimador alternativo ( ~ β1) poseen una distribución conocida que para este caso será un distribución normal. Figura 2.1 En la figura 2.1, las distribuciones muestrales de ambos estimadores están superpuestas con el fin de escoger el mejor predictor o estimador. Ambas distribuciones están centradas en el verdadero valor evidenciando la insesgabilidad de ambos estimadores. El mejor estimador será aquel que posea mayor probabilidad de acercarse a β1 , lo que se cumple cuando la distribución de probabilidad del estimador está menos dispersa alrededor del valor de su media, es decir cuando presenta una menor varianza. Dado lo anterior, resulta sencillo verificar que el estimador obtenido por el método MCO (aquel cuya distribución se presenta con una línea continua) es el mejor estimador lineal insesgado ya que posee la mínima varianza, y así su distribución presenta una mayor probabilidad asociada a su valor medio. Un hecho que debe destacarse es que para que se verifique el teorema de Gauss-Markov es necesario que se cumplan del segundo al quinto supuesto de los mencionados en el capítulo 16 . Estos, como ya mencionamos llevan el nombre de condiciones de Gauss-Markov. Si algunos de dichos supuestos falla, ya no es válido el teorema por lo que el estimador MCO ya no será el de mínima varianza y deberá buscarse la forma de transformar los datos o incluir ciertas condiciones para que se restablezcan estas condiciones a fin de poder seguir utilizando nuestro estimador MCO. 2 2. .4 4 O OT TR RO OS S R RE ES SU UL LT TA AD DO OS S R RE EF FE ER RI ID DO OS S A AL L E ES ST TI IM MA AD DO OR R M MC CO O 1. La línea de regresión muestral a través del estimador MCO atraviesa los puntos que representan las medias muestrales de X e Y. Gráficamente: 6 Estos en esencia nos dicen que la esperanza matemática de los errores es igual a cero, que no existe ni autocorrelación ni heterocedasticidad y que los regresores fijos no están correlacionados con el término de error.
  • 33. Econometría Moderna MCO: El Modelo de Regresión Bivariado 42 Figura 2.2 Esta propiedad se obtiene a partir de dividir la línea de regresión entre el número de observaciones (n): X Y 1 0 ˆ ˆ β β + = (2.18) el término de error desaparece debido a que el promedio de los mismos es cero y por tanto su sumatoria también lo será. 2. En promedio, el valor estimado de la variable endógena es igual a la media del valor observado de dicha variable. Este resultado se puede comprobar fácilmente, partiendo de la ecuación de la función de regresión muestral y haciendo algunas operaciones algebraicas, tal como se detalla a continuación: i i X Y 1 0 ˆ ˆ ˆ β β + = (2.19) Si se reemplaza la ecuación (2.18) en (2.19), se tiene: i i X X Y Y 1 1 ˆ ˆ ˆ β β + − = ) ( ˆ ˆ 1 X X Y Y i i − − = β (2.20) Tomando sumatorias a la ecuación (2.20), se obtiene: ∑ ∑ − − = ) ( ˆ ˆ 1 X X Y n Y i i β (2.21) Se puede comprobar fácilmente que la suma de las desviaciones de una variable, (llámese dependiente o independiente), con respecto a su media muestral es siempre igual a cero, de modo que: 0 ) ( = ∑ − X Xi (2.22)
  • 34. Econometría Moderna MCO: El Modelo de Regresión Bivariado 43 Así podemos reexpresar la ecuación (2.21) de la forma: Y n Yi = ∑ ˆ (2.23) y, dividiendo entre el tamaño muestral: Y Y = ˆ (2.24) El procedimiento anterior nos permite afirmar que el modelo estimado es representativo. Es decir que, en promedio, las estimaciones de la variable endógena (realizadas sobre la base de datos muestrales), representan a sus contrapartes poblacionales. 3. La media de los errores estimados es nula. Recuérdese que el proceso de minimización que nos permitió estimar los coeficientes de regresión generó dos ecuaciones (llamadas ecuaciones normales). La primera de ellas (2.6) es la representación de esta propiedad7: ∑ = − − 0 ) ˆ ˆ ( 1 0 i X i Y β β ei ∑ = 0 Por otro lado, y si trabajamos con las expresiones anteriores, tenemos que: ∑ − − ∑ = ) ˆ ˆ ( i i X i Y e 1 0 β β ∑ ∑ − ∑ = i Y i Y ei ˆ 0 = − = ∑ Y Y n ei ˆ (2.25) debido a la igualdad propuesta en (2.24)8. 4. El error estimado no está correlacionado con el valor estimado o predicho de la variable endógena. Lo anterior, garantiza que el método de MCO cumple con el supuesto de ortogonalidad entre la parte explicada del modelo de regesión lineal simple y la parte no explicada. Formalmente: 7 De hecho, la presencia de un intercepto o término independiente resulta crucial para la validez de esta propiedad, tal como se verificará posteriormente. Nótese, además, que la comprobación de esta propiedad está basada en la ecuación normal del intercepto. 8 En este caso la presencia de un término independiente también resulta indispensable ya que, de otra forma, no sería posible realizar la sustitución propuesta en (2.20).
  • 35. Econometría Moderna MCO: El Modelo de Regresión Bivariado 44 i i Y e ! ∑ = 0 (2.26) Para demostrar esta propiedad basta reemplazar la función de la línea de regresión muestral (1.18) en la expresión anterior: ∑ ∑ + = ∑ + e X e e X i i i i i β β β β ˆ 1 ˆ 0 ) ˆ 1 ˆ 0 ( 0 0 1 = ∑ ∑ + = e X e i i i β β ˆ ˆ (2.27) Nótese que en (2.27) los coeficientes de regresión (el intercepto y la pendiente) están multiplicados por la primera y segunda ecuación normal, respectivamente. Como resultado del proceso de minimización se tiene que dichas ecuaciones son idénticas a cero, por lo que queda demostrado que la parte predicha o estimada del modelo no guarda relación alguna con la parte no explicada o estocástica. 2 2. .5 5 E ES ST TI IM MA AC CI IÓ ÓN N M MC CO O D DE E σ µ 2 Hasta el momento hemos estimado únicamente los parámetros del modelo propuesto pero aún nos queda la estimación de una última magnitud: la varianza del error. Nótese que hasta el momento cuando obtuvimos la varianza de los estimadores el término 2 µ σ ésta quedó expresado en términos teóricos. Para poder estimar la varianza de los parámetros y la propia varianza de la variable dependiente necesitamos un estimador de esta magnitud. Una de las formas más utilizadas para la estimación de la varianza del error parte del modelo teórico y de su representación en promedios muestrales: Y X i i i = + + β β µ 0 1 Y X = + + β β µ 0 1 a partir de las cuales obtenemos: Y Y X X i i i − = − + − β µ µ 1( ) ( ) y x i i i = + β µ 1 (2.52) Recuérdese que el residuo o error estimado puede expresarse como: e Y X i i i = − − ! ! β β 0 1 = − − − = − − − Y Y X X Y Y X X i i i i i i ( ! ) ! ( ) ! ( ) β β β 1 1 1 e y x i i i = − ! β1 De este modo, reemplazando (2.52) en la última ecuación se obtiene: i i i x e µ β β + − − = ) ˆ ( 1 1 Así, elevando al cuadrado y sumando a ambos lados, resulta:
  • 36. Econometría Moderna MCO: El Modelo de Regresión Bivariado 45 e x x i i i i i 2 1 1 2 2 1 1 2 2 ∑ ∑ ∑ ∑ = − − − − + − (! ) (! ) ( ) ( ) β β β β µ µ µ µ y, tomando valores esperados se tiene: [ ] [ ] E e E x E x E i i i i i ( ) (! ) (! ) ( ) ( ) 2 1 1 2 2 1 1 2 2 ∑ ∑ ∑ ∑ = − − − − + − β β β β µ µ µ µ (2.53) Analizando la expresión anterior, el primer sumando se reduce a 2 µ σ , por ser un componente de la varianza del estimador de β1 . Mientras que el segundo sumando se obtiene mediante el procedimiento siguiente: [ ] E x E k x i i j j j n i i j n (! ) ( ) ( ) β β µ µ µ µ µ 1 1 1 1 − − =         −                   ∑ ∑ ∑ = = Nótese que, [ ] E j i µ µ µ ( ) − = 0, excepto cuando (i = j ). De esta manera, el término anterior resulta: [ ] k x E x x i i i i i i ∑ ∑ ∑ − = = µ µ µ σ µ σ µ ( ) 2 2 2 2 Por último, trabajando con el tercer sumando se tiene: ( ) ( ) µ µ µ µ µ µ i i i − = − + ∑ ∑ 2 2 2 2 ( ) ( ) ( ) = − + = − ∑ ∑ ∑ ∑ ∑ µ µ µ µ µ i i i i i n n n 2 2 2 2 2 2 1 y tomando esperanzas: [ ] E n i ( ) µ µ − = ∑ 2 2 2 2 ) 1 ( µ µ µ σ σ σ − = − n De esta manera, y reemplazando las expresiones anteriores en (2.53) concluimos que: ( ) 2 2 2 2 2 ) 2 ( ) 1 ( 2 µ µ µ µ σ σ σ σ − = − + − = ∑ n n e E i (2.54) Por consiguiente, y dado que el estimador MCO de σ µ 2 debe cumplir con la propiedad de insesgamiento, se tiene que: ( ) E E e n n E e n n i i ( ! ) ( ) σ µ σ µ σ µ 2 2 2 2 2 2 1 2 1 2 2 = −         = − = − − = ∑ ∑ Por consiguiente, el estimador MCO de la varianza del error para el modelo lineal simple viene dado por la siguiente expresión:
  • 37. Econometría Moderna MCO: El Modelo de Regresión Bivariado 46 2 ˆ 1 2 2 − = ∑ = N e N i i µ σ (2.55) 2 2. .6 6 M ME ED DI ID DA AS S D DE E B BO ON ND DA AD D D DE E A AJ JU US ST TE E Por lo revisado hasta el momento, sabemos que el criterio de Mínimos Cuadrados Ordinarios garantiza que la línea de regresión obtenida es la que proporciona la menor suma de cuadrados de residuos de todas las que se podrían obtener si se trazan a través de los valores observados de X e Y. Sin embargo, en algunos casos el ajuste puede ser muy bueno o perfecto cuando todas las observaciones caen sobre la línea de regresión, mientras que en otros pueden no obtenerse tan buenos resultados. Así, se hace necesario considerar la bondad de ajuste de la línea de regresión dado el conjunto de observaciones. En otras palabras, se desea verificar qué tan bueno es el ajuste de la línea de regresión a los datos, o cuán cerca están las predicciones del modelo con respecto a las observaciones reales. De hecho, al construir un modelo estamos suponiendo una estructura que gobierna el comportamiento de la variable dependiente. Así, la bondad de ajuste nos permite conocer el grado en que esta estructura recoge el comportamiento de la variable endógena, dadas las observaciones muestrales. La medida propuesta para tal fin se denomina coeficiente de determinación, conocido también como r- cuadrado (r2 o R2 en el caso de una regresión lineal simple o en el de una regresión múltiple, respectivamente). 2.6.1. ¿Cómo se calcula el coeficiente de determinación? Para el cálculo del r2 se debe partir del modelo de regresión empírico, el cuál puede escribirse de dos formas: Y X e i i i = + + ! ! β β 0 1 Y Y e i i i = + ! Como se sabe, se puede expresar el modelo en desviaciones restando a la primera ecuación la expresión de la línea de regresión, del modo siguiente: ( ) ! ( ) Y Y X X e i i i − = − + β1 y y e i i i = + ! En la expresión anterior, resulta indiferente escribir ei o ( ) e e i − , pues recuérdese que e = 0 por la primera ecuación normal. Luego, elevando dicha expresión al cuadrado y tomando sumatorias, se tiene: y y e y e i i i i i 2 2 2 2 ∑ ∑ ∑ ∑ = + + ! ! Por la cuarta propiedad del estimador MCO, se sabe que el tercer sumando de la ecuación anterior es igual a cero, de modo que: y y e i i i 2 2 2 ∑ ∑ ∑ = + ! (2.59)
  • 38. Econometría Moderna MCO: El Modelo de Regresión Bivariado 47 Podemos expresar la ecuación anterior de modo tal que resulte más conocida en términos estadísticos9 : ( ) ( ! ) Y Y Y Y e i i i − = − + ∑ ∑ ∑ 2 2 2 (2.60) Cada una de las expresiones anteriores están relacionadas con sus respectivas varianzas. Según ello, podemos descomponer la varianza de la variable endógena en dos partes: una explicada por el modelo a través de la regresión lineal estimada y otra que el modelo no es capaz de explicar debido a su naturaleza estocástica. Pasemos ahora a definir los componentes de la expresión (2.59): yi 2 ∑ , suma total de cuadrados de la variable explicada(STC) ! yi 2 ∑ , suma explicada de cudrados (SEC) ei 2 ∑ , suma residual de cuadrados (SRC) Ahora, y dado que se busca medir el grado en que nuestro modelo recoge el comportamiento de la variable endógena, nuestra medida de bondad de ajuste (r2 ) vendría dada por el cociente entre la SEC (variación de Y explicada por el modelo) y la STC (variación registrada para la variable explicada): ( ) ∑ ∑ − = ∑ ∑ ∑ − = ∑ ∑ = = 2 i 2 i 2 i 2 i 2 i 2 i 2 i i i 2 y e 1 y e y y ŷ ) Y ( Var ) Ŷ ( Var r (2.61) Algunas expresiones también útiles para calcular el r2 obtenidas mediante reemplazos de algunas ecuaciones precedentes son las siguientes: r x y x y Var X Var Y i i i i 2 1 2 2 2 1 2 2 2 1 2 = =         = ∑ ∑ ∑ ∑ ! ! ! ( ) ( ) β β β ( ) r x y x y i i i i 2 2 2 2 = ∑ ∑ ∑ Así, el coeficiente de determinación se interpreta como la proporción de la variación total de Y que la regresión es capaz de explicar. En otras palabras, el r2 mide la efectividad que poseen las variables independientes X para explicar la variación que la variable dependiente experimenta a lo largo de la muestra. Por lo tanto, cuando r2 es muy cercano a 1 se dice que el modelo de regresión es capaz de explicar un alto porcentaje de las variaciones que registra la variable explicada. Por lo tanto, el ajuste de la línea de regresión obtenida por MCO es bastante bueno, en el sentido que los valores estimados de Y son casi idénticos a los observados y que los residuos son muy pequeños. Existen algunos casos en los que el coeficiente de determinación no es una medida confiable, por ello se debe tener cuidado al interpretarlo. Por ejemplo, si el número de observaciones es 9 Una condición necesaria para que se cumpla (2.60) es que el modelo incorpore un intercepto. De otro modo no se podrá afirmar que 0 = e ya que no habría una ecuación normal asociada a este término.
  • 39. Econometría Moderna MCO: El Modelo de Regresión Bivariado 48 reducido, quizá algún residuo alto puede hacer que el r2 sea insignificante y por tanto se concluya que la regresión es mala, aunque en realidad el ajuste sea bueno. Otro caso es cuando las observaciones de X e Y provienen de muestras de series temporales con tendencia similar. En tal situación, sucede que el coeficiente de determinación es cercano a uno, pues las variaciones que experimenta la variable dependiente son muy similares a las de la variable independiente, y en consecuencia: y y i i 2 2 ∑ ∑ ≈ ! . Basta con eliminar la tendencia para que el resultado sea diferente, obteniéndose un coeficiente de determinación menor. En este caso, la regresión recibe el nombre de espúrea o ficticia, pues el modelo estimado en realidad no recoge la existencia de una relación de la variable dependiente y los regresores. Esto ocurre cuando las series de tiempo involucradas presentan ciertas características que distorsionan la distribución del error sobre la base de la cual se construyen las pruebas de inferencia. La descomposición de la variación de Y, sobre la base de la cual se construye el r2, puede ilustrarse de la siguiente manera: Figura 2.3 La variación de la variable endógena es la suma de dos componentes La figura 2.3 ilustra lo que hemos derivado de manera matemática. La línea continua sobre el eje horizontal refleja el valor promedio de la variable dependiente Y. El término Yi refleja una observación de la misma variable. La distancia vertical entre este punto y la línea del promedio nos muestra la desviación total de Yi con respecto a su media (lo que equivale a la suma total de cuadrados si tomamos en cuenta a todas las observaciones). Como vemos esta distancia vertical la podemos descomponer en dos partes. La primera de ellas está relacionada con el segmento que parte de la línea de regresión estimada y va hasta la línea del promedio ) ˆ ( Y Yi − . Esta es la desviación explicada por la regresión. El segmento restante representa aquella parte que no es explicada por la regresión y por tanto se relaciona con el residuo ( i i Y Y ˆ − ).
  • 40. Econometría Moderna MCO: El Modelo de Regresión Bivariado 49 2.6.2 Propiedades del coeficiente de determinación 1. Es un número no negativo. Para demostrarlo basta recordar que éste simboliza el cociente entre dos sumas de cuadrados. Sin embargo, se debe advertir que en los casos en los que no se especifique un intercepto en el modelo, el r2 podría resultar negativo y por tanto no debería tomarse en consideración10 . Por ello, es preciso hallar el coeficiente de determinación ajustado o corregido, el cuál se estudiará en el siguiente capítulo. 2. Puede tomar valores entre cero y uno, (0≤ r 2 ≤ 1) ¿Qué pasaría si r 2 fuese cero? No existiría ninguna relación entre la variable endógena y la explicativa y, por tanto, el estimador de la pendiente de la variable explicativa ( ! β1 ) sería igual a cero y se obtendría una la línea de regresión horizontal al eje X. 3. No tiene unidades de medida. Recuérdese que es una proporción, siendo, por tanto, un número puro. 2 2. .7 7 A A M MO OD DO O D DE E C CO ON NC CL LU US SI IÓ ÓN N: : En este capítulo hemos obtenido el estimador MCO para el modelo lineal simple. Este modelo considera sólo una variable explicativa aparte del intercepto. El estimador MCO cumple con una serie de propiedades deseables como el insesgamiento y la eficiencia lo que asegura que es el mejor estimador lineal insesgado en el sentido que los estimados obtenidos tendrán la menor incertidumbre asociados a ellos. Dentro del largo camino que aún nos queda por recorrer en la exploración de las aplicaciones del estimador MCO, este ha sido un paso importante porque nos ha permitido comprender la lógica a partir del cual se deriva el estimador. Hasta aquí la herramienta más utilizada han sido las sumatorias. Sin embargo, un enfoque más completo se basa principalmente en el análisis matricial que es el que empezaremos a utilizar en los capítulos siguientes. Para ello se recomienda que el lector haga un repaso de las principales propiedades de matrices y vectores así como la interpretación de las distintas operaciones con los mismos. 10 Recuérdese que sólo sí se incluye un intercepto se cumple que STC = SEC + SRC.
  • 41. C CA AP PI IT TU UL LO O 3 3 E EL L M ME ET TO OD DO O D DE E E ES ST TI IM MA AC CI IÓ ÓN N D DE E M MÍ ÍN NI IM MO OS S C CU UA AD DR RA AD DO OS S O OR RI ID DI IN NA AR RI IO OS S: : M MO OD DE EL LO O L LI IN NE EA AL L G GE EN NE ER RA AL L 3 3. .1 1. . I IN NT TR RO OD DU UC CC CI IÓ ÓN N En la investigación aplicada buscamos darle contenido empírico a las relaciones que nos sugiere la teoría y la intuición. En muchos casos lo que buscamos es determinar cuáles son las principales variables que explican a otra variable a la cual le hemos dado el nombre de variable dependiente. En el Capítulo precedente se ha limitado el análisis de regresión al estudio de las relaciones existentes entre una variable endógena o explicada (Y) y una variable exógena o explicativa (X). Para tal fin, realizamos la estimación de los parámetros desconocidos del modelo de regresión bivariado y posteriormente demostramos sus propiedades por lo que concluimos que el estimador MCO es MELI. En el presente Capítulo, Vamos a generalizar el análisis previo incluyendo más de una variable explicativa (aparte del intercepto) utilizaremos el mismo criterio de minimización (MCO) y presentaremos el modelo de regresión lineal de k variables (Y y X1, X2,..., Xk) en notación matricial. Este modelo es conocido como el modelo de regresión lineal general, pues en él se generaliza el modelo de regresión bivariado estudiado en el Capítulo 2. Cabe mencionar que para que el lector pueda comprender con facilidad los conceptos que se estudiarán a continuación debe recordar algunos conceptos de álgebra matricial. En este modelo la función de regresión poblacional, definida en el Capítulo 1, está compuesta por la variable endógena (Y) y k variables exógenas (X). Formalmente: i ki k i i i i X X X X Y µ + β + + β + β + β = ... 3 3 2 2 1 1 i = 1,2,......n (3.1) La ecuación (3.1) indica que el vector Y observado es la suma del vector de errores (µ ) y de una combinación lineal de las columnas de X. Nótese que ahora se tienen k pendientes