SlideShare una empresa de Scribd logo
1 de 58
Descargar para leer sin conexión
ÍNDICE.
Contenido
pág.
Introducción………………………………………………………………...….i
ÍNDICE........................................................................................................................................1
Contenido pág............1
Introducción………………………………………………………………...….i ...................1
Objetivos......................................................................................................................................3
Objetivo General:.....................................................................................................................3
Objetivos Específicos:.............................................................................................................3
REGRESION Y CORRELACION.............................................................................................4
Capitulo I.................................................................................................................................4
“Definiciones”.........................................................................................................................4
DIAGRAMA DE DISPERSION:.......................................................................................4
REGRESION SIMPLE.......................................................................................................5
CORRELACION SIMPLE.................................................................................................6
Capitulo II................................................................................................................................6
“Ecuación de Regresión Simple”............................................................................................6
CAPITULO III.........................................................................................................................9
“Modelos de Ecuación Regresión Simple”.............................................................................9
Modelo de Línea Recta........................................................................................................9
Modelo de Ecuación Cuadrática.......................................................................................11
Caso Exponencial: Yc = abx.............................................................................................14
Caso Potencial o Polinomial: Yc = axb............................................................................17
Desviación Estándar de Regresión....................................................................................19
CAPITULO IV......................................................................................................................19
“Coeficiente de Correlación”................................................................................................19
Calculo del coeficiente de correlación r............................................................................20
CALCULO DEL COEFICIENTE DE CORRELACIÓN POR EL MÉTODO
PRODUCTO - MOMENTO DE KARL PEARSON.......................................................21
CORRELACIÓN DE RANGOS DE SPEARMAN.........................................................23
1
CAPITULO V........................................................................................................................28
“Pruebas de Regresión y Correlación”..................................................................................28
Prueba de hipótesis para la correlación de rangos de Spearman......................................34
CAPITULO VI......................................................................................................................35
“Regresión Lineal Múltiple”.................................................................................................35
Desviación estándar de regresión múltiple......................................................................37
Capitulo VII...........................................................................................................................41
“Ejercicios Resueltos”...........................................................................................................41
Ejercicio de diagrama de dispersión.................................................................................41
Regresión con Mínimo Cuadrado.....................................................................................42
Ejemplo de Regresión Simple, Desviación Estándar de Regresión y Coeficiente de
Correlación de Pearson......................................................................................................44
Ejercicio de coeficiente de correlación por el método de rangos de Spearman...............47
Ejercicio de regresión múltiple.........................................................................................48
Ejercicio de prueba de hipótesis........................................................................................53
CONCLUSIONES.................................................................................................................54
Bibliografía............................................................................................................................58
2
Objetivos.
Objetivo General:
• Conocer los elementos necesario para la realización de un análisis de regresión y
correlación.
Objetivos Específicos:
• Mostrar los elemento teóricos necesario para establecer un análisis de regresión.
• Desarrollar las ecuaciones normales correspondiente al método de mínimos
cuadrados.
• Establecer la manera de en la que se elije el modelos de regresión a utilizable a partir
de la forma que tomen el conjunto de datos.
• Analizar las aplicaciones practicas del análisis de regresión.
• Aprender a reconocer el procedimiento para el trato de variables con n incógnitas.
• Conocer las principales diferencias entre el análisis de regresión y el análisis de
correlación.
• Aplicar la fórmula prueba de hipótesis tanto para regresión como correlación para la
toma de decisiones
3
REGRESION Y CORRELACION
REGRESION
• Definiciones: es el análisis que se utiliza para hacer predicciones.
• La regresión mide en forma funcional, a través de una ecuación, la posible relación
entre las variables con el objeto de predecir una de ellas en función de la(s) otra(s).
CORRELACION
• Definiciones: se dirige sobre todo a medir la intensidad o fuerza con que están
relacionadas linealmente las variables.
• Se utiliza para medir la intensidad de la asociación entre variables numéricas.
• Mide la fuerza y la dirección de la relación lineal entre dos variables cuantitativas.
Capitulo I
“Definiciones”
DIAGRAMA DE DISPERSION:
• Un diagrama de dispersión muestra la relación entre dos variables cuantitativas
medidas para los mismos individuos o grupo de individuos. Los valores de una
variable aparecen en el eje de las abscisas y los valores de la otra en el eje de las
ordenadas.
4
• Si una de las dos variables se pueden considerar una variable explicativa, sus valores
se sitúan siempre en eje de las abscisas en el diagrama de dispersión.
• La representación gráfica bidimensional en el análisis de regresión que implica una
variable dependiente y una variable independiente.
Para interpretar un diagrama de dispersión, se identifica primero sus aspectos generales.
El aspecto general debe revelar la dirección la forma y la fuerza de la relación entre las dos
variables.
Si la relación entre las dos variables tiene una dirección clara, decimos que existe una
asociación positiva (si valores altos de las dos variables tienden a ocurrir simultáneamente) o
una asociación negativa (si valores altos de una variable tienden a coincidir con valores bajos
de la otra)
Las relaciones lineales, cuando los puntos del diagrama de dispersión se sitúan
aproximadamente a lo largo de una recta, son una forma importante de relación entre dos
variables.
REGRESION SIMPLE.
La naturaleza de la relación puede tomar muchas formas, desde las sencillas hasta las
extremadamente complicadas. La más sencilla consiste en un línea, es decir, una relación
lineal.
Se establece que Y es una función de sólo una variable independiente. Se le
denomina también regresión bivariada, porque solo hay dos variables. Se represente por la
formula.
Y = f (X).
5
CORRELACION SIMPLE.
Es cuando se estudia el grado de asociación o dependencia entre dos variables. Se
mide por un coeficiente de correlación, representado por “r”.
Capitulo II
“Ecuación de Regresión Simple”
Es la ecuación de una relación entre dos variables; donde una depende de la otra.
Pudiendo tomar distintas formas. En fin, ecuación de regresión simple se refiere a aquella que
puede ser representada en dos dimensiones dentro del diagrama de dispersión.
La ecuación de regresión de muestra que representa el modelo de regresión de línea recta es:
Ŷi = bo + b1Xi
en la que Ŷi es el valor predicho de Y para las observaciones i.
Con el propósito de predecir valores de Y, esta ecuación requiere la determinación de dos
coeficientes: bo (la intersección Y) y b1 (la pendiente). Cuando ya se han obtenido bo y b1 , se
conoce la línea recta y puede ser graficada en el diagrama de dispersión.
El análisis de regresión lineal simple tiene que ver con la búsqueda de la línea recta que
mejor se ajuste a los datos. El mejor ajuste significa que deseamos encontrar la línea recta
para la cual las diferencias entre los valores reales (Yi ) y los valores que serian predichos a
partir de la línea ajustada de regresión (Ŷi) sean lo mas pequeñas posibles. Debido a que tales
diferencias serán positivas y negativas para las diferentes observaciones, minimizamos
matemáticamente la expresión
en la que Yi = valor real de Y para la observación i
Ŷi = valor predicho de Y para la observación i
6
Puesto que Ŷi =b0 +b1Xi , se trata de minimizar la expresión
Que tiene dos incógnitas, b0 y b1
Una técnica matemática utilizada para determinar los valores de b0 y b1 que mejor
se ajuste a los datos observados se conoce como métodos de mínimos cuadrados.
Cualquiera de los valores de b0 y b1 que sean diferentes a los determinados por el método de
mínimos cuadrados tendrían como resultados una suma mayor de las diferencias al cuadrado
del valor real de Y y su valor predicho.
Al utilizar el método de mínimos cuadrados obtendremos las siguientes dos
ecuaciones conocidas como ecuaciones normales
Debemos resolverlas de manera simultanea para obtener b0 y b1 . Ya que se tienen
dos ecuaciones con dos incógnitas, podemos resolverlas de la manera siguiente:
7
y
Examinando las ecuaciones, observamos que se tienen cinco cantidades que deben
calcularse con el fin de determinar b0 y b1 . Estas son, n, el tamaño de la muestra;
, la suma de los valores X; la suma de los valores cuadrados de X,
, la suma de los valores de Y; y , las suma de los productos cruzados de X y Y.
La deducción de las formulas normales mediante el método de mínimos cuadrados se
realiza de la misma manera para otras funciones de grados superiores, logarítmicas y
potencial; con la cualidad de que tiene que estar en dos dimensiones,(x,y); para tres
dimensiones requiere análisis adicional.
8
CAPITULO III
“Modelos de Ecuación Regresión Simple”
En el diagrama de dispersión se puede observar un vago indicio del tipo de relación
que existe entre las variables. La naturaleza de la relación puede tomar muchas formas, desde
las sencillas hasta la mas complejas. La relación mas sencilla consiste en una línea o relación
lineal. De acuerdo a la forma que tome dicho diagrama así será la función que se utilizará,
de tal forma que describa adecuadamente la relación entre las variables. Los siguientes son
algunos ejemplos:
Y = a + bx (ecuación lineal)
Y = a + bx + cx2
(ecuación cuadrática)
Y = abx
(ecuación exponencial)
Y = axb
(ecuación potencial o polinomial)
Modelo de Línea Recta
El modelo de línea recta puede presentarse como:
Yi = β0 + β1Xi + єi
En la que β0 = la intersección Y para la población
β1 = pendiente de la población
єi = error aleatorio en Y para la observación i.
9
En este modelo, la pendiente de la recta β1 representa el cambio esperado en Y por
unidad de cambio en X; es decir, representa la cantidad que cambia la variable Y (ya sea
positiva o negativamente), con respecto a una unidad de cambio particular en X. Por otro
lado, la intersección en el eje Y, β0 , representa el valor promedio de Y cuando X es igual a
cero. Además, el último componente del modelo, єi , representa el error aleatorio en Y por
cada observación i que se presenta.
El modelo matemático apropiado que se debe seleccionar está influenciado por la
distribución de los valores de X y Y en el diagrama de dispersión.
X 1 1.5 2 3 2.5 2.5 3.5 4 4.5 4.5 5 6 6.5 8 7.5
Y 3 4 3 5 4 5 6 6 6.5 7 7 8 8 10 9
Al graficar en el diagrama de dispersión:
La forma que toma el diagrama de dispersión (nube de puntos sobre la gráfica),
sugiere que se puede aplicar una función lineal. En ese caso es posible utilizar el método de
mínimos cuadrados. hay otros métodos además de el métodos mínimos cuadrado; pero es el
10
matemáticamente más exacto. La interpretación de este método esta en el capitulo anterior.
(para el caso lineal)
Xi Yi XY X2
1.0 3 3 1
1.5 4 6 2.25
2.0 3 6 4
3.0 5 15 9
2.5 4 10 6.25
2.5 5 12.5 6.25
3.5 6 21 12.25
4.0 6 24 16
4.5 6.5 29.25 20.25
4.5 7 31.5 20.25
5.0 7 35 25
6.0 8 48 36
6.5 8 52 42.25
8.0 10 80 64
7.5 9 67.5 56.25
62 91.52 440.75 321
91.5 = 15a + 62b
440.75 = 62a + 321b
Se tiene que b = 0.97 y a = 2.09.
La ecuación de regresión queda así: Y = 2.09 +0.97X; si deseáramos estimar
cualquier de Y basta con conocer el de x y viceversa. Si quisiéramos encontrar el valor en Y
de X = 7
tendremos: Y = 2.09 + 0.97(7); Y = 8.88. Valor que no aparece en la tabla de valores,
pero es la mejor estimación, si los datos siguen la tendencia lineal.
Modelo de Ecuación Cuadrática.
11
Existe también la regresión curvilínea, y dentro de esta se encuentra el caso
parabólico o función de segundo grado ( o cuadrática) que podemos resolverla también
con el método de mínimos cuadrados.
Calculemos la ecuación de regresión para la siguiente información: Las cantidades
pertenecen a la cantidad de una sustancia química en reacción después de “X” minutos.
Xi(minutos) 1.0 1.2 1.5 2.0 2.5 2.7 3.0 3.2 3.5 4.0 4.5 5.0 5.2 5.5 6.0
Yi(gramos) 34 32 26 18 18 12 14 12 15 13 18 16 22 26 35
Graficamos:
Podemos observar que el diagrama toma forma de parábola, de aquí que ajustaremos
una función de segundo grado: Yc = a + bx + cx2
. Para encontrar la ecuaciones normales
mediante el método de mínimos cuadrados. Σ(Yi –Yc)2
debe ser un mínimo.
Entonces se tiene Σ(Yi – a – bx – cx2
)2
si derivamos con respecto a “a” , “b” y “c” y
dichas derivadas las igualamos a cero se obtienen las siguientes ecuaciones normales.
12
Calcularemos los datos necesarios para encontrar el valor de las constantes:
Xi Yi XY X2
Y X2
X3
X4
1 34 34.0 34.00 1.00 1.000 1.0000
1.2 32 38.4 46.08 1.44 1.728 2.0736
1.5 26 39.0 58.50 2.25 3.375 5.0625
2 18 36.0 72.00 4.00 8.000 16.0000
2.5 18 45.0 112.50 6.25 15.625 39.0625
2.7 12 32.4 87.48 7.29 19.683 53.1441
3.0 14 42.0 126.00 9.00 27.000 81.0000
3.2 12 38.4 122.88 10.24 32.768 104.8576
3.5 15 52.5 183.75 12.25 42.875 150.0625
4 13 52.0 208.00 16.00 64.000 256.0000
4.5 18 81.0 364.50 20.25 91.125 410.0625
5 16 80.0 400.00 25.00 125.000 625.0000
5.2 22 114.4 594.88 27.04 140.608 731.1616
5.5 26 143.0 786.50 30.25 166.375 915.0625
6 35 210.0 1260.00 36.00 216.000 1296.0000
50.8 311 1038.1 4457.07 208.26 955.162 4685.5494
Sustituyendo en el sistema:
311 = 15a + 50.8b + 208.26c (1)
1038.1 = 50.8a + 208.26b + 955.162c (2)
4457.07 = 208.26a + 955.162b + 4685.55c (3)
Simultaneando para eliminar la constante a:
311 = 15a + 50.8b + 208.26c (-50.8)
1038.1 = 50.8a + 208.26b + 955.162c (15)
- 15798.8 = - 762a – 2580.64b – 10579.608c
15571.5 = 762a + 3123.90b +14327.430c
-227.3 = 543.26b + 3747.822c (4)
Resolviendo (1) y (3):
311 = 15a + 50.8b + 208.26c (-208.26)
4457.07 = 208.26a + 955.162b + 4685.55c (15)
-64768.86 = -3123.9a - 10579.608b - 43372.2276c
66856.05 = 3123.9a + 14327.430b + 70283.25c
2087.19 = 3747.822b + 26911.0224c (5)
13
Resolviendo (4) y (5):
-227.3 = 543.26b + 3747.822c (-3747.822)
2087.19 = 3747.822b + 26911.0224c (543.26)
851879.9406 = - 2036041.779b – 14046169.75c
1133886.839 = 2036041.779b + 14619682.02c
1985766.779 = 573512.28c
c = 1985766.779 ; c = 3.46
573512.28
Sustituyendo el valor c en (4):
-227.3 = 543.26b + 3747.822(3.46);
-227.3 = 543.26b +12967.46412;
b = -13194.76412 ; b = - 24.29
543.26
Sustituyendo los valores de c y b en (1) tenemos
311 = 15a + 50.8(-24.29) + 208.26(3.46) ;
311 = 15a – 1233.932 + 720.5796
a = 824.3524 ; a = 54.96
15
Entonces se tiene que:
Yc = a + bx + cx2
; Yc = 54.96 – 24.29x + 3.46x2
; con esta ecuación se puede estimar
(predecir) cualquier valor de X comprendido entre 1.0 y 6.0.
Caso Exponencial: Yc = abx
Es recomendado en el calculo de tasa de crecimiento, aunque es viable a cualquier
otra variable.
El siguiente cuadro contiene la información correspondiente al numero de palabras
“Y” que un grupo de secretarias puede llegar a escribir de acuerdo al numero “X” de
entrenamiento:
Xi 1 2 3 4 5 6 7 8
14
Yi 15 18 25 30 35 45 53 70
Siguiendo los valores nos damos cuenta que por cada unidad X hay un cambio mayor
que proporcional en Y, pero es engañoso y es preferible graficar.
Graficamos:
Esta información se ajusta a la función exponencial Yc = abx
tenemos: aplicando
logaritmos tenemos: log Yc = log abx
; aplicando propiedades de los logaritmos tenemos:
log Yc = log a + x log b. debemos minimizar Σ( log Yi – log Yc )2
. Sustituyendo tenemos
que: Σ( log Yi – log a – x log b)2
;
Si derivamos con respecto a “a” y “b” e igualamos a cero tenemos las siguientes
ecuaciones normales:
Realizaremos los calculo necesarios para despejar las a y b.
15
Xi Yi log Yi X log Yi X2
1 15 1.1760913 1.1760913 1
2 18 1.2552725 2.5105450 4
3 25 1.3979400 4.1938200 9
4 30 1.4771213 5.9084850 16
5 35 1.5440680 7.7203400 25
6 45 1.6532125 9.9192750 36
7 53 1.7242759 12.0699313 49
8 70 1.8450980 14.7607840 64
36 291 12.0730795 58.2592716 204
Sustituyendo los valores de la tabla en las ecuaciones (1) y (2):
12.0730795 = 8 log a + 36 log b (1)
58.2592716 = 36 log a + 204 log b (2)
Multiplicando por - 9 la ecuación (1) y por 2 la ecuación (2):
-108.6577155 = - 72 log a – 324 log b
116.5185432 = 72 log a + 408 log b
7.8608279 = 84 log b
log b = 7.8608279 = 0.093581284
84
b = 1.240455773.
Sustituimos este valor en la ecuación (1):
12.0730795 = 8 log a + 36 log (1.240455773)
12.0730795 = 8 log a +3.368926246
log a = 8.704153254 = 1.088019157; a = 12.24670218.
8
Sustituyendo en Yc = abx
; Yc = (12.24670218)(1.240455773)x
16
Si necesitáramos X= 2; Yc = (12.24670218)(1.240455773)2
; Yc = 18.84; no es
exactamente el valor de la tabla (18) pero es una buena aproximación considerando que
podremos estimar cualquier valor entre 1 y 8.
Caso Potencial o Polinomial: Yc = axb
A la función Yc = axb
le aplicamos logaritmos y tenemos; log Yc = log a + b log x.
Como Σ ( log Yi – log Yc)2
debe se un mínimo. Al derivar con respecto a “a” y “b” tenemos:
Ahora ajustaremos una función potencial a un conjunto de datos, correspondientes al
consumo y al ingreso( en unidades monetarias constantes) de cierta comunidad.
Denominaremos X al ingreso y Y al consumo.
X 2.0 2.1 2.4 2.4 2.5 2.8 3
Y 1.6 1.7 2.0 2.1 2.2 2.5 2.6
17
En el siguiente cuadro están contenidos las columnas con las cálculos necesarios para
la aplicación de las ecuación de regresión.
Xi Yi log X log Y
log X. log
Y
(log X)2
2.0 1.6 0.301030 0.204120 0.061446 0.090619
2.1 1.7 0.322219 0.230449 0.074255 0.103825
2.4 2.0 0.380211 0.301030 0.114455 0.144561
2.4 2.1 0.380211 0.322219 0.122511 0.144561
2.5 2.2 0.397940 0.342423 0.136264 0.158356
2.8 2.5 0.447158 0.397940 0.177942 0.199950
3.0 2.6 0.477121 0.414973 0.197992 0.227645
2.705890 2.213154 0.884865 1.069517
Sustituyendo en las ecuaciones normales:
2.213154 = 7 log a + 2.705890 b
0.884865 = 2.705890 log a + 1.069519b
Resolviendo las ecuaciones mediante el método de eliminación por sustitución
llegamos a los siguientes valores:
18
b = 1.2472; log a = -0.166 ; a = 0.68234.
la ecuación de la regresión es Yc = 0.68234X1.2472
Podemos encontrar cualquier valor ente 2.0 y 3.0 inclusive.
Para X = 2 ; Yc mediante la formula seria 1.62, y en la tabla esta 1.6; hay una
diferencia de 0.02 que es la precisión que se pierde en el redondeo y es el riesgo que se corre
al estimar.
Para X = 3; Yc = 2.69; en cambio en la tabla (datos de origen) es 1.7. y de la misma
manera nos es posible calculara cualquier valor de X dentro del intervalo.
A pesar de que los diagramas de dispersión pueden ser especialmente útiles en la
determinación de la forma matemática de la relación, existen procedimiento estadísticos más
sofisticados a fin de determinar el modelo más adecuado para un conjunto de variables, y no
tener que deducir “a ojo” cual es el que mejor se adapta, ya que no siempre es obvio el
modelo a seguir. Tal como fue en el caso anterior, en el que la gráfica a simple vista describe
una relación lineal, y hasta podría confundirse con una relación exponencial. En fin, la
decisión se vuelve más difícil en un intervalo corto con pocas observaciones.
Desviación Estándar de Regresión.
La desviación estándar de regresión llamada también “error estándar de estimación”
se define como la desviación típica de las desviaciones de los valores de Yi con respecto a Yc
en formula queda así:
Un método simplificado para calcular el error estándar de regresión lo da la
siguiente formula.
CAPITULO IV
“Coeficiente de Correlación”
19
Coeficiente de correlación. Ya hemos dicho anteriormente, que la correlación mide
la intensidad o fuerza con que están relacionadas las variables y será medida por el
coeficiente ´´r´´ de correlación.
Tipos de correlación.
Según el número de variables que estudiamos, la correlación puede ser:
a) Correlación simple. Cuando de estudia el grado de asociación o dependencia entre
dos variables.
b) Correlación múltiple: cuando se estudia el grado de asociación que puede existir
entre tres o mas variables; una de ellas dependiente y el resto independiente.
c) Correlación parcial: En el caso de la correlación múltiple, es la cuantificaron del
grado de asociación neta entre dos variables, una vez eliminad estadísticamente la
influencia de las otras variables independientes.
Atendiendo la naturaleza de la función y según el tipo de ecuación y regresión, la
correlación puede ser rectilínea, parabólica exponencial potencial etc.
a) Correlación directa o positiva: cuando ocurren aumentos o disminuciones en una
variable ocurren también en la otra variable ya que su relación es directamente
proporcional. (Dependientes, independiente)
b) Correlación inversa o negativa: esta relación es inversamente proporcional entre
las variables (dependientes, independiente)
Calculo del coeficiente de correlación r
20
Existen diversos coeficientes que miden el grado de correlación, adaptados a la naturaleza
de los datos. El más conocido es el coeficiente de Pearson (introducido en realidad por
Francis Galton), estudiaremos los siguientes métodos:
• Con el método producto - momento de Karl Pearson.
• Correlación de rangos de Spearman
CALCULO DEL COEFICIENTE DE CORRELACIÓN POR EL MÉTODO
PRODUCTO - MOMENTO DE KARL PEARSON
Desarrollado por Karl Pearson a finales de siglo, y algunas veces se le llama el
coeficiente de correlación producto-momento de Pearson. Representado con una r, el
coeficiente de correlación puede asumir cualquier valor entre -1 y 1; es decir,
-1 ≤ r ≤ 1
Un valor de r = -1 indica una relación negativa perfecta entre X y Y, tal como se
observa en la figura (a). Todas las observaciones quedan en línea recta perfecta con una
pendiente negativa. Por tanto, X y Y se moverán en direcciones opuestas. La figura (b)
muestra una relación positiva perfecta entre X y Y con r = 1. Como se anotó anteriormente, en
toda relación entre dos variables existe la posibilidad de que exista alguna variación alrededor
de la recta de regresión. Esto se observa en las figuras (c) y (d), las cuales muestran
relaciones fuertes pero menos perfectas. En ambos casos el valor absoluto de r se aproxima a
1. Por el contrario, la figura (e) muestra muy poca o ninguna relación entre X y Y, y r se
aproxima a cero. En general, entre mayor sea el valor absoluto de r, más fuerte será la
relación entre X y Y.
21
0
1
2
3
4
0 1 2 3 4
Poca o ninguna relación; no se
puede dibujar una recta de ajuste
r ≈ 0
(e)
0
1
2
3
4
5
0 1 2 3 4
Fuerte Relación Positiva
r está cerca de +1
Y = f(X)
(c)
0
1
2
3
4
5
0 1 2 3 4
Fuerte Relación Negativa
r está cerca de-1
Y = f(X)
(d)
0
0,5
1
1,5
2
2,5
0 0,5 1 1,5 2 2,5
Relación Negativa Perfecta
r = -1
Y = f(X)
(a)
0
1
2
3
4
5
0 1 2 3 4
Relación Positiva Perfecta
r = 1
Y = f(X)
(b)
Karl Pearson llegó a la siguiente formula abreviado par calcular el coeficiente ´´r´´ de
correlación.
Podemos observar en la formula que teniendo las columnas necesarias para calcular la
ecuación de regresión, y agregando nada más la columna de los cuadrados de la variable
dependiente Y, se tiene la información necesaria para calcular el valor r.
En el siguiente ejemplo calcularemos el coeficiente de correlación con el método
estudiado anteriormente.
Calcular el coeficiente de correlación para la siguiente información relativa a los
tiempos de calentamientos (X), en minutos y los espesores de oxido (Y) de cierta pieza,
medidos de Angstrom1
.
1
Angstrom: medida de longitud del sistema métrico, equivale a 0.1 de milimicra. Una milimicra =
0.000000001 metro. O también Angstrom = 0.000000001
22
Xi 10 20 30 40 50 60 80 90
Yi 3.2 7.5 7.0 8.2 14.0 16.4 15.1 20
Solución:
En el siguiente cuadro aparecen todos los cálculos pertinentes para calcular el valor de r.
X Y
10 3.2 32 100 10.24
20 7.5 150 400 56.25
30 7.0 210 900 49.00
40 8.02 328 1,600 67.24
50 14.0 700 2,500 196.00
60 16.4 984 3,600 268.96
80 15.1 1,208 6,400 228.01
90 20.0 1,800 8,100 400.0
380 91.4 5,412 23,600 1,275.7
Cálculo de r por el método producto – momento:
= 0.94
CORRELACIÓN DE RANGOS DE SPEARMAN.
El método de Pearson requiere valores numéricos precisos y el supuesto de
normalidad en la distribución de tales valores. En muchos casos, tal medida numérica no
23
puede ser posible, y puede no existir confirmación para el supuesto de normalidad. En tales
casos, no puede utilizarse el método de Pearson
No obstante, se puede todavía clasificar sistemáticamente u ordenar las
observaciones. Esta clasificación ordinal permite medir los grados de correlación entre dos
variables utilizando el coeficiente de correlación de rangos de Spearman que es una
prueba no paramétrica que mide la asociación o interdependencia entre dos variables
continuas. Para calcular rs, los datos son ordenados y reemplazados por su respectivo orden.
El estadístico rs viene dado por la expresión:
Donde: rs = Coeficiente de correlación ordinal o por rangos (llamado comúnmente
correlación por rangos de Spearman.
di =es la diferencia entre las clasificaciones para cada observación.
n = es el tamaño de la muestra.
La interpretación de coeficiente de Spearman es igual que la del coeficiente de
correlación de Pearson. Oscila entre -1 y +1, indicándonos asociaciones negativas o positivas
respectivamente, 0 cero, significa no correlación pero no independencia. Entonces, entre más
se acerca el valor de rs a ± 1, más relación hay entre las variables expresadas en rangos.
Es importante aclarar que cuando dos o más observaciones están igualadas en orden,
a cada una se le asigna una media de los rangos.
Veamos primero un ejemplo donde no hay empates: El año pasado, Amco Tech, un
fabricante de microchips para computador en Estados Unidos, contrató a siete técnicos en
computación. A los técnicos se les practicó un examen diseñado para medir sus
conocimientos básicos. Después de un año de servicio, a su supervisor se le pidió clasificar el
24
desempeño laboral de cada técnico. Los puntajes del examen y las calificaciones del
desempeño para los siete empleados aparecen en la siguiente tabla:
Técnicos Puntaje en el examen Clasificación del desempeño
J. Smith 82 4
A. Jones 73 7
D. Boone 60 6
M. Lewis 80 3
G. Clark 67 5
A. Lincoln 94 1
G. Washintong 89 2
Vale la pena observar que aunque el puntaje del examen es una medida cuantitativa
de los conocimientos de los técnicos, la clasificación del desempeño es simplemente una
medida ordenada por el supervisor para saber cuáles técnicos se estaban desempeñando
laboralmente bien. Por tanto, el jefe de operaciones decide utilizar la correlación de rangos de
Spearman para determinar si existe alguna relación entre los puntajes del examen y el
desempeño laboral. El director debe desarrollar primero la clasificación para los puntajes del
examen. Tales clasificaciones, junto con algunos cálculos necesarios aparecen en la tabla
siguiente:
Técnicos Puntaje en
el examen
Clasificación en la
prueba (X)
Clasificación por
el desempeño (Y)
X – Y= di (X-Y)2
= di
2
J. Smith 82 3 4 -1 1
A. Jones 73 5 7 -2 4
D. Boone 60 7 6 1 1
M. Lewis 80 4 3 1 1
G. Clark 67 6 5 1 1
A. Lincoln 94 1 1 0 0
G. Washington 89 2 2 0 0
28 28 0 Σdi
2
= 8
Cálculo de r por el método de rangos de Spearman:
25
Sustituyendo la formula:
Observaciones:
1. La suma de los rangos de ambas variables es siempre igual.
2. La suma de las diferencias entre los rangos es siempre cero.
3. El coeficiente de correlación r de Pearson de los rangos de las variables siempre es
igual al coeficiente de correlación rs de Spearman.
4. El coeficiente de correlación de r de Pearson calculado en las variables originales es
diferente del coeficiente rs de Spearman.
Comprobación de la observación 3:
Técnicos Clasificación en la
prueba (X)
Clasificación por
el desempeño (Y)
XY X2
Y2
J. Smith 3 4 12 9 16
A. Jones 5 7 35 25 49
D. Boone 7 6 42 49 36
M. Lewis 4 3 12 16 9
G. Clark 6 5 30 36 25
A. Lincoln 1 1 1 1 1
G. Washintong 2 2 4 4 4
28 28 136 140 140
26
Veamos otro ejemplo. La siguiente información corresponde al número de semanas
de entrenamiento y el puesto (rango) que ha obtenido un grupo de corredores de seguros de la
PALIC de acuerdo al volumen de ventas que han realizado durante seis meses:
Vendedor Semanas de entrenamiento (X) Volumen de ventas expresadas en rango (Y)
A. Villeda 5 10
L. Flores 10 4
M. Henríquez 10 6
E. Escapini 30 1
J. Pérez 25 3
H. Bonilla 16 5
S. Miranda 20 2
A. Armas 8 8
D. Jiménez 6 9
G. Mira. 4 7
De acuerdo con estos resultados, ¿cree que vale la pena que los vendedores de la
compañía se preocupen por recibir entrenamiento para aumentar sus ventas?
Solución:
Un índice para contestar la pregunta puede ser el conocimiento del coeficiente de
correlación por rangos de Spearman, que nos puede decir el grado de relación existente entre
entrenamiento y volumen de ventas.
Para calcular el coeficiente por rangos tenemos que expresar las semanas de
entrenamiento en rangos, dando el rango 1 a quien tiene más entrenamiento. A continuación
se presentan, en el siguiente cuadro, los rangos correspondientes y el resto de columnas para
llevar a cabo el cálculo de rs.
Vendedor
Entrenamiento en
rango (X)
Volumen de ventas
en rango (Y)
X – Y= di (X-Y)2
= di
2
A. Villeda 10.00 9.00 1.0 1.00
L. Flores 4.00 5.50 -1.50 2.25
M. Henríquez 6.00 5.50 0.50 0.25
E. Escapini 1.00 1.00 0.00 0.00
J. Pérez 3.00 2.00 1.00 1.00
27
H. Bonilla 5.00 4.00 1.00 1.00
S. Miranda 2.00 3.00 -1.00 1.00
A. Armas 8.00 7.00 1.00 1.00
D. Jiménez 9.00 8.00 1.00 1.00
G. Mira. 7.00 10.00 -3.00 9.00
55.00 55.00 0.00 17.50
Observemos que hay un empate en el quinto y sexto puesto (L. Flores y M. Henríquez); por
eso les asignamos a cada uno la medio de los rangos, o sea (5+6)/2 = 5.50.
De acuerdo a este resultado, vale la pena el entrenamiento para mejorar las ventas.
CAPITULO V
“Pruebas de Regresión y Correlación”
Prueba de hipótesis en la regresión lineal simple.
Una parte importante para evaluar la adecuación del modelo de regresión lineal simple
consiste en probar hipótesis estadísticas alrededor de los parámetros del modelo y en elaborar
ciertos intervalos de confianza.
Para verificar si un modelo lineal, de la forma y = A + Bx, la variable independiente x afecta
la respuesta y, el parámetro B debe de ser diferente de cero. De otra forma se tendría y = A, y
no habría una contribución lineal de la variable x a la regresión.
El procedimiento para inferir la verificación consiste en comprobar el sistema de hipótesis.
28
La elaboración de la prueba se basa en los estimadores mínimos cuadráticos a y b de la recta
estimada Ŷ = a+ bx, y en sus propiedades.
Señalemos, sin demostración, las siguientes propiedades de b las cuales se generalizan a
todos los estimadores de los mínimos cuadrados.
Propiedades de b
• b es un estimador insesgado de B: E(b) = B.
• Un estimador insesgado de la varianza de Y es:
• La varianza de b es:
• La desviación estándar de b es:
• B sigue una distribución normal con E(b) y Var(b).
• El estadístico sigue una ley de student con v = n – 2 grados de libertad.
(Al número de observaciones se le resta 2 debido a que se han estimado los
parámetros a y b de la recta de regresión).
Una vez encontrado el error estándar se utiliza la siguiente ecuación:
29
Prueba de hipótesis para correlación.
Esta prueba es equivalente a la prueba de hipótesis dada en la prueba de hipótesis de
regresión.
La manera de calcular el error estándar para este tipo de prueba es:
Una vez determinada la ecuación del error estándar para la correlación se aplica la
siguiente formula:
A continuación presentaremos un ejemplo que abarca la prueba de hipótesis tanto
para regresión como para correlación
Acciones del Banco Central de Reserva para frenar la inflación. Después de
aproximadamente seis años de expansión continuada, la economía salvadoreña comenzó a
presentar signos de presiones inflacionarias en el verano de 1988. Un articulo de La Prensa
Gráfica, describió los esfuerzos del Banco Central por calmar estos aires inflacionistas. Esto
debía hacerse restringiendo el suministro de dinero a través del aumento de la tasa de
descuento que la banca comercial debe pagar al Banco Central. En febrero de 1988, Carlos
Ernesto Euceda, vicepresidente del Banco Central de Reserva, dijo en una audiencia, que las
acciones referente a las tasas de descuento podrían predecirse sobre la base de la tasa de los
fondos estatales, la cual es el costo que los banco cobran entre ellos para los créditos de un
día para otro. Los controladores de la reserva argumentaron que la tasa de los fondos no
estaban sirviendo para predecir adecuadamente los cambios en la tasa de descuento, y que
este comportamiento deficiente dificultaba a los inversionistas intentar predecir qué nivel de
la tasa de interés permitiría el Banco Central.
30
A continuación se presentan los valores para la tasa de los fondos del Banco Central y
la tasa de descuento desde mediados de 1987 hasta mediados 1988. ¿Sustentan estos datos los
cargos de los controladores de la reserva?
Fecha Tasa de Fondos Estatales Tasa de Descuento (%)
Junio de 1987 8.0 7.5
Julio de 1987 7.5 7.5
Agosto de 1987 7.0 7.0
Septiembre de 1987 6.5 6.5
Octubre de 1987 6.0 6.0
Noviembre de 1987 6.0 5.5
Diciembre de 1987 7.0 5.5
Enero de 1989 6.0 5.5
Febrero de 1988 7.0 5.5
Marzo de 1988 7.5 5.5
Abril de 1988 7.0 6.0
Mayo de 1988 7.5 6.5
Total: 83.0 74.5
Debido a que Carlos Euceda argumentó que la tasa de los fondos federales podría
explicar la conducta de la tasa de descuento, los fondos estatales se ven como variable
independiente.
La naturaleza de la relación entre la tasa de fondos estatales y la tasa de descuento es
analizable a través del análisis de regresión y correlación.
X = 83 Y = 74.5 YΣ Σ Σ 2
= 469.5
XY = 518.5Σ = 6.21
XΣ 2
= 579 n = 12
SCx = XΣ 2
–( X)Σ 2
/n = 4.916666667
SCy = YΣ 2
–( Y)Σ 2
/n = 6.72917
SCxy = XY –( X) ( Y)/n =3.20833Σ Σ Σ
b1 = SCxy/ SCx
b1 = 0.6525
31
b0 = 1.6949
Por tanto la ecuación es:
El coeficiente de determinación es:
= 0.3111
r = 0.56
Los controladores de la reserva tienen razón en su critica de la tasa de los fondos
estatales como predictor de los cambios en la tasa de descuento. Solo el 31% de los cambios
en la tasa de descuento se explican mediante los cambios en la tasa de los fondos estatales.
Una medida de bondad de de ajuste que refleja la capacidad de la tasa de los fondos
estatales para predecir la tasa de descuentos es el error estándar de estimación.
El error estándar de estimación es:
= 4.63033
CME = SCE/(n-2)
= 4.63033/(12-2) = 0.463033
Se = 0.6808
Típicamente, el estimado de la tasa de descuento está en error en 0.68 de un punto
porcentual.
Una prueba de significancia del coeficiente de correlación sería muy útil en este
punto. Sea el nivel de confianza 95%. Con 10 grados de libertad el valor crítico de t es por
tanto ±2.228.
Las hipótesis son:
32
Regla de decisión: “no rechazar la Ho si t está entre ±2.228. De lo contrario
rechazar”.
= 0.56/0.2627 = 2.13
La hipótesis nula no debe rechazarse. A pesar del hallazgo muestral de una relación
positiva entre las tasas de fondos estatales y la tasa de descuento, no se puede rechazar la
hipótesis de que no hay correlación. El coeficiente de correlación muestral no es significativo
al nivel del 5%.
Una prueba de la significancia del coeficiente de regresión de b1= 0.6525424 nos es
útil, y sabio. La prueba se realizará al nivel del 99%. Con 10 grados de libertad, el valor
critico t es ±3.169.
Regla de decisión: “No rechazar si t está entre ±3.169. De lo contrario rechazar.”
En donde:
La hipótesis de que β1= 0 no debe rechazarse. El valor para b1 no es
significativamente diferente de cero al nivel del 1%. Hay muy poca confianza o nada de
confianza en la tasa de los fondos estatales como predictor de la tasa de descuento. Sería
33
imprudente de parte de los inversionistas confiar en los fondos estatales como indicador del
comportamiento de la tasa de descuento y de otras tasas de interés.
Prueba de hipótesis para la correlación de rangos de Spearman.
Con frecuencia se desea comprobar la hipótesis de que el coeficiente de correlación
poblacional. ρ es cero. Es decir, se desea determinar la probabilidad de que a pesar de los
hallazgos de la muestra que sugiere una relación entre el puntaje y la clasificación, en
realidad no existe tal relación y ρ= 0.
Para las muestras pequeñas (n<30). La distribución de rs no es normal, ni la prueba t
es apropiada. Para ello debemos utilizar la tabla que el anexo al final de este trabajo, es la
tabla de correlación de rangos de Spearman.
Si n>30, la distribución de rs se aproxima a la normalidad con una media igual a cero,
y con una desviación estándar de . El estadístico de prueba Z es:
34
CAPITULO VI
“Regresión Lineal Múltiple”
Anteriormente se analizo como una sola variable explicativa podría utilizarse para
predecir el valor de la variable dependiente. Se considera como mas poderoso podría
volverse el modelo si se utilizaran mas variables explicativas. Esto es precisamente lo que el
modelo de regresión lineal múltiple hace, permitiendo incorporar dos o más variables
independientes. El modelo de regresión múltiple con k variables independientes se expresa
como:
En donde (ß) son los coeficientes de regresión y (ε) es el termino de error aleatorio.
Se estima el modelo utilizando los datos muéstrales así:
35
En donde Ŷ es el valor estimado para la variable dependiente y bi son los
estimados para los coeficientes poblacionales (β) y bi se denominan coeficientes parciales
( o netos) de regresión y tienen la misma interpretación que en la regresión simple. Por
tanto, bi,, es la cantidad por la cual Y1 cambiara si X1 cambia en una unidad asumiendo que
todas las otras variables independientes se mantienen constantes.
Además de los supuestos establecidos en la regresión simple se establecen dos mas: el
primer supuesto requiere que el numero de observaciones n , exceda el numero de variables
independientes k, en por los menos 2, en la regresión múltiple hay k+1 parámetros por
estimar: los coeficientes para las variables independientes k más el intervalo del
intercepto. Por tanto los grados de libertad relacionados con el modelo son g.l= n – (K + 1).
Si se va a retener incluso un grado de libertad, n debe exceder a k en por lo menos 2, de
manera que n – (K + 1) es por lo menos 1.
El segundo supuesto involucra la relación entre las variables independientes requiere
que ninguna de las variables independientes este linealmente relacionada. Por ejemplo, si
X1= X2 + X3, o quizá X1 = 0.5 X2, entonces una relación lineal existiría entre dos o mas
variables independientes y surgiría un problema grave. Este problema es la
multicolinealidad. Y este existe si dos o más variables independientes están relacionadas
linealmente. La multicolinealidad puede hacer que los signos algebraicos de los coeficientes
sean opuestos a lo que la lógica pueda dictar, mientras que incrementan bastamente el error
estándar de los coeficientes.
A los parámetros (βj), j= 0. 1,……, k, se les denomina coeficientes de regresión. A
los parámetros (βj), j= 0. 1, ……,k, a veces se les denomina coeficientes parciales de
regresión , debido a que describen el efecto parcial de una variable independiente cuando las
otras variables independientes del modelo se conservan constantes.
Los modelos de regresión lineal múltiple a menudo se utilizan como funciones de
aproximación. Esto es, se desconoce la verdadera relación funcional entre y y x1, x2,. . . . . ,
36
xK, pero sobre ciertos intervalos de valores de las variables independientes el modelo de
regresión lineal es una aproximación adecuada.
Desviación estándar de regresión múltiple
Se define como la desviación típica de las desviaciones de los valores de X1 con
respecto a los valores calculados Xic y se denota con el símbolo S1.23, donde el primer
subíndice indica la variable dependiente, y los subíndices secundarios indican las variables
independientes. Se calcula de una manera similar a la desviación estándar de la regresión
simple, o sea:
También existe un método abreviado para calcular este valor, sin calcular los
valores de
( X1 – X1c ) 2
:
La desviación estándar de regresión múltiple se usa como medida de la bondad de
las estimaciones basadas en la ecuación de regresión; entre menor sea el valor de S1.23 menor
es la dispersión de los valores de X1
Con respeto a los valores estimados X1c ; y por lo tanto, las estimaciones de la
variable dependiente serán más confiables ; es decir, más parecidas a los valores reales de X1.
Para calcular los estadísticos bo, b1, b2,…., br, basta con extender el procedimiento de
minimización de la suma de los cuadrados de los errores aleatorios
37
Las derivadas parciales de la SCE con respecto a cada uno de los estadísticos bj, j =
0,1,….r, igualadas a cero, originan un sistema de r+ 1 ecuaciones con r+ 1 incógnitas.
Cuando solo hay dos variables independientes, el sistema completo de ecuaciones
normales es como sigue:
Ahora se presenta un sistema de ecuaciones normales para r 2
De acuerdo con esta ecuación, todas las sumatorias, aun cuando no tengan subíndices,
se extienden a todas las observaciones desde i= 1, 2,.. n.
Ahora bien el problema se reduce a resolver el sistema de ecuaciones normales para b0, b1,
y b2 y obtener la recta de regresión:
Nota que par r = 3 variables independientes, se debe resolver un sistema de r + 1 = 4
ecuaciones con 4 incógnitas, y así sucesivamente para r= 4, r= 5, etc. Por ende, es necesario
aplicar algebra matricial para resolver los sistemas de ecuaciones normales resultante.
38
Ecuaciones normales
para una regresión múltiple con r
variables independientes.
Ejemplo:
Investigar si el salario mensual (Y) que devenga un trabajador, de una compañía
depende directamente del numero de años de educación formal que ha recibido (X1 ), y del
tiempo que lleva trabajando en la empresa (X2 ). Determinar una ecuación lineal de Y sobre
X1 y X2 para la siguiente muestra de 9 trabajadores (Y: en miles de dólares X1 y X2 : en años
).
Y 11.2 12.3 7.6 11.6 4.3 6.9 6.5 2.5 13.1
X1 16 18 17 18 13 16 16 8 16
X2 18 20 4 10 10 6 2 20 25
Solución:
Para darle solución a este ejercicio primero se hacen las sumatorias y las
multiplicaciones respectivas de la siguiente manera:
y X1 X2 X1 y X1
2
X1 X2 X2 y X2
2
11.2 16 18 179.2 256 288 201.6 324
12.3 18 20 221.4 324 360 246 400
7.6 17 4 129.2 289 68 30.4 16
11.6 18 19 208.8 324 342 220.4 361
4.3 13 10 55.9 169 130 43 100
6.9 16 6 110.4 256 96 41.4 36
6.5 16 2 104 256 32 13 4
2.5 8 20 20 64 160 50 400
13.1 16 25 209.60 256 400 327.5 625
76 138 124 1238.5 2194 1876 1173.3 2266
Se harán las sustituciones de los valores encontrados en la ecuación de los mínimos
cuadrados para después llevarlas a la forma de la ecuación lineal estimada que se ha detallado
anteriormente como resultado el sistema de ecuaciones nos queda de la siguiente manera:
76 = 9 bo + 138 b1 + 124 b2
39
1238.5= 138 b0 + 2194 b1 +1876 b2
1173.5= 124 b0 + 1876 b1 +2266b2
Las solución a este sistema de ecuaciones mediante el método de simultáneo o de
eliminación arroja los siguientes resultados:
bo = - 11.0592, b1 = 1.0267 , b 2 = 0.2730
Por lo tanto, la ecuación de regresión viene dada por:
Ý = - 11.0592 + 1.0267 x1 + 0.2730 x2
Si X1 = X2 (un trabajador cuyos años de trabajo con la empresa coinciden con los
años de educación formal) la variable x1 es la que contribuye más a una respuesta salarial
40
Capitulo VII
“Ejercicios Resueltos”
Ejercicio de diagrama de dispersión.
Dado los siguientes datos para X y Y
X: 28, 54, 67, 37, 41, 69, 76.
Y: 14, 21, 36, 39, 18, 54, 52.
a. Haga un diagrama de dispersión para los datos:
b. ¿Qué sugieren los datos sobre una relación entre X y Y?
c. Hacer una recta para aproximar la línea de relación.
Sugieren una relación lineal positiva.
41
Regresión con Mínimo Cuadrado.
Un economista del Departamento de Recursos Humanos de Florida State está
preparando un estudio sobre el comportamiento del consumidor. Él recolectó los documentos
que aparecen en miles de dólares para determinar si existe una relación entre el ingreso del
consumidor y los niveles de consumo. Determine cuál es la variable dependiente.
Consumidor 1 2 3 4 5 6 7 8 9 10 11 12
Ingreso 24.3 12.5 31.2 28.0 35.1 10.5 23.2 10.0 8.5 15.9 14.7 15
Consumo 16.2 8.5 15 17 24.2 11.2 15 7.1 3.5 11.5 10.7 9.2
a. Haga un diagrama de dispersión para los datos.
b. Calcule e interprete el modelo de regresión. ¿Qué le dice este modelo sobre la
relación entre el consumo y el ingreso?, ¿Qué proporción de cada dólar adicional que
se gana se invierte en consumo?
c. ¿Qué consumo pronosticaría el modelo para alguien que gana US$27,500.00?
Solución:
42
a. Se determina que la variable dependiente es el consumo, debido a que las
personas consumiran dependiendo del nivel de ingreso que posean; elaborando
el diagrama de dispersión, se establece que posee un relación lineal positiva
b. Cálculo de la regresión.
Consumidor Ingresos (X) Consumo (Y) XY X2
Y2
1 24.3 16.2 393.66 590.49 262.44
2 12.5 8.5 106.25 156.25 72.25
3 31.2 15.0 468.00 973.44 225.00
4 28.0 17.0 476.00 784.00 289.00
5 35.1 24.2 849.42 1,232.01 585.64
6 10.5 11.2 117.60 110.25 125.44
7 23.2 15.0 348.00 538.24 225.00
8 10.0 7.1 71.00 100.00 50.41
9 8.5 3.5 29.75 72.25 12.25
10 15.9 11.5 182.85 252.81 132.25
11 14.7 10.7 157.29 216.09 114.49
12 15.0 9.2 138.00 225.00 84.64
Σ 228.9 149.1 3,337.82 5,250.83 2,178.81
43
Este modelo indica que si se mantiene constante el consumo, por cada aumento de
$1,000.00 en el ingreso, se pronostica que las personas aumentaran su consumo en $558.00
c. Pronostico para alguien que gana US$27,500.00
Se pronostica que si obtiene un ingreso de $27,500.00, invertirá en consumo
$15,346.77.
Ejemplo de Regresión Simple, Desviación Estándar de Regresión y
Coeficiente de Correlación de Pearson.
La siguiente información corresponde a la temperatura (°F) y a la dilatación de un
determinado material:
Temperatura 87 50 75 90 55 54 68 85 82 80 45 58 66
Dilatación 5.0 2.2 4.1 5.4 2.8 3.0 3.6 4.9 4.1 4.2 2.0 2.7 3.1
44
a. Determinar la ecuación de regresión, usando como variable dependiente la que
usted estime conveniente.
b. Calcule la desviación estándar de regresión.
c. Calcule el coeficiente de correlación.
a. Se determina que la variable dependiente es la dilatación, debido a que
determinado material se dilatará dependiendo de la temperatura en que se
encuentre; entonces:
Temperatura (X) Dilatación (Y) XY X2
Y2
87 5.0 435.0 7,569.0 25.00
50 2.2 110.0 2,500.0 4.84
75 4.1 307.5 5,625.0 16.81
90 5.4 486.0 8,100.0 29.16
55 2.8 154.0 3,025.0 7.84
54 3.0 162.0 2,916.0 9.00
68 3.6 244.8 4,624.0 12.96
85 4.9 416.5 7,225.0 24.01
82 4.1 336.2 6,724.0 16.81
80 4.2 336.0 6,400.0 17.64
45 2.0 90.0 2,025.0 4.00
58 2.7 156.6 3,364.0 7.29
66 3.1 204.6 4,356.0 9.61
895 47.1 3,439.2 64,453.0 184.97
Sustituyendo en las ecuaciones normales:
Igualando a en la primera ecuación.
45
Igualando b en la segunda ecuación.
Igualando las ecuaciones para encontrar b
Encontrando a:
Finalmente la ecuación de regresión queda así:
b. Desviación estándar de la regresión
Aplicando la formula abreviada:
c. Coeficiente de correlación
Aplicando el coeficiente de correlación de producto- momento:
46
Ejercicio de coeficiente de correlación por el método de rangos de
Spearman.
La siguiente información corresponde a los costos y a las ventas, en miles de colones
de 12 tiendas:
Tiendas Costos (X) Ventas (Y)
1 11 19
2 10 15
3 14 20
4 13 14
5 12 16
6 20 33
7 21 32
8 15 18
9 22 29
10 18 22
11 19 23
12 16 20
Calcular el coeficiente de correlación por rangos.
Tienda
s
Costos (X) Ventas (Y) Rango X Rango Y (X-Y)= di (X-Y)2
=di
2
1 11 19 11 8 3 9
2 10 15 12 11 1 1
3 14 20 8 6.5 1.5 2.25
4 13 14 9 12 -3 9
5 12 16 10 10 0 0
6 20 33 3 1 2 4
7 21 32 2 2 0 0
8 15 18 7 9 -2 4
9 22 29 1 3 -2 4
10 18 22 5 5 0 0
11 19 23 4 4 0 0
12 16 20 6 6.5 -0.5 0.25
78 78 0 33.5
47
Cálculo de r por el método de rangos de Spearman:
Sustituyendo la formula:
Finalizando con el valor del coeficiente
Ejercicio de regresión múltiple.
Suponga que una compañía grande de productos de consumo desea medir la
efectividad de los diferentes medios de propaganda en la promoción de sus productos. En
especial, se van a estudiar dos tipos de medios de promoción: propaganda en radio y
televisión y propaganda en periódicos (incluyendo el costo de los cupones de descuento). Se
seleccionó una muestra de 22 ciudades cuya población es aproximadamente igual para
realizar un estudio durante un periodo de prueba de un mes. A cada ciudad se le asignó un
nivel de gastos específico para publicidad de radio y televisión y para publicidad en
periódicos. Se registraron las ventas del producto (en millones de dólares) durante el mes de
prueba, junto con los niveles de gastos de los medios, y se tuvieron los siguientes resultados:
Ciudad
Ventas
(miles de
dólares)
Publicidad en
radio y televisión
(miles de dólares)
Publicidad en
periódicos (miles
de dólares) Ciudad
Ventas
(miles de
dólares)
Publicidad en radio
y televisión (miles
de dólares)
Publicidad en
periódicos
(miles de
dólares)
1 973 0 40 12 1,577 45 45
2 1,119 0 40 13 1,044 50 0
3 875 25 25 14 914 50 0
4 625 25 25 15 1,329 55 25
5 910 30 30 16 1,330 55 25
6 971 30 30 17 1,405 60 30
7 931 35 35 18 1,436 60 30
8 1,177 35 35 19 1,521 65 35
9 882 40 25 20 1,741 65 35
10 982 40 25 21 1,866 70 40
48
11 1,628 45 45 22 1,717 70 40
Lleve a cabo un análisis de regresión lineal múltiple. Basándose en los resultados
obtenidos:
a. Establezca la ecuación de regresión múltiple.
b. Interprete el significado de las pendientes en este problema.
a. Calculo de la ecuación de regresión múltiple:
Establecemos las ventas (Y) como la variable dependiente y los gastos en publicidad
en radio y televisión (X1) y los gastos en periódicos (X2) como las variables
independientes a continuación se elabora una tabla con los datos necesarios para
establecer la ecuación de regresión múltiple:
Ciudad Y X1 X2 YX1 YX2 X1 X2 X1X2
1 973 0 40 0 38,920 0 1,600 0
2 1,119 0 40 0 44,760 0 1,600 0
3 875 25 25 21,875 21,875 625 625 625
4 625 25 25 15,625 15,625 625 625 625
5 910 30 30 27,300 27,300 900 900 900
6 971 30 30 29,130 29,130 900 900 900
7 931 35 35 32,585 32,585 1,225 1,225 1,225
8 1,177 35 35 41,195 41,195 1,225 1,225 1,225
9 882 40 25 35,380 22,050 1,600 625 1,000
10 982 40 25 39,280 24,550 1,600 625 1,000
11 1,628 45 45 73,260 73,260 2,025 2,025 2,025
12 1,577 45 45 70,965 70,965 2,025 2,025 2,025
13 1,044 50 0 52,200 0 2,500 0 0
14 914 50 0 45,700 0 2,500 0 0
15 1,329 55 25 73,095 33,225 3,025 625 1,375
16 1,330 55 25 73,150 33,250 3,025 625 1,375
17 1,405 60 30 84,300 42,150 3,600 900 1,800
18 1,436 60 30 86,160 43,080 3,600 900 1,800
19 1,521 65 35 98,865 53,235 4,225 1,225 2,275
20 1,741 65 35 113,165 60,935 4,225 1,225 2,275
21 1,866 70 40 130,620 74,640 4,900 1,600 2,800
22 1,717 70 40 120,190 68,680 4,900 1,600 2,800
49
Σ 26,953 950 660 11264,040 851,410 49,250 22,700 28,050
Sustituyendo en las ecuaciones:
(1)
(2)
(3)
La solución a este sistema de ecuaciones mediante el método de eliminación por
sustitución arroja los siguientes resultados:
Igualando b0 en la ecuación 1:
Igualando b0 en la ecuación 2:
Simultaneando:
50
(4)
Igualando b0 en la ecuación 1:
Igualando b0 en la ecuación 3:
Simultaneando:
(5)
Igualando b1 en la ecuación 4:
Igualando b1 en la ecuación 5:
Simultaneando:
51
Encontrando b1, sustituyendo b2 en la ecuación 4.
Encontrando b0, sustituyendo b1 y b2 en la ecuación 1.
Por lo tanto, la ecuación de regresión viene dada por:
b.
Este modelo indica que manteniendo constante los gastos de publicidad en periódicos,
por cada aumento de $1,000.00 en la publicidad en radio y televisión, se predice que las
ventas aumentaran en $ 13,092.90. Manteniendo los costos de publicidad en radio y
52
televisión constantes, por cada aumento de $1,000.00 en publicidad en periódico, se predice
que las ventas aumentaran en $ 16,797.20.
Ejercicio de prueba de hipótesis.
Los licenciados de estadística de la UES están realizando un estudio para analizar la relación
entre los ingresos de las personas y sus niveles de consumo. 11 consumidores reportaron las
siguientes cifras en miles de dólares. Al nivel de significancia del 5%, ¿El coeficiente de
correlación de rangos de Spearman sugiere alguna relación?
Ingresos 97 58 69 47 58 38 91 67 68 47 48
Consum
o
55 63 54 37 45 38 71 52 53 37 37
Solución:
Se plantean las siguientes hipótesis.
La hipótesis nula implica que no existe relación, y la alternativa expresa la existencia de
relación.
En la siguiente tabla están contenidos los datos necesarios para la aplicación de la formula de
correlación por rangos de Spearman. Como los datos son 11 se establecen 11 rangos donde al
mayor “97” se le asigna 1 y al menor 11.
53
Ingreso Consumo Rango X Rango Y di di
2
97 55 1 3 -2 4
58 63 6.5 2 4.5 20.25
69 54 3 4 -1 1
47 37 9.5 10 -0.5 0.25
58 45 6.5 7 -0.5 0.25
38 38 11 8 3 9
91 71 2 1 1 1
67 52 5 6 -1 1
68 53 4 5 -1 1
47 37 9.5 10 -0.5 0.25
48 37 8 10 -2 4
66 66 0 42
Se utiliza la formula siguiente
Ya que n<30 se utiliza la tabla del anexo al final de este trabajo. Cuando n = 11 y a = 0.05,
resulta un valor critico de 0.6091.
Interpretación: Dado que el valor calculado es mayor que el critico se rechaza la
hipótesis nula, implica que si existe relación entre ingreso y consumo.
CONCLUSIONES
• En relación a la regresión, surgen dificultades en relación a la elección al tipo de
modelo a elegir; es recomendable no realizar la elección del modelos de regresión a
simple vista, ya que incluso un cambio en la escala en el diagrama de dispersión
54
Zona de no rechazo
a = 0.025a = 0.025
-0.6091 0.6091
0.8091
ocasiona un efecto visual que resulta engañoso. Para el caso, grupo de datos que se
puede adaptar a una distribución exponencial, si dicha tendencia es poco marcada,
podría suponerse que sigue una relación lineal o incluso potencial. Hay casos que
hasta la gráfica resulta de utilidad limitada debido a que la gráfica no muestra de
manera clara la tendencia que sigue. Cabe recordar que un error en el método
aplicado no proporcionar los resultado óptimos.
• La regresión es una técnica que ayuda a la predicción, pero no dice exactamente lo
que ocurrirá, dice lo que podría ocurrir, nos propicia elementos de juicio para decidir,
pero lo que ocurrirá con cualquier fenómeno no estará bajo el control total. Se puede
estimar ventas por cierta cantidad, que será útil para establecer cuanto producir, mas
no son garantías suficientes de que se darán la estimaciones.
• Las predicciones minimizan los riesgos de errar en las decisiones, mas no los elimina;
ningún método o técnica podrá librarnos de nuestras malas decisiones. Además de
que el proceso de obtención de los datos a utilizar como insumo para la predicción
podría ser subjetivo, y por ende no se lo suficientemente certero en los resultados.
• Sujetarse demasiado en las predicciones, no es fundamento para el desarrollo
creativo y decisiones novedosas, esto en el caso de las empresa, ya que no es base
suficiente como para decidir quien esta siendo mas novedoso en el tiempo. Es decir
que se ve limitado en el campo cualitativo.
• La regresión al considerar de manera funcional las variables en estudio vuelve más
objetiva la manera de generar los elementos (ecuación) para predecir valores dentro
del intervalo.
55
• Lo más importante para determinar el coeficiente de correlación dependerá de los
datos que se estén estudiando, ya que si lo que se estudia son datos cuantitativos, la
mejor forma de determinarlos sería por el método de momento-producto de Karl
Pearson; pero si los datos en estudio son cualitativos, no paramétricos, el mejor
método es el método de rangos de Spearman.
• Es posible realizar una aproximación del método de Spearman al método de Pearson,
una vez se le han asignado rangos a las observaciones, si no se realiza no será
adecuada la aproximación. Con esto es posible el tratamiento de datos cualitativos
con métodos cuantitativos.
• En la medida en que aumenta el numero de variables en la regresión múltiple, más
complicado y largos se vuelven las operaciones, siendo necesario incluso la
aplicación de matrices, métodos computarizados y no siempre se tiene programas
disponibles o para su utilización es necesaria especialización.
• Para comprobar si el modelo de regresión simple es el adecuado se puede aplicar
pruebas de hipótesis estadísticas alrededor de los parámetros del modelo y en elaborar
ciertos intervalos de confianza. Esto es como una manera de encontrar posibles
errores en la elección del modelo aplicado, y volver lo más acertada posible la
regresión.
• El método matemáticamente más exacto para encontrar la función de la regresión es
el método de mínimos cuadrados.
56
Anexo I
Tabla de correlación de rangos de Spearman
57
Bibliografía
• Bonilla, Gildaberto, Estadística II métodos prácticos de inferencia estadística, 2da
edición, UCA editores, San Salvador, El Salvador 1992.
• Berenson, Mark L y Levine, M. David, Estadística básica en administración, sexta
edición, Prentice Hall Hispanoamericana S.A, México 1996
• Heldebrand, K. David y Ott. Lyman, Estadística aplicada a la administración y a la
economía, Pearson Prentice Hall, Tercera edición, México 1998.
• Hines , W. William y Montgomery, C.Douglas, Probabilidad y Estadística para
Ingeniería y Administración, CECSA, México 1987.
• Moore, S. David, Estadística Aplicada Básica, España 1995
• Salguero Hernández, José Alberto, Elementos de Probabilidad y Estadística, UCA
editores, San Salvador, El Salvador, 2002.
• Spiegel, Murray R, Teoría y Problemas de Probabilidad y Estadística Mc. Grawhill,
México 2004.
• Webster, L.Allen, Estadística Aplicada a los Negocios y la Economía, Tercera
Edición, Mc Grawhill, Colombia 2000
• www.wikipedia.org
• www.monografias.com
58

Más contenido relacionado

La actualidad más candente

Distribucion geometrica
Distribucion geometricaDistribucion geometrica
Distribucion geometricajavier
 
Tarea 15 de PROBABILIDAD Y ESTADISTICA CON RESPUESTAS
Tarea 15 de PROBABILIDAD Y ESTADISTICA CON RESPUESTASTarea 15 de PROBABILIDAD Y ESTADISTICA CON RESPUESTAS
Tarea 15 de PROBABILIDAD Y ESTADISTICA CON RESPUESTASIPN
 
Prueba De HipóTesis Sobre La Diferencia De Proporciones Poblacionales
Prueba De HipóTesis Sobre La Diferencia De Proporciones PoblacionalesPrueba De HipóTesis Sobre La Diferencia De Proporciones Poblacionales
Prueba De HipóTesis Sobre La Diferencia De Proporciones PoblacionalesMaría Isabel Bautista
 
Distribuciones muestrales.ppt
Distribuciones muestrales.pptDistribuciones muestrales.ppt
Distribuciones muestrales.pptLucaGutirrez15
 
Eventos mutuamente excluyentes y no excluyentes
Eventos mutuamente excluyentes y no excluyentes Eventos mutuamente excluyentes y no excluyentes
Eventos mutuamente excluyentes y no excluyentes CUT
 
Prueba de hipótesis
Prueba de hipótesisPrueba de hipótesis
Prueba de hipótesiskaremlucero
 
Pruebas de bondad de ajuste
Pruebas de bondad de ajustePruebas de bondad de ajuste
Pruebas de bondad de ajusteCarlos Becerra
 
Tarea 10 de probabilidad y estadistica con respuesta
Tarea 10 de probabilidad y estadistica con respuestaTarea 10 de probabilidad y estadistica con respuesta
Tarea 10 de probabilidad y estadistica con respuestaIPN
 
Capitulo 4 : Pruebas de Hipótesis
Capitulo 4 : Pruebas de HipótesisCapitulo 4 : Pruebas de Hipótesis
Capitulo 4 : Pruebas de Hipótesisug-dipa
 

La actualidad más candente (20)

Distribución muestral de la media
Distribución muestral de la mediaDistribución muestral de la media
Distribución muestral de la media
 
Análisis de Regresión Lineal
Análisis de Regresión LinealAnálisis de Regresión Lineal
Análisis de Regresión Lineal
 
Prueba de hipotesis para proporciones Est ind clase02
Prueba de hipotesis para proporciones Est ind clase02Prueba de hipotesis para proporciones Est ind clase02
Prueba de hipotesis para proporciones Est ind clase02
 
Distribucion geometrica
Distribucion geometricaDistribucion geometrica
Distribucion geometrica
 
Tarea 15 de PROBABILIDAD Y ESTADISTICA CON RESPUESTAS
Tarea 15 de PROBABILIDAD Y ESTADISTICA CON RESPUESTASTarea 15 de PROBABILIDAD Y ESTADISTICA CON RESPUESTAS
Tarea 15 de PROBABILIDAD Y ESTADISTICA CON RESPUESTAS
 
Regresion lineal multiple
Regresion lineal multipleRegresion lineal multiple
Regresion lineal multiple
 
probabilidadesUSFA
probabilidadesUSFAprobabilidadesUSFA
probabilidadesUSFA
 
Prueba De HipóTesis Sobre La Diferencia De Proporciones Poblacionales
Prueba De HipóTesis Sobre La Diferencia De Proporciones PoblacionalesPrueba De HipóTesis Sobre La Diferencia De Proporciones Poblacionales
Prueba De HipóTesis Sobre La Diferencia De Proporciones Poblacionales
 
Final grupo markov
Final grupo markovFinal grupo markov
Final grupo markov
 
Distribuciones muestrales.ppt
Distribuciones muestrales.pptDistribuciones muestrales.ppt
Distribuciones muestrales.ppt
 
Eventos mutuamente excluyentes y no excluyentes
Eventos mutuamente excluyentes y no excluyentes Eventos mutuamente excluyentes y no excluyentes
Eventos mutuamente excluyentes y no excluyentes
 
EJERCICIOS DE DISTRIBUCIÓN MULTINOMIAL
EJERCICIOS DE DISTRIBUCIÓN MULTINOMIALEJERCICIOS DE DISTRIBUCIÓN MULTINOMIAL
EJERCICIOS DE DISTRIBUCIÓN MULTINOMIAL
 
Prueba de hipótesis
Prueba de hipótesisPrueba de hipótesis
Prueba de hipótesis
 
Pruebas de bondad de ajuste
Pruebas de bondad de ajustePruebas de bondad de ajuste
Pruebas de bondad de ajuste
 
S12 distribución binomial (1)
S12 distribución binomial (1)S12 distribución binomial (1)
S12 distribución binomial (1)
 
Tarea 10 de probabilidad y estadistica con respuesta
Tarea 10 de probabilidad y estadistica con respuestaTarea 10 de probabilidad y estadistica con respuesta
Tarea 10 de probabilidad y estadistica con respuesta
 
Capitulo 4 : Pruebas de Hipótesis
Capitulo 4 : Pruebas de HipótesisCapitulo 4 : Pruebas de Hipótesis
Capitulo 4 : Pruebas de Hipótesis
 
Ejercicios Resueltos LEVIN
Ejercicios Resueltos LEVINEjercicios Resueltos LEVIN
Ejercicios Resueltos LEVIN
 
Prueba de los signos
Prueba de los signosPrueba de los signos
Prueba de los signos
 
estadistica medias muestrales
estadistica medias muestralesestadistica medias muestrales
estadistica medias muestrales
 

Destacado

5 ejercicios de correlación
5 ejercicios de correlación5 ejercicios de correlación
5 ejercicios de correlación1010karen
 
Estimacion puntual, propiedades de las estimaciones; estimacion por intervalo...
Estimacion puntual, propiedades de las estimaciones; estimacion por intervalo...Estimacion puntual, propiedades de las estimaciones; estimacion por intervalo...
Estimacion puntual, propiedades de las estimaciones; estimacion por intervalo...Alexander Flores Valencia
 
Correlación y Regresión Lineal Simple Conclusiones.
Correlación y Regresión Lineal Simple Conclusiones. Correlación y Regresión Lineal Simple Conclusiones.
Correlación y Regresión Lineal Simple Conclusiones. rossee2012
 
Coeficientes determinacion y correlacion
Coeficientes determinacion y correlacionCoeficientes determinacion y correlacion
Coeficientes determinacion y correlacionJanneth Zepeda
 
Presentación diagramas de dispersion
Presentación diagramas de dispersionPresentación diagramas de dispersion
Presentación diagramas de dispersionJorge Magallanes
 
Análisis de regresión y correlación
Análisis de regresión y correlaciónAnálisis de regresión y correlación
Análisis de regresión y correlaciónIsaac Cruz
 
Análisis de regresión múltiple por pasos pablo palomo
Análisis de regresión múltiple por pasos pablo palomoAnálisis de regresión múltiple por pasos pablo palomo
Análisis de regresión múltiple por pasos pablo palomoPablo Palomo
 
Presentacion analisis de regresion
Presentacion analisis de regresionPresentacion analisis de regresion
Presentacion analisis de regresion0KA
 
Proyecto estadistica inferencial
Proyecto estadistica inferencialProyecto estadistica inferencial
Proyecto estadistica inferencialkatemora
 
Análisis de correlación y regresión lineal simple
Análisis de correlación y regresión lineal simpleAnálisis de correlación y regresión lineal simple
Análisis de correlación y regresión lineal simpleJoan Fernando Chipia Lobo
 
Tarea 1 correlación y regresión lineal
Tarea 1 correlación y regresión linealTarea 1 correlación y regresión lineal
Tarea 1 correlación y regresión linealMaría Gordón
 

Destacado (20)

5 ejercicios de correlación
5 ejercicios de correlación5 ejercicios de correlación
5 ejercicios de correlación
 
Analisis De Regresion Y Correlacion
Analisis De Regresion Y CorrelacionAnalisis De Regresion Y Correlacion
Analisis De Regresion Y Correlacion
 
Estimacion puntual, propiedades de las estimaciones; estimacion por intervalo...
Estimacion puntual, propiedades de las estimaciones; estimacion por intervalo...Estimacion puntual, propiedades de las estimaciones; estimacion por intervalo...
Estimacion puntual, propiedades de las estimaciones; estimacion por intervalo...
 
Correlación y Regresión Lineal Simple Conclusiones.
Correlación y Regresión Lineal Simple Conclusiones. Correlación y Regresión Lineal Simple Conclusiones.
Correlación y Regresión Lineal Simple Conclusiones.
 
Regresion estadistica
Regresion estadisticaRegresion estadistica
Regresion estadistica
 
Coeficientes determinacion y correlacion
Coeficientes determinacion y correlacionCoeficientes determinacion y correlacion
Coeficientes determinacion y correlacion
 
28 ejercicios
28 ejercicios28 ejercicios
28 ejercicios
 
Presentación diagramas de dispersion
Presentación diagramas de dispersionPresentación diagramas de dispersion
Presentación diagramas de dispersion
 
Análisis de regresión y correlación
Análisis de regresión y correlaciónAnálisis de regresión y correlación
Análisis de regresión y correlación
 
Análisis de regresión múltiple por pasos pablo palomo
Análisis de regresión múltiple por pasos pablo palomoAnálisis de regresión múltiple por pasos pablo palomo
Análisis de regresión múltiple por pasos pablo palomo
 
Regresion Y Correlacion
Regresion Y CorrelacionRegresion Y Correlacion
Regresion Y Correlacion
 
Presentacion analisis de regresion
Presentacion analisis de regresionPresentacion analisis de regresion
Presentacion analisis de regresion
 
Proyecto de correlacion
Proyecto de correlacionProyecto de correlacion
Proyecto de correlacion
 
Proyecto estadistica inferencial
Proyecto estadistica inferencialProyecto estadistica inferencial
Proyecto estadistica inferencial
 
Regresión por Mínimos Cuadrados
Regresión por Mínimos CuadradosRegresión por Mínimos Cuadrados
Regresión por Mínimos Cuadrados
 
Método de Mínimos Cuadrados
Método de Mínimos CuadradosMétodo de Mínimos Cuadrados
Método de Mínimos Cuadrados
 
Problemas de Regresion Lineal
Problemas de Regresion LinealProblemas de Regresion Lineal
Problemas de Regresion Lineal
 
Análisis de correlación y regresión lineal simple
Análisis de correlación y regresión lineal simpleAnálisis de correlación y regresión lineal simple
Análisis de correlación y regresión lineal simple
 
Tarea 1 correlación y regresión lineal
Tarea 1 correlación y regresión linealTarea 1 correlación y regresión lineal
Tarea 1 correlación y regresión lineal
 
17.regresión y correlación simple
17.regresión y correlación simple17.regresión y correlación simple
17.regresión y correlación simple
 

Similar a Regresión y correlación estadística aplicada

Regresión lineal multiple autores grillet montaño rodríguez
Regresión lineal multiple  autores grillet montaño rodríguezRegresión lineal multiple  autores grillet montaño rodríguez
Regresión lineal multiple autores grillet montaño rodríguezthomas669
 
Trabajo investigación estadística
Trabajo investigación estadísticaTrabajo investigación estadística
Trabajo investigación estadísticaMarita Alvarez
 
CLASE_REGRESION_Y_CORRELACION_LINEAL_EST.ppt
CLASE_REGRESION_Y_CORRELACION_LINEAL_EST.pptCLASE_REGRESION_Y_CORRELACION_LINEAL_EST.ppt
CLASE_REGRESION_Y_CORRELACION_LINEAL_EST.pptMaraElenaOrtegaViver
 
Investigación tema 5
Investigación tema 5Investigación tema 5
Investigación tema 5CarmenAlonzo7
 
Unidad nº 1 regresion y correlacion monica
Unidad nº 1 regresion y correlacion monicaUnidad nº 1 regresion y correlacion monica
Unidad nº 1 regresion y correlacion monicamovapa
 
Mi parte de proba de 5.2 hasta el ultimo
Mi parte de proba de 5.2 hasta el ultimoMi parte de proba de 5.2 hasta el ultimo
Mi parte de proba de 5.2 hasta el ultimonochesk
 
Concepto
ConceptoConcepto
ConceptoPPEPPE2
 
Correlacion lineal 2019
Correlacion lineal 2019Correlacion lineal 2019
Correlacion lineal 2019franciscoe71
 
Regresión lineal,ajuste de curva,tipos de regresión lineal
Regresión lineal,ajuste de curva,tipos de regresión linealRegresión lineal,ajuste de curva,tipos de regresión lineal
Regresión lineal,ajuste de curva,tipos de regresión linealmiguelescobarrivero
 
Tema IV Tecnicas de Pronostico Grupo 6.pptx
Tema IV Tecnicas de Pronostico Grupo 6.pptxTema IV Tecnicas de Pronostico Grupo 6.pptx
Tema IV Tecnicas de Pronostico Grupo 6.pptxosdalysmar
 

Similar a Regresión y correlación estadística aplicada (20)

Regresión lineal multiple autores grillet montaño rodríguez
Regresión lineal multiple  autores grillet montaño rodríguezRegresión lineal multiple  autores grillet montaño rodríguez
Regresión lineal multiple autores grillet montaño rodríguez
 
Trabajo investigación estadística
Trabajo investigación estadísticaTrabajo investigación estadística
Trabajo investigación estadística
 
Tema4 regresionycorrelacion
Tema4 regresionycorrelacionTema4 regresionycorrelacion
Tema4 regresionycorrelacion
 
Correlación de Person
Correlación de PersonCorrelación de Person
Correlación de Person
 
Correlacion
CorrelacionCorrelacion
Correlacion
 
CLASE_REGRESION_Y_CORRELACION_LINEAL_EST.ppt
CLASE_REGRESION_Y_CORRELACION_LINEAL_EST.pptCLASE_REGRESION_Y_CORRELACION_LINEAL_EST.ppt
CLASE_REGRESION_Y_CORRELACION_LINEAL_EST.ppt
 
Investigación tema 5
Investigación tema 5Investigación tema 5
Investigación tema 5
 
Unidad nº 1 regresion y correlacion monica
Unidad nº 1 regresion y correlacion monicaUnidad nº 1 regresion y correlacion monica
Unidad nº 1 regresion y correlacion monica
 
Mi parte de proba de 5.2 hasta el ultimo
Mi parte de proba de 5.2 hasta el ultimoMi parte de proba de 5.2 hasta el ultimo
Mi parte de proba de 5.2 hasta el ultimo
 
Concepto
ConceptoConcepto
Concepto
 
Tema 6
Tema 6Tema 6
Tema 6
 
Regresion estadistica
Regresion estadisticaRegresion estadistica
Regresion estadistica
 
Correlacion lineal 2019
Correlacion lineal 2019Correlacion lineal 2019
Correlacion lineal 2019
 
Spss
SpssSpss
Spss
 
Regresión lineal,ajuste de curva,tipos de regresión lineal
Regresión lineal,ajuste de curva,tipos de regresión linealRegresión lineal,ajuste de curva,tipos de regresión lineal
Regresión lineal,ajuste de curva,tipos de regresión lineal
 
Introducción a la Estadística. Tema 4
Introducción a la Estadística. Tema 4Introducción a la Estadística. Tema 4
Introducción a la Estadística. Tema 4
 
Regresion lineal
Regresion linealRegresion lineal
Regresion lineal
 
Tema IV Tecnicas de Pronostico Grupo 6.pptx
Tema IV Tecnicas de Pronostico Grupo 6.pptxTema IV Tecnicas de Pronostico Grupo 6.pptx
Tema IV Tecnicas de Pronostico Grupo 6.pptx
 
4. estadística descriptiva
4.  estadística descriptiva4.  estadística descriptiva
4. estadística descriptiva
 
Regresion lineal simple
Regresion lineal simpleRegresion lineal simple
Regresion lineal simple
 

Más de Dany Deyvis Rios Garcia (9)

Definiciones de etica trabajo
Definiciones de etica trabajoDefiniciones de etica trabajo
Definiciones de etica trabajo
 
Acordes de guitarra blin 182 all small
Acordes de guitarra blin 182 all smallAcordes de guitarra blin 182 all small
Acordes de guitarra blin 182 all small
 
´Plancontable
´Plancontable´Plancontable
´Plancontable
 
colas de prioridad
colas de prioridad colas de prioridad
colas de prioridad
 
Algebra de baldor solucionario
Algebra de baldor solucionarioAlgebra de baldor solucionario
Algebra de baldor solucionario
 
Funciones vectoriales
Funciones vectorialesFunciones vectoriales
Funciones vectoriales
 
superficies en revolucion
superficies en revolucionsuperficies en revolucion
superficies en revolucion
 
movimiento armónico simple
movimiento armónico simple movimiento armónico simple
movimiento armónico simple
 
Dinamica 2
Dinamica 2Dinamica 2
Dinamica 2
 

Último

UNIDAD 3 ELECTRODOS.pptx para biopotenciales
UNIDAD 3 ELECTRODOS.pptx para biopotencialesUNIDAD 3 ELECTRODOS.pptx para biopotenciales
UNIDAD 3 ELECTRODOS.pptx para biopotencialesElianaCceresTorrico
 
Clase 7 MECÁNICA DE FLUIDOS 2 INGENIERIA CIVIL
Clase 7 MECÁNICA DE FLUIDOS 2 INGENIERIA CIVILClase 7 MECÁNICA DE FLUIDOS 2 INGENIERIA CIVIL
Clase 7 MECÁNICA DE FLUIDOS 2 INGENIERIA CIVILProblemSolved
 
04. Sistema de fuerzas equivalentes II - UCV 2024 II.pdf
04. Sistema de fuerzas equivalentes II - UCV 2024 II.pdf04. Sistema de fuerzas equivalentes II - UCV 2024 II.pdf
04. Sistema de fuerzas equivalentes II - UCV 2024 II.pdfCristhianZetaNima
 
¿QUE SON LOS AGENTES FISICOS Y QUE CUIDADOS TENER.pptx
¿QUE SON LOS AGENTES FISICOS Y QUE CUIDADOS TENER.pptx¿QUE SON LOS AGENTES FISICOS Y QUE CUIDADOS TENER.pptx
¿QUE SON LOS AGENTES FISICOS Y QUE CUIDADOS TENER.pptxguillermosantana15
 
TAREA 8 CORREDOR INTEROCEÁNICO DEL PAÍS.pdf
TAREA 8 CORREDOR INTEROCEÁNICO DEL PAÍS.pdfTAREA 8 CORREDOR INTEROCEÁNICO DEL PAÍS.pdf
TAREA 8 CORREDOR INTEROCEÁNICO DEL PAÍS.pdfAntonioGonzalezIzqui
 
Condensadores de la rama de electricidad y magnetismo
Condensadores de la rama de electricidad y magnetismoCondensadores de la rama de electricidad y magnetismo
Condensadores de la rama de electricidad y magnetismosaultorressep
 
presentacion medidas de seguridad riesgo eléctrico
presentacion medidas de seguridad riesgo eléctricopresentacion medidas de seguridad riesgo eléctrico
presentacion medidas de seguridad riesgo eléctricoalexcala5
 
Controladores Lógicos Programables Usos y Ventajas
Controladores Lógicos Programables Usos y VentajasControladores Lógicos Programables Usos y Ventajas
Controladores Lógicos Programables Usos y Ventajasjuanprv
 
Comite Operativo Ciberseguridad 012020.pptx
Comite Operativo Ciberseguridad 012020.pptxComite Operativo Ciberseguridad 012020.pptx
Comite Operativo Ciberseguridad 012020.pptxClaudiaPerez86192
 
Calavera calculo de estructuras de cimentacion.pdf
Calavera calculo de estructuras de cimentacion.pdfCalavera calculo de estructuras de cimentacion.pdf
Calavera calculo de estructuras de cimentacion.pdfyoseka196
 
ECONOMIA APLICADA SEMANA 555555555555555555.pdf
ECONOMIA APLICADA SEMANA 555555555555555555.pdfECONOMIA APLICADA SEMANA 555555555555555555.pdf
ECONOMIA APLICADA SEMANA 555555555555555555.pdffredyflores58
 
Reporte de simulación de flujo del agua en un volumen de control MNVA.pdf
Reporte de simulación de flujo del agua en un volumen de control MNVA.pdfReporte de simulación de flujo del agua en un volumen de control MNVA.pdf
Reporte de simulación de flujo del agua en un volumen de control MNVA.pdfMikkaelNicolae
 
ECONOMIA APLICADA SEMANA 555555555544.pdf
ECONOMIA APLICADA SEMANA 555555555544.pdfECONOMIA APLICADA SEMANA 555555555544.pdf
ECONOMIA APLICADA SEMANA 555555555544.pdfmatepura
 
CLASe número 4 fotogrametria Y PARALAJE.pptx
CLASe número 4 fotogrametria Y PARALAJE.pptxCLASe número 4 fotogrametria Y PARALAJE.pptx
CLASe número 4 fotogrametria Y PARALAJE.pptxbingoscarlet
 
Voladura Controlada Sobrexcavación (como se lleva a cabo una voladura)
Voladura Controlada  Sobrexcavación (como se lleva a cabo una voladura)Voladura Controlada  Sobrexcavación (como se lleva a cabo una voladura)
Voladura Controlada Sobrexcavación (como se lleva a cabo una voladura)ssuser563c56
 
nom-028-stps-2012-nom-028-stps-2012-.pdf
nom-028-stps-2012-nom-028-stps-2012-.pdfnom-028-stps-2012-nom-028-stps-2012-.pdf
nom-028-stps-2012-nom-028-stps-2012-.pdfDiegoMadrigal21
 
aCARGA y FUERZA UNI 19 marzo 2024-22.ppt
aCARGA y FUERZA UNI 19 marzo 2024-22.pptaCARGA y FUERZA UNI 19 marzo 2024-22.ppt
aCARGA y FUERZA UNI 19 marzo 2024-22.pptCRISTOFERSERGIOCANAL
 
Principales aportes de la carrera de William Edwards Deming
Principales aportes de la carrera de William Edwards DemingPrincipales aportes de la carrera de William Edwards Deming
Principales aportes de la carrera de William Edwards DemingKevinCabrera96
 
Residente de obra y sus funciones que realiza .pdf
Residente de obra y sus funciones que realiza  .pdfResidente de obra y sus funciones que realiza  .pdf
Residente de obra y sus funciones que realiza .pdfevin1703e
 

Último (20)

UNIDAD 3 ELECTRODOS.pptx para biopotenciales
UNIDAD 3 ELECTRODOS.pptx para biopotencialesUNIDAD 3 ELECTRODOS.pptx para biopotenciales
UNIDAD 3 ELECTRODOS.pptx para biopotenciales
 
Clase 7 MECÁNICA DE FLUIDOS 2 INGENIERIA CIVIL
Clase 7 MECÁNICA DE FLUIDOS 2 INGENIERIA CIVILClase 7 MECÁNICA DE FLUIDOS 2 INGENIERIA CIVIL
Clase 7 MECÁNICA DE FLUIDOS 2 INGENIERIA CIVIL
 
04. Sistema de fuerzas equivalentes II - UCV 2024 II.pdf
04. Sistema de fuerzas equivalentes II - UCV 2024 II.pdf04. Sistema de fuerzas equivalentes II - UCV 2024 II.pdf
04. Sistema de fuerzas equivalentes II - UCV 2024 II.pdf
 
¿QUE SON LOS AGENTES FISICOS Y QUE CUIDADOS TENER.pptx
¿QUE SON LOS AGENTES FISICOS Y QUE CUIDADOS TENER.pptx¿QUE SON LOS AGENTES FISICOS Y QUE CUIDADOS TENER.pptx
¿QUE SON LOS AGENTES FISICOS Y QUE CUIDADOS TENER.pptx
 
TAREA 8 CORREDOR INTEROCEÁNICO DEL PAÍS.pdf
TAREA 8 CORREDOR INTEROCEÁNICO DEL PAÍS.pdfTAREA 8 CORREDOR INTEROCEÁNICO DEL PAÍS.pdf
TAREA 8 CORREDOR INTEROCEÁNICO DEL PAÍS.pdf
 
Condensadores de la rama de electricidad y magnetismo
Condensadores de la rama de electricidad y magnetismoCondensadores de la rama de electricidad y magnetismo
Condensadores de la rama de electricidad y magnetismo
 
presentacion medidas de seguridad riesgo eléctrico
presentacion medidas de seguridad riesgo eléctricopresentacion medidas de seguridad riesgo eléctrico
presentacion medidas de seguridad riesgo eléctrico
 
Controladores Lógicos Programables Usos y Ventajas
Controladores Lógicos Programables Usos y VentajasControladores Lógicos Programables Usos y Ventajas
Controladores Lógicos Programables Usos y Ventajas
 
Comite Operativo Ciberseguridad 012020.pptx
Comite Operativo Ciberseguridad 012020.pptxComite Operativo Ciberseguridad 012020.pptx
Comite Operativo Ciberseguridad 012020.pptx
 
Calavera calculo de estructuras de cimentacion.pdf
Calavera calculo de estructuras de cimentacion.pdfCalavera calculo de estructuras de cimentacion.pdf
Calavera calculo de estructuras de cimentacion.pdf
 
ECONOMIA APLICADA SEMANA 555555555555555555.pdf
ECONOMIA APLICADA SEMANA 555555555555555555.pdfECONOMIA APLICADA SEMANA 555555555555555555.pdf
ECONOMIA APLICADA SEMANA 555555555555555555.pdf
 
Reporte de simulación de flujo del agua en un volumen de control MNVA.pdf
Reporte de simulación de flujo del agua en un volumen de control MNVA.pdfReporte de simulación de flujo del agua en un volumen de control MNVA.pdf
Reporte de simulación de flujo del agua en un volumen de control MNVA.pdf
 
ECONOMIA APLICADA SEMANA 555555555544.pdf
ECONOMIA APLICADA SEMANA 555555555544.pdfECONOMIA APLICADA SEMANA 555555555544.pdf
ECONOMIA APLICADA SEMANA 555555555544.pdf
 
CLASe número 4 fotogrametria Y PARALAJE.pptx
CLASe número 4 fotogrametria Y PARALAJE.pptxCLASe número 4 fotogrametria Y PARALAJE.pptx
CLASe número 4 fotogrametria Y PARALAJE.pptx
 
Voladura Controlada Sobrexcavación (como se lleva a cabo una voladura)
Voladura Controlada  Sobrexcavación (como se lleva a cabo una voladura)Voladura Controlada  Sobrexcavación (como se lleva a cabo una voladura)
Voladura Controlada Sobrexcavación (como se lleva a cabo una voladura)
 
nom-028-stps-2012-nom-028-stps-2012-.pdf
nom-028-stps-2012-nom-028-stps-2012-.pdfnom-028-stps-2012-nom-028-stps-2012-.pdf
nom-028-stps-2012-nom-028-stps-2012-.pdf
 
aCARGA y FUERZA UNI 19 marzo 2024-22.ppt
aCARGA y FUERZA UNI 19 marzo 2024-22.pptaCARGA y FUERZA UNI 19 marzo 2024-22.ppt
aCARGA y FUERZA UNI 19 marzo 2024-22.ppt
 
Principales aportes de la carrera de William Edwards Deming
Principales aportes de la carrera de William Edwards DemingPrincipales aportes de la carrera de William Edwards Deming
Principales aportes de la carrera de William Edwards Deming
 
VALORIZACION Y LIQUIDACION MIGUEL SALINAS.pdf
VALORIZACION Y LIQUIDACION MIGUEL SALINAS.pdfVALORIZACION Y LIQUIDACION MIGUEL SALINAS.pdf
VALORIZACION Y LIQUIDACION MIGUEL SALINAS.pdf
 
Residente de obra y sus funciones que realiza .pdf
Residente de obra y sus funciones que realiza  .pdfResidente de obra y sus funciones que realiza  .pdf
Residente de obra y sus funciones que realiza .pdf
 

Regresión y correlación estadística aplicada

  • 1. ÍNDICE. Contenido pág. Introducción………………………………………………………………...….i ÍNDICE........................................................................................................................................1 Contenido pág............1 Introducción………………………………………………………………...….i ...................1 Objetivos......................................................................................................................................3 Objetivo General:.....................................................................................................................3 Objetivos Específicos:.............................................................................................................3 REGRESION Y CORRELACION.............................................................................................4 Capitulo I.................................................................................................................................4 “Definiciones”.........................................................................................................................4 DIAGRAMA DE DISPERSION:.......................................................................................4 REGRESION SIMPLE.......................................................................................................5 CORRELACION SIMPLE.................................................................................................6 Capitulo II................................................................................................................................6 “Ecuación de Regresión Simple”............................................................................................6 CAPITULO III.........................................................................................................................9 “Modelos de Ecuación Regresión Simple”.............................................................................9 Modelo de Línea Recta........................................................................................................9 Modelo de Ecuación Cuadrática.......................................................................................11 Caso Exponencial: Yc = abx.............................................................................................14 Caso Potencial o Polinomial: Yc = axb............................................................................17 Desviación Estándar de Regresión....................................................................................19 CAPITULO IV......................................................................................................................19 “Coeficiente de Correlación”................................................................................................19 Calculo del coeficiente de correlación r............................................................................20 CALCULO DEL COEFICIENTE DE CORRELACIÓN POR EL MÉTODO PRODUCTO - MOMENTO DE KARL PEARSON.......................................................21 CORRELACIÓN DE RANGOS DE SPEARMAN.........................................................23 1
  • 2. CAPITULO V........................................................................................................................28 “Pruebas de Regresión y Correlación”..................................................................................28 Prueba de hipótesis para la correlación de rangos de Spearman......................................34 CAPITULO VI......................................................................................................................35 “Regresión Lineal Múltiple”.................................................................................................35 Desviación estándar de regresión múltiple......................................................................37 Capitulo VII...........................................................................................................................41 “Ejercicios Resueltos”...........................................................................................................41 Ejercicio de diagrama de dispersión.................................................................................41 Regresión con Mínimo Cuadrado.....................................................................................42 Ejemplo de Regresión Simple, Desviación Estándar de Regresión y Coeficiente de Correlación de Pearson......................................................................................................44 Ejercicio de coeficiente de correlación por el método de rangos de Spearman...............47 Ejercicio de regresión múltiple.........................................................................................48 Ejercicio de prueba de hipótesis........................................................................................53 CONCLUSIONES.................................................................................................................54 Bibliografía............................................................................................................................58 2
  • 3. Objetivos. Objetivo General: • Conocer los elementos necesario para la realización de un análisis de regresión y correlación. Objetivos Específicos: • Mostrar los elemento teóricos necesario para establecer un análisis de regresión. • Desarrollar las ecuaciones normales correspondiente al método de mínimos cuadrados. • Establecer la manera de en la que se elije el modelos de regresión a utilizable a partir de la forma que tomen el conjunto de datos. • Analizar las aplicaciones practicas del análisis de regresión. • Aprender a reconocer el procedimiento para el trato de variables con n incógnitas. • Conocer las principales diferencias entre el análisis de regresión y el análisis de correlación. • Aplicar la fórmula prueba de hipótesis tanto para regresión como correlación para la toma de decisiones 3
  • 4. REGRESION Y CORRELACION REGRESION • Definiciones: es el análisis que se utiliza para hacer predicciones. • La regresión mide en forma funcional, a través de una ecuación, la posible relación entre las variables con el objeto de predecir una de ellas en función de la(s) otra(s). CORRELACION • Definiciones: se dirige sobre todo a medir la intensidad o fuerza con que están relacionadas linealmente las variables. • Se utiliza para medir la intensidad de la asociación entre variables numéricas. • Mide la fuerza y la dirección de la relación lineal entre dos variables cuantitativas. Capitulo I “Definiciones” DIAGRAMA DE DISPERSION: • Un diagrama de dispersión muestra la relación entre dos variables cuantitativas medidas para los mismos individuos o grupo de individuos. Los valores de una variable aparecen en el eje de las abscisas y los valores de la otra en el eje de las ordenadas. 4
  • 5. • Si una de las dos variables se pueden considerar una variable explicativa, sus valores se sitúan siempre en eje de las abscisas en el diagrama de dispersión. • La representación gráfica bidimensional en el análisis de regresión que implica una variable dependiente y una variable independiente. Para interpretar un diagrama de dispersión, se identifica primero sus aspectos generales. El aspecto general debe revelar la dirección la forma y la fuerza de la relación entre las dos variables. Si la relación entre las dos variables tiene una dirección clara, decimos que existe una asociación positiva (si valores altos de las dos variables tienden a ocurrir simultáneamente) o una asociación negativa (si valores altos de una variable tienden a coincidir con valores bajos de la otra) Las relaciones lineales, cuando los puntos del diagrama de dispersión se sitúan aproximadamente a lo largo de una recta, son una forma importante de relación entre dos variables. REGRESION SIMPLE. La naturaleza de la relación puede tomar muchas formas, desde las sencillas hasta las extremadamente complicadas. La más sencilla consiste en un línea, es decir, una relación lineal. Se establece que Y es una función de sólo una variable independiente. Se le denomina también regresión bivariada, porque solo hay dos variables. Se represente por la formula. Y = f (X). 5
  • 6. CORRELACION SIMPLE. Es cuando se estudia el grado de asociación o dependencia entre dos variables. Se mide por un coeficiente de correlación, representado por “r”. Capitulo II “Ecuación de Regresión Simple” Es la ecuación de una relación entre dos variables; donde una depende de la otra. Pudiendo tomar distintas formas. En fin, ecuación de regresión simple se refiere a aquella que puede ser representada en dos dimensiones dentro del diagrama de dispersión. La ecuación de regresión de muestra que representa el modelo de regresión de línea recta es: Ŷi = bo + b1Xi en la que Ŷi es el valor predicho de Y para las observaciones i. Con el propósito de predecir valores de Y, esta ecuación requiere la determinación de dos coeficientes: bo (la intersección Y) y b1 (la pendiente). Cuando ya se han obtenido bo y b1 , se conoce la línea recta y puede ser graficada en el diagrama de dispersión. El análisis de regresión lineal simple tiene que ver con la búsqueda de la línea recta que mejor se ajuste a los datos. El mejor ajuste significa que deseamos encontrar la línea recta para la cual las diferencias entre los valores reales (Yi ) y los valores que serian predichos a partir de la línea ajustada de regresión (Ŷi) sean lo mas pequeñas posibles. Debido a que tales diferencias serán positivas y negativas para las diferentes observaciones, minimizamos matemáticamente la expresión en la que Yi = valor real de Y para la observación i Ŷi = valor predicho de Y para la observación i 6
  • 7. Puesto que Ŷi =b0 +b1Xi , se trata de minimizar la expresión Que tiene dos incógnitas, b0 y b1 Una técnica matemática utilizada para determinar los valores de b0 y b1 que mejor se ajuste a los datos observados se conoce como métodos de mínimos cuadrados. Cualquiera de los valores de b0 y b1 que sean diferentes a los determinados por el método de mínimos cuadrados tendrían como resultados una suma mayor de las diferencias al cuadrado del valor real de Y y su valor predicho. Al utilizar el método de mínimos cuadrados obtendremos las siguientes dos ecuaciones conocidas como ecuaciones normales Debemos resolverlas de manera simultanea para obtener b0 y b1 . Ya que se tienen dos ecuaciones con dos incógnitas, podemos resolverlas de la manera siguiente: 7
  • 8. y Examinando las ecuaciones, observamos que se tienen cinco cantidades que deben calcularse con el fin de determinar b0 y b1 . Estas son, n, el tamaño de la muestra; , la suma de los valores X; la suma de los valores cuadrados de X, , la suma de los valores de Y; y , las suma de los productos cruzados de X y Y. La deducción de las formulas normales mediante el método de mínimos cuadrados se realiza de la misma manera para otras funciones de grados superiores, logarítmicas y potencial; con la cualidad de que tiene que estar en dos dimensiones,(x,y); para tres dimensiones requiere análisis adicional. 8
  • 9. CAPITULO III “Modelos de Ecuación Regresión Simple” En el diagrama de dispersión se puede observar un vago indicio del tipo de relación que existe entre las variables. La naturaleza de la relación puede tomar muchas formas, desde las sencillas hasta la mas complejas. La relación mas sencilla consiste en una línea o relación lineal. De acuerdo a la forma que tome dicho diagrama así será la función que se utilizará, de tal forma que describa adecuadamente la relación entre las variables. Los siguientes son algunos ejemplos: Y = a + bx (ecuación lineal) Y = a + bx + cx2 (ecuación cuadrática) Y = abx (ecuación exponencial) Y = axb (ecuación potencial o polinomial) Modelo de Línea Recta El modelo de línea recta puede presentarse como: Yi = β0 + β1Xi + єi En la que β0 = la intersección Y para la población β1 = pendiente de la población єi = error aleatorio en Y para la observación i. 9
  • 10. En este modelo, la pendiente de la recta β1 representa el cambio esperado en Y por unidad de cambio en X; es decir, representa la cantidad que cambia la variable Y (ya sea positiva o negativamente), con respecto a una unidad de cambio particular en X. Por otro lado, la intersección en el eje Y, β0 , representa el valor promedio de Y cuando X es igual a cero. Además, el último componente del modelo, єi , representa el error aleatorio en Y por cada observación i que se presenta. El modelo matemático apropiado que se debe seleccionar está influenciado por la distribución de los valores de X y Y en el diagrama de dispersión. X 1 1.5 2 3 2.5 2.5 3.5 4 4.5 4.5 5 6 6.5 8 7.5 Y 3 4 3 5 4 5 6 6 6.5 7 7 8 8 10 9 Al graficar en el diagrama de dispersión: La forma que toma el diagrama de dispersión (nube de puntos sobre la gráfica), sugiere que se puede aplicar una función lineal. En ese caso es posible utilizar el método de mínimos cuadrados. hay otros métodos además de el métodos mínimos cuadrado; pero es el 10
  • 11. matemáticamente más exacto. La interpretación de este método esta en el capitulo anterior. (para el caso lineal) Xi Yi XY X2 1.0 3 3 1 1.5 4 6 2.25 2.0 3 6 4 3.0 5 15 9 2.5 4 10 6.25 2.5 5 12.5 6.25 3.5 6 21 12.25 4.0 6 24 16 4.5 6.5 29.25 20.25 4.5 7 31.5 20.25 5.0 7 35 25 6.0 8 48 36 6.5 8 52 42.25 8.0 10 80 64 7.5 9 67.5 56.25 62 91.52 440.75 321 91.5 = 15a + 62b 440.75 = 62a + 321b Se tiene que b = 0.97 y a = 2.09. La ecuación de regresión queda así: Y = 2.09 +0.97X; si deseáramos estimar cualquier de Y basta con conocer el de x y viceversa. Si quisiéramos encontrar el valor en Y de X = 7 tendremos: Y = 2.09 + 0.97(7); Y = 8.88. Valor que no aparece en la tabla de valores, pero es la mejor estimación, si los datos siguen la tendencia lineal. Modelo de Ecuación Cuadrática. 11
  • 12. Existe también la regresión curvilínea, y dentro de esta se encuentra el caso parabólico o función de segundo grado ( o cuadrática) que podemos resolverla también con el método de mínimos cuadrados. Calculemos la ecuación de regresión para la siguiente información: Las cantidades pertenecen a la cantidad de una sustancia química en reacción después de “X” minutos. Xi(minutos) 1.0 1.2 1.5 2.0 2.5 2.7 3.0 3.2 3.5 4.0 4.5 5.0 5.2 5.5 6.0 Yi(gramos) 34 32 26 18 18 12 14 12 15 13 18 16 22 26 35 Graficamos: Podemos observar que el diagrama toma forma de parábola, de aquí que ajustaremos una función de segundo grado: Yc = a + bx + cx2 . Para encontrar la ecuaciones normales mediante el método de mínimos cuadrados. Σ(Yi –Yc)2 debe ser un mínimo. Entonces se tiene Σ(Yi – a – bx – cx2 )2 si derivamos con respecto a “a” , “b” y “c” y dichas derivadas las igualamos a cero se obtienen las siguientes ecuaciones normales. 12
  • 13. Calcularemos los datos necesarios para encontrar el valor de las constantes: Xi Yi XY X2 Y X2 X3 X4 1 34 34.0 34.00 1.00 1.000 1.0000 1.2 32 38.4 46.08 1.44 1.728 2.0736 1.5 26 39.0 58.50 2.25 3.375 5.0625 2 18 36.0 72.00 4.00 8.000 16.0000 2.5 18 45.0 112.50 6.25 15.625 39.0625 2.7 12 32.4 87.48 7.29 19.683 53.1441 3.0 14 42.0 126.00 9.00 27.000 81.0000 3.2 12 38.4 122.88 10.24 32.768 104.8576 3.5 15 52.5 183.75 12.25 42.875 150.0625 4 13 52.0 208.00 16.00 64.000 256.0000 4.5 18 81.0 364.50 20.25 91.125 410.0625 5 16 80.0 400.00 25.00 125.000 625.0000 5.2 22 114.4 594.88 27.04 140.608 731.1616 5.5 26 143.0 786.50 30.25 166.375 915.0625 6 35 210.0 1260.00 36.00 216.000 1296.0000 50.8 311 1038.1 4457.07 208.26 955.162 4685.5494 Sustituyendo en el sistema: 311 = 15a + 50.8b + 208.26c (1) 1038.1 = 50.8a + 208.26b + 955.162c (2) 4457.07 = 208.26a + 955.162b + 4685.55c (3) Simultaneando para eliminar la constante a: 311 = 15a + 50.8b + 208.26c (-50.8) 1038.1 = 50.8a + 208.26b + 955.162c (15) - 15798.8 = - 762a – 2580.64b – 10579.608c 15571.5 = 762a + 3123.90b +14327.430c -227.3 = 543.26b + 3747.822c (4) Resolviendo (1) y (3): 311 = 15a + 50.8b + 208.26c (-208.26) 4457.07 = 208.26a + 955.162b + 4685.55c (15) -64768.86 = -3123.9a - 10579.608b - 43372.2276c 66856.05 = 3123.9a + 14327.430b + 70283.25c 2087.19 = 3747.822b + 26911.0224c (5) 13
  • 14. Resolviendo (4) y (5): -227.3 = 543.26b + 3747.822c (-3747.822) 2087.19 = 3747.822b + 26911.0224c (543.26) 851879.9406 = - 2036041.779b – 14046169.75c 1133886.839 = 2036041.779b + 14619682.02c 1985766.779 = 573512.28c c = 1985766.779 ; c = 3.46 573512.28 Sustituyendo el valor c en (4): -227.3 = 543.26b + 3747.822(3.46); -227.3 = 543.26b +12967.46412; b = -13194.76412 ; b = - 24.29 543.26 Sustituyendo los valores de c y b en (1) tenemos 311 = 15a + 50.8(-24.29) + 208.26(3.46) ; 311 = 15a – 1233.932 + 720.5796 a = 824.3524 ; a = 54.96 15 Entonces se tiene que: Yc = a + bx + cx2 ; Yc = 54.96 – 24.29x + 3.46x2 ; con esta ecuación se puede estimar (predecir) cualquier valor de X comprendido entre 1.0 y 6.0. Caso Exponencial: Yc = abx Es recomendado en el calculo de tasa de crecimiento, aunque es viable a cualquier otra variable. El siguiente cuadro contiene la información correspondiente al numero de palabras “Y” que un grupo de secretarias puede llegar a escribir de acuerdo al numero “X” de entrenamiento: Xi 1 2 3 4 5 6 7 8 14
  • 15. Yi 15 18 25 30 35 45 53 70 Siguiendo los valores nos damos cuenta que por cada unidad X hay un cambio mayor que proporcional en Y, pero es engañoso y es preferible graficar. Graficamos: Esta información se ajusta a la función exponencial Yc = abx tenemos: aplicando logaritmos tenemos: log Yc = log abx ; aplicando propiedades de los logaritmos tenemos: log Yc = log a + x log b. debemos minimizar Σ( log Yi – log Yc )2 . Sustituyendo tenemos que: Σ( log Yi – log a – x log b)2 ; Si derivamos con respecto a “a” y “b” e igualamos a cero tenemos las siguientes ecuaciones normales: Realizaremos los calculo necesarios para despejar las a y b. 15
  • 16. Xi Yi log Yi X log Yi X2 1 15 1.1760913 1.1760913 1 2 18 1.2552725 2.5105450 4 3 25 1.3979400 4.1938200 9 4 30 1.4771213 5.9084850 16 5 35 1.5440680 7.7203400 25 6 45 1.6532125 9.9192750 36 7 53 1.7242759 12.0699313 49 8 70 1.8450980 14.7607840 64 36 291 12.0730795 58.2592716 204 Sustituyendo los valores de la tabla en las ecuaciones (1) y (2): 12.0730795 = 8 log a + 36 log b (1) 58.2592716 = 36 log a + 204 log b (2) Multiplicando por - 9 la ecuación (1) y por 2 la ecuación (2): -108.6577155 = - 72 log a – 324 log b 116.5185432 = 72 log a + 408 log b 7.8608279 = 84 log b log b = 7.8608279 = 0.093581284 84 b = 1.240455773. Sustituimos este valor en la ecuación (1): 12.0730795 = 8 log a + 36 log (1.240455773) 12.0730795 = 8 log a +3.368926246 log a = 8.704153254 = 1.088019157; a = 12.24670218. 8 Sustituyendo en Yc = abx ; Yc = (12.24670218)(1.240455773)x 16
  • 17. Si necesitáramos X= 2; Yc = (12.24670218)(1.240455773)2 ; Yc = 18.84; no es exactamente el valor de la tabla (18) pero es una buena aproximación considerando que podremos estimar cualquier valor entre 1 y 8. Caso Potencial o Polinomial: Yc = axb A la función Yc = axb le aplicamos logaritmos y tenemos; log Yc = log a + b log x. Como Σ ( log Yi – log Yc)2 debe se un mínimo. Al derivar con respecto a “a” y “b” tenemos: Ahora ajustaremos una función potencial a un conjunto de datos, correspondientes al consumo y al ingreso( en unidades monetarias constantes) de cierta comunidad. Denominaremos X al ingreso y Y al consumo. X 2.0 2.1 2.4 2.4 2.5 2.8 3 Y 1.6 1.7 2.0 2.1 2.2 2.5 2.6 17
  • 18. En el siguiente cuadro están contenidos las columnas con las cálculos necesarios para la aplicación de las ecuación de regresión. Xi Yi log X log Y log X. log Y (log X)2 2.0 1.6 0.301030 0.204120 0.061446 0.090619 2.1 1.7 0.322219 0.230449 0.074255 0.103825 2.4 2.0 0.380211 0.301030 0.114455 0.144561 2.4 2.1 0.380211 0.322219 0.122511 0.144561 2.5 2.2 0.397940 0.342423 0.136264 0.158356 2.8 2.5 0.447158 0.397940 0.177942 0.199950 3.0 2.6 0.477121 0.414973 0.197992 0.227645 2.705890 2.213154 0.884865 1.069517 Sustituyendo en las ecuaciones normales: 2.213154 = 7 log a + 2.705890 b 0.884865 = 2.705890 log a + 1.069519b Resolviendo las ecuaciones mediante el método de eliminación por sustitución llegamos a los siguientes valores: 18
  • 19. b = 1.2472; log a = -0.166 ; a = 0.68234. la ecuación de la regresión es Yc = 0.68234X1.2472 Podemos encontrar cualquier valor ente 2.0 y 3.0 inclusive. Para X = 2 ; Yc mediante la formula seria 1.62, y en la tabla esta 1.6; hay una diferencia de 0.02 que es la precisión que se pierde en el redondeo y es el riesgo que se corre al estimar. Para X = 3; Yc = 2.69; en cambio en la tabla (datos de origen) es 1.7. y de la misma manera nos es posible calculara cualquier valor de X dentro del intervalo. A pesar de que los diagramas de dispersión pueden ser especialmente útiles en la determinación de la forma matemática de la relación, existen procedimiento estadísticos más sofisticados a fin de determinar el modelo más adecuado para un conjunto de variables, y no tener que deducir “a ojo” cual es el que mejor se adapta, ya que no siempre es obvio el modelo a seguir. Tal como fue en el caso anterior, en el que la gráfica a simple vista describe una relación lineal, y hasta podría confundirse con una relación exponencial. En fin, la decisión se vuelve más difícil en un intervalo corto con pocas observaciones. Desviación Estándar de Regresión. La desviación estándar de regresión llamada también “error estándar de estimación” se define como la desviación típica de las desviaciones de los valores de Yi con respecto a Yc en formula queda así: Un método simplificado para calcular el error estándar de regresión lo da la siguiente formula. CAPITULO IV “Coeficiente de Correlación” 19
  • 20. Coeficiente de correlación. Ya hemos dicho anteriormente, que la correlación mide la intensidad o fuerza con que están relacionadas las variables y será medida por el coeficiente ´´r´´ de correlación. Tipos de correlación. Según el número de variables que estudiamos, la correlación puede ser: a) Correlación simple. Cuando de estudia el grado de asociación o dependencia entre dos variables. b) Correlación múltiple: cuando se estudia el grado de asociación que puede existir entre tres o mas variables; una de ellas dependiente y el resto independiente. c) Correlación parcial: En el caso de la correlación múltiple, es la cuantificaron del grado de asociación neta entre dos variables, una vez eliminad estadísticamente la influencia de las otras variables independientes. Atendiendo la naturaleza de la función y según el tipo de ecuación y regresión, la correlación puede ser rectilínea, parabólica exponencial potencial etc. a) Correlación directa o positiva: cuando ocurren aumentos o disminuciones en una variable ocurren también en la otra variable ya que su relación es directamente proporcional. (Dependientes, independiente) b) Correlación inversa o negativa: esta relación es inversamente proporcional entre las variables (dependientes, independiente) Calculo del coeficiente de correlación r 20
  • 21. Existen diversos coeficientes que miden el grado de correlación, adaptados a la naturaleza de los datos. El más conocido es el coeficiente de Pearson (introducido en realidad por Francis Galton), estudiaremos los siguientes métodos: • Con el método producto - momento de Karl Pearson. • Correlación de rangos de Spearman CALCULO DEL COEFICIENTE DE CORRELACIÓN POR EL MÉTODO PRODUCTO - MOMENTO DE KARL PEARSON Desarrollado por Karl Pearson a finales de siglo, y algunas veces se le llama el coeficiente de correlación producto-momento de Pearson. Representado con una r, el coeficiente de correlación puede asumir cualquier valor entre -1 y 1; es decir, -1 ≤ r ≤ 1 Un valor de r = -1 indica una relación negativa perfecta entre X y Y, tal como se observa en la figura (a). Todas las observaciones quedan en línea recta perfecta con una pendiente negativa. Por tanto, X y Y se moverán en direcciones opuestas. La figura (b) muestra una relación positiva perfecta entre X y Y con r = 1. Como se anotó anteriormente, en toda relación entre dos variables existe la posibilidad de que exista alguna variación alrededor de la recta de regresión. Esto se observa en las figuras (c) y (d), las cuales muestran relaciones fuertes pero menos perfectas. En ambos casos el valor absoluto de r se aproxima a 1. Por el contrario, la figura (e) muestra muy poca o ninguna relación entre X y Y, y r se aproxima a cero. En general, entre mayor sea el valor absoluto de r, más fuerte será la relación entre X y Y. 21 0 1 2 3 4 0 1 2 3 4 Poca o ninguna relación; no se puede dibujar una recta de ajuste r ≈ 0 (e) 0 1 2 3 4 5 0 1 2 3 4 Fuerte Relación Positiva r está cerca de +1 Y = f(X) (c) 0 1 2 3 4 5 0 1 2 3 4 Fuerte Relación Negativa r está cerca de-1 Y = f(X) (d) 0 0,5 1 1,5 2 2,5 0 0,5 1 1,5 2 2,5 Relación Negativa Perfecta r = -1 Y = f(X) (a) 0 1 2 3 4 5 0 1 2 3 4 Relación Positiva Perfecta r = 1 Y = f(X) (b)
  • 22. Karl Pearson llegó a la siguiente formula abreviado par calcular el coeficiente ´´r´´ de correlación. Podemos observar en la formula que teniendo las columnas necesarias para calcular la ecuación de regresión, y agregando nada más la columna de los cuadrados de la variable dependiente Y, se tiene la información necesaria para calcular el valor r. En el siguiente ejemplo calcularemos el coeficiente de correlación con el método estudiado anteriormente. Calcular el coeficiente de correlación para la siguiente información relativa a los tiempos de calentamientos (X), en minutos y los espesores de oxido (Y) de cierta pieza, medidos de Angstrom1 . 1 Angstrom: medida de longitud del sistema métrico, equivale a 0.1 de milimicra. Una milimicra = 0.000000001 metro. O también Angstrom = 0.000000001 22
  • 23. Xi 10 20 30 40 50 60 80 90 Yi 3.2 7.5 7.0 8.2 14.0 16.4 15.1 20 Solución: En el siguiente cuadro aparecen todos los cálculos pertinentes para calcular el valor de r. X Y 10 3.2 32 100 10.24 20 7.5 150 400 56.25 30 7.0 210 900 49.00 40 8.02 328 1,600 67.24 50 14.0 700 2,500 196.00 60 16.4 984 3,600 268.96 80 15.1 1,208 6,400 228.01 90 20.0 1,800 8,100 400.0 380 91.4 5,412 23,600 1,275.7 Cálculo de r por el método producto – momento: = 0.94 CORRELACIÓN DE RANGOS DE SPEARMAN. El método de Pearson requiere valores numéricos precisos y el supuesto de normalidad en la distribución de tales valores. En muchos casos, tal medida numérica no 23
  • 24. puede ser posible, y puede no existir confirmación para el supuesto de normalidad. En tales casos, no puede utilizarse el método de Pearson No obstante, se puede todavía clasificar sistemáticamente u ordenar las observaciones. Esta clasificación ordinal permite medir los grados de correlación entre dos variables utilizando el coeficiente de correlación de rangos de Spearman que es una prueba no paramétrica que mide la asociación o interdependencia entre dos variables continuas. Para calcular rs, los datos son ordenados y reemplazados por su respectivo orden. El estadístico rs viene dado por la expresión: Donde: rs = Coeficiente de correlación ordinal o por rangos (llamado comúnmente correlación por rangos de Spearman. di =es la diferencia entre las clasificaciones para cada observación. n = es el tamaño de la muestra. La interpretación de coeficiente de Spearman es igual que la del coeficiente de correlación de Pearson. Oscila entre -1 y +1, indicándonos asociaciones negativas o positivas respectivamente, 0 cero, significa no correlación pero no independencia. Entonces, entre más se acerca el valor de rs a ± 1, más relación hay entre las variables expresadas en rangos. Es importante aclarar que cuando dos o más observaciones están igualadas en orden, a cada una se le asigna una media de los rangos. Veamos primero un ejemplo donde no hay empates: El año pasado, Amco Tech, un fabricante de microchips para computador en Estados Unidos, contrató a siete técnicos en computación. A los técnicos se les practicó un examen diseñado para medir sus conocimientos básicos. Después de un año de servicio, a su supervisor se le pidió clasificar el 24
  • 25. desempeño laboral de cada técnico. Los puntajes del examen y las calificaciones del desempeño para los siete empleados aparecen en la siguiente tabla: Técnicos Puntaje en el examen Clasificación del desempeño J. Smith 82 4 A. Jones 73 7 D. Boone 60 6 M. Lewis 80 3 G. Clark 67 5 A. Lincoln 94 1 G. Washintong 89 2 Vale la pena observar que aunque el puntaje del examen es una medida cuantitativa de los conocimientos de los técnicos, la clasificación del desempeño es simplemente una medida ordenada por el supervisor para saber cuáles técnicos se estaban desempeñando laboralmente bien. Por tanto, el jefe de operaciones decide utilizar la correlación de rangos de Spearman para determinar si existe alguna relación entre los puntajes del examen y el desempeño laboral. El director debe desarrollar primero la clasificación para los puntajes del examen. Tales clasificaciones, junto con algunos cálculos necesarios aparecen en la tabla siguiente: Técnicos Puntaje en el examen Clasificación en la prueba (X) Clasificación por el desempeño (Y) X – Y= di (X-Y)2 = di 2 J. Smith 82 3 4 -1 1 A. Jones 73 5 7 -2 4 D. Boone 60 7 6 1 1 M. Lewis 80 4 3 1 1 G. Clark 67 6 5 1 1 A. Lincoln 94 1 1 0 0 G. Washington 89 2 2 0 0 28 28 0 Σdi 2 = 8 Cálculo de r por el método de rangos de Spearman: 25
  • 26. Sustituyendo la formula: Observaciones: 1. La suma de los rangos de ambas variables es siempre igual. 2. La suma de las diferencias entre los rangos es siempre cero. 3. El coeficiente de correlación r de Pearson de los rangos de las variables siempre es igual al coeficiente de correlación rs de Spearman. 4. El coeficiente de correlación de r de Pearson calculado en las variables originales es diferente del coeficiente rs de Spearman. Comprobación de la observación 3: Técnicos Clasificación en la prueba (X) Clasificación por el desempeño (Y) XY X2 Y2 J. Smith 3 4 12 9 16 A. Jones 5 7 35 25 49 D. Boone 7 6 42 49 36 M. Lewis 4 3 12 16 9 G. Clark 6 5 30 36 25 A. Lincoln 1 1 1 1 1 G. Washintong 2 2 4 4 4 28 28 136 140 140 26
  • 27. Veamos otro ejemplo. La siguiente información corresponde al número de semanas de entrenamiento y el puesto (rango) que ha obtenido un grupo de corredores de seguros de la PALIC de acuerdo al volumen de ventas que han realizado durante seis meses: Vendedor Semanas de entrenamiento (X) Volumen de ventas expresadas en rango (Y) A. Villeda 5 10 L. Flores 10 4 M. Henríquez 10 6 E. Escapini 30 1 J. Pérez 25 3 H. Bonilla 16 5 S. Miranda 20 2 A. Armas 8 8 D. Jiménez 6 9 G. Mira. 4 7 De acuerdo con estos resultados, ¿cree que vale la pena que los vendedores de la compañía se preocupen por recibir entrenamiento para aumentar sus ventas? Solución: Un índice para contestar la pregunta puede ser el conocimiento del coeficiente de correlación por rangos de Spearman, que nos puede decir el grado de relación existente entre entrenamiento y volumen de ventas. Para calcular el coeficiente por rangos tenemos que expresar las semanas de entrenamiento en rangos, dando el rango 1 a quien tiene más entrenamiento. A continuación se presentan, en el siguiente cuadro, los rangos correspondientes y el resto de columnas para llevar a cabo el cálculo de rs. Vendedor Entrenamiento en rango (X) Volumen de ventas en rango (Y) X – Y= di (X-Y)2 = di 2 A. Villeda 10.00 9.00 1.0 1.00 L. Flores 4.00 5.50 -1.50 2.25 M. Henríquez 6.00 5.50 0.50 0.25 E. Escapini 1.00 1.00 0.00 0.00 J. Pérez 3.00 2.00 1.00 1.00 27
  • 28. H. Bonilla 5.00 4.00 1.00 1.00 S. Miranda 2.00 3.00 -1.00 1.00 A. Armas 8.00 7.00 1.00 1.00 D. Jiménez 9.00 8.00 1.00 1.00 G. Mira. 7.00 10.00 -3.00 9.00 55.00 55.00 0.00 17.50 Observemos que hay un empate en el quinto y sexto puesto (L. Flores y M. Henríquez); por eso les asignamos a cada uno la medio de los rangos, o sea (5+6)/2 = 5.50. De acuerdo a este resultado, vale la pena el entrenamiento para mejorar las ventas. CAPITULO V “Pruebas de Regresión y Correlación” Prueba de hipótesis en la regresión lineal simple. Una parte importante para evaluar la adecuación del modelo de regresión lineal simple consiste en probar hipótesis estadísticas alrededor de los parámetros del modelo y en elaborar ciertos intervalos de confianza. Para verificar si un modelo lineal, de la forma y = A + Bx, la variable independiente x afecta la respuesta y, el parámetro B debe de ser diferente de cero. De otra forma se tendría y = A, y no habría una contribución lineal de la variable x a la regresión. El procedimiento para inferir la verificación consiste en comprobar el sistema de hipótesis. 28
  • 29. La elaboración de la prueba se basa en los estimadores mínimos cuadráticos a y b de la recta estimada Ŷ = a+ bx, y en sus propiedades. Señalemos, sin demostración, las siguientes propiedades de b las cuales se generalizan a todos los estimadores de los mínimos cuadrados. Propiedades de b • b es un estimador insesgado de B: E(b) = B. • Un estimador insesgado de la varianza de Y es: • La varianza de b es: • La desviación estándar de b es: • B sigue una distribución normal con E(b) y Var(b). • El estadístico sigue una ley de student con v = n – 2 grados de libertad. (Al número de observaciones se le resta 2 debido a que se han estimado los parámetros a y b de la recta de regresión). Una vez encontrado el error estándar se utiliza la siguiente ecuación: 29
  • 30. Prueba de hipótesis para correlación. Esta prueba es equivalente a la prueba de hipótesis dada en la prueba de hipótesis de regresión. La manera de calcular el error estándar para este tipo de prueba es: Una vez determinada la ecuación del error estándar para la correlación se aplica la siguiente formula: A continuación presentaremos un ejemplo que abarca la prueba de hipótesis tanto para regresión como para correlación Acciones del Banco Central de Reserva para frenar la inflación. Después de aproximadamente seis años de expansión continuada, la economía salvadoreña comenzó a presentar signos de presiones inflacionarias en el verano de 1988. Un articulo de La Prensa Gráfica, describió los esfuerzos del Banco Central por calmar estos aires inflacionistas. Esto debía hacerse restringiendo el suministro de dinero a través del aumento de la tasa de descuento que la banca comercial debe pagar al Banco Central. En febrero de 1988, Carlos Ernesto Euceda, vicepresidente del Banco Central de Reserva, dijo en una audiencia, que las acciones referente a las tasas de descuento podrían predecirse sobre la base de la tasa de los fondos estatales, la cual es el costo que los banco cobran entre ellos para los créditos de un día para otro. Los controladores de la reserva argumentaron que la tasa de los fondos no estaban sirviendo para predecir adecuadamente los cambios en la tasa de descuento, y que este comportamiento deficiente dificultaba a los inversionistas intentar predecir qué nivel de la tasa de interés permitiría el Banco Central. 30
  • 31. A continuación se presentan los valores para la tasa de los fondos del Banco Central y la tasa de descuento desde mediados de 1987 hasta mediados 1988. ¿Sustentan estos datos los cargos de los controladores de la reserva? Fecha Tasa de Fondos Estatales Tasa de Descuento (%) Junio de 1987 8.0 7.5 Julio de 1987 7.5 7.5 Agosto de 1987 7.0 7.0 Septiembre de 1987 6.5 6.5 Octubre de 1987 6.0 6.0 Noviembre de 1987 6.0 5.5 Diciembre de 1987 7.0 5.5 Enero de 1989 6.0 5.5 Febrero de 1988 7.0 5.5 Marzo de 1988 7.5 5.5 Abril de 1988 7.0 6.0 Mayo de 1988 7.5 6.5 Total: 83.0 74.5 Debido a que Carlos Euceda argumentó que la tasa de los fondos federales podría explicar la conducta de la tasa de descuento, los fondos estatales se ven como variable independiente. La naturaleza de la relación entre la tasa de fondos estatales y la tasa de descuento es analizable a través del análisis de regresión y correlación. X = 83 Y = 74.5 YΣ Σ Σ 2 = 469.5 XY = 518.5Σ = 6.21 XΣ 2 = 579 n = 12 SCx = XΣ 2 –( X)Σ 2 /n = 4.916666667 SCy = YΣ 2 –( Y)Σ 2 /n = 6.72917 SCxy = XY –( X) ( Y)/n =3.20833Σ Σ Σ b1 = SCxy/ SCx b1 = 0.6525 31
  • 32. b0 = 1.6949 Por tanto la ecuación es: El coeficiente de determinación es: = 0.3111 r = 0.56 Los controladores de la reserva tienen razón en su critica de la tasa de los fondos estatales como predictor de los cambios en la tasa de descuento. Solo el 31% de los cambios en la tasa de descuento se explican mediante los cambios en la tasa de los fondos estatales. Una medida de bondad de de ajuste que refleja la capacidad de la tasa de los fondos estatales para predecir la tasa de descuentos es el error estándar de estimación. El error estándar de estimación es: = 4.63033 CME = SCE/(n-2) = 4.63033/(12-2) = 0.463033 Se = 0.6808 Típicamente, el estimado de la tasa de descuento está en error en 0.68 de un punto porcentual. Una prueba de significancia del coeficiente de correlación sería muy útil en este punto. Sea el nivel de confianza 95%. Con 10 grados de libertad el valor crítico de t es por tanto ±2.228. Las hipótesis son: 32
  • 33. Regla de decisión: “no rechazar la Ho si t está entre ±2.228. De lo contrario rechazar”. = 0.56/0.2627 = 2.13 La hipótesis nula no debe rechazarse. A pesar del hallazgo muestral de una relación positiva entre las tasas de fondos estatales y la tasa de descuento, no se puede rechazar la hipótesis de que no hay correlación. El coeficiente de correlación muestral no es significativo al nivel del 5%. Una prueba de la significancia del coeficiente de regresión de b1= 0.6525424 nos es útil, y sabio. La prueba se realizará al nivel del 99%. Con 10 grados de libertad, el valor critico t es ±3.169. Regla de decisión: “No rechazar si t está entre ±3.169. De lo contrario rechazar.” En donde: La hipótesis de que β1= 0 no debe rechazarse. El valor para b1 no es significativamente diferente de cero al nivel del 1%. Hay muy poca confianza o nada de confianza en la tasa de los fondos estatales como predictor de la tasa de descuento. Sería 33
  • 34. imprudente de parte de los inversionistas confiar en los fondos estatales como indicador del comportamiento de la tasa de descuento y de otras tasas de interés. Prueba de hipótesis para la correlación de rangos de Spearman. Con frecuencia se desea comprobar la hipótesis de que el coeficiente de correlación poblacional. ρ es cero. Es decir, se desea determinar la probabilidad de que a pesar de los hallazgos de la muestra que sugiere una relación entre el puntaje y la clasificación, en realidad no existe tal relación y ρ= 0. Para las muestras pequeñas (n<30). La distribución de rs no es normal, ni la prueba t es apropiada. Para ello debemos utilizar la tabla que el anexo al final de este trabajo, es la tabla de correlación de rangos de Spearman. Si n>30, la distribución de rs se aproxima a la normalidad con una media igual a cero, y con una desviación estándar de . El estadístico de prueba Z es: 34
  • 35. CAPITULO VI “Regresión Lineal Múltiple” Anteriormente se analizo como una sola variable explicativa podría utilizarse para predecir el valor de la variable dependiente. Se considera como mas poderoso podría volverse el modelo si se utilizaran mas variables explicativas. Esto es precisamente lo que el modelo de regresión lineal múltiple hace, permitiendo incorporar dos o más variables independientes. El modelo de regresión múltiple con k variables independientes se expresa como: En donde (ß) son los coeficientes de regresión y (ε) es el termino de error aleatorio. Se estima el modelo utilizando los datos muéstrales así: 35
  • 36. En donde Ŷ es el valor estimado para la variable dependiente y bi son los estimados para los coeficientes poblacionales (β) y bi se denominan coeficientes parciales ( o netos) de regresión y tienen la misma interpretación que en la regresión simple. Por tanto, bi,, es la cantidad por la cual Y1 cambiara si X1 cambia en una unidad asumiendo que todas las otras variables independientes se mantienen constantes. Además de los supuestos establecidos en la regresión simple se establecen dos mas: el primer supuesto requiere que el numero de observaciones n , exceda el numero de variables independientes k, en por los menos 2, en la regresión múltiple hay k+1 parámetros por estimar: los coeficientes para las variables independientes k más el intervalo del intercepto. Por tanto los grados de libertad relacionados con el modelo son g.l= n – (K + 1). Si se va a retener incluso un grado de libertad, n debe exceder a k en por lo menos 2, de manera que n – (K + 1) es por lo menos 1. El segundo supuesto involucra la relación entre las variables independientes requiere que ninguna de las variables independientes este linealmente relacionada. Por ejemplo, si X1= X2 + X3, o quizá X1 = 0.5 X2, entonces una relación lineal existiría entre dos o mas variables independientes y surgiría un problema grave. Este problema es la multicolinealidad. Y este existe si dos o más variables independientes están relacionadas linealmente. La multicolinealidad puede hacer que los signos algebraicos de los coeficientes sean opuestos a lo que la lógica pueda dictar, mientras que incrementan bastamente el error estándar de los coeficientes. A los parámetros (βj), j= 0. 1,……, k, se les denomina coeficientes de regresión. A los parámetros (βj), j= 0. 1, ……,k, a veces se les denomina coeficientes parciales de regresión , debido a que describen el efecto parcial de una variable independiente cuando las otras variables independientes del modelo se conservan constantes. Los modelos de regresión lineal múltiple a menudo se utilizan como funciones de aproximación. Esto es, se desconoce la verdadera relación funcional entre y y x1, x2,. . . . . , 36
  • 37. xK, pero sobre ciertos intervalos de valores de las variables independientes el modelo de regresión lineal es una aproximación adecuada. Desviación estándar de regresión múltiple Se define como la desviación típica de las desviaciones de los valores de X1 con respecto a los valores calculados Xic y se denota con el símbolo S1.23, donde el primer subíndice indica la variable dependiente, y los subíndices secundarios indican las variables independientes. Se calcula de una manera similar a la desviación estándar de la regresión simple, o sea: También existe un método abreviado para calcular este valor, sin calcular los valores de ( X1 – X1c ) 2 : La desviación estándar de regresión múltiple se usa como medida de la bondad de las estimaciones basadas en la ecuación de regresión; entre menor sea el valor de S1.23 menor es la dispersión de los valores de X1 Con respeto a los valores estimados X1c ; y por lo tanto, las estimaciones de la variable dependiente serán más confiables ; es decir, más parecidas a los valores reales de X1. Para calcular los estadísticos bo, b1, b2,…., br, basta con extender el procedimiento de minimización de la suma de los cuadrados de los errores aleatorios 37
  • 38. Las derivadas parciales de la SCE con respecto a cada uno de los estadísticos bj, j = 0,1,….r, igualadas a cero, originan un sistema de r+ 1 ecuaciones con r+ 1 incógnitas. Cuando solo hay dos variables independientes, el sistema completo de ecuaciones normales es como sigue: Ahora se presenta un sistema de ecuaciones normales para r 2 De acuerdo con esta ecuación, todas las sumatorias, aun cuando no tengan subíndices, se extienden a todas las observaciones desde i= 1, 2,.. n. Ahora bien el problema se reduce a resolver el sistema de ecuaciones normales para b0, b1, y b2 y obtener la recta de regresión: Nota que par r = 3 variables independientes, se debe resolver un sistema de r + 1 = 4 ecuaciones con 4 incógnitas, y así sucesivamente para r= 4, r= 5, etc. Por ende, es necesario aplicar algebra matricial para resolver los sistemas de ecuaciones normales resultante. 38 Ecuaciones normales para una regresión múltiple con r variables independientes.
  • 39. Ejemplo: Investigar si el salario mensual (Y) que devenga un trabajador, de una compañía depende directamente del numero de años de educación formal que ha recibido (X1 ), y del tiempo que lleva trabajando en la empresa (X2 ). Determinar una ecuación lineal de Y sobre X1 y X2 para la siguiente muestra de 9 trabajadores (Y: en miles de dólares X1 y X2 : en años ). Y 11.2 12.3 7.6 11.6 4.3 6.9 6.5 2.5 13.1 X1 16 18 17 18 13 16 16 8 16 X2 18 20 4 10 10 6 2 20 25 Solución: Para darle solución a este ejercicio primero se hacen las sumatorias y las multiplicaciones respectivas de la siguiente manera: y X1 X2 X1 y X1 2 X1 X2 X2 y X2 2 11.2 16 18 179.2 256 288 201.6 324 12.3 18 20 221.4 324 360 246 400 7.6 17 4 129.2 289 68 30.4 16 11.6 18 19 208.8 324 342 220.4 361 4.3 13 10 55.9 169 130 43 100 6.9 16 6 110.4 256 96 41.4 36 6.5 16 2 104 256 32 13 4 2.5 8 20 20 64 160 50 400 13.1 16 25 209.60 256 400 327.5 625 76 138 124 1238.5 2194 1876 1173.3 2266 Se harán las sustituciones de los valores encontrados en la ecuación de los mínimos cuadrados para después llevarlas a la forma de la ecuación lineal estimada que se ha detallado anteriormente como resultado el sistema de ecuaciones nos queda de la siguiente manera: 76 = 9 bo + 138 b1 + 124 b2 39
  • 40. 1238.5= 138 b0 + 2194 b1 +1876 b2 1173.5= 124 b0 + 1876 b1 +2266b2 Las solución a este sistema de ecuaciones mediante el método de simultáneo o de eliminación arroja los siguientes resultados: bo = - 11.0592, b1 = 1.0267 , b 2 = 0.2730 Por lo tanto, la ecuación de regresión viene dada por: Ý = - 11.0592 + 1.0267 x1 + 0.2730 x2 Si X1 = X2 (un trabajador cuyos años de trabajo con la empresa coinciden con los años de educación formal) la variable x1 es la que contribuye más a una respuesta salarial 40
  • 41. Capitulo VII “Ejercicios Resueltos” Ejercicio de diagrama de dispersión. Dado los siguientes datos para X y Y X: 28, 54, 67, 37, 41, 69, 76. Y: 14, 21, 36, 39, 18, 54, 52. a. Haga un diagrama de dispersión para los datos: b. ¿Qué sugieren los datos sobre una relación entre X y Y? c. Hacer una recta para aproximar la línea de relación. Sugieren una relación lineal positiva. 41
  • 42. Regresión con Mínimo Cuadrado. Un economista del Departamento de Recursos Humanos de Florida State está preparando un estudio sobre el comportamiento del consumidor. Él recolectó los documentos que aparecen en miles de dólares para determinar si existe una relación entre el ingreso del consumidor y los niveles de consumo. Determine cuál es la variable dependiente. Consumidor 1 2 3 4 5 6 7 8 9 10 11 12 Ingreso 24.3 12.5 31.2 28.0 35.1 10.5 23.2 10.0 8.5 15.9 14.7 15 Consumo 16.2 8.5 15 17 24.2 11.2 15 7.1 3.5 11.5 10.7 9.2 a. Haga un diagrama de dispersión para los datos. b. Calcule e interprete el modelo de regresión. ¿Qué le dice este modelo sobre la relación entre el consumo y el ingreso?, ¿Qué proporción de cada dólar adicional que se gana se invierte en consumo? c. ¿Qué consumo pronosticaría el modelo para alguien que gana US$27,500.00? Solución: 42
  • 43. a. Se determina que la variable dependiente es el consumo, debido a que las personas consumiran dependiendo del nivel de ingreso que posean; elaborando el diagrama de dispersión, se establece que posee un relación lineal positiva b. Cálculo de la regresión. Consumidor Ingresos (X) Consumo (Y) XY X2 Y2 1 24.3 16.2 393.66 590.49 262.44 2 12.5 8.5 106.25 156.25 72.25 3 31.2 15.0 468.00 973.44 225.00 4 28.0 17.0 476.00 784.00 289.00 5 35.1 24.2 849.42 1,232.01 585.64 6 10.5 11.2 117.60 110.25 125.44 7 23.2 15.0 348.00 538.24 225.00 8 10.0 7.1 71.00 100.00 50.41 9 8.5 3.5 29.75 72.25 12.25 10 15.9 11.5 182.85 252.81 132.25 11 14.7 10.7 157.29 216.09 114.49 12 15.0 9.2 138.00 225.00 84.64 Σ 228.9 149.1 3,337.82 5,250.83 2,178.81 43
  • 44. Este modelo indica que si se mantiene constante el consumo, por cada aumento de $1,000.00 en el ingreso, se pronostica que las personas aumentaran su consumo en $558.00 c. Pronostico para alguien que gana US$27,500.00 Se pronostica que si obtiene un ingreso de $27,500.00, invertirá en consumo $15,346.77. Ejemplo de Regresión Simple, Desviación Estándar de Regresión y Coeficiente de Correlación de Pearson. La siguiente información corresponde a la temperatura (°F) y a la dilatación de un determinado material: Temperatura 87 50 75 90 55 54 68 85 82 80 45 58 66 Dilatación 5.0 2.2 4.1 5.4 2.8 3.0 3.6 4.9 4.1 4.2 2.0 2.7 3.1 44
  • 45. a. Determinar la ecuación de regresión, usando como variable dependiente la que usted estime conveniente. b. Calcule la desviación estándar de regresión. c. Calcule el coeficiente de correlación. a. Se determina que la variable dependiente es la dilatación, debido a que determinado material se dilatará dependiendo de la temperatura en que se encuentre; entonces: Temperatura (X) Dilatación (Y) XY X2 Y2 87 5.0 435.0 7,569.0 25.00 50 2.2 110.0 2,500.0 4.84 75 4.1 307.5 5,625.0 16.81 90 5.4 486.0 8,100.0 29.16 55 2.8 154.0 3,025.0 7.84 54 3.0 162.0 2,916.0 9.00 68 3.6 244.8 4,624.0 12.96 85 4.9 416.5 7,225.0 24.01 82 4.1 336.2 6,724.0 16.81 80 4.2 336.0 6,400.0 17.64 45 2.0 90.0 2,025.0 4.00 58 2.7 156.6 3,364.0 7.29 66 3.1 204.6 4,356.0 9.61 895 47.1 3,439.2 64,453.0 184.97 Sustituyendo en las ecuaciones normales: Igualando a en la primera ecuación. 45
  • 46. Igualando b en la segunda ecuación. Igualando las ecuaciones para encontrar b Encontrando a: Finalmente la ecuación de regresión queda así: b. Desviación estándar de la regresión Aplicando la formula abreviada: c. Coeficiente de correlación Aplicando el coeficiente de correlación de producto- momento: 46
  • 47. Ejercicio de coeficiente de correlación por el método de rangos de Spearman. La siguiente información corresponde a los costos y a las ventas, en miles de colones de 12 tiendas: Tiendas Costos (X) Ventas (Y) 1 11 19 2 10 15 3 14 20 4 13 14 5 12 16 6 20 33 7 21 32 8 15 18 9 22 29 10 18 22 11 19 23 12 16 20 Calcular el coeficiente de correlación por rangos. Tienda s Costos (X) Ventas (Y) Rango X Rango Y (X-Y)= di (X-Y)2 =di 2 1 11 19 11 8 3 9 2 10 15 12 11 1 1 3 14 20 8 6.5 1.5 2.25 4 13 14 9 12 -3 9 5 12 16 10 10 0 0 6 20 33 3 1 2 4 7 21 32 2 2 0 0 8 15 18 7 9 -2 4 9 22 29 1 3 -2 4 10 18 22 5 5 0 0 11 19 23 4 4 0 0 12 16 20 6 6.5 -0.5 0.25 78 78 0 33.5 47
  • 48. Cálculo de r por el método de rangos de Spearman: Sustituyendo la formula: Finalizando con el valor del coeficiente Ejercicio de regresión múltiple. Suponga que una compañía grande de productos de consumo desea medir la efectividad de los diferentes medios de propaganda en la promoción de sus productos. En especial, se van a estudiar dos tipos de medios de promoción: propaganda en radio y televisión y propaganda en periódicos (incluyendo el costo de los cupones de descuento). Se seleccionó una muestra de 22 ciudades cuya población es aproximadamente igual para realizar un estudio durante un periodo de prueba de un mes. A cada ciudad se le asignó un nivel de gastos específico para publicidad de radio y televisión y para publicidad en periódicos. Se registraron las ventas del producto (en millones de dólares) durante el mes de prueba, junto con los niveles de gastos de los medios, y se tuvieron los siguientes resultados: Ciudad Ventas (miles de dólares) Publicidad en radio y televisión (miles de dólares) Publicidad en periódicos (miles de dólares) Ciudad Ventas (miles de dólares) Publicidad en radio y televisión (miles de dólares) Publicidad en periódicos (miles de dólares) 1 973 0 40 12 1,577 45 45 2 1,119 0 40 13 1,044 50 0 3 875 25 25 14 914 50 0 4 625 25 25 15 1,329 55 25 5 910 30 30 16 1,330 55 25 6 971 30 30 17 1,405 60 30 7 931 35 35 18 1,436 60 30 8 1,177 35 35 19 1,521 65 35 9 882 40 25 20 1,741 65 35 10 982 40 25 21 1,866 70 40 48
  • 49. 11 1,628 45 45 22 1,717 70 40 Lleve a cabo un análisis de regresión lineal múltiple. Basándose en los resultados obtenidos: a. Establezca la ecuación de regresión múltiple. b. Interprete el significado de las pendientes en este problema. a. Calculo de la ecuación de regresión múltiple: Establecemos las ventas (Y) como la variable dependiente y los gastos en publicidad en radio y televisión (X1) y los gastos en periódicos (X2) como las variables independientes a continuación se elabora una tabla con los datos necesarios para establecer la ecuación de regresión múltiple: Ciudad Y X1 X2 YX1 YX2 X1 X2 X1X2 1 973 0 40 0 38,920 0 1,600 0 2 1,119 0 40 0 44,760 0 1,600 0 3 875 25 25 21,875 21,875 625 625 625 4 625 25 25 15,625 15,625 625 625 625 5 910 30 30 27,300 27,300 900 900 900 6 971 30 30 29,130 29,130 900 900 900 7 931 35 35 32,585 32,585 1,225 1,225 1,225 8 1,177 35 35 41,195 41,195 1,225 1,225 1,225 9 882 40 25 35,380 22,050 1,600 625 1,000 10 982 40 25 39,280 24,550 1,600 625 1,000 11 1,628 45 45 73,260 73,260 2,025 2,025 2,025 12 1,577 45 45 70,965 70,965 2,025 2,025 2,025 13 1,044 50 0 52,200 0 2,500 0 0 14 914 50 0 45,700 0 2,500 0 0 15 1,329 55 25 73,095 33,225 3,025 625 1,375 16 1,330 55 25 73,150 33,250 3,025 625 1,375 17 1,405 60 30 84,300 42,150 3,600 900 1,800 18 1,436 60 30 86,160 43,080 3,600 900 1,800 19 1,521 65 35 98,865 53,235 4,225 1,225 2,275 20 1,741 65 35 113,165 60,935 4,225 1,225 2,275 21 1,866 70 40 130,620 74,640 4,900 1,600 2,800 22 1,717 70 40 120,190 68,680 4,900 1,600 2,800 49
  • 50. Σ 26,953 950 660 11264,040 851,410 49,250 22,700 28,050 Sustituyendo en las ecuaciones: (1) (2) (3) La solución a este sistema de ecuaciones mediante el método de eliminación por sustitución arroja los siguientes resultados: Igualando b0 en la ecuación 1: Igualando b0 en la ecuación 2: Simultaneando: 50
  • 51. (4) Igualando b0 en la ecuación 1: Igualando b0 en la ecuación 3: Simultaneando: (5) Igualando b1 en la ecuación 4: Igualando b1 en la ecuación 5: Simultaneando: 51
  • 52. Encontrando b1, sustituyendo b2 en la ecuación 4. Encontrando b0, sustituyendo b1 y b2 en la ecuación 1. Por lo tanto, la ecuación de regresión viene dada por: b. Este modelo indica que manteniendo constante los gastos de publicidad en periódicos, por cada aumento de $1,000.00 en la publicidad en radio y televisión, se predice que las ventas aumentaran en $ 13,092.90. Manteniendo los costos de publicidad en radio y 52
  • 53. televisión constantes, por cada aumento de $1,000.00 en publicidad en periódico, se predice que las ventas aumentaran en $ 16,797.20. Ejercicio de prueba de hipótesis. Los licenciados de estadística de la UES están realizando un estudio para analizar la relación entre los ingresos de las personas y sus niveles de consumo. 11 consumidores reportaron las siguientes cifras en miles de dólares. Al nivel de significancia del 5%, ¿El coeficiente de correlación de rangos de Spearman sugiere alguna relación? Ingresos 97 58 69 47 58 38 91 67 68 47 48 Consum o 55 63 54 37 45 38 71 52 53 37 37 Solución: Se plantean las siguientes hipótesis. La hipótesis nula implica que no existe relación, y la alternativa expresa la existencia de relación. En la siguiente tabla están contenidos los datos necesarios para la aplicación de la formula de correlación por rangos de Spearman. Como los datos son 11 se establecen 11 rangos donde al mayor “97” se le asigna 1 y al menor 11. 53
  • 54. Ingreso Consumo Rango X Rango Y di di 2 97 55 1 3 -2 4 58 63 6.5 2 4.5 20.25 69 54 3 4 -1 1 47 37 9.5 10 -0.5 0.25 58 45 6.5 7 -0.5 0.25 38 38 11 8 3 9 91 71 2 1 1 1 67 52 5 6 -1 1 68 53 4 5 -1 1 47 37 9.5 10 -0.5 0.25 48 37 8 10 -2 4 66 66 0 42 Se utiliza la formula siguiente Ya que n<30 se utiliza la tabla del anexo al final de este trabajo. Cuando n = 11 y a = 0.05, resulta un valor critico de 0.6091. Interpretación: Dado que el valor calculado es mayor que el critico se rechaza la hipótesis nula, implica que si existe relación entre ingreso y consumo. CONCLUSIONES • En relación a la regresión, surgen dificultades en relación a la elección al tipo de modelo a elegir; es recomendable no realizar la elección del modelos de regresión a simple vista, ya que incluso un cambio en la escala en el diagrama de dispersión 54 Zona de no rechazo a = 0.025a = 0.025 -0.6091 0.6091 0.8091
  • 55. ocasiona un efecto visual que resulta engañoso. Para el caso, grupo de datos que se puede adaptar a una distribución exponencial, si dicha tendencia es poco marcada, podría suponerse que sigue una relación lineal o incluso potencial. Hay casos que hasta la gráfica resulta de utilidad limitada debido a que la gráfica no muestra de manera clara la tendencia que sigue. Cabe recordar que un error en el método aplicado no proporcionar los resultado óptimos. • La regresión es una técnica que ayuda a la predicción, pero no dice exactamente lo que ocurrirá, dice lo que podría ocurrir, nos propicia elementos de juicio para decidir, pero lo que ocurrirá con cualquier fenómeno no estará bajo el control total. Se puede estimar ventas por cierta cantidad, que será útil para establecer cuanto producir, mas no son garantías suficientes de que se darán la estimaciones. • Las predicciones minimizan los riesgos de errar en las decisiones, mas no los elimina; ningún método o técnica podrá librarnos de nuestras malas decisiones. Además de que el proceso de obtención de los datos a utilizar como insumo para la predicción podría ser subjetivo, y por ende no se lo suficientemente certero en los resultados. • Sujetarse demasiado en las predicciones, no es fundamento para el desarrollo creativo y decisiones novedosas, esto en el caso de las empresa, ya que no es base suficiente como para decidir quien esta siendo mas novedoso en el tiempo. Es decir que se ve limitado en el campo cualitativo. • La regresión al considerar de manera funcional las variables en estudio vuelve más objetiva la manera de generar los elementos (ecuación) para predecir valores dentro del intervalo. 55
  • 56. • Lo más importante para determinar el coeficiente de correlación dependerá de los datos que se estén estudiando, ya que si lo que se estudia son datos cuantitativos, la mejor forma de determinarlos sería por el método de momento-producto de Karl Pearson; pero si los datos en estudio son cualitativos, no paramétricos, el mejor método es el método de rangos de Spearman. • Es posible realizar una aproximación del método de Spearman al método de Pearson, una vez se le han asignado rangos a las observaciones, si no se realiza no será adecuada la aproximación. Con esto es posible el tratamiento de datos cualitativos con métodos cuantitativos. • En la medida en que aumenta el numero de variables en la regresión múltiple, más complicado y largos se vuelven las operaciones, siendo necesario incluso la aplicación de matrices, métodos computarizados y no siempre se tiene programas disponibles o para su utilización es necesaria especialización. • Para comprobar si el modelo de regresión simple es el adecuado se puede aplicar pruebas de hipótesis estadísticas alrededor de los parámetros del modelo y en elaborar ciertos intervalos de confianza. Esto es como una manera de encontrar posibles errores en la elección del modelo aplicado, y volver lo más acertada posible la regresión. • El método matemáticamente más exacto para encontrar la función de la regresión es el método de mínimos cuadrados. 56
  • 57. Anexo I Tabla de correlación de rangos de Spearman 57
  • 58. Bibliografía • Bonilla, Gildaberto, Estadística II métodos prácticos de inferencia estadística, 2da edición, UCA editores, San Salvador, El Salvador 1992. • Berenson, Mark L y Levine, M. David, Estadística básica en administración, sexta edición, Prentice Hall Hispanoamericana S.A, México 1996 • Heldebrand, K. David y Ott. Lyman, Estadística aplicada a la administración y a la economía, Pearson Prentice Hall, Tercera edición, México 1998. • Hines , W. William y Montgomery, C.Douglas, Probabilidad y Estadística para Ingeniería y Administración, CECSA, México 1987. • Moore, S. David, Estadística Aplicada Básica, España 1995 • Salguero Hernández, José Alberto, Elementos de Probabilidad y Estadística, UCA editores, San Salvador, El Salvador, 2002. • Spiegel, Murray R, Teoría y Problemas de Probabilidad y Estadística Mc. Grawhill, México 2004. • Webster, L.Allen, Estadística Aplicada a los Negocios y la Economía, Tercera Edición, Mc Grawhill, Colombia 2000 • www.wikipedia.org • www.monografias.com 58