1. CLASE DÍA 24 DE SEPTIEMBRE DE 2009
• Medidas de dispersión. La heterogeneidad, la variabilidad, la dispersión es muy
importante, pues sin ella no hay nada que estudiar. Lo más basto que se podría
estudiar de ella, el primer indicador de heterogeneidad, es el rango.
Sin embargo, no gusta mucho porque es sensible a observaciones muy extremas. La
solución podría ser quedarnos con el rango intercuartílico, que propone quitar los
extremos más aberrantes, el 25% de cada extremo. Entonces:
Q1 Q2=Me Q3
25% 50% 25%
0 36218
RI= Q3 - Q1
Aún no representa mucho. Para medir la heterogeneidad podríamos calcular la
media y luego ver cada dato cuánto se aleja de ella. Después, sumar las desviaciones.
Pero tampoco nos resulta eficaz porque siempre nos dará resultado cero.
Otra forma de calcular la dispersión sería la Desviación Absoluta Media (DAM):
∑ │PESO ─ μ│
DAM=
N
La manera que utilizamos en clase fue otra. Los valores negativos de la desviación
(peso-media en el ejemplo de los pesos) desaparecen elevando la cantidad al cuadrado.
Además, penaliza las grandes desviaciones. Después, se haría la media, el promedio de
la suma del cuadrado de las desviaciones de las observaciones, la varianza. El
problema es que el resultado obtenido vendría dado en unidades2, como kg2, luego para
eliminar esas magnitudes sacaríamos la raíz cuadrada. Esto sería la desviación
estándar. Visualizado en fórmulas:
VARIANZA (σ2): DESVIACIÓN ESTÁNDAR (σ):
√σ2= σ
Es imposible tener una varianza negativo porque la suma al cuadrado será siempre
positiva. Si la varianza fuera cero, todos los datos serían iguales.
σ
El coeficiente de variación será:
µ
• Hemos hecho en R el ejercicio de todo esto. Primero se le indica al programa los
valores que vamos a darle al conjunto con el que vamos a trabajar (ej.: pes<-
c(50,60,38,12)), luego calculábamos la media, la diferencia entre esas dos
magnitudes (la desviación), lo elevábamos al cuadrado…
• Por último, vimos la paradoja de Simpson o efecto Yule-Simpson con ejemplos
como el de la universidad que, aparentemente, discriminaba chicas y con el de los
jugadores de béisbol. Recuerdo las tablas:
∗ Primer ejemplo: las solicitudes aceptadas y rechazadas en dos departamentos.
2. Dept A Dept B
Aceptado Rechazado Aceptado Rechazado
Hombres 250 50% 250 50% Hombres 1 10% 9 90%
Mujeres 9 90% 1 10% Mujeres 100 20% 400 80%
Total
Aceptado Rechazado
Hombres 251 49% 259 51% 510
Mujeres 109 21% 401 79% 510
Los hombres solicitan en Dpto A. Las mujeres solicitan más en Dpto B. El Dpto A tiene
muchas más tasa de aceptación.
Como los hombres tienden a ir al Dpto A, donde la tasa de admisión es mayor, parece
que hay discriminación hacia la mujer.
∗ Segundo ejemplo: números de veces que se le lanza la pelota al jugador de
béisbol y número de veces que acierta a darle.
1995 1996
Lanzamientos Bateos % Lanzamientos Bateos %
Derek 12 48 25,0% 183 582 31,4%
David 104 411 25,3% 45 140 32,1%
DAVID MEJOR QUE DEREK DEREK MEJOR QUE DAVID
1995-1996
Lanzamientos Bateos %
195 630 31,0%
149 551 27,0%
DEREK MEJOR QUE DAVID
En 1995 (mala temporada) David jugó mucho y en 1996 fue Derek quién jugó más.
• Empezamos el tema tres, estadística descriptiva para dos variables cualitativas.
Ejemplo: género y aceptación de las solicitudes. Se hace un análisis de tablas de
contingencia para ver si las variables tienen relación entre ellas o si cada una va por
su lado. El ejercicio planteado era si tenía alguna relación la clase social con el
barrio donde se vive.