Distribución de probabilidad y muestras en estadística

Clase 5: Población y muestra
Clase 5: Población y muestra

Distribución de probabilidad
● Informa sobre la distribución de probabilidad en
cada nivel de la variable
● Los datos obtenidos provienen de un proceso
aleatorio que genera sucesos que siguen una
distribución de probabilidad determinada.
● Al realizar un histograma, se puede aproximar la
forma de la distribución de probabiliad original.

● Variable discreta
– La altura de la barra
da la probabilidad
– El área bajo la curva
da la probabilidad
del intervalo

● Variable continua
– El área bajo la curva me da la probabilidad de un
intervalo de valores

● Muchas veces, las probabilidades de ocurrencia
siguen ciertos patrones
● La probabilidad de los sucesos se distribuye en
los diferentes sucesos
– Distribuciones de probabilidad
● Algunas distribuciones son muy frecuentes
– Veremos algunas de las más importantes

● Conocer la distribución de probabilidad es útil
– Para poder predecir la frecuencia de mediciones
futuras
– Para estimar parámetros de la población (lo veremos
en las clasess de inferencia)
– Para elegir el tipo de análisis estadísticos que vamos
a utilizar

● Constructo teórico
– Útil para entender los datos
– Son modelos de los datos
– Cómo se distribuyen las probabilidades en un “caso
ideal”, en un modelo teórico
● Aproximación empírica
– Podemos aproximar la distribución utilizando las
frecuencias relativas empíricas, a partir de los datos
– Un histograma permite visualizar la distribución que
mejor se correspondería con los datos.

Mundo teórico
Mundo empírico
Distribución
teórica
Distribución
empírica
Suponemos que la
empírica es un “reflejo”
de la teórica
Binomial, normal,
chi cuadrado, etc.

Distribuciones de probabilidad
● Distribución Uniforme
● Todos los niveles son igualmente probables
● Ejemplo:
Variable categórica:
Estado civil
CASADO SOLTERO DIVORCIADO
0
0,05
0,1
0,15
0,2
0,25
0,3
0,35

● Ejemplo:
Variable numérica
discreta:
Puntuaciones en
escala
del 1 al 5
1 2 3 4 5
0
0,05
0,1
0,15
0,2
0,25

● Ejemplo:
Variable numérica
continua:
Puntuación global
entre 0 y 80
0 20 40 60 80
0
0,05
0,1
0,15
0,2
0,25

● Distribución Binomial
● Para variables dicotómicas:
– Categóricas de dos casos: SI vs NO, PRESENTE vs
AUSENTE, etc.
● Que tenga lentes o no, que tenga hijos o no, que tenga la
patología X o no, etc.
– Una probabilidad p de que haya un “éxito”, o evento SI.
– p(SI)=p
● ¿Cuántos “éxitos” tengo en N intentos?

● Distribución Binomial
● Para variables dicotómicas:
– Ejemplo: que un psicólogo tomado al azar sea mujer
– La frecuencia relativa de “mujer” en el Censo de
Psicólogos es 0,85
● Probabilidad: p(mujer)=0,85
– Si tengo 100 psicólogos/as en un salón, ¿cuántos de ellos
son mujeres? ¿Cuál es la probabilidad de que haya
exactamente 50, 60, 70, 80, etc., que sean mujeres?
– Éstas son las probabilidades que tienen distribución
binomial.

Distribución Binomial
● Ejemplo: Suceso: “Psicóloga mujer”.
– Frecuencia en la población: p(mujer)=0,85
– ¿Cuál es la chance de que tenga k psicólogas mujeres en
un grupo de 100 psicólogos/as?
Fórmula de distribución Binomial
p(k)
k
k=85

● Ejemplo: Suceso: “Psicóloga mujer”..
– Frecuencia en la población: p(mujer)=0,85
– ¿Cuál es la chance de que tenga k psicólogas mujeres en un grupo
de 100 psicólogos/as?
Algunas veces (~11%)
voy a tener 85 mujeres.
Muchas veces (89%) voy
a tener más o menos de
85 mujeres..
Un ~15% voy a tener 81 o
menos..
Otro ~15% voy a tener 89
o más...
p(k)
k
k=85

● La forma de la Distribución, depende del parámetro p
– Parámetro: cantidad que determina los valores y/o la
forma de una distribución.
Media: pN Varianza: pN(N-1)
k
Media=2
Varianza=38
Desvío estándar=6,16
p(k)
N=20
P=0,1
N=20
P=0,7
Media=14
Varianza=266
Desvío estándar=16,31

● Distribución Normal
● Para variables continuas:
● Es la distribución más frecuente, y la más importante
● Muchas variables en psicología siguen esta distribución
● Muchos análisis estadísticos están hechos para variables
que se distribuyen normalmente
● Hay casi toda una clase dedicada a esta distribución

Distribución Normal
● La forma de la Distribución, depende de dos parámetros
– Media (μ): El valor promedio
– Varianza (σ2)
μ μ+σ
μ-σ

● La forma de la Distribución, depende de dos parámetros
– Media (μ): El valor promedio
– Varianza (σ2)
Igual media
Diferentes varianzas
Diferentes medias
Igual varianza

● Dos parámetros: media (μ) y desvío estándar (σ)
μ
μ: media de la distribución (mú)
σ: desvío de la distribución (sigma)

Distribución normal
● X~N( , ): X tiene distribución normal de media
μ σ
mu y desvío estándar sigma
μ

Distribución normal
● X~N( , ):
μ σ
– Pico de la curva: .
μ
– Entre - y + : aprox 68% probabilidad
μ σ μ σ
μ

● Ejemplo:
– Prueba Uruguaya de Matemática (PUMA)
– Aplicada a niños de 1er año de escuela pública
– A través de Tablets del Plan Ceibal

● Ejemplo:
– Prueba Uruguaya de Matemática (PUMA)
– Aplicada a niños de 1er año de escuela pública
– Ejercicios: ordenar dígitos, sumas, restas… puntuación
→
global

● Puntajes globales de la prueba PUMA
Puntajes
Frecuencia

Mundo teórico
Mundo empírico
Distribución
teórica
Distribución
empírica

Empírica vs Teórica
● Distribución empírica
– La distribución obtenida a partir de los datos
● Distribución teórica
– Distribución “ideal” de los datos
– Relacionada con la fuente de los datos

? descripción
inferencia
μ,σ X,S
?
X~N(μ,σ)
Empiria
Teoría

Población
● Niños de 8 años
– Variable: Palabras leídas por minuto
● Si mido la variable en todos los niños de 8 años
– Conozco la distribución de la población
– No tengo incertidumbre en la distribución
● Conozco ,
μ σ
● Censos
– Miden exhaustivamente toda la población

Muestra
● Si la población es muy grande…
– No puedo medirla (por costo)
– Es infinita… (repetir medidas en el tiempo)
● Necesito tomar una muestra de la población
– No conocer los parámetros con exactitud
– Puedo hacer estimaciones
– Manejar incertidumbre en las estimaciones
– La media X y el desvío S no van a ser iguales a y
μ σ

Distribución muestral
● ¿Cuántas muestras puedo obtener de una
población?
● N: tamaño poblacional
● n: tamaño muestral
● Número de muestras:
– K = Arreglos de N tomados de n
– N! / (N-n)!
– N=5, n=2 , K=25
– N=50, n=10, K~370000000000000000

Distribución poblacional
● Tengo N=5 sujetos
● X vale: 1,2,3,4 y 5 para los 5 sujetos
● La distribución poblacional de X:
● =3
μ
● = 2
σ

● Tengo N=5 sujetos, tomo muestras de n=2
● Hay 25 muestras posibles
– (1,1), (1,2), (1,3)… (3,1), (3,2) …. (5,5)
– ¿Cómo son la media y el desvío de cada muestra?
– Muestra 1: (1,1) X=1, S=0
→
– Muestra 2: (1,2) X=1.5, S=0,7
→
– Muestra 3: (1,3) X=2, S=1,41
→
– …..
– Muestra 25: (5,5) 5, S=0
→

● Hay 25 muestras posibles
– ¿Cómo son la media y el desvío de cada muestra?
– Yo no sé qué muestra tengo…
– La media muestral puede ser tomada como una
variable aleatoria
● ¿Cómo se distribuyen las medias de las
muestras?
– Distribución muestral

● Cómo se distribuyen las medias de las
muestras?
– Distribución muestral
● μmedia=3
● σmedia =
1

● La media X, es en sí misma, una variable
aleatoria
● En algunas muestras, la media será más alta, en
algunas más baja
● La distribución muestral de la media, me dice
cómo se distribuyen las medias de las muestras
● ¿Cómo es la distribución muestral de la media?

Teorema central del límite
● El TCL nos dice que:
– La distribución de la suma de variables aleatorias
converge a una distribución normal.
● Y… que la distribución muestral de la media
– Es una distribución normal
– La media de la distribución
es la media poblacional
● μmedia=μ
●
σmedia = /
σ √n

Distribución muestral de la media
● X~N( ,
μ σX)
– La media: , la media de
μ la población
– “La media de los promedios es igual a la media de la
población”

Distribución muestral de la media
● X~N( ,
μ σX)
– La media: , la media de
μ la población
– El desvío:
– Es el desvío de la población divido raíz del
tamaño muestral
– La dispersión disminuye al aumentar el
tamaño muestral

Distribución vs. Distr. muestral
● Distribución
μ
σ
μmedia=μ
σmedia=σ/√n
de la media
σmedia es el error típico o error
estándar

Ejemplo
● Mu=100, sigma = 20, n=20, 200 muestras
Media = 99.7, std=4,36
(20/√20)=4,47

Ejemplo
Media = 99.8, std=3,27
(20/√40)=3,16

Ejemplo
Media = 100, std=2,21
(20/√80)=2,23

Ejemplo
Media = 99.9, std=1,5
(20/√160)=1,58

Ejemplo
Media = 99.9, std=0,98
(20/√320)=1,12

Uso práctico
● No conozco la verdadera μ
● Tengo una estimación muestral X
● ¿Es una buena estimación?
● Depende de la dispersión verdadera y el
σ
tamaño de la muestra n

Uso práctico
● Si es chico y
σ n es grande:
● El desvío de la distribución muestral es
bajo.
=20, n=100,
σ
σmedia=2
=20, n=400,
σ
σmedia=1
● El 68% de las veces, la media
muestral X va a estar a menos
de 2 de la media real
●
El 68% de las veces, la media
muestral X va a estar a
menos de 1 de la media real

Uso práctico
● Podemos construir un intervalo en torno a
X
– Y confiar que la media μ va a estar en él
real μ va a estar a menos de
σmedia de la media muestral X
real X va a estar a menos de
2σmedia de la media muestral X
μ
X-2σmedia X X+2σmedia
μ
X-σmedia X X+σmedia

Entonces
● Podemos construir un intervalo en torno a
X
– Y confiar que la media μ va a estar en él
S/√n de la media muestral X
μ
2S/√n de la media muestral X
μ
X-S/√n X X+S/√n X-2S/√n X X+2S/√n

Error estándar y tamaño muestral
● A medida que n aumenta,
disminuye
● Pero “cada vez disminuye menos”

Proporciones y probabilidades
● ¿Cuántos niños con dislexia hay en Uruguay?
● Si no puedo hacer un censo, puedo tener una
muestra.
● Muestra de tamaño n.
● Niños con dislexia, k.
● Proporción: k/n.
● ¿Cuál es la proporción de niños con dislexia en
Uruguay?

Proporciones
● Suceso: “niño con dislexia”.
● Probabilidad de ocurrencia: p [prevalencia]
● ¿Cuál es la probabilidad de encontrar al azar k
niños con dislexia en n niños?
● Distribución binomial: Bin(n,p)
k = pn, σk = √pn(n-1)

Proporciones
● Proporción de niños con dislexia: k/n
● Distribución de k/n: Bin(n,p)
k/n = p, σk/n = √p(n-1)
● La proporción de niños con dislexia en la
muestra permite estimar la prevalencia de
dislexia….
● ¿Es un buen estimador?

Por ejemplo
● p=0.07 (prevalencia del 7%) n=100
k/
n

Por ejemplo
k/
n

¿Cómo se reduce el error estándar?
● p=0.07 (prevalencia del 7%)
n
σk/n

? descripción
inferencia
μ,σ X,S
?
X~N(μ,σ)

Intervalos de confianza
● No estimo un valor único del parámetro
● Defino un intervalo numérico que confío que
contenga al parámetro
● Ej.: Para la media (clase anterior):
μ
X-2S/√n X X+2S/√n

● Un rango o intervalo de valores
● La probabilidad asociada a que el parámetro
esté en él (nivel de confianza)
μ

● Un rango o intervalo de valores
ICθ = θ ± Errormáx
ICμ = X ±S/√n
● La probabilidad asociada a que el parámetro esté
en él (nivel de confianza)
μ

● ¿Cómo construyo un intervalo de confianza para
un estimador?
● A partir del conocimiento de la distribución
muestral (teórica) del estimador
●

Intervalo de confianza de la media
● Estimador de la media:
– Media muestral: X
●
Error (estimado): Smedia=S/√n
– IC68%: X ± S/ n
√
– IC95%: X ± 1,96*S/ n
√
– IC99,7%: X ± 3*S/ n
√

● ¿Cómo construyo un intervalo de confianza para un
estimador?
● A partir del conocimiento de la distribución muestral
(teórica) del estimador
● No siempre la distribución es normal
– No siempre se aplica la regla del 1,96*S/ n
√
● Lo es para la media y la proporción
(aproximadamente)
– En realidad es una distribución t de Student
– El multiplicador no es 1,96, sino t1-α, que depende de n

Intervalo de confianza de la
proporción
● Estimador:
– Proporción muestral P=k/n
●
Error (estimado): Sprop=S/√n = √P(1-P)/n
– IC68,2%: P ± √P(1-P)/n
– IC95%: P ± 1,96* P
√ (1-P)/n
– IC99,7%: P ± 3* P
√ (1-P)/n

Graficar ICs
● Gráfico de barras: media +- IC

Graficar ICs
● Típico gráfico
media IC95% media IC95%

Graficar CIs
● Gráfico de barras: media +- CIs

Prueba Uruguaya de Matemática

Ejemplos
● Informe Facultad de Economía

Evolución del número de casos y de tasas de incidencia de
hepatitis A en Uruguay, 2005-2010

C
o
n
t
r
a
s
t
e
d
e
H
i
p
ó
t
e
s
i
s
C
o
n
t
r
a
s
t
e
d
e
H
i
p
ó
t
e
s
i
s

Hipótesis
● Afirmación acerca de los datos
● Especulación, evidencia dictará su veracidad
● Hipótesis científicas son falseables.
● La evidencia empírica puede rechazarlas.

Ejemplos de Hipótesis
● Los TR de los niños son menores a los de los
adultos
● La probabilidad de cometer un fallo es mayor en
el grupo de los adultos
● Los hombres son más altos que las mujeres
● La media del grupo A es menor que la del grupo
B
● La distribución de los TR es Normal.

Hipótesis
● ¿Cómo verificar la veracidad de una hipótesis?
● Mediante un Test de hipótesis
– También llamado Contraste de hipótesis
● Utiliza los datos para apoyar o no la veracidad
de una hipótesis.
● Implica evaluar el apoyo estadístico de los datos
a una Hipótesis nula

Hipótesis nula: H0
● La hipótesis a evaluar: H0
● Hipótesis alternativa
– H1: no H0
● Ejemplos
– H0: datos con distribución normal |vs.| H1: datos no
tienen dist. normal
– H0: los TRs de niños son menores a los de los adultos |vs.|
H1: TRs de niños mayores o iguales a los de los adultos

Test de hipótesis
● A partir de los datos, obtener un estadístico
– Variable aleatoria derivada
– La distribución muestral del estadístico bajo la H0 es
conocida
● Se evalúa la probabilidad de obtener un
estadístico mayor o menor al obtenido
● Se realiza una decisión en base a ese valor:
– Rechazar H0
– No rechazar H0

Ejemplo
● ¿Tengo una moneda fiel, o sesgada?
● H0: moneda fiel, p(C)=0.5
● H1: moneda sesgada, p(C) no es 0.5
● Estadístico:
– Proporción de monedas cara en N tiradas.
● Distribución muestral del estadístico:
– Binomial(k/n,0.5)

Ejemplo
● En 10 tiradas, me salieron 7 caras.
– ¿Es una moneda fiel?
– Estadístico X: 7/10 = 0,7
– p(X>0,7) = ?

Ejemplo
● H0: p=0.5 n=10
X=k/n

Ejemplo
● H0: p=0.5 n=10
X=k/n
– p(X>0,7)...

Ejemplo
● En 100 tiradas, me salieron 70 caras.
– ¿Es una moneda fiel?
– Estadístico X: 7/10 = 0,7
– p(X>0,7) = ?

Ejemplo
● H0: p=0.5 N=100
tiradas
X=k/n
– p(X>0,7)...

Zona crítica y significancia
● ¿Cuándo debo rechazar H0?
● Cuando la prob. del estadístico bajo H0 es menor
a un valor de significancia establecido
● Significancia: α (alfa)
● p-valor o p-value: prob.
● p-valor < α : Rechazo H0
● p-valor > α: No rechazo H0

● P(X|H0)
X
Probabilidad que el
estadístico sea mayor al
valor encontrado dada H0
Zona crítica o de rechazo
Valor crítico de X

● P(X|H0)
X Zona crítica o de rechazo
Valor crítico de X
Esto pasa muy
pocas veces

Ejemplo
● H0: p=0.5 N=100
tiradas
X=k/n
Valor crítico de X
α

● P(X|H0)
X
Probabilidad que el
estadístico sea mayor al
Valor crítico de X
Valor crítico de X
Probabilidad que el
estadístico sea menor al

● P(X|H0)
X Zona crítica o de rechazo
Valor crítico de X
Valor crítico de X
Esto pasa muy
pocas veces
Esto pasa muy
pocas veces

● P(X|H0)
Valor crítico de X
Valor crítico de X
E[X]
95% de probabilidades
α=0,05

Ejemplo
● Muestra de 225 niños, medidas de Coeficiente
Intelectual (CI), contexto crítico
● Por cómo se construye el test, la media poblacional
del test de CI es de 100 puntos.
● La media de la muestra es 98 puntos (desvío 15).
● ¿Será que la muestra es representativa de la
población general?
● ¿O la muestra proviene de una población específica
(contexto crítico) que tiene una media menor?

Ejemplo
● Para testear si la media X de una muestra de
una distribución normal es un valor dado (μ)
● Puedo usar el test de t de Student
● H0: La media es μ; H1: La media no es μ
● El estadístico de este test se parece a Z:
– t = X-μ = 98 - 100
S/√n 15 /15

Ejemplo
– t = X-μ = 98 – 100 = -2
S/√n 15 /15
Distribución
de t bajo H0
P-valor:
p=0.023
¿Entonces?
Depende de α

Ejemplo
– t = X-μ = 98 – 100 = -2
S/√n 15 /15
P-valor:
p=0.023
¿Entonces?
Depende de α
Si α vale 0.05 - p< α : rechazo H0
Si α vale 0.01 - p>α : NO rechazo H0
Si α vale 0.001 - p>α : NO rechazo H0

Errores
● Cuatro posibles resultados de un contraste:
● ¿Cuáles son las probabilidades asociadas?
H0 cierta H0 falsa
Rechacé H0| Error tipo I OK
No Rechacé H0 OK Error tipo II
H0 cierta H0 falsa
Rechacé H0 α 1-α
No Rechacé H0 1-β β

Errores
● Cuatro posibles resultados de un contraste:
● ¿Cuáles son las probabilidades asociadas?
Moneda fiel Moneda
sesgada
Pensé sesgada Error tipo I OK
Pensé fiel OK Error tipo II
H0 cierta H0 falsa
Rechacé H0 α 1-α
No Rechacé H0 1-β β

¿Qué hago entonces?
● Se intenta reducir el error tipo I, eligiendo un α
pequeño
● Se pone el peso en sólo rechazar H0 cuando
estoy bien seguro
● A veces voy a no rechazar cuando debería (pero
no estoy seguro…)
– Error tipo II, prob β
● Pero se prioriza evitar el error tipo I, rechazar
cuando no debo !!!

¿Qué pasa entonces con ?
β
● Si bajo , voy a rechazar H0
α muy pocas veces
● Pero entonces, voy a no rechazar H0 cuando
debería
– Error tipo II, prob β
● Si bajo , aumento
α β
● Entonces, fijo a nivel bajo
α
– Luego intento que sea lo más bajo posible
β
(aumento el tamaño de la muestra, p.ej.)

En suma
● Lo peor que puede pasar es rechazar H0 cuando
no debía (Error tipo I)
● Entonces bajo la probabilidad α
– Se usa un =0,05 (5% de error)
α
– Se usa un =0,01 (1% de error)
α
– Se usa un =0,001 (0,1% de error)
α
● Luego trato de que sea lo más baja posible
β
– No me sirve un contraste que nunca rechace H0
cuando debe (Mucho error tipo II, prob )
β

Prueba (Chi Cuadrado) χ2
● Para variables politómicas
● Permite testear la distribución de
probabilidades de una variable categórica.
● Probabilidades p1, p2, p3 para cada nivel
● Tabla de contingencia

Prueba (Chi Cuadrado) χ2
● Dos tipos de prueba
– Para una muestra: “Prueba de Bondad de Ajuste”
● “¿Son compatibles mis datos con la distribución que
espero?”
– Para dos muestras: “Prueba de independencia”
● ¿Tienen mis muestras la misma distribución?”

Prueba χ2
de bondad ajuste
● ¿Cuál es la proporción de hombres y mujeres en
la facultad?
● H0: fH=0,1
● H1: no H0
● Datos:

Prueba χ2
de bondad ajuste
● Datos:
● Estadístico:
– Grados de libertad: 1
– Contraste: con distribución χ2
Fobs Fesp
HOMBRES 26 31,6
MUJERES 290 284,4
Totales 316 316
10%
90%

Prueba χ2
de bondad ajuste
● Datos:
●
Estadístico χ2=1,10 -
● p-valor=0,29 no rechazo H
→ 0
Fobs Fesp
HOMBRES 26 31,6
MUJERES 290 284,4
Totales 316 316
P(χ2)
χ2

Prueba χ2
de bondad ajuste
● Datos:
●
Estadístico χ2=6,3 -
● p-valor=0,012 rechazo H
→ 0
Fobs Fesp
HOMBRES 45 31,6
MUJERES 271 284,4
Totales 316 316
P(χ2)
χ2

Prueba χ2
de independencia
● ¿El estado conyugal depende de la edad?
– Edad categórica: “jóvenes” vs “mayores”
● H0: hay independencia entre las variables
● H1: no H0
● Datos: del Censo Nacional de Psicólogos

Independencia estadística
● Dos sucesos son independientes si:
p(a | b) = p(a), y p(b|a)=p(b)
● No se influyen mutuamente
● Ej.:
– Sucesivas tiradas de una moneda
p(cara | recién salió cara) = p(cara)
p(uruguayo|hombre)=p(uruguayo)
p(argentino|hombre)=p(argentino)

Independencia estadística
● Si a y b son independientes, entonces:
como p(a|b)=p(a)
p(a b) = p(a|b)p(b) = p(a)p(b)
∩
● La probabilidad de la intersección es la
multiplicación de las probabilidades aisladas.

Censo:
● Estado conyugal: casado o “juntado” (unión libre y
concubinaria)
● Edad: jóvenes (cuartil 1) vs “mayores” (cuartil 4)
Casado Juntado Total
JOVENES 246 547 793
MAYORES 819 153 972
Totales 1065 700 1765

Censo:
● Observado
● Esperado (si ocurre independencia)
JOVENES 246 547 793
MAYORES 819 153 972
Totales 1065 700 1765
JOVENES N*p(cas)p(jov) N*p(Jun)p(jov) 793
MAYORES N*p(cas)p(may) N*p(Jun)p(may) 972
Totales 1065 700 1765

Censo:
● Observado
● Esperado (si ocurre independencia)
JOVENES 246 547 793
MAYORES 819 153 972
Totales 1065 700 1765
JOVENES 478,50 314,50 793
MAYORES 586,50 385,50 972
Totales 1065 700 1765

Censo:
● Estado conyugal: casado o “juntado” (unión libre y
concubinaria)
● Edad: jóvenes (cuartil 1)vs “mayores” (cuartil 4)
● Chi cuadrado= 515 !!! 1 gl:
p<0,000000000000000000000000000000000000000
000000000000000000000000000000000000000000
000000000000000000000000000000000000000000
000000001
JOVENES 246 547 793
MAYORES 819 153 972
Totales 1065 700 1765

Test de media
● Mi muestra tiene media X
● ¿Será que proviene de una población de media μ?

Test t de Student de una muestra
● Para testear si la media X de una muestra de
una distribución normal es un valor dado (μ)
● H0: La media es μ; H1: La media no es μ
– t = X-μ
S/√n
Distribución de
t bajo H0

Una variable cuantitativa y una
categórica

Test de media: comparación
● Tengo dos muestras que tienen medias X1 y X2
● ¿Será que provienen de poblaciones con la
misma μ?
● Si la variable es:
– Independiente (cada muestra es independiente de la
otra)
– Normal (su distribución es una normal)
● Entonces puedo usar:
– Prueba t de Student para dos muestras

Test t de Student de dos muestras
● Para testear si las muestras tienen la misma
media poblacional (μ)
● H0: μ1=μ2; H1: μ1≠μ2
– t = X1-X2
S12/√n
Distribución de
t bajo H0

Ejemplo
● Tienen más hijos los jóvenes o los mayores?
– Edad: jóvenes (cuartil 1)vs “mayores” (cuartil 4)
– Número de hijos

Ejemplo
● Tienen más hijos los jóvenes o los mayores?
– Edad: jóvenes (cuartil 1)vs “mayores” (cuartil 4)
Mjovenes=0.175
Mmayores=1.73
t=-50.97
p<0,00000000000016

Ejemplo
● Tienen más hijos las mujeres o los hombres?
– Sexo: hombres vs mujeres

Ejemplo
● Tienen más hijos las mujeres o los hombres?
– Sexo: hombres y mujeres
Mmujeres=1.06
Mhombres=0.97
t=2.46
p<0,014

Ejemplo
● Son mayores las mujeres o los hombres?
– Edad en años

Ejemplo
Mmujeres=40,73
Mhombres=41,45
t=-2,023
p<0,043
● Son mayores las mujeres o los hombres?
– Edad en años

Distribución de probabilidad y muestras en estadística

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Ähnlich wie Distribución de probabilidad y muestras en estadística

Ähnlich wie Distribución de probabilidad y muestras en estadística (20)

Kürzlich hochgeladen

Kürzlich hochgeladen (20)

Distribución de probabilidad y muestras en estadística