1. Distribuciones de probabilidad
La inferencia estadística consiste en extraer una manera de una población y
analizar sus datos con el propósito de aprender acerca de ello. Muchas veces se
tiene un conocimiento superficial de la función de masa de probabilidad o de la
función de densidad de probabilidad de la población. En estos casos la función
de masa o de densidad de probabilidad se aproxima mediante una de muchas
familias comunes de curvas o funciones. En este capitulo se describen algunas
de estas funciones comunes y las condiciones en que es apropiado utiliza cada
una.
Distribución Bernoulli.
En teoría de probabilidad y estadística, la distribución de Bernoulli (o
distribución dicotómica), nombrada así por el matemático y científico
suizo Jakob Bernoulli, es una distribución de probabilidad discreta, que toma
valor 1 para la probabilidad de éxito ( ) y valor 0 para la probabilidad de fracaso
( ).
Si es una variable aleatoria que mide "número de éxitos", y se realiza un
único experimento con dos posibles resultados (éxito o fracaso), se dice
que la variable aleatoria se distribuye como una Bernoulli de parámetro .
La fórmula será:
Su función de probabilidad viene definida por:
Ejemplos:
1. Cuando se lanza un dado hay una probabilidad de 1/6 de que salga 6 x=1 si el
dado cae seis y X =0 en cualquier otro caso (cual es la distribución de X?
Solución:
La probabilidad de éxito es P(X=1) 0 1/6 por lo que X Bernoulli (6)
2. 2. 10% de los componentes fabricados mediante determinado proceso esta
defectuoso se selecciona un componente. Sea X=1 si el componente esta
defectuoso y X=0 en cualquier otro caso (cual es la distribución de x?.
Solución:
La probabilidad de éxito es p= P(X=1) 0.1 por lo que X Bernoulli _(0.1)
3. Cuando se aplica cierto Barniz a una superficie de cerámica 5% es la
probabilidad de que se decolore. 20% de que se agriete, y el 23% de que se
decolore o no se agriete. O ambas . Sea X =1 si se produce una decoloración y X
=0 en cualquier otro caso. Y =1 si hay alguna grieta y Y =0 en cualquier otro
caso. Z=1 si hay decoloración o grieta, o ambas y Z =0 en cualquier otro caso
a) Sea P x la probabilidad de éxito de X. determine PX.
b) Sea Py la probabilidad de éxito de Y. determine PY.
c) Sea Pz la probabilidad de éxito de Z determine Pz
d) Es posible que X y Y sea igual a Z.
Solución.
1. 0.05
2. 0.20
3. 0.23
4. Si
4. Cuando se lanza al aire una moneda hay una probabilidad de 0.5 de que caiga
en “cara”. Sea X=1 si la moneda cae en “cara” y X =0 si cae en “Cruz”. ¿Cuál es
la distribución X?
Solución:
Puesto que X=1 cuando cae “cara”. Esta es resultado de éxito. La probabilidad de éxito
p(X=1). Es igual a 0.5. Por tanto X Bernoulli (0.5)
X=1
5. Un jugador de Básquetbol esta a punto de tirar hacia la parte superios del
tablero. La probabilidad de anote el tiro es de 0.55
a). sea X=1. S anota el tiro si no lo hace X=0 determine la media ya la varianza
de X
Solución:
a) M= 0.55
V= 0.2475
3. Distribución Binomial
La distribución binomial es una distribución de probabilidad discreta que
mide el número de éxitos en una secuencia de n ensayos de Bernoulli
independientes entre sí, con una probabilidad fija p de ocurrencia del éxito
entre los ensayos.
Un experimento de Bernoulli se caracteriza por ser dicotómico, esto es, sólo son
posibles dos resultados. A uno de estos se denomina éxito y tiene una
probabilidad de ocurrencia p y al otro, fracaso, con una probabilidad q = 1 - p.
En la distribución binomial el anterior experimento se repite n veces, de forma
independiente, y se trata de calcular la probabilidad de un determinado número
de éxitos. Para n = 1, la binomial se convierte, de hecho, en una distribución de
Bernoulli.
Características analíticas
Su función de probabilidad es
Donde
Siendo las combinaciones de en ( elementos tomados
de en )
Ejemplo
Supongamos que se lanza un dado 50 veces y queremos la probabilidad de que
el número 3 salga 20 veces. En este caso tenemos una X ~ B(50, 1/6) y la
probabilidad sería P(X=20):
4. Ejemplos:
1. Sea x~Bin(8,0.4) Determine:
X P
0 0.01679616 a) 0.20901888
1 0.08957952 b) 0.23224320
2 0.20901888 c) 0.08957952
3 0.27869184 d) 0.00786532
4 0.23224320 e) 3.2
5 0.12386304 f) 1.92
6 0.04128768
7 0.00786432
8 0.00065536
1
2. Si se toma una muestra de cinco elementos de una población grande en
la cual 10% de los elementos esta defectuoso.
X P
0 0.59049 a) 0.00001
1 0.32805 b) 0.07290
2 0.07290 c) 0.59049
3 0.00810 d) 0.00045
4 0.00045
5 0.00001
1
3. Se lanza una moneda 10 veces.
X P
0 0.000976562 a) 0.117187500
1 0.009765625 b) 5
2 0.043945312 c) 2.5
3 0.117187500 d) 1.57
4 0.205078125
5 0.246093750
6 0.205078125
7 0.117187500
8 0.043945312
9 0.009765625
10 0.000976562
0.999999997
5. 4. En un cargamento grande de llantas de automóvil, 5% tiene cierta
imperfección. Se elige aleatoriamente cuatro llantas para instalarlas en
el automóvil
X P
0 0.773780937 a)0.000005937
1 0.162901250 b) 0.162901250
2 0.012860625 c) 0.773780937
3 0.000451250
4 0.000005937
0.999999997
5. En un patrón aleatorio de ocho bits utilizado para probar un
microcircuito, cada bit tiene la misma probabilidad de ser 0 o 1.
Supongamos que los valores de los bits son independientes.
a). ¿Cual es la probabilidad de que todos los bits sean 1?
B). ¿Cual es la probabilidad de que exactamente tres de los bits sean 1?
Solución:
1. 0.0039
2. 0.02188
6. Distribución de Poisson
La función de masa de la distribución de Poisson es
Donde:
k es el número de ocurrencias del evento o fenómeno (la función nos da la
probabilidad de que el evento suceda precisamente k veces).
λ es un parámetro positivo que representa el número de veces que se espera
que ocurra el fenómeno durante un intervalo dado. Por ejemplo, si el suceso
estudiado tiene lugar en promedio 4 veces por minuto y estamos interesados
en la probabilidad de que ocurra k veces dentro de un intervalo de 10
minutos, usaremos un modelo de distribución de Poisson con λ = 10×4 = 40.
e es la base de los logaritmos naturales (e = 2,71828 ...)
Tanto el valor esperado como la varianza de una variable aleatoria con
distribución de Poisson son iguales a λ. Los momentos de orden superior
son polinomios de Touchard en λ cuyos coeficientes tienen una
interpretación combinatoria. De hecho, cuando el valor esperado de la
distribución de Poisson es 1, entonces según la fórmula de Dobinski, el n-ésimo
momento iguala al número de particiones de tamaño n.
La moda de una variable aleatoria de distribución de Poisson con un λ no entero
es igual a , el mayor de los enteros menores que λ (los símbolos representan
la función parte entera). Cuando λ es un entero positivo, las modas son λ y λ − 1.
Ejemplos:
1. si X Poisson (3), calcule P(X=2), P(X=10), P(X=0), P(X=-1) y
P(X=0.5)
SOLUCION:
Cuando se usa la funision de masa de probailiodad (4.9), con =3, se obtiene:
P=(X=2)= 0.2240
P=(X=10)=0.0008
P=(X=0)= 0.0498
P=(X=1)= O
P(X=O.5)=O
7. 2. Si X Poisson (4), calcuyle P(X< 2) y P(X>1).
SOLUCION:
P(X< 2)= 0.2381
P(X>1)= 0.9084
3. Sea X Poisson(4). Determine:
1. P(X=1)
2. P(X=0)
3. P(X<2)
4. P(X>1)
SOLUCION-.
1. 0.0733
2. 0.0183
3. 000916
4. 0.9084
4.Suponga que 0.03% de los contenedores plasticos producidos en cierto
procesos tiene pequeños agujeros que lso dejan inservibles. X representa el
numero de contenedores en una muestra aleatoria de 10000 que tienen este
defecto. Determine:
1. P(X=3)
2. P(X<3)
3. P(1<X<4)
SOLUCION:
1. 0.2240
2. 0.4232
3. 0.5974
8. 5.Una ariable aletoria X tiene una distribucion binomial y una variable
aleatoria Y tiene una distribucion de Poisson.
Tanto X como Y tiene medias iguales a 3. ¿es posible determinar que variable
aleatoria tiene la varianza mas grande? Elija una de las siguientes respuestas:
a) Si, X tiene la varaianza mas grande.
b) Si, Y tiene ka varianza mas grande
c) No, se necesita cono cer el numerop de ensayos, n, para X
d) No, se necesita conocer la probailidad de éxito, p, para X
e) No, se necesita conocel el valor de para Y
SOLUCION:
b) SI, Y tiene la varianza mas grande
9. Distribución normal
La distribución normal es, sin duda, la distribución de probabilidad más
importante del Cálculo de probabilidades y de la Estadística. Fue descubierta
por De Moivre (1773), como aproximación de la distribución binomial. De todas
formas, la importancia de la distribución normal queda totalmente consolidada
por ser la distribución límite de numerosas variables aleatorias, discretas y
continuas, como se demuestra a través de los teoremas centrales del límite. Las
consecuencias de estos teoremas implican la casi universal presencia de la
distribución normal en todos los campos de las ciencias empíricas: biología,
medicina, psicología, física, economía, etc. En particular, muchas medidas de
datos continuos en medicina y en biología (talla, presión arterial, etc.) se
aproximan a la distribución normal.
Junto a lo anterior, no es menos importante el interés que supone la simplicidad
de sus características y de que de ella derivan, entre otras, tres distribuciones
(Ji-cuadrado, t y F) que se mencionarán más adelante, de importancia clave en
el campo de la contrastación de hipótesis estadísticas.
La distribución normal queda totalmente definida mediante dos parámetros: la
media (Mu) y la desviación estándar (Sigma).
Campo de variación:
-¥ < x < ¥
Parámetros:
Mu: media de la distribución, -¥ < Mu < ¥
Sigma: desviación estándar de la distribución, Sigma > 0
1. Ejercicio
Se supone que el nivel de colesterol de los enfermos de un hospital sigue una
distribución normal con una media de 179,1 mg/dL y una desviación estándar
de 28,2 mg/dL.
1. Calcule el porcentaje de enfermos con un nivel de colesterol inferior a 169
mg/dL.
2. ¿Cuál será el valor del nivel de colesterol a partir del cual se encuentra el 10% de los
enfermos del hospital con los niveles más altos?
3. Represente la función de densidad.
En este caso, se tendrá que ejecutar Epidat 3.1 dos veces: en el primer caso para calcular
una probabilidad, en el segundo caso el dato de entrada es una probabilidad,
concretamente la cola de la derecha, lo que permitirá obtener el punto. En ambas
ejecuciones se ofrece, de manera opcional, la función de densidad del nivel de
colesterol.
10. solucion
1. Resultados con Epidat 3.1
Cálculo de probabilidades. Distribuciones continuas
Normal (Mu, Sigma)
Mu: Media 179,1000
Sigma: Desviación estándar 28,2000
Punto X 169,0000
Cola Izquierda Pr[X<=k] 0,3601
Cola Derecha Pr[X>=k] 0,6399
Dos Colas 1-Pr[|X|<=k] 0,7202
El porcentaje de enfermos con un nivel de colesterol inferior a 169 mg/dL es
36%.
2. Resultados con Epidat 3.1
Cálculo de probabilidades. Distribuciones continuas
Normal (Mu, Sigma)
Mu: Media 179,1000
Sigma: Desviación estándar 28,2000
Cola Izquierda Pr[X<=k] 0,9000
Cola Derecha Pr[X>=k] 0,1000
Dos Colas 1-Pr[|X|<=k] 0,2000
Punto X 215,2398
A partir de 215,24 mg/dL se encuentran los valores de colesterol del 10% de los
enfermos que tienen los valores más altos.
11. 3.- Los CI de 600 aspirantes de cierta universidad se distribuyen
aproximadamente de forma normal con una media de 115 y una desviación
estándar de 12. Si la universidad requiere un CI de al menos 95, ¿cuántos de
estos estudiantes serán rechazados sobre esta base sin importar sus
otras calificaciones?
Solución:
P(X < 95) = Φ[(95 – 115)/12]= Φ[-1.67] = 0.0478
Número de estudiantes rechazados = 600*0.0478 = 28.68 o 29
4.-La vida promedio de cierto tipo de motor pequeño es 10 años con una
desviación estándar de dos años. El fabricante reemplaza gratis todos los
motores que fallen dentro del tiempo de garantía. Si está dispuesto a
reemplazar sólo 3% de los motores que fallan, ¿de qué duración debe
ser la garantía que ofrezca? Suponga que la duración de un motor sigue una
distribución normal.
Solución:
µ = 10 y σ = 2
P3 Área = 0.03 Φ( Z ) = 0.03 Z = -1.88
x = Zσ + µ = (-1.88)(2) + 10 = 6.24
5.-Un abogado va todos los días de su casa en los suburbios a su oficina en el
centro de la ciudad. El tiempo promedio para un viaje de ida es 24 minutos, con
una desviación estándar de 3.8 minutos. Suponga que la distribución de los
tiempos de viaje está distribuida normalmente.
µ = 24 y σ = 3.8
Solución:
¿cuál es la probabilidad de que un viaje tome al menos ½ hora?
P(X > 30) = 1 - Φ[(30 – 24)/3.8 ] = 1 - Φ[1.58 ] = 1 – 0.9428 = 0.0572
12. Distribución Gamma
La distribución gamma se puede caracterizar del modo siguiente: si se está
interesado en la ocurrencia de un evento generado por un proceso de Poisson de
media lambda, la variable que mide el tiempo transcurrido hasta obtener n
ocurrencias del evento sigue una distribución gamma con parámetros a= n´
lambda (escala) y p=n (forma). Se denota Gamma.
Por ejemplo, la distribución gamma aparece cuando se realiza el estudio de la
duración de elementos físicos (tiempo de vida).
Esta distribución presenta como propiedad interesante la “falta de memoria”.
Por esta razón, es muy utilizada en las teorías de la fiabilidad, mantenimiento y
fenómenos de espera (por ejemplo en una consulta médica “tiempo que
transcurre hasta la llegada del segundo paciente”).
Campo de variación:
0<x<¥
Parámetros:
a: parámetro de escala, a > 0
p: parámetro de forma, p > 0
Ejercicio 1
El número de pacientes que llegan a la consulta de un médico sigue una distribución
de Poisson de media 3 pacientes por hora. Calcular la probabilidad de que transcurra
menos de una hora hasta la llegada del segundo paciente.
Debe tenerse en cuenta que la variable aleatoria “tiempo que transcurre hasta la
llegada del segundo paciente” sigue una distribución Gamma (6, 2).
Solución:
Cálculo de probabilidades. Distribuciones continuas Gamma.
a : Escala 6,0000
p : Forma 2,0000
Punto X 1,0000
Cola Izquierda Pr[X<=k] 0,9826
Cola Derecha Pr[X>=k] 0,0174
Media 0,3333
Varianza 0,0556
Moda 0,1667
La probabilidad de que transcurra menos de una hora hasta que llegue el segundo
paciente es 0,98.
Ejercicio 2
Suponiendo que el tiempo de supervivencia, en años, de pacientes que son sometidos a
una cierta intervención quirúrgica en un hospital sigue una distribución Gamma con
parámetros a=0,81 y p=7,81, calcúlese:
1. El tiempo medio de supervivencia.
2. Los años a partir de los cuales la probabilidad de supervivencia es menor que 0,1.
13. Solución:
Cálculo de probabilidades. Distribuciones continuas Gamma
a : Escala 0,8100
p : Forma 7,8100
Cola Izquierda Pr[X<=k] 0,9000
Cola Derecha Pr[X>=k] 0,1000
Punto X 14,2429
Media 9,6420
Varianza 11,9037
Moda 8,4074
El tiempo medio de supervivencia es de, aproximadamente, 10 años.
Ejercicio3
Si se sabe que el tiempo de sobrevivencia de ratas expuestas a un determinado
tóxico es una variable aleatoria que sigue una distribución Gamma (5, 10), ¿cuál
es la probabilidad de que una rata no supere las 60 semanas de vida?
Solucion:
Resolviendo en R, > pgamma(60, 5, scale = 10, lower.tail = T)
[1] 0.7149435
Su representación gráfica en Excel
Ejemplo 4
También en el ámbito de la siniestralidad viaria, en un estudio de la ciudad de
Medellín, Colombia, se usa la distribución Gamma para obtener la distribución
de probabilidad de la variable aleatoria “edad de fallecimiento en accidentes de
tráfico”. En este caso explican que se asignaron los parámetros α y “a ojo”. El
mejor resultado es el que parece minimizar los errores cuadráticos medios
después de varias asignaciones. Finalmente obtienen α=2,94 y =13,94.
14. Ejemplo5
En un estudio de la guardia urbana de Barcelona se toma una distribución
gamma para modelizar el número de víctimas en accidentes de tráfico. Como es
más habitual la proporción de 1 ocupante por vehículo siniestrado, y es más rara
la probabilidad de 4 ó 5 ocupantes por vehículo siniestrado, se crea una
distribución gamma para modelizar el número de víctimas por accidente de
tráfico. El 38% de la distribución lo acumula la proporción 1 accidentado por
accidente, el 36% 2:1, 16% la 3:1, 6% el 4:1 y finalmente un 3% para 5:1. La
media del modelo es 1,5 víctimas por accidente, pero no indican el valor de los
parámetros α y β tomados en cuenta.
15. Distribución T student.
Es una distribución de probabilidad que surge del problema de estimar la
media de una población normalmente distribuida cuando el tamaño de la
muestra es pequeño.
Aparece de manera natural al realizar la prueba t de Student para la
determinación de las diferencias entre dos medias muéstrales y para la
construcción del intervalo de confianza para la diferencia entre las medias de
dos poblaciones cuando se desconoce la desviación típica de una población y
ésta debe ser estimada a partir de los datos de una muestra.
La distribución t de Student es la distribución de probabilidad del cociente
Donde
Z tiene una distribución normal de media nula y varianza 1
V tiene una distribución ji-cuadrado con grados de libertad
Z y V son independientes
Si μ es una constante no nula, el cociente es una variable aleatoria
que sigue la distribución t de Student no central con parámetro de no-
centralidad .
1. EJEMPLO:
Cual es la probabilidad de que una variable t de Student de 6 grados de libertad
deja a la izquierda de -1,45:
16. Los valores negativos no vienen en la tabla, pero según lo anterior:
En la tabla encontramos:
Por tanto:
Con lo que obtenemos:
2. EJEMPLO:
Cual es la probabilidad acumulada a la derecha de 2,45, en una variable t de
Student de 15 grados de libertad.
Según lo anterior:
Por la tabla tenemos que:
Que sustituyéndolo en la expresión, resulta:
Que da como resultado:
3. EJEMPLO:
Cual es la probabilidad:
Según lo anterior:
17. Buscando el valor en la tabla, tenemos que:
4. EJEMPLO:
Cual es la probabilidad acumulada de una variable t de Student de 25 grados
de libertad, se encuentre entre: 0,75 y 1,25.
Según lo anterior, tenemos:
En la tabla las probabilidades, tenemos los valores:
Sustituyendo tenemos:
Realizando la operación:
5. EJEMPLO:
Calcular la probabilidad acumulada a la izquierda de 0,87 de una variable t
Student de 10 grados de libertad:
el valor 0,87 no viene en la tabla, pero los valores 0,85 y 0,90 sí:
Según la expresión:
18. Sustituyendo los valores numéricos, tenemos:
Operando:
Esto es:
Dando como resultado:
Que es la solución al problema planteado: