SlideShare ist ein Scribd-Unternehmen logo
1 von 91
Distribuciones De Muestreo Para Estimadores Lineales Curso de Estadística ProfesorBalbinoGarcía Bernal WadiAdamesRomán
Confiabilidad del 95% y su relación a la familia t
Cada intervalo de confiabilidad que se construye es Acertado (un “Hit”) o Errado (“Miss”).  Si se considera un modelo ideal de ANOVA como una especie de mecanismo de “chance” para crear conjuntos de datos, donde los posibles resultados sean Acertado o Errado, entonces para un intervalo propiamente construido, un 95% de confiablidad significa que hay un chance del 95% de que el resultado sea Acertado.
Recordemos que en la realidad esto significa que si utilizáramos el mismo modelo y suposiciones para crear muchos conjuntos de datos e intervalos, entonces “a largo plazo”, el 95% de los intervalos sería Acertado.
O sea Mecanismo:	Modelo ANOVA Summary: 	Acertado o Errado, para un intervalo 		con un 95%  de confiabilidad Distribución: “Chance” de que sea Acertado = 95%; “Chance” de que sea Errado = 5%
Todo esto se refiere en cierta medida a una proposición mucho más básica. Mecanismo:	Modelo ANOVA Summary: 	(Estimador Lineal – Verdadero Valor)/SE		 Distribución: familia t (Estimador Lineal se abreviará por Est)
Este SummaryOutcome se parece al Estandarizado visto en la sección 3: (Outcome – EV)/SD* donde Verdadero Valor sería el EV y SE el SD*.
Hay diferencias pues el SD* es un verdadero valor del modelo, mientras que el SE es un estimado SE = SD(SSWeights)1/2 donde 	SD = (MSRes)1/2 (este último se calcula a partir de la data)
Nota: Llamaremos Distancia Estándar Estimada a la expresión (Estimador Lineal – Verdadero Valor)/SE Diremos por esto que el estimador lineal se ha convertido a Unidades Estándares Estimadas.
O sea: 	Las Unidades Estándares Estimadas indican la distancia del EV, medida en SE’s. Distancia = Valor – EV Distancia Estándar = Distancia/Verdadero SE* Distancia Estándar Estimada = Distancia/SE Estimado
Si usamos este lenguaje entonces se puede decir que: Para cualquier estimador lineal de un modelo ideal ANOVA, la Distancia Estándar Estimada tiene una distribución t.
Entonces, si observamos lo que significa “apuntarse” un “Hit” (acertar), se tiene que: 	Para cualquier número positivo t:  	El intervalo Est ± SE·t cubre el verdadero valor    si y solo si |(Est – Verdadero Valor)/SE| < t
Esto quiere decir que el “chance acertar es igual al chance de que |(Est – Verdadero Valor)/SE| < t.  Entonces, si (Est – Verdadero Valor)/SE tiene una distribución t, se puede determinar el número t que hace que el “chance”  de un “Hit” sea igual a 95%.   ¿Cómo?  Solo hay que tomar t igual al percentil 97.5ésimo de la distribución t.
En resumen: 	Si (Est – Verdadero Valor)/SE tiene una distribución t, entonces hay un chance del 95% de que un intervalo de la forma Est ± SE·(elpercentil 97.5ésimo de la distribución t)contenga el verdadero valor.
Distribuciones De Muestreo Aproximadas Para Razones-f
Siempre que comparamos una razón-F de “mean squares” con una tabla de valores para así examinar una hipótesis nula, se está asumiendo que la razón de “mean squares” posee una distribución de muestreo que pertenece a la familia F. ¿Bajo qué condiciones es razonable asumir esto?
En breve se puede decir que: 	Si un modelo es correcto de manera exacta (i.e., la estructura de factores y las suposiciones de Fisher describen el experimento exactamente) y la hipótesis nula es verdadera, entonces la razón-F tiene una distribución F. Sin embargo, para que esto ocurra hay dos requisitos:
“Mean Squares” Esperados El primer requisito es que las dos “mean squares” en la razón deben tener los mismos valores esperados.   El valor esperado de cualquier “mean square” se puede escribir como una suma de partes, donde cada parte es un número que mide la variabilidad asociada con alguno de los factores en el diseño que ha preparado el investigador.  Si la razón de dos “mean squares” debe tener una distribución F entonces ambos “mean squares” deben tener exactamente las mismas partes en sus valores esperados.
Si la hipótesis nula es falsa, los Valores Esperados no serán iguales, y la razón de los “mean squares” no seguirá una distribución F.  Luego, la prueba F se reduce a determinar si una razón observada proviene o no de una distribución F.   Si se entiende que no, se rechaza la hipótesis nula.
El rol del modelo El segundo requisito se refiere al modelo en sí. Las razones-F que se calculan para una prueba ANOVA siempre son distintas, pues provienen de la descomposición lineal, y no de resultados independientes que son estándares y normales.
Sin embargo, es posible demostrar que  	Si el modelo es correcto de manera exacta (i.e., la estructura de factores y las suposiciones de Fisher están de acuerdo con la data), si además se posee el denominador MS correcto y si la hipótesis nula es verdadera, entonces la razón-F tiene una distribución F.
El problema es que no hay modelos que sean exactamente correctos. Por tanto, para llegar de un experimento de la vida real a una distribución F, hay que superar dos obstáculos, primero del experimento al modelo ideal ANOVA, y segundo del modelo ANOVA a la distribución F.  Nos ocuparemos del segundo obstáculo, a modo de “sketch” de una demostración, pues lo concerniente al otro se explicó ya con anterioridad.
El mecanismo ideal crea valores observados como tiradas independientes de una “caja” de error normal estándar.  Hay 4 cosas importantes para desarrollar esta prueba.  La misma debe mostrar que los “mean squares” que se calculen en una ANOVA se comportan como si se hubieran construidos a partir de términos que posean esas 4 propiedades.
1. EV = 0 En un diseño balanceado, los efectos estimados para cada factor aparte de la media siempre suman a cero.  Entonces, la manera en que la descomposición lineal se lleva a cabo hace que al cuadrar los números, estos se comporten como si EV = 0.
2. Dispersión: SD* = 1   En la práctica la SD* de un conjunto de datos es desconocido y lo más seguro que no es 1.  Ahora, si los errores debidos al chance se comportan como si SD* fuera constante, entonces no hace falta que esa constante sea 1.  Esto se debe a que podemos calcular una razón de “mean squares” para así conseguir la F-estadística (o estadístico-F).  Ya que el verdadero SD* aparece tanto en el numerador como el denominador y por tanto se cancela, podemos prescindir de saber su verdadero valor.
3. Forma: La Normal En la realidad la forma no es la normal, pero se acerca lo suficiente.  Inclusive si los residuales individuales no se aproximan a un patrón normal, mientras más observaciones se tengan, menos hace falta preocuparse por que los errores debidos al chance sean normales.
4. Relación: Independencia Por definición, las “tiradas” deberían ser independientes.  Sin embargo, en general los números de una descomposición que se cuadran y suman para conseguir una suma de cuadrados suelen no ser independientes, pero están correlacionados.  Esta correlación refleja una especie de superposición en la información que está contenida de por sí en los números que se cuadran y suman.  Al dividir la suma de cuadrados por los grados de libertad df, en vez de por la cantidad de números que se cuadran, permite hacer el ajuste necesario para la superposición.
Además, en la definición, debido a que las “tiradas” son independientes, así también los dos “mean squares”.  Ahora, en la práctica, si el diseño es balanceado  entonces los “mean squares” que se calculen serán independientes el uno del otro, tal como se requiere.
Relación con las Suposiciones de Fisher: Utilizaremos las 4 propiedades antes descritas para establecer la relación entre las suposiciones de Fisher y la forma de la prueba-F.
[Z]: Si los errores debidos al chance no cumplen EV = 0, entonces los efectos estimados que se obtienen al descomponer la data estarán sesgados.  Esto hará el correspondiente “mean square” mayor de lo que debería ser.  De esta forma se corre el riesgo de concluir como “real” un efecto que en realidad es parte del sesgo.
[S]: Si los errores debidos al chance no poseen la misma SD*, la cancelación de las SD*’s que se necesita al determinar la razón-F no ocurrirá, y por consiguiente la razón no se comportará como si SD* = 1.
[I]: Si los errores debidos al chance no son independientes, entonces los “mean squares” no alcanzarán los valores esperados correctos.  Inclusive, podría darse que el numerador y denominador no sean independientes, lo cual es requerido por la definición.  Por tanto, los valores críticos de una tabla F no serán los correctos para el conjunto de datos.
[N]: Si los residuales no tienen una forma que se asemeje a la normal, los números que cuadremos para obtener las SS’s (sumas de cuadrados) no tendrán la forma de la curva normal.  Además, si los por cientos de residuales grandes son mayores que los provistos por la regla basada en la curva normal, los cuadrados de estos residuales tendrán un efecto grandísimo en el comportamiento de los “mean squares” y así la distribución de la razón no será lo suficientemente cercana a una distribución-F real como para hacer confiables los valores críticos.
[A & C]: Si los efectos verdaderos no son constantes o aditivos,  la descomposición que se lleve a cabo para determinar los “mean squares” no repartirá las observaciones en las partes correctas.  Así, las tablas en la descomposición tendrán contribuciones de factores que no se supone contribuyan.  En particular, los residuales quedarán contaminados por dichos factores, proveyendo estimados pobres para los errores que se deben al chance.
¿Por Qué (Y Cuándo) Son Razonables Los Modelos?
Ahora veremos algunos ejemplos de tres de    las justificaciones para los modelos de cajas y las suposiciones de Fisher: 	Muestreo de una población 	Medidas de error Aleatorización
Muestreo de una población (“Samplingfrom a population”) Primero recordemos que: Población es todo el grupo de individuos que son de interés en el experimento. Muestra es el grupo de individuos que son observados en realidad. Para una muestra simple aleatoria, cada individuo en la población tiene el mismo chance de ser seleccionado. Todas las posibles muestras son igualmente probables.
El ejemplo más idóneo de un muestreo simple aleatorio es el modelo de cajas.  La población es una caja de boletos enumerados.  La muestra es el conjunto de tiradas (aquí nos referimos por tiradas al proceso de sacar el boleto de la caja).  Si se saca un boleto al azar, devolviéndolo de nuevo a la caja luego de observar qué número salió (reemplazo), y mezclando (barajeando) los boletos antes de cada tirada, se obtiene una muestra simple aleatoria.
Cuando un diseño exige que los individuos sean seleccionados, entonces mientras más se pueda lograr que el proceso de selección se comporte como el proceso antes descrito, mejor concordarán el modelo estándar y las suposiciones con la data obtenida.
Nota: Supóngase que se desean seleccionar 100 estudiantes de esta universidad para que formen parte de un experimento.  Sería fácil buscar 100 estudiantes entre los que uno conoce y los que amigos de estos.  También podríamos publicar un anuncio invitando al experimento y escoger los primeros 100 voluntarios, etc.  Sin embargo, estos métodos de selección no son como el modelo de cajas, y no suponen necesariamente una buena selección.
En realidad haría falta (para que sea una muestra simple aleatoria) tener la lista de todos los estudiantes de la universidad, enumerarlos, y entonces usar una tabla de números aleatorios para escoger los 100 estudiantes que participarán del estudio.
Este último ejemplo envolvía solo una población.   ¿Cómo el muestreo simple aleatorio (al azar) conduce al modelo y a las suposiciones estándar?
Ejemplo: 	Supongamos que se tienen dos poblaciones, cada una con 4 individuos.  Asumamos también que no hay aleatorización o ambigüedad en el proceso de medición (para el modelo de muestreo ideal, toda aleatoriedad provine del proceso de seleccionar individuos de las poblaciones).
El factor de interés tiene dos niveles, A y B, correspondiendo a las dos poblaciones.  La población A tiene 4 individuos cuyos valores de respuesta son 3, 4, 4 y 5.  La población B tiene 4 individuos también, con valores 5, 6, 6 y 7.
En la figura se ve una ANOVA de una dirección (muestreo simple aleatorio de dos poblaciones).  Si las observaciones se escogen (al azar y CON REEMPLAZO)de las poblaciones A y B, entonces la data concuerda con el modelo ANOVA estándar que se ve a la derecha en la figura, el cual satisface las suposiciones de         EV = 0, de iguales SD*’s, independencia, aditividad y efectos que son constantes.  Si la distribución de valores de respuesta en cada población es normal, entonces las seis suposiciones son satisfechas.
Observaciones importantes: En la mayoría de las ocasiones no ocurre que las poblaciones tengan el mismo tamaño.  Sin embargo, en la mayoría de los casos estas son muy grandes, lo que hace que su tamaño real sea sin importancia en lo que concierne al modelo estándar.
¿Por qué se insiste en el muestreo con reemplazo?  ¿No se corre el riesgo de seleccionar más de una vez el mismo individuo?
Si las poblaciones son bien grandes, como ocurre en la mayoría de los estudios, no hace gran diferencia si se realiza el muestreo con o sin reemplazo.   Claro, si se lleva a cabo el muestreo sin reemplazo, el chance de escoger el mismo individuo más de una vez es cero.  Sin embargo, cuando las poblaciones son grandes, el chance de seleccionar el mismo individuo más de una vez estará tan cerca de cero, que llevar a cabo el muestreo con reemplazo hará poca diferencia.
¿Qué se gana entonces utilizando la técnica de reemplazo?    Permite hacer sencilla la teoría.
Ya que en la práctica no se pueden realizar las mediciones a cada individuo en la población, no es posible conocer cómo están distribuidos los valores de esta.  Hay un problema: una de las suposiciones de Fisher  es precisamente que los errores debidos al chance deben seguir una distribución normal.¿Cómo resolvemos esto?
En primer lugar si se escoge la escala correcta para la respuesta, la distribución en la población será aproximadamente la de la normal.   En segundo lugar, aún si la distribución no sigue una curva normal, las suposiciones estándar llevan por lo general a aproximaciones de los valores críticos que son razonables (para conjuntos de datos no pequeños).
Es importante notar que en el ejemplo antes visto, las desviaciones de la media son iguales.  Por lo general esto no ocurre.  Lo importantes es que las SD’s sean aproximadamente iguales.
Población y Marco Muestral Ahora, cuando las poblaciones son tan grandes, ¿hace sentido realizar el muestreo con la población misma?  El problema no es solo el tamaño de las poblaciones, sino que a veces estas son difíciles de determinar.
Por ejemplo, supongamos que se desea preparar una prueba para seleccionar donantes de sangre y se quiere determinar aquellos que tengan hepatitis (y por tanto no puedan donar sangre).  Resulta que aquellos que padecen la enfermedad tienden a tener una alta concentración de una enzima, la Transaminasa SeroGlutamínicaPirúvica (SGTP por sus siglas en inglés).
Si estamos en particular interesados en aquellas personas por encima de 18 años que sean portadores de la enfermedad en Puerto Rico, ¿quién tiene la lista completa de estas personas?  Si tal lista existiera, entonces no haría falta siquiera medir los niveles de SGPT.
Incluso si la lista existiera, y se decidiera pasar el trabajo de usar números aleatorios (“randomnumbers”) para seleccionar personas al azar, sería posible rastrear cada uno de ellos.
Ejemplos similares abundan: ¿quién tiene la lista de todos los usuarios de crack en Ponce, o la lista de todas los coquíes en San Sebastián, etc?
En resumen veamos los problemas que conlleva el modelo ideal de llevar a cabo un muestreo simple aleatorio partiendo directamente de la población  (estos están más allá de lo que es posible en la práctica).
El Marco no es igual a la Población (en términos representativos): Aquí el problema son los posibles sesgos.  El grupo de individuos que es más fácil de listar y de dónde es más sencillo seleccionar puede ser atípico del grupo del que en realidad se quiere conocer.
Las Muestras no son aleatorias:  Por ejemplo, los estudios en Psicología utilizan muchas veces voluntarios.  Estudios de laboratorios que envuelven animales muchas veces los toman de suplidoras de animales y por lo tanto no se seleccionan al azar.
Los estudios de campo también presentan problemas, pues dependen de aquellos animales que está lo suficientemente hambrientos o que han sido poco cuidadosos y por eso han caído en la trampa, etc.
Problemas más técnicos: SD’s no iguales y distribuciones no normales.   Aquí hay solución, pues en muchas ocasiones es suficiente llevarlo todo a otra escala.
Poblaciones pequeñas:  Hemos enfatizado mucho sobre como las poblaciones grandes nos permiten acercarnos al modelo ideal teórico.  Ahora, cuando las poblaciones son pequeñas, en realidad lo que tenemos es una ventaja (visto desde un cierto punto de vista).  La razón es que entonces podemos llevar a cabo un muestreo que no envuelva reemplazo y se pueden utilizar muestras pequeñas.
Claro, habría que hacer ajustes a la teoría, los cuales no se discutirán, pero que cualquier libro que trate de muestreo puede facilitar.
Estos problemas nos muestran la importancia de distinguir entre Población y Marco Muestral. 		Población: Grupo completo de individuos 	sobre los que se desea conocer. Marco Muestral: Lista de todos los 	individuos 	de donde en realidad se hará 	la selección.
En fin, si se usa un Marco Muestral para llevar a cabo un muestreo aleatorio, los métodos de estadística formal proveen una base lógica para hacer una generalización de la muestra al marco muestral.
Ahora, no hay métodos formales para realizar tal generalización del marco a la población como tal.  Para esto solo queda utilizar el juicio personal del investigador acerca de qué tan bien el marco representa a la población.
Medidas de Error y el Modelo basado en ellas
En la práctica son pocas las medidas que no conllevan cierta incertidumbre.  En muchos caso el proceso de llevar acabo medidas se comporta como el de realizar el muestreo con la población. Para la versión pura del modelo basado en medidas de error, pensaremos a los individuos como ya escogidos de antemano, y en ese sentido son fijos.
La aleatoriedad proviene del proceso de medir  y no de la selección de individuos. O sea, visto de modo abstracto, los modelos  para el muestreo y el proceso de mediciones son el mismo.
En ambos casos: los objetos de interés son colecciones fijas de números el proceso de obtener la información tiene que ver con escoger al azar de esas colecciones Para este modelo, que se basa en las medidas de error, la colección fija de números será el conjunto hipotético de todos los posibles valores para el proceso de medición.
Hay dos versiones extremas de este modelo el conjunto de valores proviene de cambios impredecibles en el individuo los valores provienen de cambios impredecibles en el proceso mismo de llevar a cabo las medidas
Ejemplos: Si se está estudiando la presión sanguínea, los cambios en las medidas provienen del individuo, pues la presión cambia todo el tiempo. Si se  consideran las Olimpiadas, los cambios proceden de los instrumentos que llevan a cabo las medidas, en este caso los jueces.
Aleatorización
Para la tercera justificación, la cual se basa solo en la aleatorización, consideraremos como dados (y por tanto fijos) tanto a los individuos como a los errores de medida.  El chance provendrá del uso de un diseño o mecanismo de chance para asignar los individuos a los niveles del factor de interés.
Las suposiciones que aseguran esta justificación son distintas de las suposiciones usuales de Fisher.  Aún así hay suficiente evidencia de que los valores críticos de una tabla F proveen por lo general buenas aproximaciones para los valores críticos basados solo en  la aleatorización.
Ejemplo: Imaginemos un experimento donde lo que nos interesa son los niveles de bacterias en el piso de una sala.  Hay dos posibilidades, el piso tiene alfombra o no tiene.  Supongamos que se tiene 4 cuartos solamente y que mediante un mecanismo de chance se seleccionan dos cuartos a los que ponerle alfombra mientras que los otros se quedan sin ella.  Vamos a asumir que se miden los niveles de bacteria y que obtenemos lo siguiente:
Si se asume la estructura de factores usual y se descompone la data para luego calcular las razones F, se obtiene lo que sigue:
Nuestra hipótesis nula es que los verdaderos efectos para “Con Alfombra” y “Sin Alfombra” son ambos cero.  Si esto es así, cada valor observado iguala sigue la regla de Benchmark + Error.
Además la cubierta del piso no afecta los valores observados.  Supongamos que se ignora el proceso que crea los errores y que debido a que las alfombras no tienen efectos, el Cuarto 201 produce un cero (independientemente de lo que se le haga al piso.  Similarmente el Cuarto 202 produce un 0, el 203 un 2 y el 204 un 8.
Entonces, aún asumiendo que la hipótesis nula es verdadera, los valores que se obtienen para las razones F estarán completamente determinados por el mecanismo de chance que se use para signar los cuartos a los dos grupos (con Alfombra, sin Alfombra).
De acuerdo a todo esto, el chance no proviene de los errores mismos, sino del proceso de aleatorización. Hay seis distintas maneras de sortear los 4 cuartos mediante un mecanismo de chance.  Recuerde que así cada una de las 6 es igualmente probable.
Este simple ejemplo ilustra dos propiedades muy importantes acerca de este tipo de muestreo que se basa puramente en la aleatorización: 	1)	SSCond + SSRes es constante  (en el ejemplo 		ambas sumas son iguales a 68) 	2)	EMSCond = EMSRes  (en este ejemplo ambos 		son 22.67)
En fin tenemos una distribución de muestreo para la razón-F sin asumir nada acerca de cómo los errores se producen.  Solo utilizamos la hipótesis nula y el proceso de asignar los cuartos mediante el chance.
RESUMEN Hemos visto tres justificaciones para los modelos estándares de cajas.  En la primera, la aleatorización se asume proviene del proceso de selección de individuos a ser medidos.  En la segunda, la aleatorización  se debe del proceso de medir los individuos (de las mediciones) sin importar cómo se escogen estos.  En la tercera la aleatorización nos llega del proceso de asignar individuos a las condiciones (lo que vimos con las cuarto con alfombras o sin ellas) sin preocuparnos de cómo los individuos fuero escogidos o como se realizaron las medidas.
Bibliografía: George W. Cobb (1998) Introduction to Design and Analysis of Experiments; Secciones 15.4-15.6; Springer

Weitere ähnliche Inhalte

Was ist angesagt?

Coeficiente de correlacion
Coeficiente de correlacionCoeficiente de correlacion
Coeficiente de correlacionCleofé Zavaleta
 
Diagrama de dispersión y regresion cuadratica
Diagrama de dispersión y regresion cuadraticaDiagrama de dispersión y regresion cuadratica
Diagrama de dispersión y regresion cuadraticadarlenisv
 
Medidas de dispersión
Medidas de dispersiónMedidas de dispersión
Medidas de dispersiónreimer gomez
 
Pruebas de Uniformidad
Pruebas de UniformidadPruebas de Uniformidad
Pruebas de UniformidadEwing Ma
 
Distribuciones continuas de probabilidad
Distribuciones continuas de probabilidadDistribuciones continuas de probabilidad
Distribuciones continuas de probabilidadJulian
 
Regresión lineal multiple autores grillet montaño rodríguez
Regresión lineal multiple  autores grillet montaño rodríguezRegresión lineal multiple  autores grillet montaño rodríguez
Regresión lineal multiple autores grillet montaño rodríguezthomas669
 
Distribucion normal principios básicos
Distribucion normal principios básicosDistribucion normal principios básicos
Distribucion normal principios básicosLILIANA LOZANO
 
La distribucion normal y su uso en la inferencia estadistica
La distribucion normal y su uso en la inferencia estadisticaLa distribucion normal y su uso en la inferencia estadistica
La distribucion normal y su uso en la inferencia estadisticaeraperez
 
Presentacion power point
Presentacion power pointPresentacion power point
Presentacion power pointricardolaguna
 
Distribucion normal
Distribucion normalDistribucion normal
Distribucion normaljepsps
 

Was ist angesagt? (20)

Distribucion normal por wallter lopez
Distribucion normal por wallter lopezDistribucion normal por wallter lopez
Distribucion normal por wallter lopez
 
Distribucion de prob discreta y normal
Distribucion de prob discreta y normalDistribucion de prob discreta y normal
Distribucion de prob discreta y normal
 
9. distribuciones continuas
9.  distribuciones continuas9.  distribuciones continuas
9. distribuciones continuas
 
Distribución normal
Distribución normalDistribución normal
Distribución normal
 
Coeficiente de correlacion
Coeficiente de correlacionCoeficiente de correlacion
Coeficiente de correlacion
 
Unidad 5 estadistica 2
Unidad 5 estadistica 2Unidad 5 estadistica 2
Unidad 5 estadistica 2
 
MATEMATICASIV2013
MATEMATICASIV2013MATEMATICASIV2013
MATEMATICASIV2013
 
Diagrama de dispersión y regresion cuadratica
Diagrama de dispersión y regresion cuadraticaDiagrama de dispersión y regresion cuadratica
Diagrama de dispersión y regresion cuadratica
 
Medidas de dispersión
Medidas de dispersiónMedidas de dispersión
Medidas de dispersión
 
Pruebas de Uniformidad
Pruebas de UniformidadPruebas de Uniformidad
Pruebas de Uniformidad
 
Distribucion normal completo
Distribucion normal completoDistribucion normal completo
Distribucion normal completo
 
Semana 4 D1
Semana 4 D1Semana 4 D1
Semana 4 D1
 
Distribuciones continuas de probabilidad
Distribuciones continuas de probabilidadDistribuciones continuas de probabilidad
Distribuciones continuas de probabilidad
 
Regresión lineal multiple autores grillet montaño rodríguez
Regresión lineal multiple  autores grillet montaño rodríguezRegresión lineal multiple  autores grillet montaño rodríguez
Regresión lineal multiple autores grillet montaño rodríguez
 
Distribucion normal principios básicos
Distribucion normal principios básicosDistribucion normal principios básicos
Distribucion normal principios básicos
 
Resumen Clase Correlación
Resumen Clase CorrelaciónResumen Clase Correlación
Resumen Clase Correlación
 
La distribucion normal y su uso en la inferencia estadistica
La distribucion normal y su uso en la inferencia estadisticaLa distribucion normal y su uso en la inferencia estadistica
La distribucion normal y su uso en la inferencia estadistica
 
Presentacion power point
Presentacion power pointPresentacion power point
Presentacion power point
 
Estadistica I II Bimestre
Estadistica I   II BimestreEstadistica I   II Bimestre
Estadistica I II Bimestre
 
Distribucion normal
Distribucion normalDistribucion normal
Distribucion normal
 

Ähnlich wie Presentación Distribuciones de Muestreo para Estimadores Lineales

E10_RLineal_R01.ppt
E10_RLineal_R01.pptE10_RLineal_R01.ppt
E10_RLineal_R01.pptCesarPiza2
 
The fisher assumptions and how to check them
The fisher assumptions and how to check themThe fisher assumptions and how to check them
The fisher assumptions and how to check themAlex
 
Desviacion estandar
Desviacion estandarDesviacion estandar
Desviacion estandaroaca54
 
Desviacion estandar
Desviacion estandarDesviacion estandar
Desviacion estandaroaca54
 
Investigación tema 5
Investigación tema 5Investigación tema 5
Investigación tema 5CarmenAlonzo7
 
Variables aleatorias y sus distribuciones de Probabilidad.pptx
Variables aleatorias y sus distribuciones de Probabilidad.pptxVariables aleatorias y sus distribuciones de Probabilidad.pptx
Variables aleatorias y sus distribuciones de Probabilidad.pptxAlejandro Sanchez Cadena
 
Pruebas de bondad de ajuste
Pruebas de bondad de ajustePruebas de bondad de ajuste
Pruebas de bondad de ajusteCarlos Becerra
 
COEFICIENTES DE CORRELACIÓN DE PEARSON Y DE SPERMAN
COEFICIENTES DE CORRELACIÓN DE PEARSON Y DE SPERMANCOEFICIENTES DE CORRELACIÓN DE PEARSON Y DE SPERMAN
COEFICIENTES DE CORRELACIÓN DE PEARSON Y DE SPERMANJuleidy Castro
 
Spearman pearson
Spearman pearsonSpearman pearson
Spearman pearsonJuan H
 
Distribuciones2 de probabilidad.lm
Distribuciones2 de probabilidad.lmDistribuciones2 de probabilidad.lm
Distribuciones2 de probabilidad.lmLMartiinez
 

Ähnlich wie Presentación Distribuciones de Muestreo para Estimadores Lineales (20)

E10_RLineal_R01.ppt
E10_RLineal_R01.pptE10_RLineal_R01.ppt
E10_RLineal_R01.ppt
 
E10_RLineal_R01.ppt
E10_RLineal_R01.pptE10_RLineal_R01.ppt
E10_RLineal_R01.ppt
 
E10_RLineal_R01.ppt
E10_RLineal_R01.pptE10_RLineal_R01.ppt
E10_RLineal_R01.ppt
 
Regresion lineal ppt
Regresion lineal pptRegresion lineal ppt
Regresion lineal ppt
 
Tema9disenos
Tema9disenosTema9disenos
Tema9disenos
 
The fisher assumptions and how to check them
The fisher assumptions and how to check themThe fisher assumptions and how to check them
The fisher assumptions and how to check them
 
Coeficiente de correlacion
Coeficiente de correlacionCoeficiente de correlacion
Coeficiente de correlacion
 
Coeficiente de correlacion
Coeficiente de correlacionCoeficiente de correlacion
Coeficiente de correlacion
 
Desviacion estandar
Desviacion estandarDesviacion estandar
Desviacion estandar
 
Desviacion estandar
Desviacion estandarDesviacion estandar
Desviacion estandar
 
Probabilidad 3
Probabilidad 3 Probabilidad 3
Probabilidad 3
 
Correlación PEARSON
Correlación PEARSONCorrelación PEARSON
Correlación PEARSON
 
Investigación tema 5
Investigación tema 5Investigación tema 5
Investigación tema 5
 
Variables aleatorias y sus distribuciones de Probabilidad.pptx
Variables aleatorias y sus distribuciones de Probabilidad.pptxVariables aleatorias y sus distribuciones de Probabilidad.pptx
Variables aleatorias y sus distribuciones de Probabilidad.pptx
 
Analisis numerico pag web
Analisis numerico pag webAnalisis numerico pag web
Analisis numerico pag web
 
Pruebasdebondaddeajuste 151127221517-lva1-app6891
Pruebasdebondaddeajuste 151127221517-lva1-app6891Pruebasdebondaddeajuste 151127221517-lva1-app6891
Pruebasdebondaddeajuste 151127221517-lva1-app6891
 
Pruebas de bondad de ajuste
Pruebas de bondad de ajustePruebas de bondad de ajuste
Pruebas de bondad de ajuste
 
COEFICIENTES DE CORRELACIÓN DE PEARSON Y DE SPERMAN
COEFICIENTES DE CORRELACIÓN DE PEARSON Y DE SPERMANCOEFICIENTES DE CORRELACIÓN DE PEARSON Y DE SPERMAN
COEFICIENTES DE CORRELACIÓN DE PEARSON Y DE SPERMAN
 
Spearman pearson
Spearman pearsonSpearman pearson
Spearman pearson
 
Distribuciones2 de probabilidad.lm
Distribuciones2 de probabilidad.lmDistribuciones2 de probabilidad.lm
Distribuciones2 de probabilidad.lm
 

Kürzlich hochgeladen

Sesión de aprendizaje Planifica Textos argumentativo.docx
Sesión de aprendizaje Planifica Textos argumentativo.docxSesión de aprendizaje Planifica Textos argumentativo.docx
Sesión de aprendizaje Planifica Textos argumentativo.docxMaritzaRetamozoVera
 
Qué es la Inteligencia artificial generativa
Qué es la Inteligencia artificial generativaQué es la Inteligencia artificial generativa
Qué es la Inteligencia artificial generativaDecaunlz
 
Registro Auxiliar - Primaria 2024 (1).pptx
Registro Auxiliar - Primaria  2024 (1).pptxRegistro Auxiliar - Primaria  2024 (1).pptx
Registro Auxiliar - Primaria 2024 (1).pptxFelicitasAsuncionDia
 
ACUERDO MINISTERIAL 078-ORGANISMOS ESCOLARES..pptx
ACUERDO MINISTERIAL 078-ORGANISMOS ESCOLARES..pptxACUERDO MINISTERIAL 078-ORGANISMOS ESCOLARES..pptx
ACUERDO MINISTERIAL 078-ORGANISMOS ESCOLARES..pptxzulyvero07
 
AFICHE EL MANIERISMO HISTORIA DE LA ARQUITECTURA II
AFICHE EL MANIERISMO HISTORIA DE LA ARQUITECTURA IIAFICHE EL MANIERISMO HISTORIA DE LA ARQUITECTURA II
AFICHE EL MANIERISMO HISTORIA DE LA ARQUITECTURA IIIsauraImbrondone
 
Valoración Crítica de EEEM Feco2023 FFUCV
Valoración Crítica de EEEM Feco2023 FFUCVValoración Crítica de EEEM Feco2023 FFUCV
Valoración Crítica de EEEM Feco2023 FFUCVGiustinoAdesso1
 
Ejercicios de PROBLEMAS PAEV 6 GRADO 2024.pdf
Ejercicios de PROBLEMAS PAEV 6 GRADO 2024.pdfEjercicios de PROBLEMAS PAEV 6 GRADO 2024.pdf
Ejercicios de PROBLEMAS PAEV 6 GRADO 2024.pdfMaritzaRetamozoVera
 
Programacion Anual Matemática5 MPG 2024 Ccesa007.pdf
Programacion Anual Matemática5    MPG 2024  Ccesa007.pdfProgramacion Anual Matemática5    MPG 2024  Ccesa007.pdf
Programacion Anual Matemática5 MPG 2024 Ccesa007.pdfDemetrio Ccesa Rayme
 
TIPOLOGÍA TEXTUAL- EXPOSICIÓN Y ARGUMENTACIÓN.pptx
TIPOLOGÍA TEXTUAL- EXPOSICIÓN Y ARGUMENTACIÓN.pptxTIPOLOGÍA TEXTUAL- EXPOSICIÓN Y ARGUMENTACIÓN.pptx
TIPOLOGÍA TEXTUAL- EXPOSICIÓN Y ARGUMENTACIÓN.pptxlclcarmen
 
Imperialismo informal en Europa y el imperio
Imperialismo informal en Europa y el imperioImperialismo informal en Europa y el imperio
Imperialismo informal en Europa y el imperiomiralbaipiales2016
 
plan de capacitacion docente AIP 2024 clllll.pdf
plan de capacitacion docente  AIP 2024          clllll.pdfplan de capacitacion docente  AIP 2024          clllll.pdf
plan de capacitacion docente AIP 2024 clllll.pdfenelcielosiempre
 
Plan Refuerzo Escolar 2024 para estudiantes con necesidades de Aprendizaje en...
Plan Refuerzo Escolar 2024 para estudiantes con necesidades de Aprendizaje en...Plan Refuerzo Escolar 2024 para estudiantes con necesidades de Aprendizaje en...
Plan Refuerzo Escolar 2024 para estudiantes con necesidades de Aprendizaje en...Carlos Muñoz
 
Criterios ESG: fundamentos, aplicaciones y beneficios
Criterios ESG: fundamentos, aplicaciones y beneficiosCriterios ESG: fundamentos, aplicaciones y beneficios
Criterios ESG: fundamentos, aplicaciones y beneficiosJonathanCovena1
 
Programacion Anual Matemática4 MPG 2024 Ccesa007.pdf
Programacion Anual Matemática4    MPG 2024  Ccesa007.pdfProgramacion Anual Matemática4    MPG 2024  Ccesa007.pdf
Programacion Anual Matemática4 MPG 2024 Ccesa007.pdfDemetrio Ccesa Rayme
 
ACERTIJO DE LA BANDERA OLÍMPICA CON ECUACIONES DE LA CIRCUNFERENCIA. Por JAVI...
ACERTIJO DE LA BANDERA OLÍMPICA CON ECUACIONES DE LA CIRCUNFERENCIA. Por JAVI...ACERTIJO DE LA BANDERA OLÍMPICA CON ECUACIONES DE LA CIRCUNFERENCIA. Por JAVI...
ACERTIJO DE LA BANDERA OLÍMPICA CON ECUACIONES DE LA CIRCUNFERENCIA. Por JAVI...JAVIER SOLIS NOYOLA
 
Ley 21.545 - Circular Nº 586.pdf circular
Ley 21.545 - Circular Nº 586.pdf circularLey 21.545 - Circular Nº 586.pdf circular
Ley 21.545 - Circular Nº 586.pdf circularMooPandrea
 
Cuaderno de trabajo Matemática 3 tercer grado.pdf
Cuaderno de trabajo Matemática 3 tercer grado.pdfCuaderno de trabajo Matemática 3 tercer grado.pdf
Cuaderno de trabajo Matemática 3 tercer grado.pdfNancyLoaa
 
Estrategia de prompts, primeras ideas para su construcción
Estrategia de prompts, primeras ideas para su construcciónEstrategia de prompts, primeras ideas para su construcción
Estrategia de prompts, primeras ideas para su construcciónLourdes Feria
 
plande accion dl aula de innovación pedagogica 2024.pdf
plande accion dl aula de innovación pedagogica 2024.pdfplande accion dl aula de innovación pedagogica 2024.pdf
plande accion dl aula de innovación pedagogica 2024.pdfenelcielosiempre
 

Kürzlich hochgeladen (20)

Sesión de aprendizaje Planifica Textos argumentativo.docx
Sesión de aprendizaje Planifica Textos argumentativo.docxSesión de aprendizaje Planifica Textos argumentativo.docx
Sesión de aprendizaje Planifica Textos argumentativo.docx
 
Qué es la Inteligencia artificial generativa
Qué es la Inteligencia artificial generativaQué es la Inteligencia artificial generativa
Qué es la Inteligencia artificial generativa
 
Registro Auxiliar - Primaria 2024 (1).pptx
Registro Auxiliar - Primaria  2024 (1).pptxRegistro Auxiliar - Primaria  2024 (1).pptx
Registro Auxiliar - Primaria 2024 (1).pptx
 
ACUERDO MINISTERIAL 078-ORGANISMOS ESCOLARES..pptx
ACUERDO MINISTERIAL 078-ORGANISMOS ESCOLARES..pptxACUERDO MINISTERIAL 078-ORGANISMOS ESCOLARES..pptx
ACUERDO MINISTERIAL 078-ORGANISMOS ESCOLARES..pptx
 
AFICHE EL MANIERISMO HISTORIA DE LA ARQUITECTURA II
AFICHE EL MANIERISMO HISTORIA DE LA ARQUITECTURA IIAFICHE EL MANIERISMO HISTORIA DE LA ARQUITECTURA II
AFICHE EL MANIERISMO HISTORIA DE LA ARQUITECTURA II
 
Valoración Crítica de EEEM Feco2023 FFUCV
Valoración Crítica de EEEM Feco2023 FFUCVValoración Crítica de EEEM Feco2023 FFUCV
Valoración Crítica de EEEM Feco2023 FFUCV
 
Ejercicios de PROBLEMAS PAEV 6 GRADO 2024.pdf
Ejercicios de PROBLEMAS PAEV 6 GRADO 2024.pdfEjercicios de PROBLEMAS PAEV 6 GRADO 2024.pdf
Ejercicios de PROBLEMAS PAEV 6 GRADO 2024.pdf
 
Programacion Anual Matemática5 MPG 2024 Ccesa007.pdf
Programacion Anual Matemática5    MPG 2024  Ccesa007.pdfProgramacion Anual Matemática5    MPG 2024  Ccesa007.pdf
Programacion Anual Matemática5 MPG 2024 Ccesa007.pdf
 
TIPOLOGÍA TEXTUAL- EXPOSICIÓN Y ARGUMENTACIÓN.pptx
TIPOLOGÍA TEXTUAL- EXPOSICIÓN Y ARGUMENTACIÓN.pptxTIPOLOGÍA TEXTUAL- EXPOSICIÓN Y ARGUMENTACIÓN.pptx
TIPOLOGÍA TEXTUAL- EXPOSICIÓN Y ARGUMENTACIÓN.pptx
 
Imperialismo informal en Europa y el imperio
Imperialismo informal en Europa y el imperioImperialismo informal en Europa y el imperio
Imperialismo informal en Europa y el imperio
 
plan de capacitacion docente AIP 2024 clllll.pdf
plan de capacitacion docente  AIP 2024          clllll.pdfplan de capacitacion docente  AIP 2024          clllll.pdf
plan de capacitacion docente AIP 2024 clllll.pdf
 
Plan Refuerzo Escolar 2024 para estudiantes con necesidades de Aprendizaje en...
Plan Refuerzo Escolar 2024 para estudiantes con necesidades de Aprendizaje en...Plan Refuerzo Escolar 2024 para estudiantes con necesidades de Aprendizaje en...
Plan Refuerzo Escolar 2024 para estudiantes con necesidades de Aprendizaje en...
 
Criterios ESG: fundamentos, aplicaciones y beneficios
Criterios ESG: fundamentos, aplicaciones y beneficiosCriterios ESG: fundamentos, aplicaciones y beneficios
Criterios ESG: fundamentos, aplicaciones y beneficios
 
Programacion Anual Matemática4 MPG 2024 Ccesa007.pdf
Programacion Anual Matemática4    MPG 2024  Ccesa007.pdfProgramacion Anual Matemática4    MPG 2024  Ccesa007.pdf
Programacion Anual Matemática4 MPG 2024 Ccesa007.pdf
 
Unidad 3 | Metodología de la Investigación
Unidad 3 | Metodología de la InvestigaciónUnidad 3 | Metodología de la Investigación
Unidad 3 | Metodología de la Investigación
 
ACERTIJO DE LA BANDERA OLÍMPICA CON ECUACIONES DE LA CIRCUNFERENCIA. Por JAVI...
ACERTIJO DE LA BANDERA OLÍMPICA CON ECUACIONES DE LA CIRCUNFERENCIA. Por JAVI...ACERTIJO DE LA BANDERA OLÍMPICA CON ECUACIONES DE LA CIRCUNFERENCIA. Por JAVI...
ACERTIJO DE LA BANDERA OLÍMPICA CON ECUACIONES DE LA CIRCUNFERENCIA. Por JAVI...
 
Ley 21.545 - Circular Nº 586.pdf circular
Ley 21.545 - Circular Nº 586.pdf circularLey 21.545 - Circular Nº 586.pdf circular
Ley 21.545 - Circular Nº 586.pdf circular
 
Cuaderno de trabajo Matemática 3 tercer grado.pdf
Cuaderno de trabajo Matemática 3 tercer grado.pdfCuaderno de trabajo Matemática 3 tercer grado.pdf
Cuaderno de trabajo Matemática 3 tercer grado.pdf
 
Estrategia de prompts, primeras ideas para su construcción
Estrategia de prompts, primeras ideas para su construcciónEstrategia de prompts, primeras ideas para su construcción
Estrategia de prompts, primeras ideas para su construcción
 
plande accion dl aula de innovación pedagogica 2024.pdf
plande accion dl aula de innovación pedagogica 2024.pdfplande accion dl aula de innovación pedagogica 2024.pdf
plande accion dl aula de innovación pedagogica 2024.pdf
 

Presentación Distribuciones de Muestreo para Estimadores Lineales

  • 1. Distribuciones De Muestreo Para Estimadores Lineales Curso de Estadística ProfesorBalbinoGarcía Bernal WadiAdamesRomán
  • 2. Confiabilidad del 95% y su relación a la familia t
  • 3. Cada intervalo de confiabilidad que se construye es Acertado (un “Hit”) o Errado (“Miss”). Si se considera un modelo ideal de ANOVA como una especie de mecanismo de “chance” para crear conjuntos de datos, donde los posibles resultados sean Acertado o Errado, entonces para un intervalo propiamente construido, un 95% de confiablidad significa que hay un chance del 95% de que el resultado sea Acertado.
  • 4. Recordemos que en la realidad esto significa que si utilizáramos el mismo modelo y suposiciones para crear muchos conjuntos de datos e intervalos, entonces “a largo plazo”, el 95% de los intervalos sería Acertado.
  • 5. O sea Mecanismo: Modelo ANOVA Summary: Acertado o Errado, para un intervalo con un 95% de confiabilidad Distribución: “Chance” de que sea Acertado = 95%; “Chance” de que sea Errado = 5%
  • 6. Todo esto se refiere en cierta medida a una proposición mucho más básica. Mecanismo: Modelo ANOVA Summary: (Estimador Lineal – Verdadero Valor)/SE Distribución: familia t (Estimador Lineal se abreviará por Est)
  • 7. Este SummaryOutcome se parece al Estandarizado visto en la sección 3: (Outcome – EV)/SD* donde Verdadero Valor sería el EV y SE el SD*.
  • 8. Hay diferencias pues el SD* es un verdadero valor del modelo, mientras que el SE es un estimado SE = SD(SSWeights)1/2 donde SD = (MSRes)1/2 (este último se calcula a partir de la data)
  • 9. Nota: Llamaremos Distancia Estándar Estimada a la expresión (Estimador Lineal – Verdadero Valor)/SE Diremos por esto que el estimador lineal se ha convertido a Unidades Estándares Estimadas.
  • 10. O sea: Las Unidades Estándares Estimadas indican la distancia del EV, medida en SE’s. Distancia = Valor – EV Distancia Estándar = Distancia/Verdadero SE* Distancia Estándar Estimada = Distancia/SE Estimado
  • 11. Si usamos este lenguaje entonces se puede decir que: Para cualquier estimador lineal de un modelo ideal ANOVA, la Distancia Estándar Estimada tiene una distribución t.
  • 12. Entonces, si observamos lo que significa “apuntarse” un “Hit” (acertar), se tiene que: Para cualquier número positivo t: El intervalo Est ± SE·t cubre el verdadero valor si y solo si |(Est – Verdadero Valor)/SE| < t
  • 13. Esto quiere decir que el “chance acertar es igual al chance de que |(Est – Verdadero Valor)/SE| < t. Entonces, si (Est – Verdadero Valor)/SE tiene una distribución t, se puede determinar el número t que hace que el “chance” de un “Hit” sea igual a 95%. ¿Cómo? Solo hay que tomar t igual al percentil 97.5ésimo de la distribución t.
  • 14.
  • 15. En resumen: Si (Est – Verdadero Valor)/SE tiene una distribución t, entonces hay un chance del 95% de que un intervalo de la forma Est ± SE·(elpercentil 97.5ésimo de la distribución t)contenga el verdadero valor.
  • 16. Distribuciones De Muestreo Aproximadas Para Razones-f
  • 17. Siempre que comparamos una razón-F de “mean squares” con una tabla de valores para así examinar una hipótesis nula, se está asumiendo que la razón de “mean squares” posee una distribución de muestreo que pertenece a la familia F. ¿Bajo qué condiciones es razonable asumir esto?
  • 18. En breve se puede decir que: Si un modelo es correcto de manera exacta (i.e., la estructura de factores y las suposiciones de Fisher describen el experimento exactamente) y la hipótesis nula es verdadera, entonces la razón-F tiene una distribución F. Sin embargo, para que esto ocurra hay dos requisitos:
  • 19. “Mean Squares” Esperados El primer requisito es que las dos “mean squares” en la razón deben tener los mismos valores esperados. El valor esperado de cualquier “mean square” se puede escribir como una suma de partes, donde cada parte es un número que mide la variabilidad asociada con alguno de los factores en el diseño que ha preparado el investigador. Si la razón de dos “mean squares” debe tener una distribución F entonces ambos “mean squares” deben tener exactamente las mismas partes en sus valores esperados.
  • 20. Si la hipótesis nula es falsa, los Valores Esperados no serán iguales, y la razón de los “mean squares” no seguirá una distribución F. Luego, la prueba F se reduce a determinar si una razón observada proviene o no de una distribución F. Si se entiende que no, se rechaza la hipótesis nula.
  • 21. El rol del modelo El segundo requisito se refiere al modelo en sí. Las razones-F que se calculan para una prueba ANOVA siempre son distintas, pues provienen de la descomposición lineal, y no de resultados independientes que son estándares y normales.
  • 22. Sin embargo, es posible demostrar que Si el modelo es correcto de manera exacta (i.e., la estructura de factores y las suposiciones de Fisher están de acuerdo con la data), si además se posee el denominador MS correcto y si la hipótesis nula es verdadera, entonces la razón-F tiene una distribución F.
  • 23. El problema es que no hay modelos que sean exactamente correctos. Por tanto, para llegar de un experimento de la vida real a una distribución F, hay que superar dos obstáculos, primero del experimento al modelo ideal ANOVA, y segundo del modelo ANOVA a la distribución F. Nos ocuparemos del segundo obstáculo, a modo de “sketch” de una demostración, pues lo concerniente al otro se explicó ya con anterioridad.
  • 24. El mecanismo ideal crea valores observados como tiradas independientes de una “caja” de error normal estándar. Hay 4 cosas importantes para desarrollar esta prueba. La misma debe mostrar que los “mean squares” que se calculen en una ANOVA se comportan como si se hubieran construidos a partir de términos que posean esas 4 propiedades.
  • 25. 1. EV = 0 En un diseño balanceado, los efectos estimados para cada factor aparte de la media siempre suman a cero. Entonces, la manera en que la descomposición lineal se lleva a cabo hace que al cuadrar los números, estos se comporten como si EV = 0.
  • 26. 2. Dispersión: SD* = 1 En la práctica la SD* de un conjunto de datos es desconocido y lo más seguro que no es 1. Ahora, si los errores debidos al chance se comportan como si SD* fuera constante, entonces no hace falta que esa constante sea 1. Esto se debe a que podemos calcular una razón de “mean squares” para así conseguir la F-estadística (o estadístico-F). Ya que el verdadero SD* aparece tanto en el numerador como el denominador y por tanto se cancela, podemos prescindir de saber su verdadero valor.
  • 27. 3. Forma: La Normal En la realidad la forma no es la normal, pero se acerca lo suficiente. Inclusive si los residuales individuales no se aproximan a un patrón normal, mientras más observaciones se tengan, menos hace falta preocuparse por que los errores debidos al chance sean normales.
  • 28. 4. Relación: Independencia Por definición, las “tiradas” deberían ser independientes. Sin embargo, en general los números de una descomposición que se cuadran y suman para conseguir una suma de cuadrados suelen no ser independientes, pero están correlacionados. Esta correlación refleja una especie de superposición en la información que está contenida de por sí en los números que se cuadran y suman. Al dividir la suma de cuadrados por los grados de libertad df, en vez de por la cantidad de números que se cuadran, permite hacer el ajuste necesario para la superposición.
  • 29. Además, en la definición, debido a que las “tiradas” son independientes, así también los dos “mean squares”. Ahora, en la práctica, si el diseño es balanceado entonces los “mean squares” que se calculen serán independientes el uno del otro, tal como se requiere.
  • 30. Relación con las Suposiciones de Fisher: Utilizaremos las 4 propiedades antes descritas para establecer la relación entre las suposiciones de Fisher y la forma de la prueba-F.
  • 31. [Z]: Si los errores debidos al chance no cumplen EV = 0, entonces los efectos estimados que se obtienen al descomponer la data estarán sesgados. Esto hará el correspondiente “mean square” mayor de lo que debería ser. De esta forma se corre el riesgo de concluir como “real” un efecto que en realidad es parte del sesgo.
  • 32. [S]: Si los errores debidos al chance no poseen la misma SD*, la cancelación de las SD*’s que se necesita al determinar la razón-F no ocurrirá, y por consiguiente la razón no se comportará como si SD* = 1.
  • 33. [I]: Si los errores debidos al chance no son independientes, entonces los “mean squares” no alcanzarán los valores esperados correctos. Inclusive, podría darse que el numerador y denominador no sean independientes, lo cual es requerido por la definición. Por tanto, los valores críticos de una tabla F no serán los correctos para el conjunto de datos.
  • 34. [N]: Si los residuales no tienen una forma que se asemeje a la normal, los números que cuadremos para obtener las SS’s (sumas de cuadrados) no tendrán la forma de la curva normal. Además, si los por cientos de residuales grandes son mayores que los provistos por la regla basada en la curva normal, los cuadrados de estos residuales tendrán un efecto grandísimo en el comportamiento de los “mean squares” y así la distribución de la razón no será lo suficientemente cercana a una distribución-F real como para hacer confiables los valores críticos.
  • 35. [A & C]: Si los efectos verdaderos no son constantes o aditivos, la descomposición que se lleve a cabo para determinar los “mean squares” no repartirá las observaciones en las partes correctas. Así, las tablas en la descomposición tendrán contribuciones de factores que no se supone contribuyan. En particular, los residuales quedarán contaminados por dichos factores, proveyendo estimados pobres para los errores que se deben al chance.
  • 36. ¿Por Qué (Y Cuándo) Son Razonables Los Modelos?
  • 37. Ahora veremos algunos ejemplos de tres de las justificaciones para los modelos de cajas y las suposiciones de Fisher: Muestreo de una población Medidas de error Aleatorización
  • 38. Muestreo de una población (“Samplingfrom a population”) Primero recordemos que: Población es todo el grupo de individuos que son de interés en el experimento. Muestra es el grupo de individuos que son observados en realidad. Para una muestra simple aleatoria, cada individuo en la población tiene el mismo chance de ser seleccionado. Todas las posibles muestras son igualmente probables.
  • 39. El ejemplo más idóneo de un muestreo simple aleatorio es el modelo de cajas. La población es una caja de boletos enumerados. La muestra es el conjunto de tiradas (aquí nos referimos por tiradas al proceso de sacar el boleto de la caja). Si se saca un boleto al azar, devolviéndolo de nuevo a la caja luego de observar qué número salió (reemplazo), y mezclando (barajeando) los boletos antes de cada tirada, se obtiene una muestra simple aleatoria.
  • 40. Cuando un diseño exige que los individuos sean seleccionados, entonces mientras más se pueda lograr que el proceso de selección se comporte como el proceso antes descrito, mejor concordarán el modelo estándar y las suposiciones con la data obtenida.
  • 41. Nota: Supóngase que se desean seleccionar 100 estudiantes de esta universidad para que formen parte de un experimento. Sería fácil buscar 100 estudiantes entre los que uno conoce y los que amigos de estos. También podríamos publicar un anuncio invitando al experimento y escoger los primeros 100 voluntarios, etc. Sin embargo, estos métodos de selección no son como el modelo de cajas, y no suponen necesariamente una buena selección.
  • 42. En realidad haría falta (para que sea una muestra simple aleatoria) tener la lista de todos los estudiantes de la universidad, enumerarlos, y entonces usar una tabla de números aleatorios para escoger los 100 estudiantes que participarán del estudio.
  • 43. Este último ejemplo envolvía solo una población. ¿Cómo el muestreo simple aleatorio (al azar) conduce al modelo y a las suposiciones estándar?
  • 44. Ejemplo: Supongamos que se tienen dos poblaciones, cada una con 4 individuos. Asumamos también que no hay aleatorización o ambigüedad en el proceso de medición (para el modelo de muestreo ideal, toda aleatoriedad provine del proceso de seleccionar individuos de las poblaciones).
  • 45. El factor de interés tiene dos niveles, A y B, correspondiendo a las dos poblaciones. La población A tiene 4 individuos cuyos valores de respuesta son 3, 4, 4 y 5. La población B tiene 4 individuos también, con valores 5, 6, 6 y 7.
  • 46.
  • 47. En la figura se ve una ANOVA de una dirección (muestreo simple aleatorio de dos poblaciones). Si las observaciones se escogen (al azar y CON REEMPLAZO)de las poblaciones A y B, entonces la data concuerda con el modelo ANOVA estándar que se ve a la derecha en la figura, el cual satisface las suposiciones de EV = 0, de iguales SD*’s, independencia, aditividad y efectos que son constantes. Si la distribución de valores de respuesta en cada población es normal, entonces las seis suposiciones son satisfechas.
  • 48. Observaciones importantes: En la mayoría de las ocasiones no ocurre que las poblaciones tengan el mismo tamaño. Sin embargo, en la mayoría de los casos estas son muy grandes, lo que hace que su tamaño real sea sin importancia en lo que concierne al modelo estándar.
  • 49. ¿Por qué se insiste en el muestreo con reemplazo? ¿No se corre el riesgo de seleccionar más de una vez el mismo individuo?
  • 50. Si las poblaciones son bien grandes, como ocurre en la mayoría de los estudios, no hace gran diferencia si se realiza el muestreo con o sin reemplazo. Claro, si se lleva a cabo el muestreo sin reemplazo, el chance de escoger el mismo individuo más de una vez es cero. Sin embargo, cuando las poblaciones son grandes, el chance de seleccionar el mismo individuo más de una vez estará tan cerca de cero, que llevar a cabo el muestreo con reemplazo hará poca diferencia.
  • 51. ¿Qué se gana entonces utilizando la técnica de reemplazo? Permite hacer sencilla la teoría.
  • 52. Ya que en la práctica no se pueden realizar las mediciones a cada individuo en la población, no es posible conocer cómo están distribuidos los valores de esta. Hay un problema: una de las suposiciones de Fisher es precisamente que los errores debidos al chance deben seguir una distribución normal.¿Cómo resolvemos esto?
  • 53. En primer lugar si se escoge la escala correcta para la respuesta, la distribución en la población será aproximadamente la de la normal. En segundo lugar, aún si la distribución no sigue una curva normal, las suposiciones estándar llevan por lo general a aproximaciones de los valores críticos que son razonables (para conjuntos de datos no pequeños).
  • 54. Es importante notar que en el ejemplo antes visto, las desviaciones de la media son iguales. Por lo general esto no ocurre. Lo importantes es que las SD’s sean aproximadamente iguales.
  • 55. Población y Marco Muestral Ahora, cuando las poblaciones son tan grandes, ¿hace sentido realizar el muestreo con la población misma? El problema no es solo el tamaño de las poblaciones, sino que a veces estas son difíciles de determinar.
  • 56. Por ejemplo, supongamos que se desea preparar una prueba para seleccionar donantes de sangre y se quiere determinar aquellos que tengan hepatitis (y por tanto no puedan donar sangre). Resulta que aquellos que padecen la enfermedad tienden a tener una alta concentración de una enzima, la Transaminasa SeroGlutamínicaPirúvica (SGTP por sus siglas en inglés).
  • 57. Si estamos en particular interesados en aquellas personas por encima de 18 años que sean portadores de la enfermedad en Puerto Rico, ¿quién tiene la lista completa de estas personas? Si tal lista existiera, entonces no haría falta siquiera medir los niveles de SGPT.
  • 58. Incluso si la lista existiera, y se decidiera pasar el trabajo de usar números aleatorios (“randomnumbers”) para seleccionar personas al azar, sería posible rastrear cada uno de ellos.
  • 59. Ejemplos similares abundan: ¿quién tiene la lista de todos los usuarios de crack en Ponce, o la lista de todas los coquíes en San Sebastián, etc?
  • 60. En resumen veamos los problemas que conlleva el modelo ideal de llevar a cabo un muestreo simple aleatorio partiendo directamente de la población (estos están más allá de lo que es posible en la práctica).
  • 61. El Marco no es igual a la Población (en términos representativos): Aquí el problema son los posibles sesgos. El grupo de individuos que es más fácil de listar y de dónde es más sencillo seleccionar puede ser atípico del grupo del que en realidad se quiere conocer.
  • 62. Las Muestras no son aleatorias: Por ejemplo, los estudios en Psicología utilizan muchas veces voluntarios. Estudios de laboratorios que envuelven animales muchas veces los toman de suplidoras de animales y por lo tanto no se seleccionan al azar.
  • 63. Los estudios de campo también presentan problemas, pues dependen de aquellos animales que está lo suficientemente hambrientos o que han sido poco cuidadosos y por eso han caído en la trampa, etc.
  • 64. Problemas más técnicos: SD’s no iguales y distribuciones no normales. Aquí hay solución, pues en muchas ocasiones es suficiente llevarlo todo a otra escala.
  • 65. Poblaciones pequeñas: Hemos enfatizado mucho sobre como las poblaciones grandes nos permiten acercarnos al modelo ideal teórico. Ahora, cuando las poblaciones son pequeñas, en realidad lo que tenemos es una ventaja (visto desde un cierto punto de vista). La razón es que entonces podemos llevar a cabo un muestreo que no envuelva reemplazo y se pueden utilizar muestras pequeñas.
  • 66. Claro, habría que hacer ajustes a la teoría, los cuales no se discutirán, pero que cualquier libro que trate de muestreo puede facilitar.
  • 67. Estos problemas nos muestran la importancia de distinguir entre Población y Marco Muestral. Población: Grupo completo de individuos sobre los que se desea conocer. Marco Muestral: Lista de todos los individuos de donde en realidad se hará la selección.
  • 68. En fin, si se usa un Marco Muestral para llevar a cabo un muestreo aleatorio, los métodos de estadística formal proveen una base lógica para hacer una generalización de la muestra al marco muestral.
  • 69. Ahora, no hay métodos formales para realizar tal generalización del marco a la población como tal. Para esto solo queda utilizar el juicio personal del investigador acerca de qué tan bien el marco representa a la población.
  • 70. Medidas de Error y el Modelo basado en ellas
  • 71. En la práctica son pocas las medidas que no conllevan cierta incertidumbre. En muchos caso el proceso de llevar acabo medidas se comporta como el de realizar el muestreo con la población. Para la versión pura del modelo basado en medidas de error, pensaremos a los individuos como ya escogidos de antemano, y en ese sentido son fijos.
  • 72. La aleatoriedad proviene del proceso de medir y no de la selección de individuos. O sea, visto de modo abstracto, los modelos para el muestreo y el proceso de mediciones son el mismo.
  • 73. En ambos casos: los objetos de interés son colecciones fijas de números el proceso de obtener la información tiene que ver con escoger al azar de esas colecciones Para este modelo, que se basa en las medidas de error, la colección fija de números será el conjunto hipotético de todos los posibles valores para el proceso de medición.
  • 74. Hay dos versiones extremas de este modelo el conjunto de valores proviene de cambios impredecibles en el individuo los valores provienen de cambios impredecibles en el proceso mismo de llevar a cabo las medidas
  • 75. Ejemplos: Si se está estudiando la presión sanguínea, los cambios en las medidas provienen del individuo, pues la presión cambia todo el tiempo. Si se consideran las Olimpiadas, los cambios proceden de los instrumentos que llevan a cabo las medidas, en este caso los jueces.
  • 77. Para la tercera justificación, la cual se basa solo en la aleatorización, consideraremos como dados (y por tanto fijos) tanto a los individuos como a los errores de medida. El chance provendrá del uso de un diseño o mecanismo de chance para asignar los individuos a los niveles del factor de interés.
  • 78. Las suposiciones que aseguran esta justificación son distintas de las suposiciones usuales de Fisher. Aún así hay suficiente evidencia de que los valores críticos de una tabla F proveen por lo general buenas aproximaciones para los valores críticos basados solo en la aleatorización.
  • 79. Ejemplo: Imaginemos un experimento donde lo que nos interesa son los niveles de bacterias en el piso de una sala. Hay dos posibilidades, el piso tiene alfombra o no tiene. Supongamos que se tiene 4 cuartos solamente y que mediante un mecanismo de chance se seleccionan dos cuartos a los que ponerle alfombra mientras que los otros se quedan sin ella. Vamos a asumir que se miden los niveles de bacteria y que obtenemos lo siguiente:
  • 80.
  • 81. Si se asume la estructura de factores usual y se descompone la data para luego calcular las razones F, se obtiene lo que sigue:
  • 82.
  • 83. Nuestra hipótesis nula es que los verdaderos efectos para “Con Alfombra” y “Sin Alfombra” son ambos cero. Si esto es así, cada valor observado iguala sigue la regla de Benchmark + Error.
  • 84. Además la cubierta del piso no afecta los valores observados. Supongamos que se ignora el proceso que crea los errores y que debido a que las alfombras no tienen efectos, el Cuarto 201 produce un cero (independientemente de lo que se le haga al piso. Similarmente el Cuarto 202 produce un 0, el 203 un 2 y el 204 un 8.
  • 85. Entonces, aún asumiendo que la hipótesis nula es verdadera, los valores que se obtienen para las razones F estarán completamente determinados por el mecanismo de chance que se use para signar los cuartos a los dos grupos (con Alfombra, sin Alfombra).
  • 86. De acuerdo a todo esto, el chance no proviene de los errores mismos, sino del proceso de aleatorización. Hay seis distintas maneras de sortear los 4 cuartos mediante un mecanismo de chance. Recuerde que así cada una de las 6 es igualmente probable.
  • 87.
  • 88. Este simple ejemplo ilustra dos propiedades muy importantes acerca de este tipo de muestreo que se basa puramente en la aleatorización: 1) SSCond + SSRes es constante (en el ejemplo ambas sumas son iguales a 68) 2) EMSCond = EMSRes (en este ejemplo ambos son 22.67)
  • 89. En fin tenemos una distribución de muestreo para la razón-F sin asumir nada acerca de cómo los errores se producen. Solo utilizamos la hipótesis nula y el proceso de asignar los cuartos mediante el chance.
  • 90. RESUMEN Hemos visto tres justificaciones para los modelos estándares de cajas. En la primera, la aleatorización se asume proviene del proceso de selección de individuos a ser medidos. En la segunda, la aleatorización se debe del proceso de medir los individuos (de las mediciones) sin importar cómo se escogen estos. En la tercera la aleatorización nos llega del proceso de asignar individuos a las condiciones (lo que vimos con las cuarto con alfombras o sin ellas) sin preocuparnos de cómo los individuos fuero escogidos o como se realizaron las medidas.
  • 91. Bibliografía: George W. Cobb (1998) Introduction to Design and Analysis of Experiments; Secciones 15.4-15.6; Springer