La estadística es la rama de las matemáticas que se ocupa de reunir, organizar y analizar datos numéricos para resolver problemas y tomar decisiones. Incluye métodos para la recopilación y representación de datos de una población, así como técnicas para hacer estimaciones e inferencias sobre la población basadas en una muestra. El objetivo es obtener conclusiones fundamentadas que permitan tomar las decisiones más adecuadas.
Estudio de Impacto Ambiental Definitivo Ex - Post MOCOLÍ
Antologia de probabilidad y estadistica
1. INSTITUTO TECNOLÓGICO SUPERIOR
de Acayucan
Asignatura: Probabilidad y estadística
Clave de la asignatura: SCC - 0424
Carrera: Ingeniería en Sistemas Computacionales
ANTOLOGIA
Presenta:
ING. ULISES GIRON JIMENEZ
ACAYUCAN, VER. JUNIO 2008
2. Probabilidad y Estadística
Ing. Ulises Girón Jiménez
3. INDICE
OBJETIVO GENERAL............................................................................... 10
JUSTIFICACION........................................................................................ 11
UNIDAD 1 ESTADISTICA DESCRIPTIVA…………………….....…………………….... 12
1.1 Conceptos básicos de estadística…………………....……................... 13
1.1.1 Definición de estadística............................................................. 13
1.1.2 Inferencia estadística.................................................................. 16
1.1.3 Teoría de decisión...................................................................... 16
1.1.4 Población.................................................................................... 16
1.1.5 Muestra aleatoria........................................................................ 20
1.1.6 Parámetros aleatorios................................................................. 20
1.1.7 Enfoque clásico........................................................................... 20
1.1.8 Enfoque Bayesiano..................................................................... 21
1.2 Descripción de datos………….....……………………………………… 22
1.2.1 Datos agrupados y no agrupados............................................... 22
1.2.2 Frecuencia de clase.................................................................... 22
1.2.3 Frecuencia relativa...................................................................... 22
1.2.4 Punto medio................................................................................ 23
III
4. 1.2.5 Límites........................................................................................ 23
1.2.6 Histograma.................................................................................. 23
1.2.7 Histograma de frecuencia relativa.............................................. 24
1.3 Medidas de tendencia central…………………………………………… 25
1.3.1 Media aritmética, geométrica y ponderada................................. 25
1.3.2 Mediana...................................................................................... 29
1.3.3 Moda........................................................................................... 31
1.4 Medidas de dispersión……………………………………………………. 35
1.4.1 Varianza...................................................................................... 35
1.4.2 Desviación estándar................................................................... 36
1.4.3 Desviación media........................................................................ 38
1.4.4 Desviación mediana.................................................................... 38
1.4.5 Rango......................................................................................... 38
1.5 Parámetros para datos agrupados……………………………………… 39
1.5.1 La media..................................................................................... 39
1.5.2 La desviación típica.................................................................... 39
1.6 Distribución de frecuencias………………………………...……………. 41
1.6.1 Distribuciones numéricas............................................................ 42
1.6.2 Distribuciones categóricas.......................................................... 43
1.6.3 Distribuciones acumuladas......................................................... 44
1.6.4 Distribuciones porcentuales........................................................ 44
1.6.5 Distribuciones porcentuales acumuladas................................... 45
IV
5. 1.7 Técnicas de agrupación de datos………………………...…………… 46
1.7.1 Límites de clase.......................................................................... 46
1.7.2 Rango de clase........................................................................... 46
1.7.3 Fronteras de clase...................................................................... 46
1.7.4 Marca de clase............................................................................ 47
1.7.5 Intervalo de clase………............................................................ 47
1.7.6 Diagrama de tallos y hojas ………………………………………... 50
1.7.7. Diagrama de Pareto.................................................................. 52
1.7.8 Diagrama de puntos................................................................... 59
1.8 Histograma……………......………………………………………………. 59
1.8.1 Diagrama de barras.................................................................... 59
1.8.2 Polígono de frecuencias............................................................. 59
1.8.3 Ojivas......................................................................................... 60
1.8.4 Gráficas circulares...................................................................... 61
1.9 Distribuciones muéstrales………………………...……………………… 62
UNIDAD 2 PROBABILIDAD……….……………………………………………………… 65
2.1 Teoría elemental de probabilidad………………………...……....…… 66
2.1.1 Concepto clásico y como frecuencia relativa.............................. 66
2.1.2 Interpretación subjetiva de la probabilidad................................. 69
2.2 Probabilidad de eventos……………………………......……………… 69
2.2.1 Definición de espacio muestral................................................... 69
V
6. 2.2.2 Discreto y continuo..................................................................... 71
2.2.3 Definición de evento................................................................... 71
2.2.4 Simbología, uniones e intersecciones........................................ 71
2.2.5 Diagramas de Venn.................................................................... 71
2.3 Técnicas de conteo………………….…………………………………… 72
2.3.1 Diagrama de árbol...................................................................... 76
2.3.2 Notación factorial........................................................................ 80
2.3.3 Permutación................................................................................ 81
2.3.4 Combinaciones........................................................................... 91
2.4 Probabilidad con técnicas de conteo…………………………………… 100
2.4.1 Axiomas...................................................................................... 100
2.4.2 Teoremas.................................................................................... 100
2.5 Probabilidad condicional………...……………………………………… 101
2.5.1 Dependiente................................................................................ 101
2.5.2 Independiente............................................................................. 110
2.6 Eventos Independientes……...………………………………………… 113
2.6.1 Regla de Bayes........................................................................... 113
UNIDAD 3 FUNCIONES Y DISTRIBUCIONES MUESTRALES………………......…. 121
3.1 Función de probabilidad………..………………………………………… 121
3.1.1 Variables aleatorias discretas..................................................... 121
VI
7. 3.1.2 Variables aleatorias continúas.................................................... 122
3.2 Distribución Binomial…………………….…………....………………….
123
3.2.1 Conceptos de ensayos de Bernoulli........................................... 123
129
3.3 Distribución Hipergeométrica……………………………………………
3.4 Distribución de Poisson…………………………..……………………… 132
3.5 Esperanza matemática…………………….……………………………
139
3.6 Distribución normal…………………………….………………………… 146
3.6.1 Distribución de la probabilidad continúa..................................... 146
3.7 Aproximación de la Binomial a la normal…………………………… 156
3.8 Otras distribuciones muéstrales…………………….…………………… 161
3.8.1 Distribución T- Student............................................................... 161
3.8.2 Distribución X cuadrada.............................................................. 162
UNIDAD 4 ESTADÍSTICA APLICADA………………...………………………………… 170
4.1 Inferencia estadística………………….....………………………………
171
4.1.1 Concepto..................................................................................... 171
4.1.2 Estimación.................................................................................. 171
4.1.3 Prueba de hipótesis.................................................................... 171
4.1.4 Método clásico de estimación (puntual)...................................... 172
4.1.5 Estimador Insesgado.................................................................. 172
4.2 Intervalos de confianza…………………………………………………… 172
VII
8. 4.2.1 Estimación por intervalo.............................................................. 172
4.2.2 Límites de confianza................................................................... 173
4.2.3 Intervalo de confianza para una media....................................... 174
4.2.4 Intervalo de confianza para una diferencia de medida............... 183
4.2.5 Intervalo de confianza para proporciones................................... 186
4.2.6. Intervalo de confianza para diferencia de proporciones………. 189
4.3 Pruebas de hipótesis………………………….....……………………… 196
4.3.1 Prueba de hipótesis para la media poblacional.......................... 203
4.3.2 Prueba de hipótesis para diferencias de medias........................ 214
4.3.3 Prueba de hipótesis para proporciones...................................... 220
4.3.4 Prueba de hipótesis para diferencia de proporciones................. 223
UNIDAD 5 REGRESIÓN Y CORRELACIÓN…………………………………………... 216
5.1 Introducción……………………………………………………………… 217
5.1.1 Gráficas de los datos.................................................................. 217
5.1.2 Variables de regresión independientes....................................... 218
5.1.3 Regresión lineal simple............................................................... 219
5.2 Diagrama de dispersión………………………………………………… 221
5.2.1 Tabla de datos............................................................................. 221
5.2.2. Construcción de Diagramas....................................................... 222
5.3. Estimación mediante la línea de regresión…………………………… 222
5.3.1. Ecuación de la recta como ajuste de datos............................... 222
VIII
9. 5.3.2. Modelos..................................................................................... 223
5.4. Métodos de mínimos cuadrados………………………………………… 223
5.4.1 Estimación de los coeficientes de regresión.............................. 224
5.5. Error estándar de estimación…………………………………………… 230
5.6. Coeficiente de determinación y correlación……………………………. 233
5.6.1. Coeficiente de determinación de la muestra............................. 233
5.6.2. Coeficiente de correlación de la muestra.................................. 238
5.7. Problemas prácticos de ajustes de curvas…………………………… 245
Anexos………………………………………………………………………….. 255
..
Bibliografía………….………………………………………………………… 262
…
IX
10. OBJETIVO GENERAL
El estudiante seleccionará modelos probabilísticas, aplicará cálculos de inferencia
estadística sobre datos y desarrollará modelos para la toma de decisiones en sistemas con
componentes aleatorios.
10
11. JUSTIFICACION
Uno de los objetivos del Instituto Tecnológico Superior de Acayucan, es el de promover,
apoyar e impulsar el trabajo creativo del docente, principalmente en la elaboración de
antología que apoya al proceso enseñanza – aprendizaje, el cual debe ser estimulado con
los comentarios y sugerencias del profesorado y conviene que sea imitado por otros
maestros, quienes con capacidad de trabajo y tiempo disponible, pueden y deben gestar
literatura de este género, dando los pasos adecuados para pulirla y poder formar así textos
que faciliten la enseñanza y el aprendizaje del curso.
El presente material de consulta y apoyo didáctico se pone en manos de nuestros maestros
y, particularmente, de los alumnos que se forman en nuestro instituto. Considero los
contenidos de esta antología como el propósito más firme de mi convencimiento para facilitar
el estudio de la probabilidad y estadística en las nuevas generaciones que me honran al
confiarme su preparación y garantizar modestamente el fijarles una enseñanza para toda la
vida.
11
12. UNIDAD 1
ESTADISTICA
DESCRIPTIVA
Objetivo:
El estudiante conocerá fundamentos
y técnicas básicas de estadística,
para organizar, representar y analizar
datos obtenidos de una situación
simulada o real.
13. UNIDAD I / ESTADISTICA DESCRIPTIVA.
1.1 Conceptos básicos de estadística.
1.1.1 Definición de estadística.
La palabra estadística procede del vocablo "estado" pues era función principal de los
gobiernos de los estados establecer registros de población, nacimientos, defunciones, etc.
Hoy en día la mayoría de las personas entienden por estadística al conjunto de datos, tablas,
gráficos, que se suelen publicar en los periódicos.
Definición:
Estadística, rama de las matemáticas que se ocupa de reunir, organizar y analizar datos
numéricos y que ayuda a resolver problemas como el diseño de experimentos y la toma de
decisiones.
Estadística es un conjunto de métodos científicos para la recopilación, representación
condensación y análisis de los datos extraídos de un sistema en estudio. Con el objeto de
poder hacer estimaciones y sacar conclusiones, necesarias para tomar decisiones.
El análisis se hace con las herramientas estadísticas, empleando la información obtenida de
los datos, para realizar estimaciones o inferencias, testear hipótesis de trabajo y así, poder
tomar las decisiones más adecuadas en cada caso particular, basadas en la evidencia
científica suministrada por estos análisis.
El trabajo del experto estadístico no consiste ya sólo en reunir y tabular los datos, sino sobre
todo en el proceso de interpretación de esa información. El desarrollo de la teoría de la
probabilidad ha aumentado el alcance de las aplicaciones de la estadística. La probabilidad
es útil para comprobar la fiabilidad de las inferencias estadísticas y para predecir el tipo y la
cantidad de datos necesarios en un determinado estudio estadístico. Cuando a través de
una muestra pretendemos obtener información de una población entera los datos obtenidos
puede ser diferente a los reales. Son valores aproximados del parámetro desconocido. A
estos valores se les llama Estimaciones.
Al dar una estimación estoy cometiendo un error llamado error de muestreo debido a que no
se esta considerando a toda la población, sino a una parte de ella. Existen procedimientos
que pueden determinar de antemano el error que puedo cometer.
13
14. UNIDAD I / ESTADISTICA DESCRIPTIVA.
Aparte de estos, existen otros errores que se presentan tanto en encuestas por muestreo
como en las encuestas por censo. Este tipo de errores son mayores y de difícil corrección.
Son errores ajenos al muestreo.
¿Qué es un experimento comparativo?
Es una investigación cuya finalidad es comparar los efectos de dos o más estímulos
(tratamientos A y B) aplicados a ciertos entes (unidades de experimentación , , ,).
Para ello se efectúan mediciones sobre los efectos de ambos tratamientos obteniéndose los
resultados ( , , ).
¿Qué es una encuesta por muestreo?
Es una investigación que tiene por objetivo la descripción de ciertas características
( , , , …, de una población, mediante el examen de una parte de ella (muestra , ).
La medición de una característica en los elementos de la muestra produce resultados
(Y1 y Y4 ) . Si el muestreo es probabilístico, todos los elementos de la población tiene una
probabilidad no nula de formar parte de la muestra.
14
15. UNIDAD I / ESTADISTICA DESCRIPTIVA.
¿Qué es un estudio observacional?
Es una investigación comparativa sin la asignación aleatoria que se hace en los
experimentos (o investigación de muestreo no probabilístico), cuya finalidad es también
comparar los efectos que dos o mas condiciones ( A y B) tienen sobre los entes observados
, , ,). Esto se lleva a cabo con extremado cuidado y control.
División de la estadística
Se divide en dos partes:
⎧ ⎧ ⎧ Re copilar
⎪ ⎪ ⎪
⎪ ⎪ Descriptiva( Deductiva) ⎨ Re presentar
⎪ ⎪ ⎪
⎪ ⎩Condensar
⎪ ⎪
División ⎨ Estadistica ⎨
⎪ ⎪
⎪ ⎪
⎪ ⎪ ⎧Caracteristicas
⎪ ⎪ Inferencial ( Inferencia) ⎨
⎪
⎩ ⎩ ⎩muestras
a) Estadística descriptiva o deductiva: Es la parte de la estadística que se ocupa de
recopilar, representar y condensar los datos obtenidos del sistema en estudio,
utilizando representaciones gráficas de los datos tabulados.
b) Estadística inferencial o inferencia estadística: Utiliza datos de muestra para hacer
inferencias (característica) acerca de un conjunto de datos grandes – una población
– de cual se selecciono la muestra.
15
16. UNIDAD I / ESTADISTICA DESCRIPTIVA.
1.1.2 Inferencia estadística.
Es la parte de la Estadística dedicada a la formulación de supuestos y estimaciones, para
hacer predicciones y poder sacar conclusiones de los datos obtenidos con el estudio de las
muestras. Y así, poder tomar decisiones con base científica. La Estadística se emplea en el
estudio de los fenómenos naturales, tanto los generados en los laboratorios por los
científicos como aquellos más allá del control humano.
Es una herramienta de uso tan amplio y general que hoy día es difícil imaginar un lugar
donde no pueda emplearse. Más aún, en algunas disciplinas es la herramienta básica de
medición, como por ejemplo en parapsicología para la determinación de PES (percepciones
extra-sensoriales).
1.1.3 Teoría de decisión.
Es una herramienta básica para la toma de decisiones, basadas en evidencia científica. La
manera de hacerlo es plantear las hipótesis posibles y luego efectuarle una prueba o test
estadístico.
Llamada en algunas obras: la docimasia estadística. Cuando una conclusión se valida con
un test estadístico se la llama de tipo cuantitativo, en caso contrario la decisión adoptada es
de tipo cualitativo, o sea, una decisión tomada en forma subjetiva. El método consiste en
definir una probabilidad de aceptación del orden del 95% (o rechazo) de una hipótesis de
trabajo planteada, que permite calcular los valores críticos (o límites de aceptación) de un
estadígrafo calculado a partir de los valores medidos. La importancia de este tema es muy
grande. Basta decir que el objeto final de la Estadística es la toma de decisiones.
1.1.4 Población.
La población, es el conjunto de todas las muestras posibles, que pueden obtenerse del
sistema en estudio de acuerdo al método de selección empleado.
La población, entonces, es el total hipotético de los datos que se estudian o recopilan. El
tamaño de la población se saca contando el número de elementos componentes. A veces es
un conteo simple, pero otras veces se trata de conteos ordenados.
A continuación muestra las formas de observar una población.
16
17. UNIDAD I / ESTADISTICA DESCRIPTIVA.
Etapas de la recopilación de datos
Etapa 1 - Objetivos de la Recopilación: esta primera etapa consiste en determinar con
claridad qué es lo que se quiere lograr con la recopilación. No siempre es fácil saber lo que se
quiere y menos determinarlo en detalle. Por eso, se deben definir primero los objetivos
generales del trabajo estadístico. Y a partir de ellos se conocerán las variables a medir y así
saber cuáles elementos se necesitarán. Con esto se tiene una primera idea de los alcances y
limitaciones de la tarea a realizar, según sea el tipo de información a obtener de la población en
estudio. Los objetivos deben redactarse concisos, breves y claros. Normalmente, la persona a
cargo de la investigación es la responsable de esta etapa pues tiene una visión más completa y
actualizada del tema en estudio. Por ejemplo, si se necesita la distribución de la población por
edades y sexo, no es lo mismo disponer de la información del último censo realizado que
hacerlo uno mismo.
17
18. UNIDAD I / ESTADISTICA DESCRIPTIVA.
Etapa 2 - Relevamientos: esta etapa consiste en determinar lo que se tiene para alcanzar los
objetivos definidos en la etapa anterior. Se trata de listar los bienes necesarios para poder hacer
el trabajo, y el listado de los disponibles. Conviene tener en cuenta la siguiente clasificación de
los bienes: Tangibles e Intangibles.
Por su parte, los bienes tangibles son dos:
• Los materiales incluyen los de vidrio, de limpieza, drogas, reactivos, etc.
• Por equipamiento se entiende no sólo los aparatos de medición, sino los accesorios
como muebles y útiles de laboratorio y para oficina.
• El dinero o los recursos monetarios deben ser determinados con mucho detalle para
afrontar gastos e inversiones durante la investigación. Además, hay que determinar los
fondos disponibles y las posibles fuentes financieras adonde poder recurrir.
• La infraestructura incluye a los edificios, laboratorios, electricidad, agua, etc.
• El personal es todo el necesario en sus diferentes niveles, como ser: profesionales,
técnicos, ayudantes, consultores externos, de servicio, etc. Este relevamiento de los
bienes tangibles disponibles y de los necesarios para la recopilación condiciona de
alguna manera los objetivos. Puede ser que se disponga de bienes sobrados para
alcanzar los objetivos, por lo que se pueden plantear metas más ambiciosas. Por otra
parte, puede ocurrir que los bienes disponibles estén lejos de cubrir los necesarios, y
por lo tanto se deberán resignar los objetivos planteados por otros más modestos.
Por su parte, los bienes intangibles son dos:
• la organización de los bienes tangibles, de manera tal de alcanzar los objetivos, y
• los conocimientos para saber cómo usarlos. Esto es el “know how” de cada profesión. Y
también lo es la búsqueda bibliográfica de trabajos similares en revistas especializadas,
textos y otras fuentes de información. Una vez terminada esta etapa, que seguramente
habrá ayudado a depurar la anterior, se debe comenzar a pensar en las diferentes
maneras de hacerlo.
Etapa 3 - Creación de alternativas: esta etapa consiste en saber cómo hacerlo. O sea,
generar distintas alternativas de sistemas de recopilación de datos, de acuerdo con los objetivos
adoptados y los bienes disponibles. Se debe hacer un listado con todas las formas posibles de
18
19. UNIDAD I / ESTADISTICA DESCRIPTIVA.
efectuar la recopilación a fin de tener un panorama completo. En síntesis, se habla de fuente
propia cuando se decide extraer los datos mediante mediciones. Fuente Primaria es cuando
se toman los datos de otros investigadores que publican los resultados de sus propias
mediciones. Fuente Secundaria es cuando los datos se extraen de publicaciones que usan
como referencia a fuentes primarias.
Etapa 4 - Selección de alternativas: consiste en determinar cuál es la mejor entre las n
alternativas planteadas en la etapa anterior. Se necesita de un método para la adopción de un
criterio de selección.
Etapa 5 - Prueba piloto: existe una diferencia entre el diseño en los papeles y la realidad. Es
por eso que siempre es aconsejable hacer una prueba piloto antes de la puesta en marcha para
poder juzgar cómo trabaja el sistema de recopilación de datos. Se sacan unos pocos datos y se
analizan las dificultades no previstas, junto con los resultados. Comparando los valores
obtenidos con los que se esperaba tener, se hace una especie de control previo del sistema.
Etapa 6 - Ajustes: Lo normal es tener que hacer pequeños ajustes que permitan optimizar al
sistema. De las diferencias detectadas en el control de la etapa anterior se sacan indicios. Estos
muestran qué tópicos retocar y surgen nuevas ideas de cómo hacer mejor las cosas.
Básicamente, usando el sentido común se corrigen los principales defectos, como ser: mejorar
el entrenamiento y conocimientos del personal, rediseñar formularios, calibrar equipos de
medición, estimación de la magnitud del error de medición, etc. Pero también hay técnicas de
optimización especiales como son los distintos modelos de la Investigación Operativa. Esta es
una disciplina muy emparentada con estadística y sus modelos más conocidos son: Teoría de
Líneas de Espera, Programación por Camino Crítico (PERT), Programación Dinámica y Lineal,
Reemplazos, Simulaciones, etc. Una vez hechos los ajustes, se vuelve a la etapa anterior y se
efectúa una nueva prueba piloto. Este ensayo permite decidir si se continúa adelante, o si son
necesarios más ajustes. Hay que continuar hasta que todo sea satisfactorio y recién entonces
pasar a la etapa siguiente.
Etapa 7 - Puesta en marcha: una vez optimizado y ajustado el método de obtención de datos
solo resta ponerlo en marcha. De esa manera, se logra la cantidad de datos necesarios para
alcanzar los objetivos previstos. El resultado final es la obtención de un volumen grande de
información que debe ser presentada en forma más resumida y comprensible usando tablas,
gráficos y otras formas, como se verá más adelante.
19
20. UNIDAD I / ESTADISTICA DESCRIPTIVA.
1.1.5 Muestra aleatoria.
La muestra es un conjunto de datos obtenidos de una población cualquiera, con el método de
recopilación elegido. Se la puede imaginar como un subconjunto del conjunto población. Se
toman muestras, cuando no se puede o no conviene, tomar la población entera. Si se tiene una
población de tamaño infinito, no se podrá nunca tomar todas las muestras posibles, como por
ejemplo, las mediciones repetidas de una misma magnitud, que se pueden repetir
indefinidamente mientras el ensayo no sea destructivo (repetidas pesadas en una balanza,
medir la temperatura de un cuerpo, etc.). Hay ocasiones, donde si bien la población es finita, es
tan grande que no resulta práctico tomar todos los casos como por ejemplo, cuando la
población es la especie humana.
Lógicamente, la confiabilidad de las conclusiones extraídas concernientes a una población
dependen de si la muestra se ha escogido apropiadamente de tal modo que represente la
población suficiente. Una forma de hacer esto para poblaciones finitas es asegurarse de que
cada miembro de la población tenga igual oportunidad de encontrarse en la muestra, lo que se
conoce como muestra aleatoria.
1.1.6 Parámetros aleatorios.
Parámetro, es toda magnitud que tiene el mismo valor dentro de una población. O sea, no
permite diferenciar entre sí a sus elementos componentes. Existen medidas para realizar
descripciones cuantitativas de los conjuntos de datos, o poblaciones, y de sus muestras,
diferenciándose entre ellas las que se refieren a las mismas poblaciones y a las muestras. Para
el caso de las poblaciones, las medidas que las describen se denominan parámetros, y suelen
estar representadas con letras griegas (por ejemplo y ). Por otro lado, para el caso de
aquellas medidas que describen a una muestra se les llama estadísticos o estimadores, y son
representados por letras de nuestro alfabeto (por ejemplo, x o s). Tales medidas cuantitativas
que describen a las poblaciones y a las muestras se comentarán enseguida. Se considera que
se conoce una población cuando conocemos la distribución de probabilidad f(x) de la variable
aleatoria asociada X.
1.1.7 Enfoque clásico.
La utilización de esta metodología implica una cierta filosofía o visión de la Probabilidad y la
Estadística muy particular y poco frecuente. Lo particular de este enfoque es que es
razonablemente más sencillo que el enfoque clásico de la estimación y el ensayo de hipótesis, a
20
21. UNIDAD I / ESTADISTICA DESCRIPTIVA.
los que reemplaza y mejora por cuanto no implica aproximaciones ni requiere de la introducción
de nuevos conceptos.
1.1.8 Enfoque Bayesiano.
En el enfoque Bayesiano de la Estadística, la incertidumbre presente en un modelo dado,
p(x⏐θ), es representada a través de una distribución de probabilidad p (θ ) sobre los posibles
valores del parámetro desconocido θ (típicamente multidimensional) que define al modelo. El
Teorema de Bayes,
p (θ ) p ( x θ )
p (θ x) =
p( x)
Permite entonces incorporar la información contenida en un conjunto de datos x = ( x1 ,..., x n ) ,
produciendo una descripción conjunta de la incertidumbre sobre los valores de los parámetros
del modelo a través de la distribución final p (x⏐θ ).
Desafortunadamente, la implementación de las técnicas Bayesianas usualmente requiere de un
esfuerzo computacional muy alto. La mayor parte de este esfuerzo se concentra en el cálculo
de ciertas características de la distribución final del parámetro de interés (que llamaremos
resúmenes inferenciales). Así, por ejemplo, para pasar de una distribución conjunta a una
colección de distribuciones y momentos marginales que sean útiles para hacer inferencias
sobre subconjuntos de parámetros, se requiere integrar. En la mayoría de los casos los
resúmenes inferenciales básicos se reducen a integrales de la forma:
S {g (θ )} = ∫ g (θ ) p (θ ) p (z θ )dθ
El análisis Bayesiano, en otra diferencia con la estadística clásica, permite incorporar en un
estudio información de distintas fuentes, incluso subjetivas.
De esta manera concibe, en un plano muy general, las técnicas estadísticas como mecanismos
para la actualización del conocimiento particular o general, individual o colectivo sobre el estado
que guarda la naturaleza."
21
22. UNIDAD I / ESTADISTICA DESCRIPTIVA.
1.2 Descripción de datos.
1.2.1 Datos agrupados y no agrupados.
La principal diferencia entre ambas es que en datos agrupados se ordenan los datos de la
tabla y se almacenan en el orden del índice. Los datos agrupados mejoran el rendimiento al
almacenar los datos de la tabla junto con datos de nivel de hoja del índice. Una ordenación es
un conjunto de datos numéricos en orden creciente o decreciente. Este método de presentación
de la información consiste en presentar los datos por medio de una tabla o cuadro.
Los datos no agrupado no apunta directamente a la fila de la tabla, sino que utiliza los valores
del índice agrupado como punteros a las filas de la tabla.
Una fila de datos consiste en datos recogidos que no han sido organizados numéricamente.
1.2.2 Frecuencia de clase.
La frecuencia de clase o frecuencia de categoría, es el número de observaciones que caen
dentro de una categoría
Altura ( in) Número de
estudiantes f
60 – 62 7
63 – 65 20
66 – 68 44
69 – 71 29
72 – 74 10
Total 110
1.2.3 Frecuencia relativa.
La frecuencia relativa (proporción); de una clase es su frecuencia dividida por la frecuencia total
de todas las clases.
numero de estudiante
frecuencia relativa =
total
22
23. UNIDAD I / ESTADISTICA DESCRIPTIVA.
Altura ( in) Número de Frecuencia
estudiantes (f) relativa
60 – 62 7 0.0636
63 – 65 20 0.1818
66 – 68 44 0.4
69 – 71 29 0.2636
72 – 74 10 0.0909
total 110 1.0000
1.2.4 Punto medio.
El punto medio del intervalo de clase, que puede tomarse como representativo de la clase, se
llama marca de clase, que se refiere al punto medio del intervalo de clase y se obtiene
promediando los limites inferior y superior de clase. Así que las marcas de clase del intervalo
60 – 62 es:
60 + 62
= 61
2
1.2.5 Límites.
Tomando encuenta la clase 60 - 62 se dice que se llaman límites de clases, el 60 se llama
límite inferior de clase y el 62 se llama límite superior de clase.
1.2.6 Histograma.
Es una representación grafica para la distribución de frecuencia. Un histograma o histograma de
frecuencias, consiste en un conjunto de rectángulos con:
a) base en el eje x horizontal, centros en las marcas de clases y longitudes iguales a los
tamaños de los intervalos de clase y
b) áreas proporcionales a las frecuencias de clase.
23
25. UN
NIDAD I / ESTADIST
TICA DESC
CRIPTIVA
A.
Problemas propuesto
s os:
Problema: El rascón terrestre o g
guión de las codornices es una ave europea e peligro de
e en e
extinción m
mundial. En fechas recientes se lle
evó a cabo un censo de rascones cantores en
n
terrenos ag Gran Bretañ e Irlanda (Journal of applied ecol
grícolas de G ña logy) . La ta
abla indica e
el
numero total de rascon terrestres que habitan en cada de 10 áreas ge
nes s n e eográficas.
Área
Á Numero de rascones
s
terrestres
1. Tierr bajas de E
ra Escocia 12
2. Tierr altas de e
ras escocia 15
3. Orkn y Shetlan
ney nd 34
4. Lewi y Harris
is 76
5. N. Uist y Benbec
cula 82
6. S. Uist y Barra 155
7. Hebr
ridas interior
res 76
8. Coll y Tirce 121
9. Irlanda del norte 128
10. Repu
ublica de Irla
anda 789
Total
T 1
1488
esuma los da
a) Re atos con un h
histograma
1.3. edidas de tendencia central.
Me a
1.3.1 Med aritmé
dia ética, geom
métrica y p
ponderada.
Media aritm
mética
Sean, x1 ,x2 ,....,xn , n o
x observacione muéstrale definiremos promedio de estas ob
es es, o bservaciones
s
al valor dad por:
do
o bien
25
5
26. UNIDAD I / ESTADISTICA DESCRIPTIVA.
N
x + x 2 + x 3 + ... + x n
∑x
j =1
j
∑x
x= 1 = =
N N N
Ejemplo: La media aritmética de los números 8, 3. 5, 12 y 10
8 + 3 + 5 + 12 + 10 38
x= = = 7. 6
5 5
En esta expresión, puede verse que el promedio de un conjunto de números se calcula
sumándolos y luego dividiendo la suma por el número de sumandos. La estadística promedio
representa muy bien el 'centro' de la distribución de los datos cuando se trata de casos
'normales'. Entendemos aquí por casos 'normales' aquellos conjuntos de datos que no
contienen valores muy extremos, valores muy alejados de los demás. Debido a que en muchas
situaciones experimentales, el comportamiento de los datos es relativamente 'normal', el
promedio es muy usado, convirtiéndose en la primera estadística calculada para representar el
'centro' de la población en estudio.
si los números X1 , X2 , ... , Xk , ocurren f1 , f2 , ... , fk , veces respectivamente, su media
aritmética
N
f x + f 2 x 2 + ... + f k x k
∑f
j =1
j xj
x= 1 1 =
f1 + f 2 + ... + f k k
∑f j =1
j
x=
∑ fx
N
Ejemplo: si 5, 8, 6, y 2 ocurren con frecuencias 3, 2, 4 y 1 , respectivamente, su media
aritmética es
x=
(3 )(5 ) + (2 )(8 ) + (4 )(6 ) + (1)(2 ) = 15 + 16 + 24 + 2 = 5 .7
3+ 2 + 4 +1 10
Ejemplo:En la tabla siguiente se tiene los puntajes obtenidos en la Prueba de Aptitud
Académica por 30 jóvenes, provenientes de un mismo establecimiento educacional:
26
27. UNIDAD I / ESTADISTICA DESCRIPTIVA.
P. Ap. Verbal P. Ap. Matemática P. Ap. Verbal P. Ap. Matemática
685 664 730 642
490 548 618 533
580 567 690 654
705 665 680 542
470 452 690 678
620 506 710 732
650 618 742 749
702 718 685 570
643 621 595 574
540 555 674 657
575 502 722 747
600 531 585 620
500 478 505 482
680 558 600 643
587 600 543 500
Con los datos de la tabla, se puede caracterizar el establecimiento educacional usando el
promedio de cada una de las pruebas. Lo primeros que se necesita es calcular la suma de los
puntajes de los treinta alumnos.
Dichas sumas son las siguientes:
Prueba de Aptitud Verbal 18796
Prueba de Aptitud Matemática 17906
Promedio Prueba de Aptitud Verbal 626.533
Promedio Prueba de Aptitud Matemática 596.867
27
28. UN
NIDAD I / ESTADIST
TICA DESC
CRIPTIVA
A.
La Media g
geométrica G
La media g
geométrica es el resultado de multiplicar todos los elementos y extraer la raíz n -ésima
s a
del product
to:
ometrica = n x1 .x 2 ...x n
media geo
Ejemplo: la media geom
a métrica g de 2, 4 y 8
G = 3 ( 2) ( 4) ( 8) = 4 mathca
ad gmea ( 2 , 4 , 8) = 4
an
Promedio Ponderado.
En muchas ocasiones, las observa
s aciones recol
lectadas no tienen la mis
sma importa
ancia relativa
a.
Para hacer presente este hecho en la búsqued de un 'ce
r da entro' que re
epresente a los datos, es
s
necesario a
asignar a cad uno de és
da stos, una ponderación (p
peso o coefic
ciente) que re
epresente su
u
importancia dentro de la muestra.
a
Definición.
A veces as
sociada con l números X1, X2, . . . XK , ciertos f
los factores peso ( o pesos ) W1, W2 ,...,
os
WK depend
dientes de la relevancia a
a asignada a c
cada número
o.
Ejemplo: si el examen final de un c
i curso cuanta tres veces mas que una evaluación parcial y un
a a n n
estudiante tiene calific
cación 85 e el exame final y 7 y 90 en los dos pa
en en 70 arciales , las
s
calificacion media es :
nes s
x=
(1)(7 ) + (1)(90 ) + (3)(85) = 415 = 83
70
1+1+ 3 5
Ejercicios
s:
a) hal la media aritmética d los númer 5, 3, 6, 5 4, 5, 2, 8, 6 5, 4, 8, 3, 4, 5, 4, 8, 2
llar de ros 5, 6, 2,
5, y 4
Solución: 4.8
28
8
29. UNIDAD I / ESTADISTICA DESCRIPTIVA.
b) De entre 100 números. 20 son cuatros, 40 son cinco, 30 son seis y los restantes siete.
Hallar su media aritmética.
Solución: 5.30
c) las calificaciones finales de un estudiante en cuatro asignatura fueron 82, 86, 90 y 70. si
los respectivos créditos otorgados a esos cursos son 3, 5, 3 y 1 , determinar una
calificación media a apropiada.
Solución: 85
d) De los 80 empleados de una empresa 6 cobra $ 7,00 a la hora y el resto $4,00 a la
hora. Hallar cuanto cobran de media por hora
Solución: $6.25
e) Cuatro grupos de estudiantes, consistentes en 15, 20, 10 y 18 individuos, dieron pesos
medios de 162, 148, 153 y 140 lb., respectivamente . hallar el peso medio de todos
esos estudiantes.
Solución: 150 lb.
1.3.2 Mediana.
La mediana de un conjunto de números ordenados en magnitud es el valor central o la media
de los dos valores centrales.
Datos sin agrupar:
Ejemplo: el conjunto de números 3, 4, 4, 5, 6, 8, 8, 8, 10 tiene mediana 6
mathcad median ( 3 , 4 , 4 , 5 , 6 , 8 , 8 , 8 , 10) = 6
Ejemplo: el conjunto de números 5, 5, 7, 9, 11, 12, 15, 18 tiene mediana ½ ( 9 + 11 ) = 10
Ejemplo: las notas de un estudiante en seis exámenes han sido 84, 91, 72, 68, 87 y 78. hallar la
mediana de esas notas.
Solución : las notas ordenadas son 68, 72, 78, 84, 87 , 91,
1 / 2 ( 78 + 84 ) = 81
29
30. UNIDAD I / ESTADISTICA DESCRIPTIVA.
Ejemplo: cinco oficinistas cobran $ 4.52, $ 5.96, $ 5.28, $ 11.20 y $ 5.75 a la hora. Hallar la
mediana
Solución = la ordenación es: $ 4.52, $ 5.28, $ 5.75 , $ 5.96, $ 11.20
La mediana es $ 5.75
Datos Agrupados:
Las gráficas siguientes, correspondientes a polígonos de frecuencias absolutas acumuladas,
nos plantea de nuevo dos situaciones diferentes a considerar:
⎜ − (∑ f )1 ⎟
⎛N ⎞
mediana = L1 + ⎜ 2 ⎟C
⎜ f mediana ⎟
⎜ ⎟
⎝ ⎠
donde:
L1 = frontera inferior de la clase mediana.
N = numero de datos (frecuencia total)
(Σ f ) 1 = suma de la frecuencia de las clases inferiores a la de la mediana.
f mediana = frecuencia de la clase mediana.
C = anchura del intervalo de clase de la mediana.
Ejemplo:
Altura ( in) Numero de estudiantes (f)
60 – 62 7
63 – 65 20
66 – 68 44
69 – 71 29
72 – 74 10
total 110
110
Para indicar la posición : = 55 ; entonces se procede a realizar una suma con las
2
frecuencias (f) hasta llegar al valor 55 o mas de 55 pero no menos, para suponer que ahí cae la
mediana solo que se tiene que hacer es verificar su valor.
7 + 20+ 44 = 71 por lo tanto cae en el intervalo 66 – 68
30
31. UNIDAD I / ESTADISTICA DESCRIPTIVA.
Datos:
L1 = 65.5 ; N = 110 ; (∑ f ) 1
= 27 ; f mediana = 44 ; C = 68.5 − 65.5 = 3
⎛ 110 ⎞
⎜ − 27 ⎟
mediana = 65.5 + ⎜ 2 ⎟(3) = 67.41
⎜ 44 ⎟
⎜ ⎟
⎝ ⎠
1.3.3 Moda.
La moda de un conjunto de números es el valor que ocurre con mayor frecuencia; es decir, el
valor mas frecuente. La moda puede no existir e incluso no ser única. Esta estadística debe
usarse con cuidado. Su objetivo es identificar zonas donde se producen aglomeraciones de
datos, sin embargo, podría ser que por el solo hecho de haber una observación extra en un
punto aislado, éste pudiese aparecer como una moda.
Este inconveniente es especialmente delicado cuando hay pocas observaciones en la muestra,
tal como es el caso que se observa en el gráfico siguiente.
Datos sin agrupar:
Ejemplo: el conjunto 2, 2, 5, 7, 9, 9, 9, 10, 10, 11, 12, 18 tiene como moda 9
mathcad mode( 2 , 2 , 5 , 7 , 9 , 9 , 9 , 10 , 10 , 11 , 12 , 18) = 9
Ejemplo: el conjunto 3, 5, 8, 10, 12, 15, 16 n o tiene moda
Ejemplo: el conjunto 2, 3, 4, 4, 4, 5, 5, 7 , 7, 7, 9 tiene dos modas 4 y 7 y se llama bimodal
Una distribución única se llama unimodal.
Datos agrupados :
⎛ Δ1 ⎞
⎜ Δ + Δ ⎟C
mod a = L1 + ⎜ ⎟
⎝ 1 2 ⎠
donde:
L 1 = frontera inferior de la clase modal ( clase que contiene a la moda)
31
32. UNIDAD I / ESTADISTICA DESCRIPTIVA.
Δ1 = exceso de la frecuencia modal sobre la clase inferior inmediata
Δ2 = exceso de la frecuencia modal sobre la clase superior inmediata
c = anchura del intervalo de clase modal.
Ejemplo :
Altura ( in) Numero de estudiantes (f)
60 – 62 7
63 – 65 20
66 – 68 44
69 – 71 29
72 – 74 10
total 110
De acuerdo a la definición la moda será quien tenga mayor frecuencia por lo tanto cae en el
intervalo 66 – 68
L1 = 65.5 ; Δ 1 = 44 − 20 = 22 ; Δ 2 = 44 − 29 = 15 ; C = 68.5 − 65.5 = 3
⎛ 22 ⎞
mod a = 65.5 + ⎜ ⎟(3) = 67.28
⎝ 22 + 15 ⎠
Medidas de posición relativa (Cuartiles, deciles y percentiles).
Las calificaciones de exámenes y ciertos tipos de datos sociológicos y de salud con frecuencia
se presentan en una forma que describe la posición de una observación relativa a las demás
observaciones de la distribución.
Si un conjunto de datos están ordenados por magnitud, el valor central ( o la media de los dos
centrales) que divide al conjunto en dos mitades iguales es la mediana. Extendiendo esa idea,
podemos pensar en aquellos valores que dividen al conjunto en cuatro partes iguales.
Estos valores, denotados por Q 1, Q 2, Q3 , se llaman primer, segundo y tercer cuartil. Q 2
coincide con la mediana.
32
33. UNIDAD I / ESTADISTICA DESCRIPTIVA.
Análogamente los valores que dividen a los datos en 10 partes iguales se llaman deciles y se
denotan D1 , D2 , . . . , D9 , mientras los valores que se dividen en 100 partes iguales se llaman
percentiles denotados P1 , P2 , . . . , P 99 .
Colectivamente cuartiles, deciles y percentiles se denominan cuantiles.
Altura ( in) Numero de estudiantes (f)
60 – 62 7
63 – 65 20
66 – 68 44
69 – 71 29
72 – 74 10
total 110
Hallar Cuartiles:
N / 4 = 100 / 4 = 25
5 + 18 = 23 63 – 65 → 62.5 – 65.5
( 25 − 23 )
Q 65.5 + ( 3) = 65.64
1 42
2N / 4 = 2(100) / 4 = 50
5 + 18 = 23 63 – 65 → 62.5 – 65.5
5 + 18 + 42 = 65
( 50 − 23 )
Q 65.5 + ( 3 ) = 67.43
2 42
3N / 4 = 3(100) / 4 = 75
5 + 18 +42 = 65 66 – 68 → 65.5 – 68.5
( 75 − 65 )
Q 68.5 + ( 3) = 69.61
3 27
33
35. UNIDAD I / ESTADISTICA DESCRIPTIVA.
9( 100) D ( 90 − 65)
= 90 9 68.5 + ( 3) = 71.28
10 27
Hallar percentiles P 35 y P 50
35 (100) / 100 = 35
P ( 35 − 23 )
35 65.5 + ( 3 ) = 66.36
42
50 (100) / 100 = 50
( 50 − 23 )
P 65.5 + ( 3 ) = 67.43
50 42
1.4. Medidas de dispersión.
Medidas de Posición.
La descripción de un conjunto de datos, incluye como un elemento de importancia la ubicación
de éstos dentro de un contexto de valores posibles. Por ejemplo, puede resultar de interés
conocer qué porcentaje de automóviles equipados con convertidor catalítico sobrepasa el
estándar de emisiones de gases que es aceptable según la legislación vigente. Ya no se trata
en este ejemplo de describir el centro de un conjunto de datos de esta naturaleza. Es necesario
ser más específico. Es probable que la emisión promedio de un conjunto de automóviles esté
dentro de la norma. Pero,¿es aceptable que el 25% de ellos no la cumpla?. Se ve, entonces,
que la descripción debe entregar más información de los datos para cubrir las necesidades
informativas referentes a un problema en particular.
1.4.1 Varianza.
Cuadrada para poder compararla con la media y otras medidas análogas. Esta es la idea del
desvío estándar o desviación típica. También es la fórmula planteada por Gauss en su teoría
de errores casuales. Como se verá más adelante, la curva de Gauss tiene dos puntos de
inflexión simétricos ubicados a una distancia del centro igual al desvío estándar.
35
36. UNIDAD I / ESTADISTICA DESCRIPTIVA.
La varianza
La varianza es el promedio de los cuadrados de las desviaciones de cada elemento, x i,
respecto a la media,
La varianza de un conjunto de datos se define como el cuadrado de la desviación típica y viene
dada en consecuencia por S2 . varianza poblacional (s 2)
∑ (x − x)
N
2
j
j =1
S2 = ;
N
para una población finita con n determinaciones.
Y la varianza muestral (σ 2)
2
⎛ n ⎞
⎜ ∑ yi ⎟
∑ ( xi − x ) ∑ yi − ⎝ i =1 n ⎠
n n
2 2
σ 2 = i =1 = i =1
n −1 n −1
1.4.2 Desviación estándar.
A su vez, el desvío estándar poblacional (σ) y el muestral (s) se obtienen con la raíz
cuadrada de las respectivas varianzas y Representa el alejamiento de una serie de números de
su valor medio. Se calcula a partir de todas las desviaciones individuales con respecto a la
media.
Para poder conocer o calcular tanto la media como la varianza poblacionales, se necesita
conocer la población completa. Esto es imposible en el caso de mediciones repetidas porque
estas son infinitas desde el punto de vista teórico. Análogamente, la cantidad total de muestras
que se le puede extraer a un paciente, para hacerle una determinación en el laboratorio, es tan
grande que puede ser considerada infinita. Por lo tanto, para todos
∑ (x − x)
N
2
j
j =1
S=
N
El uso de esta estadística es recomendado en aquellos conjuntos de datos que ofrecen cierto
grado de simetría respecto de su centro. En estos casos, habitualmente tiene sentido medir
discrepancias de un valor con el centro de los datos usando múltiplos de la desviación estándar.
36
37. UNIDAD I / ESTADISTICA DESCRIPTIVA.
A modo de ejemplo, se puede decir que un valor está bastante alejado del centro de los datos si
su distancia de él supera dos desviaciones estándar. Apoyándose en la idea anterior, la
desviación estándar puede ser usada para determinar valores que se encuentran 'cerca' del
centro. Este uso va más allá de la simple descripción, en otros ámbitos de Estadística es usada
para tomar decisiones respecto de la población de la que fue extraída la muestra.
Ejercicio: Calcular la desviación estándar de los siguientes datos:
68.2, 69.3, 70.4, 71.5, 72.6, 73.7, 74.8,
68.2+ 69.3+ 70.4+ 71.5+ 72.6+ 73.7+ 74.8
prom:=
7
prom = 71.5
2 2 2 2 2 2 2
( 68.2 − 71.5 ) + ( 69.3 − 71.5 ) + ( 70.4 − 71.5 ) + ( 71.5 − 71.5 ) + ( 72.6 − 71.5 ) + ( 73.7 − 71.5 ) + ( 74.8 − 71.5 )
desv :=
7
desv = 2.2
Problema: Investigadores del Massachussets Institute of Technology (MIT) estudiaron las
propiedades espectroscopicas de asteroides de la franja principal con un diámetro menor a los
10 kilometros. Los asteroides se observaron con el telescopio hiltener del observatorio del MIT;
se registro el numero N de exposiciones de imagen espectral independientes para cada
observación. Aquí se presentan los datos de 40 observaciones de asteroides obtenidas de
Science.
Numero de exposiciones de imagen espectral independientes para 40
observaciones de asteroides.
3 4 3 3 1 4 1 3 2 3
1 1 4 2 3 3 2 6 1 1
3 3 2 2 2 2 1 3 2 1
6 3 1 2 2 3 2 2 4 2
a) Localice y y s en el listado
b) Construya los intervalos
y ± s , y ± 2 s , y ± 3s
37
38. UNIDAD I / ESTADISTICA DESCRIPTIVA.
1.4.3 Desviación media.
La desviación media o desviación promedio de un conjunto de N números x 1, x 2, . . . , x N es
abreviada por MD y se define como:
N
∑x
j =1
j −x
M .D. =
N
Ejemplo: hallar la desviación media del conjunto 2, 3, 6, 8, 11
2 + 3 + 6 + 8 + 11
media aritmetica = =6
5
con mathcad mean ( 2 , 3 , 6 , 8 , 11) = 6
desviacion media
2 − 6 + 3 − 6 + 6 − 6 + 8 − 6 + 11 − 6
MD = = 2.8
5
1.4.4 Desviación mediana.
Es la media aritmética de los valores absolutos de las desviaciones de los valores de la
variable con respecto a la mediana.
D Me =
∑x j − Me n j
n
1.4.5 Rango.
La más simple de todas es el rango, definido como la diferencia entre el valor máximo y
mínimo del grupo de datos. De fácil cálculo y comprensión, tiene la desventaja de ser la
medida más grosera de la dispersión.
Dos grupos de datos, con muy distinta dispersión pueden llegar a tener rangos similares. Uno
de ellos puede tener el 99% de los valores junto al mínimo y el otro el 99% junto al máximo,
pero al tener extremos iguales, sus rangos resultarían iguales a pesar de ser tan disímiles
intrínsecamente.
RANGO = Máx. datos - Mín. datos
38
39. UNID
DAD I / ES
STADISTIC DESCR
CA RIPTIVA.
1.5 Pa
arámetros para dato agrupados.
os
1.5.1 La media.
a
Sean, x1 ,x2 ,....,xn , n obser
rvaciones m
muéstrales, definiremos promedio de estas
observacio
ones al valor dado por:
o bien
N
x + x 2 + x3 + ... + x n
∑x
j =1
j
x= 1 =
N N
x=
∑x
N
Ejemplo: La media aritm
a mética de los números 8, 3. 5, 12 y 10
s
8 + 3 + 5 + 12 + 10 38
2
x= = = 7.6
5 5
1.5.2 La desviació típica.
a ón
e blacional ( σ) y el mue
A su vez, el desvío estándar pob estral ( s) se obtienen con la raíz
c
cuadrada d las respec
de ctivas varian
nzas y Repre
esenta el ale
ejamiento de una serie de números
de su valor medio. Se calcula a par de todas las desviacio
r c rtir ones individu
uales con res
specto a la
media.
∑ f (x − x)
k
2
j j
j =1
S= k
∑f
j =1
j
39
40. UNIDAD I / ESTADISTICA DESCRIPTIVA.
x j − x ( x j − x ) 2 f j (x j − x )
2
xj fj
68.2 5 -2.6358 6.9477 34.7385
69.3 11 -1.5358 2.3588 25.9472
70.4 14 -0.4358 0.1900 2.6595
71.5 11 0.6642 0.4411 4.8521
72.6 7 1.7642 3.1122 21.7856
73.7 3 2.8642 8.2034 24.6101
74.8 2 3.9642 15.7145 31.4290
Total 53 146.0219
x=
70.8358
Desv.
Est. = 1.6599
Y la desviación media para datos agrupados:
k
∑f
j =1
j xj − x
DM = k
∑f
j =1
j
xj fj f j xj − x
xj − x
68.2 5 2.6358 13.1792
69.3 11 1.5358 16.8943
70.4 14 0.4358 6.1019
71.5 11 0.6642 7.3057
72.6 7 1.7642 12.3491
73.7 3 2.8642 8.5925
74.8 2 3.9642 7.9283
Total 53 72.3509
x=
70.8358
Desv. Med. = 1.3651
40
41. UNIDAD I / ESTADISTICA DESCRIPTIVA.
1.6 Distribución de frecuencias.
Reglas generales para formar distribuciones de frecuencias
Paso 1: Calcular el intervalo de los datos :
Intervalo = Observación Grande – Observación Pequeña.
Paso 2: Dividir el intervalo entre 5 y 20 clases de igual anchura. El número de clases es
arbitrario, pero se obtiene una mejor descripción grafica si se utiliza pocas clases cuando el
número de datos es pequeño y un mayor número de clases cuando el conjunto de datos es
grande. La frontera de la clases más baja ( o primera) deberá estar situada por debajo de la
medición más pequeña, y el ancho de la clase debe ser tal que ninguna observación pueda
quedar exactamente en la frontera de una clases. Se pueden calcular de la siguiente
manera:
Intervalo
= anchura de clase
# clases
O bien,
Intervalo
= # clase
anchura de clases
Si la precisión es:
una unidad entera (1) entonces es 1/2 = 0.5, la primera clases comenzará restándole 0.5
a la observación mas pequeño
una unidad decimal (0.1) entonces es 0.1/2 = 0.05, la primera clases empieza restándole
0.05 a la observación mas pequeña.
Paso 3: para cada clase, contar el numero de observaciones que caen en esa clase. Este
número es la frecuencia de clases.
Datos obtenidos.
Por ejemplo: en la tabla que sigue se recogen los pesos de 40 estudiantes varones de una
universidad, con precisión de 1 libra. Construir una distribución de frecuencias.
41
42. UNIDAD I / ESTADISTICA DESCRIPTIVA.
138 164 150 132 144 125 149 157
146 158 140 147 136 148 152 144
168 126 138 176 163 119 154 165
146 173 142 147 135 153 140 135
161 145 135 142 150 156 145 128
El método textual tiene una ventaja importante con respecto a los otros: se puede influenciar
al lector. El autor puede resaltar ciertas cifras de su interés, puede remarcar conceptos
apropiados para sus fines y hacer pasar desapercibidos a los otros. Se puede focalizar la
atención del lector, de tal manera que pase por alto ciertos datos evitando que saque sus
propias conclusiones.
1.6.1 Distribuciones numéricas.
Método de presentación de datos tabular.
Una ordenación es un conjunto de datos numéricos en orden creciente o decreciente. Este
método de presentación de la información consiste en presentar los datos por medio de una
tabla o cuadro.
Ejercicio: Los tiempos de CPU que se indican en la tabla representan el tiempo ( en
segundos) que 25 trabajos estuvieron en control de la unidad central de proceso (CPU) de
una computadora mainframe grande. Estos 25 valores representan una muestra
seleccionada de los 1000 tiempos de CPU .
Tabla de muestra de n = 25 tiempos de
CPU de trabajos (en segundos ).
1.17 1.61 1.16 1.38 3.53
1.23 3.76 1.94 0.96 4.75
0.15 2.41 0.71 0.02 1.59
0.19 0.82 0.47 2.16 2.01
0.92 0.75 2.59 3.07 1.40
42
43. UNIDAD I / ESTADISTICA DESCRIPTIVA.
1.6.2 Distribuciones categóricas.
Al resumir grandes colecciones de datos, es útil distribuirlos en clases o categorías, y
determinar el número de individuos que pertenecen a cada clase, llamado frecuencia de
clase. Una disposición tabular de los datos por clase junto con las correspondientes
frecuencias de clase, se llama distribución de frecuencia ( o tabla de frecuencia).
Ejemplos:
Intervalo = 4.75 – 0.02 = 4.73
Anchura aproximada de la clase es:
int ervalo 4.73
= = 0.676 ≅ 0.7
7 7
Nota: si deseo saber la anchura de la clases entonces selecciono de manera arbitraria el
numero de clases en este caso el numero 7 indica el numero de clases ( filas) y el resultado
es la anchura de cada clases.
Como la tabla contiene datos con valores de centésimas entonces el grado de precisión es de
0.01 por lo tanto se deberá de utilizar 0.01/2 = 0.005. por lo cual al intervalo menor que es de
0.02 se le restara 0.05. Ahora el primer valor en la tabla iniciara en 0.015.
clase Intervalo de Tabulación Frec.
clase
1 0.015 – 0.715 ///// 5
2 0.715 – 1.415 ///////// 9
3 1.415 – 2.115 //// 4
4 2.115 – 2.815 /// 3
5 2.815 – 3.515 / 1
6 3.515 – 4.215 // 2
7 4.215 – 4.915 / 1
43
44. UNIDAD I / ESTADISTICA DESCRIPTIVA.
1.6.3 Distribuciones acumuladas.
Intervalo de Frecuencia Distribución
clase de clase acumulada
0.015 – 0.715 5 5
0.715 – 1.415 9 14
1.415 – 2.115 4 18
2.115 – 2.815 3 21
2.815 – 3.515 1 22
3.515 – 4.215 2 24
4.215 – 4.915 1 25
Total 25
Distribucion acumulada
30
25
20
15
10
5
0
1 2 3 4 5 6 7
1.6.4 Distribuciones porcentuales.
En esta distribución tenemos a la distribución de frecuencia relativa y ojivas porcentuales que
se encuentra multiplicando la frecuencia relativa por cien para que los resultados estén en
porcentajes . Y la suma de todas estas frecuencias resulte al 100 %.
Frecuencia
Frecuencia relativa =
N
Frecuencia relativa y ojivas = Frec. Re l * 100
44
45. UNIDAD I / ESTADISTICA DESCRIPTIVA.
Intervalo de clase Frec. Frec. relativa frecuencia relativa y ojivas porcentual (%)
0.015 – 0.715 5 0.20 20
0.715 – 1.415 9 0.36 36
1.415 – 2.115 4 0.16 16
2.115 – 2.815 3 0.12 12
2.815 – 3.515 1 0.04 4
3.515 – 4.215 2 0.08 8
4.215 – 4.915 1 0.04 4
Total 25 1.00
Frecuencia relativa porcentual
40
35
30
25
20
15
10
5
0
1 2 3 4 5 6 7
1.6.5 Distribuciones porcentuales acumuladas.
Las distribuciones porcentuales acumuladas resulta dividiendo la distribución acumulada
entre la frecuencia total y multiplicada por 100 para que los resultados resulten en porcentajes
y al terminar el ultimo calculo debe ser al cien por ciento.
Intervalo de clase Frec. Distribución acumulada Dist. porcentuales acumulada (%)
0.015 – 0.715 5 5 20
0.715 – 1.415 9 14 56
1.415 – 2.115 4 18 72
2.115 – 2.815 3 21 84
2.815 – 3.515 1 22 88
3.515 – 4.215 2 24 96
4.215 –4.915 1 25 100
Total 25
45
46. UNIDAD I / ESTADISTICA DESCRIPTIVA.
D. A
DPA = * 100
N
Distribucion Porcentual Acumulada
120
100
80
60
40
20
0
1 2 3 4 5 6 7
1.7 Técnicas de agrupación de datos.
1.7.1 Límites de clase.
118 y 122 se llaman limite de clase
118 se llama limite inferior y 122 limite superior de clase
1.7.2 Rango de clase.
El tamaño o anchura de un intervalo de clase es la diferencia entre las fronteras de clase
superior e inferior.
C = 122.5 – 117.5 = 5
1.7.3 Fronteras de clase.
Si se dan valores con precisión de 1 unidad, el intervalo de clase 118 – 122 incluye
teóricamente todas las medias desde 117.5 a 122.5 y se llaman frontera de clase o
verdaderos limites de clase; el menor 117.5 es la frontera inferior y el mayor 122.5 la frontera
superior.
46
47. UNIDAD I / ESTADISTICA DESCRIPTIVA.
1.7.4 Marca de clase.
La marca de clase es el punto medio del intervalo de clase y se obtiene promediando los
limites inferior y superior de clase . Así que las marcas de clase del intervalo 118 – 122 es
(118 + 122 ) / 2 = 120
1.7.5 Intervalo de clase.
Los valores de 118 – 122 se les llaman intervalo de clases
Ejercicio: en la tabla siguiente se recogen los pesos de 40 estudiantes varones de una
universidad, con precisión de 1 libra. Construir:
a) una distribución de frecuencia.
b) Distribución de frecuencia acumulada
c) Grafica de la distribución de frecuencia acumulada
d) Frecuencia relativa
e) Frecuencia relativa y ojivas porcentuales
f) Grafica de la frecuencia relativa y ojivas porcentuales
g) Distribución porcentuales acumuladas
h) Grafica de la distribución porcentuales acumuladas
119 138 146 156
125 140 147 157
126 140 147 158
128 142 148 161
132 142 149 163
135 144 150 164
135 144 150 165
135 145 152 168
136 145 153 173
138 146 154 176
Los pesos son 176 y 119 lb.; El intervalo es 176 – 119 = 57 lb.
Si se usan 5 u 20 intervalos de clase su anchura será:
57 57
= 11.4 = 11 o = 2.85 = 3
5 20
47