SlideShare ist ein Scribd-Unternehmen logo
1 von 272
Downloaden Sie, um offline zu lesen
INSTITUTO TECNOLÓGICO SUPERIOR
                                      de Acayucan




       Asignatura: Probabilidad y estadística

          Clave de la asignatura: SCC - 0424

Carrera: Ingeniería en Sistemas Computacionales




                 ANTOLOGIA


                      Presenta:
           ING. ULISES GIRON JIMENEZ




ACAYUCAN, VER.                           JUNIO 2008
 




    Probabilidad y Estadística
 
 
      Ing. Ulises Girón Jiménez
INDICE
           OBJETIVO GENERAL...............................................................................            10




           JUSTIFICACION........................................................................................      11




UNIDAD 1   ESTADISTICA DESCRIPTIVA…………………….....……………………....                                                           12

           1.1 Conceptos básicos de estadística…………………....……...................                                       13

                1.1.1 Definición de estadística.............................................................          13

                1.1.2 Inferencia estadística..................................................................        16

                1.1.3 Teoría de decisión......................................................................        16

                1.1.4 Población....................................................................................   16

                1.1.5 Muestra aleatoria........................................................................       20

                1.1.6 Parámetros aleatorios.................................................................          20

                1.1.7 Enfoque clásico...........................................................................      20

                1.1.8 Enfoque Bayesiano.....................................................................          21

           1.2 Descripción de datos………….....………………………………………                                                           22

                1.2.1 Datos agrupados y no agrupados...............................................                   22

                1.2.2 Frecuencia de clase....................................................................         22

                1.2.3 Frecuencia relativa......................................................................       22

                1.2.4 Punto medio................................................................................     23




                                                                                                                      III 

 
1.2.5 Límites........................................................................................   23

      1.2.6 Histograma..................................................................................      23

      1.2.7 Histograma de frecuencia relativa..............................................                   24

    1.3 Medidas de tendencia central……………………………………………                                                         25

      1.3.1 Media aritmética, geométrica y ponderada.................................                         25

      1.3.2 Mediana......................................................................................     29

      1.3.3 Moda...........................................................................................   31

    1.4 Medidas de dispersión…………………………………………………….                                                            35

      1.4.1 Varianza......................................................................................    35

      1.4.2 Desviación estándar...................................................................            36

      1.4.3 Desviación media........................................................................          38

      1.4.4 Desviación mediana....................................................................            38

      1.4.5 Rango.........................................................................................    38

    1.5 Parámetros para datos agrupados………………………………………                                                        39

      1.5.1 La media.....................................................................................     39

      1.5.2 La desviación típica....................................................................          39

    1.6 Distribución de frecuencias………………………………...…………….                                                      41

      1.6.1 Distribuciones numéricas............................................................              42

      1.6.2 Distribuciones categóricas..........................................................              43

      1.6.3 Distribuciones acumuladas.........................................................                44

      1.6.4 Distribuciones porcentuales........................................................               44

      1.6.5 Distribuciones porcentuales acumuladas...................................                         45


                                                                                                              IV 

 
1.7 Técnicas de agrupación de datos………………………...……………                                                       46

              1.7.1 Límites de clase..........................................................................        46

              1.7.2 Rango de clase...........................................................................         46

              1.7.3 Fronteras de clase......................................................................          46

              1.7.4 Marca de clase............................................................................        47

              1.7.5 Intervalo de clase………............................................................                 47

              1.7.6 Diagrama de tallos y hojas ………………………………………...                                                     50

              1.7.7. Diagrama de Pareto..................................................................             52

              1.7.8 Diagrama de puntos...................................................................             59

           1.8 Histograma……………......……………………………………………….                                                               59

              1.8.1 Diagrama de barras....................................................................            59

              1.8.2 Polígono de frecuencias.............................................................              59

              1.8.3 Ojivas.........................................................................................   60

              1.8.4 Gráficas circulares......................................................................         61

           1.9 Distribuciones muéstrales………………………...………………………                                                         62




UNIDAD 2   PROBABILIDAD……….………………………………………………………                                                                      65

           2.1 Teoría elemental de probabilidad………………………...……....……                                                   66

              2.1.1 Concepto clásico y como frecuencia relativa..............................                         66

              2.1.2 Interpretación subjetiva de la probabilidad.................................                      69

           2.2 Probabilidad de eventos……………………………......………………                                                         69

              2.2.1 Definición de espacio muestral...................................................                 69


                                                                                                                      V 

 
2.2.2 Discreto y continuo.....................................................................         71

             2.2.3 Definición de evento...................................................................          71

             2.2.4 Simbología, uniones e intersecciones........................................                     71

             2.2.5 Diagramas de Venn....................................................................            71

           2.3 Técnicas de conteo………………….……………………………………                                                             72

             2.3.1 Diagrama de árbol......................................................................          76

             2.3.2 Notación factorial........................................................................       80

             2.3.3 Permutación................................................................................      81

             2.3.4 Combinaciones...........................................................................         91

           2.4 Probabilidad con técnicas de conteo……………………………………                                                   100

             2.4.1 Axiomas......................................................................................   100

             2.4.2 Teoremas....................................................................................    100

           2.5 Probabilidad condicional………...………………………………………                                                       101

             2.5.1 Dependiente................................................................................     101

             2.5.2 Independiente.............................................................................      110

           2.6 Eventos Independientes……...…………………………………………                                                         113

             2.6.1 Regla de Bayes...........................................................................       113




UNIDAD 3   FUNCIONES Y DISTRIBUCIONES MUESTRALES………………......….                                                     121
           3.1 Función de probabilidad………..…………………………………………                                                        121

             3.1.1 Variables aleatorias discretas.....................................................             121



                                                                                                                    VI 

 
3.1.2 Variables aleatorias continúas....................................................              122

           3.2 Distribución Binomial…………………….…………....………………….
                                                                                                                    123

              3.2.1 Conceptos de ensayos de Bernoulli...........................................                    123

                                                                                                                    129
           3.3 Distribución Hipergeométrica……………………………………………

           3.4 Distribución de Poisson…………………………..………………………                                                         132

           3.5 Esperanza matemática…………………….……………………………
                                                                                                                    139

           3.6 Distribución normal…………………………….…………………………                                                            146

              3.6.1 Distribución de la probabilidad continúa.....................................                   146

           3.7 Aproximación de la Binomial a la normal……………………………                                                   156

           3.8 Otras distribuciones muéstrales…………………….……………………                                                     161

              3.8.1 Distribución T- Student...............................................................          161

              3.8.2 Distribución X cuadrada..............................................................           162




UNIDAD 4   ESTADÍSTICA APLICADA………………...…………………………………                                                               170
           4.1 Inferencia estadística………………….....………………………………
                                                                                                                    171

              4.1.1 Concepto.....................................................................................   171

              4.1.2 Estimación..................................................................................    171

              4.1.3 Prueba de hipótesis....................................................................         171

              4.1.4 Método clásico de estimación (puntual)......................................                    172

              4.1.5 Estimador Insesgado..................................................................           172

           4.2 Intervalos de confianza……………………………………………………                                                          172



                                                                                                                    VII 

 
4.2.1 Estimación por intervalo..............................................................        172

              4.2.2 Límites de confianza...................................................................       173

              4.2.3 Intervalo de confianza para una media.......................................                  174

              4.2.4 Intervalo de confianza para una diferencia de medida...............                           183

              4.2.5 Intervalo de confianza para proporciones...................................                   186

              4.2.6. Intervalo de confianza para diferencia de proporciones……….                                   189

           4.3 Pruebas de hipótesis………………………….....………………………                                                       196

              4.3.1 Prueba de hipótesis para la media poblacional..........................                       203

              4.3.2 Prueba de hipótesis para diferencias de medias........................                        214

              4.3.3 Prueba de hipótesis para proporciones......................................                   220

              4.3.4 Prueba de hipótesis para diferencia de proporciones.................                          223




UNIDAD 5   REGRESIÓN Y CORRELACIÓN…………………………………………...                                                             216
           5.1 Introducción………………………………………………………………                                                               217

              5.1.1 Gráficas de los datos..................................................................       217

              5.1.2 Variables de regresión independientes.......................................                  218

              5.1.3 Regresión lineal simple...............................................................        219

           5.2 Diagrama de dispersión…………………………………………………                                                          221

              5.2.1 Tabla de datos.............................................................................   221

              5.2.2. Construcción de Diagramas.......................................................             222

           5.3. Estimación mediante la línea de regresión……………………………                                              222

              5.3.1. Ecuación de la recta como ajuste de datos...............................                     222


                                                                                                                  VIII 

 
5.3.2. Modelos.....................................................................................   223

    5.4. Métodos de mínimos cuadrados…………………………………………                                                          223

         5.4.1 Estimación de los coeficientes de regresión..............................                       224

    5.5. Error estándar de estimación……………………………………………                                                         230

    5.6. Coeficiente de determinación y correlación…………………………….                                                233

         5.6.1. Coeficiente de determinación de la muestra.............................                        233

         5.6.2. Coeficiente de correlación de la muestra..................................                     238

    5.7. Problemas prácticos de ajustes de curvas……………………………                                                   245




    Anexos…………………………………………………………………………..                                                                       255

    ..




    Bibliografía………….…………………………………………………………                                                                    262
    …




                                                                                                                IX 

 
OBJETIVO GENERAL



El estudiante seleccionará modelos probabilísticas, aplicará cálculos de inferencia
estadística sobre datos y desarrollará modelos para la toma de decisiones en sistemas con
componentes aleatorios.




                                                                                      10 

 
JUSTIFICACION


Uno de los objetivos del Instituto Tecnológico Superior de Acayucan, es el de promover,
apoyar e impulsar el trabajo creativo del docente, principalmente en la elaboración de
antología que apoya al proceso enseñanza – aprendizaje, el cual debe ser estimulado con
los comentarios y sugerencias del profesorado y conviene que sea imitado por otros
maestros, quienes con capacidad de trabajo y tiempo disponible, pueden y deben gestar
literatura de este género, dando los pasos adecuados para pulirla y poder formar así textos
que faciliten la enseñanza y el aprendizaje del curso.

El presente material de consulta y apoyo didáctico se pone en manos de nuestros maestros
y, particularmente, de los alumnos que se forman en nuestro instituto. Considero los
contenidos de esta antología como el propósito más firme de mi convencimiento para facilitar
el estudio de la probabilidad y estadística en las nuevas generaciones que me honran al
confiarme su preparación y garantizar modestamente el fijarles una enseñanza para toda la
vida.




 




                                                                                         11 

 
UNIDAD 1

        ESTADISTICA
        DESCRIPTIVA


Objetivo:
El estudiante conocerá fundamentos
y técnicas básicas de estadística,
para organizar, representar y analizar
datos obtenidos de una situación
simulada o real.
UNIDAD I / ESTADISTICA DESCRIPTIVA.



1.1 Conceptos básicos de estadística.
1.1.1 Definición de estadística.
La palabra estadística procede del vocablo "estado" pues era función principal de los
gobiernos de los estados establecer registros de población, nacimientos, defunciones, etc.
Hoy en día la mayoría de las personas entienden por estadística al conjunto de datos, tablas,
gráficos, que se suelen publicar en los periódicos.


Definición:
Estadística, rama de las matemáticas que se ocupa de reunir, organizar y analizar datos
numéricos y que ayuda a resolver problemas como el diseño de experimentos y la toma de
decisiones.


Estadística es un conjunto de métodos científicos para la recopilación, representación
condensación y análisis de los datos extraídos de un sistema en estudio. Con el objeto de
poder hacer estimaciones y sacar conclusiones, necesarias para tomar decisiones.


El análisis se hace con las herramientas estadísticas, empleando la información obtenida de
los datos, para realizar estimaciones o inferencias, testear hipótesis de trabajo y así, poder
tomar las decisiones más adecuadas en cada caso particular, basadas en la evidencia
científica suministrada por estos análisis.


El trabajo del experto estadístico no consiste ya sólo en reunir y tabular los datos, sino sobre
todo en el proceso de interpretación de esa información. El desarrollo de la teoría de la
probabilidad ha aumentado el alcance de las aplicaciones de la estadística. La probabilidad
es útil para comprobar la fiabilidad de las inferencias estadísticas y para predecir el tipo y la
cantidad de datos necesarios en un determinado estudio estadístico. Cuando a través de
una muestra pretendemos obtener información de una población entera los datos obtenidos
puede ser diferente a los reales. Son valores aproximados del parámetro desconocido. A
estos valores se les llama Estimaciones.


Al dar una estimación estoy cometiendo un error llamado error de muestreo debido a que no
se esta considerando a toda la población, sino a una parte de ella. Existen procedimientos
que pueden determinar de antemano el error que puedo cometer.




                                                                                              13
UNIDAD I / ESTADISTICA DESCRIPTIVA.



Aparte de estos, existen otros errores que se presentan tanto en encuestas por muestreo
como en las encuestas por censo. Este tipo de errores son mayores y de difícil corrección.
Son errores ajenos al muestreo.


¿Qué es un experimento comparativo?
Es una investigación cuya finalidad es comparar los efectos de dos o más estímulos
(tratamientos A y B) aplicados a ciertos entes (unidades de experimentación        ,   ,        ,).
Para ello se efectúan mediciones sobre los efectos de ambos tratamientos obteniéndose los
resultados (       ,     ,        ).




¿Qué es una encuesta por muestreo?
Es una investigación que tiene por objetivo la descripción de ciertas características
( ,   ,   ,   …,       de una población, mediante el examen de una parte de ella (muestra   ,   ).
La medición de una característica en los elementos de la muestra produce resultados
(Y1 y Y4 ) . Si el muestreo es probabilístico, todos los elementos de la población tiene una
probabilidad no nula de formar parte de la muestra.




                                                                                                14
UNIDAD I / ESTADISTICA DESCRIPTIVA.



¿Qué es un estudio observacional?
Es una investigación comparativa sin la asignación aleatoria que se hace en los
experimentos (o investigación de muestreo no probabilístico), cuya finalidad es también
comparar los efectos que dos o mas condiciones ( A y B) tienen sobre los entes observados
  ,    ,        ,). Esto se lleva a cabo con extremado cuidado y control.




División de la estadística
Se divide en dos partes:


                        ⎧             ⎧                            ⎧ Re copilar
                        ⎪             ⎪                            ⎪
                        ⎪             ⎪ Descriptiva( Deductiva) ⎨ Re presentar
                        ⎪             ⎪                            ⎪
                        ⎪                                          ⎩Condensar
                        ⎪             ⎪
               División ⎨ Estadistica ⎨
                        ⎪             ⎪
                        ⎪             ⎪
                        ⎪             ⎪                           ⎧Caracteristicas
                        ⎪             ⎪ Inferencial ( Inferencia) ⎨
                        ⎪
                        ⎩             ⎩                           ⎩muestras



      a) Estadística descriptiva o deductiva: Es la parte de la estadística que se ocupa de
           recopilar, representar y condensar los datos obtenidos del sistema en estudio,
           utilizando representaciones gráficas de los datos tabulados.


      b) Estadística inferencial o inferencia estadística: Utiliza datos de muestra para hacer
           inferencias (característica) acerca de un conjunto de datos grandes – una población
           – de cual se selecciono la muestra.




                                                                                           15
UNIDAD I / ESTADISTICA DESCRIPTIVA.



1.1.2 Inferencia estadística.
Es la parte de la Estadística dedicada a la formulación de supuestos y estimaciones, para
hacer predicciones y poder sacar conclusiones de los datos obtenidos con el estudio de las
muestras. Y así, poder tomar decisiones con base científica. La Estadística se emplea en el
estudio de los fenómenos naturales, tanto los generados en los laboratorios por los
científicos como aquellos más allá del control humano.


Es una herramienta de uso tan amplio y general que hoy día es difícil imaginar un lugar
donde no pueda emplearse. Más aún, en algunas disciplinas es la herramienta básica de
medición, como por ejemplo en parapsicología para la determinación de PES (percepciones
extra-sensoriales).


1.1.3 Teoría de decisión.
Es una herramienta básica para la toma de decisiones, basadas en evidencia científica. La
manera de hacerlo es plantear las hipótesis posibles y luego efectuarle una prueba o test
estadístico.


Llamada en algunas obras: la docimasia estadística. Cuando una conclusión se valida con
un test estadístico se la llama de tipo cuantitativo, en caso contrario la decisión adoptada es
de tipo cualitativo, o sea, una decisión tomada en forma subjetiva. El método consiste en
definir una probabilidad de aceptación del orden del 95% (o rechazo) de una hipótesis de
trabajo planteada, que permite calcular los valores críticos (o límites de aceptación) de un
estadígrafo calculado a partir de los valores medidos. La importancia de este tema es muy
grande. Basta decir que el objeto final de la Estadística es la toma de decisiones.


1.1.4 Población.
La población, es el conjunto de todas las muestras posibles, que pueden obtenerse del
sistema en estudio de acuerdo al método de selección empleado.


La población, entonces, es el total hipotético de los datos que se estudian o recopilan. El
tamaño de la población se saca contando el número de elementos componentes. A veces es
un conteo simple, pero otras veces se trata de conteos ordenados.


A continuación muestra las formas de observar una población.




                                                                                            16
UNIDAD I / ESTADISTICA DESCRIPTIVA.




Etapas de la recopilación de datos
Etapa 1 - Objetivos de la Recopilación: esta primera etapa consiste en determinar con
claridad qué es lo que se quiere lograr con la recopilación. No siempre es fácil saber lo que se
quiere y menos determinarlo en detalle. Por eso, se deben definir primero los objetivos
generales del trabajo estadístico. Y a partir de ellos se conocerán las variables a medir y así
saber cuáles elementos se necesitarán. Con esto se tiene una primera idea de los alcances y
limitaciones de la tarea a realizar, según sea el tipo de información a obtener de la población en
estudio. Los objetivos deben redactarse concisos, breves y claros. Normalmente, la persona a
cargo de la investigación es la responsable de esta etapa pues tiene una visión más completa y
actualizada del tema en estudio. Por ejemplo, si se necesita la distribución de la población por
edades y sexo, no es lo mismo disponer de la información del último censo realizado que
hacerlo uno mismo.




                                                                                           17
UNIDAD I / ESTADISTICA DESCRIPTIVA.



Etapa 2 - Relevamientos: esta etapa consiste en determinar lo que se tiene para alcanzar los
objetivos definidos en la etapa anterior. Se trata de listar los bienes necesarios para poder hacer
el trabajo, y el listado de los disponibles. Conviene tener en cuenta la siguiente clasificación de
los bienes: Tangibles e Intangibles.


Por su parte, los bienes tangibles son dos:
    •   Los materiales incluyen los de vidrio, de limpieza, drogas, reactivos, etc.
    •   Por equipamiento se entiende no sólo los aparatos de medición, sino los accesorios
        como muebles y útiles de laboratorio y para oficina.
    •   El dinero o los recursos monetarios deben ser determinados con mucho detalle para
        afrontar gastos e inversiones durante la investigación. Además, hay que determinar los
        fondos disponibles y las posibles fuentes financieras adonde poder recurrir.




    •   La infraestructura incluye a los edificios, laboratorios, electricidad, agua, etc.
    •   El personal es todo el necesario en sus diferentes niveles, como ser: profesionales,
        técnicos, ayudantes, consultores externos, de servicio, etc. Este relevamiento de los
        bienes tangibles disponibles y de los necesarios para la recopilación condiciona de
        alguna manera los objetivos. Puede ser que se disponga de bienes sobrados para
        alcanzar los objetivos, por lo que se pueden plantear metas más ambiciosas. Por otra
        parte, puede ocurrir que los bienes disponibles estén lejos de cubrir los necesarios, y
        por lo tanto se deberán resignar los objetivos planteados por otros más modestos.




    Por su parte, los bienes intangibles son dos:
    •   la organización de los bienes tangibles, de manera tal de alcanzar los objetivos, y
    •   los conocimientos para saber cómo usarlos. Esto es el “know how” de cada profesión. Y
        también lo es la búsqueda bibliográfica de trabajos similares en revistas especializadas,
        textos y otras fuentes de información. Una vez terminada esta etapa, que seguramente
        habrá ayudado a depurar la anterior, se debe comenzar a pensar en las diferentes
        maneras de hacerlo.


Etapa 3 - Creación de alternativas: esta etapa consiste en saber cómo hacerlo. O sea,
generar distintas alternativas de sistemas de recopilación de datos, de acuerdo con los objetivos
adoptados y los bienes disponibles. Se debe hacer un listado con todas las formas posibles de



                                                                                                18
UNIDAD I / ESTADISTICA DESCRIPTIVA.



efectuar la recopilación a fin de tener un panorama completo. En síntesis, se habla de fuente
propia cuando se decide extraer los datos mediante mediciones. Fuente Primaria es cuando
se toman los datos de otros investigadores que publican los resultados de sus propias
mediciones. Fuente Secundaria es cuando los datos se extraen de publicaciones que usan
como referencia a fuentes primarias.


Etapa 4 - Selección de alternativas: consiste en determinar cuál es la mejor entre las n
alternativas planteadas en la etapa anterior. Se necesita de un método para la adopción de un
criterio de selección.


Etapa 5 - Prueba piloto: existe una diferencia entre el diseño en los papeles y la realidad. Es
por eso que siempre es aconsejable hacer una prueba piloto antes de la puesta en marcha para
poder juzgar cómo trabaja el sistema de recopilación de datos. Se sacan unos pocos datos y se
analizan las dificultades no previstas, junto con los resultados. Comparando los valores
obtenidos con los que se esperaba tener, se hace una especie de control previo del sistema.


Etapa 6 - Ajustes: Lo normal es tener que hacer pequeños ajustes que permitan optimizar al
sistema. De las diferencias detectadas en el control de la etapa anterior se sacan indicios. Estos
muestran qué tópicos retocar y surgen nuevas ideas de cómo hacer mejor las cosas.
Básicamente, usando el sentido común se corrigen los principales defectos, como ser: mejorar
el entrenamiento y conocimientos del personal, rediseñar formularios, calibrar equipos de
medición, estimación de la magnitud del error de medición, etc. Pero también hay técnicas de
optimización especiales como son los distintos modelos de la Investigación Operativa. Esta es
una disciplina muy emparentada con estadística y sus modelos más conocidos son: Teoría de
Líneas de Espera, Programación por Camino Crítico (PERT), Programación Dinámica y Lineal,
Reemplazos, Simulaciones, etc. Una vez hechos los ajustes, se vuelve a la etapa anterior y se
efectúa una nueva prueba piloto. Este ensayo permite decidir si se continúa adelante, o si son
necesarios más ajustes. Hay que continuar hasta que todo sea satisfactorio y recién entonces
pasar a la etapa siguiente.


Etapa 7 - Puesta en marcha: una vez optimizado y ajustado el método de obtención de datos
solo resta ponerlo en marcha. De esa manera, se logra la cantidad de datos necesarios para
alcanzar los objetivos previstos. El resultado final es la obtención de un volumen grande de
información que debe ser presentada en forma más resumida y comprensible usando tablas,
gráficos y otras formas, como se verá más adelante.




                                                                                               19
UNIDAD I / ESTADISTICA DESCRIPTIVA.



1.1.5 Muestra aleatoria.
La muestra es un conjunto de datos obtenidos de una población cualquiera, con el método de
recopilación elegido. Se la puede imaginar como un subconjunto del conjunto población. Se
toman muestras, cuando no se puede o no conviene, tomar la población entera. Si se tiene una
población de tamaño infinito, no se podrá nunca tomar todas las muestras posibles, como por
ejemplo, las mediciones repetidas de una misma magnitud, que se pueden repetir
indefinidamente mientras el ensayo no sea destructivo (repetidas pesadas en una balanza,
medir la temperatura de un cuerpo, etc.). Hay ocasiones, donde si bien la población es finita, es
tan grande que no resulta práctico tomar todos los casos como por ejemplo, cuando la
población es la especie humana.


Lógicamente, la confiabilidad de las conclusiones extraídas concernientes a una población
dependen de si la muestra se ha escogido apropiadamente de tal modo que represente la
población suficiente. Una forma de hacer esto para poblaciones finitas es asegurarse de que
cada miembro de la población tenga igual oportunidad de encontrarse en la muestra, lo que se
conoce como muestra aleatoria.


1.1.6 Parámetros aleatorios.
Parámetro, es toda magnitud que tiene el mismo valor dentro de una población. O sea, no
permite diferenciar entre sí a sus elementos componentes. Existen medidas para realizar
descripciones cuantitativas de los conjuntos de datos, o poblaciones, y de sus muestras,
diferenciándose entre ellas las que se refieren a las mismas poblaciones y a las muestras. Para
el caso de las poblaciones, las medidas que las describen se denominan parámetros, y suelen
estar representadas con letras griegas (por ejemplo      y   ). Por otro lado, para el caso de
aquellas medidas que describen a una muestra se les llama estadísticos o estimadores, y son
representados por letras de nuestro alfabeto (por ejemplo, x o s). Tales medidas cuantitativas
que describen a las poblaciones y a las muestras se comentarán enseguida. Se considera que
se conoce una población cuando conocemos la distribución de probabilidad f(x) de la variable
aleatoria asociada X.


1.1.7 Enfoque clásico.
La utilización de esta metodología implica una cierta filosofía o visión de la Probabilidad y la
Estadística muy particular y poco frecuente. Lo particular de este enfoque es que es
razonablemente más sencillo que el enfoque clásico de la estimación y el ensayo de hipótesis, a




                                                                                              20
UNIDAD I / ESTADISTICA DESCRIPTIVA.



los que reemplaza y mejora por cuanto no implica aproximaciones ni requiere de la introducción
de nuevos conceptos.


1.1.8 Enfoque Bayesiano.
En el enfoque Bayesiano de la Estadística, la incertidumbre presente en un modelo dado,
p(x⏐θ), es representada a través de una distribución de probabilidad p (θ ) sobre los posibles
valores del parámetro desconocido θ (típicamente multidimensional) que define al modelo. El
Teorema de Bayes,



                                                    p (θ ) p ( x θ )
                                        p (θ x) =
                                                         p( x)

Permite entonces incorporar la información contenida en un conjunto de datos x = ( x1 ,..., x n ) ,
produciendo una descripción conjunta de la incertidumbre sobre los valores de los parámetros
del modelo a través de la distribución final p (x⏐θ ).


Desafortunadamente, la implementación de las técnicas Bayesianas usualmente requiere de un
esfuerzo computacional muy alto. La mayor parte de este esfuerzo se concentra en el cálculo
de ciertas características de la distribución final del parámetro de interés (que llamaremos
resúmenes inferenciales). Así, por ejemplo, para pasar de una distribución conjunta a una
colección de distribuciones y momentos marginales que sean útiles para hacer inferencias
sobre subconjuntos de parámetros, se requiere integrar. En la mayoría de los casos los
resúmenes inferenciales básicos se reducen a integrales de la forma:



                                  S {g (θ )} = ∫ g (θ ) p (θ ) p (z θ )dθ


El análisis Bayesiano, en otra diferencia con la estadística clásica, permite incorporar en un
estudio información de distintas fuentes, incluso subjetivas.


De esta manera concibe, en un plano muy general, las técnicas estadísticas como mecanismos
para la actualización del conocimiento particular o general, individual o colectivo sobre el estado
que guarda la naturaleza."




                                                                                                21
UNIDAD I / ESTADISTICA DESCRIPTIVA.



1.2 Descripción de datos.


1.2.1 Datos agrupados y no agrupados.
La principal diferencia entre ambas es que en datos agrupados se ordenan los datos de la
tabla y se almacenan en el orden del índice. Los datos agrupados mejoran el rendimiento al
almacenar los datos de la tabla junto con datos de nivel de hoja del índice. Una ordenación es
un conjunto de datos numéricos en orden creciente o decreciente. Este método de presentación
de la información consiste en presentar los datos por medio de una tabla o cuadro.


Los datos no agrupado no apunta directamente a la fila de la tabla, sino que utiliza los valores
del índice agrupado como punteros a las filas de la tabla.


Una fila de datos consiste en datos recogidos que no han sido organizados numéricamente.


1.2.2 Frecuencia de clase.
La frecuencia de clase o frecuencia de categoría, es el número de observaciones que caen
dentro de una categoría
                               Altura ( in)      Número de
                                                 estudiantes f
                               60 – 62                 7
                               63 – 65                20
                               66 – 68                44
                               69 – 71                29
                               72 – 74                10
                                                  Total 110



1.2.3 Frecuencia relativa.
La frecuencia relativa (proporción); de una clase es su frecuencia dividida por la frecuencia total
de todas las clases.


                        numero de estudiante
frecuencia relativa =
                               total




                                                                                                22
UNIDAD I / ESTADISTICA DESCRIPTIVA.



                             Altura ( in)    Número de        Frecuencia
                                            estudiantes (f)    relativa
                               60 – 62            7            0.0636
                               63 – 65            20           0.1818
                               66 – 68            44             0.4
                               69 – 71            29           0.2636
                               72 – 74            10           0.0909
                                 total           110           1.0000




1.2.4 Punto medio.
El punto medio del intervalo de clase, que puede tomarse como representativo de la clase, se
llama marca de clase, que se refiere al punto medio del intervalo de clase y se obtiene
promediando los limites inferior y superior de clase. Así que las marcas de clase del intervalo
60 – 62 es:


                                            60 + 62
                                                    = 61
                                               2


1.2.5 Límites.
Tomando encuenta la clase 60 - 62 se dice que se llaman límites de clases, el 60 se llama
límite inferior de clase y el 62 se llama límite superior de clase.


1.2.6 Histograma.
Es una representación grafica para la distribución de frecuencia. Un histograma o histograma de
frecuencias, consiste en un conjunto de rectángulos con:


  a)    base en el eje x horizontal, centros en las marcas de clases y longitudes iguales a los
        tamaños de los intervalos de clase y


  b)    áreas proporcionales a las frecuencias de clase.




                                                                                            23
UNIDAD I / ESTADISTICA DESCRIPTIVA.



                            Altura ( in)                 Número de                  Marca de
                                                       estudiantes (f)              clases (X)
                               60 – 62                              7                    61
                               63 – 65                          20                       64
                               66 – 68                          44                       67
                               69 – 71                          29                       70
                               72 – 74                          10                       73
                                   total                        110




                                                                frecuencia

                                     50
                                     40
                                     30
                                     20
                                     10
                                      0
                                             58        61       64      67   70     73     76




1.2.7 Histograma de frecuencia relativa.
                              Altura ( in)             Numero de                  Frecuencia
                                                      estudiantes (f)              relativa
                                   60 – 62                      7                  0.0636
                                   63 – 65                  20                     0.1818
                                   66 – 68                  44                       0.4
                                   69 – 71                  29                     0.2636
                                   72 – 74                  10                     0.0909
                                    total                   110                    1.0000



                                   Histograma de frecuencia relativa
                            0.45
                             0.4
                            0.35
                             0.3
               Frec. Rel.




                            0.25
                             0.2
                            0.15
                             0.1
                            0.05
                               0
                                       1          2         3           4     5




                                                                                                 24
UN
                                           NIDAD I / ESTADIST
                                                            TICA DESC
                                                                    CRIPTIVA
                                                                           A.



Problemas propuesto
        s         os:
Problema: El rascón terrestre o g
                                guión de las codornices es una ave europea e peligro de
                                                                 e         en         e
extinción m
          mundial. En fechas recientes se lle
                                            evó a cabo un censo de rascones cantores en
                                                                                      n
terrenos ag           Gran Bretañ e Irlanda (Journal of applied ecol
          grícolas de G         ña                                 logy) . La ta
                                                                               abla indica e
                                                                                           el
numero total de rascon terrestres que habitan en cada de 10 áreas ge
                     nes        s           n          e           eográficas.


          Área
          Á                                                 Numero de rascones
                                                                             s
                                                                  terrestres
              1. Tierr bajas de E
                     ra         Escocia                              12
              2. Tierr altas de e
                     ras        escocia                              15
              3. Orkn y Shetlan
                    ney       nd                                     34
              4. Lewi y Harris
                    is                                               76
              5. N. Uist y Benbec
                                cula                                 82
              6. S. Uist y Barra                                     155
              7. Hebr
                    ridas interior
                                 res                                 76
              8. Coll y Tirce                                        121
              9. Irlanda del norte                                   128
              10. Repu
                     ublica de Irla
                                  anda                               789
          Total
          T                                                         1
                                                                    1488


       esuma los da
   a) Re          atos con un h
                              histograma




1.3.      edidas de tendencia central.
         Me                 a


1.3.1 Med aritmé
        dia    ética, geom
                         métrica y p
                                   ponderada.
Media aritm
          mética
Sean, x1 ,x2 ,....,xn , n o
          x               observacione muéstrale definiremos promedio de estas ob
                                     es        es,                  o           bservaciones
                                                                                           s
al valor dad por:
           do




o bien




                                                                                          25
                                                                                           5
UNIDAD I / ESTADISTICA DESCRIPTIVA.


                                                                       N


                               x + x 2 + x 3 + ... + x n
                                                                     ∑x
                                                                      j =1
                                                                                j
                                                                                            ∑x
                            x= 1                         =                              =
                                         N                                 N                        N


Ejemplo: La media aritmética de los números 8, 3. 5, 12 y 10


                                        8 + 3 + 5 + 12 + 10 38
                                  x=                       =   = 7. 6
                                                 5           5

En esta expresión, puede verse que el promedio de un conjunto de números se calcula
sumándolos y luego dividiendo la suma por el número de sumandos. La estadística promedio
representa muy bien el 'centro' de la distribución de los datos cuando se trata de casos
'normales'. Entendemos aquí por casos 'normales' aquellos conjuntos de datos que no
contienen valores muy extremos, valores muy alejados de los demás. Debido a que en muchas
situaciones experimentales, el comportamiento de los datos es relativamente 'normal', el
promedio es muy usado, convirtiéndose en la primera estadística calculada para representar el
'centro' de la población en estudio.


si los números X1 , X2 , ... , Xk , ocurren f1 , f2 , ... , fk , veces respectivamente, su media
aritmética
                                                                               N


                                 f x + f 2 x 2 + ... + f k x k
                                                                               ∑f
                                                                               j =1
                                                                                            j   xj
                              x= 1 1                           =
                                    f1 + f 2 + ... + f k                            k

                                                                                ∑f  j =1
                                                                                                j




                              x=
                                    ∑ fx
                                       N

Ejemplo: si 5, 8, 6, y 2 ocurren con frecuencias 3, 2, 4 y 1 , respectivamente, su media
aritmética es

                       x=
                            (3 )(5 ) + (2 )(8 ) + (4 )(6 ) + (1)(2 ) = 15 + 16 + 24 + 2                 = 5 .7
                                      3+ 2 + 4 +1                              10


Ejemplo:En la tabla siguiente se tiene los puntajes obtenidos en la Prueba de Aptitud
Académica por 30 jóvenes, provenientes de un mismo establecimiento educacional:




                                                                                                                 26
UNIDAD I / ESTADISTICA DESCRIPTIVA.



         P. Ap. Verbal      P. Ap. Matemática    P. Ap. Verbal   P. Ap. Matemática

              685                  664               730                 642

              490                  548               618                 533

              580                  567               690                 654

              705                  665               680                 542

              470                  452               690                 678

              620                  506               710                 732

              650                  618               742                 749

              702                  718               685                 570

              643                  621               595                 574

              540                  555               674                 657

              575                  502               722                 747

              600                  531               585                 620

              500                  478               505                 482

              680                  558               600                 643

              587                  600               543                 500



Con los datos de la tabla, se puede caracterizar el establecimiento educacional usando el
promedio de cada una de las pruebas. Lo primeros que se necesita es calcular la suma de los
puntajes de los treinta alumnos.


Dichas sumas son las siguientes:
Prueba de Aptitud Verbal 18796
Prueba de Aptitud Matemática 17906
Promedio Prueba de Aptitud Verbal 626.533
Promedio Prueba de Aptitud Matemática 596.867




                                                                                        27
UN
                                              NIDAD I / ESTADIST
                                                               TICA DESC
                                                                       CRIPTIVA
                                                                              A.



La Media g
         geométrica G
La media g
         geométrica es el resultado de multiplicar todos los elementos y extraer la raíz n -ésima
                                                           s                                    a
del product
          to:

        ometrica = n x1 .x 2 ...x n
media geo


Ejemplo: la media geom
          a          métrica g de 2, 4 y 8

G = 3 ( 2) ( 4) ( 8) = 4                  mathca
                                               ad      gmea ( 2 , 4 , 8) = 4
                                                          an



Promedio Ponderado.
En muchas ocasiones, las observa
        s                      aciones recol
                                           lectadas no tienen la mis
                                                                   sma importa
                                                                             ancia relativa
                                                                                          a.
Para hacer presente este hecho en la búsqued de un 'ce
         r                                 da        entro' que re
                                                                 epresente a los datos, es
                                                                                         s
necesario a
          asignar a cad uno de és
                      da        stos, una ponderación (p
                                                       peso o coefic
                                                                   ciente) que re
                                                                                epresente su
                                                                                           u
importancia dentro de la muestra.
          a


Definición.
A veces as
         sociada con l números X1, X2, . . . XK , ciertos f
                     los                                  factores peso ( o pesos ) W1, W2 ,...,
                                                                      os
WK depend
        dientes de la relevancia a
                    a            asignada a c
                                            cada número
                                                      o.




Ejemplo: si el examen final de un c
          i                       curso cuanta tres veces mas que una evaluación parcial y un
                                             a                      a          n            n
estudiante tiene calific
                       cación 85 e el exame final y 7 y 90 en los dos pa
                                 en       en        70                 arciales , las
                                                                                    s
calificacion media es :
           nes      s



                           x=
                                (1)(7 ) + (1)(90 ) + (3)(85) = 415 = 83
                                    70
                                        1+1+ 3                 5
Ejercicios
         s:
    a) hal la media aritmética d los númer 5, 3, 6, 5 4, 5, 2, 8, 6 5, 4, 8, 3, 4, 5, 4, 8, 2
         llar                  de        ros        5,            6,                        2,
         5, y 4
         Solución: 4.8




                                                                                              28
                                                                                               8
UNIDAD I / ESTADISTICA DESCRIPTIVA.



    b) De entre 100 números. 20 son cuatros, 40 son cinco, 30 son seis y los restantes siete.
        Hallar su media aritmética.
    Solución: 5.30


    c) las calificaciones finales de un estudiante en cuatro asignatura fueron 82, 86, 90 y 70. si
        los respectivos créditos otorgados a esos cursos son 3, 5, 3 y 1 , determinar una
        calificación media a apropiada.
    Solución: 85


    d) De los 80 empleados de una empresa 6 cobra $ 7,00 a la hora y el resto $4,00 a la
        hora. Hallar cuanto cobran de media por hora
    Solución: $6.25


    e) Cuatro grupos de estudiantes, consistentes en 15, 20, 10 y 18 individuos, dieron pesos
        medios de 162, 148, 153 y 140 lb., respectivamente . hallar el peso medio de todos
        esos estudiantes.
    Solución: 150 lb.




1.3.2 Mediana.
La mediana de un conjunto de números ordenados en magnitud es el valor central o la media
de los dos valores centrales.
Datos sin agrupar:
Ejemplo: el conjunto de números 3, 4, 4, 5, 6, 8, 8, 8, 10 tiene mediana 6

 mathcad    median ( 3 , 4 , 4 , 5 , 6 , 8 , 8 , 8 , 10) = 6



Ejemplo: el conjunto de números 5, 5, 7, 9, 11, 12, 15, 18 tiene mediana ½ ( 9 + 11 ) = 10


Ejemplo: las notas de un estudiante en seis exámenes han sido 84, 91, 72, 68, 87 y 78. hallar la
mediana de esas notas.
Solución : las notas ordenadas son 68, 72, 78, 84, 87 , 91,
1 / 2 ( 78 + 84 ) = 81




                                                                                               29
UNIDAD I / ESTADISTICA DESCRIPTIVA.



Ejemplo: cinco oficinistas cobran $ 4.52, $ 5.96, $ 5.28, $ 11.20 y $ 5.75 a la hora. Hallar la
mediana
Solución = la ordenación es: $ 4.52, $ 5.28, $ 5.75 , $ 5.96, $ 11.20
La mediana es $ 5.75


Datos Agrupados:
Las gráficas siguientes, correspondientes a polígonos de frecuencias absolutas acumuladas,
nos plantea de nuevo dos situaciones diferentes a considerar:

                                               ⎜ − (∑ f )1 ⎟
                                               ⎛N          ⎞
                                mediana = L1 + ⎜ 2         ⎟C
                                               ⎜ f mediana ⎟
                                               ⎜           ⎟
                                               ⎝           ⎠
donde:
L1 = frontera inferior de la clase mediana.
N = numero de datos (frecuencia total)
(Σ f ) 1 = suma de la frecuencia de las clases inferiores a la de la mediana.
f mediana = frecuencia de la clase mediana.
C = anchura del intervalo de clase de la mediana.


Ejemplo:
                             Altura ( in)     Numero de estudiantes (f)

                              60 – 62                    7
                              63 – 65                    20
                              66 – 68                    44
                              69 – 71                    29
                              72 – 74                    10
                                total                   110




                              110
Para indicar la posición :        = 55 ; entonces se procede a realizar una suma con las
                               2
frecuencias (f) hasta llegar al valor 55 o mas de 55 pero no menos, para suponer que ahí cae la
mediana solo que se tiene que hacer es verificar su valor.


7 + 20+ 44 = 71 por lo tanto cae en el intervalo 66 – 68



                                                                                            30
UNIDAD I / ESTADISTICA DESCRIPTIVA.



Datos:

L1 = 65.5 ; N = 110 ;          (∑ f )     1
                                              = 27 ; f mediana = 44 ; C = 68.5 − 65.5 = 3


                 ⎛ 110      ⎞
                 ⎜     − 27 ⎟
mediana = 65.5 + ⎜ 2        ⎟(3) = 67.41
                 ⎜ 44 ⎟
                 ⎜          ⎟
                 ⎝          ⎠


1.3.3 Moda.
La moda de un conjunto de números es el valor que ocurre con mayor frecuencia; es decir, el
valor mas frecuente. La moda puede no existir e incluso no ser única. Esta estadística debe
usarse con cuidado. Su objetivo es identificar zonas donde se producen aglomeraciones de
datos, sin embargo, podría ser que por el solo hecho de haber una observación extra en un
punto aislado, éste pudiese aparecer como una moda.


Este inconveniente es especialmente delicado cuando hay pocas observaciones en la muestra,
tal como es el caso que se observa en el gráfico siguiente.


Datos sin agrupar:
Ejemplo: el conjunto 2, 2, 5, 7, 9, 9, 9, 10, 10, 11, 12, 18 tiene como moda 9

 mathcad   mode( 2 , 2 , 5 , 7 , 9 , 9 , 9 , 10 , 10 , 11 , 12 , 18) = 9

Ejemplo: el conjunto 3, 5, 8, 10, 12, 15, 16 n o tiene moda


Ejemplo: el conjunto 2, 3, 4, 4, 4, 5, 5, 7 , 7, 7, 9 tiene dos modas 4 y 7 y se llama bimodal


Una distribución única se llama unimodal.


Datos agrupados :


             ⎛ Δ1 ⎞
             ⎜ Δ + Δ ⎟C
mod a = L1 + ⎜        ⎟
             ⎝ 1    2 ⎠




donde:
L 1 = frontera inferior de la clase modal ( clase que contiene a la moda)



                                                                                                   31
UNIDAD I / ESTADISTICA DESCRIPTIVA.



Δ1 = exceso de la frecuencia modal sobre la clase inferior inmediata
Δ2 = exceso de la frecuencia modal sobre la clase superior inmediata
c = anchura del intervalo de clase modal.


Ejemplo :
                             Altura ( in)   Numero de estudiantes (f)

                              60 – 62                  7
                              63 – 65                  20
                              66 – 68                  44
                              69 – 71                  29
                              72 – 74                  10
                                total                 110


De acuerdo a la definición la moda será quien tenga mayor frecuencia por lo tanto cae en el
intervalo 66 – 68


L1 = 65.5 ; Δ 1 = 44 − 20 = 22 ; Δ 2 = 44 − 29 = 15 ; C = 68.5 − 65.5 = 3


               ⎛ 22 ⎞
mod a = 65.5 + ⎜         ⎟(3) = 67.28
               ⎝ 22 + 15 ⎠

Medidas de posición relativa (Cuartiles, deciles y percentiles).
Las calificaciones de exámenes y ciertos tipos de datos sociológicos y de salud con frecuencia
se presentan en una forma que describe la posición de una observación relativa a las demás
observaciones de la distribución.


Si un conjunto de datos están ordenados por magnitud, el valor central ( o la media de los dos
centrales) que divide al conjunto en dos mitades iguales es la mediana. Extendiendo esa idea,
podemos pensar en aquellos valores que dividen al conjunto en cuatro partes iguales.


Estos valores, denotados por Q 1, Q 2, Q3 , se llaman primer, segundo y tercer cuartil. Q    2

coincide con la mediana.




                                                                                           32
UNIDAD I / ESTADISTICA DESCRIPTIVA.



Análogamente los valores que dividen a los datos en 10 partes iguales se llaman deciles y se
denotan D1 , D2 , . . . , D9 , mientras los valores que se dividen en 100 partes iguales se llaman
percentiles denotados P1 , P2 , . . . , P 99 .


Colectivamente cuartiles, deciles y percentiles se denominan cuantiles.


                                    Altura ( in)   Numero de estudiantes (f)

                                      60 – 62                 7
                                      63 – 65                 20
                                      66 – 68                 44
                                      69 – 71                 29
                                      72 – 74                 10
                                       total                 110


Hallar Cuartiles:


N / 4 = 100 / 4 = 25
5 + 18 = 23           63 – 65 → 62.5 – 65.5
                    ( 25 − 23 )
 Q        65.5 +                  ( 3) = 65.64
     1                  42


2N / 4 = 2(100) / 4 = 50
5 + 18 = 23           63 – 65 → 62.5 – 65.5
5 + 18 + 42 = 65


                    ( 50 − 23 )
 Q        65.5 +                  ( 3 ) = 67.43
     2                  42


3N / 4 = 3(100) / 4 = 75
5 + 18 +42 = 65              66 – 68 → 65.5 – 68.5


                    ( 75 − 65 )
 Q        68.5 +                  ( 3) = 69.61
     3                  27




                                                                                               33
UNIDAD I / ESTADISTICA DESCRIPTIVA.



Hallar los deciles

 100                                   ( 10 − 5)
        = 10      D          62.5 +                ( 3) = 63.33
  10                  1                   18



 2( 100)                                ( 20 − 5)
           = 20      D        62.5 +                 ( 3) = 65
   10                    2                  18



5+ 18 = 23

 3( 100)                                ( 30 − 23)
           = 30   D           65.5 +                 ( 3) = 66
   10                 3                     42



5+ 18 = 23

 4( 100)                              ( 40 − 23)
           = 40   D          65.5 +                ( 3) = 66.71
   10                4                   42

5+ 18 = 23

 5( 100)                              ( 50 − 23)
           = 50   D          65.5 +                ( 3) = 67.43
   10                5                   42



5+ 18 = 23

 6( 100)                              ( 60 − 23)
           = 60   D          65.5 +                ( 3) = 68.14
   10                6                   42



5+ 18 + 42 = 65

 7( 100)                              ( 70 − 65)
           = 70   D          68.5 +                ( 3) = 69.06
   10                7                   27


5+ 18 + 42 = 65

 8( 100)                              ( 80 − 65)
           = 80   D          68.5 +                ( 3) = 70.17
   10                8                   27



5+ 18 + 42 = 65




                                                                                           34
UNIDAD I / ESTADISTICA DESCRIPTIVA.



9( 100)             D                  ( 90 − 65)
          = 90       9       68.5 +                 ( 3) = 71.28
  10                                      27


Hallar percentiles P 35 y P 50
35 (100) / 100 = 35

 P                   ( 35 − 23 )
     35    65.5 +                  ( 3 ) = 66.36
                          42


50 (100) / 100 = 50
                         ( 50 − 23 )
 P          65.5 +                     ( 3 ) = 67.43
     50                      42




1.4.      Medidas de dispersión.


Medidas de Posición.
La descripción de un conjunto de datos, incluye como un elemento de importancia la ubicación
de éstos dentro de un contexto de valores posibles. Por ejemplo, puede resultar de interés
conocer qué porcentaje de automóviles equipados con convertidor catalítico sobrepasa el
estándar de emisiones de gases que es aceptable según la legislación vigente. Ya no se trata
en este ejemplo de describir el centro de un conjunto de datos de esta naturaleza. Es necesario
ser más específico. Es probable que la emisión promedio de un conjunto de automóviles esté
dentro de la norma. Pero,¿es aceptable que el 25% de ellos no la cumpla?. Se ve, entonces,
que la descripción debe entregar más información de los datos para cubrir las necesidades
informativas referentes a un problema en particular.


1.4.1 Varianza.
Cuadrada para poder compararla con la media y otras medidas análogas. Esta es la idea del
desvío estándar o desviación típica. También es la fórmula planteada por Gauss en su teoría
de errores casuales. Como se verá más adelante, la curva de Gauss tiene dos puntos de
inflexión simétricos ubicados a una distancia del centro igual al desvío estándar.




                                                                                            35
UNIDAD I / ESTADISTICA DESCRIPTIVA.



La varianza
La varianza es el promedio de los cuadrados de las desviaciones de cada elemento, x i,
respecto a la media,


La varianza de un conjunto de datos se define como el cuadrado de la desviación típica y viene
dada en consecuencia por S2 . varianza poblacional (s 2)


                                                ∑ (x       − x)
                                                N
                                                              2
                                                       j
                                                j =1
                                         S2 =                         ;
                                                       N
para una población finita con n determinaciones.


Y la varianza muestral (σ 2)
                                                                          2
                                                              ⎛ n ⎞
                                                              ⎜ ∑ yi ⎟
                                     ∑ ( xi − x ) ∑ yi − ⎝ i =1 n ⎠
                                       n               n
                                                 2        2


                               σ 2 = i =1          = i =1
                                          n −1              n −1


1.4.2 Desviación estándar.
A su vez, el desvío estándar poblacional (σ) y el muestral (s) se obtienen con la raíz
cuadrada de las respectivas varianzas y Representa el alejamiento de una serie de números de
su valor medio. Se calcula a partir de todas las desviaciones individuales con respecto a la
media.


Para poder conocer o calcular tanto la media como la varianza poblacionales, se necesita
conocer la población completa. Esto es imposible en el caso de mediciones repetidas porque
estas son infinitas desde el punto de vista teórico. Análogamente, la cantidad total de muestras
que se le puede extraer a un paciente, para hacerle una determinación en el laboratorio, es tan
grande que puede ser considerada infinita. Por lo tanto, para todos


                                                ∑ (x       − x)
                                                 N
                                                                  2
                                                       j
                                                j =1
                                         S=
                                                       N
El uso de esta estadística es recomendado en aquellos conjuntos de datos que ofrecen cierto
grado de simetría respecto de su centro. En estos casos, habitualmente tiene sentido medir
discrepancias de un valor con el centro de los datos usando múltiplos de la desviación estándar.



                                                                                             36
UNIDAD I / ESTADISTICA DESCRIPTIVA.



          A modo de ejemplo, se puede decir que un valor está bastante alejado del centro de los datos si
          su distancia de él supera dos desviaciones estándar. Apoyándose en la idea anterior, la
          desviación estándar puede ser usada para determinar valores que se encuentran 'cerca' del
          centro. Este uso va más allá de la simple descripción, en otros ámbitos de Estadística es usada
          para tomar decisiones respecto de la población de la que fue extraída la muestra.


          Ejercicio: Calcular la desviación estándar de los siguientes datos:
          68.2, 69.3, 70.4, 71.5, 72.6, 73.7, 74.8,

                       68.2+ 69.3+ 70.4+ 71.5+ 72.6+ 73.7+ 74.8
              prom:=
                                                7
          prom = 71.5


                       2                  2                 2                 2                 2                 2                     2
          ( 68.2 − 71.5 ) + ( 69.3 − 71.5 ) + ( 70.4 − 71.5 ) + ( 71.5 − 71.5 ) + ( 72.6 − 71.5 ) + ( 73.7 − 71.5 ) + ( 74.8 − 71.5 )
desv :=
                                                                       7

 desv = 2.2



          Problema: Investigadores del Massachussets Institute of Technology (MIT) estudiaron las
          propiedades espectroscopicas de asteroides de la franja principal con un diámetro menor a los
          10 kilometros. Los asteroides se observaron con el telescopio hiltener del observatorio del MIT;
          se registro el numero N de exposiciones de imagen espectral independientes para cada
          observación. Aquí se presentan los datos de 40 observaciones de asteroides obtenidas de
          Science.


                       Numero        de       exposiciones      de     imagen       espectral       independientes         para       40
                       observaciones de asteroides.
                 3         4            3            3          1           4             1            3              2           3
                 1         1            4            2          3           3             2            6              1           1
                 3         3            2            2          2           2             1            3              2           1
                 6         3            1            2          2           3             2            2              4           2


               a) Localice        y y s en el listado
               b) Construya los intervalos
                 y ± s , y ± 2 s , y ± 3s




                                                                                                                                            37
UNIDAD I / ESTADISTICA DESCRIPTIVA.



1.4.3 Desviación media.
La desviación media o desviación promedio de un conjunto de N números x 1, x 2, . . . , x            N   es
abreviada por MD y se define como:
                                                           N

                                                          ∑x
                                                           j =1
                                                                      j   −x
                                         M .D. =
                                                                   N

Ejemplo: hallar la desviación media del conjunto 2, 3, 6, 8, 11
                                                                   2 + 3 + 6 + 8 + 11
                                     media aritmetica =                                 =6
                                                                               5
                       con mathcad   mean ( 2 , 3 , 6 , 8 , 11) = 6

                                                               desviacion media

                                 2 − 6 + 3 − 6 + 6 − 6 + 8 − 6 + 11 − 6
                         MD =                                                                = 2.8
                                                               5




1.4.4 Desviación mediana.
Es la media aritmética de los valores absolutos de las desviaciones de los valores de la
variable con respecto a la mediana.


                                     D Me =
                                                     ∑x        j   − Me n j
                                                                   n


1.4.5 Rango.
La más simple de todas es el rango, definido como la diferencia entre el valor máximo y
mínimo del grupo de datos. De fácil cálculo y comprensión, tiene la desventaja de ser la
medida más grosera de la dispersión.


Dos grupos de datos, con muy distinta dispersión pueden llegar a tener rangos similares. Uno
de ellos puede tener el 99% de los valores junto al mínimo y el otro el 99% junto al máximo,
pero al tener extremos iguales, sus rangos resultarían iguales a pesar de ser tan disímiles
intrínsecamente.


                                RANGO = Máx. datos - Mín. datos




                                                                                                         38
UNID
                                             DAD I / ES
                                                      STADISTIC DESCR
                                                              CA    RIPTIVA.



1.5      Pa
          arámetros para dato agrupados.
                            os


1.5.1 La media.
       a
Sean, x1 ,x2 ,....,xn , n obser
                              rvaciones m
                                        muéstrales, definiremos promedio de estas
observacio
         ones al valor dado por:




o bien
                                                                      N


                               x + x 2 + x3 + ... + x n
                                                                      ∑x
                                                                      j =1
                                                                              j

                            x= 1                        =
                                         N                                N

                            x=
                               ∑x
                                N

Ejemplo: La media aritm
          a           mética de los números 8, 3. 5, 12 y 10
                                  s
                                   8 + 3 + 5 + 12 + 10 38
                                                2
                             x=                       =   = 7.6
                                            5           5




1.5.2 La desviació típica.
       a         ón
                    e          blacional ( σ) y el mue
A su vez, el desvío estándar pob                      estral ( s) se obtienen con la raíz
                                                                              c
cuadrada d las respec
         de         ctivas varian
                                nzas y Repre
                                           esenta el ale
                                                       ejamiento de una serie de números
de su valor medio. Se calcula a par de todas las desviacio
          r           c           rtir                   ones individu
                                                                     uales con res
                                                                                 specto a la
media.


                                          ∑ f (x              − x)
                                           k
                                                                  2
                                                  j       j
                                           j =1
                                    S=                k

                                                  ∑f
                                                  j =1
                                                              j




                                                                                         39
UNIDAD I / ESTADISTICA DESCRIPTIVA.



                                                     x j − x ( x j − x ) 2 f j (x j − x )
                                                                                        2
                                    xj         fj

                                  68.2    5         -2.6358 6.9477        34.7385
                                  69.3    11        -1.5358 2.3588        25.9472
                                  70.4    14        -0.4358 0.1900        2.6595
                                  71.5    11        0.6642 0.4411         4.8521
                                  72.6    7         1.7642 3.1122         21.7856
                                  73.7    3         2.8642 8.2034         24.6101
                                  74.8    2         3.9642 15.7145 31.4290
                                  Total 53                                146.0219

                                   x=
                                          70.8358
                                  Desv.
                                  Est. = 1.6599


Y la desviación media para datos agrupados:
        k

       ∑f
        j =1
                j     xj − x
DM =           k

               ∑f
               j =1
                        j




                             xj                fj                                   f j xj − x
                                                               xj − x
                      68.2                5             2.6358               13.1792
                      69.3                11            1.5358               16.8943
                      70.4                14            0.4358               6.1019
                      71.5                11            0.6642               7.3057
                      72.6                7             1.7642               12.3491
                      73.7                3             2.8642               8.5925
                      74.8                2             3.9642               7.9283
                      Total               53                                 72.3509
                            x=
                                          70.8358
                      Desv. Med. =        1.3651




                                                                                                 40
UNIDAD I / ESTADISTICA DESCRIPTIVA.



1.6 Distribución de frecuencias.


Reglas generales para formar distribuciones de frecuencias
Paso 1: Calcular el intervalo de los datos :


    Intervalo = Observación Grande – Observación Pequeña.


Paso 2: Dividir el intervalo entre 5 y 20 clases de igual anchura. El número de clases es
arbitrario, pero se obtiene una mejor descripción grafica si se utiliza pocas clases cuando el
número de datos es pequeño y un mayor número de clases cuando el conjunto de datos es
grande. La frontera de la clases más baja ( o primera) deberá estar situada por debajo de la
medición más pequeña, y el ancho de la clase debe ser tal que ninguna observación pueda
quedar exactamente en la frontera de una clases.          Se pueden calcular de la siguiente
manera:
                                Intervalo
                                          = anchura de clase
                                 # clases

O bien,
                                      Intervalo
                                                    = # clase
                                  anchura de clases

Si la precisión es:
    una unidad entera (1) entonces es 1/2 = 0.5, la primera clases comenzará restándole 0.5
    a la observación mas pequeño
    una unidad decimal (0.1) entonces es 0.1/2 = 0.05, la primera clases empieza restándole
    0.05 a la observación mas pequeña.


Paso 3: para cada clase, contar el numero de observaciones que caen en esa clase. Este
número es la frecuencia de clases.


Datos obtenidos.
Por ejemplo: en la tabla que sigue se recogen los pesos de 40 estudiantes varones de una
universidad, con precisión de 1 libra. Construir una distribución de frecuencias.




                                                                                           41
UNIDAD I / ESTADISTICA DESCRIPTIVA.



                         138 164 150 132 144 125 149 157
                         146 158 140 147 136 148 152 144
                         168 126 138 176 163 119 154 165
                         146 173 142 147 135 153 140 135
                         161 145 135 142 150 156 145 128


El método textual tiene una ventaja importante con respecto a los otros: se puede influenciar
al lector. El autor puede resaltar ciertas cifras de su interés, puede remarcar conceptos
apropiados para sus fines y hacer pasar desapercibidos a los otros. Se puede focalizar la
atención del lector, de tal manera que pase por alto ciertos datos evitando que saque sus
propias conclusiones.




1.6.1 Distribuciones numéricas.
Método de presentación de datos tabular.
Una ordenación es un conjunto de datos numéricos en orden creciente o decreciente. Este
método de presentación de la información consiste en presentar los datos por medio de una
tabla o cuadro.


Ejercicio: Los tiempos de CPU que se indican en la tabla representan el tiempo ( en
segundos) que 25 trabajos estuvieron en control de la unidad central de proceso (CPU) de
una computadora mainframe grande. Estos 25 valores representan                 una muestra
seleccionada de los 1000 tiempos de CPU .
                          Tabla de muestra de n = 25 tiempos de
                          CPU de trabajos (en segundos ).
                            1.17     1.61     1.16    1.38   3.53
                            1.23     3.76     1.94    0.96   4.75
                            0.15     2.41     0.71    0.02   1.59
                            0.19     0.82     0.47    2.16   2.01
                            0.92     0.75     2.59    3.07   1.40




                                                                                          42
UNIDAD I / ESTADISTICA DESCRIPTIVA.



1.6.2 Distribuciones categóricas.
Al resumir grandes colecciones de datos, es útil distribuirlos en clases o categorías, y
determinar el número de individuos que pertenecen a cada clase, llamado frecuencia de
clase. Una disposición tabular de los datos por clase junto con las correspondientes
frecuencias de clase, se llama distribución de frecuencia ( o tabla de frecuencia).


Ejemplos:
Intervalo = 4.75 – 0.02 = 4.73


Anchura aproximada de la clase es:


                                 int ervalo 4.73
                                           =     = 0.676 ≅ 0.7
                                      7      7

Nota: si deseo saber la anchura de la clases entonces selecciono de manera arbitraria el
numero de clases en este caso el numero 7 indica el numero de clases ( filas) y el resultado
es la anchura de cada clases.


Como la tabla contiene datos con valores de centésimas entonces el grado de precisión es de
0.01 por lo tanto se deberá de utilizar 0.01/2 = 0.005. por lo cual al intervalo menor que es de
0.02 se le restara 0.05. Ahora el primer valor en la tabla iniciara en 0.015.


                       clase Intervalo       de Tabulación Frec.
                              clase
                       1         0.015 – 0.715   /////         5
                       2         0.715 – 1.415   /////////     9
                       3         1.415 – 2.115   ////          4
                       4         2.115 – 2.815   ///           3
                       5         2.815 – 3.515   /             1
                       6         3.515 – 4.215   //            2
                       7         4.215 – 4.915   /             1




                                                                                             43
UNIDAD I / ESTADISTICA DESCRIPTIVA.



1.6.3 Distribuciones acumuladas.


                         Intervalo       de Frecuencia Distribución
                         clase                 de clase    acumulada
                         0.015 – 0.715         5           5
                         0.715 – 1.415         9           14
                         1.415 – 2.115         4           18
                         2.115 – 2.815         3           21
                         2.815 – 3.515         1           22
                         3.515 – 4.215         2           24
                              4.215 – 4.915 1              25
                         Total                 25


                                  Distribucion acumulada



                  30
                  25
                  20
                  15
                  10
                   5
                   0
                          1       2        3        4      5     6      7




1.6.4 Distribuciones porcentuales.
En esta distribución tenemos a la distribución de frecuencia relativa y ojivas porcentuales que
se encuentra multiplicando la frecuencia relativa por cien para que los resultados estén en
porcentajes . Y la suma de todas estas frecuencias resulte al 100 %.
                         Frecuencia
Frecuencia relativa =
                             N
Frecuencia relativa y ojivas = Frec. Re l * 100




                                                                                            44
UNIDAD I / ESTADISTICA DESCRIPTIVA.



        Intervalo de clase     Frec.      Frec. relativa     frecuencia relativa y ojivas porcentual (%)
         0.015 – 0.715          5              0.20                                 20
         0.715 – 1.415          9              0.36                                 36
         1.415 – 2.115          4              0.16                                 16
         2.115 – 2.815          3              0.12                                 12
         2.815 – 3.515          1              0.04                                 4
         3.515 – 4.215          2              0.08                                 8
          4.215 – 4.915         1              0.04                                 4


              Total             25             1.00


                                               Frecuencia relativa porcentual

                                     40
                                     35
                                     30
                                     25
                                     20
                                     15
                                     10
                                      5
                                      0
                                           1      2    3     4     5    6       7




  1.6.5 Distribuciones porcentuales acumuladas.
  Las distribuciones porcentuales acumuladas resulta dividiendo la distribución acumulada
  entre la frecuencia total y multiplicada por 100 para que los resultados resulten en porcentajes
  y al terminar el ultimo calculo debe ser al cien por ciento.



Intervalo de clase     Frec.     Distribución acumulada Dist. porcentuales acumulada (%)

0.015 – 0.715          5         5                                20
0.715 – 1.415          9         14                               56
1.415 – 2.115          4         18                               72
2.115 – 2.815          3         21                               84
2.815 – 3.515          1         22                               88
3.515 – 4.215          2         24                               96
  4.215 –4.915         1         25                               100
Total                  25




                                                                                                           45
UNIDAD I / ESTADISTICA DESCRIPTIVA.



            D. A
DPA =            * 100
             N


                                Distribucion Porcentual Acumulada


                         120


                         100


                          80


                          60


                          40


                          20


                           0
                                1     2     3      4       5      6    7




1.7 Técnicas de agrupación de datos.


1.7.1 Límites de clase.
    118 y 122 se llaman limite de clase
    118 se llama limite inferior y 122 limite superior de clase




1.7.2 Rango de clase.
El tamaño o anchura de un intervalo de clase es la diferencia entre las fronteras de clase
superior e inferior.
C = 122.5 – 117.5 = 5


1.7.3 Fronteras de clase.
Si se dan valores con precisión de 1 unidad, el intervalo             de clase 118 – 122 incluye
teóricamente todas las medias desde 117.5              a 122.5 y se llaman frontera de clase o
verdaderos limites de clase; el menor 117.5 es la frontera inferior y el mayor 122.5 la frontera
superior.




                                                                                             46
UNIDAD I / ESTADISTICA DESCRIPTIVA.



1.7.4 Marca de clase.
La marca de clase es el punto medio del intervalo de clase y se obtiene promediando los
limites inferior y superior de clase . Así que las marcas de clase del intervalo 118 – 122 es
(118 + 122 ) / 2 = 120


1.7.5 Intervalo de clase.
Los valores de 118 – 122 se les llaman intervalo de clases


Ejercicio: en la tabla siguiente se recogen los pesos de 40 estudiantes varones de una
universidad, con precisión de 1 libra. Construir:
  a) una distribución de frecuencia.
  b) Distribución de frecuencia acumulada
  c) Grafica de la distribución de frecuencia acumulada
  d) Frecuencia relativa
  e) Frecuencia relativa y ojivas porcentuales
  f)   Grafica de la frecuencia relativa y ojivas porcentuales
  g) Distribución porcentuales acumuladas
  h) Grafica de la distribución porcentuales acumuladas


                                119       138       146      156
                                125       140       147      157
                                126       140       147      158
                                128       142       148      161
                                132       142       149      163
                                135       144       150      164
                                135       144       150      165
                                135       145       152      168
                                136       145       153      173
                                138       146       154      176


Los pesos son 176 y 119 lb.; El intervalo es 176 – 119 = 57 lb.
Si se usan 5 u 20 intervalos de clase su anchura será:
57                       57
   = 11.4 = 11      o       = 2.85 = 3
 5                       20



                                                                                          47
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica
Antologia de probabilidad y estadistica

Weitere ähnliche Inhalte

Was ist angesagt?

Calculo i, santiago relos
Calculo i, santiago relosCalculo i, santiago relos
Calculo i, santiago relos
12miki
 
Tabla de valores de distribución normal.
Tabla de valores de distribución normal.Tabla de valores de distribución normal.
Tabla de valores de distribución normal.
Norman Rivera
 
Estadistica inferencial 2 Relaciones covarianzas y varianzas
Estadistica inferencial 2 Relaciones covarianzas y varianzasEstadistica inferencial 2 Relaciones covarianzas y varianzas
Estadistica inferencial 2 Relaciones covarianzas y varianzas
Genesis Acosta
 
Formulario de intervalos de confianza 2012-2 (1)
Formulario de intervalos de confianza 2012-2 (1)Formulario de intervalos de confianza 2012-2 (1)
Formulario de intervalos de confianza 2012-2 (1)
ITS CONSULTORIAS S.A.C
 
Ejemplos distribución normal
Ejemplos distribución normalEjemplos distribución normal
Ejemplos distribución normal
FeLipe PueNntes
 

Was ist angesagt? (20)

Tabla z
Tabla zTabla z
Tabla z
 
Representaciones simbolicas algoritmos
Representaciones simbolicas algoritmosRepresentaciones simbolicas algoritmos
Representaciones simbolicas algoritmos
 
Calculo i, santiago relos
Calculo i, santiago relosCalculo i, santiago relos
Calculo i, santiago relos
 
Algebra Lineal 7ma Edición Stanley L. Grossman.pdf
Algebra Lineal 7ma Edición Stanley L. Grossman.pdfAlgebra Lineal 7ma Edición Stanley L. Grossman.pdf
Algebra Lineal 7ma Edición Stanley L. Grossman.pdf
 
Hefesto v2.1
Hefesto v2.1Hefesto v2.1
Hefesto v2.1
 
Tabla de valores de distribución normal.
Tabla de valores de distribución normal.Tabla de valores de distribución normal.
Tabla de valores de distribución normal.
 
Distribucion Binomial
Distribucion BinomialDistribucion Binomial
Distribucion Binomial
 
Estadistica ii
Estadistica iiEstadistica ii
Estadistica ii
 
Cuaderno de ejercicios de cálculo diferencial
Cuaderno de ejercicios de cálculo diferencialCuaderno de ejercicios de cálculo diferencial
Cuaderno de ejercicios de cálculo diferencial
 
Tev3 tablas
Tev3 tablasTev3 tablas
Tev3 tablas
 
Heuristicos Para Vrp
Heuristicos Para VrpHeuristicos Para Vrp
Heuristicos Para Vrp
 
Distribucion normal completo
Distribucion normal completoDistribucion normal completo
Distribucion normal completo
 
Estadística Probabilidades
Estadística ProbabilidadesEstadística Probabilidades
Estadística Probabilidades
 
Análisis de Regresión Lineal
Análisis de Regresión LinealAnálisis de Regresión Lineal
Análisis de Regresión Lineal
 
Estadistica inferencial 2 Relaciones covarianzas y varianzas
Estadistica inferencial 2 Relaciones covarianzas y varianzasEstadistica inferencial 2 Relaciones covarianzas y varianzas
Estadistica inferencial 2 Relaciones covarianzas y varianzas
 
Activados-Matemática-3.pdf
Activados-Matemática-3.pdfActivados-Matemática-3.pdf
Activados-Matemática-3.pdf
 
Dinamica naturaleza el movimiento
Dinamica naturaleza el movimientoDinamica naturaleza el movimiento
Dinamica naturaleza el movimiento
 
Formulario de intervalos de confianza 2012-2 (1)
Formulario de intervalos de confianza 2012-2 (1)Formulario de intervalos de confianza 2012-2 (1)
Formulario de intervalos de confianza 2012-2 (1)
 
Ejemplos distribución normal
Ejemplos distribución normalEjemplos distribución normal
Ejemplos distribución normal
 
Ejercicios estadistica inferencial
Ejercicios estadistica inferencialEjercicios estadistica inferencial
Ejercicios estadistica inferencial
 

Ähnlich wie Antologia de probabilidad y estadistica

Presentacion ftos bioest enfer
Presentacion ftos bioest enferPresentacion ftos bioest enfer
Presentacion ftos bioest enfer
avelito
 
Fundamentosdebioestadisticas
FundamentosdebioestadisticasFundamentosdebioestadisticas
Fundamentosdebioestadisticas
albertososa
 
Universidad tecnológica boliviana
Universidad tecnológica bolivianaUniversidad tecnológica boliviana
Universidad tecnológica boliviana
mickytron241088
 
Excel, Tecnicas Avanzadas.pdf
Excel, Tecnicas Avanzadas.pdfExcel, Tecnicas Avanzadas.pdf
Excel, Tecnicas Avanzadas.pdf
home
 
61470227 mplab
61470227 mplab61470227 mplab
61470227 mplab
rexmersxa7
 
Estudio de Impacto Ambiental Definitivo Ex - Post MOCOLÍ
Estudio de Impacto Ambiental Definitivo Ex - Post  MOCOLÍEstudio de Impacto Ambiental Definitivo Ex - Post  MOCOLÍ
Estudio de Impacto Ambiental Definitivo Ex - Post MOCOLÍ
Sambito
 

Ähnlich wie Antologia de probabilidad y estadistica (20)

Estadistica
EstadisticaEstadistica
Estadistica
 
Avanzado excel
Avanzado excelAvanzado excel
Avanzado excel
 
Serie aprender a investigar 4
Serie aprender a investigar 4Serie aprender a investigar 4
Serie aprender a investigar 4
 
Serie aprender a_investigar,_módulo_4_análisis_de_la_información
Serie aprender a_investigar,_módulo_4_análisis_de_la_informaciónSerie aprender a_investigar,_módulo_4_análisis_de_la_información
Serie aprender a_investigar,_módulo_4_análisis_de_la_información
 
Aa i modulo 4
Aa i modulo 4Aa i modulo 4
Aa i modulo 4
 
EstadisticaIngenieros.pdf
EstadisticaIngenieros.pdfEstadisticaIngenieros.pdf
EstadisticaIngenieros.pdf
 
Presentacion ftos bioest enfer
Presentacion ftos bioest enferPresentacion ftos bioest enfer
Presentacion ftos bioest enfer
 
Fundamentosdebioestadisticas
FundamentosdebioestadisticasFundamentosdebioestadisticas
Fundamentosdebioestadisticas
 
Intro vibespanol
Intro vibespanolIntro vibespanol
Intro vibespanol
 
introduccion al calculo.pdf
introduccion al calculo.pdfintroduccion al calculo.pdf
introduccion al calculo.pdf
 
introduccion al calculo.pdf
introduccion al calculo.pdfintroduccion al calculo.pdf
introduccion al calculo.pdf
 
Apunts dintel ligencia_artificial
Apunts dintel ligencia_artificialApunts dintel ligencia_artificial
Apunts dintel ligencia_artificial
 
Universidad tecnológica boliviana
Universidad tecnológica bolivianaUniversidad tecnológica boliviana
Universidad tecnológica boliviana
 
Números irracionales
Números irracionalesNúmeros irracionales
Números irracionales
 
Excel, Tecnicas Avanzadas.pdf
Excel, Tecnicas Avanzadas.pdfExcel, Tecnicas Avanzadas.pdf
Excel, Tecnicas Avanzadas.pdf
 
Pic
PicPic
Pic
 
MICROCONTROLADORES.
MICROCONTROLADORES.MICROCONTROLADORES.
MICROCONTROLADORES.
 
61470227 mplab
61470227 mplab61470227 mplab
61470227 mplab
 
Refuerzo 6
Refuerzo 6Refuerzo 6
Refuerzo 6
 
Estudio de Impacto Ambiental Definitivo Ex - Post MOCOLÍ
Estudio de Impacto Ambiental Definitivo Ex - Post  MOCOLÍEstudio de Impacto Ambiental Definitivo Ex - Post  MOCOLÍ
Estudio de Impacto Ambiental Definitivo Ex - Post MOCOLÍ
 

Antologia de probabilidad y estadistica

  • 1. INSTITUTO TECNOLÓGICO SUPERIOR de Acayucan Asignatura: Probabilidad y estadística Clave de la asignatura: SCC - 0424 Carrera: Ingeniería en Sistemas Computacionales ANTOLOGIA Presenta: ING. ULISES GIRON JIMENEZ ACAYUCAN, VER. JUNIO 2008
  • 2.   Probabilidad y Estadística     Ing. Ulises Girón Jiménez
  • 3. INDICE OBJETIVO GENERAL............................................................................... 10 JUSTIFICACION........................................................................................ 11 UNIDAD 1 ESTADISTICA DESCRIPTIVA…………………….....…………………….... 12 1.1 Conceptos básicos de estadística…………………....……................... 13 1.1.1 Definición de estadística............................................................. 13 1.1.2 Inferencia estadística.................................................................. 16 1.1.3 Teoría de decisión...................................................................... 16 1.1.4 Población.................................................................................... 16 1.1.5 Muestra aleatoria........................................................................ 20 1.1.6 Parámetros aleatorios................................................................. 20 1.1.7 Enfoque clásico........................................................................... 20 1.1.8 Enfoque Bayesiano..................................................................... 21 1.2 Descripción de datos………….....……………………………………… 22 1.2.1 Datos agrupados y no agrupados............................................... 22 1.2.2 Frecuencia de clase.................................................................... 22 1.2.3 Frecuencia relativa...................................................................... 22 1.2.4 Punto medio................................................................................ 23 III   
  • 4. 1.2.5 Límites........................................................................................ 23 1.2.6 Histograma.................................................................................. 23 1.2.7 Histograma de frecuencia relativa.............................................. 24 1.3 Medidas de tendencia central…………………………………………… 25 1.3.1 Media aritmética, geométrica y ponderada................................. 25 1.3.2 Mediana...................................................................................... 29 1.3.3 Moda........................................................................................... 31 1.4 Medidas de dispersión……………………………………………………. 35 1.4.1 Varianza...................................................................................... 35 1.4.2 Desviación estándar................................................................... 36 1.4.3 Desviación media........................................................................ 38 1.4.4 Desviación mediana.................................................................... 38 1.4.5 Rango......................................................................................... 38 1.5 Parámetros para datos agrupados……………………………………… 39 1.5.1 La media..................................................................................... 39 1.5.2 La desviación típica.................................................................... 39 1.6 Distribución de frecuencias………………………………...……………. 41 1.6.1 Distribuciones numéricas............................................................ 42 1.6.2 Distribuciones categóricas.......................................................... 43 1.6.3 Distribuciones acumuladas......................................................... 44 1.6.4 Distribuciones porcentuales........................................................ 44 1.6.5 Distribuciones porcentuales acumuladas................................... 45 IV   
  • 5. 1.7 Técnicas de agrupación de datos………………………...…………… 46 1.7.1 Límites de clase.......................................................................... 46 1.7.2 Rango de clase........................................................................... 46 1.7.3 Fronteras de clase...................................................................... 46 1.7.4 Marca de clase............................................................................ 47 1.7.5 Intervalo de clase………............................................................ 47 1.7.6 Diagrama de tallos y hojas ………………………………………... 50 1.7.7. Diagrama de Pareto.................................................................. 52 1.7.8 Diagrama de puntos................................................................... 59 1.8 Histograma……………......………………………………………………. 59 1.8.1 Diagrama de barras.................................................................... 59 1.8.2 Polígono de frecuencias............................................................. 59 1.8.3 Ojivas......................................................................................... 60 1.8.4 Gráficas circulares...................................................................... 61 1.9 Distribuciones muéstrales………………………...……………………… 62 UNIDAD 2 PROBABILIDAD……….……………………………………………………… 65 2.1 Teoría elemental de probabilidad………………………...……....…… 66 2.1.1 Concepto clásico y como frecuencia relativa.............................. 66 2.1.2 Interpretación subjetiva de la probabilidad................................. 69 2.2 Probabilidad de eventos……………………………......……………… 69 2.2.1 Definición de espacio muestral................................................... 69 V   
  • 6. 2.2.2 Discreto y continuo..................................................................... 71 2.2.3 Definición de evento................................................................... 71 2.2.4 Simbología, uniones e intersecciones........................................ 71 2.2.5 Diagramas de Venn.................................................................... 71 2.3 Técnicas de conteo………………….…………………………………… 72 2.3.1 Diagrama de árbol...................................................................... 76 2.3.2 Notación factorial........................................................................ 80 2.3.3 Permutación................................................................................ 81 2.3.4 Combinaciones........................................................................... 91 2.4 Probabilidad con técnicas de conteo…………………………………… 100 2.4.1 Axiomas...................................................................................... 100 2.4.2 Teoremas.................................................................................... 100 2.5 Probabilidad condicional………...……………………………………… 101 2.5.1 Dependiente................................................................................ 101 2.5.2 Independiente............................................................................. 110 2.6 Eventos Independientes……...………………………………………… 113 2.6.1 Regla de Bayes........................................................................... 113 UNIDAD 3 FUNCIONES Y DISTRIBUCIONES MUESTRALES………………......…. 121 3.1 Función de probabilidad………..………………………………………… 121 3.1.1 Variables aleatorias discretas..................................................... 121 VI   
  • 7. 3.1.2 Variables aleatorias continúas.................................................... 122 3.2 Distribución Binomial…………………….…………....…………………. 123 3.2.1 Conceptos de ensayos de Bernoulli........................................... 123 129 3.3 Distribución Hipergeométrica…………………………………………… 3.4 Distribución de Poisson…………………………..……………………… 132 3.5 Esperanza matemática…………………….…………………………… 139 3.6 Distribución normal…………………………….………………………… 146 3.6.1 Distribución de la probabilidad continúa..................................... 146 3.7 Aproximación de la Binomial a la normal…………………………… 156 3.8 Otras distribuciones muéstrales…………………….…………………… 161 3.8.1 Distribución T- Student............................................................... 161 3.8.2 Distribución X cuadrada.............................................................. 162 UNIDAD 4 ESTADÍSTICA APLICADA………………...………………………………… 170 4.1 Inferencia estadística………………….....……………………………… 171 4.1.1 Concepto..................................................................................... 171 4.1.2 Estimación.................................................................................. 171 4.1.3 Prueba de hipótesis.................................................................... 171 4.1.4 Método clásico de estimación (puntual)...................................... 172 4.1.5 Estimador Insesgado.................................................................. 172 4.2 Intervalos de confianza…………………………………………………… 172 VII   
  • 8. 4.2.1 Estimación por intervalo.............................................................. 172 4.2.2 Límites de confianza................................................................... 173 4.2.3 Intervalo de confianza para una media....................................... 174 4.2.4 Intervalo de confianza para una diferencia de medida............... 183 4.2.5 Intervalo de confianza para proporciones................................... 186 4.2.6. Intervalo de confianza para diferencia de proporciones………. 189 4.3 Pruebas de hipótesis………………………….....……………………… 196 4.3.1 Prueba de hipótesis para la media poblacional.......................... 203 4.3.2 Prueba de hipótesis para diferencias de medias........................ 214 4.3.3 Prueba de hipótesis para proporciones...................................... 220 4.3.4 Prueba de hipótesis para diferencia de proporciones................. 223 UNIDAD 5 REGRESIÓN Y CORRELACIÓN…………………………………………... 216 5.1 Introducción……………………………………………………………… 217 5.1.1 Gráficas de los datos.................................................................. 217 5.1.2 Variables de regresión independientes....................................... 218 5.1.3 Regresión lineal simple............................................................... 219 5.2 Diagrama de dispersión………………………………………………… 221 5.2.1 Tabla de datos............................................................................. 221 5.2.2. Construcción de Diagramas....................................................... 222 5.3. Estimación mediante la línea de regresión…………………………… 222 5.3.1. Ecuación de la recta como ajuste de datos............................... 222 VIII   
  • 9. 5.3.2. Modelos..................................................................................... 223 5.4. Métodos de mínimos cuadrados………………………………………… 223 5.4.1 Estimación de los coeficientes de regresión.............................. 224 5.5. Error estándar de estimación…………………………………………… 230 5.6. Coeficiente de determinación y correlación……………………………. 233 5.6.1. Coeficiente de determinación de la muestra............................. 233 5.6.2. Coeficiente de correlación de la muestra.................................. 238 5.7. Problemas prácticos de ajustes de curvas…………………………… 245 Anexos………………………………………………………………………….. 255 .. Bibliografía………….………………………………………………………… 262 … IX   
  • 10. OBJETIVO GENERAL El estudiante seleccionará modelos probabilísticas, aplicará cálculos de inferencia estadística sobre datos y desarrollará modelos para la toma de decisiones en sistemas con componentes aleatorios. 10   
  • 11. JUSTIFICACION Uno de los objetivos del Instituto Tecnológico Superior de Acayucan, es el de promover, apoyar e impulsar el trabajo creativo del docente, principalmente en la elaboración de antología que apoya al proceso enseñanza – aprendizaje, el cual debe ser estimulado con los comentarios y sugerencias del profesorado y conviene que sea imitado por otros maestros, quienes con capacidad de trabajo y tiempo disponible, pueden y deben gestar literatura de este género, dando los pasos adecuados para pulirla y poder formar así textos que faciliten la enseñanza y el aprendizaje del curso. El presente material de consulta y apoyo didáctico se pone en manos de nuestros maestros y, particularmente, de los alumnos que se forman en nuestro instituto. Considero los contenidos de esta antología como el propósito más firme de mi convencimiento para facilitar el estudio de la probabilidad y estadística en las nuevas generaciones que me honran al confiarme su preparación y garantizar modestamente el fijarles una enseñanza para toda la vida.   11   
  • 12. UNIDAD 1 ESTADISTICA DESCRIPTIVA Objetivo: El estudiante conocerá fundamentos y técnicas básicas de estadística, para organizar, representar y analizar datos obtenidos de una situación simulada o real.
  • 13. UNIDAD I / ESTADISTICA DESCRIPTIVA. 1.1 Conceptos básicos de estadística. 1.1.1 Definición de estadística. La palabra estadística procede del vocablo "estado" pues era función principal de los gobiernos de los estados establecer registros de población, nacimientos, defunciones, etc. Hoy en día la mayoría de las personas entienden por estadística al conjunto de datos, tablas, gráficos, que se suelen publicar en los periódicos. Definición: Estadística, rama de las matemáticas que se ocupa de reunir, organizar y analizar datos numéricos y que ayuda a resolver problemas como el diseño de experimentos y la toma de decisiones. Estadística es un conjunto de métodos científicos para la recopilación, representación condensación y análisis de los datos extraídos de un sistema en estudio. Con el objeto de poder hacer estimaciones y sacar conclusiones, necesarias para tomar decisiones. El análisis se hace con las herramientas estadísticas, empleando la información obtenida de los datos, para realizar estimaciones o inferencias, testear hipótesis de trabajo y así, poder tomar las decisiones más adecuadas en cada caso particular, basadas en la evidencia científica suministrada por estos análisis. El trabajo del experto estadístico no consiste ya sólo en reunir y tabular los datos, sino sobre todo en el proceso de interpretación de esa información. El desarrollo de la teoría de la probabilidad ha aumentado el alcance de las aplicaciones de la estadística. La probabilidad es útil para comprobar la fiabilidad de las inferencias estadísticas y para predecir el tipo y la cantidad de datos necesarios en un determinado estudio estadístico. Cuando a través de una muestra pretendemos obtener información de una población entera los datos obtenidos puede ser diferente a los reales. Son valores aproximados del parámetro desconocido. A estos valores se les llama Estimaciones. Al dar una estimación estoy cometiendo un error llamado error de muestreo debido a que no se esta considerando a toda la población, sino a una parte de ella. Existen procedimientos que pueden determinar de antemano el error que puedo cometer. 13
  • 14. UNIDAD I / ESTADISTICA DESCRIPTIVA. Aparte de estos, existen otros errores que se presentan tanto en encuestas por muestreo como en las encuestas por censo. Este tipo de errores son mayores y de difícil corrección. Son errores ajenos al muestreo. ¿Qué es un experimento comparativo? Es una investigación cuya finalidad es comparar los efectos de dos o más estímulos (tratamientos A y B) aplicados a ciertos entes (unidades de experimentación , , ,). Para ello se efectúan mediciones sobre los efectos de ambos tratamientos obteniéndose los resultados ( , , ). ¿Qué es una encuesta por muestreo? Es una investigación que tiene por objetivo la descripción de ciertas características ( , , , …, de una población, mediante el examen de una parte de ella (muestra , ). La medición de una característica en los elementos de la muestra produce resultados (Y1 y Y4 ) . Si el muestreo es probabilístico, todos los elementos de la población tiene una probabilidad no nula de formar parte de la muestra. 14
  • 15. UNIDAD I / ESTADISTICA DESCRIPTIVA. ¿Qué es un estudio observacional? Es una investigación comparativa sin la asignación aleatoria que se hace en los experimentos (o investigación de muestreo no probabilístico), cuya finalidad es también comparar los efectos que dos o mas condiciones ( A y B) tienen sobre los entes observados , , ,). Esto se lleva a cabo con extremado cuidado y control. División de la estadística Se divide en dos partes: ⎧ ⎧ ⎧ Re copilar ⎪ ⎪ ⎪ ⎪ ⎪ Descriptiva( Deductiva) ⎨ Re presentar ⎪ ⎪ ⎪ ⎪ ⎩Condensar ⎪ ⎪ División ⎨ Estadistica ⎨ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎧Caracteristicas ⎪ ⎪ Inferencial ( Inferencia) ⎨ ⎪ ⎩ ⎩ ⎩muestras a) Estadística descriptiva o deductiva: Es la parte de la estadística que se ocupa de recopilar, representar y condensar los datos obtenidos del sistema en estudio, utilizando representaciones gráficas de los datos tabulados. b) Estadística inferencial o inferencia estadística: Utiliza datos de muestra para hacer inferencias (característica) acerca de un conjunto de datos grandes – una población – de cual se selecciono la muestra. 15
  • 16. UNIDAD I / ESTADISTICA DESCRIPTIVA. 1.1.2 Inferencia estadística. Es la parte de la Estadística dedicada a la formulación de supuestos y estimaciones, para hacer predicciones y poder sacar conclusiones de los datos obtenidos con el estudio de las muestras. Y así, poder tomar decisiones con base científica. La Estadística se emplea en el estudio de los fenómenos naturales, tanto los generados en los laboratorios por los científicos como aquellos más allá del control humano. Es una herramienta de uso tan amplio y general que hoy día es difícil imaginar un lugar donde no pueda emplearse. Más aún, en algunas disciplinas es la herramienta básica de medición, como por ejemplo en parapsicología para la determinación de PES (percepciones extra-sensoriales). 1.1.3 Teoría de decisión. Es una herramienta básica para la toma de decisiones, basadas en evidencia científica. La manera de hacerlo es plantear las hipótesis posibles y luego efectuarle una prueba o test estadístico. Llamada en algunas obras: la docimasia estadística. Cuando una conclusión se valida con un test estadístico se la llama de tipo cuantitativo, en caso contrario la decisión adoptada es de tipo cualitativo, o sea, una decisión tomada en forma subjetiva. El método consiste en definir una probabilidad de aceptación del orden del 95% (o rechazo) de una hipótesis de trabajo planteada, que permite calcular los valores críticos (o límites de aceptación) de un estadígrafo calculado a partir de los valores medidos. La importancia de este tema es muy grande. Basta decir que el objeto final de la Estadística es la toma de decisiones. 1.1.4 Población. La población, es el conjunto de todas las muestras posibles, que pueden obtenerse del sistema en estudio de acuerdo al método de selección empleado. La población, entonces, es el total hipotético de los datos que se estudian o recopilan. El tamaño de la población se saca contando el número de elementos componentes. A veces es un conteo simple, pero otras veces se trata de conteos ordenados. A continuación muestra las formas de observar una población. 16
  • 17. UNIDAD I / ESTADISTICA DESCRIPTIVA. Etapas de la recopilación de datos Etapa 1 - Objetivos de la Recopilación: esta primera etapa consiste en determinar con claridad qué es lo que se quiere lograr con la recopilación. No siempre es fácil saber lo que se quiere y menos determinarlo en detalle. Por eso, se deben definir primero los objetivos generales del trabajo estadístico. Y a partir de ellos se conocerán las variables a medir y así saber cuáles elementos se necesitarán. Con esto se tiene una primera idea de los alcances y limitaciones de la tarea a realizar, según sea el tipo de información a obtener de la población en estudio. Los objetivos deben redactarse concisos, breves y claros. Normalmente, la persona a cargo de la investigación es la responsable de esta etapa pues tiene una visión más completa y actualizada del tema en estudio. Por ejemplo, si se necesita la distribución de la población por edades y sexo, no es lo mismo disponer de la información del último censo realizado que hacerlo uno mismo. 17
  • 18. UNIDAD I / ESTADISTICA DESCRIPTIVA. Etapa 2 - Relevamientos: esta etapa consiste en determinar lo que se tiene para alcanzar los objetivos definidos en la etapa anterior. Se trata de listar los bienes necesarios para poder hacer el trabajo, y el listado de los disponibles. Conviene tener en cuenta la siguiente clasificación de los bienes: Tangibles e Intangibles. Por su parte, los bienes tangibles son dos: • Los materiales incluyen los de vidrio, de limpieza, drogas, reactivos, etc. • Por equipamiento se entiende no sólo los aparatos de medición, sino los accesorios como muebles y útiles de laboratorio y para oficina. • El dinero o los recursos monetarios deben ser determinados con mucho detalle para afrontar gastos e inversiones durante la investigación. Además, hay que determinar los fondos disponibles y las posibles fuentes financieras adonde poder recurrir. • La infraestructura incluye a los edificios, laboratorios, electricidad, agua, etc. • El personal es todo el necesario en sus diferentes niveles, como ser: profesionales, técnicos, ayudantes, consultores externos, de servicio, etc. Este relevamiento de los bienes tangibles disponibles y de los necesarios para la recopilación condiciona de alguna manera los objetivos. Puede ser que se disponga de bienes sobrados para alcanzar los objetivos, por lo que se pueden plantear metas más ambiciosas. Por otra parte, puede ocurrir que los bienes disponibles estén lejos de cubrir los necesarios, y por lo tanto se deberán resignar los objetivos planteados por otros más modestos. Por su parte, los bienes intangibles son dos: • la organización de los bienes tangibles, de manera tal de alcanzar los objetivos, y • los conocimientos para saber cómo usarlos. Esto es el “know how” de cada profesión. Y también lo es la búsqueda bibliográfica de trabajos similares en revistas especializadas, textos y otras fuentes de información. Una vez terminada esta etapa, que seguramente habrá ayudado a depurar la anterior, se debe comenzar a pensar en las diferentes maneras de hacerlo. Etapa 3 - Creación de alternativas: esta etapa consiste en saber cómo hacerlo. O sea, generar distintas alternativas de sistemas de recopilación de datos, de acuerdo con los objetivos adoptados y los bienes disponibles. Se debe hacer un listado con todas las formas posibles de 18
  • 19. UNIDAD I / ESTADISTICA DESCRIPTIVA. efectuar la recopilación a fin de tener un panorama completo. En síntesis, se habla de fuente propia cuando se decide extraer los datos mediante mediciones. Fuente Primaria es cuando se toman los datos de otros investigadores que publican los resultados de sus propias mediciones. Fuente Secundaria es cuando los datos se extraen de publicaciones que usan como referencia a fuentes primarias. Etapa 4 - Selección de alternativas: consiste en determinar cuál es la mejor entre las n alternativas planteadas en la etapa anterior. Se necesita de un método para la adopción de un criterio de selección. Etapa 5 - Prueba piloto: existe una diferencia entre el diseño en los papeles y la realidad. Es por eso que siempre es aconsejable hacer una prueba piloto antes de la puesta en marcha para poder juzgar cómo trabaja el sistema de recopilación de datos. Se sacan unos pocos datos y se analizan las dificultades no previstas, junto con los resultados. Comparando los valores obtenidos con los que se esperaba tener, se hace una especie de control previo del sistema. Etapa 6 - Ajustes: Lo normal es tener que hacer pequeños ajustes que permitan optimizar al sistema. De las diferencias detectadas en el control de la etapa anterior se sacan indicios. Estos muestran qué tópicos retocar y surgen nuevas ideas de cómo hacer mejor las cosas. Básicamente, usando el sentido común se corrigen los principales defectos, como ser: mejorar el entrenamiento y conocimientos del personal, rediseñar formularios, calibrar equipos de medición, estimación de la magnitud del error de medición, etc. Pero también hay técnicas de optimización especiales como son los distintos modelos de la Investigación Operativa. Esta es una disciplina muy emparentada con estadística y sus modelos más conocidos son: Teoría de Líneas de Espera, Programación por Camino Crítico (PERT), Programación Dinámica y Lineal, Reemplazos, Simulaciones, etc. Una vez hechos los ajustes, se vuelve a la etapa anterior y se efectúa una nueva prueba piloto. Este ensayo permite decidir si se continúa adelante, o si son necesarios más ajustes. Hay que continuar hasta que todo sea satisfactorio y recién entonces pasar a la etapa siguiente. Etapa 7 - Puesta en marcha: una vez optimizado y ajustado el método de obtención de datos solo resta ponerlo en marcha. De esa manera, se logra la cantidad de datos necesarios para alcanzar los objetivos previstos. El resultado final es la obtención de un volumen grande de información que debe ser presentada en forma más resumida y comprensible usando tablas, gráficos y otras formas, como se verá más adelante. 19
  • 20. UNIDAD I / ESTADISTICA DESCRIPTIVA. 1.1.5 Muestra aleatoria. La muestra es un conjunto de datos obtenidos de una población cualquiera, con el método de recopilación elegido. Se la puede imaginar como un subconjunto del conjunto población. Se toman muestras, cuando no se puede o no conviene, tomar la población entera. Si se tiene una población de tamaño infinito, no se podrá nunca tomar todas las muestras posibles, como por ejemplo, las mediciones repetidas de una misma magnitud, que se pueden repetir indefinidamente mientras el ensayo no sea destructivo (repetidas pesadas en una balanza, medir la temperatura de un cuerpo, etc.). Hay ocasiones, donde si bien la población es finita, es tan grande que no resulta práctico tomar todos los casos como por ejemplo, cuando la población es la especie humana. Lógicamente, la confiabilidad de las conclusiones extraídas concernientes a una población dependen de si la muestra se ha escogido apropiadamente de tal modo que represente la población suficiente. Una forma de hacer esto para poblaciones finitas es asegurarse de que cada miembro de la población tenga igual oportunidad de encontrarse en la muestra, lo que se conoce como muestra aleatoria. 1.1.6 Parámetros aleatorios. Parámetro, es toda magnitud que tiene el mismo valor dentro de una población. O sea, no permite diferenciar entre sí a sus elementos componentes. Existen medidas para realizar descripciones cuantitativas de los conjuntos de datos, o poblaciones, y de sus muestras, diferenciándose entre ellas las que se refieren a las mismas poblaciones y a las muestras. Para el caso de las poblaciones, las medidas que las describen se denominan parámetros, y suelen estar representadas con letras griegas (por ejemplo y ). Por otro lado, para el caso de aquellas medidas que describen a una muestra se les llama estadísticos o estimadores, y son representados por letras de nuestro alfabeto (por ejemplo, x o s). Tales medidas cuantitativas que describen a las poblaciones y a las muestras se comentarán enseguida. Se considera que se conoce una población cuando conocemos la distribución de probabilidad f(x) de la variable aleatoria asociada X. 1.1.7 Enfoque clásico. La utilización de esta metodología implica una cierta filosofía o visión de la Probabilidad y la Estadística muy particular y poco frecuente. Lo particular de este enfoque es que es razonablemente más sencillo que el enfoque clásico de la estimación y el ensayo de hipótesis, a 20
  • 21. UNIDAD I / ESTADISTICA DESCRIPTIVA. los que reemplaza y mejora por cuanto no implica aproximaciones ni requiere de la introducción de nuevos conceptos. 1.1.8 Enfoque Bayesiano. En el enfoque Bayesiano de la Estadística, la incertidumbre presente en un modelo dado, p(x⏐θ), es representada a través de una distribución de probabilidad p (θ ) sobre los posibles valores del parámetro desconocido θ (típicamente multidimensional) que define al modelo. El Teorema de Bayes, p (θ ) p ( x θ ) p (θ x) = p( x) Permite entonces incorporar la información contenida en un conjunto de datos x = ( x1 ,..., x n ) , produciendo una descripción conjunta de la incertidumbre sobre los valores de los parámetros del modelo a través de la distribución final p (x⏐θ ). Desafortunadamente, la implementación de las técnicas Bayesianas usualmente requiere de un esfuerzo computacional muy alto. La mayor parte de este esfuerzo se concentra en el cálculo de ciertas características de la distribución final del parámetro de interés (que llamaremos resúmenes inferenciales). Así, por ejemplo, para pasar de una distribución conjunta a una colección de distribuciones y momentos marginales que sean útiles para hacer inferencias sobre subconjuntos de parámetros, se requiere integrar. En la mayoría de los casos los resúmenes inferenciales básicos se reducen a integrales de la forma: S {g (θ )} = ∫ g (θ ) p (θ ) p (z θ )dθ El análisis Bayesiano, en otra diferencia con la estadística clásica, permite incorporar en un estudio información de distintas fuentes, incluso subjetivas. De esta manera concibe, en un plano muy general, las técnicas estadísticas como mecanismos para la actualización del conocimiento particular o general, individual o colectivo sobre el estado que guarda la naturaleza." 21
  • 22. UNIDAD I / ESTADISTICA DESCRIPTIVA. 1.2 Descripción de datos. 1.2.1 Datos agrupados y no agrupados. La principal diferencia entre ambas es que en datos agrupados se ordenan los datos de la tabla y se almacenan en el orden del índice. Los datos agrupados mejoran el rendimiento al almacenar los datos de la tabla junto con datos de nivel de hoja del índice. Una ordenación es un conjunto de datos numéricos en orden creciente o decreciente. Este método de presentación de la información consiste en presentar los datos por medio de una tabla o cuadro. Los datos no agrupado no apunta directamente a la fila de la tabla, sino que utiliza los valores del índice agrupado como punteros a las filas de la tabla. Una fila de datos consiste en datos recogidos que no han sido organizados numéricamente. 1.2.2 Frecuencia de clase. La frecuencia de clase o frecuencia de categoría, es el número de observaciones que caen dentro de una categoría Altura ( in) Número de estudiantes f 60 – 62 7 63 – 65 20 66 – 68 44 69 – 71 29 72 – 74 10 Total 110 1.2.3 Frecuencia relativa. La frecuencia relativa (proporción); de una clase es su frecuencia dividida por la frecuencia total de todas las clases. numero de estudiante frecuencia relativa = total 22
  • 23. UNIDAD I / ESTADISTICA DESCRIPTIVA. Altura ( in) Número de Frecuencia estudiantes (f) relativa 60 – 62 7 0.0636 63 – 65 20 0.1818 66 – 68 44 0.4 69 – 71 29 0.2636 72 – 74 10 0.0909 total 110 1.0000 1.2.4 Punto medio. El punto medio del intervalo de clase, que puede tomarse como representativo de la clase, se llama marca de clase, que se refiere al punto medio del intervalo de clase y se obtiene promediando los limites inferior y superior de clase. Así que las marcas de clase del intervalo 60 – 62 es: 60 + 62 = 61 2 1.2.5 Límites. Tomando encuenta la clase 60 - 62 se dice que se llaman límites de clases, el 60 se llama límite inferior de clase y el 62 se llama límite superior de clase. 1.2.6 Histograma. Es una representación grafica para la distribución de frecuencia. Un histograma o histograma de frecuencias, consiste en un conjunto de rectángulos con: a) base en el eje x horizontal, centros en las marcas de clases y longitudes iguales a los tamaños de los intervalos de clase y b) áreas proporcionales a las frecuencias de clase. 23
  • 24. UNIDAD I / ESTADISTICA DESCRIPTIVA. Altura ( in) Número de Marca de estudiantes (f) clases (X) 60 – 62 7 61 63 – 65 20 64 66 – 68 44 67 69 – 71 29 70 72 – 74 10 73 total 110 frecuencia 50 40 30 20 10 0 58 61 64 67 70 73 76 1.2.7 Histograma de frecuencia relativa. Altura ( in) Numero de Frecuencia estudiantes (f) relativa 60 – 62 7 0.0636 63 – 65 20 0.1818 66 – 68 44 0.4 69 – 71 29 0.2636 72 – 74 10 0.0909 total 110 1.0000 Histograma de frecuencia relativa 0.45 0.4 0.35 0.3 Frec. Rel. 0.25 0.2 0.15 0.1 0.05 0 1 2 3 4 5 24
  • 25. UN NIDAD I / ESTADIST TICA DESC CRIPTIVA A. Problemas propuesto s os: Problema: El rascón terrestre o g guión de las codornices es una ave europea e peligro de e en e extinción m mundial. En fechas recientes se lle evó a cabo un censo de rascones cantores en n terrenos ag Gran Bretañ e Irlanda (Journal of applied ecol grícolas de G ña logy) . La ta abla indica e el numero total de rascon terrestres que habitan en cada de 10 áreas ge nes s n e eográficas. Área Á Numero de rascones s terrestres 1. Tierr bajas de E ra Escocia 12 2. Tierr altas de e ras escocia 15 3. Orkn y Shetlan ney nd 34 4. Lewi y Harris is 76 5. N. Uist y Benbec cula 82 6. S. Uist y Barra 155 7. Hebr ridas interior res 76 8. Coll y Tirce 121 9. Irlanda del norte 128 10. Repu ublica de Irla anda 789 Total T 1 1488 esuma los da a) Re atos con un h histograma 1.3. edidas de tendencia central. Me a 1.3.1 Med aritmé dia ética, geom métrica y p ponderada. Media aritm mética Sean, x1 ,x2 ,....,xn , n o x observacione muéstrale definiremos promedio de estas ob es es, o bservaciones s al valor dad por: do o bien 25 5
  • 26. UNIDAD I / ESTADISTICA DESCRIPTIVA. N x + x 2 + x 3 + ... + x n ∑x j =1 j ∑x x= 1 = = N N N Ejemplo: La media aritmética de los números 8, 3. 5, 12 y 10 8 + 3 + 5 + 12 + 10 38 x= = = 7. 6 5 5 En esta expresión, puede verse que el promedio de un conjunto de números se calcula sumándolos y luego dividiendo la suma por el número de sumandos. La estadística promedio representa muy bien el 'centro' de la distribución de los datos cuando se trata de casos 'normales'. Entendemos aquí por casos 'normales' aquellos conjuntos de datos que no contienen valores muy extremos, valores muy alejados de los demás. Debido a que en muchas situaciones experimentales, el comportamiento de los datos es relativamente 'normal', el promedio es muy usado, convirtiéndose en la primera estadística calculada para representar el 'centro' de la población en estudio. si los números X1 , X2 , ... , Xk , ocurren f1 , f2 , ... , fk , veces respectivamente, su media aritmética N f x + f 2 x 2 + ... + f k x k ∑f j =1 j xj x= 1 1 = f1 + f 2 + ... + f k k ∑f j =1 j x= ∑ fx N Ejemplo: si 5, 8, 6, y 2 ocurren con frecuencias 3, 2, 4 y 1 , respectivamente, su media aritmética es x= (3 )(5 ) + (2 )(8 ) + (4 )(6 ) + (1)(2 ) = 15 + 16 + 24 + 2 = 5 .7 3+ 2 + 4 +1 10 Ejemplo:En la tabla siguiente se tiene los puntajes obtenidos en la Prueba de Aptitud Académica por 30 jóvenes, provenientes de un mismo establecimiento educacional: 26
  • 27. UNIDAD I / ESTADISTICA DESCRIPTIVA. P. Ap. Verbal P. Ap. Matemática P. Ap. Verbal P. Ap. Matemática 685 664 730 642 490 548 618 533 580 567 690 654 705 665 680 542 470 452 690 678 620 506 710 732 650 618 742 749 702 718 685 570 643 621 595 574 540 555 674 657 575 502 722 747 600 531 585 620 500 478 505 482 680 558 600 643 587 600 543 500 Con los datos de la tabla, se puede caracterizar el establecimiento educacional usando el promedio de cada una de las pruebas. Lo primeros que se necesita es calcular la suma de los puntajes de los treinta alumnos. Dichas sumas son las siguientes: Prueba de Aptitud Verbal 18796 Prueba de Aptitud Matemática 17906 Promedio Prueba de Aptitud Verbal 626.533 Promedio Prueba de Aptitud Matemática 596.867 27
  • 28. UN NIDAD I / ESTADIST TICA DESC CRIPTIVA A. La Media g geométrica G La media g geométrica es el resultado de multiplicar todos los elementos y extraer la raíz n -ésima s a del product to: ometrica = n x1 .x 2 ...x n media geo Ejemplo: la media geom a métrica g de 2, 4 y 8 G = 3 ( 2) ( 4) ( 8) = 4 mathca ad gmea ( 2 , 4 , 8) = 4 an Promedio Ponderado. En muchas ocasiones, las observa s aciones recol lectadas no tienen la mis sma importa ancia relativa a. Para hacer presente este hecho en la búsqued de un 'ce r da entro' que re epresente a los datos, es s necesario a asignar a cad uno de és da stos, una ponderación (p peso o coefic ciente) que re epresente su u importancia dentro de la muestra. a Definición. A veces as sociada con l números X1, X2, . . . XK , ciertos f los factores peso ( o pesos ) W1, W2 ,..., os WK depend dientes de la relevancia a a asignada a c cada número o. Ejemplo: si el examen final de un c i curso cuanta tres veces mas que una evaluación parcial y un a a n n estudiante tiene calific cación 85 e el exame final y 7 y 90 en los dos pa en en 70 arciales , las s calificacion media es : nes s x= (1)(7 ) + (1)(90 ) + (3)(85) = 415 = 83 70 1+1+ 3 5 Ejercicios s: a) hal la media aritmética d los númer 5, 3, 6, 5 4, 5, 2, 8, 6 5, 4, 8, 3, 4, 5, 4, 8, 2 llar de ros 5, 6, 2, 5, y 4 Solución: 4.8 28 8
  • 29. UNIDAD I / ESTADISTICA DESCRIPTIVA. b) De entre 100 números. 20 son cuatros, 40 son cinco, 30 son seis y los restantes siete. Hallar su media aritmética. Solución: 5.30 c) las calificaciones finales de un estudiante en cuatro asignatura fueron 82, 86, 90 y 70. si los respectivos créditos otorgados a esos cursos son 3, 5, 3 y 1 , determinar una calificación media a apropiada. Solución: 85 d) De los 80 empleados de una empresa 6 cobra $ 7,00 a la hora y el resto $4,00 a la hora. Hallar cuanto cobran de media por hora Solución: $6.25 e) Cuatro grupos de estudiantes, consistentes en 15, 20, 10 y 18 individuos, dieron pesos medios de 162, 148, 153 y 140 lb., respectivamente . hallar el peso medio de todos esos estudiantes. Solución: 150 lb. 1.3.2 Mediana. La mediana de un conjunto de números ordenados en magnitud es el valor central o la media de los dos valores centrales. Datos sin agrupar: Ejemplo: el conjunto de números 3, 4, 4, 5, 6, 8, 8, 8, 10 tiene mediana 6 mathcad median ( 3 , 4 , 4 , 5 , 6 , 8 , 8 , 8 , 10) = 6 Ejemplo: el conjunto de números 5, 5, 7, 9, 11, 12, 15, 18 tiene mediana ½ ( 9 + 11 ) = 10 Ejemplo: las notas de un estudiante en seis exámenes han sido 84, 91, 72, 68, 87 y 78. hallar la mediana de esas notas. Solución : las notas ordenadas son 68, 72, 78, 84, 87 , 91, 1 / 2 ( 78 + 84 ) = 81 29
  • 30. UNIDAD I / ESTADISTICA DESCRIPTIVA. Ejemplo: cinco oficinistas cobran $ 4.52, $ 5.96, $ 5.28, $ 11.20 y $ 5.75 a la hora. Hallar la mediana Solución = la ordenación es: $ 4.52, $ 5.28, $ 5.75 , $ 5.96, $ 11.20 La mediana es $ 5.75 Datos Agrupados: Las gráficas siguientes, correspondientes a polígonos de frecuencias absolutas acumuladas, nos plantea de nuevo dos situaciones diferentes a considerar: ⎜ − (∑ f )1 ⎟ ⎛N ⎞ mediana = L1 + ⎜ 2 ⎟C ⎜ f mediana ⎟ ⎜ ⎟ ⎝ ⎠ donde: L1 = frontera inferior de la clase mediana. N = numero de datos (frecuencia total) (Σ f ) 1 = suma de la frecuencia de las clases inferiores a la de la mediana. f mediana = frecuencia de la clase mediana. C = anchura del intervalo de clase de la mediana. Ejemplo: Altura ( in) Numero de estudiantes (f) 60 – 62 7 63 – 65 20 66 – 68 44 69 – 71 29 72 – 74 10 total 110 110 Para indicar la posición : = 55 ; entonces se procede a realizar una suma con las 2 frecuencias (f) hasta llegar al valor 55 o mas de 55 pero no menos, para suponer que ahí cae la mediana solo que se tiene que hacer es verificar su valor. 7 + 20+ 44 = 71 por lo tanto cae en el intervalo 66 – 68 30
  • 31. UNIDAD I / ESTADISTICA DESCRIPTIVA. Datos: L1 = 65.5 ; N = 110 ; (∑ f ) 1 = 27 ; f mediana = 44 ; C = 68.5 − 65.5 = 3 ⎛ 110 ⎞ ⎜ − 27 ⎟ mediana = 65.5 + ⎜ 2 ⎟(3) = 67.41 ⎜ 44 ⎟ ⎜ ⎟ ⎝ ⎠ 1.3.3 Moda. La moda de un conjunto de números es el valor que ocurre con mayor frecuencia; es decir, el valor mas frecuente. La moda puede no existir e incluso no ser única. Esta estadística debe usarse con cuidado. Su objetivo es identificar zonas donde se producen aglomeraciones de datos, sin embargo, podría ser que por el solo hecho de haber una observación extra en un punto aislado, éste pudiese aparecer como una moda. Este inconveniente es especialmente delicado cuando hay pocas observaciones en la muestra, tal como es el caso que se observa en el gráfico siguiente. Datos sin agrupar: Ejemplo: el conjunto 2, 2, 5, 7, 9, 9, 9, 10, 10, 11, 12, 18 tiene como moda 9 mathcad mode( 2 , 2 , 5 , 7 , 9 , 9 , 9 , 10 , 10 , 11 , 12 , 18) = 9 Ejemplo: el conjunto 3, 5, 8, 10, 12, 15, 16 n o tiene moda Ejemplo: el conjunto 2, 3, 4, 4, 4, 5, 5, 7 , 7, 7, 9 tiene dos modas 4 y 7 y se llama bimodal Una distribución única se llama unimodal. Datos agrupados : ⎛ Δ1 ⎞ ⎜ Δ + Δ ⎟C mod a = L1 + ⎜ ⎟ ⎝ 1 2 ⎠ donde: L 1 = frontera inferior de la clase modal ( clase que contiene a la moda) 31
  • 32. UNIDAD I / ESTADISTICA DESCRIPTIVA. Δ1 = exceso de la frecuencia modal sobre la clase inferior inmediata Δ2 = exceso de la frecuencia modal sobre la clase superior inmediata c = anchura del intervalo de clase modal. Ejemplo : Altura ( in) Numero de estudiantes (f) 60 – 62 7 63 – 65 20 66 – 68 44 69 – 71 29 72 – 74 10 total 110 De acuerdo a la definición la moda será quien tenga mayor frecuencia por lo tanto cae en el intervalo 66 – 68 L1 = 65.5 ; Δ 1 = 44 − 20 = 22 ; Δ 2 = 44 − 29 = 15 ; C = 68.5 − 65.5 = 3 ⎛ 22 ⎞ mod a = 65.5 + ⎜ ⎟(3) = 67.28 ⎝ 22 + 15 ⎠ Medidas de posición relativa (Cuartiles, deciles y percentiles). Las calificaciones de exámenes y ciertos tipos de datos sociológicos y de salud con frecuencia se presentan en una forma que describe la posición de una observación relativa a las demás observaciones de la distribución. Si un conjunto de datos están ordenados por magnitud, el valor central ( o la media de los dos centrales) que divide al conjunto en dos mitades iguales es la mediana. Extendiendo esa idea, podemos pensar en aquellos valores que dividen al conjunto en cuatro partes iguales. Estos valores, denotados por Q 1, Q 2, Q3 , se llaman primer, segundo y tercer cuartil. Q 2 coincide con la mediana. 32
  • 33. UNIDAD I / ESTADISTICA DESCRIPTIVA. Análogamente los valores que dividen a los datos en 10 partes iguales se llaman deciles y se denotan D1 , D2 , . . . , D9 , mientras los valores que se dividen en 100 partes iguales se llaman percentiles denotados P1 , P2 , . . . , P 99 . Colectivamente cuartiles, deciles y percentiles se denominan cuantiles. Altura ( in) Numero de estudiantes (f) 60 – 62 7 63 – 65 20 66 – 68 44 69 – 71 29 72 – 74 10 total 110 Hallar Cuartiles: N / 4 = 100 / 4 = 25 5 + 18 = 23 63 – 65 → 62.5 – 65.5 ( 25 − 23 ) Q 65.5 + ( 3) = 65.64 1 42 2N / 4 = 2(100) / 4 = 50 5 + 18 = 23 63 – 65 → 62.5 – 65.5 5 + 18 + 42 = 65 ( 50 − 23 ) Q 65.5 + ( 3 ) = 67.43 2 42 3N / 4 = 3(100) / 4 = 75 5 + 18 +42 = 65 66 – 68 → 65.5 – 68.5 ( 75 − 65 ) Q 68.5 + ( 3) = 69.61 3 27 33
  • 34. UNIDAD I / ESTADISTICA DESCRIPTIVA. Hallar los deciles 100 ( 10 − 5) = 10 D 62.5 + ( 3) = 63.33 10 1 18 2( 100) ( 20 − 5) = 20 D 62.5 + ( 3) = 65 10 2 18 5+ 18 = 23 3( 100) ( 30 − 23) = 30 D 65.5 + ( 3) = 66 10 3 42 5+ 18 = 23 4( 100) ( 40 − 23) = 40 D 65.5 + ( 3) = 66.71 10 4 42 5+ 18 = 23 5( 100) ( 50 − 23) = 50 D 65.5 + ( 3) = 67.43 10 5 42 5+ 18 = 23 6( 100) ( 60 − 23) = 60 D 65.5 + ( 3) = 68.14 10 6 42 5+ 18 + 42 = 65 7( 100) ( 70 − 65) = 70 D 68.5 + ( 3) = 69.06 10 7 27 5+ 18 + 42 = 65 8( 100) ( 80 − 65) = 80 D 68.5 + ( 3) = 70.17 10 8 27 5+ 18 + 42 = 65 34
  • 35. UNIDAD I / ESTADISTICA DESCRIPTIVA. 9( 100) D ( 90 − 65) = 90 9 68.5 + ( 3) = 71.28 10 27 Hallar percentiles P 35 y P 50 35 (100) / 100 = 35 P ( 35 − 23 ) 35 65.5 + ( 3 ) = 66.36 42 50 (100) / 100 = 50 ( 50 − 23 ) P 65.5 + ( 3 ) = 67.43 50 42 1.4. Medidas de dispersión. Medidas de Posición. La descripción de un conjunto de datos, incluye como un elemento de importancia la ubicación de éstos dentro de un contexto de valores posibles. Por ejemplo, puede resultar de interés conocer qué porcentaje de automóviles equipados con convertidor catalítico sobrepasa el estándar de emisiones de gases que es aceptable según la legislación vigente. Ya no se trata en este ejemplo de describir el centro de un conjunto de datos de esta naturaleza. Es necesario ser más específico. Es probable que la emisión promedio de un conjunto de automóviles esté dentro de la norma. Pero,¿es aceptable que el 25% de ellos no la cumpla?. Se ve, entonces, que la descripción debe entregar más información de los datos para cubrir las necesidades informativas referentes a un problema en particular. 1.4.1 Varianza. Cuadrada para poder compararla con la media y otras medidas análogas. Esta es la idea del desvío estándar o desviación típica. También es la fórmula planteada por Gauss en su teoría de errores casuales. Como se verá más adelante, la curva de Gauss tiene dos puntos de inflexión simétricos ubicados a una distancia del centro igual al desvío estándar. 35
  • 36. UNIDAD I / ESTADISTICA DESCRIPTIVA. La varianza La varianza es el promedio de los cuadrados de las desviaciones de cada elemento, x i, respecto a la media, La varianza de un conjunto de datos se define como el cuadrado de la desviación típica y viene dada en consecuencia por S2 . varianza poblacional (s 2) ∑ (x − x) N 2 j j =1 S2 = ; N para una población finita con n determinaciones. Y la varianza muestral (σ 2) 2 ⎛ n ⎞ ⎜ ∑ yi ⎟ ∑ ( xi − x ) ∑ yi − ⎝ i =1 n ⎠ n n 2 2 σ 2 = i =1 = i =1 n −1 n −1 1.4.2 Desviación estándar. A su vez, el desvío estándar poblacional (σ) y el muestral (s) se obtienen con la raíz cuadrada de las respectivas varianzas y Representa el alejamiento de una serie de números de su valor medio. Se calcula a partir de todas las desviaciones individuales con respecto a la media. Para poder conocer o calcular tanto la media como la varianza poblacionales, se necesita conocer la población completa. Esto es imposible en el caso de mediciones repetidas porque estas son infinitas desde el punto de vista teórico. Análogamente, la cantidad total de muestras que se le puede extraer a un paciente, para hacerle una determinación en el laboratorio, es tan grande que puede ser considerada infinita. Por lo tanto, para todos ∑ (x − x) N 2 j j =1 S= N El uso de esta estadística es recomendado en aquellos conjuntos de datos que ofrecen cierto grado de simetría respecto de su centro. En estos casos, habitualmente tiene sentido medir discrepancias de un valor con el centro de los datos usando múltiplos de la desviación estándar. 36
  • 37. UNIDAD I / ESTADISTICA DESCRIPTIVA. A modo de ejemplo, se puede decir que un valor está bastante alejado del centro de los datos si su distancia de él supera dos desviaciones estándar. Apoyándose en la idea anterior, la desviación estándar puede ser usada para determinar valores que se encuentran 'cerca' del centro. Este uso va más allá de la simple descripción, en otros ámbitos de Estadística es usada para tomar decisiones respecto de la población de la que fue extraída la muestra. Ejercicio: Calcular la desviación estándar de los siguientes datos: 68.2, 69.3, 70.4, 71.5, 72.6, 73.7, 74.8, 68.2+ 69.3+ 70.4+ 71.5+ 72.6+ 73.7+ 74.8 prom:= 7 prom = 71.5 2 2 2 2 2 2 2 ( 68.2 − 71.5 ) + ( 69.3 − 71.5 ) + ( 70.4 − 71.5 ) + ( 71.5 − 71.5 ) + ( 72.6 − 71.5 ) + ( 73.7 − 71.5 ) + ( 74.8 − 71.5 ) desv := 7 desv = 2.2 Problema: Investigadores del Massachussets Institute of Technology (MIT) estudiaron las propiedades espectroscopicas de asteroides de la franja principal con un diámetro menor a los 10 kilometros. Los asteroides se observaron con el telescopio hiltener del observatorio del MIT; se registro el numero N de exposiciones de imagen espectral independientes para cada observación. Aquí se presentan los datos de 40 observaciones de asteroides obtenidas de Science. Numero de exposiciones de imagen espectral independientes para 40 observaciones de asteroides. 3 4 3 3 1 4 1 3 2 3 1 1 4 2 3 3 2 6 1 1 3 3 2 2 2 2 1 3 2 1 6 3 1 2 2 3 2 2 4 2 a) Localice y y s en el listado b) Construya los intervalos y ± s , y ± 2 s , y ± 3s 37
  • 38. UNIDAD I / ESTADISTICA DESCRIPTIVA. 1.4.3 Desviación media. La desviación media o desviación promedio de un conjunto de N números x 1, x 2, . . . , x N es abreviada por MD y se define como: N ∑x j =1 j −x M .D. = N Ejemplo: hallar la desviación media del conjunto 2, 3, 6, 8, 11 2 + 3 + 6 + 8 + 11 media aritmetica = =6 5 con mathcad mean ( 2 , 3 , 6 , 8 , 11) = 6 desviacion media 2 − 6 + 3 − 6 + 6 − 6 + 8 − 6 + 11 − 6 MD = = 2.8 5 1.4.4 Desviación mediana. Es la media aritmética de los valores absolutos de las desviaciones de los valores de la variable con respecto a la mediana. D Me = ∑x j − Me n j n 1.4.5 Rango. La más simple de todas es el rango, definido como la diferencia entre el valor máximo y mínimo del grupo de datos. De fácil cálculo y comprensión, tiene la desventaja de ser la medida más grosera de la dispersión. Dos grupos de datos, con muy distinta dispersión pueden llegar a tener rangos similares. Uno de ellos puede tener el 99% de los valores junto al mínimo y el otro el 99% junto al máximo, pero al tener extremos iguales, sus rangos resultarían iguales a pesar de ser tan disímiles intrínsecamente. RANGO = Máx. datos - Mín. datos 38
  • 39. UNID DAD I / ES STADISTIC DESCR CA RIPTIVA. 1.5 Pa arámetros para dato agrupados. os 1.5.1 La media. a Sean, x1 ,x2 ,....,xn , n obser rvaciones m muéstrales, definiremos promedio de estas observacio ones al valor dado por: o bien N x + x 2 + x3 + ... + x n ∑x j =1 j x= 1 = N N x= ∑x N Ejemplo: La media aritm a mética de los números 8, 3. 5, 12 y 10 s 8 + 3 + 5 + 12 + 10 38 2 x= = = 7.6 5 5 1.5.2 La desviació típica. a ón e blacional ( σ) y el mue A su vez, el desvío estándar pob estral ( s) se obtienen con la raíz c cuadrada d las respec de ctivas varian nzas y Repre esenta el ale ejamiento de una serie de números de su valor medio. Se calcula a par de todas las desviacio r c rtir ones individu uales con res specto a la media. ∑ f (x − x) k 2 j j j =1 S= k ∑f j =1 j 39
  • 40. UNIDAD I / ESTADISTICA DESCRIPTIVA. x j − x ( x j − x ) 2 f j (x j − x ) 2 xj fj 68.2 5 -2.6358 6.9477 34.7385 69.3 11 -1.5358 2.3588 25.9472 70.4 14 -0.4358 0.1900 2.6595 71.5 11 0.6642 0.4411 4.8521 72.6 7 1.7642 3.1122 21.7856 73.7 3 2.8642 8.2034 24.6101 74.8 2 3.9642 15.7145 31.4290 Total 53 146.0219 x= 70.8358 Desv. Est. = 1.6599 Y la desviación media para datos agrupados: k ∑f j =1 j xj − x DM = k ∑f j =1 j xj fj f j xj − x xj − x 68.2 5 2.6358 13.1792 69.3 11 1.5358 16.8943 70.4 14 0.4358 6.1019 71.5 11 0.6642 7.3057 72.6 7 1.7642 12.3491 73.7 3 2.8642 8.5925 74.8 2 3.9642 7.9283 Total 53 72.3509 x= 70.8358 Desv. Med. = 1.3651 40
  • 41. UNIDAD I / ESTADISTICA DESCRIPTIVA. 1.6 Distribución de frecuencias. Reglas generales para formar distribuciones de frecuencias Paso 1: Calcular el intervalo de los datos : Intervalo = Observación Grande – Observación Pequeña. Paso 2: Dividir el intervalo entre 5 y 20 clases de igual anchura. El número de clases es arbitrario, pero se obtiene una mejor descripción grafica si se utiliza pocas clases cuando el número de datos es pequeño y un mayor número de clases cuando el conjunto de datos es grande. La frontera de la clases más baja ( o primera) deberá estar situada por debajo de la medición más pequeña, y el ancho de la clase debe ser tal que ninguna observación pueda quedar exactamente en la frontera de una clases. Se pueden calcular de la siguiente manera: Intervalo = anchura de clase # clases O bien, Intervalo = # clase anchura de clases Si la precisión es: una unidad entera (1) entonces es 1/2 = 0.5, la primera clases comenzará restándole 0.5 a la observación mas pequeño una unidad decimal (0.1) entonces es 0.1/2 = 0.05, la primera clases empieza restándole 0.05 a la observación mas pequeña. Paso 3: para cada clase, contar el numero de observaciones que caen en esa clase. Este número es la frecuencia de clases. Datos obtenidos. Por ejemplo: en la tabla que sigue se recogen los pesos de 40 estudiantes varones de una universidad, con precisión de 1 libra. Construir una distribución de frecuencias. 41
  • 42. UNIDAD I / ESTADISTICA DESCRIPTIVA. 138 164 150 132 144 125 149 157 146 158 140 147 136 148 152 144 168 126 138 176 163 119 154 165 146 173 142 147 135 153 140 135 161 145 135 142 150 156 145 128 El método textual tiene una ventaja importante con respecto a los otros: se puede influenciar al lector. El autor puede resaltar ciertas cifras de su interés, puede remarcar conceptos apropiados para sus fines y hacer pasar desapercibidos a los otros. Se puede focalizar la atención del lector, de tal manera que pase por alto ciertos datos evitando que saque sus propias conclusiones. 1.6.1 Distribuciones numéricas. Método de presentación de datos tabular. Una ordenación es un conjunto de datos numéricos en orden creciente o decreciente. Este método de presentación de la información consiste en presentar los datos por medio de una tabla o cuadro. Ejercicio: Los tiempos de CPU que se indican en la tabla representan el tiempo ( en segundos) que 25 trabajos estuvieron en control de la unidad central de proceso (CPU) de una computadora mainframe grande. Estos 25 valores representan una muestra seleccionada de los 1000 tiempos de CPU . Tabla de muestra de n = 25 tiempos de CPU de trabajos (en segundos ). 1.17 1.61 1.16 1.38 3.53 1.23 3.76 1.94 0.96 4.75 0.15 2.41 0.71 0.02 1.59 0.19 0.82 0.47 2.16 2.01 0.92 0.75 2.59 3.07 1.40 42
  • 43. UNIDAD I / ESTADISTICA DESCRIPTIVA. 1.6.2 Distribuciones categóricas. Al resumir grandes colecciones de datos, es útil distribuirlos en clases o categorías, y determinar el número de individuos que pertenecen a cada clase, llamado frecuencia de clase. Una disposición tabular de los datos por clase junto con las correspondientes frecuencias de clase, se llama distribución de frecuencia ( o tabla de frecuencia). Ejemplos: Intervalo = 4.75 – 0.02 = 4.73 Anchura aproximada de la clase es: int ervalo 4.73 = = 0.676 ≅ 0.7 7 7 Nota: si deseo saber la anchura de la clases entonces selecciono de manera arbitraria el numero de clases en este caso el numero 7 indica el numero de clases ( filas) y el resultado es la anchura de cada clases. Como la tabla contiene datos con valores de centésimas entonces el grado de precisión es de 0.01 por lo tanto se deberá de utilizar 0.01/2 = 0.005. por lo cual al intervalo menor que es de 0.02 se le restara 0.05. Ahora el primer valor en la tabla iniciara en 0.015. clase Intervalo de Tabulación Frec. clase 1 0.015 – 0.715 ///// 5 2 0.715 – 1.415 ///////// 9 3 1.415 – 2.115 //// 4 4 2.115 – 2.815 /// 3 5 2.815 – 3.515 / 1 6 3.515 – 4.215 // 2 7 4.215 – 4.915 / 1 43
  • 44. UNIDAD I / ESTADISTICA DESCRIPTIVA. 1.6.3 Distribuciones acumuladas. Intervalo de Frecuencia Distribución clase de clase acumulada 0.015 – 0.715 5 5 0.715 – 1.415 9 14 1.415 – 2.115 4 18 2.115 – 2.815 3 21 2.815 – 3.515 1 22 3.515 – 4.215 2 24 4.215 – 4.915 1 25 Total 25 Distribucion acumulada 30 25 20 15 10 5 0 1 2 3 4 5 6 7 1.6.4 Distribuciones porcentuales. En esta distribución tenemos a la distribución de frecuencia relativa y ojivas porcentuales que se encuentra multiplicando la frecuencia relativa por cien para que los resultados estén en porcentajes . Y la suma de todas estas frecuencias resulte al 100 %. Frecuencia Frecuencia relativa = N Frecuencia relativa y ojivas = Frec. Re l * 100 44
  • 45. UNIDAD I / ESTADISTICA DESCRIPTIVA. Intervalo de clase Frec. Frec. relativa frecuencia relativa y ojivas porcentual (%) 0.015 – 0.715 5 0.20 20 0.715 – 1.415 9 0.36 36 1.415 – 2.115 4 0.16 16 2.115 – 2.815 3 0.12 12 2.815 – 3.515 1 0.04 4 3.515 – 4.215 2 0.08 8 4.215 – 4.915 1 0.04 4 Total 25 1.00 Frecuencia relativa porcentual 40 35 30 25 20 15 10 5 0 1 2 3 4 5 6 7 1.6.5 Distribuciones porcentuales acumuladas. Las distribuciones porcentuales acumuladas resulta dividiendo la distribución acumulada entre la frecuencia total y multiplicada por 100 para que los resultados resulten en porcentajes y al terminar el ultimo calculo debe ser al cien por ciento. Intervalo de clase Frec. Distribución acumulada Dist. porcentuales acumulada (%) 0.015 – 0.715 5 5 20 0.715 – 1.415 9 14 56 1.415 – 2.115 4 18 72 2.115 – 2.815 3 21 84 2.815 – 3.515 1 22 88 3.515 – 4.215 2 24 96 4.215 –4.915 1 25 100 Total 25 45
  • 46. UNIDAD I / ESTADISTICA DESCRIPTIVA. D. A DPA = * 100 N Distribucion Porcentual Acumulada 120 100 80 60 40 20 0 1 2 3 4 5 6 7 1.7 Técnicas de agrupación de datos. 1.7.1 Límites de clase. 118 y 122 se llaman limite de clase 118 se llama limite inferior y 122 limite superior de clase 1.7.2 Rango de clase. El tamaño o anchura de un intervalo de clase es la diferencia entre las fronteras de clase superior e inferior. C = 122.5 – 117.5 = 5 1.7.3 Fronteras de clase. Si se dan valores con precisión de 1 unidad, el intervalo de clase 118 – 122 incluye teóricamente todas las medias desde 117.5 a 122.5 y se llaman frontera de clase o verdaderos limites de clase; el menor 117.5 es la frontera inferior y el mayor 122.5 la frontera superior. 46
  • 47. UNIDAD I / ESTADISTICA DESCRIPTIVA. 1.7.4 Marca de clase. La marca de clase es el punto medio del intervalo de clase y se obtiene promediando los limites inferior y superior de clase . Así que las marcas de clase del intervalo 118 – 122 es (118 + 122 ) / 2 = 120 1.7.5 Intervalo de clase. Los valores de 118 – 122 se les llaman intervalo de clases Ejercicio: en la tabla siguiente se recogen los pesos de 40 estudiantes varones de una universidad, con precisión de 1 libra. Construir: a) una distribución de frecuencia. b) Distribución de frecuencia acumulada c) Grafica de la distribución de frecuencia acumulada d) Frecuencia relativa e) Frecuencia relativa y ojivas porcentuales f) Grafica de la frecuencia relativa y ojivas porcentuales g) Distribución porcentuales acumuladas h) Grafica de la distribución porcentuales acumuladas 119 138 146 156 125 140 147 157 126 140 147 158 128 142 148 161 132 142 149 163 135 144 150 164 135 144 150 165 135 145 152 168 136 145 153 173 138 146 154 176 Los pesos son 176 y 119 lb.; El intervalo es 176 – 119 = 57 lb. Si se usan 5 u 20 intervalos de clase su anchura será: 57 57 = 11.4 = 11 o = 2.85 = 3 5 20 47