SlideShare ist ein Scribd-Unternehmen logo
1 von 54
Downloaden Sie, um offline zu lesen
SUMARIO:
                  Tratamiento Estadístico
                                de Datos                                               1
1.1.- Introducción
1.2.- Datos e Información
1.3.- Algo más Formal sobre Muestras
      1.3.1.- Caracterización de Muestras
      1.3.2.- Obtención de Información a partir de los Datos de una muestra
      1.3.3.- Ordenamiento de Datos
      1.3.4.- Tabulación de Datos
1.4.- Tabulación de Datos
      1.4.1.- Frecuencias absolutas y relativas
      1.4.2.- Tablas de Frecuencias
1.5.- Gráficos de Frecuencias
1.6.- Cuantiles de una Muestra
      1.6.1.- Definiciones y Determinación Gráfica
      1.6.2.- Diagrama de Caja
1.7.- Algoritmos para el Cálculo de Cuantiles
1.8.- Medidas de Tendencia Central y Dispersión
      1.8.1.- La Media Aritmética y Otras Medidas de Tendencia Central
      1.8.2.- La Media y la Mediana de una misma Muestra
      1.8.3.- La Media Cortada de una Muestra
      1.8.4.- Medidas de Dispersión
      1.8.5.- Media y Varianza de Datos Agrupados
      1.8.6.- Media y Varianza de Funciones de X
1.9.- Más sobre Dispersión
      1.9.1.- Simplificación de Cálculos
      1.9.2.- Cuantiles y Medidas de Dispersión
      1.9.3.- Otros Diagramas y Representaciones Gráficas de una Muestra
      1.9.4.- Valores Aberrantes detectados en Diagramas de Caja
1.10.- Trabajo con dos o mas Variables
      1.10.1.- Coeficiente de variación
      1.10.2.- Gráficos Q-Q
1.11.- Estadística Descriptiva Multivariada
      1.11.1.- Vector de Medias y Matriz de Covarianzas
      1.11.2.- Coeficiente de Correlación de Muestras
1.12.- Observación de Procesos en el Tiempo
      1.12.1.- Series Temporales y Filtros
      1.12.2.- Patrones y Filtrado de Datos
      1.12.3.- Causas de Variación de un Proceso
1.13.- Datos Cualitativos
      1.13.1.- Escalas de Medidas
      1.13.2.- Escalas de Clasificación

Objetivos del Capítulo

Que el lector llegue a:

1) Diferenciar entre dato e información.
2) Diferenciar muestra y población objetivo.
3) Ser capaz de agrupar los datos de una muestra y construir tablas de frecuencias relativas.
4) Ser capaz de entender y determinar estadísticos de orden.
5) Ser capaz de construir gráficos de frecuencia relativa como histogramas, ojivas, polígonos y
diagramas de cajas.
6) Identificar en la ojiva qué son los cuartiles, deciles y percentiles de una muestra.
7) Calcular cualquier cuantil muestral utilizando estadísticos de orden
8) Entender los conceptos relacionados con tendencia central y dispersión muestral.
9) Calcular medidas de correlación entre dos variables de una misma muestra.
10) Identificar fenómenos representables por series temporales y filtrarlas de ser necesario.
ESTADÍSTICA
                                                                                             G. Zurita
                                                               Fundamentos y Aplicaciones

1.1.- INTRODUCCIÓN

                        Este capítulo es la presentación de lo que es la Estadística en
                        sus más elemental expresión; todas las secciones, excepto una,
                        el único requerimiento matemático que poseen es el que
                        ostenta un bachiller recién graduado. Se comienza diferenciando
                        información de dato y se instruye al lector acerca de cómo tratar
                        muestras de datos cuantitativos, llevándolo a construir tablas,
                        gráficos y diagramas, así como a calcular cuantiles,
                        particularmente mediana, deciles, percentiles y los cuartiles
                        primero y tercero. Se introduce como medidas de dispersión el
                        rango muestral y el rango intercuartil. Destaca la ojiva entre los
                        gráficos de frecuencia que se construyen.

                        En una siguiente etapa se define y cuantifica la tendencia central
                        de una muestra así como las mas usuales medidas de dispersión
                        muestral; teniendo el capítulo una de sus secciones
                        especialmente trabajadas en la que se hace referencia a la
                        determinación de cuantiles, utilizando estadísticos de orden.

                        La presencia de valores poco usuales o aberrantes es también
                        tratada en este capítulo, se explica su incidencia en los valores
                        que miden tendencia central y se hace uso del diagrama de caja
                        para diagnosticar su presencia.

                        Igualmente se discute ventajas y desventajas del agrupamiento
                        de datos y como determinar indicadores a partir de esta
                        situación. Se presentan también una introducción al tratamiento
                        de datos ligados al tiempo, series temporales, creación de
                        “filtros” para suavizar las series. También se introduce la noción
                        de tratamiento simultáneo de varias características de una
                        misma Población Objetivo, en una sección a la que se denomina
                        ”Estadística Descriptiva Multivariada” y que es la única en la
                        que se requiere conocimiento de operaciones con matrices, para
                        construir matrices de datos y matrices de varianzas y
                        covarianzas e una muestra.

                        Existe una última sección en la que se presentan escalas de datos
                        y se sugiere como tratar variables cualitativas.



1.2 .- DATOS E INFORMACIÓN

                        En Estadística tratamos en primer lugar con datos, esto es, con
Población Objetivo      una cantidad n de mediciones no procesadas, sean estas
Conjunto bien           numéricas (cuantitativas) o categóricas (cualitativas), que
definido de elementos
que son objeto de
                        llenan nuestro cuaderno de apuntes o reposan en un instrumento
medición                de almacenamiento de datos, sea éste un disco duro, “flash
                        memory”, o sencillamente un CD. Finalmente reposarán en una
                        base de datos para su manejo o en una bodega de datos
2
ESTADÍSTICA
                                                                                                      G. Zurita
                                                                     Fundamentos y Aplicaciones

                        (warehouse) para su almacenamiento histórico y posterior
Unidades de             tratamiento con Minería de Datos. Estas mediciones son
Investigación
                        efectuadas a elementos de algún conjunto bien definido, al que
Elementos de la
población objetivo      llamaremos población objetivo. A los elementos de la
                        población objetivo, los llamaremos unidades de investigación.
                        Para efectos de este primer análisis vamos a suponer que las
                        medidas efectuadas son cuantitativas.

                        Supondremos además que el tamaño de la población objetivo es
Muestra                 N y que de este conjunto seleccionamos un subconjunto de n
Subconjunto de n        unidades de investigación, sobre los cuales vamos a efectuar
unidades de             las mediciones de alguna de sus características. No mediremos
investigación tomados
                        entonces la característica investigada a todos los elementos de la
de la población
                        población objetivo sino a parte de ellos, esto significa que N >
                        n. Sin discutir, por ahora, la manera que efectuamos la selección
Observación             de las n unidades de investigación, al total de los n valores
Cada valor incluido     medidos los llamaremos muestra. Cada valor incluido en la
en la muestra
                        muestra es una observación.

                        Estamos seguros que el lector ha reparado en la sutil, pero
                        importante, diferencia entre “observación” y “unidad de
                        investigación”.

                        Diremos entonces que hemos tomado una muestra de tamaño n
                        de una “población” de tamaño N, o que tenemos una muestra
                        constituida por n observaciones.

                        Ejemplo 1.1

                           Sea una Población Objetivo que está conformada por seis
                           unidades de investigación, N=6; supongamos que la medida de
                           interés X toma valores, a, b, c, d, e, f. Indicar cómo seleccionar
                           la muestras de tamaño n = 2 de esta población.

                           Desarrollo.

                           El conjunto de valores de donde podemos escoger una de las
                           muestras requeridas es:

                                                   { a, b, c, d, e, f }

                           Si se necesita tomar una muestra de tamaño n = 2 ; son muchas
                           las opciones que pueden seleccionarse, bien podría ser que la
                           muestra elegida sea {a,b}; también puede ser {a,c} o
                           cualquiera de las opciones como, {a,d}; {a,e}; {a,f}; {a,f};
                           {b,c}; y así sucesivamente, hasta considerar la opción {e,f}. ♦


                        Pensando en casos numéricos mas específicos, puede ser que
                        de los N=12537 estudiantes matriculados en una universidad, a
                        cien de ellos, n=100, les preguntemos cuál es el número de
                        materias en las que se encuentran registrados al momento de la


                                                                                                  3
ESTADÍSTICA
                                                                                         G. Zurita
                                                            Fundamentos y Aplicaciones

                     entrevista, o que a esos mismos estudiantes les midamos su
                     estatura en metros.

                     En el caso de la primera pregunta, las respuestas conforman una
                     muestra de tamaño cien que está constituida por números
                     enteros, en tanto que las cien estaturas lo mas probable es que
                     las representemos como números reales con al menos dos
                     decimales de precisión.

                     Nótese que “medir” en términos estadísticos puede significar
                     que le hagamos una pregunta a quien investiguemos o que
                     utilizando un instrumento cuantifiquemos alguna de sus
                     características distintivas, o que le pidamos se pronuncie sobre
                     un asunto en particular.

                     Algo mas, los elementos de la Población Objetivo, o unidades
                     de investigación, pueden ser también entes irracionales o
                     inanimados, a quienes no es posible hacerles preguntas.
                     Pensemos que la característica que nos interesa es el porcentaje
                     de hierro contenido en las rocas que yacen en el lecho de un río,
                     o que en una provincia del país, nos interesa la proporción de
                     ganado vacuno infectado de fiebre aftosa.

                     Para el primer caso, los datos serán obtenidos en un laboratorio,
                     en el segundo, un veterinario dictaminará la presencia o no de
                     ese mal.



1.3.- ALGO MÁS FORMAL SOBRE MUESTRAS


1.3.1.- Caracterización de muestras

                     Si representamos por X a una característica de interés de cierta
                     población objetivo, a una muestra de tamaño n tomada de esta
                     población, la representaremos por,

                                             {X1, X2, ... , Xn}

                     Es también válido representar esta muestra por un vector X en
                     Rn de la siguiente forma:

                                           XT = (X1 X2... Xn)

                     Donde XT representa al vector transpuesto de X. Se usa la
                     transpuesta del vector X y no el vector X en sí, por razones de
                     edición.




4
ESTADÍSTICA
                                                                                                  G. Zurita
                                                                 Fundamentos y Aplicaciones

                        Ejemplo 1.2

                           A cinco estudiantes politécnicos se les pregunta en cuántos
                           semestres, a partir del momento de la entrevista, estiman que
                           van a graduarse; determine la muestra si lo que se obtiene
                           como respuesta es: siete, cinco, ocho, cinco y cuatro semestres.
                           Desarrollo.

                           En este caso, n = 5 y además, X1 = 7; X2 = 5; X3 = 8; X4 = 5 y
                           X5 = 4.

                           La muestra igualmente puede ser escrita como:

                                           XT = (7 5 8 5 4)             ♦

                        Nótese que hasta el momento, una muestra es solo un conjunto
                        X de datos que no ha recibido procesamiento alguno.


1.3.2.- Obtención de información a partir de los datos de una muestra

                        Si bien el proceso de “toma de datos” es vital en Estadística, a
Información             tal punto que ha merecido desarrollos teóricos importantes y las
Conjunto de datos       consecuentes técnicas a ser aplicadas, por el momento no nos
procesados que nos      preocuparemos de aquello y supondremos simplemente que
permiten tomar          contamos con los datos. Algo mas, los datos, como tales, no son
decisiones racionales   mas que materia prima dispuesta a ser procesada, ellos por sí
                        solo poco o nada pueden decirnos. Para que podamos tomar
                        decisiones racionales, necesitamos procesarlos, esto es
                        convertirlos en información.

                        Si nos encontramos frente a una muestra de tamaño n, ¿Qué es
                        lo que nosotros necesitamos hacer para que pase a ser material
                        estadísticamente útil?, esto es, para que pase a ser información.

                        Cuatro son las acciones que con el conocimiento que al
                        momento suponemos maneja el lector, pueden tomarse, y estas
                        son:
                        i) Ordenar los datos;
                        ii) Tabular los datos ordenados;
                        iii) Graficar los datos ordenados utilizando el concepto de
                        frecuencia relativa; y,
                        iv) Calcular a partir de la muestra cantidades que representen
                        “peculiaridades” siempre presente en las muestras que son
                        relevantes para la toma de decisiones.


1.3.3.- Ordenamiento de datos

                        La primera acción, esto es ordenar los valores constitutivos de
                        una muestra, es sencilla, aunque pudiera ser tediosa, cuando se

                                                                                              5
ESTADÍSTICA
                                                                              G. Zurita
                                                 Fundamentos y Aplicaciones

    trabaja con muestras de tamaño relativamente grande y no
    disponemos de una máquina procesadora de datos. Para
    representar una muestra ordenada debemos definir que es lo que
    se entiende por un estadístico de orden.

    Dada una muestra X de tamaño n, al primer estadístico de
    orden lo denotamos por X(1) y lo definimos como el mínimo
    valor que constituye la muestra, esto es,

                         X(1) = min{X1 , X2, ..., Xn}

    El estadístico de orden n se lo denota como X(n) y lo definimos
    como el máximo valor que constituye la muestra, esto es,

                         X(n) = max{X1 , X2, ..., Xn}

    De forma similar definimos al estadístico de orden dos, tres, y
    así pasando por el i-ésimo orden, llegamos al de orden (n-1) y
    orden n, esto significa que:

             X(1) ≤ X(2) ≤ ... ≤ X(i) ≤ … ≤ X(n-1) ≤ X(n)


    Ejemplo 1.3

       A partir del Ejemplo 1.2 determine los estadísticos de orden
       que correspondan.

       Desarrollo.

       En el mencionado ejemplo, consideramos una muestra de
       tamaño cinco en la que,

                     X1 = 7; X2 = 5; X3 = 8; X4 = 5 y X5 = 4

       Concordante con las definiciones previas,

                        X(1) = min{ 7 ; 5 ; 8 ; 5 ; 4}= 4

                     X(n) = X(5) = max{7 ; 5 ; 8 ; 5 ; 4 }= 8

       Considerando ahora la muestra ordenada,

            X (1) = 4; X (2) = 5; X (3) = 5; X (4) = 7; y X (5)= 8   ♦


    Nótese que el número cinco, como valor observado, tiene doble
    calidad; es el estadístico de orden dos y de orden tres al mismo
    tiempo, ya que este valor se encuentra repetido en la muestra.




6
ESTADÍSTICA
                                                                                                G. Zurita
                                                               Fundamentos y Aplicaciones

1.3.4.- Tabulación de Datos

                         Para tabular datos cuantitativos, y así facilitar la exploración
                         estadística de los mismos, se requiere definir algunos términos y
                         efectuar ciertos supuestos. Los términos que necesariamente
                         deben definirse son: clase, marca de clase, frecuencia
                         absoluta, frecuencia relativa, frecuencia acumulada
                         absoluta, frecuencia acumulada relativa y               tabla de
                         frecuencias.

                         Cualquier dato en una muestra es mayor o igual a su mínimo
                         valor X(1), pero menor o igual a su máximo valor X(n); teniendo
                         en cuenta esto, vamos a considerar un intervalo cerrado de
                         números reales al que denominaremos A y cuyo extremo
                         inferior lo denominaremos a1 y cuyo extremo superior es ak+1,
                         tal cual se lo bosqueja en la Figura 1.1

                         Figura 1.1
                         Intervalo A de Números Reales que incluye todo los datos en la
                         muestra

                           •   •                                                 • •
                          a1 X(1)                                               X(n) ak+1

                                        A= {x∈R | a1 ≤ x < ak+1}= [a1, ak+1)

                         Necesariamente a1 debe ser menor o igual que X(1) así como
                         también que ak+1 debe ser mayor o igual que X(n).

                         Particionamos ahora el intervalo    A así definido, en k
                         subintervalos semiabiertos y ordenados de tal manera que
                         dichos subintervalos,

Clase                    a) tengan igual longitud;
Intervalos exhaustivos
y mutuamente
                         b) su unión sea igual al intervalo A; y,
excluyentes en una       c) la intersección entre cualquiera de estos subintervalos sea
muestra                  vacía.

                         Diremos que estos intervalos son exhaustivos y mutuamente
                         excluyentes y a cada uno de ellos lo denominaremos clase.

                         Hemos definido entonces k clases para una muestra de tamaño
                         n.

                         Obviamente k es mucho menor que n y dicho valor se lo escoge
                         de acuerdo a las instrucciones que nos dé el profesor en clase, o
                         de acuerdo a la experiencia de la persona que está haciendo el
                         análisis de los datos. Quien no tiene experiencia, ni tiene
                         cercano un profesor pero sí una computadora, verá resuelto su
                         problema consultando o dejando funcionar libremente a
                         paquetes computacionales especializados en Estadística, ya que

                                                                                            7
ESTADÍSTICA
                                                                                                   G. Zurita
                                                                 Fundamentos y Aplicaciones

                        dichos    paquetes, tales    como MINITAB*, SPSS** o
                        SYSTAT**, realizan automáticamente esta tarea, si así lo
                        requerimos. Un valor sugerido de partida es k ≥ 7.

                        Formalizando lo definido anteriormente se tiene que

                                        A= {x∈R | a1 ≤ x < ak+1}= [a1, ak+1)

                        Además tenemos:

                        a) Se ha definido,

                                               primera clase = [a1, a2)
                                              segunda clase = [a2, a3)
                                                          .
                                                          .
                                                          .
                                             k-ésima clase = [ak , ak+1)

                        Recuérdese que el intervalo semiabierto

                                          [ai , ai+1) = {x∈R ⏐ai ≤ x < ai+1}
                        En tanto que:

                                          [ak-1, ak) = {x∈R ⏐ak-1 ≤ x < ak}

                        Existiendo además el supuesto de que la longitud L de cada una
                        de las clases es la misma, esto es,

                                   L = d(a1 , a2) = d(a2 , a3) = ... = d(ak , ak+1)

                        Donde la expresión d(a , b) simboliza la “distancia” del número
                        real a al número real b, que no es mas, en este caso, que el valor
                        absoluto de la diferencia entre a y b. Esto es, d(4 , 5) =⏐4-5⏐=
                        d(5 , 4) =⏐5-4⏐ = 1 ó d(-3 , 3) =⏐-3 - 3⏐ = 6.

                        b) La unión de los k subintervalos es A; lo cual significa que:
                                                                           k
                               [a1, a2)∪[a2 , a3)∪...∪[ak , ak+1) = A =    U
                                                                           i=1
                                                                                     [ai , ai+1)

                        c) La intersección de los k subintervalos es vacía, esto es,
                                                                                 k
                             [a1, a2) ∩ [a2 , a3)∩... ∩ [ak , ak+1) = ∅ = I [ai , ai+1)
                                                                               i=1


Marca de Clase          Al valor central de cada una de las clases, se lo obtiene sumando
Valor central de cada   sus extremos y dividiendo para dos, este valor central se
una de las clases       denomina marca de clase, lo cual significa que:

                                    la primera marca de clase = (a1 + a2)/2;
                                    la segunda marca de clase = (a2 + a3)/2;
                                                       .
8
ESTADÍSTICA
                                                                           G. Zurita
                                          Fundamentos y Aplicaciones

                               .
                               .
          y, la k-ésima marca de clase = (ak + ak+1)/2.


Ejemplo 1.4

   Supongamos que se tiene una muestra de tamaño n = 50 datos
   y que el mínimo X(1) es igual a 42 y el máximo X(50) es 106.
   Se requiere determinar clases y marcas de clase para la
   muestra.

   Desarrollo.

   Se nos sugiere tomar k = 7, de tal manera que

                 A= {x∈R ⏐40 ≤ x < 110} = [40, 110)

   Esto hace posible que:

                       la primera clase = [40, 50);
                      la segunda clase = [50 , 60);
                                     .
                                     .
                                     .
                   y, la séptima clase = [ 100 , 110)

   Bajo estas condiciones, la primera marca de clase es
   (40+50)/2 =45; la segunda marca de clase es 55; la tercera es
   65; y de esta manera hasta llegar a la séptima marca de clase
   que es 105. ♦


Así construida la resolución del problema, la misma goza de las
siguientes características:

El intervalo A contiene a todos los n = 50 valores que
conforman la muestra ya que X(1) así como también X(50)
pertenecen al intervalo A.

Cada una de las siete marcas de clase está perfectamente
establecida y tienen la misma longitud (diez unidades);

El intervalo A es igual a la unión de las k = 7 clases (las clases
son exhaustivas); y,

Ninguna clase comparte elementos con otra (las clases son
mutuamente excluyentes);

Para tener una idea gráfica de lo contenido en este problema,
imaginemos una figura como la que denomináramos Figura 1.1
en líneas previas y ubique los valores a1 que es 40, a2 que es
50; hasta llegar a a8 = 110. Recuérdese que k = 7, pero que


                                                                       9
ESTADÍSTICA
                                                                                                  G. Zurita
                                                                     Fundamentos y Aplicaciones

                        tenemos que llegar hasta ak+1 que en este caso es 110. A
                        continuación la Figura 1.2

                        Figura 1.2
                        Intervalo A (unión de las siete clases)
                            [       )          [        )        [            )     [      )

                           40       50        60       70       80            90   100    110
                                     [        )         [        )            [     )
                           a1                                                             ak+1

                                         A= {x∈R ⏐40 ≤ x < 110} = [40, 110)



1.4.- TABULACIÓN DE DATOS


1.4.1.- Frecuencias absolutas y relativas

                        Para tabular datos con el propósito de hacer un análisis
                        estadístico exploratorio de los mismos, aun necesitamos efectuar
                        algunas definiciones que se relacionan con el tamaño de la
                        muestra y el número de observaciones que la muestra tiene en
                        cada una de las k clases que hayamos determinado.

                        Supóngase que ya hemos ordenado los datos y que además se
                        han determinado las k clases que creemos pertinentes; vamos a
                        darle un tratamiento adicional a esta muestra ordenada.
                        Recordemos que ordenada o no, la muestra tiene n
                        observaciones y que por la forma que se definen las clases, sin
                        ambigüedad podemos afirmar que todos los elementos de la
                        muestra pertenecen a alguna de las k clases.

Frecuencia Absoluta     Denotaremos f1 al número de observaciones en la muestra, que
Número de               pertenecen a la primera clase, esto es al intervalo [a1, b1) y a f1 lo
observaciones en la     denominaremos frecuencia absoluta de la primera clase o
muestra que             simplemente primera frecuencia absoluta. En el mismo
pertenecen a cada una   contexto f2, será la segunda frecuencia absoluta, y así
de las clases
                        sucesivamente hasta llegar a fk, que es la k-ésima frecuencia
                        absoluta o el número de observaciones que pertenecen a la
                        muestra y que al mismo tiempo se ubican en la k-ésima clase.
                        La suma de las frecuencias absolutas de una muestra es n, esto
                        es,
                                                                        k
                                              f1 + f2 + ... + fk = n = ∑ f i
                                                                       i =1
Frecuencia Relativa
División de la          Recuérdese que fi es un número mayor o igual que cero y menor
frecuencia absoluta     o igual que n. Pasamos a definir frecuencia relativa de una
de cada una de las      clase.
clases para el tamaño   La frecuencia relativa de la primera clase resulta de dividir f1
n de la muestra
                        para el tamaño n de la muestra; de manera similar la frecuencia

10
ESTADÍSTICA
                                                                                                         G. Zurita
                                                                            Fundamentos y Aplicaciones

                          relativa de la segunda clase se obtiene al dividir f2 para n. Y
                          así pasando por la frecuencia relativa de la i-ésima clase,
                          llegamos a la frecuencia relativa de la k-ésima clase que
                          calculamos dividiendo fk para n.

                          Toda frecuencia relativa es un número mayor o igual a cero pero
                          menor o igual que uno, esto es,

                                                 f
                                          0≤      i ≤ 1; siendo, i = 1, 2,..., k.
                                                 n

                          F1, la frecuencia acumulada absoluta de la primera clase, se
                          la define igual a f1; la de la segunda clase F2 = f1 + f2; y así
                          sucesivamente la frecuencia acumulada de la k-ésima clase
                          es:
                                              Fk = f1 + f2 + ... + fk-1 + fk

                          Es claro que Fk es igual a n. Véase Figura 1.3

                          Con estos antecedentes es evidente como definir la frecuencia
                          acumulada relativa de la i-ésima clase, esto es, la misma
                          resulta de dividir Fi para n, siendo i = 1; 2;...; k.
                                                     Fk
                          Ocurre por tanto que        n
                                                          es igual a uno.

                          Figura 1.3
                          Definición de Frecuencia Acumulada
                                         F1 = f 1
                                         F2 = f 1 + f 2
                                         F3 = f 1 + f 2 + f 3
                                         F4 = f 1 + f 2 + f 3 + f 4
                                         F5 = f 1 + f 2 + f 3 + f 4 + f 5
                                         F6 = f 1 + f 2 + f 3 + f 4 + f 5 + f 6
                                         F7 = f 1 + f 2 + f 3 + f 4 + f 5 + f 6 + f 7

                                       * Para efectos visuales el valor de k es siete (k=7)



1.4.2.- Tablas de frecuencias

Tabla de                  Dada una muestra ordenada de tamaño n, una Tabla de
Frecuencias               frecuencias es un arreglo rectangular que tiene siete columnas y
Arreglo rectangular       k filas, sin incluir la rotulación; la primera columna es para el
que tiene siete
                          “ordinal de la clase”, la segunda para definir la clase, luego la
columnas y k filas, sin
incluir la rotulación     marca de clase, frecuencia absoluta, frecuencia relativa,
                          frecuencia absoluta acumulada y la séptima columna para la
                          frecuencia relativa acumulada. Véase la Figura 1.4




                                                                                                    11
ESTADÍSTICA
                                                                                                                      G. Zurita
                                                                          Fundamentos y Aplicaciones

       Figura 1.4
       Tabla General de Frecuencias
                                                                                        Frecuencia       Frecuencia
                               Marca de           Frecuencia           Frecuencia
     Ordinal       Clase                                                                 Absoluta         Relativa
                                Clase              Absoluta             Relativa
                                                                                        Acumulada        Acumulada
       1          [a1,a2)       (a1+a2)/2               f1                f1/n               F1             F1/n
       2          [a2,a3)       (a2+a3)/2               f2                f2/n               F2             F2/n
       3          [a3,a4)       (a3+a4)/2               f3                f3/n               F3             F3/n
        .             .             .                   .                     .               .              .
        .             .             .                   .                     .               .              .
        .             .             .                   .                     .               .              .
       k          [ak,ak+1)    (ak+ak+1)/2              fk                fk/n              FK= n         FK/n = 1


       Téngase en cuenta que al multiplicar por cien cualquier tipo de
       frecuencia relativa se obtiene un porcentaje.

       Construida una Tabla de frecuencia, estamos en capacidad de
       efectuar algunas afirmaciones que no podríamos hacer si
       observáramos solamente al dato “puro” llegado desde el campo
       u obtenido en el laboratorio. Podríamos decir por ejemplo cuál
       es la proporción de observaciones que se encuentran en una
       clase, al utilizar la frecuencia relativa; cuál es el porcentaje de
       observaciones que pertenecen a una clase y a todas las previas,
       si utilizamos la frecuencia relativa acumulada multiplicada por
       cien; o, qué porcentaje de observaciones pertenecen a las clases
       siguientes a la i-ésima si utilizamos (1-Fi/n).100, etc., etc.

       Hemos ya dado un paso relevante en la exploración estadística
       de datos, los comenzamos a convertir en información.

       Recomendamos siempre utilizar los valores de las frecuencias
       relativas y no valores de las frecuencias absolutas; la razón de
       esta sugerencia será obvia cuando en capítulos subsiguientes
       hagamos inferencias estadísticas sustentadas en principios
       probabilísticos. Las frecuencias absolutas deben ser utilizadas
       como valores de paso, cuya utilidad es al final obtener valores
       relativos con los que se puedan efectuar generalizaciones.


       Ejemplo 1.5

               Se tiene un conjunto de n = 50 datos que luego de ordenarlos,
               configuran la siguiente muestra:
                           2    3    3        4
                           5    6    6        7     9
                          10   10   12       13    14        14   15
                          15   15   16       16    17        17   18     18       18   19    19     19
                          21   21   23       24    24        25   25     25       25
                          27   28   28       29    29
                          31   32   33       35    35
                          36   39   39


               Estos cincuenta datos representan el número de fallas
               cosméticas y estructurales detectados en los edificios de una

12
ESTADÍSTICA
                                                                                                      G. Zurita
                                                                  Fundamentos y Aplicaciones

                     comunidad urbana que va a ser regenerada por la
                     municipalidad del cantón. Construir la correspondiente Tabla
                     de Frecuencias.

                     Desarrollo.

                     Dado el resultado del ordenamiento notamos que X(1)= 2 y
                     X(50)= 39. De igual manera optamos por construir k = 8 clases
                     de longitud cinco unidades, siendo la primera definida por el
                                                                  0+5
                     intervalo [0, 5), su marca de clase es           = 2.5 ; su frecuencia
                                                                   2
                     absoluta es cuatro y la frecuencia relativa de esta clase es
                          4
                            = 0.080 ; la frecuencia acumulada absoluta F1 es cuatro y la
                         50
                     frecuencia acumulada relativa es también 0.080 por ser la
                     primera clase y por tanto no existe clase previa.

                     Para la segunda clase , como puede verse en la Figura 1.5, la
                     frecuencia absoluta f2 es cinco; la frecuencia relativa es 0.10 ;
                     la frecuencia acumulada absoluta F2 es nueve y la marca de
                     clase 7.5. Véanse detalles en la figura que se presenta a
                     continuación.    ♦

                Figura 1.5
                Tabla de Frecuencias

                                                                            Frecuencia   Frecuencia
                                      Marca de    Frecuencia   Frecuencia
               Ordinal      Clase                                            Absoluta     Relativa
                                       Clase       Absoluta     Relativa
                                                                            Acumulada    Acumulada
                 1           [0,5)      2.5           4          0.080          4          0.080
                 2          [5,10)      7.5           5          0.100          9          0.180
                 3          [10,15)    12.5           6          0.120         15          0.300
                 4          [15,20)    17.5          13          0.260         28          0.560
                 5          [20,25)    22.5           5          0.100         33          0.660
                 6          [25,30)    27.5           9          0.180         42          0.840
                 7          [30,35)    32.5           3          0.060         45          0.900
                 8          [35,40)    37.5           5          0.100         50          1.000




1.5.- GRÁFICOS DE FRECUENCIAS

                A partir de una tabla de frecuencias obtenida para una muestra
                X de tamaño n,

                                                 XT = (X1 X2... Xn)

                es posible construir representaciones gráficos que revelan                     de
                manera sencilla, mucho de la información contenida en                          la
                misma. Entre estas representaciones están los histogramas                      de
                frecuencia, polígonos de frecuencia, ojivas y diagramas                        de
                caja, que pasamos a describir a continuación.


                                                                                               13
ESTADÍSTICA
                                                                                                                                               G. Zurita
                                                                                                           Fundamentos y Aplicaciones

                          Un histograma de frecuencia es un gráfico bidimensional de
Histograma de             “barras” en cuyo eje horizontal están señaladas las k clases que
Frecuencia
Gráfico bidimensional     se han determinado para construir la Tabla de Frecuencia; en el
de “barras” en cuyo       eje vertical se representan las frecuencias relativas de cada
eje horizontal están      clase. El gráfico contendrá k barras cuyo “ancho” coincide con
señaladas las k clases,   la longitud de la clase y cuya “altura” es igual la frecuencia
y en el eje vertical se   relativa de la clase. El histograma de frecuencia, debe ser
representan las
frecuencias relativas     graficado de tal manera que se respeten las escalas, nos presenta
de cada una de ellas      una imagen visual acerca de la información relacionada con la
                          proporción de observaciones en cada clase, las comparaciones e
                          interrelaciones que con ellas pueden hacerse. Véase Figura 1.6
                          la misma que corresponde a los cincuenta datos presentados en
                          el Ejemplo 1.5. Son ocho clases de longitud cinco, la primera de
                          las cuales es [0,5) y la última (octava) es [35,40)

                          Figura 1.6
                          Histograma de Frecuencia

                                                  0,300



                                                  0,250



                                                  0,200
                            Frecuencia Relativa




                                                  0,150



Polígono de                                       0,100

Frecuencia
Gráfico derivado del                              0,050
histograma de
frecuencia que utiliza                            0,000                                                                                    X
como vértices los                                         [0,5)   [5,10)   [10,15)   [15,20)     [20,25)     [25,30)   [30,35)   [35,40)

puntos centrales                                                                     Intervalos de Clase

superiores de las
barras del histograma
y que para obtener la
                          Un gráfico derivado del correspondiente histograma de
intersección con el eje
horizontal crea           frecuencia, es el Polígono de frecuencia, que resulta al
artificialmente dos       determinar un polígono, utilizando como vértices del mismo, los
nuevas “clases”.          puntos centrales superiores de las barras del histograma. Para
                          obtener intersección entre el polígono y el eje horizontal se
                          crean artificialmente dos nuevas “clases”, una antes de la
                          primera, a la cual llamaremos “clase cero” y otra luego de la
                          última, que pasa a ser la “clase (k+1)-ésima”. De esta manera, el
                          primer vértice del polígono lo situamos en la marca de clase de
                          la clase cero y el último vértice en la marca de clase de la clase
                          (k+1)-ésima. Véase Figura 1.7 en que se construye un Polígono
                          de Frecuencia con los datos del Ejemplo 1.5.

                          El polígono de frecuencia en términos generales contiene
                          información similar que la presentada por el histograma de
                          frecuencias, sin embargo es recomendable construirlo si la
                          característica que se investiga en la población objetivo, es
                          continua.

14
ESTADÍSTICA
                                                                                                                                            G. Zurita
                                                                                                    Fundamentos y Aplicaciones


                         Figura 1.7
                         Polígono de Frecuencia

                                                0,300



                                                0,250



                                                0,200




                          Frecuencia Relativa
                                                0,150



                                                0,100



                                                0,050



                                                0,000                                                                                  X
                                                        [0,5)   [5,10)   [10,15)    [15,20)   [20,25)    [25,30)   [30,35)   [35,40)

                                                                                   Intervalos de Clase



                         Uno de los mas útiles gráficos en Estadística es la Distribución
Distribución de          de Frecuencia Acumulada o simplemente Ojiva. Este esquema
Frecuencia               gráfico, representa en el eje horizontal la característica
Acumulada (Ojiva)
Gráfico que              cuantitativa X, que estamos investigando y ubica sobre el
representa en el eje     mismo eje, las k clases en que hemos decidido organizar la
horizontal la            muestra de tamaño n, o podríamos decir también la muestra
característica           constituida por n observaciones. En el eje vertical ubicamos la
cuantitativa X que se    frecuencia acumulada relativa.
está investigando y en
el eje vertical la
frecuencia acumulada     Obviamente que los valores en el eje horizontal dependen de la
relativa                 característica X que medimos; pueden ser dólares si en una
                         “Encuesta de Hogares” investigamos los ingresos de n hogares
                         que constituyen una comunidad; pueden ser centímetros si
                         medimos la estatura de n estudiantes; gramos si lo que hacemos
                         es pesar n camarones que hemos tomado de una piscina de
                         acuicultura, o, resistencia a fuerzas cortantes de un material si
                         en un laboratorio de Mecánica de Sólidos investigamos tal
                         característica. En el eje vertical, no importa qué se investigue,
                         allí se ubica la frecuencia acumulada relativa, esto significa que
                         solo se utilizarán, en este eje, valores que comiencen en cero y
                         terminan siempre en uno.

                         Recordando que la muestra con la que tratamos ya ha sido
                         ordenada y que además se supone ya tenemos determinadas las
                         k clases que se necesitan; el gráfico de una Ojiva se construye
                         determinando (k+1) puntos y luego conectándolos de manera
                         sucesiva y con trazos continuos, de la siguiente manera:

                         El primer punto tiene coordenadas (a1, 0) donde a1 es el extremo
                         inferior de la primera clase, el segundo punto tiene coordenadas
                         (a2, F1/n) siendo a2 el extremo inferior de la segunda clase; el
                         tercer punto tiene coordenadas (a3, F2/n) y así sucesivamente
                         hasta llegar al penúltimo punto que tiene como coordenadas (ak,

                                                                                                                                       15
ESTADÍSTICA
                                                                                                                                                                       G. Zurita
                                                                                                                                  Fundamentos y Aplicaciones

     Fk-1/n); siendo el último punto el que tiene coordenadas (ak+1,
     Fk/n).

     El gráfico de una ojiva es continuo; recuérdese además que Fk/n
     es igual a uno. Obsérvese la Figura 1.8

     Figura 1.8
     Distribución de Frecuencia Acumulada (Ojiva)


                                                                                    1




                                              Frecuencia Acumulada Relativa
                                                                                  0,75



                                                                                   0,5



                                                                                  0,25



                                                                                                        Q1    Q2        Q3
                                                                                    0
                                                                                                                                                      X
                                                                                           4        8        12    16        20    24      28    32



     La Ojiva es utilizada con profusión para comparar situaciones
     en las que bajo distintas circunstancias o a distintos entes se
     mide una misma característica; por ejemplo, el ingreso mensual
     en dos distintas comunidades de los jefes de hogares o las notas
     en dos distintas materias que obtiene un mismo grupo de
     estudiantes. Obsérvese en la Figura 1.9, las ojivas A y B. Si
     ellas representaran los ingresos en dólares de dos comunidades,
     ¿En cuál de las dos quisiera usted vivir?. Si se tratara de las
     notas obtenidas por un mismo grupo humano en dos cursos
     diferentes que han tomado en una universidad ¿Cuál curso
     presenta mayor grado de dificultad para aprobarlo?.

     Figura 1.9
     Ingresos en dólares de Dos Comunidades (A y B)

                                         1

                                                                                               A                                                 B
       Frecuencia Acumulada Relativa




                                       0,75



                                        0,5



                                       0,25


                                                                                  Q1 Q2    Q3                                       Q1 Q2 Q3
                                         0
                                                                                                                                                                   X
                                              4                               8     12    16   20   24 28         32    36   40    44 48    52   56   60 64   68




16
ESTADÍSTICA
                                                                                               G. Zurita
                                                                Fundamentos y Aplicaciones

1.6.- CUANTILES DE UNA MUESTRA


1.6.1.- Definiciones y determinación gráfica

Primer Cuartil (Q1)      La Ojiva es además un excelente instrumento para ilustrar
Valor de X tal que
                         definiciones de orden cuantitativo que se efectúan cuando se
nos mas del
veinticinco por ciento   exploran estadísticamente los datos de una muestra ordenada,
de las observaciones     para obtener la información en ella contenida.
en la muestra toman
valores menores o        Como definición diremos que el Primer Cuartil o Cuartil
iguales que Q1
                         Inferior de una muestra en la que se investiga una
                         característica continua X, es un valor Q1 de X, tal que no mas
                         del veinticinco por ciento de las observaciones en la muestra
                         ordenada toman valores menores o iguales que Q1.
Segundo Cuartil
(Q2)
Valor de X tal que       En tanto que el Segundo Cuartil o Cuartil Central de una
nos mas del cincuenta    muestra se denota por Q2 y se lo define como el valor de X tal
por ciento de las        que, no mas del cincuenta por ciento de los valores en la
observaciones en la      muestra son menores o iguales que Q2.
muestra son menores
o iguales que Q2
                         Al Tercer Cuartil o Cuartil Superior de una muestra se lo
                         denota Q3 y se lo define en términos del setenta y cinco por
                         ciento de los elementos en la muestra tomando valores menores
Tercer Cuartil (Q3)      o iguales que Q3, o equivalentemente el veinticinco por ciento
Valor de X tal que el    de los valores en la muestra son mayores que Q3.
setenta y cinco por
ciento de los
elementos en la          A los tres cuartiles definidos se los puede representar en una
muestra toman            ojiva muy claramente como se bosqueja en la Figura 1.8
valores menores o
iguales que Q3           Se tiene en esta figura una ojiva y en el eje vertical marcados los
                         valores 0.25; 0,50 y 0.75. Para ubicar, sobre el eje horizontal, el
                         valor del primer cuartil Q1, se traza un segmento de recta
                         horizontal que contenga al punto A de coordenadas (0, 0.25) y
                         que sirve además para determinar el punto A´ en el que la ojiva
                         y la recta tiene su intersección; incluyendo A´ se traza un
                         segmento de recta perpendicular al eje horizontal; en la
                         intersección del segmento con este eje se encuentra el valor Q1,
                         que es el Primer Cuartil.

                         Nótese que el Primer Cuartil Q1 no es un punto sobre el plano
                         sino una coordenada sobre el eje horizontal, esto es, Q1 es un
                         valor numérico.

                         Utilizando el mismo procedimiento constructivo, se determinan
                         gráficamente Q2 y Q3 esto es, los cuartiles segundo y tercero ya
                         definidos.

                         Al segundo cuartil de la muestra se lo denomina también
                         Mediana Muestral y en secciones venideras abundaremos
                         sobre este valor y la forma de calcularlo.

                                                                                         17
ESTADÍSTICA
                                                                                            G. Zurita
                                                             Fundamentos y Aplicaciones


                     Así como se definieron tres cuartiles, es posible definir nueve
                     Deciles y noventa y nueve Percentiles de la muestra.

                     Los deciles muestrales se los denota D1, D2, D3, hasta D9;
                     pudiendo decirse que cuando mas el diez por ciento de los
                     elementos en la muestra toman valores menores o iguales al
                     Primer Decil D1; el veinte por ciento de los elementos en la
                     muestra toman valores menores o iguales a D2; y así hasta llegar
                     al Noveno Decil, D9, cuando el noventa por ciento de las
                     observaciones que conforman la muestra toman valores
                     menores o iguales que D9.
                     Se encarga al lector determinar el significado de los percentiles
                     muestrales P1, P2, ..., P99; indicando que el uno por ciento de los
                     elementos en la muestra toman valores menores o iguales que
                     P1, el Primer Percentil de la muestra, y que el noventa y nueve
                     por ciento son menores o iguales que P99 el Nonagésimo
                     Noveno Percentil de la muestra. De igual manera se exhorta al
                     lector a ubicarlos en el eje horizontal de una ojiva.

                     Es procedente decir que Q1 = P25, que Q2 = D5 = P50 o que Q3 =
                     P75.

                     De igual manera puede complementarse lo hasta aquí expresado
                     sobre estos cuantiles, esto es percentiles, deciles y cuartiles, que
                     cuando mas, el setenta y cinco por ciento de las observaciones
                     en la muestra toman valores mayores a Q1; que el cincuenta por
                     ciento de las observaciones “centrales” de la muestra se
                     encuentra entre Q1 y Q3; que el noventa por ciento de los
                     valores observados está entre P5 y P95, o que el sesenta por
                     ciento de las observaciones se encuentran entre D2 y D8.

                     Insistimos, los cuantiles de una muestra no son puntos en el
                     plano, son valores numéricos; además los cuantiles no tienen
                     que necesariamente ser valores que pertenezcan a la muestra.

                     Téngase en cuenta que la ojiva es una función creciente en X, en
                     realidad monótona creciente, y por tanto cuando se la utiliza
                     para estimar cuantiles, éstos quedan determinados
                     unívocamente.


1.6.2.- Diagrama de caja

                     Un subproducto de la ojiva una vez que se han determinado los
                     cuartiles muestrales, es el denominado Diagrama de Caja,
                     esquema gráfico que nos permite obtener de manera rápida,
                     aunque no necesariamente exacta, la distribución de los datos
                     que conforman la muestra. Véase la Figura 1.10



18
ESTADÍSTICA
                                                                                                G. Zurita
                                                               Fundamentos y Aplicaciones

                      Figura 1.10
Diagrama de Caja
Esquema gráfico que   Diagrama de Caja
nos permite obtener                              Q1   Q2          Q3
de manera rápida,                  •             •    •           •                 X
aunque no
necesariamente
precisa, la             1   X(1)                                                    X(n)
distribución de los
datos que conforman
muestra                     0.00         10.00         20.00           30.00       40.00




                      Si bien este diagrama comúnmente se lo “adosa” a una ojiva, es
                      posible presentarlo aislado, tal cual se lo hace en la Figura 1.10,
                      siempre que se tengan los valores correspondientes a Q1 , Q2 y
                      Q3, así como los valores máximo y mínimo en la muestra, esto
                      es X(n) y X(1).

                      En la Figura 1.10 se presenta un Diagrama de Caja; como
                      puede verse está constituido por un rectángulo (caja) y dos
                      segmentos de recta (bigotes).

                      La longitud de la caja es Q3 – Q1; el bigote del lado izquierdo
                      del lector se inicia en el valor mínimo X(1) y termina en Q1,
                      mientras que el bigote del lado derecho comienza en Q3 y
                      termina en X(n).

                      El segmento de recta punteado, al interior de la caja, determina
                      el valor de la Mediana o Segundo cuartil Q2.

                      En la presencia de Valores Extremos o Valores Aberrantes,
                      se debe reconceptualizar la construcción del Diagrama de Caja,
                      y en particular la longitud de los bigotes. Sobre este tema
                      volveremos en próximas secciones.



1.7.- ALGORITMOS PARA EL CÁLCULO DE CUANTILES

                      Dada una muestra XT= (X1 X2... Xn) de tamaño n, el valor
                      mínimo X(1) (o cualquier estadístico de orden i) puede ser
                      también visto como un cuantil, puesto que la proporción p =1/n
                      de los datos observados son menores o iguales a X(1).
                      Recuérdese que de igual manera podemos decir que el (1/n)100
                      por ciento de los elementos de la muestra son menores o iguales
                      a X(1) . Puede ocurrir eso sí, que el valor (1/n)100 =100/n no sea
                      un número entero y nos enfrentaríamos a un cuantil de tipo aun
                      no definido, particular que trataremos de superar en esta
                      sección.

                      Consideremos dos estadísticos de orden que sean consecutivos,
                      llamémoslos X(i) y X(i+1); i = 1,2,…,n-1 si definimos el


                                                                                           19
ESTADÍSTICA
                                                                                   G. Zurita
                                                 Fundamentos y Aplicaciones

     promedio X(i) y X(i+1) , esto será denotado como X(i.5)                   y
     explícitamente:

               X(i.5) = ( X(i)+ X(i+1))/2 = X(i) +( X(i+1)- X(i))/2 ;

                        = X(i) + 0.50( X(i+1) - X(i)) ; i = 1,2,…,n-1

     De manera similar podemos definir:

               X(i.2 ) = X(i) + 0.20( X(i+1) - X(i)); i = 1,2,…,n-1.

            X(i.4) = X(i) + 0.40( X(i+1) - X(i)); i = 1,2,…,n-1. ; ó,

               X(i.95) = X(i) + 0.95( X(i+1) - X(i)); i = 1,2,…,n-1.

     Podríamos, en general, definir X(i.a), de la siguiente manera:

       X(i.a) = X(i) + 0.a( X(i+1) - X(i)); i = 1,2,…,n-1 , a real positivo.

     No intentamos darles nombres específicos a estos estadísticos de
     orden, pero su significado es aparentemente obvio.

     Ejemplo 1.6

         Supongamos que una muestra de tamaño n=5 es

                                XT = (2 3 8 7 4).

         Aquí la muestra nos permite determinar que, X(1) = 2; X(2) = 3;
         X(3 )= 4; X(4) = 7, y que X(5) = 8.

         El estadístico de orden m es X(m) = X(n+1)/2, donde definimos
         m como igual a (n + 1)/2; en este caso m es (5+1)/2=3; por
         tanto X(m) es X(3) =4 , que en este caso (n es un número
         impar) es el segundo Cuartil Muestral Q(2) o también conocido
         como Mediana de la Muestra.

         Alteremos un poco la muestra previamente analizada y
         supongamos que ella ahora es XT = (2 3 8 5 7 9) y
         nuevamente intentemos calcular X(m).

         Tenemos en la nueva muestra X(1 )= 2; X(2) = 3; X(3) = 5; X(4)
         = 7, X(5 )= 8 y X(6) = 9.

         Siendo ahora n=6, m ya no es un número entero sino que es
         igual a 3.5. Para calcular Q2 debemos determinar por tanto
         X(3.5) , que es el valor que le corresponde a Q(2) Procedamos,
         primero de la manera tradicional y luego aplicando la
         definición de X(i.a) :

                        Q2 = (X(4)+ X(3))/2 = 0.5( 7+5)=6.

         De igual manera


20
ESTADÍSTICA
                                                                            G. Zurita
                                              Fundamentos y Aplicaciones

    Q(2) = X(3.5) = X(3) + 0.5( X(4) - X(3)) = 5 + 0.5( 7-5) = 6   ♦


En el caso de la primera muestra su mediana es 3 y a su vez es
válido decir que la mediana muestral es un valor que pertenece
a la muestra, en el segundo caso la mediana es 6 y este valor, no
pertenece a la muestra. En el primer caso el tamaño n de la
muestra es impar y en el segundo es par.

Así como hemos calculado el segundo cuartil de la muestra,
puede calcularse el primero Q1 o el tercero Q3 haciendo m =
0.25(n+1) ó m = 0.75(n+1) respectivamente, sin importar si el
tamaño es par o impar.

Siguiendo este patrón se puede determinar los percentiles
muestrales que definiéramos previamente y que pasamos a
ilustrar a continuación.

Se aconseja nunca perder el sentido de la realidad.

Ejemplo 1.7

  En un laboratorio de Química Analítica se determina el número
  de partes por millón de un metal pesado que se encuentra
  disuelto en las aguas de un río del litoral ecuatoriano. Luego de
  efectuar veinte observaciones se obtiene una muestra que es la
  siguiente.

     XT = ( 7 12 10 3 4 7 3 9 6 9 2 4 6 4 4 9 7 4 7 11)

  Para esta muestra determinar el primer Decil, el Primer Cuartil,
  Tercer Cuartil, la mediana y el percentil noventa y cinco
  (nonagésimo quinto).

  Desarrollo.

  Muestra ordenada

        2 3 3 4 4 4 4 4 6 6 7 7 7 7 9 9 9 10 11 12


  Sea m = 0.1(n+1) = 0.1(21) = 2.1

  D(1) = X(2,1) = X(2) + 0.1(X(3) - X(2))
               = 3 + 0.1(3 - 3)
               = 3

  Sea m = 0.25(n+1) = 0.25(21) = 5.25

  Q(1) = X(5,25) = X(5) + 0.25(X(6) - X(5))
                 = 4 + 0.25(4 - 4)
                 = 4

  Sea m = 0.75(n+1) = 0.75(21) = 15.75

                                                                       21
ESTADÍSTICA
                                                                                                      G. Zurita
                                                                         Fundamentos y Aplicaciones


                           Q(3) = X(15,75) = X(15) + 0.75(X(16) - X(15))
                                           = 9 + 0.75(9 - 9)
                                           = 9

                           Sea m = 0.5(n+1) = 0.5(21) = 10.5

                           Mediana = Q(2)

                           Q(2) = X(10,5) = X(10) + 0.5(X(11) - X(10))
                                          = 6 + 0.5(7 - 6)
                                          = 6.5

                           Sea m = 0.95(n+1) = 0.95(21) = 19.95

                           P(95) = X(19,95) = X(19) + 0.95(X(20) - X(19))
                                           = 11 + 0.95(12 - 11)
                                           = 11.95                          ♦




1.8.- MEDIDAS DE TENDENCIA CENTRAL Y DISPERSIÓN


1.8.1.- La media aritmética y otras medidas de Tendencia Central

                         Las tablas de frecuencias y los gráficos y diagramas que hasta
                         ahora hemos construido, nos han dado una representación visual
                         de lo que es la información contenida en una muestra y los
                         cuantiles alguna información cuantitativa de la misma, sin
                         embargo, aun no hemos puesto suficiente énfasis en el análisis
                         cuantitativo de la información contenida en los n datos
                         muestrales. Comencemos por buscar un valor numérico que
                         pudiera sintetizar o representar todos los datos, estamos
                         hablando de la Tendencia Central o de la Medida de Posición
                         de los mismos.

                         El primero y mas utilizado por su facilidad para calcularlo y
Media Aritmética         “por la noción intuitiva ” del mismo es lo que se denomina
Promedio de los n
datos contenidos en la   Media Aritmética de la Muestra, se lo denota x y se lo
muestra                  define como el promedio de los n datos contenidos en la misma,
                         esto es:
                                                                              n
                                            x = (X1 + X2 + ... +Xn)/n =     ∑X / n
                                                                             i =1
                                                                                    i
Mediana (Q2)
Valor de X tal que
cuando mas el            También es una medida de posición o tendencia central el
cincuenta por ciento     Segundo Cuartil Q2 o Mediana Muestral, que ya hemos
de las observaciones
en la muestra toman      presentado, de manera informal cuando construíamos la Ojiva
un valor menor o         Muestral; y, de manera formal cuando presentamos la forma de
igual a él               calcular percentiles utilizando estadísticos de orden.


22
ESTADÍSTICA
                                                                                              G. Zurita
                                                                Fundamentos y Aplicaciones

                      Dijimos que Q2 es también el percentil cincuenta y por tanto,
                      cuando mas el cincuenta por ciento de las observaciones toman
                      un valor menor o igual a él. También dijimos que Q2 es el
                      estadístico de orden m, siendo m=(n + 1)/2, donde como
                      siempre en el contexto de esta capítulo, n es el tamaño de la
                      muestra en consideración. Esto significa que

                                                Q2 = X([n + 1]/2)

                      Hay quienes hacen análisis exploratorio de datos y prefieren
                      definir la mediana muestral, considerando si el tamaño de la
                      muestra es par o impar, en cuyo caso señalan que la mediana Q2
                      es el promedio de los estadísticos de orden X(n/2) y X([n/2]+1) si n
                      es par; y, que es igual a X([n +1]/2) si n es impar. Nótese que las
                      definiciones son equivalentes, cuando hemos definido
                      estadísticos de “orden racional positivo” como X(i.5) y no solo
                      de orden entero positivo como X(i).

                      Sobra decir que estamos hablando de una muestra ordenada,
                      caso contrario no estaríamos en capacidad de determinar
                      estadísticos de orden.

                      Otra medida de tendencia central con alta frecuencia utilizada es
                      la Media Ponderada de la Muestra, la denotaremos por Mw.
Media Ponderada
Sumatoria de cada
                      Cuando calculamos la media aritmética, cada observación Xi
observación Xi        tiene igual “peso” o ponderación, en el procedimiento que se
multiplicada por su   utiliza para determinarla; lo contrario ocurre para determinar
peso o ponderación    esta nueva medida de posición que pretendemos introducir, para
correspondiente wi    calcularla, cada observación tiene un peso wi, condicionado a
                      que la suma de los n pesos sumen uno. Definimos de esta
                      manera a la Media Ponderada Mw de la muestra de la siguiente
                      manera:
                                                                     n
                          Mw = w1X1 + w2X2 + … + wnXn. =            ∑ w X ; i=1,2,…,n;
                                                                    i =1
                                                                           i i


                                                   n

                                                  ∑w
                                                  i =1
                                                         i =1



                      Los casos de utilización de esta medida de posición son
                      abundantes, los vive por ejemplo, un estudiante cuando al
                      iniciar el semestre su profesor le indica como va a ser calculada
                      su nota, sobre cien puntos, del curso que toma. Si le dice que
                      obtendrá cinco por ciento por tareas realizadas fuera de clase,
                      veinticinco por ciento por lecciones rendidas en clase y el resto
                      por un examen; esto significa que su nota es una media
                      ponderada de tres notas sobre cien , donde w1=.05; w2 =.25 ; y,
                      w3=.70 . En tanto que X1 es la nota que sobre cien obtenga por
                      “tareas”; X2 es lo que obtendría, sobre cien, por lecciones; y, X3
                      es su nota del examen, también sobre cien.


                                                                                         23
ESTADÍSTICA
                                                                                        G. Zurita
                                                          Fundamentos y Aplicaciones

                    Por tanto su nota ponderada, Mw es:

                                       Mw = w1X1 + w2X2 +w3X3

                    Nótese que en principio, la media aritmética es una media
                    ponderada, solo que los ponderadores toman el mismo valor,
                    esto es:
                                                              1
                                        w1 = w2 = ... = wn = n


1.8.2.- La media y la mediana de una misma muestra

                    Es evidente que si se toman datos en una investigación es para
                    que sean aprovechados lo mas posible; como medida de
                    tendencia central la media aritmética utiliza cada una de las
                    observaciones en la muestra, en tanto que la mediana utiliza
                    cuando mas dos de ellas, claro está que de una muestra
                    ordenada.

                    Puede por tanto decirse que para la determinación de la media
                    aritmética se utilizan todos los datos contenidos en la muestra,
                    sea esta ordenada o no, en tanto que para calcular la mediana,
                    no se lo hace; esto permite a muchos pensar que debe preferirse
                    siempre la media aritmética a la mediana, pero no es tanto así,
                    puesto que en presencia de valores extremos o aberrantes, el
                    efecto de éstos sobre la mediana es imperceptible en tanto que el
                    valor de la media aritmética se ve afectado de manera notoria,
                    pudiendo en el último caso, no ser la media aritmética muestral
                    una buena medida de lo que es la verdadera tendencia central
                    que se trata de determinar.
                    Recuérdese que los valores aberrantes ocurren por múltiples
                    razones, unas indeseables y otras inevitables. Entre los
                    indeseables aparecen los errores de lecturas que se dan en el
                    operativo de campo o en el laboratorio durante investigación,
                    donde, por ejemplo, se apunta una estatura de 2.45 metros para
                    una unidad de investigación, cuando se debió apuntar 1.45; o,
                    en la digitación, donde en el reporte de campo aparece 1.45,
                    pero al digitar se lo ingresa como 2.45. Estos errores no
                    estadísticos o “ajenos al muestreo” se los debe detectar en una
                    de las etapas de una encuesta o experimento, que se denomina
                    “Crítica de Datos” la misma que se efectúa antes y después de
                    la digitación. Antes, para tener la oportunidad de volver al
                    laboratorio y verificar cualquier valor que se salga del patrón
                    que muestren los datos; y, después de la digitación porque no
                    siempre “el dedo humano” ingresa lo que corresponde o porque
                    el lector óptico puede,        por mala caligrafía o efectos
                    ambientales, interpretar una cantidad por otra.




24
ESTADÍSTICA
                                                                                                G. Zurita
                                                                   Fundamentos y Aplicaciones

1.8.3.- La Media Cortada de una muestra

Media Cortada de la
                       Un remedio que se ha sugerido para obviar la sensibilidad de la
Muestra                Media Aritmética a los datos aberrantes y al mismo tiempo
Media aritmética del   poder utilizar la mayor cantidad de datos contenidos en la
(1-α)100% por ciento   muestra, es la construcción de otra medida de tendencia central
de los datos           a la que se denomina Media Cortada de la Muestra; se la
                       denota por Tα y se la define como la media aritmética del (1-
                       α).100 por ciento de los datos, suprimiendo, en una muestra
                                    α                                                α
                       ordenada, 2 100% de datos de la “parte superior” y 2 100% de
                       la “parte inferior” en la muestra. Este “recorte” supone que los
                       valores extremos, si existen, no serán considerados en el cálculo
                       de Tα.

                       Aunque con una muestra restringida, se aspira que la Media
                       Cortada disfrute simultáneamente de las “virtudes” de la Media
                       Aritmética y la Mediana, esto es, utilización máxima de los
                       datos disponibles e insensibilidad a valores extremos. Lo usual
                       es tomar α = 0.10 es decir, se calcula T.10.

                       Ejemplo 1.8

                         En el Ejemplo 1.7 se consideró la siguiente muestra,

                           XT = ( 7 12 10 3 4 7 3 9 6 9 2 4 6 4 4 9 7 4 7 11)

                         Calcular la media aritmética, la mediana y la media cortada
                         T.10.

                         Desarrollo.
                                                                        20
                                        x = (X1 + X2 + ... +X20)/20 =   ∑ X / 20
                                                                        i =1
                                                                               i


                          = (7+12+10+3+4+7+3+9+6+9+2+4+6+4+4+9+7+4+7+11)/20
                                                =6.40

                         Ordenando la muestra, ésta queda compuesta por:

                            2 3 3 4 4 4 4 4 6 6 7 7 7 7 9 9 9 10 11 12

                         Esto es:

                                X(1 )= 2; X(2 )= 3; X(3) = 3;…; X(19) = 11; X(20) = 12;


                         Para calculara la media cortada X.10, debemos prescindir, en la
                         muestra original, de X(1) = 2 y de X(20) = 12, por lo que el
                         noventa por ciento restante de la muestra X es el vector,

                          YT= (3 3 4 4 4 4 4 6 6 7 7 7 7 9 9 9 10 11)



                                                                                           25
ESTADÍSTICA
                                                                                               G. Zurita
                                                                  Fundamentos y Aplicaciones

                       Resultando así que X.10 es:

                        X.10 = (3+3+4+4+4+4+4+6+6+7+7+7+7+9+9+9+10+11)/18 =
                                               6.3333

                       Calculando la mediana Q(2) = X(10.5) = X10 + 0.5(X(11) – X(10)) =
                       5.5. En síntesis, la media aritmética de la muestra es 6.40; la
                       media cortada X.10 es 6.33 y la mediana muestral es 5.5, de tal
                       manera, la moda de la muestra, que es el valor que mas se
                       repite es 4, pues aparece cinco veces en la muestra. ♦

                     En capítulos posteriores hablaremos de cómo evitamos,
                     determinando Tα , una posible “contaminación” de la muestra y
                     que el valor de Tα que lo que obtenemos es un “estimador
                     robusto” del “verdadero” parámetro µ que mide la tendencia
                     central de la población.


1.8.4.- Medidas de Dispersión

                     Tener la medida de lo que es la tendencia central es importante,
                     pero no basta; no podemos sorprendernos que dos muestras que
                     posean conformación numérica distinta tengan la misma media
                     aritmética pero represente, estadísticamente, muy diferentes
                     realidades. Veamos las cuatro siguientes muestras:

                                      X1T = (1 2 3); X2T = (-5 2 9);

                                X3T = (-10 -3 0 2 3 20); X4T = (0 2 4)

                     Ellas poseen algo en común, las cuatro tienen la misma media
                     aritmética, que es dos, pero difieren en su conformación
                     numérica; nótese que incluso la tercera tiene un tamaño, seis,
                     que es distinto al que tienen las demás, que es tres.

                     El mensaje aquí parecería ser: una medida de tendencia central
                     es relevante pero, no lo dice todo; en realidad falta algo mas.

                     Vamos a observar la distancia desde cada uno de los valores Xi
                     en la muestra a la media aritmética x , esto es,

                                             d(Xi ,   x)   =⎟ Xi - x ⎟

                     Recordando que en todos los casos del ejemplo bajo análisis las
                     muestras tienen media aritmética igual 2, tenemos para la
                     primera muestra: d(1,2) = 1 ; d(2,2) = 0 y d(3,2) = 1.

                     Para la segunda muestra d(-5,2) = 7 ; d(2,2) = 0 y d(9,2) = 7.

                     Para la tercera muestra d(-10,2) = 12 ; d(-3,2) = 5 ; d(0,2) = 2;
                     d(2,2) =0 ; d(3,2) =1 y d(20,2) = 18.

26
ESTADÍSTICA
                                                                        G. Zurita
                                           Fundamentos y Aplicaciones


Para la cuarta muestra d(0,2) = 2 ; d(2,2) = 0 y d(4,2) = 2.

Si sumásemos las distancias de la media aritmética a cada
observación obtendríamos una medida de cuan “lejos” o
dispersos se encuentran cada uno de los datos muestrales con
respecto a la media.

Para el primer caso tal suma de distancias es 2; para el segundo
14; para el tercero 38, y para el último 4. Véase Figura 1.11 que
ilustra de manera gráfica lo que de manera numérica hemos
determinado.

Figura 1.11
Cuatro Rectas representando cuatro Muestras señalando las
Distancias
   X1

                       0   1   2   3

   X2


            -5         0       2            9
   X3


                 -3    0       2   3                               20

   X4

                       0       2       4




Puede creerse que el número de observaciones en la tercera
muestra obligó a que la suma de las distancias sea mayor, pero
aunque es necesario reconocer que el número de observaciones
puede influir en la medida de la dispersión de una muestra,
piénsese en una muestra en la que todas las observaciones
tomen el mismo valor, sin importar el tamaño de la muestra,
siempre la suma de las distancias que hemos definido será cero.
Nótese que esta suma de distancias bajo ninguna circunstancia
puede ser negativa, pues se trata de sumas de distancias
“euclideanas” que como tal están definidas en términos de
valores absolutos de números reales.

Con esta idea de dispersión con respecto a la media aritmética
que hemos desarrollado en líneas previas, trataremos de
construir de una manera explícita, una o varias medidas para
cuantificar esta característica implícita en toda muestra.

En primer lugar la dispersión es un valor relacionado o relativo
a otro valor, pero este último no tiene necesariamente que ser
la media aritmética, puede ser algún otro pero tiene sus ventajas
que sea la media o al menos un valor que mida la tendencia
central de la muestra.



                                                                   27
ESTADÍSTICA
                                                                                        G. Zurita
                                                           Fundamentos y Aplicaciones

     Ejemplo 1.9

        Dada una muestra XT = (X1 X2 … Xn), determinar la media y
        la varianza de una muestra y que consiste de las n
        observaciones cuantitativas de la muestra X a las que se les
        resta su media aritmética.

        Desarrollo.

        Para el caso dado,

        YT = [ (X1 - x ) (X2 - x ) … (Xn - x ) ]
          = (Y1 Y2 … Yn)

        Por lo que,
                                 n

              ∑ Y / n = ∑ (X i − x ) / n
                n
         y=            i
              i =1              i =1

          = 1 [ (X1 - x ) + (X2 - x ) + … + (Xn - x )
            n
          = 1 [ (X1 + X2 + … + Xn) - n x )
            n
          = 1 [nx -nx]=0
            n

        Por lo tanto, si Yi = Xi - x , i = 1, 2, …, n, entonces:

         y =0

        Como ilustración numérica,

        Si XT = (1 2 3 4), entonces x =2.5
        Si Yi = Xi - x , esto es YT = (-1.5 -0.5 0.5 1.5)
        Por lo que Y = 0                 ♦



     Lo primero que se nos ocurriría para medir la dispersión sería
                                        n
     una expresión del tipo            ∑ (X − x )
                                       i =1
                                              i      , pero existe un inconveniente;

     no importa cuál sea la muestra, como ya hemos visto, siempre
     es cierto que,

                      n

                     ∑ ( X − x ) = (X - x )
                     i =1
                            i          1          + (X2 - x ) + ... + (Xn- x )

                                 = ΣXi - n x = n x - n x = 0

     Por lo tanto éste es un resultado muy relevante, sobre todo para
     simplificar cálculos, pero no lo es para medir dispersión.




28
ESTADÍSTICA
                                                                                                                G. Zurita
                                                                                   Fundamentos y Aplicaciones

Varianza Muestral         Ésta es la razón fundamental por la que para estos fines se usan
Medida de Dispersión                                           n
de una variable X con
respecto a la media
                          sumas cuadráticas del tipo          ∑ (X − x) 2; y, la primera medida de
                                                              i =1
                                                                          i


                          dispersión con respecto a la media que utilizaremos será la
                          Varianza Muestral s2 que se la define como:


                                                        n
                                                s2 =   ∑ (X − x )
                                                       i =1
                                                                   i
                                                                              2
                                                                                  /( n –1)



                          Este valor no puede ser negativo y será cero cuando y solo
                          cuando, todas las observaciones adopten el mismo valor, lo cual
                          significa que la media es igual a tal valor y cada una de las
                          diferencias que constituyen la suma cuadrática son cero.
                          La medida de dispersión así definida no viene dada en las
                          mismas unidades que los valores observados, sino en unidades
                          cuadráticas, es decir, que si medimos cantidad de precipitación
Desviación Estándar
Raíz cuadrada             pluvial en centímetros cúbicos, la            varianza estará en
positiva de la varianza   centímetros cúbicos al cuadrado. Por esta razón es común
                          utilizar la raíz cuadrada positiva de la varianza; medida a la que
                          llamamos desviación estándar o desviación típica de la
                          muestra. Se la denota por s y se la define como ya indicáramos,
                          igual a la raíz cuadrada positiva de la varianza,


                                                                       (X i − x ) 2
                                                       s=     +
                                                                         n −1




                          Una pregunta que surge inmediatamente después que se repara
                          en cómo está definida la varianza muestral, es la presencia en el
                          denominador de (n-1) cuando nuestra intuición nos dice que
                          mas naturalmente “se ve” n, como es el caso de la Media
                          Aritmética. Una respuesta parcial es “podríamos haberlo
                          utilizado” y de hecho se lo utiliza, pero la respuesta con soporte
                          teórico vendrá en capítulos posteriores, cuando estudiemos
                          “estimación de parámetros poblacionales”, mientras tanto
                          utilizaremos axiomáticamente (n-1) en el denominador de la
                          definición de la varianza muestral.

                          Ejemplo 1.10

                           Considérese la muestra previamente estudiada,

                              XT = ( 7 12 10 3 4 7 3 9 6 9 2 4 6 4 4 9 7 4 7 11)

                           Calcúlese su varianza y desviación típica.

                           Desarrollo.


                                                                                                           29
ESTADÍSTICA
                                                                                                              G. Zurita
                                                                                 Fundamentos y Aplicaciones


                      Siendo n = 20 hemos encontrado que x = 6.40 por lo tanto:

                                                        n
                                            s2 =       ∑ (X − x )
                                                       i =1
                                                                   i
                                                                            2
                                                                             /( n –1)


                      s2 = [(2 - 6.40)2 + (3 - 6.40)2 + … + (11 - 6.40)2 + (12 - 6.40)2]/19

                                                            s2 = 8.36

                      De donde la desviación típica de la muestra es:

                                                                       (Xi − x ) 2
                                                 s= +
                                                                         n −1


                                             s = + 8.36 = 2.89 ♦



1.8.5.- Media y Varianza de datos agrupados

                    No siempre es obvio para quien comienza a adentrarse en el
                    quehacer estadístico, cómo calcular la Media Aritmética o la
                    Varianza de datos agrupados; aunque en realidad explicando la
                    lógica tras del algoritmo todo parece sencillo.

                    Recordemos que la agrupación de datos se da en k clases y que
                    cada clase tiene una marca de clase. Llamemos Yi a la i-ésima
                    marca de clase y supongamos que fi es la frecuencia absoluta de
                    esa clase. Esto hace que la Media Aritmética X de los datos
                    agrupados sea igual a:
                                                               k
                                                  x =         ∑
                                                              i =1
                                                                          fi Yi / n


                    En tanto que la varianza de los datos agrupados es igual a:

                                                 k
                                         s2 =   ∑
                                                i =1
                                                            fi (Yi - x )2 / (n –1)


                    Nótese que las sumatorias tienen k términos y no n.

                    Ejemplo 1.11

                      Durante cinco horas se efectúa un conteo de vehículos en una
                      calle que corre de norte a sur en Guayaquil. Se reportan datos
                      cada cinco minutos. En la primera columna de la tabla adjunta
                      consta la frecuencia con que ocurren valores en cada una de las
                      clases que se definen en la segunda columna. Cinco veces
                      “pasaron” entre cinco y quince vehículos; ocho veces entre
                      quince y veinticinco, y así hasta que cinco veces pasaron entre
                                                                                 2
                      sesenta y cinco y setenta y cinco vehículos. Calcular x y s .

30
ESTADÍSTICA
                                                                                                               G. Zurita
                                                                            Fundamentos y Aplicaciones



                      Figura 1.12
                      Tabla de Datos

                                       Frecuencia                                Marca de
                                                               Clase
                                        Absoluta                                  Clase
                                            5                  [5,15)              10
                                            8                 [15,25)              20
                                           10                 [25,35)              30
                                           15                 [35,45)              40
                                            10                [45,55)                50
                                             7                [55,65)                60
                                             5                [65,75)                70


                      Desarrollo.

                      Este es un caso de datos agrupados, n = 60 y k = 7

                       X= número de vehículos que “pasan” cada cinco minutos

                      Las correspondientes marcas de clase son: 10, 20, 30, 40,
                      50, 60, 70.

                      Por tanto:
                              k
                      x =   ∑i =1
                                     fi Yi / n , donde Yi son las ocho marcas de clase, no

                      las sesenta observaciones.

                           5(10) + 8( 20) + 10(30) + 15( 40) + 10(50) + 7(60) + 5(70)
                      x=                                                              = 39.67
                                                       60

                      Calculando la varianza de estos datos agrupados.

                                    5(10 − 39.67) 2 + 8(20 − 39.67) 2 + ... + 5(70 − 39.67) 2
                            s2 =                                                              = 288.023
                                                            60 − 1

                      Mientras que la desviación estándar S de los datos agrupados es:

                                                 s = + 288.023 = 16.97             ♦


1.8.6.- Media y Varianza de funciones de X

                     Supóngase que dada una muestra X de tamaño n en la que se
                     investiga una característica X, definimos Yi = αXi + β. Donde
                     α y β son constantes reales y el subíndice i varía de 1 hasta n.
                     Pretendemos encontrar el valor de la media y la varianza de
                     Y=αX + β.



                                                                                                          31
Introducción a la Estadística Descriptiva
Introducción a la Estadística Descriptiva
Introducción a la Estadística Descriptiva
Introducción a la Estadística Descriptiva
Introducción a la Estadística Descriptiva
Introducción a la Estadística Descriptiva
Introducción a la Estadística Descriptiva
Introducción a la Estadística Descriptiva
Introducción a la Estadística Descriptiva
Introducción a la Estadística Descriptiva
Introducción a la Estadística Descriptiva
Introducción a la Estadística Descriptiva
Introducción a la Estadística Descriptiva
Introducción a la Estadística Descriptiva
Introducción a la Estadística Descriptiva
Introducción a la Estadística Descriptiva
Introducción a la Estadística Descriptiva
Introducción a la Estadística Descriptiva
Introducción a la Estadística Descriptiva
Introducción a la Estadística Descriptiva
Introducción a la Estadística Descriptiva
Introducción a la Estadística Descriptiva
Introducción a la Estadística Descriptiva

Weitere ähnliche Inhalte

Was ist angesagt?

Medidas De Resumen
Medidas De ResumenMedidas De Resumen
Medidas De Resumennekochocolat
 
Estadística, gráficos, tablas y estadígrafos.
Estadística, gráficos, tablas y estadígrafos.Estadística, gráficos, tablas y estadígrafos.
Estadística, gráficos, tablas y estadígrafos.Julia Bravo Gómez.
 
Conceptos Básicos de la Estadística
Conceptos Básicos de la EstadísticaConceptos Básicos de la Estadística
Conceptos Básicos de la Estadísticahectorquintero
 
Estadistica parametrica y no parametrica
Estadistica parametrica y no parametricaEstadistica parametrica y no parametrica
Estadistica parametrica y no parametricajimialaponte
 
Tabla de frecuencia. estadistica
Tabla de frecuencia. estadisticaTabla de frecuencia. estadistica
Tabla de frecuencia. estadisticaSofiaGallardo24
 
Analisis e interpretación de datos estadisticos
Analisis e interpretación de datos estadisticosAnalisis e interpretación de datos estadisticos
Analisis e interpretación de datos estadisticosRomina Gallegos Ormeño
 
Coeficiente de Correlación de Pearson y Spearman
Coeficiente de Correlación de Pearson y SpearmanCoeficiente de Correlación de Pearson y Spearman
Coeficiente de Correlación de Pearson y Spearmanenrique beltran
 
Datos cuantitativos no agrupados
Datos cuantitativos no agrupadosDatos cuantitativos no agrupados
Datos cuantitativos no agrupadosALANIS
 
Estadística inferencial, conceptos basicos
Estadística inferencial, conceptos basicosEstadística inferencial, conceptos basicos
Estadística inferencial, conceptos basicosCristina Rios
 
Propiedades de los estimadores puntuales (2)
Propiedades de los estimadores puntuales (2)Propiedades de los estimadores puntuales (2)
Propiedades de los estimadores puntuales (2)Luz Hernández
 
analisis de datos cuantitativos segunda parte (spss).ppt1x
analisis de datos cuantitativos segunda parte (spss).ppt1xanalisis de datos cuantitativos segunda parte (spss).ppt1x
analisis de datos cuantitativos segunda parte (spss).ppt1xHerbert Cosio Dueñas
 
Muestreo técnicas de recolección
Muestreo técnicas de recolecciónMuestreo técnicas de recolección
Muestreo técnicas de recolecciónAlejandra Camors
 
Graficos Estadisticos y Análisis de la Información
Graficos Estadisticos y Análisis de la InformaciónGraficos Estadisticos y Análisis de la Información
Graficos Estadisticos y Análisis de la Informacióneradio2508
 
poblacion y muestra
poblacion y muestrapoblacion y muestra
poblacion y muestraglorikarin
 
Presentacion estadistica descriptiva
Presentacion estadistica descriptivaPresentacion estadistica descriptiva
Presentacion estadistica descriptivabetis081281
 
Pruebas estadisticas
Pruebas estadisticasPruebas estadisticas
Pruebas estadisticaslady
 

Was ist angesagt? (20)

Medidas De Resumen
Medidas De ResumenMedidas De Resumen
Medidas De Resumen
 
Estadistica clase1
Estadistica clase1 Estadistica clase1
Estadistica clase1
 
Estadística, gráficos, tablas y estadígrafos.
Estadística, gráficos, tablas y estadígrafos.Estadística, gráficos, tablas y estadígrafos.
Estadística, gráficos, tablas y estadígrafos.
 
Desviación estándar (ds)
Desviación estándar (ds)Desviación estándar (ds)
Desviación estándar (ds)
 
Conceptos Básicos de la Estadística
Conceptos Básicos de la EstadísticaConceptos Básicos de la Estadística
Conceptos Básicos de la Estadística
 
Estadistica parametrica y no parametrica
Estadistica parametrica y no parametricaEstadistica parametrica y no parametrica
Estadistica parametrica y no parametrica
 
Tabla de frecuencia. estadistica
Tabla de frecuencia. estadisticaTabla de frecuencia. estadistica
Tabla de frecuencia. estadistica
 
Clase 02. analisis descriptivo
Clase 02. analisis descriptivoClase 02. analisis descriptivo
Clase 02. analisis descriptivo
 
Analisis e interpretación de datos estadisticos
Analisis e interpretación de datos estadisticosAnalisis e interpretación de datos estadisticos
Analisis e interpretación de datos estadisticos
 
Coeficiente de Correlación de Pearson y Spearman
Coeficiente de Correlación de Pearson y SpearmanCoeficiente de Correlación de Pearson y Spearman
Coeficiente de Correlación de Pearson y Spearman
 
Datos cuantitativos no agrupados
Datos cuantitativos no agrupadosDatos cuantitativos no agrupados
Datos cuantitativos no agrupados
 
Estadística inferencial, conceptos basicos
Estadística inferencial, conceptos basicosEstadística inferencial, conceptos basicos
Estadística inferencial, conceptos basicos
 
Medidas de tendencia central
Medidas de tendencia centralMedidas de tendencia central
Medidas de tendencia central
 
Propiedades de los estimadores puntuales (2)
Propiedades de los estimadores puntuales (2)Propiedades de los estimadores puntuales (2)
Propiedades de los estimadores puntuales (2)
 
analisis de datos cuantitativos segunda parte (spss).ppt1x
analisis de datos cuantitativos segunda parte (spss).ppt1xanalisis de datos cuantitativos segunda parte (spss).ppt1x
analisis de datos cuantitativos segunda parte (spss).ppt1x
 
Muestreo técnicas de recolección
Muestreo técnicas de recolecciónMuestreo técnicas de recolección
Muestreo técnicas de recolección
 
Graficos Estadisticos y Análisis de la Información
Graficos Estadisticos y Análisis de la InformaciónGraficos Estadisticos y Análisis de la Información
Graficos Estadisticos y Análisis de la Información
 
poblacion y muestra
poblacion y muestrapoblacion y muestra
poblacion y muestra
 
Presentacion estadistica descriptiva
Presentacion estadistica descriptivaPresentacion estadistica descriptiva
Presentacion estadistica descriptiva
 
Pruebas estadisticas
Pruebas estadisticasPruebas estadisticas
Pruebas estadisticas
 

Andere mochten auch

Tratamiento de los datos
Tratamiento de los datosTratamiento de los datos
Tratamiento de los datosgonzaloplaza
 
Conclusiones y recomendaciones
Conclusiones y recomendacionesConclusiones y recomendaciones
Conclusiones y recomendacionesraulmperu
 
METODOLOGIA DE LA INVESTIGACION
METODOLOGIA DE LA INVESTIGACIONMETODOLOGIA DE LA INVESTIGACION
METODOLOGIA DE LA INVESTIGACIONmaxgarro
 
Análisis, conclusiones y recomendaciones
Análisis, conclusiones y recomendacionesAnálisis, conclusiones y recomendaciones
Análisis, conclusiones y recomendacionesZuli Vivnes
 
Variables dependientes e independientes en el método científico
Variables dependientes e independientes en el método científicoVariables dependientes e independientes en el método científico
Variables dependientes e independientes en el método científicoSofia Paz
 
Análisis e interpretación de los resultados
Análisis e interpretación de los resultadosAnálisis e interpretación de los resultados
Análisis e interpretación de los resultadosjorge
 

Andere mochten auch (9)

Teoria de la ciencia
Teoria de la cienciaTeoria de la ciencia
Teoria de la ciencia
 
Tratamiento de los datos
Tratamiento de los datosTratamiento de los datos
Tratamiento de los datos
 
Conclusiones y recomendaciones
Conclusiones y recomendacionesConclusiones y recomendaciones
Conclusiones y recomendaciones
 
METODOLOGIA DE LA INVESTIGACION
METODOLOGIA DE LA INVESTIGACIONMETODOLOGIA DE LA INVESTIGACION
METODOLOGIA DE LA INVESTIGACION
 
Análisis, conclusiones y recomendaciones
Análisis, conclusiones y recomendacionesAnálisis, conclusiones y recomendaciones
Análisis, conclusiones y recomendaciones
 
Tabulacion De Datos
Tabulacion De DatosTabulacion De Datos
Tabulacion De Datos
 
Análisis de Datos
Análisis de DatosAnálisis de Datos
Análisis de Datos
 
Variables dependientes e independientes en el método científico
Variables dependientes e independientes en el método científicoVariables dependientes e independientes en el método científico
Variables dependientes e independientes en el método científico
 
Análisis e interpretación de los resultados
Análisis e interpretación de los resultadosAnálisis e interpretación de los resultados
Análisis e interpretación de los resultados
 

Ähnlich wie Introducción a la Estadística Descriptiva

ESTADISTICA CALCULOS
ESTADISTICA CALCULOSESTADISTICA CALCULOS
ESTADISTICA CALCULOSxxxpaso
 
Copia de taller 2.pptx
Copia de taller 2.pptxCopia de taller 2.pptx
Copia de taller 2.pptxadeladelgado3
 
Teoria 1 y 2 Introducción Estadistica descriptiva Broma 2023.pptx
Teoria 1 y 2 Introducción Estadistica descriptiva Broma 2023.pptxTeoria 1 y 2 Introducción Estadistica descriptiva Broma 2023.pptx
Teoria 1 y 2 Introducción Estadistica descriptiva Broma 2023.pptxssuserafa633
 
Conc.Basicos Y Estad. Descriptiva_Unid 1.ppt
Conc.Basicos Y Estad. Descriptiva_Unid 1.pptConc.Basicos Y Estad. Descriptiva_Unid 1.ppt
Conc.Basicos Y Estad. Descriptiva_Unid 1.pptguido guzman perez
 
Modulo1 estadistica
Modulo1 estadisticaModulo1 estadistica
Modulo1 estadisticaangelito2883
 
Universo, población y muestra
Universo, población y muestraUniverso, población y muestra
Universo, población y muestraTomás Calderón
 
Estadística Medidas descriptivas de la distribución... 008
Estadística Medidas descriptivas de la distribución... 008Estadística Medidas descriptivas de la distribución... 008
Estadística Medidas descriptivas de la distribución... 008CESAR A. RUIZ C
 
Copia de DISEÑO METODOLÓGICO.pptx
Copia de DISEÑO METODOLÓGICO.pptxCopia de DISEÑO METODOLÓGICO.pptx
Copia de DISEÑO METODOLÓGICO.pptxKimberlyBarriosQuint
 
B.SEGUNDA SESIÓN.pptx
B.SEGUNDA SESIÓN.pptxB.SEGUNDA SESIÓN.pptx
B.SEGUNDA SESIÓN.pptxGeraVilla2
 
Organización de los datos
Organización de los datosOrganización de los datos
Organización de los datosRichard Torres
 

Ähnlich wie Introducción a la Estadística Descriptiva (20)

ESTADISTICA CALCULOS
ESTADISTICA CALCULOSESTADISTICA CALCULOS
ESTADISTICA CALCULOS
 
Lectura unidad 9
Lectura unidad 9Lectura unidad 9
Lectura unidad 9
 
Copia de taller 2.pptx
Copia de taller 2.pptxCopia de taller 2.pptx
Copia de taller 2.pptx
 
Econometria
EconometriaEconometria
Econometria
 
Teoria 1 y 2 Introducción Estadistica descriptiva Broma 2023.pptx
Teoria 1 y 2 Introducción Estadistica descriptiva Broma 2023.pptxTeoria 1 y 2 Introducción Estadistica descriptiva Broma 2023.pptx
Teoria 1 y 2 Introducción Estadistica descriptiva Broma 2023.pptx
 
Conc.Basicos Y Estad. Descriptiva_Unid 1.ppt
Conc.Basicos Y Estad. Descriptiva_Unid 1.pptConc.Basicos Y Estad. Descriptiva_Unid 1.ppt
Conc.Basicos Y Estad. Descriptiva_Unid 1.ppt
 
Modulo1 estadistica
Modulo1 estadisticaModulo1 estadistica
Modulo1 estadistica
 
Unidad I.pdf
Unidad I.pdfUnidad I.pdf
Unidad I.pdf
 
Estadistica trabajo 1 carlos marcano
Estadistica trabajo 1 carlos marcanoEstadistica trabajo 1 carlos marcano
Estadistica trabajo 1 carlos marcano
 
La estadistica
La estadisticaLa estadistica
La estadistica
 
Universo, población y muestra
Universo, población y muestraUniverso, población y muestra
Universo, población y muestra
 
Estadística Medidas descriptivas de la distribución... 008
Estadística Medidas descriptivas de la distribución... 008Estadística Medidas descriptivas de la distribución... 008
Estadística Medidas descriptivas de la distribución... 008
 
Copia de DISEÑO METODOLÓGICO.pptx
Copia de DISEÑO METODOLÓGICO.pptxCopia de DISEÑO METODOLÓGICO.pptx
Copia de DISEÑO METODOLÓGICO.pptx
 
Cuadro dalia
Cuadro daliaCuadro dalia
Cuadro dalia
 
B.SEGUNDA SESIÓN.pptx
B.SEGUNDA SESIÓN.pptxB.SEGUNDA SESIÓN.pptx
B.SEGUNDA SESIÓN.pptx
 
Estadistica descriptiva
Estadistica descriptivaEstadistica descriptiva
Estadistica descriptiva
 
Capitulo2 teoria de muestreo
Capitulo2 teoria de muestreoCapitulo2 teoria de muestreo
Capitulo2 teoria de muestreo
 
Estadistica descriptiva
Estadistica descriptivaEstadistica descriptiva
Estadistica descriptiva
 
Modulometodosestadisticos2011 110329231153-phpapp01
Modulometodosestadisticos2011 110329231153-phpapp01Modulometodosestadisticos2011 110329231153-phpapp01
Modulometodosestadisticos2011 110329231153-phpapp01
 
Organización de los datos
Organización de los datosOrganización de los datos
Organización de los datos
 

Mehr von Velmuz Buzz

Ecuaciones Diferenciales de 1er Orden
Ecuaciones Diferenciales de 1er OrdenEcuaciones Diferenciales de 1er Orden
Ecuaciones Diferenciales de 1er OrdenVelmuz Buzz
 
Lenguajes de Programacion
Lenguajes de ProgramacionLenguajes de Programacion
Lenguajes de ProgramacionVelmuz Buzz
 
Capa de Aplicacion
Capa de AplicacionCapa de Aplicacion
Capa de AplicacionVelmuz Buzz
 
Capa de Transporte
Capa de TransporteCapa de Transporte
Capa de TransporteVelmuz Buzz
 
Estructura Organizacional
Estructura OrganizacionalEstructura Organizacional
Estructura OrganizacionalVelmuz Buzz
 
Inteligencia artificial sistema experto
Inteligencia artificial sistema expertoInteligencia artificial sistema experto
Inteligencia artificial sistema expertoVelmuz Buzz
 
Electronica transistores
Electronica transistoresElectronica transistores
Electronica transistoresVelmuz Buzz
 
Electronica rectificadores
Electronica rectificadoresElectronica rectificadores
Electronica rectificadoresVelmuz Buzz
 
Electronica polarizacion
Electronica polarizacionElectronica polarizacion
Electronica polarizacionVelmuz Buzz
 
Electronica polarizacion tipo h
Electronica polarizacion tipo hElectronica polarizacion tipo h
Electronica polarizacion tipo hVelmuz Buzz
 
Electronica introduccion y repaso
Electronica introduccion y repasoElectronica introduccion y repaso
Electronica introduccion y repasoVelmuz Buzz
 
Electronica funcion de transferencia
Electronica funcion de transferenciaElectronica funcion de transferencia
Electronica funcion de transferenciaVelmuz Buzz
 
Electronica ejercicios
Electronica ejerciciosElectronica ejercicios
Electronica ejerciciosVelmuz Buzz
 
Electronica aplicaciones de diodos
Electronica aplicaciones de diodosElectronica aplicaciones de diodos
Electronica aplicaciones de diodosVelmuz Buzz
 
Electronica polarizacion del fet
Electronica  polarizacion del fetElectronica  polarizacion del fet
Electronica polarizacion del fetVelmuz Buzz
 
Electronica modelaje de transitores bipolares
Electronica  modelaje de transitores bipolaresElectronica  modelaje de transitores bipolares
Electronica modelaje de transitores bipolaresVelmuz Buzz
 
Electronica analisis a pequeña señal fet
Electronica  analisis a pequeña señal fetElectronica  analisis a pequeña señal fet
Electronica analisis a pequeña señal fetVelmuz Buzz
 

Mehr von Velmuz Buzz (20)

Ecuaciones Diferenciales de 1er Orden
Ecuaciones Diferenciales de 1er OrdenEcuaciones Diferenciales de 1er Orden
Ecuaciones Diferenciales de 1er Orden
 
Ruby
Ruby Ruby
Ruby
 
Lenguajes de Programacion
Lenguajes de ProgramacionLenguajes de Programacion
Lenguajes de Programacion
 
Capa de Aplicacion
Capa de AplicacionCapa de Aplicacion
Capa de Aplicacion
 
Capa de Transporte
Capa de TransporteCapa de Transporte
Capa de Transporte
 
Capa Red
Capa RedCapa Red
Capa Red
 
Capa Enlace
Capa Enlace Capa Enlace
Capa Enlace
 
Estructura Organizacional
Estructura OrganizacionalEstructura Organizacional
Estructura Organizacional
 
Inteligencia artificial sistema experto
Inteligencia artificial sistema expertoInteligencia artificial sistema experto
Inteligencia artificial sistema experto
 
Electronica transistores
Electronica transistoresElectronica transistores
Electronica transistores
 
Electronica rectificadores
Electronica rectificadoresElectronica rectificadores
Electronica rectificadores
 
Electronica polarizacion
Electronica polarizacionElectronica polarizacion
Electronica polarizacion
 
Electronica polarizacion tipo h
Electronica polarizacion tipo hElectronica polarizacion tipo h
Electronica polarizacion tipo h
 
Electronica introduccion y repaso
Electronica introduccion y repasoElectronica introduccion y repaso
Electronica introduccion y repaso
 
Electronica funcion de transferencia
Electronica funcion de transferenciaElectronica funcion de transferencia
Electronica funcion de transferencia
 
Electronica ejercicios
Electronica ejerciciosElectronica ejercicios
Electronica ejercicios
 
Electronica aplicaciones de diodos
Electronica aplicaciones de diodosElectronica aplicaciones de diodos
Electronica aplicaciones de diodos
 
Electronica polarizacion del fet
Electronica  polarizacion del fetElectronica  polarizacion del fet
Electronica polarizacion del fet
 
Electronica modelaje de transitores bipolares
Electronica  modelaje de transitores bipolaresElectronica  modelaje de transitores bipolares
Electronica modelaje de transitores bipolares
 
Electronica analisis a pequeña señal fet
Electronica  analisis a pequeña señal fetElectronica  analisis a pequeña señal fet
Electronica analisis a pequeña señal fet
 

Introducción a la Estadística Descriptiva

  • 1. SUMARIO: Tratamiento Estadístico de Datos 1 1.1.- Introducción 1.2.- Datos e Información 1.3.- Algo más Formal sobre Muestras 1.3.1.- Caracterización de Muestras 1.3.2.- Obtención de Información a partir de los Datos de una muestra 1.3.3.- Ordenamiento de Datos 1.3.4.- Tabulación de Datos 1.4.- Tabulación de Datos 1.4.1.- Frecuencias absolutas y relativas 1.4.2.- Tablas de Frecuencias 1.5.- Gráficos de Frecuencias 1.6.- Cuantiles de una Muestra 1.6.1.- Definiciones y Determinación Gráfica 1.6.2.- Diagrama de Caja 1.7.- Algoritmos para el Cálculo de Cuantiles 1.8.- Medidas de Tendencia Central y Dispersión 1.8.1.- La Media Aritmética y Otras Medidas de Tendencia Central 1.8.2.- La Media y la Mediana de una misma Muestra 1.8.3.- La Media Cortada de una Muestra 1.8.4.- Medidas de Dispersión 1.8.5.- Media y Varianza de Datos Agrupados 1.8.6.- Media y Varianza de Funciones de X 1.9.- Más sobre Dispersión 1.9.1.- Simplificación de Cálculos 1.9.2.- Cuantiles y Medidas de Dispersión 1.9.3.- Otros Diagramas y Representaciones Gráficas de una Muestra 1.9.4.- Valores Aberrantes detectados en Diagramas de Caja 1.10.- Trabajo con dos o mas Variables 1.10.1.- Coeficiente de variación 1.10.2.- Gráficos Q-Q 1.11.- Estadística Descriptiva Multivariada 1.11.1.- Vector de Medias y Matriz de Covarianzas 1.11.2.- Coeficiente de Correlación de Muestras 1.12.- Observación de Procesos en el Tiempo 1.12.1.- Series Temporales y Filtros 1.12.2.- Patrones y Filtrado de Datos 1.12.3.- Causas de Variación de un Proceso 1.13.- Datos Cualitativos 1.13.1.- Escalas de Medidas 1.13.2.- Escalas de Clasificación Objetivos del Capítulo Que el lector llegue a: 1) Diferenciar entre dato e información. 2) Diferenciar muestra y población objetivo. 3) Ser capaz de agrupar los datos de una muestra y construir tablas de frecuencias relativas. 4) Ser capaz de entender y determinar estadísticos de orden. 5) Ser capaz de construir gráficos de frecuencia relativa como histogramas, ojivas, polígonos y diagramas de cajas. 6) Identificar en la ojiva qué son los cuartiles, deciles y percentiles de una muestra. 7) Calcular cualquier cuantil muestral utilizando estadísticos de orden 8) Entender los conceptos relacionados con tendencia central y dispersión muestral. 9) Calcular medidas de correlación entre dos variables de una misma muestra. 10) Identificar fenómenos representables por series temporales y filtrarlas de ser necesario.
  • 2. ESTADÍSTICA G. Zurita Fundamentos y Aplicaciones 1.1.- INTRODUCCIÓN Este capítulo es la presentación de lo que es la Estadística en sus más elemental expresión; todas las secciones, excepto una, el único requerimiento matemático que poseen es el que ostenta un bachiller recién graduado. Se comienza diferenciando información de dato y se instruye al lector acerca de cómo tratar muestras de datos cuantitativos, llevándolo a construir tablas, gráficos y diagramas, así como a calcular cuantiles, particularmente mediana, deciles, percentiles y los cuartiles primero y tercero. Se introduce como medidas de dispersión el rango muestral y el rango intercuartil. Destaca la ojiva entre los gráficos de frecuencia que se construyen. En una siguiente etapa se define y cuantifica la tendencia central de una muestra así como las mas usuales medidas de dispersión muestral; teniendo el capítulo una de sus secciones especialmente trabajadas en la que se hace referencia a la determinación de cuantiles, utilizando estadísticos de orden. La presencia de valores poco usuales o aberrantes es también tratada en este capítulo, se explica su incidencia en los valores que miden tendencia central y se hace uso del diagrama de caja para diagnosticar su presencia. Igualmente se discute ventajas y desventajas del agrupamiento de datos y como determinar indicadores a partir de esta situación. Se presentan también una introducción al tratamiento de datos ligados al tiempo, series temporales, creación de “filtros” para suavizar las series. También se introduce la noción de tratamiento simultáneo de varias características de una misma Población Objetivo, en una sección a la que se denomina ”Estadística Descriptiva Multivariada” y que es la única en la que se requiere conocimiento de operaciones con matrices, para construir matrices de datos y matrices de varianzas y covarianzas e una muestra. Existe una última sección en la que se presentan escalas de datos y se sugiere como tratar variables cualitativas. 1.2 .- DATOS E INFORMACIÓN En Estadística tratamos en primer lugar con datos, esto es, con Población Objetivo una cantidad n de mediciones no procesadas, sean estas Conjunto bien numéricas (cuantitativas) o categóricas (cualitativas), que definido de elementos que son objeto de llenan nuestro cuaderno de apuntes o reposan en un instrumento medición de almacenamiento de datos, sea éste un disco duro, “flash memory”, o sencillamente un CD. Finalmente reposarán en una base de datos para su manejo o en una bodega de datos 2
  • 3. ESTADÍSTICA G. Zurita Fundamentos y Aplicaciones (warehouse) para su almacenamiento histórico y posterior Unidades de tratamiento con Minería de Datos. Estas mediciones son Investigación efectuadas a elementos de algún conjunto bien definido, al que Elementos de la población objetivo llamaremos población objetivo. A los elementos de la población objetivo, los llamaremos unidades de investigación. Para efectos de este primer análisis vamos a suponer que las medidas efectuadas son cuantitativas. Supondremos además que el tamaño de la población objetivo es Muestra N y que de este conjunto seleccionamos un subconjunto de n Subconjunto de n unidades de investigación, sobre los cuales vamos a efectuar unidades de las mediciones de alguna de sus características. No mediremos investigación tomados entonces la característica investigada a todos los elementos de la de la población población objetivo sino a parte de ellos, esto significa que N > n. Sin discutir, por ahora, la manera que efectuamos la selección Observación de las n unidades de investigación, al total de los n valores Cada valor incluido medidos los llamaremos muestra. Cada valor incluido en la en la muestra muestra es una observación. Estamos seguros que el lector ha reparado en la sutil, pero importante, diferencia entre “observación” y “unidad de investigación”. Diremos entonces que hemos tomado una muestra de tamaño n de una “población” de tamaño N, o que tenemos una muestra constituida por n observaciones. Ejemplo 1.1 Sea una Población Objetivo que está conformada por seis unidades de investigación, N=6; supongamos que la medida de interés X toma valores, a, b, c, d, e, f. Indicar cómo seleccionar la muestras de tamaño n = 2 de esta población. Desarrollo. El conjunto de valores de donde podemos escoger una de las muestras requeridas es: { a, b, c, d, e, f } Si se necesita tomar una muestra de tamaño n = 2 ; son muchas las opciones que pueden seleccionarse, bien podría ser que la muestra elegida sea {a,b}; también puede ser {a,c} o cualquiera de las opciones como, {a,d}; {a,e}; {a,f}; {a,f}; {b,c}; y así sucesivamente, hasta considerar la opción {e,f}. ♦ Pensando en casos numéricos mas específicos, puede ser que de los N=12537 estudiantes matriculados en una universidad, a cien de ellos, n=100, les preguntemos cuál es el número de materias en las que se encuentran registrados al momento de la 3
  • 4. ESTADÍSTICA G. Zurita Fundamentos y Aplicaciones entrevista, o que a esos mismos estudiantes les midamos su estatura en metros. En el caso de la primera pregunta, las respuestas conforman una muestra de tamaño cien que está constituida por números enteros, en tanto que las cien estaturas lo mas probable es que las representemos como números reales con al menos dos decimales de precisión. Nótese que “medir” en términos estadísticos puede significar que le hagamos una pregunta a quien investiguemos o que utilizando un instrumento cuantifiquemos alguna de sus características distintivas, o que le pidamos se pronuncie sobre un asunto en particular. Algo mas, los elementos de la Población Objetivo, o unidades de investigación, pueden ser también entes irracionales o inanimados, a quienes no es posible hacerles preguntas. Pensemos que la característica que nos interesa es el porcentaje de hierro contenido en las rocas que yacen en el lecho de un río, o que en una provincia del país, nos interesa la proporción de ganado vacuno infectado de fiebre aftosa. Para el primer caso, los datos serán obtenidos en un laboratorio, en el segundo, un veterinario dictaminará la presencia o no de ese mal. 1.3.- ALGO MÁS FORMAL SOBRE MUESTRAS 1.3.1.- Caracterización de muestras Si representamos por X a una característica de interés de cierta población objetivo, a una muestra de tamaño n tomada de esta población, la representaremos por, {X1, X2, ... , Xn} Es también válido representar esta muestra por un vector X en Rn de la siguiente forma: XT = (X1 X2... Xn) Donde XT representa al vector transpuesto de X. Se usa la transpuesta del vector X y no el vector X en sí, por razones de edición. 4
  • 5. ESTADÍSTICA G. Zurita Fundamentos y Aplicaciones Ejemplo 1.2 A cinco estudiantes politécnicos se les pregunta en cuántos semestres, a partir del momento de la entrevista, estiman que van a graduarse; determine la muestra si lo que se obtiene como respuesta es: siete, cinco, ocho, cinco y cuatro semestres. Desarrollo. En este caso, n = 5 y además, X1 = 7; X2 = 5; X3 = 8; X4 = 5 y X5 = 4. La muestra igualmente puede ser escrita como: XT = (7 5 8 5 4) ♦ Nótese que hasta el momento, una muestra es solo un conjunto X de datos que no ha recibido procesamiento alguno. 1.3.2.- Obtención de información a partir de los datos de una muestra Si bien el proceso de “toma de datos” es vital en Estadística, a Información tal punto que ha merecido desarrollos teóricos importantes y las Conjunto de datos consecuentes técnicas a ser aplicadas, por el momento no nos procesados que nos preocuparemos de aquello y supondremos simplemente que permiten tomar contamos con los datos. Algo mas, los datos, como tales, no son decisiones racionales mas que materia prima dispuesta a ser procesada, ellos por sí solo poco o nada pueden decirnos. Para que podamos tomar decisiones racionales, necesitamos procesarlos, esto es convertirlos en información. Si nos encontramos frente a una muestra de tamaño n, ¿Qué es lo que nosotros necesitamos hacer para que pase a ser material estadísticamente útil?, esto es, para que pase a ser información. Cuatro son las acciones que con el conocimiento que al momento suponemos maneja el lector, pueden tomarse, y estas son: i) Ordenar los datos; ii) Tabular los datos ordenados; iii) Graficar los datos ordenados utilizando el concepto de frecuencia relativa; y, iv) Calcular a partir de la muestra cantidades que representen “peculiaridades” siempre presente en las muestras que son relevantes para la toma de decisiones. 1.3.3.- Ordenamiento de datos La primera acción, esto es ordenar los valores constitutivos de una muestra, es sencilla, aunque pudiera ser tediosa, cuando se 5
  • 6. ESTADÍSTICA G. Zurita Fundamentos y Aplicaciones trabaja con muestras de tamaño relativamente grande y no disponemos de una máquina procesadora de datos. Para representar una muestra ordenada debemos definir que es lo que se entiende por un estadístico de orden. Dada una muestra X de tamaño n, al primer estadístico de orden lo denotamos por X(1) y lo definimos como el mínimo valor que constituye la muestra, esto es, X(1) = min{X1 , X2, ..., Xn} El estadístico de orden n se lo denota como X(n) y lo definimos como el máximo valor que constituye la muestra, esto es, X(n) = max{X1 , X2, ..., Xn} De forma similar definimos al estadístico de orden dos, tres, y así pasando por el i-ésimo orden, llegamos al de orden (n-1) y orden n, esto significa que: X(1) ≤ X(2) ≤ ... ≤ X(i) ≤ … ≤ X(n-1) ≤ X(n) Ejemplo 1.3 A partir del Ejemplo 1.2 determine los estadísticos de orden que correspondan. Desarrollo. En el mencionado ejemplo, consideramos una muestra de tamaño cinco en la que, X1 = 7; X2 = 5; X3 = 8; X4 = 5 y X5 = 4 Concordante con las definiciones previas, X(1) = min{ 7 ; 5 ; 8 ; 5 ; 4}= 4 X(n) = X(5) = max{7 ; 5 ; 8 ; 5 ; 4 }= 8 Considerando ahora la muestra ordenada, X (1) = 4; X (2) = 5; X (3) = 5; X (4) = 7; y X (5)= 8 ♦ Nótese que el número cinco, como valor observado, tiene doble calidad; es el estadístico de orden dos y de orden tres al mismo tiempo, ya que este valor se encuentra repetido en la muestra. 6
  • 7. ESTADÍSTICA G. Zurita Fundamentos y Aplicaciones 1.3.4.- Tabulación de Datos Para tabular datos cuantitativos, y así facilitar la exploración estadística de los mismos, se requiere definir algunos términos y efectuar ciertos supuestos. Los términos que necesariamente deben definirse son: clase, marca de clase, frecuencia absoluta, frecuencia relativa, frecuencia acumulada absoluta, frecuencia acumulada relativa y tabla de frecuencias. Cualquier dato en una muestra es mayor o igual a su mínimo valor X(1), pero menor o igual a su máximo valor X(n); teniendo en cuenta esto, vamos a considerar un intervalo cerrado de números reales al que denominaremos A y cuyo extremo inferior lo denominaremos a1 y cuyo extremo superior es ak+1, tal cual se lo bosqueja en la Figura 1.1 Figura 1.1 Intervalo A de Números Reales que incluye todo los datos en la muestra • • • • a1 X(1) X(n) ak+1 A= {x∈R | a1 ≤ x < ak+1}= [a1, ak+1) Necesariamente a1 debe ser menor o igual que X(1) así como también que ak+1 debe ser mayor o igual que X(n). Particionamos ahora el intervalo A así definido, en k subintervalos semiabiertos y ordenados de tal manera que dichos subintervalos, Clase a) tengan igual longitud; Intervalos exhaustivos y mutuamente b) su unión sea igual al intervalo A; y, excluyentes en una c) la intersección entre cualquiera de estos subintervalos sea muestra vacía. Diremos que estos intervalos son exhaustivos y mutuamente excluyentes y a cada uno de ellos lo denominaremos clase. Hemos definido entonces k clases para una muestra de tamaño n. Obviamente k es mucho menor que n y dicho valor se lo escoge de acuerdo a las instrucciones que nos dé el profesor en clase, o de acuerdo a la experiencia de la persona que está haciendo el análisis de los datos. Quien no tiene experiencia, ni tiene cercano un profesor pero sí una computadora, verá resuelto su problema consultando o dejando funcionar libremente a paquetes computacionales especializados en Estadística, ya que 7
  • 8. ESTADÍSTICA G. Zurita Fundamentos y Aplicaciones dichos paquetes, tales como MINITAB*, SPSS** o SYSTAT**, realizan automáticamente esta tarea, si así lo requerimos. Un valor sugerido de partida es k ≥ 7. Formalizando lo definido anteriormente se tiene que A= {x∈R | a1 ≤ x < ak+1}= [a1, ak+1) Además tenemos: a) Se ha definido, primera clase = [a1, a2) segunda clase = [a2, a3) . . . k-ésima clase = [ak , ak+1) Recuérdese que el intervalo semiabierto [ai , ai+1) = {x∈R ⏐ai ≤ x < ai+1} En tanto que: [ak-1, ak) = {x∈R ⏐ak-1 ≤ x < ak} Existiendo además el supuesto de que la longitud L de cada una de las clases es la misma, esto es, L = d(a1 , a2) = d(a2 , a3) = ... = d(ak , ak+1) Donde la expresión d(a , b) simboliza la “distancia” del número real a al número real b, que no es mas, en este caso, que el valor absoluto de la diferencia entre a y b. Esto es, d(4 , 5) =⏐4-5⏐= d(5 , 4) =⏐5-4⏐ = 1 ó d(-3 , 3) =⏐-3 - 3⏐ = 6. b) La unión de los k subintervalos es A; lo cual significa que: k [a1, a2)∪[a2 , a3)∪...∪[ak , ak+1) = A = U i=1 [ai , ai+1) c) La intersección de los k subintervalos es vacía, esto es, k [a1, a2) ∩ [a2 , a3)∩... ∩ [ak , ak+1) = ∅ = I [ai , ai+1) i=1 Marca de Clase Al valor central de cada una de las clases, se lo obtiene sumando Valor central de cada sus extremos y dividiendo para dos, este valor central se una de las clases denomina marca de clase, lo cual significa que: la primera marca de clase = (a1 + a2)/2; la segunda marca de clase = (a2 + a3)/2; . 8
  • 9. ESTADÍSTICA G. Zurita Fundamentos y Aplicaciones . . y, la k-ésima marca de clase = (ak + ak+1)/2. Ejemplo 1.4 Supongamos que se tiene una muestra de tamaño n = 50 datos y que el mínimo X(1) es igual a 42 y el máximo X(50) es 106. Se requiere determinar clases y marcas de clase para la muestra. Desarrollo. Se nos sugiere tomar k = 7, de tal manera que A= {x∈R ⏐40 ≤ x < 110} = [40, 110) Esto hace posible que: la primera clase = [40, 50); la segunda clase = [50 , 60); . . . y, la séptima clase = [ 100 , 110) Bajo estas condiciones, la primera marca de clase es (40+50)/2 =45; la segunda marca de clase es 55; la tercera es 65; y de esta manera hasta llegar a la séptima marca de clase que es 105. ♦ Así construida la resolución del problema, la misma goza de las siguientes características: El intervalo A contiene a todos los n = 50 valores que conforman la muestra ya que X(1) así como también X(50) pertenecen al intervalo A. Cada una de las siete marcas de clase está perfectamente establecida y tienen la misma longitud (diez unidades); El intervalo A es igual a la unión de las k = 7 clases (las clases son exhaustivas); y, Ninguna clase comparte elementos con otra (las clases son mutuamente excluyentes); Para tener una idea gráfica de lo contenido en este problema, imaginemos una figura como la que denomináramos Figura 1.1 en líneas previas y ubique los valores a1 que es 40, a2 que es 50; hasta llegar a a8 = 110. Recuérdese que k = 7, pero que 9
  • 10. ESTADÍSTICA G. Zurita Fundamentos y Aplicaciones tenemos que llegar hasta ak+1 que en este caso es 110. A continuación la Figura 1.2 Figura 1.2 Intervalo A (unión de las siete clases) [ ) [ ) [ ) [ ) 40 50 60 70 80 90 100 110 [ ) [ ) [ ) a1 ak+1 A= {x∈R ⏐40 ≤ x < 110} = [40, 110) 1.4.- TABULACIÓN DE DATOS 1.4.1.- Frecuencias absolutas y relativas Para tabular datos con el propósito de hacer un análisis estadístico exploratorio de los mismos, aun necesitamos efectuar algunas definiciones que se relacionan con el tamaño de la muestra y el número de observaciones que la muestra tiene en cada una de las k clases que hayamos determinado. Supóngase que ya hemos ordenado los datos y que además se han determinado las k clases que creemos pertinentes; vamos a darle un tratamiento adicional a esta muestra ordenada. Recordemos que ordenada o no, la muestra tiene n observaciones y que por la forma que se definen las clases, sin ambigüedad podemos afirmar que todos los elementos de la muestra pertenecen a alguna de las k clases. Frecuencia Absoluta Denotaremos f1 al número de observaciones en la muestra, que Número de pertenecen a la primera clase, esto es al intervalo [a1, b1) y a f1 lo observaciones en la denominaremos frecuencia absoluta de la primera clase o muestra que simplemente primera frecuencia absoluta. En el mismo pertenecen a cada una contexto f2, será la segunda frecuencia absoluta, y así de las clases sucesivamente hasta llegar a fk, que es la k-ésima frecuencia absoluta o el número de observaciones que pertenecen a la muestra y que al mismo tiempo se ubican en la k-ésima clase. La suma de las frecuencias absolutas de una muestra es n, esto es, k f1 + f2 + ... + fk = n = ∑ f i i =1 Frecuencia Relativa División de la Recuérdese que fi es un número mayor o igual que cero y menor frecuencia absoluta o igual que n. Pasamos a definir frecuencia relativa de una de cada una de las clase. clases para el tamaño La frecuencia relativa de la primera clase resulta de dividir f1 n de la muestra para el tamaño n de la muestra; de manera similar la frecuencia 10
  • 11. ESTADÍSTICA G. Zurita Fundamentos y Aplicaciones relativa de la segunda clase se obtiene al dividir f2 para n. Y así pasando por la frecuencia relativa de la i-ésima clase, llegamos a la frecuencia relativa de la k-ésima clase que calculamos dividiendo fk para n. Toda frecuencia relativa es un número mayor o igual a cero pero menor o igual que uno, esto es, f 0≤ i ≤ 1; siendo, i = 1, 2,..., k. n F1, la frecuencia acumulada absoluta de la primera clase, se la define igual a f1; la de la segunda clase F2 = f1 + f2; y así sucesivamente la frecuencia acumulada de la k-ésima clase es: Fk = f1 + f2 + ... + fk-1 + fk Es claro que Fk es igual a n. Véase Figura 1.3 Con estos antecedentes es evidente como definir la frecuencia acumulada relativa de la i-ésima clase, esto es, la misma resulta de dividir Fi para n, siendo i = 1; 2;...; k. Fk Ocurre por tanto que n es igual a uno. Figura 1.3 Definición de Frecuencia Acumulada F1 = f 1 F2 = f 1 + f 2 F3 = f 1 + f 2 + f 3 F4 = f 1 + f 2 + f 3 + f 4 F5 = f 1 + f 2 + f 3 + f 4 + f 5 F6 = f 1 + f 2 + f 3 + f 4 + f 5 + f 6 F7 = f 1 + f 2 + f 3 + f 4 + f 5 + f 6 + f 7 * Para efectos visuales el valor de k es siete (k=7) 1.4.2.- Tablas de frecuencias Tabla de Dada una muestra ordenada de tamaño n, una Tabla de Frecuencias frecuencias es un arreglo rectangular que tiene siete columnas y Arreglo rectangular k filas, sin incluir la rotulación; la primera columna es para el que tiene siete “ordinal de la clase”, la segunda para definir la clase, luego la columnas y k filas, sin incluir la rotulación marca de clase, frecuencia absoluta, frecuencia relativa, frecuencia absoluta acumulada y la séptima columna para la frecuencia relativa acumulada. Véase la Figura 1.4 11
  • 12. ESTADÍSTICA G. Zurita Fundamentos y Aplicaciones Figura 1.4 Tabla General de Frecuencias Frecuencia Frecuencia Marca de Frecuencia Frecuencia Ordinal Clase Absoluta Relativa Clase Absoluta Relativa Acumulada Acumulada 1 [a1,a2) (a1+a2)/2 f1 f1/n F1 F1/n 2 [a2,a3) (a2+a3)/2 f2 f2/n F2 F2/n 3 [a3,a4) (a3+a4)/2 f3 f3/n F3 F3/n . . . . . . . . . . . . . . . . . . . . . k [ak,ak+1) (ak+ak+1)/2 fk fk/n FK= n FK/n = 1 Téngase en cuenta que al multiplicar por cien cualquier tipo de frecuencia relativa se obtiene un porcentaje. Construida una Tabla de frecuencia, estamos en capacidad de efectuar algunas afirmaciones que no podríamos hacer si observáramos solamente al dato “puro” llegado desde el campo u obtenido en el laboratorio. Podríamos decir por ejemplo cuál es la proporción de observaciones que se encuentran en una clase, al utilizar la frecuencia relativa; cuál es el porcentaje de observaciones que pertenecen a una clase y a todas las previas, si utilizamos la frecuencia relativa acumulada multiplicada por cien; o, qué porcentaje de observaciones pertenecen a las clases siguientes a la i-ésima si utilizamos (1-Fi/n).100, etc., etc. Hemos ya dado un paso relevante en la exploración estadística de datos, los comenzamos a convertir en información. Recomendamos siempre utilizar los valores de las frecuencias relativas y no valores de las frecuencias absolutas; la razón de esta sugerencia será obvia cuando en capítulos subsiguientes hagamos inferencias estadísticas sustentadas en principios probabilísticos. Las frecuencias absolutas deben ser utilizadas como valores de paso, cuya utilidad es al final obtener valores relativos con los que se puedan efectuar generalizaciones. Ejemplo 1.5 Se tiene un conjunto de n = 50 datos que luego de ordenarlos, configuran la siguiente muestra: 2 3 3 4 5 6 6 7 9 10 10 12 13 14 14 15 15 15 16 16 17 17 18 18 18 19 19 19 21 21 23 24 24 25 25 25 25 27 28 28 29 29 31 32 33 35 35 36 39 39 Estos cincuenta datos representan el número de fallas cosméticas y estructurales detectados en los edificios de una 12
  • 13. ESTADÍSTICA G. Zurita Fundamentos y Aplicaciones comunidad urbana que va a ser regenerada por la municipalidad del cantón. Construir la correspondiente Tabla de Frecuencias. Desarrollo. Dado el resultado del ordenamiento notamos que X(1)= 2 y X(50)= 39. De igual manera optamos por construir k = 8 clases de longitud cinco unidades, siendo la primera definida por el 0+5 intervalo [0, 5), su marca de clase es = 2.5 ; su frecuencia 2 absoluta es cuatro y la frecuencia relativa de esta clase es 4 = 0.080 ; la frecuencia acumulada absoluta F1 es cuatro y la 50 frecuencia acumulada relativa es también 0.080 por ser la primera clase y por tanto no existe clase previa. Para la segunda clase , como puede verse en la Figura 1.5, la frecuencia absoluta f2 es cinco; la frecuencia relativa es 0.10 ; la frecuencia acumulada absoluta F2 es nueve y la marca de clase 7.5. Véanse detalles en la figura que se presenta a continuación. ♦ Figura 1.5 Tabla de Frecuencias Frecuencia Frecuencia Marca de Frecuencia Frecuencia Ordinal Clase Absoluta Relativa Clase Absoluta Relativa Acumulada Acumulada 1 [0,5) 2.5 4 0.080 4 0.080 2 [5,10) 7.5 5 0.100 9 0.180 3 [10,15) 12.5 6 0.120 15 0.300 4 [15,20) 17.5 13 0.260 28 0.560 5 [20,25) 22.5 5 0.100 33 0.660 6 [25,30) 27.5 9 0.180 42 0.840 7 [30,35) 32.5 3 0.060 45 0.900 8 [35,40) 37.5 5 0.100 50 1.000 1.5.- GRÁFICOS DE FRECUENCIAS A partir de una tabla de frecuencias obtenida para una muestra X de tamaño n, XT = (X1 X2... Xn) es posible construir representaciones gráficos que revelan de manera sencilla, mucho de la información contenida en la misma. Entre estas representaciones están los histogramas de frecuencia, polígonos de frecuencia, ojivas y diagramas de caja, que pasamos a describir a continuación. 13
  • 14. ESTADÍSTICA G. Zurita Fundamentos y Aplicaciones Un histograma de frecuencia es un gráfico bidimensional de Histograma de “barras” en cuyo eje horizontal están señaladas las k clases que Frecuencia Gráfico bidimensional se han determinado para construir la Tabla de Frecuencia; en el de “barras” en cuyo eje vertical se representan las frecuencias relativas de cada eje horizontal están clase. El gráfico contendrá k barras cuyo “ancho” coincide con señaladas las k clases, la longitud de la clase y cuya “altura” es igual la frecuencia y en el eje vertical se relativa de la clase. El histograma de frecuencia, debe ser representan las frecuencias relativas graficado de tal manera que se respeten las escalas, nos presenta de cada una de ellas una imagen visual acerca de la información relacionada con la proporción de observaciones en cada clase, las comparaciones e interrelaciones que con ellas pueden hacerse. Véase Figura 1.6 la misma que corresponde a los cincuenta datos presentados en el Ejemplo 1.5. Son ocho clases de longitud cinco, la primera de las cuales es [0,5) y la última (octava) es [35,40) Figura 1.6 Histograma de Frecuencia 0,300 0,250 0,200 Frecuencia Relativa 0,150 Polígono de 0,100 Frecuencia Gráfico derivado del 0,050 histograma de frecuencia que utiliza 0,000 X como vértices los [0,5) [5,10) [10,15) [15,20) [20,25) [25,30) [30,35) [35,40) puntos centrales Intervalos de Clase superiores de las barras del histograma y que para obtener la Un gráfico derivado del correspondiente histograma de intersección con el eje horizontal crea frecuencia, es el Polígono de frecuencia, que resulta al artificialmente dos determinar un polígono, utilizando como vértices del mismo, los nuevas “clases”. puntos centrales superiores de las barras del histograma. Para obtener intersección entre el polígono y el eje horizontal se crean artificialmente dos nuevas “clases”, una antes de la primera, a la cual llamaremos “clase cero” y otra luego de la última, que pasa a ser la “clase (k+1)-ésima”. De esta manera, el primer vértice del polígono lo situamos en la marca de clase de la clase cero y el último vértice en la marca de clase de la clase (k+1)-ésima. Véase Figura 1.7 en que se construye un Polígono de Frecuencia con los datos del Ejemplo 1.5. El polígono de frecuencia en términos generales contiene información similar que la presentada por el histograma de frecuencias, sin embargo es recomendable construirlo si la característica que se investiga en la población objetivo, es continua. 14
  • 15. ESTADÍSTICA G. Zurita Fundamentos y Aplicaciones Figura 1.7 Polígono de Frecuencia 0,300 0,250 0,200 Frecuencia Relativa 0,150 0,100 0,050 0,000 X [0,5) [5,10) [10,15) [15,20) [20,25) [25,30) [30,35) [35,40) Intervalos de Clase Uno de los mas útiles gráficos en Estadística es la Distribución Distribución de de Frecuencia Acumulada o simplemente Ojiva. Este esquema Frecuencia gráfico, representa en el eje horizontal la característica Acumulada (Ojiva) Gráfico que cuantitativa X, que estamos investigando y ubica sobre el representa en el eje mismo eje, las k clases en que hemos decidido organizar la horizontal la muestra de tamaño n, o podríamos decir también la muestra característica constituida por n observaciones. En el eje vertical ubicamos la cuantitativa X que se frecuencia acumulada relativa. está investigando y en el eje vertical la frecuencia acumulada Obviamente que los valores en el eje horizontal dependen de la relativa característica X que medimos; pueden ser dólares si en una “Encuesta de Hogares” investigamos los ingresos de n hogares que constituyen una comunidad; pueden ser centímetros si medimos la estatura de n estudiantes; gramos si lo que hacemos es pesar n camarones que hemos tomado de una piscina de acuicultura, o, resistencia a fuerzas cortantes de un material si en un laboratorio de Mecánica de Sólidos investigamos tal característica. En el eje vertical, no importa qué se investigue, allí se ubica la frecuencia acumulada relativa, esto significa que solo se utilizarán, en este eje, valores que comiencen en cero y terminan siempre en uno. Recordando que la muestra con la que tratamos ya ha sido ordenada y que además se supone ya tenemos determinadas las k clases que se necesitan; el gráfico de una Ojiva se construye determinando (k+1) puntos y luego conectándolos de manera sucesiva y con trazos continuos, de la siguiente manera: El primer punto tiene coordenadas (a1, 0) donde a1 es el extremo inferior de la primera clase, el segundo punto tiene coordenadas (a2, F1/n) siendo a2 el extremo inferior de la segunda clase; el tercer punto tiene coordenadas (a3, F2/n) y así sucesivamente hasta llegar al penúltimo punto que tiene como coordenadas (ak, 15
  • 16. ESTADÍSTICA G. Zurita Fundamentos y Aplicaciones Fk-1/n); siendo el último punto el que tiene coordenadas (ak+1, Fk/n). El gráfico de una ojiva es continuo; recuérdese además que Fk/n es igual a uno. Obsérvese la Figura 1.8 Figura 1.8 Distribución de Frecuencia Acumulada (Ojiva) 1 Frecuencia Acumulada Relativa 0,75 0,5 0,25 Q1 Q2 Q3 0 X 4 8 12 16 20 24 28 32 La Ojiva es utilizada con profusión para comparar situaciones en las que bajo distintas circunstancias o a distintos entes se mide una misma característica; por ejemplo, el ingreso mensual en dos distintas comunidades de los jefes de hogares o las notas en dos distintas materias que obtiene un mismo grupo de estudiantes. Obsérvese en la Figura 1.9, las ojivas A y B. Si ellas representaran los ingresos en dólares de dos comunidades, ¿En cuál de las dos quisiera usted vivir?. Si se tratara de las notas obtenidas por un mismo grupo humano en dos cursos diferentes que han tomado en una universidad ¿Cuál curso presenta mayor grado de dificultad para aprobarlo?. Figura 1.9 Ingresos en dólares de Dos Comunidades (A y B) 1 A B Frecuencia Acumulada Relativa 0,75 0,5 0,25 Q1 Q2 Q3 Q1 Q2 Q3 0 X 4 8 12 16 20 24 28 32 36 40 44 48 52 56 60 64 68 16
  • 17. ESTADÍSTICA G. Zurita Fundamentos y Aplicaciones 1.6.- CUANTILES DE UNA MUESTRA 1.6.1.- Definiciones y determinación gráfica Primer Cuartil (Q1) La Ojiva es además un excelente instrumento para ilustrar Valor de X tal que definiciones de orden cuantitativo que se efectúan cuando se nos mas del veinticinco por ciento exploran estadísticamente los datos de una muestra ordenada, de las observaciones para obtener la información en ella contenida. en la muestra toman valores menores o Como definición diremos que el Primer Cuartil o Cuartil iguales que Q1 Inferior de una muestra en la que se investiga una característica continua X, es un valor Q1 de X, tal que no mas del veinticinco por ciento de las observaciones en la muestra ordenada toman valores menores o iguales que Q1. Segundo Cuartil (Q2) Valor de X tal que En tanto que el Segundo Cuartil o Cuartil Central de una nos mas del cincuenta muestra se denota por Q2 y se lo define como el valor de X tal por ciento de las que, no mas del cincuenta por ciento de los valores en la observaciones en la muestra son menores o iguales que Q2. muestra son menores o iguales que Q2 Al Tercer Cuartil o Cuartil Superior de una muestra se lo denota Q3 y se lo define en términos del setenta y cinco por ciento de los elementos en la muestra tomando valores menores Tercer Cuartil (Q3) o iguales que Q3, o equivalentemente el veinticinco por ciento Valor de X tal que el de los valores en la muestra son mayores que Q3. setenta y cinco por ciento de los elementos en la A los tres cuartiles definidos se los puede representar en una muestra toman ojiva muy claramente como se bosqueja en la Figura 1.8 valores menores o iguales que Q3 Se tiene en esta figura una ojiva y en el eje vertical marcados los valores 0.25; 0,50 y 0.75. Para ubicar, sobre el eje horizontal, el valor del primer cuartil Q1, se traza un segmento de recta horizontal que contenga al punto A de coordenadas (0, 0.25) y que sirve además para determinar el punto A´ en el que la ojiva y la recta tiene su intersección; incluyendo A´ se traza un segmento de recta perpendicular al eje horizontal; en la intersección del segmento con este eje se encuentra el valor Q1, que es el Primer Cuartil. Nótese que el Primer Cuartil Q1 no es un punto sobre el plano sino una coordenada sobre el eje horizontal, esto es, Q1 es un valor numérico. Utilizando el mismo procedimiento constructivo, se determinan gráficamente Q2 y Q3 esto es, los cuartiles segundo y tercero ya definidos. Al segundo cuartil de la muestra se lo denomina también Mediana Muestral y en secciones venideras abundaremos sobre este valor y la forma de calcularlo. 17
  • 18. ESTADÍSTICA G. Zurita Fundamentos y Aplicaciones Así como se definieron tres cuartiles, es posible definir nueve Deciles y noventa y nueve Percentiles de la muestra. Los deciles muestrales se los denota D1, D2, D3, hasta D9; pudiendo decirse que cuando mas el diez por ciento de los elementos en la muestra toman valores menores o iguales al Primer Decil D1; el veinte por ciento de los elementos en la muestra toman valores menores o iguales a D2; y así hasta llegar al Noveno Decil, D9, cuando el noventa por ciento de las observaciones que conforman la muestra toman valores menores o iguales que D9. Se encarga al lector determinar el significado de los percentiles muestrales P1, P2, ..., P99; indicando que el uno por ciento de los elementos en la muestra toman valores menores o iguales que P1, el Primer Percentil de la muestra, y que el noventa y nueve por ciento son menores o iguales que P99 el Nonagésimo Noveno Percentil de la muestra. De igual manera se exhorta al lector a ubicarlos en el eje horizontal de una ojiva. Es procedente decir que Q1 = P25, que Q2 = D5 = P50 o que Q3 = P75. De igual manera puede complementarse lo hasta aquí expresado sobre estos cuantiles, esto es percentiles, deciles y cuartiles, que cuando mas, el setenta y cinco por ciento de las observaciones en la muestra toman valores mayores a Q1; que el cincuenta por ciento de las observaciones “centrales” de la muestra se encuentra entre Q1 y Q3; que el noventa por ciento de los valores observados está entre P5 y P95, o que el sesenta por ciento de las observaciones se encuentran entre D2 y D8. Insistimos, los cuantiles de una muestra no son puntos en el plano, son valores numéricos; además los cuantiles no tienen que necesariamente ser valores que pertenezcan a la muestra. Téngase en cuenta que la ojiva es una función creciente en X, en realidad monótona creciente, y por tanto cuando se la utiliza para estimar cuantiles, éstos quedan determinados unívocamente. 1.6.2.- Diagrama de caja Un subproducto de la ojiva una vez que se han determinado los cuartiles muestrales, es el denominado Diagrama de Caja, esquema gráfico que nos permite obtener de manera rápida, aunque no necesariamente exacta, la distribución de los datos que conforman la muestra. Véase la Figura 1.10 18
  • 19. ESTADÍSTICA G. Zurita Fundamentos y Aplicaciones Figura 1.10 Diagrama de Caja Esquema gráfico que Diagrama de Caja nos permite obtener Q1 Q2 Q3 de manera rápida, • • • • X aunque no necesariamente precisa, la 1 X(1) X(n) distribución de los datos que conforman muestra 0.00 10.00 20.00 30.00 40.00 Si bien este diagrama comúnmente se lo “adosa” a una ojiva, es posible presentarlo aislado, tal cual se lo hace en la Figura 1.10, siempre que se tengan los valores correspondientes a Q1 , Q2 y Q3, así como los valores máximo y mínimo en la muestra, esto es X(n) y X(1). En la Figura 1.10 se presenta un Diagrama de Caja; como puede verse está constituido por un rectángulo (caja) y dos segmentos de recta (bigotes). La longitud de la caja es Q3 – Q1; el bigote del lado izquierdo del lector se inicia en el valor mínimo X(1) y termina en Q1, mientras que el bigote del lado derecho comienza en Q3 y termina en X(n). El segmento de recta punteado, al interior de la caja, determina el valor de la Mediana o Segundo cuartil Q2. En la presencia de Valores Extremos o Valores Aberrantes, se debe reconceptualizar la construcción del Diagrama de Caja, y en particular la longitud de los bigotes. Sobre este tema volveremos en próximas secciones. 1.7.- ALGORITMOS PARA EL CÁLCULO DE CUANTILES Dada una muestra XT= (X1 X2... Xn) de tamaño n, el valor mínimo X(1) (o cualquier estadístico de orden i) puede ser también visto como un cuantil, puesto que la proporción p =1/n de los datos observados son menores o iguales a X(1). Recuérdese que de igual manera podemos decir que el (1/n)100 por ciento de los elementos de la muestra son menores o iguales a X(1) . Puede ocurrir eso sí, que el valor (1/n)100 =100/n no sea un número entero y nos enfrentaríamos a un cuantil de tipo aun no definido, particular que trataremos de superar en esta sección. Consideremos dos estadísticos de orden que sean consecutivos, llamémoslos X(i) y X(i+1); i = 1,2,…,n-1 si definimos el 19
  • 20. ESTADÍSTICA G. Zurita Fundamentos y Aplicaciones promedio X(i) y X(i+1) , esto será denotado como X(i.5) y explícitamente: X(i.5) = ( X(i)+ X(i+1))/2 = X(i) +( X(i+1)- X(i))/2 ; = X(i) + 0.50( X(i+1) - X(i)) ; i = 1,2,…,n-1 De manera similar podemos definir: X(i.2 ) = X(i) + 0.20( X(i+1) - X(i)); i = 1,2,…,n-1. X(i.4) = X(i) + 0.40( X(i+1) - X(i)); i = 1,2,…,n-1. ; ó, X(i.95) = X(i) + 0.95( X(i+1) - X(i)); i = 1,2,…,n-1. Podríamos, en general, definir X(i.a), de la siguiente manera: X(i.a) = X(i) + 0.a( X(i+1) - X(i)); i = 1,2,…,n-1 , a real positivo. No intentamos darles nombres específicos a estos estadísticos de orden, pero su significado es aparentemente obvio. Ejemplo 1.6 Supongamos que una muestra de tamaño n=5 es XT = (2 3 8 7 4). Aquí la muestra nos permite determinar que, X(1) = 2; X(2) = 3; X(3 )= 4; X(4) = 7, y que X(5) = 8. El estadístico de orden m es X(m) = X(n+1)/2, donde definimos m como igual a (n + 1)/2; en este caso m es (5+1)/2=3; por tanto X(m) es X(3) =4 , que en este caso (n es un número impar) es el segundo Cuartil Muestral Q(2) o también conocido como Mediana de la Muestra. Alteremos un poco la muestra previamente analizada y supongamos que ella ahora es XT = (2 3 8 5 7 9) y nuevamente intentemos calcular X(m). Tenemos en la nueva muestra X(1 )= 2; X(2) = 3; X(3) = 5; X(4) = 7, X(5 )= 8 y X(6) = 9. Siendo ahora n=6, m ya no es un número entero sino que es igual a 3.5. Para calcular Q2 debemos determinar por tanto X(3.5) , que es el valor que le corresponde a Q(2) Procedamos, primero de la manera tradicional y luego aplicando la definición de X(i.a) : Q2 = (X(4)+ X(3))/2 = 0.5( 7+5)=6. De igual manera 20
  • 21. ESTADÍSTICA G. Zurita Fundamentos y Aplicaciones Q(2) = X(3.5) = X(3) + 0.5( X(4) - X(3)) = 5 + 0.5( 7-5) = 6 ♦ En el caso de la primera muestra su mediana es 3 y a su vez es válido decir que la mediana muestral es un valor que pertenece a la muestra, en el segundo caso la mediana es 6 y este valor, no pertenece a la muestra. En el primer caso el tamaño n de la muestra es impar y en el segundo es par. Así como hemos calculado el segundo cuartil de la muestra, puede calcularse el primero Q1 o el tercero Q3 haciendo m = 0.25(n+1) ó m = 0.75(n+1) respectivamente, sin importar si el tamaño es par o impar. Siguiendo este patrón se puede determinar los percentiles muestrales que definiéramos previamente y que pasamos a ilustrar a continuación. Se aconseja nunca perder el sentido de la realidad. Ejemplo 1.7 En un laboratorio de Química Analítica se determina el número de partes por millón de un metal pesado que se encuentra disuelto en las aguas de un río del litoral ecuatoriano. Luego de efectuar veinte observaciones se obtiene una muestra que es la siguiente. XT = ( 7 12 10 3 4 7 3 9 6 9 2 4 6 4 4 9 7 4 7 11) Para esta muestra determinar el primer Decil, el Primer Cuartil, Tercer Cuartil, la mediana y el percentil noventa y cinco (nonagésimo quinto). Desarrollo. Muestra ordenada 2 3 3 4 4 4 4 4 6 6 7 7 7 7 9 9 9 10 11 12 Sea m = 0.1(n+1) = 0.1(21) = 2.1 D(1) = X(2,1) = X(2) + 0.1(X(3) - X(2)) = 3 + 0.1(3 - 3) = 3 Sea m = 0.25(n+1) = 0.25(21) = 5.25 Q(1) = X(5,25) = X(5) + 0.25(X(6) - X(5)) = 4 + 0.25(4 - 4) = 4 Sea m = 0.75(n+1) = 0.75(21) = 15.75 21
  • 22. ESTADÍSTICA G. Zurita Fundamentos y Aplicaciones Q(3) = X(15,75) = X(15) + 0.75(X(16) - X(15)) = 9 + 0.75(9 - 9) = 9 Sea m = 0.5(n+1) = 0.5(21) = 10.5 Mediana = Q(2) Q(2) = X(10,5) = X(10) + 0.5(X(11) - X(10)) = 6 + 0.5(7 - 6) = 6.5 Sea m = 0.95(n+1) = 0.95(21) = 19.95 P(95) = X(19,95) = X(19) + 0.95(X(20) - X(19)) = 11 + 0.95(12 - 11) = 11.95 ♦ 1.8.- MEDIDAS DE TENDENCIA CENTRAL Y DISPERSIÓN 1.8.1.- La media aritmética y otras medidas de Tendencia Central Las tablas de frecuencias y los gráficos y diagramas que hasta ahora hemos construido, nos han dado una representación visual de lo que es la información contenida en una muestra y los cuantiles alguna información cuantitativa de la misma, sin embargo, aun no hemos puesto suficiente énfasis en el análisis cuantitativo de la información contenida en los n datos muestrales. Comencemos por buscar un valor numérico que pudiera sintetizar o representar todos los datos, estamos hablando de la Tendencia Central o de la Medida de Posición de los mismos. El primero y mas utilizado por su facilidad para calcularlo y Media Aritmética “por la noción intuitiva ” del mismo es lo que se denomina Promedio de los n datos contenidos en la Media Aritmética de la Muestra, se lo denota x y se lo muestra define como el promedio de los n datos contenidos en la misma, esto es: n x = (X1 + X2 + ... +Xn)/n = ∑X / n i =1 i Mediana (Q2) Valor de X tal que cuando mas el También es una medida de posición o tendencia central el cincuenta por ciento Segundo Cuartil Q2 o Mediana Muestral, que ya hemos de las observaciones en la muestra toman presentado, de manera informal cuando construíamos la Ojiva un valor menor o Muestral; y, de manera formal cuando presentamos la forma de igual a él calcular percentiles utilizando estadísticos de orden. 22
  • 23. ESTADÍSTICA G. Zurita Fundamentos y Aplicaciones Dijimos que Q2 es también el percentil cincuenta y por tanto, cuando mas el cincuenta por ciento de las observaciones toman un valor menor o igual a él. También dijimos que Q2 es el estadístico de orden m, siendo m=(n + 1)/2, donde como siempre en el contexto de esta capítulo, n es el tamaño de la muestra en consideración. Esto significa que Q2 = X([n + 1]/2) Hay quienes hacen análisis exploratorio de datos y prefieren definir la mediana muestral, considerando si el tamaño de la muestra es par o impar, en cuyo caso señalan que la mediana Q2 es el promedio de los estadísticos de orden X(n/2) y X([n/2]+1) si n es par; y, que es igual a X([n +1]/2) si n es impar. Nótese que las definiciones son equivalentes, cuando hemos definido estadísticos de “orden racional positivo” como X(i.5) y no solo de orden entero positivo como X(i). Sobra decir que estamos hablando de una muestra ordenada, caso contrario no estaríamos en capacidad de determinar estadísticos de orden. Otra medida de tendencia central con alta frecuencia utilizada es la Media Ponderada de la Muestra, la denotaremos por Mw. Media Ponderada Sumatoria de cada Cuando calculamos la media aritmética, cada observación Xi observación Xi tiene igual “peso” o ponderación, en el procedimiento que se multiplicada por su utiliza para determinarla; lo contrario ocurre para determinar peso o ponderación esta nueva medida de posición que pretendemos introducir, para correspondiente wi calcularla, cada observación tiene un peso wi, condicionado a que la suma de los n pesos sumen uno. Definimos de esta manera a la Media Ponderada Mw de la muestra de la siguiente manera: n Mw = w1X1 + w2X2 + … + wnXn. = ∑ w X ; i=1,2,…,n; i =1 i i n ∑w i =1 i =1 Los casos de utilización de esta medida de posición son abundantes, los vive por ejemplo, un estudiante cuando al iniciar el semestre su profesor le indica como va a ser calculada su nota, sobre cien puntos, del curso que toma. Si le dice que obtendrá cinco por ciento por tareas realizadas fuera de clase, veinticinco por ciento por lecciones rendidas en clase y el resto por un examen; esto significa que su nota es una media ponderada de tres notas sobre cien , donde w1=.05; w2 =.25 ; y, w3=.70 . En tanto que X1 es la nota que sobre cien obtenga por “tareas”; X2 es lo que obtendría, sobre cien, por lecciones; y, X3 es su nota del examen, también sobre cien. 23
  • 24. ESTADÍSTICA G. Zurita Fundamentos y Aplicaciones Por tanto su nota ponderada, Mw es: Mw = w1X1 + w2X2 +w3X3 Nótese que en principio, la media aritmética es una media ponderada, solo que los ponderadores toman el mismo valor, esto es: 1 w1 = w2 = ... = wn = n 1.8.2.- La media y la mediana de una misma muestra Es evidente que si se toman datos en una investigación es para que sean aprovechados lo mas posible; como medida de tendencia central la media aritmética utiliza cada una de las observaciones en la muestra, en tanto que la mediana utiliza cuando mas dos de ellas, claro está que de una muestra ordenada. Puede por tanto decirse que para la determinación de la media aritmética se utilizan todos los datos contenidos en la muestra, sea esta ordenada o no, en tanto que para calcular la mediana, no se lo hace; esto permite a muchos pensar que debe preferirse siempre la media aritmética a la mediana, pero no es tanto así, puesto que en presencia de valores extremos o aberrantes, el efecto de éstos sobre la mediana es imperceptible en tanto que el valor de la media aritmética se ve afectado de manera notoria, pudiendo en el último caso, no ser la media aritmética muestral una buena medida de lo que es la verdadera tendencia central que se trata de determinar. Recuérdese que los valores aberrantes ocurren por múltiples razones, unas indeseables y otras inevitables. Entre los indeseables aparecen los errores de lecturas que se dan en el operativo de campo o en el laboratorio durante investigación, donde, por ejemplo, se apunta una estatura de 2.45 metros para una unidad de investigación, cuando se debió apuntar 1.45; o, en la digitación, donde en el reporte de campo aparece 1.45, pero al digitar se lo ingresa como 2.45. Estos errores no estadísticos o “ajenos al muestreo” se los debe detectar en una de las etapas de una encuesta o experimento, que se denomina “Crítica de Datos” la misma que se efectúa antes y después de la digitación. Antes, para tener la oportunidad de volver al laboratorio y verificar cualquier valor que se salga del patrón que muestren los datos; y, después de la digitación porque no siempre “el dedo humano” ingresa lo que corresponde o porque el lector óptico puede, por mala caligrafía o efectos ambientales, interpretar una cantidad por otra. 24
  • 25. ESTADÍSTICA G. Zurita Fundamentos y Aplicaciones 1.8.3.- La Media Cortada de una muestra Media Cortada de la Un remedio que se ha sugerido para obviar la sensibilidad de la Muestra Media Aritmética a los datos aberrantes y al mismo tiempo Media aritmética del poder utilizar la mayor cantidad de datos contenidos en la (1-α)100% por ciento muestra, es la construcción de otra medida de tendencia central de los datos a la que se denomina Media Cortada de la Muestra; se la denota por Tα y se la define como la media aritmética del (1- α).100 por ciento de los datos, suprimiendo, en una muestra α α ordenada, 2 100% de datos de la “parte superior” y 2 100% de la “parte inferior” en la muestra. Este “recorte” supone que los valores extremos, si existen, no serán considerados en el cálculo de Tα. Aunque con una muestra restringida, se aspira que la Media Cortada disfrute simultáneamente de las “virtudes” de la Media Aritmética y la Mediana, esto es, utilización máxima de los datos disponibles e insensibilidad a valores extremos. Lo usual es tomar α = 0.10 es decir, se calcula T.10. Ejemplo 1.8 En el Ejemplo 1.7 se consideró la siguiente muestra, XT = ( 7 12 10 3 4 7 3 9 6 9 2 4 6 4 4 9 7 4 7 11) Calcular la media aritmética, la mediana y la media cortada T.10. Desarrollo. 20 x = (X1 + X2 + ... +X20)/20 = ∑ X / 20 i =1 i = (7+12+10+3+4+7+3+9+6+9+2+4+6+4+4+9+7+4+7+11)/20 =6.40 Ordenando la muestra, ésta queda compuesta por: 2 3 3 4 4 4 4 4 6 6 7 7 7 7 9 9 9 10 11 12 Esto es: X(1 )= 2; X(2 )= 3; X(3) = 3;…; X(19) = 11; X(20) = 12; Para calculara la media cortada X.10, debemos prescindir, en la muestra original, de X(1) = 2 y de X(20) = 12, por lo que el noventa por ciento restante de la muestra X es el vector, YT= (3 3 4 4 4 4 4 6 6 7 7 7 7 9 9 9 10 11) 25
  • 26. ESTADÍSTICA G. Zurita Fundamentos y Aplicaciones Resultando así que X.10 es: X.10 = (3+3+4+4+4+4+4+6+6+7+7+7+7+9+9+9+10+11)/18 = 6.3333 Calculando la mediana Q(2) = X(10.5) = X10 + 0.5(X(11) – X(10)) = 5.5. En síntesis, la media aritmética de la muestra es 6.40; la media cortada X.10 es 6.33 y la mediana muestral es 5.5, de tal manera, la moda de la muestra, que es el valor que mas se repite es 4, pues aparece cinco veces en la muestra. ♦ En capítulos posteriores hablaremos de cómo evitamos, determinando Tα , una posible “contaminación” de la muestra y que el valor de Tα que lo que obtenemos es un “estimador robusto” del “verdadero” parámetro µ que mide la tendencia central de la población. 1.8.4.- Medidas de Dispersión Tener la medida de lo que es la tendencia central es importante, pero no basta; no podemos sorprendernos que dos muestras que posean conformación numérica distinta tengan la misma media aritmética pero represente, estadísticamente, muy diferentes realidades. Veamos las cuatro siguientes muestras: X1T = (1 2 3); X2T = (-5 2 9); X3T = (-10 -3 0 2 3 20); X4T = (0 2 4) Ellas poseen algo en común, las cuatro tienen la misma media aritmética, que es dos, pero difieren en su conformación numérica; nótese que incluso la tercera tiene un tamaño, seis, que es distinto al que tienen las demás, que es tres. El mensaje aquí parecería ser: una medida de tendencia central es relevante pero, no lo dice todo; en realidad falta algo mas. Vamos a observar la distancia desde cada uno de los valores Xi en la muestra a la media aritmética x , esto es, d(Xi , x) =⎟ Xi - x ⎟ Recordando que en todos los casos del ejemplo bajo análisis las muestras tienen media aritmética igual 2, tenemos para la primera muestra: d(1,2) = 1 ; d(2,2) = 0 y d(3,2) = 1. Para la segunda muestra d(-5,2) = 7 ; d(2,2) = 0 y d(9,2) = 7. Para la tercera muestra d(-10,2) = 12 ; d(-3,2) = 5 ; d(0,2) = 2; d(2,2) =0 ; d(3,2) =1 y d(20,2) = 18. 26
  • 27. ESTADÍSTICA G. Zurita Fundamentos y Aplicaciones Para la cuarta muestra d(0,2) = 2 ; d(2,2) = 0 y d(4,2) = 2. Si sumásemos las distancias de la media aritmética a cada observación obtendríamos una medida de cuan “lejos” o dispersos se encuentran cada uno de los datos muestrales con respecto a la media. Para el primer caso tal suma de distancias es 2; para el segundo 14; para el tercero 38, y para el último 4. Véase Figura 1.11 que ilustra de manera gráfica lo que de manera numérica hemos determinado. Figura 1.11 Cuatro Rectas representando cuatro Muestras señalando las Distancias X1 0 1 2 3 X2 -5 0 2 9 X3 -3 0 2 3 20 X4 0 2 4 Puede creerse que el número de observaciones en la tercera muestra obligó a que la suma de las distancias sea mayor, pero aunque es necesario reconocer que el número de observaciones puede influir en la medida de la dispersión de una muestra, piénsese en una muestra en la que todas las observaciones tomen el mismo valor, sin importar el tamaño de la muestra, siempre la suma de las distancias que hemos definido será cero. Nótese que esta suma de distancias bajo ninguna circunstancia puede ser negativa, pues se trata de sumas de distancias “euclideanas” que como tal están definidas en términos de valores absolutos de números reales. Con esta idea de dispersión con respecto a la media aritmética que hemos desarrollado en líneas previas, trataremos de construir de una manera explícita, una o varias medidas para cuantificar esta característica implícita en toda muestra. En primer lugar la dispersión es un valor relacionado o relativo a otro valor, pero este último no tiene necesariamente que ser la media aritmética, puede ser algún otro pero tiene sus ventajas que sea la media o al menos un valor que mida la tendencia central de la muestra. 27
  • 28. ESTADÍSTICA G. Zurita Fundamentos y Aplicaciones Ejemplo 1.9 Dada una muestra XT = (X1 X2 … Xn), determinar la media y la varianza de una muestra y que consiste de las n observaciones cuantitativas de la muestra X a las que se les resta su media aritmética. Desarrollo. Para el caso dado, YT = [ (X1 - x ) (X2 - x ) … (Xn - x ) ] = (Y1 Y2 … Yn) Por lo que, n ∑ Y / n = ∑ (X i − x ) / n n y= i i =1 i =1 = 1 [ (X1 - x ) + (X2 - x ) + … + (Xn - x ) n = 1 [ (X1 + X2 + … + Xn) - n x ) n = 1 [nx -nx]=0 n Por lo tanto, si Yi = Xi - x , i = 1, 2, …, n, entonces: y =0 Como ilustración numérica, Si XT = (1 2 3 4), entonces x =2.5 Si Yi = Xi - x , esto es YT = (-1.5 -0.5 0.5 1.5) Por lo que Y = 0 ♦ Lo primero que se nos ocurriría para medir la dispersión sería n una expresión del tipo ∑ (X − x ) i =1 i , pero existe un inconveniente; no importa cuál sea la muestra, como ya hemos visto, siempre es cierto que, n ∑ ( X − x ) = (X - x ) i =1 i 1 + (X2 - x ) + ... + (Xn- x ) = ΣXi - n x = n x - n x = 0 Por lo tanto éste es un resultado muy relevante, sobre todo para simplificar cálculos, pero no lo es para medir dispersión. 28
  • 29. ESTADÍSTICA G. Zurita Fundamentos y Aplicaciones Varianza Muestral Ésta es la razón fundamental por la que para estos fines se usan Medida de Dispersión n de una variable X con respecto a la media sumas cuadráticas del tipo ∑ (X − x) 2; y, la primera medida de i =1 i dispersión con respecto a la media que utilizaremos será la Varianza Muestral s2 que se la define como: n s2 = ∑ (X − x ) i =1 i 2 /( n –1) Este valor no puede ser negativo y será cero cuando y solo cuando, todas las observaciones adopten el mismo valor, lo cual significa que la media es igual a tal valor y cada una de las diferencias que constituyen la suma cuadrática son cero. La medida de dispersión así definida no viene dada en las mismas unidades que los valores observados, sino en unidades cuadráticas, es decir, que si medimos cantidad de precipitación Desviación Estándar Raíz cuadrada pluvial en centímetros cúbicos, la varianza estará en positiva de la varianza centímetros cúbicos al cuadrado. Por esta razón es común utilizar la raíz cuadrada positiva de la varianza; medida a la que llamamos desviación estándar o desviación típica de la muestra. Se la denota por s y se la define como ya indicáramos, igual a la raíz cuadrada positiva de la varianza, (X i − x ) 2 s= + n −1 Una pregunta que surge inmediatamente después que se repara en cómo está definida la varianza muestral, es la presencia en el denominador de (n-1) cuando nuestra intuición nos dice que mas naturalmente “se ve” n, como es el caso de la Media Aritmética. Una respuesta parcial es “podríamos haberlo utilizado” y de hecho se lo utiliza, pero la respuesta con soporte teórico vendrá en capítulos posteriores, cuando estudiemos “estimación de parámetros poblacionales”, mientras tanto utilizaremos axiomáticamente (n-1) en el denominador de la definición de la varianza muestral. Ejemplo 1.10 Considérese la muestra previamente estudiada, XT = ( 7 12 10 3 4 7 3 9 6 9 2 4 6 4 4 9 7 4 7 11) Calcúlese su varianza y desviación típica. Desarrollo. 29
  • 30. ESTADÍSTICA G. Zurita Fundamentos y Aplicaciones Siendo n = 20 hemos encontrado que x = 6.40 por lo tanto: n s2 = ∑ (X − x ) i =1 i 2 /( n –1) s2 = [(2 - 6.40)2 + (3 - 6.40)2 + … + (11 - 6.40)2 + (12 - 6.40)2]/19 s2 = 8.36 De donde la desviación típica de la muestra es: (Xi − x ) 2 s= + n −1 s = + 8.36 = 2.89 ♦ 1.8.5.- Media y Varianza de datos agrupados No siempre es obvio para quien comienza a adentrarse en el quehacer estadístico, cómo calcular la Media Aritmética o la Varianza de datos agrupados; aunque en realidad explicando la lógica tras del algoritmo todo parece sencillo. Recordemos que la agrupación de datos se da en k clases y que cada clase tiene una marca de clase. Llamemos Yi a la i-ésima marca de clase y supongamos que fi es la frecuencia absoluta de esa clase. Esto hace que la Media Aritmética X de los datos agrupados sea igual a: k x = ∑ i =1 fi Yi / n En tanto que la varianza de los datos agrupados es igual a: k s2 = ∑ i =1 fi (Yi - x )2 / (n –1) Nótese que las sumatorias tienen k términos y no n. Ejemplo 1.11 Durante cinco horas se efectúa un conteo de vehículos en una calle que corre de norte a sur en Guayaquil. Se reportan datos cada cinco minutos. En la primera columna de la tabla adjunta consta la frecuencia con que ocurren valores en cada una de las clases que se definen en la segunda columna. Cinco veces “pasaron” entre cinco y quince vehículos; ocho veces entre quince y veinticinco, y así hasta que cinco veces pasaron entre 2 sesenta y cinco y setenta y cinco vehículos. Calcular x y s . 30
  • 31. ESTADÍSTICA G. Zurita Fundamentos y Aplicaciones Figura 1.12 Tabla de Datos Frecuencia Marca de Clase Absoluta Clase 5 [5,15) 10 8 [15,25) 20 10 [25,35) 30 15 [35,45) 40 10 [45,55) 50 7 [55,65) 60 5 [65,75) 70 Desarrollo. Este es un caso de datos agrupados, n = 60 y k = 7 X= número de vehículos que “pasan” cada cinco minutos Las correspondientes marcas de clase son: 10, 20, 30, 40, 50, 60, 70. Por tanto: k x = ∑i =1 fi Yi / n , donde Yi son las ocho marcas de clase, no las sesenta observaciones. 5(10) + 8( 20) + 10(30) + 15( 40) + 10(50) + 7(60) + 5(70) x= = 39.67 60 Calculando la varianza de estos datos agrupados. 5(10 − 39.67) 2 + 8(20 − 39.67) 2 + ... + 5(70 − 39.67) 2 s2 = = 288.023 60 − 1 Mientras que la desviación estándar S de los datos agrupados es: s = + 288.023 = 16.97 ♦ 1.8.6.- Media y Varianza de funciones de X Supóngase que dada una muestra X de tamaño n en la que se investiga una característica X, definimos Yi = αXi + β. Donde α y β son constantes reales y el subíndice i varía de 1 hasta n. Pretendemos encontrar el valor de la media y la varianza de Y=αX + β. 31