Este documento presenta una introducción a conceptos básicos de estadística descriptiva. Explica la diferencia entre datos e información, y cómo obtener información a partir de una muestra de datos mediante su ordenamiento, tabulación, graficación y cálculo de medidas. Cubre temas como tablas de frecuencias, gráficos, medidas de tendencia central y dispersión, y series temporales. El objetivo es que el lector aprenda a diferenciar datos de información, caracterizar y representar muestras, y calcular estadísticos descriptivos bás
1. SUMARIO:
Tratamiento Estadístico
de Datos 1
1.1.- Introducción
1.2.- Datos e Información
1.3.- Algo más Formal sobre Muestras
1.3.1.- Caracterización de Muestras
1.3.2.- Obtención de Información a partir de los Datos de una muestra
1.3.3.- Ordenamiento de Datos
1.3.4.- Tabulación de Datos
1.4.- Tabulación de Datos
1.4.1.- Frecuencias absolutas y relativas
1.4.2.- Tablas de Frecuencias
1.5.- Gráficos de Frecuencias
1.6.- Cuantiles de una Muestra
1.6.1.- Definiciones y Determinación Gráfica
1.6.2.- Diagrama de Caja
1.7.- Algoritmos para el Cálculo de Cuantiles
1.8.- Medidas de Tendencia Central y Dispersión
1.8.1.- La Media Aritmética y Otras Medidas de Tendencia Central
1.8.2.- La Media y la Mediana de una misma Muestra
1.8.3.- La Media Cortada de una Muestra
1.8.4.- Medidas de Dispersión
1.8.5.- Media y Varianza de Datos Agrupados
1.8.6.- Media y Varianza de Funciones de X
1.9.- Más sobre Dispersión
1.9.1.- Simplificación de Cálculos
1.9.2.- Cuantiles y Medidas de Dispersión
1.9.3.- Otros Diagramas y Representaciones Gráficas de una Muestra
1.9.4.- Valores Aberrantes detectados en Diagramas de Caja
1.10.- Trabajo con dos o mas Variables
1.10.1.- Coeficiente de variación
1.10.2.- Gráficos Q-Q
1.11.- Estadística Descriptiva Multivariada
1.11.1.- Vector de Medias y Matriz de Covarianzas
1.11.2.- Coeficiente de Correlación de Muestras
1.12.- Observación de Procesos en el Tiempo
1.12.1.- Series Temporales y Filtros
1.12.2.- Patrones y Filtrado de Datos
1.12.3.- Causas de Variación de un Proceso
1.13.- Datos Cualitativos
1.13.1.- Escalas de Medidas
1.13.2.- Escalas de Clasificación
Objetivos del Capítulo
Que el lector llegue a:
1) Diferenciar entre dato e información.
2) Diferenciar muestra y población objetivo.
3) Ser capaz de agrupar los datos de una muestra y construir tablas de frecuencias relativas.
4) Ser capaz de entender y determinar estadísticos de orden.
5) Ser capaz de construir gráficos de frecuencia relativa como histogramas, ojivas, polígonos y
diagramas de cajas.
6) Identificar en la ojiva qué son los cuartiles, deciles y percentiles de una muestra.
7) Calcular cualquier cuantil muestral utilizando estadísticos de orden
8) Entender los conceptos relacionados con tendencia central y dispersión muestral.
9) Calcular medidas de correlación entre dos variables de una misma muestra.
10) Identificar fenómenos representables por series temporales y filtrarlas de ser necesario.
2. ESTADÍSTICA
G. Zurita
Fundamentos y Aplicaciones
1.1.- INTRODUCCIÓN
Este capítulo es la presentación de lo que es la Estadística en
sus más elemental expresión; todas las secciones, excepto una,
el único requerimiento matemático que poseen es el que
ostenta un bachiller recién graduado. Se comienza diferenciando
información de dato y se instruye al lector acerca de cómo tratar
muestras de datos cuantitativos, llevándolo a construir tablas,
gráficos y diagramas, así como a calcular cuantiles,
particularmente mediana, deciles, percentiles y los cuartiles
primero y tercero. Se introduce como medidas de dispersión el
rango muestral y el rango intercuartil. Destaca la ojiva entre los
gráficos de frecuencia que se construyen.
En una siguiente etapa se define y cuantifica la tendencia central
de una muestra así como las mas usuales medidas de dispersión
muestral; teniendo el capítulo una de sus secciones
especialmente trabajadas en la que se hace referencia a la
determinación de cuantiles, utilizando estadísticos de orden.
La presencia de valores poco usuales o aberrantes es también
tratada en este capítulo, se explica su incidencia en los valores
que miden tendencia central y se hace uso del diagrama de caja
para diagnosticar su presencia.
Igualmente se discute ventajas y desventajas del agrupamiento
de datos y como determinar indicadores a partir de esta
situación. Se presentan también una introducción al tratamiento
de datos ligados al tiempo, series temporales, creación de
“filtros” para suavizar las series. También se introduce la noción
de tratamiento simultáneo de varias características de una
misma Población Objetivo, en una sección a la que se denomina
”Estadística Descriptiva Multivariada” y que es la única en la
que se requiere conocimiento de operaciones con matrices, para
construir matrices de datos y matrices de varianzas y
covarianzas e una muestra.
Existe una última sección en la que se presentan escalas de datos
y se sugiere como tratar variables cualitativas.
1.2 .- DATOS E INFORMACIÓN
En Estadística tratamos en primer lugar con datos, esto es, con
Población Objetivo una cantidad n de mediciones no procesadas, sean estas
Conjunto bien numéricas (cuantitativas) o categóricas (cualitativas), que
definido de elementos
que son objeto de
llenan nuestro cuaderno de apuntes o reposan en un instrumento
medición de almacenamiento de datos, sea éste un disco duro, “flash
memory”, o sencillamente un CD. Finalmente reposarán en una
base de datos para su manejo o en una bodega de datos
2
3. ESTADÍSTICA
G. Zurita
Fundamentos y Aplicaciones
(warehouse) para su almacenamiento histórico y posterior
Unidades de tratamiento con Minería de Datos. Estas mediciones son
Investigación
efectuadas a elementos de algún conjunto bien definido, al que
Elementos de la
población objetivo llamaremos población objetivo. A los elementos de la
población objetivo, los llamaremos unidades de investigación.
Para efectos de este primer análisis vamos a suponer que las
medidas efectuadas son cuantitativas.
Supondremos además que el tamaño de la población objetivo es
Muestra N y que de este conjunto seleccionamos un subconjunto de n
Subconjunto de n unidades de investigación, sobre los cuales vamos a efectuar
unidades de las mediciones de alguna de sus características. No mediremos
investigación tomados
entonces la característica investigada a todos los elementos de la
de la población
población objetivo sino a parte de ellos, esto significa que N >
n. Sin discutir, por ahora, la manera que efectuamos la selección
Observación de las n unidades de investigación, al total de los n valores
Cada valor incluido medidos los llamaremos muestra. Cada valor incluido en la
en la muestra
muestra es una observación.
Estamos seguros que el lector ha reparado en la sutil, pero
importante, diferencia entre “observación” y “unidad de
investigación”.
Diremos entonces que hemos tomado una muestra de tamaño n
de una “población” de tamaño N, o que tenemos una muestra
constituida por n observaciones.
Ejemplo 1.1
Sea una Población Objetivo que está conformada por seis
unidades de investigación, N=6; supongamos que la medida de
interés X toma valores, a, b, c, d, e, f. Indicar cómo seleccionar
la muestras de tamaño n = 2 de esta población.
Desarrollo.
El conjunto de valores de donde podemos escoger una de las
muestras requeridas es:
{ a, b, c, d, e, f }
Si se necesita tomar una muestra de tamaño n = 2 ; son muchas
las opciones que pueden seleccionarse, bien podría ser que la
muestra elegida sea {a,b}; también puede ser {a,c} o
cualquiera de las opciones como, {a,d}; {a,e}; {a,f}; {a,f};
{b,c}; y así sucesivamente, hasta considerar la opción {e,f}. ♦
Pensando en casos numéricos mas específicos, puede ser que
de los N=12537 estudiantes matriculados en una universidad, a
cien de ellos, n=100, les preguntemos cuál es el número de
materias en las que se encuentran registrados al momento de la
3
4. ESTADÍSTICA
G. Zurita
Fundamentos y Aplicaciones
entrevista, o que a esos mismos estudiantes les midamos su
estatura en metros.
En el caso de la primera pregunta, las respuestas conforman una
muestra de tamaño cien que está constituida por números
enteros, en tanto que las cien estaturas lo mas probable es que
las representemos como números reales con al menos dos
decimales de precisión.
Nótese que “medir” en términos estadísticos puede significar
que le hagamos una pregunta a quien investiguemos o que
utilizando un instrumento cuantifiquemos alguna de sus
características distintivas, o que le pidamos se pronuncie sobre
un asunto en particular.
Algo mas, los elementos de la Población Objetivo, o unidades
de investigación, pueden ser también entes irracionales o
inanimados, a quienes no es posible hacerles preguntas.
Pensemos que la característica que nos interesa es el porcentaje
de hierro contenido en las rocas que yacen en el lecho de un río,
o que en una provincia del país, nos interesa la proporción de
ganado vacuno infectado de fiebre aftosa.
Para el primer caso, los datos serán obtenidos en un laboratorio,
en el segundo, un veterinario dictaminará la presencia o no de
ese mal.
1.3.- ALGO MÁS FORMAL SOBRE MUESTRAS
1.3.1.- Caracterización de muestras
Si representamos por X a una característica de interés de cierta
población objetivo, a una muestra de tamaño n tomada de esta
población, la representaremos por,
{X1, X2, ... , Xn}
Es también válido representar esta muestra por un vector X en
Rn de la siguiente forma:
XT = (X1 X2... Xn)
Donde XT representa al vector transpuesto de X. Se usa la
transpuesta del vector X y no el vector X en sí, por razones de
edición.
4
5. ESTADÍSTICA
G. Zurita
Fundamentos y Aplicaciones
Ejemplo 1.2
A cinco estudiantes politécnicos se les pregunta en cuántos
semestres, a partir del momento de la entrevista, estiman que
van a graduarse; determine la muestra si lo que se obtiene
como respuesta es: siete, cinco, ocho, cinco y cuatro semestres.
Desarrollo.
En este caso, n = 5 y además, X1 = 7; X2 = 5; X3 = 8; X4 = 5 y
X5 = 4.
La muestra igualmente puede ser escrita como:
XT = (7 5 8 5 4) ♦
Nótese que hasta el momento, una muestra es solo un conjunto
X de datos que no ha recibido procesamiento alguno.
1.3.2.- Obtención de información a partir de los datos de una muestra
Si bien el proceso de “toma de datos” es vital en Estadística, a
Información tal punto que ha merecido desarrollos teóricos importantes y las
Conjunto de datos consecuentes técnicas a ser aplicadas, por el momento no nos
procesados que nos preocuparemos de aquello y supondremos simplemente que
permiten tomar contamos con los datos. Algo mas, los datos, como tales, no son
decisiones racionales mas que materia prima dispuesta a ser procesada, ellos por sí
solo poco o nada pueden decirnos. Para que podamos tomar
decisiones racionales, necesitamos procesarlos, esto es
convertirlos en información.
Si nos encontramos frente a una muestra de tamaño n, ¿Qué es
lo que nosotros necesitamos hacer para que pase a ser material
estadísticamente útil?, esto es, para que pase a ser información.
Cuatro son las acciones que con el conocimiento que al
momento suponemos maneja el lector, pueden tomarse, y estas
son:
i) Ordenar los datos;
ii) Tabular los datos ordenados;
iii) Graficar los datos ordenados utilizando el concepto de
frecuencia relativa; y,
iv) Calcular a partir de la muestra cantidades que representen
“peculiaridades” siempre presente en las muestras que son
relevantes para la toma de decisiones.
1.3.3.- Ordenamiento de datos
La primera acción, esto es ordenar los valores constitutivos de
una muestra, es sencilla, aunque pudiera ser tediosa, cuando se
5
6. ESTADÍSTICA
G. Zurita
Fundamentos y Aplicaciones
trabaja con muestras de tamaño relativamente grande y no
disponemos de una máquina procesadora de datos. Para
representar una muestra ordenada debemos definir que es lo que
se entiende por un estadístico de orden.
Dada una muestra X de tamaño n, al primer estadístico de
orden lo denotamos por X(1) y lo definimos como el mínimo
valor que constituye la muestra, esto es,
X(1) = min{X1 , X2, ..., Xn}
El estadístico de orden n se lo denota como X(n) y lo definimos
como el máximo valor que constituye la muestra, esto es,
X(n) = max{X1 , X2, ..., Xn}
De forma similar definimos al estadístico de orden dos, tres, y
así pasando por el i-ésimo orden, llegamos al de orden (n-1) y
orden n, esto significa que:
X(1) ≤ X(2) ≤ ... ≤ X(i) ≤ … ≤ X(n-1) ≤ X(n)
Ejemplo 1.3
A partir del Ejemplo 1.2 determine los estadísticos de orden
que correspondan.
Desarrollo.
En el mencionado ejemplo, consideramos una muestra de
tamaño cinco en la que,
X1 = 7; X2 = 5; X3 = 8; X4 = 5 y X5 = 4
Concordante con las definiciones previas,
X(1) = min{ 7 ; 5 ; 8 ; 5 ; 4}= 4
X(n) = X(5) = max{7 ; 5 ; 8 ; 5 ; 4 }= 8
Considerando ahora la muestra ordenada,
X (1) = 4; X (2) = 5; X (3) = 5; X (4) = 7; y X (5)= 8 ♦
Nótese que el número cinco, como valor observado, tiene doble
calidad; es el estadístico de orden dos y de orden tres al mismo
tiempo, ya que este valor se encuentra repetido en la muestra.
6
7. ESTADÍSTICA
G. Zurita
Fundamentos y Aplicaciones
1.3.4.- Tabulación de Datos
Para tabular datos cuantitativos, y así facilitar la exploración
estadística de los mismos, se requiere definir algunos términos y
efectuar ciertos supuestos. Los términos que necesariamente
deben definirse son: clase, marca de clase, frecuencia
absoluta, frecuencia relativa, frecuencia acumulada
absoluta, frecuencia acumulada relativa y tabla de
frecuencias.
Cualquier dato en una muestra es mayor o igual a su mínimo
valor X(1), pero menor o igual a su máximo valor X(n); teniendo
en cuenta esto, vamos a considerar un intervalo cerrado de
números reales al que denominaremos A y cuyo extremo
inferior lo denominaremos a1 y cuyo extremo superior es ak+1,
tal cual se lo bosqueja en la Figura 1.1
Figura 1.1
Intervalo A de Números Reales que incluye todo los datos en la
muestra
• • • •
a1 X(1) X(n) ak+1
A= {x∈R | a1 ≤ x < ak+1}= [a1, ak+1)
Necesariamente a1 debe ser menor o igual que X(1) así como
también que ak+1 debe ser mayor o igual que X(n).
Particionamos ahora el intervalo A así definido, en k
subintervalos semiabiertos y ordenados de tal manera que
dichos subintervalos,
Clase a) tengan igual longitud;
Intervalos exhaustivos
y mutuamente
b) su unión sea igual al intervalo A; y,
excluyentes en una c) la intersección entre cualquiera de estos subintervalos sea
muestra vacía.
Diremos que estos intervalos son exhaustivos y mutuamente
excluyentes y a cada uno de ellos lo denominaremos clase.
Hemos definido entonces k clases para una muestra de tamaño
n.
Obviamente k es mucho menor que n y dicho valor se lo escoge
de acuerdo a las instrucciones que nos dé el profesor en clase, o
de acuerdo a la experiencia de la persona que está haciendo el
análisis de los datos. Quien no tiene experiencia, ni tiene
cercano un profesor pero sí una computadora, verá resuelto su
problema consultando o dejando funcionar libremente a
paquetes computacionales especializados en Estadística, ya que
7
8. ESTADÍSTICA
G. Zurita
Fundamentos y Aplicaciones
dichos paquetes, tales como MINITAB*, SPSS** o
SYSTAT**, realizan automáticamente esta tarea, si así lo
requerimos. Un valor sugerido de partida es k ≥ 7.
Formalizando lo definido anteriormente se tiene que
A= {x∈R | a1 ≤ x < ak+1}= [a1, ak+1)
Además tenemos:
a) Se ha definido,
primera clase = [a1, a2)
segunda clase = [a2, a3)
.
.
.
k-ésima clase = [ak , ak+1)
Recuérdese que el intervalo semiabierto
[ai , ai+1) = {x∈R ⏐ai ≤ x < ai+1}
En tanto que:
[ak-1, ak) = {x∈R ⏐ak-1 ≤ x < ak}
Existiendo además el supuesto de que la longitud L de cada una
de las clases es la misma, esto es,
L = d(a1 , a2) = d(a2 , a3) = ... = d(ak , ak+1)
Donde la expresión d(a , b) simboliza la “distancia” del número
real a al número real b, que no es mas, en este caso, que el valor
absoluto de la diferencia entre a y b. Esto es, d(4 , 5) =⏐4-5⏐=
d(5 , 4) =⏐5-4⏐ = 1 ó d(-3 , 3) =⏐-3 - 3⏐ = 6.
b) La unión de los k subintervalos es A; lo cual significa que:
k
[a1, a2)∪[a2 , a3)∪...∪[ak , ak+1) = A = U
i=1
[ai , ai+1)
c) La intersección de los k subintervalos es vacía, esto es,
k
[a1, a2) ∩ [a2 , a3)∩... ∩ [ak , ak+1) = ∅ = I [ai , ai+1)
i=1
Marca de Clase Al valor central de cada una de las clases, se lo obtiene sumando
Valor central de cada sus extremos y dividiendo para dos, este valor central se
una de las clases denomina marca de clase, lo cual significa que:
la primera marca de clase = (a1 + a2)/2;
la segunda marca de clase = (a2 + a3)/2;
.
8
9. ESTADÍSTICA
G. Zurita
Fundamentos y Aplicaciones
.
.
y, la k-ésima marca de clase = (ak + ak+1)/2.
Ejemplo 1.4
Supongamos que se tiene una muestra de tamaño n = 50 datos
y que el mínimo X(1) es igual a 42 y el máximo X(50) es 106.
Se requiere determinar clases y marcas de clase para la
muestra.
Desarrollo.
Se nos sugiere tomar k = 7, de tal manera que
A= {x∈R ⏐40 ≤ x < 110} = [40, 110)
Esto hace posible que:
la primera clase = [40, 50);
la segunda clase = [50 , 60);
.
.
.
y, la séptima clase = [ 100 , 110)
Bajo estas condiciones, la primera marca de clase es
(40+50)/2 =45; la segunda marca de clase es 55; la tercera es
65; y de esta manera hasta llegar a la séptima marca de clase
que es 105. ♦
Así construida la resolución del problema, la misma goza de las
siguientes características:
El intervalo A contiene a todos los n = 50 valores que
conforman la muestra ya que X(1) así como también X(50)
pertenecen al intervalo A.
Cada una de las siete marcas de clase está perfectamente
establecida y tienen la misma longitud (diez unidades);
El intervalo A es igual a la unión de las k = 7 clases (las clases
son exhaustivas); y,
Ninguna clase comparte elementos con otra (las clases son
mutuamente excluyentes);
Para tener una idea gráfica de lo contenido en este problema,
imaginemos una figura como la que denomináramos Figura 1.1
en líneas previas y ubique los valores a1 que es 40, a2 que es
50; hasta llegar a a8 = 110. Recuérdese que k = 7, pero que
9
10. ESTADÍSTICA
G. Zurita
Fundamentos y Aplicaciones
tenemos que llegar hasta ak+1 que en este caso es 110. A
continuación la Figura 1.2
Figura 1.2
Intervalo A (unión de las siete clases)
[ ) [ ) [ ) [ )
40 50 60 70 80 90 100 110
[ ) [ ) [ )
a1 ak+1
A= {x∈R ⏐40 ≤ x < 110} = [40, 110)
1.4.- TABULACIÓN DE DATOS
1.4.1.- Frecuencias absolutas y relativas
Para tabular datos con el propósito de hacer un análisis
estadístico exploratorio de los mismos, aun necesitamos efectuar
algunas definiciones que se relacionan con el tamaño de la
muestra y el número de observaciones que la muestra tiene en
cada una de las k clases que hayamos determinado.
Supóngase que ya hemos ordenado los datos y que además se
han determinado las k clases que creemos pertinentes; vamos a
darle un tratamiento adicional a esta muestra ordenada.
Recordemos que ordenada o no, la muestra tiene n
observaciones y que por la forma que se definen las clases, sin
ambigüedad podemos afirmar que todos los elementos de la
muestra pertenecen a alguna de las k clases.
Frecuencia Absoluta Denotaremos f1 al número de observaciones en la muestra, que
Número de pertenecen a la primera clase, esto es al intervalo [a1, b1) y a f1 lo
observaciones en la denominaremos frecuencia absoluta de la primera clase o
muestra que simplemente primera frecuencia absoluta. En el mismo
pertenecen a cada una contexto f2, será la segunda frecuencia absoluta, y así
de las clases
sucesivamente hasta llegar a fk, que es la k-ésima frecuencia
absoluta o el número de observaciones que pertenecen a la
muestra y que al mismo tiempo se ubican en la k-ésima clase.
La suma de las frecuencias absolutas de una muestra es n, esto
es,
k
f1 + f2 + ... + fk = n = ∑ f i
i =1
Frecuencia Relativa
División de la Recuérdese que fi es un número mayor o igual que cero y menor
frecuencia absoluta o igual que n. Pasamos a definir frecuencia relativa de una
de cada una de las clase.
clases para el tamaño La frecuencia relativa de la primera clase resulta de dividir f1
n de la muestra
para el tamaño n de la muestra; de manera similar la frecuencia
10
11. ESTADÍSTICA
G. Zurita
Fundamentos y Aplicaciones
relativa de la segunda clase se obtiene al dividir f2 para n. Y
así pasando por la frecuencia relativa de la i-ésima clase,
llegamos a la frecuencia relativa de la k-ésima clase que
calculamos dividiendo fk para n.
Toda frecuencia relativa es un número mayor o igual a cero pero
menor o igual que uno, esto es,
f
0≤ i ≤ 1; siendo, i = 1, 2,..., k.
n
F1, la frecuencia acumulada absoluta de la primera clase, se
la define igual a f1; la de la segunda clase F2 = f1 + f2; y así
sucesivamente la frecuencia acumulada de la k-ésima clase
es:
Fk = f1 + f2 + ... + fk-1 + fk
Es claro que Fk es igual a n. Véase Figura 1.3
Con estos antecedentes es evidente como definir la frecuencia
acumulada relativa de la i-ésima clase, esto es, la misma
resulta de dividir Fi para n, siendo i = 1; 2;...; k.
Fk
Ocurre por tanto que n
es igual a uno.
Figura 1.3
Definición de Frecuencia Acumulada
F1 = f 1
F2 = f 1 + f 2
F3 = f 1 + f 2 + f 3
F4 = f 1 + f 2 + f 3 + f 4
F5 = f 1 + f 2 + f 3 + f 4 + f 5
F6 = f 1 + f 2 + f 3 + f 4 + f 5 + f 6
F7 = f 1 + f 2 + f 3 + f 4 + f 5 + f 6 + f 7
* Para efectos visuales el valor de k es siete (k=7)
1.4.2.- Tablas de frecuencias
Tabla de Dada una muestra ordenada de tamaño n, una Tabla de
Frecuencias frecuencias es un arreglo rectangular que tiene siete columnas y
Arreglo rectangular k filas, sin incluir la rotulación; la primera columna es para el
que tiene siete
“ordinal de la clase”, la segunda para definir la clase, luego la
columnas y k filas, sin
incluir la rotulación marca de clase, frecuencia absoluta, frecuencia relativa,
frecuencia absoluta acumulada y la séptima columna para la
frecuencia relativa acumulada. Véase la Figura 1.4
11
12. ESTADÍSTICA
G. Zurita
Fundamentos y Aplicaciones
Figura 1.4
Tabla General de Frecuencias
Frecuencia Frecuencia
Marca de Frecuencia Frecuencia
Ordinal Clase Absoluta Relativa
Clase Absoluta Relativa
Acumulada Acumulada
1 [a1,a2) (a1+a2)/2 f1 f1/n F1 F1/n
2 [a2,a3) (a2+a3)/2 f2 f2/n F2 F2/n
3 [a3,a4) (a3+a4)/2 f3 f3/n F3 F3/n
. . . . . . .
. . . . . . .
. . . . . . .
k [ak,ak+1) (ak+ak+1)/2 fk fk/n FK= n FK/n = 1
Téngase en cuenta que al multiplicar por cien cualquier tipo de
frecuencia relativa se obtiene un porcentaje.
Construida una Tabla de frecuencia, estamos en capacidad de
efectuar algunas afirmaciones que no podríamos hacer si
observáramos solamente al dato “puro” llegado desde el campo
u obtenido en el laboratorio. Podríamos decir por ejemplo cuál
es la proporción de observaciones que se encuentran en una
clase, al utilizar la frecuencia relativa; cuál es el porcentaje de
observaciones que pertenecen a una clase y a todas las previas,
si utilizamos la frecuencia relativa acumulada multiplicada por
cien; o, qué porcentaje de observaciones pertenecen a las clases
siguientes a la i-ésima si utilizamos (1-Fi/n).100, etc., etc.
Hemos ya dado un paso relevante en la exploración estadística
de datos, los comenzamos a convertir en información.
Recomendamos siempre utilizar los valores de las frecuencias
relativas y no valores de las frecuencias absolutas; la razón de
esta sugerencia será obvia cuando en capítulos subsiguientes
hagamos inferencias estadísticas sustentadas en principios
probabilísticos. Las frecuencias absolutas deben ser utilizadas
como valores de paso, cuya utilidad es al final obtener valores
relativos con los que se puedan efectuar generalizaciones.
Ejemplo 1.5
Se tiene un conjunto de n = 50 datos que luego de ordenarlos,
configuran la siguiente muestra:
2 3 3 4
5 6 6 7 9
10 10 12 13 14 14 15
15 15 16 16 17 17 18 18 18 19 19 19
21 21 23 24 24 25 25 25 25
27 28 28 29 29
31 32 33 35 35
36 39 39
Estos cincuenta datos representan el número de fallas
cosméticas y estructurales detectados en los edificios de una
12
13. ESTADÍSTICA
G. Zurita
Fundamentos y Aplicaciones
comunidad urbana que va a ser regenerada por la
municipalidad del cantón. Construir la correspondiente Tabla
de Frecuencias.
Desarrollo.
Dado el resultado del ordenamiento notamos que X(1)= 2 y
X(50)= 39. De igual manera optamos por construir k = 8 clases
de longitud cinco unidades, siendo la primera definida por el
0+5
intervalo [0, 5), su marca de clase es = 2.5 ; su frecuencia
2
absoluta es cuatro y la frecuencia relativa de esta clase es
4
= 0.080 ; la frecuencia acumulada absoluta F1 es cuatro y la
50
frecuencia acumulada relativa es también 0.080 por ser la
primera clase y por tanto no existe clase previa.
Para la segunda clase , como puede verse en la Figura 1.5, la
frecuencia absoluta f2 es cinco; la frecuencia relativa es 0.10 ;
la frecuencia acumulada absoluta F2 es nueve y la marca de
clase 7.5. Véanse detalles en la figura que se presenta a
continuación. ♦
Figura 1.5
Tabla de Frecuencias
Frecuencia Frecuencia
Marca de Frecuencia Frecuencia
Ordinal Clase Absoluta Relativa
Clase Absoluta Relativa
Acumulada Acumulada
1 [0,5) 2.5 4 0.080 4 0.080
2 [5,10) 7.5 5 0.100 9 0.180
3 [10,15) 12.5 6 0.120 15 0.300
4 [15,20) 17.5 13 0.260 28 0.560
5 [20,25) 22.5 5 0.100 33 0.660
6 [25,30) 27.5 9 0.180 42 0.840
7 [30,35) 32.5 3 0.060 45 0.900
8 [35,40) 37.5 5 0.100 50 1.000
1.5.- GRÁFICOS DE FRECUENCIAS
A partir de una tabla de frecuencias obtenida para una muestra
X de tamaño n,
XT = (X1 X2... Xn)
es posible construir representaciones gráficos que revelan de
manera sencilla, mucho de la información contenida en la
misma. Entre estas representaciones están los histogramas de
frecuencia, polígonos de frecuencia, ojivas y diagramas de
caja, que pasamos a describir a continuación.
13
14. ESTADÍSTICA
G. Zurita
Fundamentos y Aplicaciones
Un histograma de frecuencia es un gráfico bidimensional de
Histograma de “barras” en cuyo eje horizontal están señaladas las k clases que
Frecuencia
Gráfico bidimensional se han determinado para construir la Tabla de Frecuencia; en el
de “barras” en cuyo eje vertical se representan las frecuencias relativas de cada
eje horizontal están clase. El gráfico contendrá k barras cuyo “ancho” coincide con
señaladas las k clases, la longitud de la clase y cuya “altura” es igual la frecuencia
y en el eje vertical se relativa de la clase. El histograma de frecuencia, debe ser
representan las
frecuencias relativas graficado de tal manera que se respeten las escalas, nos presenta
de cada una de ellas una imagen visual acerca de la información relacionada con la
proporción de observaciones en cada clase, las comparaciones e
interrelaciones que con ellas pueden hacerse. Véase Figura 1.6
la misma que corresponde a los cincuenta datos presentados en
el Ejemplo 1.5. Son ocho clases de longitud cinco, la primera de
las cuales es [0,5) y la última (octava) es [35,40)
Figura 1.6
Histograma de Frecuencia
0,300
0,250
0,200
Frecuencia Relativa
0,150
Polígono de 0,100
Frecuencia
Gráfico derivado del 0,050
histograma de
frecuencia que utiliza 0,000 X
como vértices los [0,5) [5,10) [10,15) [15,20) [20,25) [25,30) [30,35) [35,40)
puntos centrales Intervalos de Clase
superiores de las
barras del histograma
y que para obtener la
Un gráfico derivado del correspondiente histograma de
intersección con el eje
horizontal crea frecuencia, es el Polígono de frecuencia, que resulta al
artificialmente dos determinar un polígono, utilizando como vértices del mismo, los
nuevas “clases”. puntos centrales superiores de las barras del histograma. Para
obtener intersección entre el polígono y el eje horizontal se
crean artificialmente dos nuevas “clases”, una antes de la
primera, a la cual llamaremos “clase cero” y otra luego de la
última, que pasa a ser la “clase (k+1)-ésima”. De esta manera, el
primer vértice del polígono lo situamos en la marca de clase de
la clase cero y el último vértice en la marca de clase de la clase
(k+1)-ésima. Véase Figura 1.7 en que se construye un Polígono
de Frecuencia con los datos del Ejemplo 1.5.
El polígono de frecuencia en términos generales contiene
información similar que la presentada por el histograma de
frecuencias, sin embargo es recomendable construirlo si la
característica que se investiga en la población objetivo, es
continua.
14
15. ESTADÍSTICA
G. Zurita
Fundamentos y Aplicaciones
Figura 1.7
Polígono de Frecuencia
0,300
0,250
0,200
Frecuencia Relativa
0,150
0,100
0,050
0,000 X
[0,5) [5,10) [10,15) [15,20) [20,25) [25,30) [30,35) [35,40)
Intervalos de Clase
Uno de los mas útiles gráficos en Estadística es la Distribución
Distribución de de Frecuencia Acumulada o simplemente Ojiva. Este esquema
Frecuencia gráfico, representa en el eje horizontal la característica
Acumulada (Ojiva)
Gráfico que cuantitativa X, que estamos investigando y ubica sobre el
representa en el eje mismo eje, las k clases en que hemos decidido organizar la
horizontal la muestra de tamaño n, o podríamos decir también la muestra
característica constituida por n observaciones. En el eje vertical ubicamos la
cuantitativa X que se frecuencia acumulada relativa.
está investigando y en
el eje vertical la
frecuencia acumulada Obviamente que los valores en el eje horizontal dependen de la
relativa característica X que medimos; pueden ser dólares si en una
“Encuesta de Hogares” investigamos los ingresos de n hogares
que constituyen una comunidad; pueden ser centímetros si
medimos la estatura de n estudiantes; gramos si lo que hacemos
es pesar n camarones que hemos tomado de una piscina de
acuicultura, o, resistencia a fuerzas cortantes de un material si
en un laboratorio de Mecánica de Sólidos investigamos tal
característica. En el eje vertical, no importa qué se investigue,
allí se ubica la frecuencia acumulada relativa, esto significa que
solo se utilizarán, en este eje, valores que comiencen en cero y
terminan siempre en uno.
Recordando que la muestra con la que tratamos ya ha sido
ordenada y que además se supone ya tenemos determinadas las
k clases que se necesitan; el gráfico de una Ojiva se construye
determinando (k+1) puntos y luego conectándolos de manera
sucesiva y con trazos continuos, de la siguiente manera:
El primer punto tiene coordenadas (a1, 0) donde a1 es el extremo
inferior de la primera clase, el segundo punto tiene coordenadas
(a2, F1/n) siendo a2 el extremo inferior de la segunda clase; el
tercer punto tiene coordenadas (a3, F2/n) y así sucesivamente
hasta llegar al penúltimo punto que tiene como coordenadas (ak,
15
16. ESTADÍSTICA
G. Zurita
Fundamentos y Aplicaciones
Fk-1/n); siendo el último punto el que tiene coordenadas (ak+1,
Fk/n).
El gráfico de una ojiva es continuo; recuérdese además que Fk/n
es igual a uno. Obsérvese la Figura 1.8
Figura 1.8
Distribución de Frecuencia Acumulada (Ojiva)
1
Frecuencia Acumulada Relativa
0,75
0,5
0,25
Q1 Q2 Q3
0
X
4 8 12 16 20 24 28 32
La Ojiva es utilizada con profusión para comparar situaciones
en las que bajo distintas circunstancias o a distintos entes se
mide una misma característica; por ejemplo, el ingreso mensual
en dos distintas comunidades de los jefes de hogares o las notas
en dos distintas materias que obtiene un mismo grupo de
estudiantes. Obsérvese en la Figura 1.9, las ojivas A y B. Si
ellas representaran los ingresos en dólares de dos comunidades,
¿En cuál de las dos quisiera usted vivir?. Si se tratara de las
notas obtenidas por un mismo grupo humano en dos cursos
diferentes que han tomado en una universidad ¿Cuál curso
presenta mayor grado de dificultad para aprobarlo?.
Figura 1.9
Ingresos en dólares de Dos Comunidades (A y B)
1
A B
Frecuencia Acumulada Relativa
0,75
0,5
0,25
Q1 Q2 Q3 Q1 Q2 Q3
0
X
4 8 12 16 20 24 28 32 36 40 44 48 52 56 60 64 68
16
17. ESTADÍSTICA
G. Zurita
Fundamentos y Aplicaciones
1.6.- CUANTILES DE UNA MUESTRA
1.6.1.- Definiciones y determinación gráfica
Primer Cuartil (Q1) La Ojiva es además un excelente instrumento para ilustrar
Valor de X tal que
definiciones de orden cuantitativo que se efectúan cuando se
nos mas del
veinticinco por ciento exploran estadísticamente los datos de una muestra ordenada,
de las observaciones para obtener la información en ella contenida.
en la muestra toman
valores menores o Como definición diremos que el Primer Cuartil o Cuartil
iguales que Q1
Inferior de una muestra en la que se investiga una
característica continua X, es un valor Q1 de X, tal que no mas
del veinticinco por ciento de las observaciones en la muestra
ordenada toman valores menores o iguales que Q1.
Segundo Cuartil
(Q2)
Valor de X tal que En tanto que el Segundo Cuartil o Cuartil Central de una
nos mas del cincuenta muestra se denota por Q2 y se lo define como el valor de X tal
por ciento de las que, no mas del cincuenta por ciento de los valores en la
observaciones en la muestra son menores o iguales que Q2.
muestra son menores
o iguales que Q2
Al Tercer Cuartil o Cuartil Superior de una muestra se lo
denota Q3 y se lo define en términos del setenta y cinco por
ciento de los elementos en la muestra tomando valores menores
Tercer Cuartil (Q3) o iguales que Q3, o equivalentemente el veinticinco por ciento
Valor de X tal que el de los valores en la muestra son mayores que Q3.
setenta y cinco por
ciento de los
elementos en la A los tres cuartiles definidos se los puede representar en una
muestra toman ojiva muy claramente como se bosqueja en la Figura 1.8
valores menores o
iguales que Q3 Se tiene en esta figura una ojiva y en el eje vertical marcados los
valores 0.25; 0,50 y 0.75. Para ubicar, sobre el eje horizontal, el
valor del primer cuartil Q1, se traza un segmento de recta
horizontal que contenga al punto A de coordenadas (0, 0.25) y
que sirve además para determinar el punto A´ en el que la ojiva
y la recta tiene su intersección; incluyendo A´ se traza un
segmento de recta perpendicular al eje horizontal; en la
intersección del segmento con este eje se encuentra el valor Q1,
que es el Primer Cuartil.
Nótese que el Primer Cuartil Q1 no es un punto sobre el plano
sino una coordenada sobre el eje horizontal, esto es, Q1 es un
valor numérico.
Utilizando el mismo procedimiento constructivo, se determinan
gráficamente Q2 y Q3 esto es, los cuartiles segundo y tercero ya
definidos.
Al segundo cuartil de la muestra se lo denomina también
Mediana Muestral y en secciones venideras abundaremos
sobre este valor y la forma de calcularlo.
17
18. ESTADÍSTICA
G. Zurita
Fundamentos y Aplicaciones
Así como se definieron tres cuartiles, es posible definir nueve
Deciles y noventa y nueve Percentiles de la muestra.
Los deciles muestrales se los denota D1, D2, D3, hasta D9;
pudiendo decirse que cuando mas el diez por ciento de los
elementos en la muestra toman valores menores o iguales al
Primer Decil D1; el veinte por ciento de los elementos en la
muestra toman valores menores o iguales a D2; y así hasta llegar
al Noveno Decil, D9, cuando el noventa por ciento de las
observaciones que conforman la muestra toman valores
menores o iguales que D9.
Se encarga al lector determinar el significado de los percentiles
muestrales P1, P2, ..., P99; indicando que el uno por ciento de los
elementos en la muestra toman valores menores o iguales que
P1, el Primer Percentil de la muestra, y que el noventa y nueve
por ciento son menores o iguales que P99 el Nonagésimo
Noveno Percentil de la muestra. De igual manera se exhorta al
lector a ubicarlos en el eje horizontal de una ojiva.
Es procedente decir que Q1 = P25, que Q2 = D5 = P50 o que Q3 =
P75.
De igual manera puede complementarse lo hasta aquí expresado
sobre estos cuantiles, esto es percentiles, deciles y cuartiles, que
cuando mas, el setenta y cinco por ciento de las observaciones
en la muestra toman valores mayores a Q1; que el cincuenta por
ciento de las observaciones “centrales” de la muestra se
encuentra entre Q1 y Q3; que el noventa por ciento de los
valores observados está entre P5 y P95, o que el sesenta por
ciento de las observaciones se encuentran entre D2 y D8.
Insistimos, los cuantiles de una muestra no son puntos en el
plano, son valores numéricos; además los cuantiles no tienen
que necesariamente ser valores que pertenezcan a la muestra.
Téngase en cuenta que la ojiva es una función creciente en X, en
realidad monótona creciente, y por tanto cuando se la utiliza
para estimar cuantiles, éstos quedan determinados
unívocamente.
1.6.2.- Diagrama de caja
Un subproducto de la ojiva una vez que se han determinado los
cuartiles muestrales, es el denominado Diagrama de Caja,
esquema gráfico que nos permite obtener de manera rápida,
aunque no necesariamente exacta, la distribución de los datos
que conforman la muestra. Véase la Figura 1.10
18
19. ESTADÍSTICA
G. Zurita
Fundamentos y Aplicaciones
Figura 1.10
Diagrama de Caja
Esquema gráfico que Diagrama de Caja
nos permite obtener Q1 Q2 Q3
de manera rápida, • • • • X
aunque no
necesariamente
precisa, la 1 X(1) X(n)
distribución de los
datos que conforman
muestra 0.00 10.00 20.00 30.00 40.00
Si bien este diagrama comúnmente se lo “adosa” a una ojiva, es
posible presentarlo aislado, tal cual se lo hace en la Figura 1.10,
siempre que se tengan los valores correspondientes a Q1 , Q2 y
Q3, así como los valores máximo y mínimo en la muestra, esto
es X(n) y X(1).
En la Figura 1.10 se presenta un Diagrama de Caja; como
puede verse está constituido por un rectángulo (caja) y dos
segmentos de recta (bigotes).
La longitud de la caja es Q3 – Q1; el bigote del lado izquierdo
del lector se inicia en el valor mínimo X(1) y termina en Q1,
mientras que el bigote del lado derecho comienza en Q3 y
termina en X(n).
El segmento de recta punteado, al interior de la caja, determina
el valor de la Mediana o Segundo cuartil Q2.
En la presencia de Valores Extremos o Valores Aberrantes,
se debe reconceptualizar la construcción del Diagrama de Caja,
y en particular la longitud de los bigotes. Sobre este tema
volveremos en próximas secciones.
1.7.- ALGORITMOS PARA EL CÁLCULO DE CUANTILES
Dada una muestra XT= (X1 X2... Xn) de tamaño n, el valor
mínimo X(1) (o cualquier estadístico de orden i) puede ser
también visto como un cuantil, puesto que la proporción p =1/n
de los datos observados son menores o iguales a X(1).
Recuérdese que de igual manera podemos decir que el (1/n)100
por ciento de los elementos de la muestra son menores o iguales
a X(1) . Puede ocurrir eso sí, que el valor (1/n)100 =100/n no sea
un número entero y nos enfrentaríamos a un cuantil de tipo aun
no definido, particular que trataremos de superar en esta
sección.
Consideremos dos estadísticos de orden que sean consecutivos,
llamémoslos X(i) y X(i+1); i = 1,2,…,n-1 si definimos el
19
20. ESTADÍSTICA
G. Zurita
Fundamentos y Aplicaciones
promedio X(i) y X(i+1) , esto será denotado como X(i.5) y
explícitamente:
X(i.5) = ( X(i)+ X(i+1))/2 = X(i) +( X(i+1)- X(i))/2 ;
= X(i) + 0.50( X(i+1) - X(i)) ; i = 1,2,…,n-1
De manera similar podemos definir:
X(i.2 ) = X(i) + 0.20( X(i+1) - X(i)); i = 1,2,…,n-1.
X(i.4) = X(i) + 0.40( X(i+1) - X(i)); i = 1,2,…,n-1. ; ó,
X(i.95) = X(i) + 0.95( X(i+1) - X(i)); i = 1,2,…,n-1.
Podríamos, en general, definir X(i.a), de la siguiente manera:
X(i.a) = X(i) + 0.a( X(i+1) - X(i)); i = 1,2,…,n-1 , a real positivo.
No intentamos darles nombres específicos a estos estadísticos de
orden, pero su significado es aparentemente obvio.
Ejemplo 1.6
Supongamos que una muestra de tamaño n=5 es
XT = (2 3 8 7 4).
Aquí la muestra nos permite determinar que, X(1) = 2; X(2) = 3;
X(3 )= 4; X(4) = 7, y que X(5) = 8.
El estadístico de orden m es X(m) = X(n+1)/2, donde definimos
m como igual a (n + 1)/2; en este caso m es (5+1)/2=3; por
tanto X(m) es X(3) =4 , que en este caso (n es un número
impar) es el segundo Cuartil Muestral Q(2) o también conocido
como Mediana de la Muestra.
Alteremos un poco la muestra previamente analizada y
supongamos que ella ahora es XT = (2 3 8 5 7 9) y
nuevamente intentemos calcular X(m).
Tenemos en la nueva muestra X(1 )= 2; X(2) = 3; X(3) = 5; X(4)
= 7, X(5 )= 8 y X(6) = 9.
Siendo ahora n=6, m ya no es un número entero sino que es
igual a 3.5. Para calcular Q2 debemos determinar por tanto
X(3.5) , que es el valor que le corresponde a Q(2) Procedamos,
primero de la manera tradicional y luego aplicando la
definición de X(i.a) :
Q2 = (X(4)+ X(3))/2 = 0.5( 7+5)=6.
De igual manera
20
21. ESTADÍSTICA
G. Zurita
Fundamentos y Aplicaciones
Q(2) = X(3.5) = X(3) + 0.5( X(4) - X(3)) = 5 + 0.5( 7-5) = 6 ♦
En el caso de la primera muestra su mediana es 3 y a su vez es
válido decir que la mediana muestral es un valor que pertenece
a la muestra, en el segundo caso la mediana es 6 y este valor, no
pertenece a la muestra. En el primer caso el tamaño n de la
muestra es impar y en el segundo es par.
Así como hemos calculado el segundo cuartil de la muestra,
puede calcularse el primero Q1 o el tercero Q3 haciendo m =
0.25(n+1) ó m = 0.75(n+1) respectivamente, sin importar si el
tamaño es par o impar.
Siguiendo este patrón se puede determinar los percentiles
muestrales que definiéramos previamente y que pasamos a
ilustrar a continuación.
Se aconseja nunca perder el sentido de la realidad.
Ejemplo 1.7
En un laboratorio de Química Analítica se determina el número
de partes por millón de un metal pesado que se encuentra
disuelto en las aguas de un río del litoral ecuatoriano. Luego de
efectuar veinte observaciones se obtiene una muestra que es la
siguiente.
XT = ( 7 12 10 3 4 7 3 9 6 9 2 4 6 4 4 9 7 4 7 11)
Para esta muestra determinar el primer Decil, el Primer Cuartil,
Tercer Cuartil, la mediana y el percentil noventa y cinco
(nonagésimo quinto).
Desarrollo.
Muestra ordenada
2 3 3 4 4 4 4 4 6 6 7 7 7 7 9 9 9 10 11 12
Sea m = 0.1(n+1) = 0.1(21) = 2.1
D(1) = X(2,1) = X(2) + 0.1(X(3) - X(2))
= 3 + 0.1(3 - 3)
= 3
Sea m = 0.25(n+1) = 0.25(21) = 5.25
Q(1) = X(5,25) = X(5) + 0.25(X(6) - X(5))
= 4 + 0.25(4 - 4)
= 4
Sea m = 0.75(n+1) = 0.75(21) = 15.75
21
22. ESTADÍSTICA
G. Zurita
Fundamentos y Aplicaciones
Q(3) = X(15,75) = X(15) + 0.75(X(16) - X(15))
= 9 + 0.75(9 - 9)
= 9
Sea m = 0.5(n+1) = 0.5(21) = 10.5
Mediana = Q(2)
Q(2) = X(10,5) = X(10) + 0.5(X(11) - X(10))
= 6 + 0.5(7 - 6)
= 6.5
Sea m = 0.95(n+1) = 0.95(21) = 19.95
P(95) = X(19,95) = X(19) + 0.95(X(20) - X(19))
= 11 + 0.95(12 - 11)
= 11.95 ♦
1.8.- MEDIDAS DE TENDENCIA CENTRAL Y DISPERSIÓN
1.8.1.- La media aritmética y otras medidas de Tendencia Central
Las tablas de frecuencias y los gráficos y diagramas que hasta
ahora hemos construido, nos han dado una representación visual
de lo que es la información contenida en una muestra y los
cuantiles alguna información cuantitativa de la misma, sin
embargo, aun no hemos puesto suficiente énfasis en el análisis
cuantitativo de la información contenida en los n datos
muestrales. Comencemos por buscar un valor numérico que
pudiera sintetizar o representar todos los datos, estamos
hablando de la Tendencia Central o de la Medida de Posición
de los mismos.
El primero y mas utilizado por su facilidad para calcularlo y
Media Aritmética “por la noción intuitiva ” del mismo es lo que se denomina
Promedio de los n
datos contenidos en la Media Aritmética de la Muestra, se lo denota x y se lo
muestra define como el promedio de los n datos contenidos en la misma,
esto es:
n
x = (X1 + X2 + ... +Xn)/n = ∑X / n
i =1
i
Mediana (Q2)
Valor de X tal que
cuando mas el También es una medida de posición o tendencia central el
cincuenta por ciento Segundo Cuartil Q2 o Mediana Muestral, que ya hemos
de las observaciones
en la muestra toman presentado, de manera informal cuando construíamos la Ojiva
un valor menor o Muestral; y, de manera formal cuando presentamos la forma de
igual a él calcular percentiles utilizando estadísticos de orden.
22
23. ESTADÍSTICA
G. Zurita
Fundamentos y Aplicaciones
Dijimos que Q2 es también el percentil cincuenta y por tanto,
cuando mas el cincuenta por ciento de las observaciones toman
un valor menor o igual a él. También dijimos que Q2 es el
estadístico de orden m, siendo m=(n + 1)/2, donde como
siempre en el contexto de esta capítulo, n es el tamaño de la
muestra en consideración. Esto significa que
Q2 = X([n + 1]/2)
Hay quienes hacen análisis exploratorio de datos y prefieren
definir la mediana muestral, considerando si el tamaño de la
muestra es par o impar, en cuyo caso señalan que la mediana Q2
es el promedio de los estadísticos de orden X(n/2) y X([n/2]+1) si n
es par; y, que es igual a X([n +1]/2) si n es impar. Nótese que las
definiciones son equivalentes, cuando hemos definido
estadísticos de “orden racional positivo” como X(i.5) y no solo
de orden entero positivo como X(i).
Sobra decir que estamos hablando de una muestra ordenada,
caso contrario no estaríamos en capacidad de determinar
estadísticos de orden.
Otra medida de tendencia central con alta frecuencia utilizada es
la Media Ponderada de la Muestra, la denotaremos por Mw.
Media Ponderada
Sumatoria de cada
Cuando calculamos la media aritmética, cada observación Xi
observación Xi tiene igual “peso” o ponderación, en el procedimiento que se
multiplicada por su utiliza para determinarla; lo contrario ocurre para determinar
peso o ponderación esta nueva medida de posición que pretendemos introducir, para
correspondiente wi calcularla, cada observación tiene un peso wi, condicionado a
que la suma de los n pesos sumen uno. Definimos de esta
manera a la Media Ponderada Mw de la muestra de la siguiente
manera:
n
Mw = w1X1 + w2X2 + … + wnXn. = ∑ w X ; i=1,2,…,n;
i =1
i i
n
∑w
i =1
i =1
Los casos de utilización de esta medida de posición son
abundantes, los vive por ejemplo, un estudiante cuando al
iniciar el semestre su profesor le indica como va a ser calculada
su nota, sobre cien puntos, del curso que toma. Si le dice que
obtendrá cinco por ciento por tareas realizadas fuera de clase,
veinticinco por ciento por lecciones rendidas en clase y el resto
por un examen; esto significa que su nota es una media
ponderada de tres notas sobre cien , donde w1=.05; w2 =.25 ; y,
w3=.70 . En tanto que X1 es la nota que sobre cien obtenga por
“tareas”; X2 es lo que obtendría, sobre cien, por lecciones; y, X3
es su nota del examen, también sobre cien.
23
24. ESTADÍSTICA
G. Zurita
Fundamentos y Aplicaciones
Por tanto su nota ponderada, Mw es:
Mw = w1X1 + w2X2 +w3X3
Nótese que en principio, la media aritmética es una media
ponderada, solo que los ponderadores toman el mismo valor,
esto es:
1
w1 = w2 = ... = wn = n
1.8.2.- La media y la mediana de una misma muestra
Es evidente que si se toman datos en una investigación es para
que sean aprovechados lo mas posible; como medida de
tendencia central la media aritmética utiliza cada una de las
observaciones en la muestra, en tanto que la mediana utiliza
cuando mas dos de ellas, claro está que de una muestra
ordenada.
Puede por tanto decirse que para la determinación de la media
aritmética se utilizan todos los datos contenidos en la muestra,
sea esta ordenada o no, en tanto que para calcular la mediana,
no se lo hace; esto permite a muchos pensar que debe preferirse
siempre la media aritmética a la mediana, pero no es tanto así,
puesto que en presencia de valores extremos o aberrantes, el
efecto de éstos sobre la mediana es imperceptible en tanto que el
valor de la media aritmética se ve afectado de manera notoria,
pudiendo en el último caso, no ser la media aritmética muestral
una buena medida de lo que es la verdadera tendencia central
que se trata de determinar.
Recuérdese que los valores aberrantes ocurren por múltiples
razones, unas indeseables y otras inevitables. Entre los
indeseables aparecen los errores de lecturas que se dan en el
operativo de campo o en el laboratorio durante investigación,
donde, por ejemplo, se apunta una estatura de 2.45 metros para
una unidad de investigación, cuando se debió apuntar 1.45; o,
en la digitación, donde en el reporte de campo aparece 1.45,
pero al digitar se lo ingresa como 2.45. Estos errores no
estadísticos o “ajenos al muestreo” se los debe detectar en una
de las etapas de una encuesta o experimento, que se denomina
“Crítica de Datos” la misma que se efectúa antes y después de
la digitación. Antes, para tener la oportunidad de volver al
laboratorio y verificar cualquier valor que se salga del patrón
que muestren los datos; y, después de la digitación porque no
siempre “el dedo humano” ingresa lo que corresponde o porque
el lector óptico puede, por mala caligrafía o efectos
ambientales, interpretar una cantidad por otra.
24
25. ESTADÍSTICA
G. Zurita
Fundamentos y Aplicaciones
1.8.3.- La Media Cortada de una muestra
Media Cortada de la
Un remedio que se ha sugerido para obviar la sensibilidad de la
Muestra Media Aritmética a los datos aberrantes y al mismo tiempo
Media aritmética del poder utilizar la mayor cantidad de datos contenidos en la
(1-α)100% por ciento muestra, es la construcción de otra medida de tendencia central
de los datos a la que se denomina Media Cortada de la Muestra; se la
denota por Tα y se la define como la media aritmética del (1-
α).100 por ciento de los datos, suprimiendo, en una muestra
α α
ordenada, 2 100% de datos de la “parte superior” y 2 100% de
la “parte inferior” en la muestra. Este “recorte” supone que los
valores extremos, si existen, no serán considerados en el cálculo
de Tα.
Aunque con una muestra restringida, se aspira que la Media
Cortada disfrute simultáneamente de las “virtudes” de la Media
Aritmética y la Mediana, esto es, utilización máxima de los
datos disponibles e insensibilidad a valores extremos. Lo usual
es tomar α = 0.10 es decir, se calcula T.10.
Ejemplo 1.8
En el Ejemplo 1.7 se consideró la siguiente muestra,
XT = ( 7 12 10 3 4 7 3 9 6 9 2 4 6 4 4 9 7 4 7 11)
Calcular la media aritmética, la mediana y la media cortada
T.10.
Desarrollo.
20
x = (X1 + X2 + ... +X20)/20 = ∑ X / 20
i =1
i
= (7+12+10+3+4+7+3+9+6+9+2+4+6+4+4+9+7+4+7+11)/20
=6.40
Ordenando la muestra, ésta queda compuesta por:
2 3 3 4 4 4 4 4 6 6 7 7 7 7 9 9 9 10 11 12
Esto es:
X(1 )= 2; X(2 )= 3; X(3) = 3;…; X(19) = 11; X(20) = 12;
Para calculara la media cortada X.10, debemos prescindir, en la
muestra original, de X(1) = 2 y de X(20) = 12, por lo que el
noventa por ciento restante de la muestra X es el vector,
YT= (3 3 4 4 4 4 4 6 6 7 7 7 7 9 9 9 10 11)
25
26. ESTADÍSTICA
G. Zurita
Fundamentos y Aplicaciones
Resultando así que X.10 es:
X.10 = (3+3+4+4+4+4+4+6+6+7+7+7+7+9+9+9+10+11)/18 =
6.3333
Calculando la mediana Q(2) = X(10.5) = X10 + 0.5(X(11) – X(10)) =
5.5. En síntesis, la media aritmética de la muestra es 6.40; la
media cortada X.10 es 6.33 y la mediana muestral es 5.5, de tal
manera, la moda de la muestra, que es el valor que mas se
repite es 4, pues aparece cinco veces en la muestra. ♦
En capítulos posteriores hablaremos de cómo evitamos,
determinando Tα , una posible “contaminación” de la muestra y
que el valor de Tα que lo que obtenemos es un “estimador
robusto” del “verdadero” parámetro µ que mide la tendencia
central de la población.
1.8.4.- Medidas de Dispersión
Tener la medida de lo que es la tendencia central es importante,
pero no basta; no podemos sorprendernos que dos muestras que
posean conformación numérica distinta tengan la misma media
aritmética pero represente, estadísticamente, muy diferentes
realidades. Veamos las cuatro siguientes muestras:
X1T = (1 2 3); X2T = (-5 2 9);
X3T = (-10 -3 0 2 3 20); X4T = (0 2 4)
Ellas poseen algo en común, las cuatro tienen la misma media
aritmética, que es dos, pero difieren en su conformación
numérica; nótese que incluso la tercera tiene un tamaño, seis,
que es distinto al que tienen las demás, que es tres.
El mensaje aquí parecería ser: una medida de tendencia central
es relevante pero, no lo dice todo; en realidad falta algo mas.
Vamos a observar la distancia desde cada uno de los valores Xi
en la muestra a la media aritmética x , esto es,
d(Xi , x) =⎟ Xi - x ⎟
Recordando que en todos los casos del ejemplo bajo análisis las
muestras tienen media aritmética igual 2, tenemos para la
primera muestra: d(1,2) = 1 ; d(2,2) = 0 y d(3,2) = 1.
Para la segunda muestra d(-5,2) = 7 ; d(2,2) = 0 y d(9,2) = 7.
Para la tercera muestra d(-10,2) = 12 ; d(-3,2) = 5 ; d(0,2) = 2;
d(2,2) =0 ; d(3,2) =1 y d(20,2) = 18.
26
27. ESTADÍSTICA
G. Zurita
Fundamentos y Aplicaciones
Para la cuarta muestra d(0,2) = 2 ; d(2,2) = 0 y d(4,2) = 2.
Si sumásemos las distancias de la media aritmética a cada
observación obtendríamos una medida de cuan “lejos” o
dispersos se encuentran cada uno de los datos muestrales con
respecto a la media.
Para el primer caso tal suma de distancias es 2; para el segundo
14; para el tercero 38, y para el último 4. Véase Figura 1.11 que
ilustra de manera gráfica lo que de manera numérica hemos
determinado.
Figura 1.11
Cuatro Rectas representando cuatro Muestras señalando las
Distancias
X1
0 1 2 3
X2
-5 0 2 9
X3
-3 0 2 3 20
X4
0 2 4
Puede creerse que el número de observaciones en la tercera
muestra obligó a que la suma de las distancias sea mayor, pero
aunque es necesario reconocer que el número de observaciones
puede influir en la medida de la dispersión de una muestra,
piénsese en una muestra en la que todas las observaciones
tomen el mismo valor, sin importar el tamaño de la muestra,
siempre la suma de las distancias que hemos definido será cero.
Nótese que esta suma de distancias bajo ninguna circunstancia
puede ser negativa, pues se trata de sumas de distancias
“euclideanas” que como tal están definidas en términos de
valores absolutos de números reales.
Con esta idea de dispersión con respecto a la media aritmética
que hemos desarrollado en líneas previas, trataremos de
construir de una manera explícita, una o varias medidas para
cuantificar esta característica implícita en toda muestra.
En primer lugar la dispersión es un valor relacionado o relativo
a otro valor, pero este último no tiene necesariamente que ser
la media aritmética, puede ser algún otro pero tiene sus ventajas
que sea la media o al menos un valor que mida la tendencia
central de la muestra.
27
28. ESTADÍSTICA
G. Zurita
Fundamentos y Aplicaciones
Ejemplo 1.9
Dada una muestra XT = (X1 X2 … Xn), determinar la media y
la varianza de una muestra y que consiste de las n
observaciones cuantitativas de la muestra X a las que se les
resta su media aritmética.
Desarrollo.
Para el caso dado,
YT = [ (X1 - x ) (X2 - x ) … (Xn - x ) ]
= (Y1 Y2 … Yn)
Por lo que,
n
∑ Y / n = ∑ (X i − x ) / n
n
y= i
i =1 i =1
= 1 [ (X1 - x ) + (X2 - x ) + … + (Xn - x )
n
= 1 [ (X1 + X2 + … + Xn) - n x )
n
= 1 [nx -nx]=0
n
Por lo tanto, si Yi = Xi - x , i = 1, 2, …, n, entonces:
y =0
Como ilustración numérica,
Si XT = (1 2 3 4), entonces x =2.5
Si Yi = Xi - x , esto es YT = (-1.5 -0.5 0.5 1.5)
Por lo que Y = 0 ♦
Lo primero que se nos ocurriría para medir la dispersión sería
n
una expresión del tipo ∑ (X − x )
i =1
i , pero existe un inconveniente;
no importa cuál sea la muestra, como ya hemos visto, siempre
es cierto que,
n
∑ ( X − x ) = (X - x )
i =1
i 1 + (X2 - x ) + ... + (Xn- x )
= ΣXi - n x = n x - n x = 0
Por lo tanto éste es un resultado muy relevante, sobre todo para
simplificar cálculos, pero no lo es para medir dispersión.
28
29. ESTADÍSTICA
G. Zurita
Fundamentos y Aplicaciones
Varianza Muestral Ésta es la razón fundamental por la que para estos fines se usan
Medida de Dispersión n
de una variable X con
respecto a la media
sumas cuadráticas del tipo ∑ (X − x) 2; y, la primera medida de
i =1
i
dispersión con respecto a la media que utilizaremos será la
Varianza Muestral s2 que se la define como:
n
s2 = ∑ (X − x )
i =1
i
2
/( n –1)
Este valor no puede ser negativo y será cero cuando y solo
cuando, todas las observaciones adopten el mismo valor, lo cual
significa que la media es igual a tal valor y cada una de las
diferencias que constituyen la suma cuadrática son cero.
La medida de dispersión así definida no viene dada en las
mismas unidades que los valores observados, sino en unidades
cuadráticas, es decir, que si medimos cantidad de precipitación
Desviación Estándar
Raíz cuadrada pluvial en centímetros cúbicos, la varianza estará en
positiva de la varianza centímetros cúbicos al cuadrado. Por esta razón es común
utilizar la raíz cuadrada positiva de la varianza; medida a la que
llamamos desviación estándar o desviación típica de la
muestra. Se la denota por s y se la define como ya indicáramos,
igual a la raíz cuadrada positiva de la varianza,
(X i − x ) 2
s= +
n −1
Una pregunta que surge inmediatamente después que se repara
en cómo está definida la varianza muestral, es la presencia en el
denominador de (n-1) cuando nuestra intuición nos dice que
mas naturalmente “se ve” n, como es el caso de la Media
Aritmética. Una respuesta parcial es “podríamos haberlo
utilizado” y de hecho se lo utiliza, pero la respuesta con soporte
teórico vendrá en capítulos posteriores, cuando estudiemos
“estimación de parámetros poblacionales”, mientras tanto
utilizaremos axiomáticamente (n-1) en el denominador de la
definición de la varianza muestral.
Ejemplo 1.10
Considérese la muestra previamente estudiada,
XT = ( 7 12 10 3 4 7 3 9 6 9 2 4 6 4 4 9 7 4 7 11)
Calcúlese su varianza y desviación típica.
Desarrollo.
29
30. ESTADÍSTICA
G. Zurita
Fundamentos y Aplicaciones
Siendo n = 20 hemos encontrado que x = 6.40 por lo tanto:
n
s2 = ∑ (X − x )
i =1
i
2
/( n –1)
s2 = [(2 - 6.40)2 + (3 - 6.40)2 + … + (11 - 6.40)2 + (12 - 6.40)2]/19
s2 = 8.36
De donde la desviación típica de la muestra es:
(Xi − x ) 2
s= +
n −1
s = + 8.36 = 2.89 ♦
1.8.5.- Media y Varianza de datos agrupados
No siempre es obvio para quien comienza a adentrarse en el
quehacer estadístico, cómo calcular la Media Aritmética o la
Varianza de datos agrupados; aunque en realidad explicando la
lógica tras del algoritmo todo parece sencillo.
Recordemos que la agrupación de datos se da en k clases y que
cada clase tiene una marca de clase. Llamemos Yi a la i-ésima
marca de clase y supongamos que fi es la frecuencia absoluta de
esa clase. Esto hace que la Media Aritmética X de los datos
agrupados sea igual a:
k
x = ∑
i =1
fi Yi / n
En tanto que la varianza de los datos agrupados es igual a:
k
s2 = ∑
i =1
fi (Yi - x )2 / (n –1)
Nótese que las sumatorias tienen k términos y no n.
Ejemplo 1.11
Durante cinco horas se efectúa un conteo de vehículos en una
calle que corre de norte a sur en Guayaquil. Se reportan datos
cada cinco minutos. En la primera columna de la tabla adjunta
consta la frecuencia con que ocurren valores en cada una de las
clases que se definen en la segunda columna. Cinco veces
“pasaron” entre cinco y quince vehículos; ocho veces entre
quince y veinticinco, y así hasta que cinco veces pasaron entre
2
sesenta y cinco y setenta y cinco vehículos. Calcular x y s .
30
31. ESTADÍSTICA
G. Zurita
Fundamentos y Aplicaciones
Figura 1.12
Tabla de Datos
Frecuencia Marca de
Clase
Absoluta Clase
5 [5,15) 10
8 [15,25) 20
10 [25,35) 30
15 [35,45) 40
10 [45,55) 50
7 [55,65) 60
5 [65,75) 70
Desarrollo.
Este es un caso de datos agrupados, n = 60 y k = 7
X= número de vehículos que “pasan” cada cinco minutos
Las correspondientes marcas de clase son: 10, 20, 30, 40,
50, 60, 70.
Por tanto:
k
x = ∑i =1
fi Yi / n , donde Yi son las ocho marcas de clase, no
las sesenta observaciones.
5(10) + 8( 20) + 10(30) + 15( 40) + 10(50) + 7(60) + 5(70)
x= = 39.67
60
Calculando la varianza de estos datos agrupados.
5(10 − 39.67) 2 + 8(20 − 39.67) 2 + ... + 5(70 − 39.67) 2
s2 = = 288.023
60 − 1
Mientras que la desviación estándar S de los datos agrupados es:
s = + 288.023 = 16.97 ♦
1.8.6.- Media y Varianza de funciones de X
Supóngase que dada una muestra X de tamaño n en la que se
investiga una característica X, definimos Yi = αXi + β. Donde
α y β son constantes reales y el subíndice i varía de 1 hasta n.
Pretendemos encontrar el valor de la media y la varianza de
Y=αX + β.
31