Este documento presenta un resumen de los principios básicos de la estadística descriptiva, incluyendo medidas de tendencia central como la media, mediana y moda, medidas de dispersión como el rango y la desviación estándar, y conceptos como intervalos de clase, frecuencias y percentiles. También incluye ejemplos ilustrativos sobre un conjunto de datos de cáncer de mama.
2. Principios. Determinar la naturaleza de la información. Conocer la distribución de los datos. Los datos que no han sido procesados ni ordenados se conocen como datos brutos. A los números individuales utilizados para describir datos se les llama medidas descriptivas.
3. Arreglo ordenado. Es el primer paso para organizar datos. Es una lista de valores de un grupo en orden de magnitud, de menor a mayor. Esto permite detectar con rapidez los valores de las mediciones mas pequeñas. Sí se hace uso de un computador, no se requiere un arreglo ordenado ya que los datos se pueden pedir puntualmente.
10. Amplitud del intervalo de clase. Los intervalos de clase deben tener la misma amplitud. Siendo w la amplitud del intervalo, k el numero de intervalos de clase y R el rango (diferencia entre la observación mínima y la observación máxima) w= R/k
12. Frecuencia relativa. Proporción de las observaciones que caen dentro de un intervalo de clase. Se obtiene dividiendo el numero de valores en un intervalo de clase particular, entre el número total de valores.
13.
14.
15.
16. Generalidades. En términos generales la variable edad es una variable numérica. Por lo que es necesario hacer la descripción en términos cuantitativos y unidimensionales.
17.
18.
19.
20.
21. Aplicación de Sturges k = 1 + 3.322 (log10n) k = 1 + 3.322 (log1066) k = 1 + 3.322 (1,81) 7.82.
54. El histograma. Es una manera de ver gráficamente una distribución de frecuencias relativas o absolutas de una variable cuantitativa. Los valores de la variable respectiva se ponen en el eje horizontal y las frecuencias o frecuencias relativas en el eje vertical. Las celdas en el grafico son conjuntas.
55. Ejemplo 2. Aun cuando para fines descriptivos, la variable edad se paso a una escala ordinal para poder resumir adecuadamente los datos, la naturaleza de la variable es cuantitativa, por ello se pude analizar haciendo uso de un histograma. A continuación se describirá gráficamente la variable tiempo de muerte de la base de datos de cáncer de mama.
56.
57.
58.
59.
60.
61. Proporciona información sobre el rango del conjunto de datos, muestra la ubicación de la mayor concentración de observaciones, revela la presencia o ausencia de simetría.
63. El tallo, se forma con uno o mas dígitos iníciales de la medición, y las hojas se forman con uno o mas de los dígitos restantes.
64.
65. Medidas de tendencia central. Hay otras formas para resumir los datos. Aveces se requiere condensar los datos haciendo uso de alguna medida descriptiva. Las medidas descriptivas pueden calcularse para las muestras o para las poblaciones de datos. Una medida descriptiva calculada a partir de los datos de una muestra se llama estadística. Una medida descriptiva calculada a partir de los datos de una población se llama parámetro.
66. Medidas de tendencia central. Las medidas de tendencia central es un valor del conjunto de datos, se considera como la representación del todo. Las medidas de tendencia central conllevan información respecto al valor promedio de un conjunto de valores. Las tres medidas son: media, mediana y moda.
67. La media aritmética. Comúnmente conocida como promedio. Se obtiene sumando todos los valores en una población o muestra y dividiendo entre el numero de valores sumados. Es aritmética porque se obtiene por dichos procedimientos matemáticos, además se usa para distinguirse de otros tipos de media.
74. Sí el numero de valores es impar, la mediana es el valor medio o central siempre y cuando todas las variables sean arregladas en orden de magnitud.
90. Medidas de dispersión. Se refiere a la variedad de las observaciones de una muestra o población. Variabilidad total de un conjunto de datos. Sí todos los datos son iguales no hay dispersión. La magnitud de la dispersión es pequeña cuando los datos tienden a ser parecidos entre Sí. Dos muestras pueden tener medias iguales pero dispersiones distintas.
99. Desviación estándar. La varianza es una medida de dispersión al cuadrado, por lo que no expresa del todo la dispersión de los datos originales. Se utiliza la desviación estándar que en ultimas es la dispersión original del dato. Es la raíz cuadrada de la varianza.
101. Coeficiente de variación. Se utiliza cuando se quiere comparar la dispersión de dos conjuntos de datos La comparación de las dos desviaciones estándar puede dar un resultado equivocado. C.V. = s/media (100)
102.
103.
104. Cado un conjunto de n observaciones x1, x2. x3 ….xn, el p-esimo percentil P es el valor de X, tal que p por ciento o menos de las observaciones son menores que P y (100-p) por ciento o menos de las observaciones son mayores que P.
105.
106. Ejemplo 6 A un grupo de niños se les hizo la prueba de coeficiente intelectual, quedando en los siguientes percentiles, interprételos. P33 P99 P39 p13
107. IQR o rango intercuartilico. Es la diferencia entre cuartil 3 y cuartil 1. IQR: Q3-Q1