Orientação Técnico-Pedagógica EMBcae Nº 001, de 16 de abril de 2024
Estatística básica
1. MEDIDAS DE DISPERSÃO
Medidas de tendência central fornecem um
resumo parcial das informações de um conjunto
de dados. A necessidade de uma medida de
variação é aparente, para que nos permita, por
exemplo, comparar conjuntos diferentes de
valores. Algumas característica desta medida
devem ser atendidos como veremos a seguir.
2. MEDIDAS DE DISPERSÃO
Amostragem A: 8, 8, 9, 10, 11, 12, 12
Média 10; Mediana 10 e Bimodal (8, 12)
Amostragem B: 5, 6, 8, 10, 12, 14, 15
Média 10; Mediana 10 e sem Moda
Amostragem C: 1, 2, 5, 10, 15, 18, 19
Média 10; Mediana 10 e sem Moda
As medidas de tendência central pouco ou nada informam a
respeito da dispersão dos dados
O conceito de medida de dispersão é relativamente difícil. O
quanto informativo é dizer que as três amostragens possuem
dispersão 4, 10 e 18 (Y7-Y1)?
3. MEDIDAS DE DISPERSÃO
Amostragem D: 8, 9, 10, 10, 10, 11, 12
Média 10; Mediana 10 e Modal 10
Amostragem E: 5, 7, 9, 10, 11, 13, 15
Média 10; Mediana 10 e sem Moda
Amostragem F:1, 5, 8, 10, 12, 15, 19
Média 9; Mediana 10 e sem Moda
Estes três conjuntos de dados também possuem dispersão
máxima igual a 4, 10 e 18, respectivamente. As amostras A, B
e C apresentam um maior número de observações mais
distantes da média, enquanto nas amostras D, E e F ocorre um
maior número de observações concentradas em torno da
média. Torna-se interessante que haja uma definição a qual
use todas as observações e que seja um pequeno valor quando
as observações se aproximam da média e grande quando estas
são espaçadas.
4. MEDIDAS DE DISPERSÃO
Por fim considere os dados destas duas
amostras:
Amostra A: 5, 6, 8, 10, 12, 14, 15
Amostra B: 105, 106, 108, 110, 112, 114, 115
A dispersão (Y7-Y1) é igual nas duas amostra
e, portanto, independe do tamanho dos
números.
5. MEDIDAS DE DISPERÇÃO
O critério geralmente utilizado é aquele que mede a concentração dos
dados em torno da média, e algumas medidas são as mais usadas: desvio
médio, variância, desvio padrão e Coeficiente de Variação.
Ex: 3, 4, 5, 6, 7 (média 5), os desvios xi-x, são: -2, -1, 0, 1 ,2.
1, 3, 5, 7, 9 (média 5), os desvios xi-x, são: -4, -2, 0, 2, 4.
É fácil observar que a soma dos desvios é igual a zero, o que torna
inviável esta medida. As opções são:
a)Considerar o total dos desvios em valor absoluto (módulo) ou,
b)Considerar o total dos quadrados dos desvios. Assim teríamos:
Para a amostra: 3, 4, 5, 6, 7
= 2 + 1 + 0 + 1 + 2 = 6 (a)
2
= 4 + 1 + 0 + 1 + 4 = 10 (b)
xixn
i
i −∑=
5
1
( )xixn
i
i −∑=
5
1
6. DESVIO MÉDIO
O desvio médio (DM) refere-se à média dos desvio em valor
absoluto, como na fórmula a seguir, aplicada a amostra 3, 4, 5,
6, 7.
DM(x) = /n , usando o exemplo anterior DM(x) = 6/5 = 1,2
Para a amostra 1, 3, 5, 7, 9 teríamos:
DM(x) = /n , DM(x) = 12/5 = 2.4
Baseado nos dados, pode-se dizer que a primeira amostra é mais
homogênea.
xixn
i
i −∑=
5
1
xixn
i
−∑=
5
1
1
7. VARIÂNCIA
A medida que contempla os aspectos apresentados e que é mais utilizada é
a Variância. A variância é representada por dois símbolos: σ2
(letra grega
sigma) para população e s2
para uma amostra. As fórmulas para a
variância da população e da amostra são apresentadas abaixo.
População: σ2
= 2
/n
Amostra: s2
= 2
/n-1,
O denominador n-1 tem o propósito de tornar a variância da amostra a
estimativa da variância da população. N-1 é conhecido como grau de
liberdade e refere-se ao número de somas independentes lineares numa
soma de quadrados.
A variância é uma medida que expressa um desvio quadrático médio. A
unidade da variância é portanto o quadrado dos dados originais. Ex: para
dados expressos em centímetros a variância será expressa em centímetros
quadrados.
( )µ−∑=
k
i
i ixn
1
( )xixn
k
i
i −∑=1
8. VARIÂNCIA
Para as amostras 3, 4, 5, 6, 7 e
1, 3, 5, 7, 9
As variâncias seriam:
S1
2
= (3-5)2
+ (4-5)2
+(5-5)2
+ (6-5)2
+ (7-5)2
/4 S1
2
=2,5
S2
2
= (1-5)2
+(3-5)2
+(5-5)2
+(7-5)2
+(9-5)2
/4 S2
2
=10
A amostra 3, 4, 5, 6, 7 é mais homogênea.
10. DESVIO PADRÃO
Sendo a variância uma medida que expressa um desvio quadrático médio, esta
pode causar alguns problemas de interpretação. Para evitar isto, costuma-se usar o
desvio padrão, que é definido como a raiz quadrada positiva da variância. Desta
forma, tem-se uma medida de variabilidade expressa na mesma unidade dos
valores do conjunto de dados. O desvio padrão (σ, para população e s para
amostras) pode ser calculado através das seguintes fórmulas:
σ= e s =
O DESVIO PADRÃO DAS AMOSTRAS 3, 4, 5, 6, 7 e 1, 3, 5, 7, 9 seria:
S1= =1,58
S2= =3,16
( )
∑
−k i
n
xin
1
2
µ ( )
∑ −
−k i
n
xxin
1
2
1
5,2
10
11. COEFICIENTE DE VARIAÇÃO
A variação ou dispersão real, determinada a partir do desvio
padrão, ou qualquer outra medida de dispersão, é denominada
dispersão absoluta. Entretanto, uma variação ou dispersão de
10 cm, na medida de uma distância de 1.000 m, é
inteiramente diferente, quanto ao efeito, da mesma variação
em uma distância de 20 cm. A medida desse efeito é
proporcionada pela dispersão relativa, definida por:
Dispersão relativa = Dispersão absoluta/média
Se a dispersão absoluta é o desvio padrão s e a média é a
aritmética, a dispersão relativa é denominada Coeficiente de
Variação ou de Dispersão.
CV= −
x
s
100∗
12. COEFICIENTE DE VARIAÇÃO
O coeficiente de variação é geralmente expresso em
percentagem. O C.V. é independente das unidades
adotadas. Por essa razão, é vantajosa para a
comparação de distribuições cujas unidades podem
ser diferentes. Uma desvantagem do C.V. é que ele
deixa de ser útil quando a média esta próximo de
zero.
Baixa dispersão: CV ≤ 15%
Média dispersão: CV 15-30%
Alta dispersão: CV ≥ 30%
13. ERRO PADRÃO DA MÉDIA
(Sx)
Quando se obtém uma amostra aleatória de tamanho
n, estima-se a média populacional. É bastante
intuitivo supor que se uma nova amostra aleatória for
realizada a estimativa obtida será diferente daquela
primeira. Desta forma, reconhece-se que as médias
amostrais estão sujeitas à variação e formam
populações de médias amostrais, quando todas as
possíveis amostras são retiradas de uma população.
O erro padrão analisa a variabilidade de uma
média
14. Erro padrão
Fornece um mecanismo de medir a precisão com que a média
populacional foi estimada
n
S
Sx =