SlideShare ist ein Scribd-Unternehmen logo
1 von 161
Downloaden Sie, um offline zu lesen
,
ESTATISTICA,
BASICA
WILTON O. BUSSAB
PEDRO A. MORETTIN
-.
MÉTODOS
QUANTITATIVOS
ESTATíSTICA
BÁSICA
À
Lígia e Célia
WILTON O. BUSSAB
PEDRO A. MORETIIN
MÉTODOS
QUANTITATIVOS
ESTATíSTICA
BÁSICA
4!' edição
DEDALUS - Acervo -IME
31000006184
Capa: Sylvio Ulhoa Cintra Fílho
Composição e Artes: AM P~oduções Gráficas Ltda.
Assessoria Editorial: Samuel Hazzan
Copyright © Wilton o. Bussab
Pedro A. Morettin
B'8&
4. ed.
87-0952
Dados de Catalogação na Publicação (Clr) Internacional
(Câmaca Brasileira do Uno, sr, Brasil)
Bussab, Wilton O., 1940-
Estatística básica I Wilton O. Bussab, Pedro A. Morettin.
4. ed. - São Paulo: Atual, 1987.
(Métodos quantitativos)
BibJiollrafia.
l. Econometria 2. Economia matemática 3. Estatís,· .
, ". 'E . . Iça maem Ica . . statlstJca matemática - Problemas, exercidos dc.
r. Moretlm, Pedro A., 1942· 11. Título. 111. Série.
fndlces paca catálogo sistemático:
1. Econometria 33O.D72
2. Estatística econômica: Matemática estatística
519.502433
3. Estatística matemática 519.5
4. Métodos quantitativos · Economia 330.D18
CDO-330.Ol8
·33O.Q72
-519.5
-519.502433
Copyright desta edição: -UNi"VE-~S7ÕAÓE·ÕÊ ·siDP AULO
ATUAL EDITORA LTDA., 1991.
Rua José Antônio Coelho, 785
04011 - São Paulo - SP
Te!.: (011) 575-1544
Todos os direitos reservados.
LNLSEC
tnsi'I~:v :!~ M~I~,~.,tI~ ~ '. E ,I~,i~liel
--_._,-.-.--
Data I' N;"';:")lMG~
."'" .J ,.
~
./ ; Rtlg4~~o;:
J..,~-:-51t
NOS PEDIDOS TELEGRÁFICOS BASTA CITAR; O CÓDIGO: ADTM0333L
,
Prefácio à Primeira Edição
Este é o volume de Estatística Básica da nossa série de Métodos Quan-
titativos. O objetivo do livro é introduzir os conceitos básicos de Esta-
tística, desenvolvendo a linguagem necessária para o acompanhamento
de disciplinas mais especializadas, constantes dos currículos de Econo-
mia e Administração, tais como Econometria, Estatística Econômica,
Estatística Aplicada à Administração, etc.
Para isso dividimos o livro em três partes: Parte I - Análise Explo-
ratória de Dados (Capítulos I a 3), onde apresentamos as técnicas des-
critivas de análise de dados brutos, enfatizando o conceito de distribuição
de freqüências, tanto no caso uni como no bidimensional; Parte 11 -
Probabilidades (Capítulos 4 a 7), onde introduzimos o conceito de pro-
babilidades, visando a criação de modelos teóricos para as distribuições
empíricas apresentadas na Parte I, bem como apresentamos os modelos
mais usuais dentro da Estatística; Parte In - Inferência Estatística (Ca-
pítulo 8 a 11), onde discutimos os princípios gerais de amostragem, esti-
mação e testes de hipóteses, procurando ressaltar as razões lógicas
subjacentes a estes conceitos.
O texto destina·se basicamente a um curso de dois semestres, e o
material dos sete primeiros capítulos seria o programa do primeiro se-
mestre.
O presente trabalho foi surgindo durante vários cursos le.cionados
pelos autores, tanto na EAESP-FGV como na FEA·USP, estes sob res-
ponsabilidade do IME-USP. Portanto, fomos beneficiados pelas suges-
tões, críticas e correções de colegas que lecionaram as mesmas disciplinas.
A eles somos profundamente gratos.
•Em particular, agradecemos à srta. Lourdes Vaz da Silva pelo per-
feito, paciente e dedicado trabalho de datilografar o manuscrito.
S. Paulo, maio de 1981.
Os autores.
Prefácio à Segunda Edição
Na segunda edição muitos erros foram corrigidos e alguns pará-
grafos foram reescritos. Queremos agradecer a vários colegas Que nos
beneficiaram com seus comentários e sugestões, especialmente aqueles
que têm utilizado o livro no âmbito do IME-USP.
S. Paulo, janeiro de 1984.
Os autores.
Prefácio à Terceira Edição
Nesta terceira edição, aceitando sugestões de professores e alunos,
alteramos a ordem dos exercícios, colocando exercícios de aplicações im~­
diatas logo após algumas seções teóricas. Mas ainda permanece, nos fI-
nais dos capítulos, a seção de Problemas e Complementos, contendo
exercícios gerais. Esperamos com isso facilitar aos estudantes a fixação
dos conceitos.
Aproveitamos a oportunidade para corrigir os erros das edições an-
teriores, bem como reescrever algumas passagens que nos pareciam
obscuras.
Novamente, agradecemos a todos aqueles que nos honraram com
críticas e sugestões.
s. Paulo, agosto de 1985.
Os autores.
Sumário
PARTE I - ANALISE EXPLORATÓRIA DE DADOS
CAPITULO I - RESUMO DE DADOS
1.1 - Introdução .. ............................... .. ....... .. .........'....... 1
1.2 - Tipos de Variáveis .. ........ o, ••• , . '" . . . . . . . . . . . . . . . . . . . . 0.......... 3
1.3 - Distribuição de Freqüências ................. ................. o.... 5
IA - Representação Gráfica das Variáveis Quanútativas ......... 8
1.5 - Ramo-e-folhas........................ ................................. 12
CAPITULO 2 - ALGUMAS MEDIDAS ASSbC1ADAS AVARIÁVElS
QUANTITATIVAS
2.1 - Medidas de Posição .... ...... ...... .............. 0.. ............... 27
2.2 - Medidas de Dispersão ............... 0 . o... .......... .............. 29
2.3 - Outra Estratégia de Análise ........:..... ..... .. .... .............. 34
2.4 - Desenho~EsQue'mátioo- ...... .. .. ... ... .... ... ..... ... .. .. ... 37
CAPITULO 3 - ANÁLISE BlDIMENSIONAL
3.1 - Variáveis Multidimensionais 49
3.2 - (ndependência de Variáveis ... .... ... ..... ........ .. ... ....... .... 52
3.3 - Medida de Dependência entr~..D~~~·v~~jâ·~~i~·N~~i~~i~::: 55
3.4 - Diagramas de Dispersão ...................... ........... .... ... .. 60
3.5 - Coeficiente de Correlação ............ .... .. .. ...... .... ... ... ..... 62
PARTE 11 - PROBABILIDADES
CAPITULO 4 - PROBABILIDADES
4.1 - Introdução .. ... ...... ... .. ... .......... ... ... ..... .... ........... ..... 74
4.2 - Algumas Propriedades 77
4.3 - Probabilidade COndicio~~·I·~·i~d~;~dê~~i~··:::::::::::::::::· 82
4.4 - Teorema de B<i:yes ..... .. ......... ................ ............ ..... : 88
•
CAPiTULO 5 - VARIÁVEIS ALEATÓRIAS DlSCRETAS
5.1 -Introdução ..... ...... ...... .. ... .... ... .. .... ... .... ...... ....... ..... 97
5.2 - O Conceito de Variável Aleatória Discreta .. .... ... ... ......... 98
5.3 - Valor Esperado de uma Variável Aleatória ..................... 105
5.4 - Algumas Propriedades da Esperança Matemática ..... ....... 107
5.5 - Função de Distribuição Acumulada ........... ....... ............ 108
5.6 - Alguns Modelos Probabilísticos para Variáveis Aleatórias
Discretas .................... ......................... .. ...... ... It I
CAPiTULO 6 - VARIÁVEIS ALEATÓRIAS CONTiNUAS
6.1 -Introdução ...................... .............................. .... .... 128
6.2 - Valor Esperado de uma Variável Aleatória Contínua 133
6.3 - Função de Distribuição Acumulada .............................. 136
6.4 - Alguns Modelos Probabilísticos para Variáveis Aleatórias
Contínuas.............. ............................ .............. ....... 139
6.5 - Aproximação Nonnal à BinomiaL ..... .......................... 148
CAPiTULO 7 - VARIÁVEIS ALEATÓRIAS MULTlDlMENSIONAIS
7.1 - Distribuição Conjunta ... .. .. .. ......................... ... 157
7.2 - Distribuições Marginais e Condicionais ................... ..... 160
7.3 - Funções de Variáveis AletÓrias. .... .. ........................... .. 163
7.4- Covariância de Duas Variáveis Aleatórias ........ .. ... ........ 168
. 7.5 - Variáveis Contínuas ........... ............. .. .. ... .............. .. 175
PARTE 111 - INFER~NCIA ESTATlsTICA
CAPíTULO 8 - INTRODUÇÃO Á INFERÊNCIA ESTATíSTICA
8.1 -Introdução ..... .... ..... .. ..... .......... .. ...... ···· ....... ....... .. . 181
8.2 - População e Amostra .. ....... .......... ............... ........ ... 181
8.3 - Problemas de Inferência ... ...... .. ....... .. ..... ............ ..... 184
8.4 - Como Selecionar uma Amostra ................................. 186
8.5 - Amostragem Casual Simples .... ... ...... .. ......... .. .......... 187
8.6 - Estatísticas e Parâmetros ...........................· 0·· · ..... ..... 188
8.7 - Distribuições Amostrais .................. .......... ....... .. ..... 189
8.8 - Distribuição Amostrai da Média ....... ....................... 194
8.9 - Distribuição Amostrai da Proporção ... .... ............ .... ..... 200
8. 10 - Outras Distribuições Amostrais ................................. 202
CAPITULO 9 - ESTIMAÇÃO
9.1 - Primeiras Idéias .. .. .......... ... .. .. .................. ....... ... ..... 209
9.2 - Propriedades de Estimadores..... ........... .. ............ ......... 212
9.3 - Estimadores de Mínimos Quadrados ........................... 217
9.4 - Estimadores de Máxima Verossimilhança ...... .. ............ . 222
9.5 - Intervalos de Confiança .... ........ .. ........ ........... ...... 223
CAPITULO 10 - TESTES DE HIPOTESES
10. I - Introdução .." ......... ..... ..... .. .. ."... ... .......... ... .. 234
10.2 - Um Exemplo ....... ... ........0. ' . . . . . . . . . . . o',.... ... . ....... .. 234
10.3 - Procedimento Geral do Teste de Hipóteses ... ....... ... ::::: 243
10.4 - Passos para Construção de um Teste de Hipóteses .. .. .... . 244
10.5 - Testes sobre a Média de uma População com Variância
C h 'd 'M=a .......... lli
10.6 - Poder de um Teste.. .... 247
10.7 - Teste para Proporçã~··:::::::::::: ::::: ::::::::::::: :::::::::: 252
10.8 - Nível Descritivo.. .. .. ...... .......... ................ ... .. 255
CAPíTULO 11 - OUTROS TOPICOS
: : '21 - Introdução ...... .. ....... .... ...... ... ................................ 260
. - AJgumas Distribuições Importantes ........................... 260
11.3 - Teste para a Média de uma N(I1; 0"2), 0"2 desconhecida ...... 269
11.4 - Teste para a Variância de uma N(I1; 0"2) •. .••..... ..• .•• .. . .. 272
11.5 - Comparação das Variâncias de Duas Populações normais 274 '
11 .6 - Comparação de Duas Médias de Populações normais..... . 277
11.7 - Teste de Independência ............. ... ... ...... ... ..... .. ..... .. 286
[ 1.8 - Teste sobre Coeficiente de Correlação ....... .... .. .... .. 288
Respostas a Problemas Selecionados ................. .................... 310
Bibliografia... ............ .. ...................... ............. 321
PARTE I
ANÁLISE EXPLORATÓRIA DE DADOS
CAPíTULO 1
Resumo de dados
=
1.1. INTRODUÇÃO
Em alguma fase de seu trabalho, o pesquisador se vê às voltas com o
problema de analisar e entender uma massa de dados, relevante ao seu
particular objeto de estudos. Se forem informações sobre uma amostra
ou população, ele necessitará resumir os dados para que estes sejam
informativos, ou para compará·los com outros resultados, ou ainda para
julgar sua adequação a alguma teoria.
De um modo bem geral, podemos dizer que a essência da Ciência
éa observação_e que seu objetivo básico é a inferência. Esta pode ser dedutiva
(na qual se argumenta das premissas às conclusões) ou indutiva (a.través
da qual se vai do específico ao geral).
A inJerência estalÍstica é uma das etapas da Estalistico. Esta é a parte
da metodologia da Ciência que tem por objetivos a coleta, redução, análise
e modelagem dos dados, a partir do que, finalmente, faz·se a inferência
para uma população, da qual os dados (a amostra) foram obtidos.
Nesta primeira parte do livro estaremos interessados na red~ção,
análise e interpretação dos dados sob consideração, adotando um enfoque
que chamaremos de análise explorolória de dados. Neste en foq ue tentaremos
obter dos dados a maior quantidade possível de informação, que indique'
possíveis modelos a serem utilizados numa fase posterior - a análise con·
firmat6ria de dados (ou inferência estatística), que será discutida na Parte
JIJ do livro.
Tradicionalmente, uma análise descritiva dos dados se limita a cal·
cular algumas medidas de posição e variabilidade, como a média e a va·
riância, por exemplo.
Contrária a es~a tendência, uma corrente mais moderna, liderada
por Tukey (1977), utiliza principalmente técnicas visuais. em oposição
aos resumos numéricos.
II
,1",
•
Fundamentalmente, quando se procede a uma análise de dados,
busca-se alguma forma de regularidade ou padrão ou ainda modelo, pre-
sente nas observações. Imagine que estamos estudando, por exemplo,
a relação entre rendimentos e gastos de consumo de um conjunto de
individuos. Podemos obter um gráfico como o da Figura l.1. O que se
espera. intuitivamente, é que os gastos de consumo de um individuo
estejam diretamente relacionados com seus rendimentos, de modo que
parece razoável supor uma " relação linear" entre estas duas quantidades.
Os pontos da Figura 1.1 não caem todos, evidentemente, sobre uma reta ;
esta seria o nosso padrão ou modelo. A diferença entre os dados e o modelo
constituem os resídllOs.
Consumo
, /j/~_-I-' )~"1d"0
/ - . , O,do MOd.lo
Rendimento
Fig. 1.1 . Relação entre cOflSumo e rendimento
Podemos, então, escrever, de modo esquemático,
D DOS ~ MODELO + RESÍDUOS
pu
(1.1 )
Tukey (1977) chama M de parte suave dos dados, enquanto R é a
parte grosseira, o que é, sem dúvida, uma linguagem bastante adequada.
A parte R é tão importante quanto M e a análise dos resíduos constitui
uma parte fundamental de lodo trabalho estatístico. Basicamente, são os
resíduos que nos dizem se o modelo M é adequado ou não para representar
os dados. De modo coloquial, o que se deseja é que a parte'grosseira nâo
contenha nenhuma "suavidade", caso contrário mais "suavização" é
necessária.
Uma análise exploratória de dados busca, essencialmente, esta-
belecer (1.1 ).
2
1.2. JIPOS DE VARIÁVEIS
Exemplo 1.1. Um pesquisador está interessado em fazer um levanta-
mento sobre alguns aspectos sócio-econômicos dos empregados da seção
de orçamentos da Companhia Milsa. Usando informações obtidas na
seção de pessoal, ele elaborou a Tabela 1.1.
De um modo geral, para cada elemento investigado, tem-se associado
um resultado (ou mais de um resultado) correspondendo à realização
de uma certa variável (ou variáveis). No exemplo em questão, conside-
rando-se a variável estado civil, para cada empregado temos associada
a realização solteiro ou casado. Observamos que o pesquisador colheu
informações sobre.seis variáveis: estado civil, educação, número de filhos,
salário, idade e região de procedência.
Algumas variáveis como sexo, educação, estado civil, etc. apre-
sentam como possíveis realizações uma qualidade (ou atributo) do in-
divíduo pesquisado, ao passo que outras como número de filhos, salário,
estatura, etc. apresentam como possíveis realizações números resultantes
de uma contagem ou mensuração. As variáveis do primeiro tipo são cha-
madas qualitativas e as do segundo tipo sào chamadas quantitativas.
Dentre as variáveis qualitativas, ainda podemos fazer uma distin-
ção entre dois tipos: variável qualitativa nominal, ~ra a qual não exis!e
nenhuma ordenação nas possíveis realizações, e variável qualitativa ordinal,
para a qual existe uma certa ordem nos possíveis resultados. A região de
procedência no exemplo 1.1 é um caso de variável nominal, ao passo
que educação é um exemplo de variável ordinal , pois 1.° gmu, 2.° grau
e grau superior correspondem a uma ordenaçào baseada no número de
anos de escolaridade. A variável qualitativa classe social, com as possíveis
realizações (por exemplo, alta, média e baixa), é um outTO exemplo de
variável qualitativa ordinal.
De modo análogo, as variáveis quantitativas podem sofrer uma
classificação dicotômica : (a) variáveis Quantitativas discretas, cujos pos-
síveis valores formam um conjunto finito ou enumerável de números e
que resultam... freqüent~mente, de uma contagem, como por exemplo
núm'e~o de filhos (O, 1,2, 'H); (b) variáveis_Quantitativas contínuas, cujos
I!Q.ssí'{ei~.19.í.e.s fQIffiam um intervalo de números reais e que resuIiãiÍÍ,
normalmente, de uma mensuração, como por exemplo estãiura oupesi)
de um indivíduo.
A Figura 1.2 esquematiza as classificações vistas acima.
3
L.~______________________~__________~________________~__________________~
4
N,'
1
2
3
4
,
6
7
8
9
lO
"12
13
'4
"'6
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
TABELA 1.I - Informações sobre estado civil, grau de instru-
ção, n.O
de filhos, salário (expresso como fração
do salário minimo), idade (medida em anos e
meses) e procedência de 36 funcionários da seção
de orçamentos da Companhia Milsa.
fllado Grau de N." de Salario Idade Região de
civil instrução filhos (X Sal. Min.) anos meses procedência
solteiro L" grau - 4,00 26 03 Interior
casado L" grau 1 4.56 31 lO Capital
casado L" grau 2 5,25 36 05 Capital
solteiro 2." grau - 5,73 20 lO Outro
solteiro L" grau - 6,26 40 07 Outro
casado I." grau O 6,66 28 00 Interior
solteiro lo" grau - 6,86 41 00 Interior
solteiro I." grau - 7,39 43 04 Capital
casado 2." grau , 7,59 34 'O Capital
solteiro 2." grau - 7,44 23 06 Outro
casado 2." grau 2 8,12 33 06 Interior
soltçiro L" grau - 8,«> 27
" Capital
solteiro 2." grau -
I"
8,74 31 05 Outro
casado l." grau 3 8,95 44 02 Outro
casado 2." grau O 9,13 30 05 Interior
soltêiro 2." grau - 9,35_ 38 08 Outro,casado 2." grau , 9,77 31 07 Capital
casado I." grau 2 9,80 39 07 Outro
soltiiro superior - 10,53 25 08 Interior,
solteiro 2." grau - 10.76 31 04 Interior
casado 2." grau , 11,66 30 09 Outro
soltcjro 2." grau - 11,59 34 02 Capital
solteiro I." grau - 12,00 4' 00 Outro
casado superior O 12,79 26 O, Outro
casado 2." grau 2 13,23 32 05 Interior
casado 2." grau 2 13,60 35 00 Outro
solteiro I." grau - [3,85 «> 07 Outro
casado 2." grau O 14,69 29 08 InterioX
casado 2." grau 5 14,71 40 06 Interior
casado 2." grau 2 15,99 35 'O Capital
sol~éiro superior - 16,22 31 05 Outro
casado 2." grau , 16,61 36 04 Interior
casado superior 3 17,26 43 07 Capital
solte'iru superior - 18,75 33 07 Capital
casado 2." grau 2 19.40 48
" Capital
casado· superior 3 23,30 42 02 Interior
Fonte : Dados hipotéticos
-==::::Nominal
Qualitativa
< O,di",'
Variável
Discreta
Quantitativa ~
Continua
Fig. 1.2. Classificação de uma variá'eJ
Para cada tipo de variável existem tecnicas mai~ apropriadas para
resumir as informações ; daí a vantagem de usar uma tipologia de iden·
tificação como a da Figura 1.2. Entretanto, iremos verificar que técnicas
usadas num caso podem ser adaptadas para outros.
1,3, DISTRIBUiÇÃO DE FREQÜÊNCIAS
Quando se estuda uma variável , o maior interesse do pesquisador
é conhecer a distribuição dessa variável através das possíveis realiza-
çõcs (valores) da mesma. Nesta seção iremos ver uma maneira de se dispor
um conjunto de valores, de modo a se ter uma boa idéia global sobre
estes valores, ou seja, de sua distribuição.
Exemplo 1.2. A Tabela 1.2 apresenta a dislribuição de freqüências
da variável grau de instrução, usando-se os dados da Tabela 1.1.
Observando·se os resultados da terceira coluna, vê-se que dos 36
empregados da Cia. Milsa, 12 têm o primeiro grau de educação, 18 o
segundo e 6 possuem título universitário.
TABELA 1.2 - Freqüências e porcentagens dos 36 empregados
da seção de orçamentos da Companhia Milsa,
segundo o grau de instrução.
Grau de
Contagem
Freqüência Proporção Porcentagem
instrução "; J; 100 'J;
1.° grau tt+t tt+t 11 12 0,3333 33,33
2.° grau +t++ +t++ +l+H III 18 0,5000 50,00
Superior +t++ I 6 0,1667 16,67
TOTAL 36 1,0000 100,00
Fonte : Tabela 1. 1
5
Uma medida bastante útil na interpretação de tabelas de freqüências
é a proporção de cada realização em relação ao total. Assim, 6/36 =
= 0,1667 = 16,67% dos empregados da Cia. Milsa (seção de orçamento)
têm instrução superior. Na última coluna da Tabela 1.2 são apresentadas
as porcentagens para cada realização da variável grau de instrução. Usa-
remos a noração n j para indicar a freqüência de cada classe, ou categoria
da variável, e a notação fi = nJn para indicar a proporÇão (ou freqüência
relativa) de cada classe, sendo n o número total de observações. As propor-
ções são muito úteis quando se quer comparar resultados de duas pes-
quisas distintas. Por exemplo, suponhamos que se queira comparar a
variável grau de instrução para empregados da seção de orçamentos com
a mesma variável para todos os empregados da Cia. Milsa. Digamos que
a empresa tenha 2.000 empregados e que a distribuição por freqüências
seja a da Tabela 1.3.
TABELA 1.3 - Freqüências e porcentagens dos 2.000 emprega-
dos da Companhia Milsa, segundo o grau de
instrução.
Grau de
Freqüência Porcentagem
instrução
1.° grau 650 32,50
2.° grau 1.020 51 ,00
Superior 330 16,50
TOTAL 2,000 100,00
Fonle: Dados hipotéticos
Não podemos comparar diretamente as colunas das freqüências
das Tabelas 1.2 e 1.3, pois os totais de empregados são diferentes nos dois
casos. Mas as colunas de porcentagens são comparáveis, pois reduzimos
as freqüências a um mesmo total (no caso 100).
A construção de tabelas de freqüências para variáveis contínuas
necessita de certo cuidado. Por exemplo, a construção da tabela de fre-
qüências da variável salário não resumirá as 36 observações num grupo
menor, pois não existem observações semelhantes. A solução empregada
é agrupar os dados por faixas de salário.
6
,
Exemplo J3. A Tabela 1,4 dá a distribuição de fr~qüên~ias dos sa,lá-
, d s 36 empregados da seção de orçamentos da CJa, Milsa por faixa
nOS o
de salário,
Procedendo-se dessa maneira, ao resumir os dados referentes a uma
.. I con!"nu> perde-se alguma informação, Por exemplo, nào temosvanBve , _
'd' 'a de como se distribuem os 8 salários da classe de 12 a 16, a nao ~er
, " ,'nvestiguemos os dados originais (fabela l.l), Sem perda de mUlta
que I '
',a-o podemos supor que todos os 8 salários daquela c asse sejam
precI , . , . . , ' 'fi
, ais ao ponto médiO da refenda classe, Isto e, 14 (o leitor pode ven lcar
:~al o erro cometido, comparando-os com os dados originais da Tabela
1.1). Voltaremos a este assunto no Capítulo 2.
TABELA IA - Freqüências e porcentagens dos 36 empregados
da seção de orçamentos da Companhia Milsa,
por faixa de salário.
Classe de Freqüência Porcentagem
salários no 100 •lo
4,00 I-- 8,00 10 27,78
8,00 ~1 2,00 12 33,33
12,00 ~ 16,00 8 22,22
I6,00 ~ 20,00 5 13,89
20,00 ~ 24,00 I 2,78
TOTAL 36 100,00
Fonte: Tabela 1.I
A escolha dos intervalos é arbitrária e a familiaridade do pesquisador
com os dados é que lhe irá indicar quantas e quais classes (ou intervalos)
devem ser usadas, Entretanto, deve-se observar que, com um pequeno
número de classes, perde-se in fonnação, e com um número grande de
classes, o objetivo de resumir os dados fica prejudicad~, Normalmente,
sugere-se o uso de 5 a 15 classes com a mesma amplitude.
7
•
PROBLEMAS
I. Para cada uma das variáveis abaixo, indique a escala que usualmente é adotada para
resumir os dados em tabelas de freqüências:
(a) Salários de empregados de uma indústria.
(b) QI dos funcionários de uma seçãO'.
(c) Numero de respostas certas de alunos num teste com O itens.
(i!) Idem para um teste com 100 itens.
(e) Porcentagem da receita de municlpids aplicada em educação.
(J) Opinião dO's empregados da PW Indústria c Comércio sobn: a realização ou nãO'
de cursos obrigatórios de treinamento. I
2. UsandO' O'S dados da Tabela l.1 , construa a distribuiçãO' de freqüências das variáveis :
(a) estado civil j
(b) região de procedência ;
(c) número de filhos;
(d) idade.
1.4. REPRESENTAÇÃO G.RÁFICA DAS VARIÁVEIS
QUANTITATIVAS
A representação gráfica da distribuição de freqüências de uma va-
riável tem a vantagem de, rápida e concisamente, informar sobre a varia-
bilidade da mesma. Existem várias maneiras de se fazer a representação
gráfica e iremos abordar aqui os casos mais simples para variáveis quan-
titativas. No Capítulo 2 voltaremos a tratar deste assunto, em conexão
com me;didas associadas à distribuição de uma variável.
Exemplo J.4. Estamos interessados em estudar a distribuição do
número de filhos dos empregados casados da seção de orçamentos da
Cia. Milsa (Tabela LI). A tabela de freqüências e porcentagens está na
Tabela 1.5.
Em seguida, usamos um gráfico para representar os pares (Xi' nJ
Estes pontos estão representados na Figura 1.3 (a). O gráfico tambem
pode ser feito usando-se os pontos (Xj,JJ, mas a forma da distribuição
não sofrerá modi ficação alguma, devido à proporcionalidade existente entre
OS nj e os k A Figura 1.3 (b) é a representação gráfica dos pares (x"fi).
Para variáveis quantitativas continuas necessita-se de alguma adap-
tação, como no exemplo a seguir.
Exemplo J.5. Queremos representar graficamente a distribuição
da variável S = salário dos empregados da seção de orçamentos da
8
7
6
5
4
••
•
Jt
•••2-
•••,;
••
• •
01
TABELA 1.5 - Freqüências e porcentagens dos empregados da
seção de orçamentos da Companhia Milsa, se-
gundo o número de filhos.
N.0 de filhos Freqüência Porcentagem
x, n, 100 'J,
O 4 20;::
1 5 25%
2 7 35%
J J 15%
5 1 5%
TOTAL 20 100%
Fonte: Tabela 1.1
Freqü-;;ci~ roporç.lio)
•
·••• 0,30
• •• •••
0,20 •• •• • •
• · •
• • •
• • · • •
• • • • •
• • • • •
• • • • ·•
• • • •0,10 .. • • •
• • • •• • • • •
• • • • • •• • • • • •
• • • • • • · •
• · • • • • • •
• • • • • • • •
• • • • · • · •
• • • • . • . • • •2 4 5 N." de 01 2 3 4 5 N:' de
filhos filhos
,.) lO)
Fig. 1.3
9
Cia. Milsa. A Tabela 1.4 fornece a distribuição de (eqüência de S. Para uma
representação similar à da Figura J.2, devemos usar o artifício de aproximar
a variável contínua por uma variável discreta, sem perder muita informação.
Isto pode ser feito supondo·se que todos os salários em uma determinada
classe de salário são iguais ao ponto médio dessa classe. Assim, os 10
salários situados na primeira classe (4,00f- 8,00) serào admitidos iguais
a 6,00, os 12 salários da segunda classe (8,001--12,00) serào admitidos
igUais a 10,00 e assim por diante. Então, podemos reescrever a Tabela 1.4'
introduzindo os pontos médios das classes. Esses pontos estão na segunda
coluna da Tabela 1.6.
Com a tabela assim construída podemos representar os pares (Si' n/)
ou (5;, f;) como no caso anterior. A Figura 1.4 é a representação gráfica
dos pontos (shfi)'
TABELA 1.6 - Distribuição de freqüência da variável S= sa·
Iário dos empregados da seção de orçamento da
Companhia Mílsa.
Classe de Ponto médio Freqüência Porcentagem
salários s, n, 100 ,1,
4,00 f-- 8,00 6,00 10 27,78
8,00 >-- 12,00 10,00 4{') 33,33
12,00 >-- 16,00 14,00 8 22,22
16,00 f-- 20,00 18,00 5 13,89
20,00 >-- 24,00 22,00 I 2,78
TOTAL - 36 100,00
Fonte; Tabela 1.4
o artificio usado acima para representar a variável contínua faz
com que se perca muito das informações nela contidas. Uma alternativa
a ser usada nestes casos é o grãfico conhecido como histograma.
Exemplo 1.6. Usando ainda a variável S=salário dos empregados
da seção de orçamentos da Cia. Milsa, apresentamos na Figura 1.5 o
histograma de sua distribuição.
10
O.'"
0.25
0,20
0,15
0.10
0,05
•
•
·••
• •
· :
: :
: : .
-t------c~.c-L---~~----~~----~.~----~~.~--~6,00 10,00 14,00 la.oo 22,00 S( _
Densidade da
Frequência
0,080
0,060
0,040
0,020
.
,,%
4,00
Fig. 1.4
,,%
,,%
8,00 12.00 16,00
- •
14%
,%
I
20.00 24,00 Salários
Fig. 1.5. Histograma da variável S = salário dos empregados da seção de
orçamentos da Companhia MUsa
11
lL-__________~~______-L____~________~____~
o histograma é um gráfico por setores contíguos, onde a altura é
proporcional a f" e a base é constilUída por um segmento cujos extremos
representam os extremos da i-ésima classe. O único cuidado a tomar é
de que a área total da figura seja igual a I , correspondendo á soma total
das proporções.
Para facilitar o entendimento, foi colocada acima de cada setor a
respectiva porcentagem das observações. Assim, através da figura po- I
demos dizer que 61 % dos empregados têm salário inferior a 12,00 salá-
rios mínimos, ou 17% possuem salário superior a 16,00 salários mínimos.
Do mesmo modo que usamos um artificio para representar a variável
contínua como uma variável discreta, podemos usar um artificio para
construir um histograma para variáveis discretas. A Figura 1.6 é um exem-
plo de como ficaria o histograma da variável X = número de filhos dos
empregados da seção de orçamentos da eia. Milsa, segundo os dados
da Tabela 1.5. Deixamos a cargo do leitor a interpretação das suposições
subjacentes admitidas para a construção do gráfico, pois acreditamos
que ele seja suficientemente explicito (compare com a Figura 1.3).
Freqüências
35%
25%
20%
15%
5%
I I
O 1 2 3 4 5 N~ de filh.,
Fig_ 1.6. Histograma ajustado para a variável número de filhos dos 36 em-
pregados da seção de orçamentos da Companhia Milsa
":5. RAMO-E-FOLHAS
Tanto o histograma como os gráficos das Figuras 1.3 e 1.4 dào uma
idéia da forma da distribuição da variável sob consideração. Veremos,
12
no Capítulo 2, outras características da distribuição de uma variável,
como medidas de posição e de dispersão. Mas a forma da distribuição
, tão importante quanto estas medidas. Por exemplo, saber que a renda
;er capita ~ uma comunidade é tantos salários mínimos pode ser um
dado interessante, mas saber como esta renda se distribui é mais im-
portante.
Um procedimento alternativo para resumir um conjunto de valores,
com o objetivo de se obter uma idéa da forma da sua distribuição, é o
ramo-e-folhas (Tukey, 1977). Uma vantagem do ramo-e-folhas sobre o
histograma é que não perdemos informação sobre os dados em si.
Exemplo 1.7. Na Figura 1.7 construímos o ramo-e-folhas dos sa-
lários dos 36 empregados da eia. Milsa (Tabela 1.1). Não existe uma regra
fixa para construir o ramo-e-folhas, mas a idéia básica é dividir cada ob-
servação em duas partes: a primeira (o ramo) é colocada à esquerda de
uma linha vertical, a segunda (a folha) é colocada à direita. Assim, para
os salários 4,00 e 4,56, o 4 é o ramo e 00 e 56 são as folhas.
4
5
6
7
8
9
10
II
12
13
14
15
16
17
18
19
20
21
22
23
()()
25
26
39
12
13
53
06
()()
.23
69
99
22
26
75
40
30
56
73
66
44
46
35
76
59
79
60
71
61
86
59
74
77
85
95
80
Fig. 1.7. Ramo-e-folhas dos salários de 36 empregados da Cia. Milsa, em
S.M. (Fome: Tabela 1./)
13
,
Algumas infonnaçõcs que se obtêm deste ramo-e-folhas são:
(a) Há um destaque grande para o valor 23,30.
(b) Os demais valores estão razoavelmente concentrados entre 4,00 e 19,40.
(c) Um valor mais ou menos típico para este conjunto de dados poderia
ser, por exemplo, 10,00.
(ti) Há uma leve assimetria em direção aos valores grandes; a suposição
de que estes diidos possam serconsiderados como uma amostra de uma
população com distribuição normal pode ser questionada.
A escolha do número de linhas do ramo-e-folhas é equivalente à
escolha do número de classes do histograma. Um nÚmero pequeno de
linhas (ou de classes) enfatiza a parte M da relação (1.1), enquanto um
número grande de linhas (ou de classes) enfatiza a parte R.
Exemplo Ui. Os dados abaixo referem-se à dureza de 30 peças de
alumínio (Hoaglin, Mosteller e Tukey, 1983, pág. 13).
53.0
53.4
95.4
53.5
72.3
70.2
82.5
51. 1
64.3
59.5
84.3
67.3
74.4
82.7
55.3
69.5
54.1
55.7
78.5
73.0
77.8
70.5
63.5
55.7
52.4
87.5
71.4
85.8
69.1
50.7
Na Figura 1.8 temos o ramo-e-folhas correspondente. Aqui, optamos
por truncar cada valor, omitindo os décimos, de modo que 69.1 e 69,5,
por exemplo, aparecem como 9 na linha que corresponde ao ramo 6.
5 O 1 2 3 3 3 4 5 5 5 9
6 3 4 7 9 9
7 O O 2 3 4 7 8
8 2 2 , 5 7
9 5
Fig. 1.8. Ramo-e-folhas dos dados de dureza de peças de alumínio
Este é um exemplo em que temos muitas folhas em cada ramo. Uma
maneira alternativa é duplicar os ramos. Criamos os ramos 5* e 5- ,6* e 6-
etc., onde colocamos folhas de Oa 4 na linha· e folhas de 5 a 9 na linha- .
Obtemos o ramo-e.folhas da Figura 1.9.
1.
5' O 2 3 3 3 4
5' 5 5 5 9
6' 3 4
6' 7 9 9
7' O O 2 3 4
7' 7 8
8' 2 2 4
8' 5 7
9'
9' 5
Fig. 1.9. Ramo-e-follras do exemplo / .8, com ramos dil'ididos
Para outros exemplos, ver problema 17.
PROBlEMAS
J Contou-se o número de erros de impressão da primeira página de um jornal durante
. 50 dias. obtendo-se os resultados abailo.
,
"
,
" 14 IJ
" 14 14 5
O 10 14
"
O
"
1 5 , ,
10 Ió 10
" "
,
"
O 1 12
1 10 14 5
"
1 , 12
" •14 , 14 , 12 10 12 2J: 1 15
ta) Reprl!scnte os dados graficamente.
11>1 Faça um histograma e um ramo-e-rolhas.
... Usando os resultados do problema 2:
tal construa um histogn.ma para a variável idade: . _
(1)1 proponha uma representação grárica para a variável grau de mstruçao.
S. As talas medias geométricas de incremento anual (por 100 habitantes) dos 30 maiores
municípios do Brasil estão dadas abailo (ver Tabela do problema 181.
3,67 1.82 3.73 4.10 4.30
1.28 8.14 2.43 4.17 5.36
3.96 6,54 5.114 7.35 3.63
2.93 2.82 11.45 5.28 5.41
7.77 4.65 1.118 2.12 4.26
2.78 5.54 0.90 5.09 4.07
(a) Construa .um histograma.
(/I) Construa um ramo-e-rolhas.
lfi
6. Você foi convidado para chefiar a Seção de Orçamtntos ou a Seção Têcnica da Milsa.
Após analisar o tipo dc serviço que cada seção executa, voce ficou indeciso e resolveu
transferir a decisão para o tipo de funcionário que voce iria encontrar em cada seção.
Assim a Seção Pessoal fornea:u os dados da Tabela 1.1 para os funcionarios da Seção
de Orçamentos, ao passo que para a Seção Têcnica os dados vieram agrupados segundo
as tabelas abaixo:
Freqüência dos 50 empregapos da Seção Técnica da Milsa, segundo:
Baseado nesses dados, qual seria a sua decisão? Justifique.
PROBLEPo!AS E COMPLEMENTOS
7. A PW Indústria e Comércio, desejando melhorar o nivel de seus funcionários em car-
gos de chefia, montou um curso experimental e indicou 25 runcionários para a pri·
meira turma. Os dados referentes à seção a que pertencem, notas e graus obtidos no
curso estão na tabela a seguir. Como havia dúvidas quanto à adoção de um imico critêrio
de avaliação. cada instrutor adotou seu próprio sistema de aferição_Usando os dados
daquela tabela. responda as questões:
'6
(a) Após observar atentamente cada variável. e com o intuito de resumi-Ias, como
ê que voce identificaria (qualitativa ordinal ou nominal e quantitativa discreta
ou contínua) cada uma das 9 variáveis listadas?
(b) Compare e indique as diferenças existentes entre as distribuições das variáveis
Direito. Política e Estatistica.
(e) Construa o histograma para as notas da varjãvel Redação.
(d) Construa a distribuição de frequências da variável Metodologia. e faça um gráfico
para indicar essa distribuição.
(e) Sorteando ao acaso um dos 25 funcionários, qual a probabilidade de que ele tenna
obtido grau A em Metodologia?
fi) Se em vez de um, sorteássemos dois, a probabilidade de que ambos tivessem tido
A em Metodologia ê maior ou menor do que a resposta dada em (e)'!
(g) Como ê o aproveitamento dos funcionários na disciplina Estatística. segundo a
seção a que eles pertencem?
.,
1<u~u«uu~u~~u~~<uuu~~<u«
•:;:
'7
18
8. Inten .alos de Classes Desiguais ~ Émuito comum o uso de classes com tamanhos desi.
guais no agrupamento dos dados em tabelas de frequências. Nestes casos deve-se tomar
alguns cuidados especiais quanto à análise e construção do histograma.
A tabela abaixo fornece a distribuição de 250 empresas classificadas segundo o nu-
mero de empregados. Uma análise superficial pode levar á conclusão de que a con.
centração vem aumentando até atingir um máximo na classe 40 I-- 60, voltando a
diminuir depois. mas não tão acentuadamente. Porém, um estudo mais detalhado
revela que a amplitude da classe 40 I-- 60 e o dobro da amplitude das classes anteriores.
Assim, espera-se que mais elementos caiam nessa classe, meSmo que a concentraçào
seja levemente inferior. Então. um primeiro cuidado é construir a coluna que indica
as amplitudes d i de cada classe. Estes valores estão representados na terceira coluna
da tabela.
Distribuição de 250 empresas segundo o numero de empregados
NUIIIl.'r(I de FreqühJcia Ampli1!4de Densidade Proporçâo Den.!ipatie
empregados ", 6 , n;/tJ. J J, f r/tJ. J
Of- 10 5 10 0,50 0.02 0,0020
10 f- 20 20 10 2,00 0,08 0,0080
20 I- 30 35 10 3.50 0.14 0.0140
30 I- 40 40 10 4,00 0,[6 0.0[60
40 i--- 60 50 20 2,50 0,20 0,0100
60 I-- 80 30 20 1.50 0,12 0,0060
80 I-- 100 20 20 1,00 0,08 0,_
100 1--140 20 40 0,50 0,08 0,0020
140 I- 180 15 40 0.38 0.06 0,0015
180 1- 260 15 80 0,19 0.06 0.0008
TOTAL 250 - - 1.00 -
Um segundo passo é a construção da coluna das densidades de freqüências em cada
classe. que e obtida dividindo as freqüências 11; pelas amplitudes tJ. i
• Ou seja. a medida
que indica qual a concentração por unidade da. variável. Assim, observando-se os
m,imcros da quarta coluna, vê-se que a classe de maior concentração passa a ser a
30 I-- 40, enquanto que a ultima e a de menor concentração. Pa ra compreender a dis-
tribuição. estes dados são muito mais informativos do que as freqüências absolutas
simplesmentc.
De modo anMogo. .pode.se conStruir a densidade da proporção (ou porcentagem)
por unidade da variável (verifique a construção atravês da 5," e 6." colunas). A inter-
pretação para fdtJ. , é muito semelhante àquela dada para ndtJ. I
,
Para a construção do histograma, basta lembrar que a área total deve ser igual a 1
(ou 100%). o que sugere usar no eixo das ordenadas os valores de f;/tJ. i
. O histograma
para estes dados estâ na Figura 1.10.
O"".õded<l
".0,0160
...0.0140
0.0120
,,,
0,0100 r---
..';0,080
'""JO
'
06O I--
..,) 0,040 I--
0)0,020
n"
2030 40
" " ""
" "
''''
Fig. I. O
"" 260 N ~ de
empreg.oo.
51. Dispomos de uma relação de 200 aluguéis de imóveis urbanos e uma relação de 100
aluguéis rurais.
(o) Construa os histogramas das duas distribuições.
(b) Com base nos histogramas discuta e compare as duas distribuições.
C/asses de oluguéiJ ZOlla Zona
(codificados) urbana rural
2f- 3 10 30
3f- 5 40 50
5f- 7 80 15
71--10 50 5
101--15 20 O
TOTAL 200 100
, Histograma Alisado - Na Tabela 1.4 tem-se a distribuição de freqÜências dos salârios
de 36 funcionârios, agrupados em classes de amplitude 4. Na Figura 1.5 tem-se o res-
pectivo histograma. Rcagrupando-se os dados em classes de amplitude 2. obter-se-ia
a.seguinte tabela de freqÜências e o correspondente histograma.
19
20
C/anO' de FreqU(;nl';{/
.!Olâr;(Js
",
4.00 I- 6,00 4
6,00 I- 8.00 6
8.00 1-10,00 8
10,00 1- 12,00 4
12.00 t- 14,00 I
14,001-16.00 ]
16,00 I- 18,00 3
18.00 1- 20.00 2
20,00 I- 22,00 O
22.00 I- ~4.00
TOTAL 36
6, -
~
r--
C- f-
r-
n4 6 8 10 12 14 16 18 20. 22 24 Salários
Fig. LI J. (a)
SI:: houvesse um numero suficientemente grande de observações. poder-se-ia ir dimi-
nuindo os intervalos de cfasse, e o histograma iria fica ndo cada vez menos irregular,
até atingir um caso limite com uma curva bem mais suave. Por exemplo, o comporta-
~ento da distribuição dos salários poderia ter a representação da Figura 1.II(b).
Esse histograma alisado ti muito útil para ilustrar rapidamente qual o tipo de COmpor- _
lamento que se espera para a distribuição de uma dada variavel. No capitulo referente
a variáveis aleatórias continuas, voltar-se-á a estudar esse histograma sob um ponto
de vista mais matemático.
A interpretação desse gráfico é a mesma do histograma. Assim. nas regiões onde
a curva ê mais alta, significa uma maior densidade de observaçõcs. No c)templo acima.
conforme se aumenta o salário, observa-se que a densidade de freqüência vai diminuindo.
'"- ,'!/ÓI
",'!',..~
"'"
Salários
Fig. .lI. (b)
11. Esboce o histograma alisado para cada uma das situaçõcs descritas abaixo :
(a) Distribuição dos salários registrados em çarteira de trabalho de moradores da ddade
de São Paulo.
(h) Distribuição das idades de alunos de uma Façuldade de Economia e Administração.
(e) Distribuição das idades dos alunos de uma classe da Faculdade do item anterior.
Compare as duas distribuições.
(J) Distribuição do número de óbitos segundo a faixa etária
(e) Distribuição do número de divórcios (desquites) segundo o número de anos de
casado.
(f) Distribuição do número formado pelos dois últimos algarismos do primeiro prê-
mio da Loteria Federal. durante os la últimos anos.
12. Faça no mesmo gráfico um esboço das três distribuições descritas abaixo:
(a) Distribuição das alturas dos brasileiros adultos.
(b) Distribuição das alturas dos suecos adultos.
(c.) Distribuição das alturas dos japoneses adultos.
13. Freqüências Acumuladas - Uma outra medida muito usada para descreve~ dados quan·
titativos é a freqüênCia acumulada, que indica quantos elementos, ou Que porcentagem
deles, estão abaixo de um ceno valor. Na tabela a seguir. a terceira e a Quinta colunas
indk;am respectivamente a rreqúência absoluta acumulada e a proporção (porcentagem)
acumulada. Assim, observando a tabela podemos arinnar que 27,78% dos indilíduos
ganham até 8,00 salários mínimos: 61.11% ganham até 12,00 salários mínimos; 83.33%
ganham até 16.00 salàrios minimos ; 9722% ganham até 20,00 salários mínimos e 100"10
dos runeionários ganham até 24.00 salários.
21
I~
Classe de FreqUência
Frequênc;a
Porcentagem
Porcentagem
acumulada acumulada
salários
" N, 100 'f! 100 .FI
4,00 I- 8,00 10 10 27,78 27,78
8,001-12,00 12 22 33,33 61,11
12,001-16,00 8 30 22,22 83,33
16,00I- 2Q,OO 5 35 13,89 97;12
20,00 I- 24,00 36 2,78 100,00
TOTAL 36 [00,00
A Figura 1.12 é a ilustração gráfica da porcentagem acumulada.
100 --- -- -------------::~~--
80
60
40
20
4 8 12 16 20 24 Salérios
Fig. 1.12
Este gráfico pode ser usado para fornecer informações adicionais. Por elemplo, para
saber qual o salário s. tal que 50% dos funcionários ganham menos. do que 5, basta
procurar o ponto (5,50) na curva. Observando as linhas pontilhadas no gráfico, veri-
ficamos que a solução é um pouco mais do que la salários mimmos.
14. Usando os dados da Tabela 1.[:
(a) Construa a distribuição de frequências para a variável idade.
(h) Faça o gráfico da porcentagem acumulada.
(c) Usando o gráfico anterior ache os valores de s correspondentes aos pontos (s, 25%),
(s,5O%) e (s, 75~";).
15. Fr«jiiêncill$ Acwnuladll$ (continuação) - Para um tratamento estalÍstico mais rigoroso
das variáveis quantitativas, cosluma-se usar uma definição mais precisa para a dis-
tribuição das freqüências acumuladas. Em capitulos posteriores serã vista a sua utilização.
22
- fIaiçio. Dadas 11 observações de ~ma variável quan~itativa, e um n~mer.o :c real
De I uer. indicar-se-á por N{.>::) o numero de observaçoes menores ou IguaiS a x, e
:rn~-se de Junrão disfribuição acumulada fj,d,a. ) a função
F,(:c) = N(x) •
,
Extmplo 1.9. Para a variável S= salário dos ]6 funcionários listados na Tabela 1.1 ,
ê fIIci! verificar que:
0 , se s <4,OO
1
]6' se 4,00 ~.{ < 4,56
2
]6 ' se 4,56,,;; s < 5,25
I , se s~2],30
frtqUtncia acumulada
""
"
""
""
"""
"
"•
"•.,.
2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 Salários
Fig. l.l J
Àqueles não familiarizados com a representação gráfica de funções, recomenda-se a
leitura do volume 1 desta serie.
23
Exemplo I. /O. Esta definição também vale para variaveis quantitativas discretas. Assifll,
para a variável número de filhos resumida na Tabela 1.5, tem-se a seguinte f.d.a.:
0,00,
" x <O
0,20,
" O...;;;x < I
FlO(X) =
0,45,
" l~x<2
0,80,
" 2~x<3
0,95,
" 3...;;;x<5
1,00,
" x~5
cujo gnifico é o da Figura 1.14.
1,00 •
• ,
0,80 • ,
0,60 . ~
• o
0,40
0,20+-_
I
o 2 3 4 5 ,
F;g, 1.14.
16. Construir a f.d.a. para a variâvel idade referente aos dados da Tabela 1.1.
7. amo--e·folhas (continuação) - Os dados abaixo referem-se 11. produção, em toneladas,
24
e dado produto, para 20 companhias quimicas (numeradas de I a 20).
(1,50), (2,280), (3,560). (4,170), (5.180),
(6,500), (7,250), (8,200), (9, 1050), (1 0,240),
(J 1,180), (12,1000), (13.1100), (14,120), (15,4200),
(16,51(0), (17,480), (18.90), (19.870), (20,360).
,
Vemos que os valores eSlendem-se de 50 a 5.100 e, usando uma representação seme-
lhante 11. da Figura 1.7. teriamos um grande numero de linhas. A Figura 1.15 (a) mostra
uma outra forma de ramo-e-folhas, com ramos divididos. A divisão ocorre no ramo,
cada vez que se muda por um fator de la.
Uma economia de 4 linhas poderia ser obtida. representando_se os valores 50 e 90 da
Figura 1.15 (a) num ramo denominado O. Obtemos a Figura 1.1 5 (b).
Fig. 1.15, Ramo-e-folhas das produções de 20 companhias químicas, em
toneladas.
MWJicipio Populaçiio
I São Paulo (SP) 849,3 C
2 Rio de laneiro (RJ) 509,3
J Belo Horizonte IMO) ~1J - 178il ~
4 Salvador (SA) 150,6 }-'i)..
5 Fortaleza (CE) 130,8
6 Recife (PE) 120,4
7 Brasilia (DF) 117,7
8 Porto Alegre (RS) ..JliD
9 Nova Iguaçu (RJ) 109,4
10 Curitiba (PR) 102,5
11 Belém (PA) 93.4 ' I T
12 Goiânia (GO) 71.7 ~ ~L- '-
lJ Campinas (SP) 66,4
14 Manaus (AM) 63.4
15 São Gonçalo (RJ) 61 ,4 t
25
Município
lO Duque de Caxias (RJ)
17 Santo Andrê (SP)
18 Guarulhos (SP)
19 Osasco (SP)
20 São Luis (MA)
21 São Bernardo do Campo (SP)
22 Natal (RN)
2l Santos (SP)
24 Niterói (RJ)
25 Maceió (AL)
26 São João de Meriti (RJ)
27 Teresina (PI)
28 Campos (RJ)
29 Jaboatão (PE)
lO João Pessoa (PB)
Fonte : Sinopse Estalistica do Brasil. 1981. FIBGE
26
População
57,5
55.2
53,2
47.3
44,9
42,5
41 ,7
41 ,6
40,1
40,0
39,8
37,8
34,9
33,1
33,0
-
-
CAPíTULO 2
Algumas medidas associadas
a variáveis quantitativas
2.1 . MEDIDAS DE POSiÇÃO
Vimos que a redução dos dados através de ramo-e-folhas e tabelas
de freqüências fornece muito mais informações sobre o comportamento
de uma variável do que a própria série original de dados. Contudo, muitas
vezes, queremos resumir ainda mais esses dados, apresentando um ou
alguns valores que sejam "representativos" da série toda. Quando usamos
um SÓ valor, obtemos uma redução drástica dos dados. Usualmente
CIllprega-se uma das seguintes medidas de posição central: média arit-
mética. mediana ou moda.
A moda, Mo, é definida como ealiza -o mais freqüente do con-
junto de valoreLobsea adQs. Por exemplo, considere a variável número
de filhos por funcionário casado, resumida na Tabela 1.5, do Capítulo I.
Vemos que Mo é 2, correspondente à realização com a maior freqüência, 7.
Em alguns casos, pode haver mais de uma moda, ou seja, a distribuição
dos valores pode ser bimodal, trimodal, etc.
A mediana, Md, é a realização que ocupa a posição<.Ç entra da série
de observações quando estas estão ar erractas segundo suas grandezas
(crescente ou decrescenTemente):-Assim-;""se as cinco observações de uma
variável forem 3, 4, '!J 8 e 8, a mediana é o valor 7, correspondendo à ter·
ctira observação. Quando o numero de observações é par , usa-se como
mediana a média aritmética das duas observações centrais. Assim, se as
observações de uma variável são 3, 4. 7, 8, 8 e 9, a mediana é
Md = 7+8=75
2 ' '
Finalmente, a média aritmética, Me, conceito fami liar ao leitor, é a
soma das observações dividida pelo numero delas. Assim, a média arit-
mética de 3, 4, 7. 8 e 8 é Me=3 + 4 +7+8 +8 =30 =6
5 5 ·
27
Exemplo 2.1. Usando os dados da Tabela 1.5, já encontramos que a
moda da variável número de filhos é Mo = 2. Para a mediana, COns.
tatamos que Md = 2, média aritmética entre a décima e a décima primeira
observações. Finalmente a média aritmética será
M = 4 x 0 +5 x I + 7 x 2 + 3 x 3 +5 x I = 33 = I 65
e 20 20 "
Neste exemplo, as três medidas têm valores bem próximos e qual.
quer uma delas pode ser usada como "representativa" da série toda.
A média aritmética é, talvez, a medida mais usada. Contudo, ela conduz
a erros de interpretação. Em muitas situações a mediana é um valor
mais adequado. Voharemos a este assunto logo mais e proporemos Um
conjunto de medidas que julgamos serem mais adequadas para repre.
sentar um conjunto de dados.
A média aritmética pode ser expressa através do uso do símbolo
de somatório. Se Xl' ... , Xi são os k valores distintos da variável X, po.
demos escrever
M (X) = Xl + ... + Xi = ~ ~ .
e k k .L ~.,. , (2. I)
Agora, se temos n observações da variável X , das quais fi ] sào iguais
a Xl' n z iguais a Xz. etc., 11. iguais a Xk> então a média aritmética de X
será dada por
M e(X) = nJX] + IIZX 2 + ... + !lkX~
n
1 '
= - L fl jXj.
fi i'" 1
(2.2)
n
Se !; = --1. representa a freqüência relativa da observação X;, então
n
(2.2) também pode ser escrita
,
M e(X) ~ L /;x;. (2.3)
;"' 1
De ora em diante denominaremos a média aritmética simplesmente
de média e, às vezes, será denotada por x, ou sCJa,
,
Me(X) ~ 'i ~ L /;X;. (2.4)
;=1
Exemplo 2.2. A determinação das medidas dc tendência centrál para
uma variável quantitativa contínua, através de sua distribuição de fre·
28
. exige alguns cuidados especiais. Consideremos a Tabela 1.6.
qüSna8s, . d d d 1'á discutimos antenonnente, com os a os agrupa os em c asses,
CoPIO J . formação sobre cada observação individual, e uma boa apro·
perde-se 10 1 h. -o é supor que todos os dados dentro de uma c ~sse ten a.m seus
lllJl3Ç3 . uais ao ponto médio desta classe. Este procedImento delxa·nos
vaJore:S:;a situação do caso discreto, onde as medidas são calculadas
na ~ ,se os pares (x" n;) ou (x; ,JJ, como em (2.2) e (2.3).
usanAO moda. mediana e média para os dados da Tabela 1.6 são:
Mo = 10,00
Md ~ 10,00
10 x 6,00+ 12 x 10,00+ 8 x 14,00+ 5 x 18,00+ 1 x 22,00 ~ 11,22.
Me ~ 36
Existem várias técnicas para a detenninaçào das medidas apresen·
das especialmente para a média, mas não é nossa intenção apresen·
:.las'aqui. Com o advento das modernas máquinas eletrônicas de cal·
cu1ar e dos computl:ldores, tais técnicas perdem a sua função, já que o
. tcresse no cálculo das medidas em geral está dentro do contexto de
::na análise estatística mais ampla.
2,2, MEDIDAS DE DISPERSÃO
A sumarização de um conjunto de dados, através de uma única
medida representativa de posição central, esconde toda a informação
sobre a variabilidade do conjunto de valores. Por exemplo, suponhamos
que cinco grupos de alunos submetem·se a um teste, obtendo as seguintes
ootas:
grupo A : 3, 4,5,6, 7
grupo B : I, 3, 5, 7, 9
grupo C : 5, 5, 5, 5, 5
grupo D : 3, 5, 5, 7
grupo E: 3,5; 5; 6,5
(variável
(variável
(variável
(variável
(variável
X)
Y)
Z)
W)
V)
Vemos que Me(X) ~ Me(Y)~ Me(Z)~ Me(W) ~ Me(V) ~ 5,0. A iden,
tificação de cada uma dessas séries pela sua média (5 em todos os casos)
nada informa sobre as diferentes variabilidades das mesmas. Então,
notamos a conveniência de se criar uma medida que sumarize a varia~
bilidade de uma série de valores que nos permita, por exemplo, com-
parar conjuntos diferentes de valores, como os dados acima, segundo
algum critério estabelecido.
29
o critério freqüentemente usado para tal fim é aquele que mede
a concentração dos dados em tomo de sua média, e duas medidas são
as mais usadas: desvio médio e variância. O princípio básico é analisar
os desvios das observações em relação à média das observações. Para o
grupo A acima, os desvios XI - X são: - 2, - I, O, I, 2. É fácil ver (pro.
blema li) que, para qualquer conjunto de dados, a soma dos desvios é
,
igual a zero. Nestas condições, a soma L (XI - x) não é uma boa me-
i= 1
dida de dispersão para o conjunto A. Duas opções são: (a) considerar o
total dos desvios em valor absoluto;' (b) considerar o total dos quadra.
dos dos desvios. Assim, para o grupo A teríamos, respectivamente:
,
L Ix, - xI ~ 2 + I + O+ I + 2 ~ 6,
' '' I
,
L (x, - x)' ~ 4 + I + O+ I + 4 ~ 10.
j~1
O uso destes totais pode causar dificuldades quando comparamos
conjuntos de dados com números diferentes de observações. Por exemplo,
para o grupo D acima teríamos:
,
L Iw, - IV I ~ 2 + O + O+ 2 ~ 4,
;=1
•L (w, - IV)' ~ 4 + O + O+ 4 ~ 8.
i"'l
Deste modo, exprimimos as medidas como médias, isto é, o desvio
medio e a variância são definidos por
"DM(X) ~ L Ix, - x I/n,
;=1
"Var(X) ~ L (x, - x)'ln,
,-,
respectivamente. Para o grupo A temos:
DM(X) ~ 6/5 ~ 1,2,
Var(X) ~ 10/5 ~ 2,0.
Para o grupo .o vemos que
30
DM(W) ~ 4/4 ~ 1,0,
Var(W) ~ 8/4 ~ 2,0.
(2.5)
(2.6)
Então, podemos dizer que, segundo o desvio médio, o grupo D é
. homogêneo que A. enquanto que ambos têm a mesma homogenei.Jll8IS . _ .
de segundo a v~n~ncJa.. "
da Sendo a variancla uma medida que expressa um deSVIO quadra-
. médio, pode causar alguns problemas de interpretação. Para evitar
"co d ' d- ' do 'd . dd. costuma-se usar o esvlO pa rao, que e ellfll o como a raiZ qua ra a
,sto'"tiva da variância. Temos, então, uma medida de variabilidade ex·
~I na mesma unidade dos valores do conjunto de dados. Para o gru-
pressa . d - .
A o deSVIO pa rao epo,
DP(X) ~ JVar(X) - fi ~ 1,41.
Exemplo 2.3. Vamos calcular as medidas de dispersão acima para
variável X = número de filhos, resumida na Tabela 1.5. Como vimos
:0 exemplo 2.1, Me(X) = x = 1,65. Os desvios são Xi - x: - 1,65;
- 0.65 ; 0,35; 1,35; 3,35.
Como 4 observações têm o desvio - 1,65; 5 observações o desvio
- 0,65 etc., segue-se que
4 x (I,65)+5 x (0,65)+ 7 x (0,35)+3 x (I,35)+ I x (3 ,35) _ 098
DM(X) ~ 20 - , .
Também,
X)
_ 4 x (- 1,65)' +5 x (- 0,65)' + 7 x (+0,35)'+3 x (+ 1,35)'
Var( - 20 +
I x (3 ,35)' ~ I 528
+ 20 '
Conseqüentemente, o desvio padrão de X é
DP(X) ~ JD28 ~ 1,24.
Podemos, agora, definir formalmente as medidas de dispersão dis-
cutidas acima. Suponha que observemos n1 vezes o valor XI ' "1 vezes
o valor X2 etc., TIl vezes o valor X~ da variável X. Então,
• •DM(X) ~ L nol x; - xIln ~ I foi x; - xI, (2.7)
;=1 ;" 1
• •Var(X) ~ L n;(x, - x)'ln ~ L f,(x, - .')', (2.8)
;=1 ; "' 1
DP(X) ~ JVar(X). (2.9)
3'
o cálculo das medidas de dispersão no caso de variáveis contínuas
pode ser feito de modo análogo àquele usado para encontrar a média
no exemplo 2.2. Ou seja, considerando-se o ponto médio de cada classe
como a realização comum a todos os elementos daquela classe, recaímos
na situação de uma variável discreta.
Exemplo 2.4. Vamos usar novamente a variável S= salário dos em-
pregados da seção de orçamentos da Cia. Milsa. A mêdia encontrada no
exemplo 2.2 ê s= 11 ,22. Com os dados da Tabela 1.6 e usando (2.8) en-
contramos
•Var(S) ~ L n,(s; - 5)'/n ~ [1 0(6,00 - 11 ,22)' + 12(10,00 - 11 ,22)' +
i " l
+8(14,00 - 11,22)'+5(18,00 - 11 ,22)'+ 1(22,00 - 11 ,22)'l/J6~ 19,40
e
DP(S) ~ ji9,4O ~ 4,40,
É fácil ver que DM(S) = 3,72.
No Capítulo 9 a variãncia de uma amostra será encontrada usando-se
n - I no denominador em (2.8), em vez de n. A justificativa será dada na-
quele capítulo, mas para grandes amostras pouca diferença fará o uso
de ,, - 1 ou n.
PROBLEMAS
1. Quer se estudar o numero de erros de impressão de um livro. Para isso escolheu-se
uma amostra de 50 páginas. encontrando-se o seguinte número de erros por página:
(a) Qual o número médio de erros por pá-
gina?
(b) E o número mediano?
(c) Qual é o desvio padrão?
(dJ Faça uma representação grãfica para a
distribuição.
(e) Se o livro teM SOO págir'las, qual o numero
total de erros esperado no livro?
ErrQ5
o
I
1
]
4
Freqiiencia
"lO
]
1
2. As luas de juros recebidas por lO ações durante um certo periodo foram (medidas
em porcentageM) 2,59 ; 2,64; 2.60; 2,62 ; 2,57: 2,55 ; 2,61 ; 2,50; 2.63; 2.64. Calcule a
média. a mediana e o desvio padrão.
32
ra racilitar um projeto de ampliação da rede de esgotos de uma certa região de .uma
). ~ s autoridades tomaram uma amostra de tamanho 50 dos 270 quanelrõcs
çidadc, a . . d
~ • reoião e foram encontrados os segUintes numeros e casas por quar-
que com}"'"'·" c·,
teirão:
2 2 ] 10 13 14 15 15 16 16
18 18 29. li 22 22 23 24 15 25
26 27 29 29 30 , 32 36
ti 44 45
45 46 48 52 58
" 61 61 65
66 66 68 75 78 80 89 9Q 91 97
) Use 5 interYalos e construa um histograma.
~:) Oetennine uma Medida de tendência central e uma medida de dispersão.
( )
Dê uma situação pratica onde você acha que a mediana é uma medida mais apto-
~ a ~~.
priada do que a mcula. . . . .. .
(b) Esboce um histograma. onde a médIa e a mec!tana comcrdem. Buste alguma classe
de histogramas onde ISSO sempre acontece?
(c) Esboce os bistogramas de três variáveis (X, Ye Z) com a meSMa média aritmetica.
mas com as variãncias ordenadas eM ordem crescente.
S. Suponha que a variável de interesse tenha a distribuição como na figura abaixo.
Você acha que a média e uma boa medida de posição? E a Mediana? Justifique.
" Numa pesquisa realizada com 100 famiJias levantaram-se as seguintes infonnaçõcs:
Número de filhos o 23 4 .') mais que 5
Freqüência de famílias 17 20 28 19 7 4 5
(a) Qual a mediana do número de filhos?
(6) E a moda'?
(c) Que problemas você enfrentaria para cakular a média? Faça alguma suposição
e encontre-a.
33
2,3, OUTRA ESTRATÉGIA DE ANÁLISE
Tanto a média como o desvio padrão podem nào ser medidas ade_
quadas para representar um conjunto de valores. pois:
(a) São afetados, de forma exagerada, por valores extremos.
(b) Apenas com estes dois vaiares nào temos idéia da assimelria
da distribuição dos valores.
Para contornar estes fatos, as seguintes cinco medidas sào sugeridas
(ver Tukey, 1977):
(i) a mediana , Mel;
(ii) os ex/remos: o menor e o maior valor do cOAjunto de dados;
(iii) os quarris oujunlas, J: cada quartil faz o mesmo que a mediana
para as duas metades demarcadas pela mediana. Ou seja, a mediana é
um valor que deixa metade dos dados abaixo c metade acima dele. O
primeiro quartil ou junta é um valor que deixa um quarto dos valores
abaixo e três quartos acima dele. O terceiro quartil ou junta é um valor
que deixa três quartos dos dados abaixo e um quarto acima dele. O se-
gundo quartil é a mediana (para maiores detalhes de cálculo dos quartis,
veja problema 14).
Os valores extremos serào representados por E.
Exemplo 2.5. Retomemos os dados do exemplo 1.3. Temos (veja o
ramo-e-folhas da Figura J.7).
As juntas são;
Md ~ 9,80 + 10,53 ~ 10,17
2
7,44; 7,59 ~ 7,5 e 13,85 ; 14,69 _
14,27
Os valores extremos são 4.00 (menor valor) e 23,30 (maior valor).
Obtemos, então, o chamado esquema dos cil/CO números, que está
representado abaixo, onde também está incorporado o número de pon-
tos, que no caso é 36.
34
Mil
J 7,52
E 4,00
36
10,17
14,27
23,30
E s cinco medidas sâo chamadas de estatÍSticas de ordem (estas
sta ~ d·d ' d . d- as únicas' há outras) e sao me I as reslstenfes e poSição e
pjosao "- '
a distribUlçao.
uITI Dizemos que uma medida de posição ou dispersão é resistente quan-
fi pouco afetada por mudanças de uma pequena porção dos dados.
~om~iana é uma medida resisteme, ao passo que a média não o é. Para
ilustrar este fato , suponha que tomemos os dados
5 7 8 10 12 15,
d quais obtemos Me = 9,5 e Md =9,0 Suponha, agora, que modifi-M _
emos o valor J 5, que passa a ser 150. Obtemos, emao, Me = 32, en-qu _
quanto a mediana nao se altera Observe que a média aumentou mais
de duas vezes.
O desvio padrão também não é uma medida resistente. Para o exem-
lo acima, no primeiro caso obtemos DP= 3,62 e após a mudança de
rS para J50 obtemos DP = 57,86, ou seja, mais de quinze vezes a anterior.
Uma medida de dispersão alternativa que pode ser utilizada é o
in/erl'ala inrerquarlil, que é a di ferença entre o terêeiro e o primeiro quartis,
denotado dJ • Então,
dJ = l ] - li ,
onde JI , J2 e l) denotam o primeiro, o segundo (mediana) e o terceiro
quarlis, respcctivamentt:.
Na figura abaixo representamos de forma linear as cinco medidas
referentes ao exemplo 2.5, acrescentando dJ e as distâncias entre pares
destas medidas.
',00 7,52 10,17 14.27 23,30, , , , ,3.52 2,65 4.10 9,03
6,17 13,13
6,75
Aqui temos, então,
li = 7,52
II = Md = 10,17
lJ = 14,27
dJ = JJ - li = 6.75
35
Chamemos de Ei c Es os valores minimo e máximo, respectivamente.
À diferença J! - Ei= 10.17 - 4,00 = 6.! 7, chamamos di.l'persão infe-
rior, e à diferença E.- J2=23.30 - [0,17 = 13,[3 chamamos dispersão
superior.
A comparação destas distâncias nos fornece informação sobre a
forma da distribuição. De fato, vejamos como seriam estas distâncias
para uma distribuição simétrica como na figura abaixo (a chamada dis_
tribuição normal).
E; E,
Esperamos, intuitivamente, que:
(o) a dispersão inferior seja aproximadamente igual à dispersão su-
penar;
(b) J2- Jl ~ JJ- J2;
(c) J1-Er':!:! E.- J];
(d) as distâncias entre mediana e juntas sejam menores que as dis-
tâncias entre extremos e juntas.
As distâncias para o exemplo acima mostram claramente o caráter
não nonnal dos dados.
PROBLEMAS
7. Obtenha o esquema dos cim:o números para os dados do problema 3. Calcule o in·
tervalo interquartil e as dispersões inferior e superior. Baseado nestas medidas. ve-
rifique se a fonna da distribuição dos dados é normal.
8. Refaça o problema anterior, utilizando desta vez os dados do problema 5 do Capítalo L
36
2.4. DESENHO ESQUEMÁTICO
A infonnação contida no esquema dos cinco números pode ser tra-
duzida graficamente num desenho esquemático, ilustrado na Figura 2.1.
Primeiramente, definamos aqueles valores que estão muito aquém
de }1 ou muito além de J3 como sendo observações discrepantes (ou olltliers).
Especificamente, conSideraremos dados que sejam menores que J I - ; dJ
oU maiores que J] + ~ dJ como sendo discrepantes do restante dos dados.
Para construir o desenho esquemático, consideraremos um retângulo
onde estãO representadas as juntas e a mediana. A partir do retângulo,
para cima e para baixo, seguem linhas até o ponto mais remoto que nào
seja wna observação discrepante. Obteremos, então, uma figura que re·
presenta o conjunto dos dados, com exceção dos OIaJiers. Estes serão
representados individualmente por x.
•
•
Fig. 2.1. Desenho esquemático
? desenho esquemático dá uma idéia da posição, dispersão, assi-
metna, caudas e dados discrepantes. A posição central dos valores é
dada pela mediana e a dispersão, por dJ . As posições relativas de J I ,
J2 e J] dão uma noção da assimetria da distribuição. Os comprimentos
das caudas sào dados pelas linhas que vão do retângulo aos valores mais
arastados que não sejam outliers e pelos próprios outliers.
37
Exemplo 2.6. Consideremos os dados referentes às populações dos
15 maiores municipios do Brasil , segundo o Censo de 1980 (ver pro.
blçma 18, do Capítulo I). O esquema dos cinco números esta represen.
tado abaixo.
e
Temos que,
Md
J 82,6
E 61,4
15
112,5
140,7
849,3
D, ~ 140,7 - 82,6 ~ 58,1,
3 3
J, - 7:d, ~ 82,6 - 7: (58, 1) ~ - 4,6
3 3
J, + 7: d, ~ 140,7 + 7: (58,1) ~ 227,9.
Então, as cidades com populações acima de 2.279.000 habitantes são
consideradas outliers, ou seja, Rio de Janeiro e São Paulo. O desenho
esquematico correspondente está na Figura 2.2.
900
)( São Paulo
500 )( Aio de Janeiro
180
50
Silo Gonçalo
Fig. 2.2. Desenho esquemático para os /5 maiore.~ municípios do Brasil
em /980
No desenho esquemático para os 15 maiores municípios do Brasil,
vemos que os dados têm uma distribuição assimétrica à esq uerda, com
13 valores concentrados entre 50 e 200 e dois outliers. bastante afastados
do corpo principal dos dados: 509,3 e 849.3.
3.
como pontos
ra definirmos as observações discrepantes é a seguinte: consi·
limites pa . . d.
curva normal com media zero e, portanto, com me lana zero.
dere uma
É fácil verificar (ver Capítulo 6 e Tabela 3) que J I = -0,6745, J1 = O,
3
JJ= 0,6745 e portanto dJ = 1,349. Segue-se que J I -
2 dJ = -2,698 e
J
3
+ ; dJ
= 2,698. A área entre estes dois pontos embaixo da curva é
O993, ou seja, 99,3% da distribuição está entre estes dois valores. Isto
.' para dados com uma distribuição normal, os outliers constituirão cer-
~ de 0,7% da distribuição.
PROBLEMAS
,. Construa o desenho esquemátiço para os dados do exemplo 1.3. Capitulo I. O que
você pode concluir a respeito da distribuição?
UI. Reraça a questão anterior com os dados do problema 3 deste capitulo.
PROBLEMAS E COMPLEMENTOS
11. Mostre que:
(a) I (XI - x) = O
,.,
• •(e) I n, (X, - .fjl = I nixf _ nj2
I- I i _ I
• •(li) I Ji(Xi - x): = I Jixf - Xl
,., ,.,
39
U. Usando os resultados da questão anterior calcule as variâncias dos problemas
deste capitulo, 1"
~s dados abaixo representam as vendas
~ vendedores de gêneros allmenticios :
semanais, em classes de salários mínimos,
 Vendas semanais
30 I-- 35
35 1-- 40
40 1--45
45 1-- 50
50 I-- 55
551--60
60 I-- 65
65 I-- 70
(a) Faça o histograma das observações,
(b) Calcule a média da amostra, X.
(c) Calcu[e o desvio padrão da amostra, s.
N." de vendedores
1
10
18
50
70
30
18
1
(ti) Qua[ a porcentagem das observações compreendidas entre x ~ 2s e x + 2s?
(e) Calcule a mediana.
14. QUllnlis. Usando·se o histograma, podemos derivar um procedimento alternativo
para encontrar a mediana de uma variável. Pela sua definição vemos que ela deve cor-
responder ao valof da abscissa que divide a área do histogr.~ma em duas partes iguais
(50"1.. para cada lado), Então, usando argumentos geométricos, podemos encontrar
um ponto, satisFazendo essa propriedade. Vejamos através de um exemplo.
40
Exemplo 2.7. Vamos repetir abaixo a Figura 1.5, que é o histograma da variável
S = salário dos empregados da eia. Milsa.
2." "" 14"
o 4,00 8,00 Md 2,00 18,00 20,00 24,00
Devemos localizar o ponto das abscissas que divide o histograma ao meio, A
do primeiro retângulo corresponde a 28% do total, os dois primeiros a 61%; por-
área a mediana Md é algum número situado entre 8,00 e 12,00. Ou melhor, a me-
tanto. I d d " I · · d " 1. .,á corresponder ao va ar M no segun o retangu o, cuJa area o retangu o
dlana I • '
de base 8,OO.... Md e mesma altura que o retangulo de base 8,OOHI2,OO seja 22% (28%
d rimeiro retângulo mais 22% do segundo perfazendo os 50"10)· Consulte a figu.
: ~ra melhor compreensão. Através da proporcionalidade entre a area e a base do
retângulo, lemos:
logo
12,00 ~ 8,00
33%. •
Md - 8,00
22%
Md ~ 800 = 2~~ .400
. 33%'
Md = 8,00 + 2,67 = 10,67
que t uma expressão mais precisa para a mediana do que a mediana bruta encontrada
anteriormente.
Do mesmo modo que definimos a mediana como o valor que tem metade das
observações menores do que ela, podem!?s definir outTa medida de ordem tal, que
uma certa proporção P das observações seja menor do que ela. Por exemplo, se
p= 1(4. temos o primeiro quarlil, onde um quarto das observações são menores do
qUC ele. Ou quando p é. escolhido como uma proporção de denominador 10, dando
origem às medidas de ordem chamadas decis. De um modo geral, dada uma propor·
ção p(O <p < I), chamamos de quantil de orde.m p ao número x(p),"tal que 100p% das
observações sejam menores do que ele.
Abaixo indicamos alguns quantis e seus nomes particulares,
Quantil x(P)
x{0,25)
x(O,50)
x(0,75)
x(O,40)
x(0,95)
Nome
1," Quartil = 25." Perccntil
Mediana ~ 5," Decil ~ 50." Percelltil
3." Quarti[ ~ 75." Percentil
4," Decil
95." Percentil
o cálculo dos quantis pode ser feito de modo analogo ao cálculo da mediana.
através de argumentos geométricos no histograma, Vejamos a determinação de alguns
quantis, usando os dados do último exemplo.
Exemplo 2.8 (continuação). Através do histograma da ligura acima, calcular:
(a) x(0,25)
Resposta: Verificamos que x(0,25) deve estar na primeira classe, pois a proporção
no primeiro retângulo e 0,28. Logo
41
~
x(0,25) - 4,00 _ 8,00 - 4,00
25% - 28%
então
"x(0,25) "'" 4,00 + 284,00 = 7,51
(b) x(0,95)
Resposta: Analisando a soma acumulada das proporções, verificamos que este
quantil deve pertencer ã quarta classe, e que nesse retângulo devemos achar a pane
correspondente a 12%, pois a soma acumulada até a classe anterior é 83%, Cal_
tando 12% para atingirmos os 95%. Portanto
x(0,95) - 16,00 = ~20",OO";-;-~16",OO,,,
12% 14%
logo
12
x(0,95) = 16,00 + 14 x 4 = 19,43
(e) x{0,75)
Resposta: De modo análogo concluímos que o terceiro quantil deve pertencer ao
intervalo 12,00 I--- 16,00, portanto
x(O,75) - 12,00
14%
16,00 - 12,00
22%
x(O,75) = 14,55.
O intervalo interquantil do úl!imo exemplo e x(O,75) - .1'(0,25) = 14,55 - 7,57'=' 6,98.
Ou seja 50:'1,; dos salários "centrais" estão numa faixa de amplitude 6,98 salá.rios m{_
nimos.
I~~ Usando os dados do problema 13, calcule:
(a) mediana (h) I.~ decil (e) intervalo interqualtil
16. O número de desquites na cidade, de acordo com a duração do casamento, está repre-
sentado na tabela abaixo : ., 1.0 ().,<'f' '...,
J
(a) Qual a duração média dos casa-
mentos? E a mediana? Anos de casamenlo N.O de desquites
(6) Encontre a variància e o desvio
padrão da duração dos casa- 01- 6 2.800
mentos 61- 12 1.400
(o) Construa o histograma da dis- 121- 18 600
tribuição. 181-2' IlO
(ti) Encontre o 1.0 e o 9.° decil. 2"-32 lO
(e) Qual o intervalo interquartil?
42 "::>
rtamento de Pessoal de uma certa firma fez um levantamento dos salários
17. ~ro funcionãrios do setor administrativo, obtendo os seguintes resultados:
EsboCe: o hIstograma correspondente
(:) Calcule a média, a vanânCla e o desvIO padrão
( ) Calcule o L" quartIl e a ~. _________--,______
(e) Se for conce<hdo um aumento de 100"10
(ri) ra todos os [20 funclOnânos, have-
Faixa salarial
(X saláriQ mínimo)
~ E '~ .?rã alteração na media? na vanancla.
Justifique sua resposta.
,,_ for concedido um abono de 2 sa-
(t);,... . od f
!ários mimmos para t os os 120 un-
cionários. haverâ alteração na média '!
E na variância'! E na mediana'! Jus-
tifique sua resposta.
01- 2
, 21- 4
41- 6
61- 10
;
FreqUincia
relativa
0,25
0,40
0,20
0,15
ri" o que acon[ea: com a mediana, a média e o desvio padrão de uma série de dados
. quando:
(a) cada observação é multipli~da por 2;
(b) soma-se 10 a ~~a obse~açao; _
--r(c) subtrai-se: a médIa geral x. de cada ~~servaçao; .
~ (d) de cada observação subtraI-se x e dIVIde-se pelo deSVIO padrão DP(x).
-;;: Na companhia A, a média dos salários é 10.000 unidades e o 3.° quartil é 5.000.
)MSe: você se apresentasse como candid.at~ a e~ firma e se o. seu ~Iãrio fosse es-
colhido ao acaso entre todos os posslvels salános, o que sena maiS provávcl : ga-
nhar mais ou menos que 5.000 unidades?
(ó) Suponha que na companhia B a média dos salários é 1.000 unidades e a variância
é praticamente zero, e lá o seu salário tambem seria escolhido ao acaso. Em qual
companhia você se apresentaria para procurar emprego?
a. Estamos interessados em estudar a idade dos 12.325 funcionários da Cia. Distribuidora
de Leite Teco, e isso será Feito através de uma amostra. Para determinar que tamanbo
deverá ter essa amoslra, foi colhida uma amostra-piloto. As idades observadas foram :
42. 35, 27, 21 , 55. 18, 27, 30, 21 , 24.
(a) Detennine as medidas descritivas dos dados que você conhece.
(h) Qual dessas medidas você acredita que será a mais importante para julgar o ta-
manbo final da amostra? Por quê?
lI. Estudando-se o consumo diário de leite, verificou-se que, em certa região, iO% das
familias consomem até I litro, só'<'1o das famílias consomem entre I e 2 litros, 20% con-
somem entre 2 e 3 litros e o ~estante consome entre 3 e 5 litros. Para a variável em es-
tudo:
(a) Escreva as informações acima na forma de uma tabela de freqüências.
(h) Construa o hislogram'a.
(e) Calcule a média e a mediana.
(d) Calcule a variàneia e o desvio padrão.
(1') Qual o valor do 1.0 quartil'!
43
/ri.y. distribuição de
~Is.uma ronna de
freqüências do salário anual dos moradores do bairro A que lêlll
rendimento é apresentada na tabela abaixo:
Faixa salarial
(x lO salários mínimos)
r of- 2
? 2r- 4
4 f- 6
6 f - 8
8 I-- lO
10 t-- 12
121--14
TOTAL
Ix! = 150.300
r.x~ = 4.906.500
• (o) Construa um histograma da distribuição.
Freqüência
10.000
1900
2.000
1.IJ)O
- 800
700
2.000
20.500
(b) Qual a média e desvio padrão da variável salário?
(c) O bairro B apresenta, para a mesma variâvel. uma média de 7,2 e um desvio padr.1o
de 15,1. Em qual dos bairros a população e mais homogênea quanto ã renda'!
(ri) Construa a f.d.a., e determine qual a faixa salarial dos 10% mais ricos da população
do bairro.
~;(e)Qual a "riqueza tolal" dos moradores do bairro?
23. Um órgão do governo do estado está intcressado em determinar padrões sobre o in-
vestimento em edução. por habitante, realizado pelas prefeituras. De um levanta-
mento em la <:idades, foram obtidos os valores (codificados) da tabela abaixo:
44
Cidade A B C D E F G H J
Investimento 20 16 14 8 19 15 14 16 19
"
Nesse caso, será considerado como investimento básico a médio final das observações,
calculada da seguinte maneira:
J. Obter uma mêdia inicial.
2. Eliminar do conjunto aquelas observações que forem superiores à media inicial
mais duas vezes o desvio padrão. ou inferiores à média inicial menos duas vezes o
desvio padrão.
3. Calcular a media final com o novo conjunto de observações.
Qual o investimento básico que você daria como resposta ?
Observaçâo: O procedimento do item 2 tem a finalidade de eliminar do conjunto a
cidade cujo investimento é muito di ferente dos dcmais.
h
· .o,rama abaixo, calcular a média, a variância, a moda, a
)oi Dado o tS
mediana e o 1,°
qUlrtiJ.
2
b
25%
- 20%
t--
4 6
30%
.-
6 10 12
~ Em uma granja
J era a seguinte:
foi observada a distribuição dos frangos com relação ao peso, que
Peso (gramas)
960 >- 980
980 1--- 1.000
1.000 t-- 1.020
1.020 I--- 1.040
=-1.040 I--- 1.060
1.060 I--- 1.080
(a) Qual a média da distribuição?
(b) Qual a variância da distribuição?
(e) Construa o histograma.
"
60
160
280
260
160
80
(li) Queremos dividir os frangos em quatro categorias, com relação ao peso, de modo
que:
-'" 20"10 mais leves sejam da categoria D ;
- ..30% seguintes sejam da categoria C ;
-M 30",.{ seguintes sejam da categoria B;
- o, 20"10 seguintes (ou seja, os 20"10 mais pesados) sejam da categoria A.
Quais os limites de peso entre as categorias A, B. C e D1
(e) O granjeiro decide separar deste lote os animais com peso inferior a dois desvios
padrões abaixo da média para receberem ração reforçada, e também separar os
animais com peso superior a um c meio desvio padrão acima da média para usa-los
como reprodutores.
Qual a porcentagem de animais que serão separados em cada caso?
tl6. A idade média dos candidatos a um determinado curso de aperfeiçoamento sempre
, joi baixa, da ordem de 22 anos. Como esse curso foi planejado para atender a todas as
V ~des. decidiu-se fazer uma campanha de divulgação. Para se verificar se a campanha
foi ou não eficiente, fez-se um levantamento da idadc dos candidatos ã última pro-
moção, e os resultados estão na tabela abaixo.
45
lda<k Freqüência Porcentagem
18 I----- 20 18 36
20 I--- 22 12 24
22 f- 26 10 20
26)-- 30 8 16
30 1--36 2 4
TOTAL 50 100
(a) Baseando-se nesses resultados, você diria que a campanha produziu algum efeito
(isto é, aumentou a idade media)?
(b) Um outro pesquisador decidiu usar a seguinte regra: se a diferença j - 22 rOS!ie
maior que o valor 2 DP(X)/ fi. então a campanha surtiu efeito. Qual a COnclu.
são dele, baseado nos dados?
(c) Faça o histograma da distribuição.
1
', ara se estudar o desempenho de duas companhias corretoras de ações, seleCIonou-tI:
e cada uma delas amostras aleatónas das ações negooadas Para cada ação seleciO-
nada, computou-se a porcentagem de lucro apresentada durante um periodo fixado
Xde tempo. Os dados estão a seguIr
Correlora A Corre/oro B
45 60 54 57 55
"62 55 70 50
" "38 48 64
" 55
"55
" 55 61
" "54
" 48 57 57 50
65 55 60 55
" 54
" 51
"Que tipo de informação revelam esse5 dados? (Sugestão: use a análise proposta nas
seções 2.3 e 2.4.)
28. Para veriticar a homogeneidade das duas populações do problema anterior, um esta.
tístico sugeriu que se usasse o quociente F = Var (X/A) , mas não disse qual a de-
Var (X/H)
cisão a tomar baseado nesse valor. Que regra de decisão você adotaria para dizer se
são homogêneas ou não?
29. Faça um desenho esquemático para os dados da corretora A e um para os dados di
corretora B. Compare os dois conjuntos de dados através destes desenhos.
30. !lara decidir se o desempenho das duas corretoras do exercicio 27 são iguais ou nio,
adotou-se o seguinte teste : sejam
46
x.. ~ xa Sl = 11.. Var(XjA) + lia Var{XjB)
f""S:)I+I'· 11.. + na ~ 2
• 11.. lia
c.sO III < 2 os desempenhos são semelhantes, caso contrário são diferentes.
Qual seria a sua conclusão?
(a) I"h", vo;;t acha desse procedimento?
(bl ~-
Os dados abaixo referem-se ao número de moradores X por domicílio, num bairro A,
;:Jt!.e que estão dispostos numa tabela de dupla entrada.
COLUNA
LINHA
2I ] 4 5 6 7 8 9 10
I 6 I 6 I ] ] 9 5 9 6
2 8 7 9 10 5 5 2 2 5 I
] ] 5 8 6 4 2 I 7 O ]
4 8 7 8 6 9 I 9 10 4 2
5 4 2 5 ] 4 8 10 6 5 8
(0') Calcule para os 50 domicílios a média geral Me(X), a variância total Var(X), e a
mediana geral Md(X). Faça o histograma.
(b) Suponha agora que cada coluna corresponde a uma amostra de domicílios, sor-
teada nesse bairro. Para cada coluna (I) calcule: a média da amostra (Xi), a variincia
da amostra (5t) e a mediana da amostra (m,).
(e) Qual a amostra que produz a melhor estimativa de Me(X)? E para Var(X)? E para
Md(X)?
(li) No conjunto de amostras, qual é mais indicado para estimar Me(X): o estimador
x ou m? E para Md(X)? Justifique a resposta.
(t') Você espera que Var(X) seja maior ou menor do que Var(x)? Por quê?
fi) E com relação a Me(X) e Me(i)?
fi) Calcule Me(x) e Var(x) e verifique suas respostas (e) e (j),
(h) Para cada amostra i, construa o seguinte intenalo xr ± 2 DP);!.
",li,
(i) Considere agora cada linha como sendo uma amostra. O que você acha que acon-
tecerá com os estimadores?
fi) Como ficará a pergunta (li)?
lZ,: Usando os dados da' variável qualitativa região de procedência da Tabela I I, trans-
rorIJle.a na variável quantitativa X, definida do seguinte modo:
X:o fi, se a região de procedência for capital;
lo, se a região de procedência for interior ou out ra.
47
(a) Calcule Me(X) e Var(X).
(b) Qual a interpretação de Me(X)?
(c) Construa um histograma.
33. No problema 1.5.1 temos os resultados de 25 funcionarios em vários exames a que se
submeteram. Sabe-se agora que os criterios adotados em cada exame não são compa.
ráveis, por isso deçidiu-se usar o "desempenho relativo" em cada exame. Essa medida
será obtida do seguinte modo :
(i) Para cada exame será calculada a média Me(X) e o desvio padrão DP(X).
(ii) A nota X de cada aluno será padronizada do seguinte modo:
z ~
(a) Interprete o significado de Z.
X - Me(X)
DP(X)
(b) Calcule as notas padronizadas dos funcionarios para o exame de Estatistica.
(c) Com os resultados obtidos em (b), calcule Me(Z) e DP(Z).
(i) Se alguma das notas padronizadas for acima de 2DP(Z) ou inferior à -2DP(Z),
esse funcionário deve ser considerado como um caso anormal. Existe algum nessa
situação?
(e) O funcionário I obteve 9,0 em Direito, em Estatistica e em Política. Em que dis-
ciplina o seu desempenho relativo foi melhor?
34"'F~tudando-se a distribuição das idades dos funci~nários de duas repartições publi_
.. ~s, obtiveram-se algumas medidas resumidoras que estão no quadro abaixo. Esboce
o histograma das duas distribuições, indicando no mesmo as medidas descritas no qua.
I dro. Comente sobre as principais diferenças entre os dois histogramas.
Repartição Millimo I.· Quartil Mediana Média 3." Quarrif Máximo Df
A
B
18
18
27
23
33
32
33
,3 39
42
48
48
,
10
35. Decidiu-se investigar a distribuição salarial dos profissionais com nivel universitário
em duas regiões, A e B. As informações pertinentes foram obtidas e encontram_se
no quadro abaixo. expressas em salários mínimos. Esboce a distribuição (histograma
alisado) dos salários de cada região, indicando no gráfico as medidas apresentadas
no quadro. Faça também uma descrição rápida das principais diferenças observadas
nos gráficos.
Região Média DP Mediana
A 20,00 4,00 20,32
B 20,00 6.00 18,00
Moda
20,15
17,00
J,
17,32
16,00
J,
22,68
24,00
8.00
14.00
E,
32.00'
42,00
36. Construa o desenho esquemático para os dados do problema 5, do Capítulo I. Obte-
nha conclusões a respeito da distribuição, a partir deste desenho.
48
CAPíTULO 3
- Análise bidimensional
-3.1. VARIÁVEIS MULTIDIMENSIDNAIS
Ate agora, vimos como organizar e resumir informações pertinentes
uma única variável, mas freqüentemente estamos interessados em analisar
a comportamento conjunto de duas ou mais variáveis. Aqui também a
~tribuiçãO conjunta das freqüências será um poderoso instrumento para
ajudara com~reensão dos dad,?s. Iremos ~os deter basi~,me?t~ ~m va.riáveis
bidimensionals, mas a exlensao para mats de duas vanavelS e ImedIata.
Exemplo 3.1. Suponhamos que queremos analisar o comportamento
oonjunto das variáveis grau de instrução (X) e região de procedência (Y),
contidas na Tabela 1.1. A distribuição por freqüência é representada por
umatabela dedupla entrada e, no nosso problema, a distribuição procurada
está na Tabela 3.1.
TABELA 3.1
~ I."
Capital
Interior
. OUlra
TOTAL
Fome' Tabela 1.1
Distribuição conjunta das freqüências das va-
riáveis grau de instrução (X) e região de proce·
dência (Y).
Grau 2." Grau Superior TOTAL
4 5 2 11
3 7 2 12
5 6 2 13
12 18 6 36
49
Cada elemento do corpo da tabela dá a freqüência observada das
realizações simultâneas de X e Y. Assim, observamos 4 individuos da
capital com instrução do primeiro grau, 5 da capital com o segundo
grau, etc.
A linha dos totais fornece a distribuição da variável X (grau de ins-
trução), ao passo que a collma dos totais fornece a distribuição da Va_
riável Y (região de procedência). As distribuições assim obtidas sào cha.
madas tecnicamente de disrribuições marginais, enquanto que a Tabela
3.1 constitui a distribuição conjwlfa de X e Y.
Em vez de trabalhannos com as freqüências absolutas, podemos COns-
truir tabelas com as freqüências relativas (proporções), corno foi feito
no caso unidimensional. Mas aqui existem 3 possibilidades de expressarmos
a proporção de cada casela: em relação ao total geral, em relação ao total
de cada linha e em relação ao total de cada coluna. De acordo COm o
objetivo de cada pesquisa, uma delas será a mais conveniente a ser usada.
A Tabela 3.2 apresenta a distribuição conjunta das freqüências re-.
lativas, expressas corno proporções do total geral. Assim podemos afirmar
que 11% dos empregados vêm da capital e têm instrução de primeiro grau.
Os totais nas margens fornecem as distribuições unidimensionais de cada
uma das variáveis. Assim, 31% dos indivíduos vêm da capital, 33% do
interior e 36% de outras regiões. Observe que, devido ao problema de
aproximação das divisões, a distribuição das proporções introduz algumas
diferenças não existentes. Compare, por exemplo, as colunas de educação
superior nas Tabelas 3.1 e 3.2.
TABELA 3.2 - Distribuição conjunta das proporções (em por-
centagem) em relação ao tota! geral das variáveis
X e Y definidas no text.o.
X J." Grau 2." Grall Superior TOTAL
Capital 11% 14% 6% 31 %
Interior 8% 19% 6% 33%
Outra 14% 17% 5% 36%
TOTAL 33% 50% 17% 100%
Fonte: Tabela 3.1
50
T
bela 3.3 apresenta a distribuição das proporções em relação
A a " pod d" d1 das colunas. AsSIm, emos Izcr que, entre os emprega OS
ao t~tatrução até primeiro grau, 33% vêm da capital, ao passo que entre
com tnSegados com segundo grau, 28% vêm da capital. Este tipo de dis·
~ ~:o serve para comparar adistribuição da procedência dos indi-
tnbtU confonne o grau de instrução.
vidU~ modo análogo, podemos construir a distribuição das propor-
çõeS em relação ao total das linhas. Aconselhamos o leitor a construir
essa tabela.
TABELA
x
y
Capital
Interior
Oulra
TOTAL
Fonte: Tabela 3.1
~MAS
3.3 - Distribuição conjunta das proporções (em por-
centagem) em relação aos totais de cada coluna
das variáveis X e Y definidas no texto.
1.° Grau
33%
25%
42%
lOO'/,
2." Grau
28%
39%
33%
lOO'/,
Superior
33%
33%
34%
lOO'/,
TOTAL
31%
33%
36%
lOO'/,
I. UlIUldo os dados da Tabela 1.1. CapílUlo I :
la) Construa a distribuição de freqüência conjunta para as variaveis grau de instrução
e região de procedência.
(h) Qual a porcentagem dos funcionários que lêm o segundo grau?
(r) Qual a porcentagem daqueles que têm o segundo grau e são do inlcrior?
la) Dentre os funcionários do interior, quanto por cento tem o segundo grau?
1. No problema anterior, sorteando um funcionario ao acaso entre os 36:
(D) Qual será provavelmente o seu grau de instrução?
(h) E sua região de procedência?
«() Qual a probabilidade do sorteado ter nivel superior?
(d) Sabendo que o sorteado edo interior, qual a probabilidade dele possuir nível su-
perior?
(e) Sabendo que o escolbido eda capital. qual a probabilidade dele possuir nível su-
perior?
51
3. Numa pesquisa sobre rotatividade de mão-de-obra, para uma amostra de. 40 peSSOal
Foram observadas duas variàveis: numero de empregos nos ultimos dois anos (X) t
salârio mais recente, em numero de salârios mínimos (Y). Os resultados Foram :
Indivíduo X Y lndÍ'Í(/uo X Y
1 1 6 21 2 4
2 3 2
" 3 2
3 2 4 23 4 1
4 3 1 24 1 5
5 2 4 25 2 4
6 2 1 26 3 2
7 3 3 27 4 1
8 1 5 28 1 5
9 2 2 29 4 4
10 3 2 3<l 3 3
11 2 5 li 2 2
12 3 2 12 1 1
13 1 6 33 4 1
14 2 6 34 2 6
15 3 2 35 4 2
16 4 2 36 3 1
17 1 5 37 1 4
18 2 5 J8 3 2
19 2 1 39 2 3
20 2 1 40 2 5
(o) Usando a mediana, classifique os individuos em dois níveis, alto e baixo, para cada
uma das variáveis, e construa a distribuição de Freqüências conjunta das duas clas-
siFicações.
(b) Qual a porcentagem das pessoas com baixa rotatividade e ganhando pouco?
(c) Qual a porcentagem das pessoas que ganham pouco'!
(cf) Entre as pessoas com baixa rotatividade, qual a porcentagem das que ganham
pouco'!
(e) A inFormação adicional dada em (cf) mudou muito a porcentagem observada em (e)1
O que isso significa?
3.2. INDEPENDÊNCIA DE VARIÁVEIS
Um dos principais objetivos de uma distribuição conjunta e des-
crever a associabilidade existente entre as variáveis, isto é, queremos
conhecer o grau de dependência entre elas, de modo que possamos prever
melhor o resultado de uma delas quando conhecemos a realização da outra,
Por exemplo, se queremos estimar qual a renda média de uma família
moradora da cidade de São Paulo, a informação adicional sobre a classe
52
. ue ela perlence perm ite~nos estimar com maior precisão essa
"-ai a q d d d"·· d · · .- ' pois sabemos a epen encla eXIstente entre as uas vanavels :
renda'f: miliar e classe social. Ou , ainda, suponhamos que uma pessoa seja
rendada ao acasO da população da cidade de São Paulo, e devemos adi~
sorlei a .
. , ual o sexo dessa pessoa. Como sabemos ser aproxImadamente a
'Inh~eqda população de cada sexo, não temos preferência em sugerir
me~ ucr um dos dois. Mas se a mesma pergunta fosse feita, e nos fosse
Q~ que a pessoa sorteada trabalha na indústria siderurgica, seriamos
dito q . , d I· · be
. linados a sugerir que a pessoa e °sexo mascu 100, POiS sa mos que
tnc ' d d -Se · ' -
á
redominâncla esse sexo nesse ramo e ocupaçao. a In lormaçao
h P di · · .
adicional dissesse qu.e.a pessoa ~ortea a eClOna ?o.prtmelro,grau. a nossa
estão seria modIficada, pOIS a grande malona dos professores do
sug d ' . . I dinteiro gr,jU são o sexo lemlntno. sso tu o porque sabemos ser grande
: grau de dependência entre as variáv~is s~x~ e ramo de ativi,dade.
Vejamos, agora, como podemos tdentlflcar a dependênCia ou não
entre variáveis, alravés da distribuição conjunta.
E:t::emplo 3.2. Queremos verificar se existe ou não dependência enlre
osexo e a carreira escolhida por 200 alunos de Economia e Administração.
Esses dados estão agrupados na Tabela 3.4.
TABELA 3.4 - Distribuição conjunta de alunos segundo o sexo
(X) e o curso escolhido (Y).
~ Masculino Feminino TOTAL
Economia 85 35 120
Administração 55 25 80
TOTAL 140 60 200
Fonte: Dados hipotêlicos
Inicialmcnle, verificamos que fica muito difícil tirar alguma con-
clusio, devido à diferença entre os totais marginais. Assim, devemos
construir as proporções segundo as linhas ou as colunas para podermos
I'azer as comparações. Fixemos os totais das colunas; a distribuição está
na Tabela 3.5.
53
y
TABELA 3.5 - Distribuição conjunta das proporções (cm por-
centagem) dc alunos, segundo sexo (X) e Curso
escolhido (Y).
.
X
Masculino Feminino TOTAL
Economia 61 % 58% 60%
Administração 39% 42% 40%
TOTAL 100% 100% 100%
Fonte : Tabela 3.4
A partir desta tabela podemos observar que, independentemente do
sexo, 60% das pessoas preferem Economia e 40%, Administração. (Observ~
na coluna de total.) Não havendo deRendência entre as variáveis, eSpera_
ríamos estas mesmas proporções para cada sexo. Observando a tabela
vemos que as proporções do sexo masculino (61% e 39%) e do feminin~
(58% e 42%) sào próximas das marginais (60% e 40%). Estes re,ult,.do, I
parecem indicar nào haver dependência entre as duas variáveis. Con_
cluímos, então, que nesse caso as variáveis sexo e curso parecem ser in~­
pendentes.
Vamos supor agora um problema semelhante, mas envolvendo alunos
de Física e Ciências Sociais, cuja distribuição conjunta está na Tabela 3.6.
Inicialmente convém observar que, para econom izar espaço, resu-
mimos as duas tabelas numa única, indicando as proporções em rel,.ção ,
aos totais das colunas entre parênteses. Comparando agora a distribuição
das proporções pelos cursos, independente do sexo (coluna de com
as distribuições diferenciadas po~ sexo (coluna de masculino e felnillino),.
observamos uma disparidade bem acentuada nas proporções. Assim,
parece haver uma maior concentração de homens no curso de Física e de
mulheres no curso de Ciências Sociais. Portanto, neste caso, as variáve,i, I
sexo e curso escolhido parecem ser dependentes.
Quando existe dependência entre variáveis, sempre é interessante
quantificar essa dependência, e isso será objeto da próxima seção. E antes
de passarmos a discutir este aspecto, convém observar que teríamos obtido
as mesmas conclusões do exemplo 3.2 se tivéssemos calculado as propor-
ções, mantendo Constantes os totais das linhas.
54
TAIIELA
3.6 - Distribuição conjunta das freqüências e propor-
ções (em porcentagem), segundo o sexo (X) e o
curso escolhido (Y).
~
Masculino Feminino TOTAl,.
Fistc:a . .
100 (li %) 20 (33%) 120 (60%)
Ciências SOCIais 40 (29%) 40 (67"1.) 80 (4O%)
TOTAL 140 (100%) 60 (100%) 200 (100'1.)
Fonlt: Dados hipotéticos
]IIIOIILEMAS
oi. usando os dados do problema I. responda:
(p) Qual a distribuição das proporções do grau de educação segundo cada urna das
regiões de procedência?
(6) Baseado no resultado anterior c: no prOblema 2, você diria que existe dependência
entre a região de procedência e o nível de educação do funcionado?
5. Usando o problema 3. verifique se há relações entre as variáveis rotatividade e salário.
" Após o lançamento de um novo modelo de automóvel. observou-se que 25% dos carros
apresentavam defeitos na suspensão, t5% no sistema détrico c 10% na suspensão e
DO sislema elétrico ao mesmo tempo.
(li) Quat a distribuição conjunta das variáveis?
(6) Qual a proporção de carros que apresentam defeitos?
(e) Entre os carros que apresentam defeitos na suspensão, qual a proporção que apre-
IJeIlta defeito no sistema elétrico?
(d) Entre os carros que não apresentam defeitos na suspensão, qual a proporção que
apresenta defeitos no sistema elétrico?
(r) Você aeba que exiSle relação entre as variáveis?
3.3, MEDIDA DE DEPENDÊNCIA ENTRE DUAS VARIÁVEIS
NOMINAIS
De um modo geral, a quantificação do grau de dependência entre duas
variáveis é reita pelos chamados coeficientes de associação ou correlação.
55
!
Estas sào medidas que descrevem num único número a dependência entre
as duas variáveis. Para maior facilidade de compreensão, esses coeficientes
usualmente variam de zero até um (ou, às vezes, de - I até 1), e a proximi.
dade do zero indica total independência. , -
Existem muitas medidas que quantificam a dependência entre va.
riáveis nominais, mas iremos apresentar apenas uma delas. É o chamado
coeficiente de contingência, devido a K. Pearson.
Exemplo 3.3. Queremos verificar se a criação de detenninado tipo
de cooperativa está associada com algum fator regional. Para isso, cole_
taram-se os dados da Tabela 3.7.
TABELA 3.7 - Cooperativas autorizadas a funcionar por tipo
e estado, junho de 1974.
TIPO DE COOPERATIVA
ESTADO f--------,---,--_-,--__-j
Consumidor Produtor
TOTAL
Escola Outros
São Paulo 214(33%) 237(37%) 78(12%) 119(18%) 648 (I 00";';)
Paraná 51 (17%) 102(34%) 126 (42%) 22 (7%) 301(100%) ' ......
RioG.Sul 111(18%) 304(51 %) 139(23%) 48 (8%) 602(100%)
TOTAL 376 (24:~) 643 (42%) 343(22%) 189(12%) 1.551 (100%)
Fonte: Sinopse Estatistica do Brasil _ IBGE _ 1977
A análise da Tabela 3.7 mostra a existência de uma certa dependência
entre as variáveis. Caso houvesse independência, esperaríamos que em
cada estado tivéssemos 24% de cooperativas de consumidores, 42% de
produtores, 22% de escolas e 12% de outros. Então, o número esperado
de cooperativas de consumidores no Estado de São Paulo seria 648 x 0,24 =
= 156 e no Paraná 301 x 0,24 = 72 (Ver Tabela 3.8).
Comparando as duas tabelas, podemos veri ficar as discrepâncias
existentes entre os valores observados (Tabela 3.7) e os esperados (Tabela
3.8), caso as variáveis fossem independentes. Na Tabela 3.9, resumimos os
desvios: observados menos esperados. Observando essa tabela podemos
tirar algumas conclusões:
i) A soma total dos resíduos é nula. Pode-se verificar facilmente
somando-se cada linha.
56
TABELA
3.8 _ Valores esperados na Tabela 3.7. ,ass.umindo a
independência entre as duas vanavelS. I
- TIPO DE COOPERATIVA
Outros
TOTAL
ESTADÜ Consumidor Produtor Escola
156(24%) 272(42%) 142(22%) 78(12%) 648 (100';')
São Paulo
66(22%) 36(12%) 301 (100";')
Paraná 72(24%) 127(42%)
132(22%) 72(12%) 602(100%)
Rio G. Sul 144(24%) 254(42%)
TOTAL 376(24%) 643(42%) 343(22%) 189(12%) 1.551 (100%)
Fonte: Tabela 3.7
TABELA 3.9 - Desvios entre observa~os e esperados.
TIPO DE COOPERATIVA
ESTADOS
Consumidor Produtor Escola OutroS
58 (21 ,56) - 35(4,50) 64(28,84) 41 (21 ,55)
São Paulo
-21( 6,12) - 25 (4,92) 60(54,54) - 14( 5,44)
Paraná
50 (9 ,84) 7 ( 0,37) - 24( 8,00)
Rio G. Sul 33( 7,56)
ffonte Tabelas 3.7 e 3.8
. I ue apresenta o maior desvio
ii) A casela Escola-São Paulo e aque a q I . amos 142
d . d d-ncia ( 64) Nesta case a esperav
da suposição e 10 epen e. -.' desvio alto (60) só que
I E 1 Parana também tem um . ,
casos. A case a ~co a- r (66) Portanto, se fôssemos considerar os
o valor esperado e bem ~eno . be aior Uma maneira de observar
desvios relativos, este último sena m fi .. d'd .
isso é construindo para cada casela a segumte me I a.
(o ,-e,)' (3.1)
e,
onde: Oi é o valor observado (Tabela 3.7);
ei é o valor esperado (Tabela 3.8).
57
Assim, para a casela Escola-São Paulo obtemos:
(-64)' ~ 2884
142 ..
e para a casela Escola-Paraná,
(60)' ~ 54 54
66 ,.
o que é uma indicação de que o desvio devido a esta última casela é "maior"
do que aquele da pri.meirót. Na Tabela 3.9 indicamos entre parênteses
estes valores para todas as caselas.
Uma medida do afastamento global pode ser dada pela soma dos
valores. Chama-se essa medida de X2
(qui-quadrado), e no nosso exemPlo
teríamos
x' ~ 21 ,56 + 6,12 + ... + 8,00 ~ 173.24.
No caso geral, a expressão de l! é dada por
onde a somatória é estendida a todas as caselas.
Quanto maior for o valor de X2
, maior será o grau de associação
existente entre as duas variáveis. Mas fica muito dificil , baseando.se
em X2
, julgar se a associação é alta ou não. Por isso, K. Pearson, famoso
estatístico do .começo do século, propôs o chamado coeficiente de con-
tingência C, definido por
C - ~
-"';x2+n'
onde n é o número de observações. Teoricamente, esse coeficiente é um
número entre zero e um , sendo nulo uando as variáveis não são associaQ.as
e, portanto, X2 = O. Enlretanto, mesmo quando existe uma associação
perfeita, C pode não ser igual a 1. Uma alteração possível é considerar O
coeficiente
C· ~ C/[(I- 1)/1]"',
onde I = mínimo entre o número de colunas e o número de linhas da tabela.
Voltando ao exemplo 3.3, obtemos:
58
,
c ~ [173 ,24/ (173,24+ 1551)]' " ~ 0,32
C. ~ 0,32/(2/3)' " ~ 0,40,
. d do grau de associação entre as duas variáveis.
si indica ores
qdC ° fi lar no uso do X2
no Capítulo 1t .
tarell0s a a
fIIIOIILEMAS
os dados do problema I, calcule o valor de Xl e o coeficien~e de con~ingência c....
'I. Usando ã de acordo com as conclusões obtidas antenormente.
fSIC$ valores est o
d ~? de C para os dados do problema 37 E para o problema 61
.. Qual o valor e e
C" de Seguros analisou li freqüência com que 2.000 segurados (1.000 h
t. ~ooo~~ulhercS) usaram o hospital. Os resultados foram :
Homl!ns Mulhl!fl!s
IOO "l.·j' 150
re>
Usaram o hospital
850 ;'
<'
Não usaram o hospital 9OOr )lr
Calcule a proporção de homens entre os indivíduos que usaram o hospita.1.
=~ Calcule a proporção de homens entre os individuos que não usaram o hospital.
(c) O uso do hospital independe do :elt~ do segura.~o?
td) Encontre uma medida da dependencI3 entre V3navelS.
ta. A c:ompanhia X de dedetização aFirma que o proçesso por ela utiliza~o .garante um
mIo mais prolongado do que aquele obtido por seus concorrentes mais diretos. U~a
amostra de vários ambientes dedetizados foi colhida e anotou-se a duraçà.o do efeito
• dedctização. Os resultados estão na tabela abaixo. Você acha que eXiste alguma
eridincia a favor ou contra a afirmação feita pela companhia X?
Duração do efl!ilo de dednizaçdo
Companhia
MaiJ de 8 ml!sesMtnos de 4 ml!ses De 4 a 8 ml!SI!S
X 64 120 16
Y 104 175 21
Z 27 48 5
59
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística
Probabilidade e estatística

Weitere ähnliche Inhalte

Was ist angesagt?

Estatística
EstatísticaEstatística
Estatísticaaldaalves
 
Pesquisa Analitica & Descritiva
Pesquisa Analitica & DescritivaPesquisa Analitica & Descritiva
Pesquisa Analitica & DescritivaCassio Meira Jr.
 
Estatistica aplicada exercicios resolvidos manual tecnico formando
Estatistica aplicada exercicios resolvidos manual tecnico formandoEstatistica aplicada exercicios resolvidos manual tecnico formando
Estatistica aplicada exercicios resolvidos manual tecnico formandoAntonio Mankumbani Chora
 
Bioestatistica basica completa-apresentacao
Bioestatistica basica completa-apresentacaoBioestatistica basica completa-apresentacao
Bioestatistica basica completa-apresentacaoFabiano Reis
 
Aula de distribuição de frequencia
Aula de distribuição de frequenciaAula de distribuição de frequencia
Aula de distribuição de frequenciaLinduart Tavares
 
Medidas de dispersão desviomédio, desvio-padrão e variância.pptx
Medidas de dispersão desviomédio, desvio-padrão e variância.pptxMedidas de dispersão desviomédio, desvio-padrão e variância.pptx
Medidas de dispersão desviomédio, desvio-padrão e variância.pptxValquíria Santos
 
Estatística e probabilidade - 7 Medidas de Variabilidade
Estatística e probabilidade - 7 Medidas de VariabilidadeEstatística e probabilidade - 7 Medidas de Variabilidade
Estatística e probabilidade - 7 Medidas de VariabilidadeRanilson Paiva
 
Distribuição de frequencia
Distribuição de frequenciaDistribuição de frequencia
Distribuição de frequenciaAsafe Salomao
 
Exemplo de cálculo média,moda e mediana com distribuição frequencia
Exemplo de cálculo média,moda e mediana com distribuição frequenciaExemplo de cálculo média,moda e mediana com distribuição frequencia
Exemplo de cálculo média,moda e mediana com distribuição frequenciaRenato Ribeiro Soares
 
Métodos quantitativos e_qualitativos1
Métodos quantitativos e_qualitativos1Métodos quantitativos e_qualitativos1
Métodos quantitativos e_qualitativos1queenbianca
 
Distribuição normal
Distribuição normalDistribuição normal
Distribuição normaljoseagrosa
 
Interpretação de gráficos e tabelas
Interpretação de gráficos e tabelasInterpretação de gráficos e tabelas
Interpretação de gráficos e tabelasCarlos Priante
 
Estatística (exercícios resolvidos - Gráficos, amplitude, médio, desvio padrã...
Estatística (exercícios resolvidos - Gráficos, amplitude, médio, desvio padrã...Estatística (exercícios resolvidos - Gráficos, amplitude, médio, desvio padrã...
Estatística (exercícios resolvidos - Gráficos, amplitude, médio, desvio padrã...wilkerfilipel
 
Modelo dos slides de apresentação da defesa
Modelo dos slides de apresentação da defesaModelo dos slides de apresentação da defesa
Modelo dos slides de apresentação da defesabebel2011
 

Was ist angesagt? (20)

Estatística
EstatísticaEstatística
Estatística
 
Pesquisa Analitica & Descritiva
Pesquisa Analitica & DescritivaPesquisa Analitica & Descritiva
Pesquisa Analitica & Descritiva
 
Estatistica aplicada exercicios resolvidos manual tecnico formando
Estatistica aplicada exercicios resolvidos manual tecnico formandoEstatistica aplicada exercicios resolvidos manual tecnico formando
Estatistica aplicada exercicios resolvidos manual tecnico formando
 
Bioestatistica basica completa-apresentacao
Bioestatistica basica completa-apresentacaoBioestatistica basica completa-apresentacao
Bioestatistica basica completa-apresentacao
 
Aula de distribuição de frequencia
Aula de distribuição de frequenciaAula de distribuição de frequencia
Aula de distribuição de frequencia
 
Medidas de dispersão desviomédio, desvio-padrão e variância.pptx
Medidas de dispersão desviomédio, desvio-padrão e variância.pptxMedidas de dispersão desviomédio, desvio-padrão e variância.pptx
Medidas de dispersão desviomédio, desvio-padrão e variância.pptx
 
Estatística e probabilidade - 7 Medidas de Variabilidade
Estatística e probabilidade - 7 Medidas de VariabilidadeEstatística e probabilidade - 7 Medidas de Variabilidade
Estatística e probabilidade - 7 Medidas de Variabilidade
 
Distribuição de frequencia
Distribuição de frequenciaDistribuição de frequencia
Distribuição de frequencia
 
Exemplo de cálculo média,moda e mediana com distribuição frequencia
Exemplo de cálculo média,moda e mediana com distribuição frequenciaExemplo de cálculo média,moda e mediana com distribuição frequencia
Exemplo de cálculo média,moda e mediana com distribuição frequencia
 
Métodos quantitativos e_qualitativos1
Métodos quantitativos e_qualitativos1Métodos quantitativos e_qualitativos1
Métodos quantitativos e_qualitativos1
 
Estatística básica
Estatística básicaEstatística básica
Estatística básica
 
Distribuição normal
Distribuição normalDistribuição normal
Distribuição normal
 
Aula 01 introdução a estatística
Aula 01   introdução a estatísticaAula 01   introdução a estatística
Aula 01 introdução a estatística
 
Interpretação de gráficos e tabelas
Interpretação de gráficos e tabelasInterpretação de gráficos e tabelas
Interpretação de gráficos e tabelas
 
Estatística (exercícios resolvidos - Gráficos, amplitude, médio, desvio padrã...
Estatística (exercícios resolvidos - Gráficos, amplitude, médio, desvio padrã...Estatística (exercícios resolvidos - Gráficos, amplitude, médio, desvio padrã...
Estatística (exercícios resolvidos - Gráficos, amplitude, médio, desvio padrã...
 
Estatística
EstatísticaEstatística
Estatística
 
Aula1 - estatística básica
Aula1 -  estatística básicaAula1 -  estatística básica
Aula1 - estatística básica
 
Noções Básicas de Estatística
Noções Básicas de EstatísticaNoções Básicas de Estatística
Noções Básicas de Estatística
 
Modelo dos slides de apresentação da defesa
Modelo dos slides de apresentação da defesaModelo dos slides de apresentação da defesa
Modelo dos slides de apresentação da defesa
 
Aula 07 Medidas de Tendencia Central de Dados Não Agrupados
Aula 07   Medidas de Tendencia Central de Dados Não AgrupadosAula 07   Medidas de Tendencia Central de Dados Não Agrupados
Aula 07 Medidas de Tendencia Central de Dados Não Agrupados
 

Ähnlich wie Probabilidade e estatística

Analise empirica de dados multinomiaiE
Analise empirica de dados multinomiaiEAnalise empirica de dados multinomiaiE
Analise empirica de dados multinomiaiEDiogo Freire
 
Livro analise de dados amostrais complexos
Livro analise de dados amostrais complexosLivro analise de dados amostrais complexos
Livro analise de dados amostrais complexosDiogo Freire
 
Dissertação muros de suporte
Dissertação muros de suporteDissertação muros de suporte
Dissertação muros de suportePedro Santos
 
Conceitos básicos de Software R
Conceitos básicos de Software RConceitos básicos de Software R
Conceitos básicos de Software RThais Amaral
 
Intro teoria dos numerros i
Intro teoria dos numerros iIntro teoria dos numerros i
Intro teoria dos numerros iPaulo Martins
 
Apostila estatistica
Apostila estatisticaApostila estatistica
Apostila estatisticaairton borin
 
Teoria lajes maciças_00
Teoria lajes maciças_00Teoria lajes maciças_00
Teoria lajes maciças_00LTLJ
 
Mecânica básica i (3a. edição)
Mecânica básica i (3a. edição)Mecânica básica i (3a. edição)
Mecânica básica i (3a. edição)scarcela
 
Matemática volume único edwaldo bianchini e herval paccola
Matemática  volume único edwaldo bianchini e herval paccolaMatemática  volume único edwaldo bianchini e herval paccola
Matemática volume único edwaldo bianchini e herval paccolaAdriana Barbosa
 
Conceitos estatistica
Conceitos estatisticaConceitos estatistica
Conceitos estatisticaJuliana Ardel
 
Precificação de Derivativos Exóticos no Mercado de Petróleo
Precificação de Derivativos Exóticos no Mercado de PetróleoPrecificação de Derivativos Exóticos no Mercado de Petróleo
Precificação de Derivativos Exóticos no Mercado de PetróleoDiogo Gobira
 

Ähnlich wie Probabilidade e estatística (20)

Analise empirica de dados multinomiaiE
Analise empirica de dados multinomiaiEAnalise empirica de dados multinomiaiE
Analise empirica de dados multinomiaiE
 
1540
15401540
1540
 
Livro analise de dados amostrais complexos
Livro analise de dados amostrais complexosLivro analise de dados amostrais complexos
Livro analise de dados amostrais complexos
 
Dissertação muros de suporte
Dissertação muros de suporteDissertação muros de suporte
Dissertação muros de suporte
 
Curso estatistica descritiva no r
Curso   estatistica descritiva no rCurso   estatistica descritiva no r
Curso estatistica descritiva no r
 
Conceitos básicos de Software R
Conceitos básicos de Software RConceitos básicos de Software R
Conceitos básicos de Software R
 
Análise bayesiana de decisões aspectos práticos
Análise bayesiana de decisões   aspectos práticosAnálise bayesiana de decisões   aspectos práticos
Análise bayesiana de decisões aspectos práticos
 
Livro seagro
Livro seagroLivro seagro
Livro seagro
 
Intro teoria dos numerros i
Intro teoria dos numerros iIntro teoria dos numerros i
Intro teoria dos numerros i
 
Apostila de Bioestatística
Apostila de BioestatísticaApostila de Bioestatística
Apostila de Bioestatística
 
Apostila estatistica
Apostila estatisticaApostila estatistica
Apostila estatistica
 
Teoria lajes maciças_00
Teoria lajes maciças_00Teoria lajes maciças_00
Teoria lajes maciças_00
 
Mecânica básica i (3a. edição)
Mecânica básica i (3a. edição)Mecânica básica i (3a. edição)
Mecânica básica i (3a. edição)
 
Matemática volume único edwaldo bianchini e herval paccola
Matemática  volume único edwaldo bianchini e herval paccolaMatemática  volume único edwaldo bianchini e herval paccola
Matemática volume único edwaldo bianchini e herval paccola
 
Dissertacao murilo h_de_sousa
Dissertacao murilo h_de_sousaDissertacao murilo h_de_sousa
Dissertacao murilo h_de_sousa
 
Conceitos estatistica
Conceitos estatisticaConceitos estatistica
Conceitos estatistica
 
Precificação de Derivativos Exóticos no Mercado de Petróleo
Precificação de Derivativos Exóticos no Mercado de PetróleoPrecificação de Derivativos Exóticos no Mercado de Petróleo
Precificação de Derivativos Exóticos no Mercado de Petróleo
 
Intro probab (3)
Intro probab (3)Intro probab (3)
Intro probab (3)
 
Analise real cassio neri
Analise real   cassio neriAnalise real   cassio neri
Analise real cassio neri
 
Exercicios de estatistica resolvido.5
Exercicios de estatistica resolvido.5Exercicios de estatistica resolvido.5
Exercicios de estatistica resolvido.5
 

Kürzlich hochgeladen

classe gramatical Substantivo apresentação..pptx
classe gramatical Substantivo apresentação..pptxclasse gramatical Substantivo apresentação..pptx
classe gramatical Substantivo apresentação..pptxLuciana Luciana
 
Plano de aula Nova Escola períodos simples e composto parte 1.pptx
Plano de aula Nova Escola períodos simples e composto parte 1.pptxPlano de aula Nova Escola períodos simples e composto parte 1.pptx
Plano de aula Nova Escola períodos simples e composto parte 1.pptxPaulaYaraDaasPedro
 
M0 Atendimento – Definição, Importância .pptx
M0 Atendimento – Definição, Importância .pptxM0 Atendimento – Definição, Importância .pptx
M0 Atendimento – Definição, Importância .pptxJustinoTeixeira1
 
Poesiamodernismo fase dois. 1930 prosa e poesiapptx
Poesiamodernismo fase dois. 1930 prosa e poesiapptxPoesiamodernismo fase dois. 1930 prosa e poesiapptx
Poesiamodernismo fase dois. 1930 prosa e poesiapptxPabloGabrielKdabra
 
Expansão Marítima- Descobrimentos Portugueses século XV
Expansão Marítima- Descobrimentos Portugueses século XVExpansão Marítima- Descobrimentos Portugueses século XV
Expansão Marítima- Descobrimentos Portugueses século XVlenapinto
 
Slides Lição 6, CPAD, As Nossas Armas Espirituais, 2Tr24.pptx
Slides Lição 6, CPAD, As Nossas Armas Espirituais, 2Tr24.pptxSlides Lição 6, CPAD, As Nossas Armas Espirituais, 2Tr24.pptx
Slides Lição 6, CPAD, As Nossas Armas Espirituais, 2Tr24.pptxLuizHenriquedeAlmeid6
 
Historia de Portugal - Quarto Ano - 2024
Historia de Portugal - Quarto Ano - 2024Historia de Portugal - Quarto Ano - 2024
Historia de Portugal - Quarto Ano - 2024Cabiamar
 
atividade-de-portugues-paronimos-e-homonimos-4º-e-5º-ano-respostas.pdf
atividade-de-portugues-paronimos-e-homonimos-4º-e-5º-ano-respostas.pdfatividade-de-portugues-paronimos-e-homonimos-4º-e-5º-ano-respostas.pdf
atividade-de-portugues-paronimos-e-homonimos-4º-e-5º-ano-respostas.pdfAutonoma
 
Os editoriais, reportagens e entrevistas.pptx
Os editoriais, reportagens e entrevistas.pptxOs editoriais, reportagens e entrevistas.pptx
Os editoriais, reportagens e entrevistas.pptxTailsonSantos1
 
Responde ou passa na HISTÓRIA - REVOLUÇÃO INDUSTRIAL - 8º ANO.pptx
Responde ou passa na HISTÓRIA - REVOLUÇÃO INDUSTRIAL - 8º ANO.pptxResponde ou passa na HISTÓRIA - REVOLUÇÃO INDUSTRIAL - 8º ANO.pptx
Responde ou passa na HISTÓRIA - REVOLUÇÃO INDUSTRIAL - 8º ANO.pptxAntonioVieira539017
 
A Revolução Francesa. Liberdade, Igualdade e Fraternidade são os direitos que...
A Revolução Francesa. Liberdade, Igualdade e Fraternidade são os direitos que...A Revolução Francesa. Liberdade, Igualdade e Fraternidade são os direitos que...
A Revolução Francesa. Liberdade, Igualdade e Fraternidade são os direitos que...DirceuNascimento5
 
Sistema de Bibliotecas UCS - Cantos do fim do século
Sistema de Bibliotecas UCS  - Cantos do fim do séculoSistema de Bibliotecas UCS  - Cantos do fim do século
Sistema de Bibliotecas UCS - Cantos do fim do séculoBiblioteca UCS
 
Pesquisa Ação René Barbier Livro acadêmico
Pesquisa Ação René Barbier Livro  acadêmicoPesquisa Ação René Barbier Livro  acadêmico
Pesquisa Ação René Barbier Livro acadêmicolourivalcaburite
 
GUIA DE APRENDIZAGEM 2024 9º A - História 1 BI.doc
GUIA DE APRENDIZAGEM 2024 9º A - História 1 BI.docGUIA DE APRENDIZAGEM 2024 9º A - História 1 BI.doc
GUIA DE APRENDIZAGEM 2024 9º A - História 1 BI.docPauloHenriqueGarciaM
 
Slide - SAEB. língua portuguesa e matemática
Slide - SAEB. língua portuguesa e matemáticaSlide - SAEB. língua portuguesa e matemática
Slide - SAEB. língua portuguesa e matemáticash5kpmr7w7
 
Texto dramático com Estrutura e exemplos.ppt
Texto dramático com Estrutura e exemplos.pptTexto dramático com Estrutura e exemplos.ppt
Texto dramático com Estrutura e exemplos.pptjricardo76
 
19- Pedagogia (60 mapas mentais) - Amostra.pdf
19- Pedagogia (60 mapas mentais) - Amostra.pdf19- Pedagogia (60 mapas mentais) - Amostra.pdf
19- Pedagogia (60 mapas mentais) - Amostra.pdfmarlene54545
 
Aula 1 - Psicologia Cognitiva, aula .ppt
Aula 1 - Psicologia Cognitiva, aula .pptAula 1 - Psicologia Cognitiva, aula .ppt
Aula 1 - Psicologia Cognitiva, aula .pptNathaliaFreitas32
 
E a chuva ... (Livro pedagógico para ser usado na educação infantil e trabal...
E a chuva ...  (Livro pedagógico para ser usado na educação infantil e trabal...E a chuva ...  (Livro pedagógico para ser usado na educação infantil e trabal...
E a chuva ... (Livro pedagógico para ser usado na educação infantil e trabal...andreiavys
 
LENDA DA MANDIOCA - leitura e interpretação
LENDA DA MANDIOCA - leitura e interpretaçãoLENDA DA MANDIOCA - leitura e interpretação
LENDA DA MANDIOCA - leitura e interpretaçãoLidianePaulaValezi
 

Kürzlich hochgeladen (20)

classe gramatical Substantivo apresentação..pptx
classe gramatical Substantivo apresentação..pptxclasse gramatical Substantivo apresentação..pptx
classe gramatical Substantivo apresentação..pptx
 
Plano de aula Nova Escola períodos simples e composto parte 1.pptx
Plano de aula Nova Escola períodos simples e composto parte 1.pptxPlano de aula Nova Escola períodos simples e composto parte 1.pptx
Plano de aula Nova Escola períodos simples e composto parte 1.pptx
 
M0 Atendimento – Definição, Importância .pptx
M0 Atendimento – Definição, Importância .pptxM0 Atendimento – Definição, Importância .pptx
M0 Atendimento – Definição, Importância .pptx
 
Poesiamodernismo fase dois. 1930 prosa e poesiapptx
Poesiamodernismo fase dois. 1930 prosa e poesiapptxPoesiamodernismo fase dois. 1930 prosa e poesiapptx
Poesiamodernismo fase dois. 1930 prosa e poesiapptx
 
Expansão Marítima- Descobrimentos Portugueses século XV
Expansão Marítima- Descobrimentos Portugueses século XVExpansão Marítima- Descobrimentos Portugueses século XV
Expansão Marítima- Descobrimentos Portugueses século XV
 
Slides Lição 6, CPAD, As Nossas Armas Espirituais, 2Tr24.pptx
Slides Lição 6, CPAD, As Nossas Armas Espirituais, 2Tr24.pptxSlides Lição 6, CPAD, As Nossas Armas Espirituais, 2Tr24.pptx
Slides Lição 6, CPAD, As Nossas Armas Espirituais, 2Tr24.pptx
 
Historia de Portugal - Quarto Ano - 2024
Historia de Portugal - Quarto Ano - 2024Historia de Portugal - Quarto Ano - 2024
Historia de Portugal - Quarto Ano - 2024
 
atividade-de-portugues-paronimos-e-homonimos-4º-e-5º-ano-respostas.pdf
atividade-de-portugues-paronimos-e-homonimos-4º-e-5º-ano-respostas.pdfatividade-de-portugues-paronimos-e-homonimos-4º-e-5º-ano-respostas.pdf
atividade-de-portugues-paronimos-e-homonimos-4º-e-5º-ano-respostas.pdf
 
Os editoriais, reportagens e entrevistas.pptx
Os editoriais, reportagens e entrevistas.pptxOs editoriais, reportagens e entrevistas.pptx
Os editoriais, reportagens e entrevistas.pptx
 
Responde ou passa na HISTÓRIA - REVOLUÇÃO INDUSTRIAL - 8º ANO.pptx
Responde ou passa na HISTÓRIA - REVOLUÇÃO INDUSTRIAL - 8º ANO.pptxResponde ou passa na HISTÓRIA - REVOLUÇÃO INDUSTRIAL - 8º ANO.pptx
Responde ou passa na HISTÓRIA - REVOLUÇÃO INDUSTRIAL - 8º ANO.pptx
 
A Revolução Francesa. Liberdade, Igualdade e Fraternidade são os direitos que...
A Revolução Francesa. Liberdade, Igualdade e Fraternidade são os direitos que...A Revolução Francesa. Liberdade, Igualdade e Fraternidade são os direitos que...
A Revolução Francesa. Liberdade, Igualdade e Fraternidade são os direitos que...
 
Sistema de Bibliotecas UCS - Cantos do fim do século
Sistema de Bibliotecas UCS  - Cantos do fim do séculoSistema de Bibliotecas UCS  - Cantos do fim do século
Sistema de Bibliotecas UCS - Cantos do fim do século
 
Pesquisa Ação René Barbier Livro acadêmico
Pesquisa Ação René Barbier Livro  acadêmicoPesquisa Ação René Barbier Livro  acadêmico
Pesquisa Ação René Barbier Livro acadêmico
 
GUIA DE APRENDIZAGEM 2024 9º A - História 1 BI.doc
GUIA DE APRENDIZAGEM 2024 9º A - História 1 BI.docGUIA DE APRENDIZAGEM 2024 9º A - História 1 BI.doc
GUIA DE APRENDIZAGEM 2024 9º A - História 1 BI.doc
 
Slide - SAEB. língua portuguesa e matemática
Slide - SAEB. língua portuguesa e matemáticaSlide - SAEB. língua portuguesa e matemática
Slide - SAEB. língua portuguesa e matemática
 
Texto dramático com Estrutura e exemplos.ppt
Texto dramático com Estrutura e exemplos.pptTexto dramático com Estrutura e exemplos.ppt
Texto dramático com Estrutura e exemplos.ppt
 
19- Pedagogia (60 mapas mentais) - Amostra.pdf
19- Pedagogia (60 mapas mentais) - Amostra.pdf19- Pedagogia (60 mapas mentais) - Amostra.pdf
19- Pedagogia (60 mapas mentais) - Amostra.pdf
 
Aula 1 - Psicologia Cognitiva, aula .ppt
Aula 1 - Psicologia Cognitiva, aula .pptAula 1 - Psicologia Cognitiva, aula .ppt
Aula 1 - Psicologia Cognitiva, aula .ppt
 
E a chuva ... (Livro pedagógico para ser usado na educação infantil e trabal...
E a chuva ...  (Livro pedagógico para ser usado na educação infantil e trabal...E a chuva ...  (Livro pedagógico para ser usado na educação infantil e trabal...
E a chuva ... (Livro pedagógico para ser usado na educação infantil e trabal...
 
LENDA DA MANDIOCA - leitura e interpretação
LENDA DA MANDIOCA - leitura e interpretaçãoLENDA DA MANDIOCA - leitura e interpretação
LENDA DA MANDIOCA - leitura e interpretação
 

Probabilidade e estatística

  • 3. À Lígia e Célia WILTON O. BUSSAB PEDRO A. MORETIIN MÉTODOS QUANTITATIVOS ESTATíSTICA BÁSICA 4!' edição DEDALUS - Acervo -IME 31000006184
  • 4. Capa: Sylvio Ulhoa Cintra Fílho Composição e Artes: AM P~oduções Gráficas Ltda. Assessoria Editorial: Samuel Hazzan Copyright © Wilton o. Bussab Pedro A. Morettin B'8& 4. ed. 87-0952 Dados de Catalogação na Publicação (Clr) Internacional (Câmaca Brasileira do Uno, sr, Brasil) Bussab, Wilton O., 1940- Estatística básica I Wilton O. Bussab, Pedro A. Morettin. 4. ed. - São Paulo: Atual, 1987. (Métodos quantitativos) BibJiollrafia. l. Econometria 2. Economia matemática 3. Estatís,· . , ". 'E . . Iça maem Ica . . statlstJca matemática - Problemas, exercidos dc. r. Moretlm, Pedro A., 1942· 11. Título. 111. Série. fndlces paca catálogo sistemático: 1. Econometria 33O.D72 2. Estatística econômica: Matemática estatística 519.502433 3. Estatística matemática 519.5 4. Métodos quantitativos · Economia 330.D18 CDO-330.Ol8 ·33O.Q72 -519.5 -519.502433 Copyright desta edição: -UNi"VE-~S7ÕAÓE·ÕÊ ·siDP AULO ATUAL EDITORA LTDA., 1991. Rua José Antônio Coelho, 785 04011 - São Paulo - SP Te!.: (011) 575-1544 Todos os direitos reservados. LNLSEC tnsi'I~:v :!~ M~I~,~.,tI~ ~ '. E ,I~,i~liel --_._,-.-.-- Data I' N;"';:")lMG~ ."'" .J ,. ~ ./ ; Rtlg4~~o;: J..,~-:-51t NOS PEDIDOS TELEGRÁFICOS BASTA CITAR; O CÓDIGO: ADTM0333L , Prefácio à Primeira Edição Este é o volume de Estatística Básica da nossa série de Métodos Quan- titativos. O objetivo do livro é introduzir os conceitos básicos de Esta- tística, desenvolvendo a linguagem necessária para o acompanhamento de disciplinas mais especializadas, constantes dos currículos de Econo- mia e Administração, tais como Econometria, Estatística Econômica, Estatística Aplicada à Administração, etc. Para isso dividimos o livro em três partes: Parte I - Análise Explo- ratória de Dados (Capítulos I a 3), onde apresentamos as técnicas des- critivas de análise de dados brutos, enfatizando o conceito de distribuição de freqüências, tanto no caso uni como no bidimensional; Parte 11 - Probabilidades (Capítulos 4 a 7), onde introduzimos o conceito de pro- babilidades, visando a criação de modelos teóricos para as distribuições empíricas apresentadas na Parte I, bem como apresentamos os modelos mais usuais dentro da Estatística; Parte In - Inferência Estatística (Ca- pítulo 8 a 11), onde discutimos os princípios gerais de amostragem, esti- mação e testes de hipóteses, procurando ressaltar as razões lógicas subjacentes a estes conceitos. O texto destina·se basicamente a um curso de dois semestres, e o material dos sete primeiros capítulos seria o programa do primeiro se- mestre. O presente trabalho foi surgindo durante vários cursos le.cionados pelos autores, tanto na EAESP-FGV como na FEA·USP, estes sob res- ponsabilidade do IME-USP. Portanto, fomos beneficiados pelas suges- tões, críticas e correções de colegas que lecionaram as mesmas disciplinas. A eles somos profundamente gratos. •Em particular, agradecemos à srta. Lourdes Vaz da Silva pelo per- feito, paciente e dedicado trabalho de datilografar o manuscrito. S. Paulo, maio de 1981. Os autores.
  • 5. Prefácio à Segunda Edição Na segunda edição muitos erros foram corrigidos e alguns pará- grafos foram reescritos. Queremos agradecer a vários colegas Que nos beneficiaram com seus comentários e sugestões, especialmente aqueles que têm utilizado o livro no âmbito do IME-USP. S. Paulo, janeiro de 1984. Os autores. Prefácio à Terceira Edição Nesta terceira edição, aceitando sugestões de professores e alunos, alteramos a ordem dos exercícios, colocando exercícios de aplicações im~­ diatas logo após algumas seções teóricas. Mas ainda permanece, nos fI- nais dos capítulos, a seção de Problemas e Complementos, contendo exercícios gerais. Esperamos com isso facilitar aos estudantes a fixação dos conceitos. Aproveitamos a oportunidade para corrigir os erros das edições an- teriores, bem como reescrever algumas passagens que nos pareciam obscuras. Novamente, agradecemos a todos aqueles que nos honraram com críticas e sugestões. s. Paulo, agosto de 1985. Os autores.
  • 6. Sumário PARTE I - ANALISE EXPLORATÓRIA DE DADOS CAPITULO I - RESUMO DE DADOS 1.1 - Introdução .. ............................... .. ....... .. .........'....... 1 1.2 - Tipos de Variáveis .. ........ o, ••• , . '" . . . . . . . . . . . . . . . . . . . . 0.......... 3 1.3 - Distribuição de Freqüências ................. ................. o.... 5 IA - Representação Gráfica das Variáveis Quanútativas ......... 8 1.5 - Ramo-e-folhas........................ ................................. 12 CAPITULO 2 - ALGUMAS MEDIDAS ASSbC1ADAS AVARIÁVElS QUANTITATIVAS 2.1 - Medidas de Posição .... ...... ...... .............. 0.. ............... 27 2.2 - Medidas de Dispersão ............... 0 . o... .......... .............. 29 2.3 - Outra Estratégia de Análise ........:..... ..... .. .... .............. 34 2.4 - Desenho~EsQue'mátioo- ...... .. .. ... ... .... ... ..... ... .. .. ... 37 CAPITULO 3 - ANÁLISE BlDIMENSIONAL 3.1 - Variáveis Multidimensionais 49 3.2 - (ndependência de Variáveis ... .... ... ..... ........ .. ... ....... .... 52 3.3 - Medida de Dependência entr~..D~~~·v~~jâ·~~i~·N~~i~~i~::: 55 3.4 - Diagramas de Dispersão ...................... ........... .... ... .. 60 3.5 - Coeficiente de Correlação ............ .... .. .. ...... .... ... ... ..... 62 PARTE 11 - PROBABILIDADES CAPITULO 4 - PROBABILIDADES 4.1 - Introdução .. ... ...... ... .. ... .......... ... ... ..... .... ........... ..... 74 4.2 - Algumas Propriedades 77 4.3 - Probabilidade COndicio~~·I·~·i~d~;~dê~~i~··:::::::::::::::::· 82 4.4 - Teorema de B<i:yes ..... .. ......... ................ ............ ..... : 88 • CAPiTULO 5 - VARIÁVEIS ALEATÓRIAS DlSCRETAS 5.1 -Introdução ..... ...... ...... .. ... .... ... .. .... ... .... ...... ....... ..... 97 5.2 - O Conceito de Variável Aleatória Discreta .. .... ... ... ......... 98 5.3 - Valor Esperado de uma Variável Aleatória ..................... 105 5.4 - Algumas Propriedades da Esperança Matemática ..... ....... 107 5.5 - Função de Distribuição Acumulada ........... ....... ............ 108 5.6 - Alguns Modelos Probabilísticos para Variáveis Aleatórias Discretas .................... ......................... .. ...... ... It I CAPiTULO 6 - VARIÁVEIS ALEATÓRIAS CONTiNUAS 6.1 -Introdução ...................... .............................. .... .... 128 6.2 - Valor Esperado de uma Variável Aleatória Contínua 133 6.3 - Função de Distribuição Acumulada .............................. 136 6.4 - Alguns Modelos Probabilísticos para Variáveis Aleatórias Contínuas.............. ............................ .............. ....... 139 6.5 - Aproximação Nonnal à BinomiaL ..... .......................... 148 CAPiTULO 7 - VARIÁVEIS ALEATÓRIAS MULTlDlMENSIONAIS 7.1 - Distribuição Conjunta ... .. .. .. ......................... ... 157 7.2 - Distribuições Marginais e Condicionais ................... ..... 160 7.3 - Funções de Variáveis AletÓrias. .... .. ........................... .. 163 7.4- Covariância de Duas Variáveis Aleatórias ........ .. ... ........ 168 . 7.5 - Variáveis Contínuas ........... ............. .. .. ... .............. .. 175 PARTE 111 - INFER~NCIA ESTATlsTICA CAPíTULO 8 - INTRODUÇÃO Á INFERÊNCIA ESTATíSTICA 8.1 -Introdução ..... .... ..... .. ..... .......... .. ...... ···· ....... ....... .. . 181 8.2 - População e Amostra .. ....... .......... ............... ........ ... 181 8.3 - Problemas de Inferência ... ...... .. ....... .. ..... ............ ..... 184 8.4 - Como Selecionar uma Amostra ................................. 186 8.5 - Amostragem Casual Simples .... ... ...... .. ......... .. .......... 187 8.6 - Estatísticas e Parâmetros ...........................· 0·· · ..... ..... 188 8.7 - Distribuições Amostrais .................. .......... ....... .. ..... 189 8.8 - Distribuição Amostrai da Média ....... ....................... 194 8.9 - Distribuição Amostrai da Proporção ... .... ............ .... ..... 200 8. 10 - Outras Distribuições Amostrais ................................. 202
  • 7. CAPITULO 9 - ESTIMAÇÃO 9.1 - Primeiras Idéias .. .. .......... ... .. .. .................. ....... ... ..... 209 9.2 - Propriedades de Estimadores..... ........... .. ............ ......... 212 9.3 - Estimadores de Mínimos Quadrados ........................... 217 9.4 - Estimadores de Máxima Verossimilhança ...... .. ............ . 222 9.5 - Intervalos de Confiança .... ........ .. ........ ........... ...... 223 CAPITULO 10 - TESTES DE HIPOTESES 10. I - Introdução .." ......... ..... ..... .. .. ."... ... .......... ... .. 234 10.2 - Um Exemplo ....... ... ........0. ' . . . . . . . . . . . o',.... ... . ....... .. 234 10.3 - Procedimento Geral do Teste de Hipóteses ... ....... ... ::::: 243 10.4 - Passos para Construção de um Teste de Hipóteses .. .. .... . 244 10.5 - Testes sobre a Média de uma População com Variância C h 'd 'M=a .......... lli 10.6 - Poder de um Teste.. .... 247 10.7 - Teste para Proporçã~··:::::::::::: ::::: ::::::::::::: :::::::::: 252 10.8 - Nível Descritivo.. .. .. ...... .......... ................ ... .. 255 CAPíTULO 11 - OUTROS TOPICOS : : '21 - Introdução ...... .. ....... .... ...... ... ................................ 260 . - AJgumas Distribuições Importantes ........................... 260 11.3 - Teste para a Média de uma N(I1; 0"2), 0"2 desconhecida ...... 269 11.4 - Teste para a Variância de uma N(I1; 0"2) •. .••..... ..• .•• .. . .. 272 11.5 - Comparação das Variâncias de Duas Populações normais 274 ' 11 .6 - Comparação de Duas Médias de Populações normais..... . 277 11.7 - Teste de Independência ............. ... ... ...... ... ..... .. ..... .. 286 [ 1.8 - Teste sobre Coeficiente de Correlação ....... .... .. .... .. 288 Respostas a Problemas Selecionados ................. .................... 310 Bibliografia... ............ .. ...................... ............. 321 PARTE I ANÁLISE EXPLORATÓRIA DE DADOS CAPíTULO 1 Resumo de dados = 1.1. INTRODUÇÃO Em alguma fase de seu trabalho, o pesquisador se vê às voltas com o problema de analisar e entender uma massa de dados, relevante ao seu particular objeto de estudos. Se forem informações sobre uma amostra ou população, ele necessitará resumir os dados para que estes sejam informativos, ou para compará·los com outros resultados, ou ainda para julgar sua adequação a alguma teoria. De um modo bem geral, podemos dizer que a essência da Ciência éa observação_e que seu objetivo básico é a inferência. Esta pode ser dedutiva (na qual se argumenta das premissas às conclusões) ou indutiva (a.través da qual se vai do específico ao geral). A inJerência estalÍstica é uma das etapas da Estalistico. Esta é a parte da metodologia da Ciência que tem por objetivos a coleta, redução, análise e modelagem dos dados, a partir do que, finalmente, faz·se a inferência para uma população, da qual os dados (a amostra) foram obtidos. Nesta primeira parte do livro estaremos interessados na red~ção, análise e interpretação dos dados sob consideração, adotando um enfoque que chamaremos de análise explorolória de dados. Neste en foq ue tentaremos obter dos dados a maior quantidade possível de informação, que indique' possíveis modelos a serem utilizados numa fase posterior - a análise con· firmat6ria de dados (ou inferência estatística), que será discutida na Parte JIJ do livro. Tradicionalmente, uma análise descritiva dos dados se limita a cal· cular algumas medidas de posição e variabilidade, como a média e a va· riância, por exemplo. Contrária a es~a tendência, uma corrente mais moderna, liderada por Tukey (1977), utiliza principalmente técnicas visuais. em oposição aos resumos numéricos.
  • 8. II ,1", • Fundamentalmente, quando se procede a uma análise de dados, busca-se alguma forma de regularidade ou padrão ou ainda modelo, pre- sente nas observações. Imagine que estamos estudando, por exemplo, a relação entre rendimentos e gastos de consumo de um conjunto de individuos. Podemos obter um gráfico como o da Figura l.1. O que se espera. intuitivamente, é que os gastos de consumo de um individuo estejam diretamente relacionados com seus rendimentos, de modo que parece razoável supor uma " relação linear" entre estas duas quantidades. Os pontos da Figura 1.1 não caem todos, evidentemente, sobre uma reta ; esta seria o nosso padrão ou modelo. A diferença entre os dados e o modelo constituem os resídllOs. Consumo , /j/~_-I-' )~"1d"0 / - . , O,do MOd.lo Rendimento Fig. 1.1 . Relação entre cOflSumo e rendimento Podemos, então, escrever, de modo esquemático, D DOS ~ MODELO + RESÍDUOS pu (1.1 ) Tukey (1977) chama M de parte suave dos dados, enquanto R é a parte grosseira, o que é, sem dúvida, uma linguagem bastante adequada. A parte R é tão importante quanto M e a análise dos resíduos constitui uma parte fundamental de lodo trabalho estatístico. Basicamente, são os resíduos que nos dizem se o modelo M é adequado ou não para representar os dados. De modo coloquial, o que se deseja é que a parte'grosseira nâo contenha nenhuma "suavidade", caso contrário mais "suavização" é necessária. Uma análise exploratória de dados busca, essencialmente, esta- belecer (1.1 ). 2 1.2. JIPOS DE VARIÁVEIS Exemplo 1.1. Um pesquisador está interessado em fazer um levanta- mento sobre alguns aspectos sócio-econômicos dos empregados da seção de orçamentos da Companhia Milsa. Usando informações obtidas na seção de pessoal, ele elaborou a Tabela 1.1. De um modo geral, para cada elemento investigado, tem-se associado um resultado (ou mais de um resultado) correspondendo à realização de uma certa variável (ou variáveis). No exemplo em questão, conside- rando-se a variável estado civil, para cada empregado temos associada a realização solteiro ou casado. Observamos que o pesquisador colheu informações sobre.seis variáveis: estado civil, educação, número de filhos, salário, idade e região de procedência. Algumas variáveis como sexo, educação, estado civil, etc. apre- sentam como possíveis realizações uma qualidade (ou atributo) do in- divíduo pesquisado, ao passo que outras como número de filhos, salário, estatura, etc. apresentam como possíveis realizações números resultantes de uma contagem ou mensuração. As variáveis do primeiro tipo são cha- madas qualitativas e as do segundo tipo sào chamadas quantitativas. Dentre as variáveis qualitativas, ainda podemos fazer uma distin- ção entre dois tipos: variável qualitativa nominal, ~ra a qual não exis!e nenhuma ordenação nas possíveis realizações, e variável qualitativa ordinal, para a qual existe uma certa ordem nos possíveis resultados. A região de procedência no exemplo 1.1 é um caso de variável nominal, ao passo que educação é um exemplo de variável ordinal , pois 1.° gmu, 2.° grau e grau superior correspondem a uma ordenaçào baseada no número de anos de escolaridade. A variável qualitativa classe social, com as possíveis realizações (por exemplo, alta, média e baixa), é um outTO exemplo de variável qualitativa ordinal. De modo análogo, as variáveis quantitativas podem sofrer uma classificação dicotômica : (a) variáveis Quantitativas discretas, cujos pos- síveis valores formam um conjunto finito ou enumerável de números e que resultam... freqüent~mente, de uma contagem, como por exemplo núm'e~o de filhos (O, 1,2, 'H); (b) variáveis_Quantitativas contínuas, cujos I!Q.ssí'{ei~.19.í.e.s fQIffiam um intervalo de números reais e que resuIiãiÍÍ, normalmente, de uma mensuração, como por exemplo estãiura oupesi) de um indivíduo. A Figura 1.2 esquematiza as classificações vistas acima. 3 L.~______________________~__________~________________~__________________~
  • 9. 4 N,' 1 2 3 4 , 6 7 8 9 lO "12 13 '4 "'6 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 TABELA 1.I - Informações sobre estado civil, grau de instru- ção, n.O de filhos, salário (expresso como fração do salário minimo), idade (medida em anos e meses) e procedência de 36 funcionários da seção de orçamentos da Companhia Milsa. fllado Grau de N." de Salario Idade Região de civil instrução filhos (X Sal. Min.) anos meses procedência solteiro L" grau - 4,00 26 03 Interior casado L" grau 1 4.56 31 lO Capital casado L" grau 2 5,25 36 05 Capital solteiro 2." grau - 5,73 20 lO Outro solteiro L" grau - 6,26 40 07 Outro casado I." grau O 6,66 28 00 Interior solteiro lo" grau - 6,86 41 00 Interior solteiro I." grau - 7,39 43 04 Capital casado 2." grau , 7,59 34 'O Capital solteiro 2." grau - 7,44 23 06 Outro casado 2." grau 2 8,12 33 06 Interior soltçiro L" grau - 8,«> 27 " Capital solteiro 2." grau - I" 8,74 31 05 Outro casado l." grau 3 8,95 44 02 Outro casado 2." grau O 9,13 30 05 Interior soltêiro 2." grau - 9,35_ 38 08 Outro,casado 2." grau , 9,77 31 07 Capital casado I." grau 2 9,80 39 07 Outro soltiiro superior - 10,53 25 08 Interior, solteiro 2." grau - 10.76 31 04 Interior casado 2." grau , 11,66 30 09 Outro soltcjro 2." grau - 11,59 34 02 Capital solteiro I." grau - 12,00 4' 00 Outro casado superior O 12,79 26 O, Outro casado 2." grau 2 13,23 32 05 Interior casado 2." grau 2 13,60 35 00 Outro solteiro I." grau - [3,85 «> 07 Outro casado 2." grau O 14,69 29 08 InterioX casado 2." grau 5 14,71 40 06 Interior casado 2." grau 2 15,99 35 'O Capital sol~éiro superior - 16,22 31 05 Outro casado 2." grau , 16,61 36 04 Interior casado superior 3 17,26 43 07 Capital solte'iru superior - 18,75 33 07 Capital casado 2." grau 2 19.40 48 " Capital casado· superior 3 23,30 42 02 Interior Fonte : Dados hipotéticos -==::::Nominal Qualitativa < O,di",' Variável Discreta Quantitativa ~ Continua Fig. 1.2. Classificação de uma variá'eJ Para cada tipo de variável existem tecnicas mai~ apropriadas para resumir as informações ; daí a vantagem de usar uma tipologia de iden· tificação como a da Figura 1.2. Entretanto, iremos verificar que técnicas usadas num caso podem ser adaptadas para outros. 1,3, DISTRIBUiÇÃO DE FREQÜÊNCIAS Quando se estuda uma variável , o maior interesse do pesquisador é conhecer a distribuição dessa variável através das possíveis realiza- çõcs (valores) da mesma. Nesta seção iremos ver uma maneira de se dispor um conjunto de valores, de modo a se ter uma boa idéia global sobre estes valores, ou seja, de sua distribuição. Exemplo 1.2. A Tabela 1.2 apresenta a dislribuição de freqüências da variável grau de instrução, usando-se os dados da Tabela 1.1. Observando·se os resultados da terceira coluna, vê-se que dos 36 empregados da Cia. Milsa, 12 têm o primeiro grau de educação, 18 o segundo e 6 possuem título universitário. TABELA 1.2 - Freqüências e porcentagens dos 36 empregados da seção de orçamentos da Companhia Milsa, segundo o grau de instrução. Grau de Contagem Freqüência Proporção Porcentagem instrução "; J; 100 'J; 1.° grau tt+t tt+t 11 12 0,3333 33,33 2.° grau +t++ +t++ +l+H III 18 0,5000 50,00 Superior +t++ I 6 0,1667 16,67 TOTAL 36 1,0000 100,00 Fonte : Tabela 1. 1 5
  • 10. Uma medida bastante útil na interpretação de tabelas de freqüências é a proporção de cada realização em relação ao total. Assim, 6/36 = = 0,1667 = 16,67% dos empregados da Cia. Milsa (seção de orçamento) têm instrução superior. Na última coluna da Tabela 1.2 são apresentadas as porcentagens para cada realização da variável grau de instrução. Usa- remos a noração n j para indicar a freqüência de cada classe, ou categoria da variável, e a notação fi = nJn para indicar a proporÇão (ou freqüência relativa) de cada classe, sendo n o número total de observações. As propor- ções são muito úteis quando se quer comparar resultados de duas pes- quisas distintas. Por exemplo, suponhamos que se queira comparar a variável grau de instrução para empregados da seção de orçamentos com a mesma variável para todos os empregados da Cia. Milsa. Digamos que a empresa tenha 2.000 empregados e que a distribuição por freqüências seja a da Tabela 1.3. TABELA 1.3 - Freqüências e porcentagens dos 2.000 emprega- dos da Companhia Milsa, segundo o grau de instrução. Grau de Freqüência Porcentagem instrução 1.° grau 650 32,50 2.° grau 1.020 51 ,00 Superior 330 16,50 TOTAL 2,000 100,00 Fonle: Dados hipotéticos Não podemos comparar diretamente as colunas das freqüências das Tabelas 1.2 e 1.3, pois os totais de empregados são diferentes nos dois casos. Mas as colunas de porcentagens são comparáveis, pois reduzimos as freqüências a um mesmo total (no caso 100). A construção de tabelas de freqüências para variáveis contínuas necessita de certo cuidado. Por exemplo, a construção da tabela de fre- qüências da variável salário não resumirá as 36 observações num grupo menor, pois não existem observações semelhantes. A solução empregada é agrupar os dados por faixas de salário. 6 , Exemplo J3. A Tabela 1,4 dá a distribuição de fr~qüên~ias dos sa,lá- , d s 36 empregados da seção de orçamentos da CJa, Milsa por faixa nOS o de salário, Procedendo-se dessa maneira, ao resumir os dados referentes a uma .. I con!"nu> perde-se alguma informação, Por exemplo, nào temosvanBve , _ 'd' 'a de como se distribuem os 8 salários da classe de 12 a 16, a nao ~er , " ,'nvestiguemos os dados originais (fabela l.l), Sem perda de mUlta que I ' ',a-o podemos supor que todos os 8 salários daquela c asse sejam precI , . , . . , ' 'fi , ais ao ponto médiO da refenda classe, Isto e, 14 (o leitor pode ven lcar :~al o erro cometido, comparando-os com os dados originais da Tabela 1.1). Voltaremos a este assunto no Capítulo 2. TABELA IA - Freqüências e porcentagens dos 36 empregados da seção de orçamentos da Companhia Milsa, por faixa de salário. Classe de Freqüência Porcentagem salários no 100 •lo 4,00 I-- 8,00 10 27,78 8,00 ~1 2,00 12 33,33 12,00 ~ 16,00 8 22,22 I6,00 ~ 20,00 5 13,89 20,00 ~ 24,00 I 2,78 TOTAL 36 100,00 Fonte: Tabela 1.I A escolha dos intervalos é arbitrária e a familiaridade do pesquisador com os dados é que lhe irá indicar quantas e quais classes (ou intervalos) devem ser usadas, Entretanto, deve-se observar que, com um pequeno número de classes, perde-se in fonnação, e com um número grande de classes, o objetivo de resumir os dados fica prejudicad~, Normalmente, sugere-se o uso de 5 a 15 classes com a mesma amplitude. 7
  • 11. • PROBLEMAS I. Para cada uma das variáveis abaixo, indique a escala que usualmente é adotada para resumir os dados em tabelas de freqüências: (a) Salários de empregados de uma indústria. (b) QI dos funcionários de uma seçãO'. (c) Numero de respostas certas de alunos num teste com O itens. (i!) Idem para um teste com 100 itens. (e) Porcentagem da receita de municlpids aplicada em educação. (J) Opinião dO's empregados da PW Indústria c Comércio sobn: a realização ou nãO' de cursos obrigatórios de treinamento. I 2. UsandO' O'S dados da Tabela l.1 , construa a distribuiçãO' de freqüências das variáveis : (a) estado civil j (b) região de procedência ; (c) número de filhos; (d) idade. 1.4. REPRESENTAÇÃO G.RÁFICA DAS VARIÁVEIS QUANTITATIVAS A representação gráfica da distribuição de freqüências de uma va- riável tem a vantagem de, rápida e concisamente, informar sobre a varia- bilidade da mesma. Existem várias maneiras de se fazer a representação gráfica e iremos abordar aqui os casos mais simples para variáveis quan- titativas. No Capítulo 2 voltaremos a tratar deste assunto, em conexão com me;didas associadas à distribuição de uma variável. Exemplo J.4. Estamos interessados em estudar a distribuição do número de filhos dos empregados casados da seção de orçamentos da Cia. Milsa (Tabela LI). A tabela de freqüências e porcentagens está na Tabela 1.5. Em seguida, usamos um gráfico para representar os pares (Xi' nJ Estes pontos estão representados na Figura 1.3 (a). O gráfico tambem pode ser feito usando-se os pontos (Xj,JJ, mas a forma da distribuição não sofrerá modi ficação alguma, devido à proporcionalidade existente entre OS nj e os k A Figura 1.3 (b) é a representação gráfica dos pares (x"fi). Para variáveis quantitativas continuas necessita-se de alguma adap- tação, como no exemplo a seguir. Exemplo J.5. Queremos representar graficamente a distribuição da variável S = salário dos empregados da seção de orçamentos da 8 7 6 5 4 •• • Jt •••2- •••,; •• • • 01 TABELA 1.5 - Freqüências e porcentagens dos empregados da seção de orçamentos da Companhia Milsa, se- gundo o número de filhos. N.0 de filhos Freqüência Porcentagem x, n, 100 'J, O 4 20;:: 1 5 25% 2 7 35% J J 15% 5 1 5% TOTAL 20 100% Fonte: Tabela 1.1 Freqü-;;ci~ roporç.lio) • ·••• 0,30 • •• ••• 0,20 •• •• • • • · • • • • • • · • • • • • • • • • • • • • • • • ·• • • • •0,10 .. • • • • • • •• • • • • • • • • • •• • • • • • • • • • • • · • • · • • • • • • • • • • • • • • • • • • · • · • • • • • . • . • • •2 4 5 N." de 01 2 3 4 5 N:' de filhos filhos ,.) lO) Fig. 1.3 9
  • 12. Cia. Milsa. A Tabela 1.4 fornece a distribuição de (eqüência de S. Para uma representação similar à da Figura J.2, devemos usar o artifício de aproximar a variável contínua por uma variável discreta, sem perder muita informação. Isto pode ser feito supondo·se que todos os salários em uma determinada classe de salário são iguais ao ponto médio dessa classe. Assim, os 10 salários situados na primeira classe (4,00f- 8,00) serào admitidos iguais a 6,00, os 12 salários da segunda classe (8,001--12,00) serào admitidos igUais a 10,00 e assim por diante. Então, podemos reescrever a Tabela 1.4' introduzindo os pontos médios das classes. Esses pontos estão na segunda coluna da Tabela 1.6. Com a tabela assim construída podemos representar os pares (Si' n/) ou (5;, f;) como no caso anterior. A Figura 1.4 é a representação gráfica dos pontos (shfi)' TABELA 1.6 - Distribuição de freqüência da variável S= sa· Iário dos empregados da seção de orçamento da Companhia Mílsa. Classe de Ponto médio Freqüência Porcentagem salários s, n, 100 ,1, 4,00 f-- 8,00 6,00 10 27,78 8,00 >-- 12,00 10,00 4{') 33,33 12,00 >-- 16,00 14,00 8 22,22 16,00 f-- 20,00 18,00 5 13,89 20,00 >-- 24,00 22,00 I 2,78 TOTAL - 36 100,00 Fonte; Tabela 1.4 o artificio usado acima para representar a variável contínua faz com que se perca muito das informações nela contidas. Uma alternativa a ser usada nestes casos é o grãfico conhecido como histograma. Exemplo 1.6. Usando ainda a variável S=salário dos empregados da seção de orçamentos da Cia. Milsa, apresentamos na Figura 1.5 o histograma de sua distribuição. 10 O.'" 0.25 0,20 0,15 0.10 0,05 • • ·•• • • · : : : : : . -t------c~.c-L---~~----~~----~.~----~~.~--~6,00 10,00 14,00 la.oo 22,00 S( _ Densidade da Frequência 0,080 0,060 0,040 0,020 . ,,% 4,00 Fig. 1.4 ,,% ,,% 8,00 12.00 16,00 - • 14% ,% I 20.00 24,00 Salários Fig. 1.5. Histograma da variável S = salário dos empregados da seção de orçamentos da Companhia MUsa 11 lL-__________~~______-L____~________~____~
  • 13. o histograma é um gráfico por setores contíguos, onde a altura é proporcional a f" e a base é constilUída por um segmento cujos extremos representam os extremos da i-ésima classe. O único cuidado a tomar é de que a área total da figura seja igual a I , correspondendo á soma total das proporções. Para facilitar o entendimento, foi colocada acima de cada setor a respectiva porcentagem das observações. Assim, através da figura po- I demos dizer que 61 % dos empregados têm salário inferior a 12,00 salá- rios mínimos, ou 17% possuem salário superior a 16,00 salários mínimos. Do mesmo modo que usamos um artificio para representar a variável contínua como uma variável discreta, podemos usar um artificio para construir um histograma para variáveis discretas. A Figura 1.6 é um exem- plo de como ficaria o histograma da variável X = número de filhos dos empregados da seção de orçamentos da eia. Milsa, segundo os dados da Tabela 1.5. Deixamos a cargo do leitor a interpretação das suposições subjacentes admitidas para a construção do gráfico, pois acreditamos que ele seja suficientemente explicito (compare com a Figura 1.3). Freqüências 35% 25% 20% 15% 5% I I O 1 2 3 4 5 N~ de filh., Fig_ 1.6. Histograma ajustado para a variável número de filhos dos 36 em- pregados da seção de orçamentos da Companhia Milsa ":5. RAMO-E-FOLHAS Tanto o histograma como os gráficos das Figuras 1.3 e 1.4 dào uma idéia da forma da distribuição da variável sob consideração. Veremos, 12 no Capítulo 2, outras características da distribuição de uma variável, como medidas de posição e de dispersão. Mas a forma da distribuição , tão importante quanto estas medidas. Por exemplo, saber que a renda ;er capita ~ uma comunidade é tantos salários mínimos pode ser um dado interessante, mas saber como esta renda se distribui é mais im- portante. Um procedimento alternativo para resumir um conjunto de valores, com o objetivo de se obter uma idéa da forma da sua distribuição, é o ramo-e-folhas (Tukey, 1977). Uma vantagem do ramo-e-folhas sobre o histograma é que não perdemos informação sobre os dados em si. Exemplo 1.7. Na Figura 1.7 construímos o ramo-e-folhas dos sa- lários dos 36 empregados da eia. Milsa (Tabela 1.1). Não existe uma regra fixa para construir o ramo-e-folhas, mas a idéia básica é dividir cada ob- servação em duas partes: a primeira (o ramo) é colocada à esquerda de uma linha vertical, a segunda (a folha) é colocada à direita. Assim, para os salários 4,00 e 4,56, o 4 é o ramo e 00 e 56 são as folhas. 4 5 6 7 8 9 10 II 12 13 14 15 16 17 18 19 20 21 22 23 ()() 25 26 39 12 13 53 06 ()() .23 69 99 22 26 75 40 30 56 73 66 44 46 35 76 59 79 60 71 61 86 59 74 77 85 95 80 Fig. 1.7. Ramo-e-folhas dos salários de 36 empregados da Cia. Milsa, em S.M. (Fome: Tabela 1./) 13
  • 14. , Algumas infonnaçõcs que se obtêm deste ramo-e-folhas são: (a) Há um destaque grande para o valor 23,30. (b) Os demais valores estão razoavelmente concentrados entre 4,00 e 19,40. (c) Um valor mais ou menos típico para este conjunto de dados poderia ser, por exemplo, 10,00. (ti) Há uma leve assimetria em direção aos valores grandes; a suposição de que estes diidos possam serconsiderados como uma amostra de uma população com distribuição normal pode ser questionada. A escolha do número de linhas do ramo-e-folhas é equivalente à escolha do número de classes do histograma. Um nÚmero pequeno de linhas (ou de classes) enfatiza a parte M da relação (1.1), enquanto um número grande de linhas (ou de classes) enfatiza a parte R. Exemplo Ui. Os dados abaixo referem-se à dureza de 30 peças de alumínio (Hoaglin, Mosteller e Tukey, 1983, pág. 13). 53.0 53.4 95.4 53.5 72.3 70.2 82.5 51. 1 64.3 59.5 84.3 67.3 74.4 82.7 55.3 69.5 54.1 55.7 78.5 73.0 77.8 70.5 63.5 55.7 52.4 87.5 71.4 85.8 69.1 50.7 Na Figura 1.8 temos o ramo-e-folhas correspondente. Aqui, optamos por truncar cada valor, omitindo os décimos, de modo que 69.1 e 69,5, por exemplo, aparecem como 9 na linha que corresponde ao ramo 6. 5 O 1 2 3 3 3 4 5 5 5 9 6 3 4 7 9 9 7 O O 2 3 4 7 8 8 2 2 , 5 7 9 5 Fig. 1.8. Ramo-e-folhas dos dados de dureza de peças de alumínio Este é um exemplo em que temos muitas folhas em cada ramo. Uma maneira alternativa é duplicar os ramos. Criamos os ramos 5* e 5- ,6* e 6- etc., onde colocamos folhas de Oa 4 na linha· e folhas de 5 a 9 na linha- . Obtemos o ramo-e.folhas da Figura 1.9. 1. 5' O 2 3 3 3 4 5' 5 5 5 9 6' 3 4 6' 7 9 9 7' O O 2 3 4 7' 7 8 8' 2 2 4 8' 5 7 9' 9' 5 Fig. 1.9. Ramo-e-follras do exemplo / .8, com ramos dil'ididos Para outros exemplos, ver problema 17. PROBlEMAS J Contou-se o número de erros de impressão da primeira página de um jornal durante . 50 dias. obtendo-se os resultados abailo. , " , " 14 IJ " 14 14 5 O 10 14 " O " 1 5 , , 10 Ió 10 " " , " O 1 12 1 10 14 5 " 1 , 12 " •14 , 14 , 12 10 12 2J: 1 15 ta) Reprl!scnte os dados graficamente. 11>1 Faça um histograma e um ramo-e-rolhas. ... Usando os resultados do problema 2: tal construa um histogn.ma para a variável idade: . _ (1)1 proponha uma representação grárica para a variável grau de mstruçao. S. As talas medias geométricas de incremento anual (por 100 habitantes) dos 30 maiores municípios do Brasil estão dadas abailo (ver Tabela do problema 181. 3,67 1.82 3.73 4.10 4.30 1.28 8.14 2.43 4.17 5.36 3.96 6,54 5.114 7.35 3.63 2.93 2.82 11.45 5.28 5.41 7.77 4.65 1.118 2.12 4.26 2.78 5.54 0.90 5.09 4.07 (a) Construa .um histograma. (/I) Construa um ramo-e-rolhas. lfi
  • 15. 6. Você foi convidado para chefiar a Seção de Orçamtntos ou a Seção Têcnica da Milsa. Após analisar o tipo dc serviço que cada seção executa, voce ficou indeciso e resolveu transferir a decisão para o tipo de funcionário que voce iria encontrar em cada seção. Assim a Seção Pessoal fornea:u os dados da Tabela 1.1 para os funcionarios da Seção de Orçamentos, ao passo que para a Seção Têcnica os dados vieram agrupados segundo as tabelas abaixo: Freqüência dos 50 empregapos da Seção Técnica da Milsa, segundo: Baseado nesses dados, qual seria a sua decisão? Justifique. PROBLEPo!AS E COMPLEMENTOS 7. A PW Indústria e Comércio, desejando melhorar o nivel de seus funcionários em car- gos de chefia, montou um curso experimental e indicou 25 runcionários para a pri· meira turma. Os dados referentes à seção a que pertencem, notas e graus obtidos no curso estão na tabela a seguir. Como havia dúvidas quanto à adoção de um imico critêrio de avaliação. cada instrutor adotou seu próprio sistema de aferição_Usando os dados daquela tabela. responda as questões: '6 (a) Após observar atentamente cada variável. e com o intuito de resumi-Ias, como ê que voce identificaria (qualitativa ordinal ou nominal e quantitativa discreta ou contínua) cada uma das 9 variáveis listadas? (b) Compare e indique as diferenças existentes entre as distribuições das variáveis Direito. Política e Estatistica. (e) Construa o histograma para as notas da varjãvel Redação. (d) Construa a distribuição de frequências da variável Metodologia. e faça um gráfico para indicar essa distribuição. (e) Sorteando ao acaso um dos 25 funcionários, qual a probabilidade de que ele tenna obtido grau A em Metodologia? fi) Se em vez de um, sorteássemos dois, a probabilidade de que ambos tivessem tido A em Metodologia ê maior ou menor do que a resposta dada em (e)'! (g) Como ê o aproveitamento dos funcionários na disciplina Estatística. segundo a seção a que eles pertencem? ., 1<u~u«uu~u~~u~~<uuu~~<u« •:;: '7
  • 16. 18 8. Inten .alos de Classes Desiguais ~ Émuito comum o uso de classes com tamanhos desi. guais no agrupamento dos dados em tabelas de frequências. Nestes casos deve-se tomar alguns cuidados especiais quanto à análise e construção do histograma. A tabela abaixo fornece a distribuição de 250 empresas classificadas segundo o nu- mero de empregados. Uma análise superficial pode levar á conclusão de que a con. centração vem aumentando até atingir um máximo na classe 40 I-- 60, voltando a diminuir depois. mas não tão acentuadamente. Porém, um estudo mais detalhado revela que a amplitude da classe 40 I-- 60 e o dobro da amplitude das classes anteriores. Assim, espera-se que mais elementos caiam nessa classe, meSmo que a concentraçào seja levemente inferior. Então. um primeiro cuidado é construir a coluna que indica as amplitudes d i de cada classe. Estes valores estão representados na terceira coluna da tabela. Distribuição de 250 empresas segundo o numero de empregados NUIIIl.'r(I de FreqühJcia Ampli1!4de Densidade Proporçâo Den.!ipatie empregados ", 6 , n;/tJ. J J, f r/tJ. J Of- 10 5 10 0,50 0.02 0,0020 10 f- 20 20 10 2,00 0,08 0,0080 20 I- 30 35 10 3.50 0.14 0.0140 30 I- 40 40 10 4,00 0,[6 0.0[60 40 i--- 60 50 20 2,50 0,20 0,0100 60 I-- 80 30 20 1.50 0,12 0,0060 80 I-- 100 20 20 1,00 0,08 0,_ 100 1--140 20 40 0,50 0,08 0,0020 140 I- 180 15 40 0.38 0.06 0,0015 180 1- 260 15 80 0,19 0.06 0.0008 TOTAL 250 - - 1.00 - Um segundo passo é a construção da coluna das densidades de freqüências em cada classe. que e obtida dividindo as freqüências 11; pelas amplitudes tJ. i • Ou seja. a medida que indica qual a concentração por unidade da. variável. Assim, observando-se os m,imcros da quarta coluna, vê-se que a classe de maior concentração passa a ser a 30 I-- 40, enquanto que a ultima e a de menor concentração. Pa ra compreender a dis- tribuição. estes dados são muito mais informativos do que as freqüências absolutas simplesmentc. De modo anMogo. .pode.se conStruir a densidade da proporção (ou porcentagem) por unidade da variável (verifique a construção atravês da 5," e 6." colunas). A inter- pretação para fdtJ. , é muito semelhante àquela dada para ndtJ. I , Para a construção do histograma, basta lembrar que a área total deve ser igual a 1 (ou 100%). o que sugere usar no eixo das ordenadas os valores de f;/tJ. i . O histograma para estes dados estâ na Figura 1.10. O"".õded<l ".0,0160 ...0.0140 0.0120 ,,, 0,0100 r--- ..';0,080 '""JO ' 06O I-- ..,) 0,040 I-- 0)0,020 n" 2030 40 " " "" " " '''' Fig. I. O "" 260 N ~ de empreg.oo. 51. Dispomos de uma relação de 200 aluguéis de imóveis urbanos e uma relação de 100 aluguéis rurais. (o) Construa os histogramas das duas distribuições. (b) Com base nos histogramas discuta e compare as duas distribuições. C/asses de oluguéiJ ZOlla Zona (codificados) urbana rural 2f- 3 10 30 3f- 5 40 50 5f- 7 80 15 71--10 50 5 101--15 20 O TOTAL 200 100 , Histograma Alisado - Na Tabela 1.4 tem-se a distribuição de freqÜências dos salârios de 36 funcionârios, agrupados em classes de amplitude 4. Na Figura 1.5 tem-se o res- pectivo histograma. Rcagrupando-se os dados em classes de amplitude 2. obter-se-ia a.seguinte tabela de freqÜências e o correspondente histograma. 19
  • 17. 20 C/anO' de FreqU(;nl';{/ .!Olâr;(Js ", 4.00 I- 6,00 4 6,00 I- 8.00 6 8.00 1-10,00 8 10,00 1- 12,00 4 12.00 t- 14,00 I 14,001-16.00 ] 16,00 I- 18,00 3 18.00 1- 20.00 2 20,00 I- 22,00 O 22.00 I- ~4.00 TOTAL 36 6, - ~ r-- C- f- r- n4 6 8 10 12 14 16 18 20. 22 24 Salários Fig. LI J. (a) SI:: houvesse um numero suficientemente grande de observações. poder-se-ia ir dimi- nuindo os intervalos de cfasse, e o histograma iria fica ndo cada vez menos irregular, até atingir um caso limite com uma curva bem mais suave. Por exemplo, o comporta- ~ento da distribuição dos salários poderia ter a representação da Figura 1.II(b). Esse histograma alisado ti muito útil para ilustrar rapidamente qual o tipo de COmpor- _ lamento que se espera para a distribuição de uma dada variavel. No capitulo referente a variáveis aleatórias continuas, voltar-se-á a estudar esse histograma sob um ponto de vista mais matemático. A interpretação desse gráfico é a mesma do histograma. Assim. nas regiões onde a curva ê mais alta, significa uma maior densidade de observaçõcs. No c)templo acima. conforme se aumenta o salário, observa-se que a densidade de freqüência vai diminuindo. '"- ,'!/ÓI ",'!',..~ "'" Salários Fig. .lI. (b) 11. Esboce o histograma alisado para cada uma das situaçõcs descritas abaixo : (a) Distribuição dos salários registrados em çarteira de trabalho de moradores da ddade de São Paulo. (h) Distribuição das idades de alunos de uma Façuldade de Economia e Administração. (e) Distribuição das idades dos alunos de uma classe da Faculdade do item anterior. Compare as duas distribuições. (J) Distribuição do número de óbitos segundo a faixa etária (e) Distribuição do número de divórcios (desquites) segundo o número de anos de casado. (f) Distribuição do número formado pelos dois últimos algarismos do primeiro prê- mio da Loteria Federal. durante os la últimos anos. 12. Faça no mesmo gráfico um esboço das três distribuições descritas abaixo: (a) Distribuição das alturas dos brasileiros adultos. (b) Distribuição das alturas dos suecos adultos. (c.) Distribuição das alturas dos japoneses adultos. 13. Freqüências Acumuladas - Uma outra medida muito usada para descreve~ dados quan· titativos é a freqüênCia acumulada, que indica quantos elementos, ou Que porcentagem deles, estão abaixo de um ceno valor. Na tabela a seguir. a terceira e a Quinta colunas indk;am respectivamente a rreqúência absoluta acumulada e a proporção (porcentagem) acumulada. Assim, observando a tabela podemos arinnar que 27,78% dos indilíduos ganham até 8,00 salários mínimos: 61.11% ganham até 12,00 salários mínimos; 83.33% ganham até 16.00 salàrios minimos ; 9722% ganham até 20,00 salários mínimos e 100"10 dos runeionários ganham até 24.00 salários. 21
  • 18. I~ Classe de FreqUência Frequênc;a Porcentagem Porcentagem acumulada acumulada salários " N, 100 'f! 100 .FI 4,00 I- 8,00 10 10 27,78 27,78 8,001-12,00 12 22 33,33 61,11 12,001-16,00 8 30 22,22 83,33 16,00I- 2Q,OO 5 35 13,89 97;12 20,00 I- 24,00 36 2,78 100,00 TOTAL 36 [00,00 A Figura 1.12 é a ilustração gráfica da porcentagem acumulada. 100 --- -- -------------::~~-- 80 60 40 20 4 8 12 16 20 24 Salérios Fig. 1.12 Este gráfico pode ser usado para fornecer informações adicionais. Por elemplo, para saber qual o salário s. tal que 50% dos funcionários ganham menos. do que 5, basta procurar o ponto (5,50) na curva. Observando as linhas pontilhadas no gráfico, veri- ficamos que a solução é um pouco mais do que la salários mimmos. 14. Usando os dados da Tabela 1.[: (a) Construa a distribuição de frequências para a variável idade. (h) Faça o gráfico da porcentagem acumulada. (c) Usando o gráfico anterior ache os valores de s correspondentes aos pontos (s, 25%), (s,5O%) e (s, 75~";). 15. Fr«jiiêncill$ Acwnuladll$ (continuação) - Para um tratamento estalÍstico mais rigoroso das variáveis quantitativas, cosluma-se usar uma definição mais precisa para a dis- tribuição das freqüências acumuladas. Em capitulos posteriores serã vista a sua utilização. 22 - fIaiçio. Dadas 11 observações de ~ma variável quan~itativa, e um n~mer.o :c real De I uer. indicar-se-á por N{.>::) o numero de observaçoes menores ou IguaiS a x, e :rn~-se de Junrão disfribuição acumulada fj,d,a. ) a função F,(:c) = N(x) • , Extmplo 1.9. Para a variável S= salário dos ]6 funcionários listados na Tabela 1.1 , ê fIIci! verificar que: 0 , se s <4,OO 1 ]6' se 4,00 ~.{ < 4,56 2 ]6 ' se 4,56,,;; s < 5,25 I , se s~2],30 frtqUtncia acumulada "" " "" "" """ " "• "•.,. 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 Salários Fig. l.l J Àqueles não familiarizados com a representação gráfica de funções, recomenda-se a leitura do volume 1 desta serie. 23
  • 19. Exemplo I. /O. Esta definição também vale para variaveis quantitativas discretas. Assifll, para a variável número de filhos resumida na Tabela 1.5, tem-se a seguinte f.d.a.: 0,00, " x <O 0,20, " O...;;;x < I FlO(X) = 0,45, " l~x<2 0,80, " 2~x<3 0,95, " 3...;;;x<5 1,00, " x~5 cujo gnifico é o da Figura 1.14. 1,00 • • , 0,80 • , 0,60 . ~ • o 0,40 0,20+-_ I o 2 3 4 5 , F;g, 1.14. 16. Construir a f.d.a. para a variâvel idade referente aos dados da Tabela 1.1. 7. amo--e·folhas (continuação) - Os dados abaixo referem-se 11. produção, em toneladas, 24 e dado produto, para 20 companhias quimicas (numeradas de I a 20). (1,50), (2,280), (3,560). (4,170), (5.180), (6,500), (7,250), (8,200), (9, 1050), (1 0,240), (J 1,180), (12,1000), (13.1100), (14,120), (15,4200), (16,51(0), (17,480), (18.90), (19.870), (20,360). , Vemos que os valores eSlendem-se de 50 a 5.100 e, usando uma representação seme- lhante 11. da Figura 1.7. teriamos um grande numero de linhas. A Figura 1.15 (a) mostra uma outra forma de ramo-e-folhas, com ramos divididos. A divisão ocorre no ramo, cada vez que se muda por um fator de la. Uma economia de 4 linhas poderia ser obtida. representando_se os valores 50 e 90 da Figura 1.15 (a) num ramo denominado O. Obtemos a Figura 1.1 5 (b). Fig. 1.15, Ramo-e-folhas das produções de 20 companhias químicas, em toneladas. MWJicipio Populaçiio I São Paulo (SP) 849,3 C 2 Rio de laneiro (RJ) 509,3 J Belo Horizonte IMO) ~1J - 178il ~ 4 Salvador (SA) 150,6 }-'i).. 5 Fortaleza (CE) 130,8 6 Recife (PE) 120,4 7 Brasilia (DF) 117,7 8 Porto Alegre (RS) ..JliD 9 Nova Iguaçu (RJ) 109,4 10 Curitiba (PR) 102,5 11 Belém (PA) 93.4 ' I T 12 Goiânia (GO) 71.7 ~ ~L- '- lJ Campinas (SP) 66,4 14 Manaus (AM) 63.4 15 São Gonçalo (RJ) 61 ,4 t 25
  • 20. Município lO Duque de Caxias (RJ) 17 Santo Andrê (SP) 18 Guarulhos (SP) 19 Osasco (SP) 20 São Luis (MA) 21 São Bernardo do Campo (SP) 22 Natal (RN) 2l Santos (SP) 24 Niterói (RJ) 25 Maceió (AL) 26 São João de Meriti (RJ) 27 Teresina (PI) 28 Campos (RJ) 29 Jaboatão (PE) lO João Pessoa (PB) Fonte : Sinopse Estalistica do Brasil. 1981. FIBGE 26 População 57,5 55.2 53,2 47.3 44,9 42,5 41 ,7 41 ,6 40,1 40,0 39,8 37,8 34,9 33,1 33,0 - - CAPíTULO 2 Algumas medidas associadas a variáveis quantitativas 2.1 . MEDIDAS DE POSiÇÃO Vimos que a redução dos dados através de ramo-e-folhas e tabelas de freqüências fornece muito mais informações sobre o comportamento de uma variável do que a própria série original de dados. Contudo, muitas vezes, queremos resumir ainda mais esses dados, apresentando um ou alguns valores que sejam "representativos" da série toda. Quando usamos um SÓ valor, obtemos uma redução drástica dos dados. Usualmente CIllprega-se uma das seguintes medidas de posição central: média arit- mética. mediana ou moda. A moda, Mo, é definida como ealiza -o mais freqüente do con- junto de valoreLobsea adQs. Por exemplo, considere a variável número de filhos por funcionário casado, resumida na Tabela 1.5, do Capítulo I. Vemos que Mo é 2, correspondente à realização com a maior freqüência, 7. Em alguns casos, pode haver mais de uma moda, ou seja, a distribuição dos valores pode ser bimodal, trimodal, etc. A mediana, Md, é a realização que ocupa a posição<.Ç entra da série de observações quando estas estão ar erractas segundo suas grandezas (crescente ou decrescenTemente):-Assim-;""se as cinco observações de uma variável forem 3, 4, '!J 8 e 8, a mediana é o valor 7, correspondendo à ter· ctira observação. Quando o numero de observações é par , usa-se como mediana a média aritmética das duas observações centrais. Assim, se as observações de uma variável são 3, 4. 7, 8, 8 e 9, a mediana é Md = 7+8=75 2 ' ' Finalmente, a média aritmética, Me, conceito fami liar ao leitor, é a soma das observações dividida pelo numero delas. Assim, a média arit- mética de 3, 4, 7. 8 e 8 é Me=3 + 4 +7+8 +8 =30 =6 5 5 · 27
  • 21. Exemplo 2.1. Usando os dados da Tabela 1.5, já encontramos que a moda da variável número de filhos é Mo = 2. Para a mediana, COns. tatamos que Md = 2, média aritmética entre a décima e a décima primeira observações. Finalmente a média aritmética será M = 4 x 0 +5 x I + 7 x 2 + 3 x 3 +5 x I = 33 = I 65 e 20 20 " Neste exemplo, as três medidas têm valores bem próximos e qual. quer uma delas pode ser usada como "representativa" da série toda. A média aritmética é, talvez, a medida mais usada. Contudo, ela conduz a erros de interpretação. Em muitas situações a mediana é um valor mais adequado. Voharemos a este assunto logo mais e proporemos Um conjunto de medidas que julgamos serem mais adequadas para repre. sentar um conjunto de dados. A média aritmética pode ser expressa através do uso do símbolo de somatório. Se Xl' ... , Xi são os k valores distintos da variável X, po. demos escrever M (X) = Xl + ... + Xi = ~ ~ . e k k .L ~.,. , (2. I) Agora, se temos n observações da variável X , das quais fi ] sào iguais a Xl' n z iguais a Xz. etc., 11. iguais a Xk> então a média aritmética de X será dada por M e(X) = nJX] + IIZX 2 + ... + !lkX~ n 1 ' = - L fl jXj. fi i'" 1 (2.2) n Se !; = --1. representa a freqüência relativa da observação X;, então n (2.2) também pode ser escrita , M e(X) ~ L /;x;. (2.3) ;"' 1 De ora em diante denominaremos a média aritmética simplesmente de média e, às vezes, será denotada por x, ou sCJa, , Me(X) ~ 'i ~ L /;X;. (2.4) ;=1 Exemplo 2.2. A determinação das medidas dc tendência centrál para uma variável quantitativa contínua, através de sua distribuição de fre· 28 . exige alguns cuidados especiais. Consideremos a Tabela 1.6. qüSna8s, . d d d 1'á discutimos antenonnente, com os a os agrupa os em c asses, CoPIO J . formação sobre cada observação individual, e uma boa apro· perde-se 10 1 h. -o é supor que todos os dados dentro de uma c ~sse ten a.m seus lllJl3Ç3 . uais ao ponto médio desta classe. Este procedImento delxa·nos vaJore:S:;a situação do caso discreto, onde as medidas são calculadas na ~ ,se os pares (x" n;) ou (x; ,JJ, como em (2.2) e (2.3). usanAO moda. mediana e média para os dados da Tabela 1.6 são: Mo = 10,00 Md ~ 10,00 10 x 6,00+ 12 x 10,00+ 8 x 14,00+ 5 x 18,00+ 1 x 22,00 ~ 11,22. Me ~ 36 Existem várias técnicas para a detenninaçào das medidas apresen· das especialmente para a média, mas não é nossa intenção apresen· :.las'aqui. Com o advento das modernas máquinas eletrônicas de cal· cu1ar e dos computl:ldores, tais técnicas perdem a sua função, já que o . tcresse no cálculo das medidas em geral está dentro do contexto de ::na análise estatística mais ampla. 2,2, MEDIDAS DE DISPERSÃO A sumarização de um conjunto de dados, através de uma única medida representativa de posição central, esconde toda a informação sobre a variabilidade do conjunto de valores. Por exemplo, suponhamos que cinco grupos de alunos submetem·se a um teste, obtendo as seguintes ootas: grupo A : 3, 4,5,6, 7 grupo B : I, 3, 5, 7, 9 grupo C : 5, 5, 5, 5, 5 grupo D : 3, 5, 5, 7 grupo E: 3,5; 5; 6,5 (variável (variável (variável (variável (variável X) Y) Z) W) V) Vemos que Me(X) ~ Me(Y)~ Me(Z)~ Me(W) ~ Me(V) ~ 5,0. A iden, tificação de cada uma dessas séries pela sua média (5 em todos os casos) nada informa sobre as diferentes variabilidades das mesmas. Então, notamos a conveniência de se criar uma medida que sumarize a varia~ bilidade de uma série de valores que nos permita, por exemplo, com- parar conjuntos diferentes de valores, como os dados acima, segundo algum critério estabelecido. 29
  • 22. o critério freqüentemente usado para tal fim é aquele que mede a concentração dos dados em tomo de sua média, e duas medidas são as mais usadas: desvio médio e variância. O princípio básico é analisar os desvios das observações em relação à média das observações. Para o grupo A acima, os desvios XI - X são: - 2, - I, O, I, 2. É fácil ver (pro. blema li) que, para qualquer conjunto de dados, a soma dos desvios é , igual a zero. Nestas condições, a soma L (XI - x) não é uma boa me- i= 1 dida de dispersão para o conjunto A. Duas opções são: (a) considerar o total dos desvios em valor absoluto;' (b) considerar o total dos quadra. dos dos desvios. Assim, para o grupo A teríamos, respectivamente: , L Ix, - xI ~ 2 + I + O+ I + 2 ~ 6, ' '' I , L (x, - x)' ~ 4 + I + O+ I + 4 ~ 10. j~1 O uso destes totais pode causar dificuldades quando comparamos conjuntos de dados com números diferentes de observações. Por exemplo, para o grupo D acima teríamos: , L Iw, - IV I ~ 2 + O + O+ 2 ~ 4, ;=1 •L (w, - IV)' ~ 4 + O + O+ 4 ~ 8. i"'l Deste modo, exprimimos as medidas como médias, isto é, o desvio medio e a variância são definidos por "DM(X) ~ L Ix, - x I/n, ;=1 "Var(X) ~ L (x, - x)'ln, ,-, respectivamente. Para o grupo A temos: DM(X) ~ 6/5 ~ 1,2, Var(X) ~ 10/5 ~ 2,0. Para o grupo .o vemos que 30 DM(W) ~ 4/4 ~ 1,0, Var(W) ~ 8/4 ~ 2,0. (2.5) (2.6) Então, podemos dizer que, segundo o desvio médio, o grupo D é . homogêneo que A. enquanto que ambos têm a mesma homogenei.Jll8IS . _ . de segundo a v~n~ncJa.. " da Sendo a variancla uma medida que expressa um deSVIO quadra- . médio, pode causar alguns problemas de interpretação. Para evitar "co d ' d- ' do 'd . dd. costuma-se usar o esvlO pa rao, que e ellfll o como a raiZ qua ra a ,sto'"tiva da variância. Temos, então, uma medida de variabilidade ex· ~I na mesma unidade dos valores do conjunto de dados. Para o gru- pressa . d - . A o deSVIO pa rao epo, DP(X) ~ JVar(X) - fi ~ 1,41. Exemplo 2.3. Vamos calcular as medidas de dispersão acima para variável X = número de filhos, resumida na Tabela 1.5. Como vimos :0 exemplo 2.1, Me(X) = x = 1,65. Os desvios são Xi - x: - 1,65; - 0.65 ; 0,35; 1,35; 3,35. Como 4 observações têm o desvio - 1,65; 5 observações o desvio - 0,65 etc., segue-se que 4 x (I,65)+5 x (0,65)+ 7 x (0,35)+3 x (I,35)+ I x (3 ,35) _ 098 DM(X) ~ 20 - , . Também, X) _ 4 x (- 1,65)' +5 x (- 0,65)' + 7 x (+0,35)'+3 x (+ 1,35)' Var( - 20 + I x (3 ,35)' ~ I 528 + 20 ' Conseqüentemente, o desvio padrão de X é DP(X) ~ JD28 ~ 1,24. Podemos, agora, definir formalmente as medidas de dispersão dis- cutidas acima. Suponha que observemos n1 vezes o valor XI ' "1 vezes o valor X2 etc., TIl vezes o valor X~ da variável X. Então, • •DM(X) ~ L nol x; - xIln ~ I foi x; - xI, (2.7) ;=1 ;" 1 • •Var(X) ~ L n;(x, - x)'ln ~ L f,(x, - .')', (2.8) ;=1 ; "' 1 DP(X) ~ JVar(X). (2.9) 3'
  • 23. o cálculo das medidas de dispersão no caso de variáveis contínuas pode ser feito de modo análogo àquele usado para encontrar a média no exemplo 2.2. Ou seja, considerando-se o ponto médio de cada classe como a realização comum a todos os elementos daquela classe, recaímos na situação de uma variável discreta. Exemplo 2.4. Vamos usar novamente a variável S= salário dos em- pregados da seção de orçamentos da Cia. Milsa. A mêdia encontrada no exemplo 2.2 ê s= 11 ,22. Com os dados da Tabela 1.6 e usando (2.8) en- contramos •Var(S) ~ L n,(s; - 5)'/n ~ [1 0(6,00 - 11 ,22)' + 12(10,00 - 11 ,22)' + i " l +8(14,00 - 11,22)'+5(18,00 - 11 ,22)'+ 1(22,00 - 11 ,22)'l/J6~ 19,40 e DP(S) ~ ji9,4O ~ 4,40, É fácil ver que DM(S) = 3,72. No Capítulo 9 a variãncia de uma amostra será encontrada usando-se n - I no denominador em (2.8), em vez de n. A justificativa será dada na- quele capítulo, mas para grandes amostras pouca diferença fará o uso de ,, - 1 ou n. PROBLEMAS 1. Quer se estudar o numero de erros de impressão de um livro. Para isso escolheu-se uma amostra de 50 páginas. encontrando-se o seguinte número de erros por página: (a) Qual o número médio de erros por pá- gina? (b) E o número mediano? (c) Qual é o desvio padrão? (dJ Faça uma representação grãfica para a distribuição. (e) Se o livro teM SOO págir'las, qual o numero total de erros esperado no livro? ErrQ5 o I 1 ] 4 Freqiiencia "lO ] 1 2. As luas de juros recebidas por lO ações durante um certo periodo foram (medidas em porcentageM) 2,59 ; 2,64; 2.60; 2,62 ; 2,57: 2,55 ; 2,61 ; 2,50; 2.63; 2.64. Calcule a média. a mediana e o desvio padrão. 32 ra racilitar um projeto de ampliação da rede de esgotos de uma certa região de .uma ). ~ s autoridades tomaram uma amostra de tamanho 50 dos 270 quanelrõcs çidadc, a . . d ~ • reoião e foram encontrados os segUintes numeros e casas por quar- que com}"'"'·" c·, teirão: 2 2 ] 10 13 14 15 15 16 16 18 18 29. li 22 22 23 24 15 25 26 27 29 29 30 , 32 36 ti 44 45 45 46 48 52 58 " 61 61 65 66 66 68 75 78 80 89 9Q 91 97 ) Use 5 interYalos e construa um histograma. ~:) Oetennine uma Medida de tendência central e uma medida de dispersão. ( ) Dê uma situação pratica onde você acha que a mediana é uma medida mais apto- ~ a ~~. priada do que a mcula. . . . .. . (b) Esboce um histograma. onde a médIa e a mec!tana comcrdem. Buste alguma classe de histogramas onde ISSO sempre acontece? (c) Esboce os bistogramas de três variáveis (X, Ye Z) com a meSMa média aritmetica. mas com as variãncias ordenadas eM ordem crescente. S. Suponha que a variável de interesse tenha a distribuição como na figura abaixo. Você acha que a média e uma boa medida de posição? E a Mediana? Justifique. " Numa pesquisa realizada com 100 famiJias levantaram-se as seguintes infonnaçõcs: Número de filhos o 23 4 .') mais que 5 Freqüência de famílias 17 20 28 19 7 4 5 (a) Qual a mediana do número de filhos? (6) E a moda'? (c) Que problemas você enfrentaria para cakular a média? Faça alguma suposição e encontre-a. 33
  • 24. 2,3, OUTRA ESTRATÉGIA DE ANÁLISE Tanto a média como o desvio padrão podem nào ser medidas ade_ quadas para representar um conjunto de valores. pois: (a) São afetados, de forma exagerada, por valores extremos. (b) Apenas com estes dois vaiares nào temos idéia da assimelria da distribuição dos valores. Para contornar estes fatos, as seguintes cinco medidas sào sugeridas (ver Tukey, 1977): (i) a mediana , Mel; (ii) os ex/remos: o menor e o maior valor do cOAjunto de dados; (iii) os quarris oujunlas, J: cada quartil faz o mesmo que a mediana para as duas metades demarcadas pela mediana. Ou seja, a mediana é um valor que deixa metade dos dados abaixo c metade acima dele. O primeiro quartil ou junta é um valor que deixa um quarto dos valores abaixo e três quartos acima dele. O terceiro quartil ou junta é um valor que deixa três quartos dos dados abaixo e um quarto acima dele. O se- gundo quartil é a mediana (para maiores detalhes de cálculo dos quartis, veja problema 14). Os valores extremos serào representados por E. Exemplo 2.5. Retomemos os dados do exemplo 1.3. Temos (veja o ramo-e-folhas da Figura J.7). As juntas são; Md ~ 9,80 + 10,53 ~ 10,17 2 7,44; 7,59 ~ 7,5 e 13,85 ; 14,69 _ 14,27 Os valores extremos são 4.00 (menor valor) e 23,30 (maior valor). Obtemos, então, o chamado esquema dos cil/CO números, que está representado abaixo, onde também está incorporado o número de pon- tos, que no caso é 36. 34 Mil J 7,52 E 4,00 36 10,17 14,27 23,30 E s cinco medidas sâo chamadas de estatÍSticas de ordem (estas sta ~ d·d ' d . d- as únicas' há outras) e sao me I as reslstenfes e poSição e pjosao "- ' a distribUlçao. uITI Dizemos que uma medida de posição ou dispersão é resistente quan- fi pouco afetada por mudanças de uma pequena porção dos dados. ~om~iana é uma medida resisteme, ao passo que a média não o é. Para ilustrar este fato , suponha que tomemos os dados 5 7 8 10 12 15, d quais obtemos Me = 9,5 e Md =9,0 Suponha, agora, que modifi-M _ emos o valor J 5, que passa a ser 150. Obtemos, emao, Me = 32, en-qu _ quanto a mediana nao se altera Observe que a média aumentou mais de duas vezes. O desvio padrão também não é uma medida resistente. Para o exem- lo acima, no primeiro caso obtemos DP= 3,62 e após a mudança de rS para J50 obtemos DP = 57,86, ou seja, mais de quinze vezes a anterior. Uma medida de dispersão alternativa que pode ser utilizada é o in/erl'ala inrerquarlil, que é a di ferença entre o terêeiro e o primeiro quartis, denotado dJ • Então, dJ = l ] - li , onde JI , J2 e l) denotam o primeiro, o segundo (mediana) e o terceiro quarlis, respcctivamentt:. Na figura abaixo representamos de forma linear as cinco medidas referentes ao exemplo 2.5, acrescentando dJ e as distâncias entre pares destas medidas. ',00 7,52 10,17 14.27 23,30, , , , ,3.52 2,65 4.10 9,03 6,17 13,13 6,75 Aqui temos, então, li = 7,52 II = Md = 10,17 lJ = 14,27 dJ = JJ - li = 6.75 35
  • 25. Chamemos de Ei c Es os valores minimo e máximo, respectivamente. À diferença J! - Ei= 10.17 - 4,00 = 6.! 7, chamamos di.l'persão infe- rior, e à diferença E.- J2=23.30 - [0,17 = 13,[3 chamamos dispersão superior. A comparação destas distâncias nos fornece informação sobre a forma da distribuição. De fato, vejamos como seriam estas distâncias para uma distribuição simétrica como na figura abaixo (a chamada dis_ tribuição normal). E; E, Esperamos, intuitivamente, que: (o) a dispersão inferior seja aproximadamente igual à dispersão su- penar; (b) J2- Jl ~ JJ- J2; (c) J1-Er':!:! E.- J]; (d) as distâncias entre mediana e juntas sejam menores que as dis- tâncias entre extremos e juntas. As distâncias para o exemplo acima mostram claramente o caráter não nonnal dos dados. PROBLEMAS 7. Obtenha o esquema dos cim:o números para os dados do problema 3. Calcule o in· tervalo interquartil e as dispersões inferior e superior. Baseado nestas medidas. ve- rifique se a fonna da distribuição dos dados é normal. 8. Refaça o problema anterior, utilizando desta vez os dados do problema 5 do Capítalo L 36 2.4. DESENHO ESQUEMÁTICO A infonnação contida no esquema dos cinco números pode ser tra- duzida graficamente num desenho esquemático, ilustrado na Figura 2.1. Primeiramente, definamos aqueles valores que estão muito aquém de }1 ou muito além de J3 como sendo observações discrepantes (ou olltliers). Especificamente, conSideraremos dados que sejam menores que J I - ; dJ oU maiores que J] + ~ dJ como sendo discrepantes do restante dos dados. Para construir o desenho esquemático, consideraremos um retângulo onde estãO representadas as juntas e a mediana. A partir do retângulo, para cima e para baixo, seguem linhas até o ponto mais remoto que nào seja wna observação discrepante. Obteremos, então, uma figura que re· presenta o conjunto dos dados, com exceção dos OIaJiers. Estes serão representados individualmente por x. • • Fig. 2.1. Desenho esquemático ? desenho esquemático dá uma idéia da posição, dispersão, assi- metna, caudas e dados discrepantes. A posição central dos valores é dada pela mediana e a dispersão, por dJ . As posições relativas de J I , J2 e J] dão uma noção da assimetria da distribuição. Os comprimentos das caudas sào dados pelas linhas que vão do retângulo aos valores mais arastados que não sejam outliers e pelos próprios outliers. 37
  • 26. Exemplo 2.6. Consideremos os dados referentes às populações dos 15 maiores municipios do Brasil , segundo o Censo de 1980 (ver pro. blçma 18, do Capítulo I). O esquema dos cinco números esta represen. tado abaixo. e Temos que, Md J 82,6 E 61,4 15 112,5 140,7 849,3 D, ~ 140,7 - 82,6 ~ 58,1, 3 3 J, - 7:d, ~ 82,6 - 7: (58, 1) ~ - 4,6 3 3 J, + 7: d, ~ 140,7 + 7: (58,1) ~ 227,9. Então, as cidades com populações acima de 2.279.000 habitantes são consideradas outliers, ou seja, Rio de Janeiro e São Paulo. O desenho esquematico correspondente está na Figura 2.2. 900 )( São Paulo 500 )( Aio de Janeiro 180 50 Silo Gonçalo Fig. 2.2. Desenho esquemático para os /5 maiore.~ municípios do Brasil em /980 No desenho esquemático para os 15 maiores municípios do Brasil, vemos que os dados têm uma distribuição assimétrica à esq uerda, com 13 valores concentrados entre 50 e 200 e dois outliers. bastante afastados do corpo principal dos dados: 509,3 e 849.3. 3. como pontos ra definirmos as observações discrepantes é a seguinte: consi· limites pa . . d. curva normal com media zero e, portanto, com me lana zero. dere uma É fácil verificar (ver Capítulo 6 e Tabela 3) que J I = -0,6745, J1 = O, 3 JJ= 0,6745 e portanto dJ = 1,349. Segue-se que J I - 2 dJ = -2,698 e J 3 + ; dJ = 2,698. A área entre estes dois pontos embaixo da curva é O993, ou seja, 99,3% da distribuição está entre estes dois valores. Isto .' para dados com uma distribuição normal, os outliers constituirão cer- ~ de 0,7% da distribuição. PROBLEMAS ,. Construa o desenho esquemátiço para os dados do exemplo 1.3. Capitulo I. O que você pode concluir a respeito da distribuição? UI. Reraça a questão anterior com os dados do problema 3 deste capitulo. PROBLEMAS E COMPLEMENTOS 11. Mostre que: (a) I (XI - x) = O ,., • •(e) I n, (X, - .fjl = I nixf _ nj2 I- I i _ I • •(li) I Ji(Xi - x): = I Jixf - Xl ,., ,., 39
  • 27. U. Usando os resultados da questão anterior calcule as variâncias dos problemas deste capitulo, 1" ~s dados abaixo representam as vendas ~ vendedores de gêneros allmenticios : semanais, em classes de salários mínimos, Vendas semanais 30 I-- 35 35 1-- 40 40 1--45 45 1-- 50 50 I-- 55 551--60 60 I-- 65 65 I-- 70 (a) Faça o histograma das observações, (b) Calcule a média da amostra, X. (c) Calcu[e o desvio padrão da amostra, s. N." de vendedores 1 10 18 50 70 30 18 1 (ti) Qua[ a porcentagem das observações compreendidas entre x ~ 2s e x + 2s? (e) Calcule a mediana. 14. QUllnlis. Usando·se o histograma, podemos derivar um procedimento alternativo para encontrar a mediana de uma variável. Pela sua definição vemos que ela deve cor- responder ao valof da abscissa que divide a área do histogr.~ma em duas partes iguais (50"1.. para cada lado), Então, usando argumentos geométricos, podemos encontrar um ponto, satisFazendo essa propriedade. Vejamos através de um exemplo. 40 Exemplo 2.7. Vamos repetir abaixo a Figura 1.5, que é o histograma da variável S = salário dos empregados da eia. Milsa. 2." "" 14" o 4,00 8,00 Md 2,00 18,00 20,00 24,00 Devemos localizar o ponto das abscissas que divide o histograma ao meio, A do primeiro retângulo corresponde a 28% do total, os dois primeiros a 61%; por- área a mediana Md é algum número situado entre 8,00 e 12,00. Ou melhor, a me- tanto. I d d " I · · d " 1. .,á corresponder ao va ar M no segun o retangu o, cuJa area o retangu o dlana I • ' de base 8,OO.... Md e mesma altura que o retangulo de base 8,OOHI2,OO seja 22% (28% d rimeiro retângulo mais 22% do segundo perfazendo os 50"10)· Consulte a figu. : ~ra melhor compreensão. Através da proporcionalidade entre a area e a base do retângulo, lemos: logo 12,00 ~ 8,00 33%. • Md - 8,00 22% Md ~ 800 = 2~~ .400 . 33%' Md = 8,00 + 2,67 = 10,67 que t uma expressão mais precisa para a mediana do que a mediana bruta encontrada anteriormente. Do mesmo modo que definimos a mediana como o valor que tem metade das observações menores do que ela, podem!?s definir outTa medida de ordem tal, que uma certa proporção P das observações seja menor do que ela. Por exemplo, se p= 1(4. temos o primeiro quarlil, onde um quarto das observações são menores do qUC ele. Ou quando p é. escolhido como uma proporção de denominador 10, dando origem às medidas de ordem chamadas decis. De um modo geral, dada uma propor· ção p(O <p < I), chamamos de quantil de orde.m p ao número x(p),"tal que 100p% das observações sejam menores do que ele. Abaixo indicamos alguns quantis e seus nomes particulares, Quantil x(P) x{0,25) x(O,50) x(0,75) x(O,40) x(0,95) Nome 1," Quartil = 25." Perccntil Mediana ~ 5," Decil ~ 50." Percelltil 3." Quarti[ ~ 75." Percentil 4," Decil 95." Percentil o cálculo dos quantis pode ser feito de modo analogo ao cálculo da mediana. através de argumentos geométricos no histograma, Vejamos a determinação de alguns quantis, usando os dados do último exemplo. Exemplo 2.8 (continuação). Através do histograma da ligura acima, calcular: (a) x(0,25) Resposta: Verificamos que x(0,25) deve estar na primeira classe, pois a proporção no primeiro retângulo e 0,28. Logo 41
  • 28. ~ x(0,25) - 4,00 _ 8,00 - 4,00 25% - 28% então "x(0,25) "'" 4,00 + 284,00 = 7,51 (b) x(0,95) Resposta: Analisando a soma acumulada das proporções, verificamos que este quantil deve pertencer ã quarta classe, e que nesse retângulo devemos achar a pane correspondente a 12%, pois a soma acumulada até a classe anterior é 83%, Cal_ tando 12% para atingirmos os 95%. Portanto x(0,95) - 16,00 = ~20",OO";-;-~16",OO,,, 12% 14% logo 12 x(0,95) = 16,00 + 14 x 4 = 19,43 (e) x{0,75) Resposta: De modo análogo concluímos que o terceiro quantil deve pertencer ao intervalo 12,00 I--- 16,00, portanto x(O,75) - 12,00 14% 16,00 - 12,00 22% x(O,75) = 14,55. O intervalo interquantil do úl!imo exemplo e x(O,75) - .1'(0,25) = 14,55 - 7,57'=' 6,98. Ou seja 50:'1,; dos salários "centrais" estão numa faixa de amplitude 6,98 salá.rios m{_ nimos. I~~ Usando os dados do problema 13, calcule: (a) mediana (h) I.~ decil (e) intervalo interqualtil 16. O número de desquites na cidade, de acordo com a duração do casamento, está repre- sentado na tabela abaixo : ., 1.0 ().,<'f' '..., J (a) Qual a duração média dos casa- mentos? E a mediana? Anos de casamenlo N.O de desquites (6) Encontre a variància e o desvio padrão da duração dos casa- 01- 6 2.800 mentos 61- 12 1.400 (o) Construa o histograma da dis- 121- 18 600 tribuição. 181-2' IlO (ti) Encontre o 1.0 e o 9.° decil. 2"-32 lO (e) Qual o intervalo interquartil? 42 "::> rtamento de Pessoal de uma certa firma fez um levantamento dos salários 17. ~ro funcionãrios do setor administrativo, obtendo os seguintes resultados: EsboCe: o hIstograma correspondente (:) Calcule a média, a vanânCla e o desvIO padrão ( ) Calcule o L" quartIl e a ~. _________--,______ (e) Se for conce<hdo um aumento de 100"10 (ri) ra todos os [20 funclOnânos, have- Faixa salarial (X saláriQ mínimo) ~ E '~ .?rã alteração na media? na vanancla. Justifique sua resposta. ,,_ for concedido um abono de 2 sa- (t);,... . od f !ários mimmos para t os os 120 un- cionários. haverâ alteração na média '! E na variância'! E na mediana'! Jus- tifique sua resposta. 01- 2 , 21- 4 41- 6 61- 10 ; FreqUincia relativa 0,25 0,40 0,20 0,15 ri" o que acon[ea: com a mediana, a média e o desvio padrão de uma série de dados . quando: (a) cada observação é multipli~da por 2; (b) soma-se 10 a ~~a obse~açao; _ --r(c) subtrai-se: a médIa geral x. de cada ~~servaçao; . ~ (d) de cada observação subtraI-se x e dIVIde-se pelo deSVIO padrão DP(x). -;;: Na companhia A, a média dos salários é 10.000 unidades e o 3.° quartil é 5.000. )MSe: você se apresentasse como candid.at~ a e~ firma e se o. seu ~Iãrio fosse es- colhido ao acaso entre todos os posslvels salános, o que sena maiS provávcl : ga- nhar mais ou menos que 5.000 unidades? (ó) Suponha que na companhia B a média dos salários é 1.000 unidades e a variância é praticamente zero, e lá o seu salário tambem seria escolhido ao acaso. Em qual companhia você se apresentaria para procurar emprego? a. Estamos interessados em estudar a idade dos 12.325 funcionários da Cia. Distribuidora de Leite Teco, e isso será Feito através de uma amostra. Para determinar que tamanbo deverá ter essa amoslra, foi colhida uma amostra-piloto. As idades observadas foram : 42. 35, 27, 21 , 55. 18, 27, 30, 21 , 24. (a) Detennine as medidas descritivas dos dados que você conhece. (h) Qual dessas medidas você acredita que será a mais importante para julgar o ta- manbo final da amostra? Por quê? lI. Estudando-se o consumo diário de leite, verificou-se que, em certa região, iO% das familias consomem até I litro, só'<'1o das famílias consomem entre I e 2 litros, 20% con- somem entre 2 e 3 litros e o ~estante consome entre 3 e 5 litros. Para a variável em es- tudo: (a) Escreva as informações acima na forma de uma tabela de freqüências. (h) Construa o hislogram'a. (e) Calcule a média e a mediana. (d) Calcule a variàneia e o desvio padrão. (1') Qual o valor do 1.0 quartil'! 43
  • 29. /ri.y. distribuição de ~Is.uma ronna de freqüências do salário anual dos moradores do bairro A que lêlll rendimento é apresentada na tabela abaixo: Faixa salarial (x lO salários mínimos) r of- 2 ? 2r- 4 4 f- 6 6 f - 8 8 I-- lO 10 t-- 12 121--14 TOTAL Ix! = 150.300 r.x~ = 4.906.500 • (o) Construa um histograma da distribuição. Freqüência 10.000 1900 2.000 1.IJ)O - 800 700 2.000 20.500 (b) Qual a média e desvio padrão da variável salário? (c) O bairro B apresenta, para a mesma variâvel. uma média de 7,2 e um desvio padr.1o de 15,1. Em qual dos bairros a população e mais homogênea quanto ã renda'! (ri) Construa a f.d.a., e determine qual a faixa salarial dos 10% mais ricos da população do bairro. ~;(e)Qual a "riqueza tolal" dos moradores do bairro? 23. Um órgão do governo do estado está intcressado em determinar padrões sobre o in- vestimento em edução. por habitante, realizado pelas prefeituras. De um levanta- mento em la <:idades, foram obtidos os valores (codificados) da tabela abaixo: 44 Cidade A B C D E F G H J Investimento 20 16 14 8 19 15 14 16 19 " Nesse caso, será considerado como investimento básico a médio final das observações, calculada da seguinte maneira: J. Obter uma mêdia inicial. 2. Eliminar do conjunto aquelas observações que forem superiores à media inicial mais duas vezes o desvio padrão. ou inferiores à média inicial menos duas vezes o desvio padrão. 3. Calcular a media final com o novo conjunto de observações. Qual o investimento básico que você daria como resposta ? Observaçâo: O procedimento do item 2 tem a finalidade de eliminar do conjunto a cidade cujo investimento é muito di ferente dos dcmais. h · .o,rama abaixo, calcular a média, a variância, a moda, a )oi Dado o tS mediana e o 1,° qUlrtiJ. 2 b 25% - 20% t-- 4 6 30% .- 6 10 12 ~ Em uma granja J era a seguinte: foi observada a distribuição dos frangos com relação ao peso, que Peso (gramas) 960 >- 980 980 1--- 1.000 1.000 t-- 1.020 1.020 I--- 1.040 =-1.040 I--- 1.060 1.060 I--- 1.080 (a) Qual a média da distribuição? (b) Qual a variância da distribuição? (e) Construa o histograma. " 60 160 280 260 160 80 (li) Queremos dividir os frangos em quatro categorias, com relação ao peso, de modo que: -'" 20"10 mais leves sejam da categoria D ; - ..30% seguintes sejam da categoria C ; -M 30",.{ seguintes sejam da categoria B; - o, 20"10 seguintes (ou seja, os 20"10 mais pesados) sejam da categoria A. Quais os limites de peso entre as categorias A, B. C e D1 (e) O granjeiro decide separar deste lote os animais com peso inferior a dois desvios padrões abaixo da média para receberem ração reforçada, e também separar os animais com peso superior a um c meio desvio padrão acima da média para usa-los como reprodutores. Qual a porcentagem de animais que serão separados em cada caso? tl6. A idade média dos candidatos a um determinado curso de aperfeiçoamento sempre , joi baixa, da ordem de 22 anos. Como esse curso foi planejado para atender a todas as V ~des. decidiu-se fazer uma campanha de divulgação. Para se verificar se a campanha foi ou não eficiente, fez-se um levantamento da idadc dos candidatos ã última pro- moção, e os resultados estão na tabela abaixo. 45
  • 30. lda<k Freqüência Porcentagem 18 I----- 20 18 36 20 I--- 22 12 24 22 f- 26 10 20 26)-- 30 8 16 30 1--36 2 4 TOTAL 50 100 (a) Baseando-se nesses resultados, você diria que a campanha produziu algum efeito (isto é, aumentou a idade media)? (b) Um outro pesquisador decidiu usar a seguinte regra: se a diferença j - 22 rOS!ie maior que o valor 2 DP(X)/ fi. então a campanha surtiu efeito. Qual a COnclu. são dele, baseado nos dados? (c) Faça o histograma da distribuição. 1 ', ara se estudar o desempenho de duas companhias corretoras de ações, seleCIonou-tI: e cada uma delas amostras aleatónas das ações negooadas Para cada ação seleciO- nada, computou-se a porcentagem de lucro apresentada durante um periodo fixado Xde tempo. Os dados estão a seguIr Correlora A Corre/oro B 45 60 54 57 55 "62 55 70 50 " "38 48 64 " 55 "55 " 55 61 " "54 " 48 57 57 50 65 55 60 55 " 54 " 51 "Que tipo de informação revelam esse5 dados? (Sugestão: use a análise proposta nas seções 2.3 e 2.4.) 28. Para veriticar a homogeneidade das duas populações do problema anterior, um esta. tístico sugeriu que se usasse o quociente F = Var (X/A) , mas não disse qual a de- Var (X/H) cisão a tomar baseado nesse valor. Que regra de decisão você adotaria para dizer se são homogêneas ou não? 29. Faça um desenho esquemático para os dados da corretora A e um para os dados di corretora B. Compare os dois conjuntos de dados através destes desenhos. 30. !lara decidir se o desempenho das duas corretoras do exercicio 27 são iguais ou nio, adotou-se o seguinte teste : sejam 46 x.. ~ xa Sl = 11.. Var(XjA) + lia Var{XjB) f""S:)I+I'· 11.. + na ~ 2 • 11.. lia c.sO III < 2 os desempenhos são semelhantes, caso contrário são diferentes. Qual seria a sua conclusão? (a) I"h", vo;;t acha desse procedimento? (bl ~- Os dados abaixo referem-se ao número de moradores X por domicílio, num bairro A, ;:Jt!.e que estão dispostos numa tabela de dupla entrada. COLUNA LINHA 2I ] 4 5 6 7 8 9 10 I 6 I 6 I ] ] 9 5 9 6 2 8 7 9 10 5 5 2 2 5 I ] ] 5 8 6 4 2 I 7 O ] 4 8 7 8 6 9 I 9 10 4 2 5 4 2 5 ] 4 8 10 6 5 8 (0') Calcule para os 50 domicílios a média geral Me(X), a variância total Var(X), e a mediana geral Md(X). Faça o histograma. (b) Suponha agora que cada coluna corresponde a uma amostra de domicílios, sor- teada nesse bairro. Para cada coluna (I) calcule: a média da amostra (Xi), a variincia da amostra (5t) e a mediana da amostra (m,). (e) Qual a amostra que produz a melhor estimativa de Me(X)? E para Var(X)? E para Md(X)? (li) No conjunto de amostras, qual é mais indicado para estimar Me(X): o estimador x ou m? E para Md(X)? Justifique a resposta. (t') Você espera que Var(X) seja maior ou menor do que Var(x)? Por quê? fi) E com relação a Me(X) e Me(i)? fi) Calcule Me(x) e Var(x) e verifique suas respostas (e) e (j), (h) Para cada amostra i, construa o seguinte intenalo xr ± 2 DP);!. ",li, (i) Considere agora cada linha como sendo uma amostra. O que você acha que acon- tecerá com os estimadores? fi) Como ficará a pergunta (li)? lZ,: Usando os dados da' variável qualitativa região de procedência da Tabela I I, trans- rorIJle.a na variável quantitativa X, definida do seguinte modo: X:o fi, se a região de procedência for capital; lo, se a região de procedência for interior ou out ra. 47
  • 31. (a) Calcule Me(X) e Var(X). (b) Qual a interpretação de Me(X)? (c) Construa um histograma. 33. No problema 1.5.1 temos os resultados de 25 funcionarios em vários exames a que se submeteram. Sabe-se agora que os criterios adotados em cada exame não são compa. ráveis, por isso deçidiu-se usar o "desempenho relativo" em cada exame. Essa medida será obtida do seguinte modo : (i) Para cada exame será calculada a média Me(X) e o desvio padrão DP(X). (ii) A nota X de cada aluno será padronizada do seguinte modo: z ~ (a) Interprete o significado de Z. X - Me(X) DP(X) (b) Calcule as notas padronizadas dos funcionarios para o exame de Estatistica. (c) Com os resultados obtidos em (b), calcule Me(Z) e DP(Z). (i) Se alguma das notas padronizadas for acima de 2DP(Z) ou inferior à -2DP(Z), esse funcionário deve ser considerado como um caso anormal. Existe algum nessa situação? (e) O funcionário I obteve 9,0 em Direito, em Estatistica e em Política. Em que dis- ciplina o seu desempenho relativo foi melhor? 34"'F~tudando-se a distribuição das idades dos funci~nários de duas repartições publi_ .. ~s, obtiveram-se algumas medidas resumidoras que estão no quadro abaixo. Esboce o histograma das duas distribuições, indicando no mesmo as medidas descritas no qua. I dro. Comente sobre as principais diferenças entre os dois histogramas. Repartição Millimo I.· Quartil Mediana Média 3." Quarrif Máximo Df A B 18 18 27 23 33 32 33 ,3 39 42 48 48 , 10 35. Decidiu-se investigar a distribuição salarial dos profissionais com nivel universitário em duas regiões, A e B. As informações pertinentes foram obtidas e encontram_se no quadro abaixo. expressas em salários mínimos. Esboce a distribuição (histograma alisado) dos salários de cada região, indicando no gráfico as medidas apresentadas no quadro. Faça também uma descrição rápida das principais diferenças observadas nos gráficos. Região Média DP Mediana A 20,00 4,00 20,32 B 20,00 6.00 18,00 Moda 20,15 17,00 J, 17,32 16,00 J, 22,68 24,00 8.00 14.00 E, 32.00' 42,00 36. Construa o desenho esquemático para os dados do problema 5, do Capítulo I. Obte- nha conclusões a respeito da distribuição, a partir deste desenho. 48 CAPíTULO 3 - Análise bidimensional -3.1. VARIÁVEIS MULTIDIMENSIDNAIS Ate agora, vimos como organizar e resumir informações pertinentes uma única variável, mas freqüentemente estamos interessados em analisar a comportamento conjunto de duas ou mais variáveis. Aqui também a ~tribuiçãO conjunta das freqüências será um poderoso instrumento para ajudara com~reensão dos dad,?s. Iremos ~os deter basi~,me?t~ ~m va.riáveis bidimensionals, mas a exlensao para mats de duas vanavelS e ImedIata. Exemplo 3.1. Suponhamos que queremos analisar o comportamento oonjunto das variáveis grau de instrução (X) e região de procedência (Y), contidas na Tabela 1.1. A distribuição por freqüência é representada por umatabela dedupla entrada e, no nosso problema, a distribuição procurada está na Tabela 3.1. TABELA 3.1 ~ I." Capital Interior . OUlra TOTAL Fome' Tabela 1.1 Distribuição conjunta das freqüências das va- riáveis grau de instrução (X) e região de proce· dência (Y). Grau 2." Grau Superior TOTAL 4 5 2 11 3 7 2 12 5 6 2 13 12 18 6 36 49
  • 32. Cada elemento do corpo da tabela dá a freqüência observada das realizações simultâneas de X e Y. Assim, observamos 4 individuos da capital com instrução do primeiro grau, 5 da capital com o segundo grau, etc. A linha dos totais fornece a distribuição da variável X (grau de ins- trução), ao passo que a collma dos totais fornece a distribuição da Va_ riável Y (região de procedência). As distribuições assim obtidas sào cha. madas tecnicamente de disrribuições marginais, enquanto que a Tabela 3.1 constitui a distribuição conjwlfa de X e Y. Em vez de trabalhannos com as freqüências absolutas, podemos COns- truir tabelas com as freqüências relativas (proporções), corno foi feito no caso unidimensional. Mas aqui existem 3 possibilidades de expressarmos a proporção de cada casela: em relação ao total geral, em relação ao total de cada linha e em relação ao total de cada coluna. De acordo COm o objetivo de cada pesquisa, uma delas será a mais conveniente a ser usada. A Tabela 3.2 apresenta a distribuição conjunta das freqüências re-. lativas, expressas corno proporções do total geral. Assim podemos afirmar que 11% dos empregados vêm da capital e têm instrução de primeiro grau. Os totais nas margens fornecem as distribuições unidimensionais de cada uma das variáveis. Assim, 31% dos indivíduos vêm da capital, 33% do interior e 36% de outras regiões. Observe que, devido ao problema de aproximação das divisões, a distribuição das proporções introduz algumas diferenças não existentes. Compare, por exemplo, as colunas de educação superior nas Tabelas 3.1 e 3.2. TABELA 3.2 - Distribuição conjunta das proporções (em por- centagem) em relação ao tota! geral das variáveis X e Y definidas no text.o. X J." Grau 2." Grall Superior TOTAL Capital 11% 14% 6% 31 % Interior 8% 19% 6% 33% Outra 14% 17% 5% 36% TOTAL 33% 50% 17% 100% Fonte: Tabela 3.1 50 T bela 3.3 apresenta a distribuição das proporções em relação A a " pod d" d1 das colunas. AsSIm, emos Izcr que, entre os emprega OS ao t~tatrução até primeiro grau, 33% vêm da capital, ao passo que entre com tnSegados com segundo grau, 28% vêm da capital. Este tipo de dis· ~ ~:o serve para comparar adistribuição da procedência dos indi- tnbtU confonne o grau de instrução. vidU~ modo análogo, podemos construir a distribuição das propor- çõeS em relação ao total das linhas. Aconselhamos o leitor a construir essa tabela. TABELA x y Capital Interior Oulra TOTAL Fonte: Tabela 3.1 ~MAS 3.3 - Distribuição conjunta das proporções (em por- centagem) em relação aos totais de cada coluna das variáveis X e Y definidas no texto. 1.° Grau 33% 25% 42% lOO'/, 2." Grau 28% 39% 33% lOO'/, Superior 33% 33% 34% lOO'/, TOTAL 31% 33% 36% lOO'/, I. UlIUldo os dados da Tabela 1.1. CapílUlo I : la) Construa a distribuição de freqüência conjunta para as variaveis grau de instrução e região de procedência. (h) Qual a porcentagem dos funcionários que lêm o segundo grau? (r) Qual a porcentagem daqueles que têm o segundo grau e são do inlcrior? la) Dentre os funcionários do interior, quanto por cento tem o segundo grau? 1. No problema anterior, sorteando um funcionario ao acaso entre os 36: (D) Qual será provavelmente o seu grau de instrução? (h) E sua região de procedência? «() Qual a probabilidade do sorteado ter nivel superior? (d) Sabendo que o sorteado edo interior, qual a probabilidade dele possuir nível su- perior? (e) Sabendo que o escolbido eda capital. qual a probabilidade dele possuir nível su- perior? 51
  • 33. 3. Numa pesquisa sobre rotatividade de mão-de-obra, para uma amostra de. 40 peSSOal Foram observadas duas variàveis: numero de empregos nos ultimos dois anos (X) t salârio mais recente, em numero de salârios mínimos (Y). Os resultados Foram : Indivíduo X Y lndÍ'Í(/uo X Y 1 1 6 21 2 4 2 3 2 " 3 2 3 2 4 23 4 1 4 3 1 24 1 5 5 2 4 25 2 4 6 2 1 26 3 2 7 3 3 27 4 1 8 1 5 28 1 5 9 2 2 29 4 4 10 3 2 3<l 3 3 11 2 5 li 2 2 12 3 2 12 1 1 13 1 6 33 4 1 14 2 6 34 2 6 15 3 2 35 4 2 16 4 2 36 3 1 17 1 5 37 1 4 18 2 5 J8 3 2 19 2 1 39 2 3 20 2 1 40 2 5 (o) Usando a mediana, classifique os individuos em dois níveis, alto e baixo, para cada uma das variáveis, e construa a distribuição de Freqüências conjunta das duas clas- siFicações. (b) Qual a porcentagem das pessoas com baixa rotatividade e ganhando pouco? (c) Qual a porcentagem das pessoas que ganham pouco'! (cf) Entre as pessoas com baixa rotatividade, qual a porcentagem das que ganham pouco'! (e) A inFormação adicional dada em (cf) mudou muito a porcentagem observada em (e)1 O que isso significa? 3.2. INDEPENDÊNCIA DE VARIÁVEIS Um dos principais objetivos de uma distribuição conjunta e des- crever a associabilidade existente entre as variáveis, isto é, queremos conhecer o grau de dependência entre elas, de modo que possamos prever melhor o resultado de uma delas quando conhecemos a realização da outra, Por exemplo, se queremos estimar qual a renda média de uma família moradora da cidade de São Paulo, a informação adicional sobre a classe 52 . ue ela perlence perm ite~nos estimar com maior precisão essa "-ai a q d d d"·· d · · .- ' pois sabemos a epen encla eXIstente entre as uas vanavels : renda'f: miliar e classe social. Ou , ainda, suponhamos que uma pessoa seja rendada ao acasO da população da cidade de São Paulo, e devemos adi~ sorlei a . . , ual o sexo dessa pessoa. Como sabemos ser aproxImadamente a 'Inh~eqda população de cada sexo, não temos preferência em sugerir me~ ucr um dos dois. Mas se a mesma pergunta fosse feita, e nos fosse Q~ que a pessoa sorteada trabalha na indústria siderurgica, seriamos dito q . , d I· · be . linados a sugerir que a pessoa e °sexo mascu 100, POiS sa mos que tnc ' d d -Se · ' - á redominâncla esse sexo nesse ramo e ocupaçao. a In lormaçao h P di · · . adicional dissesse qu.e.a pessoa ~ortea a eClOna ?o.prtmelro,grau. a nossa estão seria modIficada, pOIS a grande malona dos professores do sug d ' . . I dinteiro gr,jU são o sexo lemlntno. sso tu o porque sabemos ser grande : grau de dependência entre as variáv~is s~x~ e ramo de ativi,dade. Vejamos, agora, como podemos tdentlflcar a dependênCia ou não entre variáveis, alravés da distribuição conjunta. E:t::emplo 3.2. Queremos verificar se existe ou não dependência enlre osexo e a carreira escolhida por 200 alunos de Economia e Administração. Esses dados estão agrupados na Tabela 3.4. TABELA 3.4 - Distribuição conjunta de alunos segundo o sexo (X) e o curso escolhido (Y). ~ Masculino Feminino TOTAL Economia 85 35 120 Administração 55 25 80 TOTAL 140 60 200 Fonte: Dados hipotêlicos Inicialmcnle, verificamos que fica muito difícil tirar alguma con- clusio, devido à diferença entre os totais marginais. Assim, devemos construir as proporções segundo as linhas ou as colunas para podermos I'azer as comparações. Fixemos os totais das colunas; a distribuição está na Tabela 3.5. 53
  • 34. y TABELA 3.5 - Distribuição conjunta das proporções (cm por- centagem) dc alunos, segundo sexo (X) e Curso escolhido (Y). . X Masculino Feminino TOTAL Economia 61 % 58% 60% Administração 39% 42% 40% TOTAL 100% 100% 100% Fonte : Tabela 3.4 A partir desta tabela podemos observar que, independentemente do sexo, 60% das pessoas preferem Economia e 40%, Administração. (Observ~ na coluna de total.) Não havendo deRendência entre as variáveis, eSpera_ ríamos estas mesmas proporções para cada sexo. Observando a tabela vemos que as proporções do sexo masculino (61% e 39%) e do feminin~ (58% e 42%) sào próximas das marginais (60% e 40%). Estes re,ult,.do, I parecem indicar nào haver dependência entre as duas variáveis. Con_ cluímos, então, que nesse caso as variáveis sexo e curso parecem ser in~­ pendentes. Vamos supor agora um problema semelhante, mas envolvendo alunos de Física e Ciências Sociais, cuja distribuição conjunta está na Tabela 3.6. Inicialmente convém observar que, para econom izar espaço, resu- mimos as duas tabelas numa única, indicando as proporções em rel,.ção , aos totais das colunas entre parênteses. Comparando agora a distribuição das proporções pelos cursos, independente do sexo (coluna de com as distribuições diferenciadas po~ sexo (coluna de masculino e felnillino),. observamos uma disparidade bem acentuada nas proporções. Assim, parece haver uma maior concentração de homens no curso de Física e de mulheres no curso de Ciências Sociais. Portanto, neste caso, as variáve,i, I sexo e curso escolhido parecem ser dependentes. Quando existe dependência entre variáveis, sempre é interessante quantificar essa dependência, e isso será objeto da próxima seção. E antes de passarmos a discutir este aspecto, convém observar que teríamos obtido as mesmas conclusões do exemplo 3.2 se tivéssemos calculado as propor- ções, mantendo Constantes os totais das linhas. 54 TAIIELA 3.6 - Distribuição conjunta das freqüências e propor- ções (em porcentagem), segundo o sexo (X) e o curso escolhido (Y). ~ Masculino Feminino TOTAl,. Fistc:a . . 100 (li %) 20 (33%) 120 (60%) Ciências SOCIais 40 (29%) 40 (67"1.) 80 (4O%) TOTAL 140 (100%) 60 (100%) 200 (100'1.) Fonlt: Dados hipotéticos ]IIIOIILEMAS oi. usando os dados do problema I. responda: (p) Qual a distribuição das proporções do grau de educação segundo cada urna das regiões de procedência? (6) Baseado no resultado anterior c: no prOblema 2, você diria que existe dependência entre a região de procedência e o nível de educação do funcionado? 5. Usando o problema 3. verifique se há relações entre as variáveis rotatividade e salário. " Após o lançamento de um novo modelo de automóvel. observou-se que 25% dos carros apresentavam defeitos na suspensão, t5% no sistema détrico c 10% na suspensão e DO sislema elétrico ao mesmo tempo. (li) Quat a distribuição conjunta das variáveis? (6) Qual a proporção de carros que apresentam defeitos? (e) Entre os carros que apresentam defeitos na suspensão, qual a proporção que apre- IJeIlta defeito no sistema elétrico? (d) Entre os carros que não apresentam defeitos na suspensão, qual a proporção que apresenta defeitos no sistema elétrico? (r) Você aeba que exiSle relação entre as variáveis? 3.3, MEDIDA DE DEPENDÊNCIA ENTRE DUAS VARIÁVEIS NOMINAIS De um modo geral, a quantificação do grau de dependência entre duas variáveis é reita pelos chamados coeficientes de associação ou correlação. 55
  • 35. ! Estas sào medidas que descrevem num único número a dependência entre as duas variáveis. Para maior facilidade de compreensão, esses coeficientes usualmente variam de zero até um (ou, às vezes, de - I até 1), e a proximi. dade do zero indica total independência. , - Existem muitas medidas que quantificam a dependência entre va. riáveis nominais, mas iremos apresentar apenas uma delas. É o chamado coeficiente de contingência, devido a K. Pearson. Exemplo 3.3. Queremos verificar se a criação de detenninado tipo de cooperativa está associada com algum fator regional. Para isso, cole_ taram-se os dados da Tabela 3.7. TABELA 3.7 - Cooperativas autorizadas a funcionar por tipo e estado, junho de 1974. TIPO DE COOPERATIVA ESTADO f--------,---,--_-,--__-j Consumidor Produtor TOTAL Escola Outros São Paulo 214(33%) 237(37%) 78(12%) 119(18%) 648 (I 00";';) Paraná 51 (17%) 102(34%) 126 (42%) 22 (7%) 301(100%) ' ...... RioG.Sul 111(18%) 304(51 %) 139(23%) 48 (8%) 602(100%) TOTAL 376 (24:~) 643 (42%) 343(22%) 189(12%) 1.551 (100%) Fonte: Sinopse Estatistica do Brasil _ IBGE _ 1977 A análise da Tabela 3.7 mostra a existência de uma certa dependência entre as variáveis. Caso houvesse independência, esperaríamos que em cada estado tivéssemos 24% de cooperativas de consumidores, 42% de produtores, 22% de escolas e 12% de outros. Então, o número esperado de cooperativas de consumidores no Estado de São Paulo seria 648 x 0,24 = = 156 e no Paraná 301 x 0,24 = 72 (Ver Tabela 3.8). Comparando as duas tabelas, podemos veri ficar as discrepâncias existentes entre os valores observados (Tabela 3.7) e os esperados (Tabela 3.8), caso as variáveis fossem independentes. Na Tabela 3.9, resumimos os desvios: observados menos esperados. Observando essa tabela podemos tirar algumas conclusões: i) A soma total dos resíduos é nula. Pode-se verificar facilmente somando-se cada linha. 56 TABELA 3.8 _ Valores esperados na Tabela 3.7. ,ass.umindo a independência entre as duas vanavelS. I - TIPO DE COOPERATIVA Outros TOTAL ESTADÜ Consumidor Produtor Escola 156(24%) 272(42%) 142(22%) 78(12%) 648 (100';') São Paulo 66(22%) 36(12%) 301 (100";') Paraná 72(24%) 127(42%) 132(22%) 72(12%) 602(100%) Rio G. Sul 144(24%) 254(42%) TOTAL 376(24%) 643(42%) 343(22%) 189(12%) 1.551 (100%) Fonte: Tabela 3.7 TABELA 3.9 - Desvios entre observa~os e esperados. TIPO DE COOPERATIVA ESTADOS Consumidor Produtor Escola OutroS 58 (21 ,56) - 35(4,50) 64(28,84) 41 (21 ,55) São Paulo -21( 6,12) - 25 (4,92) 60(54,54) - 14( 5,44) Paraná 50 (9 ,84) 7 ( 0,37) - 24( 8,00) Rio G. Sul 33( 7,56) ffonte Tabelas 3.7 e 3.8 . I ue apresenta o maior desvio ii) A casela Escola-São Paulo e aque a q I . amos 142 d . d d-ncia ( 64) Nesta case a esperav da suposição e 10 epen e. -.' desvio alto (60) só que I E 1 Parana também tem um . , casos. A case a ~co a- r (66) Portanto, se fôssemos considerar os o valor esperado e bem ~eno . be aior Uma maneira de observar desvios relativos, este último sena m fi .. d'd . isso é construindo para cada casela a segumte me I a. (o ,-e,)' (3.1) e, onde: Oi é o valor observado (Tabela 3.7); ei é o valor esperado (Tabela 3.8). 57
  • 36. Assim, para a casela Escola-São Paulo obtemos: (-64)' ~ 2884 142 .. e para a casela Escola-Paraná, (60)' ~ 54 54 66 ,. o que é uma indicação de que o desvio devido a esta última casela é "maior" do que aquele da pri.meirót. Na Tabela 3.9 indicamos entre parênteses estes valores para todas as caselas. Uma medida do afastamento global pode ser dada pela soma dos valores. Chama-se essa medida de X2 (qui-quadrado), e no nosso exemPlo teríamos x' ~ 21 ,56 + 6,12 + ... + 8,00 ~ 173.24. No caso geral, a expressão de l! é dada por onde a somatória é estendida a todas as caselas. Quanto maior for o valor de X2 , maior será o grau de associação existente entre as duas variáveis. Mas fica muito dificil , baseando.se em X2 , julgar se a associação é alta ou não. Por isso, K. Pearson, famoso estatístico do .começo do século, propôs o chamado coeficiente de con- tingência C, definido por C - ~ -"';x2+n' onde n é o número de observações. Teoricamente, esse coeficiente é um número entre zero e um , sendo nulo uando as variáveis não são associaQ.as e, portanto, X2 = O. Enlretanto, mesmo quando existe uma associação perfeita, C pode não ser igual a 1. Uma alteração possível é considerar O coeficiente C· ~ C/[(I- 1)/1]"', onde I = mínimo entre o número de colunas e o número de linhas da tabela. Voltando ao exemplo 3.3, obtemos: 58 , c ~ [173 ,24/ (173,24+ 1551)]' " ~ 0,32 C. ~ 0,32/(2/3)' " ~ 0,40, . d do grau de associação entre as duas variáveis. si indica ores qdC ° fi lar no uso do X2 no Capítulo 1t . tarell0s a a fIIIOIILEMAS os dados do problema I, calcule o valor de Xl e o coeficien~e de con~ingência c.... 'I. Usando ã de acordo com as conclusões obtidas antenormente. fSIC$ valores est o d ~? de C para os dados do problema 37 E para o problema 61 .. Qual o valor e e C" de Seguros analisou li freqüência com que 2.000 segurados (1.000 h t. ~ooo~~ulhercS) usaram o hospital. Os resultados foram : Homl!ns Mulhl!fl!s IOO "l.·j' 150 re> Usaram o hospital 850 ;' <' Não usaram o hospital 9OOr )lr Calcule a proporção de homens entre os indivíduos que usaram o hospita.1. =~ Calcule a proporção de homens entre os individuos que não usaram o hospital. (c) O uso do hospital independe do :elt~ do segura.~o? td) Encontre uma medida da dependencI3 entre V3navelS. ta. A c:ompanhia X de dedetização aFirma que o proçesso por ela utiliza~o .garante um mIo mais prolongado do que aquele obtido por seus concorrentes mais diretos. U~a amostra de vários ambientes dedetizados foi colhida e anotou-se a duraçà.o do efeito • dedctização. Os resultados estão na tabela abaixo. Você acha que eXiste alguma eridincia a favor ou contra a afirmação feita pela companhia X? Duração do efl!ilo de dednizaçdo Companhia MaiJ de 8 ml!sesMtnos de 4 ml!ses De 4 a 8 ml!SI!S X 64 120 16 Y 104 175 21 Z 27 48 5 59