Métodos Quantitativos para Negócios

MÉTODOS QUANTITATIVOS
APLICADOS A NEGÓCIOS
Paulo Afonso Bracarense
Ubiratan Vieira Guimarães
Este material é parte integrante do acervo do IESDE BRASIL S.A.,
mais informações www.iesde.com.br

Métodos Quantitativos Aplicados a Negócios
Edição revisada
IESDE Brasil S.A.
Curitiba
2012

© 2008 – IESDE Brasil S.A. É proibida a reprodução, mesmo parcial, por qualquer processo, sem autorização por
escrito dos autores e do detentor dos direitos autorais.
CIP-BRASIL. CATALOGAÇÃO-NA-FONTE
SINDICATO NACIONAL DOS EDITORES DE LIVROS, RJ
________________________________________________________________________________
B788m
Bracarense, Paulo Afonso, 1957-
Métodos quantitativos aplicados a negócios / Paulo Afonso Bracarense, Ubiratan Vieira
Guimarães. - 1.ed., rev. - Curitiba, PR : IESDE Brasil, 2012.
320p. : 24 cm
Inclui bibliografia
ISBN 978-85-387-3091-0
1. Negócios 2. Investimentos 3. Investimentos - Análises. I. Guimarães, Ubiratan
Vieira. I. Título.
12-6746. CDD: 332.6
CDU: 336.76
17.09.12 02.10.12 039220
________________________________________________________________________________
Capa: IESDE Brasil S.A.
Imagem da capa: Shutterstock
Todos os direitos reservados.
IESDE Brasil S.A.
Al. Dr. Carlos de Carvalho, 1.482. CEP: 80730-200
Batel – Curitiba – PR
0800 708 88 88 – www.iesde.com.br

Doutor em Engenharia de Produção com con-centração
em Inteligência Artificial pela Univer-sidade
Federal de Santa Catarina (UFSC). Mestre
em Estatística e Experimentação Agrícola pela
Escola Superior de Agricultura Luiz de Queiroz
(ESALQ-USP). Bacharel em Estatística pela Uni-versidade
Federal do Paraná (UFPR). Professor
da UFPR. Diretor Superintendente da Fundação
da Universidade Federal do Paraná (Funpar).
Mestre em Administração com concentração em
Sistemas de Informação para Tomada de Deci-são
pela Universidade Federal do Rio Grande do
Sul (UFRGS). Especialista em Estatística Aplicada
e Qualidade e Produtividade pelo Instituto Bra-sileiro
de Qualidade Nuclear (IBQN). Bacharel em
Estatística pela Universidade Federal do Paraná
(UFPR). Foi diretor executivo do Ibmec Educacio-nal
em Curitiba e Coordenador Acadêmico dos
Programas Executivos – MBA e CBA do Ibmec MG.
Atuou na consultoria de grandes empresas e insti-tuições,
tais como: Electrolux S/A, Grupo Positivo,
Renault, Volvo, Spaipa, Banco Mundial, BID, V&M,
entre outras.

ssuummááriroio sumário
Teoria da decisão
213
213 | Problema
216 | Critérios de escolha utilizando distribuição a priori
221 | Representação através de diagrama de decisão
223 | Estabelecimento de distribuições de probabilidades
229 | Tomada de decisões baseada na utilidade esperada
230 | Tomada de decisão com probabilidades a posteriori
Análise de séries temporais
249
249 | Problema
254 | Método dos mínimos quadrados ordinários
260 | Modelo de médias móveis
273 | Outros métodos de previsão
Anexos
289
Referências
319

Apresentação
Métodos Quantitativos
Aplicados a Negócios
Este livro foi escrito com o objetivo de fornecer
elementos teóricos e técnicos para profissionais
que necessitam tomar decisões tendo como
material essencial conjuntos de dados que pre-cisam
ser analisados.
Um conjunto de dados, por si só, não passa de um
conjunto de dados. É necessário dominar uma
série de técnicas para que esses dados possam
gerar alguma informação. O patamar superior
da análise de dados é a aquisição do conheci-mento.
E ela só estará disponível se ao domínio
teórico do campo de atuação, à experiência pro-fissional
e de vida e à intuição do tomador de
decisões forem trabalhadas as técnicas quanti-tativas
necessárias para agregar a esses atribu-tos
informações provenientes de dados correta-mente
adquiridos.
O livro foi organizado de forma a cobrir toda a
base que compõe o campo de conhecimento da
Estatística. Começando por técnicas de estatísti-ca
descritiva e de análise exploratória de dados,
passando pela medição da incerteza através da
teoria de probabilidades e pela compreensão
das possibilidades indutivas da teoria clássica
da Estatística no trato com amostras.
Três técnicas úteis e bastante utilizadas na área
de negócios foram apresentadas em detalhes
balanceando-se a complexidade com a explora-ção
da intuição. O trato conceitual foi priorizado
em relação ao trabalho matemático extensivo.
Optamos por trabalhar com toda a conceituação
básica até o quinto capítulo, buscando ajudar o
leitor a desenvolver sua sensibilidade com re-lação
aos conceitos abordados. Tratamos cada
técnica com exemplos específicos e ilustrativos
na área de Negócios.

A ciência busca compreender os fenômenos
reais através de modelos, muitas vezes de
modelos matemáticos muito próprios para
estudos realizados em ambiente de incer-teza.
A teoria de probabilidades e a teoria
estatística clássica são ferramentas muito
úteis para ajudar o tomador de decisões em
sua opção por diferentes ações diante de
cenários postos.
Esperamos que o conteúdo do livro, acom-panhado
das aulas, possa ser de grande valia
para os leitores. Estamos certos, no entanto,
que navegar por essas águas fará com que
cada um se sinta mais confortável em viver
e trabalhar em um mundo cercado de incer-tezas
e que vale mais a pena compreender
o mundo dessa forma do que viver seguro,
acorrentado e míope na ilusão das coisas
certas e absolutas.
Métodos Quantitativos
Aplicados a Negócios

Introdução – conceitos
e aplicações
Por que escrever mais um livro de Estatística? De fato a literatura já forne-ce
incontáveis livros desse ramo da matemática. Alguns mais teóricos, outros
mais práticos. Há tentativas inclusive de se escrever livros de estatística sem
matemática. Há outros que se utilizam fartamente de um referencial comple-xo
na matemática para a discussão dos conceitos e das técnicas estatísticas.
A grande preocupação dos autores foi oferecer à comunidade estatística e
principalmente à não estatística elementos que as auxiliassem na tarefa da
tomada de decisões.
Público-alvo
Os livros de estatística são bem diferentes, pois tratam a mesma questão
com abordagens diversas. O que leva um autor a escolher o tipo de abordagem,
a profundidade das discussões e o quanto de ferramental matemático utilizará
depende fundamentalmente de seu público-alvo. Esta é a chave da questão.
Muito bem, dessa forma devemos então localizar nosso livro em razão do
nosso público-alvo. Este livro foi escrito para profissionais das mais diferen-tes
áreas do mundo dos negócios: economistas, contadores, engenheiros de
produção, administradores ou qualquer outro profissional chamado a tomar
decisões e que esteja no nível de gerência ou pretenda alcançá-lo. E mais, es-peramos
que o nosso público esteja realmente disposto a utilizar as técnicas
oferecidas no livro em seu dia a dia.
O livro foi composto para um curso esbelto, no sentido de que pretende
fornecer os elementos mínimos necessários para a utilização de seu conteúdo
em poucas horas. Por isso, a seleção dos assuntos oferecidos, que são somen-te
uma amostra do vastíssimo campo da Estatística, foi feita rigorosamente,
com as técnicas mais utilizadas na ação gerencial. Mas há de ficar muito claro
que não se trata de um manual de aplicações simplificado e essencialmente
prático. O grande destaque é o rigor conceitual na aplicação das técnicas que
foram apresentadas sempre através de aplicações em problemas corriquei-ros
da administração.
Este material é parte integrante do acervo do IESDE BRASIL S.A., 9

10
Esse último destaque norteou toda a redação do livro e é fundamental
para que o tomador de decisões consiga empregar as técnicas expostas no
seu trabalho com a segurança necessária para que os resultados obtidos
possam efetivar mudanças de conduta ou aprofundamento de condutas já
empregadas. Para que a compreensão conceitual seja de fato um facilitador
da compreensão das técnicas, ousamos acreditar que seja possível aproxi-mar
do sentimento do leitor o conteúdo técnico da intuição. Por isso, além das
técnicas, “abusamos” das analogias e não economizamos nas explicações.
Evitamos o uso extensivo da matemática. Ou, de outra forma, utilizamos
a mínima matemática necessária para a apresentação dos conceitos e para
a solução dos problemas. Sempre que possível mantivemos o nível de exi-gência
matemática em patamares mais rudimentares possível. Lembrando,
no entanto, que o livro é dirigido para profissionais que buscam um nível
de especialização superior ao dos cursos de terceiro grau e, portanto, certas
resistências ao uso da matemática precisarão ser ultrapassadas. Mas preten-demos
tornar essa tarefa quase indolor.
Linguagem matemática
Toda ciência tem sua linguagem própria, assim, a Estatística tem a sua e a
Matemática também. Navegaremos por esses mares nem sempre sem turbu-lências.
Duas questões devem ser colocadas a respeito dessas linguagens.
A primeira é o reconhecimento de que o emaranhado de notações, no-tadamente
na Estatística, muitas vezes conduzem a confusões. Procuramos
amenizar um pouco essa dificuldade apresentando uma notação única para
todas as técnicas, expondo o significado de cada uma delas e mantendo-as
sempre mais próximas do que é o mais usual, de forma que estudos comple-mentares
nas bibliografias sugeridas não se tornem mais um entrave para o
aprofundamento do conhecimento dos assuntos tratados.
A segunda questão de linguagem, e isso agora diz mais respeito à mate-mática,
é que procuramos evitar a retirada de conclusões através de concei-tos
puramente matemáticos. O caminho de usar a própria matemática para
induzir ou deduzir conclusões é sim muito fértil para quem tem o domínio
dessa linguagem. O que você enxerga quando olha a expressão a2 = b2 +
c2? Se isso quer dizer mais ou menos a mesma coisa do que esta sequência
de símbolos Д Й Ж, você não deve se preocupar muito. Essas letras não são
do alfabeto grego nem são runas, são letras do alfabeto cirílico. Um mate-

mático ou uma pessoa habituada com a linguagem matemática enxergará
prontamente na expressão a2 = b2 + c2 um triângulo retângulo. Mas esse
nível de exigência não será cobrado neste livro.
Naturalmente, esse conhecimento pode facilitar em certos momentos
a leitura do texto que estamos apresentando, mas o que o diferenciará da
maioria dos textos estatísticos possivelmente já encontrados pelo leitor é
que neste livro não será necessário o domínio dessa linguagem. O que seria
bastante, não se pode deixar de dizer, mais confortável para quem escreve.
Mas esse desafio foi extremamente estimulante na redação do texto.
11
Modelagem matemática dos fenômenos reais
Os fenômenos que estudaremos estão no contexto do mundo da admi-nistração
e dos negócios. Não só eles, mas praticamente todos os fenômenos
naturais ou não naturais estão eivados de incerteza. Segundo o estatístico
alemão Schumacher, quando Deus fez o mundo e desejou colocar nele um
ser inteligente ele pensou em duas situações. A primeira, de fazer o mundo
completamente determinístico. Depois de muito refletir, concluiu que neste
mundo não haveria espaço para o homem porque tudo já estaria pré-deter-minado
e a inteligência não seria de nenhuma utilidade. Pensou então em um
mundo completamente aleatório. Verificou também que não havia porque
colocar o homem inteligente neste mundo em que nada pode ser determina-do,
em que tudo ocorre devido ao acaso. Concluiu então por um mundo que
tivesse os dois componentes: um determinístico e outro aleatório. O papel
da Estatística é o de ajudar a compreender este mundo, particularmente no
comportamento aleatório dos fenômenos.
A ciência tem procurado compreender os fenômenos da natureza através
de modelos que possam ajudar o pesquisador a construir uma certa raciona-lidade
para a sua compreensão e muitas vezes para a sua intervenção nos
fenômenos em foco. Boa parte deles é construída sob pilares matemáticos,
notadamente quando se utilizam de técnicas estatísticas. Todo modelo cons-truído
dessa forma implica fazer algumas restrições ao comportamento do
fenômeno. O que se faz então são simplificações para que se possa domar a
complexidade do mundo real. Isso tem que ficar absolutamente claro. Quanto
mais complexo for o fenômeno em estudo, mais complexo será o instrumen-tal
racional para compreendê-lo.

12
Esse limite tem que ser compreendido para não correr o risco de pensar
que o modelo possa substituir a realidade. E mais, a grande maioria dos com-pêndios
estatísticos alerta para o fato de que ela, a Ciência Estatística, é um
servidor leal quando usada com prudência e sem arrogância. Ela compõe o
espectro das peças de evidência na solução de problemas que devem auxi-liar
o tomador de decisões aliada ao conhecimento teórico da matéria em
estudo, da experiência extraestatística e mesmo da intuição de quem deseja
administrar bem ou praticar a boa ciência. Como peça de evidência, ela serve
mais para dar suporte do que fazer descobertas. Na fábula descrita pelo es-critor
escocês Andrew Lang, ele recomenda usar a Estatística como o bêbado
usa o poste, mais para apoio do que para iluminação.
A forma básica dos modelos construídos para os fenômenos que compor-tam
incerteza e são tratados através de modelagem matemática é: Y = f(x) + ε.
Nesse modelo, f(x) é a componente determinística e ε, a componente aleatória.
A tarefa do tomador de decisões é verificar, com base em alguma teoria que
envolva o assunto pesquisado, quais podem ser as alternativas para f(x) que
expliquem variações de Y, e fazer suposições sobre o comportamento de ε que
o auxiliem no entendimento das variações devidas ao acaso.
Os papéis da teoria de probabilidades
e da análise de dados amostrais
A componente aleatória, ε, é chamada de erro estatístico ou resíduo. Nela
estão todas as variáveis menos importantes que podem explicar as variações
de Y e também aquela parte genuinamente devida a oscilações ocorridas ao
mero acaso.
Quando se fala de incerteza, de acaso, fala-se tradicionalmente de proba-bilidade.
Mais recentemente, outras formas de se medir incerteza têm sido
propostas, como a lógica “fuzzy”, por exemplo, que ultrapassa os limites da
lógica clássica por admitir outros resultados, que não somente o dicotômi-co
sim ou não, base aristotélica de toda a lógica clássica a partir da qual foi
construída a teoria de probabilidades. Mas para efeito do estudo das técni-cas
apresentadas neste livro, construiremos toda a metodologia baseando-
-nos na probabilidade como medida de incerteza.
Dessa forma, a probabilidade pode ser definida como uma medida racional
de crença. Ela é definida como um número entre 0 e 1 e busca medir o grau

de incerteza associada a um fenômeno que no geral pode ser compreendi-do
como alguma espécie de jogo em que fazemos apostas. As decisões são
então tomadas com base em quanto estamos dispostos a pagar no caso de
perdermos a aposta realizada. Naturalmente, se as consequências de nossa
decisão errada forem muito graves, optaremos por apostar menos ou so-mente
13
apostar com um certo grau mínimo de incerteza.
As técnicas estatísticas utilizam-se fartamente de levantamento de dados
para a compreensão do fenômeno em estudo. Esses dados podem ser relati-vos
a toda uma população ou a uma parte dela chamada de amostra. Deseja-mos,
obviamente, que a amostra represente a população como um todo. Fa-remos
observações na amostra e a partir delas desejaremos fazer inferências
para a população. Veremos fartamente como isso pode ser feito, com rigor
científico, de forma a nos assegurarmos de que podemos compreender um
comportamento da população a partir do comportamento da amostra.
Organização dos capítulos do livro
Convém, no entanto, antes de buscarmos fazer ilações sobre a popula-ção
com base na amostra, explorar ao máximo as informações que os dados
podem fornecer. Esta tarefa pode ser facilitada com o emprego de técnicas
de estatística descritiva e de análise exploratória de dados. Esses assuntos
serão tratados no capítulo 2 deste livro. Estudaremos as melhores formas de
tabular dados, de apresentá-los em gráficos adequados e de construir medi-das
que sintetizem as informações necessárias para compreensão do fenô-meno.
Construir essas medidas tem por objetivo verificar o comportamen-to
dos dados, que valores podem representar o comportamento geral dos
dados e como eles estão distribuídos em torno de valores centrais e assim
por diante.
Quando falamos em amostragem, estamos de antemão reconhecendo
que um grau de incerteza está associado às medidas realizadas na amos-tra
como candidatas a facilitadoras da compreensão do comportamento da
população. Essa incerteza, como já especificado, será tratada tendo como
base a teoria de probabilidades, que será o tema do capítulo 3. Este capítulo
é, entre todos, o que necessitará de maior trabalho matemático. Entretanto,
essa talvez não seja a maior dificuldade do conteúdo do capítulo, mas sim a
compreensão dos limites dos cálculos que faremos.

14
No lance de uma moeda honesta, a probabilidade de sair cara em um
lance pode ser ½ ou um outro valor qualquer dependendo do que estamos
medindo. Se atirarmos a moeda cinco vezes, a probabilidade de sair cara exa-tamente
no quinto lance é sempre ½? Depende de como olhamos o proble-ma.
Se olharmos somente para o quinto lance como um lance isolado, não
há dúvidas do valor ½ para a probabilidade de sair cara. Mas se por outro
lado estivermos interessados em calcular qual a probabilidade de sair cara
no quinto lance, após quatro coroas, a probabilidade de sair cara não será
mais igual a ½, com certeza será um valor muito menor, conforme veremos
quando estudarmos o capítulo de probabilidades. Esse fato não é intuitiva-mente
tão fácil de ser percebido. E mostrar isso intuitivamente é mais difícil
do que o simples cálculo dessa probabilidade. Aqui, a linguagem matemá-tica
facilitaria enormemente a compreensão do que está ocorrendo. Vamos
tentar compor essas duas formas de encarar o problema.
Tendo então a noção da probabilidade, poderemos voltar ao trabalho
de destrinchar o comportamento dos dados através do estudo da forma de
produzi-los. Uma vez que nos deteremos fundamentalmente em retirar de
uma população uma amostra de seus indivíduos para quando estivermos
estudando-os, compreenderemos o comportamento da população. Tere-mos
que verificar quais são as melhores formas de se retirar esses dados e
de que tamanho deverá ser essa parte da população para que tenhamos
alguma segurança, medida através de probabilidades, em fazer afirmações
sobre a população.
Na matéria que será tratada no capítulo 4, estudaremos técnicas simples
mas eficientes de buscarmos amostras representativas da população. Não
temos dúvidas que após esse estudo o leitor aceitará o fato de que as pes-quisas
podem representar bem a opinião de eleitores ou de consumidores
quando falarmos de pesquisa de mercado. No momento pode ainda parecer
intuitivamente incorreto que uma amostra de tamanho 400 possa represen-tar
os eleitores de um município, mas que talvez uma amostra de 1 000 não
represente bem os eleitores de um bairro da cidade.
A nossa pretensão de falar da população com base em elementos da
amostra passa pela compreensão de que descreveremos tanto a população
como a amostra através de medidas estatísticas e da forma de comportamen-to
dos dados que serão descritos através de distribuições de probabilidades.
Rigorosamente, essas medidas estatísticas serão medidas da própria distri-buição
dos dados.

Essa parte da estatística é chamada de inferência estatística ou de esta-tística
indutiva. Ela será tratada no capítulo 5, sobre estimação, em que três
procedimentos serão estudados. O primeiro deles é a chamada estimação
por pontos, na qual calculamos um valor na amostra, por exemplo, a média
de uma variável, que deverá servir como uma estimativa da média da po-pulação.
O segundo procedimento, chamado de estimação por intervalos
ou construção de intervalos de confiança, consiste em criar em torno do
valor do estimador pontual um intervalo em que esse valor possa estar
contido; associaremos esse intervalo a um certo nível de confiança, rela-cionado
com uma medida de probabilidade. E o terceiro procedimento é
o de se fazer alguma afirmação sobre o valor de uma medida na popula-ção
através do estabelecimento de uma hipótese e então realizar um teste
sobre essa declaração associado a uma certa probabilidade de estar-se er-rando
na decisão. Esse procedimento é conhecido como teste de hipóteses
15
estatísticas.
O conteúdo até esse ponto do livro é o mínimo obrigatório a qualquer
livro que pretenda apresentar o principal da teoria que envolve a enormi-dade
de procedimentos estatísticos que podem servir de auxílio na tomada
de decisões. É a partir desse ponto que os autores de livros de estatística
devem decidir, de acordo com as necessidades do público que querem atin-gir,
quais são as técnicas úteis para cumprir o seu objetivo. Optamos por tra-balhar
com três técnicas que podem ser amplamente utilizadas no auxílio à
tomada de decisões gerenciais para profissionais interessados nos chama-dos
“negócios”.
Não pretendemos com essa opção sugerir que essas técnicas sejam su-ficientes.
Muito pelo contrário, gostaríamos de poder estimular os leitores a
buscarem um maior aperfeiçoamento com a pesquisa na literatura de outras
técnicas também úteis. Contamos que esse marco introdutório, disponível
até o capítulo 5, forneça instrumentos ao leitor para novas aventuras. No en-tanto,
a nossa prática no trabalho de aplicação de métodos estatísticos aplica-dos
a negócios nos leva a apresentar essas técnicas neste livro por compreen-dermos
que cobrem bem uma possível lacuna no gerenciamento.
Elas são apresentadas nos capítulos de 6 a 8. No capítulo 6 discutiremos
Análise de Regressão e Correlação, no capítulo 7 a Teoria de Decisão Estatís-tica
e no capítulo 8 a Análise de Séries Temporais e Modelos para Previsão de
Demanda.

16
Outras técnicas estatísticas são bastante úteis dependendo do ramo de
atuação de cada leitor. Técnicas como: Controle Estatístico de Qualidade;
Análise de Confiabilidade e de Sobrevivência; Análise de Credit Score; Plane-jamento
de Experimentos; Análise de Dados Categorizados; Análise de Dados
Longitudinais; Números Índices; Matemática Atuarial; Processos Estocásticos
e Teoria de Filas; Análise Multivariada; Análise de Variância; Testes Não Para-métricos;
Geoestatística; Estatística Espacial; Processos Estocásticos; e mais
uma infinidade de técnicas estatísticas estão disponíveis para aplicações.
Para cada um desses tópicos há uma enormidade de livros específicos,
da mesma forma que há uma enormidade de outros livros para cada um
dos capítulos que estamos apresentando. A abordagem de cada um desses
livros, o grau de complexidade dos conceitos e da matemática envolvidos é
que fazem de cada obra uma obra única.

Análise de dados
Problema
O departamento de Recursos Humanos da empresa ABC deseja reade-quar
os salários de seus funcionários a partir de uma nova política de cargos e
salários. A primeira providência do coordenador do departamento foi verifi-car
o perfil dos funcionários da empresa.
Solicitou para um estudo preliminar a relação dos funcionários em que
deveria constar algumas variáveis para esse primeiro estudo: ordem de con-tratação,
sexo, idade, salário e setor.
Um auxiliar administrativo apresentou o seguinte quadro como resultado:
Número de
ordem Nome Sexo Idade Salário
(R$) Setor
1 A. L. Ferraz M 49 1.714,00 Oper.
2 R. Abreu M 48 1.701,00 Oper.
3 R. S. Reis M 64 1.589,00 Oper.
4 N. Farias F 37 1.418,00 Oper.
5 J. L. Jansen F 42 1.000,00 Aux. Adm.
6 U. S. Machado M 40 3.732,00 Téc.
7 F. Nogueira F 21 1.330,00 Oper.
8 M. Pinheiro F 33 1.307,00 Oper.
9 M. A. da Silva M 39 1.282,00 Oper.
10 P. A. B. Costa F 42 1.260,00 Oper.
11 H. F. Minho F 39 975,00 Aux. Adm.
12 N. M. de Lima M 32 1.256,00 Oper.
13 C. F. Loureiro M 22 1.185,00 Oper.

Análise de dados
20
Número de
ordem Nome Sexo Idade Salário
(R$) Setor
14 M. E. M. Ferreira M 21 3.535,00 Téc.
15 J. A. Isaias F 37 2.956,00 Téc.
16 J. Martins F 24 1.179,00 Oper.
17 A. P. Ribeiro M 28 966,00 Aux. Adm.
18 L. C. Batista M 32 3.204,00 Adm.
19 A. F. dos Santos M 31 881,00 Aux. Adm.
20 C. A. Brandão F 38 3.080,00 Adm.
21 D. J. Feltrin M 23 2.872,00 Téc.
22 L. S. Prestes M 22 826,00 Aux. Adm.
23 J. L. Campos M 46 1.010,00 Oper.
24 S. I. Magalhães F 34 708,00 Aux. Adm.
25 P. R. Gonçalves M 47 2.960,00 Adm.
26 M. I. Machado M 42 2.797,00 Téc.
27 M. Paraná F 32 1.001,00 Oper.
28 U. V. Guimarães F 29 2.315,00 Adm.
29 E. M. Moreira M 41 5.572,00 Ger.
30 A. P. de Andrade M 30 2.372,00 Téc.
31 L. R. de Souza F 51 4.829,00 Ger.
32 R. T. Moraes F 23 1.826,00 Adm.
33 J. Pilloto M 20 540,00 Oper.
34 F. C. Lopes F 27 489,00 Oper.
35 C. A. Meier F 33 479,00 Oper.
36 H. O. Silveira F 22 1.904,00 Téc.
37 K. D. Almeida M 41 659,00 Aux. Adm.
38 M. J. D. Colares F 34 1.827,00 Téc.
39 R. F. L. Silvério M 24 472,00 Oper.
40 M. N. Messias F 20 640,00 Aux. Adm.

Análise de dados
Os dados apresentados foram organizados de forma a oferecer ao coorde-nador
do departamento de Recursos Humanos as informações que revelassem
a distribuição dos salários segundo as variáveis: (I) número de ordem, no sen-tido
que o mais antigo na casa recebeu o número 1 e o mais novo o número
40, não importando muito o tempo de contratação, uma vez que a empresa
foi constituída há pouco tempo, (II) o sexo, (III) a idade, (IV) o salário e (V)
o setor, dividindo os funcionários segundo as funções: operacional (Oper.),
auxiliar administrativo (Aux. Adm.), técnico (Téc.), administrativo (Adm.) e ge-rência
21
(Ger.), sendo uma gerência técnica e outra administrativa.
O coordenador analisou a tabela e verificou imediatamente que os funcio-nários
mais antigos eram na sua maioria do setor operacional, exceto dois auxi-liares
administrativos. Observou também que poucos funcionários ganhavam
menos do que R$1.000,00 e que havia uma pequena predominância de funcio-nários
do sexo masculino. Viu que o Reis de fato era o funcionário mais velho,
com 64 anos, e que a empresa não tinha nenhum funcionário com menos de 20
anos. Verificou também que ele próprio era o décimo oitavo contratado como
também que entre os administradores era o mais antigo e que o seu salário
era o maior comparado com seus pares, R$3.204,00. Concluiu, finalmente, que
da forma como os dados foram apresentados estava com dificuldade de tirar
maiores informações sobre a distribuição de cargos e salários.
Chamou um dos administradores e pediu que ele organizasse um pouco
melhor os dados e que em termos gerais não importava o nome das pessoas.
Foi prontamente atendido e recebeu o seguinte novo quadro:
Sexo Idade Setor Número de
ordem
Salário
(R$)
Média salarial
M 41 Ger. 29 5.572,00
F 51 Ger. 31 4.829,00 5.200,50
M 40 Téc. 6 3.732,00
M 21 Téc. 14 3.535,00
F 37 Téc. 15 2.956,00
M 23 Téc. 21 2.872,00
M 42 Téc. 26 2.797,00
M 30 Téc. 30 2.372,00

Análise de dados
22
ordem
Salário
(R$)
Média salarial
F 22 Téc. 36 1.904,00
F 34 Téc. 38 1.827,00 2.749,38
M 32 Adm. 18 3.204,00
F 38 Adm. 20 3.080,00
M 47 Adm. 25 2.960,00
F 29 Adm. 28 2.315,00
F 23 Adm. 32 1.826,00 2.677,00
M 49 Oper. 1 1.714,00
M 48 Oper. 2 1.701,00
M 64 Oper. 3 1.589,00
F 37 Oper. 4 1.418,00
F 21 Oper. 7 1.330,00
F 33 Oper. 8 1.307,00
M 39 Oper. 9 1.282,00
F 42 Oper. 10 1.260,00
M 32 Oper. 12 1.256,00
M 22 Oper. 13 1.185,00
F 24 Oper. 16 1.179,00
M 46 Oper. 23 1.010,00
F 32 Oper. 27 1.001,00
M 20 Oper. 33 540,00
F 27 Oper. 34 489,00
F 33 Oper. 35 479,00
M 24 Oper. 39 472,00 1.130,12
F 42 Aux. Adm. 5 1.000,00
F 39 Aux. Adm. 11 975,00
M 28 Aux. Adm. 17 966,00

Análise de dados
23
ordem
Salário
(R$)
Média salarial
M 31 Aux. Adm. 19 881,00
M 22 Aux. Adm. 22 826,00
F 34 Aux. Adm. 24 708,00
M 41 Aux. Adm. 37 659,00
F 20 Aux. Adm. 40 640,00 831,88
Com o novo quadro pôde verificar uma série de novas informações, tais
como média salarial e número de funcionários por categoria, e também que
havia uma certa coerência dentro de cada categoria com relação ao tempo
de serviço e salário, ou seja, funcionários mais antigos da mesma categoria
recebiam salários maiores. Mas sobre sexo e idade e as suas relações com as
demais informações ainda havia muita dificuldade em tirar conclusões.
Esse tipo de problema é colocado no dia a dia do tomador de decisões.
Os dados individuais, por mais bem organizados que estejam, trazem poucas
informações. É necessário que sejam sintetizados através de tabelas, gráficos
e medidas que possam resumir a informação de uma forma agregada.
Conceitos fundamentais
A Estatística Descritiva, que mais modernamente, com a incorporação de
novas técnicas, é chamada de Análise Exploratória de Dados, pode suprir a
necessidade de uma primeira organização dos dados de forma a transfor-má-
los verdadeiramente em informação.
As técnicas utilizadas na exploração dos dados tiveram uma evolução
muito grande com o advento da computação e particularmente de progra-mas
que facilitam essas tarefas. Para o senso comum, a Estatística resume-se
a esse trabalho. Veremos nos capítulos seguintes que esse é somente um
primeiro importante passo na organização das informações para aquisição
do conhecimento de modo a auxiliar a tomada de decisões.
Fundamentalmente, a análise de dados compreende três frentes: orga-nização
de tabelas, construção de gráficos e síntese dos dados através do
cálculo de medidas estatísticas.

Análise de dados
24
Variáveis quantitativas e categorizadas
Associadas a cada indivíduo, temos medidas e atributos que o definem.
As medidas são características de variáveis quantitativas e os atributos são
características de variáveis categorizadas ou qualitativas.
As variáveis quantitativas podem ser contínuas ou discretas. Elas são contí-nuas
quando entre dois quaisquer valores possam estar novos valores. As va-riáveis
quantitativas contínuas são frutos de medidas que podem ser expres-sas
pelos números reais. O salário dos empregados de uma empresa pode
ser considerado uma variável contínua. As variáveis são discretas quando são
fruto de contagem e podem ser expressas através de números inteiros, como
a idade dos funcionários. Uma outra característica importante das variáveis
quantitativas é que podemos fazer operações matemáticas com seus valores,
como soma, subtração, multiplicação e divisão.
As variáveis categorizadas ou qualitativas são expressas em escalas ordinais,
como é o caso da ordem em que os funcionários foram contratados, ou expres-sas
em categorias ou escalas nominais, como o sexo do funcionário ou o setor
em que ele trabalha. Não se pode, nesse caso, fazer operações matemáticas.
Valor discrepante ou outlier
Um valor discrepante ou outlier é um valor que destoa do conjunto prin-cipal
dos dados.
Tabelas e quadros estatísticos
Existe uma pequena diferença entre quadro estatístico e tabela estatística.
A tabela estatística é o resultado de alguma forma de resumo dos dados.
As linhas à esquerda e à direita de uma tabela estatística nunca devem ser
fechadas segundo as normas da ABNT. Elas são utilizadas para apresentação
de resultados estatísticos e também como ferramenta de desenvolvimento
de operações. Uma tabela bastante importante utilizada em estatística é a
distribuição de frequências.
Já o quadro serve para apresentação de dados, como os do exemplo, ou para
apresentação de resultados-resumo, como um quadro de médias, por exemplo.
O quadro pode ter seus limites à esquerda e à direita fechados por linhas.

Análise de dados
25
Apresentação gráfica
Os dados de uma tabela estatística podem ser apresentados através
de gráficos estatísticos, devendo o tipo de gráfico ser compatível com a
natureza dos dados. Os principais gráficos são: o gráfico de colunas ou de
barras, o gráfico de setores ou pizza, o gráfico de bastões, o gráfico de linhas
e o histograma.
Existem, na análise exploratória de dados, algumas apresentações grá-ficas
que auxiliam a compreensão do comportamento dos dados, como
o ramo e folhas, o esquema de cinco números e o diagrama de caixas ou
Box-plot.
O detalhamento da utilização de cada tipo de gráfico será ainda assunto
deste capítulo.
Medidas estatísticas
A utilização de medidas estatísticas serve para resumir os dados através de
valores representativos. Existem quatro tipos de medidas utilizadas: medidas
de posição, de dispersão, de assimetria e as de achatamento ou de curtose.
As medidas de posição objetivam verificar pontos que representem o con-junto
de dados. Elas podem ser medidas de tendência central, como a média,
por exemplo, que mostra em torno de que ponto os dados se concentram
ou as separatrizes, que informam o valor em que os dados se dividem em
quatro, dez ou cem partes.
As medidas de dispersão mostram a intensidade de concentração dos
dados em torno de medidas de tendência central. As principais medidas de
dispersão são a variância, o desvio-padrão e o coeficiente de variação.
As medidas de assimetria são utilizadas para verificar se os dados são simé-tricos
em relação a um valor central, e as de curtose para verificar se o gráfico
de dados concentra-se em valores próximos ao eixo X ou se distanciam dele.
Essas últimas medidas de achatamento são de menor interesse na análise de
dados, e não serão tratadas neste livro.

Análise de dados
Variáveis categorizadas
26
As variáveis categorizadas são medidas de atributos, como sexo, grau de
instrução, setor de trabalho, categoria profissional, preferência eleitoral etc.
Os indivíduos estão relacionados a alguma categoria dentro de cada variá-vel,
como sexo e categoria dos empregados da empresa ABC.
Distribuição por sexo
A tabela e os gráficos abaixo apresentam a distribuição por sexo dos indi-víduos
da empresa ABC.
Tabela 1 – Sexo dos empregados da empresa ABC
Sexo Número Perc.
Fem. 19 47,5%
Masc. 21 52,5%
Total 40 100,0%
Um gráfico estatístico objetiva dar a impressão visual da representação
dos dados. Os gráficos adequados para a representação dessa tabela são os
de colunas ou de barras e o gráfico de setores.
Gráfico de colunas
Fem. Masc.
20
15
10
5
0
Sexo

Análise de dados
27
Gráfico de barras
Masc.
Fem.
0 5 10 15 20
Sexo
Número
Gráfico de setores
48%
Fem.
Masc.
52%
O gráfico de setores é útil quando queremos observar o valor relativo da
participação de cada categoria no total.
Distribuição por categoria profissional
A tabela e os gráficos apresentam a distribuição dos indivíduos por cate-goria
profissional na empresa:
Tabela 2 – Categoria dos empregados da empresa ABC
Categoria Número Perc.
Gerência 2 5,0%
Adm. 5 12,5%
Téc. 8 20,0%
Aux. Adm. 8 20,0%
Oper. 17 42,5%
Total 40 100,0%

Análise de dados
28
Gráfico de colunas
18
16
8
6
4
2
0
Categoria dos empregados da Empresa ABC
Gerência
14
12
10
Adm. Téc. Aux. Adm. Oper.
Números
Gráfico de setores
Categoria dos empregados da Empresa ABC
20%
Gerência
42% Adm.
Téc.
Aux. Adm.
Oper.
5%
13%
20%

Análise de dados
29
Variáveis quantitativas
As variáveis quantitativas, sejam elas discretas ou contínuas, são apre-sentadas
através da chamada distribuição de frequências. Nos dois casos po-demos
construir distribuições de frequências, que, como o próprio nome
indica, informam, através de tabelas, quais são os valores da variável e qual a
frequência de ocorrência de dados para cada um desses valores.
No caso de variável contínua, ou mesmo de variável discreta com um
grande número de possibilidades, é comum a construção de classes em que
mais de um valor é contemplado.
Distribuição de frequências
Vamos estudar inicialmente o caso de uma variável discreta através da
verificação da distribuição de frequências das idades dos funcionários. Pode
ser de interesse saber qual é a distribuição de idade dos funcionários com
menos de trinta anos. A tabela da distribuição de frequências corresponden-te
a esses dados será:
Distribuição de frequências dos
funcionários com menos de 30 anos
Idade Freq.
20 2
21 2
22 3
23 2
24 2
25 0
26 0
27 0
28 1
29 1
Total 13

Análise de dados
30
O gráfico correspondente à distribuição de frequências dessas idades é o
gráfico de bastões:
3,5
3
2,5
2
1,5
1
0,5
0
1 2 3 4 5 6 7 8 9 10
Diagrama ramo e folhas
Uma outra forma de representação gráfica utilizando as próprias idades é
o chamado diagrama ramo e folhas, em que o ramo representa os algarismos
relativos às dezenas e as folhas os algarismos relativos à unidade.
Ramo e folhas das idades dos 40 funcionários:
2 00112223344789
3 01222334477899
4 0112226789
5 1
6 4
Observe o aspecto da informação gráfica do diagrama ramo e folhas em
analogia ao histograma apresentado na sequência. A vantagem de sua uti-lização
é que ele mostra o desenho da distribuição sem perder a informação
detalhada.
Poderíamos, eventualmente, considerar a idade como uma variável ale-atória
contínua cuja representação está aproximada para os valores inteiros
das idades. A rigor, a variável idade é mesmo contínua, porque podería-mos
medir o tempo de vida em anos, dias e mesmo segundos. Nesse caso,
poderíamos construir classes entre certas idades de tal forma que elas repre-sentassem
um contínuo.

Análise de dados
31
Histograma
A representação gráfica da tabela da distribuição de frequências, quando
organizada em classes, recebe o nome de histograma. É um gráfico de colu-nas
adjacentes representando um contínuo.
Distribuição de frequência das idades
Idade Freq. Perc.
20 a 29 14 35,0%
30 a 39 14 35,0%
40 a 49 10 25,0%
50 a 59 1 2,5%
60 ou + 1 2,5%
Total 40 100,0%
Histograma
Distribuição de frequência das idades
Idade
20 a 29 anos
16
14
12
10
8
6
4
2
0
Freq.
30 a 39 anos
40 a 49 anos
50 a 59 anos
60 anos ou mais
1

Análise de dados
32
Distribuição dos salários
Salário (R$) Freq. Freq. rel.
Até 1.000,00 11 0,27
De 1.000,00 a 1.999,00 17 0,43
De 2.000,00 a 2.999,00 6 0,15
De 3.000,00 a 3.999,00 4 0,10
Acima de 4.000,00 2 0,05
Total 40 1,00
Histograma
Distribuição salarial
Até 100
16
14
12
10
8
6
4
2
0
Freq.
De 1.000 a 1.999
De 2.000 a 2.999
De 3.000 a 3.999
Acima de 4.000
1
Salários (R$)
18
Elementos de uma distribuição de frequências
A distribuição de frequências, como apresentada, é útil não só para apre-sentação
de dados, mas para análises um pouco mais aprofundadas. Vamos
reapresentar a distribuição de frequências dos salários de uma maneira mais
matematicamente formal.

Análise de dados
33
Salário (R$) Freq. Freq. rel.
X < 1.000,00 11 0,27
1.000,00 ≤ X < 2.000,00 17 0,43
2.000,00 ≤ X < 3.000,00 6 0,15
3.000,00 ≤ X < 4.000,00 4 0,10
X ≥ 4.000,00 2 0,05
Total 40 1,00
Observe agora que a distribuição é apresentada como um contínuo. Não
há descontinuidade entre R$1.999,00 e R$2.000,00, podemos, assim, ter a
representação de qualquer valor como R$1.999,85, por exemplo.
Definimos cinco classes. O número de classes de uma distribuição de fre-quências
não deve ser muito grande. Em torno de cinco a oito classes é um
número bastante razoável e elas devem ter igual amplitude. No nosso caso,
como temos poucos valores acima de R$4.000,00 agregaremos todos esses
valores na última classe. Cada uma delas tem um limite inferior de classe e um
limite superior. A diferença entre o limite superior e o limite inferior chama-mos
de amplitude do intervalo de classe.
Podemos ainda definir o ponto médio de cada classe. Esse valor será
útil para a determinação das medidas estatísticas quando não tivermos os
dados brutos. O ponto médio representará todos os valores da classe. Entre
R$1.000,00 e R$2.000,00 temos 17 valores. Todos eles serão considerados
como R$1.500,00. Perdemos um pouco em informação, mas ganhamos em
poder de síntese.
A frequência relativa será uma aproximação de probabilidades. A proba-bilidade
de sortearmos um dos 40 funcionários e que esse sorteado per-ceba
um salário entre R$3.000,00 e R$4.000,00 será de 4/40 ou de 0,10.
Formalmente, temos que P(3.000 ≤ X < 4.000) = 0,10. Podemos dizer, sem
perder muito o rigor, que essa probabilidade é de 10%. A probabilidade de
sortearmos um funcionário que ganhe menos do que R$2.000,00 pode ser
definida como P(X < 2.000) = 28/40 = 0,70. Também P(X ≥ 2.000) = 12/40 =
0,30. Observe que P(X < 2.000) + P(X ≥ 2.000) = 1, sempre que isso ocorre;
dizemos que essas probabilidades são complementares.

Análise de dados
34
Se considerarmos a amplitude do intervalo de classe como a unidade, a
probabilidade pode ser calculada como a área de cada retângulo, que terá
como base o valor 1 e como altura a frequência relativa. Esse cálculo de pro-babilidades
através de áreas será fundamental quando tratarmos da inferên-cia
estatística.
Outro elemento importante em uma distribuição de frequências é a cha-mada
frequência acumulada. Até R$2.000,00, temos 28 elementos, como
acabamos de ver. Até R$3.000,00, temos 34 elementos e assim por diante.
Abaixo apresentamos a tabela completa da distribuição de frequências:
Salário (R$) Freq. Freq. rel. Ponto médio Freq. acumulada
X < 1.000,00 11 0,27 500 11
1.000,00 ≤ X < 2.000,00 17 0,43 1.500 28
2.000,00 ≤ X < 3.000,00 6 0,15 2.500 34
3.000,00 ≤ X < 4.000,00 4 0,10 3.500 38
X ≥ 4.000,00 2 0,05 4.500 40
Total 40 1,00
Uma outra aproximação que podemos fazer é suavizar a apresentação
do histograma, construindo um novo gráfico que una os pontos médios das
classes. Esse novo gráfico é chamado de polígono de frequências e estará pos-sivelmente
mais próximo dos dados reais. Veja que com esse polígono de
frequências podemos determinar através do cálculo de áreas as probabili-dades
de qualquer intervalo, como, por exemplo, P(1.022,34 ≤ X < 3.087,53).
O polígono de frequências é apresentado na figura a seguir. Observe que
a área abaixo do polígono é também igual à unidade e toda área que é re-tirada
do histograma é recolocada. Podemos verificar isso através de seme-lhança
de triângulos:

Análise de dados
35
Distribuição salarial
Até 100
16
14
12
10
8
6
4
2
0
Freq.
De 1.000 a 1.999
De 2.000 a 2.999
De 3.000 a 3.999
Acima de 4.000
Salários (R$)
18
Série temporal
Muitas variáveis são medidas a intervalos de tempo. O gráfico de linhas
é a maneira mais adequada de apresentar a evolução de uma variável no
tempo. O eixo X sempre será correspondente a uma escala de tempo.
Quando não há um número demasiadamente grande de pontos, a liga-ção
entre os pontos por segmentos de retas ajuda a visualizar o padrão de
variação ao longo do tempo.
Suponha que no exemplo da empresa ABC os dados tivessem sido apre-sentados
pelo tempo de casa de cada funcionário. Uma possível organiza-ção
dos dados seria verificar quantos funcionários a empresa tinha em cada
um de seus quatro anos de existência, conforme a tabela abaixo:
Número de funcionários por ano
Anos Funcionários
Ano 1 15
Ano 2 20
Ano 3 32
Ano 4 40

Análise de dados
36
Gráfico de linhas
Número de empregados por ano
40
35
30
25
20
15
10
5
0
Ano 1
45
Ano 2 Ano 3 Ano 4
.
Medidas estatísticas
O objetivo de sintetização das informações tem sido realizado até aqui atra-vés
de apresentação tabular e gráfica dos dados originais ou brutos. A forma
de completar essa tarefa se dá através do cálculo das medidas estatísticas.
Trataremos de três tipos de medidas: (I) as de posição, (II) as de dispersão e
(III) as de assimetria.
Medidas de posição
Trabalharemos aqui com dois tipos de medidas, as de tendência central e
as separatrizes.
As medidas de tendência central resumem os dados no centro da distri-buição.
São medidas de tendência central a média aritmética, a mediana e a
moda.

Análise de dados
37
A média aritmética
A média aritmética ou simplesmente média é uma das medidas mais im-portantes
da Estatística. Além de resumir os dados, ela servirá enormemente
para os propósitos de estimação de características da amostra para a popu-lação,
pois possui as melhores propriedades de um estimador.
Ela é a soma dos dados dividida pelo número de observações, e sua ex-pressão
matemática é:
1 + +... +
= = 1 2
ån
i=1
n
i
x x x
x x
n n
Quando não houver conflito com outras expressões, apresentaremos
ån
=1
i
i
x simplesmente como Σ X.
A média aritmética representa o centro de gravidade dos dados. Alguns cuida-dos,
no entanto, devem ser tomados quando desejamos resumir os dados pelo
valor de sua média. Ela é muito sensível a valores extremos. Um único valor muito
grande ou muito pequeno pode mudar substancialmente o valor da média, po-dendo
ela perder sua representatividade. Esses valores extremos são chamados
de valores discrepantes ou outliers e quando eles aparecem em um conjunto de
dados devem receber um tratamento muito especial.
No nosso exemplo temos como valor da média das idades dos emprega-dos
da empresa ABC o valor 34 anos e a média dos salários é de R$1.791,20.
Se considerarmos a idade de 64 anos como um outlier a nova média será
de 33,2 anos, e se considerarmos os salários R$4.829,00 e R$5.572,00 como
valores muito acima dos demais, teremos uma média salarial de R$1.611,76,
quase R$200,00 de diferença com relação à primeira média.
No primeiro caso a diferença parece não ter sido de grande significância,
mas para a média salarial essa diferença pode ser considerada importante,
mesmo porque será um elemento importante na análise de cargos e salários.
Retirar o salário dos dois gerentes no cálculo da média pode ser útil para a
construção da nova política de cargos e salários.
Essa sensibilidade da média a valores extremos pode ser bem compreen-dida
com a seguinte ilustração. “Se coloco os pés próximos a uma área gelada
e a cabeça próxima a uma área quente, a temperatura média do corpo será
agradável”.

Análise de dados
38
A média ponderada
Se tivermos o seguinte conjunto de dados: (2, 2, 2, 2, 2, 3, 3, 4, 4, 4) e que-remos
calcular a sua média, a soma dos dados pode ser realizada da seguinte
forma: (2 . 5) + (3 . 2) + (4 . 3) = 10 + 6 +12 = 28. Isso porque a frequência do 2
é 5, a do 3 é 2 e a do 4 é 3. Observe que a soma das frequências é 10 (5 + 2 + 3),
igual ao número de observações. Podemos expressar esse fato por:
= å
å
Xf
X
f
Em que f é a frequência de cada X. Essa expressão representa a chamada
média aritmética ponderada ou simplesmente a média ponderada. Os ponde-radores
são as frequências.
Esse cálculo é muito útil quando os dados são apresentados em uma dis-tribuição
de frequências em que X será o ponto médio de cada classe e a
frequência será o ponderador. Se observarmos que a frequência relativa é
igual à frequência dividida pelo número de observações, isto é freq
f
. ,
f rel = å
podemos representar a média como:
= å . rel X X f
No cálculo da média ponderada das idades e dos salários, encontramos
os seguintes valores para as médias, com o auxílio das tabelas a seguir. Idade
média 34,75 anos e salário médio R$1.735,00.
Idade Ponto médio (X) frel ΣX frel
20 --- 30 24,5 0,35 8,575
30|--- 40 34,5 0,35 12,075
40|--- 50 44,5 0,25 11,125
50|--- 60 54,5 0,025 1,3625
60|---| 70 64,5 0,025 1,6125
34,75

Análise de dados
39
Salário (R$) Ponto Médio (X) frel ΣX frel
X < 1.000,00 500 0,28 140
1.000,00 ≤ X < 2.000,00 1.500 0,43 645
2.000,00 ≤ X < 3.000,00 2.500 0,15 375
3.000,00 ≤ X < 4.000,00 3.500 0,1 350
X ≥ 4.000,00 4.500 0,05 225
1.735
Os valores encontrados para os dados brutos foram idade média de 34
anos e salário médio de R$1.791,20. Os valores obtidos a partir da distribui-ção
de frequências sofreram pequenas alterações, principalmente o valor do
salário médio, em razão de considerarmos o valor dos salários dos gerentes
como R$4.500,00 na distribuição de frequências, quando de fato eles tinham
valores bem superiores ao considerado.
Essas distorções costumam desaparecer quando retiramos os outliers do
cálculo ou quando o número de observações for grande.
A mediana
A mediana é o valor que divide o rol em duas partes iguais. O rol é de-finido
como a sequência ordenada de dados. Por exemplo, para o seguinte
conjunto de dados (2, 3, 7, 7, 9) a mediana é o número 7 que divide o rol em
duas partes iguais.
Quando o número de dados é muito grande convém definir a posição da
mediana antes de sua determinação. A posição da mediana será definida por
PMed = (n + 1)/2. No exemplo acima, a posição da mediana será PMed = (5 + 1)/2 =
6/2 =3, portanto, a mediana será o terceiro elemento do rol. O valor da media-na
será o do elemento que ocupa a terceira posição, nesse caso Med = 7.
No caso de “n” ser par, o procedimento é semelhante, define-se a posição
da mediana e depois calcula-se a média aritmética dos dois números imedia-tamente
inferior e superior do valor da posição da mediana. No exemplo da
empresa ABC, em que n = 40, teremos PMed = (40 +1)/2 = 41/2 = 20,5. A mediana
será então a média entre os valores que ocupam a vigésima e a vigésima pri-meira
posições da variável em consideração.

Análise de dados
40
No nosso exemplo a idade mediana será Med = 33, porque X20 = X21 = 33. O
salário mediano será Med = R$1.318,50, porque X20 = 1.307,00 e X21 = 1.330,00.
A mediana para dados agrupados
Uma forma aproximada de determinação da mediana para dados agru-pados
consiste em localizar inicialmente a classe que contém a mediana, com
o auxílio da distribuição de frequências acumulada. Em seguida, tomar o
ponto médio da classe mediana como um valor aproximado do verdadeiro
valor da mediana.
Observe na tabela a seguir que o vigésimo e o vigésimo primeiro va-lores
estão na segunda classe que contém do décimo segundo ao vigési-mo
oitavo elementos. Podemos, por simplicidade, determinar o valor da
mediana como aproximadamente R$1.500,00, o valor do ponto médio da
classe mediana.
Essa aproximação para esse caso foi bastante razoável, como podemos
observar pela comparação do valor obtido nesse cálculo e o valor real deter-minado
pelos dados do rol. Quando a posição da mediana estiver muito pró-xima
de alguma dos limites da classe, uma interpolação deve ser realizada.
Salário (R$) Freq. Ponto médio Freq. acumulada
X < 1.000,00 11 500 11
1.000,00 ≤ X < 2.000,00 17 1.500 28
2.000,00 ≤ X < 3.000,00 6 2.500 34
3.000,00 ≤ X < 4.000,00 4 3.500 38
X ≥ 4.000,00 2 4.500 40
Total 40
A moda
A moda é o valor que ocorre com maior frequência. Para o conjunto de
dados (2, 3, 3, 3, 4), a moda será o valor 3. Quando um conjunto tem uma só
moda, ele é chamado de unimodal. Se tiver duas modas, de bimodal, e poli-modal
se tiver três modas, ou mais. Se o conjunto não tiver nenhuma moda
será chamado de amodal.

Análise de dados
41
Separatrizes
As separatrizes são medidas que dividem um rol em duas partes pro-porcionais
a certos valores. A medida que separa os dados em duas partes
iguais, ou em 50% e 50% é a mediana, como vimos a pouco.
Uma série de três medidas pode separar o rol em quatro partes iguais.
Elas são chamadas de quartis. O primeiro quartil (Q1) separa o rol em 25%
e 75%, o segundo quartil (Q2) é a própria mediana e o terceiro quartil (Q3)
divide o rol em 75% e 25%.
Da mesma forma que a mediana, para os quartis devemos inicialmente
calcular a sua posição para depois determinar o seu valor. A posição do quar-til
de ordem i, com i = 1..., 3 é dada por ( +1)
P =
.
i n
4 Qi
No nosso exemplo, se desejamos verificar o valor dos quartis para os sa-lários,
teremos PQ1 = (40 + 1)/4 = 10,25 e PQ13 = 3(40 +1 )/4 = 30,75, lembran-do
que o segundo quartil é a própria mediana. Então, verificando no rol de
dados, teremos Q1 = R$987,50 e Q3 = R$2.584,50, uma vez que o décimo salá-rio
é de R$975,00 e o décimo primeiro de R$1.000,00 e que o trigésimo é de
R$2.372,00 e o trigésimo primeiro de R$2.797,00. Esses são valores aproxima-dos,
mas podemos verificar que são aproximações bastante razoáveis.
Podemos tambem definir um conjunto de nove medidas que separam
o rol em 10 partes, chamadas de decis, e um conjunto de 99 medidas que
separam o rol em 100 partes, chamadas de percentis. Bastando, para isso,
determinar as posições de cada decil pela expressão i.(n + 1)/10 e de cada
percentil por i.(n + 1)/100. É fácil verificar que o vigésimo quinto percentil,
por exemplo, é o primeiro quartil.
Com base nas separatrizes, podemos construir duas representações que
fazem parte também da chamada análise exploratória de dados, que são: o
esquema de cinco números e o diagrama de caixa ou Box-plot.

Análise de dados
42
Esquema de cinco números
O esquema de cinco números consiste em apresentar os valores extre-mos,
os quartis e a mediana, conforme desenho a seguir:
Q1 Med Q3
Xmín Xmáx
Diagrama de caixa ou Box-plot
O Box-plot, como é corriqueiramente conhecido, constitui-se de uma caixa
ou um retângulo cujo valor à esquerda na caixa é o primeiro quartil, e o valor
à direita na caixa é o terceiro quartil. Um traço no centro da caixa representa
a mediana e os pontos extremos são mostrados fora da caixa.
+---+---+---+---+---+---+---+---+---+---+---+---+
0 1 2 3 4 5 6 7 8 9 10 11 12
No exemplo acima, o primeiro quartil (Q1) é 7, a mediana é 8,5 e o terceiro
quartil (Q3) é 9. Essas três medidas são utilizadas para a construção da caixa.
A diferença entre o terceiro e o primeiro quartis é chamada de amplitude in-terquartílica
(Aiq). Qualquer valor abaixo de Q1 – 1,5 Aiq e acima de Q3 + 1,5 Aiq é
considerado como outlier. No exemplo em foco Aiq = 9 – 7 = 2, então valores
menores do que 7 – 2(1,5) = 4 e maiores que 7 + 2(1,5) = 10 são outliers.
O valor 5 no diagrama é o menor valor dos dados que não é outlier, e o
valor 10 é o maior valor dos dados que também não é outlier. Marcamos
esses dois pontos e os unimos à caixa por um traço.
Podemos também definir outlier extremo como valores abaixo de Q1 – 3 Aiq e
acima de Q3 + 3 Aiq . O valor 3,5 é um outlier, por ser menor do que 4 e o valor
0,5 é um outlier extremo por ser menor do que 7 – 3(2) = 1. Não temos valores
de outlier à direita. Marcamos então o outlier com um asterisco (*) e o outlier
extremo com uma circunferência (°).
Esse diagrama indica que temos um conjunto de dados com uma certa
assimetria negativa.

Análise de dados
43
Medidas de dispersão
Essas medidas são úteis para que possamos verificar o quanto os dados
se dispersam, ou, mais comumente, o quanto eles se dispersam em torno da
média. São medidas de variabilidade. Podemos dizer que dados com grande
variabilidade representam um conjunto heterogêneo.
As três principais medidas de variabilidade são (I) a variância, (II) o desvio-padrão
e (III) o coeficiente de variação.
A variância
A variância mede a variabilidade média dos desvios dos valores em torno
da média ao quadrado. Pode ser representada por VAR(X) ou σ2. O quadrado é
utilizado porque a média tem sempre a propriedade que a soma dos desvios
em torno de si é igual a zero, ou seja, Σ(X – μ) = 0. Dessa forma, a variância
pode ser definida como:
σ2 =
Σ(X – μ)2
N
Quando tratamos de amostra em vez de população, N é substituído por
(n – 1), cuja justificativa será apresentada no capítulo referente à Estimação,
quando tratarmos de distribuições amostrais. Nesse caso substituímos σ2
por S2. Então, para o caso de amostra, teremos:
S2 =
Σ(X – X)2
n – 1
Uma forma alternativa de determinar o valor da variância, derivada da
expressão acima, é dada por:
S2 = ΣX2 – nX2
n – 1
ou
S2 =
ΣX2 –
(ΣX)2
n
n – 1

Análise de dados
44
A variância para dados agrupados pode ser determinada pela expressão:
S2 = Σ(X – X)2 . f
n – 1
Em que f é a frequência de cada classe, X o ponto médio de cada classe e
X a média aritmética dos dados. Ou de forma alternativa por:
S2 =
ΣX2 . f –
(ΣX . f )2
n – 1
n
O desvio-padrão
Como a unidade da variância é sempre ao quadrado, a forma de represen-tar
uma medida de dispersão na mesma unidade dos dados é calculando a raiz
quadrada da variância. Essa medida é chamada de desvio-padrão e é, como
veremos, uma das medidas mais importantes da Estatística.
O coeficiente de variação
O desvio-padrão tem várias utilidades em Estatística. Uma delas é com-parar
a variabilidade entre dois conjuntos que têm a mesma média. Como o
desvio-padrão não tem um significado físico mais bem definido, o seu valor
será grande ou pequeno dependendo da dimensionalidade dos dados.
Um desvio-padrão pode ser irrisório ou imenso dependendo da dimen-são
dos dados que estamos tratando. Existe, no entanto, uma possibilidade
de comparação da variabilidade entre dois conjuntos padronizando o valor
do desvio-padrão pelo valor da média do conjunto de dados.
Ou seja, se igualarmos a média a 100 e fizermos uma regra de três simples,
obteremos:
X 100
S CV
Então,
CV = S . 100%
X

Análise de dados
CV é conhecido como o coeficiente de variação dos dados. Seu valor é
dado em percentagem, o que possibilita uma informação mais intuitiva da
variabilidade, e é a forma de comparar-se a heterogeneidade entre dois con-juntos
45
com médias diferentes.
Observe que os conjuntos A = {1, 2, 3}, B = {11, 12, 13} e C = {111, 112, 113} têm
o mesmo desvio-padrão. Nos três casos o seu valor é igual a 1. No entanto, os
valores dos coeficientes de variação são: CVA = 50%, CVB = 8,3% e CVC = 0,9%.
Verifique que esses resultados estão mesmo de acordo com a intuição.
Se cada medida dessas for uma medida de distância aferida por algum apa-relho,
é muito menor o erro entre as medidas do conjunto C do que do
conjunto A.
Medidas de assimetria
Existem várias medidas para verificar se os dados são simétricos em
torno de um valor central (a média) de um conjunto. A mais usual é a apre-sentada
abaixo:
A = 3 (média – mediana)
S
Se A < 0, dizemos que os dados têm assimetria negativa, caso contrário as-simetria
positiva. Se A = 0, o conjunto de dados é simétrico. O aspecto gráfico
de dados simétricos e assimétricos é dado abaixo:
X = Md = Mo Mo Md X X Md Mo
assimetria positiva simétrico assimetria negativa

Análise de dados
Atividades de aplicação
46
1. Uma pesquisa realizada com fornecedores de uma determinada indús-tria
tinha por objetivo atualizar alguns dados importantes para o contro-le
financeiro e administrativo. As seguintes variáveis foram observadas:
a) Nome da empresa
b) Idade da empresa
c) Faturamento anual
d) Número de funcionários
e) Localização (UF)
f) Área construída
Indique, para as variáveis acima, qual o tipo de cada uma delas.
2. Indique a letra adequada à coluna de acordo com as afirmativas abaixo:
a) Processo utilizado para selecionar elementos numa pesquisa
ou estudo.
b) Uma das formas de apresentação de dados.
c) Medida observada a partir de uma característica da amostra.
d) Característica observada em estudos ou pesquisas.
e) Medida observada a partir de uma característica da população.
(( Distribuição de frequências.
(( Estatística.
(( Amostragem.
(( Parâmetro.
(( Variável.
3. A diretoria de uma empresa, preocupada com a participação de seus
membros nas reuniões ordinárias, fez um levantamento do número
de faltas no último semestre. Os dados obtidos para os 48 membros
participantes estão apresentados a seguir:
2 0 0 4 3 0 0 1 0 0 1 1
2 1 1 1 1 1 1 0 0 0 3 0
0 0 2 0 0 1 1 2 0 2 0 0
0 0 0 0 0 0 0 0 0 0 1 0

Análise de dados
a) Especifique o tipo de variável estudada, classificando-a.
b) Construa um diagrama de bastões.
c) Construa uma tabela de frequências.
d) Qual a proporção de membros que faltou no máximo a duas
47
reuniões?
e) Determine as frequências relativas.
4. A distribuição de frequências abaixo apresenta os salários dos 120 fun-cionários
da empresa “A” .
Salários (em S. M.) fi (n.o de funcionários)
0 ---- 5 52
5 |--- 10 38
10|--- 15 17
15|--- 20 8
20|---| 50 5
Total 120
Determine:
a) A amplitude observada entre a 2.a e a 4.a classe.
b) O salário médio da 4.a classe de frequências.
c) A frequência acumulada da 3.a classe de frequências.
d) Quantos funcionários que recebe entre 5 e 15 salários mínimos?
e) Quantos funcionários que recebe pelo menos 10 salários mínimos?
5. Pesquisando-se o preço médio de fornos micro-ondas de diversas
marcas em 28 lojas e pontos de venda em Curitiba, observou-se a se-guinte
distribuição:
Preço (R$) 192,00 220,00 240,00 255,00 262,00 280,00
Lojas 1 7 11 6 2 1

Análise de dados
48
a) Calcule o preço médio do produto.
b) Calcule o preço mediano.
6. Os dados abaixo apresentam as vendas semanais em classes de salá-rios
mínimos de vendedores de gêneros alimentícios:
Vendas semanais n.º de vendedores
20 – 30 2
30 – 40 10
40 – 50 18
50 – 60 50
60 – 70 70
70 – 80 30
80 – 90 18
90 – 100 2
Total 200
a) Determine o número médio de vendas semanais.
b) Determine o desvio-padrão e o coeficiente de variação das vendas
semanais.
7. Trinta embalagens plásticas de mel foram pesadas com precisão de
decigramas. Os pesos, após convenientemente agrupados, fornece-ram
a seguinte distribuição de frequências (em gramas):
Xi 31,5 32,5 33,5 34,5 35,5 36,5
fi 1 5 11 8 3 2
Determine:
a) A média da distribuição dos pesos das embalagens.
b) A mediana dos pesos.
c) A moda dos pesos.
d) A variância dos dados.

Análise de dados
8. A tabela abaixo apresenta as taxas de juros do rotativo, cobradas pelos
Dinheiro.
49
cartões de crédito, em determinado mês.
American Express 10,95 30 Horas Visa Gold 11,90 Federal Card Nac. 9,80
Disponível em: Folha de São Paulo/Caderno
Credicard Nac. 9,20 30 Horas Visa Int. 11,90 Federal Card Int. 9,80
Credicard Intern. 9,04 Ourocard Intern. 8,50 Federal Card Gold 9,50
Diners 10,70 BFB Gold 9,90 HSBC Open Card 10,50
Bradesco Nac. 10,32 BFB Intern. 9,90 HSBC Gold 5,90
Bradesco Intern. 10,22 Sudameris Classic 10,20
Bradesco Gold 9,53 Sudameris Gold 10,20
a) Qual a taxa média cobrada no mercado?
b) Qual a taxa mediana?
c) Qual o valor do desvio-padrão das taxas? O comportamento das
taxas é homogêneo?
d) Existe algum cartão que possa ser considerado um outlier, supon-do
uma variação de 2 desvios da média?
9. A idade média dos candidatos a um determinado curso de aperfeiço-amento
sempre foi baixa, na ordem de 22 anos. Como esse curso foi
planejado para atender a todas as idades, decidiu-se fazer uma cam-panha
de divulgação. Para verificar se a campanha foi ou não eficiente,
fez-se um levantamento da idade dos candidatos à última promoção,
e os resultados estão apresentados na tabela abaixo:
Idade Número de candidatos
18 – 20 18
20 – 22 12
22 – 26 10
26 – 30 8
30 – 36 2
Baseando-se nesses resultados, você diria que a campanha produziu
algum efeito (isto é, a idade média aumentou)?

Análise de dados
50
10. Os salários dos empregados da empresa “A” são 20% maiores que os da
empresa “B”, para todos os empregados comparados individualmente.
Com base nessa informação, podemos afirmar que:
a) O desvio-padrão dos empregados é o mesmo para ambas as
empresas.
b) O desvio-padrão dos salários dos empregados da empresa “A” é
20% maior do que o dos salários da empresa “B’.
c) O desvio-padrão dos salários dos empregados da empresa “A” é
igual ao desvio-padrão dos salários dos empregados da empresa
“B”, multiplicado pelo quadrado de 1,20 .
d) Não há elementos para se comparar o desvio-padrão dos salários
dessas empresas.
Gabarito
1.
a) Qualitativa nominal.
b) Quantitativa contínua.
c) Quantitativa contínua.
d) Quantitativa discreta.
e) Qualitativa nominal.
f) Quantitativa contínua.
2. b, c, a, e, d.
3.
a) Variável quantitativa discreta, pois o número de faltas é dado por
um valor inteiro.

Análise de dados
51
b)
30
25
20
15
10
5
Membros
Diagrama de Bastões
Faltas
0
0 1 2 3 4
c)
Distribuição de frequências
Número de faltas Número de membros (f)
0 28
1 12
2 5
3 2
4 1
Total 48
d) No máximo duas reuniões é o mesmo que duas ou menos reuniões,
logo será a soma das frequências de 0 + 1 + 2 dividido pelo total de
casos.
Proporção de no máximo 2 reuniões = 28 + 12 + 5
48
= 0,9375
ou 93,75%

Análise de dados
52
e)
Distribuição das frequências relativas
Número de faltas Frequência relativa (fr)
0 0,583
1 0,250
2 0,104
3 0,042
4 0,021
Total 1
4.
a) A amplitude entre a 2.ª e a 4.ª classes varia entre 5 (limite inferior
da 2.ª classe) e 20 (limite superior da 4.ª classe), logo a Amplitude =
20 – 5 = 15.
b) O salário médio da 4.ª classe é dado pela média entre 15 e 20, por-tanto,
o valor é 17,5.
c) A frequência acumulada da 3.ª classe será: 52 + 38 +1 7 = 107.
d) O número de funcionários que recebem entre 5 e 15 salários míni-mos
será dado pela soma dos que ganham entre 5 e 10 mais os que
recebem entre 10 e 15 s.m., portanto, 38 + 17 = 55 funcionários.
e) Pelo menos 10 s.m. é o mesmo que no mínimo 10 s.m. Sendo as-sim,
será a soma das frequências das classes a partir de 10 s.m. O
resultado será 17 + 8 + 5 = 30. Outra forma de cálculo seria subtrair
do total os que ganham menos de 10 s.m., ou seja, 120 – 90 = 30.
5.
a) Este é um caso de média ponderada, sendo assim a fórmula para a
resolução é:
= Σ
Σ
Xf
X
f
= (192).1 + (220).7 + (240).11 + (255).6 + (262).2 + (280).1
28
= 6.706
28
X = 239,50.

Análise de dados
b) Para obter o preço mediano do produto, é necessário verificar a
53
posição da mediana, ou seja:
= n
+ Med
= + = Med P , então a mediana será
P , logo a (28 1)
14,5
( 1)
2
2
a média entre os valores ordenados correspondentes às posi-ções
14 e 15.
Verificando na distribuição, temos os valores; XPos14 = 240,00 e
XPos15 = 240,00. Portanto, como a média entre os valores será de
240,00, a mediana será 240,00.
6.
a) Calcula-se o ponto médio das classes e obtém-se o resultado da
média por meio da expressão:
Σ
= 12 480
Σ
= = 62,4
200
Xf
X
f
Vendas (X) Freq (f) X.f
25 2 50
35 10 350
45 18 810
55 50 2 750
65 70 4 550
75 30 2 250
85 18 1 530
95 2 190
TOTAL 200 12 480
Ou, de outra forma, utilizando a frequência relativa:
X =Σ ∴X = 25.(0,01)+ 35.(0,05)+ ... + 95.(0,01) = 62,4 rel X.f

Análise de dados
54
Vendas (X) Freq (f) X.f F relativa X. Freq rel
25 2 50 0,01 0,25
35 10 350 0,05 1,75
45 18 810 0,09 4,05
55 50 2 750 0,25 13,75
65 70 4 550 0,35 22,75
75 30 2 250 0,15 11,25
85 18 1 530 0,09 7,65
95 2 190 0,01 0,95
TOTAL 200 12 480 1 62,4
b) Como o desvio-padrão é a raiz quadrada da variância, então pode-mos
calcular a variância através da expressão:
S2 =
Σx2 . f –
(Σx . f )2
n – 1
n
, em que precisamos obter os valores
de Σx2 . f
X2 X2.f
625 1 250
1 225 12 250
2 025 36 450
3 025 151 250
4 225 295 750
5 625 168 750
7 225 130 050
9 025 18 050
Σ 813 800
Logo, temos que a variância será:

Análise de dados
55
S2 =
813 800 –
(12 480)2
200
199
= 176,12 e dessa forma o resultado do
desvio-padrão será obtido por meio de:
S = 176,12 =13,27
O coeficiente de variação será determinado por:
= .100% S
CV
X
, onde
13,27
CV = =
.100% 21,3%
62,4
7.
a) X =
Σxf
Σf 30
= (31,5).1 + (32,5) 5 + (33,5).11 + (34,5).8 + (35,5).3 + (36,5).2 =
= 1018 X = 33,93.
30
= + = + Med
b) ( 1) (30 1)
2 2
n
P = 15,5, logo, a mediana será a média entre os
valores de X na posição 15 e na posição 16. O resultado da mediana
33,5 +
33,5
será dado por
Md = =
33,5
2
.
c) A moda é representada pelo valor de maior frequência, e nesse
caso a Mo = 33,5.
d) A variância será expressa por: S2 =
ΣX2 . f –
(ΣX . f )2
n – 1
n , em que
obtemos os valores dos somatórios na tabela:
Xi i Xi.fi X2 X2.fi
31,5 1 31,5 992,25 992,25
32,5 5 162,5 1 056,25 5 281,25
33,5 11 368,5 1 122,25 12 344,75
34,5 8 276,0 1 190,25 9 522,00
35,5 3 106,5 1 260,25 3 780,75
36,5 2 73,0 1 332,25 2 664,50
1 018,00 34 585,50

Análise de dados
56
Logo:
S2 =
34 585,5 –
29
(1 018)2
30
= 1,43
8.
a) x =
1
n
Σn
i = 1
xi , em que
x =
1
19
(10,95 + 9,20 + 9,04 + ... + 10,50 + 5,90) =
187,96
19
= 9,89.
b) Após a ordenação dos valores, encontramos a posição da mediana
= + = + Med
dada por ( 1) (19 1)
2 2
n
P = 10, em que o valor de X na posição
10 corresponde a uma mediana igual a 9,9.
c) O desvio-padrão será obtido pela raiz quadrada da variância, logo,
a variância é:
S2 =
n – 1
ΣX2 –
(Σx)2
n
e obtendo os somatórios através da
tabela a seguir:
Taxas (X) X2
10,95 119,9025
9,2 84,64
9,04 81,7216
10,7 114,49
10,32 106,5024
10,22 104,4484
9,53 90,8209
11,9 141,61

Análise de dados
57
Taxas (X) X2
11,9 141,61
8,5 72,25
9,9 98,01
9,9 98,01
10,2 104,04
10,2 104,04
9,8 96,04
9,8 96,04
9,5 90,25
10,5 110,25
5,9 34,81
187,96 1 889,486
Temos: S2 =
1 889,49 –
(187,96)2
18
19 = 1,67, logo o desvio-padrão
será dado pela 1,67 =1,29.
Para verificarmos se o grupo de dados é homogêneo, calcula-mos
o coeficiente de variação (CV). Normalmente, grupos com
dispersão relativa até 30% são considerados homogêneos. O
cálculo do coeficiente de variação é dado por: = S
CV
.100% X
∴
1,29
CV = =
.100% 13,07%
9,89
Logo, as taxas cobradas no mercado são homogêneas.
d) Será considerado um cartão outlier aquele em que a taxa cobrada do
rotativo exceda os limites de X ± 2S, ou seja, 9,89 ± 2.(1,29). Sendo
assim, os limites estarão entre 7,31 e 12,47. Dessa forma, o único valor
fora desse intervalo corresponde a 5,90 do cartão HSBC Gold.

Análise de dados
58
9. Utiliza-se o ponto médio das classes como valor de X na classe (obser-ve
que as classes têm amplitudes diferentes) e através da expressão
X =
Σxf
Σf
obtém-se a média das idades. Então,
X =
19.(18) + 21.(12) + 24.(10) + 28.(8) + 33.(2)
50
= 22,48
Logo, a campanha não surtiu efeito, pois a idade média permanece
em torno de 22 anos.
10. B

Probabilidades e
distribuições de probabilidades
Problema
A Companhia de Seguros ABC deseja acionar uma empresa de ônibus
para indenizar a viúva de um cliente, que foi morto em um acidente com um
dos ônibus da empresa. Deseja, para isso, construir peças de evidências que
demonstrem imperícia do motorista e, portanto, culpabilidade da empresa.
Entre as peças de evidências, a Companhia ABC pretende demonstrar que a
chance de quatro testemunhas que depuseram a favor do motorista mora-rem
em casas do mesmo quarteirão dele e estarem no ônibus no evento do
acidente é muito pequena.
O acidente ocorreu no meio da tarde de um dia de semana. Um casal de
pessoas idosas desceu do ônibus em um determinado ponto do itinerário e
o homem foi atropelado pelo próprio ônibus. A viúva garantiu que o ônibus
arrancou antes que o seu esposo tivesse alcançado a calçada.
O motorista alegou que esse fato não ocorreu e apresentou em sua defesa
o depoimento de quatro testemunhas que teriam acompanhado o acidente
por estarem no ônibus naquele momento.
O advogado da companhia de seguros tinha ouvido falar que as empre-sas
de transporte coletivo só contratavam motoristas se os mesmos apresen-tassem
juntamente com os documentos pessoais uma relação de pessoas
que deporiam a seu favor em caso de acidentes, uma vez que as empresas
estavam tendo um prejuízo muito grande com causas judiciais.
Diante das circunstâncias, o advogado levantou o endereço das testemu-nhas
e do motorista e constatou que todos moravam em um mesmo quar-teirão
do bairro para o qual o ônibus se dirigia.
Como então determinar a probabilidade de as testemunhas de fato não
serem forjadas? O advogado procurou um consultor estatístico e solicitou
a ele que determinasse essa probabilidade, mesmo que fosse de forma
aproximada.

62
Depois de alguma reflexão, o estatístico pensou que poderia aproximar
essa situação através de um procedimento clássico em Estatística: o de tirar
bolas coloridas de uma caixa. O experimento aleatório consiste em misturar
em uma caixa bolas de duas cores. Por exemplo, colocar seis bolas azuis em
uma caixa com 20 bolas brancas, misturar bem e retirar dessa caixa, sem
olhar, uma amostra de quatro bolas. Calcular então a probabilidade que duas
dessas quatro bolas sejam azuis.
Essa probabilidade pode ser calculada da seguinte forma: de quantas ma-neiras
pode-se retirar quatro bolas sem reposição de um total de 26? Esse
número é igual a C26,4. Dentre todas essas combinações, de quantas manei-ras
pode-se retirar duas bolas brancas das 20 contidas na caixa? Da mesma
forma, C20,2. E as outras duas azuis de seis? C6,2. Então, a probabilidade de se
retirar duas bolas azuis na situação exposta é dada por:
P (X = 2) =
C6,2C20,2
C26,4
O cálculo dessa probabilidade resulta em P(X = 2) =
190 . 15
14 950
= 0,1906,
então a probabilidade de se retirar duas bolas azuis em uma amostra sem
reposição de uma caixa com 26 bolas, sendo 20 brancas e 6 azuis, é de 0,19
ou 19%.
Se o bairro em que mora o motorista e suas testemunhas for a caixa que
contém um número N de moradores, o número de habitantes do quarteirão
for N1, correspondentes ao número de bolas azuis na caixa e a lotação do
ônibus for a amostra n, qual é a probabilidade que dessa amostra n, n1 sejam
de moradores do quarteirão?
A expressão geral para o cálculo dessa probabilidade é:
P (X = n1) =
CN1,n1
C(N – N1), (n – n1)
CN,n
Resta, então, verificar os valores de N, N1, n e n1. Depois de um trabalho
intenso de levantamento de dados, o estatístico chegou às seguintes informa-ções.
O bairro é composto por 112 quarteirões, os quarteirões têm em média
20 casas e cada casa uma média de quatro moradores, portanto, o número de
habitantes do bairro era de N = 8 960. No quarteirão em que moravam o mo-torista
e suas testemunhas havia 20 casas com também quatro moradores em
cada casa, um total de N1 = 80 moradores no quarteirão. A lotação do ônibus

é de 30 lugares sentados, ou seja, n = 30, e queremos calcular a probabilidade
de que cinco moradores do mesmo quarteirão (o motorista e as quatro teste-munhas)
63
estivessem juntos no ônibus, isto é, P(X = n1) = P(X = 5).
O cálculo dessa probabilidade é então:
P (X = 5) =
C80,5C8880,35
C8960,40
= 0,00002
Ou seja, uma chance em 50 000. De fato, muito pequena.
Na avaliação feita, todos os benefícios de aproximação foram feitos a favor
do motorista. O ônibus tinha lotação completa, quando se pode verificar que
nesse horário da tarde ela nunca está completa. O número de pessoas que o
ônibus servia era maior do que somente o seu bairro terminal. O número de
pessoas por residência em bairros da periferia é normalmente maior do que
a média de um casal com dois filhos. Todos esses fatores foram colocados a
favor do motorista. E ademais, há que se supor que todos os quatro passa-geiros
estivessem prestando atenção ao acidente.
Esse é um problema típico de modelagem com probabilidades. Há muitos
outros tipos de exemplo. Mas, talvez mais importante do que a aplicação direta
de probabilidades na solução de problemas seja a sua grande utilidade como
instrumento para se trabalhar com inferência estatística e com as técnicas de
tomada de decisões aplicadas nos últimos três capítulos do livro.
Conceitos fundamentais
A teoria de probabilidades foi desenvolvida para solucionar jogos de azar
durante o século XVII, mas somente no início do século XX, graças ao mate-mático
russo A. Komolgorov, que formulou toda a teoria a partir de axiomas
básicos, a teoria de probabilidades ganhou status próprio como um ramo
autônomo da matemática. Existem várias propostas de como medir a incer-teza.
Entre elas, a mais desenvolvida é a da teoria de probabilidades. Mesmo
assim, há diferentes escolas que propõem diferentes meios de acessar valores
de probabilidades. Há, portanto, alguma controvérsia sobre os fundamentos
da teoria. Discutiremos três enfoques conceituais diferentes, mas que, inde-pendentemente
das diferentes definições, usam as mesmas regras matemá-ticas
como medidas objetivas de incerteza. Os três enfoques são o da proba-bilidade
clássica, o da frequência relativa de ocorrências e o da probabilidade

64
subjetiva, que apesar do nome trata a probabilidade como uma medida ob-jetiva,
embora a forma de sua determinação seja subjetiva. Aqui a palavra
objetiva significa uma medida exata que se submete ao corpo axiomático da
teoria de Komolgorov.
Esses três enfoques foram apresentados porque serão usados indistinta-mente
na solução dos problemas colocados no livro. As diferenças possíveis
decorrentes da diferença de enfoques serão discutidas toda vez que pude-rem
causar algum tipo de dúvida ou desconforto.
Iniciaremos com a apresentação de uma série de definições básicas que
ajudarão na construção de toda a teoria de probabilidades necessária para a
solução dos problemas apresentados nos demais capítulos.
Experimento aleatório
Experimento aleatório é um experimento no qual sabe-se que resultados
podem ocorrer, mas não se sabe de antemão que resultado ocorrerá. Pode-se,
no entanto, determinar a probabilidade associada a cada resultado. Por exem-plo,
no lance de um dado honesto sabe-se que os resultados possíveis são 1, 2,
3, 4, 5 ou 6 na face superior, cada resultado com probabilidade 1/6.
Como determinar a probabilidade de sair um número par? Pela teoria
clássica de probabilidades verificamos que há seis resultados possíveis. A pro-babilidade
de sair um número par é determinada pela razão entre o número
de casos favoráveis e o número de casos possíveis, ou seja, 3 casos favoráveis
sobre 6 casos possíveis, então essa probabilidade é de 3/6 ou ½.
Do ponto de vista frequentista, essa probabilidade pode ser calculada
com o lance de um dado 1 000 vezes, verificando-se quantas vezes saiu um
número par e dividindo-se esse valor por 1 000.
Também se pode determinar intuitivamente, através de probabilidade
subjetiva, que o resultado “sair um número par no lance de um dado” é equi-valente
a “sair cara no lance de uma moeda”, e que, portanto, pela experiência
do tomador de decisões, ele pode concluir que essa probabilidade seja ½.
Evento
Eventos são cada um dos resultados possíveis de um experimento alea-tório.
O evento de sair cara no lance de uma moeda é chamado de evento

simples, porque estamos interessados em um resultado singular do experi-mento
aleatório. O evento “sair um número par no lance de um dado” é um
evento composto, porque o resultado está associado a três possíveis eventos
simples.
Aos eventos no geral associa-se um conjunto, e a notação utilizada será a
da teoria dos conjuntos, que estabelece denotar o conjunto com letras maiús-culas,
e quando necessário, os elementos do conjunto com letras minúscu-las.
Então o evento sair um número par pode ser representado pelo conjunto
65
A = {2, 4, 6}.
Também podemos pensar no caso da moeda, que o resultado do lance
pode ser 1 no caso de sucesso em sair uma cara e 0 no caso de fracasso em
sair uma coroa. Assim, se X é o resultado do lance de uma moeda, X = 1 re-presenta
cara e X= 0 representa coroa.
Espaço amostral
Podemos definir de forma simples o espaço amostral como o conjunto
de todos os resultados possíveis de um experimento aleatório ou de outra
forma o conjunto de todos os eventos simples de um experimento aleatório.
No geral, o espaço amostral é denominado por S (space, em inglês) ou pela
letra grega Ω (ômega).
No lance de um dado o espaço amostral será o conjunto S = {1, 2, 3, 4, 5,
6}. No lance de uma moeda o espaço amostral será S = {C, K}, em que C re-presenta
cara e K, coroa. Em muitos livros traduzidos encontramos o espaço
amostral para esse experimento aleatório como S = {H,T}. Aqui H representa
cara e T coroa, porque o jogo cara ou coroa em inglês é chamado de head or
tail, cabeça ou rabo.
Observe que o espaço amostral é o conjunto de todos os elementos, ou o
conjunto universo da teoria de conjuntos.
Evento certo e eventos mutuamente exclusivos
Um evento é dito certo quando não há possibilidade de ocorrência de
outro evento. Também evento impossível é aquele que não tem qualquer
possibilidade de ocorrência. No lance de um dado, um número de 1 a 6 apa-recer
na face superior do dado é um evento certo. No lance de dois dados, a

66
soma das faces superiores ser 15 é um evento impossível. Essa definição será
útil um pouco mais tarde quando tratarmos de probabilidades.
Eventos mutuamente exclusivos são aqueles cujos elementos não podem
pertencer a dois conjuntos ao mesmo tempo. Segue um exemplo de eventos
não mutuamente exclusivos com relação ao número que aparece na face
superior do lançamento de um dado. Seja o evento A sair um número par e
o evento B um número menor do que 4. Então A e B não são mutuamente
exclusivos porque o evento 2 ocorre em ambos os conjuntos. A = {2, 4, 6} e
B = {1, 2, 3}.
Eventos complementares
Dois eventos são complementares quando os seus elementos pertencem
a eventos mutuamente exclusivos e a reunião de todos os elementos é igual
ao espaço amostral. Por exemplo, no lance de um dado o evento A = {1, 2} é
complementar ao evento B = {3, 4, 5, 6}. Também o evento sair um número
par na face superior no lançamento de um dado é complementar ao evento
sair um número ímpar.
É usual denotar o evento complementar de A como Ā ou Ac.
Probabilidade
Probabilidade é uma medida de incerteza que pode assumir valores entre
0 e 1. Não existe probabilidade negativa nem maior do que 1. A probabilidade
de sair cara no lance de uma moeda é igual a ½ ou 0,5 e não 50%.
Embora probabilidade e percentagem sejam medidas de naturezas di-ferentes,
não é incomum que se utilize percentagem com o sentido de pro-babilidade.
Quando isso não nos atrapalhar, utilizaremos indistintamente as
duas acepções.
A probabilidade de um evento A pode ser definida como o número de
elementos favoráveis sobre o número de elementos possíveis. O cardinal do
conjunto A, denotado por #A, representa o número de elementos favoráveis
do evento A e o #S o número de elementos do espaço amostral, então:
P (A) = #A
#S

No evento número par no lance de um dado, A = {2, 4, 6}, cujo número de
67
elementos é dado por #A = 3 e S = {1, 2, 3, 4, 5, 6} com #S = 6, então:
P (A) = #A
#S
= 36
= 12
= 0,5
Probabilidade, chance e verossimilhança
Esses três termos são muitas vezes utilizados indistintamente, mas de fato
representam fenômenos de natureza distinta.
Dizemos que a chance de se ganhar na mega-sena é de aproximadamente
1 para 50 milhões se jogarmos um bilhete com 6 números. A ideia de chance
está relacionada a jogo. É curioso notar que a teoria de probabilidade em
seus primórdios era denominada nos meios acadêmicos como a teoria das
chances, somente mais tarde se distinguiu chance de probabilidade, tendo
sido reservada para essa última a primazia de denominar a teoria que se en-carrega
de medir incerteza.
Por outro lado, a palavra verossimilhança também não tem o mesmo sig-nificado
de probabilidade. Por exemplo, é bem sabido que se em uma noite
de inverno o frio for intenso e o céu estiver estrelado, a possibilidade de
ocorrência de geada na manhã do dia seguinte é bastante grande. Devemos
dizer que é verossímil e não que é provável a ocorrência de geada. Essa pala-vra
é muito pouco utilizada coloquialmente em português e por isso falamos
em provável ou verossímil indistintamente.
Na língua inglesa, a palavra correspondente à verossimilhança é likelihood,
bastante comum no uso coloquial. Então, em muitos livros de estatística tra-duzidos
do inglês para o português, o tradutor prefere utilizar probabilida-de
nos locais em que aparece likelihood e isso pode trazer alguma confusão
conceitual. Forçaremos um pouco o uso correto e distinto de probabilidade
e verossimilhança quando for necessário no texto.
Axiomas e regras de probabilidades
As regras para o uso de probabilidades, muitas vezes apresentadas como
teoremas, partem de um conjunto de princípios que leva em conta a natu-reza
da medida de probabilidade. Esse conjunto de princípios é conhecido

68
como os Axiomas de Kolmogorov, o matemático russo que as estabeleceu no
início do século XX.
Axiomas de Kolmogorov
Seja A um evento e S o espaço amostral de um experimento aleatório, então:
(I) 0 ≤ P(A) ≤ 1;
(II) P(S) = 1;
(III) P(A B) = P(A) + P(B) – P(A B), se A e B não são eventos mutuamente
exclusivos.
O primeiro axioma define probabilidade como uma medida não nega-tiva
e não maior que a unidade. Então, é um número definido no intervalo
de 0 a 1 e não uma percentagem. Ela pode ser apresentada em forma de
fração 4/10, com o numerador sempre menor ou igual ao denominador,
ou em forma decimal 0,4. Não teremos preferência neste livro na forma
de apresentação final das probabilidades calculadas, mas sempre convém
fazer as operações através de frações para não haver acúmulo de erros
devido a arredondamentos.
O segundo axioma informa que a probabilidade do espaço amostral é
sempre 1. O espaço amostral pode ser tomado como o evento composto
certo. Por outro lado, o evento complementar a S é o conjunto vazio, denota-do
por { } ou ø.
O terceiro axioma diz que a probabilidade da união de dois eventos é a
soma das probabilidades dos eventos menos a probabilidade de sua inter-seção.
Se A e B são mutuamente exclusivos, então A B = ø. Vejamos um
exemplo de eventos não mutuamente exclusivos.
No lance de um dado, seja A o evento sair um número par e B o evento
sair um número menor que 4. Então, A = {2, 4, 6} e B = {1, 2, 3}, a união dos
dois eventos A B = {1, 2, 3, 4, 6} e a interseção e A B = {2}. Então P (A B)
= 1/2 + 1/2 – 1/6 = 5/6, uma vez que P (A) = 1/2; P (B) = 1/2 e P(A B) = 1/6.
Verifique que de fato o cardinal de A B é #(A B) = 5.
É necessário fazer a subtração porque caso contrário o elemento 2 en-traria
duas vezes, enquanto na união ele só entra uma vez, apesar de ser
elemento dos conjuntos A e B.

69
Regras de probabilidades
Algumas regras úteis derivadas dos axiomas de probabilidades serão
apresentadas sem prova. Em um contexto formal elas poderiam ser apre-sentadas
como teoremas com as devidas provas, mas esse não é o interesse
neste texto.
Eventos complementares
Se A é um evento e Ā é o seu evento complementar, então P(A) + P(Ā) =
1, ou ainda P(Ā) = 1 – P(A). Um caso particular ocorre para o caso do conjun-to
vazio, sabidamente complementar ao conjunto universo. P(ø) = 1 – P(S),
então como P(S) = 1, P(ø) = 0.
Regra da adição
Se A e B são eventos mutuamente excludentes, isto é, A B = ø , então
P(A B) = P(A) + P(B), haja vista que P(ø) = 0.
Sejam os eventos A ={2, 4} e B { 3, 5} e S = {1, 2, 3, 4, 5, 6}, então P(A B) =
P(A) + P(B) = 2/6 +2/6 = 4/6, verifique que A B = {2, 3, 4, 5}, cujo cardinal e
#( A B) = 4.
2
1
6
S
A B
4 3
5
Regra da diferença
Se A e B são dois conjuntos quaisquer, podemos definir a diferença entre
os dois conjuntos, AB como o conjunto de todos os elementos que perten-cem
a A e que não pertencem a B. Então P(AB) = P(A) – P(A B).
Sejam os eventos A ={2, 4} e B { 2, 3, 5} e S = {1, 2, 3, 4, 5, 6}, então P(AB) = P(A)
– P(A B) = 2/6 – 1/6 = 1/6. Verifique que AB = {4} cujo cardinal é #(AB) = 1.

Métodos Quantitativos para Negócios

Métodos Quantitativos para Negócios

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Ähnlich wie Métodos Quantitativos para Negócios

Ähnlich wie Métodos Quantitativos para Negócios (20)

Métodos Quantitativos para Negócios