SlideShare ist ein Scribd-Unternehmen logo
1 von 63
Downloaden Sie, um offline zu lesen
PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO GRANDE DO SUL
                       FACULDADE DE MATEMÁTICA
                     DEPARTAMENTO DE ESTATÍSTICA

                                     Bioestatística
Prof. Hélio Radke Bittencourt

1. CONCEITOS BÁSICOS DE ESTATÍSTICA
1.1 Conjuntos de dados. População e Amostra
1.2 Tipos de variáveis
1.3 Escalas de mensuração
1.4 Estatística descritiva e inferencial

2. ESTATÍSTICA DESCRITIVA
2.1 Tabelas de freqüência simples e cruzadas
2.2 Análise gráfica
2.3 Medidas de Tendência Central
2.4 Separatrizes
2.5 Medidas de Variabilidade

3. PROBABILIDADE
3.1 Principais conceitos
3.2 Variáveis aleatórias discretas
3.3 Variáveis aleatórias contínuas

4. AMOSTRAGEM
4.1 Conceitos básicos
4.2 Técnicas de amostragem probabilísticas
4.3 Técnicas de amostragem não-probabilística

5. DISTRIBUIÇOES AMOSTRAIS E ESTIMAÇÃO
5.1 Parâmetros e Estimadores
5.2 Distribuição amostral da média
5.3 Estimação por ponto e por intervalo de confiança

6. TESTES DE HIPÓTESES
6.1 Teste t de Student para uma média
6.2 Testes t de Student - duas amostras independentes
6.3 Testes t de Student - duas amostras pareadas
6.4 Teste Qui-quadrado

7. CORRELAÇÃO E REGRESSÃO
7.1 Coeficiente de correlação de Pearson
7.2 Regressão Linear Simples
Bioestatística – Prof. Hélio Radke Bittencourt Pág.   2




Cap. 1. CONCEITOS BÁSICOS DE ESTATÍSTICA

1.1 Conjunto de dados. População e amostra

A Estatística pode ser definida como o conjunto de ferramentas para coleta,
organização, análise e interpretação de dados experimentais. O objeto de estudo em
Estatística é um conjunto de dados que pode constituir uma população ou uma
amostra.

População é um conjunto finito ou infinito de elementos.

Amostra é um subconjunto da população. Geralmente buscamos amostras
representativas. Uma amostra representativa é aquela que mantém as
características da população.


1.2 Tipos de Variáveis

Em estatística não trabalhamos diretamente com os elementos que formam o conjunto
de dados, mas sim com suas características. Variáveis são características dos
elementos que formam o conjunto de dados.

As variáveis podem ser classificadas em qualitativas ou quantitativas: as variáveis
qualitativas expressam uma classificação em categorias e, por isso, também são
chamadas de categóricas. As variáveis quantitativas expressam quantidades numéricas
e se dividem em discretas e contínuas. As variáveis discretas assumem apenas
determinados valores num dado conjunto enumerável, enquanto as variáveis contínuas
podem assumir, ao menos teoricamente, qualquer valor num dado intervalo numérico.

Exemplo – Listar variáveis qualitativas e quantitativas para um paciente




Na prática todas as variáveis são discretas, devido à limitação dos instrumentos de
mensuração.
Bioestatística – Prof. Hélio Radke Bittencourt Pág.   3


1.3 Escalas de Mensuração

As variáveis ainda podem ser classificadas de acordo com o nível ou escala de
mensuração: Nominal, Ordinal ou Intervalar/Razão.

O nível nominal de mensuração é caracterizado por números que apenas
diferenciam ou rotulam as categorias.

Exemplos:



O nível ordinal de mensuração envolve números que, além de diferenciar,
hierarquizam as categorias. Também são chamadas de escalas Likert em homenagem
ao americano Rensis Likert que publicou o artigo "A Technique For The Measurement of
Attitudes" em 1932, onde sugeriu escalas de 5 pontos com uma categoria neutra ao
centro.

Exemplos:



O nível intervalar ou de razão apresenta números que expressam diretamente uma
quantidade seguindo uma métrica. Podemos tranqüilamente realizar operações
matemáticas com variáveis deste tipo.

Exemplos:



Figura – Resumo dos tipos de variáveis e escalas de mensuração
Bioestatística – Prof. Hélio Radke Bittencourt Pág.   4


1.4 Estatística Descritiva e Inferencial

A estatística é um conjunto de ferramentas utilizadas para a coleta, tabulação, análise e
interpretação de um conjunto de dados experimentais. A Estatística pode ser dividida
em duas grandes áreas: Descritiva e Inferencial.

A estatística descritiva é aquela que costumamos encontrar com maior freqüência
em jornais, revistas, relatórios, etc. Essa parte da estatística utiliza números para
descrever fatos. Seu foco é a representação gráfica e o resumo e organização de um
conjunto de dados, com a finalidade de simplificar informações. Nessa categoria se
enquadram as médias salariais, taxas de inflação, índice de desemprego, etc.

A estatística inferencial consiste na obtenção de resultados que possam ser
projetados para toda população a partir de uma amostra da mesma. Ela fundamenta-se
na teoria da amostragem e no cálculo de Probabilidades. Essa é a área mais importante
da Estatística.


Figura - Esquema geral de um curso de Estatística


                      Descritiva

 Estatística



                      Inferencial



               Probabilidade        Amostragem
Bioestatística – Prof. Hélio Radke Bittencourt Pág.   5



Cap. 2 ESTATÍSTICA DESCRITIVA

2.1 Tabelas de freqüência simples e cruzadas
Vamos introduzir o tema de tabelas de freqüência simples construindo tabelas para o
banco de dados contruído a partir de informações da turma

Exemplo 1 –         Gênero
                    Tipo sangüíneo / Rh
                    No de habitantes em seu domicílio
                    Altura


Criar uma tabela de freqüências para cada uma das variáveis. Estes exemplos serão
construídos com dados coletados na sala de aula.

Tabelas de freqüência são encontradas em jornais informativos (Zero Hora, Correio do
Povo, etc.), relatórios técnicos, monografias, dissertações, teses e revistas científicas.
As tabelas de freqüência simples apresentam de forma concisa o número de
ocorrências (absoluta e relativa) dos valores de uma variável.

Uma tabela de freqüência genérica tem a seguinte configuração:


                       Tabela 1 – Tabela de freqüências genérica
                       i            xi           fi           fri
                       1            x1                f1              fr1
                       2            x2                f2              fr2
                       M             M                 M               M
                       k            xk                fk              frk
                                     Σ                n            100,0%



A notação utilizada é a seguinte:

      X é uma variável qualquer
      x é um particular valor da variável X
      i é um índice útil para enunciar as expressões matemáticas
      k é o número de linhas da tabela
Bioestatística – Prof. Hélio Radke Bittencourt Pág.   6


Os componentes da tabela de freqüências são:

Freqüência absoluta (fi): número de ocorrências do valor xi.

Freqüência relativa (fri): percentual de ocorrências do valor xi




As Tabelas cruzadas apresentam a distribuição de freqüências de duas variáveis
simultaneamente. As tabelas cruzadas são abundantes em jornais e revistas
especializadas.

Exemplo 2 – Grupo sangüíneo e fator Rh.

Preencher a tabela abaixo com os dados da turma. Calcule os percentuais em relação
aos totais das linhas.


Tabela 2 – Distribuição da turma por grupo sangüíneo e fator Rh.
             Fator Rh         Rh+                      Rh-                       Totais
Grupo
A



B



AB



O



Totais
Bioestatística – Prof. Hélio Radke Bittencourt Pág.   7


2.2 Análise Gráfica


O tipo de gráfico adequado para cada variável depende do tipo de variável. Segue uma
relação de exemplos de variáveis e tipos de gráficos adequados.


Variável Qualitativa Nominal (com poucas categorias)

GRÁFICO DE SETORES (Pizza ou Torta)

Figura – Distribuição da turma por sexo




Base:
Fonte:



Variável Qualitativa Nominal (com muitas categorias):

GRÁFICO DE BARRAS

Figura – Principais causas de morte - EUA

                             Cigarro                    37,7%

                          Obesidade                  28,3%

                              Ãlcool          9,4%

                 Doenças infecciosas          8,5%

                      Armas de fogo         3,3%

                   Doenças venéreas         2,8%

                   Acidente de carro        2,4%

                             Drogas         1,9%

                             Outras          5,7%

                                       0%      20%    40%       60%   80%   100%


Base: ???
Fonte: Ie Estatísticas, ano não declarado
Bioestatística – Prof. Hélio Radke Bittencourt Pág.   8




Variável Qualitativa Ordinal:

GRÁFICO DE BARRAS

Figura – Avaliação do atendimento da equipe de enfermagem por parte dos pacientes

                           Ótimo                                      25%


                        Muito Bom                                                    35%
            Avaliação




                             Bom                               20%


                          Regular                  8%


                            Ruim              5%


                         Péssimo         2%


                                    0%             10%       20%            30%            40%
                                                             %




Base: 100 pacientes.
Fonte: Dados fictícios.


Variável Quantitativa Discreta

GRÁFICO DE COLUNAS

Figura – Número de pessoas por domicílio




Base:
Fonte:
Bioestatística – Prof. Hélio Radke Bittencourt Pág.   9




Variável Quantitativa Contínua

HISTOGRAMA

Figura – Distribuição de uma turma por altura

               10




               8




               6




               4
  Freqüência




               2



               0
                      150,0       160,0   170,0   180,0   190,0     200,0


                    Altura (cm)


Base: 20 observações
Fonte: Alunos de uma turma de Estatística I. Gráfico construído no software SPSS.



Exercício – Construir um Histograma para os dados de estatura da nossa turma.
Bioestatística – Prof. Hélio Radke Bittencourt Pág. 10


2.3 Medidas de Tendência Central

São valores que trazem informação sobre a região em torno da qual os dados estão
posicionados. As medidas de tendência central mais utilizadas são: Média, Mediana e
Moda.


2.3.1 – Média Aritmética (µ , X )

A média aritmética é definida como a soma de todas observações da variável X,
dividida pelo número de elementos do conjunto de dados. Freqüentemente a média
aritmética é o valor que melhor representa um conjunto de dados.

Quando os dados não estão organizados na forma de uma tabela de freqüências e,
portanto, estão na forma isolada, as expressões genéricas para encontrar a média
são:

       População                  Amostra

           N                           n

           ∑ xi                       ∑x       i
      µ=   i =1
                                X =   i =1

                N                          n


Quando os dados estão organizados na forma de uma tabela de freqüências deve-se
ponderar os diferentes valores xi pelas respectivas freqüências fi. Procedendo desta
forma o cálculo da média aritmética torna-se mais simples e rápido.

         População                                  Amostra

            k                          k

           ∑x       i × fi            ∑x       i   × fi
      µ=   i =1
                                X =   i =1

                    N                          n


Exemplo 3 – Número de pessoas que mora em nosso domicílio

Calcular a média aritmética para o exemplo do número de pessoas que mora no
domicílio.
Bioestatística – Prof. Hélio Radke Bittencourt Pág. 11


2.3.2 – Mediana (Md)

A mediana é o valor que divide o conjunto de dados ordenado em duas partes com
igual número de observações. Para calcular a mediana iremos utilizar uma nova
notação. Seja x[1] , x[ 2 ] , K, x[ n ] um conjunto de dados ordenado (ordem crescente),
onde o valor entre colchetes representa a posição no conjunto ordenado.

Deduzindo a posição mediana:

         n ímpar                                           n par
 n         Fila             Md               n            Fila                Md
 3                                           4


 5                                           6


 7                                           8




As expressões genéricas para encontrar a média são:


         n ímpar                                           n par




Quando os dados estão organizados na forma de uma tabela de freqüências pode-se
encontrar a posição mediana na coluna acumulada Fi.


Exemplo 4 – Número de pessoas que mora em nosso domicílio

Encontrar a Md para o exemplo do número de pessoas que mora no domicílio.
Bioestatística – Prof. Hélio Radke Bittencourt Pág. 12


2.3.3 – Moda (Mo)

A moda é definida como o valor mais freqüente de um conjunto de dados. É possível
que o conjunto seja bimodal (duas modas) ou até mesmo multimodal (três os mais
modas).


Mo = {xi } com maior f i




Exemplo 5 – Número de pessoas que mora em nosso domicílio

Encontrar a Mo para o exemplo do número de pessoas que mora no domicílio.




Considerações IMPORTANTES sobre as MTC

1. A média é a MTC mais influenciada por valores extremos, entretanto é a medida
mais “rica”, porque considera todos valores do conjunto de dados.

2. A mediana não é afetada por valores extremos.

3. A moda é a MTC mais “pobre”, porque considera apenas os valores mais freqüentes.

4. Existem outros tipos de média usadas em ocasiões especiais. A média harmônica é
muito utilizada em concursos públicos e a geométrica pode ser usada em situações de
alta variabilidade, visto que ela é mais estável. Discutiremos isto em aula.

                           Média harmônica          Média geométrica

                                   n
                      Xh =     n
                                                  X G = n x1 × x 2 × K × x n
                                   1
                              ∑x
                              i =1 i



Pode-se estabelecer a seguinte relação entre as médias:

                                         Xh ≤ XG ≤ X
Bioestatística – Prof. Hélio Radke Bittencourt Pág. 13


2.4 Separatrizes

São valores que separam o conjunto de dados ordenado em partes com igual número
de observações.

A Mediana é, portanto, uma separatriz porque divide o conjunto de dados em duas
partes iguais.


      Min |------------------------|------------------------| Máx
                                 Md


Os Quartis (Qi) dividem o conjunto de dados em 4 partes iguais.

      Min |------------------------|------------------------| Máx



Os Percentis (Pi) dividem o conjunto de dados em 4 partes iguais.

      Min |------------------------|------------------------| Máx


Exemplo 6 – Boletim de Desempenho do Provão do MEC




Exemplo 7 – Distribuição de Renda no Rio Grande do Sul

A régua de percentis a seguir apresenta a distribuição de salários para a população
urbana em idade economicamente ativa no ano de 1999.

              R$ 238,00      R$ 400,00      R$800,00 R$ 1500,00
      |-------------|-------------|-------------|---------|---|
                  P25           P50           P75       P90
Bioestatística – Prof. Hélio Radke Bittencourt Pág. 14


2.5 Medidas de Variabilidade

São medidas que complementam as MTC trazendo informação sobre a dispersão
existente no conjunto de dados. Para introduzi-las vamos recorrer a um exemplo onde
temos três diferentes equipes de vôlei, onde a variável X investigada é a estatura dos
atletas (em cm). Todas equipes têm seis atletas titulares.

Exemplo 8 – Entendendo as Medidas de Variabilidade

Tabela – Medições de pressão arterial sistólica (mmHg) em três pacientes
               Paciente A Paciente B Paciente C
                  120        118         120
                      120          121         100
                      120          124         135
                      120          117         155
                      120          120         120
                      120          120          90
   Média ( X )
   Moda (Mo)
 Mediana (Md)




Questões

1 – O que aconteceu com as MTC na tabela acima?


2 – Os três pacientes são iguais em relação a distribuição das PA Sistólica?


3 – O que diferencia um paciente do outro?


A partir de agora aprenderemos a calcular medidas capazes de quantificar a
variabilidade existente num conjunto de dados
Bioestatística – Prof. Hélio Radke Bittencourt Pág. 15




1.4.1 – Amplitude (R, do termo Range)

É a diferença entre o maior e o menor valor de um conjunto de dados.

R = máx{xi } − mín{xi }

Calcular R nos três pacientes do Exemplo 8.



1.4.2 – Variância (σ2 , s 2)

A variância é uma medida da variação em torno da média. Por definição,
variância é a média dos quadrados dos desvios em torno da média.

                          População                                                 Amostra

                                                                             ∑ (x        − X)
                                  N                                           n

                                  ∑ (x           − µ)
                                                        2                                       2
                                             i                                       i
                      σ2 =        i =1
                                                                      s2 =   i =1

                                             N                                      n −1

A variância, ao contrário da Amplitude, considera todos elementos do conjunto de
dados no seu cálculo. Quanto maior for a variação dos valores do conjunto de dados,
maior será a variância.

Quando os dados estão organizados na forma de uma tabela de freqüências, deve-
se ponderar os quadrados dos desvios pela freqüência. Esse procedimento facilita o
cálculo.

                          População                                                 Amostra

                                                                             ∑ (x        − X ) × fi
                            k                                                 k

                          ∑ (x        − µ ) × fi
                                                 2                                              2
                                  i                                                  i
                  σ2 =     i =1
                                                                      s2 =   i =1

                                         N                                               n −1


Calcular s2 nos três pacientes do Exemplo 8.
Bioestatística – Prof. Hélio Radke Bittencourt Pág. 16




1.4.3 – Desvio-padrão (σ, s)

O desvio-padrão é a raiz quadrada positiva da variância. Essa medida corrige o
problema de unidade que surge na variância. O desvio-padrão também é uma
medida da variação em torno da média.


                       População                         Amostra
                   σ = σ2                         s = s2




O desvio-padrão expressa a variação média do conjunto de dados em torno da média,
para mais ou para menos.



Calcular s nos três pacientes do Exemplo 8.


1.4.4 – Coeficiente de Variação (CV)

O CV é a razão entre o desvio-padrão e a média de um conjunto de dados. Ele expressa
a variação relativa (%) presente no conjunto de dados em relação à média.


                       População                              Amostra
                        σ                                s
                    CV = × 100%                   CV =     × 100%
                         µ                               X


Quanto maior o CV, mais heterogêneos serão os dados.


Calcular o CV nos três pacientes do Exemplo 8.
Bioestatística – Prof. Hélio Radke Bittencourt Pág. 17




Considerações sobre as Medidas de Variabilidade (MV)

1. A Amplitude á a MV mais “pobre”, porque considera apenas os dois valores
extremos do conjunto de dados.

2. A Variância não é interpretada na prática devido ao problema da unidade, que está
ao quadrado.

3. O Desvio-padrão é a MV mais conhecida, sendo amplamente utilizada.

4. Dentre as MV estudadas, sugere-se que o CV seja utilizado para comparação da
variabilidade entre diferentes conjuntos de dados. Por não ter unidade, o CV pode ser
utilizado até mesmo para comparar a variabilidade entre variáveis expressas em
diferentes unidades.



Curiosidade I – III Consenso Brasileiro de Pressão Arterial – Adultos

A pressão arterial para adultos pode ser categorizada de acordo com a seguinte tabela.
Portanto, a medida quantitativa contínua pode ser transformada em qualitativa ordinal.
                                   ADULTOS (MAIORES DE 18 ANOS)
                                      Pressão Arterial (mmHg)
             Sistólica              Diastólica                       Categoria

                 < 130                     < 85        Normal
               130-139                     85-89       Normal Limítrofe
               140-159                     90-99       Hipertensão Leve (estágio 1)
               160-179                  100-109        Hipertensão Moderada (estágio 2)
                 > 180                     > 110       Hipertensão Severa (estágio 3)
              > ou= 210                > ou=120        Hipertensão Muito Severa (4)
                 > 140                     < 90        Hipertensão Sistólica Isolada
        Fonte: http://www.cdof.com.br/avalia4.htm
Bioestatística – Prof. Hélio Radke Bittencourt Pág. 18


Exemplo 9 – APGAR

Logo que nascemos somos avaliados numa escala de 1-10 pontos no 1o e no 5o minuto
de vida. Os dados abaixo mostram os resultados obtidos em 10 recém-nascidos.

                   Apgar 1           Apgar 5
Bebê   1              8                 9
Bebê   2              4                 8
Bebê   3              8                 9
Bebê   4              8                 9
Bebê   5              3                 8
Bebê   6              8                 9
Bebê   7              8                 9
Bebê   8              4                 9
Bebê   9              9                 9
Bebê   10             7                 9

a) Encontrar as MTC para Apgar 1 e Apgar 5, separadamente.
b) Encontrar as MV para Apgar 1 e Apgar 5, separadamente.
c) Comente os resultados em termos de MTC e de Varabilidade.


CURIOSIDADE II - Como funciona o APGAR

O APGAR é o primeiro escore que recebemos em nossa vida, logo após o nascimento
(1o e 5o minuto de vida). Foi desenvolvido em 1952 por anestesiologista Virginia Apgar,
sendo utilizado até os dias de hoje.

Tabela - Cálculo do Apgar
       Pontos                    0                      1                             2
Freqüência cardíaca   Ausente             <100bpm                      >100bpm
Respiração            Ausente             Fraca, irregular             Forte, choro
Tônus muscular        Flácido             Flexão de pernas e braços    Movimento ativo, Boa flexão
Cor                   Cianótico, Pálido   Cianose de extremidades      Rosado
Irritabilidade Reflexa Ausente            Algum movimento              Espirros, Choro
Fonte: http://www.abcdasaude.com.br/artigo.php?254
Bioestatística – Prof. Hélio Radke Bittencourt Pág. 19


Exemplo 10 – Número de Pré-Natais realizados

Os dados a seguir apresentam o número de exames pré-natais realizados numa
amostra de 21 mulheres cujos partos (normais) foram realizados num determinado
hospital.

  7       5      6       6      9          4        6        5        8        6

  6       5      5       8      10         9        5        5        7        7       7

a) Qual é a variável X deste exemplo.

b) Construir uma tabela de freqüências para a variável X.

c) Encontrar e interpretar as MTC.

d) Calcular as Medidas de Variabilidade.



Mais exercícios sobre o Capítulo 1 na LISTA DE EXERCÍCIOS.
Bioestatística – Prof. Hélio Radke Bittencourt Pág. 20



Cap. 3 – Probabilidade

3.1 Principais conceitos

Probabilidade é o ramo da matemática que trata de fenômenos aleatórios. A
observação de um fenômeno aleatório por parte do homem é chamada de
experimento aleatório.

Características de um experimento aleatório:

1ª) Não se conhece um particular valor do experimento antes dele ser executado,
porém podemos descrever todos os possíveis resultados - as possibilidades;

2ª) Quando o experimento é repetido algumas vezes, os resultados ocorrem de uma
forma aparentemente acidental. Mas quando o número de repetições aumenta, uma
regularidade aparecerá. E esta regularidade que torna possível construir um modelo
matemático útil para análise do experimento.

Exemplos de fenômenos aleatórios:

1)   Condições meteorológicas
2)   Produção de arroz anual numa cidade
3)   Resultado de uma cirurgia
4)   Lançamento de uma moeda
5)   Resultados de loterias

Exemplos de experimentos aleatórios:

E1: Jogue um dado e observe o n.º na face de cima.
E2: Jogue uma moeda 3 vezes e observe o número de caras obtido.
E3: Jogue uma moeda 3 vezes e observe a seqüência de caras e coroas obtida.
E4: Uma mulher está grávida de gêmeos. O sexo dos bebês será verificado.
E5: Numa propriedade com 100 árvores da espécie araucária angustifólia o número de
árvores que apresentam um determinado parasita é verificado.
E6: A temperatura de um paciente é verificada pela enfermeira.

Nos seis exemplos anteriores não somos capazes de precisar o resultado, entretanto
conseguimos listar os possíveis resultados.


Espaço amostral de um experimento aleatório é o conjunto de todos os resultados
possíveis do experimento. É denotado por S ou Ω.
Bioestatística – Prof. Hélio Radke Bittencourt Pág. 21


Exemplos de espaços amostrais relacionados aos experimentos anteriores.

S1 =

S2 =

S3 =

S4 =

S5 =

S6 =


Um evento é um subconjunto de S. Em particular, S e ∅ (conjunto vazio) são eventos;
S é dito o evento certo e ∅ o evento impossível.


Exemplo de eventos no lançamento de um dado

S = {1,2,3,4,5,6}

A: ocorre um n.º par                  A = {2,4,6}
B: ocorre a face 6                    B = {6}
C: ocorre um n.º maior que 6          C=∅
D: ocorre nº 6 ou nº par              D = {2,4,6}
E: ocorre nº par ou nº ímpar          E = {1,2,3,4,5,6} = S


É possível realizar operações com eventos que nada são do que operações com
conjuntos já estudadas no Ensino Fundamental.


Operações com eventos

Sejam A e B dois eventos associados a um espaço amostral S.

1) União: A∪B → A ocorre ou B ocorre ou ambos ocorrem

2) Interseção: A∩B → A ocorre e B ocorre

3) Complementar: Ac ou A → não ocorre A
Bioestatística – Prof. Hélio Radke Bittencourt Pág. 22


Duas definições importantes:

1) Dois eventos A e B são excludentes ou mutuamente exclusivos se a ocorrência
de um impedir a ocorrência de outro. Em outras palavras, não podem ocorrer
simultaneamente.

2) Eventos ou resultados equiprováveis têm a mesma probabilidade de ocorrência.


Exemplo – Lançamento de um dado e uma moeda, ambos honestos

Escreva o espaço amostral. Os resultados são todos equiprováveis? Qual a
probabilidade de um particular par (x,y) ser selecionado. Assinale os seguintes eventos:




3.1.1 Conceitos de probabilidade

⇒ Conceito Axiomático

Seja A um evento de S. A probabilidade de ocorrência de A, denotada por P(A), deverá
satisfazer os seguintes axiomas (propriedades fundamentais):

Axioma 1: 0 ≤ P(A) ≤ 1
Axioma 2: P(S) = 1


⇒ Conceito clássico

Esse conceito só é válido se todos resultados de S forem equiprováveis. Para casos
assim a probabilidade de ocorrência do evento A é obtida por:

                n( A)
   P ( A) =                 n(A) é o número de resultados favoráveis ao evento A
              Total ( S )
                            Total (s) é o número total de resultados em S

Exemplos – Conceito clássico

1) Mega-sena, Lançamento de moedas e dados honestos.
Bioestatística – Prof. Hélio Radke Bittencourt Pág. 23




⇒ Conceito freqüentista

Esse conceito só é válido se todos resultados de S forem equiprováveis. Para casos
assim a probabilidade de ocorrência do evento A é obtida por:

1º) O experimento é repetido n vezes.

2º) Observa-se a freqüência relativa de ocorrência de um certo resultado A:

       n( A)
fr(A) =      , onde n(A) é o nº de vezes em que ocorre o resultado A em n realizações
         n
do experimento.

3º) Probabilidade como limite. A medida que n aumenta, a fr(A) converge para a real
probabilidade P(A).


Exemplos – Conceito freqüentista

1) Verificando se um dado é honesto.

2) Encontrando a probabilidade de ocorrência de um acidente aéreo.

3) Qual a probabilidade de uma criança nascer com Síndrome de Down ?


3.1.2 Probabilidade Condicional

A probabilidade de ocorrência de um evento pode ser influenciada pela ocorrência de
um evento paralelo. Considere que A e B são eventos de um mesmo espaço amostral S.
Chamaremos de P(A|B) a probabilidade de ocorrência do evento A dado que o evento
B já ocorreu.

Graficamente:




Olhando para o desenho podemos estabelecer as seguintes relações:


P(A|B) =                                      P(B|A) =
Bioestatística – Prof. Hélio Radke Bittencourt Pág. 24




Exemplo – Escolhendo alguém na sala de aula

Suponha que um aluno da turma será sorteado. Após saber o resultado o professor faz
algumas perguntas utilizando probabilidade condicional.


Exemplo – Técnica cirúrgica e Resultado

                    Resultado
 Técnica    Sucesso       Fracasso      Total
A              30           50           80
B              60           40           100
C              50           50           100
Total         140           140          280



Resolver as seguintes probabilidades:




3.1.3 Independência

Dois eventos A e B são considerados independentes se a ocorrência de um não
interfere na probabilidade de ocorrência do outro:

                        P(A|B) = P(A)      e       P(B|A) = P(B)

Isolando a intersecção na expressão de probabilidade condicional obtemos:

                                  P(A∩B) = P(A) x P(B)

Esse conceito é fundamental para aplicações em Estatística.


Exemplo - Uma mulher decide ter dois filhos numa localidade onde a probabilidade de
ser menino é estimada em 51%.
Bioestatística – Prof. Hélio Radke Bittencourt Pág. 25


Exemplo – Tendo “certeza” de uma gravidez

Uma jovem suspeita que está grávida e decide comprar três diferentes testes de
gravidez em farmácias. As marcas escolhidas foram A, B e C. As probabilidades dos
exames indicarem “falso-positivo” são de 3%, 5% e 6%, respectivamente, enquanto as
probabilidades de “falso-negativo” são de 1%, 2% e 4%, respectivamente.

   a) Se a jovem realmente está grávida, qual a probabilidade dos três exames
      confirmarem a gravidez?
   b) Se a jovem não estiver grávida, qual a probabilidade dela levar um susto com
      pelo menos um dos exame resultando positivo.



Exemplo – Prole de SEIS filhos

É fácil construir o espaço amostral e calcular as probabilidades de se ter ZERO, UM,
DOIS, TRÊS, QUATRO, CINCO ou SEIS filhas meninas numa prole de seis filhos?
Assume que a probabilidade de ser menino seja de 51%.




3.2 – Variáveis aleatórias discretas – Distribuição Binomial

O exercício acima pode ser resolvido pela Distribuição Binomial. Sempre que um
experimento que assume apenas dois possíveis resultados em cada repetição for
repetido n vezes e que a probabilidade de sucesso é constante em cada repetição
podemos modelar o número de sucessos pela distribuição Binomial.

X = número de sucessos, variando de 1 até n
p = probabilidade de sucesso em cada repetição
1-p = probabilidade de fracasso em cada repetição
n = número de repetições

Expressão genérica da Binomial

                    n!
P( X = x) =                 × p x × (1 − p) n − x
                x!(n − x )!
Bioestatística – Prof. Hélio Radke Bittencourt Pág. 26


O número esperado ou esperança de sucessos na distribuição Binomial é facilmente
encontrado. Intuitivamente, responda as perguntas a seguir:

1) Se lançarmos uma moeda honesta 100 vezes, qual o número esperado de caras?

2) Se lançarmos um dado 600 vezes, qual o número esperado de faces “5”.

3) No exemplo da prole de 6 filhos, qual o número esperado de meninos?



E( X ) = n × p




3.3 Variáveis aleatórias contínuas

3.3.1 Conceitos

As variáveis contínuas podem, ao menos teoricamente, assumir qualquer valor num
intervalo numérico. Sendo assim fica impossível representarmos variáveis contínuas da
mesma forma que as variáveis discretas.

Importante

As variáveis contínuas são representadas por curvas, chamadas de função
densidade de probabilidade, e a área sob essa função representa a probabilidade de
ocorrência. Nas variáveis contínuas não existe a probabilidade de ocorrência de um
valor exato, mas sim de intervalos.


A função densidade de probabilidade, denotada por fx(x), é a função que indica o
comportamento probabilístico da variável aleatória contínua X. A função densidade de
probabilidade deverá satisfazer as seguintes condições:

      a) f(x) ≥ 0, para todo x ∈ R.

      b) Área total sob a curva deve ser igual a 1.


A área sob a curva fx(x) nos informa a probabilidade de ocorrência de valores da
variável X.
Bioestatística – Prof. Hélio Radke Bittencourt Pág. 27




Supondo que o gráfico acima represente a função de probabilidade de uma variável
aleatória X. Como sabermos a probabilidade de ocorrência de valores entre a e b ?


Exemplo – Tempo para realização de uma cirurgia (Distribuição Uniforme)

O tempo de realização de uma cirurgia é igualmente provável de ocorrer entre 60 e 120
minutos.

a) Esboce graficamente a função densidade de probabilidade para X = tempo de
      cirurgia.




b) Calcular a probabilidade de levar mais de 90 minutos para terminar a cirurgia.
Bioestatística – Prof. Hélio Radke Bittencourt Pág. 28




3.3.2 A Distribuição Normal ou Curva de Gauss

A distribuição Normal ou Gaussiana é, sem dúvida, o modelo probabilístico mais
conhecido. Várias técnicas estatísticas necessitam da suposição de que os dados se
distribuam normalmente para serem utilizadas. Na natureza uma grande quantidade de
variáveis apresentam tal distribuição.

Uma v.a.c. X tem distribuição normal com parâmetros µ e σ se sua função densidade
de probabilidade é dada por:


                        ( x−µ )2
           1        −
f (x ) =        e     , x ∈ ℜ,
                         2σ 2

       σ 2π
onde µ e σ são parâmetros,
- ∞ < µ < +∞ ; σ > 0



Notação

                                     X ∼ N(µ,σ)

               X tem distribuição Normal com média µ e desvio-padrão σ.


Os parâmetros da Normal são a média e o desvio-padrão, que permitem infinitas curvas
normais com diferentes formatos (mas sempre simétricas). O gráfico da fX é
apresentado a seguir:
Bioestatística – Prof. Hélio Radke Bittencourt Pág. 29


A distribuição Normal, independentemente dos valores dos parâmetros,                                                    apresenta
sempre a seguinte relação:




Entendendo os parâmetros da Normal:

A média µ informa o centro da distribuição. É um parâmetro de locação.

O desvio-padrão σ informa o formato da curva.
   f(x)




                                           f(x)




                                                                                f(x)




          -10   -5        0       5   10          -10        0           10            -10   -5        0       5   10
                     Valores de X                       Valores de X                              Valores de X




Os cálculos integrais envolvendo a distribuição Normal são bastante complicados.
Felizmente, veremos a seguir uma relação que facilita muito nossa vida.
Bioestatística – Prof. Hélio Radke Bittencourt Pág. 30




Exemplo – Aplicação prática

A altura de mulheres adultas no RS segue uma distribuição Normal com média de
165cm e desvio-padrão de 6cm.

a) Qual a probabilidade de uma mulher ter entre 159 e 171cm?


b) Qual a probabilidade de uma mulher ter entre 153 e 177cm?


c) Qual a probabilidade de uma mulher ter mais de 177cm?


d) Qual a probabilidade de uma mulher ter menos de 180cm?



Distribuição Normal-padrão ou Normal reduzida

Seja X uma variável aleatória normalmente distribuída com quaisquer parâmetros média
µ e desvio-padrão σ. Se realizarmos a seguinte transformação obteremos uma nova
variável Z com média 0 e desvio-padrão 1:

                                        X −µ
              X ∼ N(µ,σ)    →      Z=                      →        Z (0,1)
                                         σ

Qualquer variável com distribuição Normal pode ser padronizada para a
Normal. A distribuição Normal padronizada (Z) é tabelada.


O valor de Z indica quantos desvios acima ou abaixo nós estamos em relação à média.



Exemplo – Aprendendo a usar a tabela

1) Calcule:

a) P(Z < 1,24) =
b) P(Z < 1,67) =
c) P (Z > 2,12) =
d) P( -1,96 < Z < 1,96) =
Bioestatística – Prof. Hélio Radke Bittencourt Pág. 31




Cap. 4. - Amostragem

4.1 Conceitos Básicos

Amostragem é o nome dado ao conjunto de procedimentos e técnicas para extração
de elementos da população para compor a amostra. O objetivo da amostragem é obter
amostras representativas das populações em estudo. Um Censo seria a investigação da
população completa.

Por que trabalhar por amostragem?

________________________________________

________________________________________

________________________________________

________________________________________

A fração de amostragem é a razão entre o tamanho amostral e o tamanho
populacional. Não existem regras fixas para tamanho de amostra, ou seja cada caso
merece um cuidado especial. Frases como “20% da população é ideal”, quase sempre
não são verdadeiras.

As técnicas de amostragem se dividem em: probabilísticas e não-probabilísticas.
As técnicas probabilísticas são aquelas onde todos elementos da população têm uma
probabilidade não nula de seleção. Nas técnicas não-probabilísticas não podemos
garantir que todos elementos têm probabilidade de serem selecionados para a amostra.


4.2 Principais técnicas de amostragem probabilística

Geralmente as técnicas probabilísticas produzem melhores resultados do que as não
probabilísticas. A seleção dos elementos envolve obrigatoriamente a utilização de algum
dispositivo aleatório para seleção das unidades amostrais.

Exemplo de dispositivos aleatórios:
Bioestatística – Prof. Hélio Radke Bittencourt Pág. 32


4.2.1 Amostragem Aleatória Simples (AAS)

Apesar de ser uma forma extremamente simples de seleção de elementos da
população, é considerada uma das melhores técnicas de amostragem.

Na AAS cada elemento da população tem igual probabilidade de seleção e o
pesquisador não introduz nenhum vício no processo.

Etapas:

1) Enumerar a população de 1 até N.
2) Sortear n números no intervalo de 1 até N. Caso haja números repetidos, sortear
novamente mais alguns valores.


Probabilidade de seleção de um elemento na AAS:



Número de amostras possíveis SEM reposição:




Número de amostras possíveis COM reposição:




Exemplo 23 – Amostra n=2 da população N=5

Verificar quantas amostras são possíveis COM e SEM reposição da população de
tamanho 5 verificando também as probabilidades de seleção de cada unidade.

                             A     B      C      D       E
Bioestatística – Prof. Hélio Radke Bittencourt Pág. 33


4.2.2 Amostragem Estratificada

Na Amostragem estratificada a população é dividida em subpopulações ou estratos de
forma que N1 + N2 + ... + NK = N.

Um tamanho amostral n é repartido proporcionalmente entre os estratos, respeitando
as frações Ni / N. Depois de estabelecidos o valor de ni, procede-se uma seleção
aleatória dentro de cada estrato.


Exemplo 24 – Amostra estratificada na região sul

Dividir proporcionalmente uma amostra de 1300 pessoas em três estratos,
correspondentes aos três estados da região sul.

  i              Estado                       Pop.             %              Amostra
  1         Rio Grande do Sul              9.637.682
  2           Santa Catarina               4.875.244
  3              Paraná                    9.003.804
                  Total                   23.516.730

4.2.3 Amostragem Sistemática

A amostragem sistemática inicia com o cálculo do intervalo de amostragem f=N/n.
Depois, selecionamos um número entre 1 e f e vamos indo sistematicamente de f em f
elementos, até o final.

A amostragem sistemática é útil quando temos cadastros impressos que estão
ordenados segundo algum critério que nada tem a ver com os interesses da pesquisa.


Exemplo 25 – Escolhendo 8 leitos de um total de 40

                                     Planta de leitos de um andar
                                1           11         21           31
                                2           12         22           32
                                3           13         23           33
                                4           14         24           34
                                5           15         25           35
                                6           16         26           36
                                7           17         27           37
                                8           18         28           38
                                9           19         29           39
                                10          20         30           40
Bioestatística – Prof. Hélio Radke Bittencourt Pág. 34


4.3 Principais técnicas de amostragem não-probabilística
A falta de cadastros, inacessibilidade à toda população, pressa ou ainda muitos outros
fatores, levam os pesquisadores a utilizar técnicas não-probabilísticas. Veremos
rapidamente algumas técnicas encontradas na literatura.

4.3.1 Amostragem por quotas

Um dos procedimentos mais comuns onde o pesquisador estabelece quotas de acordo
com a distribuição populacional, distribui os pesquisadores de forma geograficamente
estruturada e cumpre as quotas de forma intencional.

Exemplo 26 – Pesquisa eleitoral
Estabelecer as quotas de amostragem (n=800) a partir da distribuição populacional
abaixo.

                                                     Sexo
        Classe Social                  Masculino              Feminino           Total
             A-B
                                       1.082.538              1.122.223        2.204.761
               C
                                       1.257.140              1.303.227        2.560.367
              D-E
                                       1.152.379              1.194.625        2.347.004
             Total
                                       3.492.057              3.620.075        7.112.132
Dados estabelecidos a partir dos dados TRE-2000 (No de eleitores)
Classificação da classe social segundo critérios da ABIPEME-1996



4.3.2 Amostragem por correspondência




4.3.3 Amostragem por tráfego




4.3.4 Amostragem intencional
Bioestatística – Prof. Hélio Radke Bittencourt Pág. 35



Cap. 5. - Distribuições Amostrais e Estimação

5.1 – Parâmetros e Estimadores

O que é inferência estatística ?

Inferir consiste na retirada de informações para TODA população baseando-se numa
amostra da mesma. Chamamos de parâmetros as quantidades populacionais e de
estimadores as funções de dados amostrais que irão gerar as estimativas para os
parâmetros populacionais.

Tabela - Exemplos de parâmetros e seus respectivos estimadores
             Parâmetros                                   Estimadores

          Média populacional                            Média amostral
                  µ                                           X
      Desvio-padrão populacional                    Desvio-padrão amostral
                  σ                                           s
        Proporção populacional                        Proporção amostral
                  p                                           pˆ


Há dois tipos de estimação de parâmetros: a estimação por ponto e por intervalo.
Também existe uma outra forma de inferência estatística muito utilizada em situações
práticas: os testes de hipóteses.


5.2 Distribuição Amostral das Médias

A base da estatística inferencial é o TEOREMA DO LIMITE CENTRAL.

O teorema diz que se extrairmos TODAS as possíveis amostras de tamanho n de uma
população de tamanho N a distribuição das médias amostrais X tende a se distribuir
como uma curva Normal com média igual ao parâmetro µ e desvio-padrão σ n .

Exemplo – População de tamanho N = 5

Considere a seguinte população de cinco elementos e X = Idade (anos)

      20    30     40    50    60     70
      A     B      C     D     E      F

   a) Quais são os parâmetros populacionais?
   b) Quantas amostras diferentes de tamanho n=2 podemos extrair da população?
Bioestatística – Prof. Hélio Radke Bittencourt Pág. 36


Exemplo – Selecionando uma amostra na sala de aula

Suponha que seja necessário selecionar uma amostra de n=5 alunos da turma para
representar a nossa turma numa reunião na reitoria. Qual o número de amostras
possíveis de serem selecionadas?




Exemplo – População com média 0,5

Considere uma população infinitamente grande com média µ = 0,5 . Vamos avaliar as
distribuições amostrais da média amostral X com n = 30 e 300.

    2,0                                                3,5
                                                       3,0
    1,5                                                2,5
                                                       2,0
    1,0
                                                       1,5

    0,5                                                1,0
                                                       0,5
    -                                                  -
          0    0,2     0,4       0,6    0,8   1              0   0,2     0,4       0,6    0,8    1
                     Médias amostrais                                  Médias amostrais


                          n = 30                                         n = 300

Percebemos claramente que com o aumento do tamanho amostral a distribuição de X
fica cada vez mais concentrada em torno do parâmetro µ. Isso quer dizer que, quanto
maior amostra maior a possibilidade de acerto.


RESULTADO

                                                                                                σ
X         tem distribuição Normal com             Média = µ      e      Desvio-padrão =
                                                                                                 n
Bioestatística – Prof. Hélio Radke Bittencourt Pág. 37




5.3 – Estimação por ponto e por intervalos de confiança

5.3.1 – Estimação por ponto

Visa estimar o valor do parâmetro através de estimativas pontuais (únicas). A vantagem
é ser de fácil interpretação e rápida, mas a probabilidade de acerto “na mosca” é
praticamente nula, pois os estimadores podem ser encarados como variáveis aleatórias
contínuas.


Exemplo – World Trade Center

Um mês após o ataque ao WTC de NY perguntamos a 1000 americanos, escolhidos de
maneira aleatória, se estão com medo de viajar em vôos domésticos em território
americano.

Se 852 pessoas da amostra afirmam estar com medo, podemos estimar que 85,2% dos
americanos estão com medo de viajar de avião após os ataques terroristas de
11/Set/2001.


5.3.2 – ESTIMAÇÃO POR INTERVALO DE CONFIANÇA

Consiste em cercar o valor da estimativa pontual por uma região cuja probabilidade de
conter o verdadeiro parâmetro seja conhecida.


NOTAÇÕES que serão utilizadas a partir de agora

α (alfa) = nível de significância          1 - α = nível de confiança

                                                                                              α
t         α   = valor da distribuição t de Student com n-1 graus de liberdade e área            à
    n −1;
          2
                                                                                              2
direita.

                                                         α
z α = valor da distribuição normal padrão com área         à direita.
     2
                                                         2
Bioestatística – Prof. Hélio Radke Bittencourt Pág. 38


1o ) Intervalo de Confiança para µ (teórico)

Conhecendo o teorema do limite central podemos construir intervalos de confiança para
a média populacional. Para isso basta cercarmos a estimativa pontual X por um
intervalo cuja probabilidade de conter o parâmetro seja conhecida.

                                              σ    N −n
I.C. para µ com 1-α de confiança =  X ± z α ×    ×      
                                   
                                          2    n   N −1 
                                                         


Na fórmula de IC acima percebemos a presença de um parâmetro (σ). Se estamos
procurando um intervalo de confiança para µ é porque NÃO conhecemos µ. É
praticamente impossível conhecermos σ e não conhecermos µ. Por isso esse resultado
acaba sendo INÚTIL na prática.


2o ) Intervalo de Confiança para µ (prático)

Ao substituirmos o parâmetro σ por seu estimador s , a distribuição amostral de X
deixa de ter uma distribuição Normal e passa a ter uma distribuição t de Student. Desta
forma os Intervalos de confiança podem ser utilizados em situações práticas.

                                                 s    N −n
I.C. para µ com 1-α de confiança =  X ± t α ×       ×      
                                   
                                   
                                          n −1,
                                                2  n   N −1 
                                                            


                          N −n
Obs: O fator de correção         é omitido em caso de populações infinitas. O EXCEL
                           N −1
simplesmente ignora esse fator de correção.

Exemplo:

Numa amostra de 121 paciente hígidos, a taxa média de glicemia foi de 135mg/dl com
um desvio-padrão de 13,69mg/dl.

Construir um IC 95% para a verdadeira taxa de glicemia desta população. Ignore o
fator de correção.

                                s 
I.C. 95% para µ =  X ± t α ×      
                        n −1,
                               2  n
Bioestatística – Prof. Hélio Radke Bittencourt Pág. 39


O EXCEL constrói Intervalos de Confiança sem o fator de correção com o comando
Estatísticas Descritivas que fica dentro da opção “Análise de Dados” no Menu
“Ferramentas”. Para incluir essa opção deve-se ir até “Ferramentas” → “Suplementos” e
assinalar a opção “Ferramentas de Análise”.

ATENÇÃO: é necessário ter o banco de dados digitado em EXCEL para fazer
isso.

Figura – Tela do Excel: Ferramentas > Análise de dados > Estatística Descritiva




Tabela - Saída do EXCEL:
               Glicemia
Média                         135,00
Erro padrão                     1,24
Mediana                       135,00
Modo                          146,00
Desvio padrão                  13,69
Variância da amostra          187,32
Intervalo                      70,00
Mínimo                        110,00
Máximo                        180,00
Soma                        16335,00
Contagem                         121
Nível de confiança(95,0%)       2,46
Bioestatística – Prof. Hélio Radke Bittencourt Pág. 40




3o) Intervalo de Confiança para uma proporção populacional p

A estimativa pontual para uma proporção é dada diretamente pela proporção amostral.
É muito útil construirmos um intervalo em torno da estimativa pontual que possua uma
probabilidade conhecida de conter a verdadeira proporção populacional.


                                   )                   p × (1 − p )
                                                        ˆ        ˆ     N −n
I.C. para p com 1-α de confiança =  p ± z α ×                       ×      
                                   
                                          2
                                                             n         N −1 
                                                                            

onde   z 0,05 =1,645 (90%)
        z 0,025 = 1,96 (95%)
        z 0,005 = 2,576 (99%)

                                N −n
Obs: O fator de correção             é omitido em caso de populações infinitas.
                                N −1


O EXCEL NÃO faz intervalos de confiança para proporções.




Exemplo – Proporção de canhotos da PUCRS

Numa amostra de n=_______ alunos de uma população de N=30.000 de toda PUCRS,
verificamos que _______ são canhotos.

a) Qual a estimativa pontual de canhotos?



b) Construa intervalos de confiança 95% e 99% para a proporção de canhotos. Agora
use o fator de correção.
Bioestatística – Prof. Hélio Radke Bittencourt Pág. 41



Cap. 6 Testes de Hipóteses
Os testes de hipótese constituem outra forma de inferência estatística. Hipóteses são
afirmações sobre parâmetros populacionais. Agora iremos testar se essas
hipóteses podem ser consideradas verdadeiras ou não.      Os testes de hipótese são
muito objetivos, pois o resultado final é a ACEITAÇÃO ou REJEIÇÃO da hipótese
formulada.

Etapas de um teste de hipóteses:
1.Formular as hipóteses
2.Definir qual o nível de significância será utilizado (alfa)
3.Verificar qual o teste adequado e calcular a estatística de teste
4.Decidir pela aceitação ou rejeição da hipótese de nulidade com base no p-value.
5.Conclusão experimental


A hipótese nula (Ho) é a hipótese sob a qual a teste é realizado. Essa hipótese será
ACEITA ou REJEITADA. Se os dados amostrais estiverem de acordo com a hipótese
nula formulada, a estatística de teste nos levará a uma aceitação. Por outro lado, se os
dados amostrais não estiverem em sintonia com a hipótese formulada, o teste nos
levará a uma rejeição da hipótese nula.

A hipótese alternativa (H1 ou Ha) é uma hipótese complementar a Ho. Por isso se
rejeitamos Ho, conseqüentemente aceitamos H1.

O nível de significância do teste (α) é definido pelo pesquisador. Ele significa a
probabilidade de cometermos erro tipo I, ou seja, rejeitarmos Ho sendo a mesma
verdadeira.

A decisão estatística é a REJEIÇÃO ou ACEITAÇÃO de Ho. Essa decisão está sujeita
aos seguintes erros:

Tabela – Tipos de Erros
                Realidade
Decisão                              Ho Verdadeira                     Ho Falsa
Aceito Ho                                 OK                          Erro tipo II
                                                                           β
Rejeito Ho                             Erro tipo I                        OK
                                           α

O erro do tipo I ou nível de significância (α) é controlado pelo pesquisador. O erro do
tipo II (β) é geralmente esquecido. Por esse motivo vamos sempre preferir uma
REJEIÇÃO do que uma ACEITAÇÃO. No caso de uma REJEIÇÃO ou tomamos a decisão
correta ou cometemos o erro com probabilidade α. Os valores de α mais utilizados são
5%, 1% e eventualmente 10%.
Bioestatística – Prof. Hélio Radke Bittencourt Pág. 42


A conclusão experimental consiste em explicar com palavras simples o resultado de
um teste de hipóteses.

Os testes que iremos estudar são os mais famosos e encontrados em praticamente
todos os livros de Estatística.

•   Teste   t de Student para uma média
•   Teste   t de Student para comparação de duas médias (amostras independentes)
•   Teste   t de Student para comparação de duas médias (amostras emparelhadas)
•   Teste   Qui-Quadrado (para variáveis organizadas na forma de uma tabela cruzada)

6.1 - Teste t de Student para uma média

É uma técnica que permite testarmos a hipótese de que a média populacional pode ser
considerada igual a um valor de referência, digamos µo.

Apresentação das hipóteses:
Ho : µ = µ o      Ho : µ = µ o   Ho : µ = µ o
                                 
Ha : µ ≠ µ o      Ha : µ > µ o   Ha : µ < µ o

    ↑↑
Iremos estudar apenas os testes bilaterais, ou seja, onde as hipóteses não são
direcionadas para um único sentido. As regiões de rejeição ficam nos dois lados da
curva.

A estatística de teste é dada por:

      x - µo
t=
      s/ n

Apesar de ser um procedimento simples, o EXCEL não realiza esse tipo de teste. Já, o
programa estatístico SPSS, por exemplo, faz.

As regiões de rejeição e aceitação do teste t são estabelecidas pelos valores de t,
conforme mostra o desenho a seguir de uma curva t com n-1 graus de liberade.
Bioestatística – Prof. Hélio Radke Bittencourt Pág. 43




Os valores de t são encontrados na tabela t entregue em sala de aula. Comparando o
valor da estatística de teste t calculado com os valores de t obtidos na tabela chegamos
a decisão estatística e podemos enunciar a conclusão experimental.

Apesar do EXCEL não fazer isso podemos utiliza-lo para calcular a média amostral e o
desvio-padrão.


Exercício:

O INMETRO está investigando se a quantidade de Paracetamol num dado comprimido
está de acordo com o valor nominal estampado no rótulo do medicamento (750mg).
Numa amostra de 20 comprimidos a média encontrada foi de 738mg com um desvio-
padrão de 11,85mg.

Teste a hipótese de que a quantidade média de paracetamol é igual ao valor nominal
informado pelo fabricante.
Bioestatística – Prof. Hélio Radke Bittencourt Pág. 44


Plus! Sobre o p-value
O p-value, valor de p ou significância da estatística é o valor informado na saída
dos softwares estatísticos. Esse número é, portanto, uma probabilidade que deve ser
comparada ao nível de significância adotado.

        Se p-value > nível de significância adotado, então ACEITAMOS Ho.
        Se p-value < nível de significância adotado, então REJEITAMOS Ho.


Exemplo – Saída do SPSS para o exercício do Paracetamol

                           One-Sample Statistics

                                                             Std.          Std. Error
                               N          Mean             Deviation         Mean
  Paracetamol (mg)                 20    738,0000           11,8544           2,6507



                                                  One-Sample Test

                                                             Test Value = 750
                                                                                          95% Confidence
                                                                                            Interval of the
                                                             Sig.         Mean                Difference
                            t                df           (2-tailed)    Difference       Lower         Upper
   Paracetamol (mg)        -4,527                  19            ,000     -12,0000      -17,5480        -6,4520




Exemplo – Regulando a máquina e re-inspecionando

Suponha que o fabricante tenha regulado a máquina e que a média agora seja de
749mg com o mesmo desvio.

                          One-Sample Statistics

                                                          Std.           Std. Error
                      N             Mean                Deviation          Mean
  PARECT                  20       749,0000              11,8544            2,6507




                                                   One-Sample Test

                                                           Test Value = 750
                                                                                             95% Confidence
                                                                                               Interval of the
                                                           Sig.            Mean                  Difference
                      t                 df              (2-tailed)       Difference         Lower         Upper
  PARECT              -,377                  19                ,710          -1,0000        -6,5480         4,5480
Bioestatística – Prof. Hélio Radke Bittencourt Pág. 45


6.2 Teste t de Student - duas amostras independentes

É uma técnica estatística que permite testarmos a hipótese de que duas médias
populacionais são idênticas. É extremamente utilizada para comparação de dois grupos
independentes.

Apresentação das hipóteses (caso bilateral):

Ho : µ1 = µ 2

Ha : µ1 ≠ µ 2


A estatística de teste tem uma forma um tanto “amigável”:


t=
                    (x1 - x2 )
      s1 × (n1 - 1) + s2 × (n2 − 1)  1
       2               2
                                        1 
                                   × + 
                                    n n 
             (n1 + n2 − 2 )          1  2




que deve ser comparado com uma distribuição t de Student com (n1+n2-2) graus de
liberdade

As regiões de rejeição e aceitação seguem a mesma lógica do teste anterior.


No EXCEL: Ferramentas → Análise de Dados → Teste t: duas amostras presumindo
variâncias equivalentes

ATENÇÃO: Esse teste só pode ser utilizado se a variância (ou desvios-padrão) das
duas populações em questão não forem muito diferentes.

Exercício:

Pesquisadores comportamentais criaram um índice para mensurar o grau de ansiedade
de vestibulandos. Esse índice vai de 0 (ansiedade mínima) até 100 (ansiedade máxima).
Dois grupos de vestibulandos foram investigados. O grupo 1 é formado por
vestibulandos de universidades públicas e o grupo 2 é formado por vestibulandos de
universidades privadas.

Resultados do levantamento realizado pelos pesquisadores:

Grupo 1   65 58 78 60 68 69 66 70 53 71 63 63          Média = 65,33        Desvio = 6,61
Grupo 2   62 63 36 34 56 50 42 57 46 68 48 42 52 43 43 Média = 49,47        Desvio = 10,07
Bioestatística – Prof. Hélio Radke Bittencourt Pág. 46


Exemplo – Tela e saída do EXCEL para o exemplo da Ansiedade




Teste-t: duas amostras presumindo variâncias equivalentes
                                  Grupo 1 Grupo 2
Média                              65,333      49,467
Variância                          43,697     101,410
Observações                        12,000     15,000
Variância agrupada                 76,016
Hipótese da diferença de média     0,000
gl                                 25,000
Stat t                              4,699
P(T<=t) uni-caudal                  0,000
t crítico uni-caudal               1,708
P(T<=t) bi-caudal (p-value)         0,000
t crítico bi-caudal                2,060
Bioestatística – Prof. Hélio Radke Bittencourt Pág. 47


6.3 Teste t de Student - duas amostras pareadas

Utilizado para testarmos a hipótese de que a média populacional ANTES e DEPOIS de
algum determinado “tratamento” ou “situação” sofreu alteração significativa.



Ho : µ Antes = µ Depois


Ha : µ Antes ≠ µ Depois

Hipóteses:

A estatística de teste baseia-se nas diferenças DEPOIS – ANTES para cada elemento da
amostra.

Estatística de teste:
        d
t=
     sd / n

onde d é a média das diferenças e sd é o desvio-padrão das diferenças.

As regiões de rejeição e aceitação do teste t são estabelecidas pelos valores de t.



No EXCEL: Ferramentas → Análise de Dados → Teste t: duas amostras em par


Exercício:

Deseja-se investigar o efeito do álcool sobre o reflexo na direção. Uma amostra de 10
motorista foi convidada a utilizar um simulador de direção antes e depois de ingerir
bebida e o tempo até uma reação (pisar no freio) foi verificado.

Motorista          Antes          Depois
    1               10              20
    2               80              70
    3               45              50
    4               60              80
    5               45              90
    6               100            120
    7               45              55
    8               80              90
    9               25              50
   10               50              60
Bioestatística – Prof. Hélio Radke Bittencourt Pág. 48


Exemplo – Tela e saída do Microsoft EXCEL




Teste-t: duas amostras em par para médias

                                 Antes      Depois
Média                             54,000      68,500
Variância                        726,667     778,056
Observações                       10,000      10,000
Correlação de Pearson              0,862
Hipótese da diferença de média     0,000
gl                                 9,000
Stat t                            -3,179
P(T<=t) uni-caudal                 0,006
t crítico uni-caudal               1,833
P(T<=t) bi-caudal                  0,011
t crítico bi-caudal                2,262
Bioestatística – Prof. Hélio Radke Bittencourt Pág. 49


6.4 TESTE DO QUI-QUADRADO (χ2)

O teste do qui-quadrado é uma importante prova para verificar associação entre duas
variáveis qualitativas (categóricas). A técnica verifica se há ou não associação entre as
variáveis linha e coluna de uma tabela cruzada.

Hipóteses do teste:

Ho: As variáveis linha e coluna da tabela são INDEPENDENTES.

Ha: Existe uma relação de dependência entre as variáveis linha e coluna da tabela


Para exemplificar o cálculo das estatística de teste nada melhor do que um exemplo. A
estatística de teste Qui-quadrado baseia-se na diferença entre os valores observados e
esperados em cada célula da tabela cruzada. Os valores esperados são calculados sob a
hipótese de independência.


Estatística de teste: χ ( l −1)( c −1) = ∑
                        2                    (Obs. − Esp.)2
                                                que deve ser comparado com o valor
                                      Esp.
tabelado da qui-quadrado com (l-1)(c-1) graus de liberade.


Exemplo

Investigar se o fato de fumar ou não está relacionado com a presença do fator fumo.


Tabela – Presença de câncer versus fator fumo
           Câncer      Sim          Não                         Total
Fumo
Sim                    50           100                         150


Não                           20                130             150


Total                         70                230             300




O EXCEL não faz o teste qui-quadrado. O SPSS e o MINITAB fazem.
Bioestatística – Prof. Hélio Radke Bittencourt Pág. 50




Exemplo – Tabela e saída do SPSS


                     Fuma? * Cancer Crosstabulation

                                                 Cancer
                                           Sim            Não        Total
 Fuma?     Sim      Count                      50           100         150
                    % within Fuma?         33,3%          66,7%      100,0%
           Não      Count                      20           130         150
                    % within Fuma?         13,3%          86,7%      100,0%
 Total              Count                      70           230         300
                    % within Fuma?         23,3%          76,7%      100,0%




                                       Chi-Square Tests

                                                            Asymp.
                                                              Sig.       Exact Sig.   Exact Sig.
                               Value             df        (2-sided)     (2-sided)    (1-sided)
  Pearson Chi-Square            16,770b               1          ,000
  Continuity Correctiona        15,671                1          ,000
  Likelihood Ratio              17,207                1          ,000
  Fisher's Exact Test                                                          ,000         ,000
  Linear-by-Linear
                                16,714                1           ,000
  Association
  N of Valid Cases                   300
    a. Computed only for a 2x2 table
    b. 0 cells (,0%) have expected count less than 5. The minimum expected count is 35,00.
Bioestatística – Prof. Hélio Radke Bittencourt Pág. 51


Cap. 7. CORRELAÇÃO E REGRESSÃO

7.1 O COEFICIENTE DE CORRELAÇÃO DE PEARSON

O coeficiente de correlação de Peason ( R ) é uma medida que varia no intervalo de –1
até +1 que visa quantificar o grau de relacionamento linear entre variáveis
quantitativas.

Valores próximos de +1 indicam forte correlação direta entre as variáveis enquanto que
valores próximos de –1 indicam forte correlação inversa. Valores em torno de zero
indicam ausência de correlação. Não vamos nos deter no cálculo do coeficiente de
correlação de Pearson, mas sim no seu funcionamento.

Vejamos na forma de gráficos de dispersão os possíveis tipos de correlação entre as
variáveis:




Vamos verificar a correlação existente entre as variáveis no arquivo exemplo a seguir:

             Número de     Horas de
 Indivíduo    erros (X)    Sono (Y)
     1            8           12
     2            7           13
     3            9           9
     4           12           6
     5           14           5
   Média      10,00         9,00
  Desvio       2,92         3,54

No EXCEL podemos utilizar o comando CORREL.
Bioestatística – Prof. Hélio Radke Bittencourt Pág. 52


Exemplo – Correlação usando o EXCEL




Exemplo – Outra forma de fazer correlação usando o EXCEL
Análise de dados > Correlação
Bioestatística – Prof. Hélio Radke Bittencourt Pág. 53


7.2 – Regressão Linear Simples

A técnica de Regressão Linear Simples estabelece uma relação de dependência entre
uma variável dependente Y e uma única variável independente X, supondo que o
relacionamento seja da forma linear:

                     Y = bo + b1X (clássica equação da reta)

Os termos bo e b1 são os parâmetros do modelo. Eles são estimados de forma a
maximizar a habilidade preditiva do modelo, conforme será mostrado no exemplo a
seguir.


Exemplo – Peso X Altura de indivíduos adultos
Bioestatística – Prof. Hélio Radke Bittencourt Pág. 54


Lista de Exercícios

Cap. 2 – Estatística Descritiva

1. Os dados a seguir referem-se ao número de cirurgias realizadas diariamente durante
a última quinzena do mês de julho em um determinado centro cirúrgico.

   2                                1     2      3      2   2        0      2        1     2     0    1     2    1     0

a) Organize os dados na forma de uma tabelas de freqüências.
b) Encontre as MTC's e interprete-as.
c) Encontre as Medidas de Variabilidade e interprete-as.

2. Os dados a seguir indicam a                                           taxa média de calorias diárias ingeridas pela população
de países da América Central.
        País         Calorias                                                   País             Calorias
Costa Rica             2760                                              Haiti                    1965
Domincan Republic      2310                                              Honduras                 2200
El Salvador            2270                                              Nicaragua                2215
Guatemala              2190                                              Panama                   2490
Fonte: OMS, 1995. (dados arredondados)

a) Encontrar as MTC´s e as Medidas de Variabilidade.
b) Suponha que, subitamente, todos os países passem a consumir 100 calorias a mais
na sua dieta diária. Quais seriam os novos valores das MTC's e das MV?
c) Suponha que, subitamente, todos os países aumentem a sua dieta calórica em 10%.
Quais seriam os novos valores das MTC's e das MV?

3. O índice de massa corporal (IMC) é o resultado da divisão entre o peso (em kg) e o
quadrado da altura (em m). A OMS classifica o IMC da seguinte forma: magro, normal,
sobrepeso e obesidade. O gráfico a seguir apresenta a distribuição do peso de 200
bailarinas gaúchas. Os dados são inspirados em um TCC do curso de Psicologia.
                               60

                                                              56
                               50



                               40

                                               38
   Freqüência Relativa (fri)




                               30



                               20



                               10

                                                                                 6
                               0
                                              M agro        Normal          Sobrepeso


                                    Categorias do IMC



a) Construa uma tabela de freqüências completa a partir do gráfico.
Bioestatística – Prof. Hélio Radke Bittencourt Pág. 55


4. A tabela a seguir informa as estatísticas descritivas para a estatura (em cm) de
adolescentes na faixa dos 10-11 anos, separadamente para o sexo masculino e
feminino. Os dados fazem parte de um banco de dados real.

                               Masculino Feminino
                                (n=97)    (n=79)
Mean (Média)                      155,17    146,41
Median (Mediana)                  160,30    151,00
Range (Amplitude)                  72,30     55,70
Variance                          282,55    205,71
Std. Deviation (Desvio-padrão)     16,81     14,34
Minimum                           112,30    111,80
Maximum                           184,60    167,50

a) Comente os resultados. Qual sexo apresenta maior variação na altura?

b) Interprete os percentis apresentados na tabela abaixo.

            Sexo                  P25     P50         P75         P90
Masculino                        143.9   160.3       167.3       173.6
Feminino                         136.0   151.0       155.5       162.1


5. Uma amostra de 20 borboletas de uma determinada espécie revelou os seguintes
comprimentos de asas (em cm)

 3,0    3,0        3,1     3,1    3,2    3,3      3,4      3,5     3,5     3,6      3,6     3,6
 3,6    3,6        3,7     3,7    3,8    3,8      3,9      4,0

a) Organize os dados numa tabela de freqüências.
b) Encontre as MTC´s e interprete-as.
c) Encontre as Medidas de Variabilidade e interprete.
d) Qual gráfico seria apropriado para esse tipo de variável?


6. Considere uma amostra de 9 árvores e que os números a seguir representem a
altura das árvores (cm) após um ano de plantio.

  152       142          190      154     165        175         157       157        148

a) Encontre as MTC´s.
b) Encontre as Medidas de Variabilidade
c) Aumente o tamanho de todas as árvores em 10cm. Quais seriam os novos valores
das MTC´s e das MV´s?
d) Aumente o tamanho de todas as árvores em 10%. Quais seriam os novos valores
das MTC´s e das MV´s?
Bioestatística – Prof. Hélio Radke Bittencourt Pág. 56


Cap. 3 - Probabilidade

7. (Probabilidade) Numa determinada população existem 200 pessoas, sendo 120 do
sexo feminino e o restante do sexo masculino. Sabe-se que existe nessa população 40
fumantes, dos quais 25 são homens. Se eu escolher uma pessoa dessa população ao
acaso, encontre:
a) A probabilidade de ser não-fumante.
b) Se a pessoa que eu sortear for do sexo feminino, qual a probabilidade dela ser
fumante?

8. (Probabilidade) A probabilidade de um exame resultar num falso-negativo em casos
de AIDS é de 10%. Se uma pessoa com AIDS faz exame em três diferentes
laboratórios, qual a probabilidade de que os três exames resultem negativos?

9. Uma caixa (caixa A) contém três ratos brancos e 1 preto. Outra caixa (caixa B)
contém 4 ratos pretos e 1 branco. Você retira aleatoriamente um rato de cada caixa:
a) Escreva o espaço amostral S.
b) Calcule as probabilidades de cada resultado possível.

10. (Binomial) A probabilidade de nascer um cão labrador cor chocolate no cruzamento
de um labrador amarelo com um preto é de 1 em 8. Admita que uma fêmea amarela
ficou prenha de um labrador preto e teve 8 filhotes:
a) Defina o que será considerado um sucesso para calcular via binomial.
b) Defina a variável X e os parâmetros "n" e "p".
c) Qual a probabilidade que não nasça labrador chocolate?
d) Qual a probabilidade de nascer no máximo dois labradores chocolate?
e) Qual o número esperado de labradores chocolate. Utilize o seguinte resultado para
facilitar os cálculos: na binomial E(X) = n . p


11. (Normal) A altura de meninos americanos adolescentes segue uma distribuição
normal com média de 1,70m e desvio-padrão de 12,2m. Você sabe tem um amigo
americano, com o qual se comunica pela Internet, e que é adolescente. Qual a
probabilidade desse rapaz ter mais de 1,80m?


12. (Normal) A expectativa de vida na Índia é de 58 anos e em Bangladesh é de 53
anos, segundo dados da ONU (1995). Admita que a expectativa de vida siga uma
distribuição aproximadamente normal e que o desvio-padrão na Índia seja de 12 anos e
em Bangladesh seja de 7 anos.
a) Em qual país é mais provável de encontrarmos um habitante com mais de 65 anos?


13. O que é mais provável: acertar na Mega-Sena jogando um único cartão ou acertar
todas as questões da prova de Biologia do vestibular da UFRGS (30 questões, 5
alternativas cada) chutando todas as respostas aleatoriamente e não permitindo que a
resposta dada a uma questão influencie na outra...
Bioestatística – Prof. Hélio Radke Bittencourt Pág. 57


Cap 5 – Estimação por Ponto e por Intervalo

14. Suponha que temos uma população composta de 10 animais, cujos valores de
anticorpos de cada animal são os seguintes:

  Animal       1       2       3        4       5        6        7        8        9       10
Anticorpos    1700    1500    1800     1600    1600     1800     1700     1900     1900     1500

     a) Quais são os parâmetros média e desvio-padrão dessa população?
     b) Você só tem tempo de analisar 4 animais para estimar a média de anticorpos
        nessa população. Quantas possíveis amostras de 4 animais você pode obter a
        partir dessa população (amostragem sem reposição)?
     c) Como ficaria a distribuição das médias amostrais?


15. O FBI quer investigar a verdadeira proporção de casos de ANTRAZ dentre os 450
funcionários que trabalham no prédio dos Correios de Washington. Como o
procedimento de análise é caro e demorado, eles decidem trabalhar por amostragem.

     a) Quantas amostras de 30 funcionários poderiam ser obtidas nessa população
        (sem reposição)?
     b) Qual o comportamento probabilístico esperado das proporções amostrais p ?
                                                                              ˆ

16. Você está estudando a concentração de coliformes fecais em determinada lagoa.
Para isso define 10 pontos de amostragem com objetivo de estimar a concentração
média da lagoa. Os valores encontrados em (ppm) foram os seguintes:

12     15     32     14      25   28     25       12      14      16

a) Estime por ponto a concentração média de coliformes fecais nessa lagoa.
b) Estime por intervalo de confiança de 95% a concentração média (...)
c) Interprete o intervalo


17. Dizem que a proporção de homens fumantes é semelhante a proporção de
mulheres fumantes. Numa amostra de 240 mulheres, 35 se declararam fumantes,
enquanto que dentre os 300 homens investigados, 54 eram fumantes.
a) Calcule um IC de 95% para a proporção de homens fumantes.
b) Calcule um IC de 95% para a proporção de mulheres fumantes.
c) Interprete os resultados. Há chance das duas proporções de fumantes serem iguais?


18. No exercício 14 retire uma amostra de tamanho 4 e construa um I.C. 95% para o
verdadeiro valor médio de anticorpos da população.
Bioestatística – Prof. Hélio Radke Bittencourt Pág. 58




19. Suponha que no exercício 15, uma amostra de n=30 funcionários levou a estimativa
de 26,67% de casos positivos.
   a) Construa um I.C. 95% para a proporção de casos positivos.
   b) Qual o tamanho amostral necessário para estimarmos essa proporção com 5% e
      3% de margem de erro, mantendo o nível de confiança em 95%.

20. A Dra. Lizanka Marinheiro da FIOCRUZ-RJ estudou o comportamento da variável
“Receptor de Estrogênio” em pacientes do sexo feminino sujeitas a dois diferentes tipos
de tratamentos:
1o) A base de Estrogênio e Progesterona;
2o) A base de Estrogênio.

As estatísticas descritivas para essa variável, após os dois tratamentos, encontram-se a
seguir.
                                                 Desvio-
       Tratamento              n       Média     padrão
Estrogênio e
Progesterona                  19       12,37      32,85
Estrogênio                    31       15,77      15,25

   a) Construa I.C. 95% para as médias do Receptor de Estrogênio nos dois grupos.
   b) Qual seria o tamanho amostral necessário para estimar a média de receptor de
      Estrogênio com margem de erro de apenas 5 unidades?
   c) Faça um gráfico que esboce a relação margem de erro versus tamanho amostral.



Cap. 6 – Testes de Hipóteses

21. Teste a hipótese de que no exercício 5 nós temos uma concentração média de
coliformes fecais de 20 ppm na lagoa. Utilize um nível de significância bilateral de 5%.


22. A tabela a seguir informa as estatísticas descritivas para a estatura (em cm) de
adolescentes na faixa dos 15 a 16 anos, separadamente para o sexo masculino e
feminino. Os dados fazem parte de um banco de dados real.

                          Masculin Feminino
                             o      (n=79)
                          (n=97)
Mean (Média)              155,17    146,41
Std. Deviation (Desvio-    16,81     14,34
padrão)

a) Faça um teste para comparação da altura média por sexo, utilizando um nível de
significância de 10%.
Bioestatística – Prof. Hélio Radke Bittencourt Pág. 59




23. (Teste t para amostras emparelhadas) Foi realizado um experimento com 5 atletas
onde foi solicitado que eles fizessem uma corrida de 100m sem a utilização de
anabolizantes e numa outra ocasião com a utilização dos estimulantes. Compare os
resultados pelo teste t ao nível de 5%.

Atleta      1         2      3       4       5
Sem anabol.           12,1   12,6    13,0    14,1   12,9
Com anabol. 10,8      12,5   12,7    13,8    12,4


24. O EAT-26 é um teste para atitudes alimentares que indica padrão anormal de
alimentação quando o escore ultrapassa 20 pontos. O Dr. Barros na revista Aletheia
(1999) mostrou que, dentre os 367 adolescentes do sexo feminino, 92 apresentaram
transtornos alimentares, enquanto que dentre os 439 do sexo masculino, 24
apresentaram.
    a) Realize um teste qui-quadrado ao nível de 1% e indique se existe diferença
       significativa entre os dois sexos.
    b) Você achou o tamanho amostral suficiente para fazer esse teste?


25. Uma escala de auto-estima bastante utilizada em Psicologia é composta de 10 itens,
cuja soma da pontuação obtida nesses itens indica nível de auto-estima da pessoa
numa escala que vai de 10 (mínimo) até 50 (máximo).

O TCC da aluna de psicologia Suzana de 1999 mostrou um comparativo entre dois
grupos de pessoas com problemas de alcoolismo:

   Tempo de Abstinência         n           Média     D.P.
Até 6 meses                     44          23,86     5,07
Mais de 6 meses                 39          30,36     3,38

a) Compare os grupos pelo teste t adotando um nível de significância de 1%.


26. Para os dados da tabela abaixo, composta de 100 fumantes, realize um teste qui-
quadrado. Os dados foram extraídos de Everitt (1992).

  Quantidade diária de
        cigarros                        Idade
                                            Mais de 40
                              Até 40 anos     anos                 Total
Menos de 20 cigarros               50           15                  65

20 cigarros ou mais                 10              25              35

Total                               60              40             100
Bioestatística – Prof. Hélio Radke Bittencourt Pág. 60




27. Estudantes de fisioterapia estão estudando a evolução        da flexão de tronco com a
realização de um dado tratamento. Ao todo, sete pacientes        participaram do estudo e a
flexão inicial e a final foram anotadas.
   Paciente         1        2       3     4       5              6          7
Antes              45        60      40    42     60              55         47
Depois             52        70      60    52     65              63         57

a) O Tratamento é eficiente? Realize um teste t apropriado.

28. Num estudo sobre o metabolismo do citrato no fígado foram tomadas amostras de
sangue da veia hepática de dez indivíduos normais e de indivíduos com uma certa
deficiência, obtendo-se os seguintes resultados de citrato (em mg/ml).

                        Indivíduos    Indivíduos com
                         normais        deficiência
     Média                22,08            29,94
Desvio-padrão              5,58             4,14
Obs.: Dados fictícios

a) Compare os dois grupos ao nível de significância de 5%.


29. Os dados a seguir indicam o Volume de Oxigênio por kg em dois grupos de jovens
(asmáticos e não-asmáticos).

                                                  Desvio-
          Grupo                  n    Média       padrão
Não Asmáticos                    18   32,57        4,67
Asmáticos                        17   43,10        4,21

   a) Os grupos diferem de acordo com o teste t ao nível de significância de 5%?

30. O medicamento FULCIN 500mg diz ter essa quantidade da substância ativa
Griseofulvina. Numa amostra de 100 comprimidos de FULCIN chegamos a uma média
de 470mg com um desvio-padrão de 45mg.

   a) Realize um teste t contra o valor de referência e tire a sua conclusão.

Cap. 7 - Correlação e Regressão (?)

31. Os dados a seguir apresentam o tempo que pedaços de tecido permaneceram
embebidos numa determinada substância e o grau de absorção verificado.

Tempo (s)           10         20     30        40          50
Absorção          120         190     330      370        490
Bioestatística – Prof. Hélio Radke Bittencourt Pág. 61


                                           TABELA Z

Tabela: Probabilidades acumuladas associadas aos valores críticos (z) da distribuição normal
reduzida
 z     0,00     0,01     0,02     0,03     0,04       0,05      0,06     0,07      0,08     0,09
0,0   0,5000   0,5040   0,5080   0,5120   0,5160     0,5199    0,5239   0,5279    0,5319   0,5359
0,1   0,5398   0,5438   0,5478   0,5517   0,5557     0,5596    0,5636   0,5675    0,5714   0,5753
0,2   0,5793   0,5832   0,5871   0,5910   0,5948     0,5987    0,6026   0,6064    0,6103   0,6141
0,3   0,6179   0,6217   0,6255   0,6293   0,6331     0,6368    0,6406   0,6443    0,6480   0,6517
0,4   0,6554   0,6591   0,6628   0,6664   0,6700     0,6736    0,6772   0,6808    0,6844   0,6879

0,5   0,6915   0,6950   0,6985   0,7019   0,7054     0,7088    0,7123   0,7157    0,7190   0,7224
0,6   0,7257   0,7291   0,7324   0,7357   0,7389     0,7422    0,7454   0,7486    0,7517   0,7549
0,7   0,7580   0,7611   0,7642   0,7673   0,7704     0,7734    0,7764   0,7794    0,7823   0,7852
0,8   0,7881   0,7910   0,7939   0,7967   0,7995     0,8023    0,8051   0,8078    0,8106   0,8133
0,9   0,8159   0,8186   0,8212   0,8238   0,8264     0,8289    0,8315   0,8340    0,8365   0,8389

1,0   0,8413   0,8438   0,8461   0,8485   0,8508     0,8531    0,8554   0,8577    0,8599   0,8621
1,1   0,8643   0,8665   0,8686   0,8708   0,8729     0,8749    0,8770   0,8790    0,8810   0,8830
1,2   0,8849   0,8869   0,8888   0,8907   0,8925     0,8944    0,8962   0,8980    0,8997   0,9015
1,3   0,9032   0,9049   0,9066   0,9082   0,9099     0,9115    0,9131   0,9147    0,9162   0,9177
1,4   0,9192   0,9207   0,9222   0,9236   0,9251     0,9265    0,9279   0,9292    0,9306   0,9319

1,5   0,9332   0,9345   0,9357   0,9370   0,9382     0,9394    0,9406   0,9418    0,9429   0,9441
1,6   0,9452   0,9463   0,9474   0,9484   0,9495     0,9505    0,9515   0,9525    0,9535   0,9545
1,7   0,9554   0,9564   0,9573   0,9582   0,9591     0,9599    0,9608   0,9616    0,9625   0,9633
1,8   0,9641   0,9649   0,9656   0,9664   0,9671     0,9678    0,9686   0,9693    0,9699   0,9706
1,9   0,9713   0,9719   0,9726   0,9732   0,9738     0,9744    0,9750   0,9756    0,9761   0,9767

2,0   0,9772   0,9778   0,9783   0,9788   0,9793     0,9798    0,9803   0,9808    0,9812   0,9817
2,1   0,9821   0,9826   0,9830   0,9834   0,9838     0,9842    0,9846   0,9850    0,9854   0,9857
2,2   0,9861   0,9864   0,9868   0,9871   0,9875     0,9878    0,9881   0,9884    0,9887   0,9890
2,3   0,9893   0,9896   0,9898   0,9901   0,9904     0,9906    0,9909   0,9911    0,9913   0,9916
2,4   0,9918   0,9920   0,9922   0,9925   0,9927     0,9929    0,9931   0,9932    0,9934   0,9936

2,5   0,9938   0,9940   0,9941   0,9943   0,9945     0,9946    0,9948   0,9949    0,9951   0,9952
2,6   0,9953   0,9955   0,9956   0,9957   0,9959     0,9960    0,9961   0,9962    0,9963   0,9964
2,7   0,9965   0,9966   0,9967   0,9968   0,9969     0,9970    0,9971   0,9972    0,9973   0,9974
2,8   0,9974   0,9975   0,9976   0,9977   0,9977     0,9978    0,9979   0,9979    0,9980   0,9981
2,9   0,9981   0,9982   0,9982   0,9983   0,9984     0,9984    0,9985   0,9985    0,9986   0,9986

3,0   0,9987   0,9987   0,9987   0,9988   0,9988     0,9989    0,9989   0,9989    0,9990   0,9990
3,1   0,9990   0,9991   0,9991   0,9991   0,9992     0,9992    0,9992   0,9992    0,9993   0,9993
3,2   0,9993   0,9993   0,9994   0,9994   0,9994     0,9994    0,9994   0,9995    0,9995   0,9995
3,3   0,9995   0,9995   0,9995   0,9996   0,9996     0,9996    0,9996   0,9996    0,9996   0,9997
3,4   0,9997   0,9997   0,9997   0,9997   0,9997     0,9997    0,9997   0,9997    0,9997   0,9998
Bioestatística – Prof. Hélio Radke Bittencourt Pág. 62


TABELA t
Bioestatística – Prof. Hélio Radke Bittencourt Pág. 63




Bibliografia:

Além deste material, os seguintes livros podem ser consultados.

VIEIRA, Sonia. Introdução à Bioestatística. Editora Campus.

LEVIN, Jack. Estatística Aplicada a Ciências Humanas. Editora Harbra.

Weitere ähnliche Inhalte

Was ist angesagt?

Estatística - Aula 2 - Estatística descritiva
Estatística - Aula 2 - Estatística descritivaEstatística - Aula 2 - Estatística descritiva
Estatística - Aula 2 - Estatística descritivaHelder Lopes
 
Fases do trabalho estatístico
Fases do trabalho estatísticoFases do trabalho estatístico
Fases do trabalho estatísticoJosimar Nunes
 
Estatística e probabilidade - 7 Medidas de Variabilidade
Estatística e probabilidade - 7 Medidas de VariabilidadeEstatística e probabilidade - 7 Medidas de Variabilidade
Estatística e probabilidade - 7 Medidas de VariabilidadeRanilson Paiva
 
Distribuicao de probabilidades
Distribuicao de probabilidadesDistribuicao de probabilidades
Distribuicao de probabilidadesvagnergeovani
 
Estatística básica
Estatística básicaEstatística básica
Estatística básicaJose_ferreira
 
amostragem
amostragemamostragem
amostragemsocram01
 
Cepp5 aula 01 - fundamentos de estatística
Cepp5   aula 01 - fundamentos de estatísticaCepp5   aula 01 - fundamentos de estatística
Cepp5 aula 01 - fundamentos de estatísticaLuciana C. L. Silva
 

Was ist angesagt? (20)

Amostragem mauro grisi21092016
Amostragem mauro grisi21092016Amostragem mauro grisi21092016
Amostragem mauro grisi21092016
 
Estatistica descritiva
Estatistica descritiva Estatistica descritiva
Estatistica descritiva
 
Estatística - Aula 2 - Estatística descritiva
Estatística - Aula 2 - Estatística descritivaEstatística - Aula 2 - Estatística descritiva
Estatística - Aula 2 - Estatística descritiva
 
Regressão linear simples
Regressão linear simplesRegressão linear simples
Regressão linear simples
 
Fases do trabalho estatístico
Fases do trabalho estatísticoFases do trabalho estatístico
Fases do trabalho estatístico
 
Aula 01 introdução a estatística
Aula 01   introdução a estatísticaAula 01   introdução a estatística
Aula 01 introdução a estatística
 
Tipos de estudo
Tipos de estudoTipos de estudo
Tipos de estudo
 
Estatística e probabilidade - 7 Medidas de Variabilidade
Estatística e probabilidade - 7 Medidas de VariabilidadeEstatística e probabilidade - 7 Medidas de Variabilidade
Estatística e probabilidade - 7 Medidas de Variabilidade
 
Distribuicao de probabilidades
Distribuicao de probabilidadesDistribuicao de probabilidades
Distribuicao de probabilidades
 
Estatística
EstatísticaEstatística
Estatística
 
Estatística básica
Estatística básicaEstatística básica
Estatística básica
 
Slide conjuntos
Slide conjuntosSlide conjuntos
Slide conjuntos
 
Aula 20 medidas de assimetria
Aula 20   medidas de assimetriaAula 20   medidas de assimetria
Aula 20 medidas de assimetria
 
Estatistica conceitos
Estatistica conceitosEstatistica conceitos
Estatistica conceitos
 
Regressão Linear Múltipla
Regressão Linear MúltiplaRegressão Linear Múltipla
Regressão Linear Múltipla
 
Conjuntos
ConjuntosConjuntos
Conjuntos
 
Moda, Média e Mediana
Moda, Média e MedianaModa, Média e Mediana
Moda, Média e Mediana
 
Porcentagem
PorcentagemPorcentagem
Porcentagem
 
amostragem
amostragemamostragem
amostragem
 
Cepp5 aula 01 - fundamentos de estatística
Cepp5   aula 01 - fundamentos de estatísticaCepp5   aula 01 - fundamentos de estatística
Cepp5 aula 01 - fundamentos de estatística
 

Ähnlich wie Bioestatistica

Curso_de_Estatística_Aplicada_Usando_o_R.ppt
Curso_de_Estatística_Aplicada_Usando_o_R.pptCurso_de_Estatística_Aplicada_Usando_o_R.ppt
Curso_de_Estatística_Aplicada_Usando_o_R.pptssuser2b53fe
 
Curso_de_Estatística_Aplicada_Usando_o_R.ppt
Curso_de_Estatística_Aplicada_Usando_o_R.pptCurso_de_Estatística_Aplicada_Usando_o_R.ppt
Curso_de_Estatística_Aplicada_Usando_o_R.pptssuser2b53fe
 
1-bioestatstica-140320051658-phpapp02.pdf
1-bioestatstica-140320051658-phpapp02.pdf1-bioestatstica-140320051658-phpapp02.pdf
1-bioestatstica-140320051658-phpapp02.pdfLuizAntnioDosSantos3
 
bioestatística - 1 parte
bioestatística - 1 partebioestatística - 1 parte
bioestatística - 1 parteRobson Odé
 
Curso_de_Estatística_Aplicada_Usando_o_R.ppt
Curso_de_Estatística_Aplicada_Usando_o_R.pptCurso_de_Estatística_Aplicada_Usando_o_R.ppt
Curso_de_Estatística_Aplicada_Usando_o_R.pptssuser2b53fe
 
Uma Breve Revisão sobre Bioestatística no GESME
Uma Breve Revisão sobre Bioestatística no GESMEUma Breve Revisão sobre Bioestatística no GESME
Uma Breve Revisão sobre Bioestatística no GESMERilva Lopes de Sousa Muñoz
 
Apostila curso estatistica_goes
Apostila curso estatistica_goesApostila curso estatistica_goes
Apostila curso estatistica_goesStefania Helena
 
Curso_de_Estatística_Aplicada_Usando_o_R.ppt
Curso_de_Estatística_Aplicada_Usando_o_R.pptCurso_de_Estatística_Aplicada_Usando_o_R.ppt
Curso_de_Estatística_Aplicada_Usando_o_R.pptssuser2b53fe
 
Ficha de-trabalho-sobre-estatistica
Ficha de-trabalho-sobre-estatisticaFicha de-trabalho-sobre-estatistica
Ficha de-trabalho-sobre-estatisticaAna Colaco
 
Probabilidade estatatìstica e contabilidade
Probabilidade estatatìstica e contabilidadeProbabilidade estatatìstica e contabilidade
Probabilidade estatatìstica e contabilidadeLeonel Boano
 

Ähnlich wie Bioestatistica (20)

Estatística Descritiva
Estatística DescritivaEstatística Descritiva
Estatística Descritiva
 
Curso_de_Estatística_Aplicada_Usando_o_R.ppt
Curso_de_Estatística_Aplicada_Usando_o_R.pptCurso_de_Estatística_Aplicada_Usando_o_R.ppt
Curso_de_Estatística_Aplicada_Usando_o_R.ppt
 
Aula7
Aula7Aula7
Aula7
 
Curso_de_Estatística_Aplicada_Usando_o_R.ppt
Curso_de_Estatística_Aplicada_Usando_o_R.pptCurso_de_Estatística_Aplicada_Usando_o_R.ppt
Curso_de_Estatística_Aplicada_Usando_o_R.ppt
 
1-bioestatstica-140320051658-phpapp02.pdf
1-bioestatstica-140320051658-phpapp02.pdf1-bioestatstica-140320051658-phpapp02.pdf
1-bioestatstica-140320051658-phpapp02.pdf
 
bioestatística - 1 parte
bioestatística - 1 partebioestatística - 1 parte
bioestatística - 1 parte
 
Curso_de_Estatística_Aplicada_Usando_o_R.ppt
Curso_de_Estatística_Aplicada_Usando_o_R.pptCurso_de_Estatística_Aplicada_Usando_o_R.ppt
Curso_de_Estatística_Aplicada_Usando_o_R.ppt
 
AULA POWER POINT.ppt
AULA POWER POINT.pptAULA POWER POINT.ppt
AULA POWER POINT.ppt
 
Fundamentos da estatística
Fundamentos da estatísticaFundamentos da estatística
Fundamentos da estatística
 
Uma Breve Revisão sobre Bioestatística no GESME
Uma Breve Revisão sobre Bioestatística no GESMEUma Breve Revisão sobre Bioestatística no GESME
Uma Breve Revisão sobre Bioestatística no GESME
 
Apostila curso estatistica_goes
Apostila curso estatistica_goesApostila curso estatistica_goes
Apostila curso estatistica_goes
 
Curso_de_Estatística_Aplicada_Usando_o_R.ppt
Curso_de_Estatística_Aplicada_Usando_o_R.pptCurso_de_Estatística_Aplicada_Usando_o_R.ppt
Curso_de_Estatística_Aplicada_Usando_o_R.ppt
 
Ficha de-trabalho-sobre-estatistica
Ficha de-trabalho-sobre-estatisticaFicha de-trabalho-sobre-estatistica
Ficha de-trabalho-sobre-estatistica
 
Probabilidade estatatìstica e contabilidade
Probabilidade estatatìstica e contabilidadeProbabilidade estatatìstica e contabilidade
Probabilidade estatatìstica e contabilidade
 
Estdescr
EstdescrEstdescr
Estdescr
 
Estatística para Ciências Sociais
Estatística para Ciências SociaisEstatística para Ciências Sociais
Estatística para Ciências Sociais
 
Apostila de estatistica
Apostila de estatisticaApostila de estatistica
Apostila de estatistica
 
Introdução a Estatistica 2.pdf
Introdução a Estatistica 2.pdfIntrodução a Estatistica 2.pdf
Introdução a Estatistica 2.pdf
 
Estdescr1
Estdescr1Estdescr1
Estdescr1
 
Estatística Descritiva
Estatística DescritivaEstatística Descritiva
Estatística Descritiva
 

Bioestatistica

  • 1. PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO GRANDE DO SUL FACULDADE DE MATEMÁTICA DEPARTAMENTO DE ESTATÍSTICA Bioestatística Prof. Hélio Radke Bittencourt 1. CONCEITOS BÁSICOS DE ESTATÍSTICA 1.1 Conjuntos de dados. População e Amostra 1.2 Tipos de variáveis 1.3 Escalas de mensuração 1.4 Estatística descritiva e inferencial 2. ESTATÍSTICA DESCRITIVA 2.1 Tabelas de freqüência simples e cruzadas 2.2 Análise gráfica 2.3 Medidas de Tendência Central 2.4 Separatrizes 2.5 Medidas de Variabilidade 3. PROBABILIDADE 3.1 Principais conceitos 3.2 Variáveis aleatórias discretas 3.3 Variáveis aleatórias contínuas 4. AMOSTRAGEM 4.1 Conceitos básicos 4.2 Técnicas de amostragem probabilísticas 4.3 Técnicas de amostragem não-probabilística 5. DISTRIBUIÇOES AMOSTRAIS E ESTIMAÇÃO 5.1 Parâmetros e Estimadores 5.2 Distribuição amostral da média 5.3 Estimação por ponto e por intervalo de confiança 6. TESTES DE HIPÓTESES 6.1 Teste t de Student para uma média 6.2 Testes t de Student - duas amostras independentes 6.3 Testes t de Student - duas amostras pareadas 6.4 Teste Qui-quadrado 7. CORRELAÇÃO E REGRESSÃO 7.1 Coeficiente de correlação de Pearson 7.2 Regressão Linear Simples
  • 2. Bioestatística – Prof. Hélio Radke Bittencourt Pág. 2 Cap. 1. CONCEITOS BÁSICOS DE ESTATÍSTICA 1.1 Conjunto de dados. População e amostra A Estatística pode ser definida como o conjunto de ferramentas para coleta, organização, análise e interpretação de dados experimentais. O objeto de estudo em Estatística é um conjunto de dados que pode constituir uma população ou uma amostra. População é um conjunto finito ou infinito de elementos. Amostra é um subconjunto da população. Geralmente buscamos amostras representativas. Uma amostra representativa é aquela que mantém as características da população. 1.2 Tipos de Variáveis Em estatística não trabalhamos diretamente com os elementos que formam o conjunto de dados, mas sim com suas características. Variáveis são características dos elementos que formam o conjunto de dados. As variáveis podem ser classificadas em qualitativas ou quantitativas: as variáveis qualitativas expressam uma classificação em categorias e, por isso, também são chamadas de categóricas. As variáveis quantitativas expressam quantidades numéricas e se dividem em discretas e contínuas. As variáveis discretas assumem apenas determinados valores num dado conjunto enumerável, enquanto as variáveis contínuas podem assumir, ao menos teoricamente, qualquer valor num dado intervalo numérico. Exemplo – Listar variáveis qualitativas e quantitativas para um paciente Na prática todas as variáveis são discretas, devido à limitação dos instrumentos de mensuração.
  • 3. Bioestatística – Prof. Hélio Radke Bittencourt Pág. 3 1.3 Escalas de Mensuração As variáveis ainda podem ser classificadas de acordo com o nível ou escala de mensuração: Nominal, Ordinal ou Intervalar/Razão. O nível nominal de mensuração é caracterizado por números que apenas diferenciam ou rotulam as categorias. Exemplos: O nível ordinal de mensuração envolve números que, além de diferenciar, hierarquizam as categorias. Também são chamadas de escalas Likert em homenagem ao americano Rensis Likert que publicou o artigo "A Technique For The Measurement of Attitudes" em 1932, onde sugeriu escalas de 5 pontos com uma categoria neutra ao centro. Exemplos: O nível intervalar ou de razão apresenta números que expressam diretamente uma quantidade seguindo uma métrica. Podemos tranqüilamente realizar operações matemáticas com variáveis deste tipo. Exemplos: Figura – Resumo dos tipos de variáveis e escalas de mensuração
  • 4. Bioestatística – Prof. Hélio Radke Bittencourt Pág. 4 1.4 Estatística Descritiva e Inferencial A estatística é um conjunto de ferramentas utilizadas para a coleta, tabulação, análise e interpretação de um conjunto de dados experimentais. A Estatística pode ser dividida em duas grandes áreas: Descritiva e Inferencial. A estatística descritiva é aquela que costumamos encontrar com maior freqüência em jornais, revistas, relatórios, etc. Essa parte da estatística utiliza números para descrever fatos. Seu foco é a representação gráfica e o resumo e organização de um conjunto de dados, com a finalidade de simplificar informações. Nessa categoria se enquadram as médias salariais, taxas de inflação, índice de desemprego, etc. A estatística inferencial consiste na obtenção de resultados que possam ser projetados para toda população a partir de uma amostra da mesma. Ela fundamenta-se na teoria da amostragem e no cálculo de Probabilidades. Essa é a área mais importante da Estatística. Figura - Esquema geral de um curso de Estatística Descritiva Estatística Inferencial Probabilidade Amostragem
  • 5. Bioestatística – Prof. Hélio Radke Bittencourt Pág. 5 Cap. 2 ESTATÍSTICA DESCRITIVA 2.1 Tabelas de freqüência simples e cruzadas Vamos introduzir o tema de tabelas de freqüência simples construindo tabelas para o banco de dados contruído a partir de informações da turma Exemplo 1 – Gênero Tipo sangüíneo / Rh No de habitantes em seu domicílio Altura Criar uma tabela de freqüências para cada uma das variáveis. Estes exemplos serão construídos com dados coletados na sala de aula. Tabelas de freqüência são encontradas em jornais informativos (Zero Hora, Correio do Povo, etc.), relatórios técnicos, monografias, dissertações, teses e revistas científicas. As tabelas de freqüência simples apresentam de forma concisa o número de ocorrências (absoluta e relativa) dos valores de uma variável. Uma tabela de freqüência genérica tem a seguinte configuração: Tabela 1 – Tabela de freqüências genérica i xi fi fri 1 x1 f1 fr1 2 x2 f2 fr2 M M M M k xk fk frk Σ n 100,0% A notação utilizada é a seguinte: X é uma variável qualquer x é um particular valor da variável X i é um índice útil para enunciar as expressões matemáticas k é o número de linhas da tabela
  • 6. Bioestatística – Prof. Hélio Radke Bittencourt Pág. 6 Os componentes da tabela de freqüências são: Freqüência absoluta (fi): número de ocorrências do valor xi. Freqüência relativa (fri): percentual de ocorrências do valor xi As Tabelas cruzadas apresentam a distribuição de freqüências de duas variáveis simultaneamente. As tabelas cruzadas são abundantes em jornais e revistas especializadas. Exemplo 2 – Grupo sangüíneo e fator Rh. Preencher a tabela abaixo com os dados da turma. Calcule os percentuais em relação aos totais das linhas. Tabela 2 – Distribuição da turma por grupo sangüíneo e fator Rh. Fator Rh Rh+ Rh- Totais Grupo A B AB O Totais
  • 7. Bioestatística – Prof. Hélio Radke Bittencourt Pág. 7 2.2 Análise Gráfica O tipo de gráfico adequado para cada variável depende do tipo de variável. Segue uma relação de exemplos de variáveis e tipos de gráficos adequados. Variável Qualitativa Nominal (com poucas categorias) GRÁFICO DE SETORES (Pizza ou Torta) Figura – Distribuição da turma por sexo Base: Fonte: Variável Qualitativa Nominal (com muitas categorias): GRÁFICO DE BARRAS Figura – Principais causas de morte - EUA Cigarro 37,7% Obesidade 28,3% Ãlcool 9,4% Doenças infecciosas 8,5% Armas de fogo 3,3% Doenças venéreas 2,8% Acidente de carro 2,4% Drogas 1,9% Outras 5,7% 0% 20% 40% 60% 80% 100% Base: ??? Fonte: Ie Estatísticas, ano não declarado
  • 8. Bioestatística – Prof. Hélio Radke Bittencourt Pág. 8 Variável Qualitativa Ordinal: GRÁFICO DE BARRAS Figura – Avaliação do atendimento da equipe de enfermagem por parte dos pacientes Ótimo 25% Muito Bom 35% Avaliação Bom 20% Regular 8% Ruim 5% Péssimo 2% 0% 10% 20% 30% 40% % Base: 100 pacientes. Fonte: Dados fictícios. Variável Quantitativa Discreta GRÁFICO DE COLUNAS Figura – Número de pessoas por domicílio Base: Fonte:
  • 9. Bioestatística – Prof. Hélio Radke Bittencourt Pág. 9 Variável Quantitativa Contínua HISTOGRAMA Figura – Distribuição de uma turma por altura 10 8 6 4 Freqüência 2 0 150,0 160,0 170,0 180,0 190,0 200,0 Altura (cm) Base: 20 observações Fonte: Alunos de uma turma de Estatística I. Gráfico construído no software SPSS. Exercício – Construir um Histograma para os dados de estatura da nossa turma.
  • 10. Bioestatística – Prof. Hélio Radke Bittencourt Pág. 10 2.3 Medidas de Tendência Central São valores que trazem informação sobre a região em torno da qual os dados estão posicionados. As medidas de tendência central mais utilizadas são: Média, Mediana e Moda. 2.3.1 – Média Aritmética (µ , X ) A média aritmética é definida como a soma de todas observações da variável X, dividida pelo número de elementos do conjunto de dados. Freqüentemente a média aritmética é o valor que melhor representa um conjunto de dados. Quando os dados não estão organizados na forma de uma tabela de freqüências e, portanto, estão na forma isolada, as expressões genéricas para encontrar a média são: População Amostra N n ∑ xi ∑x i µ= i =1 X = i =1 N n Quando os dados estão organizados na forma de uma tabela de freqüências deve-se ponderar os diferentes valores xi pelas respectivas freqüências fi. Procedendo desta forma o cálculo da média aritmética torna-se mais simples e rápido. População Amostra k k ∑x i × fi ∑x i × fi µ= i =1 X = i =1 N n Exemplo 3 – Número de pessoas que mora em nosso domicílio Calcular a média aritmética para o exemplo do número de pessoas que mora no domicílio.
  • 11. Bioestatística – Prof. Hélio Radke Bittencourt Pág. 11 2.3.2 – Mediana (Md) A mediana é o valor que divide o conjunto de dados ordenado em duas partes com igual número de observações. Para calcular a mediana iremos utilizar uma nova notação. Seja x[1] , x[ 2 ] , K, x[ n ] um conjunto de dados ordenado (ordem crescente), onde o valor entre colchetes representa a posição no conjunto ordenado. Deduzindo a posição mediana: n ímpar n par n Fila Md n Fila Md 3 4 5 6 7 8 As expressões genéricas para encontrar a média são: n ímpar n par Quando os dados estão organizados na forma de uma tabela de freqüências pode-se encontrar a posição mediana na coluna acumulada Fi. Exemplo 4 – Número de pessoas que mora em nosso domicílio Encontrar a Md para o exemplo do número de pessoas que mora no domicílio.
  • 12. Bioestatística – Prof. Hélio Radke Bittencourt Pág. 12 2.3.3 – Moda (Mo) A moda é definida como o valor mais freqüente de um conjunto de dados. É possível que o conjunto seja bimodal (duas modas) ou até mesmo multimodal (três os mais modas). Mo = {xi } com maior f i Exemplo 5 – Número de pessoas que mora em nosso domicílio Encontrar a Mo para o exemplo do número de pessoas que mora no domicílio. Considerações IMPORTANTES sobre as MTC 1. A média é a MTC mais influenciada por valores extremos, entretanto é a medida mais “rica”, porque considera todos valores do conjunto de dados. 2. A mediana não é afetada por valores extremos. 3. A moda é a MTC mais “pobre”, porque considera apenas os valores mais freqüentes. 4. Existem outros tipos de média usadas em ocasiões especiais. A média harmônica é muito utilizada em concursos públicos e a geométrica pode ser usada em situações de alta variabilidade, visto que ela é mais estável. Discutiremos isto em aula. Média harmônica Média geométrica n Xh = n X G = n x1 × x 2 × K × x n 1 ∑x i =1 i Pode-se estabelecer a seguinte relação entre as médias: Xh ≤ XG ≤ X
  • 13. Bioestatística – Prof. Hélio Radke Bittencourt Pág. 13 2.4 Separatrizes São valores que separam o conjunto de dados ordenado em partes com igual número de observações. A Mediana é, portanto, uma separatriz porque divide o conjunto de dados em duas partes iguais. Min |------------------------|------------------------| Máx Md Os Quartis (Qi) dividem o conjunto de dados em 4 partes iguais. Min |------------------------|------------------------| Máx Os Percentis (Pi) dividem o conjunto de dados em 4 partes iguais. Min |------------------------|------------------------| Máx Exemplo 6 – Boletim de Desempenho do Provão do MEC Exemplo 7 – Distribuição de Renda no Rio Grande do Sul A régua de percentis a seguir apresenta a distribuição de salários para a população urbana em idade economicamente ativa no ano de 1999. R$ 238,00 R$ 400,00 R$800,00 R$ 1500,00 |-------------|-------------|-------------|---------|---| P25 P50 P75 P90
  • 14. Bioestatística – Prof. Hélio Radke Bittencourt Pág. 14 2.5 Medidas de Variabilidade São medidas que complementam as MTC trazendo informação sobre a dispersão existente no conjunto de dados. Para introduzi-las vamos recorrer a um exemplo onde temos três diferentes equipes de vôlei, onde a variável X investigada é a estatura dos atletas (em cm). Todas equipes têm seis atletas titulares. Exemplo 8 – Entendendo as Medidas de Variabilidade Tabela – Medições de pressão arterial sistólica (mmHg) em três pacientes Paciente A Paciente B Paciente C 120 118 120 120 121 100 120 124 135 120 117 155 120 120 120 120 120 90 Média ( X ) Moda (Mo) Mediana (Md) Questões 1 – O que aconteceu com as MTC na tabela acima? 2 – Os três pacientes são iguais em relação a distribuição das PA Sistólica? 3 – O que diferencia um paciente do outro? A partir de agora aprenderemos a calcular medidas capazes de quantificar a variabilidade existente num conjunto de dados
  • 15. Bioestatística – Prof. Hélio Radke Bittencourt Pág. 15 1.4.1 – Amplitude (R, do termo Range) É a diferença entre o maior e o menor valor de um conjunto de dados. R = máx{xi } − mín{xi } Calcular R nos três pacientes do Exemplo 8. 1.4.2 – Variância (σ2 , s 2) A variância é uma medida da variação em torno da média. Por definição, variância é a média dos quadrados dos desvios em torno da média. População Amostra ∑ (x − X) N n ∑ (x − µ) 2 2 i i σ2 = i =1 s2 = i =1 N n −1 A variância, ao contrário da Amplitude, considera todos elementos do conjunto de dados no seu cálculo. Quanto maior for a variação dos valores do conjunto de dados, maior será a variância. Quando os dados estão organizados na forma de uma tabela de freqüências, deve- se ponderar os quadrados dos desvios pela freqüência. Esse procedimento facilita o cálculo. População Amostra ∑ (x − X ) × fi k k ∑ (x − µ ) × fi 2 2 i i σ2 = i =1 s2 = i =1 N n −1 Calcular s2 nos três pacientes do Exemplo 8.
  • 16. Bioestatística – Prof. Hélio Radke Bittencourt Pág. 16 1.4.3 – Desvio-padrão (σ, s) O desvio-padrão é a raiz quadrada positiva da variância. Essa medida corrige o problema de unidade que surge na variância. O desvio-padrão também é uma medida da variação em torno da média. População Amostra σ = σ2 s = s2 O desvio-padrão expressa a variação média do conjunto de dados em torno da média, para mais ou para menos. Calcular s nos três pacientes do Exemplo 8. 1.4.4 – Coeficiente de Variação (CV) O CV é a razão entre o desvio-padrão e a média de um conjunto de dados. Ele expressa a variação relativa (%) presente no conjunto de dados em relação à média. População Amostra σ s CV = × 100% CV = × 100% µ X Quanto maior o CV, mais heterogêneos serão os dados. Calcular o CV nos três pacientes do Exemplo 8.
  • 17. Bioestatística – Prof. Hélio Radke Bittencourt Pág. 17 Considerações sobre as Medidas de Variabilidade (MV) 1. A Amplitude á a MV mais “pobre”, porque considera apenas os dois valores extremos do conjunto de dados. 2. A Variância não é interpretada na prática devido ao problema da unidade, que está ao quadrado. 3. O Desvio-padrão é a MV mais conhecida, sendo amplamente utilizada. 4. Dentre as MV estudadas, sugere-se que o CV seja utilizado para comparação da variabilidade entre diferentes conjuntos de dados. Por não ter unidade, o CV pode ser utilizado até mesmo para comparar a variabilidade entre variáveis expressas em diferentes unidades. Curiosidade I – III Consenso Brasileiro de Pressão Arterial – Adultos A pressão arterial para adultos pode ser categorizada de acordo com a seguinte tabela. Portanto, a medida quantitativa contínua pode ser transformada em qualitativa ordinal. ADULTOS (MAIORES DE 18 ANOS) Pressão Arterial (mmHg) Sistólica Diastólica Categoria < 130 < 85 Normal 130-139 85-89 Normal Limítrofe 140-159 90-99 Hipertensão Leve (estágio 1) 160-179 100-109 Hipertensão Moderada (estágio 2) > 180 > 110 Hipertensão Severa (estágio 3) > ou= 210 > ou=120 Hipertensão Muito Severa (4) > 140 < 90 Hipertensão Sistólica Isolada Fonte: http://www.cdof.com.br/avalia4.htm
  • 18. Bioestatística – Prof. Hélio Radke Bittencourt Pág. 18 Exemplo 9 – APGAR Logo que nascemos somos avaliados numa escala de 1-10 pontos no 1o e no 5o minuto de vida. Os dados abaixo mostram os resultados obtidos em 10 recém-nascidos. Apgar 1 Apgar 5 Bebê 1 8 9 Bebê 2 4 8 Bebê 3 8 9 Bebê 4 8 9 Bebê 5 3 8 Bebê 6 8 9 Bebê 7 8 9 Bebê 8 4 9 Bebê 9 9 9 Bebê 10 7 9 a) Encontrar as MTC para Apgar 1 e Apgar 5, separadamente. b) Encontrar as MV para Apgar 1 e Apgar 5, separadamente. c) Comente os resultados em termos de MTC e de Varabilidade. CURIOSIDADE II - Como funciona o APGAR O APGAR é o primeiro escore que recebemos em nossa vida, logo após o nascimento (1o e 5o minuto de vida). Foi desenvolvido em 1952 por anestesiologista Virginia Apgar, sendo utilizado até os dias de hoje. Tabela - Cálculo do Apgar Pontos 0 1 2 Freqüência cardíaca Ausente <100bpm >100bpm Respiração Ausente Fraca, irregular Forte, choro Tônus muscular Flácido Flexão de pernas e braços Movimento ativo, Boa flexão Cor Cianótico, Pálido Cianose de extremidades Rosado Irritabilidade Reflexa Ausente Algum movimento Espirros, Choro Fonte: http://www.abcdasaude.com.br/artigo.php?254
  • 19. Bioestatística – Prof. Hélio Radke Bittencourt Pág. 19 Exemplo 10 – Número de Pré-Natais realizados Os dados a seguir apresentam o número de exames pré-natais realizados numa amostra de 21 mulheres cujos partos (normais) foram realizados num determinado hospital. 7 5 6 6 9 4 6 5 8 6 6 5 5 8 10 9 5 5 7 7 7 a) Qual é a variável X deste exemplo. b) Construir uma tabela de freqüências para a variável X. c) Encontrar e interpretar as MTC. d) Calcular as Medidas de Variabilidade. Mais exercícios sobre o Capítulo 1 na LISTA DE EXERCÍCIOS.
  • 20. Bioestatística – Prof. Hélio Radke Bittencourt Pág. 20 Cap. 3 – Probabilidade 3.1 Principais conceitos Probabilidade é o ramo da matemática que trata de fenômenos aleatórios. A observação de um fenômeno aleatório por parte do homem é chamada de experimento aleatório. Características de um experimento aleatório: 1ª) Não se conhece um particular valor do experimento antes dele ser executado, porém podemos descrever todos os possíveis resultados - as possibilidades; 2ª) Quando o experimento é repetido algumas vezes, os resultados ocorrem de uma forma aparentemente acidental. Mas quando o número de repetições aumenta, uma regularidade aparecerá. E esta regularidade que torna possível construir um modelo matemático útil para análise do experimento. Exemplos de fenômenos aleatórios: 1) Condições meteorológicas 2) Produção de arroz anual numa cidade 3) Resultado de uma cirurgia 4) Lançamento de uma moeda 5) Resultados de loterias Exemplos de experimentos aleatórios: E1: Jogue um dado e observe o n.º na face de cima. E2: Jogue uma moeda 3 vezes e observe o número de caras obtido. E3: Jogue uma moeda 3 vezes e observe a seqüência de caras e coroas obtida. E4: Uma mulher está grávida de gêmeos. O sexo dos bebês será verificado. E5: Numa propriedade com 100 árvores da espécie araucária angustifólia o número de árvores que apresentam um determinado parasita é verificado. E6: A temperatura de um paciente é verificada pela enfermeira. Nos seis exemplos anteriores não somos capazes de precisar o resultado, entretanto conseguimos listar os possíveis resultados. Espaço amostral de um experimento aleatório é o conjunto de todos os resultados possíveis do experimento. É denotado por S ou Ω.
  • 21. Bioestatística – Prof. Hélio Radke Bittencourt Pág. 21 Exemplos de espaços amostrais relacionados aos experimentos anteriores. S1 = S2 = S3 = S4 = S5 = S6 = Um evento é um subconjunto de S. Em particular, S e ∅ (conjunto vazio) são eventos; S é dito o evento certo e ∅ o evento impossível. Exemplo de eventos no lançamento de um dado S = {1,2,3,4,5,6} A: ocorre um n.º par A = {2,4,6} B: ocorre a face 6 B = {6} C: ocorre um n.º maior que 6 C=∅ D: ocorre nº 6 ou nº par D = {2,4,6} E: ocorre nº par ou nº ímpar E = {1,2,3,4,5,6} = S É possível realizar operações com eventos que nada são do que operações com conjuntos já estudadas no Ensino Fundamental. Operações com eventos Sejam A e B dois eventos associados a um espaço amostral S. 1) União: A∪B → A ocorre ou B ocorre ou ambos ocorrem 2) Interseção: A∩B → A ocorre e B ocorre 3) Complementar: Ac ou A → não ocorre A
  • 22. Bioestatística – Prof. Hélio Radke Bittencourt Pág. 22 Duas definições importantes: 1) Dois eventos A e B são excludentes ou mutuamente exclusivos se a ocorrência de um impedir a ocorrência de outro. Em outras palavras, não podem ocorrer simultaneamente. 2) Eventos ou resultados equiprováveis têm a mesma probabilidade de ocorrência. Exemplo – Lançamento de um dado e uma moeda, ambos honestos Escreva o espaço amostral. Os resultados são todos equiprováveis? Qual a probabilidade de um particular par (x,y) ser selecionado. Assinale os seguintes eventos: 3.1.1 Conceitos de probabilidade ⇒ Conceito Axiomático Seja A um evento de S. A probabilidade de ocorrência de A, denotada por P(A), deverá satisfazer os seguintes axiomas (propriedades fundamentais): Axioma 1: 0 ≤ P(A) ≤ 1 Axioma 2: P(S) = 1 ⇒ Conceito clássico Esse conceito só é válido se todos resultados de S forem equiprováveis. Para casos assim a probabilidade de ocorrência do evento A é obtida por: n( A) P ( A) = n(A) é o número de resultados favoráveis ao evento A Total ( S ) Total (s) é o número total de resultados em S Exemplos – Conceito clássico 1) Mega-sena, Lançamento de moedas e dados honestos.
  • 23. Bioestatística – Prof. Hélio Radke Bittencourt Pág. 23 ⇒ Conceito freqüentista Esse conceito só é válido se todos resultados de S forem equiprováveis. Para casos assim a probabilidade de ocorrência do evento A é obtida por: 1º) O experimento é repetido n vezes. 2º) Observa-se a freqüência relativa de ocorrência de um certo resultado A: n( A) fr(A) = , onde n(A) é o nº de vezes em que ocorre o resultado A em n realizações n do experimento. 3º) Probabilidade como limite. A medida que n aumenta, a fr(A) converge para a real probabilidade P(A). Exemplos – Conceito freqüentista 1) Verificando se um dado é honesto. 2) Encontrando a probabilidade de ocorrência de um acidente aéreo. 3) Qual a probabilidade de uma criança nascer com Síndrome de Down ? 3.1.2 Probabilidade Condicional A probabilidade de ocorrência de um evento pode ser influenciada pela ocorrência de um evento paralelo. Considere que A e B são eventos de um mesmo espaço amostral S. Chamaremos de P(A|B) a probabilidade de ocorrência do evento A dado que o evento B já ocorreu. Graficamente: Olhando para o desenho podemos estabelecer as seguintes relações: P(A|B) = P(B|A) =
  • 24. Bioestatística – Prof. Hélio Radke Bittencourt Pág. 24 Exemplo – Escolhendo alguém na sala de aula Suponha que um aluno da turma será sorteado. Após saber o resultado o professor faz algumas perguntas utilizando probabilidade condicional. Exemplo – Técnica cirúrgica e Resultado Resultado Técnica Sucesso Fracasso Total A 30 50 80 B 60 40 100 C 50 50 100 Total 140 140 280 Resolver as seguintes probabilidades: 3.1.3 Independência Dois eventos A e B são considerados independentes se a ocorrência de um não interfere na probabilidade de ocorrência do outro: P(A|B) = P(A) e P(B|A) = P(B) Isolando a intersecção na expressão de probabilidade condicional obtemos: P(A∩B) = P(A) x P(B) Esse conceito é fundamental para aplicações em Estatística. Exemplo - Uma mulher decide ter dois filhos numa localidade onde a probabilidade de ser menino é estimada em 51%.
  • 25. Bioestatística – Prof. Hélio Radke Bittencourt Pág. 25 Exemplo – Tendo “certeza” de uma gravidez Uma jovem suspeita que está grávida e decide comprar três diferentes testes de gravidez em farmácias. As marcas escolhidas foram A, B e C. As probabilidades dos exames indicarem “falso-positivo” são de 3%, 5% e 6%, respectivamente, enquanto as probabilidades de “falso-negativo” são de 1%, 2% e 4%, respectivamente. a) Se a jovem realmente está grávida, qual a probabilidade dos três exames confirmarem a gravidez? b) Se a jovem não estiver grávida, qual a probabilidade dela levar um susto com pelo menos um dos exame resultando positivo. Exemplo – Prole de SEIS filhos É fácil construir o espaço amostral e calcular as probabilidades de se ter ZERO, UM, DOIS, TRÊS, QUATRO, CINCO ou SEIS filhas meninas numa prole de seis filhos? Assume que a probabilidade de ser menino seja de 51%. 3.2 – Variáveis aleatórias discretas – Distribuição Binomial O exercício acima pode ser resolvido pela Distribuição Binomial. Sempre que um experimento que assume apenas dois possíveis resultados em cada repetição for repetido n vezes e que a probabilidade de sucesso é constante em cada repetição podemos modelar o número de sucessos pela distribuição Binomial. X = número de sucessos, variando de 1 até n p = probabilidade de sucesso em cada repetição 1-p = probabilidade de fracasso em cada repetição n = número de repetições Expressão genérica da Binomial n! P( X = x) = × p x × (1 − p) n − x x!(n − x )!
  • 26. Bioestatística – Prof. Hélio Radke Bittencourt Pág. 26 O número esperado ou esperança de sucessos na distribuição Binomial é facilmente encontrado. Intuitivamente, responda as perguntas a seguir: 1) Se lançarmos uma moeda honesta 100 vezes, qual o número esperado de caras? 2) Se lançarmos um dado 600 vezes, qual o número esperado de faces “5”. 3) No exemplo da prole de 6 filhos, qual o número esperado de meninos? E( X ) = n × p 3.3 Variáveis aleatórias contínuas 3.3.1 Conceitos As variáveis contínuas podem, ao menos teoricamente, assumir qualquer valor num intervalo numérico. Sendo assim fica impossível representarmos variáveis contínuas da mesma forma que as variáveis discretas. Importante As variáveis contínuas são representadas por curvas, chamadas de função densidade de probabilidade, e a área sob essa função representa a probabilidade de ocorrência. Nas variáveis contínuas não existe a probabilidade de ocorrência de um valor exato, mas sim de intervalos. A função densidade de probabilidade, denotada por fx(x), é a função que indica o comportamento probabilístico da variável aleatória contínua X. A função densidade de probabilidade deverá satisfazer as seguintes condições: a) f(x) ≥ 0, para todo x ∈ R. b) Área total sob a curva deve ser igual a 1. A área sob a curva fx(x) nos informa a probabilidade de ocorrência de valores da variável X.
  • 27. Bioestatística – Prof. Hélio Radke Bittencourt Pág. 27 Supondo que o gráfico acima represente a função de probabilidade de uma variável aleatória X. Como sabermos a probabilidade de ocorrência de valores entre a e b ? Exemplo – Tempo para realização de uma cirurgia (Distribuição Uniforme) O tempo de realização de uma cirurgia é igualmente provável de ocorrer entre 60 e 120 minutos. a) Esboce graficamente a função densidade de probabilidade para X = tempo de cirurgia. b) Calcular a probabilidade de levar mais de 90 minutos para terminar a cirurgia.
  • 28. Bioestatística – Prof. Hélio Radke Bittencourt Pág. 28 3.3.2 A Distribuição Normal ou Curva de Gauss A distribuição Normal ou Gaussiana é, sem dúvida, o modelo probabilístico mais conhecido. Várias técnicas estatísticas necessitam da suposição de que os dados se distribuam normalmente para serem utilizadas. Na natureza uma grande quantidade de variáveis apresentam tal distribuição. Uma v.a.c. X tem distribuição normal com parâmetros µ e σ se sua função densidade de probabilidade é dada por: ( x−µ )2 1 − f (x ) = e , x ∈ ℜ, 2σ 2 σ 2π onde µ e σ são parâmetros, - ∞ < µ < +∞ ; σ > 0 Notação X ∼ N(µ,σ) X tem distribuição Normal com média µ e desvio-padrão σ. Os parâmetros da Normal são a média e o desvio-padrão, que permitem infinitas curvas normais com diferentes formatos (mas sempre simétricas). O gráfico da fX é apresentado a seguir:
  • 29. Bioestatística – Prof. Hélio Radke Bittencourt Pág. 29 A distribuição Normal, independentemente dos valores dos parâmetros, apresenta sempre a seguinte relação: Entendendo os parâmetros da Normal: A média µ informa o centro da distribuição. É um parâmetro de locação. O desvio-padrão σ informa o formato da curva. f(x) f(x) f(x) -10 -5 0 5 10 -10 0 10 -10 -5 0 5 10 Valores de X Valores de X Valores de X Os cálculos integrais envolvendo a distribuição Normal são bastante complicados. Felizmente, veremos a seguir uma relação que facilita muito nossa vida.
  • 30. Bioestatística – Prof. Hélio Radke Bittencourt Pág. 30 Exemplo – Aplicação prática A altura de mulheres adultas no RS segue uma distribuição Normal com média de 165cm e desvio-padrão de 6cm. a) Qual a probabilidade de uma mulher ter entre 159 e 171cm? b) Qual a probabilidade de uma mulher ter entre 153 e 177cm? c) Qual a probabilidade de uma mulher ter mais de 177cm? d) Qual a probabilidade de uma mulher ter menos de 180cm? Distribuição Normal-padrão ou Normal reduzida Seja X uma variável aleatória normalmente distribuída com quaisquer parâmetros média µ e desvio-padrão σ. Se realizarmos a seguinte transformação obteremos uma nova variável Z com média 0 e desvio-padrão 1: X −µ X ∼ N(µ,σ) → Z= → Z (0,1) σ Qualquer variável com distribuição Normal pode ser padronizada para a Normal. A distribuição Normal padronizada (Z) é tabelada. O valor de Z indica quantos desvios acima ou abaixo nós estamos em relação à média. Exemplo – Aprendendo a usar a tabela 1) Calcule: a) P(Z < 1,24) = b) P(Z < 1,67) = c) P (Z > 2,12) = d) P( -1,96 < Z < 1,96) =
  • 31. Bioestatística – Prof. Hélio Radke Bittencourt Pág. 31 Cap. 4. - Amostragem 4.1 Conceitos Básicos Amostragem é o nome dado ao conjunto de procedimentos e técnicas para extração de elementos da população para compor a amostra. O objetivo da amostragem é obter amostras representativas das populações em estudo. Um Censo seria a investigação da população completa. Por que trabalhar por amostragem? ________________________________________ ________________________________________ ________________________________________ ________________________________________ A fração de amostragem é a razão entre o tamanho amostral e o tamanho populacional. Não existem regras fixas para tamanho de amostra, ou seja cada caso merece um cuidado especial. Frases como “20% da população é ideal”, quase sempre não são verdadeiras. As técnicas de amostragem se dividem em: probabilísticas e não-probabilísticas. As técnicas probabilísticas são aquelas onde todos elementos da população têm uma probabilidade não nula de seleção. Nas técnicas não-probabilísticas não podemos garantir que todos elementos têm probabilidade de serem selecionados para a amostra. 4.2 Principais técnicas de amostragem probabilística Geralmente as técnicas probabilísticas produzem melhores resultados do que as não probabilísticas. A seleção dos elementos envolve obrigatoriamente a utilização de algum dispositivo aleatório para seleção das unidades amostrais. Exemplo de dispositivos aleatórios:
  • 32. Bioestatística – Prof. Hélio Radke Bittencourt Pág. 32 4.2.1 Amostragem Aleatória Simples (AAS) Apesar de ser uma forma extremamente simples de seleção de elementos da população, é considerada uma das melhores técnicas de amostragem. Na AAS cada elemento da população tem igual probabilidade de seleção e o pesquisador não introduz nenhum vício no processo. Etapas: 1) Enumerar a população de 1 até N. 2) Sortear n números no intervalo de 1 até N. Caso haja números repetidos, sortear novamente mais alguns valores. Probabilidade de seleção de um elemento na AAS: Número de amostras possíveis SEM reposição: Número de amostras possíveis COM reposição: Exemplo 23 – Amostra n=2 da população N=5 Verificar quantas amostras são possíveis COM e SEM reposição da população de tamanho 5 verificando também as probabilidades de seleção de cada unidade. A B C D E
  • 33. Bioestatística – Prof. Hélio Radke Bittencourt Pág. 33 4.2.2 Amostragem Estratificada Na Amostragem estratificada a população é dividida em subpopulações ou estratos de forma que N1 + N2 + ... + NK = N. Um tamanho amostral n é repartido proporcionalmente entre os estratos, respeitando as frações Ni / N. Depois de estabelecidos o valor de ni, procede-se uma seleção aleatória dentro de cada estrato. Exemplo 24 – Amostra estratificada na região sul Dividir proporcionalmente uma amostra de 1300 pessoas em três estratos, correspondentes aos três estados da região sul. i Estado Pop. % Amostra 1 Rio Grande do Sul 9.637.682 2 Santa Catarina 4.875.244 3 Paraná 9.003.804 Total 23.516.730 4.2.3 Amostragem Sistemática A amostragem sistemática inicia com o cálculo do intervalo de amostragem f=N/n. Depois, selecionamos um número entre 1 e f e vamos indo sistematicamente de f em f elementos, até o final. A amostragem sistemática é útil quando temos cadastros impressos que estão ordenados segundo algum critério que nada tem a ver com os interesses da pesquisa. Exemplo 25 – Escolhendo 8 leitos de um total de 40 Planta de leitos de um andar 1 11 21 31 2 12 22 32 3 13 23 33 4 14 24 34 5 15 25 35 6 16 26 36 7 17 27 37 8 18 28 38 9 19 29 39 10 20 30 40
  • 34. Bioestatística – Prof. Hélio Radke Bittencourt Pág. 34 4.3 Principais técnicas de amostragem não-probabilística A falta de cadastros, inacessibilidade à toda população, pressa ou ainda muitos outros fatores, levam os pesquisadores a utilizar técnicas não-probabilísticas. Veremos rapidamente algumas técnicas encontradas na literatura. 4.3.1 Amostragem por quotas Um dos procedimentos mais comuns onde o pesquisador estabelece quotas de acordo com a distribuição populacional, distribui os pesquisadores de forma geograficamente estruturada e cumpre as quotas de forma intencional. Exemplo 26 – Pesquisa eleitoral Estabelecer as quotas de amostragem (n=800) a partir da distribuição populacional abaixo. Sexo Classe Social Masculino Feminino Total A-B 1.082.538 1.122.223 2.204.761 C 1.257.140 1.303.227 2.560.367 D-E 1.152.379 1.194.625 2.347.004 Total 3.492.057 3.620.075 7.112.132 Dados estabelecidos a partir dos dados TRE-2000 (No de eleitores) Classificação da classe social segundo critérios da ABIPEME-1996 4.3.2 Amostragem por correspondência 4.3.3 Amostragem por tráfego 4.3.4 Amostragem intencional
  • 35. Bioestatística – Prof. Hélio Radke Bittencourt Pág. 35 Cap. 5. - Distribuições Amostrais e Estimação 5.1 – Parâmetros e Estimadores O que é inferência estatística ? Inferir consiste na retirada de informações para TODA população baseando-se numa amostra da mesma. Chamamos de parâmetros as quantidades populacionais e de estimadores as funções de dados amostrais que irão gerar as estimativas para os parâmetros populacionais. Tabela - Exemplos de parâmetros e seus respectivos estimadores Parâmetros Estimadores Média populacional Média amostral µ X Desvio-padrão populacional Desvio-padrão amostral σ s Proporção populacional Proporção amostral p pˆ Há dois tipos de estimação de parâmetros: a estimação por ponto e por intervalo. Também existe uma outra forma de inferência estatística muito utilizada em situações práticas: os testes de hipóteses. 5.2 Distribuição Amostral das Médias A base da estatística inferencial é o TEOREMA DO LIMITE CENTRAL. O teorema diz que se extrairmos TODAS as possíveis amostras de tamanho n de uma população de tamanho N a distribuição das médias amostrais X tende a se distribuir como uma curva Normal com média igual ao parâmetro µ e desvio-padrão σ n . Exemplo – População de tamanho N = 5 Considere a seguinte população de cinco elementos e X = Idade (anos) 20 30 40 50 60 70 A B C D E F a) Quais são os parâmetros populacionais? b) Quantas amostras diferentes de tamanho n=2 podemos extrair da população?
  • 36. Bioestatística – Prof. Hélio Radke Bittencourt Pág. 36 Exemplo – Selecionando uma amostra na sala de aula Suponha que seja necessário selecionar uma amostra de n=5 alunos da turma para representar a nossa turma numa reunião na reitoria. Qual o número de amostras possíveis de serem selecionadas? Exemplo – População com média 0,5 Considere uma população infinitamente grande com média µ = 0,5 . Vamos avaliar as distribuições amostrais da média amostral X com n = 30 e 300. 2,0 3,5 3,0 1,5 2,5 2,0 1,0 1,5 0,5 1,0 0,5 - - 0 0,2 0,4 0,6 0,8 1 0 0,2 0,4 0,6 0,8 1 Médias amostrais Médias amostrais n = 30 n = 300 Percebemos claramente que com o aumento do tamanho amostral a distribuição de X fica cada vez mais concentrada em torno do parâmetro µ. Isso quer dizer que, quanto maior amostra maior a possibilidade de acerto. RESULTADO σ X tem distribuição Normal com Média = µ e Desvio-padrão = n
  • 37. Bioestatística – Prof. Hélio Radke Bittencourt Pág. 37 5.3 – Estimação por ponto e por intervalos de confiança 5.3.1 – Estimação por ponto Visa estimar o valor do parâmetro através de estimativas pontuais (únicas). A vantagem é ser de fácil interpretação e rápida, mas a probabilidade de acerto “na mosca” é praticamente nula, pois os estimadores podem ser encarados como variáveis aleatórias contínuas. Exemplo – World Trade Center Um mês após o ataque ao WTC de NY perguntamos a 1000 americanos, escolhidos de maneira aleatória, se estão com medo de viajar em vôos domésticos em território americano. Se 852 pessoas da amostra afirmam estar com medo, podemos estimar que 85,2% dos americanos estão com medo de viajar de avião após os ataques terroristas de 11/Set/2001. 5.3.2 – ESTIMAÇÃO POR INTERVALO DE CONFIANÇA Consiste em cercar o valor da estimativa pontual por uma região cuja probabilidade de conter o verdadeiro parâmetro seja conhecida. NOTAÇÕES que serão utilizadas a partir de agora α (alfa) = nível de significância 1 - α = nível de confiança α t α = valor da distribuição t de Student com n-1 graus de liberdade e área à n −1; 2 2 direita. α z α = valor da distribuição normal padrão com área à direita. 2 2
  • 38. Bioestatística – Prof. Hélio Radke Bittencourt Pág. 38 1o ) Intervalo de Confiança para µ (teórico) Conhecendo o teorema do limite central podemos construir intervalos de confiança para a média populacional. Para isso basta cercarmos a estimativa pontual X por um intervalo cuja probabilidade de conter o parâmetro seja conhecida.  σ N −n I.C. para µ com 1-α de confiança =  X ± z α × ×    2 n N −1   Na fórmula de IC acima percebemos a presença de um parâmetro (σ). Se estamos procurando um intervalo de confiança para µ é porque NÃO conhecemos µ. É praticamente impossível conhecermos σ e não conhecermos µ. Por isso esse resultado acaba sendo INÚTIL na prática. 2o ) Intervalo de Confiança para µ (prático) Ao substituirmos o parâmetro σ por seu estimador s , a distribuição amostral de X deixa de ter uma distribuição Normal e passa a ter uma distribuição t de Student. Desta forma os Intervalos de confiança podem ser utilizados em situações práticas.  s N −n I.C. para µ com 1-α de confiança =  X ± t α × ×    n −1, 2 n N −1   N −n Obs: O fator de correção é omitido em caso de populações infinitas. O EXCEL N −1 simplesmente ignora esse fator de correção. Exemplo: Numa amostra de 121 paciente hígidos, a taxa média de glicemia foi de 135mg/dl com um desvio-padrão de 13,69mg/dl. Construir um IC 95% para a verdadeira taxa de glicemia desta população. Ignore o fator de correção.  s  I.C. 95% para µ =  X ± t α ×   n −1, 2 n
  • 39. Bioestatística – Prof. Hélio Radke Bittencourt Pág. 39 O EXCEL constrói Intervalos de Confiança sem o fator de correção com o comando Estatísticas Descritivas que fica dentro da opção “Análise de Dados” no Menu “Ferramentas”. Para incluir essa opção deve-se ir até “Ferramentas” → “Suplementos” e assinalar a opção “Ferramentas de Análise”. ATENÇÃO: é necessário ter o banco de dados digitado em EXCEL para fazer isso. Figura – Tela do Excel: Ferramentas > Análise de dados > Estatística Descritiva Tabela - Saída do EXCEL: Glicemia Média 135,00 Erro padrão 1,24 Mediana 135,00 Modo 146,00 Desvio padrão 13,69 Variância da amostra 187,32 Intervalo 70,00 Mínimo 110,00 Máximo 180,00 Soma 16335,00 Contagem 121 Nível de confiança(95,0%) 2,46
  • 40. Bioestatística – Prof. Hélio Radke Bittencourt Pág. 40 3o) Intervalo de Confiança para uma proporção populacional p A estimativa pontual para uma proporção é dada diretamente pela proporção amostral. É muito útil construirmos um intervalo em torno da estimativa pontual que possua uma probabilidade conhecida de conter a verdadeira proporção populacional. ) p × (1 − p ) ˆ ˆ N −n I.C. para p com 1-α de confiança =  p ± z α × ×    2 n N −1   onde z 0,05 =1,645 (90%) z 0,025 = 1,96 (95%) z 0,005 = 2,576 (99%) N −n Obs: O fator de correção é omitido em caso de populações infinitas. N −1 O EXCEL NÃO faz intervalos de confiança para proporções. Exemplo – Proporção de canhotos da PUCRS Numa amostra de n=_______ alunos de uma população de N=30.000 de toda PUCRS, verificamos que _______ são canhotos. a) Qual a estimativa pontual de canhotos? b) Construa intervalos de confiança 95% e 99% para a proporção de canhotos. Agora use o fator de correção.
  • 41. Bioestatística – Prof. Hélio Radke Bittencourt Pág. 41 Cap. 6 Testes de Hipóteses Os testes de hipótese constituem outra forma de inferência estatística. Hipóteses são afirmações sobre parâmetros populacionais. Agora iremos testar se essas hipóteses podem ser consideradas verdadeiras ou não. Os testes de hipótese são muito objetivos, pois o resultado final é a ACEITAÇÃO ou REJEIÇÃO da hipótese formulada. Etapas de um teste de hipóteses: 1.Formular as hipóteses 2.Definir qual o nível de significância será utilizado (alfa) 3.Verificar qual o teste adequado e calcular a estatística de teste 4.Decidir pela aceitação ou rejeição da hipótese de nulidade com base no p-value. 5.Conclusão experimental A hipótese nula (Ho) é a hipótese sob a qual a teste é realizado. Essa hipótese será ACEITA ou REJEITADA. Se os dados amostrais estiverem de acordo com a hipótese nula formulada, a estatística de teste nos levará a uma aceitação. Por outro lado, se os dados amostrais não estiverem em sintonia com a hipótese formulada, o teste nos levará a uma rejeição da hipótese nula. A hipótese alternativa (H1 ou Ha) é uma hipótese complementar a Ho. Por isso se rejeitamos Ho, conseqüentemente aceitamos H1. O nível de significância do teste (α) é definido pelo pesquisador. Ele significa a probabilidade de cometermos erro tipo I, ou seja, rejeitarmos Ho sendo a mesma verdadeira. A decisão estatística é a REJEIÇÃO ou ACEITAÇÃO de Ho. Essa decisão está sujeita aos seguintes erros: Tabela – Tipos de Erros Realidade Decisão Ho Verdadeira Ho Falsa Aceito Ho OK Erro tipo II β Rejeito Ho Erro tipo I OK α O erro do tipo I ou nível de significância (α) é controlado pelo pesquisador. O erro do tipo II (β) é geralmente esquecido. Por esse motivo vamos sempre preferir uma REJEIÇÃO do que uma ACEITAÇÃO. No caso de uma REJEIÇÃO ou tomamos a decisão correta ou cometemos o erro com probabilidade α. Os valores de α mais utilizados são 5%, 1% e eventualmente 10%.
  • 42. Bioestatística – Prof. Hélio Radke Bittencourt Pág. 42 A conclusão experimental consiste em explicar com palavras simples o resultado de um teste de hipóteses. Os testes que iremos estudar são os mais famosos e encontrados em praticamente todos os livros de Estatística. • Teste t de Student para uma média • Teste t de Student para comparação de duas médias (amostras independentes) • Teste t de Student para comparação de duas médias (amostras emparelhadas) • Teste Qui-Quadrado (para variáveis organizadas na forma de uma tabela cruzada) 6.1 - Teste t de Student para uma média É uma técnica que permite testarmos a hipótese de que a média populacional pode ser considerada igual a um valor de referência, digamos µo. Apresentação das hipóteses: Ho : µ = µ o Ho : µ = µ o Ho : µ = µ o    Ha : µ ≠ µ o Ha : µ > µ o Ha : µ < µ o ↑↑ Iremos estudar apenas os testes bilaterais, ou seja, onde as hipóteses não são direcionadas para um único sentido. As regiões de rejeição ficam nos dois lados da curva. A estatística de teste é dada por: x - µo t= s/ n Apesar de ser um procedimento simples, o EXCEL não realiza esse tipo de teste. Já, o programa estatístico SPSS, por exemplo, faz. As regiões de rejeição e aceitação do teste t são estabelecidas pelos valores de t, conforme mostra o desenho a seguir de uma curva t com n-1 graus de liberade.
  • 43. Bioestatística – Prof. Hélio Radke Bittencourt Pág. 43 Os valores de t são encontrados na tabela t entregue em sala de aula. Comparando o valor da estatística de teste t calculado com os valores de t obtidos na tabela chegamos a decisão estatística e podemos enunciar a conclusão experimental. Apesar do EXCEL não fazer isso podemos utiliza-lo para calcular a média amostral e o desvio-padrão. Exercício: O INMETRO está investigando se a quantidade de Paracetamol num dado comprimido está de acordo com o valor nominal estampado no rótulo do medicamento (750mg). Numa amostra de 20 comprimidos a média encontrada foi de 738mg com um desvio- padrão de 11,85mg. Teste a hipótese de que a quantidade média de paracetamol é igual ao valor nominal informado pelo fabricante.
  • 44. Bioestatística – Prof. Hélio Radke Bittencourt Pág. 44 Plus! Sobre o p-value O p-value, valor de p ou significância da estatística é o valor informado na saída dos softwares estatísticos. Esse número é, portanto, uma probabilidade que deve ser comparada ao nível de significância adotado. Se p-value > nível de significância adotado, então ACEITAMOS Ho. Se p-value < nível de significância adotado, então REJEITAMOS Ho. Exemplo – Saída do SPSS para o exercício do Paracetamol One-Sample Statistics Std. Std. Error N Mean Deviation Mean Paracetamol (mg) 20 738,0000 11,8544 2,6507 One-Sample Test Test Value = 750 95% Confidence Interval of the Sig. Mean Difference t df (2-tailed) Difference Lower Upper Paracetamol (mg) -4,527 19 ,000 -12,0000 -17,5480 -6,4520 Exemplo – Regulando a máquina e re-inspecionando Suponha que o fabricante tenha regulado a máquina e que a média agora seja de 749mg com o mesmo desvio. One-Sample Statistics Std. Std. Error N Mean Deviation Mean PARECT 20 749,0000 11,8544 2,6507 One-Sample Test Test Value = 750 95% Confidence Interval of the Sig. Mean Difference t df (2-tailed) Difference Lower Upper PARECT -,377 19 ,710 -1,0000 -6,5480 4,5480
  • 45. Bioestatística – Prof. Hélio Radke Bittencourt Pág. 45 6.2 Teste t de Student - duas amostras independentes É uma técnica estatística que permite testarmos a hipótese de que duas médias populacionais são idênticas. É extremamente utilizada para comparação de dois grupos independentes. Apresentação das hipóteses (caso bilateral): Ho : µ1 = µ 2  Ha : µ1 ≠ µ 2 A estatística de teste tem uma forma um tanto “amigável”: t= (x1 - x2 ) s1 × (n1 - 1) + s2 × (n2 − 1)  1 2 2 1  × +  n n  (n1 + n2 − 2 )  1 2 que deve ser comparado com uma distribuição t de Student com (n1+n2-2) graus de liberdade As regiões de rejeição e aceitação seguem a mesma lógica do teste anterior. No EXCEL: Ferramentas → Análise de Dados → Teste t: duas amostras presumindo variâncias equivalentes ATENÇÃO: Esse teste só pode ser utilizado se a variância (ou desvios-padrão) das duas populações em questão não forem muito diferentes. Exercício: Pesquisadores comportamentais criaram um índice para mensurar o grau de ansiedade de vestibulandos. Esse índice vai de 0 (ansiedade mínima) até 100 (ansiedade máxima). Dois grupos de vestibulandos foram investigados. O grupo 1 é formado por vestibulandos de universidades públicas e o grupo 2 é formado por vestibulandos de universidades privadas. Resultados do levantamento realizado pelos pesquisadores: Grupo 1 65 58 78 60 68 69 66 70 53 71 63 63 Média = 65,33 Desvio = 6,61 Grupo 2 62 63 36 34 56 50 42 57 46 68 48 42 52 43 43 Média = 49,47 Desvio = 10,07
  • 46. Bioestatística – Prof. Hélio Radke Bittencourt Pág. 46 Exemplo – Tela e saída do EXCEL para o exemplo da Ansiedade Teste-t: duas amostras presumindo variâncias equivalentes Grupo 1 Grupo 2 Média 65,333 49,467 Variância 43,697 101,410 Observações 12,000 15,000 Variância agrupada 76,016 Hipótese da diferença de média 0,000 gl 25,000 Stat t 4,699 P(T<=t) uni-caudal 0,000 t crítico uni-caudal 1,708 P(T<=t) bi-caudal (p-value) 0,000 t crítico bi-caudal 2,060
  • 47. Bioestatística – Prof. Hélio Radke Bittencourt Pág. 47 6.3 Teste t de Student - duas amostras pareadas Utilizado para testarmos a hipótese de que a média populacional ANTES e DEPOIS de algum determinado “tratamento” ou “situação” sofreu alteração significativa. Ho : µ Antes = µ Depois   Ha : µ Antes ≠ µ Depois  Hipóteses: A estatística de teste baseia-se nas diferenças DEPOIS – ANTES para cada elemento da amostra. Estatística de teste: d t= sd / n onde d é a média das diferenças e sd é o desvio-padrão das diferenças. As regiões de rejeição e aceitação do teste t são estabelecidas pelos valores de t. No EXCEL: Ferramentas → Análise de Dados → Teste t: duas amostras em par Exercício: Deseja-se investigar o efeito do álcool sobre o reflexo na direção. Uma amostra de 10 motorista foi convidada a utilizar um simulador de direção antes e depois de ingerir bebida e o tempo até uma reação (pisar no freio) foi verificado. Motorista Antes Depois 1 10 20 2 80 70 3 45 50 4 60 80 5 45 90 6 100 120 7 45 55 8 80 90 9 25 50 10 50 60
  • 48. Bioestatística – Prof. Hélio Radke Bittencourt Pág. 48 Exemplo – Tela e saída do Microsoft EXCEL Teste-t: duas amostras em par para médias Antes Depois Média 54,000 68,500 Variância 726,667 778,056 Observações 10,000 10,000 Correlação de Pearson 0,862 Hipótese da diferença de média 0,000 gl 9,000 Stat t -3,179 P(T<=t) uni-caudal 0,006 t crítico uni-caudal 1,833 P(T<=t) bi-caudal 0,011 t crítico bi-caudal 2,262
  • 49. Bioestatística – Prof. Hélio Radke Bittencourt Pág. 49 6.4 TESTE DO QUI-QUADRADO (χ2) O teste do qui-quadrado é uma importante prova para verificar associação entre duas variáveis qualitativas (categóricas). A técnica verifica se há ou não associação entre as variáveis linha e coluna de uma tabela cruzada. Hipóteses do teste: Ho: As variáveis linha e coluna da tabela são INDEPENDENTES. Ha: Existe uma relação de dependência entre as variáveis linha e coluna da tabela Para exemplificar o cálculo das estatística de teste nada melhor do que um exemplo. A estatística de teste Qui-quadrado baseia-se na diferença entre os valores observados e esperados em cada célula da tabela cruzada. Os valores esperados são calculados sob a hipótese de independência. Estatística de teste: χ ( l −1)( c −1) = ∑ 2 (Obs. − Esp.)2 que deve ser comparado com o valor Esp. tabelado da qui-quadrado com (l-1)(c-1) graus de liberade. Exemplo Investigar se o fato de fumar ou não está relacionado com a presença do fator fumo. Tabela – Presença de câncer versus fator fumo Câncer Sim Não Total Fumo Sim 50 100 150 Não 20 130 150 Total 70 230 300 O EXCEL não faz o teste qui-quadrado. O SPSS e o MINITAB fazem.
  • 50. Bioestatística – Prof. Hélio Radke Bittencourt Pág. 50 Exemplo – Tabela e saída do SPSS Fuma? * Cancer Crosstabulation Cancer Sim Não Total Fuma? Sim Count 50 100 150 % within Fuma? 33,3% 66,7% 100,0% Não Count 20 130 150 % within Fuma? 13,3% 86,7% 100,0% Total Count 70 230 300 % within Fuma? 23,3% 76,7% 100,0% Chi-Square Tests Asymp. Sig. Exact Sig. Exact Sig. Value df (2-sided) (2-sided) (1-sided) Pearson Chi-Square 16,770b 1 ,000 Continuity Correctiona 15,671 1 ,000 Likelihood Ratio 17,207 1 ,000 Fisher's Exact Test ,000 ,000 Linear-by-Linear 16,714 1 ,000 Association N of Valid Cases 300 a. Computed only for a 2x2 table b. 0 cells (,0%) have expected count less than 5. The minimum expected count is 35,00.
  • 51. Bioestatística – Prof. Hélio Radke Bittencourt Pág. 51 Cap. 7. CORRELAÇÃO E REGRESSÃO 7.1 O COEFICIENTE DE CORRELAÇÃO DE PEARSON O coeficiente de correlação de Peason ( R ) é uma medida que varia no intervalo de –1 até +1 que visa quantificar o grau de relacionamento linear entre variáveis quantitativas. Valores próximos de +1 indicam forte correlação direta entre as variáveis enquanto que valores próximos de –1 indicam forte correlação inversa. Valores em torno de zero indicam ausência de correlação. Não vamos nos deter no cálculo do coeficiente de correlação de Pearson, mas sim no seu funcionamento. Vejamos na forma de gráficos de dispersão os possíveis tipos de correlação entre as variáveis: Vamos verificar a correlação existente entre as variáveis no arquivo exemplo a seguir: Número de Horas de Indivíduo erros (X) Sono (Y) 1 8 12 2 7 13 3 9 9 4 12 6 5 14 5 Média 10,00 9,00 Desvio 2,92 3,54 No EXCEL podemos utilizar o comando CORREL.
  • 52. Bioestatística – Prof. Hélio Radke Bittencourt Pág. 52 Exemplo – Correlação usando o EXCEL Exemplo – Outra forma de fazer correlação usando o EXCEL Análise de dados > Correlação
  • 53. Bioestatística – Prof. Hélio Radke Bittencourt Pág. 53 7.2 – Regressão Linear Simples A técnica de Regressão Linear Simples estabelece uma relação de dependência entre uma variável dependente Y e uma única variável independente X, supondo que o relacionamento seja da forma linear: Y = bo + b1X (clássica equação da reta) Os termos bo e b1 são os parâmetros do modelo. Eles são estimados de forma a maximizar a habilidade preditiva do modelo, conforme será mostrado no exemplo a seguir. Exemplo – Peso X Altura de indivíduos adultos
  • 54. Bioestatística – Prof. Hélio Radke Bittencourt Pág. 54 Lista de Exercícios Cap. 2 – Estatística Descritiva 1. Os dados a seguir referem-se ao número de cirurgias realizadas diariamente durante a última quinzena do mês de julho em um determinado centro cirúrgico. 2 1 2 3 2 2 0 2 1 2 0 1 2 1 0 a) Organize os dados na forma de uma tabelas de freqüências. b) Encontre as MTC's e interprete-as. c) Encontre as Medidas de Variabilidade e interprete-as. 2. Os dados a seguir indicam a taxa média de calorias diárias ingeridas pela população de países da América Central. País Calorias País Calorias Costa Rica 2760 Haiti 1965 Domincan Republic 2310 Honduras 2200 El Salvador 2270 Nicaragua 2215 Guatemala 2190 Panama 2490 Fonte: OMS, 1995. (dados arredondados) a) Encontrar as MTC´s e as Medidas de Variabilidade. b) Suponha que, subitamente, todos os países passem a consumir 100 calorias a mais na sua dieta diária. Quais seriam os novos valores das MTC's e das MV? c) Suponha que, subitamente, todos os países aumentem a sua dieta calórica em 10%. Quais seriam os novos valores das MTC's e das MV? 3. O índice de massa corporal (IMC) é o resultado da divisão entre o peso (em kg) e o quadrado da altura (em m). A OMS classifica o IMC da seguinte forma: magro, normal, sobrepeso e obesidade. O gráfico a seguir apresenta a distribuição do peso de 200 bailarinas gaúchas. Os dados são inspirados em um TCC do curso de Psicologia. 60 56 50 40 38 Freqüência Relativa (fri) 30 20 10 6 0 M agro Normal Sobrepeso Categorias do IMC a) Construa uma tabela de freqüências completa a partir do gráfico.
  • 55. Bioestatística – Prof. Hélio Radke Bittencourt Pág. 55 4. A tabela a seguir informa as estatísticas descritivas para a estatura (em cm) de adolescentes na faixa dos 10-11 anos, separadamente para o sexo masculino e feminino. Os dados fazem parte de um banco de dados real. Masculino Feminino (n=97) (n=79) Mean (Média) 155,17 146,41 Median (Mediana) 160,30 151,00 Range (Amplitude) 72,30 55,70 Variance 282,55 205,71 Std. Deviation (Desvio-padrão) 16,81 14,34 Minimum 112,30 111,80 Maximum 184,60 167,50 a) Comente os resultados. Qual sexo apresenta maior variação na altura? b) Interprete os percentis apresentados na tabela abaixo. Sexo P25 P50 P75 P90 Masculino 143.9 160.3 167.3 173.6 Feminino 136.0 151.0 155.5 162.1 5. Uma amostra de 20 borboletas de uma determinada espécie revelou os seguintes comprimentos de asas (em cm) 3,0 3,0 3,1 3,1 3,2 3,3 3,4 3,5 3,5 3,6 3,6 3,6 3,6 3,6 3,7 3,7 3,8 3,8 3,9 4,0 a) Organize os dados numa tabela de freqüências. b) Encontre as MTC´s e interprete-as. c) Encontre as Medidas de Variabilidade e interprete. d) Qual gráfico seria apropriado para esse tipo de variável? 6. Considere uma amostra de 9 árvores e que os números a seguir representem a altura das árvores (cm) após um ano de plantio. 152 142 190 154 165 175 157 157 148 a) Encontre as MTC´s. b) Encontre as Medidas de Variabilidade c) Aumente o tamanho de todas as árvores em 10cm. Quais seriam os novos valores das MTC´s e das MV´s? d) Aumente o tamanho de todas as árvores em 10%. Quais seriam os novos valores das MTC´s e das MV´s?
  • 56. Bioestatística – Prof. Hélio Radke Bittencourt Pág. 56 Cap. 3 - Probabilidade 7. (Probabilidade) Numa determinada população existem 200 pessoas, sendo 120 do sexo feminino e o restante do sexo masculino. Sabe-se que existe nessa população 40 fumantes, dos quais 25 são homens. Se eu escolher uma pessoa dessa população ao acaso, encontre: a) A probabilidade de ser não-fumante. b) Se a pessoa que eu sortear for do sexo feminino, qual a probabilidade dela ser fumante? 8. (Probabilidade) A probabilidade de um exame resultar num falso-negativo em casos de AIDS é de 10%. Se uma pessoa com AIDS faz exame em três diferentes laboratórios, qual a probabilidade de que os três exames resultem negativos? 9. Uma caixa (caixa A) contém três ratos brancos e 1 preto. Outra caixa (caixa B) contém 4 ratos pretos e 1 branco. Você retira aleatoriamente um rato de cada caixa: a) Escreva o espaço amostral S. b) Calcule as probabilidades de cada resultado possível. 10. (Binomial) A probabilidade de nascer um cão labrador cor chocolate no cruzamento de um labrador amarelo com um preto é de 1 em 8. Admita que uma fêmea amarela ficou prenha de um labrador preto e teve 8 filhotes: a) Defina o que será considerado um sucesso para calcular via binomial. b) Defina a variável X e os parâmetros "n" e "p". c) Qual a probabilidade que não nasça labrador chocolate? d) Qual a probabilidade de nascer no máximo dois labradores chocolate? e) Qual o número esperado de labradores chocolate. Utilize o seguinte resultado para facilitar os cálculos: na binomial E(X) = n . p 11. (Normal) A altura de meninos americanos adolescentes segue uma distribuição normal com média de 1,70m e desvio-padrão de 12,2m. Você sabe tem um amigo americano, com o qual se comunica pela Internet, e que é adolescente. Qual a probabilidade desse rapaz ter mais de 1,80m? 12. (Normal) A expectativa de vida na Índia é de 58 anos e em Bangladesh é de 53 anos, segundo dados da ONU (1995). Admita que a expectativa de vida siga uma distribuição aproximadamente normal e que o desvio-padrão na Índia seja de 12 anos e em Bangladesh seja de 7 anos. a) Em qual país é mais provável de encontrarmos um habitante com mais de 65 anos? 13. O que é mais provável: acertar na Mega-Sena jogando um único cartão ou acertar todas as questões da prova de Biologia do vestibular da UFRGS (30 questões, 5 alternativas cada) chutando todas as respostas aleatoriamente e não permitindo que a resposta dada a uma questão influencie na outra...
  • 57. Bioestatística – Prof. Hélio Radke Bittencourt Pág. 57 Cap 5 – Estimação por Ponto e por Intervalo 14. Suponha que temos uma população composta de 10 animais, cujos valores de anticorpos de cada animal são os seguintes: Animal 1 2 3 4 5 6 7 8 9 10 Anticorpos 1700 1500 1800 1600 1600 1800 1700 1900 1900 1500 a) Quais são os parâmetros média e desvio-padrão dessa população? b) Você só tem tempo de analisar 4 animais para estimar a média de anticorpos nessa população. Quantas possíveis amostras de 4 animais você pode obter a partir dessa população (amostragem sem reposição)? c) Como ficaria a distribuição das médias amostrais? 15. O FBI quer investigar a verdadeira proporção de casos de ANTRAZ dentre os 450 funcionários que trabalham no prédio dos Correios de Washington. Como o procedimento de análise é caro e demorado, eles decidem trabalhar por amostragem. a) Quantas amostras de 30 funcionários poderiam ser obtidas nessa população (sem reposição)? b) Qual o comportamento probabilístico esperado das proporções amostrais p ? ˆ 16. Você está estudando a concentração de coliformes fecais em determinada lagoa. Para isso define 10 pontos de amostragem com objetivo de estimar a concentração média da lagoa. Os valores encontrados em (ppm) foram os seguintes: 12 15 32 14 25 28 25 12 14 16 a) Estime por ponto a concentração média de coliformes fecais nessa lagoa. b) Estime por intervalo de confiança de 95% a concentração média (...) c) Interprete o intervalo 17. Dizem que a proporção de homens fumantes é semelhante a proporção de mulheres fumantes. Numa amostra de 240 mulheres, 35 se declararam fumantes, enquanto que dentre os 300 homens investigados, 54 eram fumantes. a) Calcule um IC de 95% para a proporção de homens fumantes. b) Calcule um IC de 95% para a proporção de mulheres fumantes. c) Interprete os resultados. Há chance das duas proporções de fumantes serem iguais? 18. No exercício 14 retire uma amostra de tamanho 4 e construa um I.C. 95% para o verdadeiro valor médio de anticorpos da população.
  • 58. Bioestatística – Prof. Hélio Radke Bittencourt Pág. 58 19. Suponha que no exercício 15, uma amostra de n=30 funcionários levou a estimativa de 26,67% de casos positivos. a) Construa um I.C. 95% para a proporção de casos positivos. b) Qual o tamanho amostral necessário para estimarmos essa proporção com 5% e 3% de margem de erro, mantendo o nível de confiança em 95%. 20. A Dra. Lizanka Marinheiro da FIOCRUZ-RJ estudou o comportamento da variável “Receptor de Estrogênio” em pacientes do sexo feminino sujeitas a dois diferentes tipos de tratamentos: 1o) A base de Estrogênio e Progesterona; 2o) A base de Estrogênio. As estatísticas descritivas para essa variável, após os dois tratamentos, encontram-se a seguir. Desvio- Tratamento n Média padrão Estrogênio e Progesterona 19 12,37 32,85 Estrogênio 31 15,77 15,25 a) Construa I.C. 95% para as médias do Receptor de Estrogênio nos dois grupos. b) Qual seria o tamanho amostral necessário para estimar a média de receptor de Estrogênio com margem de erro de apenas 5 unidades? c) Faça um gráfico que esboce a relação margem de erro versus tamanho amostral. Cap. 6 – Testes de Hipóteses 21. Teste a hipótese de que no exercício 5 nós temos uma concentração média de coliformes fecais de 20 ppm na lagoa. Utilize um nível de significância bilateral de 5%. 22. A tabela a seguir informa as estatísticas descritivas para a estatura (em cm) de adolescentes na faixa dos 15 a 16 anos, separadamente para o sexo masculino e feminino. Os dados fazem parte de um banco de dados real. Masculin Feminino o (n=79) (n=97) Mean (Média) 155,17 146,41 Std. Deviation (Desvio- 16,81 14,34 padrão) a) Faça um teste para comparação da altura média por sexo, utilizando um nível de significância de 10%.
  • 59. Bioestatística – Prof. Hélio Radke Bittencourt Pág. 59 23. (Teste t para amostras emparelhadas) Foi realizado um experimento com 5 atletas onde foi solicitado que eles fizessem uma corrida de 100m sem a utilização de anabolizantes e numa outra ocasião com a utilização dos estimulantes. Compare os resultados pelo teste t ao nível de 5%. Atleta 1 2 3 4 5 Sem anabol. 12,1 12,6 13,0 14,1 12,9 Com anabol. 10,8 12,5 12,7 13,8 12,4 24. O EAT-26 é um teste para atitudes alimentares que indica padrão anormal de alimentação quando o escore ultrapassa 20 pontos. O Dr. Barros na revista Aletheia (1999) mostrou que, dentre os 367 adolescentes do sexo feminino, 92 apresentaram transtornos alimentares, enquanto que dentre os 439 do sexo masculino, 24 apresentaram. a) Realize um teste qui-quadrado ao nível de 1% e indique se existe diferença significativa entre os dois sexos. b) Você achou o tamanho amostral suficiente para fazer esse teste? 25. Uma escala de auto-estima bastante utilizada em Psicologia é composta de 10 itens, cuja soma da pontuação obtida nesses itens indica nível de auto-estima da pessoa numa escala que vai de 10 (mínimo) até 50 (máximo). O TCC da aluna de psicologia Suzana de 1999 mostrou um comparativo entre dois grupos de pessoas com problemas de alcoolismo: Tempo de Abstinência n Média D.P. Até 6 meses 44 23,86 5,07 Mais de 6 meses 39 30,36 3,38 a) Compare os grupos pelo teste t adotando um nível de significância de 1%. 26. Para os dados da tabela abaixo, composta de 100 fumantes, realize um teste qui- quadrado. Os dados foram extraídos de Everitt (1992). Quantidade diária de cigarros Idade Mais de 40 Até 40 anos anos Total Menos de 20 cigarros 50 15 65 20 cigarros ou mais 10 25 35 Total 60 40 100
  • 60. Bioestatística – Prof. Hélio Radke Bittencourt Pág. 60 27. Estudantes de fisioterapia estão estudando a evolução da flexão de tronco com a realização de um dado tratamento. Ao todo, sete pacientes participaram do estudo e a flexão inicial e a final foram anotadas. Paciente 1 2 3 4 5 6 7 Antes 45 60 40 42 60 55 47 Depois 52 70 60 52 65 63 57 a) O Tratamento é eficiente? Realize um teste t apropriado. 28. Num estudo sobre o metabolismo do citrato no fígado foram tomadas amostras de sangue da veia hepática de dez indivíduos normais e de indivíduos com uma certa deficiência, obtendo-se os seguintes resultados de citrato (em mg/ml). Indivíduos Indivíduos com normais deficiência Média 22,08 29,94 Desvio-padrão 5,58 4,14 Obs.: Dados fictícios a) Compare os dois grupos ao nível de significância de 5%. 29. Os dados a seguir indicam o Volume de Oxigênio por kg em dois grupos de jovens (asmáticos e não-asmáticos). Desvio- Grupo n Média padrão Não Asmáticos 18 32,57 4,67 Asmáticos 17 43,10 4,21 a) Os grupos diferem de acordo com o teste t ao nível de significância de 5%? 30. O medicamento FULCIN 500mg diz ter essa quantidade da substância ativa Griseofulvina. Numa amostra de 100 comprimidos de FULCIN chegamos a uma média de 470mg com um desvio-padrão de 45mg. a) Realize um teste t contra o valor de referência e tire a sua conclusão. Cap. 7 - Correlação e Regressão (?) 31. Os dados a seguir apresentam o tempo que pedaços de tecido permaneceram embebidos numa determinada substância e o grau de absorção verificado. Tempo (s) 10 20 30 40 50 Absorção 120 190 330 370 490
  • 61. Bioestatística – Prof. Hélio Radke Bittencourt Pág. 61 TABELA Z Tabela: Probabilidades acumuladas associadas aos valores críticos (z) da distribuição normal reduzida z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09 0,0 0,5000 0,5040 0,5080 0,5120 0,5160 0,5199 0,5239 0,5279 0,5319 0,5359 0,1 0,5398 0,5438 0,5478 0,5517 0,5557 0,5596 0,5636 0,5675 0,5714 0,5753 0,2 0,5793 0,5832 0,5871 0,5910 0,5948 0,5987 0,6026 0,6064 0,6103 0,6141 0,3 0,6179 0,6217 0,6255 0,6293 0,6331 0,6368 0,6406 0,6443 0,6480 0,6517 0,4 0,6554 0,6591 0,6628 0,6664 0,6700 0,6736 0,6772 0,6808 0,6844 0,6879 0,5 0,6915 0,6950 0,6985 0,7019 0,7054 0,7088 0,7123 0,7157 0,7190 0,7224 0,6 0,7257 0,7291 0,7324 0,7357 0,7389 0,7422 0,7454 0,7486 0,7517 0,7549 0,7 0,7580 0,7611 0,7642 0,7673 0,7704 0,7734 0,7764 0,7794 0,7823 0,7852 0,8 0,7881 0,7910 0,7939 0,7967 0,7995 0,8023 0,8051 0,8078 0,8106 0,8133 0,9 0,8159 0,8186 0,8212 0,8238 0,8264 0,8289 0,8315 0,8340 0,8365 0,8389 1,0 0,8413 0,8438 0,8461 0,8485 0,8508 0,8531 0,8554 0,8577 0,8599 0,8621 1,1 0,8643 0,8665 0,8686 0,8708 0,8729 0,8749 0,8770 0,8790 0,8810 0,8830 1,2 0,8849 0,8869 0,8888 0,8907 0,8925 0,8944 0,8962 0,8980 0,8997 0,9015 1,3 0,9032 0,9049 0,9066 0,9082 0,9099 0,9115 0,9131 0,9147 0,9162 0,9177 1,4 0,9192 0,9207 0,9222 0,9236 0,9251 0,9265 0,9279 0,9292 0,9306 0,9319 1,5 0,9332 0,9345 0,9357 0,9370 0,9382 0,9394 0,9406 0,9418 0,9429 0,9441 1,6 0,9452 0,9463 0,9474 0,9484 0,9495 0,9505 0,9515 0,9525 0,9535 0,9545 1,7 0,9554 0,9564 0,9573 0,9582 0,9591 0,9599 0,9608 0,9616 0,9625 0,9633 1,8 0,9641 0,9649 0,9656 0,9664 0,9671 0,9678 0,9686 0,9693 0,9699 0,9706 1,9 0,9713 0,9719 0,9726 0,9732 0,9738 0,9744 0,9750 0,9756 0,9761 0,9767 2,0 0,9772 0,9778 0,9783 0,9788 0,9793 0,9798 0,9803 0,9808 0,9812 0,9817 2,1 0,9821 0,9826 0,9830 0,9834 0,9838 0,9842 0,9846 0,9850 0,9854 0,9857 2,2 0,9861 0,9864 0,9868 0,9871 0,9875 0,9878 0,9881 0,9884 0,9887 0,9890 2,3 0,9893 0,9896 0,9898 0,9901 0,9904 0,9906 0,9909 0,9911 0,9913 0,9916 2,4 0,9918 0,9920 0,9922 0,9925 0,9927 0,9929 0,9931 0,9932 0,9934 0,9936 2,5 0,9938 0,9940 0,9941 0,9943 0,9945 0,9946 0,9948 0,9949 0,9951 0,9952 2,6 0,9953 0,9955 0,9956 0,9957 0,9959 0,9960 0,9961 0,9962 0,9963 0,9964 2,7 0,9965 0,9966 0,9967 0,9968 0,9969 0,9970 0,9971 0,9972 0,9973 0,9974 2,8 0,9974 0,9975 0,9976 0,9977 0,9977 0,9978 0,9979 0,9979 0,9980 0,9981 2,9 0,9981 0,9982 0,9982 0,9983 0,9984 0,9984 0,9985 0,9985 0,9986 0,9986 3,0 0,9987 0,9987 0,9987 0,9988 0,9988 0,9989 0,9989 0,9989 0,9990 0,9990 3,1 0,9990 0,9991 0,9991 0,9991 0,9992 0,9992 0,9992 0,9992 0,9993 0,9993 3,2 0,9993 0,9993 0,9994 0,9994 0,9994 0,9994 0,9994 0,9995 0,9995 0,9995 3,3 0,9995 0,9995 0,9995 0,9996 0,9996 0,9996 0,9996 0,9996 0,9996 0,9997 3,4 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9998
  • 62. Bioestatística – Prof. Hélio Radke Bittencourt Pág. 62 TABELA t
  • 63. Bioestatística – Prof. Hélio Radke Bittencourt Pág. 63 Bibliografia: Além deste material, os seguintes livros podem ser consultados. VIEIRA, Sonia. Introdução à Bioestatística. Editora Campus. LEVIN, Jack. Estatística Aplicada a Ciências Humanas. Editora Harbra.