1) O documento discute correlação linear e o coeficiente de correlação de Pearson (r), que mede a intensidade da associação entre duas variáveis quantitativas.
2) r pode variar de -1 a +1, sendo valores negativos indicam correlação inversa e positivos correlação direta. Valores próximos a zero indicam fraca correlação.
3) O documento também apresenta o coeficiente de determinação (r2) e discute pressupostos e limitações do uso de r para avaliar correlação.
1. {
Correlação linear
Paulo Novis Rocha
paulonrocha@ufba.br
Créditos: Bioestatística: Princípios e Aplicações. Sidia M. Callegari-Jacques
2. Avaliar se existe associação entre duas
características quantitativas.
Quando se constata que duas variáveis
quantitativas variam juntas, diz-se que elas
estão correlacionadas.
Correlação linear simples
3. ALUNO X (horas) Y (nota)
A 8 10
B 7 8
C 6 4
D 3 8
E 3 6
F 6 9
G 5 7
H 2 4
Número de horas de estudo e nota obtida por 8 alunos
em uma prova
4. Diagrama de dispersão correspondente ao número de
horas de estudo e nota obtida por 8 alunos em uma
prova
5. Outra maneira de se avaliar a correlação é usar
um coeficiente
Número puro, independente da unidade de
medida das variáveis
Mede a intensidade da associação existente
entre duas variáveis quantitativas
Coeficiente de correlação produto-momento (r)
Proposto por Karl Pearson em 1896
Coeficiente de correlação produto-momento ou
coeficiente de correlação de Pearson (r)
6. r pode variar entre -1 e +1
Valores negativos = correlação inversa
Valores positiva = correlação direta
Variação no coeficiente de correlação
7. Valores máximos: reta inclinada
Nula: nuvens circulares ou nuvem elíptica
paralela a um dos eixos do gráfico
Valores intermediários: nuvens elípticas
inclinadas (quanto mais estreitas, maior a
correlação)
Situações especiais: pontos formam uma
nuvem cujo eixo principal é uma curva
Solução: transformação de dados, técnica não
paramétrica
Intensidade da correlação nos diagramas de dispersão
9. Fórmula para obtenção de r
58,0
)()(
))((
1
))((
covonde,
cov
22
r
SQxSQ
SP
yyxxx
yyxx
r
n
yyxx
SxS
r
yx
xy
y
xy
xy
x
10. |r| Intensidade
0 nula
0 – 0,3 Fraca
0,3 |– 0,6 Regular
0,6 |– 0,9 Forte
0,9 |– 1 Muito forte
1 Plena ou perfeita
Intensidade da correlação
11. r da amostra é uma estimativa da verdadeira
correlação entre x e y existente na população.
(1) Elaboração das hipóteses
H0 : ρ = 0
HA : ρ ≠ 0
(2) Escolha do nível de significância
α = 0,05
(3) Determinação do valor crítico do teste
t α;gl = t 0,05;6 = 2,447 (gl = n – 2, onde n = no pares x,y)
(4) Determinação do valor calculado de t
Teste de hipóteses sobre a correlação
06;05,0
22
rejeitasenão,45,21,74
74,1
333,0
58,0
28
58,01
58,0
2
1
0
EP
Httcomo
n
r
rr
t
calc
r
calc
12. r2 é o quadrado do coeficiente de correlação
Informa que fração da variabilidade de uma
característica é explicada estatisticamente pela
outra variável.
Coeficiente de determinação
13. Não há necessidade de satisfazer pressuposição
alguma para calcular o r entre duas variáveis
quantitativas
Os pressupostos se aplicam apenas à realização
do teste estatístico
(1) x e y têm distribuição normal
(2) Homocedasticidade
A variância de x é a mesma para os vários níveis de
y
A variância de y é a mesma para os vários níveis de
x
Pressupostos
14. Situações onde o r deve ser usado com cautela
r = 0,84 (todos os pontos)
r = 0,46 (excluindo outliers) Heterocedasticidade
15. r mede uma associação e não uma relação de
causa e efeito.
Pode haver outros fatores determinando os
níveis tanto de uma quanto da outra variável.
Pode haver correlação fraca e estatisticamente
significante (n = 900, r = 0,15, p < 0,001)
Lembrar que:
17. Coeficiente de correlação
para postos de Spearman
Mais antiga estatística baseada em postos
(1904)
Utilizado para avaliar o grau de correlação
entre variáveis quantitativas quando as
exigências para o teste de Pearson não são
satisfeitas
Distribuição bivariada normal
Homocedasticidade
18. Coeficiente de correlação de Spearman
rs = 0, ausência de correlação
rs = -1, correlação negativa perfeita
rs = +1, correlação positiva perfeita
O cálculo de rs baseia-se nas diferenças entre os
postos de x e y
19. Exemplo
Um pesquisador procurou correlacionar os
níveis de nitrato na água com a profundidade
de uma lagoa.
20. Variaçao temporal do nitrato (μg/L) e
da profunidade (m) da lagoa
Mês/ano Nitrato
(x)
Profundidade
(y)
Posto de
x
Posto de
y
d d2
03/1988 30,6 4,2 8 11 3 9
05/1988 17,2 3,2 5 9 4 16
06/1988 36,2 2,2 10 6 -4 16
10/1988 < 1,9 2 2 0 0
11/1988 < 2,0 2 4 2 4
12/1988 13,7 2,0 4 4 0 0
01/1989 98,1 5,1 12 13 1 1
02/1989 111,4 4,3 13 12 -1 1
05/1989 19,4 2,3 6 7 1 1
06/1989 23,2 2,4 7 8 1 1
08/1989 37,2 2,0 11 4 -7 49
12/1989 < 1,7 2 1 -1 1
01/1990 34,5 3,4 9 10 1 1
Σ 0 100
<: abaixo do limite de detecção, que é 10 μg/L
22. Fórmula com correção para empates
722,0
180*1802
100180180
postocadaemempatesdenúmerooéonde,
12
)()(
paracomoparaantoonde,
2
33
2
s
yx
yx
s
r
t
ttnn
A
yxt
AA
dAA
r
O valor tabelado de rs para um teste bilateral, α = 0,01 e n = 13 é 0,703.
Portanto, o coeficiente de correlação obtido é estatisticamente significativo.