5. TABELA DE CONTINGÊNCIA:
CO-OCORRÊNCIAS
Raça Centro-
Oeste
Nordeste Norte Sudeste Sul Total
Amarela 6 29 26 58 0 119
Branca 1828 2466 1416 5987 2630 14327
Indígena 15 21 30 14 4 84
Parda 1215 2662 2582 2481 198 9138
Preta 265 601 379 1002 169 2416
Total 3329 5779 4433 9542 3001 26084
6. TABELA DE CONTINGÊNCIA:
CO-OCORRÊNCIAS
Frequências marginais:
soma das linhas = Frequência por Região (Re)
soma das colunas = Frequência da Raça (Ra)
7. CONTINGÊNCIA RELATIVA
Raça Centro-
Oeste
Nordeste Norte Sudeste Sul Total
Amarela 0.000 0.001 0.001 0.002 0.000 0.005
Branca 0.070 0.095 0.054 0.230 0.101 0.549
Indígena 0.001 0.001 0.001 0.001 0.000 0.003
Parda 0.047 0.102 0.099 0.095 0.008 0.350
Preta 0.010 0.023 0.015 0.038 0.006 0.093
Total 0.128 0.222 0.170 0.366 0.115 1
Frequência relativa: proporção entre o número de entidades em
uma célula e total de entidades
8. PROBABILIDADE CONDICIONAL
Raça Centro-
Oeste
Nordeste Norte Sudeste Sul Total
Amarela 6/3329 29/5779 26/4433 58/9542 0/3001 119
Branca 1828/3329 2466/5779 1416/4433 5987/9542 2630/3001 14327
Indígena 15/3329 21/5779 30/4433 14/9542 4/3001 84
Parda 1215/3329 2662/5779 2582/4433 2481/9542 198/3001 9138
Preta 265/3329 601/5779 379/4433 1002/9542 169/3001 2416
Total 3329 5779 4433 9542 3001 26084
Probabilidade condicional p(Ra/Re): probabilidade do candidato ser
da raça Ra dado que ele é da Região Re
9. PROBABILIDADE CONDICIONAL
Raça Centro-
Oeste
Nordeste Norte Sudeste Sul Total
Amarela 0.002 0.005 0.006 0.006 0.000 119
Branca 0.549 0.427 0.319 0.627 0.876 14327
Indígena 0.005 0.004 0.007 0.001 0.001 84
Parda 0.365 0.461 0.582 0.260 0.066 9138
Preta 0.080 0.104 0.085 0.105 0.056 2416
Total 3329 5779 4433 9542 3001 26084
As células em destaque são indicativas, especialmente p(Branca/Sul)
10. CUIDADO!
Raça Centro-
Oeste
Nordeste Norte Sudeste Sul Total
Amarela 0.002 0.005 0.006 0.006 0.000 119
Branca 0.549 0.427 0.319 0.627 0.876 14327
Indígena 0.005 0.004 0.007 0.001 0.001 84
Parda 0.365 0.461 0.582 0.260 0.066 9138
Preta 0.080 0.104 0.085 0.105 0.056 2416
Total 3329 5779 4433 9542 3001 26084
Porém, é preciso tomar cuidado com conclusões precipitadas!
P(Branca) = 0.549!
11. ÍNDICE DE QUETELET
• Em casos como este, a probabilidade condicional
pode não ser a melhor forma de analisar os dados
• Existe uma característica mais sensível: Índice de
Quetelet!
12. ÍNDICE DE QUETELET
• Permite medir a alteração na frequência relativa
de Ra a partir da média de Re
• q(Ra/Re) = [p(Ra/Re) - P(Ra)] / p(Ra)
13. ÍNDICE DE QUETELET
Raça CO NE NO SE SU P
Branca 0.549 0.427 0.319 0.627 0.876 0.549
Indígena 0.005 0.004 0.007 0.001 0.001 0.003
Total 3329 5779 4433 9542 3001 26084
• Condicional: p(Branca, CO) = 0.549 > p(Indígena, CO) = 0.005
• Quetelet: q(Branca, CO) = (0.549 - 0.549) / 0.549 = 0 <
q(Indígena, CO) = (0.005 - 0.003) / 0.003 = 0.399
14. ÍNDICE DE QUETELET
Raça Centro-
Oeste
Nordeste Norte Sudeste Sul P(Re)
Amarela -60% 10% 29% 33% -100% 0.005
Branca 0% -22% -42% 14% 60% 0.549
Indígena 40% 13% 110% -54% -59% 0.003
Parda 4% 31% 66% -26% -81% 0.350
Preta -14% 12% -8% 13% -39% 0.093
Um candidato ser da raça Branca na região Sul é 60% mais provável
do que ele ser da raça Branca se considerarmos todo o país.
15. COEFICIENTE CHI-QUADRADO
Raça Centro-
Oeste
Nordeste Norte Sudeste Sul Total
Amarela 6 29 26 58 0 119
Branca 1828 2466 1416 5987 2630 14327
Indígena 15 21 30 14 4 84
Parda 1215 2662 2582 2481 198 9138
Preta 265 601 379 1002 169 2416
Total 3329 5779 4433 9542 3001 26084
linha e coluna marginal
16. CONTINGÊNCIA RELATIVA
Dividindo tudo por N
Raça Centro-
Oeste
Nordeste Norte Sudeste Sul Total
Amarela 0.000 0.001 0.001 0.002 0.000 0.005
Branca 0.070 0.095 0.054 0.230 0.101 0.549
Indígena 0.001 0.001 0.001 0.001 0.000 0.003
Parda 0.047 0.102 0.099 0.095 0.008 0.350
Preta 0.010 0.023 0.015 0.038 0.006 0.093
Total 0.128 0.222 0.170 0.366 0.115 1
17. CONTINGÊNCIA RELATIVA
Raça Centro-
Oeste
Nordeste Norte Sudeste Sul Total
Amarela 0.000 0.001 0.001 0.002 0.000 0.005
Branca 0.070 0.095 0.054 0.230 0.101 0.549
Indígena 0.001 0.001 0.001 0.001 0.000 0.003
Parda 0.047 0.102 0.099 0.095 0.008 0.350
Preta 0.010 0.023 0.015 0.038 0.006 0.093
Total 0.128 0.222 0.170 0.366 0.115 1
Karl Pearson (1867-1936): Teste de independência entre duas variáveis
18. COEFICIENTE CHI-QUADRADO
• Duas variáveis são independente se e somente se,
para qualquer k e l :
• p(Hk ∩ Gl) = p(Hk)p(Gl)
• p(Hk): coluna marginal
• p(Gl) linha marginal
19. COEFICIENTE CHI-QUADRADO
Raça CO NE NO SE S Total
Amarela 0.000 0.001 0.001 0.002 0.000 0.005
Branca 0.070 0.095 0.054 0.230 0.101 0.549
Indígena 0.001 0.001 0.001 0.001 0.000 0.003
Parda 0.047 0.102 0.099 0.095 0.008 0.350
Preta 0.010 0.023 0.015 0.038 0.006 0.093
Total 0.128 0.222 0.170 0.366 0.115 1
• Vamos checar se p(S ∩ Branca) = P(s)P(Branca)
0.101 0.115 * 0.549 = 0.063
• A diferença 0.101 - 0.063 = 0.038, moderada, indica que ser da raça branca e da
região sul do país ocorre mais frequentemente do que ocorreria se as variáveis fossem
independentes: uma relação positiva
20. p(Região ∩ Raça)
Raça CO NE NO SE S
Amarela 0.000 0.001 0.001 0.002 0.000
Branca 0.070 0.095 0.054 0.230 0.101
Indígena 0.001 0.001 0.001 0.001 0.000
Parda 0.047 0.102 0.099 0.095 0.008
Preta 0.010 0.023 0.015 0.038 0.006
p(Região)p(Raça)
Raça CO NE NO SE S
Amarela 0.001 0.001 0.001 0.002 0.001
Branca 0.070 0.122 0.093 0.201 0.063
Indígena 0.000 0.001 0.001 0.001 0.000
Parda 0.045 0.078 0.060 0.128 0.040
Preta 0.012 0.021 0.016 0.034 0.011
Correlação fraca: apenas 3 valores diferem em cerca de 0.04
21. COEFICIENTE CHI-QUADRADO
• O coeficiente Chi-Quadrado de Pearson mede a
diferença entre o valor medido e o valor esperado
na hipótese de independência utilizando a seguinte
expressão:
X2 = (p(Hk∩Gl)− p(Hk)p(Gl))2
L Σ k=1
;l=1 p(Hk)p(Gl)
K Σ
22. COEFICIENTE CHI-QUADRADO
• Por que X2?
• Pearson: Na hipótese das variáveis serem
independentes na população e de que a amostra
tenha sido coletada de forma aleatória, a função
de densidade de probabilidade NX2 tende a seguir
uma distribuição χ2 com f=(K-1)(L-1) graus de
liberdade
23. COEFICIENTE CHI-QUADRADO
• Aplicando ao nosso caso, temos K=5 e L=5, portanto f = 16.
• Com f = 16, na hipótese de independência das variáveis, há 1% de
chance de o valor NX2 ser maior do que 32
• No nosso caso X2 = 0.122962 , N = 26084, portanto, NX2 = 3207.3
• Portanto, podemos rejeitar com 99% de confiança a hipótese da
independência.
• Se tivéssemos apenas 250 candidatos não seria possível rejeitar a
hipótese da independência entre as variáveis
24. Raça CO NE NO SE S
Amarela 0.000 0.001 0.001 0.002 0.000
Branca 0.070 0.095 0.054 0.230 0.101
Indígena 0.001 0.001 0.001 0.001 0.000
Parda 0.047 0.102 0.099 0.095 0.008
Preta 0.010 0.023 0.015 0.038 0.006
Raça CO NE NO SE S
Amarela 0.001 0.001 0.001 0.002 0.001
Branca 0.070 0.122 0.093 0.201 0.063
Indígena 0.000 0.001 0.001 0.001 0.000
Parda 0.045 0.078 0.060 0.128 0.040
Preta 0.012 0.021 0.016 0.034 0.011
Não se recomenda utilizar o Chi-Quadrado como medida para a
associação entre duas variáveis.