SlideShare ist ein Scribd-Unternehmen logo
1 von 24
Downloaden Sie, um offline zu lesen
SUMARIZAÇÃO ESTATÍSTICA (2D) 
PARTE 2: VARIÁVEIS NOMINAIS 
Alexandre Duarte - http://alexandre.ci.ufpb.br/ensino/iad
AGENDA 
• Tabelas de Contingência 
• Probabilidade Condicional 
• Índice de Quetelet 
• Coeficiente Chi-Quadrado
TABELA DE CONTINGÊNCIA 
Região Mulheres Homens Total 
Centro-Oeste 1029 2300 3329 
Nordeste 1819 3960 5779 
Norte 1377 3056 4433 
Sudeste 2935 6607 9542 
Sul 940 2061 3001 
Total 8100 17984 26084
VARIÁVEIS NOMINAIS 
Região Sexo 
Estado Nível de Instrução 
Cargo Estado Civil 
Partido Raça
TABELA DE CONTINGÊNCIA: 
CO-OCORRÊNCIAS 
Raça Centro- 
Oeste 
Nordeste Norte Sudeste Sul Total 
Amarela 6 29 26 58 0 119 
Branca 1828 2466 1416 5987 2630 14327 
Indígena 15 21 30 14 4 84 
Parda 1215 2662 2582 2481 198 9138 
Preta 265 601 379 1002 169 2416 
Total 3329 5779 4433 9542 3001 26084
TABELA DE CONTINGÊNCIA: 
CO-OCORRÊNCIAS 
Frequências marginais: 
soma das linhas = Frequência por Região (Re) 
soma das colunas = Frequência da Raça (Ra)
CONTINGÊNCIA RELATIVA 
Raça Centro- 
Oeste 
Nordeste Norte Sudeste Sul Total 
Amarela 0.000 0.001 0.001 0.002 0.000 0.005 
Branca 0.070 0.095 0.054 0.230 0.101 0.549 
Indígena 0.001 0.001 0.001 0.001 0.000 0.003 
Parda 0.047 0.102 0.099 0.095 0.008 0.350 
Preta 0.010 0.023 0.015 0.038 0.006 0.093 
Total 0.128 0.222 0.170 0.366 0.115 1 
Frequência relativa: proporção entre o número de entidades em 
uma célula e total de entidades
PROBABILIDADE CONDICIONAL 
Raça Centro- 
Oeste 
Nordeste Norte Sudeste Sul Total 
Amarela 6/3329 29/5779 26/4433 58/9542 0/3001 119 
Branca 1828/3329 2466/5779 1416/4433 5987/9542 2630/3001 14327 
Indígena 15/3329 21/5779 30/4433 14/9542 4/3001 84 
Parda 1215/3329 2662/5779 2582/4433 2481/9542 198/3001 9138 
Preta 265/3329 601/5779 379/4433 1002/9542 169/3001 2416 
Total 3329 5779 4433 9542 3001 26084 
Probabilidade condicional p(Ra/Re): probabilidade do candidato ser 
da raça Ra dado que ele é da Região Re
PROBABILIDADE CONDICIONAL 
Raça Centro- 
Oeste 
Nordeste Norte Sudeste Sul Total 
Amarela 0.002 0.005 0.006 0.006 0.000 119 
Branca 0.549 0.427 0.319 0.627 0.876 14327 
Indígena 0.005 0.004 0.007 0.001 0.001 84 
Parda 0.365 0.461 0.582 0.260 0.066 9138 
Preta 0.080 0.104 0.085 0.105 0.056 2416 
Total 3329 5779 4433 9542 3001 26084 
As células em destaque são indicativas, especialmente p(Branca/Sul)
CUIDADO! 
Raça Centro- 
Oeste 
Nordeste Norte Sudeste Sul Total 
Amarela 0.002 0.005 0.006 0.006 0.000 119 
Branca 0.549 0.427 0.319 0.627 0.876 14327 
Indígena 0.005 0.004 0.007 0.001 0.001 84 
Parda 0.365 0.461 0.582 0.260 0.066 9138 
Preta 0.080 0.104 0.085 0.105 0.056 2416 
Total 3329 5779 4433 9542 3001 26084 
Porém, é preciso tomar cuidado com conclusões precipitadas! 
P(Branca) = 0.549!
ÍNDICE DE QUETELET 
• Em casos como este, a probabilidade condicional 
pode não ser a melhor forma de analisar os dados 
• Existe uma característica mais sensível: Índice de 
Quetelet!
ÍNDICE DE QUETELET 
• Permite medir a alteração na frequência relativa 
de Ra a partir da média de Re 
• q(Ra/Re) = [p(Ra/Re) - P(Ra)] / p(Ra)
ÍNDICE DE QUETELET 
Raça CO NE NO SE SU P 
Branca 0.549 0.427 0.319 0.627 0.876 0.549 
Indígena 0.005 0.004 0.007 0.001 0.001 0.003 
Total 3329 5779 4433 9542 3001 26084 
• Condicional: p(Branca, CO) = 0.549 > p(Indígena, CO) = 0.005 
• Quetelet: q(Branca, CO) = (0.549 - 0.549) / 0.549 = 0 < 
q(Indígena, CO) = (0.005 - 0.003) / 0.003 = 0.399
ÍNDICE DE QUETELET 
Raça Centro- 
Oeste 
Nordeste Norte Sudeste Sul P(Re) 
Amarela -60% 10% 29% 33% -100% 0.005 
Branca 0% -22% -42% 14% 60% 0.549 
Indígena 40% 13% 110% -54% -59% 0.003 
Parda 4% 31% 66% -26% -81% 0.350 
Preta -14% 12% -8% 13% -39% 0.093 
Um candidato ser da raça Branca na região Sul é 60% mais provável 
do que ele ser da raça Branca se considerarmos todo o país.
COEFICIENTE CHI-QUADRADO 
Raça Centro- 
Oeste 
Nordeste Norte Sudeste Sul Total 
Amarela 6 29 26 58 0 119 
Branca 1828 2466 1416 5987 2630 14327 
Indígena 15 21 30 14 4 84 
Parda 1215 2662 2582 2481 198 9138 
Preta 265 601 379 1002 169 2416 
Total 3329 5779 4433 9542 3001 26084 
linha e coluna marginal
CONTINGÊNCIA RELATIVA 
Dividindo tudo por N 
Raça Centro- 
Oeste 
Nordeste Norte Sudeste Sul Total 
Amarela 0.000 0.001 0.001 0.002 0.000 0.005 
Branca 0.070 0.095 0.054 0.230 0.101 0.549 
Indígena 0.001 0.001 0.001 0.001 0.000 0.003 
Parda 0.047 0.102 0.099 0.095 0.008 0.350 
Preta 0.010 0.023 0.015 0.038 0.006 0.093 
Total 0.128 0.222 0.170 0.366 0.115 1
CONTINGÊNCIA RELATIVA 
Raça Centro- 
Oeste 
Nordeste Norte Sudeste Sul Total 
Amarela 0.000 0.001 0.001 0.002 0.000 0.005 
Branca 0.070 0.095 0.054 0.230 0.101 0.549 
Indígena 0.001 0.001 0.001 0.001 0.000 0.003 
Parda 0.047 0.102 0.099 0.095 0.008 0.350 
Preta 0.010 0.023 0.015 0.038 0.006 0.093 
Total 0.128 0.222 0.170 0.366 0.115 1 
Karl Pearson (1867-1936): Teste de independência entre duas variáveis
COEFICIENTE CHI-QUADRADO 
• Duas variáveis são independente se e somente se, 
para qualquer k e l : 
• p(Hk ∩ Gl) = p(Hk)p(Gl) 
• p(Hk): coluna marginal 
• p(Gl) linha marginal
COEFICIENTE CHI-QUADRADO 
Raça CO NE NO SE S Total 
Amarela 0.000 0.001 0.001 0.002 0.000 0.005 
Branca 0.070 0.095 0.054 0.230 0.101 0.549 
Indígena 0.001 0.001 0.001 0.001 0.000 0.003 
Parda 0.047 0.102 0.099 0.095 0.008 0.350 
Preta 0.010 0.023 0.015 0.038 0.006 0.093 
Total 0.128 0.222 0.170 0.366 0.115 1 
• Vamos checar se p(S ∩ Branca) = P(s)P(Branca) 
0.101 0.115 * 0.549 = 0.063 
• A diferença 0.101 - 0.063 = 0.038, moderada, indica que ser da raça branca e da 
região sul do país ocorre mais frequentemente do que ocorreria se as variáveis fossem 
independentes: uma relação positiva
p(Região ∩ Raça) 
Raça CO NE NO SE S 
Amarela 0.000 0.001 0.001 0.002 0.000 
Branca 0.070 0.095 0.054 0.230 0.101 
Indígena 0.001 0.001 0.001 0.001 0.000 
Parda 0.047 0.102 0.099 0.095 0.008 
Preta 0.010 0.023 0.015 0.038 0.006 
p(Região)p(Raça) 
Raça CO NE NO SE S 
Amarela 0.001 0.001 0.001 0.002 0.001 
Branca 0.070 0.122 0.093 0.201 0.063 
Indígena 0.000 0.001 0.001 0.001 0.000 
Parda 0.045 0.078 0.060 0.128 0.040 
Preta 0.012 0.021 0.016 0.034 0.011 
Correlação fraca: apenas 3 valores diferem em cerca de 0.04
COEFICIENTE CHI-QUADRADO 
• O coeficiente Chi-Quadrado de Pearson mede a 
diferença entre o valor medido e o valor esperado 
na hipótese de independência utilizando a seguinte 
expressão: 
X2 = (p(Hk∩Gl)− p(Hk)p(Gl))2 
L Σ k=1 
;l=1 p(Hk)p(Gl) 
K Σ
COEFICIENTE CHI-QUADRADO 
• Por que X2? 
• Pearson: Na hipótese das variáveis serem 
independentes na população e de que a amostra 
tenha sido coletada de forma aleatória, a função 
de densidade de probabilidade NX2 tende a seguir 
uma distribuição χ2 com f=(K-1)(L-1) graus de 
liberdade
COEFICIENTE CHI-QUADRADO 
• Aplicando ao nosso caso, temos K=5 e L=5, portanto f = 16. 
• Com f = 16, na hipótese de independência das variáveis, há 1% de 
chance de o valor NX2 ser maior do que 32 
• No nosso caso X2 = 0.122962 , N = 26084, portanto, NX2 = 3207.3 
• Portanto, podemos rejeitar com 99% de confiança a hipótese da 
independência. 
• Se tivéssemos apenas 250 candidatos não seria possível rejeitar a 
hipótese da independência entre as variáveis
Raça CO NE NO SE S 
Amarela 0.000 0.001 0.001 0.002 0.000 
Branca 0.070 0.095 0.054 0.230 0.101 
Indígena 0.001 0.001 0.001 0.001 0.000 
Parda 0.047 0.102 0.099 0.095 0.008 
Preta 0.010 0.023 0.015 0.038 0.006 
Raça CO NE NO SE S 
Amarela 0.001 0.001 0.001 0.002 0.001 
Branca 0.070 0.122 0.093 0.201 0.063 
Indígena 0.000 0.001 0.001 0.001 0.000 
Parda 0.045 0.078 0.060 0.128 0.040 
Preta 0.012 0.021 0.016 0.034 0.011 
Não se recomenda utilizar o Chi-Quadrado como medida para a 
associação entre duas variáveis.

Weitere ähnliche Inhalte

Mehr von Alexandre Duarte

Ciência da Computação como Ciência
Ciência da Computação como CiênciaCiência da Computação como Ciência
Ciência da Computação como CiênciaAlexandre Duarte
 
Metodologia da Pesquisa Científica: Introdução
Metodologia da Pesquisa Científica:  IntroduçãoMetodologia da Pesquisa Científica:  Introdução
Metodologia da Pesquisa Científica: IntroduçãoAlexandre Duarte
 
Gráficos: 10 dicas sobre o que fazer e sobre o que não fazer
Gráficos: 10 dicas sobre o que fazer e sobre o que não fazerGráficos: 10 dicas sobre o que fazer e sobre o que não fazer
Gráficos: 10 dicas sobre o que fazer e sobre o que não fazerAlexandre Duarte
 
Panorama de Pesquisas em Análise de Dados na UFPB
Panorama de Pesquisas em Análise de Dados na UFPBPanorama de Pesquisas em Análise de Dados na UFPB
Panorama de Pesquisas em Análise de Dados na UFPBAlexandre Duarte
 
Correlação e Classificação
Correlação e ClassificaçãoCorrelação e Classificação
Correlação e ClassificaçãoAlexandre Duarte
 
Sumarização Estatística 2D
Sumarização Estatística 2DSumarização Estatística 2D
Sumarização Estatística 2DAlexandre Duarte
 
Introdução ao Projeto de Experimentos
Introdução ao Projeto de ExperimentosIntrodução ao Projeto de Experimentos
Introdução ao Projeto de ExperimentosAlexandre Duarte
 
Introdução ao Projeto de Surveys
Introdução ao Projeto de SurveysIntrodução ao Projeto de Surveys
Introdução ao Projeto de SurveysAlexandre Duarte
 
Introdução à Análise de Dados - Aula 01
Introdução à Análise de Dados - Aula 01Introdução à Análise de Dados - Aula 01
Introdução à Análise de Dados - Aula 01Alexandre Duarte
 
Introdução à Analise de Dados - aula 3 - Agregação de Dados
Introdução à Analise de Dados - aula 3 - Agregação de DadosIntrodução à Analise de Dados - aula 3 - Agregação de Dados
Introdução à Analise de Dados - aula 3 - Agregação de DadosAlexandre Duarte
 
Introdução à Análise de Dados - Aula 02 - Tipos Básicos de Dados
Introdução à Análise de Dados - Aula 02 - Tipos Básicos de Dados Introdução à Análise de Dados - Aula 02 - Tipos Básicos de Dados
Introdução à Análise de Dados - Aula 02 - Tipos Básicos de Dados Alexandre Duarte
 
Análise de Redes Sociais: Introdução aos Grafos Aleatórios
Análise de Redes Sociais: Introdução aos Grafos Aleatórios Análise de Redes Sociais: Introdução aos Grafos Aleatórios
Análise de Redes Sociais: Introdução aos Grafos Aleatórios Alexandre Duarte
 
Análise de Redes Sociais: Introdução
Análise de Redes Sociais: IntroduçãoAnálise de Redes Sociais: Introdução
Análise de Redes Sociais: IntroduçãoAlexandre Duarte
 
Dicas para calouros na Universidade
Dicas para calouros na UniversidadeDicas para calouros na Universidade
Dicas para calouros na UniversidadeAlexandre Duarte
 
Unidade 0: Projeto de Experimentos
Unidade 0: Projeto de ExperimentosUnidade 0: Projeto de Experimentos
Unidade 0: Projeto de ExperimentosAlexandre Duarte
 
Unidade 0: Visão geral sobre o método científico
Unidade 0: Visão geral sobre o método científicoUnidade 0: Visão geral sobre o método científico
Unidade 0: Visão geral sobre o método científicoAlexandre Duarte
 
Gerência de Armazenamento: Sistemas de Entrada e Saída
Gerência de Armazenamento: Sistemas de Entrada e SaídaGerência de Armazenamento: Sistemas de Entrada e Saída
Gerência de Armazenamento: Sistemas de Entrada e SaídaAlexandre Duarte
 
Gerência de Armazenamento: Sistemas de Armazenamento em Massa
Gerência de Armazenamento: Sistemas de Armazenamento em MassaGerência de Armazenamento: Sistemas de Armazenamento em Massa
Gerência de Armazenamento: Sistemas de Armazenamento em MassaAlexandre Duarte
 

Mehr von Alexandre Duarte (20)

Ciência da Computação como Ciência
Ciência da Computação como CiênciaCiência da Computação como Ciência
Ciência da Computação como Ciência
 
Metodologia da Pesquisa Científica: Introdução
Metodologia da Pesquisa Científica:  IntroduçãoMetodologia da Pesquisa Científica:  Introdução
Metodologia da Pesquisa Científica: Introdução
 
Gráficos: 10 dicas sobre o que fazer e sobre o que não fazer
Gráficos: 10 dicas sobre o que fazer e sobre o que não fazerGráficos: 10 dicas sobre o que fazer e sobre o que não fazer
Gráficos: 10 dicas sobre o que fazer e sobre o que não fazer
 
Panorama de Pesquisas em Análise de Dados na UFPB
Panorama de Pesquisas em Análise de Dados na UFPBPanorama de Pesquisas em Análise de Dados na UFPB
Panorama de Pesquisas em Análise de Dados na UFPB
 
Agrupamento com K-Means
Agrupamento com K-MeansAgrupamento com K-Means
Agrupamento com K-Means
 
Correlação e Classificação
Correlação e ClassificaçãoCorrelação e Classificação
Correlação e Classificação
 
Sumarização Estatística 2D
Sumarização Estatística 2DSumarização Estatística 2D
Sumarização Estatística 2D
 
Transformação de Dados
Transformação de DadosTransformação de Dados
Transformação de Dados
 
Introdução ao Projeto de Experimentos
Introdução ao Projeto de ExperimentosIntrodução ao Projeto de Experimentos
Introdução ao Projeto de Experimentos
 
Introdução ao Projeto de Surveys
Introdução ao Projeto de SurveysIntrodução ao Projeto de Surveys
Introdução ao Projeto de Surveys
 
Introdução à Análise de Dados - Aula 01
Introdução à Análise de Dados - Aula 01Introdução à Análise de Dados - Aula 01
Introdução à Análise de Dados - Aula 01
 
Introdução à Analise de Dados - aula 3 - Agregação de Dados
Introdução à Analise de Dados - aula 3 - Agregação de DadosIntrodução à Analise de Dados - aula 3 - Agregação de Dados
Introdução à Analise de Dados - aula 3 - Agregação de Dados
 
Introdução à Análise de Dados - Aula 02 - Tipos Básicos de Dados
Introdução à Análise de Dados - Aula 02 - Tipos Básicos de Dados Introdução à Análise de Dados - Aula 02 - Tipos Básicos de Dados
Introdução à Análise de Dados - Aula 02 - Tipos Básicos de Dados
 
Análise de Redes Sociais: Introdução aos Grafos Aleatórios
Análise de Redes Sociais: Introdução aos Grafos Aleatórios Análise de Redes Sociais: Introdução aos Grafos Aleatórios
Análise de Redes Sociais: Introdução aos Grafos Aleatórios
 
Análise de Redes Sociais: Introdução
Análise de Redes Sociais: IntroduçãoAnálise de Redes Sociais: Introdução
Análise de Redes Sociais: Introdução
 
Dicas para calouros na Universidade
Dicas para calouros na UniversidadeDicas para calouros na Universidade
Dicas para calouros na Universidade
 
Unidade 0: Projeto de Experimentos
Unidade 0: Projeto de ExperimentosUnidade 0: Projeto de Experimentos
Unidade 0: Projeto de Experimentos
 
Unidade 0: Visão geral sobre o método científico
Unidade 0: Visão geral sobre o método científicoUnidade 0: Visão geral sobre o método científico
Unidade 0: Visão geral sobre o método científico
 
Gerência de Armazenamento: Sistemas de Entrada e Saída
Gerência de Armazenamento: Sistemas de Entrada e SaídaGerência de Armazenamento: Sistemas de Entrada e Saída
Gerência de Armazenamento: Sistemas de Entrada e Saída
 
Gerência de Armazenamento: Sistemas de Armazenamento em Massa
Gerência de Armazenamento: Sistemas de Armazenamento em MassaGerência de Armazenamento: Sistemas de Armazenamento em Massa
Gerência de Armazenamento: Sistemas de Armazenamento em Massa
 

Sumarização Estatística 2D: Variáveis Nominais

  • 1. SUMARIZAÇÃO ESTATÍSTICA (2D) PARTE 2: VARIÁVEIS NOMINAIS Alexandre Duarte - http://alexandre.ci.ufpb.br/ensino/iad
  • 2. AGENDA • Tabelas de Contingência • Probabilidade Condicional • Índice de Quetelet • Coeficiente Chi-Quadrado
  • 3. TABELA DE CONTINGÊNCIA Região Mulheres Homens Total Centro-Oeste 1029 2300 3329 Nordeste 1819 3960 5779 Norte 1377 3056 4433 Sudeste 2935 6607 9542 Sul 940 2061 3001 Total 8100 17984 26084
  • 4. VARIÁVEIS NOMINAIS Região Sexo Estado Nível de Instrução Cargo Estado Civil Partido Raça
  • 5. TABELA DE CONTINGÊNCIA: CO-OCORRÊNCIAS Raça Centro- Oeste Nordeste Norte Sudeste Sul Total Amarela 6 29 26 58 0 119 Branca 1828 2466 1416 5987 2630 14327 Indígena 15 21 30 14 4 84 Parda 1215 2662 2582 2481 198 9138 Preta 265 601 379 1002 169 2416 Total 3329 5779 4433 9542 3001 26084
  • 6. TABELA DE CONTINGÊNCIA: CO-OCORRÊNCIAS Frequências marginais: soma das linhas = Frequência por Região (Re) soma das colunas = Frequência da Raça (Ra)
  • 7. CONTINGÊNCIA RELATIVA Raça Centro- Oeste Nordeste Norte Sudeste Sul Total Amarela 0.000 0.001 0.001 0.002 0.000 0.005 Branca 0.070 0.095 0.054 0.230 0.101 0.549 Indígena 0.001 0.001 0.001 0.001 0.000 0.003 Parda 0.047 0.102 0.099 0.095 0.008 0.350 Preta 0.010 0.023 0.015 0.038 0.006 0.093 Total 0.128 0.222 0.170 0.366 0.115 1 Frequência relativa: proporção entre o número de entidades em uma célula e total de entidades
  • 8. PROBABILIDADE CONDICIONAL Raça Centro- Oeste Nordeste Norte Sudeste Sul Total Amarela 6/3329 29/5779 26/4433 58/9542 0/3001 119 Branca 1828/3329 2466/5779 1416/4433 5987/9542 2630/3001 14327 Indígena 15/3329 21/5779 30/4433 14/9542 4/3001 84 Parda 1215/3329 2662/5779 2582/4433 2481/9542 198/3001 9138 Preta 265/3329 601/5779 379/4433 1002/9542 169/3001 2416 Total 3329 5779 4433 9542 3001 26084 Probabilidade condicional p(Ra/Re): probabilidade do candidato ser da raça Ra dado que ele é da Região Re
  • 9. PROBABILIDADE CONDICIONAL Raça Centro- Oeste Nordeste Norte Sudeste Sul Total Amarela 0.002 0.005 0.006 0.006 0.000 119 Branca 0.549 0.427 0.319 0.627 0.876 14327 Indígena 0.005 0.004 0.007 0.001 0.001 84 Parda 0.365 0.461 0.582 0.260 0.066 9138 Preta 0.080 0.104 0.085 0.105 0.056 2416 Total 3329 5779 4433 9542 3001 26084 As células em destaque são indicativas, especialmente p(Branca/Sul)
  • 10. CUIDADO! Raça Centro- Oeste Nordeste Norte Sudeste Sul Total Amarela 0.002 0.005 0.006 0.006 0.000 119 Branca 0.549 0.427 0.319 0.627 0.876 14327 Indígena 0.005 0.004 0.007 0.001 0.001 84 Parda 0.365 0.461 0.582 0.260 0.066 9138 Preta 0.080 0.104 0.085 0.105 0.056 2416 Total 3329 5779 4433 9542 3001 26084 Porém, é preciso tomar cuidado com conclusões precipitadas! P(Branca) = 0.549!
  • 11. ÍNDICE DE QUETELET • Em casos como este, a probabilidade condicional pode não ser a melhor forma de analisar os dados • Existe uma característica mais sensível: Índice de Quetelet!
  • 12. ÍNDICE DE QUETELET • Permite medir a alteração na frequência relativa de Ra a partir da média de Re • q(Ra/Re) = [p(Ra/Re) - P(Ra)] / p(Ra)
  • 13. ÍNDICE DE QUETELET Raça CO NE NO SE SU P Branca 0.549 0.427 0.319 0.627 0.876 0.549 Indígena 0.005 0.004 0.007 0.001 0.001 0.003 Total 3329 5779 4433 9542 3001 26084 • Condicional: p(Branca, CO) = 0.549 > p(Indígena, CO) = 0.005 • Quetelet: q(Branca, CO) = (0.549 - 0.549) / 0.549 = 0 < q(Indígena, CO) = (0.005 - 0.003) / 0.003 = 0.399
  • 14. ÍNDICE DE QUETELET Raça Centro- Oeste Nordeste Norte Sudeste Sul P(Re) Amarela -60% 10% 29% 33% -100% 0.005 Branca 0% -22% -42% 14% 60% 0.549 Indígena 40% 13% 110% -54% -59% 0.003 Parda 4% 31% 66% -26% -81% 0.350 Preta -14% 12% -8% 13% -39% 0.093 Um candidato ser da raça Branca na região Sul é 60% mais provável do que ele ser da raça Branca se considerarmos todo o país.
  • 15. COEFICIENTE CHI-QUADRADO Raça Centro- Oeste Nordeste Norte Sudeste Sul Total Amarela 6 29 26 58 0 119 Branca 1828 2466 1416 5987 2630 14327 Indígena 15 21 30 14 4 84 Parda 1215 2662 2582 2481 198 9138 Preta 265 601 379 1002 169 2416 Total 3329 5779 4433 9542 3001 26084 linha e coluna marginal
  • 16. CONTINGÊNCIA RELATIVA Dividindo tudo por N Raça Centro- Oeste Nordeste Norte Sudeste Sul Total Amarela 0.000 0.001 0.001 0.002 0.000 0.005 Branca 0.070 0.095 0.054 0.230 0.101 0.549 Indígena 0.001 0.001 0.001 0.001 0.000 0.003 Parda 0.047 0.102 0.099 0.095 0.008 0.350 Preta 0.010 0.023 0.015 0.038 0.006 0.093 Total 0.128 0.222 0.170 0.366 0.115 1
  • 17. CONTINGÊNCIA RELATIVA Raça Centro- Oeste Nordeste Norte Sudeste Sul Total Amarela 0.000 0.001 0.001 0.002 0.000 0.005 Branca 0.070 0.095 0.054 0.230 0.101 0.549 Indígena 0.001 0.001 0.001 0.001 0.000 0.003 Parda 0.047 0.102 0.099 0.095 0.008 0.350 Preta 0.010 0.023 0.015 0.038 0.006 0.093 Total 0.128 0.222 0.170 0.366 0.115 1 Karl Pearson (1867-1936): Teste de independência entre duas variáveis
  • 18. COEFICIENTE CHI-QUADRADO • Duas variáveis são independente se e somente se, para qualquer k e l : • p(Hk ∩ Gl) = p(Hk)p(Gl) • p(Hk): coluna marginal • p(Gl) linha marginal
  • 19. COEFICIENTE CHI-QUADRADO Raça CO NE NO SE S Total Amarela 0.000 0.001 0.001 0.002 0.000 0.005 Branca 0.070 0.095 0.054 0.230 0.101 0.549 Indígena 0.001 0.001 0.001 0.001 0.000 0.003 Parda 0.047 0.102 0.099 0.095 0.008 0.350 Preta 0.010 0.023 0.015 0.038 0.006 0.093 Total 0.128 0.222 0.170 0.366 0.115 1 • Vamos checar se p(S ∩ Branca) = P(s)P(Branca) 0.101 0.115 * 0.549 = 0.063 • A diferença 0.101 - 0.063 = 0.038, moderada, indica que ser da raça branca e da região sul do país ocorre mais frequentemente do que ocorreria se as variáveis fossem independentes: uma relação positiva
  • 20. p(Região ∩ Raça) Raça CO NE NO SE S Amarela 0.000 0.001 0.001 0.002 0.000 Branca 0.070 0.095 0.054 0.230 0.101 Indígena 0.001 0.001 0.001 0.001 0.000 Parda 0.047 0.102 0.099 0.095 0.008 Preta 0.010 0.023 0.015 0.038 0.006 p(Região)p(Raça) Raça CO NE NO SE S Amarela 0.001 0.001 0.001 0.002 0.001 Branca 0.070 0.122 0.093 0.201 0.063 Indígena 0.000 0.001 0.001 0.001 0.000 Parda 0.045 0.078 0.060 0.128 0.040 Preta 0.012 0.021 0.016 0.034 0.011 Correlação fraca: apenas 3 valores diferem em cerca de 0.04
  • 21. COEFICIENTE CHI-QUADRADO • O coeficiente Chi-Quadrado de Pearson mede a diferença entre o valor medido e o valor esperado na hipótese de independência utilizando a seguinte expressão: X2 = (p(Hk∩Gl)− p(Hk)p(Gl))2 L Σ k=1 ;l=1 p(Hk)p(Gl) K Σ
  • 22. COEFICIENTE CHI-QUADRADO • Por que X2? • Pearson: Na hipótese das variáveis serem independentes na população e de que a amostra tenha sido coletada de forma aleatória, a função de densidade de probabilidade NX2 tende a seguir uma distribuição χ2 com f=(K-1)(L-1) graus de liberdade
  • 23. COEFICIENTE CHI-QUADRADO • Aplicando ao nosso caso, temos K=5 e L=5, portanto f = 16. • Com f = 16, na hipótese de independência das variáveis, há 1% de chance de o valor NX2 ser maior do que 32 • No nosso caso X2 = 0.122962 , N = 26084, portanto, NX2 = 3207.3 • Portanto, podemos rejeitar com 99% de confiança a hipótese da independência. • Se tivéssemos apenas 250 candidatos não seria possível rejeitar a hipótese da independência entre as variáveis
  • 24. Raça CO NE NO SE S Amarela 0.000 0.001 0.001 0.002 0.000 Branca 0.070 0.095 0.054 0.230 0.101 Indígena 0.001 0.001 0.001 0.001 0.000 Parda 0.047 0.102 0.099 0.095 0.008 Preta 0.010 0.023 0.015 0.038 0.006 Raça CO NE NO SE S Amarela 0.001 0.001 0.001 0.002 0.001 Branca 0.070 0.122 0.093 0.201 0.063 Indígena 0.000 0.001 0.001 0.001 0.000 Parda 0.045 0.078 0.060 0.128 0.040 Preta 0.012 0.021 0.016 0.034 0.011 Não se recomenda utilizar o Chi-Quadrado como medida para a associação entre duas variáveis.