O documento fornece informações sobre testes estatísticos univariados, incluindo:
1) Comparação de médias entre dois ou mais grupos para amostras independentes usando teste paramétrico como ANOVA ou não paramétrico como Kruskal-Wallis.
2) Correlações entre variáveis usando teste paramétrico como Pearson ou não paramétrico como Spearman.
3) Exemplos de como aplicar esses testes, interpretar valores-p e concluir se há diferenças estatisticamente significativas entre grupos.
Estatística básica: tipos de variáveis, organização de dados e testes univariados
1. www.valorp.com
Consultoria e Cursos
Kaluce Gonçalves de Sousa Almondes
Doutora em Ciência dos Alimentos
Faculdade de Ciências Farmacêuticas - USP
Estatística Básica
www.valorp.com
contato@valorp.com
Aula 2
2. www.valorp.com
➢Tipos de variáveis
➢Organização de banco de dados
➢Importância da estatística
➢Pré-requisitos
➢Principais testes univariados (Comparação de 2 médias e de
mais de 2 médias, Correlações, Associações)
➢Outras análises importantes
Agenda
3. www.valorp.com
Discreta – Ex.: número de filhos
Quantitativa
Contínua – Ex.: IMC
Nominal – Ex.: Sem excesso de peso
Com excesso de peso
Qualitativa
Ordinal – Ex.: Baixo peso
Eutrófico
Excesso de peso
Obesidade
Tipos de variáveis
4. www.valorp.com
Organização de banco de dados
Identificação Sexo Nº de filhos IMC
Class_IMC_Com e Sem
excesso Class_IMC_Completa
1 1 1 18,2 1 1
2 2 2 20,4 1 2
3 1 3 20,0 1 2
4 2 2 14,9 1 1
5 1 5 23,3 1 2
6 1 1 31,2 2 4
7 2 2 26,8 2 3
8 2 3 16,4 1 1
9 1 4 35,2 2 4
LEGENDA:
Class_IMC_Com e Sem excesso Class_IMC_Completa
Categoria Referência Código Categoria Referência Código
Sem excesso < 25 Kg/m2 1 Baixo Peso < 18,5 Kg/m2 1
Com excesso ≥ 25 Kg/m2 2 Eutrofia 18,5 – 24,9 Kg/m2 2
Excesso de peso 25 – 29,9 Kg/m2 3
Sexo Obesidade ≥ 30 Kg/m2 4
Feminino 1
Masculino 2
Qualitativa
nominal
Quantitativa
discreta
Quantitativa
contínua
Qualitativa
nominal
Qualitativa
ordinal
5. www.valorp.com
Identificação HAS DM DC Identificação Doenças
1 x 1 1
2 x x 2 6
3 x 3 1
4 x 4 3
5 x 5 2
6 x 6 1
7 x x 7 6
8 x 8 2
9 x x 9 4
10 x x x 10 7
LEGENDA:
Doenças Códigos
HAS 1
DM 2
DC 3
HAS e DM 4
HAS e DC 5
DM e DC 6
HAS, DM e DC 7
Organização de banco de dados
6. www.valorp.com
Classificação das variáveis antropométricas
Variáveis Categorias Referência Código
IMC (kg/m2)
Baixo Peso < 18,5 0
Eutrofia 18,5 – 24,9 1
Excesso de peso 25 – 29,9 2
Obesidade ≥ 30 3
CC (cm)
Feminino Masculino
Sem risco < 80 < 94 0
Risco elevado 80 – 88 94 – 102 1
Risco muito elevado ≥ 88 ≥ 102 2
% GC
Feminino Masculino
Risco de doenças e
distúrbios associados à
desnutrição
≤ 8 ≤ 5 0
Abaixo da média 9 – 22 6 -14 1
Média 23 15 2
Acima da média 24 – 31 16 – 24 3
Risco de doenças
associadas à obesidade
≥ 32 ≥ 25 4
Fonte: Organização Mundial de Saúde (2000); Lohman (1992).
7. www.valorp.com
1) Comparação entre as medidas:
- Maior, menor, igual;
- Melhor, pior, indiferente;
2) Segurança na comparação;
Grupo A – média de LDL – 135,2 mg/dL
Grupo B – média de LDL – 138,4 mg/dL
Será que o grupo B tem concentração média de LDL
maior que o grupo A?
Importância da estatística
8. www.valorp.com
Importância da estatística em
laboratório
Coeficiente de variação: mede a precisão (reprodutibilidade) do teste.
É obtido a partir da média e desvio padrão (CV= DP/média X 100).
Em geral, não devem ser maior que 5%.
9. www.valorp.com
Identificação Peso Resíduo Resíduo ao quadrado
1 64 1,25 1,5625
2 71 8,25 68,0625
3 53 -9,75 95,0625
4 67 4,25 18,0625
5 55 -7,75 60,0625
6 58 -4,75 22,5625
7 77 14,25 203,0625
8 57 -5,75 33,0625
9 56 -6,75 45,5625
10 51 -11,75 138,0625
11 76 13,25 175,5625
12 68 5,25 27,5625
62,75 0
Média Resíduo Resíduo ao quadrado
= (soma total)/nº de indivíduos = (valor do peso - média do peso) = resíduo x resíduo
𝑉𝑎𝑟𝑖â𝑛𝑐𝑖𝑎 =
Σ 𝑑𝑜 𝑟𝑒𝑠í𝑑𝑢𝑜 𝑎𝑜 𝑞𝑢𝑎𝑑𝑟𝑎𝑑𝑜
𝑛 − 1
𝑉𝑎𝑟𝑖â𝑛𝑐𝑖𝑎 =
888,25
12 − 1
𝑉𝑎𝑟𝑖â𝑛𝑐𝑖𝑎 = 80,75
𝐷𝑒𝑠𝑣𝑖𝑜 𝑝𝑎𝑑𝑟ã𝑜 = 80,75
𝐷𝑒𝑠𝑣𝑖𝑜 𝑝𝑎𝑑𝑟ã𝑜 = 𝑉𝑎𝑟𝑖â𝑛𝑐𝑖𝑎
𝐷𝑒𝑠𝑣𝑖𝑜 𝑝𝑎𝑑𝑟ã𝑜 = 8,986
Média, variância e DP
Variância:
medida de
dispersão que
mostra quão
distantes os
valores estão da
média
Desvio padrão: é o
resultado positivo da
raiz quadrada da
variância
10. www.valorp.com
Univariados – Ex.: qui-quadrado, comparações
de 2 ou mais médias, correlações.
Multivariados – Ex.: regressões, análise de
componentes principais.
Testes estatísticos
11. www.valorp.com
OBJETIVO DO
ESTUDO (Ho)
TESTE
PARAMÉTRICO
TESTE NÃO
PARAMÉTRICO
comparação de 2
médias (amostras
independentes)
t-Student Mann-Whitney
comparação de 2
médias (amostras
relacionadas)
t-Student (pareado) Wilcoxon
comparação de 3 ou
mais médias
(amostras
independentes)
análise de variância
(ANOVA)
Kruskal-Wallis
coeficiente de
correlação
Pearson Spearman
Teste univariados
12. www.valorp.com
Hipótese nula e alternativa
Hipótese nula (H0) – afirmativa de nenhum efeito ou
nenhuma diferença. Ex.: H0: ҧ𝑥 LDLa= ҧ𝑥 LDLb
Hipótese alternativa (Ha) – afirmativa a favor da qual
esperamos encontrar evidência. Ex.: Ha: ҧ𝑥 LDLa≠ ҧ𝑥 LDLb
13. www.valorp.com
Valor P
Valor P – A probabilidade que mede a força da evidência
contra a hipótese nula
Valores P pequenos – evidência contra H0 Logo, Ha é
verdadeiro (existe diferença)
Valores P grandes – não fornecem evidência contra H0
Logo, Ha não é verdadeiro (não existe diferença)
Quanto menor o valor P, mais forte é a evidência contra
H0 fornecida pelos dados.
14. www.valorp.com
Significância (α)
Nível de significância – valor fixo padrão contra H0
α = 0,05 ou 0,01 ou 0,001
P ≤ 0,05 não há mais que uma chance em 20 de os
resultados serem facilmente explicados apenas pela
variação do acaso H0 é falso e Ha é verdadeiro
Como saber se o valor P é grande ou pequeno?
Significância improvável de acontecer apenas por
acaso devido às variações de amostra para amostra
15. www.valorp.com
Significância (α)
P = 0,03 significante no nível α = 0,05, mas não é
significante no nível α = 0,01 ou α = 0,001.
P = 0,008 significante no nível α = 0,05 e α = 0,01,
mas não é significante no nível α = 0,001.
P = 0,0006 significante no nível α = 0,05, α = 0,01 e α
= 0,001.
Se o valor P é “igual a” ou “menor que” α, dizemos que os
dados são estatisticamente significantes no nível α.
16. www.valorp.com
Normalidade
Kolmogorov-Smirnov ou Shapiro-Wilk - p > 0,05
One-Sample Kolmogorov-Smirnov Test
IMC
N 84
Normal Parameters(a,b)
Mean 18,5845
Std. Deviation 4,36485
Most Extreme
Differences
Absolute ,170
Positive ,170
Negative -,099
Kolmogorov-Smirnov Z 1,559
Asymp. Sig. (2-tailed) ,015
a Test distribution is Normal.
b Calculated from data. p < 0,05
One-Sample Kolmogorov-Smirnov Test
Energia
N 74
Normal Parameters(a,b)
Mean 1782,5811
Std. Deviation 426,96926
Most Extreme
Differences
Absolute ,059
Positive ,059
Negative -,040
Kolmogorov-Smirnov Z ,507
Asymp. Sig. (2-tailed) ,960
a Test distribution is Normal.
b Calculated from data.
p > 0,05
17. www.valorp.com
Homogeneidade
Levene - p > 0,05
p < 0,05
Test of Homogeneity of Variances
Levene Statistic df1 df2 Sig.
IMC 11,841 1 334 ,001
Energia 3,109 1 282 ,079 p > 0,05
Decisão
Variável Normalidade Homogeneidade Compar. média Correlação
IMC Não Normal Não Homogêneo Não Paramétrico Não
ParamétricoEnergia Normal Homogêneo Paramétrico
Por
grupos:
sexo,
genótipo
18. www.valorp.com
Decisão - Tipos de testes
Comparação de médias
Suposições
Normalidade Homogeneidade Teste
Normal Homogêneo Paramétrico
Não normal Não Homogêneo Não Paramétrico
Normal Não homogêneo Não paramétrico
Não normal Homogêneo Paramétrico
Correlações
Suposição – só normalidade
Variável 1 Variável 2 Teste
Normal Normal Paramétrico
Não normal Não normal Não paramétrico
Normal Não normal Não paramétrico
Não normal Normal Não Paramétrico
20. www.valorp.com
Exemplo - Comparação de 2 médias
1) Pergunta: A média do IMC e a média da idade dos indivíduos adultos com artrite
diferem entre os indivíduos do sexo feminino e masculino?
2) As variáveis IMC e idade têm distribuição normal?
3) A variáveis IMC e idade são homogêneas?
4) Decidir se o teste para comparar 2 médias será paramétrico ou não paramétrico.
Variável Normalidade Homogeneidade Teste
IMC Normal Homogêneo Paramétrico
Idade Normal Não homogênea Não Paramétrico
Testando a normalidade e a homogeneidade temos que...
Obs.: O teste paramétrico para comparação de duas médias é o t de Student
O teste não paramétrico para comparação de duas médias é o de Mann-Whitney
21. www.valorp.com
Exemplo - Comparação de 2 médias
TESTE t DE STUDENT – Condição:
p < 0,05 – há diferença entre os grupos; p > 0,05 – não há diferença entre os grupos
22. www.valorp.com
Exemplo - Comparação de 2 médias
TESTE DE MANN-WHITNEY – Condição:
p < 0,05 – há diferença entre os grupos; p > 0,05 – não há diferença entre os grupos
Sexo
N Mean
Std.
Deviation
Std. Error
Mean
Feminino 18 27,0944 8,17057 1,92582
Masculino 22 24,4682 2,82782 ,60289
Idade
23. www.valorp.com
Forma de apresentar o resultado
Variável Sexo n Média (DP) p
Idade (anos) Feminino 18 27,09 (8,17) 0,135‡
Masculino 22 24,47 (2,83)
IMC (Kg/m2) Feminino 18 21,67 (3,44) 0,433£
Masculino 22 23,64 (4,50)
Tabela 01. Comparação de média das variáveis idade e IMC dos
indivíduos adultos com artrite.
Legenda: IMC – índice de massa corpórea; DP – desvio padrão; ‡ - teste t de
Student; £ - teste de Mann-Whitney. Valor de p considerado significativo
abaixo de 0,05.
Resposta1: A média de idade dos indivíduos adultos com artrite não difere
significativamente entre os indivíduos do sexo feminino e masculino (p = 0,135).
Resposta2: A média de IMC dos indivíduos adultos com artrite não difere
significativamente entre os indivíduos do sexo feminino e masculino (p = 0,433).
25. www.valorp.com
Exemplo - Comparação de mais de 2
médias
1) Pergunta: A média do IMC e a média da concentração de Se eritrocitário das
mulheres com câncer de mama diferem entre os genótipos do SNP Pro198Leu?
2) As variáveis IMC e concentração de Se eritrocitário têm distribuição normal?
3) As variáveis IMC e concentração de Se eritrocitário são homogêneas?
4) Decidir se o teste para comparar mais de 2 médias será paramétrico ou
não paramétrico.
Variável Normalidade Homogeneidade Teste
IMC Normal Homogêneo Paramétrico
Se eritrocitário Normal Não homogêneo Não Paramétrico
Testando a normalidade e a homogeneidade temos que...
Obs.: O teste paramétrico para comparação de mais de duas médias é o ANOVA
O teste não paramétrico para comparação de mais de duas médias é o Kruskal-Wallis
26. www.valorp.com
Exemplo - Comparação de mais de 2
médias
➢Detalhe importante Uso do Pós-teste
➢Motivo: ANOVA ou Kruskal-Wallis só dizem que há diferença,
mas não mostram onde está a diferença!!
➢Paramétricos: Bonferroni, Scheffe, Duncan, Tukey
➢Não paramétricos: Games-Howell, Dunnett
27. www.valorp.com
Exemplo - Comparação de mais de 2
médias
TESTE DE ANOVA e TUKEY – Condição:
p < 0,05 – há diferença entre os grupos; p > 0,05 – não há diferença entre os grupos
28. www.valorp.com
Exemplo - Comparação de mais de 2
médias
TESTE DE KRUSKAL-WALLIS e TUKEY – Condição:
p < 0,05 – há diferença entre os grupos; p > 0,05 – não há diferença entre os grupos
29. www.valorp.com
Forma de apresentar o resultado
Tabela 02. Comparação de médias das variáveis IMC e Se eritrocitário de
mulheres com câncer de mama de acordo com os genótipos do SNP
Pro198Leu.
Legenda: IMC – índice de massa corpórea; DP – desvio padrão; ‡ - teste ANOVA; £ - teste de
Kruskal-Wallis. Letras iguais indicam que não há diferença significativa e letras diferentes indicam
que há diferença significativa entre os grupos segundo o teste de Tukey. Valor de p considerado
significativo abaixo de 0,05.
Resposta1: A média de IMC das mulheres adultas com câncer de mama não difere
significativamente entre os genótipos do SNP Pro198Leu (p = 0,749).
Resposta2: A média da concentração de Se eritrocitário das mulheres adultas com câncer de
mama difere significativamente entre os genótipos do SNP Pro198Leu (p < 0,01), sendo que a
concentração de Se eritrocitário do grupo Pro/Pro foi maior que Pro/Leu e Leu/Leu e a de
Pro/Leu foi maior que a de Leu/Leu (p < 0,05).
Parâmetro SNP Genótipo n Média (DP) p
IMC (Kg/m2) Pro198Leu
Pro/Pro 10 21,80 (3,16)a 0,749‡
Pro/Leu 10 23,20 (5,77)a
Leu/Leu 10 22,60 (2,72)a
Se eritrocitário (ug/L) Pro198Leu
Pro/Pro 10 117,91 (32,06)a < 0,01£
Pro/Leu 10 80,81 (6,03)b
Leu/Leu 10 58,25 (8,82)c
31. www.valorp.com
Exemplo - Correlação
1) Pergunta: Houve correlação entre as variáveis GPx, SOD e ORAC dos participantes
considerando os grupos com indivíduos saudáveis e DCV?
2) As variáveis GPx, SOD e ORAC têm distribuição normal?
3) Decidir se o teste de correlação será paramétrico ou não paramétrico.
Testando a normalidade e a homogeneidade temos que...
Obs.: O teste paramétrico para correlação é o de Pearson
O teste não paramétrico para correlação é o de Spearman
Variável Normalidade Variável 1 Variável 2 Teste
SOD Normal SOD GPx Não Paramétrico
GPx Não Normal SOD ORAC Paramétrico
ORAC Normal GPx ORAC Não Paramétrico
32. www.valorp.com
Exemplo - Correlação
➢DETALHES IMPORTANTES!!
Obs1.: Correlação direta ou inversa. Direta - proporcionais, ou seja,
quando uma aumenta a outra também aumenta (r é positivo). Inversa
- inversamente proporcionais, ou seja, quando uma aumenta a outra
diminui (r é negativo).
Obs2.: Pearson e Spearman - significativo quando o valor de p é
menor que 0,05. O valor de r representa a força da correlação, que
varia de 0 a 1. Quanto mais próximo de 1 é o valor de r, mais forte é a
correlação.
35. www.valorp.com
Grupo Variáveis
GPx
(U/g Hb)
SOD
(U/g Hb)
ORAC (umol
equivalente de
trolox/mL de plasma)
Caso
GPx (U/g Hb) - r = - 0,031; p =0,874£ r = 0,009; p = 0,965£
SOD (U/g Hb) - - r = 0,197; p = 0,317‡
Controle
GPx (U/g Hb) - r = - 0,311; p =0,158£ r = - 0,575; p = 0,005£
SOD (U/g Hb) - - r = 0,001; p = 0,998‡
Forma de apresentar o resultado
Tabela 03. Correlação entre as variáveis GPx, SOD e ORAC considerando os grupos de
indivíduos saudáveis e com DCV.
Legenda: GPx – Glutationa peroxidase; SOD – Superóxido dismutase; ORAC – capacidade total antioxidante; ‡ - teste
de Pearson; £ - teste de Spearman. Valor de p considerado significativo abaixo de 0,05.
Resposta: Houve correlação significativa apenas entre as variáveis GPx e ORAC (r = - 0,575;
p < 0,01) no grupo de indivíduos saudáveis, ou seja, a medida que a variável GPx aumenta
o ORAC diminui.
37. www.valorp.com
Exemplo - Associação
1) Pergunta: Houve associação estatisticamente significativa entre o
sexo e os grupos de indivíduos com Doença de Crohn ou controles?
2) Não precisa saber se tem distribuição normal ou homogeneidade das variâncias.
3) O teste utilizado é o qui-quadrado e depende da quantidade das frequências
observadas, esperadas e do n total.
38. www.valorp.com
Associação - Regras
Tabela 2x2 X2
Pearson
n ≥ 40
Frequência observada de cada uma das caselas (o) ≥ 5 e;
Frequências esperadas (e) ≥ 5
Tabela 2x2 X2
Fisher
n < 20 ou
20 < n < 40 e (e) < 5
Feminino Masculino Total
DC 18 (e11 = 14,5) 12 (e12 = 15,5) 30
CT 11 (e21 = 14,5) 19 (e22 = 15,5) 30
Total 29 31 60
Sim Não Total
Sim 16 (e = 15,3) 12 (e = 4,66) 20
Não 7 (e = 7,67) 19 (e = 2,33) 10
Total 23 7 30
e11 = (29 x 30)/60 = 14,5
e12 = (31 x 30)/60 = 15,5
e21 = (29 x 30)/60 = 14,5
e22 = (31 x 30)/60 = 15,5
39. www.valorp.com
Associação - Regras
Tabela maior que 2x2 X2
Pearson
nº total de caselas com (e) < 5 é < 20% do total de caselas e nenhuma
(e) igual a zero
Ex.:
Total de caselas com (e) < 5
6 caselas – 100%
2 caselas – x x = 33,33%
Sim Não Total
≤ 2 filhos 45 (e = 55,2) 47 (e = 36,8) 92
3 a 5 filhos 252 (e = 240,0) 148 (e = 160,0) 400
≥ 6 filhos 3 (e = 4,8) 5 (e = 3,2) 8
Total 300 200 500
Sim Não Total
≤ 2 filhos 45 (e = 55,2) 47 (e = 36,8) 92
≥ 3 filhos 255 (e = 244,8) 153 (e = 163,2) 400
Total 300 200 500
40. www.valorp.com
Legenda: * - Teste de qui-quadrado de Pearson; Valor de p considerado significativo abaixo de
0,05.
Forma de apresentar o resultado
Tabela 04. Distribuição dos indivíduos com Doença de Crohn e controles de acordo
com a classificação de sexo
Resposta1: Não houve associação significativa entre as variáveis sexo e grupo, pois o valor
de p foi maior que 0,05. Assim, o fato de ser do sexo feminino ou masculino não está
associado a ter a doença de Crohn.
Grupos
Sexo
Total
p*
Feminino Masculino
n % n % n %
Doença de Crohn 18 60,00 12 40,00 30 50,00 0,071
Controles 11 36,67 19 63,33 30 50,00
42. www.valorp.com
Comparação de 2 médias para
amostras relacionadas
Variável Antes Depois P
Se plasmático (ug/L) 75,00 (14,23) 113,45 (19,73) 0,001‡
MDA (uMol/L) 1,38 (0,33) 1,52 (0,49) 0,433£
Tabela 07. Medidas de tendência central e dispersão das variáveis Se
plasmático e ORAC antes e após a suplementação com castanha do Brasil.
Legenda: Valores expressos como Média (Desvio padrão); MDA – malodiadeído; ‡ -
teste t de Student para amostras pareadas; £ - teste de Wilcoxon. Valor de p
considerado significativo abaixo de 0,05.
Resposta1: A média de Se plasmático após a suplementação com castanha do Brasil foi
significativamente maior que antes da suplementação (p = 0,001).
Resposta2: A média de MDA não diferiu significativamente antes e após a
suplementação com castanha do Brasil (p = 0,433).
43. www.valorp.com
Qui-quadrado de McNemar
Bolacha recheada com nescau: Dos 80 indivíduos 39 mudaram, destes 27 (69,23%)
passaram a não consumir bolacha recheada com nescau entre o almoço e o jantar e 12
(30,77%) passaram a consumir bolacha recheada com nescau entre o almoço e o jantar.
Houve diferença significativa nessa mudança de hábito (p = 0,025).
48. www.valorp.com
Análise Descritiva
Legenda: ¥ - EAR (39 mg/dia) e RDA (45 mg/dia) para o sexo feminino e masculino
com idade entre 9 e 13 anos; * - EAR (63 mg/dia) e RDA (75 mg/dia) para o sexo
masculino com idade entre 14 e 18 anos;
Figura 2. Distribuição dos indivíduos de acordo com a
classificação do sexo e do consumo de vitamina C segundo a EAR
e RDA
50. www.valorp.com
Consultoria e Cursos
Kaluce Gonçalves de Sousa Almondes
Doutora em Ciência dos Alimentos
Faculdade de Ciências Farmacêuticas - USP
Estatística Básica
www.valorp.com