SlideShare ist ein Scribd-Unternehmen logo
1 von 70
Downloaden Sie, um offline zu lesen
UNIVERSIDADE FEDERAL RURAL DE PERNAMBUCO
PRÓ-REITORIA DE PESQUISA E PÓS-GRADUAÇÃO
PROGRAMA DE PÓS-GRADUAÇÃO EM FITOPATOLOGIA
ANÁLISE EXPERIMENTAL EM
FITOPATOLOGIA
TEXTOS DIDÁTICOS
PROF. SAMI J. MICHEREFF
LABORATÓRIO DE EPIDEMIOLOGIA DE DOENÇAS DE PLANTAS
DEPARTAMENTO DE AGRONOMIA – ÁREA DE FITOSSANIDADE
UNIVERSIDADE FEDERAL RURAL DE PERNAMBUCO
RECIFE - PE
2012
2
SUMÁRIO
Pág.
• Princípios básicos de experimentação ........................................................................ 3
• Medidas de tendência central e de dispersão .............................................................. 5
• Inferência para médias e testes de hipóteses ............................................................. 8
• Análise de variância e transformação de dados ........................................................... 17
• Testes de comparação múltipla de médias ................................................................. 25
• Delineamentos experimentais ................................................................................... 30
• Correlação linear ..................................................................................................... 38
• Regressão linear ...................................................................................................... 40
• Noções de análise multivariada ................................................................................. 46
• Noções de estatística não-paramétrica ...................................................................... 60
3
PRINCÍPIOS BÁSICOS DE EXPERIMENTAÇÃO
1. INTRODUÇÃO
Experimento é a investigação planejada para obter novos fatos e/ou aceitar ou rejeitar resultados de
um experimento. Quando se realiza um experimento, é preciso escolher uma unidade
experimental, para a coleta dos dados que deverão refletir os efeitos dos tratamentos ensaiados. A
unidade experimental recebe também o nome de parcela. Assim, num experimento com manga, a
unidade experimental pode ser uma planta ou um grupo de plantas. No caso de um experimento com
A experimentação obedece a alguns princípios básicos que são indispensáveis à análise das conclusões
por ventura alcançadas, em que se destacam: repetição, casualização e controle local.
2. PRINCÍPIOS BÁSICOS DA EXPERIMENTAÇÃO
A experimentação obedece a alguns princípios básicos que são indispensáveis à análise das conclusões
por ventura alcançadas, em que se destacam: repetição, casualização e controle local.
•••• Repetição
Quando um tratamento aparece mais que uma vez num experimento, diz-se que houve repetição do
tratamento. Se for utilizada a casualização e se o aumento de repetições não acarretar o uso de
material menos homogêneo, à medida que o número de repetições aumentar haverá um aumento da
precisão do experimento.
•••• Casualização
O propósito da casualização ou aleatorização é garantir que um tratamento não seja continuamente
favorecido ou desfavorecido nas sucessivas repetições por alguma fonte estranha de variação, de
origem conhecida ou desconhecida. A casualização significa que a localização dos tratamentos nas
unidades experimentais é feita ao acaso, ou seja, através de um sorteio.
•••• Controle local
O controle local é de uso muito freqüente em experimentação, mas não obrigatório. Suponhamos que
temos uma área onde queremos instalar um experimento com duas variedades de caupi A e B,
apresentando diferença acentuada com relação á fertilidade. Então, dividimos a área em blocos
homogêneos com relação á fertilidade e, em cada bloco, teremos os dois tratamentos distribuídos
aleatoriamente. Poderá haver ou não grande variação de fertilidade ou de outros fatores de um bloco
para outro. O importante é que cada bloco seja tão uniforme quanto possível. Este tipo de
delineamento, que é talvez o mais importante, e de uso mais generalizado, é conhecido por “blocos
ao acaso” ou “blocos casualizados”. Quando não há controle local, mas apenas repetição e
casualização, temos o que se chama um experimento "inteiramente casualizado".
3. ERRO EXPERIMENTAL
É a medida das variações existentes entre os dados ou observações que se apresentam nas unidades
experimentais que receberam tratamentos iguais. A redução do erro experimental se constitui num
objetivo básico do planejamento. Entretanto, sempre existem fatores que fogem ao controle do
pesquisador, outorgando ao erro certa magnitude. É possível, em muitos casos, isolar algumas fontes
de variação e, então, reduzir consideravelmente o seu significado. O controle do erro experimental é
conduzido pelos seguintes meios:
• Escolha adequada do delineamento, visando contornar a heterogeneidade do suporte
experimental. Isto significa a possibilidade de introduzir blocos, linhas, colunas, parcelas
subdivididas etc.
• Usar material experimental que permita diminuir a variabilidade inerente dos seres vivos
(exemplo, selecionar indivíduos da mesma linhagem).
4
• Escolha adequada do tamanho, disposição e forma das parcelas e blocos, levando em
consideração características especificas da área utilizada.
Em Fitopatologia podemos relacionar várias técnicas que podem conduzir a erros experimentais, sendo
alguns exemplos: inoculação de plantas utilizando diferentes concentrações de inóculo; material
vegetal a ser inoculado desuniforme (idade e tamanho de folhas, por exemplo); câmaras de incubação
com ajustes diferentes de temperatura; parcelas desuniformes no campo; irrigação de vasos em casa-
de-vegetação, conduzindo a diferenças na umidade do solo; posição de plantas em bancadas em casa-
de-vegetação, etc. O pesquisador deve ter sempre a preocupação de minimizar o erro experimental, o
que lhe permitirá ter como maior fonte de variação os tratamentos.
Os experimentos em condições de laboratório e casa de vegetação são mais fáceis de serem
conduzidos, permitindo ao pesquisador maior controle das condições experimentais, reduzindo os
erros experimentais. O pesquisador deve iniciar esse controle desde a escolha do material
experimental, trabalhando com material genético estável, com pouca segregação, utilizar sempre que
possível sementes de origem bem conhecida, o que conduzirá a um stand mais uniforme. lnoculações
deverão ser feitas sempre em órgãos vegetais de mesma idade, tamanho e desenvolvimento. O
inóculo deve ser sempre o mais uniforme possível, com relação à idade, raça fisiológica, de cultura
monospórica ou monopustular, se for o caso, e também com viabilidade e virulência conhecida. As
condições de incubação devem ser também as mais uniformes, no que se refere ás condições de
temperatura, fotoperíodo e molhamento foliar. Quando as plantas são levadas para casa de
vegetação, todos os cuidados devem ser tomados para que não ocorram erros devidos ao excesso de
irrigação em alguns vasos, efeitos de diferentes condições reinantes dentro dessas casas, como por
exemplo, proximidade de janelas, localização dos vasos nas mesas, etc.
Os experimentos conduzidos em condições de campo normalmente levam a maior ocorrência de erros
experimentais devido às dificuldades encontradas pelos pesquisadores em controlar algumas
condições, como variabilidade do solo no que diz respeito a umidade, características físico-químicas,
microclimas, diferenças entre unidades experimentais, etc. Mesmo assim, o pesquisador pode buscar
áreas com menor variação, áreas com plantas mais uniformes quando se trabalha em culturas já
instaladas e também adequar um delineamento experimental as condições existentes.
5
MEDIDAS DE TENDÊNCIA CENTRAL E DE DISPERSÃO
1. INTRODUÇÃO
Estatística apresenta duas subdivisões: estatística descritiva e estatística inferencial. A
estatística descritiva fornece um grande número de opções para o pesquisador, tais como tabelas,
gráficos e médias, para a organização e sumarização de informações sobre um conjunto de
observações. A estatística inferencial, oferece uma série de opções para generalizações a partir de
observações disponíveis. A estatística inferencial nos permite usar um pequeno número de
observações para estimar a performance de toda uma população.
A análise estatística é feita com dados, isto é, um conjunto de observações obtido em uma pesquisa
ou um experimento. Os dados obtidos nos experimentos conduzidos na área de Fitopatologia são,
geralmente, baseados em observações individuais, que são observações ou medidas obtidas de
unidades amostrais.
É importante definirmos alguns termos que são comumente utilizados em estatística:
• População: é um conjunto de elementos que têm uma ou mais característica(s) em comum. A
população pode também ser considerada como um conjunto de todos os valores possíveis de uma
variável. As populações podem ser finitas, como por exemplo, como o número de plantas doentes
numa determinada área, ou infinitas, como os resultados obtidos, de cara ou coroa, ao se lançar uma
moeda para cima uma infinidade de vezes. Em estatística, população sempre significa a totalidade de
observações individuais sobre as quais inferências serão feitas.
• Amostra: é um subconjunto retirado da população, com menor número de elementos que a
respectiva população e representativo desta. Como por exemplo, um certo número de folhas tomados
de uma planta doente e os resultados de suas análises.
• Variável discreta e variável contínua: variável discreta é aquela que apresenta somente valores
numéricos fixos e determinados, sem valores intermediários, como o número de folhas em uma
planta, o número de sementes em uma vagem de feijoeiro, o número de frutos em uma planta de
mamoeiro, etc. Variável contínua é aquela que pode apresentar infinitos valores dentro de um
intervalo, como o peso de 100 sementes de feijão, a altura média de plantas, o comprimento de raízes
de plantas de tomateiro
A análise estatística é feita com dados, isto é, um conjunto de observações obtidas em uma pesquisa
ou um experimento. A forma precisa de realizar uma análise estatística dependerá se os dados são
quantitativos ou qualitativos.
• Dados quantitativos: quando as observações consistem de números que indicam diferenças em
mensurações ou contagens, os dados são considerados quantitativos. Os números de lesões
reportados na Tabela 1 são dados quantitativos, uma vez que diferentes números apresentados
refletem diferentes números de lesões por folha, indicando diferente quantidade de doença nas folhas.
Outros exemplos de dados quantitativos incluem observações baseadas em tamanho, como
porcentagem de área foliar lesionada, diâmetro de lesões, de colônia um fungo, tamanho de folhas ou
de um órgão vegetal, peso de sementes, de frutos, de um produto industrializado, etc.
• Dados qualitativos: quando as observações consistem de palavras ou códigos numéricos que
indicam diferenças em espécie, são conhecidas como qualitativas. Assim, poderíamos citar exemplos
de observações baseadas em cor de tegumento de sementes, diferentes meios de cultura, diferentes
fungicidas, diferentes variedades ou linhagens, etc.
6
2. MEDIDAS DE TENDÊNCIA CENTRAL
As principais medidas de tendência central de uma amostra são média aritmética, média ponderada e
mediana.
• Média aritmética ( x ) - é obtida somando-se todas as observações e então dividindo-se pelo
número delas.
n
x
x
∑=
Exemplo: na série de dados 3, 3, 4 e 6, a média aritmética será?
4
4
16
4
6433
x ==
+++
=
• Média ponderada ( px ) - é obtida somando-se todas as observações e então dividindo-se pelo
número delas.
∑
∑
=
+++
+++
=
y
yy
n21
nn2211
p
W
XW
W...WW
XW...XWXW
x
Exemplo: um estudante obteve nos trabalhos práticos, de peso 1, as notas 6 e 10. Na prova, de peso
3, obteve nota 8. Sua média é:
0,8
5
40
311
)8x3()10x1()6x1(
xp ==
++
++
=
• Mediana (Md) - reflete o valor central quando as observações são ordenadas da menor para a
maior. Se o número de dados da amostra é par, a mediana será a média dos valores centrais.
Exemplo: No conjunto de números 2, 2, 3, 5, 7, 8, 8, 9 e 10, a mediana é Md = 7
A mediana do grupo de números 1, 4, 4, 8, 10, 12, 15 e 20 é?
Md = 9
2
108
=
+
3. MEDIDAS DE DISPERSÃO (VARIABILIDADE)
Embora a temperatura média de Recife possa ser igual à de Fortaleza, não se pode dizer que o clima
entre estas duas cidades seja igual no que se refere à temperatura. Usualmente, quando dados são
sumarizados em uma estatística descritiva, especifica-se não somente a medida de tendência central,
mas também uma medida de variabilidade, o que representa o quanto as observações desviam ou
variam em tomo de uma medida de tendência central.
• Variância da amostra ( 2
S ) - a variância de uma amostra com n observações é igual a soma de
quadrado das distâncias de cada observação em relação à média, dividida por (n-1).
1n
n
)x(
x
S
2
2
2
−
∑
−∑
=
7
• Desvio padrão da amostra ( S ) - é definido como a raiz quadrada da variância da amostra e
expressa o desvio de cada um dos elementos (xi) em relação à média ( x ). Assim:
2
SS =
• Erro Padrão da média ( xS ) - diferentes amostras retiradas da mesma população podem
apresentar médias diferentes. A variação existente entre esse conjunto de médias é estimada pelo
erro padrão, que corresponde ao desvio padrão das médias. Há uma fórmula simples que permite
obter o erro padrão da média xS sem ser preciso colher novas amostras.
n
S
Sx
2
=
• Coeficiente de variação (CV) - indica a precisão de um experimento, sendo calculado pela
seguinte fórmula:
100.
x
S
CV =
Exemplo: do conjunto de números 12, 15, 18, 18, 20, 25, 26, 26 e 28, calcular a média ( x ), a
variância ( 2
S ), o desvio padrão ( S ), o erro da média ( xS ) e o coeficiente de variação (CV).
89,20
9
188
9
282626252018181512
x ==
++++++++
=
36,31
8
89,250
8
11,39274178
8
9
188
)282626252018181512(
S
2
222222222
2
==
−
=
−++++++++
=
60,536,31S ==
87,148,3
9
36,31
Sx ===
81,26100.
89,20
60,5
CV ==
8
INFERÊNCIA PARA MÉDIAS E TESTES DE HIPÓTESES
1. HIPÓTESES
Hipóteses são conjecturas sobre uma população, objeto ou efeito de um tratamento. Uma hipótese
pode ser verdadeira ou falsa. Toda pesquisa ou experimento tem como antecedente fundamental uma
hipótese, denominada hipótese científica. O pesquisador planeja e executa experimentos tendo em
vista a obtenção de dados experimentais indispensáveis à verificação de uma hipótese científica.
2. VERIFICAÇÃO DE HIPÓTESES
Para a verificação de uma hipótese científica, algumas regras de decisão devem ser estabelecidas
previamente, isto é, antes da obtenção dos dados experimentais. Essas regras de decisão são testes
estatísticos, denominados testes de hipóteses ou de significância, e tem por objetivo auxiliar o
pesquisador a decidir objetivamente se a hipótese científica é verdadeira ou falsa.
Exemplo 1: Deseja-se saber se o isolado bacteriano “I” é mais resistente a determinado antibiótico
que o isolado “II”. Formula-se a hipótese de que eles dão igualmente resistentes, isto é,
se 1x = 2x .
2.1. Hipótese de nulidade
Hipóteses como a do exemplo 1 são denominadas hipóteses de nulidade e são geralmente
formuladas com o propósito de serem rejeitadas. Hipóteses de nulidade são representadas
simbolicamente por H0.
Embora o pesquisador possa ter razões objetivas para acreditar que existem diferenças reais entre as
médias de certos tratamentos, ele formula a hipótese de que essas médias são iguais, ou seja, H0 =
1x = 2x . Se H0 for verdadeira, então 1x - 2x = 0, isto é, a diferença entre as médias é nula, advindo
assim a denominação de hipótese de nulidade. No exemplo 1 temos:
H0 : 1x = 2x
2.2. Hipótese alternativa
Qualquer hipótese diferente de H0 é denominada hipótese alternativa e representada
simbolicamente por H1. No exemplo 1 podemos ter:
H1 : 1x ≠≠≠≠ 2x
H1 : 1x > 2x
H1 : 1x < 2x
Note que H0 e H1 são hipóteses estatísticas e servem apenas para a comparação de dados
observados com os teoricamente esperados.
3. TESTE DE SIGNIFICÂNCIA
Como os testes estatísticos têm por função auxiliar o pesquisador a decidir objetivamente sobre a
aceitação ou rejeição da hipótese de nulidade, há uma grande variedade de testes de significância que
se aplicam conforme as situações específicas. Inicialmente, a escolha de um teste de significância
depende da natureza da hipótese alternativa.
9
Hipótese de nulidade: H0 : 1x = 2x
Hipóteses alternativas possíveis: H1 : a. 1x ≠≠≠≠ 2x
b. 1x > 2x
c. 1x < 2x
Para uma mesma hipótese de nulidade, podemos ter hipótese alternativa dos tipos “a”, “b” ou “c’.
Para o tipo “a”, o teste de significância é bilateral, enquanto para os tipos “b” e “c” o teste é
unilateral.
3.1. Nível de significância
Todo teste deve ter um nível de significância especificado. Entende-se por nível de significância a
probabilidade máxima admitida pelo pesquisador de rejeitar uma hipótese quando ela é verdadeira.
Essa probabilidade é classicamente designada pela letra grega αααα e, logicamente, deve ser muito
pequena.
Teoricamente, o nível de significância é arbitrado pelo pesquisador. Entretanto, como tabelas especiais
foram calculadas para as funções de probabilidade dos principais testes apenas para uns poucos níveis
de significância, isto impõe limitações na sua escolha, motivo pelo qual os valores mais usados são α
= 0,05 e α = 0,01.
Em todo teste de significância o que se faz é dividir em duas regiões a área sob a curva representativa
da distribuição de probabilidade definida pela função matemática em que o teste se baseia. Essas
regiões são denominadas região de aceitação ou região de rejeição da hipótese de nulidade.
Quando o teste é bilateral, ou seja H1 : 1x ≠≠≠≠ 2x (tipo “a”), a região de rejeição é dividida em duas
partes iguais (e, consequentemente, o valor de α) e cada metade é alocada em uma das
extremidades da curva de probabilidade (Fig. 1). O ponto que separa as duas regiões é chamado de
valor crítico, simbolizando na Fig. 1 por tαααα/2, cujo valor é dado por tabelas especiais, no caso, para o
teste t. Outros símbolos são u e z, usados quando o teste se baseia na distribuição normal.
Figura 1. Regiões de aceitação e rejeição em teste bilateral (H1 : 1x ≠≠≠≠ 2x ).
Quando o teste é unilateral, ou seja, H1 : 1x > 2x (tipo “b”) ou H1 : 1x < 2x (tipo “c”), todo o valor
de α é alocado em uma das extremidades da curva de probabilidades. Quando H1 é do tipo “b”, o
valor de α é alocado na extremidade superior da curva, enquanto se H1 é do tipo “c”, o valor de α é
alocado na extremidade inferior (Fig. 2).
10
Figura 2. Regiões de aceitação e rejeição em teste unilateral, considerando as hipóteses alternativas
H1 : 1x > 2x (a) e H1 : 1x < 2x (b).
A decisão final sobre a escolha de um teste de significância depende dos objetivos específicos a cada
caso:
- Teste de significância de uma média.
- Teste de significância da diferença entre duas médias.
- Comparação de médias de tratamentos.
3.2. Erros de Decisão
Qualquer que seja o teste de significância escolhido é necessário considerar que: (1) teste de
significância é uma regra para auxiliar o pesquisador a tomar decisões objetivas e (2) em qualquer
teste é possível cometer dois tipos de erros de decisão, conforme representado na Tabela 1:
Tabela 1. Erros de decisão possíveis em testes de hipóteses.
Decisão H0 verdadeira H0 falsa
Rejeição Erro tipo I (α) Decisão correta
Aceitação Decisão correta Erro tipo II (β)
Portanto, o Erro tipo I é a probabilidade de rejeição de uma hipótese verdadeira, enquanto o Erro
tipo II é a probabilidade de aceitação de uma hipótese falsa.
Um bom teste de significância deve minimizar os dois tipos de erro, o que não é fácil devido à relação
existente entre ambos. Para um mesmo tamanho da amostra, quando se reduz o erro tipo I,
aumenta-se o erro tipo II. A única forma de reduzir ambos os tipos de erro ao mesmo tempo é
aumentar o tamanho da amostra.
3.3. Marcha do teste de significância
1. Formulação da hipótese de nulidade: H0 : 1x = 2x e da hipótese alternativa: H1 : 1x ≠≠≠≠ 2x ou H1
: 1x > 2x ou H1 : 1x < 2x
2. Definição do nível de significância: αααα
3. Cálculo do valor numérico do teste: tcalc (depende do teste escolhido)
4. Regra de decisão ou definição da região crítica. Na suposição de H0 verdadeira, a probabilidade
do valor calculado do teste cair na região de rejeição é menor ou igual a α.
5. Decisão se o valor numérico do teste está:
- na região de aceitação: aceita-se H0
- na região de rejeição: rejeita-se H0 e aceita-se H1.
11
4. TESTE DE SIGNIFICÂNCIA DE UMA MÉDIA
Normalmente o desvio padrão da população (σσσσ) é desconhecido, sendo estimado pelo desvio padrão
da amostra (S), a partir de uma amostra de tamanho n. Nessa situação, o teste t é o apropriado para
avaliar a significância, onde o valor de t calculado (tcalc):
tcalc =
xS
x µ−
A quantidade tc obedece à distribuição de t de Student com n-1 graus de liberdade, sendo µ é a
média verdadeira da população, desconhecida, e estimada por x a partir de uma amostra de
tamanho n, e xS é o erro padrão da amostra.
Exemplo: Considere o aumento do peso de túberas de inhame após a aplicação do fungicida B para
o controle da queima das folhas. Os dados apresentados ( )x correspondem aos
incrementos de peso em 5 túberas, em gramas (g), na época da colheita.
35 49 51 43 27
Suponhamos que, após vários anos de experiência, sabemos que a média de ganho de peso pelas
túberas com a aplicação do fungicida A, utilizado tradicionalmente pelos agricultores, é de 27,8 g
4.1. Teste bilateral
Questão: Se aplicarmos o fungicida B nas plantas de inhame, haverá diferença significativa no
ganho de peso nas túberas comparado ao obtido com a aplicação do fungicida A?
Assim, podemos ter o seguinte questionamento sobre a média (µµµµ):
(a) µµµµ = 27,8 g (i.e., o fungicida B não afeta o ganho de peso - a média permanece igual a 27,8
g mesmo após a aplicação do fungicida B)
(b) µµµµ ≠≠≠≠ 27,8 g (i.e., o fungicida B apresenta um efeito sobre o ganho de peso)
(a) e (b) são chamadas hipóteses estatísticas (em relação ao valor de µ)
A hipótese (a) [µµµµ = 27,8 g] considera que o fenômeno em estudo (aplicação do fungicida B) não
tem efeito, sendo chamada de hipótese de nulidade e escreve-se:
H0 : µµµµ = 27,8 g
A hipótese (b) [µµµµ ≠≠≠≠ 27,8 g] considera que o fenômeno em estudo (aplicação do fungicida B)
apresenta um efeito, sendo chamada de hipótese alternativa e escreve-se:
H1 : µµµµ ≠≠≠≠ 27,8 g
O procedimento estatístico formal para "decidir" entre H0 e H1 é conhecido como teste de hipótese.
Nossa decisão será baseada em observações a partir de amostras de uma população com média µ, e
reside na confiança que temos no procedimento amostral.
Suponhamos que, verdadeiramente, a µ = 27,8 g (i.e., o fungicida não tem efeito).
A nossa amostra apresenta x = 41,0 g. Mas como nossa amostra gera uma média igual a 41 se o
valor real da média é 27,8?
O teste estatístico irá nos dizer se aceitamos ou rejeitamos H0 nesse caso.
12
Método: Assumimos que a hipótese de nulidade é H0 : µµµµ = 27,8 g, onde µ0 é um valor conhecido.
Então, se assumirmos H0 como verdadeiro, assumimos que µ = µ0, logo µµµµ0 = 27,8 g.
Teste apropriado:
tcalc =
xS
x oµ−
ttab = t[n-1; αααα/2]
Regra de decisão:
Se tcalc > ttab, rejeita-se H0, aceitando a hipótese alternativa (H1).
Vamos supor que decidimos estudar se x difere significativamente de µ = 27,8 g ao nível de
probabilidade de 5% (α = 0,05).
Para os dados referentes ao ganho de peso, onde n = 5, xS = 4,472 e µ0 = 27,8 g, temos:
tcalc =
472,4
8,270,41 −
= 2,95
Com α = 0,05 → ttab[(5-1); (0,05/2) = ttab (4; 0,025) = 2,78
Uma vez que 2,95 (calculado) > 2,78 (tabelado), rejeitamos H0 e conclui-se que a hipótese
alternativa (H1) é a melhor alternativa para explicar o valor de x , ou seja, o fungicida B tem um
efeito significativo no ganho de peso das túberas.
4.2. Teste unilateral
Questão: Se aplicarmos o fungicida B nas plantas de inhame, haverá aumento no ganho de peso
nas túberas comparado ao obtido com a aplicação do fungicida A?
Nesse caso, as hipóteses serão:
H0 : µµµµ = 27,8 g
H1 : µµµµ > 27,8 g
Teste apropriado:
tcalc =
xS
x oµ−
ttab = t[n-1; αααα]
Regra de decisão:
Se tcalc > ttab, rejeita-se H0, aceitando a hipótese alternativa (H1).

xS
x oµ−
 = 2,95
Com α = 0,05 → ttab [(5-1); 0,05) = ttab (4; 0,05) = 2,13
Uma vez que 2,95 (calculado) > 2,13 (tabelado), rejeita-se H0 em favor de H1 > 27,8 g, ou seja, o
fungicida B causa aumento significativo de peso nas túberas.
13
5. SIGNIFICÂNCIA DA DIFERENÇA ENTRE DUAS MÉDIAS
5.1. Teste para amostras independentes (dados não emparelhados)
O teste t pode ser empregado para testar hipóteses sobre a diferença entre duas estimativas de
médias (A e B), como:
H0 : BA xx =
H1 : BA xx ≠
Quando as duas médias são estimadas a partir de amostras de mesmo tamanho, isto é, nA = nB, o
teste adequado é:
tc =
n
S
xx BA
2
−
quantidade que obedece a distribuição de t com 2(n-1) graus de liberdade.
Quando as amostras são de tamanhos diferentes, o teste apropriado é:
tc =
d
BA
S
xx −
onde
BA
BA
d
nn
nn
SS
.
)(2 +
=
e corresponde ao desvio padrão apropriado ao teste da diferença entre as médias das duas amostras.
Em ambas as situações o valor de 2
SS = é estimado pela equação:
)1()1(
22
2
−+−
∑+∑
=
BA
BA
nn
xx
S
onde:
2
Ax∑ = AAA nXX /)( 22
∑−∑
2
Bx∑ = BBB nXX /)( 22
∑−∑
sendo que XA e XB correspondem aos valores observados em relação à variável analisada em A e B.
Na interpretação do resultado de um teste para a diferença entre duas médias, devemos considerar se
o teste é unilateral ou bilateral, o que é básico para a definição da região crítica.
a. Teste bilateral
tcalc ≤ -tα/2 →→→→ rejeição de H0 ←←←← tcalc ≥ +tα/2
tcalc > -tα/2 →→→→ aceitação de H0 ←←←←tcalc < +tα/2
14
b. Teste unilateral
tcalc ≤ -tα →→→→ rejeição de H0 ←←←← tcalc ≥ +tα
tcalc > -tα →→→→ aceitação de H0 ←←←← tcalc < +tα
Exemplo: A produtividade média de massa verde (t/ha) de duas cultivares de sorgo forrageiro
atacadas pela antracnose é apresentada a seguir:
XA XB
57,8 64,2
56,2 58,7
61,9 63,1
54,4 62,5
53,6 59,8
56,4 59,2
53,2 -
∑ 393,5 367,5
2
X∑ 2.174,41 22.535,87
x 56,21 61,25
Questão: Será que as duas cultivares de sorgo forrageiro (XA e XB) são igualmente produtivas quanto
atacadas pela antracnose?
Hipóteses:
H0 : BA xx =
H1 : BA xx ≠
2
Ax∑ = =∑−∑ AAA nXX /)( 22
22.174,41 – 22.120,32 = 54,09
2
Bx∑ = =∑−∑ BBB nXX /)( 22
22.535,87 – 22.509,37 = 26,50
=
−+−
∑+∑
=
)1()1(
22
2
BA
BA
nn
xx
S =
+
+
56
50,2609,54
7,33
BA
BA
d
nn
nn
SS
.
)(2 +
= =
42
)67(
33,7
+
= 27,2 = 1,51
tcalc =
d
BA
S
xx −
=
51,1
25,6121,56 −
=
51,1
04,5−
= -3,33
G.L. = (nA -1) + (nB-1) = 11
Com α = 0,05 → ttab = t[(nA -1) + (nB-1); α/2] = t(11; 0,025) = 2,20
Uma vez que -3,33 (calculado) < -2,20 (tabelado), rejeita-se H0 em favor de H1, ou seja, as cultivares
de sorgo forrageiro XA e XB não são igualmente produtivas quanto atacadas pela antracnose.
Observação: para amostras de mesmo tamanho basta fazer os cálculos com nA = nB.
15
5.2. Teste para amostras não independentes (dados emparelhados)
Esta técnica é utilizada quando se deseja testar diferenças entre médias de duas amostras não
independentes, ou seja, quando os elementos de uma amostra estão correlacionados com os
elementos de outra. Por exemplo, quando certo caráter é medido no mesmo indivíduo, em épocas
diferentes, os valores obtidos nas duas mensurações tendem a ser mais parecidos entre si do que se
houvessem sido obtidos de indivíduos diferentes.
Em experimentos com dados emparelhados são analisadas as diferenças (d) entre os valores de cada
par ao invés dos valores individuais de cada membro do par.
A hipótese a ser verificada no caso de dados emparelhados é H0: d = 0, ou seja, deseja-se verificar
se a diferença média entre os membros de cada par é 0. Rejeitando-se essa hipótese ao nível α de
significância, aceita-se uma hipótese alternativa que pode ser do tipo H1 ≠ 0, H1 <<<< 0 ou H1 >>>> 0. No
primeiro caso, o teste é bilateral, enquanto nos dois últimos, é unilateral.
A hipótese de nulidade relativa a dados emparelhados pode ser testada pelo teste t, com n-1 graus de
liberdade (n = número de pares de medidas = número de diferenças d). A fórmula apropriada é:
nn
n
d
d i
i
d
1
.
1
)( 2
2
−
∑
−∑
=σ
onde d
σ é o erro padrão da diferença entre duas médias e id são as diferenças entre pares de
medidas, i = 1, 2, ..., n.
Exemplo: Um experimento foi conduzido para analisar o efeito da aplicação de determinado
bactericida sobre a produção de repolho atacada pela podridão negra, causada por
Xanthomonas campestris pv. campestris. Um campo foi dividido em 10 blocos de mesma
área e cada bloco foi dividido em duas parcelas iguais, totalizando 10 pares de parcelas.
Uma parcela de cada par foi sorteada para receber a aplicação do bactericida, enquanto na
outra parcela do par não foi efetuada a aplicação. Os resultados são mostrados abaixo.
Aplicação de bactericida Diferença
Blocos (XA) (XB) (XA – XB) = Y
Não tratada Tratada
1 140,4 170,5 - 30,1
2 174,7 207,4 - 32,7
3 170,2 215,9 - 45,7
4 174,6 209,0 - 34,4
5 154,5 171,6 - 17,1
6 185,0 201,2 - 16,2
7 118,9 209,9 - 91,0
8 169,8 213,3 - 43,5
9 174,7 184,1 - 9,4
10 176,7 220,4 - 43,7
n = 10 AX = 163, 95
AX∑ = 1.639,5
2
AX∑ = 272.492,93
ASQX = 3.696,9050
2
AS = 410,7672
BX = 200,33
BX∑ = 2.003,3
2
BX∑ = 404.330,69
BSQX = 3.009,6010
2
BS = 334,4001
Y = d = - 36,38
Y∑ = 363,80
2
Y∑ = 17.973,30
SQY = 4.738,26
2
YS = 526,473
A última coluna representa as diferenças (XA – XB) = Y = d entre os pares de parcelas do mesmo
bloco, não tratadas (XA) e tratadas (XB). Na parte inferior encontram-se os elementos necessários para
cálculo das variâncias das três variáveis.
Para verificar a hipótese de que a diferença média entre parcelas tratadas e não tratadas é nula, isto
é, H0: d = 0, pela técnica de dados emparelhados, calculamos pela fórmula:
16
tcalc =
d
d
σ
=
n
Sy
d
2
0−
=
10
473,526
38,36
=
2558,7
38,36−
= - 5,014
As 10 diferenças (d) analisadas constituem uma amostra de uma população que consiste de um
número infinito de potenciais diferenças caso o experimento seja repetido infinitamente. Se houver
razão para admitir que o bactericida tanto pode aumentar como reduzir a produção, o teste deve ser
bilateral. Caso contrário, o teste será unilateral.
Para α = 0,05, 9 graus de liberdade e teste bilateral, a região crítica ou de rejeição de H0 será tcalc
<<<< -2,262 e tcalc >>>> 2,262. Para um teste unilateral, a região crítica será tcalc >>>> 1,833. No exemplo,
tcalc = - 5,014 e a conclusão será a mesma tanto para o teste uni como bilateral, ou seja, rejeita-se
H0.
17
ANÁLISE DE VARIÂNCIA E TRANSFORMAÇÃO DE DADOS
1. INTRODUÇÃO
Nas diferentes áreas da ciência onde a experimentação é ativamente empregada para a obtenção de
dados e desenvolvimento de novos conhecimentos, o uso de técnicas matemáticas para mensurar os
resultados obtidos se faz freqüente e amplamente empregada pelos pesquisadores. Tais técnicas
permitem inferir, sempre trabalhando com probabilidade, conclusões sobre experimentos conduzidos.
A maioria dos testes estatísticos paramétricos utilizados em Fitopatologia requer como premissa
básica que os dados a serem analisados tenham distribuição Normal (Fig. 1), pois tais testes foram
desenvolvidos neste principio. A análise de variância também não foge a essa regra. No entanto,
quando se lida com seres vivos, a natureza biológica dos fenômenos envolvidos num experimento
muito além de uma perfeita adequação a modelos matemáticos, originados de uma ciência exata.
Dessa forma nem sempre os dados obtidos se encontram na forma mais adequada para análises
paramétricas mais freqüentemente empregadas, podendo gerar interpretações errôneas dos
resultados.
Figura 1. Curva de distribuição Normal dos dados.
A adequação dos dados para que seja possível o emprego de métodos paramétricos de análise, pode
se constituir em ferramenta útil desde que bem feita. Cabe ressaltar que não se faz transformação de
dados para obtenção de resultados desejados, muito pelo contrário, a transformação de dados é
efetuada para adequá-los a métodos estatísticos, até certo ponto livres da imparcialidade humana que
possibilitem a "enxergar" pequenas diferenças de grande importância.
2. ANÁLISE DE VARIÂNCIA
A análise de variância (ANOVA) consiste na decomposição da variação total de um material
heterogêneo em parte atribuída a causas conhecidas e independentes (tratamentos), e uma porção
residual de origem desconhecida e de natureza aleatória (erro experimental).
Como exemplo, vamos supor que desejamos comparar o nível de resistência de algumas cultivares de
repolho com relação à alternariose. Assim, os tratamentos correspondem às cultivares, que serão
inoculadas com conídios de Alternaria brassicicola. Para tanto, deve-se estimar a parte da variância
populacional independente dos tratamentos, isto é, aquela variância devida ao erro experimental,
causada pela desuniformidade da inoculação, pelos diferentes tipos de folhas inoculados, pela
diferente quantidade de conídios que irão cair em cada folha, etc.; e aquela variância devido ao efeito
da cultivar, pelo seu nível de resistência. Após isso, ambas as estimativas são comparadas e, se forem
significativamente diferentes, deduz-se que as cultivares de repolho apresentam diferenças quanto à
resistência à alternariose. Finalmente, aplica-se um teste de comparação de médias e conclui-se qual
é mais resistente.
O objetivo da análise de variância é determinar se existe ou não diferença entre médias de
três ou mais grupos (tratamentos).
18
2.1. Pressuposições básicas da análise de variância
Para a realização da análise de variância, algumas pressuposições devem ser consideradas:
• Aditividade dos efeitos dos tratamentos e dos efeitos dos erros;
• Independência de todos os erros experimentais;
• Normalidade da distribuição dos dados;
• Homogeneidade da variância dos erros experimentais.
2.1.1. Aditividade do modelo
Os efeitos de tratamento mais efeitos de ambiente (erro) devem ser aditivos, ou seja, se somarem,
sendo que para cada delineamento existe um modelo matemático, denominado modelo linear aditivo.
Para o delineamento inteiramente casualizado, o modelo é Xij = mˆ + ti + eij, onde expressa que o
valor de qualquer unidade experimental (Yij) é resultante de uma média geral ( mˆ ), mais um efeito de
tratamento (ti) e mais um efeito do erro experimental (eij). O modelo correspondente ao delineamento
em blocos casualizados é Xij = mˆ + ti + bj + eij, onde o valor de qualquer unidade experimental (Yij) é
resultante de uma média geral ( mˆ ), mais um efeito de tratamentos (ti), mais um efeito de blocos (bj)
e mais um efeito do erro experimental (eij).
Como exemplo de aditividade, no delineamento em blocos casualizados, o modelo implica que um
efeito de tratamento é o mesmo para todos os blocos e que o efeito de bloco é o mesmo para todos
os tratamentos. Caso isso não se verifique, torna-se necessária a transformação dos dados
experimentais para ajustá-los ao modelo aditivo.
Se existe interação entre os termos, isto é, não aditividade, o teste F não será eficiente em discriminar
efeitos de tratamentos. Essas interações podem ser devidas a diversos fatores, por exemplo,
sinergismo/interferência, em que quando se inclui uma planta com algum problema fisiológico num
experimento de perdas causadas por doença, o efeito dessa inclusão pode ser multiplicativo ao invés
de interativo. Da mesma forma, se em determinado experimento de controle químico existe parcela
com material "indevidamente" resistente à doença em estudo, os efeitos dos piores produtos podem
ser alterados de maneira multiplicativa, resultando em interpretações errôneas.
2.1.2. Independência dos erros
Implica que não existe relação entre o tamanho dos erros e a unidade experimental à qual eles
pertencem. A probabilidade de que o erro de uma observação qualquer tenha um determinado valor
não deve depender dos valores dos erros de outras observações. Parcelas adjacentes tendem a estar
mais relacionadas que parcelas distribuídas aleatoriamente. Este é o principal motivo para não
considerarmos como sub-parcelas, ou repetições, a pura divisão da parcela, sem casualização. A
independência dos erros é assegurada pelo principio da casualização.
Se os erros não são independentes, a validade do teste de F pode ser prejudicada. Não há um ajuste
ou transformação simples para superar a não independência dos erros. A solução para se evitar tal
problema está numa completa casualização do experimento.
2.1.3. Normalidade na distribuição dos dados
Os erros experimentais devem apresentar distribuição Normal, significando que deve haver uma
grande freqüência de erros de pequena magnitude e uma pequena freqüência de erros de grande
magnitude, em valores absolutos. A ausência de normalidade dos erros não é tão importante para a
análise de variância, porém, quando transformações não são suficientes para trazê-los à normalidade,
devem ser empregados testes não-paramétricos.
Para se testar a normalidade da distribuição dos erros existem vários testes, como Lilliefors,
Kolmogorov-Smirnov e Shapiro-Wilk. O teste de Shapiro-Wilk é um dos mais indicados, podendo ser
utilizado tanto para amostras pequenas quanto para amostras maiores. Quando a amostra é muito
pequena (n = 10), todos os testes apresentam limitações, mas o teste de Shapiro-Wilk tem
desempenho superior aos demais. Para amostras grandes, o teste de Shapiro-Wilk tem performance
superior ao teste de Lilliefors, que supera o teste de Kolmogorov-Smirnov.
O teste de Shapiro-Wilk se baseia na distância observada entre valores simetricamente posicionados,
assumindo que o tamanho da amostra é n os valores sucessivos x1, x2, ..., xn, foram preliminarmente
sorteados por valores crescentes: x1 ≤ x2 ≤ .... ≤ xn.
19
A distância dos valores posicionados simetricamente, em torno da média, é mensurada por:
(xn – i +1 − xi ), for i = 1, 2, ..., k,
onde k = (n + 1)/2.
A estatística W é a base do teste, obtida por:
Os valores críticos de probabilidade (P) da estatística W são calculados, sendo as hipóteses testadas:
Ho = os dados apresentam distribuição normal
Ha = os dados não apresentam distribuição normal.
Aceita-se a hipótese de nulidade que os dados são normalmente distribuídos quando o valor de
probabilidade (P) é maior que 0,05 (P > 0,05)
2.1.4. Homogeneidade de variâncias
Essa pressuposição refere-se ao fato de que os erros (eij) devem ter igual variância (ou variâncias
homogêneas) em todos os tratamentos considerados. Como exemplo, num experimento de controle
químico de determinada doença, a testemunha pode apresentar maior variabilidade do que os
tratamentos, considerando porcentagem de folhas doentes. Assim, a testemunha poderá apresentar
resultados como 84%, 67%, 45%, 92% e 78%, enquanto um tratamento apresentar valores de 4%,
1%, 2%, 3% e 0%. É muito provável, nestas condições, que as médias e variâncias estejam
correlacionadas entre si, ou seja, média alta e variância alta, ou média baixa e variância baixa. Esta
relação entre médias das amostras e suas variâncias é o caso mais comum de heterogeneidade da
variância. Outros tipos de dados que geralmente apresentam uma relação entre variância e médias
são baseados em contagens e dados de porcentagem e proporção.
A maioria dos testes estatísticos requer homogeneidade de variância para que as respostas sejam
confiáveis. A homogeneidade de variância é importante porque, sendo o Quadrado Médio do Resíduo
(QMR) o termo usado para comparação na análise de variância, haverá perda de eficiência nas
estimativas dos efeitos de tratamentos e perda de sensibilidade dos testes de significância se ele for
obtido a partir de variâncias diferentes de tratamentos ou grupos de tratamentos. Isso porque o QMR
nada mais é que uma média das variâncias dentro de tratamentos ou dentro de grupos de
tratamentos. Essas perdas serão tanto maiores quanto mais discrepantes forem as variâncias que
compõem o QMR. As comparações entre tratamentos, feitas por testes que utilizam o QMR, estarão
distorcidas pois: Tukey → r/QMRq=∆ ; Duncam → r/QMRz=∆ ; LSD → r/QMRt=∆ .
Para testar a homogeneidade da variância dos erros existem vários testes, como de Cochran, Bartlett,
F máximo de Hartley, Levene e Brown & Forsythe. O teste de Levene é um dos mais poderosos e
utilizados para testar a homogeneidade da variância dos erros, enquanto o teste de Brown & Forsythe
é uma modificação do teste de Levenne.
Se o teste de Levene é significante estatisticamente (P≤0,05), a hipótese de homogeneidade das
variâncias é rejeitada. Portanto, existe homogeneidade nas variâncias se P>>>>0,05.
20
2.2. Decomposição da variância total
Para demonstrar como é desdobrada a variação total, medida em termos de variância, consideremos
um caso geral em que se tem n linhas e k colunas de dados, sendo que as linhas representam as
repetições e as colunas, os tratamentos. Suponhamos, ainda, que se deseja testar a hipótese de que
as médias das populações das colunas sejam iguais.
Assim:
X11 X12 ... X1J ... X1K i = 1,2, ... n
X21 X22 ... X2J ... X2K j = 1, 2 ... k
. . . .
. . . .
. . . .
∑=
=
k
1j
jTG
Xi1 Xi2 ... X1j ... X1k
. . . .
. . . .
. . . .
Xn1 Xn2 ... Xnj ... Xnk
nk
G
x =
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
Totais T1 T2 ..... Tj ..... Tk
Médias 1x 2x jx kx
Na tabela anterior, Xij indica a iésima medida da coluna de orden j. A média das colunas de ordem j é
indicada pelo símbolo jx . Coloca-se um ponto na frente do j para indicar que a média foi obtida
somando no índice i (linhas). G representa a soma de todos os dados e a média geral x .
Quando na análise é considerado apenas um único critério, representado pelos efeitos dos vários
tratamentos, é denominada “análise de variância segundo um único critério”, ou também “análise de
variância de experimentos inteiramente casualizados”. A seguir são apresentados os passos para esse
tipo de análise
2.3. Passos da análise de variância segundo um único critério
a) Calcular o fator de correção (FC)
nk
G
FC
2
= , sendo G o total geral de todas as observações
b) Calcular a soma de quadrados total (SQtotal)
FCxSQ 2
total −∑= , sendo∑
2
x o somatório dos quadrados de todas as observações
21
c) Calcular a soma dos quadrados dos tratamentos (SQ1)
FC
n
t
SQ −=
∑ 2
1
, em que ∑ 2
t é o somatório dos quadrados de vários tratamentos e n é o
numero de repetições.
Essa última fórmula pode ser empregada quando o número de repetições é o mesmo em todos os
tratamentos. No caso em que os tratamentos apresentam um número diferente de repetições, a
fórmula a ser empregada será:
.FC
n
T
...
n
T
n
T
SQ
k
2
k
2
2
2
1
2
1
1 −+++= Isto é, deveremos elevar ao quadrado o total de cada
tratamento e dividir o resultado pelo número correspondente de repetições, antes de realizarmos a
soma.
d) Calcular a soma dos quadrados dentro dos tratamentos (SQ2)
SQ2 = SQtotal – SQ1
e) Calcular a variância do efeito dos tratamentos
1k
SQ
QM 1
1
−
= , que pode ser efetuado diretamente na tabela.
f) Calcular a variância do resíduo
)1n(k
SQ
QM 2
2
−
= , que pode também ser efetuado diretamente na tabela
g) Calcular o valor de F
Obtido da razão entre duas variâncias:
2
1
QM
QM
F =
O teste F é feito com o objetivo de aceitar ou rejeitar a hipótese de nulidade (Ho), que deve sempre
ser feita inicialmente: Ho = T1 = T2 = ... = Tk (os efeitos dos tratamentos são iguais).
O valor calculado de F é comparado com o valor da tabela (a 1% ou 5% de nível de probabilidade),
para (k-1) e k(n-1) graus de liberdade. A tabela usada é de dupla entrada, e, que se leva em
consideração GL entre tratamentos e dentro de tratamentos.
No caso em que o valor de Fcalculado ser igual ou maior que o Ftabelado, rejeita-se a hipótese Ho,
concluindo-se que existe pelo menos um tratamento que difere dos demais. Se Fcalculado for menor que
Ftabelado, aceita-se Ho, podendo afirmar que não existe uma diferença significativa entre os vários
tratamentos.
h) Quadro da análise de variância
O quadro de análise de variância representa o sumário de todos os procedimentos a serem adotados
para aceitação ou rejeição da hipótese de nulidade (Ho), sendo composta, na análise de variância
segundo um único critério, por:
22
Quadro da análise de variância segundo um único critério
Causa de variação Graus de
liberdade (GL)
Soma dos quadrados
(SQ)
Quadrado médio
(QM)
F calculado
Entre tratamentos k-1
FC
n
t
SQ −=
∑ 2
1
1k
SQ
QM 1
1
−
=
2
1
QM
QM
F =
Dentro de
tratamentos (erro)
k(n-1) SQ2 = SQtotal – SQ1
)1(
2
2
−
=
nk
SQ
QM
Total kn-1 SQtotal
2.4. Exemplo de aplicação da análise de variância
Os dados da tabela abaixo se referem à incidência (%) de determinada doença radicular em quatro
cultivares de feijoeiro.
Repetição Cultivar A Cultivar B Cultivar C Cultivar D
1 40 29 11 17
2 24 27 21 31
3 46 20 17 28
4 20 39 37 33
5 35 45 39 21
Total (t) 165 160 125 130
Total geral (G) = 580
Questionamento: Será que existe alguma diferença significativa na incidência da doença radicular
entre as cultivares de feijoeiro?
Análise de Variância
Hipótese ... Ho: TA = TB = TC = TD
∝ = 0,05
n = 5
k = 4
kn = 20
G = 580
FC = 5802
/20 = 16.820
SQtotal = (402
+ 242
+ ... + 212
) – 16.820 = 18.738 – 16.820 = 1.918
SQ1 = [(1602
+ 1652
+ 1252
+ 1302
)/5] – 16.820 = 17.070 – 16.820 = 250
SQ2 = 1.918 – 250 = 1.688
QM1 = 250/(4-1) = 250/3 = 83
QM2 = 1.688/16 = 105
Fcalculado = 83/105 = 0,80
23
Quadro da Análise de Variância (ANOVA)
Fonte de variação GL SQ QM F
Entre tratamentos (cultivares) 3 250 83 0,80
Dentro de tratamentos (erro) 16 1.688 105
Total 19 1.918
Ftabelado = F(0,05; 3,16) = 3,24
Fcalculado (0,80) < Ftabelado (3,24)
Conclusão: aceita-se Ho, ou seja, não existe diferença significativa entre os vários tratamentos (as
cultivares se comportam de modo similar)
3. TRANSFORMAÇÃO DE DADOS
Nem sempre as pressuposições para análise de variância são atendidas e os métodos utilizados para
sanar essas falhas são: omissão de determinada parte do experimento, subdivisão da variância
residual e transformação de dados para uma outra escala antes da análise de variância.
Variância constante, homocedasticidade, não é a única condição necessária para tornar a análise de
variância válida. Porém, na maioria das vezes quando se procede à transformação de dados para
resolver o problema da heterocedasticidade, resolve-se também problemas de normalidade e
aditividade, desde que a transformação escolhida seja adequada.
Os objetivos da transformação de dados são:
• Obter variâncias dos erros mais homogêneas
• Melhorar a aditividade
• Gerar uma distribuição de erros mais próxima à distribuição Normal
Uma transformação de dados adequada é aquela que:
• A variável transformada não é afetada por mudanças do valor médio
• A variável transformada se toma normalmente distribuída
• A média aritmética dos valores transformados estima imparcialmente a média verdadeira
• A escala de transformação é tal que os efeitos reais são lineares e aditivos.
A escolha da transformação a ser utilizada é de extrema importância e muitas vezes difícil de ser feita,
motivo pelo qual se utiliza o método de tentativas e acertos. O ideal é conhecer a forma matemática
da distribuição de freqüência dos erros. Entretanto, na prática isto não é feito por não se conhecer a
distribuição não-normal dos erros.
Para todo e qualquer caso em que se emprega transformação dos dados, os testes de médias devem
ser realizados em dados transformados e na apresentação dos resultados podem ser apresentados
dados transformados ou não transformados. No caso da utilização de dados não transformados,
podem ser utilizados os dados originais ou efetuada a de-transformação de maneira adequada para
cada tipo de transformação utilizada, sendo que nesse caso pode não resultar exatamente no dado
original.
3.1. Transformação raiz quadrada de x ( x )
Quando os dados são contagens, como número de colônias fúngicas e/ou bacterianas numa placa,
número de juvenis de nematóides, número de plantas doentes e outros, a freqüência de distribuição
destes dados tende a ser do tipo Poisson, em detrimento á distribuição Normal. A distribuição de
Poisson é caracterizada por possuir variância igual á média (σ2
= µ2), portanto, a média e a variância
não são independentes, e quanto maior a média maior a variância e vice-versa.
A transformação x geralmente faz com que as variâncias se tornem independentes da média, sendo
que o efeito marcante dessa transformação é aumentar a precisão nas medidas de diferenças entre
médias pequenas. Isto é interessante em experimentos de controle de doença, em que não estamos
tão interessados em diferenças entre tratamentos ineficientes (altos valores de doença; médias altas),
como estamos em tratamentos que possibilitem bom controle (menores médias). Se existem valores
24
iguais a zero (x = 0) deve-se acrescentar + 0,5 ou 1,0 para que se possa extrair a raiz quadrada, ou
seja, 5,0x + ou 1x + .
Dados de porcentagens, referentes à contagens, quando variam de 0 a 20% ou de 80 a 100%, podem
ser transformados através de raiz quadrada. Nesse caso, as porcentagens entre 80 e 100% devem
ser, de preferência, subtraídas de 100 antes da transformação.
3.2. Transformação angular ou arcsen 100/P
Alguns tipos de dados podem necessitar de transformação angular, principalmente aqueles expressos
em porcentagem ou proporção da amostra total. Em Fitopatologia, avaliações envolvendo medidas em
porcentagem são constantes, principalmente em experimentos de intensidade de doença, em que se
mede incidência (porcentagem de plantas doentes) e/ou severidade (porcentagem de área doente).
Normalmente, este tipo de dado tem distribuição binomial, sendo esta caracterizada por haver
relacionamento entre a variância e a média. Nesse tipo de distribuição, as variâncias tendem a ser
menores nas extremidades da faixa de valores (próximo a 0 e a 100 %) e tendem a ser grandes nos
valores intermediários (ao redor de 50%). Para esse tipo de dado, a transformação angular ou
Arcsen 100/P ajusta os dados de modo a se obter homogeneidade de variância, normalidade e
aditividade do modelo. Quando, porém, todo os dados estiverem na faixa entre 30 a 70 %, não é
necessário efetuar a transformação.
3.3. Transformação logarítmica
A transformação logarítmica pode ser eficiente quando a variância é proporcional ao quadrado da
média (ou desvio padrão proporcional à média) e/ou quando os efeitos são multiplicativos ao invés de
serem aditivos. Essa transformação é satisfatória quando os dados se referem à contagem de
bactérias, de esporos fúngicos, podendo ser utilizada também quando os dados são apresentados por
porcentagens que abrangem uma grande amplitude de variação. Tanto logaritmo decimal quando
natural pode ser empregado, o mais comum é o decimal.
Normalmente, observa-se que, nos casos em que as variâncias são proporcionais às médias, maiores
médias geram maiores variâncias e vice-versa e o coeficiente de variação é constante de tratamento
para tratamento. Aplicando-se a transformação logarítmica este efeito é corrigido.
Algumas considerações em relação à transformação logarítmica devem ser observadas:
• Quando os números são negativos, essa transformação não deve ser empregada.
• Quando os valores são iguais a zero, deve ser somado + 1 a todos s dados antes da
transformação [log ( x + 1 )]. Porém, quando o número de dados iguais a zero é grande, essa
transformação não deve ser utilizada.
• Quando os valores são entre 0 e 1, os dados devem ser multiplicados por 10 ou 1000 para evitar
valores negativos de logaritmo.
• Dados de crescimento de organismos normalmente requerem transformações logarítmicas para
serem analisados.
25
TESTES DE COMPARAÇÃO MÚLTIPLA DE MÉDIAS
1. INTRODUÇÃO
Feita a análise de variância, se o valor de F para os tratamentos não for significativo,
aceitaremos a hipótese de nulidade (H0) e usualmente não fazemos a comparação entre os
tratamentos. No entanto, quando a hipótese de nulidade é rejeitada, sabemos que existe diferença
entre os tratamentos, mas não sabemos entre quais tratamentos existem diferenças. Isto é possível
por um teste suplementar sobre as médias. Existem vários testes de comparação múltipla de médias,
mas serão abordados somente três, os mais utilizados em Fitopatologia: Diferença Mínima Significativa
(DMS), Teste de Duncan e Teste de Tukey.
2. TESTE DA DIFERENÇA MÍNIMA SIGNIFICATIVA – DMS (ou LSD)
O teste DMS de Fisher (ou LSD, em inglês) é muito empregado para comparação de médias. O
DMS é, basicamente, um intervalo de confiança para a diferença entre duas médias. É calculado por:
n
QM
GLtDMS res
2)(α=
onde:
)(GLtα
= valor na tabela de t ao nível de significância ∝ para o GL do resíduo do experimento.
QMres = quadrado médio do resíduo
n = número de observações por tratamento.
No caso do experimento apresentar diferente número de repetições para os tratamentos, deve-
se empregar a fórmula:
21
21 )(
)(
nn
nnQM
GLtDMS res +
= α
onde n1 e n2 correspondem ao número de repetições dos dois tratamentos que estão sendo
comparados.
Qualquer diferença entre duas médias maior que o DMS calculado, é considerado significante ao
nível ∝ especificado.
Exemplo: Em um experimento com 6 fungicidas (A-F), temos as seguintes médias de crescimento
fúngico.
75,41=Ax 00,51=Bx 25,58=Cx 00,30=Dx 00,33=Ex 50,45=Fx
Além disso, temos:
n = 4
GL. Resíduo = 15
QMres = 28,18
t(15)5% = 2,13
26
4
18,28
213,2=DMS 09,1413,2=DMS 376.13,2=DMS
01,8=DMS
25,9]00,5175,41[][ =−=− BA xx
50,16]25,5875,41[][ =−=− CA xx
75,11]00,3075,41[][ =−=− DA xx
75,8]00,3375,41[][ =−=− EA xx
75,3]00,4575,41[][ =−=− FA xx
25,7]25,5800,51[][ =−=− CB xx
00,21]00,3000,51[][ =−=− DB xx
00,18]00,3300,51[][ =−=− EB xx
50,5]50,4500,51[][ =−=− FB xx
25,28]00,3025,58[][ =−=− DC xx
25,25]00,3325,58[][ =−=− EC xx
75,12]50,4525,58[][ =−=− FC xx
00,3]00,3300,30[][ =−=− ED xx
50,15]50,4500,30[][ =−=− FD xx
50,12]50,4500,33[][ =−=− FE xx
Todas as diferenças entre as médias que forem maior do que o DMS = 8,01 são significativas.
No caso, não são significativas as seguintes diferenças:
75,3][ =− FA xx
25,7][ =− CB xx
50,5][ =− FB xx
00,3][ =− ED xx
Os resultados podem ser apresentados da seguinte forma:
Fungicida Crescimento fúngico (média)
C 58,25 a*
B 51,00 ab
F 45,50 b
A 41,75 b
E 33,00 c
D 30,00 c
*Médias seguidas pela mesma letra não diferem significativamente entre si pelo
teste de DMS (P=0,05).
3. TESTE DE DUNCAN
O teste de Duncan difere do DMS porque aqui se calcula uma amplitude mínima significativa,
que é variável para uma mesma série de comparações, aumentando seu valor em comparações
consecutivas. O teste de Duncan é calculado por:
27
n
QM
KtAMS res
GL α)(=
O fator KtAMS GL α)(= é chamado amplitude studentizada, que chamaremos de z e nos é
dado por uma tabela. Para sabermos o número de médias abrangidas, dispomos em ordem
decrescente – (A B C D E ...); uma comparação entre B e C, por exemplo, abrange 2 médias; já uma
comprovação entre A e D abrange 4 médias. Assim, devemos calcular vários AMS ou, mais
precisamente, quantas médias houver menos 1. Para simplificar, usaremos a fórmula:
n
QM
zAMS res
=
Os valores de QMres e n são achados da mesma forma que para o DMS. As tabelas de z (uma
para ∝ = 0,05 e outra para ∝ = 0,01) são de dupla entrada: na horizontal, número de médias
abrangidas pelo contraste; na vertical, GL do resíduo.
Exemplo: Considerando o mesmo conjunto de dados anterior (DMS) teremos.
75,41=Ax 00,51=Bx 25,58=Cx 00,30=Dx 00,33=Ex 50,45=Fx
Dispondo em ordem decrescente, temos:
C ..... 58,25
B ..... 51,00
F ..... 45,50
A ..... 41,75
E ..... 33,00
D ..... 30,00
Considerando os dados da Análise de Variância, teremos:
66,2
4
18,282
===
n
s
n
QMres
Então, os diversos valores de ztabelado com ∝ = 0,05 são:
Z6 = 3,36
Z5 = 3,31
Z4 = 3,25
Z3 = 3,16
Z2 = 3,01
- Para 6 médias: AMS6 = 3,36 x 2,66 = 8,94
- Para 5 médias: AMS5 = 3,31 x 2,66 = 8,80
- Para 4 médias: AMS4 = 3,25 x 2,66 = 8,64
- Para 3 médias: AMS3 = 3,16 x 2,66 = 8,41
- Para 2 médias: AMS2 = 3,01 x 2,66 = 8,01
Sempre se inicia pelo teste das médias mais afastadas, pois se a diferença entre elas não for
significativa, torna-se desnecessário testar as demais.
25,28][ =− DC xx
25,25][ =− EC xx
50,16][ =− AC xx
75,12][ =− FC xx
28
25,7][ =− BC xx
00,21][ =− DB xx
00,18][ =− EB xx
25,9][ =− AB xx
50,5][ =− FB xx
50,5][ =− DF xx
50,12][ =− EF xx
75,3][ =− AF xx
75,11][ =− DA xx
75,8][ =− EA xx
00,3][ =− DE xx
No caso que acabamos de ver, os resultados podem ser apresentados da seguinte forma:
Fungicida Crescimento fúngico (média)
C 58,25 a*
B 51,00 ab
F 45,50 b
A 41,75 b
E 33,00 c
D 30,00 c
*Médias seguidas pela mesma letra não diferem significativamente entre si pelo
teste de Duncan (P=0,05).
4. TESTE DE TUKEY
No desenvolvimento de testes de múltiplas comparações, um problema que surge é que, em
experimentos onde se tornam necessárias muitas comparações de tratamentos, quase sempre
declaramos como significativas algumas diferenças entre médias que na verdade pertencem a um
grupo homogêneo. Isso tem levado os pesquisadores a procurar tipos de testes que contornem ou
minimizem esse problema. O teste de Tukey é um desses testes.
Esse teste serve para qualquer contraste entre duas médias de tratamentos. É efetuado
computando-se a diferença ∆ e então se comparando com as k(k-1)/2 diferenças possíveis de um
experimento.
Começa-se por calcular:
n
QM
q res
=∆ , onde:
q = amplitude total studentizada. Valor determinado numa tabela de duas entradas: GL do
resíduo e k (número de tratamentos).
O teste de Tukey é extremamente fácil de ser aplicado, pois requer um simples valor para julgar
a significância de todas as diferenças. Todo e qualquer contraste entre duas médias que exceder o
valor ∆ calculado é significativo ao nível de significância estipulado.
O teste de Tukey, preferencialmente, deve ser utilizado quando o número de observações por
tratamento (repetições) for o mesmo para todos os tratamentos. No caso de serem diferentes, as
comparações podem ser feitas pela fórmula:
29
resQM
nn
q )
11
(
2
1
21
+=∆
Todavia, nesse caso, os resultados são apenas aproximados, devendo ser encarados com
reserva.
Exemplo: Os resultados de um experimento apresentaram o seguinte quadro de análise de
variância:
F.V. GL SQ QM F
Tratamentos 3 1.636,5 545,5 5,41
Resíduo 20 2.018,8 100,9
Total 23 3.655,3
Com as seguintes médias por tratamento:
1721 =x 1852 =x 1763 =x 1624 =x n = 6
Então:
2,161,496,3
6
9,100
96,3 ===∆ x
13][ 21 =− xx
4][ 31 =− xx
10][ 41 =− xx
9][ 32 =− xx
23][ 42 =− xx
14][ 43 =− xx
Dos seis contrastes existentes, somente 23][ 42 =− xx excede 16,2, sendo portanto, a única
diferença estatística significativa ao nível estipulado.
Os resultados podem ser apresentados da seguinte forma:
Tratamento Média
2 185 a
3 176 ab
1 172 ab
4 162 b
*Médias seguidas pela mesma letra não diferem significativamente entre si pelo
teste de Tukey (P=0,05).
Pode ocorrer que o teste F seja significativo e não detecte pelo teste de Tukey nenhuma
diferença significativa entre as médias dos tratamentos. Isso ocorre em virtude do rigor desse teste,
bem como pelo fato da utilização de um único valor para julgar todas as comparações possíveis entre
as médias.
30
DELINEAMENTOS EXPERIMENTAIS
1. DELINEAMENTO INTEIRAMENTE CASUALIZADO
Descrição do problema:
Um micologista tem como objetivo analisar a influência de quatro fungicidas (A, B, C, D) no
crescimento micelial de um fungo, em condições de câmara de crescimento.
Questionamentos:
1. Qual a unidade amostral ?
2. Qual a variável em análise e a forma como será medida ?
3. Quais os tratamentos em comparação ?
4. Quantas repetições serão utilizadas para cada tratamento ?
5. Como os tratamentos e as repetições serão distribuídos ?
6. Qual o esquema do quadro da análise de variância (ANOVA) ?
7. Execute a análise de variância dos dados disponíveis.
8. Se pertinente, efetue a comparação de médias pelo teste de Duncan (P=0,05).
Respostas:
1. Uma placa de Petri.
2. Diâmetro do crescimento micelial, pela mensuração do crescimento em dois sentidos
diametralmente opostos em cada placa. Posteriormente, cálculo da porcentagem de inibição
do crescimento micelial (ICM), pela fórmula: ICM = [(Tratamento –
Testemunha)/Testemunha] x 100
3. Fungicidas A, B, C e D + Testemunha (T) (sem fungicida)
4. Cinco repetições, sendo cada repetição representada por uma placa (unidade amostral)
5. Considerando que o ensaio será realizado em condições controladas, os tratamentos e as
repetições serão sorteadas num delineamento inteiramente casualizado:
A2 B2 C4 T2 A5
C1 D1 T1 B3 C3
D5 T3 A1 D3 A3
D2 C2 B1 T4 D4
B4 A4 T5 B5 C5
6. Quadro da análise de variância (ANOVA):
Causa de variação Graus de
liberdade (GL)
Soma dos quadrados
(SQ)
Quadrado médio
(QM)
F calculado
Entre tratamentos (T) t - 1 SQT QMT = SQT/GLT F = QMT/QMR
Resíduo (Dentro tratamentos) (R) t . (r - 1) SQR QMR = SQR/GLR
Total (To) (t . r) - 1 SQTo
Onde: t = número de tratamentos; r = número de repetições por tratamento
Dados:
Tratamento Repetição / Inibição do crescimento micelial – ICM (%)
1 2 3 4 5
Fungicida A 25 27 31 26 14
Fungicida B 6 12 6 12 7
Fungicida C 83 71 62 59 79
Fungicida D 53 42 47 50 36
31
2. DELINEAMENTO EM BLOCOS AO ACASO
Descrição do problema:
Um micologista tem como objetivo analisar o comportamento de quatro cultivares de feijoeiro (E, F, G, H) em
relação a determinada doença fúngica em condição de casa de vegetação.
Questionamentos:
1. Qual a unidade amostral ?
2. Qual a variável em análise e a forma como será medida ?
3. Quais os tratamentos em comparação ?
4. Quantas repetições serão utilizadas para cada tratamento ?
5. Como os tratamentos e as repetições serão distribuídos ?
6. Qual o esquema do quadro da análise de variância (ANOVA) ?
7. Execute a análise de variância dos dados disponíveis.
8. Se pertinente, efetue a comparação de médias pelo teste de Duncan (P=0,05).
Respostas:
1. Um vaso, com três plantas por vaso.
2. Severidade da doença (%), estimada nas três folhas mais velhas de cada planta com o auxílio de uma
escala diagramática, obtendo-se a média por vaso.
3. Cultivares: E, F, G, H
4. Cinco repetições (blocos), sendo cada repetição representada por um vaso (unidade amostral)
5. Considerando que o ensaio será realizado em casa de vegetação sem condições controladas de
fotoperíodo e temperatura, os tratamentos e as repetições serão distribuídos num delineamento em
blocos ao acaso:
Bloco 1 Bloco 2 Bloco 3 Bloco 4 Bloco 5
F1 G2 F3 E4 G5
E1 H2 E3 F4 E5
H1 F2 G3 G4 H5
G1 E2 H3 H4 F5
6. Quadro da análise de variância (ANOVA):
Causa de variação Graus de
liberdade (GL)
Soma dos quadrados
(SQ)
Quadrado médio
(QM)
F calculado
Entre tratamentos (T) t - 1 SQT QMT = SQT/GLT FT = QMT/QMR
Entre blocos (B) b-1 SQB QMB = SQB/GLB FB = QMB/QMR
Resíduo (Dentro tratamentos) (R) (t - 1) . (b - 1) SQR QMR = SQR/GLR
Total (To) (t . b) - 1 SQTo
Onde: t = número de tratamentos; b = número de blocos (repetições) por tratamento
Dados:
Tratamento Repetição / Severidade – SEV (%)
1 2 3 4 5
Cultivar E 11 5 10 4 7
Cultivar F 34 28 39 40 31
Cultivar G 63 71 82 69 53
Cultivar H 13 22 17 30 16
32
3. DELINEAMENTO INTEIRAMENTE CASUALIZADO EM ARRANJO FATORIAL COM
2 FATORES
Descrição do problema:
Um micologista tem como objetivo analisar a influência de quatro meios de cultura (Tratamentos I = A, B, C,
D) e dois tipos de luz (Tratamentos II = X e Z) no crescimento micelial de um fungo, em condições de câmara
de crescimento.
Questionamentos:
1. Qual a unidade amostral ?
2. Qual a variável em análise e a forma como será medida ?
3. Quais os tratamentos em comparação ?
4. Quantas repetições serão utilizadas para cada tratamento ?
5. Como os tratamentos e as repetições serão distribuídos ?
6. Qual o esquema do quadro da análise de variância (ANOVA) ?
7. Execute a análise de variância dos dados disponíveis.
8. Se pertinente, efetue a comparação de médias pelo teste de Duncan (P=0,05).
Respostas:
1. Uma placa de Petri.
2. Diâmetro do crescimento micelial, pela mensuração do crescimento em dois sentidos diametralmente
opostos em cada placa.
3. Tratamentos I = Fungicidas (A, B, C e D) e Tratamentos II = tipos de luz (X e Z)
4. Quatro repetições, sendo cada repetição representada por uma placa
5. Considerando que o ensaio será realizado em condições controladas, os tratamentos e as repetições
serão distribuídos num delineamento inteiramente casualizado, em arranjo fatorial:
AX1 BZ1 CZ4 AZ3 BZ4 BX3 DX1 AX2
DZ2 BX2 AX3 DX2 CZ3 AZ1 BX1 CX2
AZ4 DX4 CX3 BZ3 DZ1 BZ2 DX3 DZ3
AX4 DZ4 BX4 AZ2 CX1 CZ2 CZ1 CX4
6. Quadro da análise de variância (ANOVA):
Causa de variação Graus de
liberdade (GL)
Soma dos quadrados
(SQ)
Quadrado médio
(QM)
F calculado
Entre tratamentos I (TI) tI - 1 SQTI QMTi = SQTI/GLTI FTI = QMTI/QMR
Entre tratamentos II (TII) tII - 1 SQTII QMTiI = SQTII/GLTII FTII = QMTII/QMR
Interação TI x TII (I) (tI - 1) (tII - 1) SQI QMI = SQI/GLI FI = QMI/QMR
Tratamentos (Tr) t - 1 SQTR -
Resíduo (Dentro tratamentos) (R) r - 1 SQR QMR = SQR/GLR
Total (To) (t . r) - 1 SQTo
Onde: t = número de tratamentos; r = número de repetições por tratamento
Dados:
Tratamentos I Tratamentos II Repetição / Crescimento micelial – CML (mm)
(Meio de Cultura) (Tipo de Luz) 1 2 3 4
A X 22 18 33 25
Z 75 71 69 54
B X 29 23 24 31
Z 59 56 51 55
C X 44 36 39 41
Z 55 54 62 47
D X 66 54 56 57
Z 26 28 25 31
33
4. DELINEAMENTO INTEIRAMENTE CASUALIZADO EM ARRANJO FATORIAL COM
3 FATORES
Descrição do problema:
Um micologista tem como objetivo analisar a influência de quatro meios de cultura (Tratamentos I = A, B, C,
D) e dois tipos de luz (Tratamentos II = X e Z) no crescimento micelial de três isolados de um fungo
(Tratamentos 3 = L, S e U), em condições de câmara de crescimento.
Questionamentos:
1. Qual a unidade amostral ?
2. Qual a variável em análise e a forma como será medida ?
3. Quais os tratamentos em comparação ?
4. Quantas repetições serão utilizadas para cada tratamento ?
5. Como os tratamentos e as repetições serão distribuídos ?
6. Qual o esquema do quadro da análise de variância (ANOVA) ?
7. Execute a análise de variância dos dados disponíveis.
8. Se pertinente, efetue a comparação de médias pelo teste de Duncan (P=0,05).
Respostas:
1. Uma placa de Petri.
2. Diâmetro do crescimento micelial, pela mensuração do crescimento em dois sentidos diametralmente
opostos em cada placa.
3. Tratamentos I = Fungicidas (A, B, C e D), Tratamentos II = tipos de luz (X e Z) e Tratamentos III =
isolados (L, S e U).
4. Quatro repetições, sendo cada repetição representada por uma placa
5. Considerando que o ensaio será realizado em condições controladas, os tratamentos e as repetições
serão distribuídos num delineamento inteiramente casualizado, em arranjo fatorial:
Obs: não está casualizado !!!
AXL1 AXS1 AXU1 AZL1 AZS1 AZU1
AXL2 AXS2 AXU2 AZL2 AZS2 AZU2
AXL3 AXS3 AXU3 AZL3 AZS3 AZU3
AXL4 AXS4 AXU4 AZL4 AZS4 AZU4
BXL1 BXS1 BXU1 BZL1 BZS1 BZU1
BXL2 BXS2 BXU2 BZL2 BZS2 BZU2
BXL3 BXS3 BXU3 BZL3 BZS3 BZU3
BXL4 BXS4 BXU4 BZL4 BZS4 BZU4
CXL1 CXS1 CXU1 CZL1 CZS1 CZU1
CXL2 CXS2 CXU2 CZL2 CZS2 CZU2
CXL3 CXS3 CXU3 CZL3 CZS3 CZU3
CXL4 CXS4 CXU4 CZL4 CZS4 CZU4
DXL1 DXS1 DXU1 DZL1 DZS1 DZU1
DXL2 DXS2 DXU2 DZL2 DZS2 DZU2
DXL3 DXS3 DXU3 DZL3 DZS3 DZU3
DXL4 DXS4 DXU4 DZL4 DZS4 DZU4
34
6. Qual o esquema do quadro da análise de variância (ANOVA) ?
Causa de variação Graus de liberdade (GL) Soma dos quadrados
(SQ)
Quadrado
médio (QM)
F
calculado
Entre tratamentos I tI - 1 SQ Tratamento I QMTI FI
Entre tratamentos II tII - 1 SQ Tratamento II QMTII FII
Entre tratamentos III tIII - 1 SQ Tratamento III QMTIII FIII
Interação I x II (tI - 1) (tII - 1) SQ Interação (I x II) QMTI x II FI x II
Interação I x III (tI - 1) (tIII - 1) SQ Interação (I x III) QMTI x III FI x III
Interação II x III (tII - 1) . (tIII - 1) SQ Interação (II x III) QMTII x III FII x III
Interação I x II x III (tI - 1) . (tII - 1) . (tIII - 1) SQ Interação (I x II x III) QMTI x II x III FI x II x III
Tratamentos t - 1 SQ Tratamentos -
Resíduo r -1 SQ Resíduo QMR
Total (t . r) - 1
Onde: t = número de tratamentos
r = número de repetições por tratamento
Dados:
Tratamentos I Tratamentos II Tratamentos III Repetição / Crescimento micelial – CML (mm)
(Meio de Cultura) (Tipo de Luz) (Isolado) 1 2 3 4
L 18 23 32 15
X S 33 54 56 48
A U 8 16 19 27
L 15 23 21 22
Z S 7 9 12 14
U 34 67 56 49
L 67 56 45 51
X S 79 85 98 87
B U 58 51 67 59
L 93 87 91 78
Z S 55 34 46 39
U 77 78 89 91
L 33 23 34 29
X S 12 17 21 9
C U 21 37 18 29
L 8 17 21 19
Z S 36 45 54 32
U 21 28 31 39
L 11 13 29 21
X S 7 16 21 27
D U 14 17 21 32
L 32 37 41 44
Z S 23 31 41 30
U 19 16 11 17
35
5. DELINEAMENTO INTEIRAMENTE CASUALIZADO EM PARCELAS SUBDIVIDIDAS
Descrição do problema:
Um fitopatologista tem como objetivo comparar a severidade de uma doença em três níveis de adubação (A1,
A2, A3) e dois espaçamentos (E1, E2), em canteiros similares.
Questionamentos:
1. Qual a unidade amostral ?
2. Qual a variável em análise e a forma como será medida ?
3. Quais os tratamentos em comparação ?
4. Quantas repetições serão utilizadas para cada tratamento ?
5. Como os tratamentos e as repetições serão distribuídos ?
6. Qual o esquema do quadro da análise de variância (ANOVA) ?
7. Execute a análise de variância dos dados disponíveis.
8. Se pertinente, efetue a comparação de médias pelo teste de Duncan (P=0,05).
Respostas:
1. Uma planta.
2. Severidade da doença em “n” folhas ou na planta inteira, estimada com escala diagramática, obtendo-se
a média por canteiro.
3. Tratamentos Principais (P) = níveis de adubação (A1, A2, A3) e Tratamentos Secundários (S) =
espaçamentos (E1, E2).
4. Quatro repetições, sendo cada repetição representada por um canteiro com “n” plantas.
5. Considerando que os canteiros são similares, os tratamentos e as repetições serão distribuídos num
delineamento inteiramente casualizado, em parcela subdivididas:
Procedimento de casualização:
1o
= sorteio da distribuição dos níveis de adubação (A1, A2, A3)
2o
= sorteio da distribuição dos espaçamentos (E1, E2) dentro dos níveis de adubação
A1 A3 A3
E1 E2 E2 E1 E1 E2
A2 A3 A1
E2 E1 E1 E2 E2 E1
A1 A2 A1
E1 E2 E2 E1 E1 E2
A3 A2 A2
E2 E1 E1 E2 E2 E2
Dados:
A1 A2 A3Repetição
E1 E2 E1 E2 E1 E2
I 58 44 85 59 66 54
II 77 59 90 68 93 75
III 38 30 73 45 67 53
IV 52 34 77 55 64 48
36
6. DELINEAMENTO EM BLOCOS AO ACASO EM PARCELAS SUBDIVIDIDAS
Descrição do problema:
Um fitopatologista tem como objetivo comparar a severidade de uma doença em três níveis de adubação (A1,
A2, A3) e dois espaçamentos (E1, E2), em canteiros que não são similares.
Questionamentos:
1. Qual a unidade amostral ?
2. Qual a variável em análise e a forma como será medida ?
3. Quais os tratamentos em comparação ?
4. Quantas repetições serão utilizadas para cada tratamento ?
5. Como os tratamentos e as repetições serão distribuídos ?
6. Qual o esquema do quadro da análise de variância (ANOVA) ?
7. Execute a análise de variância dos dados disponíveis.
8. Se pertinente, efetue a comparação de médias pelo teste de Duncan (P=0,05).
Respostas:
1. Uma planta.
2. Severidade da doença em “n” folhas ou na planta inteira, estimada com escala diagramática, obtendo-se
a média por canteiro.
3. Tratamentos Principais (P) = níveis de adubação (A1, A2, A3) e Tratamentos Secundários (S) =
espaçamentos (E1, E2).
4. Quatro repetições, sendo cada repetição representada por um canteiro com “n” plantas.
5. Considerando que os canteiros não são similares, os tratamentos e as repetições serão distribuídos num
delineamento em blocos ao acaso, em parcela subdivididas:
Procedimento de casualização:
1o
= agrupamento dos canteiros similares, formando blocos
2o
= sorteio da distribuição dos níveis de adubação (A1, A2, A3)
3o
= sorteio da distribuição dos espaçamentos (E1, E2) dentro dos níveis de adubação
A2 A1 A3
Bloco I E2 E1 E1 E2 E1 E2
A1 A3 A2
Bloco II E1 E2 E2 E1 E2 E1
A1 A3 A2
Bloco III E2 E1 E1 E2 E1 E2
A1 A3 A2
Bloco IV E1 E2 E2 E1 E2 E1
6. Quadro da análise de variância (ANOVA):
Causa de variação Graus de liberdade (GL) Soma dos quadrados
(SQ)
Quadrado
médio (QM)
F calculado
Entre tratamentos P tP - 1 SQ Tratamentos P QMTP FP
Blocos tB - 1 SQ Blocos QMB FB
Resíduo (a) (tp - 1) - ((tP - 1) + (tB - 1)) SQ Resíduo (a) QMRa
Parcelas tp-1 SQ Parcelas
Entre tratamentos S tS - 1 SQ Tratamentos S QMTS FS
Interação P x S (tP - 1) x (tS - 1) SQ Interação P x S QMIPxS FPxS
Resíduo (b) tT - (tp -1) - (tS - 1) - (tP - 1) . (tS - 1) SQ Resíduo (b) QMRB
Total (t . r) - 1 SQ Total
37
Onde: tp = número de tratamentos na parcela principal
tB = número de tratamentos na parcela secundária
t = número total de tratamentos
r = número de repetições por tratamento
Dados:
A1 A2 A3Bloco
E1 E2 E1 E2 E1 E2
I 58 44 85 59 66 54
II 77 59 90 68 93 75
III 38 30 73 45 67 53
IV 52 34 77 55 64 48
38
CORRELAÇÃO LINEAR
1. INTRODUÇÃO
Quando duas variáveis não podem ser consideradas uma independente e outra dependente, em
função de ambas estarem sujeitas a erros experimentais, o emprego da análise de regressão não é
satisfatório, sendo mais adequada a análise de correlação.
A correlação determina o grau de relação entre duas variáveis. O coeficiente de correlação é um
número puro, sem unidade ou dimensão, variando entre –1 e +1. Os valores –1 e +1 indicam o
máximo de correlação (100%), em que o sinal (+ ou -) indica o sentido da correlação. Valores
positivos indicam a tendência de uma variável aumentar quando a outra aumenta. Quando o
coeficiente é negativo, valores altos de uma variável estão associados a valores baixos da outra. O
valor 0 significa independência das variáveis, ou seja, não existe correlação.
O coeficiente de correlação de Pearson (r) é o mais apropriado para variáveis aleatórias
contínuas e pode ser obtido pela seguinte fórmula:








−








−
−
=
∑ ∑∑ ∑
∑
∑ ∑
n
Y
Y
n
X
X
n
YX
XY
r
2
2
2
2
)()(
)).((
em que X e Y representam os dados relativos às variáveis e n o número de observações.
O valor de r é calculado com base nos n elementos de uma amostra, representando apenas
uma estimativa do verdadeiro coeficiente de correlação populacional ρ. Para testar a significância da
correlação, é considerada a seguinte hipótese de nulidade:
H0: ρ = 0 vs. H1: ρ ≠ 0
A hipótese de nulidade ρ = 0 indica que X e Y não são relacionadas, enquanto a hipótese
alternativa ρ ≠ 0 mostra que X e Y são relacionadas.
Para testar a significância da correlação existem vários métodos, mas um dos mais utilizados é
o teste t:
2
1
2
r
n
rt
−
−
=
O tcalculado será comparado ao ttabelado, a um nível de α de probabilidade, com (n-2) graus de
liberdade. Se tcal ≥ ttab, rejeita-se Ho.
Exemplo: Considerando-se n pares de observações referentes às variáveis X e Y:
X 26 30 44 50 62 68 74
Y 92 85 78 81 54 51 40
Primeiramente, procede-se aos seguintes cálculos:
ΣY = 481; ΣY2
= 35.451; ΣX = 354; ΣX2
=19.956 ; ΣXY = 22.200
Para calcular o coeficiente de correlação de Pearson (r), emprega-se a equação:








−








−
−
=
∑ ∑∑ ∑
∑
∑ ∑
n
Y
Y
n
X
X
n
YX
XY
r
2
2
2
2 )()(
)).((
=






−





−
−
7
)481(
451.35
7
)354(
956.19
7
)481)(354(
200.22
22
= -0,9572
39
O teste t, para o coeficiente de correlação, considerando H0: ρ = 0 vs. H1: ρ ≠ 0, é:
2
1
2
r
n
rt
−
−
= =
2
)9572,0(1
27
9572,0
−−
−
− = -7,398
Este valor absoluto de t (7,398) é comparado com o valor tabelado, no nível de significância
desejado, por exemplo, 2,571 ao nível de 5% de probabilidade ou 4,032 ao nível de 1%. Uma vez que
7,398 excede ao valor de 4,032, conclui-se que há evidência suficiente de que a 1% ρ ≠ 0 e rejeita-se
a hipótese de nulidade H0: ρ = 0.
40
REGRESSÃO LINEAR
1. INTRODUÇÃO
A palavra regressão foi incorporada na linguagem estatística por Pearson, para designar a
expressão de uma variável como função de uma ou mais variáveis. Uma regressão linear simples
permite determinar, a partir de estimativas dos parâmetros, como uma variável independente (X)
exerce, ou parece exercer, influência sobre outra variável (Y), chamada de variável dependente.
A utilidade da regressão se apresenta quando o investigador questiona, por exemplo, a
existência da associação entre a temperatura e a intensidade da doença, ou entre a intensidade da
doença e as perdas de rendimento da cultura, ou seja, quer saber se as mudanças de uma variável
provocam alterações na magnitude de outras.
No decorrer dos trabalhos de experimentação em Fitopatologia, é comum encontrar as variáveis
X e Y, com algum grau de relação entre si, de modo que o efeito de uma delas (X) exerce ação sobre
a outra (Y) de certa forma mensurável. Por exemplo:
a) O número de lesões causadas por um fungo (Y) depende da temperatura (X) em que as plantas
se encontravam.
b) O crescimento do micélio de um fungo (Y) depende da concentração (X) de um determinado
aminoácido no meio de cultura.
c) A produção de uma cultura (Y) depende da intensidade (X) da doença num determinado estádio
de crescimento da planta.
Portanto, X é a variável independente e Y a variável dependente ou resposta.
Estas relações podem ser expressas por uma equação do 1º
grau:
Yi=a+bXi+ei (eq. 1)
Esta equação expressa cada posição de Yi, em relação ao valor Xi, a qual é representada por
urna série de pontos sobre um plano.
Figura 1 - Representação gráfica de uma regressão linear simples.
Esta relação poderá ser expressa da seguinte forma: o valor do iésimo Y, ou seja, Yi é igual ao
valor do parâmetro a mais o valor do produto do parâmetro b vezes Xi,adicionando-se o valor do erro
(ei).
Os valores de b e de a são obtidos pelo método dos mínimos quadrados, que consiste em
minimizar os quadrados dos desvios dos valores observados de Y, em relação às respectivas
estimativas.
Assim,
41
n
)X(
X
n
)Y).(X(
XY
bˆ
2
2 ∑
−∑
∑
∑ ∑
−
=
e
XbˆYaˆ −=
em que Y e X representam as médias dos dados relativos às variáveis Y e X, respectivamente, e n o
número de observações
2. CARACTERÍSTICAS DO COEFICIENTE DE REGRESSÃO
1. b indica o numero de unidades que varia o Y, quando o X varia em uma unidade.
2. Se b é positivo, ao aumentar o valor de X, aumenta-se o de Y, e ao diminuir o de X, diminui-se o de
Y.
3. Se b é negativo, ao aumentar o valor de X, diminui-se o de Y e vice-versa.
4. b é um estimador do parâmetro β da respectiva população.
5. b mede a declividade da linha de regressão.
6. Se b é positivo, a linha de regressão é ascendente da esquerda para a direita, e se negativo,
descendente da esquerda para a direita.
3. SIGNIFICÂNCIA DA REGRESSÃO
Para testar a significância da regressão, é considerada a seguinte hipótese de nulidade:
H0: β = 0 vs. H1: β ≠ 0
A hipótese de nulidade β = 0 indica que Y não depende de X, enquanto a hipótese alternativa β
≠ 0 mostra que Y depende de X.
Para testar a significância da regressão, procede-se aos seguintes cálculos das somas dos
quadrados (SQ):
SQ regressão =
2
2
2
n
)X(
X
n
)Y).(X(
XY
∑
−∑






∑
∑ ∑
−
SQ total =
n
)Y(
Y
2
2 ∑
∑ −
SQ erro = SQ Total – SQ Regressão
Para testar a significância do coeficiente de regressão (b), utiliza-se o teste t, considerando:
t =








∑
∑
−
n
)X(
X
QMerro
bˆ
2
2
em que QM erro (Quadrado Médio do Erro) =
2n
SQerro
−
42
Exemplo: Considerando-se n pares de observações referentes às variáveis X e Y:
X 26 30 44 50 62 68 74
Y 92 85 78 81 54 51 40
Primeiramente, procede-se aos seguintes cálculos:
ΣY = 481; ΣY2
= 35.451; ΣX = 354; ΣX2
=19.956 ; ΣXY = 22.200
Y =
7
481
= 68,7142 e
7
354
X = = 50,5714
Para estimar b, emprega-se a equação:
n
)X(
X
n
)Y).(X(
XY
bˆ
2
2 ∑
−∑
∑
∑ ∑
−
= =
7
)354(
956.19
7
)481)(354(
200.22
2
−
−
= -1,035
E para calcular a, emprega-se a equação:
XbˆYaˆ −= = 68,7142 – (-1,035) x 50,5714 = 121,056
A equação estimada é:
Yi= 121,056 - 1,035 Xi
A análise de variância da regressão será:
SQ regressão =
2
2
2
n
)X(
X
n
)Y).(X(
XY
∑
−∑






∑
∑ ∑
−
=
[ ]2
7143,053.2
8571,124.2−
= 2.198,464
SQ total =
n
)Y(
Y
2
2 ∑
∑ − = 35.451 =−
7
)481(
451.35
2
2.399,4286
SQ erro = SQ Total – SQ Regressão = 2.399,4286 – 2.198,464 = 200,9626
QM regressão =
oGLregressã
oSQregressã
= 2.198,4644/1 = 2.198,4644
QM erro =
GLerro
SQerro
= 200,9626/5 = 40,1925
Segue abaixo o quadro de análise de variância da regressão:
Fonte de variação Graus de liberdade SQ QM F
Regressão 1 (p-1) 2.198,4644 2.198,4655 54,698
Erro 5 (n-2) 200,9626 40,1925
Total 6 (n-1) 2.399,4286
43
O valor de F tabelado com 1 e 5 graus de liberdade (regressão e erro) e 1% de significância é
16,26. Portanto, o valor calculado de 54,69 excede ao valor tabelado, podendo-se concluir que a
regressão é significativa ao nível de 1% de probabilidade.
O teste t, para o coeficiente de regressão, considerando H0: β = 0 vs. H1: β ≠ 0, é:
t =








∑
∑
−
n
)X(
X
QMerro
bˆ
2
2
=
7143,053.2
1925,40
035,1−
=
1399,0
035,1−
= -7,398
Este valor absoluto de t (7,398) é comparado com o valor tabelado, no nível de significância
desejado, por exemplo, 2,571 ao nível de 5% de probabilidade ou 4,032 ao nível de 1%. Uma vez que
7,398 excede ao valor de 4,032, conclui-se que há evidência suficiente de que a 1% β é diferente de
0, e rejeita-se a hipótese de nulidade H0: β = 0.
É necessário calcular o coeficiente de determinação (R2
) para investigar a adequabilidade da
regressão como propósito de previsão. O R2
indica a proporção da variação de Y que é “explicada”
pela regressão ou quanto a SQtotal está sendo “explicada” pela regressão ou quanto da variação na
variável dependente Y está sendo explicada pela variável independente X:
R2
=
SQtotal
oSQregressã
=
42,399.2
46,198.2
= 0,9162
Esse resultado indica que 91,62% da variação das observações de Y é devida á regressão linear
(ou devida á tendência linear das observações) e 8,38% é devida ao erro.
Na equação Yi= 121,056 - 1,035 Xi, para estimar valores de Yi, dado um valor Xi, deve-se ter
cuidado em não utilizar valores de Y estimados a partir de valores de X fora da faixa de estimação,
isto é, fora dos limites para os quais a equação foi estimada ou seja, valores de X variando de 26 a 74.
A teoria diz que a precisão dos valores estimados de Y decresce para os valores de X, que se
distanciam da média X .
y = 121,04 - 1,03 x
R2
= 91,62%
0
20
40
60
80
100
20 30 40 50 60 70 80
X
Y
Figura 2 - Gráfico da regressão e equação estimadora.
44
-15
-12
-9
-6
-3
0
3
6
9
12
15
20 30 40 50 60 70 80
X
Resíduos
Figura 3 - Gráfico dos resíduos (valores reais – valores estimados pela regressão)
4. REGRESSÃO LINEAR MÚLTIPLA
A regressão linear simples é muitas vezes inadequada para satisfazer ás exigências de uma
investigação. Duas ou mais variáveis independentes podem estar relacionadas com uma variável
dependente. Por exemplo, a severidade de doença numa planta pode estar relacionada com a
temperatura e com a duração do molhamento na sua superfície foliar durante o período de infecção.
Assim, o modelo linear, para duas variáveis independentes seria:
22110 XbˆXbˆbˆYˆ ++= (eq. 2)
em que, 1bˆ e 2bˆ são coeficientes de regressão parcial, sendo estimadores do efeito linear das
variáveis independentes X1 e X2, respectivamente, sobre a resposta total da variável dependente Y.
A regressão múltipla apresenta alguns aspectos importantes, dentre os quais se destacam:
1. Em qualquer regressão múltipla, os coeficientes se correlacionam; ao diminuir ou aumentar o
número de variáveis independentes, os coeficientes de regressão parcial b também se alteram.
2. O coeficiente de determinação não diminui pela adição de novas variáveis independentes.
3. Uma correlação alta entre as variáveis independentes pode trazer problemas nos cálculos para
estimação da equação.
A interpretação de uma equação de regressão múltipla é limitada por vários aspectos: Em
primeiro lugar, com relação à precisão, fazendo-se previsões quando valores da variável independente
estão fora dos limites utilizados para estimação da equação. Para evitar este tipo de problema, deve-
se utilizar, para estimação da equação, valores de X que sejam representativos das condições para as
quais a equação será utilizada.
Limitações são também impostas por correlações entre as variáveis independentes. Falsa
interpretação pode ocorrer quando se dá importância a uma variável independente pouco importante,
que seja correlacionada com outro fator explicativo, excluído da análise por apresentar
multicolinearidade. Diz-se que existe multicolinearidade entre variáveis, quando algumas ou todas as
variáveis explicativas de uma relação estão de tal forma correlacionadas entre si que se torna muito
difícil, senão impossível, isolar suas influências e obter uma estimativa razoavelmente precisa de seus
efeitos. Nos trabalhos em casa de vegetação e no laboratório, o controle exercido pelo delineamento
experimental e pelo experimentador permite que a resposta a cada tratamento seja medida
independentemente, de tal forma que as variáveis não sejam correlacionadas. A situação é bastante
45
diferente quando se trabalha com epidemias de doenças foliares, sob condições de campo. Períodos
infecciosos, severidade de doenças, perdas, produção, etc, são medidos em experimentos holísticos,
nos quais um grande numero de fatores incontroláveis agem e interagem simultaneamente. Embora a
análise de regressão múltipla seja recomendada para esses casos, extensiva correlação entre sistemas
naturais torna muito difícil a identificação dos fatores-chaves, ou seja, aqueles mais explicativos das
variações sobre a variável dependente.
Correlações entre variáveis independentes não impedem a estimação de equações com valores
altos de r2
, porque r2
indica a contribuição combinada destas variáveis na variação da variável
dependente. O que se torna difícil é a estimação precisa dos coeficientes de regressão parciais. Numa
equação com r2
alto, é possível ter coeficientes de regressão parcial com valores baixos que não sejam
significativos. A razão é que se X1 e X2 forem altamente correlacionados e constituírem variáveis
importantes, quando for feita a regressão de Y com X1, na presença de X2, a contribuição líquida de X1
para a variação de Y será pequena porque X2, uma boa variável explicativa, por si só contribui para a
maior parte da variação. O reverso aplica-se quando se faz a regressão de Y e X2 na presença de X1.
Portanto, embora o R2
seja alto, cada coeficiente de regressão parcial poderá não ser significativo, em
razão desta interferência mútua entre X1 e X2. As conseqüências desta intercorrelação são
freqüentemente vistas quando são estimadas consecutivas equações. A variável que é muito
significativa em um estádio poderá tornar-se não significativa quando uma nova variável entra na
equação, ou vice-versa. Para interpretar esse comportamento, é necessário verificar a matriz de
correlação, para saber o grau de associação entre as variáveis independentes. Assim, pode-se reduzir
esses problemas, selecionando-se, para a análise de regressão múltipla, por meio da matriz de
correlação, as variáveis independentes que não apresentem alta correlação.
46
NOÇÕES DE ANÁLISE MULTIVARIADA
1. INTRODUÇÃO
As técnicas de análise multivariada são métodos estatísticos apropriados para estudos em que
cada unidade experimental é avaliada sob diferentes aspectos, sendo necessário considerar
simultaneamente várias variáveis que contêm intercorrelações. As informações providas por análises
univariadas isoladas podem ser redundantes em se tratando de um complexo de variáveis. As técnicas
de análise multivariada combinam, simultaneamente, as múltiplas informações provenientes de uma
unidade experimental, podendo obter-se interpretações que não seriam possíveis com o uso da
estatística univariada.
Existem diferentes técnicas estatísticas de análise multivariada, sendo crescente o número de
suas aplicações em Fitopatologia. Atualmente, com a maior disponibilidade de recursos
computacionais, o emprego de tais técnicas torna-se potencialmente grande e o seu conhecimento
indispensável aos fitopatologistas. No presente texto será dada ênfase às técnicas de análise de
componentes principais e análise de agrupamento.
2. ANÁLISE DE COMPONENTES PRINCIPAIS
Esta técnica é aplicada a um conjunto de variáveis quantitativas relativas a n indivíduos. O
método consiste na transformação do conjunto original de variáveis em outro conjunto, os
componentes principais. Na realidade, a análise é uma troca de variáveis. As variáveis observadas são
trocadas por novas variáveis abstratas, os componentes principais, esperando que os primeiros
componentes principais contenham quase toda a informação original. O objetivo é resumir a
informação contida no conjunto (p-dimensional) de variáveis originais, eliminando as informações
redundantes em decorrência da correlação entre variáveis, permitindo assim uma avaliação da
divergência entre indivíduos, mediante exames visuais, em dispersões gráficas no espaço bi ou
tridimensional. A análise permite também identificar as variáveis que pouco contribuem, em termos de
variação, no grupo de indivíduos avaliados.
Cada componente principal é uma combinação linear de todas as variáveis originais, sendo
independentes entre si (a correlação entre dois componentes é zero) e estimados com o propósito de
reter, em ordem de estimação, o máximo de informação em termos de variação total contida nos
dados iniciais. Os coeficientes dos componentes principais são também denominados elementos de
autovetores (“eigenvectores”) e a variância associada a cada componente principal é denominada
autovalor (“eigenvalue”). Os autovalores são decrescentes do primeiro ao último componente
principal, ou seja, o primeiro componente possui a maior variância, o segundo componente possui a
segunda maior e assim sucessivamente. A importância de um componente se avalia por meio da
porcentagem de variância que o mesmo retém. Como os componentes principais são independentes
entre si, o somatório de suas variâncias corresponde à soma das variâncias das variáveis originais.
Não há, portanto, perda de informação na transformação.
Na maioria das situações, o número de componentes principais necessários para extrair
completamente a informação contida em um grupo de varáveis, é igual ao número de variáveis sob
consideração. Porém, os primeiros componentes poderão conter a maioria da variação original,
reduzindo assim a dimensionalidade do grupo de dados. Uma questão é quantos componentes
principais reter (selecionar) na análise. Dentre várias opções, a mais simples e prática consiste em
reter componentes que expliquem uma porcentagem relativamente alta de variação total, geralmente
referida como acima de 80%. Quando esta porcentagem é acumulada pelos dois ou três primeiros
componentes, considera-se a análise satisfatória.
Como os componentes principais são ortogonais entre si, os indivíduos estudados podem ser
representados em um gráfico cartesiano bi ou tridimensional, sendo os eixos constituídos pelos dois ou
três primeiros componentes, respectivamente. Neste gráfico, quanto mais próximos estiverem dois
indivíduos, mais similares eles são entre si e vice-versa. A confiabilidade desta informação é
proporcional à porcentagem da variância total explicada pelos componentes principais em
consideração. Embora a similaridade entre os indivíduos seja avaliada de forma subjetiva (visual), a
similaridade poderá ser interpretada com considerável simplificação.
A técnica de componentes se caracteriza por trabalhar com a média amostral ou ser usada nas
situações em que há repetições de dados. A análise é baseada na matriz de variâncias e covariâncias
47
entre variáveis. Os componentes principais são influenciados pela escala das variáveis. Quando as
variáveis possuem diferentes unidades de medida e, ou, variâncias com diferentes ordens de
magnitude, recomenda-se, antes de proceder à análise, padronizar as variáveis para que todas
possuam variância igual à unidade. Assim, a matriz de covariâncias é transformada em uma matriz de
correlações antes que a análise de componentes principais seja efetuada.
Embora a análise formalmente não requeira a distribuição normal multivariada, ela é mais
apropriada para variáveis quantitativas contínuas. Além disso, os dados de todas as variáveis
observadas devem ser originadas do mesmo indivíduo ou unidade experimental.
2.1 Exemplos de cálculos dos componentes principais
No exemplo da obtenção dos componentes principais, serão utilizados os dados obtidos por
Almeida (1980) em seu estudo da resistência horizontal de cafeeiro ‘Catimor’ à ferrugem (Hemileia
vastatrix). Foram avaliados quatro componentes de resistência: período de incubação (PI período
latente médio (PLm), severidade (Sev) e número de lesões esporuladas por folha (NPF) (Tabela 1). Foi
utilizada a análise de componentes principais neste estudo por haver somente informações disponíveis
sobre média dos componentes de resistência.
Tabela 1. Componentes de resistência1
à ferrugem de progênies de ‘Catimor’ (Almeida, 1980).
Progênies PI (dias) PLm
(dias)
NPF Sev (%)
UFV 2144 23,15 32,00 9,10 11,96
UFV 1340 25,50 33,50 4,09 4,98
UFV 2861 29,37 38,04 2,34 2,22
UFV 2862 30,37 37,46 2,14 2,32
UFV 2863 30,12 41,76 2,48 2,18
UFV 1307 28,62 36,87 1,50 1,74
UFV 3684 26,62 37,12 3,66 3,16
UFV 3686 27,37 37,52 1,83 1,85
UFV 3687 30,75 38,92 2,33 2,67
UFV 3658 35,12 47,30 1,75 2,00
UFV 4303 35,20 50,22 1,25 1,25
UFV 4305 36,40 48,42 2,12 2,25
PI: período de incubação; PLm: período latente médio; NPF:
número de lesões esporuladas por folha; Sev: severidade.
1o
passo: padronização das variáveis, se necessário: Zij =Xij / S(Xj)
Em virtude de as variáveis originais (Xi) possuírem diferentes unidades de medida, utilizam-se as
variáveis padronizadas. Zij é a média padronizada da j-ésima característica (j = 1, 2, ...., p) avAliada
no i-ésimo indivíduo (i = 1, 2, ...., n), Xij é a média original e S(Xj) é o desvio padrão da j-ésima
característica.
5,682 5,491 4,286 4,112
6,259 5,748 1,926 1,712
7,209 6,527 1,102 0,763
7,454 6,428 1,008 0,798
7,393 7,165 1,168 0,749
Z = 7,025 6,326 0,707 0,598
6,534 6,369 1,724 1,086
6,718 6,438 0,862 0,636
7,548 6,678 1,097 0,918
8,620 8,116 0,824 0,688
8,640 8,617 0,589 0,430
8,935 8,308 0,999 0,774
48
2o
passo: cálculo da matriz de correlações (R)
r (Xj ; Xj’)= Cov (Zj ; Zj’) =
)X(S).X(S
)X;X(Cov
'j
2
j
2
'jj
(2.1a)
Ou de maneira equivalente:
rjj’ =
∑ ∑ −−
∑ −−
= =
=
n
1i
n
1i
2
'j'ij
2
jij
n
1i
'j'ijjij
)XX()XX(
)XX)(XX(
(2.1b)
em que Cov (Xj , Xj’) e Cov (Zj , Zj’) são estimadores da covariância entre duas variáveis originais e
duas variáveis padronizadas, respectivamente; r (Xj , Xj’) = rjj’ é a correlação entre duas variáveis
originais (coeficiente de correlação momento-produto de Pearson); e jX e S (Xj) são a média e a
estimativa da variância para a j-ésima variável, respectivamente.
1,0000 0,9519 -0,6888 -0,6512
R = 1,0000 -0,5983 -0,5758
1,0000 0,9890
1,0000
3o
passo: obtenção dos autovalores de R, por meio de
det (R - λI) = 0 (2.2)
em que
λ = raízes características (ou autovalores) da matriz de correlações entre duas varáveis originais
(ou de covariância entre as varáveis padronizadas). Existem p autovalores correspondentes às
variâncias de cada um dos p componentes principais;
I = matriz identidade, de dimensão (p x p); e
R = matriz de correlações entre pares de variáveis originais, de dimensão (p x p).
λ1 = 3,2289; λ2 = 0,7190; λ3 = 0,0443; λ4 = 0,0079
Cada autovalor é a estimativa da variância de um componente principal. A variância é
decrescente do primeiro ao último componente principal. Seja Yj um componente principal, então
S2
(Y1) > S2
(Y2) > ... > S2
(Yp); e
∑
=
p
1j
S2
(Yj) = Traço (R) = p
em que Traço (R) é a soma dos elementos da diagonal dos autovalores da matriz de correlação R.
4o
passo: obtenção dos autovetores
Um componente principal (Yj) é uma combinção linear de Zj
Yj = a1Z1 + a2Z2 + ... + apZp
Para a obtenção do autovetor do primeiro componente principal, utiliza-se a seguinte equação:
apostila de estatistica 2012
apostila de estatistica 2012
apostila de estatistica 2012
apostila de estatistica 2012
apostila de estatistica 2012
apostila de estatistica 2012
apostila de estatistica 2012
apostila de estatistica 2012
apostila de estatistica 2012
apostila de estatistica 2012
apostila de estatistica 2012
apostila de estatistica 2012
apostila de estatistica 2012
apostila de estatistica 2012
apostila de estatistica 2012
apostila de estatistica 2012
apostila de estatistica 2012
apostila de estatistica 2012
apostila de estatistica 2012
apostila de estatistica 2012
apostila de estatistica 2012
apostila de estatistica 2012

Weitere ähnliche Inhalte

Was ist angesagt?

Aula2: Planejamento Experimental
Aula2: Planejamento ExperimentalAula2: Planejamento Experimental
Aula2: Planejamento Experimentalansansil
 
Delineamento experimental básico
Delineamento experimental básicoDelineamento experimental básico
Delineamento experimental básicoCaio Maximino
 
22 metodo experimental
22 metodo experimental22 metodo experimental
22 metodo experimentalJoao Balbi
 
Desenho de Experimentos: Desenho Fatorial
Desenho de Experimentos: Desenho FatorialDesenho de Experimentos: Desenho Fatorial
Desenho de Experimentos: Desenho FatorialNayara Duarte
 
População e amostragem
População e amostragemPopulação e amostragem
População e amostragemUERGS
 
Estudos de sujeito único
Estudos de sujeito únicoEstudos de sujeito único
Estudos de sujeito únicoJoao P. Dubas
 
Experimentacao agricola manual
Experimentacao agricola manualExperimentacao agricola manual
Experimentacao agricola manualAssad Mutirua
 
Investigação Experimental em Psicologia
Investigação Experimental em PsicologiaInvestigação Experimental em Psicologia
Investigação Experimental em PsicologiaJorge Barbosa
 
Cap10 - Parte 1 - Anova Conceitos
Cap10 - Parte 1 - Anova ConceitosCap10 - Parte 1 - Anova Conceitos
Cap10 - Parte 1 - Anova ConceitosRegis Andrade
 
Realização de experimentos
Realização de experimentosRealização de experimentos
Realização de experimentosCaio Maximino
 
Pesquisa Experimental em Marketing
Pesquisa Experimental em MarketingPesquisa Experimental em Marketing
Pesquisa Experimental em MarketingGraziela Rodrigues
 
0 Aula De ValidaçãO
0   Aula De ValidaçãO0   Aula De ValidaçãO
0 Aula De ValidaçãOAlvaro Neto
 
Seminário sobre Validação 2003
Seminário sobre Validação 2003Seminário sobre Validação 2003
Seminário sobre Validação 2003Adriana Quevedo
 
Apostila de quimica analitica quantitativa ricardo bastos cunha
Apostila de quimica analitica quantitativa   ricardo bastos cunhaApostila de quimica analitica quantitativa   ricardo bastos cunha
Apostila de quimica analitica quantitativa ricardo bastos cunhaWendel Oliveira
 
Hipóteses e Estimativa do tamanho da amostra (aula 6)
Hipóteses e Estimativa do tamanho da amostra (aula 6)Hipóteses e Estimativa do tamanho da amostra (aula 6)
Hipóteses e Estimativa do tamanho da amostra (aula 6)Sandra Lago Moraes
 

Was ist angesagt? (20)

Aula2: Planejamento Experimental
Aula2: Planejamento ExperimentalAula2: Planejamento Experimental
Aula2: Planejamento Experimental
 
Delineamento experimental básico
Delineamento experimental básicoDelineamento experimental básico
Delineamento experimental básico
 
22 metodo experimental
22 metodo experimental22 metodo experimental
22 metodo experimental
 
Desenho de Experimentos: Desenho Fatorial
Desenho de Experimentos: Desenho FatorialDesenho de Experimentos: Desenho Fatorial
Desenho de Experimentos: Desenho Fatorial
 
População e amostragem
População e amostragemPopulação e amostragem
População e amostragem
 
Estudos de sujeito único
Estudos de sujeito únicoEstudos de sujeito único
Estudos de sujeito único
 
Experimentacao agricola manual
Experimentacao agricola manualExperimentacao agricola manual
Experimentacao agricola manual
 
Exp design
Exp designExp design
Exp design
 
Ipaee capitulo 4_slides
Ipaee capitulo 4_slidesIpaee capitulo 4_slides
Ipaee capitulo 4_slides
 
Investigação Experimental em Psicologia
Investigação Experimental em PsicologiaInvestigação Experimental em Psicologia
Investigação Experimental em Psicologia
 
Aula de estatística
Aula de estatísticaAula de estatística
Aula de estatística
 
Cap10 - Parte 1 - Anova Conceitos
Cap10 - Parte 1 - Anova ConceitosCap10 - Parte 1 - Anova Conceitos
Cap10 - Parte 1 - Anova Conceitos
 
Realização de experimentos
Realização de experimentosRealização de experimentos
Realização de experimentos
 
Anova 2__fatores_prof._ivan (2)
Anova  2__fatores_prof._ivan (2)Anova  2__fatores_prof._ivan (2)
Anova 2__fatores_prof._ivan (2)
 
Pesquisa Experimental em Marketing
Pesquisa Experimental em MarketingPesquisa Experimental em Marketing
Pesquisa Experimental em Marketing
 
0 Aula De ValidaçãO
0   Aula De ValidaçãO0   Aula De ValidaçãO
0 Aula De ValidaçãO
 
Seminário sobre Validação 2003
Seminário sobre Validação 2003Seminário sobre Validação 2003
Seminário sobre Validação 2003
 
Apostila de quimica analitica quantitativa ricardo bastos cunha
Apostila de quimica analitica quantitativa   ricardo bastos cunhaApostila de quimica analitica quantitativa   ricardo bastos cunha
Apostila de quimica analitica quantitativa ricardo bastos cunha
 
Hipóteses e Estimativa do tamanho da amostra (aula 6)
Hipóteses e Estimativa do tamanho da amostra (aula 6)Hipóteses e Estimativa do tamanho da amostra (aula 6)
Hipóteses e Estimativa do tamanho da amostra (aula 6)
 
Apostila planejamento
Apostila planejamentoApostila planejamento
Apostila planejamento
 

Andere mochten auch (10)

Testes parametricos e nao parametricos
Testes parametricos e nao parametricosTestes parametricos e nao parametricos
Testes parametricos e nao parametricos
 
Apostila estatistica2
Apostila estatistica2Apostila estatistica2
Apostila estatistica2
 
Análise dimensional
Análise dimensionalAnálise dimensional
Análise dimensional
 
Aula programa Genes
Aula programa GenesAula programa Genes
Aula programa Genes
 
Bioestatística
BioestatísticaBioestatística
Bioestatística
 
Teorias do curriculo
Teorias do curriculoTeorias do curriculo
Teorias do curriculo
 
Linguagem bidimensional e tridimensional
Linguagem bidimensional e tridimensionalLinguagem bidimensional e tridimensional
Linguagem bidimensional e tridimensional
 
Apostila de arte
Apostila de arteApostila de arte
Apostila de arte
 
Teste t student
Teste t studentTeste t student
Teste t student
 
Distribuição binomial, poisson e hipergeométrica - Estatística I
Distribuição binomial, poisson e hipergeométrica - Estatística IDistribuição binomial, poisson e hipergeométrica - Estatística I
Distribuição binomial, poisson e hipergeométrica - Estatística I
 

Ähnlich wie apostila de estatistica 2012

aula_2_principios_basicos_de_experimentao.pdf
aula_2_principios_basicos_de_experimentao.pdfaula_2_principios_basicos_de_experimentao.pdf
aula_2_principios_basicos_de_experimentao.pdfEdyCipriano
 
Monitoramento de fertilidade do solo com a técnica de amostragem em grade
Monitoramento de fertilidade do solo com a técnica de amostragem em gradeMonitoramento de fertilidade do solo com a técnica de amostragem em grade
Monitoramento de fertilidade do solo com a técnica de amostragem em gradevittacura
 
Frederico jose joaquim anakulomba 2015
Frederico jose joaquim anakulomba  2015Frederico jose joaquim anakulomba  2015
Frederico jose joaquim anakulomba 2015Fred Dom
 
Fertilizantes e substratos na produção de mudas de oliveira
Fertilizantes e substratos na produção de mudas de oliveiraFertilizantes e substratos na produção de mudas de oliveira
Fertilizantes e substratos na produção de mudas de oliveiraAgricultura Sao Paulo
 
experimentac3a7c3a3o-agrc3adcola.pptx
experimentac3a7c3a3o-agrc3adcola.pptxexperimentac3a7c3a3o-agrc3adcola.pptx
experimentac3a7c3a3o-agrc3adcola.pptxAlexson Dutra
 
aula-10-Preparo-de-amostras.pdf
aula-10-Preparo-de-amostras.pdfaula-10-Preparo-de-amostras.pdf
aula-10-Preparo-de-amostras.pdfTecInfor
 
Techniques for Sampling Vertebrates
Techniques for Sampling VertebratesTechniques for Sampling Vertebrates
Techniques for Sampling VertebratesDiogo Provete
 
AMOSTRAGEM AULA 01.pptx
AMOSTRAGEM AULA 01.pptxAMOSTRAGEM AULA 01.pptx
AMOSTRAGEM AULA 01.pptxAnaEmlia7
 
Artigo microbiologia
Artigo microbiologiaArtigo microbiologia
Artigo microbiologiadenilson7979
 
Artigo microbiologia
Artigo microbiologiaArtigo microbiologia
Artigo microbiologiadenilson7979
 
Artigo microbiologia
Artigo microbiologiaArtigo microbiologia
Artigo microbiologiadenilson7979
 
Artigo microbiologia
Artigo microbiologiaArtigo microbiologia
Artigo microbiologiadenilson7979
 
Artigo microbiologia
Artigo microbiologiaArtigo microbiologia
Artigo microbiologiadenilson7979
 

Ähnlich wie apostila de estatistica 2012 (20)

aula_2_principios_basicos_de_experimentao.pdf
aula_2_principios_basicos_de_experimentao.pdfaula_2_principios_basicos_de_experimentao.pdf
aula_2_principios_basicos_de_experimentao.pdf
 
Apostilaquadrado
ApostilaquadradoApostilaquadrado
Apostilaquadrado
 
Apostila
ApostilaApostila
Apostila
 
Apostila
ApostilaApostila
Apostila
 
Inventários Biológicos
Inventários BiológicosInventários Biológicos
Inventários Biológicos
 
Apostila man flo
Apostila man floApostila man flo
Apostila man flo
 
Monitoramento de fertilidade do solo com a técnica de amostragem em grade
Monitoramento de fertilidade do solo com a técnica de amostragem em gradeMonitoramento de fertilidade do solo com a técnica de amostragem em grade
Monitoramento de fertilidade do solo com a técnica de amostragem em grade
 
Frederico jose joaquim anakulomba 2015
Frederico jose joaquim anakulomba  2015Frederico jose joaquim anakulomba  2015
Frederico jose joaquim anakulomba 2015
 
Experimento
ExperimentoExperimento
Experimento
 
Fertilizantes e substratos na produção de mudas de oliveira
Fertilizantes e substratos na produção de mudas de oliveiraFertilizantes e substratos na produção de mudas de oliveira
Fertilizantes e substratos na produção de mudas de oliveira
 
experimentac3a7c3a3o-agrc3adcola.pptx
experimentac3a7c3a3o-agrc3adcola.pptxexperimentac3a7c3a3o-agrc3adcola.pptx
experimentac3a7c3a3o-agrc3adcola.pptx
 
11628 37607-1-pb
11628 37607-1-pb11628 37607-1-pb
11628 37607-1-pb
 
aula-10-Preparo-de-amostras.pdf
aula-10-Preparo-de-amostras.pdfaula-10-Preparo-de-amostras.pdf
aula-10-Preparo-de-amostras.pdf
 
Techniques for Sampling Vertebrates
Techniques for Sampling VertebratesTechniques for Sampling Vertebrates
Techniques for Sampling Vertebrates
 
AMOSTRAGEM AULA 01.pptx
AMOSTRAGEM AULA 01.pptxAMOSTRAGEM AULA 01.pptx
AMOSTRAGEM AULA 01.pptx
 
Artigo microbiologia
Artigo microbiologiaArtigo microbiologia
Artigo microbiologia
 
Artigo microbiologia
Artigo microbiologiaArtigo microbiologia
Artigo microbiologia
 
Artigo microbiologia
Artigo microbiologiaArtigo microbiologia
Artigo microbiologia
 
Artigo microbiologia
Artigo microbiologiaArtigo microbiologia
Artigo microbiologia
 
Artigo microbiologia
Artigo microbiologiaArtigo microbiologia
Artigo microbiologia
 

apostila de estatistica 2012

  • 1. UNIVERSIDADE FEDERAL RURAL DE PERNAMBUCO PRÓ-REITORIA DE PESQUISA E PÓS-GRADUAÇÃO PROGRAMA DE PÓS-GRADUAÇÃO EM FITOPATOLOGIA ANÁLISE EXPERIMENTAL EM FITOPATOLOGIA TEXTOS DIDÁTICOS PROF. SAMI J. MICHEREFF LABORATÓRIO DE EPIDEMIOLOGIA DE DOENÇAS DE PLANTAS DEPARTAMENTO DE AGRONOMIA – ÁREA DE FITOSSANIDADE UNIVERSIDADE FEDERAL RURAL DE PERNAMBUCO RECIFE - PE 2012
  • 2. 2 SUMÁRIO Pág. • Princípios básicos de experimentação ........................................................................ 3 • Medidas de tendência central e de dispersão .............................................................. 5 • Inferência para médias e testes de hipóteses ............................................................. 8 • Análise de variância e transformação de dados ........................................................... 17 • Testes de comparação múltipla de médias ................................................................. 25 • Delineamentos experimentais ................................................................................... 30 • Correlação linear ..................................................................................................... 38 • Regressão linear ...................................................................................................... 40 • Noções de análise multivariada ................................................................................. 46 • Noções de estatística não-paramétrica ...................................................................... 60
  • 3. 3 PRINCÍPIOS BÁSICOS DE EXPERIMENTAÇÃO 1. INTRODUÇÃO Experimento é a investigação planejada para obter novos fatos e/ou aceitar ou rejeitar resultados de um experimento. Quando se realiza um experimento, é preciso escolher uma unidade experimental, para a coleta dos dados que deverão refletir os efeitos dos tratamentos ensaiados. A unidade experimental recebe também o nome de parcela. Assim, num experimento com manga, a unidade experimental pode ser uma planta ou um grupo de plantas. No caso de um experimento com A experimentação obedece a alguns princípios básicos que são indispensáveis à análise das conclusões por ventura alcançadas, em que se destacam: repetição, casualização e controle local. 2. PRINCÍPIOS BÁSICOS DA EXPERIMENTAÇÃO A experimentação obedece a alguns princípios básicos que são indispensáveis à análise das conclusões por ventura alcançadas, em que se destacam: repetição, casualização e controle local. •••• Repetição Quando um tratamento aparece mais que uma vez num experimento, diz-se que houve repetição do tratamento. Se for utilizada a casualização e se o aumento de repetições não acarretar o uso de material menos homogêneo, à medida que o número de repetições aumentar haverá um aumento da precisão do experimento. •••• Casualização O propósito da casualização ou aleatorização é garantir que um tratamento não seja continuamente favorecido ou desfavorecido nas sucessivas repetições por alguma fonte estranha de variação, de origem conhecida ou desconhecida. A casualização significa que a localização dos tratamentos nas unidades experimentais é feita ao acaso, ou seja, através de um sorteio. •••• Controle local O controle local é de uso muito freqüente em experimentação, mas não obrigatório. Suponhamos que temos uma área onde queremos instalar um experimento com duas variedades de caupi A e B, apresentando diferença acentuada com relação á fertilidade. Então, dividimos a área em blocos homogêneos com relação á fertilidade e, em cada bloco, teremos os dois tratamentos distribuídos aleatoriamente. Poderá haver ou não grande variação de fertilidade ou de outros fatores de um bloco para outro. O importante é que cada bloco seja tão uniforme quanto possível. Este tipo de delineamento, que é talvez o mais importante, e de uso mais generalizado, é conhecido por “blocos ao acaso” ou “blocos casualizados”. Quando não há controle local, mas apenas repetição e casualização, temos o que se chama um experimento "inteiramente casualizado". 3. ERRO EXPERIMENTAL É a medida das variações existentes entre os dados ou observações que se apresentam nas unidades experimentais que receberam tratamentos iguais. A redução do erro experimental se constitui num objetivo básico do planejamento. Entretanto, sempre existem fatores que fogem ao controle do pesquisador, outorgando ao erro certa magnitude. É possível, em muitos casos, isolar algumas fontes de variação e, então, reduzir consideravelmente o seu significado. O controle do erro experimental é conduzido pelos seguintes meios: • Escolha adequada do delineamento, visando contornar a heterogeneidade do suporte experimental. Isto significa a possibilidade de introduzir blocos, linhas, colunas, parcelas subdivididas etc. • Usar material experimental que permita diminuir a variabilidade inerente dos seres vivos (exemplo, selecionar indivíduos da mesma linhagem).
  • 4. 4 • Escolha adequada do tamanho, disposição e forma das parcelas e blocos, levando em consideração características especificas da área utilizada. Em Fitopatologia podemos relacionar várias técnicas que podem conduzir a erros experimentais, sendo alguns exemplos: inoculação de plantas utilizando diferentes concentrações de inóculo; material vegetal a ser inoculado desuniforme (idade e tamanho de folhas, por exemplo); câmaras de incubação com ajustes diferentes de temperatura; parcelas desuniformes no campo; irrigação de vasos em casa- de-vegetação, conduzindo a diferenças na umidade do solo; posição de plantas em bancadas em casa- de-vegetação, etc. O pesquisador deve ter sempre a preocupação de minimizar o erro experimental, o que lhe permitirá ter como maior fonte de variação os tratamentos. Os experimentos em condições de laboratório e casa de vegetação são mais fáceis de serem conduzidos, permitindo ao pesquisador maior controle das condições experimentais, reduzindo os erros experimentais. O pesquisador deve iniciar esse controle desde a escolha do material experimental, trabalhando com material genético estável, com pouca segregação, utilizar sempre que possível sementes de origem bem conhecida, o que conduzirá a um stand mais uniforme. lnoculações deverão ser feitas sempre em órgãos vegetais de mesma idade, tamanho e desenvolvimento. O inóculo deve ser sempre o mais uniforme possível, com relação à idade, raça fisiológica, de cultura monospórica ou monopustular, se for o caso, e também com viabilidade e virulência conhecida. As condições de incubação devem ser também as mais uniformes, no que se refere ás condições de temperatura, fotoperíodo e molhamento foliar. Quando as plantas são levadas para casa de vegetação, todos os cuidados devem ser tomados para que não ocorram erros devidos ao excesso de irrigação em alguns vasos, efeitos de diferentes condições reinantes dentro dessas casas, como por exemplo, proximidade de janelas, localização dos vasos nas mesas, etc. Os experimentos conduzidos em condições de campo normalmente levam a maior ocorrência de erros experimentais devido às dificuldades encontradas pelos pesquisadores em controlar algumas condições, como variabilidade do solo no que diz respeito a umidade, características físico-químicas, microclimas, diferenças entre unidades experimentais, etc. Mesmo assim, o pesquisador pode buscar áreas com menor variação, áreas com plantas mais uniformes quando se trabalha em culturas já instaladas e também adequar um delineamento experimental as condições existentes.
  • 5. 5 MEDIDAS DE TENDÊNCIA CENTRAL E DE DISPERSÃO 1. INTRODUÇÃO Estatística apresenta duas subdivisões: estatística descritiva e estatística inferencial. A estatística descritiva fornece um grande número de opções para o pesquisador, tais como tabelas, gráficos e médias, para a organização e sumarização de informações sobre um conjunto de observações. A estatística inferencial, oferece uma série de opções para generalizações a partir de observações disponíveis. A estatística inferencial nos permite usar um pequeno número de observações para estimar a performance de toda uma população. A análise estatística é feita com dados, isto é, um conjunto de observações obtido em uma pesquisa ou um experimento. Os dados obtidos nos experimentos conduzidos na área de Fitopatologia são, geralmente, baseados em observações individuais, que são observações ou medidas obtidas de unidades amostrais. É importante definirmos alguns termos que são comumente utilizados em estatística: • População: é um conjunto de elementos que têm uma ou mais característica(s) em comum. A população pode também ser considerada como um conjunto de todos os valores possíveis de uma variável. As populações podem ser finitas, como por exemplo, como o número de plantas doentes numa determinada área, ou infinitas, como os resultados obtidos, de cara ou coroa, ao se lançar uma moeda para cima uma infinidade de vezes. Em estatística, população sempre significa a totalidade de observações individuais sobre as quais inferências serão feitas. • Amostra: é um subconjunto retirado da população, com menor número de elementos que a respectiva população e representativo desta. Como por exemplo, um certo número de folhas tomados de uma planta doente e os resultados de suas análises. • Variável discreta e variável contínua: variável discreta é aquela que apresenta somente valores numéricos fixos e determinados, sem valores intermediários, como o número de folhas em uma planta, o número de sementes em uma vagem de feijoeiro, o número de frutos em uma planta de mamoeiro, etc. Variável contínua é aquela que pode apresentar infinitos valores dentro de um intervalo, como o peso de 100 sementes de feijão, a altura média de plantas, o comprimento de raízes de plantas de tomateiro A análise estatística é feita com dados, isto é, um conjunto de observações obtidas em uma pesquisa ou um experimento. A forma precisa de realizar uma análise estatística dependerá se os dados são quantitativos ou qualitativos. • Dados quantitativos: quando as observações consistem de números que indicam diferenças em mensurações ou contagens, os dados são considerados quantitativos. Os números de lesões reportados na Tabela 1 são dados quantitativos, uma vez que diferentes números apresentados refletem diferentes números de lesões por folha, indicando diferente quantidade de doença nas folhas. Outros exemplos de dados quantitativos incluem observações baseadas em tamanho, como porcentagem de área foliar lesionada, diâmetro de lesões, de colônia um fungo, tamanho de folhas ou de um órgão vegetal, peso de sementes, de frutos, de um produto industrializado, etc. • Dados qualitativos: quando as observações consistem de palavras ou códigos numéricos que indicam diferenças em espécie, são conhecidas como qualitativas. Assim, poderíamos citar exemplos de observações baseadas em cor de tegumento de sementes, diferentes meios de cultura, diferentes fungicidas, diferentes variedades ou linhagens, etc.
  • 6. 6 2. MEDIDAS DE TENDÊNCIA CENTRAL As principais medidas de tendência central de uma amostra são média aritmética, média ponderada e mediana. • Média aritmética ( x ) - é obtida somando-se todas as observações e então dividindo-se pelo número delas. n x x ∑= Exemplo: na série de dados 3, 3, 4 e 6, a média aritmética será? 4 4 16 4 6433 x == +++ = • Média ponderada ( px ) - é obtida somando-se todas as observações e então dividindo-se pelo número delas. ∑ ∑ = +++ +++ = y yy n21 nn2211 p W XW W...WW XW...XWXW x Exemplo: um estudante obteve nos trabalhos práticos, de peso 1, as notas 6 e 10. Na prova, de peso 3, obteve nota 8. Sua média é: 0,8 5 40 311 )8x3()10x1()6x1( xp == ++ ++ = • Mediana (Md) - reflete o valor central quando as observações são ordenadas da menor para a maior. Se o número de dados da amostra é par, a mediana será a média dos valores centrais. Exemplo: No conjunto de números 2, 2, 3, 5, 7, 8, 8, 9 e 10, a mediana é Md = 7 A mediana do grupo de números 1, 4, 4, 8, 10, 12, 15 e 20 é? Md = 9 2 108 = + 3. MEDIDAS DE DISPERSÃO (VARIABILIDADE) Embora a temperatura média de Recife possa ser igual à de Fortaleza, não se pode dizer que o clima entre estas duas cidades seja igual no que se refere à temperatura. Usualmente, quando dados são sumarizados em uma estatística descritiva, especifica-se não somente a medida de tendência central, mas também uma medida de variabilidade, o que representa o quanto as observações desviam ou variam em tomo de uma medida de tendência central. • Variância da amostra ( 2 S ) - a variância de uma amostra com n observações é igual a soma de quadrado das distâncias de cada observação em relação à média, dividida por (n-1). 1n n )x( x S 2 2 2 − ∑ −∑ =
  • 7. 7 • Desvio padrão da amostra ( S ) - é definido como a raiz quadrada da variância da amostra e expressa o desvio de cada um dos elementos (xi) em relação à média ( x ). Assim: 2 SS = • Erro Padrão da média ( xS ) - diferentes amostras retiradas da mesma população podem apresentar médias diferentes. A variação existente entre esse conjunto de médias é estimada pelo erro padrão, que corresponde ao desvio padrão das médias. Há uma fórmula simples que permite obter o erro padrão da média xS sem ser preciso colher novas amostras. n S Sx 2 = • Coeficiente de variação (CV) - indica a precisão de um experimento, sendo calculado pela seguinte fórmula: 100. x S CV = Exemplo: do conjunto de números 12, 15, 18, 18, 20, 25, 26, 26 e 28, calcular a média ( x ), a variância ( 2 S ), o desvio padrão ( S ), o erro da média ( xS ) e o coeficiente de variação (CV). 89,20 9 188 9 282626252018181512 x == ++++++++ = 36,31 8 89,250 8 11,39274178 8 9 188 )282626252018181512( S 2 222222222 2 == − = −++++++++ = 60,536,31S == 87,148,3 9 36,31 Sx === 81,26100. 89,20 60,5 CV ==
  • 8. 8 INFERÊNCIA PARA MÉDIAS E TESTES DE HIPÓTESES 1. HIPÓTESES Hipóteses são conjecturas sobre uma população, objeto ou efeito de um tratamento. Uma hipótese pode ser verdadeira ou falsa. Toda pesquisa ou experimento tem como antecedente fundamental uma hipótese, denominada hipótese científica. O pesquisador planeja e executa experimentos tendo em vista a obtenção de dados experimentais indispensáveis à verificação de uma hipótese científica. 2. VERIFICAÇÃO DE HIPÓTESES Para a verificação de uma hipótese científica, algumas regras de decisão devem ser estabelecidas previamente, isto é, antes da obtenção dos dados experimentais. Essas regras de decisão são testes estatísticos, denominados testes de hipóteses ou de significância, e tem por objetivo auxiliar o pesquisador a decidir objetivamente se a hipótese científica é verdadeira ou falsa. Exemplo 1: Deseja-se saber se o isolado bacteriano “I” é mais resistente a determinado antibiótico que o isolado “II”. Formula-se a hipótese de que eles dão igualmente resistentes, isto é, se 1x = 2x . 2.1. Hipótese de nulidade Hipóteses como a do exemplo 1 são denominadas hipóteses de nulidade e são geralmente formuladas com o propósito de serem rejeitadas. Hipóteses de nulidade são representadas simbolicamente por H0. Embora o pesquisador possa ter razões objetivas para acreditar que existem diferenças reais entre as médias de certos tratamentos, ele formula a hipótese de que essas médias são iguais, ou seja, H0 = 1x = 2x . Se H0 for verdadeira, então 1x - 2x = 0, isto é, a diferença entre as médias é nula, advindo assim a denominação de hipótese de nulidade. No exemplo 1 temos: H0 : 1x = 2x 2.2. Hipótese alternativa Qualquer hipótese diferente de H0 é denominada hipótese alternativa e representada simbolicamente por H1. No exemplo 1 podemos ter: H1 : 1x ≠≠≠≠ 2x H1 : 1x > 2x H1 : 1x < 2x Note que H0 e H1 são hipóteses estatísticas e servem apenas para a comparação de dados observados com os teoricamente esperados. 3. TESTE DE SIGNIFICÂNCIA Como os testes estatísticos têm por função auxiliar o pesquisador a decidir objetivamente sobre a aceitação ou rejeição da hipótese de nulidade, há uma grande variedade de testes de significância que se aplicam conforme as situações específicas. Inicialmente, a escolha de um teste de significância depende da natureza da hipótese alternativa.
  • 9. 9 Hipótese de nulidade: H0 : 1x = 2x Hipóteses alternativas possíveis: H1 : a. 1x ≠≠≠≠ 2x b. 1x > 2x c. 1x < 2x Para uma mesma hipótese de nulidade, podemos ter hipótese alternativa dos tipos “a”, “b” ou “c’. Para o tipo “a”, o teste de significância é bilateral, enquanto para os tipos “b” e “c” o teste é unilateral. 3.1. Nível de significância Todo teste deve ter um nível de significância especificado. Entende-se por nível de significância a probabilidade máxima admitida pelo pesquisador de rejeitar uma hipótese quando ela é verdadeira. Essa probabilidade é classicamente designada pela letra grega αααα e, logicamente, deve ser muito pequena. Teoricamente, o nível de significância é arbitrado pelo pesquisador. Entretanto, como tabelas especiais foram calculadas para as funções de probabilidade dos principais testes apenas para uns poucos níveis de significância, isto impõe limitações na sua escolha, motivo pelo qual os valores mais usados são α = 0,05 e α = 0,01. Em todo teste de significância o que se faz é dividir em duas regiões a área sob a curva representativa da distribuição de probabilidade definida pela função matemática em que o teste se baseia. Essas regiões são denominadas região de aceitação ou região de rejeição da hipótese de nulidade. Quando o teste é bilateral, ou seja H1 : 1x ≠≠≠≠ 2x (tipo “a”), a região de rejeição é dividida em duas partes iguais (e, consequentemente, o valor de α) e cada metade é alocada em uma das extremidades da curva de probabilidade (Fig. 1). O ponto que separa as duas regiões é chamado de valor crítico, simbolizando na Fig. 1 por tαααα/2, cujo valor é dado por tabelas especiais, no caso, para o teste t. Outros símbolos são u e z, usados quando o teste se baseia na distribuição normal. Figura 1. Regiões de aceitação e rejeição em teste bilateral (H1 : 1x ≠≠≠≠ 2x ). Quando o teste é unilateral, ou seja, H1 : 1x > 2x (tipo “b”) ou H1 : 1x < 2x (tipo “c”), todo o valor de α é alocado em uma das extremidades da curva de probabilidades. Quando H1 é do tipo “b”, o valor de α é alocado na extremidade superior da curva, enquanto se H1 é do tipo “c”, o valor de α é alocado na extremidade inferior (Fig. 2).
  • 10. 10 Figura 2. Regiões de aceitação e rejeição em teste unilateral, considerando as hipóteses alternativas H1 : 1x > 2x (a) e H1 : 1x < 2x (b). A decisão final sobre a escolha de um teste de significância depende dos objetivos específicos a cada caso: - Teste de significância de uma média. - Teste de significância da diferença entre duas médias. - Comparação de médias de tratamentos. 3.2. Erros de Decisão Qualquer que seja o teste de significância escolhido é necessário considerar que: (1) teste de significância é uma regra para auxiliar o pesquisador a tomar decisões objetivas e (2) em qualquer teste é possível cometer dois tipos de erros de decisão, conforme representado na Tabela 1: Tabela 1. Erros de decisão possíveis em testes de hipóteses. Decisão H0 verdadeira H0 falsa Rejeição Erro tipo I (α) Decisão correta Aceitação Decisão correta Erro tipo II (β) Portanto, o Erro tipo I é a probabilidade de rejeição de uma hipótese verdadeira, enquanto o Erro tipo II é a probabilidade de aceitação de uma hipótese falsa. Um bom teste de significância deve minimizar os dois tipos de erro, o que não é fácil devido à relação existente entre ambos. Para um mesmo tamanho da amostra, quando se reduz o erro tipo I, aumenta-se o erro tipo II. A única forma de reduzir ambos os tipos de erro ao mesmo tempo é aumentar o tamanho da amostra. 3.3. Marcha do teste de significância 1. Formulação da hipótese de nulidade: H0 : 1x = 2x e da hipótese alternativa: H1 : 1x ≠≠≠≠ 2x ou H1 : 1x > 2x ou H1 : 1x < 2x 2. Definição do nível de significância: αααα 3. Cálculo do valor numérico do teste: tcalc (depende do teste escolhido) 4. Regra de decisão ou definição da região crítica. Na suposição de H0 verdadeira, a probabilidade do valor calculado do teste cair na região de rejeição é menor ou igual a α. 5. Decisão se o valor numérico do teste está: - na região de aceitação: aceita-se H0 - na região de rejeição: rejeita-se H0 e aceita-se H1.
  • 11. 11 4. TESTE DE SIGNIFICÂNCIA DE UMA MÉDIA Normalmente o desvio padrão da população (σσσσ) é desconhecido, sendo estimado pelo desvio padrão da amostra (S), a partir de uma amostra de tamanho n. Nessa situação, o teste t é o apropriado para avaliar a significância, onde o valor de t calculado (tcalc): tcalc = xS x µ− A quantidade tc obedece à distribuição de t de Student com n-1 graus de liberdade, sendo µ é a média verdadeira da população, desconhecida, e estimada por x a partir de uma amostra de tamanho n, e xS é o erro padrão da amostra. Exemplo: Considere o aumento do peso de túberas de inhame após a aplicação do fungicida B para o controle da queima das folhas. Os dados apresentados ( )x correspondem aos incrementos de peso em 5 túberas, em gramas (g), na época da colheita. 35 49 51 43 27 Suponhamos que, após vários anos de experiência, sabemos que a média de ganho de peso pelas túberas com a aplicação do fungicida A, utilizado tradicionalmente pelos agricultores, é de 27,8 g 4.1. Teste bilateral Questão: Se aplicarmos o fungicida B nas plantas de inhame, haverá diferença significativa no ganho de peso nas túberas comparado ao obtido com a aplicação do fungicida A? Assim, podemos ter o seguinte questionamento sobre a média (µµµµ): (a) µµµµ = 27,8 g (i.e., o fungicida B não afeta o ganho de peso - a média permanece igual a 27,8 g mesmo após a aplicação do fungicida B) (b) µµµµ ≠≠≠≠ 27,8 g (i.e., o fungicida B apresenta um efeito sobre o ganho de peso) (a) e (b) são chamadas hipóteses estatísticas (em relação ao valor de µ) A hipótese (a) [µµµµ = 27,8 g] considera que o fenômeno em estudo (aplicação do fungicida B) não tem efeito, sendo chamada de hipótese de nulidade e escreve-se: H0 : µµµµ = 27,8 g A hipótese (b) [µµµµ ≠≠≠≠ 27,8 g] considera que o fenômeno em estudo (aplicação do fungicida B) apresenta um efeito, sendo chamada de hipótese alternativa e escreve-se: H1 : µµµµ ≠≠≠≠ 27,8 g O procedimento estatístico formal para "decidir" entre H0 e H1 é conhecido como teste de hipótese. Nossa decisão será baseada em observações a partir de amostras de uma população com média µ, e reside na confiança que temos no procedimento amostral. Suponhamos que, verdadeiramente, a µ = 27,8 g (i.e., o fungicida não tem efeito). A nossa amostra apresenta x = 41,0 g. Mas como nossa amostra gera uma média igual a 41 se o valor real da média é 27,8? O teste estatístico irá nos dizer se aceitamos ou rejeitamos H0 nesse caso.
  • 12. 12 Método: Assumimos que a hipótese de nulidade é H0 : µµµµ = 27,8 g, onde µ0 é um valor conhecido. Então, se assumirmos H0 como verdadeiro, assumimos que µ = µ0, logo µµµµ0 = 27,8 g. Teste apropriado: tcalc = xS x oµ− ttab = t[n-1; αααα/2] Regra de decisão: Se tcalc > ttab, rejeita-se H0, aceitando a hipótese alternativa (H1). Vamos supor que decidimos estudar se x difere significativamente de µ = 27,8 g ao nível de probabilidade de 5% (α = 0,05). Para os dados referentes ao ganho de peso, onde n = 5, xS = 4,472 e µ0 = 27,8 g, temos: tcalc = 472,4 8,270,41 − = 2,95 Com α = 0,05 → ttab[(5-1); (0,05/2) = ttab (4; 0,025) = 2,78 Uma vez que 2,95 (calculado) > 2,78 (tabelado), rejeitamos H0 e conclui-se que a hipótese alternativa (H1) é a melhor alternativa para explicar o valor de x , ou seja, o fungicida B tem um efeito significativo no ganho de peso das túberas. 4.2. Teste unilateral Questão: Se aplicarmos o fungicida B nas plantas de inhame, haverá aumento no ganho de peso nas túberas comparado ao obtido com a aplicação do fungicida A? Nesse caso, as hipóteses serão: H0 : µµµµ = 27,8 g H1 : µµµµ > 27,8 g Teste apropriado: tcalc = xS x oµ− ttab = t[n-1; αααα] Regra de decisão: Se tcalc > ttab, rejeita-se H0, aceitando a hipótese alternativa (H1).  xS x oµ−  = 2,95 Com α = 0,05 → ttab [(5-1); 0,05) = ttab (4; 0,05) = 2,13 Uma vez que 2,95 (calculado) > 2,13 (tabelado), rejeita-se H0 em favor de H1 > 27,8 g, ou seja, o fungicida B causa aumento significativo de peso nas túberas.
  • 13. 13 5. SIGNIFICÂNCIA DA DIFERENÇA ENTRE DUAS MÉDIAS 5.1. Teste para amostras independentes (dados não emparelhados) O teste t pode ser empregado para testar hipóteses sobre a diferença entre duas estimativas de médias (A e B), como: H0 : BA xx = H1 : BA xx ≠ Quando as duas médias são estimadas a partir de amostras de mesmo tamanho, isto é, nA = nB, o teste adequado é: tc = n S xx BA 2 − quantidade que obedece a distribuição de t com 2(n-1) graus de liberdade. Quando as amostras são de tamanhos diferentes, o teste apropriado é: tc = d BA S xx − onde BA BA d nn nn SS . )(2 + = e corresponde ao desvio padrão apropriado ao teste da diferença entre as médias das duas amostras. Em ambas as situações o valor de 2 SS = é estimado pela equação: )1()1( 22 2 −+− ∑+∑ = BA BA nn xx S onde: 2 Ax∑ = AAA nXX /)( 22 ∑−∑ 2 Bx∑ = BBB nXX /)( 22 ∑−∑ sendo que XA e XB correspondem aos valores observados em relação à variável analisada em A e B. Na interpretação do resultado de um teste para a diferença entre duas médias, devemos considerar se o teste é unilateral ou bilateral, o que é básico para a definição da região crítica. a. Teste bilateral tcalc ≤ -tα/2 →→→→ rejeição de H0 ←←←← tcalc ≥ +tα/2 tcalc > -tα/2 →→→→ aceitação de H0 ←←←←tcalc < +tα/2
  • 14. 14 b. Teste unilateral tcalc ≤ -tα →→→→ rejeição de H0 ←←←← tcalc ≥ +tα tcalc > -tα →→→→ aceitação de H0 ←←←← tcalc < +tα Exemplo: A produtividade média de massa verde (t/ha) de duas cultivares de sorgo forrageiro atacadas pela antracnose é apresentada a seguir: XA XB 57,8 64,2 56,2 58,7 61,9 63,1 54,4 62,5 53,6 59,8 56,4 59,2 53,2 - ∑ 393,5 367,5 2 X∑ 2.174,41 22.535,87 x 56,21 61,25 Questão: Será que as duas cultivares de sorgo forrageiro (XA e XB) são igualmente produtivas quanto atacadas pela antracnose? Hipóteses: H0 : BA xx = H1 : BA xx ≠ 2 Ax∑ = =∑−∑ AAA nXX /)( 22 22.174,41 – 22.120,32 = 54,09 2 Bx∑ = =∑−∑ BBB nXX /)( 22 22.535,87 – 22.509,37 = 26,50 = −+− ∑+∑ = )1()1( 22 2 BA BA nn xx S = + + 56 50,2609,54 7,33 BA BA d nn nn SS . )(2 + = = 42 )67( 33,7 + = 27,2 = 1,51 tcalc = d BA S xx − = 51,1 25,6121,56 − = 51,1 04,5− = -3,33 G.L. = (nA -1) + (nB-1) = 11 Com α = 0,05 → ttab = t[(nA -1) + (nB-1); α/2] = t(11; 0,025) = 2,20 Uma vez que -3,33 (calculado) < -2,20 (tabelado), rejeita-se H0 em favor de H1, ou seja, as cultivares de sorgo forrageiro XA e XB não são igualmente produtivas quanto atacadas pela antracnose. Observação: para amostras de mesmo tamanho basta fazer os cálculos com nA = nB.
  • 15. 15 5.2. Teste para amostras não independentes (dados emparelhados) Esta técnica é utilizada quando se deseja testar diferenças entre médias de duas amostras não independentes, ou seja, quando os elementos de uma amostra estão correlacionados com os elementos de outra. Por exemplo, quando certo caráter é medido no mesmo indivíduo, em épocas diferentes, os valores obtidos nas duas mensurações tendem a ser mais parecidos entre si do que se houvessem sido obtidos de indivíduos diferentes. Em experimentos com dados emparelhados são analisadas as diferenças (d) entre os valores de cada par ao invés dos valores individuais de cada membro do par. A hipótese a ser verificada no caso de dados emparelhados é H0: d = 0, ou seja, deseja-se verificar se a diferença média entre os membros de cada par é 0. Rejeitando-se essa hipótese ao nível α de significância, aceita-se uma hipótese alternativa que pode ser do tipo H1 ≠ 0, H1 <<<< 0 ou H1 >>>> 0. No primeiro caso, o teste é bilateral, enquanto nos dois últimos, é unilateral. A hipótese de nulidade relativa a dados emparelhados pode ser testada pelo teste t, com n-1 graus de liberdade (n = número de pares de medidas = número de diferenças d). A fórmula apropriada é: nn n d d i i d 1 . 1 )( 2 2 − ∑ −∑ =σ onde d σ é o erro padrão da diferença entre duas médias e id são as diferenças entre pares de medidas, i = 1, 2, ..., n. Exemplo: Um experimento foi conduzido para analisar o efeito da aplicação de determinado bactericida sobre a produção de repolho atacada pela podridão negra, causada por Xanthomonas campestris pv. campestris. Um campo foi dividido em 10 blocos de mesma área e cada bloco foi dividido em duas parcelas iguais, totalizando 10 pares de parcelas. Uma parcela de cada par foi sorteada para receber a aplicação do bactericida, enquanto na outra parcela do par não foi efetuada a aplicação. Os resultados são mostrados abaixo. Aplicação de bactericida Diferença Blocos (XA) (XB) (XA – XB) = Y Não tratada Tratada 1 140,4 170,5 - 30,1 2 174,7 207,4 - 32,7 3 170,2 215,9 - 45,7 4 174,6 209,0 - 34,4 5 154,5 171,6 - 17,1 6 185,0 201,2 - 16,2 7 118,9 209,9 - 91,0 8 169,8 213,3 - 43,5 9 174,7 184,1 - 9,4 10 176,7 220,4 - 43,7 n = 10 AX = 163, 95 AX∑ = 1.639,5 2 AX∑ = 272.492,93 ASQX = 3.696,9050 2 AS = 410,7672 BX = 200,33 BX∑ = 2.003,3 2 BX∑ = 404.330,69 BSQX = 3.009,6010 2 BS = 334,4001 Y = d = - 36,38 Y∑ = 363,80 2 Y∑ = 17.973,30 SQY = 4.738,26 2 YS = 526,473 A última coluna representa as diferenças (XA – XB) = Y = d entre os pares de parcelas do mesmo bloco, não tratadas (XA) e tratadas (XB). Na parte inferior encontram-se os elementos necessários para cálculo das variâncias das três variáveis. Para verificar a hipótese de que a diferença média entre parcelas tratadas e não tratadas é nula, isto é, H0: d = 0, pela técnica de dados emparelhados, calculamos pela fórmula:
  • 16. 16 tcalc = d d σ = n Sy d 2 0− = 10 473,526 38,36 = 2558,7 38,36− = - 5,014 As 10 diferenças (d) analisadas constituem uma amostra de uma população que consiste de um número infinito de potenciais diferenças caso o experimento seja repetido infinitamente. Se houver razão para admitir que o bactericida tanto pode aumentar como reduzir a produção, o teste deve ser bilateral. Caso contrário, o teste será unilateral. Para α = 0,05, 9 graus de liberdade e teste bilateral, a região crítica ou de rejeição de H0 será tcalc <<<< -2,262 e tcalc >>>> 2,262. Para um teste unilateral, a região crítica será tcalc >>>> 1,833. No exemplo, tcalc = - 5,014 e a conclusão será a mesma tanto para o teste uni como bilateral, ou seja, rejeita-se H0.
  • 17. 17 ANÁLISE DE VARIÂNCIA E TRANSFORMAÇÃO DE DADOS 1. INTRODUÇÃO Nas diferentes áreas da ciência onde a experimentação é ativamente empregada para a obtenção de dados e desenvolvimento de novos conhecimentos, o uso de técnicas matemáticas para mensurar os resultados obtidos se faz freqüente e amplamente empregada pelos pesquisadores. Tais técnicas permitem inferir, sempre trabalhando com probabilidade, conclusões sobre experimentos conduzidos. A maioria dos testes estatísticos paramétricos utilizados em Fitopatologia requer como premissa básica que os dados a serem analisados tenham distribuição Normal (Fig. 1), pois tais testes foram desenvolvidos neste principio. A análise de variância também não foge a essa regra. No entanto, quando se lida com seres vivos, a natureza biológica dos fenômenos envolvidos num experimento muito além de uma perfeita adequação a modelos matemáticos, originados de uma ciência exata. Dessa forma nem sempre os dados obtidos se encontram na forma mais adequada para análises paramétricas mais freqüentemente empregadas, podendo gerar interpretações errôneas dos resultados. Figura 1. Curva de distribuição Normal dos dados. A adequação dos dados para que seja possível o emprego de métodos paramétricos de análise, pode se constituir em ferramenta útil desde que bem feita. Cabe ressaltar que não se faz transformação de dados para obtenção de resultados desejados, muito pelo contrário, a transformação de dados é efetuada para adequá-los a métodos estatísticos, até certo ponto livres da imparcialidade humana que possibilitem a "enxergar" pequenas diferenças de grande importância. 2. ANÁLISE DE VARIÂNCIA A análise de variância (ANOVA) consiste na decomposição da variação total de um material heterogêneo em parte atribuída a causas conhecidas e independentes (tratamentos), e uma porção residual de origem desconhecida e de natureza aleatória (erro experimental). Como exemplo, vamos supor que desejamos comparar o nível de resistência de algumas cultivares de repolho com relação à alternariose. Assim, os tratamentos correspondem às cultivares, que serão inoculadas com conídios de Alternaria brassicicola. Para tanto, deve-se estimar a parte da variância populacional independente dos tratamentos, isto é, aquela variância devida ao erro experimental, causada pela desuniformidade da inoculação, pelos diferentes tipos de folhas inoculados, pela diferente quantidade de conídios que irão cair em cada folha, etc.; e aquela variância devido ao efeito da cultivar, pelo seu nível de resistência. Após isso, ambas as estimativas são comparadas e, se forem significativamente diferentes, deduz-se que as cultivares de repolho apresentam diferenças quanto à resistência à alternariose. Finalmente, aplica-se um teste de comparação de médias e conclui-se qual é mais resistente. O objetivo da análise de variância é determinar se existe ou não diferença entre médias de três ou mais grupos (tratamentos).
  • 18. 18 2.1. Pressuposições básicas da análise de variância Para a realização da análise de variância, algumas pressuposições devem ser consideradas: • Aditividade dos efeitos dos tratamentos e dos efeitos dos erros; • Independência de todos os erros experimentais; • Normalidade da distribuição dos dados; • Homogeneidade da variância dos erros experimentais. 2.1.1. Aditividade do modelo Os efeitos de tratamento mais efeitos de ambiente (erro) devem ser aditivos, ou seja, se somarem, sendo que para cada delineamento existe um modelo matemático, denominado modelo linear aditivo. Para o delineamento inteiramente casualizado, o modelo é Xij = mˆ + ti + eij, onde expressa que o valor de qualquer unidade experimental (Yij) é resultante de uma média geral ( mˆ ), mais um efeito de tratamento (ti) e mais um efeito do erro experimental (eij). O modelo correspondente ao delineamento em blocos casualizados é Xij = mˆ + ti + bj + eij, onde o valor de qualquer unidade experimental (Yij) é resultante de uma média geral ( mˆ ), mais um efeito de tratamentos (ti), mais um efeito de blocos (bj) e mais um efeito do erro experimental (eij). Como exemplo de aditividade, no delineamento em blocos casualizados, o modelo implica que um efeito de tratamento é o mesmo para todos os blocos e que o efeito de bloco é o mesmo para todos os tratamentos. Caso isso não se verifique, torna-se necessária a transformação dos dados experimentais para ajustá-los ao modelo aditivo. Se existe interação entre os termos, isto é, não aditividade, o teste F não será eficiente em discriminar efeitos de tratamentos. Essas interações podem ser devidas a diversos fatores, por exemplo, sinergismo/interferência, em que quando se inclui uma planta com algum problema fisiológico num experimento de perdas causadas por doença, o efeito dessa inclusão pode ser multiplicativo ao invés de interativo. Da mesma forma, se em determinado experimento de controle químico existe parcela com material "indevidamente" resistente à doença em estudo, os efeitos dos piores produtos podem ser alterados de maneira multiplicativa, resultando em interpretações errôneas. 2.1.2. Independência dos erros Implica que não existe relação entre o tamanho dos erros e a unidade experimental à qual eles pertencem. A probabilidade de que o erro de uma observação qualquer tenha um determinado valor não deve depender dos valores dos erros de outras observações. Parcelas adjacentes tendem a estar mais relacionadas que parcelas distribuídas aleatoriamente. Este é o principal motivo para não considerarmos como sub-parcelas, ou repetições, a pura divisão da parcela, sem casualização. A independência dos erros é assegurada pelo principio da casualização. Se os erros não são independentes, a validade do teste de F pode ser prejudicada. Não há um ajuste ou transformação simples para superar a não independência dos erros. A solução para se evitar tal problema está numa completa casualização do experimento. 2.1.3. Normalidade na distribuição dos dados Os erros experimentais devem apresentar distribuição Normal, significando que deve haver uma grande freqüência de erros de pequena magnitude e uma pequena freqüência de erros de grande magnitude, em valores absolutos. A ausência de normalidade dos erros não é tão importante para a análise de variância, porém, quando transformações não são suficientes para trazê-los à normalidade, devem ser empregados testes não-paramétricos. Para se testar a normalidade da distribuição dos erros existem vários testes, como Lilliefors, Kolmogorov-Smirnov e Shapiro-Wilk. O teste de Shapiro-Wilk é um dos mais indicados, podendo ser utilizado tanto para amostras pequenas quanto para amostras maiores. Quando a amostra é muito pequena (n = 10), todos os testes apresentam limitações, mas o teste de Shapiro-Wilk tem desempenho superior aos demais. Para amostras grandes, o teste de Shapiro-Wilk tem performance superior ao teste de Lilliefors, que supera o teste de Kolmogorov-Smirnov. O teste de Shapiro-Wilk se baseia na distância observada entre valores simetricamente posicionados, assumindo que o tamanho da amostra é n os valores sucessivos x1, x2, ..., xn, foram preliminarmente sorteados por valores crescentes: x1 ≤ x2 ≤ .... ≤ xn.
  • 19. 19 A distância dos valores posicionados simetricamente, em torno da média, é mensurada por: (xn – i +1 − xi ), for i = 1, 2, ..., k, onde k = (n + 1)/2. A estatística W é a base do teste, obtida por: Os valores críticos de probabilidade (P) da estatística W são calculados, sendo as hipóteses testadas: Ho = os dados apresentam distribuição normal Ha = os dados não apresentam distribuição normal. Aceita-se a hipótese de nulidade que os dados são normalmente distribuídos quando o valor de probabilidade (P) é maior que 0,05 (P > 0,05) 2.1.4. Homogeneidade de variâncias Essa pressuposição refere-se ao fato de que os erros (eij) devem ter igual variância (ou variâncias homogêneas) em todos os tratamentos considerados. Como exemplo, num experimento de controle químico de determinada doença, a testemunha pode apresentar maior variabilidade do que os tratamentos, considerando porcentagem de folhas doentes. Assim, a testemunha poderá apresentar resultados como 84%, 67%, 45%, 92% e 78%, enquanto um tratamento apresentar valores de 4%, 1%, 2%, 3% e 0%. É muito provável, nestas condições, que as médias e variâncias estejam correlacionadas entre si, ou seja, média alta e variância alta, ou média baixa e variância baixa. Esta relação entre médias das amostras e suas variâncias é o caso mais comum de heterogeneidade da variância. Outros tipos de dados que geralmente apresentam uma relação entre variância e médias são baseados em contagens e dados de porcentagem e proporção. A maioria dos testes estatísticos requer homogeneidade de variância para que as respostas sejam confiáveis. A homogeneidade de variância é importante porque, sendo o Quadrado Médio do Resíduo (QMR) o termo usado para comparação na análise de variância, haverá perda de eficiência nas estimativas dos efeitos de tratamentos e perda de sensibilidade dos testes de significância se ele for obtido a partir de variâncias diferentes de tratamentos ou grupos de tratamentos. Isso porque o QMR nada mais é que uma média das variâncias dentro de tratamentos ou dentro de grupos de tratamentos. Essas perdas serão tanto maiores quanto mais discrepantes forem as variâncias que compõem o QMR. As comparações entre tratamentos, feitas por testes que utilizam o QMR, estarão distorcidas pois: Tukey → r/QMRq=∆ ; Duncam → r/QMRz=∆ ; LSD → r/QMRt=∆ . Para testar a homogeneidade da variância dos erros existem vários testes, como de Cochran, Bartlett, F máximo de Hartley, Levene e Brown & Forsythe. O teste de Levene é um dos mais poderosos e utilizados para testar a homogeneidade da variância dos erros, enquanto o teste de Brown & Forsythe é uma modificação do teste de Levenne. Se o teste de Levene é significante estatisticamente (P≤0,05), a hipótese de homogeneidade das variâncias é rejeitada. Portanto, existe homogeneidade nas variâncias se P>>>>0,05.
  • 20. 20 2.2. Decomposição da variância total Para demonstrar como é desdobrada a variação total, medida em termos de variância, consideremos um caso geral em que se tem n linhas e k colunas de dados, sendo que as linhas representam as repetições e as colunas, os tratamentos. Suponhamos, ainda, que se deseja testar a hipótese de que as médias das populações das colunas sejam iguais. Assim: X11 X12 ... X1J ... X1K i = 1,2, ... n X21 X22 ... X2J ... X2K j = 1, 2 ... k . . . . . . . . . . . . ∑= = k 1j jTG Xi1 Xi2 ... X1j ... X1k . . . . . . . . . . . . Xn1 Xn2 ... Xnj ... Xnk nk G x = - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - Totais T1 T2 ..... Tj ..... Tk Médias 1x 2x jx kx Na tabela anterior, Xij indica a iésima medida da coluna de orden j. A média das colunas de ordem j é indicada pelo símbolo jx . Coloca-se um ponto na frente do j para indicar que a média foi obtida somando no índice i (linhas). G representa a soma de todos os dados e a média geral x . Quando na análise é considerado apenas um único critério, representado pelos efeitos dos vários tratamentos, é denominada “análise de variância segundo um único critério”, ou também “análise de variância de experimentos inteiramente casualizados”. A seguir são apresentados os passos para esse tipo de análise 2.3. Passos da análise de variância segundo um único critério a) Calcular o fator de correção (FC) nk G FC 2 = , sendo G o total geral de todas as observações b) Calcular a soma de quadrados total (SQtotal) FCxSQ 2 total −∑= , sendo∑ 2 x o somatório dos quadrados de todas as observações
  • 21. 21 c) Calcular a soma dos quadrados dos tratamentos (SQ1) FC n t SQ −= ∑ 2 1 , em que ∑ 2 t é o somatório dos quadrados de vários tratamentos e n é o numero de repetições. Essa última fórmula pode ser empregada quando o número de repetições é o mesmo em todos os tratamentos. No caso em que os tratamentos apresentam um número diferente de repetições, a fórmula a ser empregada será: .FC n T ... n T n T SQ k 2 k 2 2 2 1 2 1 1 −+++= Isto é, deveremos elevar ao quadrado o total de cada tratamento e dividir o resultado pelo número correspondente de repetições, antes de realizarmos a soma. d) Calcular a soma dos quadrados dentro dos tratamentos (SQ2) SQ2 = SQtotal – SQ1 e) Calcular a variância do efeito dos tratamentos 1k SQ QM 1 1 − = , que pode ser efetuado diretamente na tabela. f) Calcular a variância do resíduo )1n(k SQ QM 2 2 − = , que pode também ser efetuado diretamente na tabela g) Calcular o valor de F Obtido da razão entre duas variâncias: 2 1 QM QM F = O teste F é feito com o objetivo de aceitar ou rejeitar a hipótese de nulidade (Ho), que deve sempre ser feita inicialmente: Ho = T1 = T2 = ... = Tk (os efeitos dos tratamentos são iguais). O valor calculado de F é comparado com o valor da tabela (a 1% ou 5% de nível de probabilidade), para (k-1) e k(n-1) graus de liberdade. A tabela usada é de dupla entrada, e, que se leva em consideração GL entre tratamentos e dentro de tratamentos. No caso em que o valor de Fcalculado ser igual ou maior que o Ftabelado, rejeita-se a hipótese Ho, concluindo-se que existe pelo menos um tratamento que difere dos demais. Se Fcalculado for menor que Ftabelado, aceita-se Ho, podendo afirmar que não existe uma diferença significativa entre os vários tratamentos. h) Quadro da análise de variância O quadro de análise de variância representa o sumário de todos os procedimentos a serem adotados para aceitação ou rejeição da hipótese de nulidade (Ho), sendo composta, na análise de variância segundo um único critério, por:
  • 22. 22 Quadro da análise de variância segundo um único critério Causa de variação Graus de liberdade (GL) Soma dos quadrados (SQ) Quadrado médio (QM) F calculado Entre tratamentos k-1 FC n t SQ −= ∑ 2 1 1k SQ QM 1 1 − = 2 1 QM QM F = Dentro de tratamentos (erro) k(n-1) SQ2 = SQtotal – SQ1 )1( 2 2 − = nk SQ QM Total kn-1 SQtotal 2.4. Exemplo de aplicação da análise de variância Os dados da tabela abaixo se referem à incidência (%) de determinada doença radicular em quatro cultivares de feijoeiro. Repetição Cultivar A Cultivar B Cultivar C Cultivar D 1 40 29 11 17 2 24 27 21 31 3 46 20 17 28 4 20 39 37 33 5 35 45 39 21 Total (t) 165 160 125 130 Total geral (G) = 580 Questionamento: Será que existe alguma diferença significativa na incidência da doença radicular entre as cultivares de feijoeiro? Análise de Variância Hipótese ... Ho: TA = TB = TC = TD ∝ = 0,05 n = 5 k = 4 kn = 20 G = 580 FC = 5802 /20 = 16.820 SQtotal = (402 + 242 + ... + 212 ) – 16.820 = 18.738 – 16.820 = 1.918 SQ1 = [(1602 + 1652 + 1252 + 1302 )/5] – 16.820 = 17.070 – 16.820 = 250 SQ2 = 1.918 – 250 = 1.688 QM1 = 250/(4-1) = 250/3 = 83 QM2 = 1.688/16 = 105 Fcalculado = 83/105 = 0,80
  • 23. 23 Quadro da Análise de Variância (ANOVA) Fonte de variação GL SQ QM F Entre tratamentos (cultivares) 3 250 83 0,80 Dentro de tratamentos (erro) 16 1.688 105 Total 19 1.918 Ftabelado = F(0,05; 3,16) = 3,24 Fcalculado (0,80) < Ftabelado (3,24) Conclusão: aceita-se Ho, ou seja, não existe diferença significativa entre os vários tratamentos (as cultivares se comportam de modo similar) 3. TRANSFORMAÇÃO DE DADOS Nem sempre as pressuposições para análise de variância são atendidas e os métodos utilizados para sanar essas falhas são: omissão de determinada parte do experimento, subdivisão da variância residual e transformação de dados para uma outra escala antes da análise de variância. Variância constante, homocedasticidade, não é a única condição necessária para tornar a análise de variância válida. Porém, na maioria das vezes quando se procede à transformação de dados para resolver o problema da heterocedasticidade, resolve-se também problemas de normalidade e aditividade, desde que a transformação escolhida seja adequada. Os objetivos da transformação de dados são: • Obter variâncias dos erros mais homogêneas • Melhorar a aditividade • Gerar uma distribuição de erros mais próxima à distribuição Normal Uma transformação de dados adequada é aquela que: • A variável transformada não é afetada por mudanças do valor médio • A variável transformada se toma normalmente distribuída • A média aritmética dos valores transformados estima imparcialmente a média verdadeira • A escala de transformação é tal que os efeitos reais são lineares e aditivos. A escolha da transformação a ser utilizada é de extrema importância e muitas vezes difícil de ser feita, motivo pelo qual se utiliza o método de tentativas e acertos. O ideal é conhecer a forma matemática da distribuição de freqüência dos erros. Entretanto, na prática isto não é feito por não se conhecer a distribuição não-normal dos erros. Para todo e qualquer caso em que se emprega transformação dos dados, os testes de médias devem ser realizados em dados transformados e na apresentação dos resultados podem ser apresentados dados transformados ou não transformados. No caso da utilização de dados não transformados, podem ser utilizados os dados originais ou efetuada a de-transformação de maneira adequada para cada tipo de transformação utilizada, sendo que nesse caso pode não resultar exatamente no dado original. 3.1. Transformação raiz quadrada de x ( x ) Quando os dados são contagens, como número de colônias fúngicas e/ou bacterianas numa placa, número de juvenis de nematóides, número de plantas doentes e outros, a freqüência de distribuição destes dados tende a ser do tipo Poisson, em detrimento á distribuição Normal. A distribuição de Poisson é caracterizada por possuir variância igual á média (σ2 = µ2), portanto, a média e a variância não são independentes, e quanto maior a média maior a variância e vice-versa. A transformação x geralmente faz com que as variâncias se tornem independentes da média, sendo que o efeito marcante dessa transformação é aumentar a precisão nas medidas de diferenças entre médias pequenas. Isto é interessante em experimentos de controle de doença, em que não estamos tão interessados em diferenças entre tratamentos ineficientes (altos valores de doença; médias altas), como estamos em tratamentos que possibilitem bom controle (menores médias). Se existem valores
  • 24. 24 iguais a zero (x = 0) deve-se acrescentar + 0,5 ou 1,0 para que se possa extrair a raiz quadrada, ou seja, 5,0x + ou 1x + . Dados de porcentagens, referentes à contagens, quando variam de 0 a 20% ou de 80 a 100%, podem ser transformados através de raiz quadrada. Nesse caso, as porcentagens entre 80 e 100% devem ser, de preferência, subtraídas de 100 antes da transformação. 3.2. Transformação angular ou arcsen 100/P Alguns tipos de dados podem necessitar de transformação angular, principalmente aqueles expressos em porcentagem ou proporção da amostra total. Em Fitopatologia, avaliações envolvendo medidas em porcentagem são constantes, principalmente em experimentos de intensidade de doença, em que se mede incidência (porcentagem de plantas doentes) e/ou severidade (porcentagem de área doente). Normalmente, este tipo de dado tem distribuição binomial, sendo esta caracterizada por haver relacionamento entre a variância e a média. Nesse tipo de distribuição, as variâncias tendem a ser menores nas extremidades da faixa de valores (próximo a 0 e a 100 %) e tendem a ser grandes nos valores intermediários (ao redor de 50%). Para esse tipo de dado, a transformação angular ou Arcsen 100/P ajusta os dados de modo a se obter homogeneidade de variância, normalidade e aditividade do modelo. Quando, porém, todo os dados estiverem na faixa entre 30 a 70 %, não é necessário efetuar a transformação. 3.3. Transformação logarítmica A transformação logarítmica pode ser eficiente quando a variância é proporcional ao quadrado da média (ou desvio padrão proporcional à média) e/ou quando os efeitos são multiplicativos ao invés de serem aditivos. Essa transformação é satisfatória quando os dados se referem à contagem de bactérias, de esporos fúngicos, podendo ser utilizada também quando os dados são apresentados por porcentagens que abrangem uma grande amplitude de variação. Tanto logaritmo decimal quando natural pode ser empregado, o mais comum é o decimal. Normalmente, observa-se que, nos casos em que as variâncias são proporcionais às médias, maiores médias geram maiores variâncias e vice-versa e o coeficiente de variação é constante de tratamento para tratamento. Aplicando-se a transformação logarítmica este efeito é corrigido. Algumas considerações em relação à transformação logarítmica devem ser observadas: • Quando os números são negativos, essa transformação não deve ser empregada. • Quando os valores são iguais a zero, deve ser somado + 1 a todos s dados antes da transformação [log ( x + 1 )]. Porém, quando o número de dados iguais a zero é grande, essa transformação não deve ser utilizada. • Quando os valores são entre 0 e 1, os dados devem ser multiplicados por 10 ou 1000 para evitar valores negativos de logaritmo. • Dados de crescimento de organismos normalmente requerem transformações logarítmicas para serem analisados.
  • 25. 25 TESTES DE COMPARAÇÃO MÚLTIPLA DE MÉDIAS 1. INTRODUÇÃO Feita a análise de variância, se o valor de F para os tratamentos não for significativo, aceitaremos a hipótese de nulidade (H0) e usualmente não fazemos a comparação entre os tratamentos. No entanto, quando a hipótese de nulidade é rejeitada, sabemos que existe diferença entre os tratamentos, mas não sabemos entre quais tratamentos existem diferenças. Isto é possível por um teste suplementar sobre as médias. Existem vários testes de comparação múltipla de médias, mas serão abordados somente três, os mais utilizados em Fitopatologia: Diferença Mínima Significativa (DMS), Teste de Duncan e Teste de Tukey. 2. TESTE DA DIFERENÇA MÍNIMA SIGNIFICATIVA – DMS (ou LSD) O teste DMS de Fisher (ou LSD, em inglês) é muito empregado para comparação de médias. O DMS é, basicamente, um intervalo de confiança para a diferença entre duas médias. É calculado por: n QM GLtDMS res 2)(α= onde: )(GLtα = valor na tabela de t ao nível de significância ∝ para o GL do resíduo do experimento. QMres = quadrado médio do resíduo n = número de observações por tratamento. No caso do experimento apresentar diferente número de repetições para os tratamentos, deve- se empregar a fórmula: 21 21 )( )( nn nnQM GLtDMS res + = α onde n1 e n2 correspondem ao número de repetições dos dois tratamentos que estão sendo comparados. Qualquer diferença entre duas médias maior que o DMS calculado, é considerado significante ao nível ∝ especificado. Exemplo: Em um experimento com 6 fungicidas (A-F), temos as seguintes médias de crescimento fúngico. 75,41=Ax 00,51=Bx 25,58=Cx 00,30=Dx 00,33=Ex 50,45=Fx Além disso, temos: n = 4 GL. Resíduo = 15 QMres = 28,18 t(15)5% = 2,13
  • 26. 26 4 18,28 213,2=DMS 09,1413,2=DMS 376.13,2=DMS 01,8=DMS 25,9]00,5175,41[][ =−=− BA xx 50,16]25,5875,41[][ =−=− CA xx 75,11]00,3075,41[][ =−=− DA xx 75,8]00,3375,41[][ =−=− EA xx 75,3]00,4575,41[][ =−=− FA xx 25,7]25,5800,51[][ =−=− CB xx 00,21]00,3000,51[][ =−=− DB xx 00,18]00,3300,51[][ =−=− EB xx 50,5]50,4500,51[][ =−=− FB xx 25,28]00,3025,58[][ =−=− DC xx 25,25]00,3325,58[][ =−=− EC xx 75,12]50,4525,58[][ =−=− FC xx 00,3]00,3300,30[][ =−=− ED xx 50,15]50,4500,30[][ =−=− FD xx 50,12]50,4500,33[][ =−=− FE xx Todas as diferenças entre as médias que forem maior do que o DMS = 8,01 são significativas. No caso, não são significativas as seguintes diferenças: 75,3][ =− FA xx 25,7][ =− CB xx 50,5][ =− FB xx 00,3][ =− ED xx Os resultados podem ser apresentados da seguinte forma: Fungicida Crescimento fúngico (média) C 58,25 a* B 51,00 ab F 45,50 b A 41,75 b E 33,00 c D 30,00 c *Médias seguidas pela mesma letra não diferem significativamente entre si pelo teste de DMS (P=0,05). 3. TESTE DE DUNCAN O teste de Duncan difere do DMS porque aqui se calcula uma amplitude mínima significativa, que é variável para uma mesma série de comparações, aumentando seu valor em comparações consecutivas. O teste de Duncan é calculado por:
  • 27. 27 n QM KtAMS res GL α)(= O fator KtAMS GL α)(= é chamado amplitude studentizada, que chamaremos de z e nos é dado por uma tabela. Para sabermos o número de médias abrangidas, dispomos em ordem decrescente – (A B C D E ...); uma comparação entre B e C, por exemplo, abrange 2 médias; já uma comprovação entre A e D abrange 4 médias. Assim, devemos calcular vários AMS ou, mais precisamente, quantas médias houver menos 1. Para simplificar, usaremos a fórmula: n QM zAMS res = Os valores de QMres e n são achados da mesma forma que para o DMS. As tabelas de z (uma para ∝ = 0,05 e outra para ∝ = 0,01) são de dupla entrada: na horizontal, número de médias abrangidas pelo contraste; na vertical, GL do resíduo. Exemplo: Considerando o mesmo conjunto de dados anterior (DMS) teremos. 75,41=Ax 00,51=Bx 25,58=Cx 00,30=Dx 00,33=Ex 50,45=Fx Dispondo em ordem decrescente, temos: C ..... 58,25 B ..... 51,00 F ..... 45,50 A ..... 41,75 E ..... 33,00 D ..... 30,00 Considerando os dados da Análise de Variância, teremos: 66,2 4 18,282 === n s n QMres Então, os diversos valores de ztabelado com ∝ = 0,05 são: Z6 = 3,36 Z5 = 3,31 Z4 = 3,25 Z3 = 3,16 Z2 = 3,01 - Para 6 médias: AMS6 = 3,36 x 2,66 = 8,94 - Para 5 médias: AMS5 = 3,31 x 2,66 = 8,80 - Para 4 médias: AMS4 = 3,25 x 2,66 = 8,64 - Para 3 médias: AMS3 = 3,16 x 2,66 = 8,41 - Para 2 médias: AMS2 = 3,01 x 2,66 = 8,01 Sempre se inicia pelo teste das médias mais afastadas, pois se a diferença entre elas não for significativa, torna-se desnecessário testar as demais. 25,28][ =− DC xx 25,25][ =− EC xx 50,16][ =− AC xx 75,12][ =− FC xx
  • 28. 28 25,7][ =− BC xx 00,21][ =− DB xx 00,18][ =− EB xx 25,9][ =− AB xx 50,5][ =− FB xx 50,5][ =− DF xx 50,12][ =− EF xx 75,3][ =− AF xx 75,11][ =− DA xx 75,8][ =− EA xx 00,3][ =− DE xx No caso que acabamos de ver, os resultados podem ser apresentados da seguinte forma: Fungicida Crescimento fúngico (média) C 58,25 a* B 51,00 ab F 45,50 b A 41,75 b E 33,00 c D 30,00 c *Médias seguidas pela mesma letra não diferem significativamente entre si pelo teste de Duncan (P=0,05). 4. TESTE DE TUKEY No desenvolvimento de testes de múltiplas comparações, um problema que surge é que, em experimentos onde se tornam necessárias muitas comparações de tratamentos, quase sempre declaramos como significativas algumas diferenças entre médias que na verdade pertencem a um grupo homogêneo. Isso tem levado os pesquisadores a procurar tipos de testes que contornem ou minimizem esse problema. O teste de Tukey é um desses testes. Esse teste serve para qualquer contraste entre duas médias de tratamentos. É efetuado computando-se a diferença ∆ e então se comparando com as k(k-1)/2 diferenças possíveis de um experimento. Começa-se por calcular: n QM q res =∆ , onde: q = amplitude total studentizada. Valor determinado numa tabela de duas entradas: GL do resíduo e k (número de tratamentos). O teste de Tukey é extremamente fácil de ser aplicado, pois requer um simples valor para julgar a significância de todas as diferenças. Todo e qualquer contraste entre duas médias que exceder o valor ∆ calculado é significativo ao nível de significância estipulado. O teste de Tukey, preferencialmente, deve ser utilizado quando o número de observações por tratamento (repetições) for o mesmo para todos os tratamentos. No caso de serem diferentes, as comparações podem ser feitas pela fórmula:
  • 29. 29 resQM nn q ) 11 ( 2 1 21 +=∆ Todavia, nesse caso, os resultados são apenas aproximados, devendo ser encarados com reserva. Exemplo: Os resultados de um experimento apresentaram o seguinte quadro de análise de variância: F.V. GL SQ QM F Tratamentos 3 1.636,5 545,5 5,41 Resíduo 20 2.018,8 100,9 Total 23 3.655,3 Com as seguintes médias por tratamento: 1721 =x 1852 =x 1763 =x 1624 =x n = 6 Então: 2,161,496,3 6 9,100 96,3 ===∆ x 13][ 21 =− xx 4][ 31 =− xx 10][ 41 =− xx 9][ 32 =− xx 23][ 42 =− xx 14][ 43 =− xx Dos seis contrastes existentes, somente 23][ 42 =− xx excede 16,2, sendo portanto, a única diferença estatística significativa ao nível estipulado. Os resultados podem ser apresentados da seguinte forma: Tratamento Média 2 185 a 3 176 ab 1 172 ab 4 162 b *Médias seguidas pela mesma letra não diferem significativamente entre si pelo teste de Tukey (P=0,05). Pode ocorrer que o teste F seja significativo e não detecte pelo teste de Tukey nenhuma diferença significativa entre as médias dos tratamentos. Isso ocorre em virtude do rigor desse teste, bem como pelo fato da utilização de um único valor para julgar todas as comparações possíveis entre as médias.
  • 30. 30 DELINEAMENTOS EXPERIMENTAIS 1. DELINEAMENTO INTEIRAMENTE CASUALIZADO Descrição do problema: Um micologista tem como objetivo analisar a influência de quatro fungicidas (A, B, C, D) no crescimento micelial de um fungo, em condições de câmara de crescimento. Questionamentos: 1. Qual a unidade amostral ? 2. Qual a variável em análise e a forma como será medida ? 3. Quais os tratamentos em comparação ? 4. Quantas repetições serão utilizadas para cada tratamento ? 5. Como os tratamentos e as repetições serão distribuídos ? 6. Qual o esquema do quadro da análise de variância (ANOVA) ? 7. Execute a análise de variância dos dados disponíveis. 8. Se pertinente, efetue a comparação de médias pelo teste de Duncan (P=0,05). Respostas: 1. Uma placa de Petri. 2. Diâmetro do crescimento micelial, pela mensuração do crescimento em dois sentidos diametralmente opostos em cada placa. Posteriormente, cálculo da porcentagem de inibição do crescimento micelial (ICM), pela fórmula: ICM = [(Tratamento – Testemunha)/Testemunha] x 100 3. Fungicidas A, B, C e D + Testemunha (T) (sem fungicida) 4. Cinco repetições, sendo cada repetição representada por uma placa (unidade amostral) 5. Considerando que o ensaio será realizado em condições controladas, os tratamentos e as repetições serão sorteadas num delineamento inteiramente casualizado: A2 B2 C4 T2 A5 C1 D1 T1 B3 C3 D5 T3 A1 D3 A3 D2 C2 B1 T4 D4 B4 A4 T5 B5 C5 6. Quadro da análise de variância (ANOVA): Causa de variação Graus de liberdade (GL) Soma dos quadrados (SQ) Quadrado médio (QM) F calculado Entre tratamentos (T) t - 1 SQT QMT = SQT/GLT F = QMT/QMR Resíduo (Dentro tratamentos) (R) t . (r - 1) SQR QMR = SQR/GLR Total (To) (t . r) - 1 SQTo Onde: t = número de tratamentos; r = número de repetições por tratamento Dados: Tratamento Repetição / Inibição do crescimento micelial – ICM (%) 1 2 3 4 5 Fungicida A 25 27 31 26 14 Fungicida B 6 12 6 12 7 Fungicida C 83 71 62 59 79 Fungicida D 53 42 47 50 36
  • 31. 31 2. DELINEAMENTO EM BLOCOS AO ACASO Descrição do problema: Um micologista tem como objetivo analisar o comportamento de quatro cultivares de feijoeiro (E, F, G, H) em relação a determinada doença fúngica em condição de casa de vegetação. Questionamentos: 1. Qual a unidade amostral ? 2. Qual a variável em análise e a forma como será medida ? 3. Quais os tratamentos em comparação ? 4. Quantas repetições serão utilizadas para cada tratamento ? 5. Como os tratamentos e as repetições serão distribuídos ? 6. Qual o esquema do quadro da análise de variância (ANOVA) ? 7. Execute a análise de variância dos dados disponíveis. 8. Se pertinente, efetue a comparação de médias pelo teste de Duncan (P=0,05). Respostas: 1. Um vaso, com três plantas por vaso. 2. Severidade da doença (%), estimada nas três folhas mais velhas de cada planta com o auxílio de uma escala diagramática, obtendo-se a média por vaso. 3. Cultivares: E, F, G, H 4. Cinco repetições (blocos), sendo cada repetição representada por um vaso (unidade amostral) 5. Considerando que o ensaio será realizado em casa de vegetação sem condições controladas de fotoperíodo e temperatura, os tratamentos e as repetições serão distribuídos num delineamento em blocos ao acaso: Bloco 1 Bloco 2 Bloco 3 Bloco 4 Bloco 5 F1 G2 F3 E4 G5 E1 H2 E3 F4 E5 H1 F2 G3 G4 H5 G1 E2 H3 H4 F5 6. Quadro da análise de variância (ANOVA): Causa de variação Graus de liberdade (GL) Soma dos quadrados (SQ) Quadrado médio (QM) F calculado Entre tratamentos (T) t - 1 SQT QMT = SQT/GLT FT = QMT/QMR Entre blocos (B) b-1 SQB QMB = SQB/GLB FB = QMB/QMR Resíduo (Dentro tratamentos) (R) (t - 1) . (b - 1) SQR QMR = SQR/GLR Total (To) (t . b) - 1 SQTo Onde: t = número de tratamentos; b = número de blocos (repetições) por tratamento Dados: Tratamento Repetição / Severidade – SEV (%) 1 2 3 4 5 Cultivar E 11 5 10 4 7 Cultivar F 34 28 39 40 31 Cultivar G 63 71 82 69 53 Cultivar H 13 22 17 30 16
  • 32. 32 3. DELINEAMENTO INTEIRAMENTE CASUALIZADO EM ARRANJO FATORIAL COM 2 FATORES Descrição do problema: Um micologista tem como objetivo analisar a influência de quatro meios de cultura (Tratamentos I = A, B, C, D) e dois tipos de luz (Tratamentos II = X e Z) no crescimento micelial de um fungo, em condições de câmara de crescimento. Questionamentos: 1. Qual a unidade amostral ? 2. Qual a variável em análise e a forma como será medida ? 3. Quais os tratamentos em comparação ? 4. Quantas repetições serão utilizadas para cada tratamento ? 5. Como os tratamentos e as repetições serão distribuídos ? 6. Qual o esquema do quadro da análise de variância (ANOVA) ? 7. Execute a análise de variância dos dados disponíveis. 8. Se pertinente, efetue a comparação de médias pelo teste de Duncan (P=0,05). Respostas: 1. Uma placa de Petri. 2. Diâmetro do crescimento micelial, pela mensuração do crescimento em dois sentidos diametralmente opostos em cada placa. 3. Tratamentos I = Fungicidas (A, B, C e D) e Tratamentos II = tipos de luz (X e Z) 4. Quatro repetições, sendo cada repetição representada por uma placa 5. Considerando que o ensaio será realizado em condições controladas, os tratamentos e as repetições serão distribuídos num delineamento inteiramente casualizado, em arranjo fatorial: AX1 BZ1 CZ4 AZ3 BZ4 BX3 DX1 AX2 DZ2 BX2 AX3 DX2 CZ3 AZ1 BX1 CX2 AZ4 DX4 CX3 BZ3 DZ1 BZ2 DX3 DZ3 AX4 DZ4 BX4 AZ2 CX1 CZ2 CZ1 CX4 6. Quadro da análise de variância (ANOVA): Causa de variação Graus de liberdade (GL) Soma dos quadrados (SQ) Quadrado médio (QM) F calculado Entre tratamentos I (TI) tI - 1 SQTI QMTi = SQTI/GLTI FTI = QMTI/QMR Entre tratamentos II (TII) tII - 1 SQTII QMTiI = SQTII/GLTII FTII = QMTII/QMR Interação TI x TII (I) (tI - 1) (tII - 1) SQI QMI = SQI/GLI FI = QMI/QMR Tratamentos (Tr) t - 1 SQTR - Resíduo (Dentro tratamentos) (R) r - 1 SQR QMR = SQR/GLR Total (To) (t . r) - 1 SQTo Onde: t = número de tratamentos; r = número de repetições por tratamento Dados: Tratamentos I Tratamentos II Repetição / Crescimento micelial – CML (mm) (Meio de Cultura) (Tipo de Luz) 1 2 3 4 A X 22 18 33 25 Z 75 71 69 54 B X 29 23 24 31 Z 59 56 51 55 C X 44 36 39 41 Z 55 54 62 47 D X 66 54 56 57 Z 26 28 25 31
  • 33. 33 4. DELINEAMENTO INTEIRAMENTE CASUALIZADO EM ARRANJO FATORIAL COM 3 FATORES Descrição do problema: Um micologista tem como objetivo analisar a influência de quatro meios de cultura (Tratamentos I = A, B, C, D) e dois tipos de luz (Tratamentos II = X e Z) no crescimento micelial de três isolados de um fungo (Tratamentos 3 = L, S e U), em condições de câmara de crescimento. Questionamentos: 1. Qual a unidade amostral ? 2. Qual a variável em análise e a forma como será medida ? 3. Quais os tratamentos em comparação ? 4. Quantas repetições serão utilizadas para cada tratamento ? 5. Como os tratamentos e as repetições serão distribuídos ? 6. Qual o esquema do quadro da análise de variância (ANOVA) ? 7. Execute a análise de variância dos dados disponíveis. 8. Se pertinente, efetue a comparação de médias pelo teste de Duncan (P=0,05). Respostas: 1. Uma placa de Petri. 2. Diâmetro do crescimento micelial, pela mensuração do crescimento em dois sentidos diametralmente opostos em cada placa. 3. Tratamentos I = Fungicidas (A, B, C e D), Tratamentos II = tipos de luz (X e Z) e Tratamentos III = isolados (L, S e U). 4. Quatro repetições, sendo cada repetição representada por uma placa 5. Considerando que o ensaio será realizado em condições controladas, os tratamentos e as repetições serão distribuídos num delineamento inteiramente casualizado, em arranjo fatorial: Obs: não está casualizado !!! AXL1 AXS1 AXU1 AZL1 AZS1 AZU1 AXL2 AXS2 AXU2 AZL2 AZS2 AZU2 AXL3 AXS3 AXU3 AZL3 AZS3 AZU3 AXL4 AXS4 AXU4 AZL4 AZS4 AZU4 BXL1 BXS1 BXU1 BZL1 BZS1 BZU1 BXL2 BXS2 BXU2 BZL2 BZS2 BZU2 BXL3 BXS3 BXU3 BZL3 BZS3 BZU3 BXL4 BXS4 BXU4 BZL4 BZS4 BZU4 CXL1 CXS1 CXU1 CZL1 CZS1 CZU1 CXL2 CXS2 CXU2 CZL2 CZS2 CZU2 CXL3 CXS3 CXU3 CZL3 CZS3 CZU3 CXL4 CXS4 CXU4 CZL4 CZS4 CZU4 DXL1 DXS1 DXU1 DZL1 DZS1 DZU1 DXL2 DXS2 DXU2 DZL2 DZS2 DZU2 DXL3 DXS3 DXU3 DZL3 DZS3 DZU3 DXL4 DXS4 DXU4 DZL4 DZS4 DZU4
  • 34. 34 6. Qual o esquema do quadro da análise de variância (ANOVA) ? Causa de variação Graus de liberdade (GL) Soma dos quadrados (SQ) Quadrado médio (QM) F calculado Entre tratamentos I tI - 1 SQ Tratamento I QMTI FI Entre tratamentos II tII - 1 SQ Tratamento II QMTII FII Entre tratamentos III tIII - 1 SQ Tratamento III QMTIII FIII Interação I x II (tI - 1) (tII - 1) SQ Interação (I x II) QMTI x II FI x II Interação I x III (tI - 1) (tIII - 1) SQ Interação (I x III) QMTI x III FI x III Interação II x III (tII - 1) . (tIII - 1) SQ Interação (II x III) QMTII x III FII x III Interação I x II x III (tI - 1) . (tII - 1) . (tIII - 1) SQ Interação (I x II x III) QMTI x II x III FI x II x III Tratamentos t - 1 SQ Tratamentos - Resíduo r -1 SQ Resíduo QMR Total (t . r) - 1 Onde: t = número de tratamentos r = número de repetições por tratamento Dados: Tratamentos I Tratamentos II Tratamentos III Repetição / Crescimento micelial – CML (mm) (Meio de Cultura) (Tipo de Luz) (Isolado) 1 2 3 4 L 18 23 32 15 X S 33 54 56 48 A U 8 16 19 27 L 15 23 21 22 Z S 7 9 12 14 U 34 67 56 49 L 67 56 45 51 X S 79 85 98 87 B U 58 51 67 59 L 93 87 91 78 Z S 55 34 46 39 U 77 78 89 91 L 33 23 34 29 X S 12 17 21 9 C U 21 37 18 29 L 8 17 21 19 Z S 36 45 54 32 U 21 28 31 39 L 11 13 29 21 X S 7 16 21 27 D U 14 17 21 32 L 32 37 41 44 Z S 23 31 41 30 U 19 16 11 17
  • 35. 35 5. DELINEAMENTO INTEIRAMENTE CASUALIZADO EM PARCELAS SUBDIVIDIDAS Descrição do problema: Um fitopatologista tem como objetivo comparar a severidade de uma doença em três níveis de adubação (A1, A2, A3) e dois espaçamentos (E1, E2), em canteiros similares. Questionamentos: 1. Qual a unidade amostral ? 2. Qual a variável em análise e a forma como será medida ? 3. Quais os tratamentos em comparação ? 4. Quantas repetições serão utilizadas para cada tratamento ? 5. Como os tratamentos e as repetições serão distribuídos ? 6. Qual o esquema do quadro da análise de variância (ANOVA) ? 7. Execute a análise de variância dos dados disponíveis. 8. Se pertinente, efetue a comparação de médias pelo teste de Duncan (P=0,05). Respostas: 1. Uma planta. 2. Severidade da doença em “n” folhas ou na planta inteira, estimada com escala diagramática, obtendo-se a média por canteiro. 3. Tratamentos Principais (P) = níveis de adubação (A1, A2, A3) e Tratamentos Secundários (S) = espaçamentos (E1, E2). 4. Quatro repetições, sendo cada repetição representada por um canteiro com “n” plantas. 5. Considerando que os canteiros são similares, os tratamentos e as repetições serão distribuídos num delineamento inteiramente casualizado, em parcela subdivididas: Procedimento de casualização: 1o = sorteio da distribuição dos níveis de adubação (A1, A2, A3) 2o = sorteio da distribuição dos espaçamentos (E1, E2) dentro dos níveis de adubação A1 A3 A3 E1 E2 E2 E1 E1 E2 A2 A3 A1 E2 E1 E1 E2 E2 E1 A1 A2 A1 E1 E2 E2 E1 E1 E2 A3 A2 A2 E2 E1 E1 E2 E2 E2 Dados: A1 A2 A3Repetição E1 E2 E1 E2 E1 E2 I 58 44 85 59 66 54 II 77 59 90 68 93 75 III 38 30 73 45 67 53 IV 52 34 77 55 64 48
  • 36. 36 6. DELINEAMENTO EM BLOCOS AO ACASO EM PARCELAS SUBDIVIDIDAS Descrição do problema: Um fitopatologista tem como objetivo comparar a severidade de uma doença em três níveis de adubação (A1, A2, A3) e dois espaçamentos (E1, E2), em canteiros que não são similares. Questionamentos: 1. Qual a unidade amostral ? 2. Qual a variável em análise e a forma como será medida ? 3. Quais os tratamentos em comparação ? 4. Quantas repetições serão utilizadas para cada tratamento ? 5. Como os tratamentos e as repetições serão distribuídos ? 6. Qual o esquema do quadro da análise de variância (ANOVA) ? 7. Execute a análise de variância dos dados disponíveis. 8. Se pertinente, efetue a comparação de médias pelo teste de Duncan (P=0,05). Respostas: 1. Uma planta. 2. Severidade da doença em “n” folhas ou na planta inteira, estimada com escala diagramática, obtendo-se a média por canteiro. 3. Tratamentos Principais (P) = níveis de adubação (A1, A2, A3) e Tratamentos Secundários (S) = espaçamentos (E1, E2). 4. Quatro repetições, sendo cada repetição representada por um canteiro com “n” plantas. 5. Considerando que os canteiros não são similares, os tratamentos e as repetições serão distribuídos num delineamento em blocos ao acaso, em parcela subdivididas: Procedimento de casualização: 1o = agrupamento dos canteiros similares, formando blocos 2o = sorteio da distribuição dos níveis de adubação (A1, A2, A3) 3o = sorteio da distribuição dos espaçamentos (E1, E2) dentro dos níveis de adubação A2 A1 A3 Bloco I E2 E1 E1 E2 E1 E2 A1 A3 A2 Bloco II E1 E2 E2 E1 E2 E1 A1 A3 A2 Bloco III E2 E1 E1 E2 E1 E2 A1 A3 A2 Bloco IV E1 E2 E2 E1 E2 E1 6. Quadro da análise de variância (ANOVA): Causa de variação Graus de liberdade (GL) Soma dos quadrados (SQ) Quadrado médio (QM) F calculado Entre tratamentos P tP - 1 SQ Tratamentos P QMTP FP Blocos tB - 1 SQ Blocos QMB FB Resíduo (a) (tp - 1) - ((tP - 1) + (tB - 1)) SQ Resíduo (a) QMRa Parcelas tp-1 SQ Parcelas Entre tratamentos S tS - 1 SQ Tratamentos S QMTS FS Interação P x S (tP - 1) x (tS - 1) SQ Interação P x S QMIPxS FPxS Resíduo (b) tT - (tp -1) - (tS - 1) - (tP - 1) . (tS - 1) SQ Resíduo (b) QMRB Total (t . r) - 1 SQ Total
  • 37. 37 Onde: tp = número de tratamentos na parcela principal tB = número de tratamentos na parcela secundária t = número total de tratamentos r = número de repetições por tratamento Dados: A1 A2 A3Bloco E1 E2 E1 E2 E1 E2 I 58 44 85 59 66 54 II 77 59 90 68 93 75 III 38 30 73 45 67 53 IV 52 34 77 55 64 48
  • 38. 38 CORRELAÇÃO LINEAR 1. INTRODUÇÃO Quando duas variáveis não podem ser consideradas uma independente e outra dependente, em função de ambas estarem sujeitas a erros experimentais, o emprego da análise de regressão não é satisfatório, sendo mais adequada a análise de correlação. A correlação determina o grau de relação entre duas variáveis. O coeficiente de correlação é um número puro, sem unidade ou dimensão, variando entre –1 e +1. Os valores –1 e +1 indicam o máximo de correlação (100%), em que o sinal (+ ou -) indica o sentido da correlação. Valores positivos indicam a tendência de uma variável aumentar quando a outra aumenta. Quando o coeficiente é negativo, valores altos de uma variável estão associados a valores baixos da outra. O valor 0 significa independência das variáveis, ou seja, não existe correlação. O coeficiente de correlação de Pearson (r) é o mais apropriado para variáveis aleatórias contínuas e pode ser obtido pela seguinte fórmula:         −         − − = ∑ ∑∑ ∑ ∑ ∑ ∑ n Y Y n X X n YX XY r 2 2 2 2 )()( )).(( em que X e Y representam os dados relativos às variáveis e n o número de observações. O valor de r é calculado com base nos n elementos de uma amostra, representando apenas uma estimativa do verdadeiro coeficiente de correlação populacional ρ. Para testar a significância da correlação, é considerada a seguinte hipótese de nulidade: H0: ρ = 0 vs. H1: ρ ≠ 0 A hipótese de nulidade ρ = 0 indica que X e Y não são relacionadas, enquanto a hipótese alternativa ρ ≠ 0 mostra que X e Y são relacionadas. Para testar a significância da correlação existem vários métodos, mas um dos mais utilizados é o teste t: 2 1 2 r n rt − − = O tcalculado será comparado ao ttabelado, a um nível de α de probabilidade, com (n-2) graus de liberdade. Se tcal ≥ ttab, rejeita-se Ho. Exemplo: Considerando-se n pares de observações referentes às variáveis X e Y: X 26 30 44 50 62 68 74 Y 92 85 78 81 54 51 40 Primeiramente, procede-se aos seguintes cálculos: ΣY = 481; ΣY2 = 35.451; ΣX = 354; ΣX2 =19.956 ; ΣXY = 22.200 Para calcular o coeficiente de correlação de Pearson (r), emprega-se a equação:         −         − − = ∑ ∑∑ ∑ ∑ ∑ ∑ n Y Y n X X n YX XY r 2 2 2 2 )()( )).(( =       −      − − 7 )481( 451.35 7 )354( 956.19 7 )481)(354( 200.22 22 = -0,9572
  • 39. 39 O teste t, para o coeficiente de correlação, considerando H0: ρ = 0 vs. H1: ρ ≠ 0, é: 2 1 2 r n rt − − = = 2 )9572,0(1 27 9572,0 −− − − = -7,398 Este valor absoluto de t (7,398) é comparado com o valor tabelado, no nível de significância desejado, por exemplo, 2,571 ao nível de 5% de probabilidade ou 4,032 ao nível de 1%. Uma vez que 7,398 excede ao valor de 4,032, conclui-se que há evidência suficiente de que a 1% ρ ≠ 0 e rejeita-se a hipótese de nulidade H0: ρ = 0.
  • 40. 40 REGRESSÃO LINEAR 1. INTRODUÇÃO A palavra regressão foi incorporada na linguagem estatística por Pearson, para designar a expressão de uma variável como função de uma ou mais variáveis. Uma regressão linear simples permite determinar, a partir de estimativas dos parâmetros, como uma variável independente (X) exerce, ou parece exercer, influência sobre outra variável (Y), chamada de variável dependente. A utilidade da regressão se apresenta quando o investigador questiona, por exemplo, a existência da associação entre a temperatura e a intensidade da doença, ou entre a intensidade da doença e as perdas de rendimento da cultura, ou seja, quer saber se as mudanças de uma variável provocam alterações na magnitude de outras. No decorrer dos trabalhos de experimentação em Fitopatologia, é comum encontrar as variáveis X e Y, com algum grau de relação entre si, de modo que o efeito de uma delas (X) exerce ação sobre a outra (Y) de certa forma mensurável. Por exemplo: a) O número de lesões causadas por um fungo (Y) depende da temperatura (X) em que as plantas se encontravam. b) O crescimento do micélio de um fungo (Y) depende da concentração (X) de um determinado aminoácido no meio de cultura. c) A produção de uma cultura (Y) depende da intensidade (X) da doença num determinado estádio de crescimento da planta. Portanto, X é a variável independente e Y a variável dependente ou resposta. Estas relações podem ser expressas por uma equação do 1º grau: Yi=a+bXi+ei (eq. 1) Esta equação expressa cada posição de Yi, em relação ao valor Xi, a qual é representada por urna série de pontos sobre um plano. Figura 1 - Representação gráfica de uma regressão linear simples. Esta relação poderá ser expressa da seguinte forma: o valor do iésimo Y, ou seja, Yi é igual ao valor do parâmetro a mais o valor do produto do parâmetro b vezes Xi,adicionando-se o valor do erro (ei). Os valores de b e de a são obtidos pelo método dos mínimos quadrados, que consiste em minimizar os quadrados dos desvios dos valores observados de Y, em relação às respectivas estimativas. Assim,
  • 41. 41 n )X( X n )Y).(X( XY bˆ 2 2 ∑ −∑ ∑ ∑ ∑ − = e XbˆYaˆ −= em que Y e X representam as médias dos dados relativos às variáveis Y e X, respectivamente, e n o número de observações 2. CARACTERÍSTICAS DO COEFICIENTE DE REGRESSÃO 1. b indica o numero de unidades que varia o Y, quando o X varia em uma unidade. 2. Se b é positivo, ao aumentar o valor de X, aumenta-se o de Y, e ao diminuir o de X, diminui-se o de Y. 3. Se b é negativo, ao aumentar o valor de X, diminui-se o de Y e vice-versa. 4. b é um estimador do parâmetro β da respectiva população. 5. b mede a declividade da linha de regressão. 6. Se b é positivo, a linha de regressão é ascendente da esquerda para a direita, e se negativo, descendente da esquerda para a direita. 3. SIGNIFICÂNCIA DA REGRESSÃO Para testar a significância da regressão, é considerada a seguinte hipótese de nulidade: H0: β = 0 vs. H1: β ≠ 0 A hipótese de nulidade β = 0 indica que Y não depende de X, enquanto a hipótese alternativa β ≠ 0 mostra que Y depende de X. Para testar a significância da regressão, procede-se aos seguintes cálculos das somas dos quadrados (SQ): SQ regressão = 2 2 2 n )X( X n )Y).(X( XY ∑ −∑       ∑ ∑ ∑ − SQ total = n )Y( Y 2 2 ∑ ∑ − SQ erro = SQ Total – SQ Regressão Para testar a significância do coeficiente de regressão (b), utiliza-se o teste t, considerando: t =         ∑ ∑ − n )X( X QMerro bˆ 2 2 em que QM erro (Quadrado Médio do Erro) = 2n SQerro −
  • 42. 42 Exemplo: Considerando-se n pares de observações referentes às variáveis X e Y: X 26 30 44 50 62 68 74 Y 92 85 78 81 54 51 40 Primeiramente, procede-se aos seguintes cálculos: ΣY = 481; ΣY2 = 35.451; ΣX = 354; ΣX2 =19.956 ; ΣXY = 22.200 Y = 7 481 = 68,7142 e 7 354 X = = 50,5714 Para estimar b, emprega-se a equação: n )X( X n )Y).(X( XY bˆ 2 2 ∑ −∑ ∑ ∑ ∑ − = = 7 )354( 956.19 7 )481)(354( 200.22 2 − − = -1,035 E para calcular a, emprega-se a equação: XbˆYaˆ −= = 68,7142 – (-1,035) x 50,5714 = 121,056 A equação estimada é: Yi= 121,056 - 1,035 Xi A análise de variância da regressão será: SQ regressão = 2 2 2 n )X( X n )Y).(X( XY ∑ −∑       ∑ ∑ ∑ − = [ ]2 7143,053.2 8571,124.2− = 2.198,464 SQ total = n )Y( Y 2 2 ∑ ∑ − = 35.451 =− 7 )481( 451.35 2 2.399,4286 SQ erro = SQ Total – SQ Regressão = 2.399,4286 – 2.198,464 = 200,9626 QM regressão = oGLregressã oSQregressã = 2.198,4644/1 = 2.198,4644 QM erro = GLerro SQerro = 200,9626/5 = 40,1925 Segue abaixo o quadro de análise de variância da regressão: Fonte de variação Graus de liberdade SQ QM F Regressão 1 (p-1) 2.198,4644 2.198,4655 54,698 Erro 5 (n-2) 200,9626 40,1925 Total 6 (n-1) 2.399,4286
  • 43. 43 O valor de F tabelado com 1 e 5 graus de liberdade (regressão e erro) e 1% de significância é 16,26. Portanto, o valor calculado de 54,69 excede ao valor tabelado, podendo-se concluir que a regressão é significativa ao nível de 1% de probabilidade. O teste t, para o coeficiente de regressão, considerando H0: β = 0 vs. H1: β ≠ 0, é: t =         ∑ ∑ − n )X( X QMerro bˆ 2 2 = 7143,053.2 1925,40 035,1− = 1399,0 035,1− = -7,398 Este valor absoluto de t (7,398) é comparado com o valor tabelado, no nível de significância desejado, por exemplo, 2,571 ao nível de 5% de probabilidade ou 4,032 ao nível de 1%. Uma vez que 7,398 excede ao valor de 4,032, conclui-se que há evidência suficiente de que a 1% β é diferente de 0, e rejeita-se a hipótese de nulidade H0: β = 0. É necessário calcular o coeficiente de determinação (R2 ) para investigar a adequabilidade da regressão como propósito de previsão. O R2 indica a proporção da variação de Y que é “explicada” pela regressão ou quanto a SQtotal está sendo “explicada” pela regressão ou quanto da variação na variável dependente Y está sendo explicada pela variável independente X: R2 = SQtotal oSQregressã = 42,399.2 46,198.2 = 0,9162 Esse resultado indica que 91,62% da variação das observações de Y é devida á regressão linear (ou devida á tendência linear das observações) e 8,38% é devida ao erro. Na equação Yi= 121,056 - 1,035 Xi, para estimar valores de Yi, dado um valor Xi, deve-se ter cuidado em não utilizar valores de Y estimados a partir de valores de X fora da faixa de estimação, isto é, fora dos limites para os quais a equação foi estimada ou seja, valores de X variando de 26 a 74. A teoria diz que a precisão dos valores estimados de Y decresce para os valores de X, que se distanciam da média X . y = 121,04 - 1,03 x R2 = 91,62% 0 20 40 60 80 100 20 30 40 50 60 70 80 X Y Figura 2 - Gráfico da regressão e equação estimadora.
  • 44. 44 -15 -12 -9 -6 -3 0 3 6 9 12 15 20 30 40 50 60 70 80 X Resíduos Figura 3 - Gráfico dos resíduos (valores reais – valores estimados pela regressão) 4. REGRESSÃO LINEAR MÚLTIPLA A regressão linear simples é muitas vezes inadequada para satisfazer ás exigências de uma investigação. Duas ou mais variáveis independentes podem estar relacionadas com uma variável dependente. Por exemplo, a severidade de doença numa planta pode estar relacionada com a temperatura e com a duração do molhamento na sua superfície foliar durante o período de infecção. Assim, o modelo linear, para duas variáveis independentes seria: 22110 XbˆXbˆbˆYˆ ++= (eq. 2) em que, 1bˆ e 2bˆ são coeficientes de regressão parcial, sendo estimadores do efeito linear das variáveis independentes X1 e X2, respectivamente, sobre a resposta total da variável dependente Y. A regressão múltipla apresenta alguns aspectos importantes, dentre os quais se destacam: 1. Em qualquer regressão múltipla, os coeficientes se correlacionam; ao diminuir ou aumentar o número de variáveis independentes, os coeficientes de regressão parcial b também se alteram. 2. O coeficiente de determinação não diminui pela adição de novas variáveis independentes. 3. Uma correlação alta entre as variáveis independentes pode trazer problemas nos cálculos para estimação da equação. A interpretação de uma equação de regressão múltipla é limitada por vários aspectos: Em primeiro lugar, com relação à precisão, fazendo-se previsões quando valores da variável independente estão fora dos limites utilizados para estimação da equação. Para evitar este tipo de problema, deve- se utilizar, para estimação da equação, valores de X que sejam representativos das condições para as quais a equação será utilizada. Limitações são também impostas por correlações entre as variáveis independentes. Falsa interpretação pode ocorrer quando se dá importância a uma variável independente pouco importante, que seja correlacionada com outro fator explicativo, excluído da análise por apresentar multicolinearidade. Diz-se que existe multicolinearidade entre variáveis, quando algumas ou todas as variáveis explicativas de uma relação estão de tal forma correlacionadas entre si que se torna muito difícil, senão impossível, isolar suas influências e obter uma estimativa razoavelmente precisa de seus efeitos. Nos trabalhos em casa de vegetação e no laboratório, o controle exercido pelo delineamento experimental e pelo experimentador permite que a resposta a cada tratamento seja medida independentemente, de tal forma que as variáveis não sejam correlacionadas. A situação é bastante
  • 45. 45 diferente quando se trabalha com epidemias de doenças foliares, sob condições de campo. Períodos infecciosos, severidade de doenças, perdas, produção, etc, são medidos em experimentos holísticos, nos quais um grande numero de fatores incontroláveis agem e interagem simultaneamente. Embora a análise de regressão múltipla seja recomendada para esses casos, extensiva correlação entre sistemas naturais torna muito difícil a identificação dos fatores-chaves, ou seja, aqueles mais explicativos das variações sobre a variável dependente. Correlações entre variáveis independentes não impedem a estimação de equações com valores altos de r2 , porque r2 indica a contribuição combinada destas variáveis na variação da variável dependente. O que se torna difícil é a estimação precisa dos coeficientes de regressão parciais. Numa equação com r2 alto, é possível ter coeficientes de regressão parcial com valores baixos que não sejam significativos. A razão é que se X1 e X2 forem altamente correlacionados e constituírem variáveis importantes, quando for feita a regressão de Y com X1, na presença de X2, a contribuição líquida de X1 para a variação de Y será pequena porque X2, uma boa variável explicativa, por si só contribui para a maior parte da variação. O reverso aplica-se quando se faz a regressão de Y e X2 na presença de X1. Portanto, embora o R2 seja alto, cada coeficiente de regressão parcial poderá não ser significativo, em razão desta interferência mútua entre X1 e X2. As conseqüências desta intercorrelação são freqüentemente vistas quando são estimadas consecutivas equações. A variável que é muito significativa em um estádio poderá tornar-se não significativa quando uma nova variável entra na equação, ou vice-versa. Para interpretar esse comportamento, é necessário verificar a matriz de correlação, para saber o grau de associação entre as variáveis independentes. Assim, pode-se reduzir esses problemas, selecionando-se, para a análise de regressão múltipla, por meio da matriz de correlação, as variáveis independentes que não apresentem alta correlação.
  • 46. 46 NOÇÕES DE ANÁLISE MULTIVARIADA 1. INTRODUÇÃO As técnicas de análise multivariada são métodos estatísticos apropriados para estudos em que cada unidade experimental é avaliada sob diferentes aspectos, sendo necessário considerar simultaneamente várias variáveis que contêm intercorrelações. As informações providas por análises univariadas isoladas podem ser redundantes em se tratando de um complexo de variáveis. As técnicas de análise multivariada combinam, simultaneamente, as múltiplas informações provenientes de uma unidade experimental, podendo obter-se interpretações que não seriam possíveis com o uso da estatística univariada. Existem diferentes técnicas estatísticas de análise multivariada, sendo crescente o número de suas aplicações em Fitopatologia. Atualmente, com a maior disponibilidade de recursos computacionais, o emprego de tais técnicas torna-se potencialmente grande e o seu conhecimento indispensável aos fitopatologistas. No presente texto será dada ênfase às técnicas de análise de componentes principais e análise de agrupamento. 2. ANÁLISE DE COMPONENTES PRINCIPAIS Esta técnica é aplicada a um conjunto de variáveis quantitativas relativas a n indivíduos. O método consiste na transformação do conjunto original de variáveis em outro conjunto, os componentes principais. Na realidade, a análise é uma troca de variáveis. As variáveis observadas são trocadas por novas variáveis abstratas, os componentes principais, esperando que os primeiros componentes principais contenham quase toda a informação original. O objetivo é resumir a informação contida no conjunto (p-dimensional) de variáveis originais, eliminando as informações redundantes em decorrência da correlação entre variáveis, permitindo assim uma avaliação da divergência entre indivíduos, mediante exames visuais, em dispersões gráficas no espaço bi ou tridimensional. A análise permite também identificar as variáveis que pouco contribuem, em termos de variação, no grupo de indivíduos avaliados. Cada componente principal é uma combinação linear de todas as variáveis originais, sendo independentes entre si (a correlação entre dois componentes é zero) e estimados com o propósito de reter, em ordem de estimação, o máximo de informação em termos de variação total contida nos dados iniciais. Os coeficientes dos componentes principais são também denominados elementos de autovetores (“eigenvectores”) e a variância associada a cada componente principal é denominada autovalor (“eigenvalue”). Os autovalores são decrescentes do primeiro ao último componente principal, ou seja, o primeiro componente possui a maior variância, o segundo componente possui a segunda maior e assim sucessivamente. A importância de um componente se avalia por meio da porcentagem de variância que o mesmo retém. Como os componentes principais são independentes entre si, o somatório de suas variâncias corresponde à soma das variâncias das variáveis originais. Não há, portanto, perda de informação na transformação. Na maioria das situações, o número de componentes principais necessários para extrair completamente a informação contida em um grupo de varáveis, é igual ao número de variáveis sob consideração. Porém, os primeiros componentes poderão conter a maioria da variação original, reduzindo assim a dimensionalidade do grupo de dados. Uma questão é quantos componentes principais reter (selecionar) na análise. Dentre várias opções, a mais simples e prática consiste em reter componentes que expliquem uma porcentagem relativamente alta de variação total, geralmente referida como acima de 80%. Quando esta porcentagem é acumulada pelos dois ou três primeiros componentes, considera-se a análise satisfatória. Como os componentes principais são ortogonais entre si, os indivíduos estudados podem ser representados em um gráfico cartesiano bi ou tridimensional, sendo os eixos constituídos pelos dois ou três primeiros componentes, respectivamente. Neste gráfico, quanto mais próximos estiverem dois indivíduos, mais similares eles são entre si e vice-versa. A confiabilidade desta informação é proporcional à porcentagem da variância total explicada pelos componentes principais em consideração. Embora a similaridade entre os indivíduos seja avaliada de forma subjetiva (visual), a similaridade poderá ser interpretada com considerável simplificação. A técnica de componentes se caracteriza por trabalhar com a média amostral ou ser usada nas situações em que há repetições de dados. A análise é baseada na matriz de variâncias e covariâncias
  • 47. 47 entre variáveis. Os componentes principais são influenciados pela escala das variáveis. Quando as variáveis possuem diferentes unidades de medida e, ou, variâncias com diferentes ordens de magnitude, recomenda-se, antes de proceder à análise, padronizar as variáveis para que todas possuam variância igual à unidade. Assim, a matriz de covariâncias é transformada em uma matriz de correlações antes que a análise de componentes principais seja efetuada. Embora a análise formalmente não requeira a distribuição normal multivariada, ela é mais apropriada para variáveis quantitativas contínuas. Além disso, os dados de todas as variáveis observadas devem ser originadas do mesmo indivíduo ou unidade experimental. 2.1 Exemplos de cálculos dos componentes principais No exemplo da obtenção dos componentes principais, serão utilizados os dados obtidos por Almeida (1980) em seu estudo da resistência horizontal de cafeeiro ‘Catimor’ à ferrugem (Hemileia vastatrix). Foram avaliados quatro componentes de resistência: período de incubação (PI período latente médio (PLm), severidade (Sev) e número de lesões esporuladas por folha (NPF) (Tabela 1). Foi utilizada a análise de componentes principais neste estudo por haver somente informações disponíveis sobre média dos componentes de resistência. Tabela 1. Componentes de resistência1 à ferrugem de progênies de ‘Catimor’ (Almeida, 1980). Progênies PI (dias) PLm (dias) NPF Sev (%) UFV 2144 23,15 32,00 9,10 11,96 UFV 1340 25,50 33,50 4,09 4,98 UFV 2861 29,37 38,04 2,34 2,22 UFV 2862 30,37 37,46 2,14 2,32 UFV 2863 30,12 41,76 2,48 2,18 UFV 1307 28,62 36,87 1,50 1,74 UFV 3684 26,62 37,12 3,66 3,16 UFV 3686 27,37 37,52 1,83 1,85 UFV 3687 30,75 38,92 2,33 2,67 UFV 3658 35,12 47,30 1,75 2,00 UFV 4303 35,20 50,22 1,25 1,25 UFV 4305 36,40 48,42 2,12 2,25 PI: período de incubação; PLm: período latente médio; NPF: número de lesões esporuladas por folha; Sev: severidade. 1o passo: padronização das variáveis, se necessário: Zij =Xij / S(Xj) Em virtude de as variáveis originais (Xi) possuírem diferentes unidades de medida, utilizam-se as variáveis padronizadas. Zij é a média padronizada da j-ésima característica (j = 1, 2, ...., p) avAliada no i-ésimo indivíduo (i = 1, 2, ...., n), Xij é a média original e S(Xj) é o desvio padrão da j-ésima característica. 5,682 5,491 4,286 4,112 6,259 5,748 1,926 1,712 7,209 6,527 1,102 0,763 7,454 6,428 1,008 0,798 7,393 7,165 1,168 0,749 Z = 7,025 6,326 0,707 0,598 6,534 6,369 1,724 1,086 6,718 6,438 0,862 0,636 7,548 6,678 1,097 0,918 8,620 8,116 0,824 0,688 8,640 8,617 0,589 0,430 8,935 8,308 0,999 0,774
  • 48. 48 2o passo: cálculo da matriz de correlações (R) r (Xj ; Xj’)= Cov (Zj ; Zj’) = )X(S).X(S )X;X(Cov 'j 2 j 2 'jj (2.1a) Ou de maneira equivalente: rjj’ = ∑ ∑ −− ∑ −− = = = n 1i n 1i 2 'j'ij 2 jij n 1i 'j'ijjij )XX()XX( )XX)(XX( (2.1b) em que Cov (Xj , Xj’) e Cov (Zj , Zj’) são estimadores da covariância entre duas variáveis originais e duas variáveis padronizadas, respectivamente; r (Xj , Xj’) = rjj’ é a correlação entre duas variáveis originais (coeficiente de correlação momento-produto de Pearson); e jX e S (Xj) são a média e a estimativa da variância para a j-ésima variável, respectivamente. 1,0000 0,9519 -0,6888 -0,6512 R = 1,0000 -0,5983 -0,5758 1,0000 0,9890 1,0000 3o passo: obtenção dos autovalores de R, por meio de det (R - λI) = 0 (2.2) em que λ = raízes características (ou autovalores) da matriz de correlações entre duas varáveis originais (ou de covariância entre as varáveis padronizadas). Existem p autovalores correspondentes às variâncias de cada um dos p componentes principais; I = matriz identidade, de dimensão (p x p); e R = matriz de correlações entre pares de variáveis originais, de dimensão (p x p). λ1 = 3,2289; λ2 = 0,7190; λ3 = 0,0443; λ4 = 0,0079 Cada autovalor é a estimativa da variância de um componente principal. A variância é decrescente do primeiro ao último componente principal. Seja Yj um componente principal, então S2 (Y1) > S2 (Y2) > ... > S2 (Yp); e ∑ = p 1j S2 (Yj) = Traço (R) = p em que Traço (R) é a soma dos elementos da diagonal dos autovalores da matriz de correlação R. 4o passo: obtenção dos autovetores Um componente principal (Yj) é uma combinção linear de Zj Yj = a1Z1 + a2Z2 + ... + apZp Para a obtenção do autovetor do primeiro componente principal, utiliza-se a seguinte equação: