O documento descreve o modelo AMMI para análise de ensaios multiambientais, que modela efeitos principais e interação de forma sequencial. Dois métodos de validação cruzada são apresentados para otimizar a seleção do número de componentes multiplicativos no modelo AMMI: leave-one-out e uma mistura de regressão e aproximação de matrizes de posto inferior.
Aula 4 Profmat - Algoritmo de Euclides - MDC e MMC 25 08-17
Validação Cruzada em Análise AMMI: Métodos Leave-One-Out para Otimizar o Processo
1. VALIDAÇÃO CRUZADA EM ANÁLISE
BASEADA EM MODELO DE EFEITOS
PRINCIPAIS ADITIVOS E INTERAÇÃO
MULTIPLICATIVA (AMMI)
Carlos Tadeu dos Santos Dias
Escola Superior de Departamento de Ciências
Agricultura “Luiz de Queiroz” / Exatas
ESALQ / USP
2.
3. Introdução
Interação Genótipo/Ambiente (GxE)
Adaptação específica de genótipos em ambientes
Métodos estatísticos tradicionais
-Análise conjunta de ensaios multiambientes
-Regressão linear simples e múltipla (Eberhart & Russel,
1966) – Não é informativa se a linearidade falha
Métodos multivariados
-PCA (Análise de Componentes Principais)
-Análise de Agrupamento
-AMMI
4. Procedimento AMMI
AMMI ⇒ ANOVA e PCA
Modela efeitos principais e interação de uma forma
sequencial
• Efeitos principaissão estimados usando mínimos quadrados
⇒
• PCA ⇒ É conduzida via decomposição em valores singulares
(DVS) aplicado á matriz residual de interação.
Incorpora componentes aditivos e multiplicativos em uma
análise de mínimos quadrados integrada e poderosa
5. Procedimento AMMI
Problema Geral
Número de componentes multiplicativos a ser retido no
modelo (com o objetivo de adequadamente explicar o
padrão na interação)
Propostas: Mandel (1961, 1969, 1971), Gollob (1968), Gauch &
Zobel (1988), Cornelius (1993), Piepho (1994 and 1995). Fisher e
Mackenzie (1923).Todas consideram a proporção de variância
acumulada pelos componentes.
Validação-Cruzada – como uma metodologia preditiva.
Problema Específico
Otimizar o processo de validação cruzada
6. Objetivo
Sumário do modelo AMMI
Sumário da metodologia disponível para selecionar
o número de componentes multiplicativos no modelo
Descrever dois métodos baseados no procedimento
leave-one-out que otimiza o processo de validação cruzada
7. O modelo AMMI
Supor n genótipos em p ambientes com r repetições.
A média de cada combinação
modelada por
m
y ij = µ + g i + e j +
∑λ
k =1
γ α jk + ρ ij
k ik + ε ij
Componentes aditivos NID ( 0 ,σ 2 / r )
Componentes Multiplicativos para interação
8. O modelo AMMI
Estimativas: µ, g i e e j ⇒ De uma ANOVA da matriz nYp
µ = y ••
ˆ g i = y i • − y ••
ˆ e j = y • j − y ••
ˆ geij = y ij − y i• − y • j + y ••
ˆ
Os resíduos dessa matriz constituem a matriz de interação:
termos da interação multiplicativa ⇒ DVS da matriz nGEp
9. O modelo AMMI
através do k-ésimo valor singular de GE
os resíduos dessa matriz constituem a matriz do vetor
…singular
através do j-ésimo elemento do vetor singular αk associado
'
com λk k=1,2,…,s = min{n-1, p-1}, s é o posto de
GE. Se k varia até s o modelo produz um ajuste
exato aos dados. Consequentemente k varia até m
(m<s), e as estimativas são obtidas dos primeiros m
termos da DVS da matriz GE.
é um resíduo adicional.
10. O modelo AMMI
Correspondência entre DVS e PCA
:raiz quadrada do k-ésimo maior autovalor da matriz (GE) (GE)’
ou (GE)’(GE)
γ ik :é o i-ésimo elemento do autovetor de (GE)(GE)’ associado
com kλ 2
:é o j-ésimo elemento do autovetor de (GE)’(GE) associado
com λ 2
k
(DVS)
GE = ΓΛΑ Partição ortogonal
GE = λ γ α + λ γ α + + λ γ α
'
1 1 1
'
2 2 2
'
s s s
11. O modelo AMMI
λ2 fornece a proporção da variância devido a interação GxE no k-
k ésimo componente.
representam pesos para o genótipo i e ambiente j
e naquele componente da interação, respectivamente.
2
SS(GxE) = ∑ k =1 λ
s
e por quê?
k
devido GE ser por construção uma matriz de desvios centrada
na média e com média nula.
Assim a interação do genótipo i com o ambiente j é descrito por
∑ λkγ ikα jk descartando o ruído dado por ∑k =m +1 λk γ ikα jk
m s
k =1
14. Avaliação Preditiva Usando Validação Cruzada
Em geral, ao melhorista de plantas interessa predizer o
comportamento de um genótipo.
Critérios de avaliação:
POS-DICTIVO x Modelo PREDITIVO
(Ajustado-via teste F) (Predições)
Para fazer Predições: Métodos que são essencialmente
data-based e livres de distribuições teóricas terão maior
generalidades
15. Avaliação Preditiva Usando Validação Cruzada
Tais métodos envolvem reamostragem de um determinado conjunto
de dados, usando técnicas tais como jacknife, bootstrap e validação
cruzada (Avaliação preditiva)
y111 (i) Dados para o
y112 ajuste do AMMI
Aleatoriamente
… dividida em
y11r dois subgrupos (ii) Dados para
y121 validação
16. Avaliação Preditiva Usando Validação Cruzada
As respostas são preditas para uma família de modelos AMMI (≠’s m)
e esses são comparados com os respectivos dados de validação,
calculando as diferenças entre esses valores.
Root Mean Square
Predictive Difference
RMSPD =
∑ ij ( yij − yij ) 2
m
np
Assumimos que
dados = padrão + ruído
dados1 = padrão + ruído1
dados2 = padrão + ruído2
17. Métodos “Leave-one-out”
Para o que segue, queremos predizer o elemento xij da
x ij = ∑k =1 d k u ik v jk + ε ij
matriz X por meio do modelo m
no qual predizemos o valor ˆm
xij de xij (i=1,…,n;j=1,…,p)
para cada possível escolha de m, e medir a discrepância
entre o valor atual e predito.
PRESS ( m ) = ∑i =1 ∑ j =1 ( x
n p
ˆij − xij ) 2
m
18. Métodos “Leave-one-out”
Entretanto, para evitar viés, o valor xij não deve ser usados nos
cálculos de ˆijm.
x Assim, apelo a alguma forma de validação cruzada é
indicada.
Krzanowski (1982)
- O algoritmo para validação cruzada
X ( − i) = U D V T com U = (u st ),V = (vst ),e D = diag(d1 ,..., d p ),e
~ ~ ~T ~ ~ ~ ~ ~ ~ ~
X ( − j) = UDV com U = (u st ),V = (vst ),e D = diag(d1 ,..., d(p − 1) ).
Agora considere o preditor ~
x = ∑t =1 (uit t tj t
~ d )( v d )
m m
ˆ ij
Note: é feito o máximo uso dos outros elementos de X.
19. Métodos “Leave-one-out”
Gabriel (2002)
- Toma uma mistura de regressão e aproximação de uma
matriz de posto-inferior como base para predição.
- O algoritmo para validação cruzada
(1) Para uma matriz X (n x p), use a partição x11 x1.
T
X=
x.1 X 11
m
e aproxime a submatriz
X 11 = ∑ u (k)d k v T = UDV T
(k)
k =1
Então prediga x11 por
x11 = x1. VD −1UT x.1
ˆ T
obtenha o resíduo da validação cruzada, e11 = x11 − x11
ˆ
20. Métodos “Leave-one-out”
ˆ
(2)Similarmente, obtêm-se os valores ajustados x ij
e os resíduos eij = x ij − x ij para todos outros
ˆ
elementos, xij, i=1,…n;j=1,…,m;(i,j)≠(1,1). Cada
um irá requerer uma diferente partição de X.
(3) Esses resíduos e valores ajustados podem ser
resumidos por PRESS(m)/np e
PRECORR(m) = Corr(x ij , x ij | ∀i, j)
ˆ
22. Métodos “Leave-one-out”
Krzanowski sugere o uso da estatística
PRESS(m − 1) − PRESS(m) PRESS(m)
Wm = ÷
Dm Dr
Dm: número de GL required para ajustar o m-ésimo
componente. Dm=n+p-2m
Dr: número de GL restante após ajustar o m-ésimo
componente. D1=(n-1)p,
Dr=Dr-1-(n+p-(m-1)2), r=2,3,…,(n-1).
Wm : representa o incremento na informação preditiva
fornecida pelo m-ésimo componente, dividido pela
informação preditiva média em cada um dos
componentes restantes.
23. Exemplo ilustrativo
Tabela 1- Dados de vinte amostras solo e cinco variáveis
(Kendall, 1980, p.20, baseado em Krzanowski, 1988).
Eastment-Krzanowski Gabriel
________________________ _________________________
m PRESS_m PRECORR W PRESS_m PRECORR W
___________________________________________________________
1 4.36 .9963 27.78 8.08 .9932 13.60
2 2.23 .9981 2.14 7.45 .9937 0.18
3 2.14 .9982 0.05 5.60 .9952 0.45
4 2.13 .9982 0.00 0.21 .9998 10.20
24. Exemplo ilustrativo
Tabela 2 - Dados de quarenta afídeos e dezenove
variáveis (Jeffers, 1967, baseado em Krzanowski, 1987).
____________________________________
Eastment-Krzanowski Gabriel
__________________________ ___________________________
m PRESS_m PRECORR W PRESS_m PRECORR W
________________________________________________________________
1 0.4500 .9799 29.04 0.4240 .9810 31.56
2 0.3391 .9849 3.71 0.2883 .9871 5.34
3 0.3389 .9849 0.00 0.2934 .9869 -0.18
4 0.2865 .9874 1.85 0.2957 .9868 -0.07
… … … … … … …
18 0.2601 .9886 -0.00 0.5778 .9744 0.03
________________________________________________________________
25. Exemplo ilustrativo
Tabela 3 - Análise de efeitos principais aditivos e interação multiplicativa dos
dados de Hernández e Crossa (2000), para a análise dos cinco primeiros
componentes principal de interação (IPCA).
Fonte de variação Soma de Quadrados F Fgollob
_________________________________________________________
Bloco 0.2001 2 0.63
Tratamento 108.8393 47 14.65**
Genótipos (G) 42.7587 7 38.65**
Anos (E) 49.1997 5 62.27**
Interação (GxE) 16.8809 35 3.05**
_________________________________________________________
IPCA 1 7.2428 11 4.16**
IPCA 2 5.4232 9 3.81**
IPCA 3 2.9696 7 2.68*
IPCA 4 1.1906 5 1.50
IPCA 5 0.0545 3 0.11
_________________________________________________________
Resíduo 14.8543 94
_________________________________________________________
Total 123.8939 143
26. Exemplo ilustrativo
Tabela 4- Dados (produção média de grãos) de um ensaio
de variedades de trigo oito genótipos testados durante seis
anos (1990-1995).
Fonte de variação Soma de quadrados GLCornelius FCornelius
_________________________________________________________
Bloco - - -
Tratamentos - - -
Genótipos (G) - - -
Anos (E) - - -
Interação (GxE) - - -
_________________________________________________________
IPCA 1 9.6379 24 2.54**
IPCA 2 4.2147 15 1.78*
IPCA 3 1.2451 8 0.98
IPCA 4 0.0545 3 0.12
IPCA 5 - - -
_________________________________________________________
Resíduo 14.8543 94
_________________________________________________________
Total 123.8939 143
27. Exemplo ilustrativo
Tabela 5- Análise de validação cruzada e métodos “leave-
one-out” para os dados Hernandéz e Crossa (2000).
28. Discussão
Teste F distribucional indicou: dois componentes
Validação cruzada por aleatorização: três componentes
Leave-one-out: um componente
Como avaliar estas diferenças?
29. Discussão
Métodos baseados no teste F dependem pesadamente das
suposições distribucional (normalidade dos dados e
validade das distribuições F para os quadrados médio) o
que pode não ser apropriado em muitos casos.
O teste F pode apresentar recomendações conflitantes
para um particular conjunto de dados.
O teste F seleciona muitos componentes de interação.
30. Discussão
∴ Parece que um método de validação cruzada baseado
em dados deve ser mais apropriado.
Validação cruzada por aleatorização tem uma grande
parte dos dados que fica fora do conjunto de validação.
∴ Métodos “Leave-one-out” faz o mais eficiente uso dos
dados e resulta em modelos mais parsimoniosos (AMMI 1)
31. Referências bibliográficas
CORNELIUS, P.L. 1993. Statistical tests and retention of terms in the
additive main effects and multiplicative interaction model for cultivar
trials. Crop Sci. 33:1186–1193
EBERHART, S.A.; RUSSELL, W.A. Stability parameters for comparing
varieties. Crop Science,v.6, n.1, p.36-40, 1966
FISHER, R.A. and MACKENZIE,W.A. (1923). The manurial response of
different potato varieties. Journal of Agricultural Science, xiii. 311-
320
GAUCH J´UNIOR, H.G.; ZOBEL, R.W. Predictive ans postdictive
sucess of statistical analysis of yield trials. Theoretical and Applied
Genetics, New York, v.76, p.1-10, 1988
MANDEL, J. Non-additivity in two-way analysis of variance. Journal of
the American Statistical Association, v.56, p.878-888, 1961
MANDEL, J. The partitioning of interactions in analysis of variance.
Journal of Research of the National Bureau of Standards , Series B,
Washington, v.73, p.309-328, 1969
MANDEL, J. A new analysis of variance model for non-adittive data.
Technometrics, Alexandria,
v.13, n.1, p.1-18, 1971
32. PIEPHO, H.P. 1994. Best linear unbiased prediction (BLUP) for regional
yield trials: a comparison to additive main effects and multiplicative
interaction (AMMI) analysis. Theor. Appl. Genet. 89:647–654
PIEPHO, H.P. 1995. Robustness of statistical test for multiplicativeterms
in additive main effects and multiplicativeinteraction model for
cultivar trial. Theor. Appl. Genet. 90:438–443