Validação Cruzada em Análise AMMI: Métodos Leave-One-Out para Otimizar o Processo

VALIDAÇÃO CRUZADA EM ANÁLISE
BASEADA EM MODELO DE EFEITOS
PRINCIPAIS ADITIVOS E INTERAÇÃO
MULTIPLICATIVA (AMMI)

Carlos Tadeu dos Santos Dias

Escola Superior de Departamento de Ciências
Agricultura “Luiz de Queiroz” / Exatas
ESALQ / USP

Introdução

Interação Genótipo/Ambiente (GxE)

Adaptação específica de genótipos em ambientes

Métodos estatísticos tradicionais
-Análise conjunta de ensaios multiambientes

-Regressão linear simples e múltipla (Eberhart & Russel,
1966) – Não é informativa se a linearidade falha

Métodos multivariados
-PCA (Análise de Componentes Principais)

-Análise de Agrupamento
-AMMI

Procedimento AMMI

AMMI ⇒ ANOVA e PCA
Modela efeitos principais e interação de uma forma
sequencial

• Efeitos principaissão estimados usando mínimos quadrados
⇒

• PCA ⇒ É conduzida via decomposição em valores singulares
(DVS) aplicado á matriz residual de interação.

Incorpora componentes aditivos e multiplicativos em uma
análise de mínimos quadrados integrada e poderosa

Procedimento AMMI

Problema Geral

Número de componentes multiplicativos a ser retido no
modelo (com o objetivo de adequadamente explicar o
padrão na interação)
Propostas: Mandel (1961, 1969, 1971), Gollob (1968), Gauch &
Zobel (1988), Cornelius (1993), Piepho (1994 and 1995). Fisher e
Mackenzie (1923).Todas consideram a proporção de variância
acumulada pelos componentes.
Validação-Cruzada – como uma metodologia preditiva.

Problema Específico
Otimizar o processo de validação cruzada

Objetivo

Sumário do modelo AMMI

Sumário da metodologia disponível para selecionar
o número de componentes multiplicativos no modelo

Descrever dois métodos baseados no procedimento
leave-one-out que otimiza o processo de validação cruzada

O modelo AMMI

Supor n genótipos em p ambientes com r repetições.
A média de cada combinação

modelada por
m
y ij = µ + g i + e j +
 
  ∑λ
k =1
γ α jk + ρ ij
k ik + ε ij

Componentes aditivos    NID ( 0 ,σ 2 / r )
Componentes Multiplicativos para interação

O modelo AMMI

Estimativas: µ, g i e e j ⇒ De uma ANOVA da matriz nYp

µ = y ••
ˆ g i = y i • − y ••
ˆ e j = y • j − y ••
ˆ geij = y ij − y i• − y • j + y ••
ˆ

Os resíduos dessa matriz constituem a matriz de interação:

termos da interação multiplicativa ⇒ DVS da matriz nGEp

O modelo AMMI

através do k-ésimo valor singular de GE

os resíduos dessa matriz constituem a matriz do vetor
…singular

através do j-ésimo elemento do vetor singular αk associado
'

com λk k=1,2,…,s = min{n-1, p-1}, s é o posto de
GE. Se k varia até s o modelo produz um ajuste
exato aos dados. Consequentemente k varia até m
(m<s), e as estimativas são obtidas dos primeiros m
termos da DVS da matriz GE.

é um resíduo adicional.

O modelo AMMI

Correspondência entre DVS e PCA
:raiz quadrada do k-ésimo maior autovalor da matriz (GE) (GE)’
ou (GE)’(GE)

γ ik :é o i-ésimo elemento do autovetor de (GE)(GE)’ associado
com kλ 2

:é o j-ésimo elemento do autovetor de (GE)’(GE) associado
com λ 2
k

(DVS)
GE = ΓΛΑ Partição ortogonal

GE = λ γ α + λ γ α +  + λ γ α
'
1 1 1
'
2 2 2
'
s s s

O modelo AMMI

λ2 fornece a proporção da variância devido a interação GxE no k-
k ésimo componente.
representam pesos para o genótipo i e ambiente j
e naquele componente da interação, respectivamente.

2
SS(GxE) = ∑ k =1 λ
s
e por quê?
k

devido GE ser por construção uma matriz de desvios centrada
na média e com média nula.

Assim a interação do genótipo i com o ambiente j é descrito por
∑ λkγ ikα jk descartando o ruído dado por ∑k =m +1 λk γ ikα jk
m s
k =1

Avaliação Preditiva Usando Validação Cruzada

Em geral, ao melhorista de plantas interessa predizer o
comportamento de um genótipo.

Critérios de avaliação:

POS-DICTIVO x Modelo PREDITIVO
(Ajustado-via teste F) (Predições)

Para fazer Predições: Métodos que são essencialmente
data-based e livres de distribuições teóricas terão maior
generalidades


Tais métodos envolvem reamostragem de um determinado conjunto
de dados, usando técnicas tais como jacknife, bootstrap e validação
cruzada (Avaliação preditiva)

y111 (i) Dados para o
y112 ajuste do AMMI
Aleatoriamente
… dividida em
y11r dois subgrupos (ii) Dados para
y121 validação


As respostas são preditas para uma família de modelos AMMI (≠’s m)
e esses são comparados com os respectivos dados de validação,
calculando as diferenças entre esses valores.
Root Mean Square

Predictive Difference

RMSPD =
∑ ij ( yij − yij ) 2
m

np
Assumimos que
dados = padrão + ruído
dados1 = padrão + ruído1
dados2 = padrão + ruído2

Métodos “Leave-one-out”

Para o que segue, queremos predizer o elemento xij da

x ij = ∑k =1 d k u ik v jk + ε ij
matriz X por meio do modelo m

no qual predizemos o valor ˆm
xij de xij (i=1,…,n;j=1,…,p)
para cada possível escolha de m, e medir a discrepância
entre o valor atual e predito.

PRESS ( m ) = ∑i =1 ∑ j =1 ( x
n p
ˆij − xij ) 2
m


Entretanto, para evitar viés, o valor xij não deve ser usados nos
cálculos de ˆijm.
x Assim, apelo a alguma forma de validação cruzada é
indicada.
Krzanowski (1982)
- O algoritmo para validação cruzada

X ( − i) = U D V T com U = (u st ),V = (vst ),e D = diag(d1 ,..., d p ),e
~ ~ ~T ~ ~ ~ ~ ~ ~ ~
X ( − j) = UDV com U = (u st ),V = (vst ),e D = diag(d1 ,..., d(p − 1) ).

Agora considere o preditor ~
x = ∑t =1 (uit t tj t
~ d )( v d )
m m
ˆ ij

Note: é feito o máximo uso dos outros elementos de X.


Gabriel (2002)
- Toma uma mistura de regressão e aproximação de uma
matriz de posto-inferior como base para predição.
- O algoritmo para validação cruzada
(1) Para uma matriz X (n x p), use a partição x11 x1. 
T
X= 
x.1 X 11 
m
e aproxime a submatriz
X 11 = ∑ u (k)d k v T = UDV T
(k)
k =1

Então prediga x11 por
x11 = x1. VD −1UT x.1
ˆ T

obtenha o resíduo da validação cruzada, e11 = x11 − x11
ˆ


ˆ
(2)Similarmente, obtêm-se os valores ajustados x ij
e os resíduos eij = x ij − x ij para todos outros
ˆ
elementos, xij, i=1,…n;j=1,…,m;(i,j)≠(1,1). Cada
um irá requerer uma diferente partição de X.

(3) Esses resíduos e valores ajustados podem ser
resumidos por PRESS(m)/np e
PRECORR(m) = Corr(x ij , x ij | ∀i, j)
ˆ


Com cada método, a escolha de m pode ser baseada em
uma apropriada função de PRESS(m)/np.


Krzanowski sugere o uso da estatística
PRESS(m − 1) − PRESS(m) PRESS(m)
Wm = ÷
Dm Dr

Dm: número de GL required para ajustar o m-ésimo
componente. Dm=n+p-2m
Dr: número de GL restante após ajustar o m-ésimo
componente. D1=(n-1)p,
Dr=Dr-1-(n+p-(m-1)2), r=2,3,…,(n-1).
Wm : representa o incremento na informação preditiva
fornecida pelo m-ésimo componente, dividido pela
informação preditiva média em cada um dos
componentes restantes.

Exemplo ilustrativo

Tabela 1- Dados de vinte amostras solo e cinco variáveis
(Kendall, 1980, p.20, baseado em Krzanowski, 1988).

Eastment-Krzanowski Gabriel
________________________ _________________________
m PRESS_m PRECORR W PRESS_m PRECORR W
___________________________________________________________
1 4.36 .9963 27.78 8.08 .9932 13.60
2 2.23 .9981 2.14 7.45 .9937 0.18
3 2.14 .9982 0.05 5.60 .9952 0.45
4 2.13 .9982 0.00 0.21 .9998 10.20

Exemplo ilustrativo

Tabela 2 - Dados de quarenta afídeos e dezenove
variáveis (Jeffers, 1967, baseado em Krzanowski, 1987).
____________________________________
Eastment-Krzanowski Gabriel
__________________________ ___________________________
m PRESS_m PRECORR W PRESS_m PRECORR W
________________________________________________________________
1 0.4500 .9799 29.04 0.4240 .9810 31.56
2 0.3391 .9849 3.71 0.2883 .9871 5.34
3 0.3389 .9849 0.00 0.2934 .9869 -0.18
4 0.2865 .9874 1.85 0.2957 .9868 -0.07
… … … … … … …
18 0.2601 .9886 -0.00 0.5778 .9744 0.03
________________________________________________________________

Exemplo ilustrativo
Tabela 3 - Análise de efeitos principais aditivos e interação multiplicativa dos
dados de Hernández e Crossa (2000), para a análise dos cinco primeiros
componentes principal de interação (IPCA).
Fonte de variação Soma de Quadrados F Fgollob
_________________________________________________________
Bloco 0.2001 2 0.63
Tratamento 108.8393 47 14.65**
Genótipos (G) 42.7587 7 38.65**
Anos (E) 49.1997 5 62.27**
Interação (GxE) 16.8809 35 3.05**
_________________________________________________________
IPCA 1 7.2428 11 4.16**
IPCA 2 5.4232 9 3.81**
IPCA 3 2.9696 7 2.68*
IPCA 4 1.1906 5 1.50
IPCA 5 0.0545 3 0.11
_________________________________________________________
Resíduo 14.8543 94
_________________________________________________________
Total 123.8939 143

Exemplo ilustrativo

Tabela 4- Dados (produção média de grãos) de um ensaio
de variedades de trigo oito genótipos testados durante seis
anos (1990-1995).
Fonte de variação Soma de quadrados GLCornelius FCornelius
_________________________________________________________
Bloco - - -
Tratamentos - - -
Genótipos (G) - - -
Anos (E) - - -
Interação (GxE) - - -
_________________________________________________________
IPCA 1 9.6379 24 2.54**
IPCA 2 4.2147 15 1.78*
IPCA 3 1.2451 8 0.98
IPCA 4 0.0545 3 0.12
IPCA 5 - - -
_________________________________________________________
Resíduo 14.8543 94
_________________________________________________________
Total 123.8939 143

Exemplo ilustrativo

Tabela 5- Análise de validação cruzada e métodos “leave-
one-out” para os dados Hernandéz e Crossa (2000).

Discussão

Teste F distribucional indicou: dois componentes

Validação cruzada por aleatorização: três componentes

Leave-one-out: um componente

Como avaliar estas diferenças?

Discussão

Métodos baseados no teste F dependem pesadamente das
suposições distribucional (normalidade dos dados e
validade das distribuições F para os quadrados médio) o
que pode não ser apropriado em muitos casos.

O teste F pode apresentar recomendações conflitantes
para um particular conjunto de dados.

O teste F seleciona muitos componentes de interação.

Discussão

∴ Parece que um método de validação cruzada baseado
em dados deve ser mais apropriado.

Validação cruzada por aleatorização tem uma grande
parte dos dados que fica fora do conjunto de validação.

∴ Métodos “Leave-one-out” faz o mais eficiente uso dos
dados e resulta em modelos mais parsimoniosos (AMMI 1)

Referências bibliográficas
CORNELIUS, P.L. 1993. Statistical tests and retention of terms in the
additive main effects and multiplicative interaction model for cultivar
trials. Crop Sci. 33:1186–1193
EBERHART, S.A.; RUSSELL, W.A. Stability parameters for comparing
varieties. Crop Science,v.6, n.1, p.36-40, 1966
FISHER, R.A. and MACKENZIE,W.A. (1923). The manurial response of
different potato varieties. Journal of Agricultural Science, xiii. 311-
320
GAUCH J´UNIOR, H.G.; ZOBEL, R.W. Predictive ans postdictive
sucess of statistical analysis of yield trials. Theoretical and Applied
Genetics, New York, v.76, p.1-10, 1988
MANDEL, J. Non-additivity in two-way analysis of variance. Journal of
the American Statistical Association, v.56, p.878-888, 1961
MANDEL, J. The partitioning of interactions in analysis of variance.
Journal of Research of the National Bureau of Standards , Series B,
Washington, v.73, p.309-328, 1969
MANDEL, J. A new analysis of variance model for non-adittive data.
Technometrics, Alexandria,
v.13, n.1, p.1-18, 1971

PIEPHO, H.P. 1994. Best linear unbiased prediction (BLUP) for regional
yield trials: a comparison to additive main effects and multiplicative
interaction (AMMI) analysis. Theor. Appl. Genet. 89:647–654
PIEPHO, H.P. 1995. Robustness of statistical test for multiplicativeterms
in additive main effects and multiplicativeinteraction model for
cultivar trial. Theor. Appl. Genet. 90:438–443

Validação Cruzada em Análise AMMI: Métodos Leave-One-Out para Otimizar o Processo

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Andere mochten auch

Andere mochten auch (16)

Ähnlich wie Validação Cruzada em Análise AMMI: Métodos Leave-One-Out para Otimizar o Processo

Ähnlich wie Validação Cruzada em Análise AMMI: Métodos Leave-One-Out para Otimizar o Processo (20)

Validação Cruzada em Análise AMMI: Métodos Leave-One-Out para Otimizar o Processo