GTM: Generative Topographic Mapping

O que é GTM?
GTM – Mapeamento Topográfico Gerativo – é uma
ferramenta da Mineração de Dados e um modelo
algorítmico/computacional adaptativo e o uso desse
modelo se aplica na recuperação de informação
(representação, armazenamento e acesso aos dados).

O que é GTM?
O modelo GTM (BISHOP, SVENSÉN
& WILLIAMS, 1998) é um modelo
que executa um mapeamento
paramétrico não linear de um
espaço L-dimensional de variáveis
(chamadas latentes) para um
espaço D-dimensional de dados de
entrada onde, normalmente, L<D.
Este mapeamento define um
subespaço S (contido no espaço de
entrada) que representa o espaço
de variáveis latentes segundo a
transformação y(x,W), a qual
mapeia pontos x do espaço latente
para pontos v no espaço de dados,
como ilustrado na Figura 5 para o
caso em que o espaço latente
reside em R² (L=2) e o espaço de
dados, em R³ (D=3).

Como é?
 Cada ponto do espaço latente (X-espaço, à esquerda) é levado ao espaço de dados (Vespaço, à
direita) através de um mapeamento paramétrico não linear y(x,W), o qual define um subespaço S
contido no espaço de dados. Cada ponto pertencente a S é resultante da aplicação de y(x,W) sobre
um ponto pertencente ao X-espaço. Assim, a transformação y(x,W) leva um ponto xa residente no
espaço latente e definido pelas suas coordenadas (x1(a), x2(a)), para um ponto y(xa,W), pertencente
ao espaço S e definido por suas coordenadas (v1(a), v2(a), v3(a)) no espaço de dados.
 A hipótese feita pelo modelo GTM é a de que o comportamento do conjunto de dados no espaço D-
dimensional pode de fato ser expresso por um conjunto menor de atributos 2 (as variáveis latentes)
através de um mapeamento paramétrico não linear y(x,W). Uma aproximação para esse raciocínio é
imaginar que, embora a dimensão do conjunto de entrada possa ser elevada, muitas das variáveis são
correlacionadas entre si, resultando num conjunto potencialmente mais simples que pode
representar o comportamento dos dados no espaço original (BISHOP, SVENSÉN & WILLIAMS,
1998). Os modelos baseados nesta ideia são chamados modelos de variáveis latentes
(BARTHOLOMEW, 1987). O mapeamento realizado pelo GTM utiliza-se normalmente de um
modelo de probabilidade baseado em mistura de gaussianas, o qual é adaptado pelo algoritmo EM
(Expectation Maximization) (DEMPSTER, LAIRD & RUBIN, 1987; BISHOP, SVENSÉN & WILLIAMS,
1996, 1998;
 SVENSÉN, 1998).

Características do modelo GTM
 Capacidade de operar com conjuntos volumosos de dados;
 Capacidade de operar com dados representados por um grande
número de características (alta dimensionalidade)
 Utilização de aprendizado não supervisionado;
 Capacidade de realizar projeção de dados, reduzindo assim a
dimensionalidade do conjunto de dados
 Capacidade de realizar redução de dados, diminuindo a quantidade de
dados exibidos e pela ferramenta;
 Possibilidade de avaliação gráfica dos resultados obtidos;
 Algoritmos relativamente simples e rápidos;
 Capacidade de generalização dos modelos, de forma a possibilitar a
representação de dados não disponíveis no momento do treinamento.

Para que serve?
GTM oferece recursos consistentes para análise de
dados, onde há variação de dimensionalidade,
quantidade e tipo de dados disponíveis (discretos,
contínuos, binários etc.).
Há uma grande variedade de bancos de dados
disponíveis(Glass, Ionosphere, Letter, Zoo) para
utilização com o método GTM passíveis de uso em
mineração de dados.
http://parati.dca.fee.unicamp.br/media/Attachments/course
IA368Q1S2012/Monografia/zuchini_mest.pdf (pag 102)

Quem usa / Onde se aplica?
A rede de lojas Walmart na década de 90, fez um grande investimento em mineração de
dados, com uma pergunta básica: Que produto está relacionado a qual? Uma pessoa que
compra cervejas compraria mais o que?”. Investiram em hardware com super
processadores para buscar essa informação e com os ferramentas da mineração de
dados, descobriram que quem compra cervejas, também comprava fraldas, o perfil da
pessoa era: homem com filho pequeno, normalmente o primogênito, com habito de
tomar cerveja as sextas-feiras e finais de semana. O Walmart com essa informação fazia
promoções na quinta ou sexta feira com esses produtos.
Banco Itaú com as malas diretas, através da mineração de dados, eles traçaram o perfil das
pessoas que respondiam essas malas diretas e a partir das informações começaram a
investir num determinado perfil.
Bank of America utilizou a mineração de dados para verificar para quem o banco deveria
fornecer crédito/empréstimo e saber qual perfil de usuário é inadimplente, com isso
para quem o banco deveria oferecer esse empréstimo.
O banco Nossa Caixa, Nosso Banco em 2008 desenvolveu um data mining para detecção de
fraudes.
Um site de poker que promove partidas online com grandes profissionais suspendeu um
jogador, porque o mesmo utilizava a mineração de dados para traçar o perfil dos seus
adversários.

Referências Bibliográficas
http://parati.dca.fee.unicamp.br/media/Attachments
/courseIA368Q1S2012/Monografia/zuchini_mest.pdf

http://www.anchieta.br/unianchieta/revistas/ubiquid
ade/Site/ubiquidade/pdf/Artigo1.pdf

CPBR10 - Software Livre. Oficina: Data Mining
Weka (http://youtu.be/sDD8nsZ1fQo)

GTM: Generative Topographic
Mapping

Élide Matos de Oliveira
Fábio Martins da Silva
Lidiane Cristina de Moraes
Marcelo Henrique Fernandes Ribeiro

GTM: Generative Topographic Mapping

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Andere mochten auch

Andere mochten auch (14)

Ähnlich wie GTM: Generative Topographic Mapping

Ähnlich wie GTM: Generative Topographic Mapping (16)

GTM: Generative Topographic Mapping