GTM (Mapeamento Topográfico Gerativo) é uma técnica de mineração de dados que mapeia dados de alto-dimensional para um espaço de menor dimensão. Ele usa um modelo paramétrico não linear para representar os dados em um espaço latente de menor dimensão. GTM é útil para redução dimensionalidade, visualização e descoberta de estrutura subjacente em grandes conjuntos de dados.
2. O que é GTM?
GTM – Mapeamento Topográfico Gerativo – é uma
ferramenta da Mineração de Dados e um modelo
algorítmico/computacional adaptativo e o uso desse
modelo se aplica na recuperação de informação
(representação, armazenamento e acesso aos dados).
3. O que é GTM?
O modelo GTM (BISHOP, SVENSÉN
& WILLIAMS, 1998) é um modelo
que executa um mapeamento
paramétrico não linear de um
espaço L-dimensional de variáveis
(chamadas latentes) para um
espaço D-dimensional de dados de
entrada onde, normalmente, L<D.
Este mapeamento define um
subespaço S (contido no espaço de
entrada) que representa o espaço
de variáveis latentes segundo a
transformação y(x,W), a qual
mapeia pontos x do espaço latente
para pontos v no espaço de dados,
como ilustrado na Figura 5 para o
caso em que o espaço latente
reside em R² (L=2) e o espaço de
dados, em R³ (D=3).
4. Como é?
Cada ponto do espaço latente (X-espaço, à esquerda) é levado ao espaço de dados (Vespaço, à
direita) através de um mapeamento paramétrico não linear y(x,W), o qual define um subespaço S
contido no espaço de dados. Cada ponto pertencente a S é resultante da aplicação de y(x,W) sobre
um ponto pertencente ao X-espaço. Assim, a transformação y(x,W) leva um ponto xa residente no
espaço latente e definido pelas suas coordenadas (x1(a), x2(a)), para um ponto y(xa,W), pertencente
ao espaço S e definido por suas coordenadas (v1(a), v2(a), v3(a)) no espaço de dados.
A hipótese feita pelo modelo GTM é a de que o comportamento do conjunto de dados no espaço D-
dimensional pode de fato ser expresso por um conjunto menor de atributos 2 (as variáveis latentes)
através de um mapeamento paramétrico não linear y(x,W). Uma aproximação para esse raciocínio é
imaginar que, embora a dimensão do conjunto de entrada possa ser elevada, muitas das variáveis são
correlacionadas entre si, resultando num conjunto potencialmente mais simples que pode
representar o comportamento dos dados no espaço original (BISHOP, SVENSÉN & WILLIAMS,
1998). Os modelos baseados nesta ideia são chamados modelos de variáveis latentes
(BARTHOLOMEW, 1987). O mapeamento realizado pelo GTM utiliza-se normalmente de um
modelo de probabilidade baseado em mistura de gaussianas, o qual é adaptado pelo algoritmo EM
(Expectation Maximization) (DEMPSTER, LAIRD & RUBIN, 1987; BISHOP, SVENSÉN & WILLIAMS,
1996, 1998;
SVENSÉN, 1998).
5. Características do modelo GTM
Capacidade de operar com conjuntos volumosos de dados;
Capacidade de operar com dados representados por um grande
número de características (alta dimensionalidade)
Utilização de aprendizado não supervisionado;
Capacidade de realizar projeção de dados, reduzindo assim a
dimensionalidade do conjunto de dados
Capacidade de realizar redução de dados, diminuindo a quantidade de
dados exibidos e pela ferramenta;
Possibilidade de avaliação gráfica dos resultados obtidos;
Algoritmos relativamente simples e rápidos;
Capacidade de generalização dos modelos, de forma a possibilitar a
representação de dados não disponíveis no momento do treinamento.
6. Para que serve?
GTM oferece recursos consistentes para análise de
dados, onde há variação de dimensionalidade,
quantidade e tipo de dados disponíveis (discretos,
contínuos, binários etc.).
Há uma grande variedade de bancos de dados
disponíveis(Glass, Ionosphere, Letter, Zoo) para
utilização com o método GTM passíveis de uso em
mineração de dados.
http://parati.dca.fee.unicamp.br/media/Attachments/course
IA368Q1S2012/Monografia/zuchini_mest.pdf (pag 102)
7. Quem usa / Onde se aplica?
A rede de lojas Walmart na década de 90, fez um grande investimento em mineração de
dados, com uma pergunta básica: Que produto está relacionado a qual? Uma pessoa que
compra cervejas compraria mais o que?”. Investiram em hardware com super
processadores para buscar essa informação e com os ferramentas da mineração de
dados, descobriram que quem compra cervejas, também comprava fraldas, o perfil da
pessoa era: homem com filho pequeno, normalmente o primogênito, com habito de
tomar cerveja as sextas-feiras e finais de semana. O Walmart com essa informação fazia
promoções na quinta ou sexta feira com esses produtos.
Banco Itaú com as malas diretas, através da mineração de dados, eles traçaram o perfil das
pessoas que respondiam essas malas diretas e a partir das informações começaram a
investir num determinado perfil.
Bank of America utilizou a mineração de dados para verificar para quem o banco deveria
fornecer crédito/empréstimo e saber qual perfil de usuário é inadimplente, com isso
para quem o banco deveria oferecer esse empréstimo.
O banco Nossa Caixa, Nosso Banco em 2008 desenvolveu um data mining para detecção de
fraudes.
Um site de poker que promove partidas online com grandes profissionais suspendeu um
jogador, porque o mesmo utilizava a mineração de dados para traçar o perfil dos seus
adversários.