SlideShare ist ein Scribd-Unternehmen logo
1 von 9
O que é GTM?
GTM – Mapeamento Topográfico Gerativo – é uma
 ferramenta da Mineração de Dados e um modelo
 algorítmico/computacional adaptativo e o uso desse
 modelo se aplica na recuperação de informação
 (representação, armazenamento e acesso aos dados).
O que é GTM?
               O modelo GTM (BISHOP, SVENSÉN
                 & WILLIAMS, 1998) é um modelo
                 que executa um mapeamento
                 paramétrico não linear de um
                 espaço L-dimensional de variáveis
                 (chamadas latentes) para um
                 espaço D-dimensional de dados de
                 entrada onde, normalmente, L<D.
                 Este mapeamento define um
                 subespaço S (contido no espaço de
                 entrada) que representa o espaço
                 de variáveis latentes segundo a
                 transformação y(x,W), a qual
                 mapeia pontos x do espaço latente
                 para pontos v no espaço de dados,
                 como ilustrado na Figura 5 para o
                 caso em que o espaço latente
                 reside em R² (L=2) e o espaço de
                 dados, em R³ (D=3).
Como é?
 Cada ponto do espaço latente (X-espaço, à esquerda) é levado ao espaço de dados (Vespaço, à
  direita) através de um mapeamento paramétrico não linear y(x,W), o qual define um subespaço S
  contido no espaço de dados. Cada ponto pertencente a S é resultante da aplicação de y(x,W) sobre
  um ponto pertencente ao X-espaço. Assim, a transformação y(x,W) leva um ponto xa residente no
  espaço latente e definido pelas suas coordenadas (x1(a), x2(a)), para um ponto y(xa,W), pertencente
  ao espaço S e definido por suas coordenadas (v1(a), v2(a), v3(a)) no espaço de dados.
 A hipótese feita pelo modelo GTM é a de que o comportamento do conjunto de dados no espaço D-
  dimensional pode de fato ser expresso por um conjunto menor de atributos 2 (as variáveis latentes)
  através de um mapeamento paramétrico não linear y(x,W). Uma aproximação para esse raciocínio é
  imaginar que, embora a dimensão do conjunto de entrada possa ser elevada, muitas das variáveis são
  correlacionadas entre si, resultando num conjunto potencialmente mais simples que pode
  representar o comportamento dos dados no espaço original (BISHOP, SVENSÉN & WILLIAMS,
  1998). Os modelos baseados nesta ideia são chamados modelos de variáveis latentes
  (BARTHOLOMEW, 1987). O mapeamento realizado pelo GTM utiliza-se normalmente de um
  modelo de probabilidade baseado em mistura de gaussianas, o qual é adaptado pelo algoritmo EM
  (Expectation Maximization) (DEMPSTER, LAIRD & RUBIN, 1987; BISHOP, SVENSÉN & WILLIAMS,
  1996, 1998;
 SVENSÉN, 1998).
Características do modelo GTM
 Capacidade de operar com conjuntos volumosos de dados;
 Capacidade de operar com dados representados por um grande
  número de características (alta dimensionalidade)
 Utilização de aprendizado não supervisionado;
 Capacidade de realizar projeção de dados, reduzindo assim a
  dimensionalidade do conjunto de dados
 Capacidade de realizar redução de dados, diminuindo a quantidade de
  dados exibidos e pela ferramenta;
 Possibilidade de avaliação gráfica dos resultados obtidos;
 Algoritmos relativamente simples e rápidos;
 Capacidade de generalização dos modelos, de forma a possibilitar a
  representação de dados não disponíveis no momento do treinamento.
Para que serve?
GTM oferece recursos consistentes para análise de
 dados, onde há variação de dimensionalidade,
 quantidade e tipo de dados disponíveis (discretos,
 contínuos, binários etc.).
Há uma grande variedade de bancos de dados
 disponíveis(Glass, Ionosphere, Letter, Zoo) para
 utilização com o método GTM passíveis de uso em
 mineração de dados.
http://parati.dca.fee.unicamp.br/media/Attachments/course
  IA368Q1S2012/Monografia/zuchini_mest.pdf (pag 102)
Quem usa / Onde se aplica?
A rede de lojas Walmart na década de 90, fez um grande investimento em mineração de
   dados, com uma pergunta básica: Que produto está relacionado a qual? Uma pessoa que
   compra cervejas compraria mais o que?”. Investiram em hardware com super
   processadores para buscar essa informação e com os ferramentas da mineração de
   dados, descobriram que quem compra cervejas, também comprava fraldas, o perfil da
   pessoa era: homem com filho pequeno, normalmente o primogênito, com habito de
   tomar cerveja as sextas-feiras e finais de semana. O Walmart com essa informação fazia
   promoções na quinta ou sexta feira com esses produtos.
Banco Itaú com as malas diretas, através da mineração de dados, eles traçaram o perfil das
   pessoas que respondiam essas malas diretas e a partir das informações começaram a
   investir num determinado perfil.
Bank of America utilizou a mineração de dados para verificar para quem o banco deveria
   fornecer crédito/empréstimo e saber qual perfil de usuário é inadimplente, com isso
   para quem o banco deveria oferecer esse empréstimo.
O banco Nossa Caixa, Nosso Banco em 2008 desenvolveu um data mining para detecção de
   fraudes.
Um site de poker que promove partidas online com grandes profissionais suspendeu um
   jogador, porque o mesmo utilizava a mineração de dados para traçar o perfil dos seus
   adversários.
Referências Bibliográficas
http://parati.dca.fee.unicamp.br/media/Attachments
 /courseIA368Q1S2012/Monografia/zuchini_mest.pdf

http://www.anchieta.br/unianchieta/revistas/ubiquid
 ade/Site/ubiquidade/pdf/Artigo1.pdf

CPBR10 - Software Livre. Oficina: Data Mining
 Weka (http://youtu.be/sDD8nsZ1fQo)
GTM: Generative Topographic
        Mapping

        Élide Matos de Oliveira
        Fábio Martins da Silva
      Lidiane Cristina de Moraes
  Marcelo Henrique Fernandes Ribeiro

Weitere ähnliche Inhalte

Andere mochten auch

The Gaussian Process Latent Variable Model (GPLVM)
The Gaussian Process Latent Variable Model (GPLVM)The Gaussian Process Latent Variable Model (GPLVM)
The Gaussian Process Latent Variable Model (GPLVM)James McMurray
 
Dimension Reduction And Visualization Of Large High Dimensional Data Via Inte...
Dimension Reduction And Visualization Of Large High Dimensional Data Via Inte...Dimension Reduction And Visualization Of Large High Dimensional Data Via Inte...
Dimension Reduction And Visualization Of Large High Dimensional Data Via Inte...wl820609
 
WSDM2016読み会 Collaborative Denoising Auto-Encoders for Top-N Recommender Systems
WSDM2016読み会 Collaborative Denoising Auto-Encoders for Top-N Recommender SystemsWSDM2016読み会 Collaborative Denoising Auto-Encoders for Top-N Recommender Systems
WSDM2016読み会 Collaborative Denoising Auto-Encoders for Top-N Recommender SystemsKotaro Tanahashi
 
Manifold learning with application to object recognition
Manifold learning with application to object recognitionManifold learning with application to object recognition
Manifold learning with application to object recognitionzukun
 
Methods of Manifold Learning for Dimension Reduction of Large Data Sets
Methods of Manifold Learning for Dimension Reduction of Large Data SetsMethods of Manifold Learning for Dimension Reduction of Large Data Sets
Methods of Manifold Learning for Dimension Reduction of Large Data SetsRyan B Harvey, CSDP, CSM
 
関東CV勉強会 Kernel PCA (2011.2.19)
関東CV勉強会 Kernel PCA (2011.2.19)関東CV勉強会 Kernel PCA (2011.2.19)
関東CV勉強会 Kernel PCA (2011.2.19)Akisato Kimura
 
[Kim+ ICML2012] Dirichlet Process with Mixed Random Measures : A Nonparametri...
[Kim+ ICML2012] Dirichlet Process with Mixed Random Measures : A Nonparametri...[Kim+ ICML2012] Dirichlet Process with Mixed Random Measures : A Nonparametri...
[Kim+ ICML2012] Dirichlet Process with Mixed Random Measures : A Nonparametri...Shuyo Nakatani
 
Visualizing Data Using t-SNE
Visualizing Data Using t-SNEVisualizing Data Using t-SNE
Visualizing Data Using t-SNETomoki Hayashi
 
AutoEncoderで特徴抽出
AutoEncoderで特徴抽出AutoEncoderで特徴抽出
AutoEncoderで特徴抽出Kai Sasaki
 
見やすいプレゼン資料の作り方 - リニューアル増量版
見やすいプレゼン資料の作り方 - リニューアル増量版見やすいプレゼン資料の作り方 - リニューアル増量版
見やすいプレゼン資料の作り方 - リニューアル増量版MOCKS | Yuta Morishige
 
色彩センスのいらない配色講座
色彩センスのいらない配色講座色彩センスのいらない配色講座
色彩センスのいらない配色講座Mariko Yamaguchi
 

Andere mochten auch (14)

The Gaussian Process Latent Variable Model (GPLVM)
The Gaussian Process Latent Variable Model (GPLVM)The Gaussian Process Latent Variable Model (GPLVM)
The Gaussian Process Latent Variable Model (GPLVM)
 
Dimension Reduction And Visualization Of Large High Dimensional Data Via Inte...
Dimension Reduction And Visualization Of Large High Dimensional Data Via Inte...Dimension Reduction And Visualization Of Large High Dimensional Data Via Inte...
Dimension Reduction And Visualization Of Large High Dimensional Data Via Inte...
 
WSDM2016読み会 Collaborative Denoising Auto-Encoders for Top-N Recommender Systems
WSDM2016読み会 Collaborative Denoising Auto-Encoders for Top-N Recommender SystemsWSDM2016読み会 Collaborative Denoising Auto-Encoders for Top-N Recommender Systems
WSDM2016読み会 Collaborative Denoising Auto-Encoders for Top-N Recommender Systems
 
Manifold learning with application to object recognition
Manifold learning with application to object recognitionManifold learning with application to object recognition
Manifold learning with application to object recognition
 
Methods of Manifold Learning for Dimension Reduction of Large Data Sets
Methods of Manifold Learning for Dimension Reduction of Large Data SetsMethods of Manifold Learning for Dimension Reduction of Large Data Sets
Methods of Manifold Learning for Dimension Reduction of Large Data Sets
 
関東CV勉強会 Kernel PCA (2011.2.19)
関東CV勉強会 Kernel PCA (2011.2.19)関東CV勉強会 Kernel PCA (2011.2.19)
関東CV勉強会 Kernel PCA (2011.2.19)
 
[Kim+ ICML2012] Dirichlet Process with Mixed Random Measures : A Nonparametri...
[Kim+ ICML2012] Dirichlet Process with Mixed Random Measures : A Nonparametri...[Kim+ ICML2012] Dirichlet Process with Mixed Random Measures : A Nonparametri...
[Kim+ ICML2012] Dirichlet Process with Mixed Random Measures : A Nonparametri...
 
Self-organizing map
Self-organizing mapSelf-organizing map
Self-organizing map
 
Topic Models
Topic ModelsTopic Models
Topic Models
 
Visualizing Data Using t-SNE
Visualizing Data Using t-SNEVisualizing Data Using t-SNE
Visualizing Data Using t-SNE
 
AutoEncoderで特徴抽出
AutoEncoderで特徴抽出AutoEncoderで特徴抽出
AutoEncoderで特徴抽出
 
LDA入門
LDA入門LDA入門
LDA入門
 
見やすいプレゼン資料の作り方 - リニューアル増量版
見やすいプレゼン資料の作り方 - リニューアル増量版見やすいプレゼン資料の作り方 - リニューアル増量版
見やすいプレゼン資料の作り方 - リニューアル増量版
 
色彩センスのいらない配色講座
色彩センスのいらない配色講座色彩センスのいらない配色講座
色彩センスのいらない配色講座
 

Ähnlich wie GTM: Generative Topographic Mapping

QGIS - inicio (Sistemas de Informação Geográfica SIG)
QGIS - inicio (Sistemas de Informação Geográfica SIG)QGIS - inicio (Sistemas de Informação Geográfica SIG)
QGIS - inicio (Sistemas de Informação Geográfica SIG)EuricoPortugal
 
20150323 qgis28 remocao_de_valores_negativos_no_mde
20150323 qgis28 remocao_de_valores_negativos_no_mde20150323 qgis28 remocao_de_valores_negativos_no_mde
20150323 qgis28 remocao_de_valores_negativos_no_mdeJorge Santos
 
QGIS 2.8: Substituição de Pixels Negativos no MDE
QGIS 2.8: Substituição de Pixels Negativos no MDEQGIS 2.8: Substituição de Pixels Negativos no MDE
QGIS 2.8: Substituição de Pixels Negativos no MDEJorge Santos
 
[José Ahirton Lopes] Support Vector Machines
[José Ahirton Lopes] Support Vector Machines[José Ahirton Lopes] Support Vector Machines
[José Ahirton Lopes] Support Vector MachinesAhirton Lopes
 
Banco de dados geográfico - Aula de Encerramento
Banco de dados geográfico - Aula de EncerramentoBanco de dados geográfico - Aula de Encerramento
Banco de dados geográfico - Aula de EncerramentoSérgio Souza Costa
 
Data Mining e Machine Learning com Python - Mateus Grellert - Tchelinux Pelot...
Data Mining e Machine Learning com Python - Mateus Grellert - Tchelinux Pelot...Data Mining e Machine Learning com Python - Mateus Grellert - Tchelinux Pelot...
Data Mining e Machine Learning com Python - Mateus Grellert - Tchelinux Pelot...Tchelinux
 
PostGIS - Conhecendo o Elefante Geoespacial
PostGIS - Conhecendo o Elefante GeoespacialPostGIS - Conhecendo o Elefante Geoespacial
PostGIS - Conhecendo o Elefante GeoespacialRodrigo Hjort
 
Tutorial de econometria espacial utilizando o stata
Tutorial de econometria espacial utilizando o stataTutorial de econometria espacial utilizando o stata
Tutorial de econometria espacial utilizando o stataRicardo Schuch
 
Análise Espacial Baseada em Localização
Análise Espacial Baseada em LocalizaçãoAnálise Espacial Baseada em Localização
Análise Espacial Baseada em LocalizaçãoVitor Vieira Vasconcelos
 
Tutoriais para criação e edição de gráficos no r
Tutoriais para criação e edição de gráficos no rTutoriais para criação e edição de gráficos no r
Tutoriais para criação e edição de gráficos no rAna Maria Souza
 
Introdução ao SIG
Introdução ao SIGIntrodução ao SIG
Introdução ao SIGguest72086
 

Ähnlich wie GTM: Generative Topographic Mapping (16)

QGIS - inicio (Sistemas de Informação Geográfica SIG)
QGIS - inicio (Sistemas de Informação Geográfica SIG)QGIS - inicio (Sistemas de Informação Geográfica SIG)
QGIS - inicio (Sistemas de Informação Geográfica SIG)
 
20150323 qgis28 remocao_de_valores_negativos_no_mde
20150323 qgis28 remocao_de_valores_negativos_no_mde20150323 qgis28 remocao_de_valores_negativos_no_mde
20150323 qgis28 remocao_de_valores_negativos_no_mde
 
QGIS 2.8: Substituição de Pixels Negativos no MDE
QGIS 2.8: Substituição de Pixels Negativos no MDEQGIS 2.8: Substituição de Pixels Negativos no MDE
QGIS 2.8: Substituição de Pixels Negativos no MDE
 
Geo-Informação
Geo-InformaçãoGeo-Informação
Geo-Informação
 
[José Ahirton Lopes] Support Vector Machines
[José Ahirton Lopes] Support Vector Machines[José Ahirton Lopes] Support Vector Machines
[José Ahirton Lopes] Support Vector Machines
 
Banco de dados geográfico - Aula de Encerramento
Banco de dados geográfico - Aula de EncerramentoBanco de dados geográfico - Aula de Encerramento
Banco de dados geográfico - Aula de Encerramento
 
Scipy meetup-2020-02
Scipy meetup-2020-02Scipy meetup-2020-02
Scipy meetup-2020-02
 
App
AppApp
App
 
Data Mining e Machine Learning com Python - Mateus Grellert - Tchelinux Pelot...
Data Mining e Machine Learning com Python - Mateus Grellert - Tchelinux Pelot...Data Mining e Machine Learning com Python - Mateus Grellert - Tchelinux Pelot...
Data Mining e Machine Learning com Python - Mateus Grellert - Tchelinux Pelot...
 
PostGIS - Conhecendo o Elefante Geoespacial
PostGIS - Conhecendo o Elefante GeoespacialPostGIS - Conhecendo o Elefante Geoespacial
PostGIS - Conhecendo o Elefante Geoespacial
 
Banco de dados geográficos
Banco de dados geográficosBanco de dados geográficos
Banco de dados geográficos
 
Tutorial de econometria espacial utilizando o stata
Tutorial de econometria espacial utilizando o stataTutorial de econometria espacial utilizando o stata
Tutorial de econometria espacial utilizando o stata
 
Análise Espacial Baseada em Localização
Análise Espacial Baseada em LocalizaçãoAnálise Espacial Baseada em Localização
Análise Espacial Baseada em Localização
 
Desvendando os mistérios do Data Science
Desvendando os mistérios do Data ScienceDesvendando os mistérios do Data Science
Desvendando os mistérios do Data Science
 
Tutoriais para criação e edição de gráficos no r
Tutoriais para criação e edição de gráficos no rTutoriais para criação e edição de gráficos no r
Tutoriais para criação e edição de gráficos no r
 
Introdução ao SIG
Introdução ao SIGIntrodução ao SIG
Introdução ao SIG
 

GTM: Generative Topographic Mapping

  • 1.
  • 2. O que é GTM? GTM – Mapeamento Topográfico Gerativo – é uma ferramenta da Mineração de Dados e um modelo algorítmico/computacional adaptativo e o uso desse modelo se aplica na recuperação de informação (representação, armazenamento e acesso aos dados).
  • 3. O que é GTM? O modelo GTM (BISHOP, SVENSÉN & WILLIAMS, 1998) é um modelo que executa um mapeamento paramétrico não linear de um espaço L-dimensional de variáveis (chamadas latentes) para um espaço D-dimensional de dados de entrada onde, normalmente, L<D. Este mapeamento define um subespaço S (contido no espaço de entrada) que representa o espaço de variáveis latentes segundo a transformação y(x,W), a qual mapeia pontos x do espaço latente para pontos v no espaço de dados, como ilustrado na Figura 5 para o caso em que o espaço latente reside em R² (L=2) e o espaço de dados, em R³ (D=3).
  • 4. Como é?  Cada ponto do espaço latente (X-espaço, à esquerda) é levado ao espaço de dados (Vespaço, à direita) através de um mapeamento paramétrico não linear y(x,W), o qual define um subespaço S contido no espaço de dados. Cada ponto pertencente a S é resultante da aplicação de y(x,W) sobre um ponto pertencente ao X-espaço. Assim, a transformação y(x,W) leva um ponto xa residente no espaço latente e definido pelas suas coordenadas (x1(a), x2(a)), para um ponto y(xa,W), pertencente ao espaço S e definido por suas coordenadas (v1(a), v2(a), v3(a)) no espaço de dados.  A hipótese feita pelo modelo GTM é a de que o comportamento do conjunto de dados no espaço D- dimensional pode de fato ser expresso por um conjunto menor de atributos 2 (as variáveis latentes) através de um mapeamento paramétrico não linear y(x,W). Uma aproximação para esse raciocínio é imaginar que, embora a dimensão do conjunto de entrada possa ser elevada, muitas das variáveis são correlacionadas entre si, resultando num conjunto potencialmente mais simples que pode representar o comportamento dos dados no espaço original (BISHOP, SVENSÉN & WILLIAMS, 1998). Os modelos baseados nesta ideia são chamados modelos de variáveis latentes (BARTHOLOMEW, 1987). O mapeamento realizado pelo GTM utiliza-se normalmente de um modelo de probabilidade baseado em mistura de gaussianas, o qual é adaptado pelo algoritmo EM (Expectation Maximization) (DEMPSTER, LAIRD & RUBIN, 1987; BISHOP, SVENSÉN & WILLIAMS, 1996, 1998;  SVENSÉN, 1998).
  • 5. Características do modelo GTM  Capacidade de operar com conjuntos volumosos de dados;  Capacidade de operar com dados representados por um grande número de características (alta dimensionalidade)  Utilização de aprendizado não supervisionado;  Capacidade de realizar projeção de dados, reduzindo assim a dimensionalidade do conjunto de dados  Capacidade de realizar redução de dados, diminuindo a quantidade de dados exibidos e pela ferramenta;  Possibilidade de avaliação gráfica dos resultados obtidos;  Algoritmos relativamente simples e rápidos;  Capacidade de generalização dos modelos, de forma a possibilitar a representação de dados não disponíveis no momento do treinamento.
  • 6. Para que serve? GTM oferece recursos consistentes para análise de dados, onde há variação de dimensionalidade, quantidade e tipo de dados disponíveis (discretos, contínuos, binários etc.). Há uma grande variedade de bancos de dados disponíveis(Glass, Ionosphere, Letter, Zoo) para utilização com o método GTM passíveis de uso em mineração de dados. http://parati.dca.fee.unicamp.br/media/Attachments/course IA368Q1S2012/Monografia/zuchini_mest.pdf (pag 102)
  • 7. Quem usa / Onde se aplica? A rede de lojas Walmart na década de 90, fez um grande investimento em mineração de dados, com uma pergunta básica: Que produto está relacionado a qual? Uma pessoa que compra cervejas compraria mais o que?”. Investiram em hardware com super processadores para buscar essa informação e com os ferramentas da mineração de dados, descobriram que quem compra cervejas, também comprava fraldas, o perfil da pessoa era: homem com filho pequeno, normalmente o primogênito, com habito de tomar cerveja as sextas-feiras e finais de semana. O Walmart com essa informação fazia promoções na quinta ou sexta feira com esses produtos. Banco Itaú com as malas diretas, através da mineração de dados, eles traçaram o perfil das pessoas que respondiam essas malas diretas e a partir das informações começaram a investir num determinado perfil. Bank of America utilizou a mineração de dados para verificar para quem o banco deveria fornecer crédito/empréstimo e saber qual perfil de usuário é inadimplente, com isso para quem o banco deveria oferecer esse empréstimo. O banco Nossa Caixa, Nosso Banco em 2008 desenvolveu um data mining para detecção de fraudes. Um site de poker que promove partidas online com grandes profissionais suspendeu um jogador, porque o mesmo utilizava a mineração de dados para traçar o perfil dos seus adversários.
  • 9. GTM: Generative Topographic Mapping Élide Matos de Oliveira Fábio Martins da Silva Lidiane Cristina de Moraes Marcelo Henrique Fernandes Ribeiro