SlideShare ist ein Scribd-Unternehmen logo
1 von 4
Downloaden Sie, um offline zu lesen
Gerac¸˜ao Semi-autom´atica de Taxonomias Usando Clustering
para Generalizac¸˜ao de Regras de Associac¸˜ao
Camila Delefrate Martins , Solange Oliveira Rezende
1
Laborat´orio de Inteligˆencia Computacional
Instituto de Ciˆencias Matem´aticas e de Computac¸˜ao
Universidade de S˜ao Paulo
Av. Trabalhador S˜ao-carlense, 400 - Centro
Caixa Postal: 668 - CEP: 13560-970 - S˜ao Carlos - SP
{camiladm, solange}@icmc.usp.br
Abstract. The data mining process aims to obtain valid, novel, useful and un-
derstandable knowledge. Therefore, it is important to develop technics to sup-
port the user when analysing the extracted knowledge, specially in the case
of association, because this technique generates great volume of rules, which
makes its interpretation a difficult task. Taxonomies can be used to reduce this
volume, but its manual construction is a very hard work. In this paper, it is pre-
sented a method to generate taxonomies using clustering, aiming to obtain more
useful and interesting taxonomies and reducing the time spent on this process.
Resumo. O objetivo do processo de minerac¸˜ao de dados ´e obter conhecimento
v´alido, novo, ´util e compreens´ıvel. Por isso, t´ecnicas que ap´oiem na an´alise do
conhecimento extra´ıdo s˜ao extremamente importantes, principalmente no caso
da t´ecnica de associac¸˜ao, uma vez que ´e gerado um grande volume de regras, o
que dificulta sua interpretac¸˜ao. Taxonomias podem ser utilizadas para reduzir
esse volume, por´em a construc¸˜ao manual das mesmas ´e um trabalho custoso.
Assim, ´e apresentado neste trabalho um m´etodo para identificac¸˜ao de taxono-
mias usando clustering, podendo gerar taxonomias mais ´uteis, interessantes e
reduzindo o tempo gasto no processo.
1. Introduc¸˜ao
O processo de minerac¸˜ao de dados tem como objetivo principal que seus usu´arios fi-
nais possam analisar, compreender e utilizar o conhecimento extra´ıdo de um conjunto de
dados em um sistema inteligente e/ou como apoio em processos de tomada de decis˜ao
[Rezende et al., 2003]. Um dos maiores problemas da t´ecnica de minerac¸˜ao de dados de-
nominada associac¸˜ao ´e o grande volume de regras gerado. Tipicamente, somente uma
pequena frac¸˜ao desse grande volume de regras ´e interessante ao usu´ario, o qual ´e cons-
tantemente sobrecarregado com uma grande quantidade de regras semelhantes. Por esse
motivo, ´e extremamente importante fornecer ferramentas eficientes para apoiar o usu´ario
na an´alise desse grande volume de regras.
Dentro desse contexto, foi desenvolvido o algoritmo GART (Generalization of
Association Rules using Taxonomies), que utiliza taxonomias para generalizar regras de
associac¸˜ao [Domingues, 2004]. A t´ecnica de generalizac¸˜ao utiliza taxonomias para trans-
formar regras espec´ıficas em conceitos gerais, produzindo conjuntos de regras mais com-
pactos e geralmente mais compreens´ıveis aos usu´arios [Srikant e Agrawal, 1997]. Para
utilizar o GART, o usu´ario deve construir e fornecer as taxonomias manualmente, tarefa
V ENIA 1094
que consome tempo consider´avel e exige um grande conhecimento do dom´ınio da base
de dados. O desenvolvimento de um m´etodo para a construc¸˜ao semi-autom´atica de taxo-
nomias pode contribuir para soluc¸˜ao desses problemas, provendo aux´ılio durante a etapa
de p´os-processamento do conhecimento.
Neste trabalho ´e apresentado um m´etodo para a construc¸˜ao semi-autom´atica de
taxonomias utilizando a t´ecnica de clustering. Assim, ele est´a organizado da seguinte
maneira: na sec¸˜ao 2 ´e realizada uma descric¸˜ao do uso de taxonomias em regras de
associac¸˜ao. O m´etodo desenvolvido e os experimentos realizados s˜ao descritos na sec¸˜ao 3.
Por fim, na sec¸˜ao 4 s˜ao apresentadas as considerac¸˜oes finais.
2. Uso de Taxonomias em Regras de Associac¸˜ao
Uma regra de associac¸˜ao caracteriza o quanto a presenc¸a de um conjunto de atributos s
nos registros (transac¸˜oes) de uma base de dados implica na presenc¸a de algum outro con-
junto distinto de atributos u nos mesmos registros [Agrawal e Srikant, 1994]. Entretanto,
esta t´ecnica gera um volume muito grande de regras, o que dificulta sua interpretac¸˜ao
pelo usu´ario. O uso de taxonomias em regras de associac¸˜ao pode auxiliar na reduc¸˜ao do
volume de regras extra´ıdas al´em de facilitar a an´alise e compreens˜ao do conhecimento.
As taxonomias refletem uma caracterizac¸˜ao coletiva ou individual de como os
itens podem ser hierarquicamente classificados [Adamo, 2001]. Por exemplo, pode-se
criar uma taxonomia que agrupe tˆenis e sand´alias como calc¸ados e uma outra que agrupe
camisetas e bermudas como roupas leves. Assim, camisetas ou bermudas ⇒ tˆenis ou
sand´alias pode ser uma representac¸˜ao da regra roupas leves ⇒ calc¸ados. As principais
motivac¸˜oes para o emprego de taxonomias em regras de associac¸˜ao s˜ao [Srikant, 2001]:
regras simples (com itens terminais na taxonomia) podem representar conhecimento in-
teressante ao serem agrupadas segundo uma taxonomia; regras muito espec´ıficas podem
ser generalizadas, melhorando a sua compreens˜ao; regras interessantes podem ser identi-
ficadas com o uso de informac¸˜oes contidas nas taxonomias.
A construc¸˜ao manual de taxonomias ´e uma tarefa custosa, considerando-se o
tempo gasto e o conhecimento do dom´ınio necess´ario para sua realizac¸˜ao. Assim, foi
desenvolvido um m´etodo para construc¸˜ao semi-autom´atica de taxonomias utilizando a
t´ecnica clustering para solucionar esse problema. Foram tamb´em realizados experimen-
tos a fim de analisar a viabilidade da utilizac¸˜ao dessa t´ecnica.
3. M´etodo para Identificac¸˜ao de Taxonomias Usando Clustering
Clustering agrupa exemplos baseado nas caracter´ısticas que esses possuem. Objetos per-
tencentes a um mesmo cluster s˜ao mais similares entre si de acordo com alguma medida
de similaridade pr´e-definida, enquanto que objetos pertencentes a clusters diferentes tˆem
uma similaridade menor. Dessa maneira, os agrupamentos gerados no processo de clus-
tering podem ser admitidos como taxonomias.
Na Figura 1 ´e apresentado o m´etodo para identificac¸˜ao de taxonomias usando
clustering. Os agrupamentos gerados pelos algoritmos de clustering s˜ao analisados pelos
especialistas e aqueles que forem v´alidos s˜ao fornecidos como entrada para o GART.
Para verificar a viabilidade da utilizac¸˜ao de clustering na identificac¸˜ao de taxono-
mias foram realizados experimentos com uma base de dados real de um supermercado.
O objetivo desses experimentos ´e verificar se por meio dos agrupamentos realizados pe-
los algoritmos de clustering ´e poss´ıvel identificar uma taxonomia de primeiro n´ıvel. Ou
V ENIA 1095
Figura 1: M´etodo para identificac¸ ˜ao de taxonomias usando clustering
seja, se produtos semelhantes seriam agrupados no mesmo cluster, por exemplo todas as
marcas de biscoito agrupadas no cluster x.
Est˜ao sendo realizados experimentos com trˆes tipos de algoritmos de clus-
tering: o probabil´ıstico AutoClass [Cheeseman et al., 1990], o hier´arquico G-cluto
[Rasmussen e Karypis, 2003] e o de otimizac¸˜ao K-means [MacQueen, 1967].
Nos experimentos iniciais, ap´os a execuc¸˜ao dos algoritmos, foram obtidos alguns
agrupamentos interessantes. Alguns deles s˜ao apresentados na Tabela 1.
Tabela 1: Resultados dos algoritmos de clustering na construc¸ ˜ao de taxonomias
AutoClass K-means G-cluto
Produto Cluster Produto Cluster Produto Cluster
Leite A 5 Suco A 16 Creme de leite A 39
Leite B 5 Suco B 16 Creme de leite B 39
Leite C 5 Suco C 16 Creme de leite C 39
Leite D 5 Suco D 16 Creme de leite D 39
Leite E 5 Suco E 16 Creme de leite E 39
Leite F 5 Suco F 16 – –
Leite G 5 Suco G 16 – –
Leite H 5 Suco H 16 – –
Leite I 5 – – – –
Leite J 5 – – – –
Leite L 5 – – – –
Analisando os resultados do algoritmo AutoClass, ´e poss´ıvel observar que os clus-
ters gerados agrupam, entre outros produtos, a maior parte dos produtos de determinada
marca. Por exemplo, no cluster 5 foram agrupadas praticamente todas as marcas de leite
(aproximadamente 75% do total). Outra observac¸˜ao relevante, ´e a visualizac¸˜ao de alguns
clusters com apenas um grupo de produtos, como o cluster 16 que apresenta apenas as
diferentes marcas de ´oleo.
O algoritmo K-means tamb´em obteve bons resultados, gerando clusters visual-
mente mais f´aceis de identificar como contendo apenas determinado produto, por exem-
plo o cluster 16 que ´e formado somente pelas marcas de suco. Esse algoritmo tamb´em
conseguiu agrupar em alguns clusters todas as marcas de determinado produto, caso do
cluster 0 que possui todas as marcas de creme de leite. Por´em, em geral, esse algoritmo
apresentou um desempenho um pouco pior que o AutoClass, uma vez que a maioria das
V ENIA 1096
marcas ficou dividida em v´arios clusters.
J´a o algoritmo G-cluto apresentou o pior desempenho para esse experimento, pois
n˜ao conseguiu agrupar grandes quantidades dos produtos. Os melhores resultados foram
obtidos com aproximadamente 5 marcas, como no caso de creme de leite (cluster 39).
Est˜ao sendo realizados outros experimentos com os algoritmos de clustering para
validar a metodologia apresentada neste trabalho e para identificar como ela poderia ser
incorporada ao algoritmo GART.
4. Considerac¸˜oe Finais
Neste trabalho foi apresentado um m´etodo para identificac¸˜ao de taxonomias usando clus-
tering e alguns experimentos j´a realizados para analisar a viabilidade desse m´etodo. Por
meio dos experimentos iniciais apresentados neste trabalho, foi poss´ıvel observar que em
geral os algoritmos de clustering obtiveram agrupamentos de primeiro n´ıvel melhores
do que aqueles que foram constru´ıdos manualmente em experimentos anteriores. Um
bom exemplo ´e o resultado do algoritmo AutoClass que agrupou 11 marcas de leite, en-
quanto que manualmente foi poss´ıvel identificar apenas 3 marcas desse mesmo produto
[Domingues, 2004]. Dever˜ao ainda ser realizados experimentos com outras t´ecnicas que
possam ser utilizadas para agrupar objetos.
Referˆencias
Adamo, J.-M. (2001). Data Mining for Association Rules and Sequential Patterns. SV,
New York, NY.
Agrawal, R. e Srikant, R. (1994). Fast algorithms for mining association rules. In
Bocca, J. B., Jarke, M., e Zaniolo, C. (Eds.), Proceedings of the 20th International
Conference on Very Large Data Bases, VLDB’94, pp. 487–499. Dispon´ıvel em:
http://citeseer.nj.nec.com/agrawal94fast.html [12/04/2004].
Cheeseman, P., Kelly, J., Self, M., Stutz, J., Taylor, W., e Freeman, D. (1990). Autoclass:
A bayesian classification system. In Shavlik, J. W. e Dietterich, T. G. (Eds.), Read-
ings in Machine Learning, pp. 296–306. Kaufmann, San Mateo, CA. Dispon´ıvel em:
http://ic.arc.nasa.gov/ic/projects/bayes-group/autoclass/ [08/03/2005].
Domingues, M. A. (2004). Generalizac¸˜ao de regras de associac¸˜ao. Dissertac¸˜ao de
mestrado, Instituto de Ciˆencias Matem´aticas e de Computac¸˜ao – USP – S˜ao Carlos.
MacQueen, J. B. (1967). Some methods for classification and analysis of multivariate
observations. In Proceedings of 5th Berkeley Symposium on Mathematical Statistics
and Probability, volume 1: Statistics, pp. 281–297.
Rasmussen, M. e Karypis, G. (2003). gcluto: An interactive clustering, visualization, and
analysis system. Relat´orio t´ecnico.
Rezende, S. O., Pugliesi, J. B., Melanda, E. A., e Paula, M. F. (2003). Minerac¸˜ao de
dados. In Rezende, S. O. (Ed.), Sistemas Inteligentes: Fundamentos e Aplicac¸˜oes,
chapter 12, pp. 307–335. Manole, 1 edition.
Srikant, R. (2001). Association rules: Past, present and future. ICCS
2001 International Workshop on Concept Lattice-based theory, methods and
tools for Knowledge Discovery in Databases. Invited Talk. Dispon´ıvel em:
http://www.almaden.ibm.com/cs/people/srikant/talks/assoc.pdf [19/09/2003].
Srikant, R. e Agrawal, R. (1997). Mining generalized association rules. Future Genera-
tion Computer Systems, 13(2/3):161–180.
V ENIA 1097

Weitere ähnliche Inhalte

Ähnlich wie ENIA2005

Guia completo para definição de estatística de modelos e algoritmos de machin...
Guia completo para definição de estatística de modelos e algoritmos de machin...Guia completo para definição de estatística de modelos e algoritmos de machin...
Guia completo para definição de estatística de modelos e algoritmos de machin...Geanderson Lenz
 
Clustering informatizado
Clustering  informatizadoClustering  informatizado
Clustering informatizadoDiêgo Maciel
 
2014 1 eng_producao_5_sistemas_apoio_decisao
2014 1 eng_producao_5_sistemas_apoio_decisao2014 1 eng_producao_5_sistemas_apoio_decisao
2014 1 eng_producao_5_sistemas_apoio_decisaoValeska Viviane Silva
 
6.3 Clustering_338ca79f26242f5b9b48a218cfc35819.pdf
6.3 Clustering_338ca79f26242f5b9b48a218cfc35819.pdf6.3 Clustering_338ca79f26242f5b9b48a218cfc35819.pdf
6.3 Clustering_338ca79f26242f5b9b48a218cfc35819.pdfDavidLarronda1
 
SysSorting Professional
SysSorting ProfessionalSysSorting Professional
SysSorting ProfessionalMichel Alves
 
Modelagem e Simulação de Sistemas Produtivos
Modelagem e Simulação de Sistemas ProdutivosModelagem e Simulação de Sistemas Produtivos
Modelagem e Simulação de Sistemas ProdutivosAdeildo Telles
 
ALgoritmo Genético - Escalonamento
ALgoritmo Genético - EscalonamentoALgoritmo Genético - Escalonamento
ALgoritmo Genético - EscalonamentoAdilmar Dantas
 
MENSURAÇÃO DOS CUSTOS PRODUTIVOS: UTILIZAÇÃO DO MÉTODO UEP EM ESTUDO DE CASO
MENSURAÇÃO DOS CUSTOS PRODUTIVOS: UTILIZAÇÃO DO MÉTODO UEP EM ESTUDO DE CASOMENSURAÇÃO DOS CUSTOS PRODUTIVOS: UTILIZAÇÃO DO MÉTODO UEP EM ESTUDO DE CASO
MENSURAÇÃO DOS CUSTOS PRODUTIVOS: UTILIZAÇÃO DO MÉTODO UEP EM ESTUDO DE CASOFabio de Araújo Nascimento
 
Estudo e Avaliação do Problema de Otimização da Multiplicação de Cadeias de M...
Estudo e Avaliação do Problema de Otimização da Multiplicação de Cadeias de M...Estudo e Avaliação do Problema de Otimização da Multiplicação de Cadeias de M...
Estudo e Avaliação do Problema de Otimização da Multiplicação de Cadeias de M...Eduardo de Lucena Falcão
 
Análise empírica de algoritmos de ordenação
Análise empírica de algoritmos de ordenaçãoAnálise empírica de algoritmos de ordenação
Análise empírica de algoritmos de ordenaçãoOrlando Junior
 
Modelagem Analítica – Queueing Theory (Part I)
Modelagem Analítica – Queueing Theory (Part I)Modelagem Analítica – Queueing Theory (Part I)
Modelagem Analítica – Queueing Theory (Part I)Joao Galdino Mello de Souza
 
Inteligencia de negócios
Inteligencia de negóciosInteligencia de negócios
Inteligencia de negóciosDaniel Nóro
 
97d0 a interatividade_do_sap_no_processo_tpm_nas_organizacoes_um_estudo_de_ca...
97d0 a interatividade_do_sap_no_processo_tpm_nas_organizacoes_um_estudo_de_ca...97d0 a interatividade_do_sap_no_processo_tpm_nas_organizacoes_um_estudo_de_ca...
97d0 a interatividade_do_sap_no_processo_tpm_nas_organizacoes_um_estudo_de_ca...Adilson Mereth
 
Conceitos e técnicas de programação apostilha algoritmo
Conceitos e técnicas de programação apostilha algoritmoConceitos e técnicas de programação apostilha algoritmo
Conceitos e técnicas de programação apostilha algoritmoRobson Ferreira
 
Apostila de Introdução aos Algoritmos - usando o Visualg
Apostila de Introdução aos Algoritmos - usando o VisualgApostila de Introdução aos Algoritmos - usando o Visualg
Apostila de Introdução aos Algoritmos - usando o VisualgRegis Magalhães
 
Contagem automatizada de ovos de schistosoma mansoni para o método de kato-katz
Contagem automatizada de ovos de schistosoma mansoni para o método de kato-katzContagem automatizada de ovos de schistosoma mansoni para o método de kato-katz
Contagem automatizada de ovos de schistosoma mansoni para o método de kato-katzAndré Pontes Melo
 

Ähnlich wie ENIA2005 (20)

Guia completo para definição de estatística de modelos e algoritmos de machin...
Guia completo para definição de estatística de modelos e algoritmos de machin...Guia completo para definição de estatística de modelos e algoritmos de machin...
Guia completo para definição de estatística de modelos e algoritmos de machin...
 
Clustering informatizado
Clustering  informatizadoClustering  informatizado
Clustering informatizado
 
2014 1 eng_producao_5_sistemas_apoio_decisao
2014 1 eng_producao_5_sistemas_apoio_decisao2014 1 eng_producao_5_sistemas_apoio_decisao
2014 1 eng_producao_5_sistemas_apoio_decisao
 
6.3 Clustering_338ca79f26242f5b9b48a218cfc35819.pdf
6.3 Clustering_338ca79f26242f5b9b48a218cfc35819.pdf6.3 Clustering_338ca79f26242f5b9b48a218cfc35819.pdf
6.3 Clustering_338ca79f26242f5b9b48a218cfc35819.pdf
 
SysSorting Professional
SysSorting ProfessionalSysSorting Professional
SysSorting Professional
 
Modelagem e Simulação de Sistemas Produtivos
Modelagem e Simulação de Sistemas ProdutivosModelagem e Simulação de Sistemas Produtivos
Modelagem e Simulação de Sistemas Produtivos
 
ALgoritmo Genético - Escalonamento
ALgoritmo Genético - EscalonamentoALgoritmo Genético - Escalonamento
ALgoritmo Genético - Escalonamento
 
MENSURAÇÃO DOS CUSTOS PRODUTIVOS: UTILIZAÇÃO DO MÉTODO UEP EM ESTUDO DE CASO
MENSURAÇÃO DOS CUSTOS PRODUTIVOS: UTILIZAÇÃO DO MÉTODO UEP EM ESTUDO DE CASOMENSURAÇÃO DOS CUSTOS PRODUTIVOS: UTILIZAÇÃO DO MÉTODO UEP EM ESTUDO DE CASO
MENSURAÇÃO DOS CUSTOS PRODUTIVOS: UTILIZAÇÃO DO MÉTODO UEP EM ESTUDO DE CASO
 
Estudo e Avaliação do Problema de Otimização da Multiplicação de Cadeias de M...
Estudo e Avaliação do Problema de Otimização da Multiplicação de Cadeias de M...Estudo e Avaliação do Problema de Otimização da Multiplicação de Cadeias de M...
Estudo e Avaliação do Problema de Otimização da Multiplicação de Cadeias de M...
 
Análise empírica de algoritmos de ordenação
Análise empírica de algoritmos de ordenaçãoAnálise empírica de algoritmos de ordenação
Análise empírica de algoritmos de ordenação
 
Trabalho PI I
Trabalho PI ITrabalho PI I
Trabalho PI I
 
Modelagem Analítica – Queueing Theory (Part I)
Modelagem Analítica – Queueing Theory (Part I)Modelagem Analítica – Queueing Theory (Part I)
Modelagem Analítica – Queueing Theory (Part I)
 
Inteligencia de negócios
Inteligencia de negóciosInteligencia de negócios
Inteligencia de negócios
 
97d0 a interatividade_do_sap_no_processo_tpm_nas_organizacoes_um_estudo_de_ca...
97d0 a interatividade_do_sap_no_processo_tpm_nas_organizacoes_um_estudo_de_ca...97d0 a interatividade_do_sap_no_processo_tpm_nas_organizacoes_um_estudo_de_ca...
97d0 a interatividade_do_sap_no_processo_tpm_nas_organizacoes_um_estudo_de_ca...
 
Visu alg ref
Visu alg refVisu alg ref
Visu alg ref
 
Apostila visualgv25
Apostila visualgv25Apostila visualgv25
Apostila visualgv25
 
Conceitos e técnicas de programação apostilha algoritmo
Conceitos e técnicas de programação apostilha algoritmoConceitos e técnicas de programação apostilha algoritmo
Conceitos e técnicas de programação apostilha algoritmo
 
Apostila de Introdução aos Algoritmos - usando o Visualg
Apostila de Introdução aos Algoritmos - usando o VisualgApostila de Introdução aos Algoritmos - usando o Visualg
Apostila de Introdução aos Algoritmos - usando o Visualg
 
Contagem automatizada de ovos de schistosoma mansoni para o método de kato-katz
Contagem automatizada de ovos de schistosoma mansoni para o método de kato-katzContagem automatizada de ovos de schistosoma mansoni para o método de kato-katz
Contagem automatizada de ovos de schistosoma mansoni para o método de kato-katz
 
Resenha WoSida 2015
Resenha WoSida 2015Resenha WoSida 2015
Resenha WoSida 2015
 

ENIA2005

  • 1. Gerac¸˜ao Semi-autom´atica de Taxonomias Usando Clustering para Generalizac¸˜ao de Regras de Associac¸˜ao Camila Delefrate Martins , Solange Oliveira Rezende 1 Laborat´orio de Inteligˆencia Computacional Instituto de Ciˆencias Matem´aticas e de Computac¸˜ao Universidade de S˜ao Paulo Av. Trabalhador S˜ao-carlense, 400 - Centro Caixa Postal: 668 - CEP: 13560-970 - S˜ao Carlos - SP {camiladm, solange}@icmc.usp.br Abstract. The data mining process aims to obtain valid, novel, useful and un- derstandable knowledge. Therefore, it is important to develop technics to sup- port the user when analysing the extracted knowledge, specially in the case of association, because this technique generates great volume of rules, which makes its interpretation a difficult task. Taxonomies can be used to reduce this volume, but its manual construction is a very hard work. In this paper, it is pre- sented a method to generate taxonomies using clustering, aiming to obtain more useful and interesting taxonomies and reducing the time spent on this process. Resumo. O objetivo do processo de minerac¸˜ao de dados ´e obter conhecimento v´alido, novo, ´util e compreens´ıvel. Por isso, t´ecnicas que ap´oiem na an´alise do conhecimento extra´ıdo s˜ao extremamente importantes, principalmente no caso da t´ecnica de associac¸˜ao, uma vez que ´e gerado um grande volume de regras, o que dificulta sua interpretac¸˜ao. Taxonomias podem ser utilizadas para reduzir esse volume, por´em a construc¸˜ao manual das mesmas ´e um trabalho custoso. Assim, ´e apresentado neste trabalho um m´etodo para identificac¸˜ao de taxono- mias usando clustering, podendo gerar taxonomias mais ´uteis, interessantes e reduzindo o tempo gasto no processo. 1. Introduc¸˜ao O processo de minerac¸˜ao de dados tem como objetivo principal que seus usu´arios fi- nais possam analisar, compreender e utilizar o conhecimento extra´ıdo de um conjunto de dados em um sistema inteligente e/ou como apoio em processos de tomada de decis˜ao [Rezende et al., 2003]. Um dos maiores problemas da t´ecnica de minerac¸˜ao de dados de- nominada associac¸˜ao ´e o grande volume de regras gerado. Tipicamente, somente uma pequena frac¸˜ao desse grande volume de regras ´e interessante ao usu´ario, o qual ´e cons- tantemente sobrecarregado com uma grande quantidade de regras semelhantes. Por esse motivo, ´e extremamente importante fornecer ferramentas eficientes para apoiar o usu´ario na an´alise desse grande volume de regras. Dentro desse contexto, foi desenvolvido o algoritmo GART (Generalization of Association Rules using Taxonomies), que utiliza taxonomias para generalizar regras de associac¸˜ao [Domingues, 2004]. A t´ecnica de generalizac¸˜ao utiliza taxonomias para trans- formar regras espec´ıficas em conceitos gerais, produzindo conjuntos de regras mais com- pactos e geralmente mais compreens´ıveis aos usu´arios [Srikant e Agrawal, 1997]. Para utilizar o GART, o usu´ario deve construir e fornecer as taxonomias manualmente, tarefa V ENIA 1094
  • 2. que consome tempo consider´avel e exige um grande conhecimento do dom´ınio da base de dados. O desenvolvimento de um m´etodo para a construc¸˜ao semi-autom´atica de taxo- nomias pode contribuir para soluc¸˜ao desses problemas, provendo aux´ılio durante a etapa de p´os-processamento do conhecimento. Neste trabalho ´e apresentado um m´etodo para a construc¸˜ao semi-autom´atica de taxonomias utilizando a t´ecnica de clustering. Assim, ele est´a organizado da seguinte maneira: na sec¸˜ao 2 ´e realizada uma descric¸˜ao do uso de taxonomias em regras de associac¸˜ao. O m´etodo desenvolvido e os experimentos realizados s˜ao descritos na sec¸˜ao 3. Por fim, na sec¸˜ao 4 s˜ao apresentadas as considerac¸˜oes finais. 2. Uso de Taxonomias em Regras de Associac¸˜ao Uma regra de associac¸˜ao caracteriza o quanto a presenc¸a de um conjunto de atributos s nos registros (transac¸˜oes) de uma base de dados implica na presenc¸a de algum outro con- junto distinto de atributos u nos mesmos registros [Agrawal e Srikant, 1994]. Entretanto, esta t´ecnica gera um volume muito grande de regras, o que dificulta sua interpretac¸˜ao pelo usu´ario. O uso de taxonomias em regras de associac¸˜ao pode auxiliar na reduc¸˜ao do volume de regras extra´ıdas al´em de facilitar a an´alise e compreens˜ao do conhecimento. As taxonomias refletem uma caracterizac¸˜ao coletiva ou individual de como os itens podem ser hierarquicamente classificados [Adamo, 2001]. Por exemplo, pode-se criar uma taxonomia que agrupe tˆenis e sand´alias como calc¸ados e uma outra que agrupe camisetas e bermudas como roupas leves. Assim, camisetas ou bermudas ⇒ tˆenis ou sand´alias pode ser uma representac¸˜ao da regra roupas leves ⇒ calc¸ados. As principais motivac¸˜oes para o emprego de taxonomias em regras de associac¸˜ao s˜ao [Srikant, 2001]: regras simples (com itens terminais na taxonomia) podem representar conhecimento in- teressante ao serem agrupadas segundo uma taxonomia; regras muito espec´ıficas podem ser generalizadas, melhorando a sua compreens˜ao; regras interessantes podem ser identi- ficadas com o uso de informac¸˜oes contidas nas taxonomias. A construc¸˜ao manual de taxonomias ´e uma tarefa custosa, considerando-se o tempo gasto e o conhecimento do dom´ınio necess´ario para sua realizac¸˜ao. Assim, foi desenvolvido um m´etodo para construc¸˜ao semi-autom´atica de taxonomias utilizando a t´ecnica clustering para solucionar esse problema. Foram tamb´em realizados experimen- tos a fim de analisar a viabilidade da utilizac¸˜ao dessa t´ecnica. 3. M´etodo para Identificac¸˜ao de Taxonomias Usando Clustering Clustering agrupa exemplos baseado nas caracter´ısticas que esses possuem. Objetos per- tencentes a um mesmo cluster s˜ao mais similares entre si de acordo com alguma medida de similaridade pr´e-definida, enquanto que objetos pertencentes a clusters diferentes tˆem uma similaridade menor. Dessa maneira, os agrupamentos gerados no processo de clus- tering podem ser admitidos como taxonomias. Na Figura 1 ´e apresentado o m´etodo para identificac¸˜ao de taxonomias usando clustering. Os agrupamentos gerados pelos algoritmos de clustering s˜ao analisados pelos especialistas e aqueles que forem v´alidos s˜ao fornecidos como entrada para o GART. Para verificar a viabilidade da utilizac¸˜ao de clustering na identificac¸˜ao de taxono- mias foram realizados experimentos com uma base de dados real de um supermercado. O objetivo desses experimentos ´e verificar se por meio dos agrupamentos realizados pe- los algoritmos de clustering ´e poss´ıvel identificar uma taxonomia de primeiro n´ıvel. Ou V ENIA 1095
  • 3. Figura 1: M´etodo para identificac¸ ˜ao de taxonomias usando clustering seja, se produtos semelhantes seriam agrupados no mesmo cluster, por exemplo todas as marcas de biscoito agrupadas no cluster x. Est˜ao sendo realizados experimentos com trˆes tipos de algoritmos de clus- tering: o probabil´ıstico AutoClass [Cheeseman et al., 1990], o hier´arquico G-cluto [Rasmussen e Karypis, 2003] e o de otimizac¸˜ao K-means [MacQueen, 1967]. Nos experimentos iniciais, ap´os a execuc¸˜ao dos algoritmos, foram obtidos alguns agrupamentos interessantes. Alguns deles s˜ao apresentados na Tabela 1. Tabela 1: Resultados dos algoritmos de clustering na construc¸ ˜ao de taxonomias AutoClass K-means G-cluto Produto Cluster Produto Cluster Produto Cluster Leite A 5 Suco A 16 Creme de leite A 39 Leite B 5 Suco B 16 Creme de leite B 39 Leite C 5 Suco C 16 Creme de leite C 39 Leite D 5 Suco D 16 Creme de leite D 39 Leite E 5 Suco E 16 Creme de leite E 39 Leite F 5 Suco F 16 – – Leite G 5 Suco G 16 – – Leite H 5 Suco H 16 – – Leite I 5 – – – – Leite J 5 – – – – Leite L 5 – – – – Analisando os resultados do algoritmo AutoClass, ´e poss´ıvel observar que os clus- ters gerados agrupam, entre outros produtos, a maior parte dos produtos de determinada marca. Por exemplo, no cluster 5 foram agrupadas praticamente todas as marcas de leite (aproximadamente 75% do total). Outra observac¸˜ao relevante, ´e a visualizac¸˜ao de alguns clusters com apenas um grupo de produtos, como o cluster 16 que apresenta apenas as diferentes marcas de ´oleo. O algoritmo K-means tamb´em obteve bons resultados, gerando clusters visual- mente mais f´aceis de identificar como contendo apenas determinado produto, por exem- plo o cluster 16 que ´e formado somente pelas marcas de suco. Esse algoritmo tamb´em conseguiu agrupar em alguns clusters todas as marcas de determinado produto, caso do cluster 0 que possui todas as marcas de creme de leite. Por´em, em geral, esse algoritmo apresentou um desempenho um pouco pior que o AutoClass, uma vez que a maioria das V ENIA 1096
  • 4. marcas ficou dividida em v´arios clusters. J´a o algoritmo G-cluto apresentou o pior desempenho para esse experimento, pois n˜ao conseguiu agrupar grandes quantidades dos produtos. Os melhores resultados foram obtidos com aproximadamente 5 marcas, como no caso de creme de leite (cluster 39). Est˜ao sendo realizados outros experimentos com os algoritmos de clustering para validar a metodologia apresentada neste trabalho e para identificar como ela poderia ser incorporada ao algoritmo GART. 4. Considerac¸˜oe Finais Neste trabalho foi apresentado um m´etodo para identificac¸˜ao de taxonomias usando clus- tering e alguns experimentos j´a realizados para analisar a viabilidade desse m´etodo. Por meio dos experimentos iniciais apresentados neste trabalho, foi poss´ıvel observar que em geral os algoritmos de clustering obtiveram agrupamentos de primeiro n´ıvel melhores do que aqueles que foram constru´ıdos manualmente em experimentos anteriores. Um bom exemplo ´e o resultado do algoritmo AutoClass que agrupou 11 marcas de leite, en- quanto que manualmente foi poss´ıvel identificar apenas 3 marcas desse mesmo produto [Domingues, 2004]. Dever˜ao ainda ser realizados experimentos com outras t´ecnicas que possam ser utilizadas para agrupar objetos. Referˆencias Adamo, J.-M. (2001). Data Mining for Association Rules and Sequential Patterns. SV, New York, NY. Agrawal, R. e Srikant, R. (1994). Fast algorithms for mining association rules. In Bocca, J. B., Jarke, M., e Zaniolo, C. (Eds.), Proceedings of the 20th International Conference on Very Large Data Bases, VLDB’94, pp. 487–499. Dispon´ıvel em: http://citeseer.nj.nec.com/agrawal94fast.html [12/04/2004]. Cheeseman, P., Kelly, J., Self, M., Stutz, J., Taylor, W., e Freeman, D. (1990). Autoclass: A bayesian classification system. In Shavlik, J. W. e Dietterich, T. G. (Eds.), Read- ings in Machine Learning, pp. 296–306. Kaufmann, San Mateo, CA. Dispon´ıvel em: http://ic.arc.nasa.gov/ic/projects/bayes-group/autoclass/ [08/03/2005]. Domingues, M. A. (2004). Generalizac¸˜ao de regras de associac¸˜ao. Dissertac¸˜ao de mestrado, Instituto de Ciˆencias Matem´aticas e de Computac¸˜ao – USP – S˜ao Carlos. MacQueen, J. B. (1967). Some methods for classification and analysis of multivariate observations. In Proceedings of 5th Berkeley Symposium on Mathematical Statistics and Probability, volume 1: Statistics, pp. 281–297. Rasmussen, M. e Karypis, G. (2003). gcluto: An interactive clustering, visualization, and analysis system. Relat´orio t´ecnico. Rezende, S. O., Pugliesi, J. B., Melanda, E. A., e Paula, M. F. (2003). Minerac¸˜ao de dados. In Rezende, S. O. (Ed.), Sistemas Inteligentes: Fundamentos e Aplicac¸˜oes, chapter 12, pp. 307–335. Manole, 1 edition. Srikant, R. (2001). Association rules: Past, present and future. ICCS 2001 International Workshop on Concept Lattice-based theory, methods and tools for Knowledge Discovery in Databases. Invited Talk. Dispon´ıvel em: http://www.almaden.ibm.com/cs/people/srikant/talks/assoc.pdf [19/09/2003]. Srikant, R. e Agrawal, R. (1997). Mining generalized association rules. Future Genera- tion Computer Systems, 13(2/3):161–180. V ENIA 1097