O documento discute mineração de dados, que é o processo de extrair padrões úteis de grandes quantidades de dados armazenados em bancos de dados. A mineração de dados envolve pré-processamento, a aplicação de algoritmos e técnicas para extrair modelos de dados, e pós-processamento para interpretar os resultados. Alguns tipos comuns de mineração de dados incluem classificação, clusterização, detecção de associações e anomalias.
Mineração de Dados: Processo de Descoberta de Padrões em Bancos de Dados
1. Mineração de Dados
Renata Oliveira Nunes
RESUMO
O armazenamento de informação em banco de
dados, cada vez mais é alimentado com uma
quantidade gigantesca de informação, gerando
novas formas para pesquisar todos esses
dados.
Conteúdo dos mais diversos tipos, para várias
finalidades possíveis, com assuntos ou
contextos de interesse provável para buscas
que levariam horas, dias, meses ou até mesmo
anos de pesquisas, para encontrar o que
realmente é o alvo de tanto trabalho para ser
localizado.
Por isso, os sistemas de banco de dados vem
sendo modificados, criando novas estruturas
de armazenamento e de pesquisa para toda
essa informação.
Esse assunto é tratado de forma simples, sobre
como são garimpadas essas informações, no
processo chamado mineração de dados, onde,
algumas partes principais desse processo são
explicadas resumidamente, para uma
compreensão lógica do assunto em si.
Palavras chave: Mineração de dados,
descoberta de conhecimento em banco de
dados, banco de dados.
ABSTRACT
The storage of information in the databases, is
increasingly fed a huge amount of information,
creating new ways to search all data.
Content of all kinds, for several possible
purposes, with subjects or contexts of likely
interest to searches that would take hours,
days, months or even years of research, to find
out what really is the target of so much work to
be located.
Therefore, the database system has been
modified, creating new structures for storage
and search for all this information.
This subject is treated in a simple way, how are
mined this information in a process called data
mining, where some major parts of this process
are explained briefly, to a logical understanding
of the subject itself.
Keywords: Data mining, knowledge discovery
in databases, database.
2. INTRODUÇÃO
Em 1989 o termo KDD (Knowledge
Discovery in Databases - Descoberta de
Conhecimento em Banco de Dados) foi
aceito formalmente, comoreferência a busca
de conhecimento em base de dados.
(Netto, Matos, 1998, p.25)
Sendo considerada a principal etapa no
processo de KDD, a mineração de dados é o
método central responsável pela busca dos
dados extremamente relevantes nesse tipo
de pesquisa de dados.
Nesse processo,são aplicadas técnicas para
extrair os modelos de dados utilizando
algoritmos e softwares disponíveis no
mercado, que dependem do tipo de tarefa a
ser realizada para o processo de mineração
de dados.
O processo de KDD precisa seguir algumas
fases necessárias comopré-processamento,
mineração de dados e pós-processamento.
O pré-processamento consiste em
solucionar problemas nos dados eliminando
inconsistências e dados redundantes,
verificar dados muito diferentes em relação
ao contexto dos dados e recuperar dados
incompletos. Especialistas com
conhecimento profundo da aplicação são
muito importantes nessa fase, pois definem
a avaliação dos resultados.
A Mineração de Dados ou do inglês Data
Mining, tem como referência uma forma de
garimpagem ou uma forma de descobrir
novas informações de dados em grandes
quantidades, seguindo algumas regras.
Um exemplo de mineração de dados seria
como um agrupamento de documentos
semelhantes, resultantes de um sistema de
busca, onde, de acordo com seu contexto,
poderia descobrir se certos nomes aparecem
com mais frequência em determinadas
regiões de uma cidade.
A Mineração de dados tem uma forma
analítica para a exploração de dados, onde o
objetivo orienta-se em procurar padrões que
sejam interessantes entre os dados, para
que possam ser utilizados para definir uma
estratégia de negócio ou um comportamento
pouco frequente para uma avaliação.
O pós-processamento é a etapa onde o
conhecimento que foi obtido na etapa de
mineração dos dados será tratado, com o
objetivo de facilitar a interpretação e
avaliação, feita pelo homem, sobre a
utilidade do conhecimento descoberto.
MINERAÇÃO DE DADOS
De um conjunto de dados gerados na etapa
de pré-processamento, será definida qual
tarefa de mineração será utilizada.
Técnicas e algoritmos são utilizadas nessa
fase e a escolha depende do tipo de tarefa
de KDD deve ser realizada.
Esses dados precisão ser preparados para
poder gerar dados significativos para as
decisões de negócios. (Elmasri, Navathe,
2004, p. 625)
Para facilitar a preparação dos dados
algumas etapas são divididas em heurísticas
e estatísticas, tais como: Algoritmos
Genéricos, Redes Neurais e Modelos
Estatísticos e Probabilísticos.
A Tarefa de mineração utilizada no processo
de KDD está ligada à forma com que os
dados foram pré-processados.
Determinados algoritmos possuem
restrições quanto aos tipos de variáveis
envolvidas no problema. O uso de diferentes
técnicas e algoritmos para executar uma
mesma tarefa também pode produzir
diferentes resultados.
Segundo Netto e Matos (1998, p.26) existem
cinco principais tarefas de mineração, a
saber: Sequência, Associação,
Classificação, Detecção de desvios e
Clusterização.
Descoberta de Sequência - É utilizada uma
verificação por eventos ou ações em
sequências, onde, padrões de associações
entre eventos são encontrados, com certas
relações de tempo, identificando-se uma
ordem. Alguns dos métodos para esse fim
são utilizados com algoritmos: Prefix Span,
Generalizai Sequencial Pattern e Spirit.
Descoberta de associação - Englobando a
busca por itens que ocorram frequentemente
de forma simultânea em transações do
banco de dados. O exemplo mais clássicode
associação foi a aplicação em uma grande
rede de supermercados no qual descobriu-se
que um número razoável de compradores de
fralda também compravam cerveja em finais
de semana com jogos transmitidos pela
televisão. Dentre os métodos de associação
têm-se os algoritmos: Apriori, Apriori TID e
Direct.
3. Hierarquias de Classificação - Com um
conjunto de eventos que já existe, cria-se
então uma hierarquia de classes. Podendo
ser aplicada em registros novos, quando
descoberta, prevendo a classe à qual
pertence esses registros.
Comportamentos observáveis, em históricos
de empresas que analisam créditos de
clientes que pagam em dia e os
inadimplentes, temos então duas classes
sendo avaliadas, conforme uma hierarquia
pré-definida para a relação de pagamento.
Identificar de maneira correta cada cliente,
consiste de uma aplicação que descubra
uma função partindo de seus dados, em uma
classe, para esse resultado.
Para efetuar essas classificações alguns
métodos são utilizados com os algoritmos:
Classificadores Bayesianos, Árvores de
Decisão,Back Propagation e Redes Neurais.
Detecção de desvios – É a identificação do
conteúdo do banco de dados, verificando
anormalidades referentes a padrões com
mudanças muito grandes, como a de clientes
com contas bancárias, que efetuam um
saque com uma quantia muito elevada,
diferente do comportamento normal. Para
detecção dessa forma de análise chamada
de outliers utiliza-se o algoritmo Nested.
Clusterização - separa os conteúdos dos
registros em clusters ou divisões de uma
coleção de objetos semelhantes. O objetivo
é particionar os registros do banco de dados,
formando subconjuntos. Dessa forma são
separadas propriedades de informações de
cada registro, agrupando somente as que
pertencem a esse subconjunto. Como
característica dessa forma de análise, tem-
se o que se chama de aprendizado por
observação, onde, observa-se os clusters
como representação de classes que não tem
definição inicial no processo de aprendizado,
ou seja, cada parte do conjunto será
analisada como blocos de informações,
seguindo as características das
propriedades semelhantes, definidas por
observação inicial, para todo o conteúdo
analisado, formando subconjuntos conforme
as informações forem se agrupando.
CONCLUSÃO
Como uma parte muito importante dentro do
KDD, a mineração de dados apesar de sua
complexidade, em se tratando de formas
analíticas no processo de seleção de
informações cruciais no que diz respeito a
descoberta de conhecimento, dentro de uma
estrutura de banco de dados com imenso
conteúdo. Sempre existiu a necessidade de
um mecanismo facilitador como esse, sendo
fundamental em um mundo na era da
informação, uma pesquisa de forma mais
prática acelerando a busca para o que é
relevante, para o mundo dos negócios.
REFERÊNCIAS BIBLIOGRÁFICAS
ELMASRI, Ramez; NAVATHE, Shamkant B.
Sistemas de bancos de dados. 4ª Edição São
Paulo: Pearson Addison Wesley, 2005.
NETTO, Marcio Marcenes; MATOS, Tauller
Augusto de Araújo. Mineração de Dados na
Prática. Rio de Janeiro: Revista SQL
Magazine – Devmedia, 1998.