O documento discute a mineração de dados e novas oportunidades de análise para sistemas de informação. Apresenta o que é mineração de dados, suas principais tarefas como previsão, associação, grupo e detecção de anomalias, e desafios como escalabilidade e alta dimensionalidade. Dois exemplos aplicam técnicas de mineração para analisar visitas a um site e padrões de comunicação em um curso EAD.
COMPETÊNCIA 2 da redação do enem prodção textual professora vanessa cavalcante
Mineração de dados e novas oportunidades de análise para sistemas de informação
1. Mineração de dados e novas oportunidades
de análise para sistemas de informação
Prof. Dalton Martins
dmartins@gmail.com
FATEC – São Paulo 14º Congresso de Tecnologia da Fatec São Paulo
Depto. de Tecnologia da Informação 17/10/2012
2. O que é mineração de dados?
●
É uma tecnologia que combina métodos
tradicionais de análise de dados com
algoritmos sofisticados para processar
grandes volumes de dados;
●
É também um processo de descoberta de
informações úteis em grandes depósitos de
dados;
●
Também fornece capacidade de previsão do
resultado em uma observação futura.
3. Mineração e descoberta do
conhecimento
Entrada Pré-processamento Mineração Pós-processamento Informações
de dados de dados de dados de dados
Seleção de recursos
Redução de dimensionalidade Padrões de filtragem
Normalização Visualização
Criação de subconjuntos de dados Interpretação de padrões
4. Desafios motivadores
● Escalabilidade: devido aos avanços na geração e
coleta, conjuntos de dados com tamanhos em giga, tera e
mesmo petabytes estão se tornando comuns;
● Alta dimensionalidade: é comum encontrarmos
conjuntos de dados com centenas ou milhares de atributos
ao invés do punhado comum de uma década atrás;
● Dados complexos e heterogêneos: diversificação
de tipos de atributos e relacionamento entre eles;
● Propriedade e distribuição dos dados: os dados
utilizados para análise nem sempre estão mais num mesmo
local e pertencem a múltiplas instâncias organizacionais;
● Análises não tradicionais: novas técnicas para
validação de hipóteses têm surgido atualmente.
5. 4 principais tarefas da Mineração
● Modelagem de previsão: se refere à tarefa de
construir um modelo para a variável alvo como uma
função das variáveis explicativas.
– Há dois tipos de tarefas de modelagem de previsão:
● Classificação: usada para variáveis discretas;
● Regressão: usada para variáveis contínuas.
● Análise de associação: é usada para descobrir
padrões que descrevam características altamente
associadas dentro dos dados.
– Os padrões descobertos são normalmente representados na
forma de regras de implicação ou subconjuntos de
características.
6. 4 principais tarefas da Mineração
● Análise de grupo: procura encontrar
grupos de observações intimamente
relacionadas de modo que observações que
pertençam ao mesmo grupo sejam mais
semelhantes entre si do que com as que
pertençam a outros grupos;
● Detecção de anomalias: é a tarefa de
identificar observações cujas características
sejam significativamente diferentes do resto
dos dados. Tais observações são conhecidas
como anomalias ou fatores estranhos.
7. Conhecimentos de base do
minerador de dados
● Banco de dados: SQL e a estruturação de dados de sua análise em
bancos facilitam a tarefa e o esforço envolvido na mineração
● Linguagem de scripts: nem sempre conseguimos os dados no
formato que precisamos. Muitas vezes, é preciso mexer e transformar
as relações com dados. Linguagens como Python, Perl e PHP podem
ajudar muito.
● Planilhas: kit básico do minerador. Facilitam gerar gráficos
facilmente e calcular dados de base para avaliação do trabalho;
● Estatística: conhecimento fundamental para análise exploratória e
testes de validação de hipóteses;
● Softwares de análise: há muitos softwares hoje em dia que podem
ajudar no trabalho, facilitando muitos processos de forma automática.
Ex: Gephi, Pajek, R, SPSS, Visone, SciLab, etc....
8. Alguns exemplos de aplicação
● Veremos dois exemplos de aplicação de
algumas técnicas de mineração
– Análise de visitações e uso de um site na Internet;
– Análise de padrões de comunicação entre
educandos num curso de ensino à distância.
9. Exemplo 1 – site
da tabela ao mapa
Média de Média de
Estados Cidades Visitas páginas/visitas tempo/visita
AC 2 143 1,29 124,62
AL 10 6370 1,47 157,44
AM 6 2466 0,65 128,16
AP 2 349 2,11 250,16
BA 34 19046 88,64 1948,3
CE 9 18486 2,46 4632,77
DF 2 13637 4,04 292,14
ES 14 7072 1,99 149,85
GO 12 6709 1,39 66,1
MA 6 4813 2 140,29
MG 54 35851 140,38 2896,88
MS 7 1008 304,82 210,5
MT 8 4366 2,2 145,97
PA 19 4959 1,13 262,06
PB 9 7331 1,31 220,72
PE 4 9313 1,78 230,99
PI 4 5732 2,12 155,19
PR 18 12839 2,7 243,79
RJ 30 27724 53,97 125,57
RN 14 20066 2,79 187,49
RO 4 2360 2,98 175,3
RS 46 22173 154,41 17959
SC 37 13816 2,03 172,01
SE 2 2162 2,27 132,24
SP 115 73544 40,01 3961,85
TO 5 758 3,08 155,2