2011: Mineração de Dados - Conceitos Básicos e Aplicações

Mineração de Dados:
Conceitos Básicos e Aplicações

Leandro Nunes de Castro
Lnunes@mackenzie.br
@lndecastro

Faculdade de Computação e Informática &
Programa de Pós-Graduação em Engenharia Elétrica
Laboratório de Computação Natural (LCoN)
www.mackenzie.br/lcon.html

SBAI 2011 (18/09/2011)

Sumário
• Sobre o Mini-Curso
• Motivação
• Introdução
• Pré-Processamento
• Credibilidade do Processo de Aprendizagem
• Análise de Grupos
• Predição: Classificação e Estimação
• Detecção de Anomalias
• ShiftHappens
2

Quem Sou Eu
• Formado em Engenharia Elétrica com ênfase em
Computação, possui Mestrado, Doutorado e Pós-
doutorado em Engenharia de Computação.
Empresário, empreendedor, acadêmico, escritor e
pai de família. É especialista em Computação
Natural e transformação de bases de dados em
conhecimentos para a tomada de decisão
estratégica nos negócios. Possui cinco livros
publicados, coordena o Laboratório de
Computação Natural (LCoN) do Programa de Pós-
Graduação em Engenharia Elétrica do Mackenzie
e é sócio-diretor das empresas NATCOMP e
TUILUX.

Quem São Vocês
• Idade
• Redes Sociais
• Interesses
• Formação
• Conhecimento

Dinâmica do Mini-Curso
Aulas interativas e ilustradas com
aplicações práticas, dinâmicas de grupo e
sorteios do livro “Computação Natural:
Uma Jornada Ilustrada”.

Preparados?

Motivação

Um Universo de Dados

Sobre Dados e Informação

Fonte: wikipedia.org

Introdução

Conceitos Básicos

A Mineração de Dados

http://tr.toonpool.com/cartoons/miner_29770

Multidisciplinaridade

Estatística
Bancos de Aprendizagem
Dados de Máquina
Mineração de
Dados Outras
Sistemas de
Informação Disciplinas

Inteligência
Visualização
Artificial

Dicas para Uma Análise Efetiva
• Estabelecer a significância prática e estatística
da mineração.
• Reconhecer que as características da base de
dados influenciam todos os resultados.
• Necessidade de conhecer os dados.
• Busca pela parcimônia.
• Verifique os erros.
• Valide seus resultados.

As Diferentes Nomenclaturas
• Inteligência Artificial
• Aprendizagem de Máquina
• Computação Flexível
• Inteligência Computacional
• Computação Natural
• Computação Bioinspirada

Principais Tarefas
• Descritivas: caracterizam as propriedades
gerais dos dados; e
• Preditivas: fazem inferência com os dados
objetivando predições.
Salário: Faixa IRRF

37
32 33 32
28

até R$ até R$ até R$ até R$ acima de R$
1.434,59 2.150,00 2.866,70 3.582,00 3.582,01

Principais Tarefas
• Descrição de Classes e Conceitos
• Agrupamento
• Predição: Classificação e Estimação
• Associação
• Detecção de Anomalias

Paradigmas de Aprendizagem
• Supervisionada
• Não-Supervisionada
• Reforço

Aprendizagem Supervisionada
Vetor descrevendo o
estado do ambiente
Saída desejada
Ambiente Supervisor

+
Saída atual
Sistema em
Aprendizagem

Sinal de erro

{(xi,di)}i = 1,...,N, onde xi e di i, são os vetores
de entrada e as respectivas saídas desejadas.

Aprendizagem Não-Supervisionada
Vetor de estado
do ambiente

Sistema em
Ambiente
Aprendizagem

Aprendizagem por Reforço
Vetor de estado Reforço
(entrada) primário

Ambiente Crítico

Reforço heurístico

Sistema em
Aprendizagem

Ações

Nomenclatura e Tipos de Dados
Possui Financiamen Credito
Salário Estado Cartão de Nro de
Idade Imóveis Veículos Cheque to
R$ Civil Crédito Filhos
Especial Pretendido Autorizado
350 21 Sol. 0 0 0 0 Sim 10.000 Não

3700 52 Cas. 1 1 2 2 Sim 7.000 Sim

1200 26 Cas. 1 0 1 1 Não 10.000 Não

700 25 Sol. 0 0 0 0 Não 5.000 Sim

8500 50 Cas. 2 1 2 2 Sim 40.000 Sim

1800 27 Sol. 1 0 1 0 Sim 20.000 Não

350 20 Sol. 0 0 0 0 Não 10.000 Não

Objetos x Atributos
Tipos de Dados: Nominais, Ordinais, Numéricos

Problemas com Bases de Dados
Duração 1 2 3 2
Aumento salarial ano 1 2% 4% 4.3% 4.5%
Aumento salarial ano 2 ? 5% 4.4% 4.0%
Aumento salarial ano 3 ? ? ? ?
Ajuste de custo de vida Nenhum Tcf ? Nenhum
Carga horária semanal 28 35 38 40
Aposentadoria Nenhum ? ? ?
Pagamento por horas vagas ? 13% ? ?
Horas extras ? 5% 4% 4
Adicional para educação Sim ? ? ?
Feriados 11 15 12 12
Férias Avg Gen Gen Avg
Assistência para ausência prolongada Não ? ? Sim

Seguro odontológico Nenhum ? Full Full
Seguro de vida Não ? ? Sim
Seguro saúde Nenhum ? Full Half
Aceitabilidade do contrato Ruim Boa Boa Boa

Principais Tarefas
• Limpeza: para remoção de ruídos e correção de
inconsistências;
• Integração: para unir dados de múltiplas fontes em um
único local, como um armazém de dados (data warehouse);
• Redução: para reduzir a dimensão da base de dados, por
exemplo, agregando, agrupando ou eliminando atributos
redundantes, ou sumarizando os dados;
• Transformação: para deixar os dados em um formato
passível de aplicação das diferentes técnicas de mineração;
• Discretização: para permitir que métodos que trabalham
apenas com atributos nominais possam ser empregados a
um conjunto maior de problemas. Também faz com que a
quantidade de valores para um dado atributo contínuo seja
reduzida.

Credibilidade do Processo de
Aprendizagem

Erros
• Erro de Representação ou efeito bias.
• Erro de Generalização ou variância.
• Erro de Otimização.
bias elevado variânciaelevada

erro

MSE

nível ótimo de
generalização

Sobretreinamento

1.0
0.8

0.6

0.4

0.2

0.0

-0.2

-0.4

-0.6

-0.8

-1.0

-3 -2 -1 0 1 2 3

Validação Cruzada
• Como critério de parada
• Como metodologia de estimação de erro
Teste Treinamento

Passo 1: 1 2 3 4 5 6 7 8 9 10

Passo 2: 1 2 3 4 5 6 7 8 9 10

...
Passo 10: 1 2 3 4 5 6 7 8 9 10

Medidas de Desempenho em
Classificação
Classe
Predita
Sim Não
Classe
Sim TP FN
Correta
Não FP TN

TP: Verdadeiro Positivo TP TP
TPR
FP: Falso Positivo P TP FN
TN: Verdadeiro Negativo FP FP
FPR
FN: Falso Negativo N FP TN

TP TN
ACC
TP FP TN FN

Estimação
N
e2
j Soma dos Erros Quadráticos
j 1
N
1
e2
j Erro Quadrático Médico
N j 1
N
1
e 2 Raiz do Erro Quadrático Médio
j
N j 1

N
1
| e j | Erro Absoluto Médio
N j 1
N
(d j d )( y j y)
j 1
Coeficiente de Correlação
N N
2
(d j d) . (yj y)2
j 1 j 1

Agrupamento
k i i
1 nr nr
E(Sr ) log
log k i 1 nr nr
k
nr G1
Eglobal E (Sr )
r 1 n
G2

1
P( S r ) max(nri ) G3
nr i
k
nr
Pglobal P( S r )
r 1 n

Desafio 01

Avaliando a Taxa de Classificação

Detecção de Spam
• Considere o problema de detecção de Spams
(SPAM). A classe alvo é Spam. Assuma que a base
possui N = 1.500 objetos, sendo nspam = 32.
Considere o seguinte resultado de um algoritmo
de classificação aplicado a esta base de dados:
• Spam classificados corretamente: 27.
• E-mail normal classificado corretamente: 1.411.
Pede-se:
• Determine TPR, FPR, ACC.
• Monte a matriz de confusão do classificador.

Estudo de Caso 01
Descrição de Classes e Conceitos
Dados do Reclame Aqui

Panorama Geral do Setor
Status das Reclamações

Nao Respondido
20% 7%
30% Respondido
24%
Replicas
19%

Finalizada - Resolvido Média das Notas

5.3
3.9
2.6

0.5

Média Geral Média ">0"

Finalizada - Resolvido Finalizada - Nao Resolvido

Construção Civil - Piores Atendimentos
17%

13%

10%

6%
5% 5% 5% 5% 5%
4% 4%
3%
2% 2% 2% 2% 2% 2% 2% 3%

Construção Civil
17%

13%

9%
6% 6%
6% 6%
4% 4% 4% 4%
3% 3% 2% 2% 2%
2% 2% 2% 2%

Estudo de Caso 02
Descrição de Classes e Conceitos
Base de RH

Base de Análise
• 41.934 registros, com os seguintes atributos:
Nome, Salário, Sexo, Cargo, Endereço, Bairro,
CEP, Cidade, UF, Banco, Nome do
Banco, Agência, Conta, Data de
Nascimento, Escala, Grau de Instrução, Data
de Admissão, Data de Demissão, Data de
Afastamento, Data de Início de
Férias, Situação Cadastral, Horas Trab. por
Mês e Horas Trab. por Semana.

Objetivos
• Entender a base
• Predizer demissões e período de trabalho
• Segmentar a base

Visão Geral
Sexo

Masculino
34%

Feminino
Situação Cadastral
66%

64%

33%

1% 2%

Afastamento Férias Normal Rescisão

Visão Geral
Grau de Instrução
Outros
17.31%

Ensino médio
completo
82.69%
Salário: Faixa IRRF
98.2%

1.3% 0.3% 0.1% 0.1%

até R$ até R$ até R$ até R$ acima de
1.434,59 2.150,00 2.866,70 3.582,00 R$
3.582,01

Visão Geral
Pirâmide Etária Cargos
100 anos e mais 0.0%
0.0% PROMOTOR(A) DE VENDAS 23%
90 a 94 anos 0.0% SERVIÇOS GERAIS 13%
0.0% 7%
ATENDENTE
80 a 84 anos 0.0%
0.0% AJUDANTE GERAL 6%
70 a 74 anos 0.0% AUXILIAR DE LOJA 5%
0.0% PROMOTOR(A) 4%
60 a 64 anos 0.3% DEMONSTRADOR(A) 4%
1.0%
ATENDENTE DE CRÉDITO 3%
50 a 54 anos 2.2%
3.4% AUXILIAR DE VENDAS 2%
40 a 44 anos 4.9% AUXILIAR DE SERVIÇOS GERAIS 2%
7.3% AUXILIAR DE CAIXA 2%
30 a 34 anos 12.3%
DEMONSTRADOR(A) I 2%
22.5%
20 a 24 anos 34.4% COLETOR(A) DE DADOS 2%
11.6% ASSISTENTE DE VENDAS 2%
10 a 14 anos 0.0% OUTROS CARGOS 23%
0.0%
0 a 4 anos 0.0%

Visão Geral Grau de Instrução

Analfabeto, ou não se alfabetizou R$ 624.74

Até a 4ª série incompleta do ensino fundamental R$ 608.91

4ª série completa do ensino fun damental R$ 620.17

Da 5ª à 8ª série do ensino fundamental R$ 618.43

Ensino fundamental completo R$ 637.15

Ensino médio incompleto R$ 679.76

Ensino médio completo R$ 755.58

Segundo grau técnico incompleto R$ 628.36

Segundo grau técnico completo R$ 777.04

Educação superior incompleta R$ 903.56

Educação superior completa R$ 1,299.32

Pós-Graduação R$ 2,793.32

Uma Análise Preditiva
Instrução

[1 2 3 4 7]

Idade [5 6 8 9 10 11 12]

[5] [1 2 3 4]

Idade
Instrução
Normal
[1 2 3] [4 5]
[1 3 4] [2 7]

Idade Idade
Normal Rescisão
[1 2] [3] [5]

Rescisão Sexo Salário

[4]
[Feminino] [Masculino] [2 3] [1 4 5]

Salário
Rescisão Normal Rescisão

[2 3] [1 4 5]
Salário

Normal Rescisão
[1 4] [ 2 3 5]

Rescisão Normal

O Que São Grupos?

Processo de particionar um conjunto de dados em subconjuntos
(clusters) de forma que os dados em cada cluster (idealmente)
compartilhem características comuns – normalmente
proximidade em relação a alguma medida de distância.

Componentes da Tarefa de
Agrupamento
• Pré-processamento dos dados;
• Definição da medida de proximidade;
• Agrupamento;
• Abstração dos dados;
• Avaliação da saída.
0
x11  x1L d (2,1) 0
   d (3,1) d (3,2) 0
x N 1  x NL    0
d ( N ,1) d ( N ,2)  d ( N , N 1) 0

Estudo de Caso 03
Agrupamento
Benchmarks e Base de Dados de
Bioinformática

ACA: Ant Clustering Algorithm

2
k1
pp d (x i , x j )
k1 f 1
1 if f 0
2
f (x i ) s2 x j Neigh ( s s ) (r )
α
f 0 otherwise
pd
k2 f
Ver demos no LVCoN

Base de Dados de Bioinformática
C1
0 C1

C2

C4

C3

Predição

Classificação e Estimação

Classificação
Astigmatismo
Idade Prescrição TPL Lente recomendada
(A)
Jovem Miopia Não Reduzida Nenhuma
Jovem Miopia Não Normal Macia
Jovem Miopia Sim Reduzida Nenhuma
Jovem Miopia Sim Normal Rígida
Jovem Hipermetropia Não Reduzida Nenhuma
Pré-presbiótico Miopia Não Reduzida Nenhuma
Pré-presbiótico Miopia Não Normal Macia
Pré-presbiótico Hipermetropia Sim Reduzida Nenhuma
Pré-presbiótico Hipermetropia Sim Normal Nenhuma
Presbiótico Miopia Não Reduzida Nenhuma
Presbiótico Miopia Não Normal Nenhuma
Presbiótico Hipermetropia Sim Reduzida Nenhuma
Presbiótico Hipermetropia Sim Normal Nenhuma

Árvores de Decisão

TPL

Reduzida Normal

Nenhuma Astigmatismo

Não Sim

Macia Prescrição

Miopia Hipermetropia

Rígida Nenhuma

Duração 1 2 3 2
Aumento salarial ano 1 2% 4% 4.3% 4.5%
Aumento salarial ano 2 ? 5% 4.4% 4.0%
Aumento salarial ano 3 ? ? ? ?
Ajuste de custo de vida Nenhum Tcf ? Nenhum
Carga horária semanal 28 35 38 40
Aposentadoria Nenhum ? ? ?
Pagamento por horas vagas ? 13% ? ?
Horas extras ? 5% 4% 4
Adicional para educação Sim ? ? ?
Feriados 11 15 12 12
Férias Avg Gen Gen Avg
Assistência para ausência prolongada Não ? ? Sim

Seguro odontológico Nenhum ? Full Full
Seguro de vida Não ? ? Sim
Seguro saúde Nenhum ? Full Half
Aceitabilidade do contrato Ruim Boa Boa Boa

Aumento Ano 1

2.5% > 2.5%

Ruim Feriados

> 10 10

Bom Aumento Ano 1

4% > 4%

Ruim Bom

Aumento Ano 1

2.5% > 2.5%

Carga Horária Feriados

36 > 36 > 10 10

Seguro Saúde Bom Aumento Ano 1
Ruim

4 >4
Nenhum Parcial Total

Ruim Bom Ruim Ruim Bom

Estudo de Caso 04
Agrupamento e Predição
Base de Dados de Veículos

Aplicação em Classificação

Estudo de Caso 05
Análise de Sentimento em Tweets
Dados da Rede Globo

Base de Análise
• Para realizar as análises a serem apresentadas
foram utilizados 206.259 tweets de 127.945
usuários entre os dias 1 e 31 de dezembro de
2010.
• Os atributos disponíveis para essa análise
foram: Cliente, Avaliação, Termo, Usuário,
Texto e Data.

Domingão do Faustão
Palavras mais comentadas - Domingão do Faustão

11%

8% 8%
7% 7% 6% 6%
6% 6%
5%
4% 4%
4% 4%
3% 3% 3%
2% 2% 2% 2% 2% 2% 2% 2%
2% 2% 1% 1% 1%
1% 1% 1% 1% 1% 1%
1% 1% 0% 0%

Total Top 20 Total Twitters

Comentários Positivos
Palavras mais comentadas - Tweets positivos
13%
11%
10%

7% 7%
6% 6%
5% 5%
3% 3% 4% 3% 3%
3% 3% 3% 3% 3% 3%
2% 2% 2% 2% 2% 2% 2%
1% 1% 1% 1% 1% 1% 1% 1% 1% 1%
1% 1% 0%


Comentários Negativos
Palavras mais comentados - Tweets negativos
27%

16%

8%
6% 5% 5%
3% 4% 4% 3% 3% 3% 3%
2% 1% 1% 1% 1% 1% 1% 1% 1% 2% 2% 2% 2% 2% 2% 2% 2% 2%
0% 0% 0% 0% 0% 0% 0% 0% 0%


Influenciadores
Qtde de Percentual de Qtde de Qtde de
Id Usuários
Tweets Tweets (%) Seguidores Seguidos
1 adnoticia 253 0,12% 175 219
2 annoticia 256 0,12% 271 350
3 comuniquebrinde 170 0,08% 1.211 1.967
4 feedrssreader 192 0,09% 350 245
5 g1 389 0,19% 467.484 21
6 mariana_viips 155 0,08% 694 67
7 news_mundo_ 224 0,11% 281 895
8 novinhabru 320 0,16% 2.992 1.963
9 romariontv 177 0,09% - -
10 segundoplanobr 151 0,07% 347 7
11 siteg1 207 0,10% 60 -
12 sjodiel_indica 262 0,13% 855 615
13 standupbot 384 0,19% 386 -
14 tudodoesporte 522 0,25% 894 366
15 tweets24hs 158 0,08% 2.940 3.258
16 vidasemglobo 147 0,07% 600 177
17 waldeterossi 313 0,15% 70 13
18 zocialtv_br 242 0,12% 338 115
19 _invo 720 0,35% 342 22
TOTAL: 5.242 2,54%

Segmentando os Influenciadores

Segmentando os Influenciadores

Grupo 1 Grupo 2 Grupo 3
adnoticia comuniquebrinde mariana_viips
annoticia novinhabru
feedrssreader
g1 romariontv
news_mundo_ segundoplanobr standupbot
siteg1 tudonoesporte
sjodiel_indica
waldeterossi vidasemglobo
_invo tweets24hs zocialtv_br

Análise dos Grupos

Grupo Palavras
Rio, Brasil, Paulo, chuva, lula, mundial, policia, governo, sul, natal,
1 pais, wikileaks, brasileiros, Dilma, feira, alemão, sudeste, estados,
justiça, preso.
Rio, Paulo, Brasil, chuva, insensato, pais, governo, natal, wikileaks,
2 Dilma, mundial, justiça, policia, brasileiros, segurança, temporais,
projeto, risco, Cielo, prisão.
Programa, gosta, assista, Faustão, cine, peça, hoje, ajuda, vídeo,
3 twitteado, amore, marcos, noticias, castro, Araguaia, Ana, comedy,
zilza, vote, malhação.

Análise de Carrinho de
Supermercado

Leite Pão
Cereais Leite Broa
Manteiga Cereais
Chocolate

Pão Café

Ovos Açúcar
Pão Café
Iogurte
Adoçante

Estudo de Caso 06
Recomendação em Comércio Eletrônico
Alguns Clientes TUILUX

O Que é um Sistema de Recomendação
Inteligente?

78

“Para o usuário a recomendação
significa um guia útil no processo de
escolha de conteúdo...

Para a loja a recomendação significa
ofertar o item mais atraente alguns
segundos antes da perda da atenção da
audiência” *
* Fonte: Comparative Rating of Five Recommendations Solutions, Patricia Seygold Group

79

Visão Geral sobre Serviços de
Recomendação
1. Capturar informação sobre
os produtos

2. Capturar informação sobre
as interações dos usuários

3. Aplicar algoritmos de
seleção de produtos

4. Mostrar o conteúdo
selecionado

5. Monitorar e analisar a
efetividade da recomendação
81

Página de Produto: Exemplos
Cross-sell
O que nem os
clientes sabiam
que queriam

Regras de
negócio

82

O Que é uma Anomalia?
“Um outlier é um objeto que parece desviar
fortemente de outros membros da amostra a
qual ele pertence.” (Grubbs, F. E., 1969,
“Procedures for detecting outlying observations
in samples”, Technometrics, 11, pp. 1-21.)
“Um outlier é um objeto ou subconjunto de objetos
que parece inconsistente com o restante da base
de dados.” (Barnett, V.; Lewis, T. 1994, Outliers in
Statistical Data, 3rd ed., John Wiley & Sons)

Exemplos
• Detecção de fraudes: em transações de cartões de
crédito, em uso de telefones celulares, em medição de
consumo de energia, etc.
• Análise de crédito: identificação de clientes
potencialmente problemáticos ou fraudulentos, etc.
• Detecção de intrusão: acesso não permitido a redes de
computadores e ambientes diversos, etc;
• Monitoramento de atividades: negociações suspeitas
em mercados financeiros, comportamentos incomuns
de usuários, etc;
• Desempenho de rede: monitoramento do desempenho
de redes de comunicação para identificação de
gargalos;

Exemplos
• Diagnóstico de faltas: em motores, geradores,
redes, instrumentos, etc;
• Análise de imagens: identificação de novas
características;
• Monitoramento de séries temporais: em
aplicações que envolvem séries temporais, por
exemplo, consumo de energia elétrica de
subestações, análise de batimentos cardíacos,
etc.;
• Análise de textos: identificação de novas estórias,
análise de desempenho de commodities, etc.

Adordagens
• Tipo 1: aprendizagem não-supervisionada;
• Tipo 2: aprendizagem supervisionada;
• Tipo 3: aprendizagem semi-supervisionada.

Estudo de Caso 07

Um Algoritmo Imunológico para
Detecção de Vírus em Computadores

Algoritmo de Seleção Negativa

Self
strings (S) Monitoramento

Detector Set
Generate (R)
random strings Match Detector
(R0) No Set (R)

Yes

Reject Self
Match No
Strings (S)

Sensoriamento Yes

Non-self
Detected

Estudo de Caso 08

Sistemas Imunológicos Artificiais

Pattern Recognition
• Classification and Clustering
– CLONALG (de Castro & Von Zuben, 2002)
(a) Input patterns

(b) 0 generations

(c) 50 generations

(d) 100 generations

(e) 200 generations

Pattern Recognition
• Classification and Clustering
– aiNet (de Castro & Von Zuben, 2001)
– Definition:
• aiNet is an edge-weighted graph, not necessarily
fully connected, composed of a set of nodes and
sets of node pairs with a weight assigned specified
to each connected edge.
– Features:
• knowledge distributed among cells
• competitive learning (unsupervised)
• constructive model with pruning phases
• generation and maintenance of diversity

92

Pattern Recognition

• aiNet:
– Growing:
• clonal selection principle
– Learning:
• directed affinity maturation
– Pruning:
• immune network theory

Pattern Recognition
• aiNet at each generation:
– For each Ag
 Affinity with the antigen (Ai) Agi-Ab
 Clonal selection (n cells) Ai
 Cloning Ai
 Directed maturation (mutation) 1/Ai
 Re-selection ( %) Ai
 Natural death ( d) 1/Ai
 Affinity between the network cells (Dii) Ab-Ab
 Clonal suppression ( s) Dii : (m - memory)
 Mt [Mt;m]
– Network suppression ( s) Dii : (M Mt)
– M [M;meta]

Pattern Recognition

• Clustering
1
Training Patterns
0.9 Final Network Structure
0.8
1 10
0.7 6 12 2
7 3
0.6 0.8
y

0.5 1
0.4
0.6
14 8
0.3
0.4
0.2
0.1 0.2 9
4
0 13 11
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0 5
x
0 0.2 0.4 0.6 0.8 1

Pattern Recognition

• Clustering
1.5
1
0.5
0 Final Network Structure
-0.5 1.5
-1
1
-1.5
4
0.5
2 2
1
0 0 0
-1
-2 -2 -0.5
-1
3
2 1
1 0.5
0
0 -0.5
-1 -1

Desafio 02

Questões sobre o Processo de
Mineração

Questão Processo Mineração
• Qual o fluxo (faça o gráfico) das principais
etapas da mineração de dados e quais as
principais tarefas?

Questões ShiftHappens

• Quantos e-mails e SMSs em média uma
pessoa de 21 anos já enviou/recebeu?

• Quanto tempo a Internet levou para atingir
uma audiência de 50 milhões pessoas?

LCoN
• Programa de Pós-Graduação em Engenharia
Elétrica do Mackenzie
• Perfil do LCoN, Pesquisa, Equipe, etc.

www.mackenzie.br/lcon.html

Obrigado

Leandro Nunes de Castro
lnunes@mackenzie.br
@lndecastro

104

2011: Mineração de Dados - Conceitos Básicos e Aplicações

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (17)

Destaque

Destaque (20)

Semelhante a 2011: Mineração de Dados - Conceitos Básicos e Aplicações

Semelhante a 2011: Mineração de Dados - Conceitos Básicos e Aplicações (20)

Mais de Leandro de Castro

Mais de Leandro de Castro (20)

2011: Mineração de Dados - Conceitos Básicos e Aplicações