2010: Plano de Negócios e Incubação de Empresas de Base Tecnológica
2012: LCoN Aplicações em Big Data
1. LCoN:
Atuação em Big Data
Leandro Nunes de Castro
Lnunes@mackenzie.br
@lndecastro
Faculdade de Computação e Informática &
Programa de Pós-Graduação em Engenharia Elétrica
Laboratório de Computação Natural (LCoN)
www.mackenzie.br/lcon.html
2. Sumário
• Motivação: Dados e Redes Sociais
• Mineração de Dados
• Computação Natural
• Estudos de Caso:
– Reclame Aqui
– Análise de Sentimento no Twitter
– Sistemas de Recomendação
• O LCoN
• Discussão
2
5. Mineração de Dados
Conceitos Básicos
Image: jannoon028 / FreeDigitalPhotos.net
6. Pode-se definir a descoberta de
conhecimento em bancos de dados
(KDD) como sendo o processo não
trivial de identificação de padrões
válidos, novos, potencialmente úteis
e compreensíveis em grandes bancos
de dados
Image: jannoon028 / FreeDigitalPhotos.net
7. Processo de KDD
Pré- Validação
Base de Dados Análise
Processamento (Conhecimento)
Image: jscreationzs/ digitalart / Vlado / jscreationzs / FreeDigitalPhotos.net
8. Estatística
Visualização Matemática
Mineração
de Dados
Sistemas de
Engenharia
Informação
Bancos de Inteligência
Dados Artificial
10. Agrupamento
Detecção de Anomalias
Descrição de
Classes e Conceitos
Predição:
Classificação e Associação
Estimação Images: jscreationzs / renjith krishnan / digitalart / sheelamohan / renjith krishnan / FreeDigitalPhotos.net
11. Computação Natural
Conceitos Básicos
Image: Stuart Miles / FreeDigitalPhotos.net
12. Imagine um mundo onde os computadores podem
criar novos universos, e dentro destes universos
existam formas naturais que reproduzem, crescem
e pensam. Imagine formas
vegetais, montanhas, colônias de
formigas, sistemas imunológicos, e cérebros, todos
aprendendo e evoluindo, e se tornando mais
adaptados ao ambiente. Imagine se nossos
computadores passassem a conter novas formas
de vida. Pense no que isso afetaria nossas vidas.
Talvez pudéssemos criar automaticamente projetos
de casas e música, novas formas de proteger
computadores contra invasores, novas formas de
resolver problemas complexos, novos
organismos, e novas formas de computar.
Agora pare de imaginar.
Seja bem vindo à Computação Natural
Image: Stuart Miles / FreeDigitalPhotos.net
13.
14. Principais Áreas
• Computação Bioinspirada
– Redes Neurais Artificiais
– Algoritmos Evolutivos
– Inteligência de Enxame
– Sistemas Imunológicos Artificiais
• Síntese Computacional da Natureza
– Geometria Fractal
– Vida Artificial
• Computação com Novas Matérias Primas
– Computação de DNA
– Computação Quântica
15. Aproximador Universal de Funções
First layer Second layer Third layer
x 1 y1 2 y2 3 y3
W W W
1 2
u u u3
f 1
f 2
f3
1 1 1
b1 b2 b3
y 1 = f1 (W1x + b 1) y 2 = f2 (W2y1 + b 2) y 3 = f3 (W3y2 + b3)
o m
F ( x1 , x2 ,..., xm ) α i f wij x j wi 0
i 1 j 1
16. Ant-Based Clustering
2 2
k f
pp 1
k f pd
k f
1 2
1 d (x i , x j )
f (x i ) s 2 (r ) 1 α if f 0
x j Neigh ( s s )
0
otherwise
17. Immunocomputing
Foreign stimulus
Idiotope 5
1
Paratope
3
6
2
4
mij G D ei (n k ), p j (n) ε 1
k n
dci N1 N1 N2
k1 m ji ci c j k 2 mij ci c j m ji ci y j k 3 ci
dt j 1 j 1 j 1
25. Estudo de Caso 02
Análise de Sentimento em Tweets
Dados da Rede Globo
26. Base de Análise
• Para realizar as análises a serem apresentadas
foram utilizados 206.259 tweets de 127.945
usuários entre os dias 1 e 31 de dezembro de
2010.
• Os atributos disponíveis para essa análise
foram:
Cliente, Avaliação, Termo, Usuário, Texto e
Data.
27. Domingão do Faustão
Palavras mais comentadas - Domingão do Faustão
11%
8% 8%
7% 7% 6% 6%
6% 6%
5%
4% 4%
4% 4%
3% 3% 3%
2% 2% 2% 2% 2% 2% 2% 2%
2% 2% 1% 1% 1%
1% 1% 1% 1% 1% 1%
1% 1% 0% 0%
Total Top 20 Total Twitters
32. Segmentando os Influenciadores
Grupo 1 Grupo 2 Grupo 3
adnoticia comuniquebrinde mariana_viips
annoticia novinhabru
feedrssreader
g1 romariontv
news_mundo_ segundoplanobr standupbot
siteg1 tudonoesporte
sjodiel_indica
waldeterossi vidasemglobo
_invo tweets24hs zocialtv_br
33. Análise dos Grupos
Grupo Palavras
Rio, Brasil, Paulo, chuva, lula, mundial, policia, governo, sul, natal,
1 pais, wikileaks, brasileiros, Dilma, feira, alemão, sudeste, estados,
justiça, preso.
Rio, Paulo, Brasil, chuva, insensato, pais, governo, natal, wikileaks,
2 Dilma, mundial, justiça, policia, brasileiros, segurança, temporais,
projeto, risco, Cielo, prisão.
Programa, gosta, assista, Faustão, cine, peça, hoje, ajuda, vídeo,
3 twitteado, amore, marcos, noticias, castro, Araguaia, Ana, comedy,
zilza, vote, malhação.
34. Estudo de Caso 03
Recomendação em Comércio Eletrônico
Alguns Clientes TUILUX
35. “Os serviços de recomendação
personalizada formam um guia
indispensável no processo de escolha de
produtos em um e-commerce e visam
sugerir o produto mais atraente para cada
cliente, em cada contexto, antes da perda
de sua atenção. Essa sugestão pode ser
feita através de vitrines personalizadas
dentro da loja ou disparando e-mails com
produtos selecionados exclusivamente
para cada cliente.”*
* Artigo publicado na revista E-Commerce Brasil, Ano 2, Edição 1, 2012.
35
37. Visão Geral sobre Serviços de
Recomendação
1. Capturar informação sobre
os produtos
2. Capturar informação sobre
as interações dos usuários
3. Aplicar algoritmos de
seleção de produtos
4. Mostrar o conteúdo
selecionado
5. Monitorar e analisar a
efetividade da recomendação
37
38. Página de Produto: Exemplos
Cross-sell
O que nem os
clientes sabiam
que queriam
Vitrine
Produtos
Relacionados
38
41. Missão e Visão
• Missão: Utilizar a computação natural para
produzir conhecimento científico de
qualidade, promover a formação de capital
intelectual altamente qualificado e transformar
ciência em tecnologia.
• Visão: Ser referência internacional na formação
de mestres e doutores, e na produção de artigos
científicos e ferramentas de solução de problemas
baseadas na computação natural.
42. Linhas de P&D
• Meta-Aprendizagem para Agrupamento
• Algoritmos bio-inspirados para
agrupamento nebulosos de dados
• Jogos educacionais
• Detecção de anomalias (fraudes e furtos)
• Análise de sentimento em redes sociais
• Algoritmos de recomendação
• Etc.
43. Discussão
• Mais informação que nossa capacidade de
processá-la
• A natureza como fonte de inspiração para o
desenvolvimento de novos paradigmas de
computação
• Necessidade de analisar dados de forma
sistemática e efetiva
• Gerações X, Y e Z!