Atena: um sistema para suporte ao planejamento na área de Gestão de Projeto
Ferramentas Java para Recuperação e Mineração de Informações
1. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
co
e
Ferramentas Java para Recupera¸˜o e Minera¸˜o
ca
ca
de Informa¸˜es
co
Fabr´ J. Barth1,2
ıcio
1 Funda¸˜o
ca
2 Centro
Atech Tecnologias Cr´
ıticas (fbarth@atech.br)
Universit´rio SENAC (fabricio.jbarth@sp.senac.br)
a
9 de setembro de 2008
Fabr´
ıcio J. Barth - Just Java 2008
Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es
ca
ca
co
2. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
co
e
1
Contexto, Problemas e Objetivos
Problema 1: recuperar a informa¸˜o
ca
Problema 2: tratar a informa¸˜o recuperada
ca
2
Estudo de caso
3
Conceitos, t´cnicas e ferramentas
e
Agrupamento de documentos
Classifica¸˜o de documentos
ca
Recupera¸˜o de Informa¸˜o
ca
ca
4
Considera¸˜es e Referˆncias
co
e
Considera¸˜es
co
Referˆncias
e
Fabr´
ıcio J. Barth - Just Java 2008
Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es
ca
ca
co
3. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
co
e
Contexto: Enorme quantidade de dados que precisa ser
processada
Fabr´
ıcio J. Barth - Just Java 2008
Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es
ca
ca
co
4. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
co
e
Problema 1: recuperar a informa¸˜o
ca
Problema 1: recuperar a informa¸˜o
ca
Fabr´
ıcio J. Barth - Just Java 2008
Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es
ca
ca
co
5. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
co
e
Problema 2: tratar a informa¸˜o recuperada
ca
Problema 2: tratar a informa¸˜o recuperada
ca
Fabr´
ıcio J. Barth - Just Java 2008
Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es
ca
ca
co
6. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
co
e
Quantidade de not´
ıcias produzidas na Web?
Notícias publicadas na Internet
160000
Estadão
Folha
G1
Globo Online
Terra
Último Segundo
Total
140000
Quantidade (Notícias)
120000
100000
80000
60000
40000
20000
0
0
5
10
15
20
25
30
35
40
45
50
55
60
65
70
75
80
85
Tempo (Dias)
Fabr´
ıcio J. Barth - Just Java 2008
Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es
ca
ca
co
7. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
co
e
Quantidade de not´
ıcias produzidas na Web?
Relação Horário x Dia x Quantidade de Notícias Produzidas
500
450
400
350
300
250
200
150
100
50
0
500
400
Notícias
300
200
100
0
0
2
4
6
8
Horário
10 12
30
14 16
20
10
18 20
22 0
Fabr´
ıcio J. Barth - Just Java 2008
40
50
60
70
80
90
Dia
Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es
ca
ca
co
8. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
co
e
Problema e Sugest˜es
o
Problema:
Para tirar proveito desta informa¸˜o ´ necess´rio organiz´-la de
ca e
a
a
alguma forma...
Fabr´
ıcio J. Barth - Just Java 2008
Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es
ca
ca
co
9. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
co
e
Problema e Sugest˜es
o
Problema:
Para tirar proveito desta informa¸˜o ´ necess´rio organiz´-la de
ca e
a
a
alguma forma...
Sugest˜es:
o
Agrupamento de Not´
ıcias.
Classifica¸˜o, Recomenda¸˜o e Filtragem de Not´
ca
ca
ıcias.
Fabr´
ıcio J. Barth - Just Java 2008
Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es
ca
ca
co
10. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
co
e
Agrupamento de documentos
Por que agrupar not´
ıcias?
Como agrup´-las?
a
Fabr´
ıcio J. Barth - Just Java 2008
Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es
ca
ca
co
11. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
co
e
Agrupamento de documentos
Defini¸˜es de Algoritmos de Agrupamento
co
O objetivo dos algoritmos de agrupamento ´ colocar os
e
objetos similares em um mesmo grupo e objetos n˜o similares
a
em grupos diferentes.
Normalmente, objetos s˜o descritos e agrupados usando um
a
conjunto de atributos e valores.
N˜o existe nenhuma informa¸˜o sobre a classe ou categoria
a
ca
dos objetos.
Fabr´
ıcio J. Barth - Just Java 2008
Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es
ca
ca
co
12. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
co
e
Agrupamento de documentos
Formato de um documento
... Esta disciplina tem como objetivo apresentar os principais conceitos da
´rea de Inteligˆncia Artificial, caracterizar as principais t´cnicas e
a
e
e
m´todos, e implementar alguns problemas cl´ssicos desta ´rea sob um
e
a
a
ponto de vista introdut´rio.
o
A estrat´gia de trabalho, o conte´do ministrado e a forma depender˜o
e
u
a
dos projetos selecionados pelos alunos. Inicialmente, os alunos dever˜o
a
trazer os seus Projetos de Conclus˜o de Curso, identificar intersec¸˜es
a
co
entre o projeto e a disciplina, e propor atividades para a disciplina. ...
Fabr´
ıcio J. Barth - Just Java 2008
Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es
ca
ca
co
13. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
co
e
Agrupamento de documentos
Atributo/Valor usando vetores
Como representar os documentos?
Fabr´
ıcio J. Barth - Just Java 2008
Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es
ca
ca
co
14. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
co
e
Agrupamento de documentos
Atributo/Valor usando vetores
Como representar os documentos?
−
→
di = (pi1 , pi2 , · · · , pin)
(1)
Os atributos s˜o as palavras que aparecem nos documentos.
a
Fabr´
ıcio J. Barth - Just Java 2008
Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es
ca
ca
co
15. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
co
e
Agrupamento de documentos
Atributo/Valor usando vetores
Como representar os documentos?
−
→
di = (pi1 , pi2 , · · · , pin)
(1)
Os atributos s˜o as palavras que aparecem nos documentos.
a
Se todas as palavras que aparecem nos documentos forem
utilizadas, o vetor n˜o ficar´ muito grande?
a
a
Fabr´
ıcio J. Barth - Just Java 2008
Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es
ca
ca
co
16. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
co
e
Agrupamento de documentos
Diminuindo a dimensionalidade do vetor
Como filtrar as palavras que devem ser usadas como
atributos?
Em todos os idiomas existem ´tomos (palavras) que n˜o
a
a
significam muito. Stop-words
Esta disciplina tem como objetivo apresentar os principais conceitos da
´rea de Inteligˆncia Artificial, caracterizar as principais t´cnicas e
a
e
e
m´todos, e implementar alguns problemas cl´ssicos desta ´rea sob um
e
a
a
ponto de vista introdut´rio.
o
···
Fabr´
ıcio J. Barth - Just Java 2008
Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es
ca
ca
co
17. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
co
e
Agrupamento de documentos
Diminuindo ainda mais a dimensionalidade do vetor
Algumas palavras podem aparecer no texto de diversas
maneiras: t´cnica, t´cnicas, implementar, implementa¸˜o...
e
e
ca
Stemming - encontrar o radical da palavra e usar apenas o
radical.
Fabr´
ıcio J. Barth - Just Java 2008
Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es
ca
ca
co
18. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
co
e
Agrupamento de documentos
Atributo/Valor usando vetores
J´ conhecemos os atributos.
a
E os valores?
Fabr´
ıcio J. Barth - Just Java 2008
Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es
ca
ca
co
19. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
co
e
Agrupamento de documentos
Atributo/Valor usando vetores
J´ conhecemos os atributos.
a
E os valores?
Booleana - se a palavra aparece ou n˜o no documento (1 ou 0)
a
Por freq¨ˆncia do termo - a freq¨ˆncia com que a palavra
ue
ue
aparece no documento (normalizada ou n˜o)
a
Pondera¸˜o tf-idf - o peso ´ proporcional ao n´mero de
ca
e
u
ocorrˆncias do termo no documento e inversamente
e
proporcional ao n´mero de documentos onde o termo aparece.
u
Fabr´
ıcio J. Barth - Just Java 2008
Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es
ca
ca
co
20. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
co
e
Agrupamento de documentos
Por freq¨ˆncia do termo
ue
(apresent,0.33) (form,0.33) (tecnic,0.33) (caracteriz,0.33) (projet,1.0)
(introdutori,0.33) (objet,0.33) (inteligente,0.33) (conclusa,0.33)
(selecion,0.33) (intersecco,0.33) (classic,0.33) (identific,0.33)
(conceit,0.33) (trabalh,0.33) (disciplin,1.0) (traz,0.33)
Fabr´
ıcio J. Barth - Just Java 2008
Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es
ca
ca
co
21. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
co
e
Agrupamento de documentos
Conjunto de Exemplos - Atributo/Valor
Doc.
apresent
form
tecnic
caracteriz
···
d1
d2
d3
d4
d5
dn
0.33
0
1
0.4
1
···
0.33
0.5
0.6
0.3
0.4
···
0.33
0.2
0
0.33
0.1
···
0.33
0.33
0
0.4
0.1
···
···
···
···
···
···
···
Fabr´
ıcio J. Barth - Just Java 2008
Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es
ca
ca
co
22. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
co
e
Agrupamento de documentos
Componentes da Solu¸˜o
ca
Fabr´
ıcio J. Barth - Just Java 2008
Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es
ca
ca
co
23. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
co
e
Agrupamento de documentos
Coletor de RSS e Pr´-Processamento
e
function coletorRSS(Lista de RSS): tabela
i ← 0;
for cada rssi em RSS do
for cada noticiaj em rssi do
di ← di + rssi .noticiaj .TITLE;
di ← di + rssi .noticiaj .DESCRIPTION;
di ← eliminaStopWords(di );
di ← stemming(di );
i ← i + 1;
end for
end for
return criaTabelaExemplos(d,TF-IDF);
Fabr´
ıcio J. Barth - Just Java 2008
Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es
ca
ca
co
24. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
co
e
Agrupamento de documentos
Pr´-processamento dos documentos - RapidMiner
e
Fabr´
ıcio J. Barth - Just Java 2008
Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es
ca
ca
co
25. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
co
e
Agrupamento de documentos
Caracter´
ısticas e Funcionalidades do RapidMiner
O usu´rio define um processo de tratamento dos dados.
a
Os operadores podem ser divididos nas seguintes categorias:
IO
Learner (Supervised / Unsupervised)
OLAP (On-line Analytical Processing)
Postprocessing
Preprocessing
Validation
Visualization
Cada operador pode ser devidamente configurado.
Existem ambientes para: defini¸˜o do processo e execu¸˜o do
ca
ca
processo.
Fabr´
ıcio J. Barth - Just Java 2008
Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es
ca
ca
co
26. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
co
e
Agrupamento de documentos
Pr´-processamento dos documentos - RapidMiner
e
Fabr´
ıcio J. Barth - Just Java 2008
Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es
ca
ca
co
27. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
co
e
Agrupamento de documentos
Pr´-processamento dos documentos - C´digo
e
o
§
¤
i m p o r t edu . udo . c s . w v t o o l . g e n e r i c . stemmer . P o r t e r S t e m m e r W r a p p e r ;
i m p o r t edu . udo . c s . w v t o o l . g e n e r i c . t o k e n i z e r . S i m p l e T o k e n i z e r ;
i m p o r t edu . udo . c s . w v t o o l . g e n e r i c . w o r d f i l t e r . StopWordsWrapper ;
...
p u b l i c S t r i n g manipulaTextoComStemming ( S t r i n g nomeArquivo ){
try{
WVTDocumentInfo d o c u m e n t I n f o = new WVTDocumentInfo
( n u l l , ” html ” , n u l l , ” e n g l i s h ” ) ;
S i m p l e T o k e n i z e r t o k e n i z e r = new S i m p l e T o k e n i z e r ( ) ;
TokenEnumeration t o k e n s = t o k e n i z e r . t o k e n i z e (
new I n p u t S t r e a m R e a d e r (
new F i l e I n p u t S t r e a m ( nomeArquivo ) ) , d o c u m e n t I n f o ) ;
P o r t e r S t e m m e r W r a p p e r stemmer = new P o r t e r S t e m m e r W r a p p e r ( ) ;
StopWordsWrapper s t o p W o r d s = new StopWordsWrapper ( ) ;
T o k e n E n u m e r a t i o n tokenSemStopWord = s t o p W o r d s . f i l t e r (
tokens , documentInfo ) ;
S t r i n g r e t o r n o = ”” ;
w h i l e ( tokenSemStopWord . hasMoreTokens ( ) )
retorno = retorno +
stemmer . g e t B a s e ( tokenSemStopWord . n e x t T o k e n ())+ ” ” ;
return retorno ;
...
¦
Fabr´
ıcio J. Barth - Just Java 2008
¥
Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es
ca
ca
co
28. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
co
e
Agrupamento de documentos
Conjunto de treinamento - Arquivo Arff
§
¤
@RELATION R a p i d M i n e r D a t a
@ATTRIBUTE
@ATTRIBUTE
@ATTRIBUTE
@ATTRIBUTE
...
...
’ network ’ r e a l
’ februari ’ real
’ member ’ r e a l
’ wait ’ r e a l
@DATA
0.1313298612447743 ,0.004041576682790196 ,0.01774727854659112 ,0.003549455709318225
0.1313298612447743 ,0.004041576682790196 ,0.01774727854659112 ,0.003549455709318 ,0
0.0 ,0.0 ,0.0 ,0.0
0.0 ,0.0 ,0.0 ,0.0
0.0 ,0.014857582309589007 ,0.0 ,0.0024848992203904758
...
...
¦
Fabr´
ıcio J. Barth - Just Java 2008
¥
Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es
ca
ca
co
29. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
co
e
Agrupamento de documentos
Que algoritmo de agrupamento utilizar?
Fabr´
ıcio J. Barth - Just Java 2008
Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es
ca
ca
co
30. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
co
e
Agrupamento de documentos
Algoritmos para Agrupamento - K-means
K significa o n´mero de agrupamentos (que deve ser
u
informado ` priori).
a
Sequˆncia de a¸˜es iterativas.
e
co
A parada ´ baseada em algum crit´rio de qualidade dos
e
e
agrupamentos (por exemplo, similaridade m´dia).
e
Fabr´
ıcio J. Barth - Just Java 2008
Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es
ca
ca
co
31. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
co
e
Agrupamento de documentos
Algoritmo para Agrupamento - K-means
5
5
4
4
3
3
2
2
1
1
0
0
1
2
3
4
5
6
7
1
8
2
3
4
5
6
7
8
(2) Sorteio dos pontos centrais dos agrupamentos
(1) Objetos que devem ser agrupados
5
5
4
4
3
3
2
2
1
1
0
0
1
2
3
4
5
6
7
8
(3) Atribuição dos objetos aos agrupamentos
Fabr´
ıcio J. Barth - Just Java 2008
1
2
3
4
5
6
7
8
(4) Definição do centro do agrupamento
Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es
ca
ca
co
32. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
co
e
Agrupamento de documentos
Algoritmo para agrupamento dos documentos - Weka
Fabr´
ıcio J. Barth - Just Java 2008
Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es
ca
ca
co
33. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
co
e
Agrupamento de documentos
Caracter´
ısticas e Funcionalidades do Weka
Mais simples que o RapidMiner.
Com menos funcionalidades.
Os operadores podem ser divididos nas seguintes categorias:
Entrada e pr´-processamento.
e
Classifica¸˜o.
ca
Agrupamento.
Associa¸˜o.
ca
Visualiza¸˜o.
ca
Fabr´
ıcio J. Barth - Just Java 2008
Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es
ca
ca
co
34. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
co
e
Agrupamento de documentos
Algoritmo para agrupamento dos documentos - Weka
Fabr´
ıcio J. Barth - Just Java 2008
Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es
ca
ca
co
35. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
co
e
Agrupamento de documentos
Algoritmo para agrupamento dos documentos - C´digo
o
§
¤
p u b l i c AgrupamentoComKMeans ( S t r i n g a r q u i v o ){
try{
I n s t a n c e s i n s t a n c e s = new I n s t a n c e s ( new F i l e R e a d e r ( a r q u i v o ) ) ;
/∗
∗ Para v i s u a l i z a r o s d a d o s do a r q u i v o a r f f
∗/
System . o u t . p r i n t l n ( ” D a t a s e t : ” ) ;
System . o u t . p r i n t l n ( i n s t a n c e s ) ;
/∗
∗ U t i l i z a c ˜ o do KMeans
¸a
∗/
SimpleKMeans kmeans = new SimpleKMeans ( ) ;
kmeans . b u i l d C l u s t e r e r ( i n s t a n c e s ) ;
/∗
∗ Imprimindo i n f o r m a c˜o s o b r e i n s t ˆ n c i a − agrupamento
¸a
a
∗/
f o r ( i n t i =0; ii n s t a n c e s . n u m I n s t a n c e s ( ) ; i ++){
System . o u t . p r i n t l n ( ”A i n s t ˆ n c i a ”+
a
i n s t a n c e s . i n s t a n c e ( i ) . t o S t r i n g ()+
” e s t a h no c l u s t e r ”+
kmeans . c l u s t e r I n s t a n c e ( i n s t a n c e s . i n s t a n c e ( i ) ) ) ;
}
} c a t c h ( E x c e p t i o n e ){
System . o u t . p r i n t l n ( e ) ;
}
}
¦
¥
Fabr´
ıcio J. Barth - Just Java 2008
Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es
ca
ca
co
36. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
co
e
Agrupamento de documentos
Algoritmo para agrupamento dos documentos - Resultados
§
A
A
A
A
A
A
A
A
A
A
A
A
A
A
¦
¤
instˆncia
a
instˆncia
a
instˆncia
a
instˆncia
a
instˆncia
a
instˆncia
a
instˆncia
a
instˆncia
a
instˆncia
a
instˆncia
a
instˆncia
a
instˆncia
a
instˆncia
a
instˆncia
a
0.1
0.1
0.3
0.3
0.3
0.8
0.1
0.1
0.1
0.6
0.6
0.1
0.2
0.1
,0.1
,0.2
,0.4
,0.1
,0.1
,0.7
,0.1
,0.1
,0.1
,0.5
,0.5
,0.1
,0.8
,0.1
,0.1
,0.3
,0.5
,0.1
,0.1
,0.8
,0.1
,0.1
,0.1
,0.6
,0.6
,0.1
,0.8
,0.1
,0.1
,0.1
,0.8
,0.1
,0.1
,0.8
,0.1
,0.1
,0.1
,0.6
,0.6
,0.1
,0.7
,0.1
,0.1
,0.8
,0.9
,0.1
,0.1
,0.8
,0.1
,0.1
,0.1
,0.6
,0.6
,0.1
,0.9
,0.1
est´
a
est´
a
est´
a
est´
a
est´
a
est´
a
est´
a
est´
a
est´
a
est´
a
est´
a
est´
a
est´
a
est´
a
no
no
no
no
no
no
no
no
no
no
no
no
no
no
Fabr´
ıcio J. Barth - Just Java 2008
cluster
cluster
cluster
cluster
cluster
cluster
cluster
cluster
cluster
cluster
cluster
cluster
cluster
cluster
1
1
0
1
1
0
1
1
1
0
0
1
0
1
¥
Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es
ca
ca
co
37. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
co
e
Classifica¸˜o de documentos
ca
Classifica¸˜o e Filtragem de Not´
ca
ıcias
Fabr´
ıcio J. Barth - Just Java 2008
Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es
ca
ca
co
38. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
co
e
Classifica¸˜o de documentos
ca
Classifica¸˜o e Filtragem de Not´
ca
ıcias
Fabr´
ıcio J. Barth - Just Java 2008
Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es
ca
ca
co
39. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
co
e
Classifica¸˜o de documentos
ca
Conjunto de Exemplos - Atributo/Valor e Classe
Doc.
apresent
form
tecnic
caracteriz
···
Relevante
d1
d2
d3
d4
d5
dn
0.33
0
1
0.4
1
···
0.33
0.5
0.6
0.3
0.4
···
0.33
0.2
0
0.33
0.1
···
0.33
0.33
0
0.4
0.1
···
···
···
···
···
···
···
1
0
1
1
1
···
Fabr´
ıcio J. Barth - Just Java 2008
Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es
ca
ca
co
40. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
co
e
Classifica¸˜o de documentos
ca
Qual ´ o problema?
e
Fabr´
ıcio J. Barth - Just Java 2008
Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es
ca
ca
co
41. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
co
e
Classifica¸˜o de documentos
ca
Uma solu¸˜o...
ca
Fabr´
ıcio J. Barth - Just Java 2008
Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es
ca
ca
co
42. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
co
e
Classifica¸˜o de documentos
ca
Processo de trabalho
Fabr´
ıcio J. Barth - Just Java 2008
Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es
ca
ca
co
43. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
co
e
Recupera¸˜o de Informa¸˜o
ca
ca
Recupera¸˜o de Informa¸˜o
ca
ca
Como construir sistemas de “busca” sob medida?
Fabr´
ıcio J. Barth - Just Java 2008
Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es
ca
ca
co
44. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
co
e
Recupera¸˜o de Informa¸˜o
ca
ca
Recupera¸˜o de Informa¸˜o
ca
ca
Como construir sistemas de “busca” sob medida?
Lucene: biblioteca para Recupera¸˜o de Informa¸˜o escrita
ca
ca
em Java e c´digo aberto. Possui: indexador e search engine.
o
Outras funcionalidades (web crawler e parsing de p´ginas
a
HTML) s˜o implementados por outras ferramentas baseadas
a
no Lucene, i.e, Nutch.
Mantido pela Apache Software Foundation.
Fabr´
ıcio J. Barth - Just Java 2008
Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es
ca
ca
co
45. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
co
e
Recupera¸˜o de Informa¸˜o
ca
ca
Recupera¸˜o de Informa¸˜o
ca
ca
Utilizando o Lucene, o desenvolvedor pode alterar a search
engine para ter um mecanismo de busca apropriado para o
dom´ da sua aplica¸˜o.
ınio
ca
Exemplos de altera¸˜es poss´
co
ıveis:
Expans˜o da consulta usando uma taxonomia da empresa.
a
Altera¸˜o da fun¸˜o de ordena¸˜o (PageRank, BM25,
ca
ca
ca
Booleano).
Reordena¸˜o dos resultados utilizando informa¸˜es do perfil do
ca
co
usu´rio.
a
Fabr´
ıcio J. Barth - Just Java 2008
Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es
ca
ca
co
46. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
co
e
Considera¸˜es
co
Considera¸˜es
co
Todas as fases de um sistema ou componente para
tratamento de informa¸˜es podem ser implementadas com as
co
ferramentas vistas nesta apresenta¸˜o:
ca
Indexa¸˜o.
ca
Recupera¸˜o.
ca
Minera¸˜o (determina¸˜o de padr˜es).
ca
ca
o
Com o RapidMiner e Weka ´ poss´
e
ıvel:
Reutilizar diversos algoritmos necess´rios.
a
Prototipar (criar e validar) uma solu¸˜o rapidamente.
ca
Integrar a solu¸˜o criada em outras aplica¸˜es.
ca
co
Com o Lucene ´ poss´
e
ıvel:
Desenvolver um mecanismo de “busca” sob medida.
Fabr´
ıcio J. Barth - Just Java 2008
Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es
ca
ca
co
47. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
co
e
Referˆncias
e
Referˆncias (1/2)
e
Ian H. Witten, Eibe Frank. Data Mining: Practical Machine
Learning Tools and Techniques (Second Edition), 2005.
Weka 3: Data Mining Software in Java
(http://www.cs.waikato.ac.nz/ml/weka/index.html).
˜
RapidMiner Community Edition (http://rapid-i.com/).
Christopher D. Manning, Prabhakar Raghavan and Hinrich
Sch¨tze, Introduction to Information Retrieval, Cambridge
u
University Press. 2008. (http://www˜
csli.stanford.edu/hinrich/information-retrieval-book.html).
Apache Lucene (http://lucene.apache.org/java/docs/).
Fabr´
ıcio J. Barth - Just Java 2008
Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es
ca
ca
co
48. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
co
e
Referˆncias
e
Referˆncias (2/2)
e
Extra: Processamento de Linguagem Natural
GATE, A General Architecture for Text Engineering
(http://gate.ac.uk/).
UIMA - Unstructured Information Management Architecture
(www.research.ibm.com/UIMA/).
Fabr´
ıcio J. Barth - Just Java 2008
Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es
ca
ca
co