SlideShare ist ein Scribd-Unternehmen logo
1 von 48
Downloaden Sie, um offline zu lesen
Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
co
e

Ferramentas Java para Recupera¸˜o e Minera¸˜o
ca
ca
de Informa¸˜es
co
Fabr´ J. Barth1,2
ıcio
1 Funda¸˜o
ca
2 Centro

Atech Tecnologias Cr´
ıticas (fbarth@atech.br)

Universit´rio SENAC (fabricio.jbarth@sp.senac.br)
a

9 de setembro de 2008

Fabr´
ıcio J. Barth - Just Java 2008

Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es
ca
ca
co
Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
co
e

1

Contexto, Problemas e Objetivos
Problema 1: recuperar a informa¸˜o
ca
Problema 2: tratar a informa¸˜o recuperada
ca

2

Estudo de caso

3

Conceitos, t´cnicas e ferramentas
e
Agrupamento de documentos
Classifica¸˜o de documentos
ca
Recupera¸˜o de Informa¸˜o
ca
ca

4

Considera¸˜es e Referˆncias
co
e
Considera¸˜es
co
Referˆncias
e

Fabr´
ıcio J. Barth - Just Java 2008

Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es
ca
ca
co
Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
co
e

Contexto: Enorme quantidade de dados que precisa ser
processada

Fabr´
ıcio J. Barth - Just Java 2008

Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es
ca
ca
co
Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
co
e
Problema 1: recuperar a informa¸˜o
ca

Problema 1: recuperar a informa¸˜o
ca

Fabr´
ıcio J. Barth - Just Java 2008

Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es
ca
ca
co
Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
co
e
Problema 2: tratar a informa¸˜o recuperada
ca

Problema 2: tratar a informa¸˜o recuperada
ca

Fabr´
ıcio J. Barth - Just Java 2008

Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es
ca
ca
co
Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
co
e

Quantidade de not´
ıcias produzidas na Web?
Notícias publicadas na Internet
160000
Estadão
Folha
G1
Globo Online
Terra
Último Segundo
Total

140000

Quantidade (Notícias)

120000

100000

80000

60000

40000

20000

0
0

5

10

15

20

25

30

35

40

45

50

55

60

65

70

75

80

85

Tempo (Dias)

Fabr´
ıcio J. Barth - Just Java 2008

Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es
ca
ca
co
Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
co
e

Quantidade de not´
ıcias produzidas na Web?
Relação Horário x Dia x Quantidade de Notícias Produzidas

500
450
400
350
300
250
200
150
100
50
0

500
400
Notícias

300
200
100
0

0

2

4

6

8

Horário

10 12
30
14 16
20
10
18 20
22 0

Fabr´
ıcio J. Barth - Just Java 2008

40

50

60

70

80

90

Dia

Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es
ca
ca
co
Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
co
e

Problema e Sugest˜es
o
Problema:
Para tirar proveito desta informa¸˜o ´ necess´rio organiz´-la de
ca e
a
a
alguma forma...

Fabr´
ıcio J. Barth - Just Java 2008

Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es
ca
ca
co
Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
co
e

Problema e Sugest˜es
o
Problema:
Para tirar proveito desta informa¸˜o ´ necess´rio organiz´-la de
ca e
a
a
alguma forma...
Sugest˜es:
o
Agrupamento de Not´
ıcias.
Classifica¸˜o, Recomenda¸˜o e Filtragem de Not´
ca
ca
ıcias.

Fabr´
ıcio J. Barth - Just Java 2008

Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es
ca
ca
co
Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
co
e
Agrupamento de documentos

Por que agrupar not´
ıcias?
Como agrup´-las?
a

Fabr´
ıcio J. Barth - Just Java 2008

Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es
ca
ca
co
Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
co
e
Agrupamento de documentos

Defini¸˜es de Algoritmos de Agrupamento
co

O objetivo dos algoritmos de agrupamento ´ colocar os
e
objetos similares em um mesmo grupo e objetos n˜o similares
a
em grupos diferentes.
Normalmente, objetos s˜o descritos e agrupados usando um
a
conjunto de atributos e valores.
N˜o existe nenhuma informa¸˜o sobre a classe ou categoria
a
ca
dos objetos.

Fabr´
ıcio J. Barth - Just Java 2008

Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es
ca
ca
co
Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
co
e
Agrupamento de documentos

Formato de um documento

... Esta disciplina tem como objetivo apresentar os principais conceitos da
´rea de Inteligˆncia Artificial, caracterizar as principais t´cnicas e
a
e
e
m´todos, e implementar alguns problemas cl´ssicos desta ´rea sob um
e
a
a
ponto de vista introdut´rio.
o
A estrat´gia de trabalho, o conte´do ministrado e a forma depender˜o
e
u
a
dos projetos selecionados pelos alunos. Inicialmente, os alunos dever˜o
a
trazer os seus Projetos de Conclus˜o de Curso, identificar intersec¸˜es
a
co
entre o projeto e a disciplina, e propor atividades para a disciplina. ...

Fabr´
ıcio J. Barth - Just Java 2008

Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es
ca
ca
co
Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
co
e
Agrupamento de documentos

Atributo/Valor usando vetores

Como representar os documentos?

Fabr´
ıcio J. Barth - Just Java 2008

Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es
ca
ca
co
Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
co
e
Agrupamento de documentos

Atributo/Valor usando vetores

Como representar os documentos?
−
→
di = (pi1 , pi2 , · · · , pin)

(1)

Os atributos s˜o as palavras que aparecem nos documentos.
a

Fabr´
ıcio J. Barth - Just Java 2008

Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es
ca
ca
co
Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
co
e
Agrupamento de documentos

Atributo/Valor usando vetores

Como representar os documentos?
−
→
di = (pi1 , pi2 , · · · , pin)

(1)

Os atributos s˜o as palavras que aparecem nos documentos.
a
Se todas as palavras que aparecem nos documentos forem
utilizadas, o vetor n˜o ficar´ muito grande?
a
a

Fabr´
ıcio J. Barth - Just Java 2008

Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es
ca
ca
co
Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
co
e
Agrupamento de documentos

Diminuindo a dimensionalidade do vetor

Como filtrar as palavras que devem ser usadas como
atributos?
Em todos os idiomas existem ´tomos (palavras) que n˜o
a
a
significam muito. Stop-words
Esta disciplina tem como objetivo apresentar os principais conceitos da
´rea de Inteligˆncia Artificial, caracterizar as principais t´cnicas e
a
e
e
m´todos, e implementar alguns problemas cl´ssicos desta ´rea sob um
e
a
a
ponto de vista introdut´rio.
o
···

Fabr´
ıcio J. Barth - Just Java 2008

Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es
ca
ca
co
Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
co
e
Agrupamento de documentos

Diminuindo ainda mais a dimensionalidade do vetor

Algumas palavras podem aparecer no texto de diversas
maneiras: t´cnica, t´cnicas, implementar, implementa¸˜o...
e
e
ca
Stemming - encontrar o radical da palavra e usar apenas o
radical.

Fabr´
ıcio J. Barth - Just Java 2008

Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es
ca
ca
co
Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
co
e
Agrupamento de documentos

Atributo/Valor usando vetores

J´ conhecemos os atributos.
a
E os valores?

Fabr´
ıcio J. Barth - Just Java 2008

Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es
ca
ca
co
Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
co
e
Agrupamento de documentos

Atributo/Valor usando vetores

J´ conhecemos os atributos.
a
E os valores?
Booleana - se a palavra aparece ou n˜o no documento (1 ou 0)
a
Por freq¨ˆncia do termo - a freq¨ˆncia com que a palavra
ue
ue
aparece no documento (normalizada ou n˜o)
a
Pondera¸˜o tf-idf - o peso ´ proporcional ao n´mero de
ca
e
u
ocorrˆncias do termo no documento e inversamente
e
proporcional ao n´mero de documentos onde o termo aparece.
u

Fabr´
ıcio J. Barth - Just Java 2008

Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es
ca
ca
co
Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
co
e
Agrupamento de documentos

Por freq¨ˆncia do termo
ue

(apresent,0.33) (form,0.33) (tecnic,0.33) (caracteriz,0.33) (projet,1.0)
(introdutori,0.33) (objet,0.33) (inteligente,0.33) (conclusa,0.33)
(selecion,0.33) (intersecco,0.33) (classic,0.33) (identific,0.33)
(conceit,0.33) (trabalh,0.33) (disciplin,1.0) (traz,0.33)

Fabr´
ıcio J. Barth - Just Java 2008

Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es
ca
ca
co
Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
co
e
Agrupamento de documentos

Conjunto de Exemplos - Atributo/Valor

Doc.

apresent

form

tecnic

caracteriz

···

d1
d2
d3
d4
d5
dn

0.33
0
1
0.4
1
···

0.33
0.5
0.6
0.3
0.4
···

0.33
0.2
0
0.33
0.1
···

0.33
0.33
0
0.4
0.1
···

···
···
···
···
···
···

Fabr´
ıcio J. Barth - Just Java 2008

Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es
ca
ca
co
Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
co
e
Agrupamento de documentos

Componentes da Solu¸˜o
ca

Fabr´
ıcio J. Barth - Just Java 2008

Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es
ca
ca
co
Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
co
e
Agrupamento de documentos

Coletor de RSS e Pr´-Processamento
e
function coletorRSS(Lista de RSS): tabela
i ← 0;
for cada rssi em RSS do
for cada noticiaj em rssi do
di ← di + rssi .noticiaj .TITLE;
di ← di + rssi .noticiaj .DESCRIPTION;
di ← eliminaStopWords(di );
di ← stemming(di );
i ← i + 1;
end for
end for
return criaTabelaExemplos(d,TF-IDF);

Fabr´
ıcio J. Barth - Just Java 2008

Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es
ca
ca
co
Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
co
e
Agrupamento de documentos

Pr´-processamento dos documentos - RapidMiner
e

Fabr´
ıcio J. Barth - Just Java 2008

Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es
ca
ca
co
Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
co
e
Agrupamento de documentos

Caracter´
ısticas e Funcionalidades do RapidMiner
O usu´rio define um processo de tratamento dos dados.
a
Os operadores podem ser divididos nas seguintes categorias:
IO
Learner (Supervised / Unsupervised)
OLAP (On-line Analytical Processing)
Postprocessing
Preprocessing
Validation
Visualization

Cada operador pode ser devidamente configurado.
Existem ambientes para: defini¸˜o do processo e execu¸˜o do
ca
ca
processo.
Fabr´
ıcio J. Barth - Just Java 2008

Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es
ca
ca
co
Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
co
e
Agrupamento de documentos

Pr´-processamento dos documentos - RapidMiner
e

Fabr´
ıcio J. Barth - Just Java 2008

Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es
ca
ca
co
Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
co
e
Agrupamento de documentos

Pr´-processamento dos documentos - C´digo
e
o
§

¤

i m p o r t edu . udo . c s . w v t o o l . g e n e r i c . stemmer . P o r t e r S t e m m e r W r a p p e r ;
i m p o r t edu . udo . c s . w v t o o l . g e n e r i c . t o k e n i z e r . S i m p l e T o k e n i z e r ;
i m p o r t edu . udo . c s . w v t o o l . g e n e r i c . w o r d f i l t e r . StopWordsWrapper ;
...
p u b l i c S t r i n g manipulaTextoComStemming ( S t r i n g nomeArquivo ){
try{
WVTDocumentInfo d o c u m e n t I n f o = new WVTDocumentInfo
( n u l l , ” html ” , n u l l , ” e n g l i s h ” ) ;
S i m p l e T o k e n i z e r t o k e n i z e r = new S i m p l e T o k e n i z e r ( ) ;
TokenEnumeration t o k e n s = t o k e n i z e r . t o k e n i z e (
new I n p u t S t r e a m R e a d e r (
new F i l e I n p u t S t r e a m ( nomeArquivo ) ) , d o c u m e n t I n f o ) ;
P o r t e r S t e m m e r W r a p p e r stemmer = new P o r t e r S t e m m e r W r a p p e r ( ) ;
StopWordsWrapper s t o p W o r d s = new StopWordsWrapper ( ) ;
T o k e n E n u m e r a t i o n tokenSemStopWord = s t o p W o r d s . f i l t e r (
tokens , documentInfo ) ;
S t r i n g r e t o r n o = ”” ;
w h i l e ( tokenSemStopWord . hasMoreTokens ( ) )
retorno = retorno +
stemmer . g e t B a s e ( tokenSemStopWord . n e x t T o k e n ())+ ” ” ;
return retorno ;
...

¦


Fabr´
ıcio J. Barth - Just Java 2008

¥

Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es
ca
ca
co
Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
co
e
Agrupamento de documentos

Conjunto de treinamento - Arquivo Arff
§

¤

@RELATION R a p i d M i n e r D a t a
@ATTRIBUTE
@ATTRIBUTE
@ATTRIBUTE
@ATTRIBUTE
...
...

’ network ’ r e a l
’ februari ’ real
’ member ’ r e a l
’ wait ’ r e a l

@DATA
0.1313298612447743 ,0.004041576682790196 ,0.01774727854659112 ,0.003549455709318225
0.1313298612447743 ,0.004041576682790196 ,0.01774727854659112 ,0.003549455709318 ,0
0.0 ,0.0 ,0.0 ,0.0
0.0 ,0.0 ,0.0 ,0.0
0.0 ,0.014857582309589007 ,0.0 ,0.0024848992203904758
...
...

¦


Fabr´
ıcio J. Barth - Just Java 2008

¥

Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es
ca
ca
co
Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
co
e
Agrupamento de documentos

Que algoritmo de agrupamento utilizar?

Fabr´
ıcio J. Barth - Just Java 2008

Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es
ca
ca
co
Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
co
e
Agrupamento de documentos

Algoritmos para Agrupamento - K-means

K significa o n´mero de agrupamentos (que deve ser
u
informado ` priori).
a
Sequˆncia de a¸˜es iterativas.
e
co
A parada ´ baseada em algum crit´rio de qualidade dos
e
e
agrupamentos (por exemplo, similaridade m´dia).
e

Fabr´
ıcio J. Barth - Just Java 2008

Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es
ca
ca
co
Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
co
e
Agrupamento de documentos

Algoritmo para Agrupamento - K-means
5

5

4

4

3

3

2

2

1

1
0

0
1

2

3

4

5

6

7

1

8

2

3

4

5

6

7

8

(2) Sorteio dos pontos centrais dos agrupamentos

(1) Objetos que devem ser agrupados

5

5

4

4

3

3

2

2

1

1
0

0
1

2

3

4

5

6

7

8

(3) Atribuição dos objetos aos agrupamentos

Fabr´
ıcio J. Barth - Just Java 2008

1

2

3

4

5

6

7

8

(4) Definição do centro do agrupamento

Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es
ca
ca
co
Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
co
e
Agrupamento de documentos

Algoritmo para agrupamento dos documentos - Weka

Fabr´
ıcio J. Barth - Just Java 2008

Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es
ca
ca
co
Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
co
e
Agrupamento de documentos

Caracter´
ısticas e Funcionalidades do Weka

Mais simples que o RapidMiner.
Com menos funcionalidades.
Os operadores podem ser divididos nas seguintes categorias:
Entrada e pr´-processamento.
e
Classifica¸˜o.
ca
Agrupamento.
Associa¸˜o.
ca
Visualiza¸˜o.
ca

Fabr´
ıcio J. Barth - Just Java 2008

Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es
ca
ca
co
Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
co
e
Agrupamento de documentos

Algoritmo para agrupamento dos documentos - Weka

Fabr´
ıcio J. Barth - Just Java 2008

Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es
ca
ca
co
Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
co
e
Agrupamento de documentos

Algoritmo para agrupamento dos documentos - C´digo
o
§

¤

p u b l i c AgrupamentoComKMeans ( S t r i n g a r q u i v o ){
try{
I n s t a n c e s i n s t a n c e s = new I n s t a n c e s ( new F i l e R e a d e r ( a r q u i v o ) ) ;
/∗
∗ Para v i s u a l i z a r o s d a d o s do a r q u i v o a r f f
∗/
System . o u t . p r i n t l n ( ” D a t a s e t : ” ) ;
System . o u t . p r i n t l n ( i n s t a n c e s ) ;
/∗
∗ U t i l i z a c ˜ o do KMeans
¸a
∗/
SimpleKMeans kmeans = new SimpleKMeans ( ) ;
kmeans . b u i l d C l u s t e r e r ( i n s t a n c e s ) ;
/∗
∗ Imprimindo i n f o r m a c˜o s o b r e i n s t ˆ n c i a − agrupamento
¸a
a
∗/
f o r ( i n t i =0; ii n s t a n c e s . n u m I n s t a n c e s ( ) ; i ++){
System . o u t . p r i n t l n ( ”A i n s t ˆ n c i a ”+
a
i n s t a n c e s . i n s t a n c e ( i ) . t o S t r i n g ()+
” e s t a h no c l u s t e r ”+
kmeans . c l u s t e r I n s t a n c e ( i n s t a n c e s . i n s t a n c e ( i ) ) ) ;
}
} c a t c h ( E x c e p t i o n e ){
System . o u t . p r i n t l n ( e ) ;
}
}

¦


¥
Fabr´
ıcio J. Barth - Just Java 2008

Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es
ca
ca
co
Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
co
e
Agrupamento de documentos

Algoritmo para agrupamento dos documentos - Resultados

§
A
A
A
A
A
A
A
A
A
A
A
A
A
A

¦


¤
instˆncia
a
instˆncia
a
instˆncia
a
instˆncia
a
instˆncia
a
instˆncia
a
instˆncia
a
instˆncia
a
instˆncia
a
instˆncia
a
instˆncia
a
instˆncia
a
instˆncia
a
instˆncia
a

0.1
0.1
0.3
0.3
0.3
0.8
0.1
0.1
0.1
0.6
0.6
0.1
0.2
0.1

,0.1
,0.2
,0.4
,0.1
,0.1
,0.7
,0.1
,0.1
,0.1
,0.5
,0.5
,0.1
,0.8
,0.1

,0.1
,0.3
,0.5
,0.1
,0.1
,0.8
,0.1
,0.1
,0.1
,0.6
,0.6
,0.1
,0.8
,0.1

,0.1
,0.1
,0.8
,0.1
,0.1
,0.8
,0.1
,0.1
,0.1
,0.6
,0.6
,0.1
,0.7
,0.1

,0.1
,0.8
,0.9
,0.1
,0.1
,0.8
,0.1
,0.1
,0.1
,0.6
,0.6
,0.1
,0.9
,0.1

est´
a
est´
a
est´
a
est´
a
est´
a
est´
a
est´
a
est´
a
est´
a
est´
a
est´
a
est´
a
est´
a
est´
a

no
no
no
no
no
no
no
no
no
no
no
no
no
no

Fabr´
ıcio J. Barth - Just Java 2008

cluster
cluster
cluster
cluster
cluster
cluster
cluster
cluster
cluster
cluster
cluster
cluster
cluster
cluster

1
1
0
1
1
0
1
1
1
0
0
1
0
1

¥

Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es
ca
ca
co
Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
co
e
Classifica¸˜o de documentos
ca

Classifica¸˜o e Filtragem de Not´
ca
ıcias

Fabr´
ıcio J. Barth - Just Java 2008

Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es
ca
ca
co
Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
co
e
Classifica¸˜o de documentos
ca

Classifica¸˜o e Filtragem de Not´
ca
ıcias

Fabr´
ıcio J. Barth - Just Java 2008

Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es
ca
ca
co
Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
co
e
Classifica¸˜o de documentos
ca

Conjunto de Exemplos - Atributo/Valor e Classe

Doc.

apresent

form

tecnic

caracteriz

···

Relevante

d1
d2
d3
d4
d5
dn

0.33
0
1
0.4
1
···

0.33
0.5
0.6
0.3
0.4
···

0.33
0.2
0
0.33
0.1
···

0.33
0.33
0
0.4
0.1
···

···
···
···
···
···
···

1
0
1
1
1
···

Fabr´
ıcio J. Barth - Just Java 2008

Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es
ca
ca
co
Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
co
e
Classifica¸˜o de documentos
ca

Qual ´ o problema?
e

Fabr´
ıcio J. Barth - Just Java 2008

Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es
ca
ca
co
Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
co
e
Classifica¸˜o de documentos
ca

Uma solu¸˜o...
ca

Fabr´
ıcio J. Barth - Just Java 2008

Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es
ca
ca
co
Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
co
e
Classifica¸˜o de documentos
ca

Processo de trabalho

Fabr´
ıcio J. Barth - Just Java 2008

Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es
ca
ca
co
Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
co
e
Recupera¸˜o de Informa¸˜o
ca
ca

Recupera¸˜o de Informa¸˜o
ca
ca

Como construir sistemas de “busca” sob medida?

Fabr´
ıcio J. Barth - Just Java 2008

Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es
ca
ca
co
Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
co
e
Recupera¸˜o de Informa¸˜o
ca
ca

Recupera¸˜o de Informa¸˜o
ca
ca

Como construir sistemas de “busca” sob medida?
Lucene: biblioteca para Recupera¸˜o de Informa¸˜o escrita
ca
ca
em Java e c´digo aberto. Possui: indexador e search engine.
o
Outras funcionalidades (web crawler e parsing de p´ginas
a
HTML) s˜o implementados por outras ferramentas baseadas
a
no Lucene, i.e, Nutch.
Mantido pela Apache Software Foundation.

Fabr´
ıcio J. Barth - Just Java 2008

Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es
ca
ca
co
Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
co
e
Recupera¸˜o de Informa¸˜o
ca
ca

Recupera¸˜o de Informa¸˜o
ca
ca

Utilizando o Lucene, o desenvolvedor pode alterar a search
engine para ter um mecanismo de busca apropriado para o
dom´ da sua aplica¸˜o.
ınio
ca
Exemplos de altera¸˜es poss´
co
ıveis:
Expans˜o da consulta usando uma taxonomia da empresa.
a
Altera¸˜o da fun¸˜o de ordena¸˜o (PageRank, BM25,
ca
ca
ca
Booleano).
Reordena¸˜o dos resultados utilizando informa¸˜es do perfil do
ca
co
usu´rio.
a

Fabr´
ıcio J. Barth - Just Java 2008

Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es
ca
ca
co
Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
co
e
Considera¸˜es
co

Considera¸˜es
co
Todas as fases de um sistema ou componente para
tratamento de informa¸˜es podem ser implementadas com as
co
ferramentas vistas nesta apresenta¸˜o:
ca
Indexa¸˜o.
ca
Recupera¸˜o.
ca
Minera¸˜o (determina¸˜o de padr˜es).
ca
ca
o

Com o RapidMiner e Weka ´ poss´
e
ıvel:
Reutilizar diversos algoritmos necess´rios.
a
Prototipar (criar e validar) uma solu¸˜o rapidamente.
ca
Integrar a solu¸˜o criada em outras aplica¸˜es.
ca
co

Com o Lucene ´ poss´
e
ıvel:
Desenvolver um mecanismo de “busca” sob medida.

Fabr´
ıcio J. Barth - Just Java 2008

Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es
ca
ca
co
Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
co
e
Referˆncias
e

Referˆncias (1/2)
e

Ian H. Witten, Eibe Frank. Data Mining: Practical Machine
Learning Tools and Techniques (Second Edition), 2005.
Weka 3: Data Mining Software in Java
(http://www.cs.waikato.ac.nz/ml/weka/index.html).
˜
RapidMiner Community Edition (http://rapid-i.com/).
Christopher D. Manning, Prabhakar Raghavan and Hinrich
Sch¨tze, Introduction to Information Retrieval, Cambridge
u
University Press. 2008. (http://www˜
csli.stanford.edu/hinrich/information-retrieval-book.html).
Apache Lucene (http://lucene.apache.org/java/docs/).

Fabr´
ıcio J. Barth - Just Java 2008

Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es
ca
ca
co
Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias
a
e
co
e
Referˆncias
e

Referˆncias (2/2)
e

Extra: Processamento de Linguagem Natural
GATE, A General Architecture for Text Engineering
(http://gate.ac.uk/).
UIMA - Unstructured Information Management Architecture
(www.research.ibm.com/UIMA/).

Fabr´
ıcio J. Barth - Just Java 2008

Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es
ca
ca
co

Weitere ähnliche Inhalte

Ähnlich wie Ferramentas Java para Recuperação e Mineração de Informações

Rc intro fatoreg mp13pr
Rc intro fatoreg mp13prRc intro fatoreg mp13pr
Rc intro fatoreg mp13prFACGiorno
 
Oficina: construção de modelos descritivos e preditivos utilizando R
Oficina: construção de modelos descritivos e preditivos utilizando ROficina: construção de modelos descritivos e preditivos utilizando R
Oficina: construção de modelos descritivos e preditivos utilizando RFabrício Barth
 
Área de projecto _ esquematização + RBE
Área de projecto _  esquematização + RBEÁrea de projecto _  esquematização + RBE
Área de projecto _ esquematização + RBEBE ESGN
 
Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avalia...
Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avalia...Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avalia...
Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avalia...Christiano Avila
 
Sistemas de Informação
Sistemas de InformaçãoSistemas de Informação
Sistemas de InformaçãoPiedley macedo
 
ESTUDO DE MAPEAMENTO OBJETO-RELACIONAL COM FRAMEWORK HIBERNATE
ESTUDO DE MAPEAMENTO OBJETO-RELACIONAL COM FRAMEWORK HIBERNATEESTUDO DE MAPEAMENTO OBJETO-RELACIONAL COM FRAMEWORK HIBERNATE
ESTUDO DE MAPEAMENTO OBJETO-RELACIONAL COM FRAMEWORK HIBERNATEFernando A. Barbeiro Campos
 
Banco de dados orientado a objetos
Banco de dados orientado a objetosBanco de dados orientado a objetos
Banco de dados orientado a objetosStefan Horochovec
 
Interface multitoque multi-utilizador no ensino das Ciências Naturais
Interface multitoque multi-utilizador no ensino das Ciências NaturaisInterface multitoque multi-utilizador no ensino das Ciências Naturais
Interface multitoque multi-utilizador no ensino das Ciências NaturaisAdriana Ramos
 
Aula Apresentação PETIC UFAM - Rogerio P C do Nascimento
Aula Apresentação PETIC UFAM - Rogerio P C do NascimentoAula Apresentação PETIC UFAM - Rogerio P C do Nascimento
Aula Apresentação PETIC UFAM - Rogerio P C do NascimentoRogerio P C do Nascimento
 
Uma estratégia para a busca e recuperação da informação em Internet
Uma estratégia para a busca e recuperação da informação em InternetUma estratégia para a busca e recuperação da informação em Internet
Uma estratégia para a busca e recuperação da informação em Internetjuan carlos fonden calzadilla
 
Apresentar trabalhos em texto (1º CEB)
Apresentar trabalhos em texto (1º CEB)Apresentar trabalhos em texto (1º CEB)
Apresentar trabalhos em texto (1º CEB)ProjetoLiteracias
 
TDC2018SP | Trilha Data Science - Utilizando dados para melhorar seus sistema...
TDC2018SP | Trilha Data Science - Utilizando dados para melhorar seus sistema...TDC2018SP | Trilha Data Science - Utilizando dados para melhorar seus sistema...
TDC2018SP | Trilha Data Science - Utilizando dados para melhorar seus sistema...tdc-globalcode
 
Ferramentas de pesquisa e Latex
Ferramentas de pesquisa e LatexFerramentas de pesquisa e Latex
Ferramentas de pesquisa e LatexThiago Furtado
 
R: a alternativa ao SPSS e ao NVivo em software livre
R: a alternativa ao SPSS e ao NVivo em software livreR: a alternativa ao SPSS e ao NVivo em software livre
R: a alternativa ao SPSS e ao NVivo em software livreLuis Borges Gouveia
 
Concurso da Fundação casa do Estado de São Paulo
Concurso da Fundação casa do Estado de São PauloConcurso da Fundação casa do Estado de São Paulo
Concurso da Fundação casa do Estado de São PauloResumo Apostilas
 
Db mapeamento relacional
Db mapeamento relacionalDb mapeamento relacional
Db mapeamento relacionalEdvaldo Freitas
 
Planificação tic 7º_ 2016_2017
Planificação tic 7º_ 2016_2017Planificação tic 7º_ 2016_2017
Planificação tic 7º_ 2016_2017Anabela Cordeiro
 
Flisol 2016 fidelis - Curitiba - PR - Brazil
Flisol 2016   fidelis - Curitiba - PR - BrazilFlisol 2016   fidelis - Curitiba - PR - Brazil
Flisol 2016 fidelis - Curitiba - PR - BrazilMarcos Vinicius Fidelis
 

Ähnlich wie Ferramentas Java para Recuperação e Mineração de Informações (20)

Rc intro fatoreg mp13pr
Rc intro fatoreg mp13prRc intro fatoreg mp13pr
Rc intro fatoreg mp13pr
 
Oficina: construção de modelos descritivos e preditivos utilizando R
Oficina: construção de modelos descritivos e preditivos utilizando ROficina: construção de modelos descritivos e preditivos utilizando R
Oficina: construção de modelos descritivos e preditivos utilizando R
 
Área de projecto _ esquematização + RBE
Área de projecto _  esquematização + RBEÁrea de projecto _  esquematização + RBE
Área de projecto _ esquematização + RBE
 
Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avalia...
Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avalia...Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avalia...
Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avalia...
 
Sistemas de Informação
Sistemas de InformaçãoSistemas de Informação
Sistemas de Informação
 
ESTUDO DE MAPEAMENTO OBJETO-RELACIONAL COM FRAMEWORK HIBERNATE
ESTUDO DE MAPEAMENTO OBJETO-RELACIONAL COM FRAMEWORK HIBERNATEESTUDO DE MAPEAMENTO OBJETO-RELACIONAL COM FRAMEWORK HIBERNATE
ESTUDO DE MAPEAMENTO OBJETO-RELACIONAL COM FRAMEWORK HIBERNATE
 
Banco de dados orientado a objetos
Banco de dados orientado a objetosBanco de dados orientado a objetos
Banco de dados orientado a objetos
 
Interface multitoque multi-utilizador no ensino das Ciências Naturais
Interface multitoque multi-utilizador no ensino das Ciências NaturaisInterface multitoque multi-utilizador no ensino das Ciências Naturais
Interface multitoque multi-utilizador no ensino das Ciências Naturais
 
Aula Apresentação PETIC UFAM - Rogerio P C do Nascimento
Aula Apresentação PETIC UFAM - Rogerio P C do NascimentoAula Apresentação PETIC UFAM - Rogerio P C do Nascimento
Aula Apresentação PETIC UFAM - Rogerio P C do Nascimento
 
Uma estratégia para a busca e recuperação da informação em Internet
Uma estratégia para a busca e recuperação da informação em InternetUma estratégia para a busca e recuperação da informação em Internet
Uma estratégia para a busca e recuperação da informação em Internet
 
Apresentar trabalhos em texto (1º CEB)
Apresentar trabalhos em texto (1º CEB)Apresentar trabalhos em texto (1º CEB)
Apresentar trabalhos em texto (1º CEB)
 
TDC2018SP | Trilha Data Science - Utilizando dados para melhorar seus sistema...
TDC2018SP | Trilha Data Science - Utilizando dados para melhorar seus sistema...TDC2018SP | Trilha Data Science - Utilizando dados para melhorar seus sistema...
TDC2018SP | Trilha Data Science - Utilizando dados para melhorar seus sistema...
 
Ferramentas de pesquisa e Latex
Ferramentas de pesquisa e LatexFerramentas de pesquisa e Latex
Ferramentas de pesquisa e Latex
 
Atlas analise de dados
Atlas analise de dadosAtlas analise de dados
Atlas analise de dados
 
R: a alternativa ao SPSS e ao NVivo em software livre
R: a alternativa ao SPSS e ao NVivo em software livreR: a alternativa ao SPSS e ao NVivo em software livre
R: a alternativa ao SPSS e ao NVivo em software livre
 
Concurso da Fundação casa do Estado de São Paulo
Concurso da Fundação casa do Estado de São PauloConcurso da Fundação casa do Estado de São Paulo
Concurso da Fundação casa do Estado de São Paulo
 
Db mapeamento relacional
Db mapeamento relacionalDb mapeamento relacional
Db mapeamento relacional
 
Web Data Mining com R
Web Data Mining com RWeb Data Mining com R
Web Data Mining com R
 
Planificação tic 7º_ 2016_2017
Planificação tic 7º_ 2016_2017Planificação tic 7º_ 2016_2017
Planificação tic 7º_ 2016_2017
 
Flisol 2016 fidelis - Curitiba - PR - Brazil
Flisol 2016   fidelis - Curitiba - PR - BrazilFlisol 2016   fidelis - Curitiba - PR - Brazil
Flisol 2016 fidelis - Curitiba - PR - Brazil
 

Mehr von Fabrício Barth

Mineração de padrões frequentes - Pós Graduação em Big Data
Mineração de padrões frequentes - Pós Graduação em Big DataMineração de padrões frequentes - Pós Graduação em Big Data
Mineração de padrões frequentes - Pós Graduação em Big DataFabrício Barth
 
Redução de dimensionalidade - Pós Graduação em Big Data
Redução de dimensionalidade - Pós Graduação em Big DataRedução de dimensionalidade - Pós Graduação em Big Data
Redução de dimensionalidade - Pós Graduação em Big DataFabrício Barth
 
Hierarquia de modelos e Aprendizagem de Máquina - Pós Graduação em Big Data
Hierarquia de modelos e Aprendizagem de Máquina - Pós Graduação em Big DataHierarquia de modelos e Aprendizagem de Máquina - Pós Graduação em Big Data
Hierarquia de modelos e Aprendizagem de Máquina - Pós Graduação em Big DataFabrício Barth
 
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big Data
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big DataContexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big Data
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big DataFabrício Barth
 
Pré-processamento [no R] e Análise Exploratória - Curso de Big Data
Pré-processamento [no R] e Análise Exploratória - Curso de Big DataPré-processamento [no R] e Análise Exploratória - Curso de Big Data
Pré-processamento [no R] e Análise Exploratória - Curso de Big DataFabrício Barth
 
Algoritmos de Agrupamento - Aprendizado não supervisionado
Algoritmos de Agrupamento - Aprendizado não supervisionadoAlgoritmos de Agrupamento - Aprendizado não supervisionado
Algoritmos de Agrupamento - Aprendizado não supervisionadoFabrício Barth
 
Human Activity Recognition
Human Activity RecognitionHuman Activity Recognition
Human Activity RecognitionFabrício Barth
 
Iniciativas em Big Data no VAGAS.com
Iniciativas em Big Data no VAGAS.comIniciativas em Big Data no VAGAS.com
Iniciativas em Big Data no VAGAS.comFabrício Barth
 
Web Data Mining com R: identificação de spam utilizando Random Forest
Web Data Mining com R: identificação de spam utilizando Random ForestWeb Data Mining com R: identificação de spam utilizando Random Forest
Web Data Mining com R: identificação de spam utilizando Random ForestFabrício Barth
 
Web Data Mining com R: design de projetos para criação de modelos preditivos
Web Data Mining com R: design de projetos para criação de modelos preditivosWeb Data Mining com R: design de projetos para criação de modelos preditivos
Web Data Mining com R: design de projetos para criação de modelos preditivosFabrício Barth
 
Web Data Mining com R: criação de regras de associação a partir da navegação ...
Web Data Mining com R: criação de regras de associação a partir da navegação ...Web Data Mining com R: criação de regras de associação a partir da navegação ...
Web Data Mining com R: criação de regras de associação a partir da navegação ...Fabrício Barth
 
Web Data Mining com r: aprendizagem de máquina
Web Data Mining com r: aprendizagem de máquinaWeb Data Mining com r: aprendizagem de máquina
Web Data Mining com r: aprendizagem de máquinaFabrício Barth
 
Web Data Mining com R: pré-processamento de dados [no R]
Web Data Mining com R: pré-processamento de dados [no R]Web Data Mining com R: pré-processamento de dados [no R]
Web Data Mining com R: pré-processamento de dados [no R]Fabrício Barth
 
Data Science, Machine Learning and Big Data
Data Science, Machine Learning and Big DataData Science, Machine Learning and Big Data
Data Science, Machine Learning and Big DataFabrício Barth
 
Atena: um sistema para suporte ao planejamento na área de Gestão de Projeto
Atena: um sistema para suporte ao planejamento na área de Gestão de ProjetoAtena: um sistema para suporte ao planejamento na área de Gestão de Projeto
Atena: um sistema para suporte ao planejamento na área de Gestão de ProjetoFabrício Barth
 

Mehr von Fabrício Barth (16)

Mineração de padrões frequentes - Pós Graduação em Big Data
Mineração de padrões frequentes - Pós Graduação em Big DataMineração de padrões frequentes - Pós Graduação em Big Data
Mineração de padrões frequentes - Pós Graduação em Big Data
 
Redução de dimensionalidade - Pós Graduação em Big Data
Redução de dimensionalidade - Pós Graduação em Big DataRedução de dimensionalidade - Pós Graduação em Big Data
Redução de dimensionalidade - Pós Graduação em Big Data
 
Hierarquia de modelos e Aprendizagem de Máquina - Pós Graduação em Big Data
Hierarquia de modelos e Aprendizagem de Máquina - Pós Graduação em Big DataHierarquia de modelos e Aprendizagem de Máquina - Pós Graduação em Big Data
Hierarquia de modelos e Aprendizagem de Máquina - Pós Graduação em Big Data
 
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big Data
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big DataContexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big Data
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big Data
 
Pré-processamento [no R] e Análise Exploratória - Curso de Big Data
Pré-processamento [no R] e Análise Exploratória - Curso de Big DataPré-processamento [no R] e Análise Exploratória - Curso de Big Data
Pré-processamento [no R] e Análise Exploratória - Curso de Big Data
 
Algoritmos de Agrupamento - Aprendizado não supervisionado
Algoritmos de Agrupamento - Aprendizado não supervisionadoAlgoritmos de Agrupamento - Aprendizado não supervisionado
Algoritmos de Agrupamento - Aprendizado não supervisionado
 
Human Activity Recognition
Human Activity RecognitionHuman Activity Recognition
Human Activity Recognition
 
Iniciativas em Big Data no VAGAS.com
Iniciativas em Big Data no VAGAS.comIniciativas em Big Data no VAGAS.com
Iniciativas em Big Data no VAGAS.com
 
Web Data Mining com R: identificação de spam utilizando Random Forest
Web Data Mining com R: identificação de spam utilizando Random ForestWeb Data Mining com R: identificação de spam utilizando Random Forest
Web Data Mining com R: identificação de spam utilizando Random Forest
 
Web Data Mining com R: design de projetos para criação de modelos preditivos
Web Data Mining com R: design de projetos para criação de modelos preditivosWeb Data Mining com R: design de projetos para criação de modelos preditivos
Web Data Mining com R: design de projetos para criação de modelos preditivos
 
Web Data Mining com R: criação de regras de associação a partir da navegação ...
Web Data Mining com R: criação de regras de associação a partir da navegação ...Web Data Mining com R: criação de regras de associação a partir da navegação ...
Web Data Mining com R: criação de regras de associação a partir da navegação ...
 
Web Data Mining com r: aprendizagem de máquina
Web Data Mining com r: aprendizagem de máquinaWeb Data Mining com r: aprendizagem de máquina
Web Data Mining com r: aprendizagem de máquina
 
Web Data Mining com R: pré-processamento de dados [no R]
Web Data Mining com R: pré-processamento de dados [no R]Web Data Mining com R: pré-processamento de dados [no R]
Web Data Mining com R: pré-processamento de dados [no R]
 
Data Science, Machine Learning and Big Data
Data Science, Machine Learning and Big DataData Science, Machine Learning and Big Data
Data Science, Machine Learning and Big Data
 
Projeto Simple Maps
Projeto Simple MapsProjeto Simple Maps
Projeto Simple Maps
 
Atena: um sistema para suporte ao planejamento na área de Gestão de Projeto
Atena: um sistema para suporte ao planejamento na área de Gestão de ProjetoAtena: um sistema para suporte ao planejamento na área de Gestão de Projeto
Atena: um sistema para suporte ao planejamento na área de Gestão de Projeto
 

Ferramentas Java para Recuperação e Mineração de Informações

  • 1. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Ferramentas Java para Recupera¸˜o e Minera¸˜o ca ca de Informa¸˜es co Fabr´ J. Barth1,2 ıcio 1 Funda¸˜o ca 2 Centro Atech Tecnologias Cr´ ıticas (fbarth@atech.br) Universit´rio SENAC (fabricio.jbarth@sp.senac.br) a 9 de setembro de 2008 Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  • 2. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e 1 Contexto, Problemas e Objetivos Problema 1: recuperar a informa¸˜o ca Problema 2: tratar a informa¸˜o recuperada ca 2 Estudo de caso 3 Conceitos, t´cnicas e ferramentas e Agrupamento de documentos Classifica¸˜o de documentos ca Recupera¸˜o de Informa¸˜o ca ca 4 Considera¸˜es e Referˆncias co e Considera¸˜es co Referˆncias e Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  • 3. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Contexto: Enorme quantidade de dados que precisa ser processada Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  • 4. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Problema 1: recuperar a informa¸˜o ca Problema 1: recuperar a informa¸˜o ca Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  • 5. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Problema 2: tratar a informa¸˜o recuperada ca Problema 2: tratar a informa¸˜o recuperada ca Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  • 6. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Quantidade de not´ ıcias produzidas na Web? Notícias publicadas na Internet 160000 Estadão Folha G1 Globo Online Terra Último Segundo Total 140000 Quantidade (Notícias) 120000 100000 80000 60000 40000 20000 0 0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 Tempo (Dias) Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  • 7. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Quantidade de not´ ıcias produzidas na Web? Relação Horário x Dia x Quantidade de Notícias Produzidas 500 450 400 350 300 250 200 150 100 50 0 500 400 Notícias 300 200 100 0 0 2 4 6 8 Horário 10 12 30 14 16 20 10 18 20 22 0 Fabr´ ıcio J. Barth - Just Java 2008 40 50 60 70 80 90 Dia Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  • 8. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Problema e Sugest˜es o Problema: Para tirar proveito desta informa¸˜o ´ necess´rio organiz´-la de ca e a a alguma forma... Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  • 9. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Problema e Sugest˜es o Problema: Para tirar proveito desta informa¸˜o ´ necess´rio organiz´-la de ca e a a alguma forma... Sugest˜es: o Agrupamento de Not´ ıcias. Classifica¸˜o, Recomenda¸˜o e Filtragem de Not´ ca ca ıcias. Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  • 10. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Agrupamento de documentos Por que agrupar not´ ıcias? Como agrup´-las? a Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  • 11. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Agrupamento de documentos Defini¸˜es de Algoritmos de Agrupamento co O objetivo dos algoritmos de agrupamento ´ colocar os e objetos similares em um mesmo grupo e objetos n˜o similares a em grupos diferentes. Normalmente, objetos s˜o descritos e agrupados usando um a conjunto de atributos e valores. N˜o existe nenhuma informa¸˜o sobre a classe ou categoria a ca dos objetos. Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  • 12. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Agrupamento de documentos Formato de um documento ... Esta disciplina tem como objetivo apresentar os principais conceitos da ´rea de Inteligˆncia Artificial, caracterizar as principais t´cnicas e a e e m´todos, e implementar alguns problemas cl´ssicos desta ´rea sob um e a a ponto de vista introdut´rio. o A estrat´gia de trabalho, o conte´do ministrado e a forma depender˜o e u a dos projetos selecionados pelos alunos. Inicialmente, os alunos dever˜o a trazer os seus Projetos de Conclus˜o de Curso, identificar intersec¸˜es a co entre o projeto e a disciplina, e propor atividades para a disciplina. ... Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  • 13. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Agrupamento de documentos Atributo/Valor usando vetores Como representar os documentos? Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  • 14. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Agrupamento de documentos Atributo/Valor usando vetores Como representar os documentos? − → di = (pi1 , pi2 , · · · , pin) (1) Os atributos s˜o as palavras que aparecem nos documentos. a Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  • 15. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Agrupamento de documentos Atributo/Valor usando vetores Como representar os documentos? − → di = (pi1 , pi2 , · · · , pin) (1) Os atributos s˜o as palavras que aparecem nos documentos. a Se todas as palavras que aparecem nos documentos forem utilizadas, o vetor n˜o ficar´ muito grande? a a Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  • 16. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Agrupamento de documentos Diminuindo a dimensionalidade do vetor Como filtrar as palavras que devem ser usadas como atributos? Em todos os idiomas existem ´tomos (palavras) que n˜o a a significam muito. Stop-words Esta disciplina tem como objetivo apresentar os principais conceitos da ´rea de Inteligˆncia Artificial, caracterizar as principais t´cnicas e a e e m´todos, e implementar alguns problemas cl´ssicos desta ´rea sob um e a a ponto de vista introdut´rio. o ··· Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  • 17. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Agrupamento de documentos Diminuindo ainda mais a dimensionalidade do vetor Algumas palavras podem aparecer no texto de diversas maneiras: t´cnica, t´cnicas, implementar, implementa¸˜o... e e ca Stemming - encontrar o radical da palavra e usar apenas o radical. Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  • 18. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Agrupamento de documentos Atributo/Valor usando vetores J´ conhecemos os atributos. a E os valores? Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  • 19. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Agrupamento de documentos Atributo/Valor usando vetores J´ conhecemos os atributos. a E os valores? Booleana - se a palavra aparece ou n˜o no documento (1 ou 0) a Por freq¨ˆncia do termo - a freq¨ˆncia com que a palavra ue ue aparece no documento (normalizada ou n˜o) a Pondera¸˜o tf-idf - o peso ´ proporcional ao n´mero de ca e u ocorrˆncias do termo no documento e inversamente e proporcional ao n´mero de documentos onde o termo aparece. u Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  • 20. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Agrupamento de documentos Por freq¨ˆncia do termo ue (apresent,0.33) (form,0.33) (tecnic,0.33) (caracteriz,0.33) (projet,1.0) (introdutori,0.33) (objet,0.33) (inteligente,0.33) (conclusa,0.33) (selecion,0.33) (intersecco,0.33) (classic,0.33) (identific,0.33) (conceit,0.33) (trabalh,0.33) (disciplin,1.0) (traz,0.33) Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  • 21. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Agrupamento de documentos Conjunto de Exemplos - Atributo/Valor Doc. apresent form tecnic caracteriz ··· d1 d2 d3 d4 d5 dn 0.33 0 1 0.4 1 ··· 0.33 0.5 0.6 0.3 0.4 ··· 0.33 0.2 0 0.33 0.1 ··· 0.33 0.33 0 0.4 0.1 ··· ··· ··· ··· ··· ··· ··· Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  • 22. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Agrupamento de documentos Componentes da Solu¸˜o ca Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  • 23. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Agrupamento de documentos Coletor de RSS e Pr´-Processamento e function coletorRSS(Lista de RSS): tabela i ← 0; for cada rssi em RSS do for cada noticiaj em rssi do di ← di + rssi .noticiaj .TITLE; di ← di + rssi .noticiaj .DESCRIPTION; di ← eliminaStopWords(di ); di ← stemming(di ); i ← i + 1; end for end for return criaTabelaExemplos(d,TF-IDF); Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  • 24. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Agrupamento de documentos Pr´-processamento dos documentos - RapidMiner e Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  • 25. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Agrupamento de documentos Caracter´ ısticas e Funcionalidades do RapidMiner O usu´rio define um processo de tratamento dos dados. a Os operadores podem ser divididos nas seguintes categorias: IO Learner (Supervised / Unsupervised) OLAP (On-line Analytical Processing) Postprocessing Preprocessing Validation Visualization Cada operador pode ser devidamente configurado. Existem ambientes para: defini¸˜o do processo e execu¸˜o do ca ca processo. Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  • 26. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Agrupamento de documentos Pr´-processamento dos documentos - RapidMiner e Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  • 27. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Agrupamento de documentos Pr´-processamento dos documentos - C´digo e o § ¤ i m p o r t edu . udo . c s . w v t o o l . g e n e r i c . stemmer . P o r t e r S t e m m e r W r a p p e r ; i m p o r t edu . udo . c s . w v t o o l . g e n e r i c . t o k e n i z e r . S i m p l e T o k e n i z e r ; i m p o r t edu . udo . c s . w v t o o l . g e n e r i c . w o r d f i l t e r . StopWordsWrapper ; ... p u b l i c S t r i n g manipulaTextoComStemming ( S t r i n g nomeArquivo ){ try{ WVTDocumentInfo d o c u m e n t I n f o = new WVTDocumentInfo ( n u l l , ” html ” , n u l l , ” e n g l i s h ” ) ; S i m p l e T o k e n i z e r t o k e n i z e r = new S i m p l e T o k e n i z e r ( ) ; TokenEnumeration t o k e n s = t o k e n i z e r . t o k e n i z e ( new I n p u t S t r e a m R e a d e r ( new F i l e I n p u t S t r e a m ( nomeArquivo ) ) , d o c u m e n t I n f o ) ; P o r t e r S t e m m e r W r a p p e r stemmer = new P o r t e r S t e m m e r W r a p p e r ( ) ; StopWordsWrapper s t o p W o r d s = new StopWordsWrapper ( ) ; T o k e n E n u m e r a t i o n tokenSemStopWord = s t o p W o r d s . f i l t e r ( tokens , documentInfo ) ; S t r i n g r e t o r n o = ”” ; w h i l e ( tokenSemStopWord . hasMoreTokens ( ) ) retorno = retorno + stemmer . g e t B a s e ( tokenSemStopWord . n e x t T o k e n ())+ ” ” ; return retorno ; ... ¦ Fabr´ ıcio J. Barth - Just Java 2008 ¥ Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  • 28. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Agrupamento de documentos Conjunto de treinamento - Arquivo Arff § ¤ @RELATION R a p i d M i n e r D a t a @ATTRIBUTE @ATTRIBUTE @ATTRIBUTE @ATTRIBUTE ... ... ’ network ’ r e a l ’ februari ’ real ’ member ’ r e a l ’ wait ’ r e a l @DATA 0.1313298612447743 ,0.004041576682790196 ,0.01774727854659112 ,0.003549455709318225 0.1313298612447743 ,0.004041576682790196 ,0.01774727854659112 ,0.003549455709318 ,0 0.0 ,0.0 ,0.0 ,0.0 0.0 ,0.0 ,0.0 ,0.0 0.0 ,0.014857582309589007 ,0.0 ,0.0024848992203904758 ... ... ¦ Fabr´ ıcio J. Barth - Just Java 2008 ¥ Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  • 29. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Agrupamento de documentos Que algoritmo de agrupamento utilizar? Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  • 30. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Agrupamento de documentos Algoritmos para Agrupamento - K-means K significa o n´mero de agrupamentos (que deve ser u informado ` priori). a Sequˆncia de a¸˜es iterativas. e co A parada ´ baseada em algum crit´rio de qualidade dos e e agrupamentos (por exemplo, similaridade m´dia). e Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  • 31. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Agrupamento de documentos Algoritmo para Agrupamento - K-means 5 5 4 4 3 3 2 2 1 1 0 0 1 2 3 4 5 6 7 1 8 2 3 4 5 6 7 8 (2) Sorteio dos pontos centrais dos agrupamentos (1) Objetos que devem ser agrupados 5 5 4 4 3 3 2 2 1 1 0 0 1 2 3 4 5 6 7 8 (3) Atribuição dos objetos aos agrupamentos Fabr´ ıcio J. Barth - Just Java 2008 1 2 3 4 5 6 7 8 (4) Definição do centro do agrupamento Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  • 32. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Agrupamento de documentos Algoritmo para agrupamento dos documentos - Weka Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  • 33. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Agrupamento de documentos Caracter´ ısticas e Funcionalidades do Weka Mais simples que o RapidMiner. Com menos funcionalidades. Os operadores podem ser divididos nas seguintes categorias: Entrada e pr´-processamento. e Classifica¸˜o. ca Agrupamento. Associa¸˜o. ca Visualiza¸˜o. ca Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  • 34. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Agrupamento de documentos Algoritmo para agrupamento dos documentos - Weka Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  • 35. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Agrupamento de documentos Algoritmo para agrupamento dos documentos - C´digo o § ¤ p u b l i c AgrupamentoComKMeans ( S t r i n g a r q u i v o ){ try{ I n s t a n c e s i n s t a n c e s = new I n s t a n c e s ( new F i l e R e a d e r ( a r q u i v o ) ) ; /∗ ∗ Para v i s u a l i z a r o s d a d o s do a r q u i v o a r f f ∗/ System . o u t . p r i n t l n ( ” D a t a s e t : ” ) ; System . o u t . p r i n t l n ( i n s t a n c e s ) ; /∗ ∗ U t i l i z a c ˜ o do KMeans ¸a ∗/ SimpleKMeans kmeans = new SimpleKMeans ( ) ; kmeans . b u i l d C l u s t e r e r ( i n s t a n c e s ) ; /∗ ∗ Imprimindo i n f o r m a c˜o s o b r e i n s t ˆ n c i a − agrupamento ¸a a ∗/ f o r ( i n t i =0; ii n s t a n c e s . n u m I n s t a n c e s ( ) ; i ++){ System . o u t . p r i n t l n ( ”A i n s t ˆ n c i a ”+ a i n s t a n c e s . i n s t a n c e ( i ) . t o S t r i n g ()+ ” e s t a h no c l u s t e r ”+ kmeans . c l u s t e r I n s t a n c e ( i n s t a n c e s . i n s t a n c e ( i ) ) ) ; } } c a t c h ( E x c e p t i o n e ){ System . o u t . p r i n t l n ( e ) ; } } ¦ ¥ Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  • 36. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Agrupamento de documentos Algoritmo para agrupamento dos documentos - Resultados § A A A A A A A A A A A A A A ¦ ¤ instˆncia a instˆncia a instˆncia a instˆncia a instˆncia a instˆncia a instˆncia a instˆncia a instˆncia a instˆncia a instˆncia a instˆncia a instˆncia a instˆncia a 0.1 0.1 0.3 0.3 0.3 0.8 0.1 0.1 0.1 0.6 0.6 0.1 0.2 0.1 ,0.1 ,0.2 ,0.4 ,0.1 ,0.1 ,0.7 ,0.1 ,0.1 ,0.1 ,0.5 ,0.5 ,0.1 ,0.8 ,0.1 ,0.1 ,0.3 ,0.5 ,0.1 ,0.1 ,0.8 ,0.1 ,0.1 ,0.1 ,0.6 ,0.6 ,0.1 ,0.8 ,0.1 ,0.1 ,0.1 ,0.8 ,0.1 ,0.1 ,0.8 ,0.1 ,0.1 ,0.1 ,0.6 ,0.6 ,0.1 ,0.7 ,0.1 ,0.1 ,0.8 ,0.9 ,0.1 ,0.1 ,0.8 ,0.1 ,0.1 ,0.1 ,0.6 ,0.6 ,0.1 ,0.9 ,0.1 est´ a est´ a est´ a est´ a est´ a est´ a est´ a est´ a est´ a est´ a est´ a est´ a est´ a est´ a no no no no no no no no no no no no no no Fabr´ ıcio J. Barth - Just Java 2008 cluster cluster cluster cluster cluster cluster cluster cluster cluster cluster cluster cluster cluster cluster 1 1 0 1 1 0 1 1 1 0 0 1 0 1 ¥ Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  • 37. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Classifica¸˜o de documentos ca Classifica¸˜o e Filtragem de Not´ ca ıcias Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  • 38. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Classifica¸˜o de documentos ca Classifica¸˜o e Filtragem de Not´ ca ıcias Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  • 39. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Classifica¸˜o de documentos ca Conjunto de Exemplos - Atributo/Valor e Classe Doc. apresent form tecnic caracteriz ··· Relevante d1 d2 d3 d4 d5 dn 0.33 0 1 0.4 1 ··· 0.33 0.5 0.6 0.3 0.4 ··· 0.33 0.2 0 0.33 0.1 ··· 0.33 0.33 0 0.4 0.1 ··· ··· ··· ··· ··· ··· ··· 1 0 1 1 1 ··· Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  • 40. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Classifica¸˜o de documentos ca Qual ´ o problema? e Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  • 41. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Classifica¸˜o de documentos ca Uma solu¸˜o... ca Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  • 42. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Classifica¸˜o de documentos ca Processo de trabalho Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  • 43. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Recupera¸˜o de Informa¸˜o ca ca Recupera¸˜o de Informa¸˜o ca ca Como construir sistemas de “busca” sob medida? Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  • 44. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Recupera¸˜o de Informa¸˜o ca ca Recupera¸˜o de Informa¸˜o ca ca Como construir sistemas de “busca” sob medida? Lucene: biblioteca para Recupera¸˜o de Informa¸˜o escrita ca ca em Java e c´digo aberto. Possui: indexador e search engine. o Outras funcionalidades (web crawler e parsing de p´ginas a HTML) s˜o implementados por outras ferramentas baseadas a no Lucene, i.e, Nutch. Mantido pela Apache Software Foundation. Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  • 45. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Recupera¸˜o de Informa¸˜o ca ca Recupera¸˜o de Informa¸˜o ca ca Utilizando o Lucene, o desenvolvedor pode alterar a search engine para ter um mecanismo de busca apropriado para o dom´ da sua aplica¸˜o. ınio ca Exemplos de altera¸˜es poss´ co ıveis: Expans˜o da consulta usando uma taxonomia da empresa. a Altera¸˜o da fun¸˜o de ordena¸˜o (PageRank, BM25, ca ca ca Booleano). Reordena¸˜o dos resultados utilizando informa¸˜es do perfil do ca co usu´rio. a Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  • 46. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Considera¸˜es co Considera¸˜es co Todas as fases de um sistema ou componente para tratamento de informa¸˜es podem ser implementadas com as co ferramentas vistas nesta apresenta¸˜o: ca Indexa¸˜o. ca Recupera¸˜o. ca Minera¸˜o (determina¸˜o de padr˜es). ca ca o Com o RapidMiner e Weka ´ poss´ e ıvel: Reutilizar diversos algoritmos necess´rios. a Prototipar (criar e validar) uma solu¸˜o rapidamente. ca Integrar a solu¸˜o criada em outras aplica¸˜es. ca co Com o Lucene ´ poss´ e ıvel: Desenvolver um mecanismo de “busca” sob medida. Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  • 47. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Referˆncias e Referˆncias (1/2) e Ian H. Witten, Eibe Frank. Data Mining: Practical Machine Learning Tools and Techniques (Second Edition), 2005. Weka 3: Data Mining Software in Java (http://www.cs.waikato.ac.nz/ml/weka/index.html). ˜ RapidMiner Community Edition (http://rapid-i.com/). Christopher D. Manning, Prabhakar Raghavan and Hinrich Sch¨tze, Introduction to Information Retrieval, Cambridge u University Press. 2008. (http://www˜ csli.stanford.edu/hinrich/information-retrieval-book.html). Apache Lucene (http://lucene.apache.org/java/docs/). Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co
  • 48. Sum´rio Contexto, Problemas e Objetivos Estudo de caso Conceitos, t´cnicas e ferramentas Considera¸˜es e Referˆncias a e co e Referˆncias e Referˆncias (2/2) e Extra: Processamento de Linguagem Natural GATE, A General Architecture for Text Engineering (http://gate.ac.uk/). UIMA - Unstructured Information Management Architecture (www.research.ibm.com/UIMA/). Fabr´ ıcio J. Barth - Just Java 2008 Ferramentas para Recupera¸˜o e Minera¸˜o de Informa¸˜es ca ca co