O documento apresenta ferramentas para mineração de dados como Weka e Mahout. Discute as funcionalidades do Weka como classificação, clusterização e associação de regras. Apresenta exemplos de uso do Weka para classificação de veículos e associação de departamentos de supermercado. Introduz o Mahout como biblioteca escalável para aprendizagem de máquina em Hadoop.
2. Agenda
• Introdução • Mahout
• Weka • Introdução ao Mahout
• Interface Gráfica • Conclusão/Referências
• Arquivos ARFF
• Ferramentas para ARFF
• Exemplos
quinta-feira, 6 de dezembro de 12
3. Introdução
• Softwares:
• Weka
• Mahout
• OpenSource
• Utilizados pela academia
quinta-feira, 6 de dezembro de 12
4. Weka
• Software de aprendizagem
de máquina
• Pré-processamento
• Mineração de Dados
• Escrito em JAVA
quinta-feira, 6 de dezembro de 12
5. Weka
• Algoritmos de:
• Classificação
• Clusterização
• Regras de Associação
• Permite
• Seleção de Atributos
• Visualização de Dados
quinta-feira, 6 de dezembro de 12
7. Interface
• Simple CLI
• Command Line
Interface
• Simples e útil
• Para sistemas sem
interface gráfica
• java weka.associations.Appriori -t veiculos.arff
quinta-feira, 6 de dezembro de 12
9. Entrada de dados
Arquivo ARFF
Por uma URL
Banco de Dados JDBC
quinta-feira, 6 de dezembro de 12
10. Arquivo ARFF
• Arquivo de texto com todos os dados,
precedido de um cabeçalho
• Semelhante ao CSV
• O cabeçalho define a estrutura dos dados
• Nome, domínio, tipo, etc.
quinta-feira, 6 de dezembro de 12
11. Arquivo ARFF
• Cabeçalho
• Dados
quinta-feira, 6 de dezembro de 12
12. Arquivo ARFF
• @relation
• nome do arquivo
• @attribute [nome] [tipo|{valores}]
• Declaração de atributos
• Colunas de uma tabela
quinta-feira, 6 de dezembro de 12
13. Arquivo ARFF
• @data
• Segue a sequência definida
pelos atributos
• Linhas de uma tabela
quinta-feira, 6 de dezembro de 12
14. Ferramentas para ARFF
• Formato pouco utilizado
• Ferramentas para conversão
• CSV > ARFF (online)
• http://slavnik.fe.uni-lj.si/markot/csv2arff/csv2arff.php
quinta-feira, 6 de dezembro de 12
15. Ferramentas para ARFF
• Programa em JAVA para
conversão
• API do Weka
• Fácil adaptação para
outras fontes de dados
quinta-feira, 6 de dezembro de 12
16. Exemplo 1
• ARFF
• Venda de veículos
• Atributos
• idade, renda, carro
quinta-feira, 6 de dezembro de 12
17. Exemplo 1
• Classificação
• Base de dados precisa conter:
• Um ou mais atributos preditivos;
• Idade e Renda
• Um atributo especial, denominado
atributo classe (ou atributo alvo).
• Carro
quinta-feira, 6 de dezembro de 12
22. Exemplo 2
• Dataset de vendas do
supermercado
• Carrinho de compras
• Departamentos do
supermercado
quinta-feira, 6 de dezembro de 12
23. Exemplo 2
• Uso de um algoritmo de associação
• Descobrir relações entre os
departamentos, a partir do histórico de
compras dos clientes.
quinta-feira, 6 de dezembro de 12
25. Weka
• Software bem didático
• Alguns papers utilizaram para mineração de
dados reais
• Permite integração a aplicações JAVA via
API (não tão simples assim)
• Independente de plataforma
• Atualizações frequentes
quinta-feira, 6 de dezembro de 12
26. Apache Mahout
• Biblioteca para Aprendizagem de Máquina
• Licença OpenSource
• Escalável
• Paradigma Map/Reduce
• Plataforma Hadoop
quinta-feira, 6 de dezembro de 12