Weka completo

Programa Open Source WEKA
• Introducción.
• Instalación del WEKA.
• Uso del WEKA.
• Repositorios del WEKA.
Gracias al apoyo del Consejo de Investigación y Postgrado de la Universidad Nacional Abierta
Elaborado por: Ing. Jean Sánchez

Introducción
El sistema WEKA (Waikato Environment for Knowledge Analysis) fue
desarrollado en la Universidad de Waikato en Nueva Zelanda. Está bajo
licencia GNU implementado en Java y ha sido probado en Windows, Linux y
Macintosh.
Implementa algoritmos de minería de datos que pueden aplicarse a bases de
datos desde su línea de comando o bien desde su interfaz gráfica.
Este sistema incluye una variedad de herramientas para transformar
conjuntos de datos.
Permite realizar preprocesamientos de datos para transformarlos en un
esquema de aprendizaje, a fin de que sus resultados puedan ser analizados.
WEKA permite aplicar un método de aprendizaje a conjuntos de datos y
analizar los resultados para extraer información. Otra forma es aplicar varios
métodos de aprendizaje y comparar sus resultados en orden de escoger una
predicción. Estos métodos son llamados clasificadores.
La implementación de los esquemas de aprendizaje son los recursos más
valiosos de WEKA. Las herramientas para el preprocesamiento de datos,
llamados filtros, WEKA centra su atención en los algoritmos de clasificación y
filtro, sin embargo, también incluye la implementación de algoritmos para el
aprendizaje de reglas de asociación y el agrupamiento de datos (clustering).

Instalación de WEKA
Descargar desde la página web de la Universidad de
Waikato http://www.cs.waikato.ac.nz/ml/weka/
Permitirá la instalación de la máquina virtual java.
Comenzará la instalación automática del programa.
Se mostraran las ventanas que se muestran a continuación

Se mostrará la siguiente ventana
Pulsa siguiente

Pulsa Estoy de Acuerdo

Pulsa Instalar

Pulsa Finalizar

Uso del WEKA
La pantalla principal del WEKA se muestra a
continuación:

Uso del WEKA
Se muestran las 4 opciones posibles interfaces de trabajo
con WEKA
Explorer: es la opción que
permite ejecutar los
algoritmos de análisis y
comparar resultados sobre un
único conjunto de datos.
Experimenter: es la opción
que permite definir
experimentos complejos y
almacenar resultados.
Knowledge Flow: es la
opción que permite llevar a
cabo las mismas operaciones
que Experimenter pero
representado como un grafo
dirigido.
Simple Cli: es “Command-
Line Interfaz” es una ventana
de comandos java para
ejecutar las clases WEKA.

Uso del WEKA
Explorer:
Como se observa con seis
subentornos de ejecución:
Preprocess: permite el uso de
las herramientas y filtros para
cargar y manipular los datos.
Classification: permite el
acceso a las técnicas de
clasificación y regresión.
Cluster: permite integrar
varios métodos de
agrupamiento.
Associate: permite incluir las
reglas de asociación.
Select Attributes: permite
aplicar las técnicas de
reducción de atributos.
Visualize: permite visualizar
el comportamiento de los
datos.

Uso del WEKA
Explorer: Preprocesamiento de Datos.
•Se pueden importar datos en varios formatos: ARFF,
CVS, C.45, binarios.
•Los datos pueden provenir desde un URL o de una
base de datos (usando JDBC).
•Herramientas de preprocesado: Filters.
•Filtros para: discretización, normalización, selección
de atributos, ...

Uso del WEKA
Explorer:
Las flores de las plantas Iris
(liliáceas) se clasifican a base de
las dimensiones de sus pétalos y
sépalos
Es un problema académico planteado por
Fisher en 1936, que consta de las mediciones
de 150 ejemplares de tres subclases: Setosa,
Versicolor, Virginica.

Uso del WEKA
Explorer:
Los datos son introducidos como
archivos ARFF los cuales poseen
las siguientes características:
@RELATION iris
@ATTRIBUTE sepallength REAL
@ATTRIBUTE sepalwidth REAL
@ATTRIBUTE petallength REAL
@ATTRIBUTE petalwidth REAL
@ATTRIBUTE class {Iris-setosa,Iris-versicolor,Iris-virginica}
@DATA
5.1,3.5,1.4,0.2,Iris-setosa
4.9,3.0,1.4,0.2,Iris-setosa
…
5.2,2.7,3.9,1.4,Iris-versicolor
5.0,2.0,3.5,1.0,Iris-versicolor
…
7.2,3.6,6.1,2.5,Iris-virginica
6.5,3.2,1.4,2.0,Iris-virginica
Cabecera con el nombre
de la relación:
iris
Declaración de atributos:
{a1,a2,..,an} enumerado
REAL numérico
Conjunto de datos:
150 instancias.
Ordenadas de 50 en 50.

Uso del WEKA
Explorer: Preprocess
Pulse para abrir archivo

Uso del WEKA
Pulse para abrir archivo
seleccionado

Uso del WEKA

Uso del WEKA
Pulse sobre el
atributo class

Uso del WEKA
Pulse sobre la opción Visualiza todo

Uso del WEKA
Como se observa los cinco
atributos de las plantas Iris:
sepallenght: longitud del
sépalo.
sepalwidth: anchura del
sépalo.
petallenght: longitud del
pétalo.
petalwidth: anchura del
pétalo.
class: especies que
componen la planta Iris.

Uso del WEKA
Pulse sobre el atributo
petalwidth

Uso del WEKA
Pulse sobre la opción
Elegir

Uso del WEKA
Pulse sobre la opción de
la herramienta de
preprocesamineto no
supervisada

Uso del WEKA
la herramienta de
preprocesamineto no
supervisada para el
tratamiento de los
atributos

Uso del WEKA
filtros

Uso del WEKA
Marca sobre la opciones filtros que considere necesarias y pulsa Esta bien

Uso del WEKA
la herramienta de
preprocesamineto no
supervisada para el
tratamiento de los
atributos escogiendo
Discretizar

Uso del WEKA
Pulse sobre la
opción aplicar

Uso del WEKA
Usaremos ahora de la
herramienta de
preprocesamineto no
supervisada para el
tratamiento de los
atributos escogiendo
Discretizar las opciones
que posee pulsando
sobre el

Uso del WEKA
Colocar en verdadero para hacer iguales el número de las frecuencias. Se
puede también modificar cualquiera de las opciones a nuestra conveniencia

Uso del WEKA
Pulsar sobre la opción esta bien
En la sección Acerca de se
muestra la información
sobre la herramienta de
Preprocesamiento utilizada.

Uso del WEKA
Explorer: Classify
WEKA ofrece cuatro opciones en
el Test options:
Use trainig set: la muestra es
usada para entrenar y probar al
mismo tiempo. Los resultados
obtenidos no corresponden con
la realidad.
Supplied test set: los atributos
de los datos son escritos en un
nuevo archivo de formato ARFF
sobre el cual se efectuará la
clasificación.
Cross-validation: permite
dividir la muestra en k partes,
sobre estas se procede a
entrenar el clasificador con las k-
1 partes y evaluar con la parte k
actual.
Percentage split: indica el
porcentaje de la muestra que
empleara para probar el
clasificador.

Uso del WEKA
Explorer: Classify
Pulsar sobre la opción Elegir

Uso del WEKA
Explorer: Classify
WEKA ofrece ocho opciones para
clasificar:
Bayes: métodos basados en el
aprendizaje de Bayes.
Functions: métodos
matemáticos.
Lazy: métodos basados en el
aprendizaje del perezoso.
Meta: métodos que resultan de
la combinación de diferentes
métodos de aprendizaje.
Mi: métodos que aprenden
mediante la variación de la
densidad de los algoritmos.
Misc: métodos que aprenden
como si leyeran los datos.
Trees: métodos que aprenden
mediante arboles de decisión.
Rules: métodos que aprenden y
esto se puede expresar como
reglas.

Uso del WEKA
Explorer: Classify (bayes)
Pulsar sobre la de filtros

Uso del WEKA
Marca sobre la opciones filtros que considere necesarios y pulsa Esta bien

Uso del WEKA
Pulsar sobre NaiveBayes para
que se muestren las opciones
que este posee

Uso del WEKA
Clasificación utilizada.
Pulsa Esta bien luego de realizar las
modificaciones en las opciones de ser necesario.

Uso del WEKA
Pulsar sobre Más opciones con
lo cual se desplegara un menú
emergente

Uso del WEKA

Uso del WEKA
Pulsa sobre Comienzo para
que el algoritmo empiece a
ejecutarse

Uso del WEKA
Se muestra el resultado del algoritmo, deberás pulsar sobre la ventana
deslizante hasta llegar al final de la misma

Uso del WEKA
Se muestra el resultado del algoritmo

Uso del WEKA
Pulsando botón contrario del ratón se desplegara la siguiente ventana emergente

Uso del WEKA
Pulsa sobre la opción visualizar los errores clasificados

Uso del WEKA
Pulsa sobre X para cerrar la ventana emergente

Uso del WEKA
Pulsa sobre la opción visualizar la curva marginal

Uso del WEKA
Pulsa sobre la opción visualizar el umbral de la curva

Uso del WEKA
Pulsa sobre la opción visualizar la curva de costos

Uso del WEKA
Explorer: Classify (trees)
Pulsar sobre la opción Arboles
de decisión

Uso del WEKA
Pulsar sobre la opción J48 que
usa el algoritmo C4.5

Uso del WEKA
Pulsar sobre la de filtros

Uso del WEKA

Uso del WEKA
Pulsar sobre J48 para que se
muestren las opciones que
este posee

Uso del WEKA
Clasificación utilizada.

Uso del WEKA
Pulsar sobre Más opciones con
lo cual se desplegara un menú
emergente

Uso del WEKA

Uso del WEKA
ejecutarse

Uso del WEKA

Uso del WEKA
Pulsa sobre la opción visualizar Árbol de Decisión

Uso del WEKA

Uso del WEKA
Pulsa sobre la opción visualizar los errores clasificados

Uso del WEKA
Pulsa sobre la opción visualizar la curva marginal

Uso del WEKA
Pulsa sobre la opción visualizar el umbral de la curva

Uso del WEKA
Pulsa sobre la opción visualizar la curva de costos

Uso del WEKA
Explorer: Classify
Principales Algoritmos utilizados en Clasificar
•BayesNet: Aprende redes Bayesianas.
•NaiveBayes: Clasificador discriminador de Bayes.
•Id3: Arboles de decisión usando el divide y vencerás.
•J48: Arboles de decisión usando el C4.5.
•RandomForest: Contruye un bosque aleatorio.
•JRip: Construye reglas con el algoritmo RIPPER.
•M5Rules: Construye reglas M5 desde árboles.
•LinearRegression: Utiliza la regresión lineal.
•MultilayerPerceptron: Usa Red Neuronal de Retroprogramación.
•RBFNetwork: Usa Red de función en Radio Base.
•SMO: Basado en Vectores de Soporte.
•Ibk: Usa k vecinos más cercanos.
•LWL: Aprendizaje basados en Pesos Locales.
•Entre muchos otros…

Uso del WEKA
Explorer: Cluster
WEKA ofrece cuatro opciones en
el Cluster mode:
Use trainig set: la muestra es
usada para entrenar y probar al
mismo tiempo. Los resultados
obtenidos no corresponden con
la realidad.
Supplied test set: los atributos
de los datos son escritos en un
nuevo archivo de formato ARFF
sobre el cual se efectuará la
clasificación.
Percentage split: indica el
porcentaje de la muestra que
empleara para probar el
clasificador.
Classes to cluster evaluation:
permite escoger el atributo a
agrupar

Uso del WEKA
Explorer: Cluster

Uso del WEKA
Explorer: Cluster
WEKA ofrece nueve algoritmos
para agrupar datos:
•CobWeb: utiliza el algoritmo
CobWeb.
•DBScan: utiliza el algoritmo
DBScan.
•EM: utiliza el algoritmo EM.
•FarthestFirst: utiliza el
algoritmo FarthestFirst.
•FilteredCluster: agupra los
datos arbitrariamente y luego
son pasados por un filtro
arbitrario.
•MakeDensityBasedClusterer: los
datos son envueltos en clases y
devuelven su distribución y
densidad.
•OPTICS: utiliza el algoritmo
OPTICS.
•SimpleKMeans: utiliza el
algoritmo de k-medias.
•XMeans: utiliza el algoritmo de
x-medias.

Uso del WEKA
Explorer: Cluster
Pulsa sobre la opción filtros

Uso del WEKA
Explorer: Cluster

Uso del WEKA
Explorer: Cluster
Pulsa sobre la opción del
algoritmo CobWeb

Uso del WEKA
Explorer: Cluster
Pulsar sobre CobWeb para que
se muestren las opciones que
este posee

Uso del WEKA
Explorer: Cluster
Agrupamiento de datos
utilizada.

Uso del WEKA
Explorer: Cluster
ejecutarse

Uso del WEKA
Explorer: Cluster

Uso del WEKA
Explorer: Cluster
Pulsa sobre la opción visualizar Árbol

Uso del WEKA
Explorer: Cluster

Uso del WEKA
Explorer: Cluster
Pulsa sobre la opción visualizar los grupos formados

Uso del WEKA
Explorer: Associate

Uso del WEKA
Explorer: Associate
WEKA ofrece cinco algoritmos
para asociar datos:
•Apriori: utiliza el algoritmo
Apriori.
•FilteredAssociator: utiliza el
algoritmo que asocia los datos
arbitrariamente además de
filtrarlos arbitrariamente
también.
•GeneralizedSequentialPatterns:
utiliza el algoritmo GSP
•PredictiveApriori: utiliza el
algoritmo Apriori para hacer
reglas de asociación.
•Tertius: utiliza el algoritmo de
Tertius.

Uso del WEKA
Explorer: Associate
Pulsa sobre la opción filtros

Uso del WEKA
Explorer: Associate

Uso del WEKA
Explorer: Associate
Pulsa sobre la opción del
algoritmo FilteredAssociator

Uso del WEKA
Explorer: Associate
Pulsar sobre FilteredAssociator
para que se muestren las
opciones que este posee

Uso del WEKA
Explorer: Associate
Asociación de datos
utilizada.

Uso del WEKA
Explorer: Associate
ejecutarse

Uso del WEKA
Explorer: Associate

Uso del WEKA
Explorer: Visualize

Uso del WEKA
Experimenter:
Como se observa con tres
Setup: permite la carga de los
archivos así como la creación
de los mismos.
Run: permite ejecutar el
archivo con los algoritmos
indicados en Setup.
Analyse: permite configurar
las pruebas sobre los datos.

Uso del WEKA
KnowledgeFlow:
Como se observa con ocho
DataSources: permite leer los datos
en los diferentes tipos de archivos:
ARFF, C45, CVS, LIBSVM, XRFF.
DataSkin: permite guardar los datos
en los diferentes tipos de archivos:
ARFF, C45, CVS, LIBSVM, XRFF.
Filters: permite efectuar el
preprocesamiento de los datos, se
dividen supervisados y no
supervisados.
Classifiers: permite efectuar la
clasificación de los datos, se dividen
en: bayes, functions, lazy, meta, mi,
misc, trees y rules.
Clusterers: permite aplicar las
técnicas de agrupamiento de datos.
Associations: permite aplicar las
técnicas de asociación de los datos.
Evaluation: permite evaluar o
designar el conjunto de datos para el
entrenamiento.
Visualization: permite visualizar ya
sea como texto o grafico el resultado
de los algoritmos.

Uso del WEKA
KnowledgeFlow:
Como primer paso es necesario
cargar los datos. Para esto se debe:
1) Pulsar sobre la pestaña de
DataSources
2) Pulsar sobre la el icono de
ArffLoader
3) Pulsar doble clic y aparecerá el
icono de ArffLoader

Uso del WEKA
KnowledgeFlow:
Pulsar clic contrario sobre el icono de
ArffLoader y aparecerá un menú
desplegable sobre este elegirás la
opción Configure, esto para indicarle
la ubicación del archivo ARFF

Uso del WEKA
KnowledgeFlow:
Pulsar clic sobre el archivo ARFF de
nuestra elección el cual será
inmediatamente cargado como fuente
de datos

Uso del WEKA
KnowledgeFlow:
Como segundo paso es necesario
evaluar los datos. Para esto se debe:
Evaluation
ClassAssigener
icono de ClassAssigner
ClassAssigner es un algoritmo que divide los datos en grupos (clases)

Uso del WEKA
KnowledgeFlow:
Pulsar clic contrario aparecerá el
menú emergente pulsaras sobre la
opción dataSet.

Uso del WEKA
KnowledgeFlow:
La flecha indica que se efectúa la
conexión entre el conjunto de los
datos “dataSet” en formato ARFF
(icono ArffLoader) y serán
evaluados dicho conjunto de datos
(icono ClassAssigner)
Cada uno de los iconos u objetos sólo se conectaran con los atributos comunes
a los mismos, en este caso es común el conjunto de datos “dataSet” y es la única
forma de comunicación entre la carga del conjunto de datos (ArffLoader) y la
evaluación de los mismos (ClassAsigner).

Uso del WEKA
KnowledgeFlow:
Pulsar sobre la el icono de
CrossValidationFoldMaker
Pulsar doble clic y aparecerá el
icono de CrossValidationFoldMaker
CrossValidationFolderMaker es un algoritmo de evaluación que divide un
conjunto de datos al efectuar una validación cruzada, para esto separa el
entrenamiento y las pruebas de los datos que son producidas por cada k-partes

Uso del WEKA
KnowledgeFlow:
conexión entre el conjunto de los
datos “dataSet” formados por el
método de agrupar en clases (icono
ClassAssigner) y serán evaluados
dicho conjunto de datos (icono
CrossValidationFolderMaker)

Uso del WEKA
KnowledgeFlow:
Como tercer paso es necesario
efectuar la clasificación de los datos.
Para esto se debe:
Classifiers
2) Pulsar sobre la el icono de SMO
icono de SMO
SMO es una función que implementa el algoritmo de secuencia mínima optima
de John Platt.

Uso del WEKA
KnowledgeFlow:
opción trainingSet y luego de igual
manera pulsaras clic contrario
aparecerá el menú emergente y
luego pulsaras sobre la opción
testSet.

Uso del WEKA
KnowledgeFlow:
conexión entre el evaluador (icono
CrossValidationFoldMaker) ya sea
tanto por entrenamiento de los
datos “trainingSet” o por pruebas
de los datos “testSet” al clasificador
SMO.

Uso del WEKA
KnowledgeFlow:
Pulsar sobre la el icono de
NaiveBayes
icono de NaiveBayes
NaiveBayes es una función que se usa para estimar las clases

Uso del WEKA
KnowledgeFlow:
conexión entre el evaluador (icono
CrossValidationFoldMaker) ya sea
tanto por entrenamiento de los
datos “trainingSet” o por pruebas
de los datos “testSet” al clasificador
NaiveBayes.

Uso del WEKA
KnowledgeFlow:
Como cuarto es necesario efectuar la
visualización de los datos. Para esto
se debe:
Visualization
TextViewer
icono de TextViewer
TextViewer es un visualizador que permite observar por pantalla los resultados
generales del experimento

Uso del WEKA
KnowledgeFlow:
opción text

Uso del WEKA
KnowledgeFlow:
conexión entre el clasificador
(icono MSO) que envía el resultado
tipo texto “text” al visualizador
TextViewer
Pulsar TextViewer y luego pulsar
doble clic y aparecerá el icono de
TextViewer

Uso del WEKA
KnowledgeFlow:
conexión entre el clasificador
(icono NaiveBayes) que envía el
resultado tipo texto “text” al
visualizador TextViewer

Uso del WEKA
KnowledgeFlow:
Pulsar clic contrario sobre los datos
(icono titanic.txt) aparecerá un
menú emergente donde escogerás
la opción Start loading, con esto se
iniciará la carga de los datos en el
modelo creado.
Como quinto paso es necesario cargar
los datos.

Uso del WEKA
KnowledgeFlow:
opción ShowResults

Uso del WEKA
KnowledgeFlow:
Estos son los resultados en forma
de texto del clasificador
implementado.

Uso del WEKA
KnowledgeFlow:
Pulsar sobre la el icono de J48
Pulsar doble clic y aparecerá el
icono de J48
J48 es una función que genera un árbol de decisión usando el algoritmo C4.5

Uso del WEKA
KnowledgeFlow:
Pulsar clic contrario sobre los datos
(icono titanic.txt) aparecerá un
menú emergente donde escogerás
la opción Start loading, con esto se
iniciará la carga de los datos en el
modelo creado.
Como sexto paso y para efectuar
comparación con los algoritmos de
árboles de decisión, es necesario
volver a cargar los datos.

Uso del WEKA
KnowledgeFlow:
Este es el resultado en forma de
árbol del clasificador
implementado.

Uso del WEKA
SimpleCLI:
Como se observa con los siete
comandos posibles son:
java <classname> <args>.
break.
kill.
cls.
history.
exit.
help <command>

Repositorios de WEKA
SimpleCLI:
Como se observa con los siete
comandos posibles son:
java <classname> <args>.
break.
kill.
cls.
history.
exit.
help <command>

Weka completo

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Andere mochten auch

Andere mochten auch (10)

Ähnlich wie Weka completo

Ähnlich wie Weka completo (20)

Mehr von Jean Sanchez

Mehr von Jean Sanchez (20)

Kürzlich hochgeladen

Kürzlich hochgeladen (20)

Weka completo