WEKA (Waikato Environment for Knowledge Analysis) is a popular open source machine learning software written in Java, developed at the University of Waikato. It contains tools for data pre-processing, classification, regression, clustering, association rules, and visualization. The document provides instructions on installing and using WEKA to preprocess data, classify it using algorithms like naive Bayes and decision trees, and analyze the results.
5. Introducción El sistema WEKA (WaikatoEnvironmentforKnowledgeAnalysis) fue desarrollado en la Universidad de Waikato en Nueva Zelanda. Está bajo licencia GNU implementado en Java y ha sido probado en Windows, Linux y Macintosh. Implementa algoritmos de minería de datos que pueden aplicarse a bases de datos desde su línea de comando o bien desde su interfaz gráfica. Este sistema incluye una variedad de herramientas para transformar conjuntos de datos. Permite realizar preprocesamientos de datos para transformarlos en un esquema de aprendizaje, a fin de que sus resultados puedan ser analizados. WEKA permite aplicar un método de aprendizaje a conjuntos de datos y analizar los resultados para extraer información. Otra forma es aplicar varios métodos de aprendizaje y comparar sus resultados en orden de escoger una predicción. Estos métodos son llamados clasificadores. La implementación de los esquemas de aprendizaje son los recursos más valiosos de WEKA. Las herramientas para el preprocesamiento de datos, llamados filtros, WEKA centra su atención en los algoritmos de clasificación y filtro, sin embargo, también incluye la implementación de algoritmos para el aprendizaje de reglas de asociación y el agrupamiento de datos (clustering).
6. Instalación de WEKA Descargar desde la página web de la Universidad de Waikato http://www.cs.waikato.ac.nz/ml/weka/ Permitirá la instalación de la máquina virtual java. Comenzará la instalación automática del programa. Se mostraran las ventanas que se muestran a continuación
14. Uso del WEKA La pantalla principal del WEKA se muestra a continuación:
15. Uso del WEKA Se muestran las 4 opciones posibles interfaces de trabajo con WEKA Explorer: es la opción que permite ejecutar los algoritmos de análisis y comparar resultados sobre un único conjunto de datos. Experimenter: es la opción que permite definir experimentos complejos y almacenar resultados. KnowledgeFlow: es la opción que permite llevar a cabo las mismas operaciones que Experimenter pero representado como un grafo dirigido. Simple Cli: es “Command-Line Interfaz” es una ventana de comandos java para ejecutar las clases WEKA.
16. Uso del WEKA Explorer: Como se observa con seis subentornos de ejecución: Preprocess: permite el uso de las herramientas y filtros para cargar y manipular los datos. Classification: permite el acceso a las técnicas de clasificación y regresión. Cluster: permite integrar varios métodos de agrupamiento. Associate: permite incluir las reglas de asociación. SelectAttributes: permite aplicar las técnicas de reducción de atributos. Visualize: permite visualizar el comportamiento de los datos.
17.
18. Los datos pueden provenir desde un URL o de una base de datos (usando JDBC).
21. Uso del WEKA Explorer: Los datos son introducidos como archivos ARFF los cuales poseen las siguientes características: Cabecera con el nombre de la relación: iris @RELATION iris @ATTRIBUTE sepallength REAL @ATTRIBUTE sepalwidth REAL @ATTRIBUTE petallength REAL @ATTRIBUTE petalwidth REAL @ATTRIBUTE class {Iris-setosa,Iris-versicolor,Iris-virginica} @DATA 5.1,3.5,1.4,0.2,Iris-setosa 4.9,3.0,1.4,0.2,Iris-setosa … 5.2,2.7,3.9,1.4,Iris-versicolor 5.0,2.0,3.5,1.0,Iris-versicolor … 7.2,3.6,6.1,2.5,Iris-virginica 6.5,3.2,1.4,2.0,Iris-virginica Declaración de atributos: {a1,a2,..,an} enumerado REAL numérico Conjunto de datos: 150 instancias. Ordenadas de 50 en 50.
22. Uso del WEKA Explorer: Preprocess Pulse para abrir archivo
23. Uso del WEKA Explorer: Preprocess Pulse para abrir archivo seleccionado
25. Uso del WEKA Explorer: Preprocess Pulse sobre el atributo class
26. Uso del WEKA Explorer: Preprocess Pulse sobre la opción Visualiza todo
27. Uso del WEKA Explorer: Preprocess Como se observa los cinco atributos de las plantas Iris: sepallenght: longitud del sépalo. sepalwidth: anchura del sépalo. petallenght: longitud del pétalo. petalwidth: anchura del pétalo. class: especies que componen la planta Iris.
28. Uso del WEKA Explorer: Preprocess Pulse sobre el atributo petalwidth
29. Uso del WEKA Explorer: Preprocess Pulse sobre la opción Elegir
30. Uso del WEKA Explorer: Preprocess Pulse sobre la opción de la herramienta de preprocesamineto no supervisada
31. Uso del WEKA Explorer: Preprocess Pulse sobre la opción de la herramienta de preprocesamineto no supervisada para el tratamiento de los atributos
32. Uso del WEKA Explorer: Preprocess Pulse sobre la opción de filtros
33. Uso del WEKA Explorer: Preprocess Marca sobre la opciones filtros que considere necesarias y pulsa Esta bien
34. Uso del WEKA Explorer: Preprocess Pulse sobre la opción de la herramienta de preprocesamineto no supervisada para el tratamiento de los atributos escogiendo Discretizar
35. Uso del WEKA Explorer: Preprocess Pulse sobre la opción aplicar
37. Uso del WEKA Explorer: Preprocess Usaremos ahora de la herramienta de preprocesamineto no supervisada para el tratamiento de los atributos escogiendo Discretizar las opciones que posee pulsando sobre el
38. Uso del WEKA Explorer: Preprocess Colocar en verdadero para hacer iguales el número de las frecuencias. Se puede también modificar cualquiera de las opciones a nuestra conveniencia
39. Uso del WEKA Explorer: Preprocess En la sección Acerca de se muestra la información sobre la herramienta de Preprocesamiento utilizada. Pulsar sobre la opción esta bien
40. Uso del WEKA Explorer: Preprocess Pulse sobre la opción aplicar
42. Uso del WEKA Explorer: Classify WEKA ofrece cuatro opciones en el Test options: Use trainig set: la muestra es usada para entrenar y probar al mismo tiempo. Los resultados obtenidos no corresponden con la realidad. Supplied test set: los atributos de los datos son escritos en un nuevo archivo de formato ARFF sobre el cual se efectuará la clasificación. Cross-validation: permite dividir la muestra en k partes, sobre estas se procede a entrenar el clasificador con las k-1 partes y evaluar con la parte k actual. Percentagesplit: indica el porcentaje de la muestra que empleara para probar el clasificador.
43. Uso del WEKA Explorer: Classify Pulsar sobre la opción Elegir
44. Uso del WEKA Explorer: Classify WEKA ofrece ocho opciones para clasificar: Bayes: métodos basados en el aprendizaje de Bayes. Functions: métodos matemáticos. Lazy: métodos basados en el aprendizaje del perezoso. Meta: métodos que resultan de la combinación de diferentes métodos de aprendizaje. Mi: métodos que aprenden mediante la variación de la densidad de los algoritmos. Misc: métodos que aprenden como si leyeran los datos. Trees: métodos que aprenden mediante arboles de decisión. Rules: métodos que aprenden y esto se puede expresar como reglas.
45. Uso del WEKA Explorer: Classify (bayes) Pulsar sobre la de filtros
46. Uso del WEKA Explorer: Classify (bayes) Marca sobre la opciones filtros que considere necesarios y pulsa Esta bien
47. Uso del WEKA Explorer: Classify (bayes) Pulsar sobre NaiveBayes para que se muestren las opciones que este posee
48. Uso del WEKA Explorer: Classify (bayes) En la sección Acerca de se muestra la información sobre la herramienta de Clasificación utilizada. Pulsa Esta bien luego de realizar las modificaciones en las opciones de ser necesario.
49. Uso del WEKA Explorer: Classify (bayes) Pulsar sobre Más opciones con lo cual se desplegara un menú emergente
50. Uso del WEKA Explorer: Classify (bayes) Pulsa Esta bien luego de realizar las modificaciones en las opciones de ser necesario.
51. Uso del WEKA Explorer: Classify (bayes) Pulsa sobre Comienzo para que el algoritmo empiece a ejecutarse
52. Uso del WEKA Explorer: Classify (bayes) Se muestra el resultado del algoritmo, deberás pulsar sobre la ventana deslizante hasta llegar al final de la misma
53. Uso del WEKA Explorer: Classify (bayes) Se muestra el resultado del algoritmo, deberás pulsar sobre la ventana deslizante hasta llegar al final de la misma
54. Uso del WEKA Explorer: Classify (bayes) Se muestra el resultado del algoritmo
55. Uso del WEKA Explorer: Classify (bayes) Pulsando botón contrario del ratón se desplegara la siguiente ventana emergente
56. Uso del WEKA Explorer: Classify (bayes) Pulsa sobre la opción visualizar los errores clasificados
57. Uso del WEKA Explorer: Classify (bayes) Pulsa sobre X para cerrar la ventana emergente
58. Uso del WEKA Explorer: Classify (bayes) Pulsa sobre la opción visualizar la curva marginal
59. Uso del WEKA Explorer: Classify (bayes) Pulsa sobre X para cerrar la ventana emergente
60. Uso del WEKA Explorer: Classify (bayes) Pulsa sobre la opción visualizar el umbral de la curva
61. Uso del WEKA Explorer: Classify (bayes) Pulsa sobre X para cerrar la ventana emergente
62. Uso del WEKA Explorer: Classify (bayes) Pulsa sobre la opción visualizar la curva de costos
63. Uso del WEKA Explorer: Classify (bayes) Pulsa sobre X para cerrar la ventana emergente
64. Uso del WEKA Explorer: Classify (trees) Pulsar sobre la opción Arboles de decisión
65. Uso del WEKA Explorer: Classify (trees) Pulsar sobre la opción J48 que usa el algoritmo C4.5
66. Uso del WEKA Explorer: Classify (trees) Pulsar sobre la de filtros
67. Uso del WEKA Explorer: Classify (trees) Marca sobre la opciones filtros que considere necesarias y pulsa Esta bien
68. Uso del WEKA Explorer: Classify (trees) Pulsar sobre J48 para que se muestren las opciones que este posee
69. Uso del WEKA Explorer: Classify (trees) En la sección Acerca de se muestra la información sobre la herramienta de Clasificación utilizada. Pulsa Esta bien luego de realizar las modificaciones en las opciones de ser necesario.
70. Uso del WEKA Explorer: Classify (trees) Pulsar sobre Más opciones con lo cual se desplegara un menú emergente
71. Uso del WEKA Explorer: Classify (trees) Pulsa Esta bien luego de realizar las modificaciones en las opciones de ser necesario.
72. Uso del WEKA Explorer: Classify (trees) Pulsa sobre Comienzo para que el algoritmo empiece a ejecutarse
73. Uso del WEKA Explorer: Classify (trees) Se muestra el resultado del algoritmo, deberás pulsar sobre la ventana deslizante hasta llegar al final de la misma
74. Uso del WEKA Explorer: Classify (trees) Se muestra el resultado del algoritmo, deberás pulsar sobre la ventana deslizante hasta llegar al final de la misma
75. Uso del WEKA Explorer: Classify (trees) Se muestra el resultado del algoritmo
76. Uso del WEKA Explorer: Classify (trees) Pulsando botón contrario del ratón se desplegara la siguiente ventana emergente
77. Uso del WEKA Explorer: Classify (trees) Pulsa sobre la opción visualizar Árbol de Decisión
78. Uso del WEKA Explorer: Classify (trees) Pulsa sobre X para cerrar la ventana emergente
79. Uso del WEKA Explorer: Classify (trees) Pulsa sobre la opción visualizar los errores clasificados
80. Uso del WEKA Explorer: Classify (trees) Pulsa sobre X para cerrar la ventana emergente
81. Uso del WEKA Explorer: Classify (trees) Pulsa sobre la opción visualizar la curva marginal
82. Uso del WEKA Explorer: Classify (trees) Pulsa sobre X para cerrar la ventana emergente
83. Uso del WEKA Explorer: Classify (trees) Pulsa sobre la opción visualizar el umbral de la curva
84. Uso del WEKA Explorer: Classify (trees) Pulsa sobre X para cerrar la ventana emergente
85. Uso del WEKA Explorer: Classify (trees) Pulsa sobre la opción visualizar la curva de costos
86. Uso del WEKA Explorer: Classify (trees) Pulsa sobre X para cerrar la ventana emergente
124. Uso del WEKA Explorer: Cluster Marca sobre la opciones filtros que considere necesarias y pulsa Esta bien
125. Uso del WEKA Explorer: Cluster Pulsa sobre la opción del algoritmo CobWeb
126. Uso del WEKA Explorer: Cluster Pulsar sobre CobWeb para que se muestren las opciones que este posee
127. Uso del WEKA Explorer: Cluster En la sección Acerca de se muestra la información sobre la herramienta de Agrupamiento de datos utilizada. Pulsa Esta bien luego de realizar las modificaciones en las opciones de ser necesario.
128. Uso del WEKA Explorer: Cluster Pulsa sobre Comienzo para que el algoritmo empiece a ejecutarse
129. Uso del WEKA Explorer: Cluster Se muestra el resultado del algoritmo, deberás pulsar sobre la ventana deslizante hasta llegar al final de la misma
130. Uso del WEKA Explorer: Cluster Se muestra el resultado del algoritmo
131. Uso del WEKA Explorer: Cluster Pulsando botón contrario del ratón se desplegara la siguiente ventana emergente
132. Uso del WEKA Explorer: Cluster Pulsa sobre la opción visualizar Árbol
133. Uso del WEKA Explorer: Cluster Pulsa sobre X para cerrar la ventana emergente
134. Uso del WEKA Explorer: Cluster Pulsa sobre la opción visualizar los grupos formados
135. Uso del WEKA Explorer: Cluster Pulsa sobre X para cerrar la ventana emergente
136. Uso del WEKA Explorer: Associate Pulsar sobre la opción Elegir
137.
138. FilteredAssociator: utiliza el algoritmo que asocia los datos arbitrariamente además de filtrarlos arbitrariamente también.
142. Uso del WEKA Explorer: Associate Marca sobre la opciones filtros que considere necesarias y pulsa Esta bien
143. Uso del WEKA Explorer: Associate Pulsa sobre la opción del algoritmo FilteredAssociator
144. Uso del WEKA Explorer: Associate Pulsar sobre FilteredAssociator para que se muestren las opciones que este posee
145. Uso del WEKA Explorer: Associate En la sección Acerca de se muestra la información sobre la herramienta de Asociación de datos utilizada. Pulsa Esta bien luego de realizar las modificaciones en las opciones de ser necesario.
146. Uso del WEKA Explorer: Associate Pulsa sobre Comienzo para que el algoritmo empiece a ejecutarse
147. Uso del WEKA Explorer: Associate Se muestra el resultado del algoritmo
148. Uso del WEKA Explorer: Associate Pulsando botón contrario del ratón se desplegara la siguiente ventana emergente
150. Uso del WEKA Experimenter: Como se observa con tres subentornos de ejecución: Setup: permite la carga de los archivos así como la creación de los mismos. Run: permite ejecutar el archivo con los algoritmos indicados en Setup. Analyse: permite configurar las pruebas sobre los datos.
151. Uso del WEKA KnowledgeFlow: Como se observa con ocho subentornos de ejecución: DataSources: permite leer los datos en los diferentes tipos de archivos: ARFF, C45, CVS, LIBSVM, XRFF. DataSkin: permite guardar los datos en los diferentes tipos de archivos: ARFF, C45, CVS, LIBSVM, XRFF. Filters: permite efectuar el preprocesamiento de los datos, se dividen supervisados y no supervisados. Classifiers: permite efectuar la clasificación de los datos, se dividen en: bayes, functions, lazy, meta, mi, misc, trees y rules. Clusterers: permite aplicar las técnicas de agrupamiento de datos. Associations: permite aplicar las técnicas de asociación de los datos. Evaluation: permite evaluar o designar el conjunto de datos para el entrenamiento. Visualization: permite visualizar ya sea como texto o grafico el resultado de los algoritmos.
152. Uso del WEKA KnowledgeFlow: Como primer paso es necesario cargar los datos. Para esto se debe: 1) Pulsar sobre la pestaña de DataSources 2) Pulsar sobre la el icono de ArffLoader 3) Pulsar doble clic y aparecerá el icono de ArffLoader
153. Uso del WEKA KnowledgeFlow: Pulsar clic contrario sobre el icono de ArffLoader y aparecerá un menú desplegable sobre este elegirás la opción Configure, esto para indicarle la ubicación del archivo ARFF
154. Uso del WEKA KnowledgeFlow: Pulsar clic sobre el archivo ARFF de nuestra elección el cual será inmediatamente cargado como fuente de datos
155. Uso del WEKA KnowledgeFlow: Como segundo paso es necesario evaluar los datos. Para esto se debe: 1) Pulsar sobre la pestaña de Evaluation 2) Pulsar sobre la el icono de ClassAssigener 3) Pulsar doble clic y aparecerá el icono de ClassAssigner ClassAssigner es un algoritmo que divide los datos en grupos (clases)
156. Uso del WEKA KnowledgeFlow: Pulsar clic contrario aparecerá el menú emergente pulsaras sobre la opción dataSet.
157. Uso del WEKA KnowledgeFlow: La flecha indica que se efectúa la conexión entre el conjunto de los datos “dataSet” en formato ARFF (icono ArffLoader) y serán evaluados dicho conjunto de datos (icono ClassAssigner) Cada uno de los iconos u objetos sólo se conectaran con los atributos comunes a los mismos, en este caso es común el conjunto de datos “dataSet” y es la única forma de comunicación entre la carga del conjunto de datos (ArffLoader) y la evaluación de los mismos (ClassAsigner).
158. Uso del WEKA KnowledgeFlow: Pulsar sobre la el icono de CrossValidationFoldMaker Pulsar doble clic y aparecerá el icono de CrossValidationFoldMaker CrossValidationFolderMaker es un algoritmo de evaluación que divide un conjunto de datos al efectuar una validación cruzada, para esto separa el entrenamiento y las pruebas de los datos que son producidas por cada k-partes
159. Uso del WEKA KnowledgeFlow: Pulsar clic contrario aparecerá el menú emergente pulsaras sobre la opción dataSet.
160. Uso del WEKA KnowledgeFlow: La flecha indica que se efectúa la conexión entre el conjunto de los datos “dataSet” formados por el método de agrupar en clases (icono ClassAssigner) y serán evaluados dicho conjunto de datos (icono CrossValidationFolderMaker)
161. Uso del WEKA KnowledgeFlow: Como tercer paso es necesario efectuar la clasificación de los datos. Para esto se debe: 1) Pulsar sobre la pestaña de Classifiers 2) Pulsar sobre la el icono de SMO 3) Pulsar doble clic y aparecerá el icono de SMO SMO es una función que implementa el algoritmo de secuencia mínima optima de John Platt.
162. Uso del WEKA KnowledgeFlow: Pulsar clic contrario aparecerá el menú emergente pulsaras sobre la opción trainingSet y luego de igual manera pulsaras clic contrario aparecerá el menú emergente y luego pulsaras sobre la opción testSet.
163. Uso del WEKA KnowledgeFlow: La flecha indica que se efectúa la conexión entre el evaluador (icono CrossValidationFoldMaker) ya sea tanto por entrenamiento de los datos “trainingSet” o por pruebas de los datos “testSet” al clasificador SMO.
164. Uso del WEKA KnowledgeFlow: Pulsar sobre la el icono de NaiveBayes 3) Pulsar doble clic y aparecerá el icono de NaiveBayes NaiveBayes es una función que se usa para estimar las clases
165. Uso del WEKA KnowledgeFlow: Pulsar clic contrario aparecerá el menú emergente pulsaras sobre la opción trainingSet y luego de igual manera pulsaras clic contrario aparecerá el menú emergente y luego pulsaras sobre la opción testSet.
166. Uso del WEKA KnowledgeFlow: La flecha indica que se efectúa la conexión entre el evaluador (icono CrossValidationFoldMaker) ya sea tanto por entrenamiento de los datos “trainingSet” o por pruebas de los datos “testSet” al clasificador NaiveBayes.
167. Uso del WEKA KnowledgeFlow: Como cuarto es necesario efectuar la visualización de los datos. Para esto se debe: 1) Pulsar sobre la pestaña de Visualization 2) Pulsar sobre la el icono de TextViewer 3) Pulsar doble clic y aparecerá el icono de TextViewer TextViewer es un visualizador que permite observar por pantalla los resultados generales del experimento
168. Uso del WEKA KnowledgeFlow: Pulsar clic contrario aparecerá el menú emergente pulsaras sobre la opción text
169. Uso del WEKA KnowledgeFlow: La flecha indica que se efectúa la conexión entre el clasificador (icono MSO) que envía el resultado tipo texto “text” al visualizador TextViewer Pulsar TextViewer y luego pulsar doble clic y aparecerá el icono de TextViewer
170. Uso del WEKA KnowledgeFlow: Pulsar clic contrario aparecerá el menú emergente pulsaras sobre la opción text
171. Uso del WEKA KnowledgeFlow: La flecha indica que se efectúa la conexión entre el clasificador (icono NaiveBayes) que envía el resultado tipo texto “text” al visualizador TextViewer
172. Uso del WEKA KnowledgeFlow: Como quinto paso es necesario cargar los datos. Pulsar clic contrario sobre los datos (icono titanic.txt) aparecerá un menú emergente donde escogerás la opción Startloading, con esto se iniciará la carga de los datos en el modelo creado.
173. Uso del WEKA KnowledgeFlow: Pulsar clic contrario aparecerá el menú emergente pulsaras sobre la opción ShowResults
174. Uso del WEKA KnowledgeFlow: Estos son los resultados en forma de texto del clasificador implementado.
175. Uso del WEKA KnowledgeFlow: Pulsar clic contrario aparecerá el menú emergente pulsaras sobre la opción ShowResults
176. Uso del WEKA KnowledgeFlow: Estos son los resultados en forma de texto del clasificador implementado.
177. Uso del WEKA KnowledgeFlow: Pulsar sobre la el icono de J48 Pulsar doble clic y aparecerá el icono de J48 J48 es una función que genera un árbol de decisión usando el algoritmo C4.5
178. Uso del WEKA KnowledgeFlow: Pulsar clic contrario aparecerá el menú emergente pulsaras sobre la opción trainingSet y luego de igual manera pulsaras clic contrario aparecerá el menú emergente y luego pulsaras sobre la opción testSet.
179. Uso del WEKA KnowledgeFlow: Como sexto paso y para efectuar comparación con los algoritmos de árboles de decisión, es necesario volver a cargar los datos. Pulsar clic contrario sobre los datos (icono titanic.txt) aparecerá un menú emergente donde escogerás la opción Startloading, con esto se iniciará la carga de los datos en el modelo creado.
180. Uso del WEKA KnowledgeFlow: Pulsar clic contrario aparecerá el menú emergente pulsaras sobre la opción ShowResults
181. Uso del WEKA KnowledgeFlow: Estos son los resultados en forma de texto del clasificador implementado.
182. Uso del WEKA KnowledgeFlow: Pulsar clic contrario aparecerá el menú emergente pulsaras sobre la opción ShowResults
183. Uso del WEKA KnowledgeFlow: Este es el resultado en forma de árbol del clasificador implementado.
184. Uso del WEKA SimpleCLI: Como se observa con los siete comandos posibles son: java <classname> <args>. break. kill. cls. history. exit. help <command>
185. Repositorios de WEKA SimpleCLI: Como se observa con los siete comandos posibles son: java <classname> <args>. break. kill. cls. history. exit. help <command>