EL HABITO DEL AHORRO en tu idea emprendedora22-04-24.pptx
Weka completo
1. Programa Open Source WEKA
• Introducción.
• Instalación del WEKA.
• Uso del WEKA.
• Repositorios del WEKA.
Gracias al apoyo del Consejo de Investigación y Postgrado de la Universidad Nacional Abierta
Elaborado por: Ing. Jean Sánchez
2. Introducción
El sistema WEKA (Waikato Environment for Knowledge Analysis) fue
desarrollado en la Universidad de Waikato en Nueva Zelanda. Está bajo
licencia GNU implementado en Java y ha sido probado en Windows, Linux y
Macintosh.
Implementa algoritmos de minería de datos que pueden aplicarse a bases de
datos desde su línea de comando o bien desde su interfaz gráfica.
Este sistema incluye una variedad de herramientas para transformar
conjuntos de datos.
Permite realizar preprocesamientos de datos para transformarlos en un
esquema de aprendizaje, a fin de que sus resultados puedan ser analizados.
WEKA permite aplicar un método de aprendizaje a conjuntos de datos y
analizar los resultados para extraer información. Otra forma es aplicar varios
métodos de aprendizaje y comparar sus resultados en orden de escoger una
predicción. Estos métodos son llamados clasificadores.
La implementación de los esquemas de aprendizaje son los recursos más
valiosos de WEKA. Las herramientas para el preprocesamiento de datos,
llamados filtros, WEKA centra su atención en los algoritmos de clasificación y
filtro, sin embargo, también incluye la implementación de algoritmos para el
aprendizaje de reglas de asociación y el agrupamiento de datos (clustering).
3. Instalación de WEKA
Descargar desde la página web de la Universidad de
Waikato http://www.cs.waikato.ac.nz/ml/weka/
Permitirá la instalación de la máquina virtual java.
Comenzará la instalación automática del programa.
Se mostraran las ventanas que se muestran a continuación
11. Uso del WEKA
La pantalla principal del WEKA se muestra a
continuación:
12. Uso del WEKA
Se muestran las 4 opciones posibles interfaces de trabajo
con WEKA
Explorer: es la opción que
permite ejecutar los
algoritmos de análisis y
comparar resultados sobre un
único conjunto de datos.
Experimenter: es la opción
que permite definir
experimentos complejos y
almacenar resultados.
Knowledge Flow: es la
opción que permite llevar a
cabo las mismas operaciones
que Experimenter pero
representado como un grafo
dirigido.
Simple Cli: es “Command-
Line Interfaz” es una ventana
de comandos java para
ejecutar las clases WEKA.
13. Uso del WEKA
Explorer:
Como se observa con seis
subentornos de ejecución:
Preprocess: permite el uso de
las herramientas y filtros para
cargar y manipular los datos.
Classification: permite el
acceso a las técnicas de
clasificación y regresión.
Cluster: permite integrar
varios métodos de
agrupamiento.
Associate: permite incluir las
reglas de asociación.
Select Attributes: permite
aplicar las técnicas de
reducción de atributos.
Visualize: permite visualizar
el comportamiento de los
datos.
14. Uso del WEKA
Explorer: Preprocesamiento de Datos.
•Se pueden importar datos en varios formatos: ARFF,
CVS, C.45, binarios.
•Los datos pueden provenir desde un URL o de una
base de datos (usando JDBC).
•Herramientas de preprocesado: Filters.
•Filtros para: discretización, normalización, selección
de atributos, ...
15. Uso del WEKA
Explorer:
Las flores de las plantas Iris
(liliáceas) se clasifican a base de
las dimensiones de sus pétalos y
sépalos
Es un problema académico planteado por
Fisher en 1936, que consta de las mediciones
de 150 ejemplares de tres subclases: Setosa,
Versicolor, Virginica.
16. Uso del WEKA
Explorer:
Los datos son introducidos como
archivos ARFF los cuales poseen
las siguientes características:
@RELATION iris
@ATTRIBUTE sepallength REAL
@ATTRIBUTE sepalwidth REAL
@ATTRIBUTE petallength REAL
@ATTRIBUTE petalwidth REAL
@ATTRIBUTE class {Iris-setosa,Iris-versicolor,Iris-virginica}
@DATA
5.1,3.5,1.4,0.2,Iris-setosa
4.9,3.0,1.4,0.2,Iris-setosa
…
5.2,2.7,3.9,1.4,Iris-versicolor
5.0,2.0,3.5,1.0,Iris-versicolor
…
7.2,3.6,6.1,2.5,Iris-virginica
6.5,3.2,1.4,2.0,Iris-virginica
Cabecera con el nombre
de la relación:
iris
Declaración de atributos:
{a1,a2,..,an} enumerado
REAL numérico
Conjunto de datos:
150 instancias.
Ordenadas de 50 en 50.
22. Uso del WEKA
Explorer: Preprocess
Como se observa los cinco
atributos de las plantas Iris:
sepallenght: longitud del
sépalo.
sepalwidth: anchura del
sépalo.
petallenght: longitud del
pétalo.
petalwidth: anchura del
pétalo.
class: especies que
componen la planta Iris.
28. Uso del WEKA
Explorer: Preprocess
Marca sobre la opciones filtros que considere necesarias y pulsa Esta bien
29. Uso del WEKA
Explorer: Preprocess
Pulse sobre la opción de
la herramienta de
preprocesamineto no
supervisada para el
tratamiento de los
atributos escogiendo
Discretizar
32. Uso del WEKA
Explorer: Preprocess
Usaremos ahora de la
herramienta de
preprocesamineto no
supervisada para el
tratamiento de los
atributos escogiendo
Discretizar las opciones
que posee pulsando
sobre el
33. Uso del WEKA
Explorer: Preprocess
Colocar en verdadero para hacer iguales el número de las frecuencias. Se
puede también modificar cualquiera de las opciones a nuestra conveniencia
34. Uso del WEKA
Explorer: Preprocess
Pulsar sobre la opción esta bien
En la sección Acerca de se
muestra la información
sobre la herramienta de
Preprocesamiento utilizada.
37. Uso del WEKA
Explorer: Classify
WEKA ofrece cuatro opciones en
el Test options:
Use trainig set: la muestra es
usada para entrenar y probar al
mismo tiempo. Los resultados
obtenidos no corresponden con
la realidad.
Supplied test set: los atributos
de los datos son escritos en un
nuevo archivo de formato ARFF
sobre el cual se efectuará la
clasificación.
Cross-validation: permite
dividir la muestra en k partes,
sobre estas se procede a
entrenar el clasificador con las k-
1 partes y evaluar con la parte k
actual.
Percentage split: indica el
porcentaje de la muestra que
empleara para probar el
clasificador.
39. Uso del WEKA
Explorer: Classify
WEKA ofrece ocho opciones para
clasificar:
Bayes: métodos basados en el
aprendizaje de Bayes.
Functions: métodos
matemáticos.
Lazy: métodos basados en el
aprendizaje del perezoso.
Meta: métodos que resultan de
la combinación de diferentes
métodos de aprendizaje.
Mi: métodos que aprenden
mediante la variación de la
densidad de los algoritmos.
Misc: métodos que aprenden
como si leyeran los datos.
Trees: métodos que aprenden
mediante arboles de decisión.
Rules: métodos que aprenden y
esto se puede expresar como
reglas.
41. Uso del WEKA
Explorer: Classify (bayes)
Marca sobre la opciones filtros que considere necesarios y pulsa Esta bien
42. Uso del WEKA
Explorer: Classify (bayes)
Pulsar sobre NaiveBayes para
que se muestren las opciones
que este posee
43. Uso del WEKA
Explorer: Classify (bayes)
En la sección Acerca de se
muestra la información
sobre la herramienta de
Clasificación utilizada.
Pulsa Esta bien luego de realizar las
modificaciones en las opciones de ser necesario.
44. Uso del WEKA
Explorer: Classify (bayes)
Pulsar sobre Más opciones con
lo cual se desplegara un menú
emergente
45. Uso del WEKA
Explorer: Classify (bayes)
Pulsa Esta bien luego de realizar las
modificaciones en las opciones de ser necesario.
46. Uso del WEKA
Explorer: Classify (bayes)
Pulsa sobre Comienzo para
que el algoritmo empiece a
ejecutarse
47. Uso del WEKA
Explorer: Classify (bayes)
Se muestra el resultado del algoritmo, deberás pulsar sobre la ventana
deslizante hasta llegar al final de la misma
48. Uso del WEKA
Explorer: Classify (bayes)
Se muestra el resultado del algoritmo, deberás pulsar sobre la ventana
deslizante hasta llegar al final de la misma
62. Uso del WEKA
Explorer: Classify (trees)
Marca sobre la opciones filtros que considere necesarias y pulsa Esta bien
63. Uso del WEKA
Explorer: Classify (trees)
Pulsar sobre J48 para que se
muestren las opciones que
este posee
64. Uso del WEKA
Explorer: Classify (trees)
En la sección Acerca de se
muestra la información
sobre la herramienta de
Clasificación utilizada.
Pulsa Esta bien luego de realizar las
modificaciones en las opciones de ser necesario.
65. Uso del WEKA
Explorer: Classify (trees)
Pulsar sobre Más opciones con
lo cual se desplegara un menú
emergente
66. Uso del WEKA
Explorer: Classify (trees)
Pulsa Esta bien luego de realizar las
modificaciones en las opciones de ser necesario.
67. Uso del WEKA
Explorer: Classify (trees)
Pulsa sobre Comienzo para
que el algoritmo empiece a
ejecutarse
68. Uso del WEKA
Explorer: Classify (trees)
Se muestra el resultado del algoritmo, deberás pulsar sobre la ventana
deslizante hasta llegar al final de la misma
69. Uso del WEKA
Explorer: Classify (trees)
Se muestra el resultado del algoritmo, deberás pulsar sobre la ventana
deslizante hasta llegar al final de la misma
82. Uso del WEKA
Explorer: Classify
Principales Algoritmos utilizados en Clasificar
•BayesNet: Aprende redes Bayesianas.
•NaiveBayes: Clasificador discriminador de Bayes.
•Id3: Arboles de decisión usando el divide y vencerás.
•J48: Arboles de decisión usando el C4.5.
•RandomForest: Contruye un bosque aleatorio.
•JRip: Construye reglas con el algoritmo RIPPER.
•M5Rules: Construye reglas M5 desde árboles.
•LinearRegression: Utiliza la regresión lineal.
•MultilayerPerceptron: Usa Red Neuronal de Retroprogramación.
•RBFNetwork: Usa Red de función en Radio Base.
•SMO: Basado en Vectores de Soporte.
•Ibk: Usa k vecinos más cercanos.
•LWL: Aprendizaje basados en Pesos Locales.
•Entre muchos otros…
83. Uso del WEKA
Explorer: Classify
Principales Algoritmos utilizados en Clasificar
•BayesNet: Aprende redes Bayesianas.
•NaiveBayes: Clasificador discriminador de Bayes.
•Id3: Arboles de decisión usando el divide y vencerás.
•J48: Arboles de decisión usando el C4.5.
•RandomForest: Contruye un bosque aleatorio.
•JRip: Construye reglas con el algoritmo RIPPER.
•M5Rules: Construye reglas M5 desde árboles.
•LinearRegression: Utiliza la regresión lineal.
•MultilayerPerceptron: Usa Red Neuronal de Retroprogramación.
•RBFNetwork: Usa Red de función en Radio Base.
•SMO: Basado en Vectores de Soporte.
•Ibk: Usa k vecinos más cercanos.
•LWL: Aprendizaje basados en Pesos Locales.
•Entre muchos otros…
84. Uso del WEKA
Explorer: Cluster
WEKA ofrece cuatro opciones en
el Cluster mode:
Use trainig set: la muestra es
usada para entrenar y probar al
mismo tiempo. Los resultados
obtenidos no corresponden con
la realidad.
Supplied test set: los atributos
de los datos son escritos en un
nuevo archivo de formato ARFF
sobre el cual se efectuará la
clasificación.
Percentage split: indica el
porcentaje de la muestra que
empleara para probar el
clasificador.
Classes to cluster evaluation:
permite escoger el atributo a
agrupar
86. Uso del WEKA
Explorer: Cluster
WEKA ofrece nueve algoritmos
para agrupar datos:
•CobWeb: utiliza el algoritmo
CobWeb.
•DBScan: utiliza el algoritmo
DBScan.
•EM: utiliza el algoritmo EM.
•FarthestFirst: utiliza el
algoritmo FarthestFirst.
•FilteredCluster: agupra los
datos arbitrariamente y luego
son pasados por un filtro
arbitrario.
•MakeDensityBasedClusterer: los
datos son envueltos en clases y
devuelven su distribución y
densidad.
•OPTICS: utiliza el algoritmo
OPTICS.
•SimpleKMeans: utiliza el
algoritmo de k-medias.
•XMeans: utiliza el algoritmo de
x-medias.
90. Uso del WEKA
Explorer: Cluster
Pulsar sobre CobWeb para que
se muestren las opciones que
este posee
91. Uso del WEKA
Explorer: Cluster
En la sección Acerca de se
muestra la información
sobre la herramienta de
Agrupamiento de datos
utilizada.
Pulsa Esta bien luego de realizar las
modificaciones en las opciones de ser necesario.
92. Uso del WEKA
Explorer: Cluster
Pulsa sobre Comienzo para
que el algoritmo empiece a
ejecutarse
93. Uso del WEKA
Explorer: Cluster
Se muestra el resultado del algoritmo, deberás pulsar sobre la ventana
deslizante hasta llegar al final de la misma
101. Uso del WEKA
Explorer: Associate
WEKA ofrece cinco algoritmos
para asociar datos:
•Apriori: utiliza el algoritmo
Apriori.
•FilteredAssociator: utiliza el
algoritmo que asocia los datos
arbitrariamente además de
filtrarlos arbitrariamente
también.
•GeneralizedSequentialPatterns:
utiliza el algoritmo GSP
•PredictiveApriori: utiliza el
algoritmo Apriori para hacer
reglas de asociación.
•Tertius: utiliza el algoritmo de
Tertius.
103. Uso del WEKA
Explorer: Associate
Marca sobre la opciones filtros que considere necesarias y pulsa Esta bien
104. Uso del WEKA
Explorer: Associate
Pulsa sobre la opción del
algoritmo FilteredAssociator
105. Uso del WEKA
Explorer: Associate
Pulsar sobre FilteredAssociator
para que se muestren las
opciones que este posee
106. Uso del WEKA
Explorer: Associate
En la sección Acerca de se
muestra la información
sobre la herramienta de
Asociación de datos
utilizada.
Pulsa Esta bien luego de realizar las
modificaciones en las opciones de ser necesario.
107. Uso del WEKA
Explorer: Associate
Pulsa sobre Comienzo para
que el algoritmo empiece a
ejecutarse
111. Uso del WEKA
Experimenter:
Como se observa con tres
subentornos de ejecución:
Setup: permite la carga de los
archivos así como la creación
de los mismos.
Run: permite ejecutar el
archivo con los algoritmos
indicados en Setup.
Analyse: permite configurar
las pruebas sobre los datos.
112. Uso del WEKA
KnowledgeFlow:
Como se observa con ocho
subentornos de ejecución:
DataSources: permite leer los datos
en los diferentes tipos de archivos:
ARFF, C45, CVS, LIBSVM, XRFF.
DataSkin: permite guardar los datos
en los diferentes tipos de archivos:
ARFF, C45, CVS, LIBSVM, XRFF.
Filters: permite efectuar el
preprocesamiento de los datos, se
dividen supervisados y no
supervisados.
Classifiers: permite efectuar la
clasificación de los datos, se dividen
en: bayes, functions, lazy, meta, mi,
misc, trees y rules.
Clusterers: permite aplicar las
técnicas de agrupamiento de datos.
Associations: permite aplicar las
técnicas de asociación de los datos.
Evaluation: permite evaluar o
designar el conjunto de datos para el
entrenamiento.
Visualization: permite visualizar ya
sea como texto o grafico el resultado
de los algoritmos.
113. Uso del WEKA
KnowledgeFlow:
Como primer paso es necesario
cargar los datos. Para esto se debe:
1) Pulsar sobre la pestaña de
DataSources
2) Pulsar sobre la el icono de
ArffLoader
3) Pulsar doble clic y aparecerá el
icono de ArffLoader
114. Uso del WEKA
KnowledgeFlow:
Pulsar clic contrario sobre el icono de
ArffLoader y aparecerá un menú
desplegable sobre este elegirás la
opción Configure, esto para indicarle
la ubicación del archivo ARFF
115. Uso del WEKA
KnowledgeFlow:
Pulsar clic sobre el archivo ARFF de
nuestra elección el cual será
inmediatamente cargado como fuente
de datos
116. Uso del WEKA
KnowledgeFlow:
Como segundo paso es necesario
evaluar los datos. Para esto se debe:
1) Pulsar sobre la pestaña de
Evaluation
2) Pulsar sobre la el icono de
ClassAssigener
3) Pulsar doble clic y aparecerá el
icono de ClassAssigner
ClassAssigner es un algoritmo que divide los datos en grupos (clases)
118. Uso del WEKA
KnowledgeFlow:
La flecha indica que se efectúa la
conexión entre el conjunto de los
datos “dataSet” en formato ARFF
(icono ArffLoader) y serán
evaluados dicho conjunto de datos
(icono ClassAssigner)
Cada uno de los iconos u objetos sólo se conectaran con los atributos comunes
a los mismos, en este caso es común el conjunto de datos “dataSet” y es la única
forma de comunicación entre la carga del conjunto de datos (ArffLoader) y la
evaluación de los mismos (ClassAsigner).
119. Uso del WEKA
KnowledgeFlow:
Pulsar sobre la el icono de
CrossValidationFoldMaker
Pulsar doble clic y aparecerá el
icono de CrossValidationFoldMaker
CrossValidationFolderMaker es un algoritmo de evaluación que divide un
conjunto de datos al efectuar una validación cruzada, para esto separa el
entrenamiento y las pruebas de los datos que son producidas por cada k-partes
121. Uso del WEKA
KnowledgeFlow:
La flecha indica que se efectúa la
conexión entre el conjunto de los
datos “dataSet” formados por el
método de agrupar en clases (icono
ClassAssigner) y serán evaluados
dicho conjunto de datos (icono
CrossValidationFolderMaker)
122. Uso del WEKA
KnowledgeFlow:
Como tercer paso es necesario
efectuar la clasificación de los datos.
Para esto se debe:
1) Pulsar sobre la pestaña de
Classifiers
2) Pulsar sobre la el icono de SMO
3) Pulsar doble clic y aparecerá el
icono de SMO
SMO es una función que implementa el algoritmo de secuencia mínima optima
de John Platt.
123. Uso del WEKA
KnowledgeFlow:
Pulsar clic contrario aparecerá el
menú emergente pulsaras sobre la
opción trainingSet y luego de igual
manera pulsaras clic contrario
aparecerá el menú emergente y
luego pulsaras sobre la opción
testSet.
124. Uso del WEKA
KnowledgeFlow:
La flecha indica que se efectúa la
conexión entre el evaluador (icono
CrossValidationFoldMaker) ya sea
tanto por entrenamiento de los
datos “trainingSet” o por pruebas
de los datos “testSet” al clasificador
SMO.
125. Uso del WEKA
KnowledgeFlow:
Pulsar sobre la el icono de
NaiveBayes
3) Pulsar doble clic y aparecerá el
icono de NaiveBayes
NaiveBayes es una función que se usa para estimar las clases
126. Uso del WEKA
KnowledgeFlow:
Pulsar clic contrario aparecerá el
menú emergente pulsaras sobre la
opción trainingSet y luego de igual
manera pulsaras clic contrario
aparecerá el menú emergente y
luego pulsaras sobre la opción
testSet.
127. Uso del WEKA
KnowledgeFlow:
La flecha indica que se efectúa la
conexión entre el evaluador (icono
CrossValidationFoldMaker) ya sea
tanto por entrenamiento de los
datos “trainingSet” o por pruebas
de los datos “testSet” al clasificador
NaiveBayes.
128. Uso del WEKA
KnowledgeFlow:
Como cuarto es necesario efectuar la
visualización de los datos. Para esto
se debe:
1) Pulsar sobre la pestaña de
Visualization
2) Pulsar sobre la el icono de
TextViewer
3) Pulsar doble clic y aparecerá el
icono de TextViewer
TextViewer es un visualizador que permite observar por pantalla los resultados
generales del experimento
130. Uso del WEKA
KnowledgeFlow:
La flecha indica que se efectúa la
conexión entre el clasificador
(icono MSO) que envía el resultado
tipo texto “text” al visualizador
TextViewer
Pulsar TextViewer y luego pulsar
doble clic y aparecerá el icono de
TextViewer
132. Uso del WEKA
KnowledgeFlow:
La flecha indica que se efectúa la
conexión entre el clasificador
(icono NaiveBayes) que envía el
resultado tipo texto “text” al
visualizador TextViewer
133. Uso del WEKA
KnowledgeFlow:
Pulsar clic contrario sobre los datos
(icono titanic.txt) aparecerá un
menú emergente donde escogerás
la opción Start loading, con esto se
iniciará la carga de los datos en el
modelo creado.
Como quinto paso es necesario cargar
los datos.
138. Uso del WEKA
KnowledgeFlow:
Pulsar sobre la el icono de J48
Pulsar doble clic y aparecerá el
icono de J48
J48 es una función que genera un árbol de decisión usando el algoritmo C4.5
139. Uso del WEKA
KnowledgeFlow:
Pulsar clic contrario aparecerá el
menú emergente pulsaras sobre la
opción trainingSet y luego de igual
manera pulsaras clic contrario
aparecerá el menú emergente y
luego pulsaras sobre la opción
testSet.
140. Uso del WEKA
KnowledgeFlow:
Pulsar clic contrario sobre los datos
(icono titanic.txt) aparecerá un
menú emergente donde escogerás
la opción Start loading, con esto se
iniciará la carga de los datos en el
modelo creado.
Como sexto paso y para efectuar
comparación con los algoritmos de
árboles de decisión, es necesario
volver a cargar los datos.
145. Uso del WEKA
SimpleCLI:
Como se observa con los siete
comandos posibles son:
java <classname> <args>.
break.
kill.
cls.
history.
exit.
help <command>
146. Repositorios de WEKA
SimpleCLI:
Como se observa con los siete
comandos posibles son:
java <classname> <args>.
break.
kill.
cls.
history.
exit.
help <command>