INSUMOS QUIMICOS Y BIENES FISCALIZADOS POR LA SUNAT
Reporte del DATA SET "Balance scale" con WEKA
1. REPORTE DE BALANCE SCALE
USO DE UN DATASET
LOURDES NATALY ROJAS HERNANDEZ
SISTEMAS INTEGRALES DE INFORMACIÓN
9 DE DICIEMBRE DE 2019
UNIVERSIDAD POLITÉCNICA DE PUEBLA
3. 2
INTRODUCCION
La actividad empresarial es importante establecer conjuntos de datos
estandarizados que puedan ser el "único origen de la verdad". La detección y
reutilización de esos conjuntos de datos estandarizados es fundamental. Cuando
los expertos en modelos de datos de la organización crean y comparten conjuntos
de datos optimizados, los creadores de informes pueden comenzar con esos
conjuntos de datos para generar informes precisos. Después, las organizaciones
necesitaran de datos coherentes para tomar decisiones, y un conjunto de datos en
buen estado. Este reporte trata sobre el funcionamiento y la representación de datos
que realiza el Dataset ‘Balance Scale’ que va de la mano con el software ‘Weka’,
mostrando sus diferentes cambios de valores durante la ejecución de 3 algoritmos
con al menos 10 cambios en valores.
4. 3
METODOLOGIA
Existen diferentes maneras para trabajar en un Dataset, donde se pueden aplicar
de forma independiente o conjuntamente, mediante .csv
1. Justificación.
Necesitamos una justificación para poder elegir el Dataset que pueda
mantenerse en tiempo y poder documentarse.
2. Herramientas.
Weka:
Plataforma de software para el aprendizaje automático y la minería de datos.
Balance Scale:
Predice en qué dirección se inclina una báscula o si está equilibrada.
3. Proceso:
3.1. Ejecutar el software de Weka.
3.2. Buscar dentro de Weka la parte de ‘Open file’ y seleccionar el
tipo de archivo ‘.csv’.
3.3. Seleccionar el algoritmo de nuestra conveniencia.
3.4. Ejecutar
4. Analisis:
4.1. Observar a gran detalle el cambio de los valores resultantes por
cada cambio de valores realizado.
4.2. Cambiar valores y/o parámetros.
4.3. Start.
5. Documentación / Evidencias:
5.1. Evidenciar estos cambios a través del proceso de captura de
cambios y de datos.
5. 4
DESCRIPCION DEL DATA SET – BALANCE SCALE
Este conjunto de datos se generó para modelar resultados experimentales
psicológicos. Cada ejemplo se clasifica como tener la escala de equilibrio inclinada
hacia la derecha, inclinada hacia la izquierda o equilibrada. Los atributos son el peso
izquierdo, la distancia izquierda, el peso derecho y la distancia correcta. La forma
correcta de encontrar la clase es el mayor de (izquierda-distancia * izquierda-peso)
y (derecha-distancia * derecha-peso). Si son iguales, está equilibrado.
6. 5
ALGORITMOS
Son algoritmos basados en poblaciones que realizan su búsqueda en el
carácter estocástico de la generación. No utilizan los operadores de cruce y
mutación. El comportamiento de los Algoritmos depende en gran parte de los
distintos valores u operadores del entorno.
7. 6
CLASFICACION TIPO ARBOL
Algoritmo J48
En la 1era ejecución, se realiza el primer cambio de valores dentro de la interfaz
‘ObjectEditor’ de Weka con el subtipo de algoritmo.
Tabla 1. Tabla de valores para asignar.
Una vez presionado el botón de start de la interfaz de Weka, se obtuvieron los
siguientes resultados de la tabla 2.
Tabla 2. Tabla de resultados
En la 2da ejecución, se realizan los mismos pasos de la 1era ejecución para
seguir realizando cambio de los valores, pero ahora con los datos de la tabla 3.
Tabla 3. Tabla con nuevos valores para asignar
CAMBIO DE VALORES
NOMBRE
VALORES:
batchSize confidence
Factor
minNumObj numDecimal
Places
numFolds seed
VALORES: 199 0.25 19 2 3 1
Correctly
Classified
Instances
Incorrectly
Classified
Instances
Kappa
statistic
Mean
absolute
error
Root mean
squared
erroR
Relative
absolute
error
Root
relative
squared
Total
Number of
Instances
479 146 0.5773 0.1892 0.3699 49.82% 84.93% 625
76.64% 23.36%
RESULTADOS
VALORES DADOS
CAMBIO DE VALORES
NOMBRE
VALORES:
batchSize confidence
Factor
minNumObj numDecimal
Places
numFolds seed
VALORES: 100 15 -1 2 10 3
8. 7
Como resultado del clic al botón de start, obtendremos como resultados que se
muestran en la tabla 4.
Tabla 4. Tabla de resultados generados en la 2da ejecución.
Por último, en la gráfica 1, se muestra la comparación de los datos generados
con distintos datos.
Grafica 1. Comparación de resultados con 2 ejecuciones.
Correctly
Classified
Instances
Incorrectly
Classified
Instances
Kappa
statistic
Mean
absolute
error
Root mean
squared
erroR
Relative
absolute
error
Root
relative
squared
error
Total
Number of
Instances
561 64 0.8126 0.1138 0.2227 29.96% 51.12% 625
89.76% 10.24%
RESULTADOS
VALORES DADOS
0
100
200
300
400
500
600
700
CorrectlyClassifiedInstancesCCI
IncorrectlyClassifiedInstancesICI
Kappastatistic
Meanabsoluteerror
RootmeansquarederroR
Relativeabsoluteerror
Rootrelativesquarederror
TotalNumberofInstances
CCI%
ICI%
Resultado finales
1-ejecución
2-ejecución
9. 8
Algoritmo DesicionStump
En la 1era ejecución, se realiza el primer cambio de valores dentro de la interfaz
‘ObjectEditor’ de Weka como se muestra en la tabla 5.
Tabla 5. Valores para reasignar
Una vez presionado el botón de start de la interfaz de Weka, se obtuvieron los
siguientes resultados de la tabla 6.
Tabla 6. Tabla de resultados 1era ejecución.
En la 2da ejecución, se realizan los mismos pasos de la 1era ejecución para
seguir realizando cambio de los valores, pero ahora con los datos de la tabla 7.
Tabla 7. Valores para reasignar
NOMBRE
VALORES:
batchSize debug doNotCheck
Capabilities
numDecimal
Places
VALORES: 128 0 0 3
CAMBIO DE VALORES
Correctly
Classified
Instances
Incorrectly
Classified
Instances
Kappa
statistic
Mean
absolute
error
Root mean
squared
erroR
Relative
absolute
error
Root
relative
squared
error
Total
Number of
Instances
344 281 0.1662 0.3569 0.4355 93.97% 99.97% 625
55.04% 44.96%
VALORES DADOS
NOMBRE
VALORES:
batchSize debug doNotChec
kCapabilitie
s
numDecima
lPlaces
VALORES: 96 1 0 2
CAMBIO DE VALORES
10. 9
Como resultado del clic al botón de start, obtendremos como resultados que se
muestran en la tabla 8.
Tabla 8. Tabla de resultados de la 2da ejecución.
A continuación, se muestra la comparación de las 2 previas ejecuciones en la
gráfica 2.
Gráfica 2. Comparación de los resultados de 2 ejecuciones.
Correctly
Classified
Instances
Incorrectly
Classified
Instances
Kappa
statistic
Mean
absolute
error
Root mean
squared
erroR
Relative
absolute
error
Root
relative
squared
error
Total
Number of
Instances
523 194 0.7114 0.1892 0.6355 82.42% 93.21% 623
67.31% 32.11%
RESULTADOS
VALORES DADOS
11. 10
CLASFICACION TIPO BAYESIANO.
Algoritmo NayveBayesMultinomial
En la 1era ejecución, se realiza el primer cambio de valores dentro de la interfaz
‘GenericObjectEditor’ de Weka como se nota en la tabla 9.
Tabla 9. Tabla de valores para ingresar.
Una vez presionado el botón de start de la interfaz de Weka, se obtuvieron los
siguientes resultados de la tabla 10.
Tabla 10. Tabla de resultados generados.
En la 2da ejecución, se realizan los mismos pasos de la 1era ejecución para
seguir realizando cambio de los valores, pero ahora con los datos de la tabla 11.
Tabla 11. Tabla de valores diferentes para ingresar.
Como resultado del clic al botón de start, obtendremos como resultados que se
muestran en la tabla 12.
NOMBRE
VALORES:
batchSize debug doNotChec
kCapabilitie
s
numDecima
lPlaces
VALORES: 74 0 0 6
CAMBIO DE VALORES
Correctly
Classified
Instances
Incorrectly
Classified
Instances
Kappa
statistic
Mean
absolute
error
Root mean
squared
erroR
Relative
absolute
error
Root
relative
squared
error
Total
Number of
Instances
546 79 0.7656 0.2643 0.6355 69.58% 73.55% 625
87.36% 12.64%
VALORES DADOS
NOMBRE
VALORES:
batchSize debug doNotChec
kCapabilitie
s
numDecima
lPlaces
VALORES: 96 1 0 15
CAMBIO DE VALORES
12. 11
Tabla 12. Tabla de resultados generados.
En la siguiente grafica se refleja la comparación de las 2 previas ejecuciones en la
gráfica 3.
Grafica 3. Comparación de datos
Correctly
Classified
Instances
Incorrectly
Classified
Instances
Kappa
statistic
Mean
absolute
error
Root mean
squared
erroR
Relative
absolute
error
Root
relative
squared
error
Total
Number of
Instances
512 81 0.5365 0.1552 0.7144 32.68% 16.22% 625
52.41% 31.11%
RESULTADOS
VALORES DADOS
13. 12
Algoritmo NaiveBayesUpdateable
En la 1era ejecución, se realiza el primer cambio de valores dentro de la interfaz
‘GenericObjectEditor’ de Weka como se nota en la tabla 13.
.
Tabla 13. Tabla con nuevos datos.
Una vez presionado el botón de start de la interfaz de Weka, se obtuvieron los
siguientes resultados de la tabla 14.
Tabla 14. Tabla de resultados de la 1era ejecución.
En la 2da ejecución, se realizan los mismos pasos de la 1era ejecución para
seguir realizando cambio de los valores, pero ahora con los datos de la tabla 15.
Tabla 15. Valores de cambio.
Como resultado del clic al botón de start, obtendremos como resultados que se
muestran en la tabla 16.
CAMBIO DE VALORES
NOMBRE
VALORES:
batchSize displayModelln
OldFormat
minNumObj numDecima
lPlaces
useKernel
Estimator
VALORES: 199 0 1 5 0
Correctly
Classified
Instances
Incorrectl
y
Classified
Instances
Kappa statistic Mean
absolute
error
Root mean
squared
erroR
Relative
absolute
error
Root
relative
squared
error
Total
Number of
Instances
565 60 0.822 0.2122 0.2793 56.04% 66.10% 625
90.40% 9.60%
RESULTADOS
VALORES DADOS
NOMBRE
VALORES:
batchSize displayModelln
OldFormat
minNumObj numDecima
lPlaces
useKernel
Estimator
VALORES: 156 0 0 30 1
CAMBIO DE VALORES
14. 13
Tabla 16. Valores resultantes
En la siguiente grafica se refleja la comparación de las 2 previas ejecuciones en la
gráfica 4.
Grafica 4. Comparación de resultados
Correctly
Classified
Instances
Incorrectl
y
Classified
Instances
Kappa statistic Mean
absolute
error
Root mean
squared
erroR
Relative
absolute
error
Root
relative
squared
error
Total
Number of
Instances
571 54 0.8398 0.2076 0.2796 54.66% 64.19% 625
91.36% 8.64%
RESULTADOS
VALORES DADOS
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
Correctly
Classified
Instances
CCI
Incorrectly
Classified
Instances
ICI
Kappa
statistic
Mean
absolute
error
Root
mean
squared
erroR
Relative
absolute
error
Root
relative
squared
error
Total
Number of
Instances
CCI % ICI %
Resultado finales
Comparación de resultados
1ra.Ejec 2da.Ejec
15. 14
CLASFICACION TIPO PEREZOSO (LAZY).
En la 1era ejecución, se realiza el primer cambio de valores dentro de la interfaz
‘GenericObjectEditor’ de Weka como se nota en la tabla 17.
Tabla 17. Tabla de valores a ingresar
Una vez presionado el botón de start de la interfaz de Weka, se obtienen los
siguientes resultados de la tabla 18.
Tabla 18. Tabla de resultados
NOMBRE
VALORES:
batchSize debug Cross-
validation
folds
numDecima
lPlaces
doNotChec
kCapabilida
des
weighting
Kernel
VALORES: 100 0 100 2 0 0
VALORES
Correctly
Classified
Instances
Incorrectly
Classified
Instances
Kappa
statistic
Mean
absolute
error
Root mean
squared
erroR
Relative
absolute
error
Root
relative
squared
error
Total
Number of
Instances
3019 149 0.9059 0.0865 0.2106 17.31% 42.13% 3168
95.30% 4.70%
RESULTADOS
VALORES DADOS
16. 15
CONCLUSIONES
No existe un algoritmo mejor que otro de forma general, esto es porque han surgido
varias medidas para evaluar la clasificación y comparación de los modelos usados
para un dataset, junto con problemas determinados. Sin embargo, al observar el
comportamiento de toda la clasificación de algoritmo, que son: Bayesianos, fueron
los de mejor comportamiento por el gran acercamiento del 100%, puesto que en los
otros no se notaban muchos cambios y resultaban de alguna manera muy regulares.
Se tomo en cuenta el tiempo ya que es algo fundamental cuando resuelves los
problemas, pues casi siempre hay grandes volúmenes de información para
procesar. Los modelos perezosos fueron los más afectados por este parámetro,
además, los perezosos tuvieron malos resultados en cuanto a razón de verdaderos
positivos esencialmente.
Los parámetros principales y más importante que se notaron fueron los de speed,
fonts y batchSize.