SlideShare ist ein Scribd-Unternehmen logo
1 von 16
1LACNEM 2015 – JOSE ARRIETA Y CARLOS MERA
ESTUDIO COMPARATIVO DE TÉCNICAS DE BALANCEO
DE DATOS EN EL APRENDIZAJE DE MÚLTIPLES
INSTANCIAS
JOSE ARRIETA
CARLOS MERA
2LACNEM 2015 – JOSE ARRIETA Y CARLOS MERA
CONTENIDO
INTRODUCCIÓN
El Problema de Clases Desbalanceadas
El Aprendizaje de Múltiples Instancias (MIL)
Desbalanceo de Clases en MIL
EXPERIMENTOS Y DISCUSIÓN DE RESULTADOS
Conjuntos de Datos
Algoritmos usados
Estrategia de Comparación
Resultados y Discusión
CONCLUSIONES Y TRABAJO FUTURO
3LACNEM 2015 – JOSE ARRIETA Y CARLOS MERA
INTRODUCCIÓN
EL PROBLEMA DE CLASES DESBALANCEADAS
Se considera que un conjunto de datos de dos clases está desbalanceado cuando el
número de muestras de una de las clases (la clase mayoritaria) sobrepasa el número
de muestras de la otra (la clase minoritaria).
La regla de decisión produce fronteras de decisión sesgadas en favor de la clase
mayoritaria. [HG2009] H. He & E.A. Garcia. “Learning from Imbalanced Data”
Frontera Real
Frontera Sesgada
4LACNEM 2015 – JOSE ARRIETA Y CARLOS MERA
INTRODUCCIÓN
ALGORITMOS DE BALANCEO DE CLASES EN LA LITERATURA:
Métodos base
Sub-muestreo y Sobre-muestreo al azar.
Métodos de Sub-muestreo Informativos
Tomek Links
Condensed Nearest
Neighbor Rule One-Sided Selection
Neighborhood Cleaning Rule
Métodos de Sobre-muestreo Informativos
Smote
Borderline-Smote
Adasyn
Métodos Ensamblados
5LACNEM 2015 – JOSE ARRIETA Y CARLOS MERA
INTRODUCCIÓN
APRENDIZAJE DE MÚLTIPLES INSTANCIAS (MIL)
No siempre es posible proporcionar datos para entrenamiento completamente
etiquetados debido a que:
Requiere un esfuerzo humano considerable
Requiere pruebas costosas
Desacuerdo entre los expertos
Objetivo MIL: Aprender de datos débilmente etiquetados, donde cada objeto de
entrenamiento (o Bolsa Xi) es representado por un conjunto de vectores de
características (o Instancias Xi,j)
Concepto a aprender: “Playa” Objetos Segmentados
Xi,1
Xi,5
Xi,2
Xi,3
Xi,4
Bolsa Xi
6LACNEM 2015 – JOSE ARRIETA Y CARLOS MERA
INTRODUCCIÓN
APRENDIZAJE DE MÚLTIPLES INSTANCIAS (MIL)
Un conjunto de entrenamiento consiste de una colección de Bolsas
Una Bolsa es etiquetada positiva si existe al menos una Instancia positiva en ella
Bolsa Negativa (Bi
-) Bolsa Positiva (Bi
+)
Un conjunto de entrenamiento toma la forma B={(B1,y1),…,(Bn,yn)} donde
cada Bolsa Bi={xi1, . . . , xini } es un conjunto con ni instancias y con
etiqueta yi=+1, para la clase positiva, o yi=-1, para la clase negativa.
7LACNEM 2015 – JOSE ARRIETA Y CARLOS MERA
INTRODUCCIÓN
EL APRENDIZAJE DE MÚLTIPLES INSTANCIAS (MIL)
Los algoritmos MIL pueden ser agrupados en: [Amores2013]
Instance Space (IS) (BUSCAR ESSTOO Y ALGORITMOSs)
Axis-Parallel Rectangle (APR) [DLL1997]
mi-SVM [ATH2003]
MIL-Boost [BYB2009]
Bag Space (BS)
Citation-kNN [WZ2000]
Embedded Space (ES)
Multiple-Instance Learning via Embedded Instance Selection (MILES) [CBW2006]
[Amores2013] J. Amores: “Multiple instance classification: Review, taxonomy and comparative study”
[ATH2003] S. Andrews et al.: “Support vector machines for multiple-instance learning”
[WZ2000] J. Wang and J. Zucker: “Solving the multiple-instance problem: A lazy learning approach”
[BYB2009] B. Babenko et al.: “Visual tracking with online multiple instance learning”
La mayoría de los métodos existentes NO consideran directamente
el problema de los conjuntos de datos desbalanceados , lo que
disminuye el rendimiento normalmente alcanzable por la mayoría de
los algoritmos de MIL
8LACNEM 2015 – JOSE ARRIETA Y CARLOS MERA
INTRODUCCIÓN
EL PROBLEMA DE CLASES DESBALANCEADAS EN MIL
A nivel de Instancias: Instancias negativas predominan el conjunto de datos
A nivel de Bolsas: Bolsas negativas superan a las positivas
En Ambos niveles
9LACNEM 2015 – JOSE ARRIETA Y CARLOS MERA
ESTRATEGIA DE COMPARACIÓN
MÉTODOS DE MUESTREO USADOS EN MIL
SOBRE-MUESTREO: Agregar a cada bolsa el número de instancias sintéticas
necesarias para que todas las bolsas tengan el número máximo de instancias
(SMOTE al azar)
SUB-MUESTREO:
1. Eliminar de cada bolsa tantas instancias al azar, como sea necesario para que
cada bolsa tenga el número mínimo de instancias.
2. OSS
MIXTO: Sobre-muestreo (SMOTE al azar) + Sub-muestreo (eliminación al azar).
10LACNEM 2015 – JOSE ARRIETA Y CARLOS MERA
ESTRATEGIA DE COMPARACIÓN
ALGORITMOS MIL USADOS EN LOS EXPERIMENTOS
APR con un umbral 𝑡 = 0,1.
Citation-kNN con k=3 (denominado C-kNN).
mi-SVM con un kernel de base radial y un parámetro de regularización 𝐶 = 10.
MILES con un kernel de base radial y un parámetro de regularización 𝐶 = 10.
Los resultados obtenidos se resumen en las Tabla 2 y 3, para las métricas AUC y F1,
respectivamente.
11LACNEM 2015 – JOSE ARRIETA Y CARLOS MERA
EXPERIMENTOS Y RESULTADOS
CONJUNTOS DE DATOS USADOS: En la siguiente tabla se detallan los conjuntos de
datos utilizados en los experimentos, resaltando el desbalance a nivel de bolsas e
instancias. Tabla 1. Conjuntos de Datos de Prueba
Conjunto de
datos
Bolsas + Bolsas - Inst + Inst - Pro Min Max
Musk1 47 45 207 269 5 2 40
Musk2 39 63 1017 5581 65 1 1044
Elephant 100 100 762 629 7 2 13
Fox 100 100 647 673 7 2 13
Tiger 100 100 544 676 6 1 13
Muta1 125 63 7790 2696 56 28 88
Muta2 13 29 660 1472 51 26 86
Bird WIWR 109 439 1824 8408 19 2 43
Bird BRCR 197 351 4759 5473 19 2 43
Web1 17 58 488 1724 29 4 131
Web2 18 57 499 1720 30 5 200
12LACNEM 2015 – JOSE ARRIETA Y CARLOS MERA
EXPERIMENTOS Y RESULTADOS
Conjuntos de datos
[Algoritmo]
Original
Sobre-
Muestreo
Sub-
Muestreo
OSS
Muestreo
Mixto
Musk1 [C-kNN] 87,86 43,06 83,47 85,19 70,14
Musk2 [mi-SVM] 73,69 * 75,36 72,39 72,77
Elephant [mi-SVM] 77,84 74,91 78,42 * 76,88
Fox [MILES] 67,56 40,64 64,99 65,69 62,24
Tiger [MILES] 80,02 48,85 73,92 78,88 78,93
Muta1 [mi-SVM] 84,20 79,74 79,98 * 81,64
Muta2 [mi-SVM] 53,28 45,72 51,52 52,97 48,31
Bird WIWR [MILBoost] 84,50 78,78 47,43 33,18 80,45
Bird BRCR [MILBoost] 80,13 71,37 59,40 52,93 79,07
Web1 [mi-SVM] 56,20 36,10 44,07 59,78 51,45
Web2 [mi-SVM] 61,09 30,14 46,50 57,74 56,52
Tabla 2. Resultados para la Métrica F1x100
13LACNEM 2015 – JOSE ARRIETA Y CARLOS MERA
EXPERIMENTOS Y RESULTADOS
Tabla 3. Resultados para la Métrica AUCx100
Conjuntos de datos
[Algoritmo]
Original
Sobre-
Muestreo
Sub-
Muestreo
OSS Muestre Mixto
Musk1 [C-kNN] 91,51 49,89 84,37 90,64 61,4
Musk2 [mi-SVM] 91,24 * 91,99 90,69 91,11
Elephant [mi-SVM] 91,76 91,03 90,55 * 91,11
Fox [MILES] 73,72 64,36 68,41 72,39 67,53
Tiger [MILES] 88,62 77,25 82,37 87,35 87,26
Muta1 [mi-SVM] 83,39 67,13 78,71 * 75,72
Muta2 [mi-SVM] 72,49 72,38 66,56 71,98 70,9
Bird WIWR [MILBoost] 92,14 89,70 96,39 41,77 90,09
Bird BRCR [MILBoost] 93,14 89,76 92,54 83,49 91,81
Web1 [mi-SVM] 83,27 80,27 78,49 82,17 82,97
Web2 [mi-SVM] 84,80 80,02 82,39 83,26 85,95
14LACNEM 2015 – JOSE ARRIETA Y CARLOS MERA
EXPERIMENTOS Y RESULTADOS
DISCUSIÓN DE RESULTADOS: Las siguientes observaciones pueden ser realizadas a
partir de los experimentos
El sobre-muestreo desempeña siempre inferior en las métricas usadas con
respecto al conjunto de datos original, debido a la mayor probabilidad de
seleccionar instancias negativas para crear instancias sintéticas , lo cual
aumenta la ambigüedad dentro de la bolsa y dificulta la clasificación.
Los resultados del sub-muestreo en términos generales no es mejor que la
muestra de datos original esto debido a la forma como la realizan los métodos de
sub-muestreo, conlleva a una pérdida de información importante para la
definición de las fronteras de decisión.
15LACNEM 2015 – JOSE ARRIETA Y CARLOS MERA
CONCLUSIONES Y TRABAJO FUTURO
Los métodos de muestreo para conjuntos de datos de una sola instancia no
pueden ser aplicados directamente a conjuntos de datos MIL ya que afecta
negativamente el desempeño del clasificador.
Es necesario tener en cuenta la naturaleza ambigua de las bolsas positivas,
duplicando las instancias realmente positivas y eliminando las instancias
negativas que causen ambigüedad.
El trabajo futuro en esta área de investigación, debe estar dirigido a desarrollar
métodos de balanceo que tengan en cuenta las particularidades de los
conjuntos de datos tipo MIL y los tres tipos de desbalanceo que se pueden
presentar en los mismos.
16LACNEM 2015 – JOSE ARRIETA Y CARLOS MERA
PREGUNTAS
JOSE ARRIETA, CARLOS MERA
E-mail: jmarrietar@unal.edu.co
GRACIAS!!

Weitere ähnliche Inhalte

Was ist angesagt?

Medidas descriptivas datos agrupados
Medidas descriptivas datos agrupadosMedidas descriptivas datos agrupados
Medidas descriptivas datos agrupadosAdriana Sanchez
 
Estadística descriptiva
Estadística descriptivaEstadística descriptiva
Estadística descriptivaSandra
 
Tablas de frecuencias
Tablas de frecuenciasTablas de frecuencias
Tablas de frecuenciasgrahbio14
 
Estadidtica descriptiva graficos_exploratorios
Estadidtica descriptiva graficos_exploratoriosEstadidtica descriptiva graficos_exploratorios
Estadidtica descriptiva graficos_exploratoriosjennypao39
 
Medidas de Orden o Posición y Dispersión
Medidas de Orden o Posición y DispersiónMedidas de Orden o Posición y Dispersión
Medidas de Orden o Posición y Dispersióneradio2508
 
Medidas de tendencia central
Medidas de tendencia centralMedidas de tendencia central
Medidas de tendencia centralbillod
 
Distribución de frecuencias
Distribución de frecuenciasDistribución de frecuencias
Distribución de frecuenciasnatorabet
 
Tablas de distribucion de frecuencias
Tablas de distribucion de frecuenciasTablas de distribucion de frecuencias
Tablas de distribucion de frecuenciasElfego Lopez
 
Variable discreta
Variable discretaVariable discreta
Variable discretabillod
 
Capítulo 02, Descripción de los datos, distribuciones de frecuencias y repres...
Capítulo 02, Descripción de los datos, distribuciones de frecuencias y repres...Capítulo 02, Descripción de los datos, distribuciones de frecuencias y repres...
Capítulo 02, Descripción de los datos, distribuciones de frecuencias y repres...Alejandro Ruiz
 
Estadística descriptiva
Estadística descriptivaEstadística descriptiva
Estadística descriptivagrahbio14
 
2.distribucion de frecuencia
2.distribucion de frecuencia2.distribucion de frecuencia
2.distribucion de frecuenciaAlejandro Robayo
 
Medidas de tendencia central
Medidas de tendencia centralMedidas de tendencia central
Medidas de tendencia centralbillod
 
Elaboración de tablas de frecuencia, estadística
Elaboración de tablas de frecuencia, estadísticaElaboración de tablas de frecuencia, estadística
Elaboración de tablas de frecuencia, estadísticaGerardo Lagos
 
Estadistica descriptiva presentación (ito)
Estadistica descriptiva presentación (ito)Estadistica descriptiva presentación (ito)
Estadistica descriptiva presentación (ito)Benito Santiago
 
Tema 4,DESCRIPCION DE CONJUNTOS DE DATOS
Tema 4,DESCRIPCION DE CONJUNTOS DE DATOSTema 4,DESCRIPCION DE CONJUNTOS DE DATOS
Tema 4,DESCRIPCION DE CONJUNTOS DE DATOSJORGE JIMENEZ
 

Was ist angesagt? (20)

Medidas descriptivas datos agrupados
Medidas descriptivas datos agrupadosMedidas descriptivas datos agrupados
Medidas descriptivas datos agrupados
 
Estadística descriptiva
Estadística descriptivaEstadística descriptiva
Estadística descriptiva
 
Tablas de frecuencias
Tablas de frecuenciasTablas de frecuencias
Tablas de frecuencias
 
Estadidtica descriptiva graficos_exploratorios
Estadidtica descriptiva graficos_exploratoriosEstadidtica descriptiva graficos_exploratorios
Estadidtica descriptiva graficos_exploratorios
 
Medidas de Orden o Posición y Dispersión
Medidas de Orden o Posición y DispersiónMedidas de Orden o Posición y Dispersión
Medidas de Orden o Posición y Dispersión
 
Medidas de tendencia central
Medidas de tendencia centralMedidas de tendencia central
Medidas de tendencia central
 
Estadistica 3 er grado
Estadistica 3 er gradoEstadistica 3 er grado
Estadistica 3 er grado
 
Distribución de frecuencias
Distribución de frecuenciasDistribución de frecuencias
Distribución de frecuencias
 
Tablas de distribucion de frecuencias
Tablas de distribucion de frecuenciasTablas de distribucion de frecuencias
Tablas de distribucion de frecuencias
 
Estadística
EstadísticaEstadística
Estadística
 
Variable discreta
Variable discretaVariable discreta
Variable discreta
 
Mic sesión 11
Mic sesión 11Mic sesión 11
Mic sesión 11
 
Capítulo 02, Descripción de los datos, distribuciones de frecuencias y repres...
Capítulo 02, Descripción de los datos, distribuciones de frecuencias y repres...Capítulo 02, Descripción de los datos, distribuciones de frecuencias y repres...
Capítulo 02, Descripción de los datos, distribuciones de frecuencias y repres...
 
Estadística descriptiva
Estadística descriptivaEstadística descriptiva
Estadística descriptiva
 
2.distribucion de frecuencia
2.distribucion de frecuencia2.distribucion de frecuencia
2.distribucion de frecuencia
 
Ejercicios 1 iv m 2
Ejercicios 1 iv m 2Ejercicios 1 iv m 2
Ejercicios 1 iv m 2
 
Medidas de tendencia central
Medidas de tendencia centralMedidas de tendencia central
Medidas de tendencia central
 
Elaboración de tablas de frecuencia, estadística
Elaboración de tablas de frecuencia, estadísticaElaboración de tablas de frecuencia, estadística
Elaboración de tablas de frecuencia, estadística
 
Estadistica descriptiva presentación (ito)
Estadistica descriptiva presentación (ito)Estadistica descriptiva presentación (ito)
Estadistica descriptiva presentación (ito)
 
Tema 4,DESCRIPCION DE CONJUNTOS DE DATOS
Tema 4,DESCRIPCION DE CONJUNTOS DE DATOSTema 4,DESCRIPCION DE CONJUNTOS DE DATOS
Tema 4,DESCRIPCION DE CONJUNTOS DE DATOS
 

Ähnlich wie Lacnem 2015

Spss Tutorial 1
Spss Tutorial 1Spss Tutorial 1
Spss Tutorial 1vinod
 
Analisis de varianza diseño completo al azar
Analisis de varianza diseño completo al azarAnalisis de varianza diseño completo al azar
Analisis de varianza diseño completo al azarJennyfer Alvarado
 
clase de estadística para la educación matematica
clase de estadística para la educación matematicaclase de estadística para la educación matematica
clase de estadística para la educación matematicaEDSONAVAlayo
 
Comunidad_Emagister_66885_66885.pdf
Comunidad_Emagister_66885_66885.pdfComunidad_Emagister_66885_66885.pdf
Comunidad_Emagister_66885_66885.pdfIdamithLeon1
 
Comunidad_Emagister_66885_66885. Medidas de Tendencia Central.pdf
Comunidad_Emagister_66885_66885. Medidas de Tendencia Central.pdfComunidad_Emagister_66885_66885. Medidas de Tendencia Central.pdf
Comunidad_Emagister_66885_66885. Medidas de Tendencia Central.pdfCarlos Franco
 
Media Mediana y Moda.pdf
Media Mediana y Moda.pdfMedia Mediana y Moda.pdf
Media Mediana y Moda.pdfCarlos Franco
 
Medidas de tendencia central y dispersion cobach
Medidas de tendencia central y dispersion cobachMedidas de tendencia central y dispersion cobach
Medidas de tendencia central y dispersion cobachNoe Galea
 
Analisis Multivariado Analisis Multivariado.pptx
Analisis Multivariado Analisis Multivariado.pptxAnalisis Multivariado Analisis Multivariado.pptx
Analisis Multivariado Analisis Multivariado.pptxAntonioAlcoba1
 
Medidas tendencia-central
Medidas tendencia-centralMedidas tendencia-central
Medidas tendencia-centralCarlos Franco
 
Datos agrupados 2017
Datos agrupados 2017Datos agrupados 2017
Datos agrupados 2017sytaka
 
EXPOSICION DE ESTADISTICA EQUIPO#2.pptx
EXPOSICION DE ESTADISTICA EQUIPO#2.pptxEXPOSICION DE ESTADISTICA EQUIPO#2.pptx
EXPOSICION DE ESTADISTICA EQUIPO#2.pptxGuadalupe151785
 
Estad descriptiva-clases
Estad descriptiva-clasesEstad descriptiva-clases
Estad descriptiva-clasesGabriel Alzate
 
Matemática para Ingeniería - Determinantes
Matemática para Ingeniería - DeterminantesMatemática para Ingeniería - Determinantes
Matemática para Ingeniería - Determinantes100000281929144
 
Medidas de tendencia central
Medidas de tendencia centralMedidas de tendencia central
Medidas de tendencia centralWILSON VELASTEGUI
 
Diseño de bloques completamente aleatorio (dbca) 7
Diseño de bloques completamente aleatorio (dbca) 7Diseño de bloques completamente aleatorio (dbca) 7
Diseño de bloques completamente aleatorio (dbca) 7Carmelo Perez
 
Estadistica descriptiva UNID Cd Valles
Estadistica descriptiva UNID Cd VallesEstadistica descriptiva UNID Cd Valles
Estadistica descriptiva UNID Cd VallesOmar Baltierrez Mendez
 

Ähnlich wie Lacnem 2015 (20)

Spss Tutorial 1
Spss Tutorial 1Spss Tutorial 1
Spss Tutorial 1
 
Analisis de varianza diseño completo al azar
Analisis de varianza diseño completo al azarAnalisis de varianza diseño completo al azar
Analisis de varianza diseño completo al azar
 
clase de estadística para la educación matematica
clase de estadística para la educación matematicaclase de estadística para la educación matematica
clase de estadística para la educación matematica
 
Comunidad_Emagister_66885_66885.pdf
Comunidad_Emagister_66885_66885.pdfComunidad_Emagister_66885_66885.pdf
Comunidad_Emagister_66885_66885.pdf
 
Comunidad_Emagister_66885_66885. Medidas de Tendencia Central.pdf
Comunidad_Emagister_66885_66885. Medidas de Tendencia Central.pdfComunidad_Emagister_66885_66885. Medidas de Tendencia Central.pdf
Comunidad_Emagister_66885_66885. Medidas de Tendencia Central.pdf
 
Media Mediana y Moda.pdf
Media Mediana y Moda.pdfMedia Mediana y Moda.pdf
Media Mediana y Moda.pdf
 
Medidas de tendencia central y dispersion cobach
Medidas de tendencia central y dispersion cobachMedidas de tendencia central y dispersion cobach
Medidas de tendencia central y dispersion cobach
 
Analisis Multivariado Analisis Multivariado.pptx
Analisis Multivariado Analisis Multivariado.pptxAnalisis Multivariado Analisis Multivariado.pptx
Analisis Multivariado Analisis Multivariado.pptx
 
Medidas tendencia-central
Medidas tendencia-centralMedidas tendencia-central
Medidas tendencia-central
 
Datos agrupados 2017
Datos agrupados 2017Datos agrupados 2017
Datos agrupados 2017
 
EXPOSICION DE ESTADISTICA EQUIPO#2.pptx
EXPOSICION DE ESTADISTICA EQUIPO#2.pptxEXPOSICION DE ESTADISTICA EQUIPO#2.pptx
EXPOSICION DE ESTADISTICA EQUIPO#2.pptx
 
Mic sesión 4
Mic sesión 4Mic sesión 4
Mic sesión 4
 
Estad descriptiva-clases
Estad descriptiva-clasesEstad descriptiva-clases
Estad descriptiva-clases
 
Matemática para Ingeniería - Determinantes
Matemática para Ingeniería - DeterminantesMatemática para Ingeniería - Determinantes
Matemática para Ingeniería - Determinantes
 
Medidas de tendencia central
Medidas de tendencia centralMedidas de tendencia central
Medidas de tendencia central
 
Diseño de bloques completamente aleatorio (dbca) 7
Diseño de bloques completamente aleatorio (dbca) 7Diseño de bloques completamente aleatorio (dbca) 7
Diseño de bloques completamente aleatorio (dbca) 7
 
Estadistica descriptiva
Estadistica descriptivaEstadistica descriptiva
Estadistica descriptiva
 
3. estadistica descriptiva
3. estadistica descriptiva3. estadistica descriptiva
3. estadistica descriptiva
 
Estadistica descriptiva UNID Cd Valles
Estadistica descriptiva UNID Cd VallesEstadistica descriptiva UNID Cd Valles
Estadistica descriptiva UNID Cd Valles
 
6. distribucion de frecuencias
6.  distribucion de frecuencias 6.  distribucion de frecuencias
6. distribucion de frecuencias
 

Kürzlich hochgeladen

CUADRO COMPARATIVO DE ARCHIVOS Y CARPETAS.pptx
CUADRO COMPARATIVO DE ARCHIVOS Y CARPETAS.pptxCUADRO COMPARATIVO DE ARCHIVOS Y CARPETAS.pptx
CUADRO COMPARATIVO DE ARCHIVOS Y CARPETAS.pptxfatimacamilainjantem
 
aine-2014.pdf/tipos de aines-clasificación
aine-2014.pdf/tipos de aines-clasificaciónaine-2014.pdf/tipos de aines-clasificación
aine-2014.pdf/tipos de aines-clasificaciónJhon Jimenez
 
Unidad 6 estadística 2011 TABLA DE FRECUENCIA
Unidad 6 estadística 2011  TABLA DE FRECUENCIAUnidad 6 estadística 2011  TABLA DE FRECUENCIA
Unidad 6 estadística 2011 TABLA DE FRECUENCIAEduardo Ferreira
 
ROMA Y EL IMPERIO, CIUDADES ANTIGUA ROMANAS
ROMA Y EL  IMPERIO, CIUDADES  ANTIGUA ROMANASROMA Y EL  IMPERIO, CIUDADES  ANTIGUA ROMANAS
ROMA Y EL IMPERIO, CIUDADES ANTIGUA ROMANASanyahelmont
 
EPIDEMIO CANCER PULMON resumen nnn.pptx
EPIDEMIO CANCER PULMON  resumen nnn.pptxEPIDEMIO CANCER PULMON  resumen nnn.pptx
EPIDEMIO CANCER PULMON resumen nnn.pptxJEFFERSONMEDRANOCHAV
 
Conversacion.pptx en guarani boliviano latino
Conversacion.pptx en guarani boliviano latinoConversacion.pptx en guarani boliviano latino
Conversacion.pptx en guarani boliviano latinoBESTTech1
 
Reporte de incidencia delictiva Silao marzo 2024
Reporte de incidencia delictiva Silao marzo 2024Reporte de incidencia delictiva Silao marzo 2024
Reporte de incidencia delictiva Silao marzo 2024OBSERVATORIOREGIONAL
 
procedimiento paran la planificación en los centros educativos tipo v(multig...
procedimiento  paran la planificación en los centros educativos tipo v(multig...procedimiento  paran la planificación en los centros educativos tipo v(multig...
procedimiento paran la planificación en los centros educativos tipo v(multig...claudioluna1121
 
Las familias más ricas de África en el año (2024).pdf
Las familias más ricas de África en el año (2024).pdfLas familias más ricas de África en el año (2024).pdf
Las familias más ricas de África en el año (2024).pdfJC Díaz Herrera
 
Principales Retos Demográficos de Puerto Rico
Principales Retos Demográficos de Puerto RicoPrincipales Retos Demográficos de Puerto Rico
Principales Retos Demográficos de Puerto RicoRaúl Figueroa
 
AMNIOS Y CORDON UMBILICAL en el 3 embarazo (1).docx
AMNIOS Y CORDON UMBILICAL en el 3 embarazo (1).docxAMNIOS Y CORDON UMBILICAL en el 3 embarazo (1).docx
AMNIOS Y CORDON UMBILICAL en el 3 embarazo (1).docxlm8322074
 
REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024
REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024
REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024IrapuatoCmovamos
 
Crecimiento del PIB real revisado sexenios neoliberales y nueva era del sober...
Crecimiento del PIB real revisado sexenios neoliberales y nueva era del sober...Crecimiento del PIB real revisado sexenios neoliberales y nueva era del sober...
Crecimiento del PIB real revisado sexenios neoliberales y nueva era del sober...JC Díaz Herrera
 
REGISTRO CONTABLE DE CONTABILIDAD 2022..
REGISTRO CONTABLE DE CONTABILIDAD 2022..REGISTRO CONTABLE DE CONTABILIDAD 2022..
REGISTRO CONTABLE DE CONTABILIDAD 2022..KerlynRuizPinedo
 
MARCO TEORICO, SEMINARIO DE INVESTIGACION,
MARCO TEORICO, SEMINARIO DE INVESTIGACION,MARCO TEORICO, SEMINARIO DE INVESTIGACION,
MARCO TEORICO, SEMINARIO DE INVESTIGACION,EmmanuelDelJessGonza
 
variables-estadisticas. Presentación powerpoint
variables-estadisticas. Presentación powerpointvariables-estadisticas. Presentación powerpoint
variables-estadisticas. Presentación powerpointaria66611782972
 
max-weber-principales-aportes de la sociologia (2).pptx
max-weber-principales-aportes de la sociologia (2).pptxmax-weber-principales-aportes de la sociologia (2).pptx
max-weber-principales-aportes de la sociologia (2).pptxMarioKing10
 
Las familias más ricas del medio oriente (2024).pdf
Las familias más ricas del medio oriente (2024).pdfLas familias más ricas del medio oriente (2024).pdf
Las familias más ricas del medio oriente (2024).pdfJC Díaz Herrera
 
PRESENTACION SOBRE LA HOJA DE CALCULO ⠀⠀
PRESENTACION SOBRE LA HOJA DE CALCULO ⠀⠀PRESENTACION SOBRE LA HOJA DE CALCULO ⠀⠀
PRESENTACION SOBRE LA HOJA DE CALCULO ⠀⠀LALVAREZD
 
data lista de ingresantes de la universidad de ucayali 2024.pdf
data lista de ingresantes de la universidad de ucayali 2024.pdfdata lista de ingresantes de la universidad de ucayali 2024.pdf
data lista de ingresantes de la universidad de ucayali 2024.pdfLizRamirez182254
 

Kürzlich hochgeladen (20)

CUADRO COMPARATIVO DE ARCHIVOS Y CARPETAS.pptx
CUADRO COMPARATIVO DE ARCHIVOS Y CARPETAS.pptxCUADRO COMPARATIVO DE ARCHIVOS Y CARPETAS.pptx
CUADRO COMPARATIVO DE ARCHIVOS Y CARPETAS.pptx
 
aine-2014.pdf/tipos de aines-clasificación
aine-2014.pdf/tipos de aines-clasificaciónaine-2014.pdf/tipos de aines-clasificación
aine-2014.pdf/tipos de aines-clasificación
 
Unidad 6 estadística 2011 TABLA DE FRECUENCIA
Unidad 6 estadística 2011  TABLA DE FRECUENCIAUnidad 6 estadística 2011  TABLA DE FRECUENCIA
Unidad 6 estadística 2011 TABLA DE FRECUENCIA
 
ROMA Y EL IMPERIO, CIUDADES ANTIGUA ROMANAS
ROMA Y EL  IMPERIO, CIUDADES  ANTIGUA ROMANASROMA Y EL  IMPERIO, CIUDADES  ANTIGUA ROMANAS
ROMA Y EL IMPERIO, CIUDADES ANTIGUA ROMANAS
 
EPIDEMIO CANCER PULMON resumen nnn.pptx
EPIDEMIO CANCER PULMON  resumen nnn.pptxEPIDEMIO CANCER PULMON  resumen nnn.pptx
EPIDEMIO CANCER PULMON resumen nnn.pptx
 
Conversacion.pptx en guarani boliviano latino
Conversacion.pptx en guarani boliviano latinoConversacion.pptx en guarani boliviano latino
Conversacion.pptx en guarani boliviano latino
 
Reporte de incidencia delictiva Silao marzo 2024
Reporte de incidencia delictiva Silao marzo 2024Reporte de incidencia delictiva Silao marzo 2024
Reporte de incidencia delictiva Silao marzo 2024
 
procedimiento paran la planificación en los centros educativos tipo v(multig...
procedimiento  paran la planificación en los centros educativos tipo v(multig...procedimiento  paran la planificación en los centros educativos tipo v(multig...
procedimiento paran la planificación en los centros educativos tipo v(multig...
 
Las familias más ricas de África en el año (2024).pdf
Las familias más ricas de África en el año (2024).pdfLas familias más ricas de África en el año (2024).pdf
Las familias más ricas de África en el año (2024).pdf
 
Principales Retos Demográficos de Puerto Rico
Principales Retos Demográficos de Puerto RicoPrincipales Retos Demográficos de Puerto Rico
Principales Retos Demográficos de Puerto Rico
 
AMNIOS Y CORDON UMBILICAL en el 3 embarazo (1).docx
AMNIOS Y CORDON UMBILICAL en el 3 embarazo (1).docxAMNIOS Y CORDON UMBILICAL en el 3 embarazo (1).docx
AMNIOS Y CORDON UMBILICAL en el 3 embarazo (1).docx
 
REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024
REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024
REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024
 
Crecimiento del PIB real revisado sexenios neoliberales y nueva era del sober...
Crecimiento del PIB real revisado sexenios neoliberales y nueva era del sober...Crecimiento del PIB real revisado sexenios neoliberales y nueva era del sober...
Crecimiento del PIB real revisado sexenios neoliberales y nueva era del sober...
 
REGISTRO CONTABLE DE CONTABILIDAD 2022..
REGISTRO CONTABLE DE CONTABILIDAD 2022..REGISTRO CONTABLE DE CONTABILIDAD 2022..
REGISTRO CONTABLE DE CONTABILIDAD 2022..
 
MARCO TEORICO, SEMINARIO DE INVESTIGACION,
MARCO TEORICO, SEMINARIO DE INVESTIGACION,MARCO TEORICO, SEMINARIO DE INVESTIGACION,
MARCO TEORICO, SEMINARIO DE INVESTIGACION,
 
variables-estadisticas. Presentación powerpoint
variables-estadisticas. Presentación powerpointvariables-estadisticas. Presentación powerpoint
variables-estadisticas. Presentación powerpoint
 
max-weber-principales-aportes de la sociologia (2).pptx
max-weber-principales-aportes de la sociologia (2).pptxmax-weber-principales-aportes de la sociologia (2).pptx
max-weber-principales-aportes de la sociologia (2).pptx
 
Las familias más ricas del medio oriente (2024).pdf
Las familias más ricas del medio oriente (2024).pdfLas familias más ricas del medio oriente (2024).pdf
Las familias más ricas del medio oriente (2024).pdf
 
PRESENTACION SOBRE LA HOJA DE CALCULO ⠀⠀
PRESENTACION SOBRE LA HOJA DE CALCULO ⠀⠀PRESENTACION SOBRE LA HOJA DE CALCULO ⠀⠀
PRESENTACION SOBRE LA HOJA DE CALCULO ⠀⠀
 
data lista de ingresantes de la universidad de ucayali 2024.pdf
data lista de ingresantes de la universidad de ucayali 2024.pdfdata lista de ingresantes de la universidad de ucayali 2024.pdf
data lista de ingresantes de la universidad de ucayali 2024.pdf
 

Lacnem 2015

  • 1. 1LACNEM 2015 – JOSE ARRIETA Y CARLOS MERA ESTUDIO COMPARATIVO DE TÉCNICAS DE BALANCEO DE DATOS EN EL APRENDIZAJE DE MÚLTIPLES INSTANCIAS JOSE ARRIETA CARLOS MERA
  • 2. 2LACNEM 2015 – JOSE ARRIETA Y CARLOS MERA CONTENIDO INTRODUCCIÓN El Problema de Clases Desbalanceadas El Aprendizaje de Múltiples Instancias (MIL) Desbalanceo de Clases en MIL EXPERIMENTOS Y DISCUSIÓN DE RESULTADOS Conjuntos de Datos Algoritmos usados Estrategia de Comparación Resultados y Discusión CONCLUSIONES Y TRABAJO FUTURO
  • 3. 3LACNEM 2015 – JOSE ARRIETA Y CARLOS MERA INTRODUCCIÓN EL PROBLEMA DE CLASES DESBALANCEADAS Se considera que un conjunto de datos de dos clases está desbalanceado cuando el número de muestras de una de las clases (la clase mayoritaria) sobrepasa el número de muestras de la otra (la clase minoritaria). La regla de decisión produce fronteras de decisión sesgadas en favor de la clase mayoritaria. [HG2009] H. He & E.A. Garcia. “Learning from Imbalanced Data” Frontera Real Frontera Sesgada
  • 4. 4LACNEM 2015 – JOSE ARRIETA Y CARLOS MERA INTRODUCCIÓN ALGORITMOS DE BALANCEO DE CLASES EN LA LITERATURA: Métodos base Sub-muestreo y Sobre-muestreo al azar. Métodos de Sub-muestreo Informativos Tomek Links Condensed Nearest Neighbor Rule One-Sided Selection Neighborhood Cleaning Rule Métodos de Sobre-muestreo Informativos Smote Borderline-Smote Adasyn Métodos Ensamblados
  • 5. 5LACNEM 2015 – JOSE ARRIETA Y CARLOS MERA INTRODUCCIÓN APRENDIZAJE DE MÚLTIPLES INSTANCIAS (MIL) No siempre es posible proporcionar datos para entrenamiento completamente etiquetados debido a que: Requiere un esfuerzo humano considerable Requiere pruebas costosas Desacuerdo entre los expertos Objetivo MIL: Aprender de datos débilmente etiquetados, donde cada objeto de entrenamiento (o Bolsa Xi) es representado por un conjunto de vectores de características (o Instancias Xi,j) Concepto a aprender: “Playa” Objetos Segmentados Xi,1 Xi,5 Xi,2 Xi,3 Xi,4 Bolsa Xi
  • 6. 6LACNEM 2015 – JOSE ARRIETA Y CARLOS MERA INTRODUCCIÓN APRENDIZAJE DE MÚLTIPLES INSTANCIAS (MIL) Un conjunto de entrenamiento consiste de una colección de Bolsas Una Bolsa es etiquetada positiva si existe al menos una Instancia positiva en ella Bolsa Negativa (Bi -) Bolsa Positiva (Bi +) Un conjunto de entrenamiento toma la forma B={(B1,y1),…,(Bn,yn)} donde cada Bolsa Bi={xi1, . . . , xini } es un conjunto con ni instancias y con etiqueta yi=+1, para la clase positiva, o yi=-1, para la clase negativa.
  • 7. 7LACNEM 2015 – JOSE ARRIETA Y CARLOS MERA INTRODUCCIÓN EL APRENDIZAJE DE MÚLTIPLES INSTANCIAS (MIL) Los algoritmos MIL pueden ser agrupados en: [Amores2013] Instance Space (IS) (BUSCAR ESSTOO Y ALGORITMOSs) Axis-Parallel Rectangle (APR) [DLL1997] mi-SVM [ATH2003] MIL-Boost [BYB2009] Bag Space (BS) Citation-kNN [WZ2000] Embedded Space (ES) Multiple-Instance Learning via Embedded Instance Selection (MILES) [CBW2006] [Amores2013] J. Amores: “Multiple instance classification: Review, taxonomy and comparative study” [ATH2003] S. Andrews et al.: “Support vector machines for multiple-instance learning” [WZ2000] J. Wang and J. Zucker: “Solving the multiple-instance problem: A lazy learning approach” [BYB2009] B. Babenko et al.: “Visual tracking with online multiple instance learning” La mayoría de los métodos existentes NO consideran directamente el problema de los conjuntos de datos desbalanceados , lo que disminuye el rendimiento normalmente alcanzable por la mayoría de los algoritmos de MIL
  • 8. 8LACNEM 2015 – JOSE ARRIETA Y CARLOS MERA INTRODUCCIÓN EL PROBLEMA DE CLASES DESBALANCEADAS EN MIL A nivel de Instancias: Instancias negativas predominan el conjunto de datos A nivel de Bolsas: Bolsas negativas superan a las positivas En Ambos niveles
  • 9. 9LACNEM 2015 – JOSE ARRIETA Y CARLOS MERA ESTRATEGIA DE COMPARACIÓN MÉTODOS DE MUESTREO USADOS EN MIL SOBRE-MUESTREO: Agregar a cada bolsa el número de instancias sintéticas necesarias para que todas las bolsas tengan el número máximo de instancias (SMOTE al azar) SUB-MUESTREO: 1. Eliminar de cada bolsa tantas instancias al azar, como sea necesario para que cada bolsa tenga el número mínimo de instancias. 2. OSS MIXTO: Sobre-muestreo (SMOTE al azar) + Sub-muestreo (eliminación al azar).
  • 10. 10LACNEM 2015 – JOSE ARRIETA Y CARLOS MERA ESTRATEGIA DE COMPARACIÓN ALGORITMOS MIL USADOS EN LOS EXPERIMENTOS APR con un umbral 𝑡 = 0,1. Citation-kNN con k=3 (denominado C-kNN). mi-SVM con un kernel de base radial y un parámetro de regularización 𝐶 = 10. MILES con un kernel de base radial y un parámetro de regularización 𝐶 = 10. Los resultados obtenidos se resumen en las Tabla 2 y 3, para las métricas AUC y F1, respectivamente.
  • 11. 11LACNEM 2015 – JOSE ARRIETA Y CARLOS MERA EXPERIMENTOS Y RESULTADOS CONJUNTOS DE DATOS USADOS: En la siguiente tabla se detallan los conjuntos de datos utilizados en los experimentos, resaltando el desbalance a nivel de bolsas e instancias. Tabla 1. Conjuntos de Datos de Prueba Conjunto de datos Bolsas + Bolsas - Inst + Inst - Pro Min Max Musk1 47 45 207 269 5 2 40 Musk2 39 63 1017 5581 65 1 1044 Elephant 100 100 762 629 7 2 13 Fox 100 100 647 673 7 2 13 Tiger 100 100 544 676 6 1 13 Muta1 125 63 7790 2696 56 28 88 Muta2 13 29 660 1472 51 26 86 Bird WIWR 109 439 1824 8408 19 2 43 Bird BRCR 197 351 4759 5473 19 2 43 Web1 17 58 488 1724 29 4 131 Web2 18 57 499 1720 30 5 200
  • 12. 12LACNEM 2015 – JOSE ARRIETA Y CARLOS MERA EXPERIMENTOS Y RESULTADOS Conjuntos de datos [Algoritmo] Original Sobre- Muestreo Sub- Muestreo OSS Muestreo Mixto Musk1 [C-kNN] 87,86 43,06 83,47 85,19 70,14 Musk2 [mi-SVM] 73,69 * 75,36 72,39 72,77 Elephant [mi-SVM] 77,84 74,91 78,42 * 76,88 Fox [MILES] 67,56 40,64 64,99 65,69 62,24 Tiger [MILES] 80,02 48,85 73,92 78,88 78,93 Muta1 [mi-SVM] 84,20 79,74 79,98 * 81,64 Muta2 [mi-SVM] 53,28 45,72 51,52 52,97 48,31 Bird WIWR [MILBoost] 84,50 78,78 47,43 33,18 80,45 Bird BRCR [MILBoost] 80,13 71,37 59,40 52,93 79,07 Web1 [mi-SVM] 56,20 36,10 44,07 59,78 51,45 Web2 [mi-SVM] 61,09 30,14 46,50 57,74 56,52 Tabla 2. Resultados para la Métrica F1x100
  • 13. 13LACNEM 2015 – JOSE ARRIETA Y CARLOS MERA EXPERIMENTOS Y RESULTADOS Tabla 3. Resultados para la Métrica AUCx100 Conjuntos de datos [Algoritmo] Original Sobre- Muestreo Sub- Muestreo OSS Muestre Mixto Musk1 [C-kNN] 91,51 49,89 84,37 90,64 61,4 Musk2 [mi-SVM] 91,24 * 91,99 90,69 91,11 Elephant [mi-SVM] 91,76 91,03 90,55 * 91,11 Fox [MILES] 73,72 64,36 68,41 72,39 67,53 Tiger [MILES] 88,62 77,25 82,37 87,35 87,26 Muta1 [mi-SVM] 83,39 67,13 78,71 * 75,72 Muta2 [mi-SVM] 72,49 72,38 66,56 71,98 70,9 Bird WIWR [MILBoost] 92,14 89,70 96,39 41,77 90,09 Bird BRCR [MILBoost] 93,14 89,76 92,54 83,49 91,81 Web1 [mi-SVM] 83,27 80,27 78,49 82,17 82,97 Web2 [mi-SVM] 84,80 80,02 82,39 83,26 85,95
  • 14. 14LACNEM 2015 – JOSE ARRIETA Y CARLOS MERA EXPERIMENTOS Y RESULTADOS DISCUSIÓN DE RESULTADOS: Las siguientes observaciones pueden ser realizadas a partir de los experimentos El sobre-muestreo desempeña siempre inferior en las métricas usadas con respecto al conjunto de datos original, debido a la mayor probabilidad de seleccionar instancias negativas para crear instancias sintéticas , lo cual aumenta la ambigüedad dentro de la bolsa y dificulta la clasificación. Los resultados del sub-muestreo en términos generales no es mejor que la muestra de datos original esto debido a la forma como la realizan los métodos de sub-muestreo, conlleva a una pérdida de información importante para la definición de las fronteras de decisión.
  • 15. 15LACNEM 2015 – JOSE ARRIETA Y CARLOS MERA CONCLUSIONES Y TRABAJO FUTURO Los métodos de muestreo para conjuntos de datos de una sola instancia no pueden ser aplicados directamente a conjuntos de datos MIL ya que afecta negativamente el desempeño del clasificador. Es necesario tener en cuenta la naturaleza ambigua de las bolsas positivas, duplicando las instancias realmente positivas y eliminando las instancias negativas que causen ambigüedad. El trabajo futuro en esta área de investigación, debe estar dirigido a desarrollar métodos de balanceo que tengan en cuenta las particularidades de los conjuntos de datos tipo MIL y los tres tipos de desbalanceo que se pueden presentar en los mismos.
  • 16. 16LACNEM 2015 – JOSE ARRIETA Y CARLOS MERA PREGUNTAS JOSE ARRIETA, CARLOS MERA E-mail: jmarrietar@unal.edu.co GRACIAS!!