Diese Präsentation wurde erfolgreich gemeldet.
Die SlideShare-Präsentation wird heruntergeladen. ×

Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 - 2019

Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Trabajo Fin de Máster
Tipo de trabajo: Piloto Experimental
Presentado por: Acosta-Solano, Jairo
Director/a: Lancheros Cues...
Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos
1
Metodología CRISP-DM para la evaluació...
Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos
2
Metodología CRISP-DM para la evaluació...
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Wird geladen in …3
×

Hier ansehen

1 von 138 Anzeige

Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 - 2019

El presente proyecto tiene como finalidad la evaluación de varios modelos de aprendizaje automático bajo la metodología CRISP-DM con el fin de determinar, a través de sus métricas, el mejor modelo para realizar la predicción del rendimiento de los estudiantes de educación media de la región Caribe colombiana en la prueba Saber 11º, a la vez propone una nueva metodología de evaluación de los resultados de la prueba por regiones con el fin de tener en cuenta las particularidades socioeconómicas de cada una de ellas. Se toma como base la metodología CRISP-DM debido a su madurez, esta metodología permite la extracción de conocimiento del negocio y de los datos, ofrece una guía para la preparación de los datos, el modelado y la validación de los modelos; se espera que la metodología propuesta sea implementada por el Instituto Colombiano para el Fomento de la Educación Superior (ICFES), las secretarías departamentales de educación y las instituciones educativas. Se utilizaron una variedad de técnicas y herramientas para desarrollar los procesos ETL para obtener un conjunto de datos con los atributos más relevantes, con el fin de evaluar cuatro modelos de aprendizaje automático desarrollados con los algoritmos J48 (C4.5), LMT, PART y Multilayer Perceptron; obteniendo que el mejor conjunto de datos y el mejor modelo de aprendizaje se obtiene utilizando el método de selección de atributos InfoGain y el algoritmo de árboles de decisión LMT, respectivamente. El modelo fue puesto a prueba con un nuevo conjunto de datos, obteniendo un error cuadrático medio de 0.25 muy acorde con las métricas de validación del mismo. Por lo tanto, este proyecto facilitará a los actores del Sistema Nacional de Educación la toma de decisiones en beneficio de los estudiantes y la calidad de la educación del país, en especial de la región Caribe.

El presente proyecto tiene como finalidad la evaluación de varios modelos de aprendizaje automático bajo la metodología CRISP-DM con el fin de determinar, a través de sus métricas, el mejor modelo para realizar la predicción del rendimiento de los estudiantes de educación media de la región Caribe colombiana en la prueba Saber 11º, a la vez propone una nueva metodología de evaluación de los resultados de la prueba por regiones con el fin de tener en cuenta las particularidades socioeconómicas de cada una de ellas. Se toma como base la metodología CRISP-DM debido a su madurez, esta metodología permite la extracción de conocimiento del negocio y de los datos, ofrece una guía para la preparación de los datos, el modelado y la validación de los modelos; se espera que la metodología propuesta sea implementada por el Instituto Colombiano para el Fomento de la Educación Superior (ICFES), las secretarías departamentales de educación y las instituciones educativas. Se utilizaron una variedad de técnicas y herramientas para desarrollar los procesos ETL para obtener un conjunto de datos con los atributos más relevantes, con el fin de evaluar cuatro modelos de aprendizaje automático desarrollados con los algoritmos J48 (C4.5), LMT, PART y Multilayer Perceptron; obteniendo que el mejor conjunto de datos y el mejor modelo de aprendizaje se obtiene utilizando el método de selección de atributos InfoGain y el algoritmo de árboles de decisión LMT, respectivamente. El modelo fue puesto a prueba con un nuevo conjunto de datos, obteniendo un error cuadrático medio de 0.25 muy acorde con las métricas de validación del mismo. Por lo tanto, este proyecto facilitará a los actores del Sistema Nacional de Educación la toma de decisiones en beneficio de los estudiantes y la calidad de la educación del país, en especial de la región Caribe.

Anzeige
Anzeige

Weitere Verwandte Inhalte

Ähnlich wie Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 - 2019 (20)

Anzeige

Weitere von Jairo Acosta Solano (20)

Aktuellste (20)

Anzeige

Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 - 2019

  1. 1. Trabajo Fin de Máster Tipo de trabajo: Piloto Experimental Presentado por: Acosta-Solano, Jairo Director/a: Lancheros Cuesta, Diana Janeth Universidad Internacional de La Rioja Escuela Superior de Ingeniería y Tecnología Máster Universitarioen Análisis y Visualización de Datos Masivos Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 - 2019
  2. 2. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos 1 Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 – 2019 Resumen El presente proyecto tiene como finalidad la evaluación de varios modelos de aprendizaje automático bajo la metodología CRISP-DM con el fin de determinar, a través de sus métricas, el mejor modelo para realizar la predicción del rendimiento de los estudiantes de educación media de la región Caribe colombiana en la prueba Saber 11º, a la vez propone una nueva metodología de evaluación de los resultados de la prueba por regiones con el fin de tener en cuenta las particularidades socioeconómicas de cada una de ellas. Se toma como base la metodología CRISP-DM debido a su madurez, esta metodología permite la extracción de conocimiento del negocio y de los datos, ofrece una guía para la preparación de los datos, el modelado y la validación de los modelos; se espera que la metodología propuesta sea implementada por el Instituto Colombiano para el Fomento de la Educación Superior (ICFES), las secretarías departamentales de educación y las instituciones educativas. Se utilizaron una variedad de técnicas y herramientas para desarrollar los procesos ETL para obtener un conjunto de datos con los atributos más relevantes, con el fin de evaluar cuatro modelos de aprendizaje automático desarrollados con los algoritmos J48 (C4.5), LMT, PART y Multilayer Perceptron; obteniendo que el mejor conjunto de datos y el mejor modelo de aprendizaje se obtiene utilizando el método de selección de atributos InfoGain y el algoritmo de árboles de decisión LMT, respectivamente. El modelo fue puesto a prueba con un nuevo conjunto de datos, obteniendo un error cuadrático medio de 0.25 muy acorde con las métricas de validación del mismo. Por lo tanto, este proyecto facilitará a los actores del Sistema Nacional de Educación la toma de decisiones en beneficio de los estudiantes y la calidad de la educación del país, en especial de la región Caribe. Palabras Clave: ICFES, rendimiento, aprendizaje automático, CRISP-DM, Región Caribe colombiana
  3. 3. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos 2 Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 – 2019 Abstract The purpose of this project is to evaluate several machine learning models under the CRISP- DM methodology in order to determine, through its metrics, the best model for predicting the performance of high school students in the Colombian Caribbean region in the Saber 11º test, while proposing a new methodology for evaluating the results of the test by regions in order to take into account the socioeconomic particularities of each one of them. The CRISP-DM methodology is taken as a basis due to its maturity, this methodology allows the extraction of business and data knowledge, offers a guide for data preparation, modeling and validation of the models; it is expected that the proposed methodology will be implemented by the Colombian Institute for the Promotion of Higher Education (ICFES), departmental education secretariats and educational institutions. A variety of techniques and tools were used to develop ETL processes to obtain a data set with the most relevant attributes, in order to evaluate four machine learning models developed with the J48 (C4.5), LMT, PART and Multilayer Perceptron algorithms; obtaining that the best data set and the best learning model is obtained using the InfoGain attribute selection method and the LMT decision tree algorithm, respectively. The model was tested with a new dataset, obtaining a mean square error of 0.25 very much in line with the validation metrics of the model. Therefore, this project will facilitate the actors of the National Education System to make decisions for the benefit of students and the quality of education in the country, especially in the Caribbean region. Keywords: ICFES, performance, machine learnig, CRISP-DM, Colombian Caribbean region
  4. 4. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos 3 Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 – 2019 Índice de contenidos 1 Introducción .......................................................................................................................11 1.1 Justificación................................................................................................................11 1.2 Planteamiento del trabajo ..........................................................................................12 1.3 Estructura de la memoria...........................................................................................13 2 Contexto y estado del arte.................................................................................................15 3 Objetivos concretos y metodología de trabajo..................................................................19 3.1 Objetivo general .........................................................................................................19 3.2 Objetivos específicos .................................................................................................19 3.3 Metodología del trabajo..............................................................................................20 3.3.1 Tipo de Investigación..........................................................................................20 3.3.2 Universo y Muestra.............................................................................................20 3.3.3 Fuentes de información ......................................................................................20 3.3.4 Metodología de desarrollo ..................................................................................20 4 Desarrollo específico de la contribución ...........................................................................23 4.1 Generalidades del examen Saber 11°.......................................................................23 4.1.1 Antecedentes ......................................................................................................23 4.1.2 Áreas de evaluación ...........................................................................................24 4.1.3 Propósitos del examen .......................................................................................26 4.1.4 Competencias evaluadas y niveles de medición en las áreas de la prueba .....27 4.1.5 Índice de necesidades socioeconómicas (INSE)...............................................28 4.1.6 Clasificación de planteles educativos.................................................................29 4.1.7 Becas por el rendimiento en las pruebas Saber 11°..........................................31 4.1.8 Actividades para validación de los modelos de rendimiento en la prueba ........32 4.2 Conjunto de datos de la prueba Saber 11° ...............................................................33 4.2.1 Ingreso al portal DataIcfes..................................................................................33
  5. 5. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos 4 Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 – 2019 4.2.2 Extracción de los datos.......................................................................................35 4.2.3 Descripción del conjunto de datos......................................................................36 4.2.4 Análisis del conjunto de datos ............................................................................40 4.2.5 Calidad de los datos ...........................................................................................56 4.3 Obtención del conjunto de datos para el modelado..................................................58 4.3.1 Eliminación de atributos que no aportan al modelo ...........................................59 4.3.2 Limpieza de los datos .........................................................................................64 4.3.2.1 Limpieza utilizando el lenguaje R................................................................64 4.3.2.2 Formateo de datos en Tableau Prep ..........................................................65 4.3.2.3 Limpieza de datos en WEKA.......................................................................69 4.3.3 Balanceo de clases.............................................................................................73 4.3.4 Selección de atributos.........................................................................................75 4.3.4.1 Selección de atributos en WEKA................................................................75 4.4 Modelos de aprendizaje automático..........................................................................78 4.4.1 Selección de modelos.........................................................................................78 4.4.1.1 Árboles de decisión C4.5 (J48)...................................................................78 4.4.1.2 Árboles de decisión LMT (Logistic Model Trees)........................................79 4.4.1.3 Reglas de decisión PART............................................................................79 4.4.1.4 Multilayer Perceptron (MLP)........................................................................80 4.4.2 Métricas de evaluación de los modelos .............................................................81 4.4.3 Construcción de los modelos..............................................................................84 4.4.3.1 Análisis del conjunto de datos inicial (TOTAL33) .......................................86 4.4.3.2 Análisis del conjunto de datos obtenido por el método de selección de atributos GainRatioAttributeEval (GRAE)......................................................................88 4.4.3.3 Análisis del conjunto de datos obtenido por el método de selección de atributos InfoGainAttributeEval (IGAE)..........................................................................90 4.4.3.4 Análisis del conjunto de datos obtenido por el método de selección de
  6. 6. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos 5 Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 – 2019 atributos OneRAttributeEval (ONERAE) .......................................................................91 4.4.4 Selección del mejor modelo y conjunto de datos...............................................92 4.5 Prueba del modelo seleccionado...............................................................................93 4.5.1 Características del set de datos de prueba........................................................94 4.5.2 Desarrollo de las predicciones en la aplicación WEKA con el conjunto de datos de prueba...........................................................................................................................95 4.5.3 Cálculo del Error Cuadrático Medio (ECM) ........................................................97 5 Conclusiones y trabajo futuro............................................................................................98 5.1 Conclusiones..............................................................................................................98 5.2 Líneas de trabajo futuro ...........................................................................................102 6 Bibliografía .......................................................................................................................103 Anexos ....................................................................................................................................107 Anexo I. Código desarrollado en R para el proceso ETL...................................................107 Anexo II. Cálculo del Error Cuadrático Medio ....................................................................117 Anexo III. Estructura del Logistic Model Tree.....................................................................131 Anexo IV: Código en R y gráfica del árbol generado por el algoritmo rpart ......................132 Anexo V. Reglas de asociación generadas por el algoritmo Apriori ..................................136
  7. 7. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos 6 Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 – 2019 Índice de tablas Tabla 1. Exámenes aplicados por el ICFES ............................................................................23 Tabla 2. Sub áreas de evaluación en el examen Saber 11°....................................................26 Tabla 3. Competencias y niveles de medición de las áreas de conocimiento evaluadas en la prueba .......................................................................................................................................27 Tabla 4. Categorías de establecimientos educativos de acuerdo al Índice Global.................31 Tabla 5. Características del conjunto de datos ........................................................................37 Tabla 6. Descriptivo de las variables numéricas......................................................................56 Tabla 7. Cantidad de instancias con valores NA y vacíos en el conjunto de datos ................57 Tabla 8. Atributos que harán parte del modelo........................................................................60 Tabla 9. Formateo de valores de los atributos.........................................................................66 Tabla 10. Selección de atributos por los métodos GainRatio, InfoGain y OneR ....................77 Tabla 11. Métricas de los modelos en los diferentes conjuntos de datos ...............................86 Tabla 12. Métricas para el conjunto IGAE................................................................................93
  8. 8. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos 7 Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 – 2019 Índice de figuras Figura 1. Fases de la Metodología CRISP-DM........................................................................21 Figura 2. Cuadernillo de respuestas de la prueba Saber 11°..................................................25 Figura 3. Intervalos numéricos para el Índice de necesidades socioeconómicas ..................29 Figura 4. Descriptores socioeconómicos .................................................................................29 Figura 5. Página del portal de las bases de datos DataIcfes ..................................................34 Figura 6. Árbol de directorios en DataIcfes de la prueba Saber 11° .......................................35 Figura 7. Datos cargados en Power BI Desktop......................................................................36 Figura 8. Promedio nacional de los percentiles de las áreas evaluadas ................................40 Figura 9. Promedio Región Caribe de los percentiles de las áreas evaluadas.......................41 Figura 10. Cantidad de instituciones educativas por naturaleza .............................................41 Figura 11. Cantidad de instituciones educativas por su naturaleza ........................................42 Figura 12. Percentiles promedio en las áreas de Lectura Crítica, Matemáticas, Ciencias Naturales y Ciencias Sociales y Ciudadanas...........................................................................43 Figura 13. Percentiles promedio en el área de Inglés y rendimiento global............................44 Figura 14. Promedio del rendimiento por naturaleza de las instituciones educativas ............44 Figura 15. Línea de tiempo del rendimiento por la naturaleza de la institución educativa .....45 Figura 16. Rendimiento promedio por área de ubicación de las instituciones educativas .....45 Figura 17. Rendimiento promedio de acuerdo al enfoque de género de las instituciones educativas .................................................................................................................................46 Figura 18. Número de instituciones educativas por jornada....................................................47 Figura 19. Rendimiento promedio por jornada académica......................................................47 Figura 20. Rendimiento promedio por estrato socioeconómico de la vivienda .......................48 Figura 21. Rendimiento promedio de acuerdo al nivel socioeconómico de los evaluados ....49 Figura 22. Rendimiento en la prueba en función de la edad ...................................................49 Figura 23. Rendimiento promedio y uso diario de internet en horas .......................................50
  9. 9. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos 8 Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 – 2019 Figura 24. Promedio de calificaciones de los evaluados de acuerdo al país de residencia ...50 Figura 25. Promedio de calificaciones de la región Caribe .....................................................51 Figura 26. Distribución de los percentiles de las áreas de Lectura Crítica y Matemáticas.....52 Figura 27. Distribución de los percentiles de las áreas de Ciencias Naturales y Ciencias Sociales y Ciudadanas .............................................................................................................53 Figura 28. Distribución de los percentiles de las áreas de Inglés y el Global de las áreas evaluadas..................................................................................................................................54 Figura 29. Distribución de la variable EDAD por departamentos ............................................55 Figura 30. Flujo de datos en Tableau Prep..............................................................................66 Figura 31. Conjunto de datos convertido a formato ARFF ......................................................70 Figura 32. Flujo de filtros para eliminar valores atípicos y extremos de la variable EDAD.....71 Figura 33. Atributos creados por el filtro InterquartileRange para eliminar los valores atípicos y extremos.................................................................................................................................72 Figura 34. Resultado de la categorización del atributo edad en tres rangos ..........................72 Figura 35. Distribución original de las clases...........................................................................74 Figura 36. Distribución de las clases después de aplicar el filtro SMOTE ..............................74 Figura 37. Distribución de las clases después del filtro SpreadSubsample............................75 Figura 38. Estructura de un árbol de decisión .........................................................................79 Figura 39. Estructura general de una red neuronal con capas ocultas...................................80 Figura 40. Matriz de confusión .................................................................................................81 Figura 41. Curva ROC y AUC...................................................................................................84 Figura 42. Flujo de conocimiento aplicado a los conjuntos de datos ......................................85 Figura 43. Visualización de las métricas de los algoritmos aplicados al conjunto de datos TOTAL33...................................................................................................................................88 Figura 44. Visualización de las métricas de los algoritmos aplicados al conjunto de datos GRAE ........................................................................................................................................89 Figura 45. Visualización de las métricas de los algoritmos aplicados al conjunto de datos GRAE ........................................................................................................................................90
  10. 10. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos 9 Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 – 2019 Figura 46. Visualización de las métricas de los algoritmos aplicados al conjunto de datos GRAE ........................................................................................................................................91 Figura 47. Curvas ROC y valor de AUC para los algoritmos aplicados al conjunto de datos IGAE..........................................................................................................................................92 Figura 48. Estrato familiar del conjunto de test........................................................................94 Figura 49. Nivel de educación de los padres ...........................................................................95 Figura 50. Resultado de las predicciones en WEKA...............................................................96
  11. 11. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos 10 Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 – 2019 Índice de ecuaciones Ecuación 1. Cálculo Índice General .........................................................................................30 Ecuación 2. Cálculo del índice por área...................................................................................30 Ecuación 3. Fórmula para obtención de valores atípicos v. 1 .................................................70 Ecuación 4. Fórmula para obtención valores atípicos v. 2 ......................................................70 Ecuación 5. Fórmula para valores extremos v. 1.....................................................................71 Ecuación 6. Fórmula para valores extremos v. 2.....................................................................71 Ecuación 7. Selección de atributos por Ratio de Ganancia.....................................................76 Ecuación 8. Selección de atributos por Ganancia de Información ..........................................76 Ecuación 9. Precisión...............................................................................................................82 Ecuación 10. Exhaustividad (Recall) ........................................................................................82 Ecuación 11. F1 o F-Meassure ................................................................................................82 Ecuación 12. Exactitud (Accuracy)...........................................................................................82 Ecuación 13. Tasa de error ......................................................................................................83 Ecuación 14. Área bajo la curva (AUC)....................................................................................83 Ecuación 15. Especificidad.......................................................................................................83 Ecuación 16. Fórmula del Error Cuadrático Medio ..................................................................93 Ecuación 17. Cálculo del Error Cuadrático Medio para datos de prueba ...............................97
  12. 12. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos 11 Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 – 2019 1 Introducción El desarrollo de un país depende de las acciones y decisiones que se toman en concordancia con el desarrollo de sus habitantes, estos aspectos se relacionan con los objetivos de desarrollo sostenible (ODS) promulgados en las Naciones Unidas. Este proyecto busca determinar un modelo predictivo para uno de estos objetivos, la educación de calidad, en el ciclo de la educación básica secundaria en la región Caribe colombiana; sin embargo, alcanzar este ODS va a depender del desarrollo y el avance alcanzado en otros, tales como los relacionados con el fin de la pobreza, el hambre cero, la salud y el bienestar, el trabajo decente, y el crecimiento económico (López, 2020). Este trabajo de fin de máster tiene como insumo principal los resultados de la prueba Saber 11° del trienio 2017 - 2019 con el fin de determinar el mejor modelo para predecir el desempeño de los estudiantes, haciendo uso de los mejores atributos del conjunto de datos, varios de los cuales presentan una estrecha relación con los objetivos de desarrollo sostenible. 1.1 Justificación El estado colombiano, con la finalidad de establecer patrones de medición de las competencias desarrolladas por los estudiantes del país durante sus diferentes etapas académicas, reglamenta la Prueba Saber, a cargo del Instituto Colombiano para el Fomento de la Educación Superior (ICFES), como un instrumento para medir la calidad de la educación en el país. Este instituto se encarga de evaluar la calidad de la educación en todos los niveles educativos, teniendo como insumo las bases de datos de las pruebas desarrolladas por los estudiantes con el fin de apoyar el establecimiento de políticas para mejorar el sistema educativo (ICFES, 2019a). Sin embargo, la mayoría de las instituciones educativas de la Región Caribe no cuentan con modelos predictivos que permitan tomar acciones tempranas, de acuerdo a la caracterización de los atributos socioeconómicos, institucionales y académicos de los estudiantes de la región; gran parte de los análisis se realizan basados en análisis descriptivos de los resultados más de la prueba, las instituciones interesadas, por lo general, no desarrollan modelos de aprendizaje automático para determinar la incidencia que tienen los factores mencionados anteriormente, tampoco construyen modelos de aprendizaje automático para la predicción del rendimiento de los estudiantes y estimar los niveles de desempeño en la prueba. Ante esta situación solo existe un acercamiento realizado por
  13. 13. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos 12 Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 – 2019 Timarán-Pereira, Caicedo-Zambrano e Hidalgo-Troya (2019), en donde desarrollan un modelo basado en árboles de decisión para clasificar a los estudiantes por encima o por debajo de la media nacional en los exámenes Saber 11 del año 2016, este estudio no realiza ninguna comparativa de modelos y no clasificalas instancias de acuerdo a las medidas de desempeño utilizadas por el ICFES. Entre las funciones del ICFES no se encuentra la de suministrar a las instituciones educativas modelos predictivos para la toma temprana de decisiones tendientes a mejorar el desempeño de los estudiantes, antes de presentar la prueba, de hecho, el último informe publicado en el año 2018 no evidencia ningún esfuerzo en este sentido y solo se limita a mostrar las estadísticas descriptivas y comparativas con los resultados del examen Saber 11 del 2016 y 2017 (ICFES, 2019c). La labor de inducción de los datos suministrados por el ICFES, queda a cargo de las instituciones educativas de básica secundaria y de las instituciones de educación superior, donde los estudiantes continuaran con sus estudios técnicos, tecnológicos o profesionales; pero hasta la fecha no se tienen evidencias de alguna institución educativa que desarrolle este proceso para identificar debilidades, fortalezas o acciones de intervención con los estudiantes que estarían próximos a presentar el examen. Para las instituciones educativas de básica secundaria e instituciones universitarias, contar con un modelo que permita desarrollar predicciones del rendimiento de los estudiantes, facilitaría establecer acciones de intervención temprana o de seguimiento con el fin de mejorar los aspectos que puedan tener incidencia en el rendimiento. Las instituciones de educación superior pueden establecer con estos modelos una serie de reglas para sus programas de acompañamiento a la permanencia y retención estudiantil con el fin de determinar aquellos estudiantes que puedan presentar problemas de rendimiento académico durante los primeros semestres. 1.2 Planteamiento del trabajo Los atributos que pueden tener incidencia en el rendimiento de los estudiantes pueden ser muy variados, algunos seescapan del resorte de las instituciones educativas porque entrarían en el área de las acciones que deben realizar el estado y los propios individuos con miras a su desarrollo, no obstante, es importante que se puedan identificar aquellos factores en los que las instituciones puedan establecer tareas de intervención con el fin de mejorar y lograr un incremento en el deseo del logro académico, aspecto que puede despejar el futuro profesional de los individuos.
  14. 14. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos 13 Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 – 2019 Ante este panorama se propone identificar, a través del uso del aprendizaje automático, el mejor modelo que permita identificar aquellos atributos que influyen en el desempeño de la prueba Saber 11° (clase), con el fin de poder utilizarlo para individualizar aquellos sujetos que requieran una intervención temprana o posterior y así disponer de una herramienta para mejorar el desempeño de estos en la prueba o en los niveles posteriores de educación superior técnica, tecnológica o profesional. Se hace necesario pues, entender el contexto general de la prueba y la necesidad de medir la calidad de la educación a través de sus indicadores de desempeño, comprender los diferentes atributos de los datos disponibles del examen en la región Caribe, realizar el adecuado proceso de selección de los atributos que van a ser tenidos en cuenta para la fase de modelado, aplicar los modelos de aprendizaje supervisado J48 (C4.5), LMT, PART y Multilayer Perceptron con el fin de evaluar cuál realiza una mejor predicción a través de los mejores atributos socioeconómicos identificados en este proyecto. 1.3 Estructura de la memoria La presente memoria estará estructurada en las siguientes secciones: La sección 2 presenta el Contexto y estado del arte hace una revisión de diferentes investigaciones y trabajos relacionados con el rendimiento de los estudiantes en pruebas nacionales con referencia a variables como la edad, el sexo, las áreas evaluadas, y otros aspectos relevantes, desde una óptica general para llegar a contribuciones más relacionadas con el presente proyecto. En la sección 3 se enumeran y desarrollan los Objetivos concretos y metodología de trabajo basada en CRISP-DM con la que se pretende entender el negocio y los datos, preparar, modelar y evaluar los datos a través de los diferentes algoritmos de aprendizaje automático desarrollados. En la sección 4 se realiza el Desarrollo específico de la contribución se desarrollan ordenadamente los objetivos establecidos bajo la metodología CRISP-DM, se despliegan los procesos ETL necesarios para contar con un conjunto de datos adecuado que nos permita desarrollar el entrenamiento, la validación y prueba de los modelos con el fin de seleccionar el mejor de acuerdo a los resultados obtenidos. La sección 5 presenta las Conclusiones y Líneas de Trabajo Futuro con el fin de mostrar
  15. 15. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos 14 Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 – 2019 los principales aportes del proyecto y la forma en que este puede ser referente para adelantar otros proyectos de investigación.
  16. 16. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos 15 Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 – 2019 2 Contexto y estado del arte Con el fin de verificar que aspectos pueden tener incidencia en el rendimiento académico de los estudiantes de educación básica secundaria sehan encontrado que ciertas características, del individuo, del núcleo familiar, el sexo y la edad, son determinantes para el desempeño en la prueba Saber 11° (Gaviria y Barrientos, 2001; Velasco Rodríguez, 2014). La edad influye en el rendimiento de la prueba de forma inversamente proporcional lo que implica que las puntuaciones tienden a disminuir a mayor edad de los evaluados, así mismo es determinante el sexo del estudiante que presenta la prueba, encontrándose diferencias significativas en el rendimiento de hombres y mujeres. El informe de Gaviria & Barrientos (2001) va mucho más allá de las variables mostradas anteriormente, encuentra evidencia de que el calendario académico, en Colombia se manejan los calendarios A y B1 , de las instituciones educativas y la naturaleza de las mismas, no tiene incidencia en el rendimiento de los estudiantes, pero, como era previsible las condiciones académicas y de infraestructura de los colegios privados y de calendario B tienen una incidencia significativa en aquellos estudiantes que tienen los mejores rendimientos en la prueba. Becerra-González y Reidl Martínez (2015), estiman que el sexo de los estudiantes puede determinar diferencias en el factor de estabilidad ante los aspectos negativos del entorno escolar y social, los sujetos del género masculino cree que este aspecto afectará su vida futura; en cuanto al factor edad se encuentra que a mayor edad existe un mayor control en el aspecto académicoy las evaluaciones negativas; el nivel académicode la figura paterna tiene relación con las variables de rendimiento de los estudiantes, a mayor nivel de escolaridad del padre los factores de rendimiento escolar se incrementa al motivar el alcance de logros por parte de sus hijos, especialmente cuando el padre tiene estudios de posgrado. Este estudio concluye que no encuentra relación entre el rendimiento de los estudiantes con las variables sociodemográficas consideradas en los instrumentos, sin embargo, si encuentra relación con las variables motivacionales de la atribución académica, el logro en la escuela y la eficacia propia en los aspectos académicos. Gabalán-Coello y Vásquez-Rizo (2016) correlacionan el desempeño en las áreas de matemáticas y lenguaje, en una institución universitaria, con el Examen Saber 11°, y el 1 El calendario A inicia actividades escolares en el mes de febrero y el calendario B inicia jornada en el mes de septiembre.
  17. 17. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos 16 Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 – 2019 desempeño de asignaturas de diferentes facultades donde son relevantes los componentes de abstracción y competencias comunicativas; y encuentran que no hay evidencia estadística que sugiera la existencia de una asociación entre la puntuación de la prueba Saber 11°, aplicable a los sujetos de estudio, y el rendimiento posterior en las materias relacionadas con estás áreas específicas. En cuanto al rendimiento en la prueba Saber 11° por regiones, se ha encontrado que las diferencias por región han aumentado en los últimos dos decenios y la región Caribe ha disminuido su desempeño con respecto a los de la ciudad de Bogotá, que es la de mejor desempeño promedio en Colombia, ocasionando por esto un mejor ejercicio en la región Andina, esto implica que los estudiantes ubicados en el centro del país tienen cada día mejor desempeño en la prueba que los ubicados en la periferia de la nación (Rocay Granger, 2019). El trabajo de grado de maestría de Palacios (2019), evidencia diferencias significativas en la educación pública y privada, al igual entre los sujetos de evaluación que se encuentran en poblaciones rurales o urbanas, encontrando que el mejor desempeño en el examen Saber 11° se da en las zonas urbanas y en los estudiantes que pertenecen a instituciones educativas privadas, establece conclusiones muy similares a la investigación realizada por Roca y Granger en cuanto al rendimiento por regiones, es de anotar que este estudio utiliza el análisis multivariante a través de las técnicas de análisis factorial exploratorio (AFE) y confirmatorio (AFC), aplicada a la base de datos de resultados nacionales del Instituto de Fomento de la Educación Superior (ICFES) de las pruebas Saber 11°. Ante este panorama donde se evidencia la complejidad de tratar de determinar el rendimiento de los estudiantes, existen varias aproximaciones desde el punto de vista de la inteligencia artificial para la predicción del rendimiento en las pruebas que miden la calidad de la educación recibida. Hamsa, Indiradevi y Kizhakkethottam (2016) desarrollan un modelo de predicción del rendimiento utilizando los algoritmos de árboles de decisión y algoritmos genéticos difusos (fuzzy genetic), teniendo como sujetos a estudiantes del grado y la maestría de Ciencia de los Computadores, Electrónica y Comunicaciones, con el fin de tratar de predecir su rendimiento en los exámenes finales, para esto establecieron dos clases para la aplicación de los algoritmos de aprendizaje supervisado: aprobado y en riesgo; la aplicación del algoritmo de árboles de decisión predice una mayor cantidad de instancias “en riesgo” académico que aquellos que superan la prueba, el algoritmo genético difuso arroja un resultado contrario porque tiene en cuenta el estado de seguridad mental del estudiante ante los exámenes lo que hace que la clase con mayor número de instancia clasificadas sea la de “aprobado”.
  18. 18. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos 17 Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 – 2019 Otra investigación tendiente a determinar un modelo de predicción del rendimiento en pruebas de evaluación, específicamente en el examen final de estudios profesionales bajo la modalidad e-learning, y la aprobación o no (clase)de las asignaturas impartidas en un periodo específico, desarrolla siete algoritmos de aprendizaje automático (Random Forest, Support Vector Regression, BayesianRidge, Stochastic Gradient Descent, Gaussian Process Regressor, Decision Tree Regressor y Multi-Layer Perceptron), aplicados a tres variantes del conjunto de datos, se concluye que existe un mejor desempeño en general de los algoritmos cuando se tienen en cuenta los atributos demográficos y se aplica el algoritmo Support Vector Regression (Song et al., 2020). En cuanto al modelado, utilizando datos desbalanceados de un atributo determinante como lo es el sexo de los participantes, Sapiezynski, Kassarnig, Wilson, Lehmann, y Mislove (2017), desarrollan un modelo de predicción utilizando el algoritmo Naive Bayes, con presencia escasa de sujetos del sexo femenino, razón por la cual aplican una validación cruzada del modelo con solo tres iteraciones para disminuir el bias o sesgo del modelo en cuanto al atributo del sexo biológico, mejorando la probabilidad de tener, en los datos de entrenamiento y validación, la presencia de ambos sexos. Los investigadores se valieron de un conjunto de datos de seguimiento de más de ochocientos individuos con atributos que dan cuenta de comportamientos y características individuales, el uso de redes para el relacionamiento del grupo de estudiantes y su rendimiento académico a través de tres clases (bajo, medio y alto). Encontraron que al reducir las iteraciones necesarias en la validación obtenían valores de AUC de 0.84 y ROC de 0.67, que puede llevar a concluir que el modelo puede discriminar entre las clases positivas y negativas en la variable del sexo biológico, dejando en evidencia que esta estrategia no se puede generalizar para otros conjuntos de datos. La curva ROC evidencia cómo se comporta el modelo en los umbrales de clasificación determinados por la tasa de verdaderos positivos y la tasa de falsos positivos, la curva AUC en realidad lo que muestra es el área bajo la curva ROC que indica la probabilidad de que las predicciones sean correctas, por lo tanto, un valor de una unidad indicaría que el modelo realiza correctamente el 100% de las predicciones (Google Developers, s. f.-a). En el ámbito nacional, Timaran-Pereira, Caicedo-Zambrano e Hidalgo-Troya (2019) desarrollan un modelo de predicción para el rendimiento de los estudiantes en la prueba Saber 11° utilizando como referencia los resultados de las exámenes realizados en 2015 y 2016, utilizan algunos de los atributos del conjunto de datos suministrado por el ICFES, desarrollando una clasificación entre aquellos estudiantes que estaban por encima o por
  19. 19. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos 18 Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 – 2019 debajo de la media nacional. Para esto utilizaron únicamente el algoritmo de árboles de decisión como técnica de aprendizaje automático con una exactitud del 67% en la predicción del rendimiento en la prueba, utilizando una validación cruzada del modelo. Los atributos con mayor ganancia de información, determinantes en el buen desempeño en la prueba, tienen que ver con los atributos relacionados con el estrato socioeconómico superior o de nivel medio, el tipo de jornada matutina o extendida en que se desarrollan las clases, el índice TIC medio-bajo y las edades inferiores a los dieciocho años; en el caso del bajo rendimiento, los atributos que tienen una ganancia de información mayor son los que tienen que ver con los estratos socioeconómico y el índice TIC en los rangos bajos y el nivel 1 de clasificación en el Sistema de Selección de Beneficiarios para los Programas Sociales (SISBEN). Este estudio no tuvo en cuenta la forma como el ICFES clasifica los rendimientos de los estudiantes, las diferencias regionales, y no desarrolló el entrenamiento y validación con otros algoritmos de aprendizaje automático, este modelo desarrollado puede verse afectado por el alto rendimiento promedio de la región andina. Estos antecedentes van a permitir establecer la relevancia de los atributos del conjunto de datos de la prueba Saber 11° del trienio 2017 - 2019, se evidencia que se deben tener en cuenta varios atributos sociodemográficos comola edad, el sexo, el estrato, el nivel de estudio de los padres, etc. Además, las aproximaciones realizadas a nivel nacional pueden verse influenciadas por el rendimiento en la prueba en las otras regiones del país, especialmente de la región andina, esto evidencia que es mejor trabajar con modelos regionales de predicción del rendimiento de los estudiantes debido a la similitud en las condiciones socioeconómicas.
  20. 20. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos 19 Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 – 2019 3 Objetivos concretos y metodología de trabajo 3.1 Objetivo general Desarrollar la evaluación de cuatro modelos de aprendizaje automático del rendimiento de los estudiantes de la región Caribe colombiana con base a los resultados de la prueba Saber 11° del trienio 2017 – 2019, utilizando la metodología CRISP-DM con el fin de disponer de una herramienta para la predicción temprana del desempeño de los evaluados. 3.2 Objetivos específicos  Determinar las particularidades de la prueba Saber 11° con el fin de evidenciar las características más importantes del examen y elaborar un plan para el tratamiento de los datos.  Analizar el conjunto de datos suministrado por el ICFES de la prueba Saber 11° del trienio 2017 - 2019 de tal forma que se determinen la calidad de los datos, la necesidad de procesos ETL y conocer los metadatos de los atributos.  Establecer que atributos se van a tener en cuenta en los modelos de predicción con el fin de realizar los procesos de extracción, transformación y limpieza que sean indispensables.  Desarrollar el proceso de modelado utilizando las técnicas de aprendizaje automático de árboles de decisión J48, LMT, reglas de decisión PART y redes neuronales (Multilayer Perceptron).  Evaluar el rendimiento de los modelos de predicción del desempeño de los estudiantes con la finalidad de determinar aquel o aquellos que tengan las mejores métricas de desempeño.
  21. 21. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos 20 Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 – 2019 3.3 Metodología del trabajo 3.3.1 Tipo de Investigación Esta investigación es de tipo mixto y transversal, donde se van a determinar las características y cualidades relacionadas con la prueba Saber 11º, utilizando procesos de inducción propios de los algoritmos de aprendizaje automático, los datos se van a caracterizancuantitativamente y en consecuencia se utiliza el enfoque exploratorio propio de la metodología CRISP-DM. 3.3.2 Universo y Muestra El universo de la investigación son los datos suministrados por el ICFES de los resultados de la prueba Saber 11° de los estudiantes colombianos. La muestra está conformada por los datos de los resultados de los estudiantes de la región Caribe correspondientes a los años 2017 a 2019, que superan el proceso de extracción, transformación y limpieza (ETL). 3.3.3 Fuentes de información Fuentes primarias: conjunto de datos y demás documentos que se encuentran disponibles en las bases de datos del ICFES relativos a la prueba Saber 11°, tales como guías de orientación, diccionario de datos, descriptores y documentación en general. Fuentes secundarias: información científica y técnica relacionada con la prueba o los atributos de estas, artículos de prensa, información del Ministerio de Educación Nacional de Colombia y del Instituto Colombiano para la Evaluación de la Educación Superior, manuales de las herramientas que se van a utilizar para desarrollar los diferentes procesos necesarios para el desarrollo de la metodología CRISP-DM, etc. 3.3.4 Metodología de desarrollo Este proyecto se desarrollará haciendo uso de la metodología CRISP-DM (Cross Industry Process Model for Data Mining) que sigue un enfoque orientado a metas, es un enfoque maduro que sigue teniendo mucha aceptación en los proyectos de minería de datos a través de algoritmos de aprendizaje automático (Ayele, 2020). Esta metodología provee un enfoque de ciclo de vida en proyectos aplicados de inteligencia artificial (Wirth y Hipp, 2000) y se considera como la metodología ideal para el proceso de descubrimiento de conocimiento en
  22. 22. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos 21 Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 – 2019 bases de datos (KDD) (Martinez-Plumed et al., 2019). En la figura 1 se pueden ver las diferentes fases de la metodología y la relación que hay entre ellas, obviando la fase final de implementación que no va a ser desarrollada en este proyecto. Figura 1. Fases de la Metodología CRISP-DM Fuente: Elaboración propia, adaptado de Wirth & Hipp (2000) Las fases de la metodología tienen las siguientes características (Gironés-Roig, Casas-Roma, Minguillón-Alfonso, y Caihuelas-Quiles, 2017):  FASE I. Entenderelnegocio: sedebe concretarcuáles son los objetivos del proceso de análisis de datos desde el punto de vista de su utilidad para el negocio. Es importante conocer el punto de partida situacional respecto a estos objetivos con el fin de reconocer los recursos con los que se cuenta, los requisitos y límites. Este análisis previo permitirá determinar las actividades que se deben desarrollar para el alcance de los objetivos del proyecto de análisis de datos.  FASE II. Entender los datos: en esta fase es necesario familiarizarse con los datos, con su estructura, conocer los metadatos, que problemas pueden tener y la forma de mitigar estos inconvenientes. Esta fase determina la calidad de los datos con que contamos para las posteriores fases, por lo tanto, en se deben extraer los datos,
  23. 23. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos 22 Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 – 2019 caracterizarlos y explorarlos para determinar las no conformidades y la forma de solucionarlas.  FASE III. Preparar los datos: en esta fase se debe construir el conjunto de datos definitivo que va a ser utilizado en las siguientes etapas de la metodología CRISP- DM, se deben identificar los atributos que son relevantes para cumplir los objetivos del proyecto, de ser necesario se puede contemplar en esta fase usar técnicas de muestreo y de selección de atributos.  FASE IV. Modelar:al finalizar esta fase hay que identificar uno o varios modelos que satisfagan los objetivos que se han establecido para el negocio, para esto se deben aplicar varios algoritmos de aprendizaje automático, supervisados o no supervisados, con el fin de escoger el o los algoritmos que tengan el mejor desempeño en la clasificación, asociación o agrupamiento de los datos. En esta fase se pueden utilizar diferentes algoritmos que conlleven al mismo fin de análisis.  FASE V. Evaluar: se valora en qué grado el modelado responde o no a las necesidades plasmadas en la fase I, determinando si el modelo es eficiente o ineficiente. Es también una etapa de descubrimientos donde se evidencia que otros elementos del proceso permiten alcanzar las metas del negocio o ameritan ser resaltadas para un desarrollo futuro más amplio.
  24. 24. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos 23 Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 – 2019 4 Desarrollo específico de la contribución 4.1 Generalidades del examen Saber 11° El gobierno de Colombia a través del Instituto Colombiano para la Evaluación de la Educación Superior (ICFES) se encarga de determinar los factores que tienen incidencia en la calidad de la educación en todos los diferentes grados: primaria, secundaria, media y superior. La siguiente tabla muestra los diferentes tipos de exámenes que desarrolla el ICFES en cada nivel educativo con el fin de hacer vigilancia de la calidad de la educación y de las instituciones educativas. Tabla 1. Exámenes aplicados por el ICFES PRIMARIA Y SECUNDARIA MEDIA SUPERIOR Saber 3°, 5° y 9° Avancemos 4°, 6° y 8° Presaber Saber 11° Validación del bachillerato Saber T y T Saber Pro Saber T y T y Saber Pro en el exterior Fuente: Elaboración propia con información del portal del ICFES (ICFES, s. f.). Otra función del ICFES, además de aplicar la prueba y consolidar los datos, es hacerlos públicos para que los actores del proceso educativo los puedan someter a análisis con los propósitos que cada quien estime conveniente en beneficio de la educación y del entorno de los estudiantes colombianos, al igual que son insumos para reevaluar la infraestructura educativa y los procesos de enseñanza-aprendizaje. El ICFES además de consolidar la información estadística de la prueba, también se encarga de informar a los estudiantes los resultados consolidados y discriminados por área de conocimiento, además de comunicar al sistema educativo las categorías de las instituciones de acuerdo al rendimiento de los evaluados en la prueba. 4.1.1 Antecedentes La prueba se aplica de forma semestral, por lo general en los meses de marzo y agosto, con la finalidad de que los estudiantes de los calendarios A y B puedan desarrollar sus exámenes al culminar sus estudios de educación media. Sus resultados, junto con la información que entregan los estudiantes y las instituciones educativas de las que proceden, permiten vigilar
  25. 25. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos 24 Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 – 2019 la calidad de la educación ofrecida por las instituciones y tener información que puede ser valiosa para el ciclo posterior de educación superior. A esta prueba se pueden presentar los estudiantes activos en grado 11 de educación media, estudiantes que se encuentran validando el bachillerato e individuos que hayan obtenido anteriormente su título de bachiller pero que necesiten obtener o mejorar los resultados en las pruebas. Inicialmente, en el año 1968, la prueba se desarrollaba para apoyar los procesos de ingreso a la educación superior, pero no era requisito para ingresar a los diferentes programas ofrecidos por las instituciones de educación superior. A partir del año 1980, presentar los resultados de la prueba se vuelve obligatorio para ingresar a la educación superior técnica, tecnológica o profesional, se convierte en un referente de la calidad de la educación por el Decreto 2343 de 1980 que reglamenta los exámenes de estado para el ingreso a la educación superior. Cuando se comienza a implementar la educación basada en competencias en el año 2000, el examen se adapta a este paradigma y pretende medir el grado en que los estudiantes alcanzan las competencias en las áreas que son evaluadas. El Ministerio de Educación Nacional es el ente encargado de desarrollar los estándares básicos de competencias que sirven como base para que el ICFES realice la labor de diseño del examen. En la segunda parte del año 2014, con la intención de consolidar un Sistema Nacional de Evaluación Estandarizada (SNEE), el diseño de las pruebas Saber se homogeniza con el fin de poder comparar el avance en las competencias genéricas evaluadas en las diferentes áreas de las pruebas Saber aplicadas en todos los niveles de educación. 4.1.2 Áreas de evaluación La prueba se conforma por preguntas cerradas que deben ser diligenciadas por los evaluados en una hoja de respuesta utilizando exclusivamente lápiz de grafito, además no se pueden usar calculadoras en su desarrollo. En la figura 2 se puede ver un ejemplo de una hoja de respuestas de la prueba y un acercamiento a los ítems de respuesta de la prueba, las opciones de rellenado se distribuyen en columnas con filas numeradas y la respectiva identificación de la sesión que se está evaluando, en la parte inferior se encuentra el cuestionario socioeconómico que hace parte de la mayoría de los atributos del conjunto de datos. Por lo general, en el primer semestre se evalúa a los estudiantes de calendario “B”, el grupo menos numeroso, y en el segundo semestre los de calendario “A”, a los que pertenecen la
  26. 26. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos 25 Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 – 2019 gran mayoría de los estudiantes de grado 11. En la tabla 2 se puede ver la evolución de las áreas evaluadas en la prueba, en especial los cambios que tuvieron lugar después de la implementación del SNEE en el año 2014, se puede distinguir las diferentes sub áreas que se evalúan y la evolución que han tenido en el tiempo. Se evidencia que a partir del segundo semestre del año 2014 las sub áreas de Lenguaje y Filosofía se fusiona en la sub área de Lectura Crítica, la de Matemáticas se complementa con ítems que buscan medir las competencias en razonamiento cuantitativo, las sub áreas de Física, Química y Biología se fusionan en una de Ciencias Naturales, las de Historia y Geografía primero se fusionan como Ciencias Sociales y en el 2014 se adicionan las competencias ciudadanas, y por último la segunda lengua evaluada a partir del 2006 es exclusivamente el idioma inglés (MEN, 2017). Figura 2. Cuadernillo de respuestas de la prueba Saber 11° Fuente: Guía de orientación Saber 11° (ICFES, 2019a)
  27. 27. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos 26 Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 – 2019 Tabla 2. Sub áreas de evaluación en el examen Saber 11° 2000 1S – 2005 2S 2006 1S – 2014 1S 2014 2S – Actualidad Lenguaje Filosofía Lenguaje Filosofía Lectura crítica Matemáticas Matemáticas Matemáticas (incluyendo Razonamiento Cuantitativo) Física Química Biología Física Química Biología Ciencias Naturales Historia Ciencias Sociales Sociales y Ciudadanas Geografía Idioma Inglés Inglés Fuente: Guía del Usuario Saber 11° (ICFES, 2018) 4.1.3 Propósitos del examen A través de su evolución en el tiempo el examen ha tenido varios fines u objetivos, entre los cuales podemos mencionar (ICFES, 2019b):  Determinar el alcance de las competencias de los discentes que van a finalizar su bachillerato.  Brindar una herramienta que permita a los examinados verificar su avance con respecto a sus aspiraciones en la vida.  Servir como base a las instituciones educativas para desarrollar planes de acompañamiento en educación superior, desempeños mínimos en la prueba para aspirar cupos en su oferta profesional y establecer acciones que puedan evitar la deserción temprana.  Medir la calidad de la educación en las instituciones de educación media de acuerdo a los patrones de aptitud y referentes de calidad del Ministerio de Educación Nacional.  Ofrecer los datos para que sirvan en la implementación de indicadores de eficiencia en el servicio educativo que pueda interesar como base para el control estatal y ciudadano de la calidad de la educación.  Permitir que las instituciones educativas usen los datos para desarrollar procesos de autoevaluación que permitan mejorar y orientar sus procesos de enseñanza- aprendizaje.  Servir como base para el establecimiento de políticas públicas a nivel nacional, regional y local por parte de las entidades que propenden por el servicio educativo.
  28. 28. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos 27 Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 – 2019 4.1.4 Competencias evaluadas y niveles de mediciónen las áreasde la prueba La tabla 3 muestra las competencias evaluadas y los niveles de medición en cada área del conocimiento que se evalúa en la prueba Saber 11°: Tabla 3. Competencias y niveles de medición de las áreas de conocimiento evaluadas en la prueba ÁREA COMPETENCIAS EVALUADAS NIVELES DE MEDICIÓN Lectura crítica  Identificar y entender los contenidos locales que conforman un texto.  Comprender como se articulan las partes de un texto para darle un sentido global.  Reflexionar a partir de un texto y evaluar su contenido. Nominal ordinal (basado en percentiles)  0 – 40: Insuficiente  41 – 68: Mínimo  69 – 80: Satisfactorio  81 – 100: Avanzado Matemáticas  Interpretación y evaluación.  Formulación y ejecución.  Argumentación. Sociales y ciudadanas  Pensamiento social.  Interpretación y análisis de perspectivas.  Pensamiento reflexivo y sistémico. Ciencias naturales  Uso comprensivo del conocimiento científico.  Explicación de fenómenos.  Indagación. Inglés  Se evalúan las competencias de acuerdo con el Marco Común Europeo de Referencia para las lenguas (MCER). Nominal ordinal  A-  A1  A2  B1  B+ También tiene su equivalente a percentiles Fuente: Elaboración propia a partir de la Guía de orientación Saber 11° (ICFES, 2019a) Comose puede observar los valores de cada nivel ordinal en todas las áreas evaluadas siguen la misma escala, a excepción del área de inglés que presenta la escala MCER modificada, dado que se agrega el nivel A- que corresponde a los estudiantes que no alcanzan el nivel básico A1, y el nivel B+ implica aquellos estudiantes que clasifican en este nivel o un nivel superior del idioma.
  29. 29. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos 28 Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 – 2019 La valoración total de la prueba es de tipo numéricoy tiene el mismonivel de medición nominal ordinal de las áreas del conocimiento, para el presente proyecto va a ser el atributo que contendrá la clasificación de las diferentes instancias de los modelos de predicción del rendimiento que se van a evaluar. 4.1.5 Índice de necesidades socioeconómicas (INSE) El ICFES ha desarrollado un indicador que permite clasificar a los participantes de acuerdo al resultado del cuestionario socioeconómico que se aplica a la prueba. Está basado en las teorías de Coleman, Bradley & Corwyn (1988) de la relación de los capitales físicos, human os y sociales y su relación con la sensación de bienestar de los individuos. La metodología de cálculo de este índice ha permitido categorizar a los estudiantes en el índice NSE toma los valores de uno a cuatro, siendo estos los extremos los evaluados con alto y alto bajo nivel de necesidades socioeconómicas insatisfechas. En los años 2009 a 2012, este índice se calculaba usando los lineamientos de los métodos multivariantes, utilizados por la Dirección Nacional de Planeación (DNP), sobre los atributos que hacen parte del aspecto socioeconómico de los evaluados y su entorno familiar. Desde el año 2012 el cálculo de este índice se desarrolla utilizando la metodología de la Teoría de Respuesta al Ítem que permite que se tenga una escala de medición comparable entre periodos. Con el fin de determinar un conjunto reducido de atributos que tengan un aporte de información significativo para la medición del nivel socioeconómico se utiliza en análisis de componentes principales, esto hace que el nivel socioeconómico (NSE) sea comparable entre periodos o aplicaciones de la prueba. El INSE, de tipo numérico,se emplea comoinsumo para categorizar los atributos en el NSE de los participantes (ICFES, 2019d). En las figuras 3 y 4, muestran los intervalos del INSE que sirven para definir el NSE, este último es resultado de la aplicación de algoritmos de árboles de decisión para clasificar a los evaluados en alguna de las cuatro categorías.
  30. 30. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos 29 Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 – 2019 Figura 3. Intervalos numéricos para el Índice de necesidades socioeconómicas Fuente: ICFES (2019d) Figura 4. Descriptores socioeconómicos Fuente: ICFES (2019d) 4.1.6 Clasificación de planteles educativos El rendimiento de los estudiantes, además de reflejar el grado de desarrollo de las competencias de los estudiantes en las diferentes áreas de conocimiento evaluadas, permite también caracterizarla calidad de los planteles educativos y esto a suvez define el incremento máximo en el valor de las matrículas y pensiones para el año posterior al desarrollo de la
  31. 31. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos 30 Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 – 2019 prueba, estos incrementos se realizan dos veces en el año dependiendo de la jornada académica de las instituciones. La clasificación de las instituciones educativas tiene en cuenta el resultado de los estudiantes en las cinco áreas del conocimiento que se evalúan en la prueba, utilizando un indicador de Índice General (IG) que se calcula tal como semuestra en las ecuaciones 1 y 2, y no solamente tiene en cuenta la media de las calificaciones sino también la varianza de las mismas, para tal efecto únicamente se tienen en cuenta el 80% de las mejores calificaciones en cada área sin incluir a los evaluados que se encuentran repitiendo la prueba y excluyendo a los estudiantes con algún tipo de capacidades especiales (para no usar el término discapacidad que utiliza la fuente) que tomen una versión modificada de la prueba (ICFES, 2014). Para calcular el Índice General se utiliza la siguiente fórmula: 𝐼𝐺 = (3𝐼𝑀 ) + (3𝐼𝐿𝐶 ) + (3𝐼𝐶𝑁 ) + (3𝐼𝑆𝐶𝐶 ) + (3𝐼𝐼 ) 13 Ecuación 1. Cálculo Índice General Cada uno de los índices de cada área se calculan utilizando la siguiente ecuación: 𝐼𝑃 = 𝜇𝑖 1 − 𝜎𝑖 2 Ecuación 2. Cálculo del índice por área Donde: 𝜇𝑖: media de los puntajes en la prueba i 𝜎𝑖 2 : varianza de los puntajes en la prueba i La aplicación de estas ecuaciones permite clasificara los colegios en cinco categorías, siendo la categoría A+ la evaluación más alta para las instituciones de educación básica. La relación entre estas categorías y el Índice General se puede observar en la tabla 4. De ahí la importancia que las instituciones educativas, en especial las de origen privado, le dan al rendimiento de sus estudiantes en la prueba, con el propósito de mejorar sus resultados estas desarrollan capacitaciones y simulacros previos con el fin de poder identificar aspectos para mejorar el rendimiento en la prueba.
  32. 32. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos 31 Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 – 2019 Tabla 4. Categorías de establecimientos educativos de acuerdo al Índice Global Categoría Rango del Índice General A+ IG > 0.77 A 0.72 < IG ≤ 0.77 B 0.67 < IG ≤ 0.72 C 0.62 < IG ≤ 0.67 D 0 ≤ IG ≤ 0.77 Fuente: Portal del ICFES (2010) 4.1.7 Becas por el rendimiento en las pruebas Saber 11° Además, del beneficio económicoque les puede representar a las instituciones educativas las alzas anuales en matrículas y pensiones de acuerdo a la categoría alcanzada por los resultados en las pruebas, los estudiantes con los mejores puntajes pueden acceder a diferentes estímulos becarios para poder estudiar sus pregrados en las diferentes instituciones de educación superior que tiene el país. Los mejores bachilleres, galardonados a través de resolución por el Ministerio de Educación Nacional con la distinción “Andrés Bello”, reciben subsidios de matrículas y de sostenimiento en la institución de educación superior donde superen el proceso de admisión. El subsidio de sostenimiento dependerá de la ubicación de su lugar de residencia y la sede de la institución educativa donde van a continuar sus estudios, este subsidio estaría entre uno y cuatro salarios mínimos legales vigentes (SMLV) (ICETEX, 2020). Además del beneficio anterior, el actual gobierno estableció un programa para que los estudiantes del país tengan accesoa la educación superior, el programa se llama “Generación E”, que en gobiernos anteriores se conocía como “Ser Pilo Paga”, con la diferencia en que en el nuevo programa se aumenta la cantidad de usuarios beneficiados debido a la asignación de un presupuesto nacional importante. El programa maneja dos opciones: Generación E Excelencia Nacional, y Generación E Equidad; el ICFES en el conjunto de datos de los resultados de las pruebas específica a cuál de las modalidades puede aspirar el evaluado si cumple con: las condiciones de puntaje total en la prueba, puntajes máximos en el SISBEN, estar dentro de los 10 mejores puntajes de departamentos seleccionados, rango de edad, etc. Este programa condona el 100% de los costos a los estudiantes que se matriculen en instituciones de educación superior públicas y 75% para quienes acudan a las instituciones privadas (Cepeda, 2019).
  33. 33. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos 32 Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 – 2019 4.1.8 Actividades para validación de los modelos de rendimiento en la prueba De acuerdo a lo que se ha visto en este capítulo, el rendimiento de la prueba puede ser analizado desde varios puntos de vista, el primero es desde la óptica del rendimiento en cada prueba, y el segundo desde el rendimiento global de la misma. Otro enfoque interesante es determinar un modelo que permita predecir la categoría de las instituciones educativas haciendo un cruce entre los conjuntos de datos de los resultados de los estudiantes en la prueba, con el de la categorización de los colegios de Colombia. Es claro que el objetivo principal del ICFES y de las instituciones educativas es incrementar el desempeño en la prueba saber 11°, lo cual repercutiría en la percepción de la calidad de la educación del país, evidenciando mejoras en los procesos académicos y de enseñanza, incremento en la calidad de las instituciones educativas de educación básica y jalonaría el desempeño en la prueba PISA, donde Colombia ocupó en el año 2019 una de las la últimas posiciones de los países de la OCDE, quedando por debajo de la media de los resultados de estos en las áreas evaluadas de lectura, matemáticas y ciencias; la OCDE infiere que el nivel socioeconómico tiene una gran influencia en los resultados de la prueba PISA. Para este proyecto se establecerán tres modelos de predicción con el fin de determinar el que presente las mejores métricas para el rendimiento de los estudiantes en la prueba en la región Caribe colombiana, el rendimiento es una función de los atributos que hacen parte del cuestionario sociodemográfico y aquellos relacionados con las instituciones educativas. Por lo anterior, se hace necesario desarrollar las siguientes actividades con el fin de validar los modelos y encontrar el que mejor se ajuste a los atributos del conjunto de datos:  Obtención de los datos desde el sistema de bases de datos del ICFES de los años 2017 a 2019.  Filtrado de los datos por los departamentos de la región Caribe: Atlántico, Bolívar, César, Córdoba, La Guajira, Magdalena, San Andrés y Sucre.  Extracción de los datos pertinentes, transformación y limpieza.  Integración de los datos en un solo conjunto de datos.  Selección de los atributos y las instancias que van a hacer parte de los modelos.  Aplicación de algoritmos de aprendizaje automático de árboles de decisión (J48 y
  34. 34. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos 33 Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 – 2019 LMT), de reglas (PART) y de redes neuronales (MLP).  Elección y aplicación del método de validación del modelo.  Análisis de las métricas para determinar el mejor modelo con el que se puede predecir el rendimiento en la prueba Saber 11°. 4.2 Conjunto de datos de la prueba Saber 11° El ICFES pone a disposición de los interesados las bases de datos de las pruebas que aplica a nivel nacional, este servicio de datos recibe el nombre de “DataIcfes” y se encuentra ubicado en la URL https://www.icfes.gov.co/investigadores-y-estudiantes-posgrado/acceso-a-bases- de-datos. Para poder hacer uso de esta base de datos los interesados deben registrarse suministrando sus nombres y una dirección de correo electrónico, una vez sea aprobada su solicitud el sistema envía una contraseña para poder acceder al sistema y desarrollar las consultas necesarias. 4.2.1 Ingreso al portal DataIcfes En la figura 5 se puede observar la página de acceso al portal DataIcfes, para ingresar se puede solicitar una contraseña para el acceso a la base de datos de las diferentes pruebas aplicadas por el ICFES, una vez se ha ingresado a la base de datos se despliega un servicio de almacenamiento en la nube de Microsoft OneDrive. Se permite el uso de los datos disponibles en el repositorio DataIcfes para propósitos investigativos, durante el desarrollo de la prueba se solicita a los estudiantes permiso para el uso de datos personales como sus nombres y apellidos, dirección, fecha de nacimiento, número de identificación, correo electrónico, números de contacto (estos datos no se hacen públicos y son de conocimiento exclusivo del ICFES), y los datos socioeconómicos que son diligenciados durante la prueba; previamente los datos de las instituciones educativas han sido recopilados durante el registro que hacen los planteles educativos. Los usuarios de los datos no pueden hacer pública la información personal de los estudiantes o perfilamientos sin permiso expreso de los interesados de acuerdo a lo dispuesto en el decreto ley 1377 del 27 de junio del año 2013 el cual reglamenta la Ley 1581 del año 2012 en cuanto a las autorizaciones para el tratamiento, las políticas de tratamiento, los derechos de los titulares, las transferencias y transmisiones y la responsabilidad ante los datos privados.
  35. 35. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos 34 Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 – 2019 Figura 5. Página del portal de las bases de datos DataIcfes Fuente: ICFES El presente proyecto no requirió al ICFES los datos personales de los evaluados, ni desarrolló perfilamiento alguno que permitan identificar unívocamente a los titulares de la información reflejada en las instancias del conjunto de datos. Una vez que se ha ingresado al sistema y a la carpeta Saber 11, ver figura 6, se tiene acceso al árbol de directorios con información pertinente a la prueba, estructurada de la siguiente forma: 1. Guía del usuario del portal DataIcfes en PDF. 2. Documentos, tales como la documentación Saber 11°, documentación referente al cálculo del INSE (Índice del Nivel Socioeconómico) y la metodología para la clasificación de planteles educativos. 3. Resultados Saber 11°, desde el año 2000 al 2019 para los dos calendarios académicos de cada año comprimidos en ZIP. 4. Clasificación de Planteles, desde el año 2001 comprimidos en ZIP.
  36. 36. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos 35 Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 – 2019 Figura 6. Árbol de directorios en DataIcfes de la prueba Saber 11° Fuente: Portal DataIcfes 4.2.2 Extracción de los datos Una vez que se ha identificado el origen de los datos se proceden a descargar los correspondientes a los resultados del examen en los años 2017, 2018 y 2019. El proceso de carga se intenta desarrollar por OpenRefine y EmEditor, OpenRefine tiene problemas de memoria con la data más extensa correspondiente al calendario A, EmEditor carga los datos, pero se observan algunas instancias que no pueden manejar el separador “¬” utilizado en los archivos de texto; se hace la carga con éxito en la aplicación Power BI Desktop tal como se muestra en la figura 7. Para cada año se publican dos conjuntos de datos diferentes, uno de la prueba aplicada en el mes de marzo y otro de la prueba del mes de agosto, para un total de seis conjuntos de datos para el trienio 2017 - 2019. Una vez los datos de los resultados se encuentran cargados en Power BI, se anexan las consultas en una sola tabla, seguidamente se hace necesario convertir a tipo fecha el campo “PERIODO” que es de tipo texto con la finalidad de que se tenga esta referencia para el cálculo posterior de la edad de los evaluados de acuerdo a su fecha de nacimiento.
  37. 37. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos 36 Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 – 2019 Figura 7. Datos cargados en Power BI Desktop Fuente: Elaboración propia 4.2.3 Descripción del conjunto de datos El conjunto de datos se divide en seis bloques o dimensiones, estos bloques son:  Información personal  Información de contacto  Información socioeconómica  Información del colegio  Datos de citación y resultados Originalmente, cada conjunto de datos por periodo está compuesto por 71 atributos, sin tener en cuenta los atributos de tipo identificador, tales como los códigos de la distribución geográfica, códigos de exámenes, etc. Desde el segundo periodo del año 2018 se implementa en Colombia el programa “Generación E” como una mejora al programa “Ser Pilo Paga”, por
  38. 38. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos 37 Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 – 2019 eso al momento de integrar los seis conjuntos de datos los atributos se incrementan a 72, adicionalmente se generará el atributo derivado EDAD que se obtiene de la diferencia de la fecha de aplicación del examen y la fecha de nacimiento del evaluado, lo que nos incrementa el número de atributos a 73. En cuanto al número de instancias, una vez que se integran las tablas de los resultados del 2017 al 2019, se cuenta con 1,689,010 instancias y una vez que se filtran las instancias pertenecientes a los departamentos de la región Caribe el número de instancias disminuye a 381,782. Cómo se observa en la tabla 5, no se puede identificar a los participantes de la prueba dado que el ICFES, previamente a la publicación en el repositorio DataIcfes, ha anonimizado los datos de acuerdo a los lineamientos legales de la Ley 1581 de 2012 y el Decreto Ley 1377 de 2013. Tabla 5. Características del conjunto de datos DIMENSIÓN ATRIBUTOS Tipo Descripción INFORMACIÓN PERSONAL ESTU_TIPODOCUMENTO Nominal Tipo de documento ESTU_NACIONALIDAD Nominal Nacionalidad ESTU_GENERO Nominal Género ESTU_FECHANACIMIENTO Fecha Fecha de nacimiento PERIODO Nominal Periodo de presentación ESTU_ESTUDIANTE Nominal Tipo de inscripción ESTU_PAIS_RESIDE Nominal País de residencia ESTU_ETNIA Nominal Grupo étnico INFORMACIÓN DE CONTACTO ESTU_DEPTO_RESIDE Nominal Departamento residencia ESTU_MCPIO_RESIDE Nominal Municipio de residencia INFORMACIÓN SOCIOECONÓMICA FAMI_ESTRATOVIVIENDA Nominal Estrato socioeconómico de la vivienda FAMI_PERSONASHOGAR Nominal Número de personas en el hogar FAMI_CUARTOSHOGAR Nominal Número de cuartos (habitaciones) FAMI_EDUCACIONPADRE Nominal Nivel educativo del padre FAMI_EDUCACIONMADRE Nominal Nivel educativo de la madre
  39. 39. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos 38 Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 – 2019 DIMENSIÓN ATRIBUTOS Tipo Descripción FAMI_TRABAJOLABORPADRE Nominal Labor del trabajo del padre FAMI_TRABAJOLABORMADRE Nominal Labor del trabajo de la madre FAMI_TIENEINTERNET Booleano Disponibilidad de Internet FAMI_TIENESERVICIOTV Booleano Servicio de televisión cerrada FAMI_TIENECOMPUTADOR Booleano Tiene computadora FAMI_TIENELAVADORA Booleano Tiene lavadora FAMI_TIENEHORNOMICROONGAS Booleano Tiene horno microondas o de gas FAMI_TIENEAUTOMOVIL Booleano Tiene automóvil FAMI_TIENEMOTOCICLETA Booleano Tiene motocicleta FAMI_TIENECONSOLAVIDEOJUEGOS Booleano Tiene consola de videojuegos FAMI_NUMLIBROS Nominal Cantidad de libros,revistas y similares en el hogar FAMI_COMELECHEDERIVADOS Nominal Veces por semana que consume derivados lácteos FAMI_COMECARNEPESCADOHUEVO Nominal Veces por semana que consume pescado y huevo FAMI_COMECEREALFRUTOSLEGUMBRE Nominal Veces por semana que consume cereales – frutas – legumbres FAMI_SITUACIONECONOMICA Nominal Percepción de la situación económica respecto al año anterior ESTU_DEDICACIONLECTURADIARIA Nominal Horas dedicadas a la lectura por semana ESTU_DEDICACIONINTERNET Nominal Horas de uso de internetpor día ESTU_HORASSEMANATRABAJA Nominal Horas de trabajo por semana ESTU_TIPOREMUNERACION Nominal Tipo de remuneración por las horas trabajadas INFORMACIÓN DEL COLE_NOMBRE_ESTABLECIMIENTO Nominal Nombre del
  40. 40. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos 39 Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 – 2019 DIMENSIÓN ATRIBUTOS Tipo Descripción COLEGIO establecimiento COLE_GENERO Nominal Género de la población de estudiantes del colegio COLE_NATURALEZA Nominal Naturaleza legal COLE_CALENDARIO Nominal Calendario académico COLE_BILINGUE Booleano Educación bilingüe COLE_CARACTER Nominal Carácter COLE_NOMBRE_SEDE Nominal Nombre de la sede COLE_SEDE_PRINCIPAL Booleano Indica si la sede es la principal COLE_AREA_UBICACION Nominal Área de ubicación del colegio COLE_JORNADA Nominal Jornada COLE_MCPIO_UBICACION Nominal Municipio de ubicación COLE_DEPTO_UBICACION Nominal Departamento de ubicación DATOS DE CITACIÓN ESTU_PRIVADO_LIBERTAD Booleano Condición judicial del evaluado ESTU_MCPIO_PRESENTACION Nominal Municipio de presentación ESTU_DEPTO_PRESENTACION Nominal Departamento de presentación RESULTADOS PUNT_LECTURA_CRITICA Numérico Puntajes, percentiles y desempeño en las áreas de lectura crítica, matemática, ciencias naturales, ciencias sociales y ciudadanas,e inglés PERCENTIL_LECTURA_CRITICA Numérico DESEMP_LECTURA_CRITICA Numérico PUNT_MATEMATICA Numérico PERCENTIL_MATEMÁTICAS Numérico DESEMP_MATEMATICAS Numérico PUNT_C_NATURALES Numérico PERCENTIL_C_NATURALES Numérico DESEMP_C_NATURALES Numérico PUNT_SOCIALES_CIUDADANAS Numérico PERCENTIL_SOCIALES_CIUDADANAS Numérico DESEMP_SOCIALES_CIUDADANAS Numérico PUNT_INGLES Numérico PERCENTIL_INGLES Numérico DESEMP_INGLES Numérico PUNT_GLOBAL Numérico Puntaje, percentiles y desempeño global de la prueba PERCENTIL_GLOBAL Numérico ESTU_INSE_INDIVIDUAL Numérico ESTU_NSE_INDIVIDUAL Nominal Nivel socioeconómico estudiante ESTU_NSE_ESTABLECIMIENTO Numérico Nivel socioeconómico del establecimiento ESTU_ESTADOINVESTIGACION Nominal Estado de los resultados para los evaluados ESTU_GENERACIONE Nominal Informa si
  41. 41. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos 40 Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 – 2019 DIMENSIÓN ATRIBUTOS Tipo Descripción ESTU_PILO_PAGA Nominal clasifica al programa Fuente: Diccionario de variables Saber 11° ubicado en el repositorio DataIcfes 4.2.4 Análisis del conjunto de datos Con el fin de evidenciar, los percentiles promedio nacionales de las calificaciones de cada área de conocimiento, se desarrolla un dashboard en Power BI para los resultados a nivel nacional para comparar estos con los de la región Caribe. En la figura 8, aproximando al entero más cercano, el resultado nacional se encuentra en el percentil 50 donde se ubica la media y la mediana de la escala indicando que la mitad de los estudiantes se encuentran por debajo de la media nacional y la otra parte por encima de esta, estos resultados incluyen a los colegios de naturaleza oficial y no oficiales (privados). Específicamente, los resultados de la región Caribe están 7.8 percentiles por debajo de la media nacional, ver figura 9, siendo un indicativo de los esfuerzos que debe hacer la región para alcanzar los resultados nacionales, la región tiene el reto de mejorar las condiciones socioeconómicas y la calidad de la educación con la colaboración de todos los actores del proceso. Figura 8. Promedio nacional de los percentiles de las áreas evaluadas Fuente: Elaboración propia
  42. 42. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos 41 Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 – 2019 Figura 9. Promedio Región Caribe de los percentiles de las áreas evaluadas Fuente: Elaboración propia En los departamentos de la región Caribe (Atlántico, Bolívar, César, Córdoba, La Guajira, Magdalena, San Andrés y Sucre), el 72.1% de las instituciones son oficiales (públicas) mientras que el resto de ellas pertenecen al sector privado (figura 10), de ahí el peso que las instituciones oficiales tienen en el promedio de las calificaciones de las áreas evaluadas en la prueba. Figura 10. Cantidad de instituciones educativas por naturaleza Fuente: Elaboración propia El calendario académico “A”, que inicia actividades en febrero, es al que se acoge una mayor cantidad de las instituciones educativas representando el 98.45% del total nacional. Los otros calendarios, representan solo el 1.45% e inician su periodo de actividades en el mes de septiembre, estos no tienen presencia en algunos departamentos y muy poca presencia en los municipios del país (figura 11).
  43. 43. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos 42 Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 – 2019 Figura 11. Cantidad de instituciones educativas por su naturaleza Fuente: Elaboración propia Observando las líneas de tendencia, el rendimiento en las áreas de conocimiento evaluadas tiende a disminuir desde el año 2018, solo hay un leve incremento desde el segundo periodo del mismo año en el caso de las calificaciones del área de Lectura Crítica, desafortunadamente tiene poca incidencia en el promedio global de calificaciones, las áreas de matemáticas e inglés son la que tienen la pendiente más negativa en las líneas de tendencia indicando que son las áreas en las que desde el 2018 evidencian un bajo rendimiento promedio ubicándose por debajo del percentil 60 en el segundo periodo del año 2019. Si se analizan estas gráficas de acuerdo con el calendario académico de los colegios, el mejor rendimiento promedio se presenta en los estudiantes provenientes de instituciones que pertenecen al calendario “B”, pocas instituciones educativas pertenecen a este calendario, son de carácter privado y por lo general los estudiantes tienen un mejor nivel socioeconómico. El rendimiento promedio más bajo se presenta en el calendario “A”, quienes desarrollan la prueba en el segundo semestre de cada año, el mayor número de estudiantes evaluados del país pertenecen a este calendario, hacen parte de este todas las instituciones oficiales (del gobierno) y en menor proporción las no oficiales (privadas). Los colegios que manejan otros calendarios académicos tienen un rendimiento que se ubica por encima del rendimiento de las instituciones del calendario “A” y por debajo del rendimiento de las del calendario “B”, es el calendario con el menor número de estudiantes en el país y las instituciones se asimilan en muchos aspectos a los colegios de calendario “B”. Las gráficas 12 y 13 muestran en el eje de las ordenadas el rendimiento promedio y en el eje de las abscisas la fecha de presentación de las pruebas, en ellas se puede apreciar la tendencia en
  44. 44. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos 43 Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 – 2019 el tiempo de los percentiles promedio por área del saber y por calendario académico. Figura 12. Percentiles promedio en las áreas de Lectura Crítica, Matemáticas, Ciencias Naturales y Ciencias Sociales y Ciudadanas Fuente: Elaboración propia En cuanto al rendimiento de los colegios por su naturaleza (figura 14), los colegios privados obtienen un puntaje promedio superior a la media ubicándose en el percentil 55, casocontrario ocurre con los colegios oficiales donde al parecer existen factores determinantes de bajo rendimiento en la prueba haciendo que este se ubique en el percentil 39. La línea de tiempo, de la figura 15, muestra la tendencia negativa en el rendimiento de los colegios oficiales y no oficiales, aunque se observa un ligero incremento en el rendimiento de los colegios públicos en el segundo semestre del año comparado con el primer semestre del año 2019, aunque estas medidas no son comparables dado a que los promedios se calculan en base a los resultados de pocos estudiantes que se presenta a realizar la prueba en las fechas de los exámenes del calendario “B”. Esta disparidad en el rendimiento en las áreas de conocimiento, pueden reflejar falencias en gran parte del sistema educativo, es probablemente la causa de estar entre las peores notas de los países de la OCDE, junto con Panamá y República Dominicana, en las pruebas internacionales PISA donde se evalúan las áreas de lectura, matemáticas y ciencias (Portafolio, 2019).
  45. 45. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos 44 Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 – 2019 Figura 13. Percentiles promedio en el área de Inglés y rendimiento global Fuente: Elaboración propia Figura 14. Promedio del rendimiento por naturaleza de las instituciones educativas Fuente: Elaboración propia
  46. 46. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos 45 Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 – 2019 Figura 15. Línea de tiempo del rendimiento por la naturaleza de la institución educativa Fuente: Elaboración propia Las condiciones existentes en la gran mayoría de los territorios rurales (figura 16) pueden tener incidencia en el rendimiento de los evaluados ubicados en esas áreas geográficas de tipo rural, el rendimiento es inferior al de los evaluados en las áreas urbanas. Este bajo rendimiento puede estar influenciado por los problemas de infraestructura vial, el acceso a servicios públicos básicos, la disponibilidad de las tecnologías, las deficiencias en la conectividad, etc., muy a pesar de que el gobierno nacional destina partidas para el sector educativo y obras subsidiarias, estas no tienen un manejo adecuado haciendo que gran parte de los colegios no cuenten con las facilidades y medios adecuados para su labor. Figura 16. Rendimiento promedio por área de ubicación de las instituciones educativas Fuente: Elaboración propia
  47. 47. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos 46 Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 – 2019 En cuanto al sexo de los evaluados, se destaca el promedio que obtienen los colegios que son exclusivos del sexo femenino en los resultados de la prueba, ubicándose por encima de las instituciones educativas donde prima el sexo masculino y muy por encima del rendimiento de los colegios con enfoque de mixto de género (figura 17), no se puede generalizar, pero al parecer con miras a los resultados no es conveniente un enfoque de género mixto en los colegios. Figura 17. Rendimiento promedio de acuerdo al enfoque de género de las instituciones educativas Fuente: Elaboración propia Las siguientes dos figuras tienen relación con el tiempo de dedicación en la labor educativa y el énfasis en las jornadas de las instituciones educativas. Las tres jornadas que más establecen los colegios para su labor son la de la mañana, la de la tarde y la de la noche; las jornadas menos implementadas en los colegios son la sabatina, la completa y la única (figura 18). Sin embargo, las mejores calificaciones en la prueba las obtienen los estudiantes de las instituciones que implementan jornada completa, seguidos por la jornada única y la jornada matutina (figura 19). Queda claro que el tiempo de dedicación a las labores académicas puede tener un impacto significativo en las áreas evaluadas en la prueba.
  48. 48. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos 47 Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 – 2019 Figura 18. Número de instituciones educativas por jornada Fuente: Elaboración propia Figura 19. Rendimiento promedio por jornada académica Fuente: Elaboración propia Con relación al estrato socioeconómico de la vivienda familiar de los estudiantes (figura 20), a excepción del estrato 1, no se ven diferencias significativas en los puntajes promedio de la prueba Saber 11°, el estrato uno tiene un rendimiento promedio de 3 a 6 percentiles por debajo de los demás estratos, mientras que la diferencia entre los estratos 2 al 6 es en promedio de 1 a 3 percentiles. Es muy común encontrar en los sectores de estrato 1 al 4, familias que tienen una mejor posición socioeconómica y viviendas con mejoras significativas en
  49. 49. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos 48 Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 – 2019 comparación con su entorno, el gobierno colombiano maneja la estratificación por lo general por sectores, muchos de los habitantes no cambian sus sectores de residencia a otros de estratos más altos para no aumentar su carga económica en cuanto a impuestos y servicios públicos. Figura 20. Rendimiento promedio por estrato socioeconómico de la vivienda Fuente: Elaboración propia El nivel socioeconómico (NSE) refleja, de acuerdo al ICFES, la diferencia en el rendimiento de acuerdo a nivel social y económico de las familias de los estudiantes, en la figura 21 se puede observar que el rendimiento promedio de los evaluados en la prueba es directamente proporcional a su clasificación NSE. Los estudiantes alcanzan en el nivel 1 solo un promedio de 32 percentiles en el puntaje global, mientras que aquellos que se encuentran en el nivel 4 alcanzan valores muy por encima de la media llegado al percentil promedio 73. Todo parece indicar que el grado de necesidades insatisfechas puede afectar el rendimiento de los estudiantes, algo en lo que se debe seguir trabajando desde las políticas del gobierno nacional, regional y local. Respecto al atributo derivado de la edad, el gráfico de dispersión de la figura 22 muestra el rendimiento en la prueba en función de la edad, es evidente que existe una relación inversa entre estas dos variables, a mayor edad menor rendimiento. Se presentan algunos valores atípicos que tendrán que analizarse y corregirse posteriormente.
  50. 50. Jairo Acosta Solano Máster UniversitarioenAnálisis yVisualizaciónde Datos Masivos 49 Metodología CRISP-DM para la evaluación de modelos predictivos del rendimiento de los estudiantes de la región Caribe colombiana en la prueba Saber 11° 2017 – 2019 Figura 21. Rendimiento promedio de acuerdo al nivel socioeconómico de los evaluados Fuente: Elaboración propia Figura 22. Rendimiento en la prueba en función de la edad Fuente: Elaboración propia Referente a la intensidad en el uso diario de la Internet, a pesar de que el promedio en las calificaciones de los estudiantes aumenta con el tiempo de uso, apenas alcanzan a superar la media nacional (figura 23), aquellos evaluados que no usan internet alcanzan en promedio un rendimiento de 32 percentiles, pero una vez se va aumentando la intensidad en el uso de internet los promedios mejoran hasta llegar a 51 percentiles en aquellos estudiantes que utilizan este servicio por más de tres horas. No necesariamente su uso tiene que ver con actividades de aprendizaje y quizás es utilizado en la mayor parte del tiempo para el ocio. Hay un trabajo importante encaminado a mejorar las estrategias educativas para incrementar la forma en que se puede aprovechar la información disponible en la red para mejorar el desempeño general en la prueba.

×