El presente proyecto tiene como finalidad la evaluación de varios modelos de aprendizaje automático bajo la metodología CRISP-DM con el fin de determinar, a través de sus métricas, el mejor modelo para realizar la predicción del rendimiento de los estudiantes de educación media de la región Caribe colombiana en la prueba Saber 11º, a la vez propone una nueva metodología de evaluación de los resultados de la prueba por regiones con el fin de tener en cuenta las particularidades socioeconómicas de cada una de ellas. Se toma como base la metodología CRISP-DM debido a su madurez, esta metodología permite la extracción de conocimiento del negocio y de los datos, ofrece una guía para la preparación de los datos, el modelado y la validación de los modelos; se espera que la metodología propuesta sea implementada por el Instituto Colombiano para el Fomento de la Educación Superior (ICFES), las secretarías departamentales de educación y las instituciones educativas. Se utilizaron una variedad de técnicas y herramientas para desarrollar los procesos ETL para obtener un conjunto de datos con los atributos más relevantes, con el fin de evaluar cuatro modelos de aprendizaje automático desarrollados con los algoritmos J48 (C4.5), LMT, PART y Multilayer Perceptron; obteniendo que el mejor conjunto de datos y el mejor modelo de aprendizaje se obtiene utilizando el método de selección de atributos InfoGain y el algoritmo de árboles de decisión LMT, respectivamente. El modelo fue puesto a prueba con un nuevo conjunto de datos, obteniendo un error cuadrático medio de 0.25 muy acorde con las métricas de validación del mismo. Por lo tanto, este proyecto facilitará a los actores del Sistema Nacional de Educación la toma de decisiones en beneficio de los estudiantes y la calidad de la educación del país, en especial de la región Caribe.