Este documento describe los métodos para analizar los resultados de las pruebas objetivas, incluyendo el cálculo de la validez, confiabilidad, índice de dificultad y discriminación. También distingue entre evaluaciones referidas a criterios, normas e ipsativas. El análisis de los resultados de las pruebas puede mejorar la calidad de los exámenes y proporcionar retroalimentación a los estudiantes y profesores.
2. Introducción
Los exámenes corregidos nos pueden aportar una
riqueza de información no solo acerca del
desempeño de los estudiantes sino también de la
eficacia del mismo examen.
Es en este momento cuando se pueden medir la
validez, la confiabilidad,, nivel de dificultad de los
ítems y el índice de discriminación.
Además, a continuación distinguiremos entre los
evaluaciones referidas a criterio, normas e ipsativas.
3. Análisis de los resultados
Después de la aplicación del examen, se procede a
corregirlo y asentar las calificaciones.
Una vez calificado el examen, este se somete a un
análisis de cada ítem. Este análisis se hace con el fin
de:
Mejorar la calidad del examen.
Retroalimentar a los estudiantes.
Aportar datos sobre los criterios de evaluación.
4. Análisis de los resultados
La calidad de la prueba comienza a medirse cuando
calculamos la validez, confiabilidad, los índices de
dificultad y de discriminación.
Para determinar la validez y la confiabilidad se requiere
de cálculos matemáticos un tanto complejos. Se
recomienda que se calculen con cualquier programa de
computadora que maneje datos estadísticos como el
programa SPSS. Pueden descargar una versión gratis de
este programa en el sitio web:
http://www.softonic.com/s/spss-gratis-espanol
5. Análisis de los resultados
Lo primero que hacemos es identificar dos grupos uno
fuerte y otro débil para calcular los índices de dificultad
y de discriminación.
Se toman 25 % de las mejores notas(grupo fuerte) y 25 %
de las notas mas bajas (grupo débil).
Índice de dificultad
Este índice indica que tan difícil es un ítem o el examen
en forma global. se define como la relación entre el
número de alumnos que responden correctamente el
ítem y el número de alumnos que intentaron resolverlo.
6. Análisis de los resultados
Este índice se calcula de la siguiente forma:
INDICE DE DIFICULTAD (p)= C / N
Donde C es el número respuestas correctas del ítem y N el
número total de alumnos.
Otros prefieren la siguiente formula:
p= (# de respuestas correctas del grupo fuerte) + (# de
respuestas correctas del grupo débil)/total de alumnos en los
dos grupos.
Con esta ultima formula solo se mide el índice de la
muestra (50% de los alumnos).
7. Análisis de los resultados
El índice de dificultad varía entre 0 (pregunta muy difícil
que no ha sido respondida correctamente por ningún
alumno o no respondida) y 1 (muy fácil; ha sido
respondido correctamente por todos los alumnos). O sea
que mientras mas alto mas fácil la pregunta. Por eso
algunos autores dicen que el nombre índice de facilidad
sería mas apropiado.
Varios autores como Gómez de Terrero (1998), y Morales
(2011) consideran un rango entre 0.30 y 0.85 como índice
de dificultad aceptable.
Todos coinciden en que un índice entre 0.5 y 0.6 da
mayor confiabilidad a la prueba.
8. Análisis de los resultados
Índice de discriminación
El índice de discriminación nos indica el grado en el
cual el ítem discrimina o diferencia entre los que
saben y no saben, de las personas que lo
contestaron.
El índice de discriminación evidencia la validez de
los resultados de la prueba porque determina si el
ítem mide o no lo que la prueba intenta medir.
9. Análisis de los resultados
El índice de discriminación se calcula de la siguiente
manera:
d = Cgf – Cgd/N
Donde Cgf es el numero de respuestas correctas del grupo
fuerte, Cgd es el numero de respuestas correctas del grupo
débil y N es el numero total de personas en ambos grupos.
Los valores máximos de este índice oscilan entre 1 y -1.
Si solo los del grupo fuerte contestan el ítem
correctamente el índice es 1 y si solo los del grupo débil
lo contestan correctamente entonces el índice es -1.
10. Evaluaciones ceferidas a
criterios
Los resultados de las pruebas pueden ser comparados con un
criterio establecido (referidas a criterios), contra el desempeño
de otros estudiantes (referidas a normas) , o en contra del
rendimiento anterior (evaluación ipsativas)
Las pruebas referidas a criterios son aquellas que miden el
rendimiento de los estudiantes en base a criterios
predeterminados a partir de ciertos estándares.
Los criterios y estándares derivan de los objetivos específicos
de la materia.
Se usan, pero no exclusivamente, para establecer si el
estudiante posee dominio de una destreza.
No mide el desempeño del estudiante en comparación con
otros estudiantes.
11. Evaluaciones referidas a
criterios
En las pruebas referidas a criterio debe establecerse
un punto de corte (punto de ejecución mínima) o
sea un punto por debajo del cual se estima que el
estudiante no tiene la destreza(s) que se mide(n) con
el examen.
En nuestra institución el punto de ejecución mínima
es 70 % de las preguntas contestadas correctamente.
En las pruebas referidas a criterios se mide al
estudiante contra su habilidad de realizar las
conductas esperadas por la evaluación. No se toma
en cuenta la calificación de los otros estudiantes.
12. Evaluaciones referidas a
criterios
Sutterly y Swann (1987) nos senalan las siguientes
ventajas de las pruebas referidas a criterios:
“El establecer criterios de actuación específicos y
explícitos que se usen para evaluar el trabajo de un
estudiante. Proporciona una fijación de objetivos
mucho más clara para los que aprenden y para los
profesores”
“Permite un diagnóstico de las dificultades del que
aprende y el diseño de un perfil más detallado de su
competencia y actuación.”
13. Evaluaciones referidas a
criterios
“El aprender a dominar un criterio estimula el
aprendizaje por sí mismo y anima a los estudiantes
a «competir » contra sus propias actuaciones
anteriores.”
“…. intensifica la motivación del estudiante para
(actuar bien) y reconoce los progresos de todos, no
sólo los de unos pocos estudiantes afortunados.”
14. Evaluaciones referidas a
criterios
Puntos para producir una prueba basada en criterios:
Analizar objetivos y destrezas que se quieren probar.
Determinar la cantidad de ítems a redactar por cada
objetivo.
Establecer el punto de corte o de ejecución mínima.
Redactar ítems con el mismo nivel de dificultad.
Verificar la validez y la confiabilidad del examen
administrándoselo a un grupo piloto .
15. Pruebas referidas a normas
La calificación del estudiante está determinada por
el desempeño alcanzado y por el grupo del cual
forma parte.
Este tipo de evaluación tiene como propósito
clasificar y etiquetar a los estudiantes según las
diferencias entre alumnos.
Se utilizan herramientas estadísticas tales como la
media, la desviación estándar, etc. para colocar al
estudiante en una posición dentro de una curva.
16. Pruebas referidas a normas
Este tipo de evaluación es representativo de los
estudiantes que llevan a cabo la evaluación. Es más
apropiado cuando se desea hacer comparaciones entre
un gran número de estudiantes o de tomar decisiones
importantes con respecto a la colocación del estudiante y
de su promoción.
Las medidas referidas a normas están diseñadas para
comparar a los estudiantes (es decir, se dispersan las
puntuaciones medias de estudiantes a lo largo de una
curva de campana, con algunos estudiantes con
desempeño muy bueno, la mayoría con desempeño
promedio , y unos pocos con mal desempeño).
17. Pruebas referidas a normas
El test de inteligencia es el ejemplo más conocido de
la evaluación con referencia a la norma . Muchas
pruebas de ingreso (de prestigiosas escuelas o
universidades) como la AEC, GATE, CAT, SAT y
GRE son evaluaciones referidas a normas, lo que
permite una proporción fija de estudiantes que
aprueben (”aprobar" en este contexto significa ser
aceptado en la escuela o la universidad y no a un
nivel explícito de competencia).
18. Evaluaciones Ipsativas
Las evaluaciones ipsativas comparan el desempeño
del estudiante en un mismo dominio con el tiempo,
o en comparación con otros dominios.
Es mas relevante en entrenamiento de rendimiento,
educación especial y terapia que en la enseñanza
general.
Se trata de mejorar la calificación anterior a través
del tiempo. Funciona como los juegos de video de
computadora donde el jugador trata de mejorar su
puntuación anterior.
19. Bibliografía
Gómez de Terreros Sánchez, I.; ANÁLISIS EVALUATIVO DE
CALIDAD DE LA PRUEBA OBJETIVA TIPO TEST (PREGUNTAS DE
ELECCIÓN MÚLTIPLE), Facultad de medicina Universidad
de Sevilla, 1998
Morales P.; ANÁLISIS DE ÍTEMS EN LAS PRUEBAS OBJETIVAS,
Universidad Pontificia Comillas Facultad de Ciencias
Humanas y Sociales, Madrid, 2011
Satterly, D. y Swann, N; LOS EXÁMENES REFERIDOS AL
CRITERIO Y AL CONCEPTO EN CIÊNCIAS: UN NUEVO
SISTEMA DE EVALUACION Universidad de Bristol. School
of Education
www.revistas.unam.mx/index.php/perfiles/article/download/...
/22770