Diseño y aplicación de instrumentos de evaluación

1
DISEÑO Y APLICACIÓN DE LOS INSTRUMENTOS DE EVALUACIÓN
UCLA plantel Zitácuaro

2
Tabla de contenido
Introducción ............................................................................................................................... 3
Objetivo ....................................................................................................................................... 4
Validez de Contenido............................................................................................................... 5
Validez Cuantitativa y Cualitativa ......................................................................................... 5
Validez de componentes del proceso de Investigación .................................................... 7
Validez de Criterio................................................................................................................... 8
Estimación de la validez......................................................................................................... 8
Métodos correlaciónales......................................................................................................... 9
Análisis de test .......................................................................................................................... 9
Valor máximo del coeficiente de validez .......................................................................... 10
Definición de fiabilidad.......................................................................................................... 12
Componentes de fiabilidad .................................................................................................. 13
Aspectos determinantes en la confiabilidad de un instrumento................................. 14
Consistencia interna ............................................................................................................. 14
Tipos de Fiabilidad................................................................................................................ 15
Fiabilidad de Formas Paralelas: ..................................................................................... 16
Fiabilidad de test-retest.................................................................................................... 17
Fiabilidad de consistencia interna................................................................................... 17
Fiabilidad entre calificadores o evaluadores..................................................................... 19
El Coeficiente a (alpha) de Cronbach................................................................................ 19
Valoraciones de los autores:............................................................................................... 20
Factores que afectan a la fiabilidad del test...................................................................... 21
Bibliografía................................................................................................................................ 22

3
Introducción
La presente recopilación del tema “Validez y fiabilidad de instrumentos”, es
producto de un trabajo colaborativo y comunicación contante entre los
compañeros del equipo número cinco del doctorado en ciencias de la educación,
en dicho documento podremos encontrar definiciones extraídas de la antología
del citado doctorado, y otras investigadas en diferentes fuentes como libros
revistas o páginas electrónicas, no es un conocimiento nuevo pero si enriquecido
por la cantidad de textos leídos para su elaboración y presentación a los
doctorantes.
En el presente trabajo podremos encontrar definiciones de validez y fiabilidad así
como sus diferentes variables que implican que un instrumento de investigación
sea útil para poder verificar si un trabajo de investigación cumple con las
expectativas normales para ser considerado como serio.
Seria repetitivo mencionar cada uno de los temas y subtemas que de aquí se
recopilaron, por lo que te invitamos a leerlo con mente abierta y amplio criterio.

4
Objetivo
La presente recopilación tiene como finalidad dar a conocer el tema de “Validez
y fiabilidad de instrumentos”, y que a su vez esta sirva como elemento teórico
para elaborar instrumentos de investigación de campo, que validen su trabajo de
investigación de los doctorantes en ciencias de la educación.

5
Validez de Contenido
La validez asociada a la evaluación del aprendizaje concibe en términos de:
Investigar las características psicológicas particulares o constructos medidos por
la prueba.
a) Validez de Constructo
b) Validez Cognitiva
c) Validez de Contenido
d) Validez de Criterio
e) Validez de Constructo
Estrategias para asegurar la validez en materia de evaluación:
Se sustenta en la intuición, la interpretación y el entendimiento. El evaluador, en
este caso el aprendiz, se relaciona con el aprendizaje.
Confiabilidad
a) La historia
b) La maduración
c) La administración de test
d) La instrumentación
e) La mortalidad
Validez Cuantitativa y Cualitativa
Confiabilidad Cuantitativa
Enfoques:
El conocimiento se concibe como la articulación de una comprensión originaria,
se abandona el objetivismo y la idea de un sujeto originariamente vacío.
Se utiliza principalmente con tests de rendimiento, y especialmente con los tests
educativos.
Consiste en la viabilidad para evidenciar el esfuerzo del evaluador para
desarrollar la capacidad creadora y los procesos subjetivos inteligentes de
pensamiento y reflexión.
Métodos por los cuales puede determinarse la validez
Auto y Coevaluación

6
a) Efecto reactivo o de interacción de las pruebas o tests
b) Efecto de interacción
c) Efectos reactivos de la evaluación
d) Las interferencias de las evaluaciones múltiples
1. Validez interna
2. Validez Cualitativa
El término constructo hace referencia a un concepto teórico psicológico
inobservable.
La definición operativa de estos constructos presenta considerables dificultades
en la práctica, ya que no son directamente observables. Debido a esto, la
validación de un constructo es un proceso laborioso y difícil.
Validez de contenido, criterio y constructo
Validez externa
Variables externas que pueden generar efectos que se confundirían con el
estímulo del aprendizaje:
La confiabilidad es la propiedad según la cual un instrumento aplicado a los
mismos fenómenos, bajo las mismas condiciones, arroja resultados congruentes.
Grado en que el test presenta una muestra adecuada de los contenidos.
Validez de Juicio
Estabilidad
Tres grandes componentes:
Consiste en conocer si el evaluador observa realmente lo que cree observar.
Plantea la interrogante sobre la posibilidad de generalización.
1. Triangulación
2. Saturación.
3. Validez respondente o negociación
Consideración de aspectos afectivos, sociales y culturales.
Los factores que amenazan esta validez son:
Ambiente óptimo para desarrollar libertad.

7
La validez está referida a la firmeza o seguridad de algún acto y las condiciones
necesarias para su permanencia, vigencia y autenticidad.
Constatar si los constructos y postulados, comprobados por el evaluador son
aplicables a los del evaluado. Análisis del contenido de la prueba
Validez de componentes del proceso de Investigación
"La mejor aproximación posible a la verdad"
Grado en que el test correlaciona con variables ajenas al test (criterios) con lo
que se espera por hipótesis que debe correlacionar de determinado modo.
a) Cuantitativo
b) Cualitativo
c) Hermenéutico
d) Validez Externa:
e) Confiabilidad Cualitativa
2) Calcular la correlación entre las calificaciones en la prueba y las calificaciones
en el criterio de interés
Constructo
Hermenéutica
Validez Interna:
Imprescindible sin la cual es imposible interpretar alguna evaluación.
Un instrumento, un procedimiento, un muestreo, Un diseño, son apropiados para
ayudarnos a obtener conclusiones válidas.
Validez Cuantitativa
Confiabilidad Hermenéutica
Proceso empírico para verificar el grado de similitud entre el contexto del
evaluador y el contexto del evaluado.
Validez Hermenéutica
Estabilidad o consistencia interna en las técnicas e instrumentos.

8
Exigencia al evaluador para que utilizando otros métodos y estrategias, llegue a
idénticos resultados.
Validez Ecológica
Validez de Contenido
Validez de Interpretación
Se hacen evidentes los acuerdos establecidos entre el evaluador y los
coevaluadores al compartir los resultados de la evaluación del aprendizaje.
Validez de Criterio
Es una forma de estimar el grado de correspondencia entre el aprendizaje
susceptible de ser evaluado y el proceso de evaluar ese aprendizaje atribuido al
evaluado.
Un instrumento es estable si, aplicado repetidas veces a los mismos fenómenos,
bajo las mismas condiciones, arroja resultados consistentes
Estimación de la validez
En el proceso de selección de una muestra aleatoria simple se contemplan por
lo menos dos aspectos de importancia a saber: el procedimiento de escogencia
de los individuos o unidades a observar, y el tamaño de muestra mínimo para
garantizar un nivel de confianza y una precisión fijados de antemano.
Cochran muestra la importancia del tamaño de la muestra final cuando afirma
que “para cada plan (de selección de muestra), que sea considerado, rigurosas
estimaciones del tamaño de muestra pueden ser hechas a partir del conocimiento
del grado de precisión deseado”. El error tolerado depende directamente del valor
de la varianza, valor que es estimado a partir de una muestra preliminar.

9
Métodos correlaciónales
El método correlacional consiste en la búsqueda de algún tipo de relación entre
dos o más variables, y en qué medida la variación de una de las variables afecta
a la otra, sin llegar a conocer cuál de ellas puede ser causa o efecto. La
información que se recoja sobre las variables involucradas en la relación
comprobará o no esa relación, en cuando a su magnitud, dirección y naturaleza.
El método correlacional permite estudiar fenómenos que no son susceptibles de
manipulación al ser constructos hipotéticos (realidades no observables) como la
inteligencia, la personalidad…
Una correlación positiva indica una relación directa, es decir, que dos
variables aumentan o disminuyen al mismo tiempo.
Este método se usa frecuentemente en las ciencias de la conducta como la
sociología y la psicología, y en ésta última, en particular, en la psicología
diferencial.
Cuando comprobamos repetidamente que un hecho influye sobre otro decimos
que existe correlación entre ambos. La correlación permite hacer pronósticos
pero no sirve para establecer una relación causa-efecto sino que tiene un valor
más bien descriptivo.
a) Correlación del test con un criterio externo:
b) Correlación test con otros test pretendan medir los mismos aspectos o
sean semejantes.
c) Correlación del test con otros test que miden características, que nada
tienen que ver con el constructo que subyace al test.
Para con ello calcular la validez convergente adoptada la disposición de aspectos
que miden lo mismo y la discriminante que manifiestan la medida de aspectos
diferentes, con los que se definen los constructos psicológicos.
Análisis de test
En esta etapa se establecen los criterios de adecuación de los ítems, los que más
tarde serán nuevamente controlados en la fase de validación. Principalmente se

10
trata aquí de explorar el grado de dificultad de las tareas o ítems que van a
conformar el test y de determinar la capacidad que estos muestran para
discriminar la variable que se estudia. Existen dos tipos de análisis posibles:
Análisis subjetivo: Realizado por un conjunto de expertos en la materia que el test
va a evaluar, se trata de un proceso de eliminación de todos aquellos ítems que
sean juzgados inconvenientes con base a una serie de criterios aparentes. Así,
se descartarán mediante este proceso aquellos ítems que reflejen ambigüedad,
constituyan una repetición innecesaria, guarden poca relación con el constructo
a evaluar o una tengan una complejidad sintáctica excesiva.
Análisis objetivo: Se realiza a partir del análisis estadístico de los ítems. Los
criterios de selección varían en función de los supuestos del modelo a utilizar en
su construcción. Si la prueba se construye con base en la Teoría clásica de los
tests, los criterios de selección a tener en cuenta serán los índices de
homogeneidad, validez y dificultad del ítem; su poder discriminativo; y el
coeficiente de fiabilidad del test. Si por el contrario, la prueba se construye bajo
los supuestos de la Teoría de respuesta al ítem, los criterios de selección, serán
la dificultad y discriminación del ítem, la bondad de ajuste del ítem al modelo, y
el grado deseado de la función de información del test.
Valor máximo del coeficiente de validez
Dentro del proceso de validación tenemos dos componentes para que una escala
cumpla su objetivo: el primero es la validez, que indica si la cuantificación es
exacta y, el segundo es la confiabilidad, que alude a si el instrumento mide lo que
dice medir y si esta medición es estable en el tiempo. Tanto la validez y la
confiabilidad son conceptos interdependientes, pero no son equivalentes. Un
instrumento puede ser consistente (tener una gran confiabilidad), pero no ser
válido; por eso las dos propiedades deben ser evaluadas simultáneamente
siempre que sea posible.

11
Valor máximo que puede alcanzar un coeficiente de validez, estimado mediante
la correlación entre el test y el criterio, es menor o igual que su índice de fiabilidad.
Cuanto peor medido esté el criterio, o menos fiables sean las puntuaciones
obtenidas en el criterio, la prueba de rendimiento, peor va a ser la predicción.
Factores que afectan la validez
Hay diversos factores que pueden afectar la confiabilidad y la validez de los
instrumentos de medición.
El primero de ellos es la improvisación. Algunas personas creen que elegir un
instrumento de medición o desarrollar uno es algo que puede tomarse a la ligera.
Incluso algunos profesores piden a los alumnos que construyan instrumentos de
medición de un día para otro, o lo que es casi lo mismo, de una semana a otra.
Lo cual habla del poco o nulo conocimiento del proceso de elaboración de
instrumentos de medición. Esta improvisación genera casi siempre instrumentos
poco válidos o confiables y no debe existir en la investigación social
Para poder construir un instrumento de medición se requiere conocer muy bien a
la variable que se pretende medir y la teoría que la sustenta.
El segundo factor es que a veces se utilizan instrumentos desarrollados en el
extranjero que no han sido validados a nuestro contexto: cultura y tiempo.
Traducir un instrumento aun cuando adaptemos los términos a nuestro lenguaje
y los contextualicemos no es de ninguna manera validarlo. Por otra parte, hay
instrumentos que fueron validados en nuestro contexto pero hace mucho tiempo.
Hay instrumentos que hasta el lenguaje nos suena “arcaico”. Las culturas, los
grupos y las personas cambian; y esto debemos tomarlo en cuenta al elegir o
desarrollar un instrumento de medición.
Un tercer factor es que en ocasiones el instrumento resulta inadecuado para las
personas a las que se les aplica: no es empático. Utilizar un lenguaje muy elevado
para el respondiente, no tomar en cuenta diferencias en cuanto a sexo, edad,
conocimientos, capacidad de respuesta, memoria, nivel ocupacional y educativo,

12
motivación para responder y otras diferencias en los respondientes; son errores
que pueden afectar la validez y confiabilidad del instrumento de medición.
Un cuarto factor que puede influir esté constituido por las condiciones en las que
se aplica el instrumento de medición. Si hay ruido, hace mucho frío (por ejemplo
en una encuesta de casa), el instrumento es demasiado largo o tedioso, son
cuestiones que pueden afectar negativamente la validez y la confiabilidad.
Normalmente en los experimentos se puede contar con instrumentos de medición
más largos y complejos que en los diseños no experimentales. Por ejemplo, en
una encuesta pública sería muy difícil poder aplicar una prueba larga o compleja.
Por otra parte, aspectos mecánicos tales como que si el instrumento es escrito,
no se lean bien las instrucciones, falten páginas, no haya espacio adecuado para
contestar, no se comprendan las instrucciones, también pueden influir de manera
negativa.
Definición de fiabilidad
En la confiabilidad se busca que los resultados de un test concuerden con los
resultados del mismo test aplicados en otra ocasión. Si esto ocurre se puede
decir que hay un alto grado de confiabilidad.
La confiabilidad se refiere a su posibilidad de repetir la misma investigación con
idénticos resultados.
Otra definición expresa que la confiabilidad es la exactitud o precisión de un
instrumento de medición, grado en que las puntuaciones de un test estén libres
de error, esa exactitud permite que los resultados se mantengan constantes en
diferentes circunstancias
Ningún instrumento de evaluación puede tener valor a menos que mida algo en
forma consistente o confiable. Como consecuencia uno de los primeros aspectos
que debe determinarse en un instrumento, es si es lo suficientemente confiable
o no para medir aquello para lo que se creó.

13
La confiabilidad es en extremo importante, si bien no construye el aspecto
esencial de la medición, un alto grado de confiabilidad no garantiza que se
obtendrán buenos resultados científicos, pero no puede haberlos sin ellos.
Componentes de fiabilidad
Los estudios cuantitativos buscan que la influencia de las características y las
tendencias del investigador se reduzcan al mínimo posible, lo que sería un ideal.
La validez, la confiabilidad y la objetividad no deben tratarse de forma separa. Sin
alguno de estos elementos, el instrumento no es útil para llevar a cabo un estudio.
Así que hablaremos de estos elementos:
Fiabilidad.- Se refiere a la consistencia o estabilidad de los resultados.
La objetividad.- se refiere al grado en que el instrumento es permeable a la
influencia de los sesgos y tendencias del investigador o investigadores que lo
administran, califican e interpretan. La objetividad se refuerza mediante la
estandarización en la aplicación del instrumento (mismas instrucciones y
condiciones para todos los participantes)
Validez.- indica el grado de exactitud con el que mide el constructo teórico que
pretende medir y si se puede utilizar con el fin previsto, es decir la validez se da
cuando se mide lo que se tiene que medir.
Existen métodos básicos para obtener el coeficiente de confiabilidad o fiabilidad:
1. Método de las formas equivalentes
2. Método test-retest
3. Método de división por mitades
4. Método de consistencia interna basado en el alfa de Cronbach
La falta de confiabilidad de un test se da en relación con la intervención del error,
se considera que el error es cualquier efecto irrelevante para los fines o
resultados de la medición que influye en la falta de confiabilidad de la medición.
Existen dos tipos de errores:

14
a) Error constante o sistematizado.- que se produce cuando las mediciones
que se obtienen con una escala son sistemáticamente mayores o menores
que lo que realmente deben ser.
b) Error causal o al azar / no sistematizado.- se produce cuando las medidas
son alternadamente mayores o menores de lo que realmente deben ser.
Existen coeficientes que oscilan entre 0 y 1.
Donde un coeficiente de 0 significa nula confiabilidad y 1 representa un
máximo de confiabilidad.
Entre más se acerque el coeficiente a cero, hay mayor error en la medición.
Aspectos determinantes en la confiabilidad de un instrumento.
Evitar preguntas ambiguas que puedan inducir respuestas distintas en momentos
diferentes.
No olvidar que la medición puede sufrir inestabilidad temporal.
El contenido del instrumento debe abarcar todas las variables que se quieren
medir.
Baja confiabilidad indica interacciones entre variables distintas (información
contradictoria).
En cada pregunta debe manejarse sólo un aspecto a la vez.
Aplicar preguntas cerradas preferiblemente.
Consistencia interna
En diversas situaciones no es posible llevar acabo dos aplicaciones del test.
El objetivo aquí, es establecer hasta qué punto se puede generalizar del conjunto
especifico de ítems al dominio o universo de contenidos.
Una forma de llevar a cabo esta estimación es valorando el grado de consistencia
con el que responden los ítems del test, en una única aplicación del mismo.

15
Cuando los sujetos tienen un rendimiento consistente en los distintos ítems,
decimos que el test tiene homogeneidad de ítems.
En otras palabras la consistencia interna hace referencia a que tan probable es
que los elementos de un instrumento se relacionen entre sí para medir un
constructo.
Esta consistencia se da cunado investigadores independientes, al estudiar una
realidad en tiempos o situaciones diferentes, llegan al mismo resultado
Existen diferentes medidas para determinar la consistencia de un instrumento,
por ejemplo el Alfa de Cronbach.
Tipos de Fiabilidad
Una de las principales características que debe cumplir un test, es la de
Fiabilidad, así pues, la fiabilidad de un test es el grado o la precisión con que el
test mide un determinado rasgo psicológico, independientemente del hecho de si
es capaz o no de medirlo (validez), es decir, se dice que un test es fiable cuando
"mide bien aquello que está midiendo", se refiere a la constancia de la medida, al
grado en que un instrumento de medida psicológica no deformará el resultado de
una medición debido a cambios, fluctuaciones o variaciones del instrumento
mismo.
La fiabilidad tiene dos grandes componentes:
La consistencia interna: se refiere al grado en que los distintos ítems, partes o
piezas de un test miden la misma cosa, significa la constancia de los ítems para
operar sobre un mismo constructo psicológico de un modo análogo.
La estabilidad temporal: se refiere al grado en que un instrumento de medida
arrojará el mismo resultado en diversas mediciones concretas midiendo un objeto
o sujeto que ha permanecido invariable
En este sentido, un test totalmente fiable sería aquel con el que se pudiera medir,
es decir, situar a un individuo en el baremo sin ningún error, aunque, en la
práctica, ningún instrumento de medida es totalmente fiable, ni siquiera aquellos
que miden características físicas, es decir, si medimos un mismo objeto repetidas
veces con el mismo instrumento obtenemos medidas ligeramente diferentes, por

16
tanto, toda puntuación se compone de la puntuación verdadera más el error
cometido, es decir: X = V + E
El concepto de fiabilidad se ha definido de manera operativa de diferentes formas:
a) Fiabilidad de formas paralelas
b) Fiabilidad test-retest
c) Fiabilidad de consistencia interna
d) Fiabilidad entre calificadores o evaluadores
Fiabilidad de Formas Paralelas:
Este método consiste en elaborar dos formas paralelas de un mismo test, o lo
que es lo mismo, dos test paralelos.
2. Aplicar una forma del test a la muestra de interés, y tras un lapso de tiempo
que no sea relevante para la aparición de cambios en los sujetos, aplicar la
segunda forma del test a la muestra.
3. Calcular el coeficiente de correlación entre las puntuaciones empíricas
obtenidas por los sujetos en las dos ocasiones.
Si las formas son paralelas esa correlación es el coeficiente de fiabilidad del test.
Hay dos tipos de criterios que dos tests han de cumplir para que los consideremos
paralelos:
1. Criterio estadístico: Las dos formas presentan medias iguales y varianzas
iguales tanto en sus puntuaciones empíricas, como verdaderas y errores
(mediciones paralelas) u obtienen las mismas puntuaciones verdaderas, pero
no se requiere igual varianza de error (tau-equivalentes).
2. Criterios de formato y contenido: En la práctica dos tests paralelos consisten
en dos conjuntos distintos de ítems referidos a una misma variable o
constructo psicológico, habitualmente con las mismas instrucciones y el
mismo formato de prueba y de ítems, las formas paralelas pretenden
muestrear el mismo contenido con cuestiones formuladas de manera distinta.
No puede considerarse formas paralelas aquéllas en las que la diferencia

17
consiste en que se ha variado el orden de los ítems o el orden de las
alternativas
Fiabilidad de test-retest
Está indicado para estimar la fiabilidad de un test del que sólo disponemos una
forma, este método consistiría en:
1. Administrar el mismo test en dos ocasiones diferentes separadas por
cierto lapso temporal a una misma muestra de sujetos.
2. Calcular el coeficiente de correlación entre las puntuaciones obtenidas por
los sujetos en las dos ocasiones.
El método evalúa la estabilidad de los resultados a través de cierto tiempo, por
ello, al coeficiente de fiabilidad que obtiene se le denomina coeficiente de
estabilidad temporal, respecto al tiempo que debe transcurrir:
A menor tiempo mayor efecto de la memoria de las respuestas dadas, del
aprendizaje debido al propio test y de la fatiga producida por el propio test (si la
segunda medición sucede de un modo más o menos inmediato).
A mayor tiempo, mayor posibilidad de que los sujetos hayan cambiado realmente
en la variable de interés debido a múltiples factores permanentes o
circunstanciales: aprendizaje, cambios evolutivos, experiencias emocionales,
enfermedad, condiciones ambientales y sociales.
Por todo esto, las estimaciones por el método test-retest son más apropiadas
para tests que miden rasgos poco afectables por los efectos de la práctica y que
son estables a lo largo del intervalo de tiempo transcurrido, como son los tests
de rapidez perceptiva, discriminación sensorial, verificación rápida de cálculos
numéricos.
Fiabilidad de consistencia interna
Permite estimar la fiabilidad de un instrumento de medida a través de un conjunto
de ítems que se espera que midan el mismo constructo o dimensión teórica. La
validez de un instrumento se refiere al grado en que el instrumento mide aquello
que pretende medir.

18
La medida de la fiabilidad asume que los ítems (medidos en escala tipo Likert)
miden un mismo constructo y que están altamente correlacionados. Cuanto más
cerca se encuentre el valor del alfa a 1 mayor es la consistencia interna de los
ítems analizados. La fiabilidad de la escala debe obtenerse siempre con los datos
de cada muestra para garantizar la medida fiable del constructo en la muestra
concreta de investigación.
Entonces la fiabilidad de la consistencia interna define la consistencia de los
resultados de una prueba, garantizando que los diversos elementos que miden
los diferentes constructos brinden resultados consistentes.
La prueba de fiabilidad de la consistencia interna arroja una medida que indica
que cada una de estas diferentes aptitudes es medida correcta y fiablemente.
Una manera de probar esto es mediante un método de prueba y repetición, en
donde se administra la misma prueba después de la prueba inicial y se comparan
los resultados.
Sin embargo, esto crea algunos problemas y por eso muchos investigadores
prefieren medir la consistencia interna incluyendo dos versiones del mismo
instrumento en la misma prueba. Nuestro ejemplo de la prueba de inglés podría
incluir dos preguntas muy similares sobre el uso de la coma, dos sobre ortografía,
etc.
El principio básico es que el estudiante debe dar la misma respuesta a ambas. Si
no sabe cómo utilizar la coma responderá mal las dos veces. Algunas
manipulaciones estadísticas ingeniosas aportarán la fiabilidad de la consistencia
interna y permitirán que el investigador evalúe la fiabilidad de la prueba. Existen
tres técnicas principales para medir la fiabilidad de la consistencia interna,
dependiendo del grado, complejidad y alcance de la prueba.
Todas ellas comprueban que los resultados y constructos medidos por una
prueba sean correctos y que el tipo exacto utilizado sea dictado por el sujeto, el
tamaño del conjunto de datos y los recursos.
Todas ellas comprueban que los resultados y constructos medidos por una
prueba sean correctos y que el tipo exacto utilizado sea dictado por el sujeto, el
tamaño del conjunto de datos y los recursos.

19
La fiabilidad de la consistencia interna mide el grado en que una prueba aborda
diferentes constructos y ofrece resultados fiables. El método de prueba y
repetición implica administrar la misma prueba después de un período de tiempo
y comparar los resultados.
Por el contrario, medir la fiabilidad de la consistencia interna consiste en medir
dos versiones diferentes del mismo elemento en la misma prueba.
Fiabilidad entre calificadores o evaluadores
Es un método en donde el psicometrista (quien interpreta los test o pruebas y
otros procedimientos de medición) analiza si existe una medida de consistencia
entre un calificador y otro, así determina si el instrumento que se aplico es
confiable o no para la población.
En los test no estructurados, aunque no exclusivamente en ellos, es necesario
determinar si dos o más resultados obtenidos por dos o más evaluadores distintos
o por el mismo evaluador en momentos diferentes son coincidentes.
En estos casos estaremos hablando de fiabilidad intrajuez o fiabilidad interjueces
que es el grado de acuerdo mostrado en las valoraciones realizadas por los
jueces o expertos implicados en el proceso de valoración. Se calcula a través de
un índice de concordancia entre evaluadores.
El Coeficiente a (alpha) de Cronbach.
El método de consistencia interna basado en el alfa de Cronbach permite estimar
la fiabilidad de un instrumento de medida a través de un conjunto de ítems que
se espera que midan el mismo constructo o dimensión teórica.
Es un modelo de consistencia interna, basado en el promedio de las
correlaciones entre los ítems. Entre las ventajas de esta medida se encuentra la
posibilidad de evaluar cuánto mejoraría o empeoraría la fiabilidad de la prueba si
se excluyera un determinado ítem. Para determinar el coeficiente a Cronbach el

20
investigador calcula la correlación de cada reactivo o ítem con cada uno de los
otros, resultando una gran cantidad de coeficientes de correlación. El valor de a
es el promedio de todos los coeficientes de correlación.
La fiabilidad de la consistencia interna del instrumento se puede estimar con el
alfa de Cronbach, la medida de la fiabilidad mediante el alfa de Cronbach asume
que los ítems medidos en escala tipo Likert miden un mismo constructo y que
están altamente correlacionados. Cuanto más cerca se encuentre el valor del alfa
a 1 mayor es la consistencia interna de los ítems analizados. La fiabilidad de la
escala debe obtenerse siempre con los datos de cada muestra para garantizar la
medida fiable del constructo en la muestra concreta de investigación.
Como criterio general, George y Mallery sugieren las recomendaciones
siguientes para evaluar los coeficientes de alfa de Cronbach:
1. Coeficiente alfa >.9 es excelente
2. Coeficiente alfa >.8 es bueno
3. Coeficiente alfa >.7 es aceptable
4. Coeficiente alfa >.6 es cuestionable
5. Coeficiente alfa >.5 es pobre
6. Coeficiente alfa <.5 es inaceptable
Valoraciones de los autores:
 Nunnally: en las primeras fases de la investigación un valor de fiabilidad de 0.6
o 0.5 puede ser suficiente. Con investigación básica se necesita al menos 0.8 y
en investigación aplicada entre 0.9 y 0.95.
 Nunnally: dentro de un análisis exploratorio estándar, el valor de fibilidad en
torno a 0.7 es adecuado.
Por lo tanto, con la creación del a de Cronbach, los investigadores fueron capaces
de evaluar la confiabilidad o consistencia interna de un instrumento constituido
por una escala Likert, o cualquier escala de opciones múltiples. Se afirma que

21
varias modificaciones de las fórmulas de Kuder y Richard-son se han propuesto
en el transcurso del tiempo, pero la que ha recibido mayor aceptación hasta la
fecha es el estadígrafo a Cronbach.
Factores que afectan a la fiabilidad del test.
La fiabilidad de un test depende de factores como la variabilidad del grupo al que
se aplica, la longitud del propio test, las características de los ítems que lo
configuran, etc. Algunos de los factores que pueden afectar la fiabilidad de los
test son los siguientes:
1. El método de estimación de la fiabilidad que utilicemos.
2. Las condiciones concretas seleccionadas para aplicar el método: la
fiabilidad variará en función del lapso de tiempo elegido o del número de
formas paralelas que apliquemos sobre una muestra.
3. Características y tamaño de la muestra: cuanto más homogéneas sean las
muestras habrá menos variabilidad y, por tanto, la fiabilidad será menor.
En cambio, si las muestras son más heterogéneas, la fiabilidad será
mayor.
4. Longitud del test: es decir, el número de ítems que presenta el test. Cuanto
más largo es un test, mayor es su fiabilidad.
5. La improvisación en la medición y selección del instrumento.
6. Utilización de instrumentos extranjeros sin previa adaptación y
estandarización.
7. Instrumento inadecuado a las personas que se les aplica.
8. Condiciones en las que se administra el instrumento de medición

22
Bibliografía
Campbell, D. T. y Fiske, D. W. (1959). Convergent and discriminant validación by
the multitreat-multimethod matrix. Psychological Bulletin, 56, 81-105.
Castejón Costa, J. L. (1997). Introducción a los métodos y técnicas de
investigación y obtención de datos en psicología. Sant Vicent del Raspeig,
España: ECU.
Cook, T. D., y Campbell, D. T. (1979). Quasi-experimentation: Design and
analysis issues for field settings. Boston, MA: Houghton Mifflin Company.
Lawshe, C. H. (1975). A quantitative approach to content validity. Personnel
Psychology, 28, 563-575. Martínez Arias, M. R. (1995). Psicometría. Teoría de
los tests psicológicos y educativos. Madrid, España: Síntesis.
Suárez, J. M., Jornet, J. M. y Sáez, A. (1991). Proceso general de investigación.
Validez y diseño. Documento no publicado. Universidad de Valencia, Valencia
España.
Alonso M., Carlos E., Ospina B., David, Un tamaño de muestra preliminar en la
estimación de la media, en poblaciones con distribuciones uniformes y
triangulares. Revista Colombiana de Estadística [en línea] 2001, 24 [Fecha de
consulta: 13 de diciembre de 2018] Disponible
en:<http://www.redalyc.org/articulo.oa?id=89924103> ISSN 0120-1751
Briones, G.(1982). Métodos y técnicas de investigación para las ciencias
sociales. México: Trillas
Antología de Diseño y aplicación de instrumentos de evaluación. Doctorado en
Ciencias de la Educación.
Salkin, N. (1999) métodos de investigación, 3° Ed. México: Pearson.
Aiken, L. R. (2003) Test psicológicos y evaluación “confiabilidad y validez” 11°
Ed. México: Pearson.
MAGNUSSON, David. Teoría de los Test. Editorial Trillas. México: S/E; 1978.
Pág. 231

23
https://psikipedia.com/libro/psicometria/2776-factores-que-afectan-a-la-
fiabilidad.
https://rua.ua.es/dspace/bitstream/10045/19380/23/Tema%205-Fiabilidad.pdf.
https://www.uv.es/~friasnav/AlfaCronbach.pdf.

Diseño y aplicación de instrumentos de evaluación

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Ähnlich wie Diseño y aplicación de instrumentos de evaluación

Ähnlich wie Diseño y aplicación de instrumentos de evaluación (20)

Kürzlich hochgeladen

Kürzlich hochgeladen (20)

Diseño y aplicación de instrumentos de evaluación