Recolección de datos, validez y confiabilidad

Recolección de datos validez y confiabilidad
1. Medición: ¿en qué consiste?
Según la herramienta Wikipedia una medición es un proceso básico de la ciencia que consiste en comparar un patrón seleccionado con el objeto o fenómeno cuya magnitud física se desea medir para ver cuántas veces el patrón está contenido en esa magnitud.
Definición 1. Una medición es un acto para determinar la magnitud de un objeto en cuanto a cantidad.
Aunque caben definiciones más complejas y descriptivas de cómo es el proceso como la siguiente definición sobre la medición de una magnitud geométrica:
Definición 2. Una medición es comparar la cantidad desconocida que queremos determinar y una cantidad conocida de la misma magnitud, que elegimos como unidad. Al resultado de medir se le denomina medida.
Los procesos de medición de magnitudes físicas que no son dimensiones geométricas entrañan algunas dificultades adicionales, relacionadas con la precisión y el efecto provocado sobre el sistema. Así cuando se mide alguna magnitud física se requiere en muchas ocasiones que el aparato de medida interfiera de alguna manera sobre el sistema físico en el que se debe medir algo o entre en contacto con dicho sistema. En esas situaciones se debe poner mucho cuidado, en evitar alterar seriamente el sistema observado. De acuerdo con la mecánica clásica no existe un límite teórico a la precisión o el grado de perturbación que dicha medida provocará sobre el sistema.

2. Validez. Definición
Se aplica la palabra validez para designar aquello que es válido o formalmente adecuado, por ajustarse a las reglas, ya sean lógicas, matemáticas o legales.
En Lógica, un razonamiento será válido, cuando la conclusión se derive de sus premisas. Será la conclusión verdadera si las premisas lo son, pero si éstas son falsas, y la conclusión también, esto no significa que el razonamiento no pueda ser formalmente válido si lo que dice la conclusión está contenido en las premisas. En la Lógica formal, los sujetos y predicados de las proposiciones se reemplazan por letras, sin tomar en cuenta la verdad o falsedad de las premisas, sino tomándose solamente como variables. Así se toma un camino de inferencias, que garantiza a través de un examen lógico del lenguaje, que los discursos poseen ausencia de contradicciones.
3. De contenido
La validez de contenido, a veces llamada la validez lógica o racional, determina en qué grado una medida representa a cada elemento de un constructo.

Por ejemplo, una prueba de educación con una fuerte validez de contenido incluirá los temas realmente enseñados a los estudiantes, en lugar de hacer preguntas sin relación.
Generalmente, la validez de contenido es considerada un prerrequisito para la validez de criterio, ya que es un buen indicador de si la característica deseada es medida. Si los elementos de la prueba son irrelevantes para el constructo principal, entonces están midiendo algo completamente diferente, creando un sesgo potencial.
Asimismo, la validez de criterio deriva correlaciones cuantitativas de las puntuaciones de las pruebas.
La validez de contenido es cualitativa en naturaleza y pregunta si un determinado elemento agrega o resta valor a una prueba o un programa de investigación.
¿Cómo se mide la validez de contenido?
La validez de contenido se relaciona con la validez aparente, pero difiere enormemente en cómo se evalúa.
La validez aparente exige un juicio personal, como preguntar a los participantes si piensan que la prueba fue bien construida y útil. La validez de contenido arriba a las mismas respuestas, pero utiliza un enfoque basado en las estadísticas, lo que garantiza que sea considerada un tipo de validez fuerte.
En el caso de encuestas y pruebas, un grupo de analistas expertos recibe todas las preguntas y las califica. Brindan su opinión sobre si la pregunta es esencial, útil o irrelevante para medir el constructo en estudio.
Sus resultados son analizados estadísticamente y la prueba es modificada para mejorar la validez racional.
Ejemplo de baja validez de contenido
Veamos un ejemplo sobre empleo, donde generalmente se utiliza la validez de contenido.
Una escuela quiere contratar a un nuevo profesor de ciencias y un panel de directores comienza a analizar a los distintos candidatos. Elaboran una lista acotada y luego diseñan una prueba, donde escogen al candidato con la mejor puntuación. Lamentablemente, éste demuestra ser un maestro de ciencias extremadamente mediocre.
Después de ver la prueba, la junta de educación comienza a ver en qué se equivocó. La gran mayoría de las preguntas fueron sobre física entonces, obviamente, la escuela encontró al mejor profesor de física.
Sin embargo, estaban buscando que el profesor de ciencias enseñara biología, química y psicología. La validez de contenido de la prueba fue pobre y no representó plenamente el constructo de "ser un buen profesor de ciencias".

Avergonzada, la escuela rediseñó la prueba y la sometió a un panel de expertos en educación. Después de pedirles a los candidatos que completaran el nuevo examen, la escuela encontró a otra persona que demostró ser una profesora de ciencias excelente y completa. Esta prueba tuvo una validez racional mucho más elevada y representó totalmente cada elemento del constructo.
4. De criterio
La validez de criterio evalúa si una prueba refleja un cierto conjunto de habilidades o no. Para medir el criterio de validez de una prueba, los investigadores deben compararlo con un estándar conocido o con él mismo. Comparar la prueba con una medida establecida recibe el nombre de validez concurrente; probarla durante un período de tiempo se denomina validez predictiva.
No es necesario utilizar ambos métodos. Uno es suficiente si el diseño experimental es fuerte.
Una de las formas más sencillas de evaluar la validez relacionada con el criterio es compararla con un estándar conocido.
Por ejemplo, una nueva prueba de inteligencia podría ser comparada estadísticamente con una prueba de CI estándar. Si existe una alta correlación entre los dos conjuntos de datos, entonces la validez de criterio es alta. Éste es un buen ejemplo de la validez concurrente, pero este tipo de análisis puede ser mucho más sutil.
Ejemplo de la validez de criterio en acción
Una empresa de encuestas desarrolla una prueba que cree que ubica a la gente en la escala política, en base a una serie de preguntas que establecen si la persona se inclina hacia la derecha o hacia la izquierda.

Con esta prueba, esperan predecir cómo va a votar la gente. Para evaluar la validez de criterio de la prueba, realizan un estudio piloto y eligen sólo miembros de los partidos políticos de izquierda y de derecha.
Si la prueba tiene una validez concurrente alta, los miembros del partido de izquierda deberían recibir puntuaciones que reflejen su ideología de izquierda. Del mismo modo, los miembros del partido de derecha deben recibir puntuaciones que indiquen que se encuentran a la derecha.
Si esto no sucede, entonces la prueba es defectuosa y necesita ser rediseñada. Si funciona, los investigadores pueden asumir que su prueba tiene una base sólida y que la validez de criterio es alta.
La mayoría de los encuestadores no se detiene allí y en unos pocos meses, cuando se cuenten los votos de las elecciones, les preguntarán a los sujetos cómo votaron realmente.
Esta validez predictiva les permite verificar dos veces su prueba, con una alta correlación que indique nuevamente que han desarrollado una prueba sólida de la ideología política.
Validez de criterio en la vida real: la pregunta del millón
Esta prueba política constituye una relación lineal muy simple y la validez de criterio es fácil de juzgar. En el caso de construcciones complejas, con muchos elementos relacionados entre sí, evaluar la validez relacionada con el criterio puede ser un proceso mucho más difícil.
Las compañías de seguros tienen que medir un constructo denominado "salud general" compuesto por factores de estilo de vida, antecedentes socioeconómicos, edad, predisposición genética y toda una serie de otros factores. Mantener elevada una validez relacionada con el criterio es difícil teniendo en cuenta todos estos factores, pero hacerlo mal puede arruinar el negocio.
Coca-Cola: el costo de descuidar la validez de criterio
Para los investigadores de mercado, la validez de criterio es crucial y puede crear o destruir un producto. Un ejemplo famoso es cuando Coca-Cola decidió cambiar el sabor de su bebida distintiva.
Con diligencia, investigaron si a la gente le gustaba el nuevo sabor por medio de pruebas de sabor y cuestionarios. A la gente le encantó el nuevo sabor, entonces Coca-Cola se apuró a comenzar con la producción de la Nueva Coca, lo que fue un fracaso enorme.
El error que Coca cometió fue que se olvidó de la validez de criterio y omitió una pregunta importante en la encuesta.
No se les preguntó a las personas si preferían el nuevo sabor al antiguo, un fracaso en establecer la validez concurrente. La Vieja Coca, conocida por su popularidad, era el punto de referencia perfecto, pero nunca fue utilizado. Con una simple prueba de sabor, vendándoles los ojos a las personas y preguntándoles cuál sabor de los dos preferían,

Coca-Cola se habría ahorrado millones de dólares. En última instancia, la validez predictiva también fue mediocre, porque sus resultados buenos no se correlacionaron con las ventas bajas. Para entonces, ¡ya era demasiado tarde!
5. De constructo
Es un concepto más complejo. Se refiere al grado en que el instrumento de medida cumple con las hipótesis que cabría esperar para un instrumento de medida diseñado para medir precisamente aquello que deseaba medir. Se puede considerar un concepto general que abarcaría los otros tipos de validez.
El término constructo hace referencia a un concepto teórico psicológico inobservable (ej. la inteligencia, cada factor de personalidad, las aptitudes, las actitudes, etc.) La definición operativa de estos constructos presenta considerables dificultades en la práctica, ya que no son directamente observables. Debido a esto, la validación de un constructo es un proceso laborioso y difícil.
Para la estimación de la validez de constructo se utiliza una metodología variada.
Algunos de los métodos más utilizados son:
1. Métodos correlacionales
Los coeficientes de correlación nos indica la relación del test con el conjunto de instrumentos de medida y criterios posibles, así como la relación entre el test y el constructo.
· Correlación del test con un criterio externo
· Correlación test con otros tests que pretenden medir los mismos aspectos o aspectos semejantes.
· Correlación del test con otros tests que miden características, que nada tienen que ver con el constructo que subyace al test.
Campbell y Fiske (1959) proponen que se calcule dos tipos de validez:

a) Validez convergente: indica las correlaciones positivas con otros tests que miden lo mismo.
b) Validez discriminante: indica las correlaciones nulas con tests que miden aspectos diferentes.
A través de estos dos tipos de validez se podría ir definiendo un constructo psicológico.
2. Análisis Factorial del test
El análisis factorial permite ordenar los datos y facilitar la interpretación de las correlaciones. Se espera un factor explicativo del constructo con saturaciones altas del test y los tests que miden aspectos parecidos, y con saturaciones bajas de aquellos tests que miden aspectos diferentes. Con frecuencia se habla de la estructura factorial de un test como validez estructural o validez factorial
3. Análisis de las diferencias individuales que pone de manifiesto un test
Se refiere al análisis de la distribución de las puntuaciones de test y a comparaciones de estos aspectos en distintas muestras. Diferentes edades, sexos, niveles profesionales, etc. Estas comparaciones no son arbitrarias, sino que se derivan de hipótesis que se hacen en función de los conocimientos que se tiene del constructo.
4. Análisis de los cambios en las diferencias individuales
Se refiere a la investigación diacrónica de los mismos sujetos con el mismo test. Este tipo de estudios permite conocer la estabilidad del rasgo a lo largo del tiempo y a través de situaciones.
5. Análisis lógico de los elementos del test
Se refiere al análisis de ítems del test en relación con el constructo. Aquellos ítems que correlacionan positivamente entre sí, pertenecen al mismo constructo. Esto significa que el análisis de consistencia interna de un test no sólo aporta datos respecto a su fiabilidad, sino a su validez. Si se obtiene un coeficiente de consistencia interna bajo, significa que el test no mide un único constructo. Todos estos métodos enumerados se complementan entre sí. Se trata de ver el constructo que trata de medir el test desde diferentes ángulos. Por tanto, no existe una única medida de la validez de constructo.

6. Confiabilidad. Definición
La palabra confiable es el término que extendidamente empleamos en nuestro idioma para dar cuenta de aquella persona o cosa en la cual es posible confiar y depositar la confianza, básicamente, porque dispone de una trayectoria notable diciendo la verdad y no engañando. Obviamente la cualidad de confiable que alguien ostente se construirá con los años y con concretas demostraciones de decir la verdad y no engañar.
Si bien como recién indicamos alguien o algo se convierten en confiables cuando presentan una sólida e indestructible trayectoria expresando la verdad o simplemente no defraudando, cabe destacar que también en algunos casos aunque no se disponga de tales pruebas, de todas maneras, alguien se deja guiar por la confianza que el otro le provoca y entonces termina por tomarlo como confiable a pesar de no reunir condiciones fehacientes que lo demuestren.
En tanto, la palabra confiable se encuentra en estrecha vinculación con el concepto de confianza, ya que precisamente es esta disposición de seguridad que una persona tiene sobre otro individuo, o respecto de alguna cosa, lo que hará confiable a esa persona o cosa.
La seguridad que alguien tenga en sí mismo a la hora de la realización satisfactoria de alguna actividad o tarea supone sí o sí la presencia de confianza en ese individuo, hecho que además lo terminará por erigir en un individuo confiable cuando de cumplir esa tarea o trabajo se trate.
En buena parte de las actividades y profesiones que desarrollamos en la vida las personas es importante contar con esa cuota de seguridad para así poder alcanzar el fin propuesto y también poder despertar en los otros la confianza.

Así como hay individuos que son más proclives a creer y confiar en el otro, también existen aquellos más reticentes y que necesitan antes comprobar la fiabilidad de alguien para depositar su total confianza en él.
Es importante mencionar en este sentido que la confianza que en sí mismo presente alguien será determinante a la hora de convertirse en una persona confiable para los otros individuos. Uno de los términos que solemos emplear como sinónimo de esta palabra es fiable, porque aquel o aquello que es fiable sí o sí despertará en nosotros confianza. Lo opuesto a lo confiable es lo dudoso.
7. Test-retest
Con este método el coeficiente de fiabilidad se calcula pasando mismo test dos veces a los mismos sujetos. Se pueden pasar inmediatamente, o dejando un intervalo de tiempo entre el test y el retest. Después se calcula la correlación de Pearson entre las puntuaciones de ambas aplicaciones, y el resultado obtenido será el coeficiente de fiabilidad. Se considera un caso específico de formas paralelas, dado que evidentemente un test es paralelo a sí mismo. Al resultado obtenido se le denomina coeficiente de estabilidad, al servir de indicador de hasta qué punto son estables las mediciones realizadas durante la primera aplicación del test. Las diferencias en los resultados se atribuyen al grado de consistencia interna o muestreo de los ítems de la prueba en el caso de pasar el retest de forma inmediata, y se le suman las fluctuaciones en el tiempo en el caso del intervalo temporal.
Dejar transcurrir un espacio de tiempo excesivo entre ambas aplicaciones puede suponer una amenaza a la validez interna por las posibles influencias externas a la que pueden estar expuestos los sujetos durante el intervalo, y que pueden afectar a su desempeño en la segunda aplicación. En el extremo opuesto, una aplicación demasiado apresurada del retest podría afectar igualmente a la validez interna, en este caso por los posibles efectos del recuerdo reciente de la primera aplicación. La elección del intervalo de tiempo

adecuado entre ambas aplicaciones dependerá en gran medida del tipo de test, ya que en función de su formato puede ser más sensible al efecto de una u otra amenaza
8. Formas paralelas
Este procedimiento es el que se deriva naturalmente del modelo. Requiere que se utilizan dos pruebas o instrumentos paralelos, esto es, que midan lo mismo de forma diferente (por ejemplo, dos tests que con diferentes preguntas miden un determinado rasgo). Después se comparan los dos tests, calculando el coeficiente de correlación de Pearson. Esta correlación será, como hemos visto en el apartado anterior, el coeficiente de fiabilidad. Si la correlación es alta, se considera que hay una buena fiabilidad.
Al valor obtenido también se le conoce como coeficiente de equivalencia, en la medida en que supone un indicador del grado de equivalencia entre las dos formas paralelas de un test.
La dificultad de este procedimiento radica en conseguir que dos instrumentos sean realmente "paralelos", dada la dificultad que supone realizar dos pruebas que midan exactamente lo mismo, pero con diferentes ítems. No obstante, en condiciones ideales en las que se pueda garantizar el paralelismo de ambas formas, este es el método más recomendable.

9. Split-halves
Una medida de la coherencia en los que se divide la prueba en dos y las puntuaciones de cada mitad de la prueba se compara con otros. Si la prueba es consistente conduce el experimentador para creer que lo más probable es la medición de la misma cosa. Esto no se debe confundir con validez en el que el experimentador está interesado si la prueba mide lo que se supone que debe medir. Una prueba de que es coherente lo más probable es medir algo; el experimentador no sabe qué es ese "algo". Es por ello que se dice que la confiabilidad establece el límite máximo de validez.
10. Coeficiente Alfa de Cronbach
Es un coeficiente que sirve para medir la fiabilidad de una escala de medida, y cuya denominación Alfa fue realizada por Cronbach en 1951, aunque sus orígenes se encuentran en los trabajos de Hoyt (1941) y de Guttman (1945).
Contexto:
Un investigador trata de medir una cualidad no directamente observable (por ejemplo, la inteligencia) en una población de sujetos. Para ello mide n variables que sí son observables (por ejemplo, n respuestas a un cuestionario o un conjunto de n problemas lógicos) de cada uno de los sujetos.

Se supone que las variables están relacionadas con la magnitud inobservable de interés. En particular, las n variables deberían realizar mediciones estables y consistentes, con un elevado nivel de correlación entre ellas.
El alfa de Cronbach permite cuantificar el nivel de fiabilidad de una escala de medida para la magnitud inobservable construida a partir de las n variables observadas.
El alfa de Cronbach no deja de ser una media ponderada de las correlaciones entre las variables (o ítems) que forman parte de la escala. Puede calcularse de dos formas: a partir de las varianzas (alpha de Cronbach) o de las correlaciones de los ítems (Alpha de Cronbach estandarizado). Hay que advertir que ambas fórmulas son versiones de la misma y que pueden deducirse la una de la otra. El alpha de Cronbach y el alpha de Cronbach estandarizados, coinciden cuando se estandarizan las variables originales (items).
Condiciones para hacer Alpha:
Este alfa siempre se hará por escalas de tal manera que, a modo de ejemplo, en el test STAI de ansiedad rasgo y ansiedad estado publicado por TEA, se llevarían a cabo dos índices de consistencia (el alfa correspondiente a ansiedad rasgo y el alfa correspondiente a ansiedad estado). Ahora bien, para poder calcular la fiabilidad de un test, este debe cumplir con dos requisitos previos:
1. Estar formado por un conjunto de ítems que se combinan aditivamente para hallar una puntuación global (esto es, la puntuaciones se suman y dan un total que es el que se interpreta).
2. Todos los ítems miden la característica deseada en la misma dirección. Es decir, los ítems de cada una de las escalas tienen el mismo sentido de respuesta (a mayor puntuación, más ansiedad, por ejemplo; este sentido de respuesta viene especificado en el manual del test).
A modo de ejemplo, ocurre que cuando se redacta un test con respuestas tipo Likert (pongamos 0=nada a 3=mucho), se observan ítems de la siguiente forma:
-"Me siento calmado" → contestar con 3 significaría poca ansiedad (a más puntuación, menos ansiedad).
-"Me siento tenso" → contestar con 3 significaría mucha ansiedad (a más puntuación, más ansiedad).
El segundo ítem es el que se corresponde con el sentido de respuesta especificado en el manual, pero como el primero no cumple esa relación, deberá ser invertido para que el test así tenga todos los ítems con el mismo sentido y se pueda, pues, calcular el índice de

consistencia o Alfa de Cronbach. (Este proceso de cambio de sentido se llevaría a cabo, en el SPSS, programa estadístico más popular entre los psicólogos, mediante una recodificación de datos).
11. Coeficiente KR-20
El Método KR20 representa un coeficiente de consistencia interna del instrumento, que proporciona la media de todos los coeficientes de división por mitades para todas las posibles divisiones del instrumento en dos partes (Magnusson, 1995).
La fórmula KR-20 tan solo es una variante de alfa especialmente orientada a items dicotómicamente valorados (específicamente, valorados con los valores 0 y 1). (Bolívar, 1997).
Origen:
Para el año 1937 Kuder y Richardson desarrollaron el conocido KR20, se denominó de esta forma porque fue la fórmula número 20 presentada por el famoso artículo de los autores. También existen varios modelos para estimar la confiabilidad de consistencia interna de una prueba, entre ellos los más conocidos son los siguientes: Alpha de Croncbach, Dos mitades, Sperman-Brown, Método de Hoyt.
Características:
Permite calcular la confiabilidad con una sola aplicación del instrumento.
No requiere el diseño de pruebas paralelas.
Es aplicable sólo en instrumentos con ítems dicotómicos, en los cuales sólo existen respuestas correctas e incorrectas.
Su representación:
Aplicación:
La fórmula KR-20 tan solo es una variante de alfa especialmente orientada a items dicotómicamente valorados.

Una vez obtenido p (=A/N) y q (=1- p) para cada ítem, se procede a obtener la varianza de cada ítem como producto de p por q. También necesitamos la varianza del total y la suma de la varianza de los items para aplicar finalmente la fórmula KR20.
Media:
Es la medida de tendencia central más utilizada en los métodos estadísticos y es, por otra parte, el promedio al que estamos más acostumbrados.
Se obtiene sumando todos los datos y dividiendo por el número de ellos.
Ejemplo:
Varianza:
Es el cuadrado de la desviación media.
Ejemplo:

Referencias
Cronbach, Lee J. (1951). «Coefficient alpha and the internal structure of tests» (en inglés). Psychometrika 16 (3), pp. 297-334.
Gutiérrez, Carlos (2005). «1». Introducción a la Metodología Experimental (1 edición). Editorial Limusa. p. 15.
Volver arriba↑ Douglas A. Skoog (2009). Principios de Análisis Instrumental (6 edición). PARANINFO, S.A. p. 968.
Volver arriba↑ Bueno, Juan M. (1999). Universidad de Murcia, ed. Introducción a la óptica instrumental (1 edición). p. 118.
Martyn Shuttleworth (Jan 12, 2009). Validez de criterio. Nov 11, 2014 Obtenido de Explorable.com: https://explorable.com/es/validez-de-criterio
Slideshare publicado el 25 de marzo de 2014 por Nidia Pérez - Validez y confiabilidad.

Recolección de datos, validez y confiabilidad

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Ähnlich wie Recolección de datos, validez y confiabilidad

Ähnlich wie Recolección de datos, validez y confiabilidad (20)

Kürzlich hochgeladen

Kürzlich hochgeladen (20)

Recolección de datos, validez y confiabilidad