Las discrepancias en el uso y comprensión de la validez

¿Cómo surgen los Standards?

Desde 1950, la American Psychological Association (APA), American Educational Research Association (AERA) y la National Council on Measurement in Education (NCME) han creado normas dirigidas a la medición educativa y psicológica, proporcionando una base para el desarrollo, uso y evaluación de la calidad de las pruebas. Estas son las “Normas para las pruebas educativas y psicológicas” o simplemente “Standards”. Estas normas abordan diversos aspectos de una prueba. Uno de ellos corresponde a la validez, sobre el que aún existe una discrepancia respecto a lo que se dice y piensa de ella. Esta discrepancia se puede verificar a lo largo de la historia de los Standards, específicamente en dos normas:

No te referirás a la validez de la prueba, como si fuera una propiedad de las pruebas y no usarás etiquetas modificadoras. Esta última promovida por las tres primeras ediciones, pero rechazada por la cuarta y quinta (Newton & Shaw, 2017).

Los cambios en dos normas de los Standards

Durante los años 1985 y 1966, la APA estableció comités para una mayor normalización y control de las pruebas; uno de los intentos fue realizado por el Comité de Normalización de la Asociación Nacional de Directores de Investigación Educativa de América del Norte, que encuestó a sus miembros para establecer un consenso sobre qué tipo de información demostraría la superioridad de una prueba sobre otra. Este consenso incluyó la determinación de la validez y fiabilidad, relacionados con problemas de la medición. La validez se relacionó con la determinación de lo que mide una prueba y la fiabilidad con la consistencia con la que se mide.

Años más tarde, la APA encargó desarrollar una declaración oficial de la profesión relativa a las normas de presentación de información sobre los test, lo que dio luz al documento “Recomendaciones técnicas para las pruebas psicológicas y las técnicas de diagnóstico: Una propuesta preliminar” en 1952 (Ventura-León, 2017). Posteriormente, en 1954, la APA, AERA y el National Council on Measurements Used in Education (NCMUE) presentaron las “Recomendaciones técnicas para pruebas psicológicas y técnicas de diagnóstico”; donde la sección de validez incluía 19 normas y la primera se refería a cómo debía ser expresada la validez.

Cuando se informe sobre la validez, el manual debe indicar claramente a qué tipo de validez se refiere. El término “validez” sin reservas debe evitarse a menos que su significado se desprenda claramente del contexto (APA, AERA & NCME, 1954; pp. 18-19)

Esta norma generó la convención de usar etiquetas modificadoras, para hacer distinciones entre los diferentes tipos de validez, debido a las diversas interpretaciones que se podrían dar de los resultados de una prueba usados con diferentes propósitos y en distintos contextos. Esta idea se vio reflejada en la publicación de los Standards en 1954, la cual inserta los conceptos de validez de contenido, de predicción, concurrente y de constructo. Pero en la segunda edición se combina la validez predictiva y concurrente formando la validez de criterio. Sin embargo, lo ya establecido cambió en la edición de 1985, que fue influenciada por Messick.

Messick consideró a la validez como un concepto unitario y aunque no formuló un rechazo de las etiquetas modificadoras, se refirió a ellas como evidencias de validez. Se aceptó que los diferentes tipos de pruebas se relacionaban con diferentes aspectos de la validez, pero los diferentes tipos de pruebas no estaban relacionadas a diferentes tipos de validez, ya que solo había un tipo de validez, que era la validez de constructo. Así es como los Standards de 1999 dejan de lado las tres etiquetas y nombra las evidencias de validez basada en el contenido de las pruebas, en los procesos de respuesta, en la estructura interna, las relaciones con otras variables y las consecuencias de su uso. Mostrando así una concepción unificada de validez.

Por otro lado, en la publicación de los Standards del 1966 se menciona que es incorrecto utilizar la frase “validez de la prueba” ya que “ninguna prueba es válida para todos los propósitos o en todas las situaciones o para todos los grupos (APA, AERA, & NCME, 1966, p. 15). Esta norma generó la convención de que uno no debería referirse a la “validez de prueba” ya que esta no es juzgada como válida o inválida, sino debe enfocarse en la interpretación de los resultados de la prueba. En la teoría moderna, la validez se relaciona con la interpretación de los resultados y no de la prueba, pero, ante ello cada interpretación debía ser validada, en este caso no se necesitan diferentes enfoques para validar diferentes tipos de interpretación sino ahora la validez de constructo era necesaria para todas las interpretaciones haciendo que la norma “no te referiras a la validez de la prueba” perdure, la cual habría sido uno de los fundamentos de apoyo para el uso de las etiquetas.

La disyunción entre los Standards y lo que se piensa y dice sobre la validez en la literatura publicada

Ante la publicación de los primeros Standards se generó un incremento de nuevas etiquetas, tiempo en el cual muchos autores consideraron prematura la idea de tener un consenso sobre la validez. La situación se mantuvo después de la publicación de los Standards que redujo a tres los tipos de validez (validez de contenido, constructo y criterio) y esta práctica continuó incluso después de la publicación de los Standards de 1985, la cual poseía una concepción unitaria de la validez. Esto se fue evidenciando a partir de las revisiones realizadas por Newton y Shaw (2013) en el lapso de enero del 2005 al 2010, encontrando en 22 revistas de medición, la mención de 32 etiquetas en los títulos de los artículos, entre ellas la validez predictiva, convergente, discriminante, entre otras.

Hay al menos tres categorías principales de explicación de la disyunción:

Malentendido intencional: comprender la concepción de consenso, y aceptarla, pero utilizar un lenguaje no consensuado.
Falta de conocimiento o malentendido: no entender la concepción de consenso y utilizar un lenguaje no consensual.
Divergencia genuina: comprender la concepción de consenso, pero rechazarla, y optar por utilizar un lenguaje no consensuado.

Finalmente, se puede mencionar que las normas buscan una forma particular de pensar sobre la validez como fundamento para la práctica de la medición. Donde el consenso es importante para establecer un acuerdo, entre los conceptos científicos y profesionales sobre la validez; así como entre los profesionales de la comunidad abocada a la medición en psicología y educación sobre la forma en que se conceptualiza la validez para evitar así malas prácticas.

Referencias:

American Psychological Association, American Educational Research Association, & National Council on Measurements Used in Education. (1954). Technical recommendations for psychological tests and diagnostic techniques. Psychological Bulletin, 51(2, pt. 2), 1–38. https://doi.org/10.1037/h0053479

American Psychological Association, American Educational Research Association, & National Council on Measurement in Education. (1966). Standards for educational and psychological tests and manuals. American Psychological Association.

American Educational Research Association, American Psychological Association & National Council on Measurement in Education. (2014). Standards for educational and psychological testing. American Educational Research Association.

Newton, P. E., & Shaw, S. D. (2013). Standards for talking and thinking about validity. Psychological Methods, 18(3), 301–319. https://doi.org/10.1037/a0032969

Ventura-León, J. (2017). Breve historia del concepto validez en psicometría. Revista Peruana de Historia de la Psicología, 2, 89-92.