Algunas malconcepciones en psicometría

Sijtsma narra su experiencia, ideas, críticas y propuestas hacia la psicometría desde que fue presidente de la Dutch Committee on Tests and Testing (COTAN). En dicha institución se viene realizando una evaluación a las pruebas psicométricas creadas en su país desde los años 80 con diferentes criterios como: bases teóricas del test, calidad de los materiales, exhaustividad del manual, normas, fiabilidad, validez de constructo y de criterio. La evaluación es necesaria para todo, a fin de que un instrumento pueda ser utilizado. Sin embargo, esto no ha sido suficiente puesto que la evolución de la calidad de la construcción de los instrumentos no ha avanzado en la manera en que se esperaba desde los años 80:

El uso de las normas sigue siendo preocupante.
Las muestras son demasiado pequeñas o poca representativas para los objetivos de la prueba (instrumento de aplicación nacional por ejemplo).
No ha habido mejora en la validez de criterio.
Pequeños cambios en fiabilidad y validez de constructo que siguen siendo minoritarios.
Uso predominante de la teoría clásica de los test (TCT).

Sijtsma conceptualiza algunas explicaciones del porqué de esta situación. Los investigadores siguen utilizando métodos clásicos y antiguos y muchos de ellos muestran resistencia al cambio o de aceptar que otros métodos de análisis pueden ser mejores que los usados clásicamente (ej. el coeficiente alfa, o TRI). La mejor manera de cambiar esto es mediante una adecuada enseñanza.

Otro aspecto importante a tratar es la enorme confusión que hay acerca de los estadísticos utilizados en los diferentes métodos de estimación de la fiabilidad. Muchos investigadores tienen la idea de que el uso de procedimientos en por test-retest, métodos paralelos y/o consistencia interna tienen objetivos totalmente distintos y no brindan evidencia de lo mismo. Esto refuerza enormemente la resistencia a utilizar estimadores distintos al coeficiente alfa, debido a que, al ser un estadístico distinto el que se vaya a usar, no se podrían realizar las mismas interpretaciones que se realizaban anteriormente y mucho menos, realizar una comparación entre los mismo. De esta manera, el coeficiente alfa se considera como el límite inferior “teóricamente fundamentado”, que no puede cuestionarse fácilmente. Esto, nuevamente, recae en un inadecuado aprendizaje de los conceptos psicométricos fundamentales.

Haciendo un ensayo por simulación Monte Carlo podemos evidenciar que las estimaciones apuntan a lo mismo siempre y cuando se respesten las asunciones sobre los cuales fueron construidos:

1. Condiciones ideales (tauequivalencia en los ítems)

library(lavaan)

## This is lavaan 0.6-5

## lavaan is BETA software! Please report any bugs.

# Modelo 1
modelo_01 <- " # Modelo de medición
               F1 =~ 0.7*Item01 + 0.7*Item02 + 0.7*Item03 + 0.7*Item04 + 0.7*Item05"

data_01 <- simulateData(modelo_01, sample.nobs=250, standardized=TRUE,
                        seed = 2020)

userfriendlyscience::scaleReliability(data_01,
                                      poly = FALSE)

## Registered S3 method overwritten by 'GGally':
##   method from   
##   +.gg   ggplot2

## Registered S3 methods overwritten by 'lme4':
##   method                          from
##   cooks.distance.influence.merMod car 
##   influence.merMod                car 
##   dfbeta.influence.merMod         car 
##   dfbetas.influence.merMod        car

## 
## Information about this analysis:
## 
##                  Dataframe: data_01
##                      Items: all
##               Observations: 250
##      Positive correlations: 10 out of 10 (100%)
## 
## Estimates assuming interval level:
## 
##              Omega (total): 0.86
##       Omega (hierarchical): 0.78
##    Revelle's omega (total): 0.88
## Greatest Lower Bound (GLB): 0.87
##              Coefficient H: 0.86
##           Cronbach's alpha: 0.86
## Confidence intervals:
##              Omega (total): [0.83, 0.89]
##           Cronbach's alpha: [0.83, 0.89]
## 
## Note: the normal point estimate and confidence interval for omega are based on the procedure suggested by Dunn, Baguley & Brunsden (2013) using the MBESS function ci.reliability, whereas the psych package point estimate was suggested in Revelle & Zinbarg (2008). See the help ('?scaleStructure') for more information.

Podemos observar en los resultados que el coeficiente alfa y omega presentan estimaciones idénticas. Esto es debido a que cuando se cumplen los supuestos de los estimadores, todos estiman la fiabilidad verdadera. GLB se ve un poco sesgado en condiciones de normalidad y poca muestra.

2. Condiciones más realistas (cargas factoriales variables)

modelo_02 <- " # Modelo de medición
               F1 =~ 0.7*Item01 + 0.45*Item02 + 0.9*Item03 + 0.39*Item04 + 0.65*Item05"

data_02 <- simulateData(modelo_02, sample.nobs=250, standardized=TRUE,
                        seed = 2020)

userfriendlyscience::scaleReliability(data_02,
                                      poly = FALSE)

## 
## Information about this analysis:
## 
##                  Dataframe: data_02
##                      Items: all
##               Observations: 250
##      Positive correlations: 10 out of 10 (100%)
## 
## Estimates assuming interval level:
## 
##              Omega (total): 0.81
##       Omega (hierarchical): 0.76
##    Revelle's omega (total): 0.82
## Greatest Lower Bound (GLB): 0.85
##              Coefficient H: 0.88
##           Cronbach's alpha: 0.79
## Confidence intervals:
##              Omega (total): [0.77, 0.84]
##           Cronbach's alpha: [0.74, 0.83]
## 
## Note: the normal point estimate and confidence interval for omega are based on the procedure suggested by Dunn, Baguley & Brunsden (2013) using the MBESS function ci.reliability, whereas the psych package point estimate was suggested in Revelle & Zinbarg (2008). See the help ('?scaleStructure') for more information.

En esta ocasión, el coeficiente omega presenta una estimación mayor que el coeficiente alfa. Esto debido a que omega considera las variaciones en las cargas factoriales, mientras que el coeficiente alfa asume que son iguales (tauequivalencia).

3. Condiciones más realistas y con asimetría y curtosis

modelo_03 <- " # Modelo de medición
               F1 =~ 0.7*Item01 + 0.45*Item02 + 0.9*Item03 + 0.39*Item04 + 0.65*Item05"

data_03 <- simulateData(modelo_03, sample.nobs=250, standardized=TRUE,
                        skewness = c(-3, -2.2, -1, -0.5, -0.3),
                        kurtosis = c(1, 1.5, 2, 1.3, 1.1),
                        seed = 2020)

## Warning in fleishman1978_abcd(skewness = SK[i], kurtosis = KU[i]): lavaan
## WARNING: ValeMaurelli1983 method did not convergence, or it did not find the
## roots

## Warning in fleishman1978_abcd(skewness = SK[i], kurtosis = KU[i]): lavaan
## WARNING: ValeMaurelli1983 method did not convergence, or it did not find the
## roots

userfriendlyscience::scaleReliability(data_03,
                                      poly = FALSE)

## 
## Information about this analysis:
## 
##                  Dataframe: data_03
##                      Items: all
##               Observations: 250
##      Positive correlations: 10 out of 10 (100%)
## 
## Estimates assuming interval level:
## 
##              Omega (total): 0.75
##       Omega (hierarchical): 0.69
##    Revelle's omega (total): 0.78
## Greatest Lower Bound (GLB): 0.83
##              Coefficient H: 0.85
##           Cronbach's alpha: 0.74
## Confidence intervals:
##              Omega (total): [0.7, 0.8]
##           Cronbach's alpha: [0.69, 0.79]
## 
## Note: the normal point estimate and confidence interval for omega are based on the procedure suggested by Dunn, Baguley & Brunsden (2013) using the MBESS function ci.reliability, whereas the psych package point estimate was suggested in Revelle & Zinbarg (2008). See the help ('?scaleStructure') for more information.

Las estimaciones omega y alfa se ven más afectada, manteniendo las mismas cargas factoriales que en el caso 2. Mientras que glb es quien presenta una estimación más parecida a lo anterior mostrado.

4. Condiciones más realistas e ítems dicotómicos

modelo_04 <- " # Modelo de medición
               F1 =~ 0.7*Item01 + 0.45*Item02 + 0.9*Item03 + 0.39*Item04 + 0.65*Item05
               # Umbrales para cada ítem
               Item01 | -1.5*t1 
               Item02 | 1.1*t1              
               Item03 | -1.5*t1 
               Item04 | -0.2*t1 
               Item05 | 0.3*t1 "

data_04 <- simulateData(modelo_04, sample.nobs=250, standardized=TRUE,
                        seed = 2020)

userfriendlyscience::scaleReliability(data_04,
                                      poly = TRUE)

## Warning in lav_model_vcov(lavmodel = lavmodel2, lavsamplestats = lavsamplestats, : lavaan WARNING:
##     The variance-covariance matrix of the estimated parameters (vcov)
##     does not appear to be positive definite! The smallest eigenvalue
##     (= -4.495975e-19) is smaller than zero. This may be a symptom that
##     the model is not identified.

## 
## Information about this analysis:
## 
##                  Dataframe: data_04
##                      Items: all
##               Observations: 250
##      Positive correlations: 10 out of 10 (100%)
## 
## Estimates assuming interval level:
## 
##              Omega (total): 0.51
##       Omega (hierarchical): 0.48
##    Revelle's omega (total): 0.66
## Greatest Lower Bound (GLB): 0.66
##              Coefficient H: 0.69
##           Cronbach's alpha: 0.55
## Confidence intervals:
##              Omega (total): [0.42, 0.61]
##           Cronbach's alpha: [0.47, 0.64]
## 
## Estimates assuming ordinal level:
## 
##      Ordinal Omega (total): 0.83
##  Ordinal Omega (hierarch.): 0.81
##   Ordinal Cronbach's alpha: 0.82
## Confidence intervals:
##      Ordinal Omega (total): [0.8, 0.86]
##   Ordinal Cronbach's alpha: [0.78, 0.85]
## 
## Note: the normal point estimate and confidence interval for omega are based on the procedure suggested by Dunn, Baguley & Brunsden (2013) using the MBESS function ci.reliability, whereas the psych package point estimate was suggested in Revelle & Zinbarg (2008). See the help ('?scaleStructure') for more information.

Por último, los coeficientes de fiabilidad en general se ven afectadas cuando se enfrentan a ítems ordinales (lo cual es en la mayor cantidad de los casos), puesto que la matriz de correlación que se utiliza es la de pearson. Mientras que el coeficiente alfa y omega tienen procedimientos desarrollados para consideraciones ordinales. A medida que las categorías de los ítems se incremente, el sesgo producido en su estimación, será menor.

Referencia

Sijtsma, K. (2012). Future of Psychometrics: Ask What Psychometrics Can Do for Psychology. Psychometrika, 77(1), 4–20. https://doi.org/10.1007/s11336-011-9242-4