Evaluando Métodos para Detectar el Funcionamiento Diferencial de los Ítems
Un estudio sobre métodos para la equidad en las evaluaciones entre grupos diversos.
Dandan Chen Kaptur, Jinming Zhang
― 5 minilectura
Tabla de contenidos
- Importancia de Evaluar Métodos DIF
- Resumen de Métodos Evaluados
- Proceso de Evaluación de Métodos
- Factores Considerados en la Simulación
- Creación de Datos para la Simulación
- Hallazgos de la Evaluación
- Rendimiento de Cada Método
- Implicaciones para la Investigación Futura
- Conclusión
- Fuente original
- Enlaces de referencia
El Funcionamiento Diferencial de Ítems (DIF) ocurre cuando personas de diferentes grupos responden a preguntas de un examen de manera distinta, incluso si tienen habilidades similares. Esto puede afectar la equidad de las pruebas, especialmente cuando se usan para evaluar el rendimiento en diferentes culturas, idiomas o sistemas educativos. Para mantener la justicia, es fundamental utilizar métodos que puedan detectar estas diferencias con precisión.
Importancia de Evaluar Métodos DIF
Muchos estudios se han centrado en examinar el DIF utilizando métodos diseñados para comparar dos grupos. Sin embargo, en la vida real, a menudo se involucran múltiples grupos. Los métodos actuales pueden tener problemas para analizar muchos grupos, lo que lleva a errores al identificar qué ítems podrían mostrar DIF.
Este artículo evalúa cuatro métodos comunes para detectar DIF cuando hay más de dos grupos involucrados.
Resumen de Métodos Evaluados
Desviación Cuadrática Media (RMSD): Este método analiza cuánto difieren los resultados observados de lo que se esperaría si no hubiera DIF. Se ha vuelto popular en pruebas a gran escala.
Wald-1: Este método se basa en examinar la similitud de las características de los ítems entre grupos. Utiliza un enfoque de vinculación para comparar ítems.
Regresión Logística Generalizada (GLR): Este método usa modelos de regresión para analizar las respuestas e identificar ítems DIF basándose en las puntuaciones totales de los examinados.
Mantel-Haenszel Generalizado (GMH): Este método observa los patrones de respuesta entre grupos y los compara para identificar cualquier posible sesgo.
Proceso de Evaluación de Métodos
Para ver qué tan bien funcionan estos métodos, se realizó un estudio de simulación. Esto implicó crear diferentes escenarios de prueba con distintos números de grupos, tamaños de muestra y características de ítems. El objetivo era ver cuán bien cada método podía identificar DIF mientras controlaba errores.
Factores Considerados en la Simulación
Número de Grupos: Los escenarios incluían 2, 5, 10 y 15 grupos para reflejar condiciones reales de prueba.
Niveles de Habilidad: Se simularon grupos con diferentes niveles de habilidad, algunos altos y otros bajos.
Tamaños de Muestra: Se utilizaron diferentes tamaños de muestra, marcados como pequeños y grandes, para ver cómo los tamaños de grupo afectaban la detección de DIF.
Proporción de Ítems DIF: La proporción de ítems identificados como DIF se ajustó en la simulación para ver qué tan bien funcionaron los métodos.
Creación de Datos para la Simulación
Los datos creados para la simulación imitaron datos de evaluación reales. Se seleccionó un grupo de referencia como punto de referencia, y los otros grupos se establecieron para reflejar distribuciones típicas de habilidad encontradas en estudios de pruebas a gran escala.
Hallazgos de la Evaluación
Rendimiento de Cada Método
RMSD:
- Fue el más efectivo para identificar cuándo los ítems estaban libres de DIF usando límites predichos por el modelo.
- Mostró resultados demasiado conservadores al usar valores de corte fijos, lo que resultó en la no identificación de posibles ítems DIF.
Wald-1:
- Se desempeñó bien en general, pero mostró tasas de error infladas, particularmente con DIF no uniforme cuando se analizaron muchos grupos.
- Requirió consideraciones cuidadosas sobre el número de grupos para asegurar resultados precisos.
GLR:
- Útil para detectar DIF, pero tuvo problemas de precisión al analizar más de unos pocos grupos.
- El rendimiento varió significativamente según cómo se utilizaron las puntuaciones totales en el análisis.
GMH:
- Mantuvo un buen control sobre errores de Tipo-I sin ningún ajuste de valor.
- Se volvió demasiado conservador cuando se hicieron ajustes, lo que podría llevar a perder la identificación de ítems DIF.
Implicaciones para la Investigación Futura
Este estudio resaltó la necesidad de que los investigadores educativos seleccionen métodos apropiados para detectar DIF. Los hallazgos sugieren:
- RMSD con límites predichos por el modelo es una buena opción para evaluaciones a gran escala, ya que equilibra bien las tasas de error de Tipo-I.
- Los investigadores deben tener cuidado al usar cortes fijos con RMSD, especialmente en escenarios de grupos variados.
- Sigue habiendo una necesidad de examinar más el rendimiento de GMH cuando se hacen ajustes para múltiples comparaciones.
- Los estudios futuros deberían explorar métodos que sean robustos contra tamaños de muestra desiguales y niveles de habilidad de grupo variados.
Conclusión
Detectar DIF de manera efectiva es crucial para asegurar la equidad en las evaluaciones a través de diversos contextos. Esta evaluación de cuatro métodos ofrece ideas críticas para investigadores y practicantes, enfatizando la importancia de usar el enfoque correcto en situaciones de prueba complejas. A medida que las evaluaciones educativas continúan creciendo en diversidad, la necesidad de métodos precisos de detección de DIF se volverá aún más urgente.
Título: Evaluating Four Methods for Detecting Differential Item Functioning in Large-Scale Assessments with More Than Two Groups
Resumen: This study evaluated four multi-group differential item functioning (DIF) methods (the root mean square deviation approach, Wald-1, generalized logistic regression procedure, and generalized Mantel-Haenszel method) via Monte Carlo simulation of controlled testing conditions. These conditions varied in the number of groups, the ability and sample size of the DIF-contaminated group, the parameter associated with DIF, and the proportion of DIF items. When comparing Type-I error rates and powers of the methods, we showed that the RMSD approach yielded the best Type-I error rates when it was used with model-predicted cutoff values. Also, this approach was found to be overly conservative when used with the commonly used cutoff value of 0.1. Implications for future research for educational researchers and practitioners were discussed.
Autores: Dandan Chen Kaptur, Jinming Zhang
Última actualización: 2024-08-21 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2408.11922
Fuente PDF: https://arxiv.org/pdf/2408.11922
Licencia: https://creativecommons.org/licenses/by-nc-sa/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.