Valutare i metodi per rilevare il funzionamento differenziale degli item
Uno studio sui metodi per garantire equità nelle valutazioni tra gruppi diversi.
― 4 leggere min
Indice
Il Funzionamento Differenziale degli Item (DIF) succede quando le persone di gruppi diversi rispondono in modo diverso alle domande di un test, anche se hanno abilità simili. Questo può influenzare l'equità dei test, specialmente quando vengono usati per valutare le performance tra diverse culture, lingue o sistemi educativi. Per mantenere l'equità, è fondamentale usare metodi che possano individuare queste differenze con precisione.
Importanza della Valutazione dei Metodi DIF
Molti studi si sono concentrati sull'esaminare il DIF usando metodi progettati per confrontare due gruppi. Tuttavia, nella vita reale spesso ci sono più gruppi coinvolti. I metodi attuali possono avere difficoltà ad analizzare molti gruppi, portando a errori nell'identificazione degli item che potrebbero mostrare DIF.
Questo articolo valuta quattro metodi comuni per rilevare il DIF quando ci sono più di due gruppi coinvolti.
Panoramica dei Metodi Valutati
Deviazione Quadratica Media (RMSD): Questo metodo esamina quanto i risultati osservati differiscono da quelli attesi se non ci fosse DIF. È diventato popolare nei test su larga scala.
Wald-1: Questo metodo si basa sull'esaminare la somiglianza delle caratteristiche degli item tra i gruppi. Usa un approccio di collegamento per confrontare gli item.
Regressione Logistica Generalizzata (GLR): Questo metodo utilizza modelli di regressione per analizzare le risposte e identificare gli item DIF in base ai punteggi totali degli esaminandi.
Mantel-Haenszel Generalizzato (GMH): Questo metodo guarda ai modelli di risposta tra i gruppi e li confronta per identificare eventuali bias.
Processo di Valutazione dei Metodi
Per vedere quanto siano efficaci questi metodi, è stato condotto uno studio di simulazione. Questo ha comportato la creazione di diversi scenari di test con numeri variabili di gruppi, dimensioni campionarie e caratteristiche degli item. L'obiettivo era vedere quanto accuratamente ogni metodo potesse identificare il DIF controllando per gli errori.
Fattori Considerati nella Simulazione
Numero di Gruppi: Gli scenari includevano 2, 5, 10 e 15 gruppi per riflettere le condizioni di test reali.
Livelli di Abilità: I gruppi sono stati simulati con diversi livelli di abilità, alcuni alti e altri bassi.
Dimensioni del Campione: Sono state usate diverse dimensioni campionarie, contrassegnate come piccole e grandi, per vedere come le dimensioni dei gruppi influenzassero la rilevazione del DIF.
Proporzione di Item DIF: La proporzione di item identificati come DIF è stata regolata nella simulazione per vedere quanto bene si comportassero i metodi.
Creazione dei Dati per la Simulazione
I dati creati per la simulazione imitavano i dati di valutazione reali. Un gruppo di riferimento è stato selezionato come benchmark, e gli altri gruppi sono stati impostati per riflettere le distribuzioni di abilità tipiche trovate negli studi di test su larga scala.
Risultati dalla Valutazione
Performance di Ogni Metodo
RMSD:
- È stato più efficace nell'identificare quando gli item erano privi di DIF usando cutoff predetti dal modello.
- Ha mostrato risultati troppo conservativi quando si usavano valori di cutoff fissi, portando a mancare l'identificazione di potenziali item DIF.
Wald-1:
- Ha performato bene in generale ma ha mostrato tassi di errore gonfiati, specialmente con DIF non uniforme quando sono stati analizzati molti gruppi.
- Ha necessitato di una considerazione attenta riguardo al numero di gruppi per garantire risultati accurati.
GLR:
- Utile per rilevare il DIF ma ha avuto difficoltà con l'accuratezza quando è stato analizzato più di qualche gruppo.
- La performance variava significativamente in base a come venivano usati i punteggi totali nell'analisi.
GMH:
- Ha mostrato un buon controllo sugli errori di Tipo-I senza alcun aggiustamento di valore.
- È diventato troppo conservativo quando sono stati fatti aggiustamenti, il che potrebbe portare a mancare l'identificazione di item DIF.
Implicazioni per la Ricerca Futura
Questo studio ha evidenziato la necessità per i ricercatori educativi di selezionare metodi appropriati per rilevare il DIF. I risultati suggeriscono:
- RMSD con cutoff predetti dal modello è una scelta forte per le valutazioni su larga scala, poiché bilancia bene i tassi di errore di Tipo-I.
- I ricercatori dovrebbero essere cauti nell'uso di cutoff fissi con RMSD, specialmente in scenari con gruppi variati.
- Rimane la necessità di esaminare ulteriormente le performance di GMH quando si fanno aggiustamenti per confronti multipli.
- Gli studi futuri dovrebbero esplorare metodi che siano robusti contro dimensioni campionarie disuguali e livelli di abilità variabili tra i gruppi.
Conclusione
Rilevare il DIF in modo efficace è cruciale per garantire l'equità nelle valutazioni tra diversi contesti. Questa valutazione di quattro metodi offre approfondimenti importanti per i ricercatori e i praticanti, sottolineando l'importanza di usare l'approccio giusto in situazioni di test complesse. Man mano che le valutazioni educative continuano a crescere in diversità, la necessità di metodi accurati per la rilevazione del DIF diventerà sempre più pressante.
Titolo: Evaluating Four Methods for Detecting Differential Item Functioning in Large-Scale Assessments with More Than Two Groups
Estratto: This study evaluated four multi-group differential item functioning (DIF) methods (the root mean square deviation approach, Wald-1, generalized logistic regression procedure, and generalized Mantel-Haenszel method) via Monte Carlo simulation of controlled testing conditions. These conditions varied in the number of groups, the ability and sample size of the DIF-contaminated group, the parameter associated with DIF, and the proportion of DIF items. When comparing Type-I error rates and powers of the methods, we showed that the RMSD approach yielded the best Type-I error rates when it was used with model-predicted cutoff values. Also, this approach was found to be overly conservative when used with the commonly used cutoff value of 0.1. Implications for future research for educational researchers and practitioners were discussed.
Autori: Dandan Chen Kaptur, Jinming Zhang
Ultimo aggiornamento: 2024-08-21 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2408.11922
Fonte PDF: https://arxiv.org/pdf/2408.11922
Licenza: https://creativecommons.org/licenses/by-nc-sa/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.