Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Statistik# Anwendungen

Methoden zur Erkennung von Differenzialitem-Funktionieren bewerten

Eine Studie über Methoden zur Fairness in Bewertungen für verschiedene Gruppen.

Dandan Chen Kaptur, Jinming Zhang

― 4 min Lesedauer


DIF-Methoden: EineDIF-Methoden: Einekritische ÜberprüfungGruppen bewerten.Methoden für faire Tests in mehreren
Inhaltsverzeichnis

Differential Item Functioning (DIF) passiert, wenn Leute aus verschiedenen Gruppen Testfragen unterschiedlich beantworten, obwohl sie ähnliche Fähigkeiten haben. Das kann die Fairness von Tests beeinflussen, besonders wenn sie dazu benutzt werden, die Leistung über verschiedene Kulturen, Sprachen oder Bildungssysteme hinweg zu bewerten. Um Fairness zu gewährleisten, ist es wichtig, Methoden zu nutzen, die diese Unterschiede genau erkennen können.

Wichtigkeit der Evaluierung von DIF-Methoden

Viele Studien haben sich darauf konzentriert, DIF mit Methoden zu untersuchen, die für den Vergleich von zwei Gruppen entwickelt wurden. In der realen Welt geht's aber oft um mehrere Gruppen. Aktuelle Methoden haben manchmal Schwierigkeiten, wenn es darum geht, viele Gruppen zu analysieren, was zu Fehlern bei der Identifizierung von Items führen kann, die möglicherweise DIF zeigen.

Dieser Artikel bewertet vier gängige Methoden zur Erkennung von DIF, wenn mehr als zwei Gruppen beteiligt sind.

Überblick über die bewerteten Methoden

  1. Root Mean Square Deviation (RMSD): Diese Methode schaut sich an, wie sehr die beobachteten Ergebnisse von dem abweichen, was zu erwarten wäre, wenn es kein DIF gäbe. Sie hat sich in grossangelegten Tests etabliert.

  2. Wald-1: Diese Methode basiert darauf, die Ähnlichkeit der Itemmerkmale über Gruppen hinweg zu untersuchen. Sie nutzt einen Verknüpfungsansatz, um Items zu vergleichen.

  3. Generalized Logistic Regression (GLR): Diese Methode nutzt Regressionsmodelle, um die Antworten zu analysieren und DIF-Items basierend auf den Gesamtscores der Prüflinge zu identifizieren.

  4. Generalized Mantel-Haenszel (GMH): Diese Methode schaut sich die Antwortmuster über Gruppen hinweg an und vergleicht sie, um mögliche Verzerrungen zu erkennen.

Prozess der Methodenbewertung

Um zu sehen, wie gut diese Methoden arbeiten, wurde eine Simulationsstudie durchgeführt. Dabei wurden unterschiedliche Testszenarien mit variierenden Gruppenzahlen, Stichprobengrössen und Itemmerkmalen erstellt. Ziel war es, zu überprüfen, wie genau jede Methode DIF identifizieren kann, während Fehler kontrolliert werden.

Berücksichtigte Faktoren in der Simulation

  1. Anzahl der Gruppen: Die Szenarien beinhalteten 2, 5, 10 und 15 Gruppen, um reale Testbedingungen widerzuspiegeln.

  2. Fähigkeitsniveaus: Gruppen wurden mit unterschiedlichen Fähigkeitsniveaus simuliert, einige hoch und einige niedrig.

  3. Stichprobengrössen: Verschiedene Stichprobengrössen, die als klein und gross gekennzeichnet wurden, wurden verwendet, um zu sehen, wie die Gruppengrössen die DIF-Erkennung beeinflussten.

  4. DIF-Item-Proportion: Der Anteil der als DIF identifizierten Items wurde in der Simulation angepasst, um zu sehen, wie gut die Methoden abschnitten.

Datenerstellung für die Simulation

Die für die Simulation erstellten Daten ahmten reale Bewertungsdaten nach. Eine Referenzgruppe wurde als Benchmark ausgewählt, und die anderen Gruppen wurden so eingestellt, dass sie typische Fähigkeitsverteilungen in grossen Teststudien widerspiegelten.

Ergebnisse der Evaluation

Leistung jeder Methode

  1. RMSD:

    • War am effektivsten darin, festzustellen, wenn Items frei von DIF waren, unter Verwendung von modellvorhergesagten Schnittwerten.
    • Zeigte zu konservative Ergebnisse, wenn feste Schnittwerte verwendet wurden, was zu verpassten Identifikationen potenzieller DIF-Items führte.
  2. Wald-1:

    • Performte insgesamt gut, zeigte aber erhöhte Fehlerquoten, besonders bei nicht uniformem DIF, als viele Gruppen analysiert wurden.
    • Erforderte sorgfältige Überlegungen zur Anzahl der Gruppen, um genaue Ergebnisse zu gewährleisten.
  3. GLR:

    • Nützlich zur Erkennung von DIF, hatte aber Schwierigkeiten mit der Genauigkeit, wenn mehr als ein paar Gruppen analysiert wurden.
    • Die Leistung variierte erheblich, abhängig davon, wie die Gesamtscores in der Analyse verwendet wurden.
  4. GMH:

    • Zeigte gute Kontrolle über Typ-I-Fehler ohne Anpassungswerte.
    • Wurde zu konservativ, wenn Anpassungen vorgenommen wurden, was dazu führen konnte, dass DIF-Items übersehen wurden.

Auswirkungen auf zukünftige Forschung

Diese Studie hob hervor, dass es für Bildungsforscher notwendig ist, geeignete Methoden zur Erkennung von DIF auszuwählen. Die Ergebnisse legen nahe:

  • RMSD mit modellvorhergesagten Schnittwerten ist eine starke Wahl für grossangelegte Bewertungen, da es Typ-I-Fehlerquoten gut ausbalanciert.
  • Forscher sollten vorsichtig sein, wenn sie feste Schnittwerte mit RMSD verwenden, besonders in variierenden Gruppenszenarien.
  • Es bleibt nötig, die Leistung von GMH bei Anpassungen für multiple Vergleiche weiter zu untersuchen.
  • Künftige Studien sollten Methoden erforschen, die robust gegen ungleiche Stichprobengrössen und unterschiedliche Gruppenfähigkeitsniveaus sind.

Fazit

DIF effektiv zu erkennen ist entscheidend, um Fairness in Bewertungen über verschiedene Hintergründe hinweg sicherzustellen. Diese Bewertung von vier Methoden bietet wichtige Einblicke für Forscher und Praktiker und betont die Wichtigkeit, den richtigen Ansatz in komplexen Testsituationen zu wählen. Während Bildungsbewertungen weiter an Vielfalt gewinnen, wird der Bedarf an genauen DIF-Erkennungsmethoden nur noch dringlicher.

Originalquelle

Titel: Evaluating Four Methods for Detecting Differential Item Functioning in Large-Scale Assessments with More Than Two Groups

Zusammenfassung: This study evaluated four multi-group differential item functioning (DIF) methods (the root mean square deviation approach, Wald-1, generalized logistic regression procedure, and generalized Mantel-Haenszel method) via Monte Carlo simulation of controlled testing conditions. These conditions varied in the number of groups, the ability and sample size of the DIF-contaminated group, the parameter associated with DIF, and the proportion of DIF items. When comparing Type-I error rates and powers of the methods, we showed that the RMSD approach yielded the best Type-I error rates when it was used with model-predicted cutoff values. Also, this approach was found to be overly conservative when used with the commonly used cutoff value of 0.1. Implications for future research for educational researchers and practitioners were discussed.

Autoren: Dandan Chen Kaptur, Jinming Zhang

Letzte Aktualisierung: 2024-08-21 00:00:00

Sprache: English

Quell-URL: https://arxiv.org/abs/2408.11922

Quell-PDF: https://arxiv.org/pdf/2408.11922

Lizenz: https://creativecommons.org/licenses/by-nc-sa/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.

Mehr von den Autoren

Ähnliche Artikel