Voreingenommenheit bei der Beurteilung von Sprachmodellen
Forschung zeigt, dass es erhebliche Vorurteile bei der Bewertung von Antworten durch Menschen und LLMs gibt.
― 7 min Lesedauer
Inhaltsverzeichnis
- Forschungsfrage
- Das Framework
- Die Wichtigkeit der Bewertung von LLMs
- Bewertungsmethoden
- Aktuelle Bewertungsframeworks
- Beispiel-Demonstration
- Beiträge
- Wichtige Ergebnisse
- Verwandte Arbeiten
- Bewertung von Menschen und LLMs
- Vorurteile bei menschlichen und LLM-Richtern
- Vorurteile identifizieren
- Experimentelles Protokoll
- Datengenerierung
- Versuchsobjekte
- Versuchsverfahren
- Metriken
- Experimentelle Ergebnisse
- Fallstrick-Überwachungs-Vorurteil
- Autoritäts-Vorurteil
- Schönheits-Vorurteil
- Umfangs-Vorurteil
- Positions-Vorurteil
- Täuschung von LLM-Richtern
- Fazit
- Originalquelle
- Referenz Links
In letzter Zeit gibt es immer mehr Interesse daran, sowohl Menschen als auch grosse Sprachmodelle (LLMs) zu nutzen, um die Leistung von LLMs zu bewerten. Allerdings kann diese Methode zu Vorurteilen führen, die die Ergebnisse beeinflussen könnten. Unsere Forschung zielt darauf ab, diese Vorurteile bei menschlichen Richtern und LLMs zu untersuchen.
Forschungsfrage
Die zentrale Frage, die wir beantworten wollen, ist: Wie voreingenommen sind Menschen und LLMs, wenn sie offene Antworten bewerten? Um das anzugehen, haben wir ein neues Framework erstellt, um fünf verschiedene Arten von Vorurteilen in Bezug auf diese Richter zu untersuchen.
Das Framework
Wir haben einen Datensatz mit 142 Proben basierend auf überarbeiteter Blooms Taxonomie zusammengestellt und Bewertungen sowohl mit menschlichen Richtern als auch mit LLMs durchgeführt. Unsere Ergebnisse zeigen, dass sowohl menschliche Richter als auch LLMs signifikante Vorurteile aufweisen, selbst bei den fortschrittlichsten Modellen. Wir haben auch weitere Tests durchgeführt, um diese Schwächen auszunutzen.
Bewertung von LLMs
Die Wichtigkeit derMomentan haben Modelle wie GPT-4, Bard und Claude sich als effektiv bei verschiedenen Sprachaufgaben erwiesen. Diese Systeme werden auch zu alltäglichen Werkzeugen in unserem Leben. Währenddessen arbeitet die Open-Source-Community daran, ähnliche Modelle zu erstellen, die für alle zugänglich sind.
Um mit den Fortschritten der LLMs Schritt zu halten, wurden viele Benchmarks entwickelt, um ihre Leistung zu bewerten. Diese Benchmarks können in zwei Haupttypen unterteilt werden: offene und geschlossene. Geschlossene Benchmarks sind zwar praktisch, haben oft Probleme mit Datenverunreinigung, was die Ergebnisse beeinflussen kann. Auf der anderen Seite bieten offene Benchmarks ein realistischeres Szenario zur Bewertung von LLMs, da sie auf die Fähigkeit der Modelle angewiesen sind, bedeutungsvolle Antworten zu generieren.
Bewertungsmethoden
Die Nutzung von menschlichen Richtern für offene Fragen ist üblich. Solche Bewertungen können durch LLMs ergänzt werden, die eine weitere Perspektive bieten. Allerdings können Vorurteile, die sowohl bei menschlichen als auch bei LLM-Richtern vorhanden sind, die Validität dieser Methoden in Frage stellen.
Das führt zu einer wichtigen Folgefrage: Wie voreingenommen sind Menschen und LLMs, wenn sie generierte Inhalte bewerten? Um das herauszufinden, werden wir Daten durch Interventionen und Beobachtungsstudien sammeln.
Aktuelle Bewertungsframeworks
Die meisten bestehenden Vorurteilsbewertungs-Frameworks hängen von einem Goldstandard ab, der entweder menschliche Urteile oder vordefinierte richtige Antworten umfassen kann. Es gibt jedoch Szenarien, in denen Goldstandards fehlen oder schlecht definiert sind. Daher schlagen wir einen neuen Ansatz zur Vorurteilsbewertung vor, der solche Standards nicht benötigt.
Beispiel-Demonstration
Für unsere Experimente werden wir Proben erstellen, die aus einer Frage und zwei unbeeinflussten Antworten für eine Kontrollgruppe bestehen. Beeinflusste Versionen der Antworten werden dann für eine Experimentalgruppe generiert. Das Ziel ist es, zu analysieren, wie Vorurteile bei der Bewertung dieser Antworten eine Rolle spielen.
Beiträge
Unsere Arbeit zielt darauf ab, drei Hauptbeiträge zu leisten:
Wir führen ein neues Framework ein, um fünf Arten von Vorurteilen bei menschlichen und LLM-Richtern zu erforschen. Dieses Framework ist anpassungsfähig und kann ohne menschliche Referenzen oder richtige Antworten betrieben werden.
Wir führen eine systematische Untersuchung der Schwachstellen dieser Richter über verschiedene Arten von Veränderungen durch. Wir nutzen auch diese Schwächen aus, um zu sehen, wie sie manipuliert werden können.
Wir teilen einen Open-Source-Datensatz, der eine tiefere Alternative zu bestehenden Datensätzen bietet und die Qualität von offenen Bewertungen verbessert.
Wichtige Ergebnisse
Aus unserer Forschung sind mehrere wichtige Erkenntnisse hervorgegangen:
- Sowohl menschliche als auch LLM-Richter zeigen Vorurteile.
- Menschliche Richter zeigen signifikante Vorurteile in verschiedenen Bereichen.
- Verschiedene LLMs zeigen unterschiedliche Arten von Vorurteilen, die manipuliert werden können, um vorteilhafte Bewertungen zu erzielen.
Verwandte Arbeiten
Bewertung von Menschen und LLMs
Menschliches Feedback galt traditionell als der Goldstandard bei der Bewertung von natürlicher Sprachgenerierung (NLG). Es kann die Modellperformance verbessern oder als Zeichen für die Qualität der Ausgabe dienen. Vor dem Aufkommen der LLMs wurden verschiedene Metriken wie BertScore und GPTScore weit verbreitet zur Bewertung von NLG-Aufgaben verwendet.
In letzter Zeit haben mächtige LLMs diese Rolle übernommen, traditionelle Methoden ersetzt und sind jetzt alltäglich in der Bewertung anderer LLMs.
Vorurteile bei menschlichen und LLM-Richtern
Forschung zeigt, dass sowohl menschliche als auch LLM-Richter voreingenommen sein können. Menschliche Vorurteile stammen oft aus subjektiven Meinungen, was zu geringerer Reproduzierbarkeit führt. Studien deuten darauf hin, dass menschliches Urteil von verschiedenen Faktoren beeinflusst werden kann, was die Vorstellung infrage stellt, dass Menschen der ultimative Standard sind.
LLMs haben auch ihre eigenen Vorurteile, einschliesslich Autoritäts- und Umfangs-Vorurteile. Diese können dazu führen, dass Modelle oberflächliche Qualität über Substanz bevorzugen.
Vorurteile identifizieren
In unserer Studie beleuchten wir die Herausforderungen der Durchführung von Vorurteilsanalysen. Das Fehlen eines klaren Goldstandards erschwert den gültigen Vergleich von Vorurteilen. Darüber hinaus ist es schwierig, ein kontrolliertes, aber umfassendes Experiment durchzuführen.
Wir kategorisieren Vorurteile in zwei Typen:
Semantisch-Agnostische Vorurteile: Vorurteile, die nicht mit der Bedeutung des Textes zusammenhängen, wie z.B. Umfangs- und Schönheitsvorurteile.
Semantisch-Verwandte Vorurteile: Vorurteile, die mit dem Inhalt des Textes verbunden sind, wie z.B. rassistische oder geschlechtsspezifische Vorurteile.
Experimentelles Protokoll
Wir beschreiben unsere experimentelle Methodik, Datenerstellung, Verfahren, Bewertungsmetriken und die Modelle, die wir bewertet haben.
Wir haben sowohl Interventionen als auch nachträgliche Analysen durchgeführt. Intervention bezieht sich auf die Manipulation bestimmter Variablen, um deren Auswirkungen zu studieren, während nachträgliche Analysen bestehende Merkmale ohne direkte Intervention beobachten.
Datengenerierung
Um Daten für unser Experiment zu erstellen, haben wir GPT-4 verwendet, um Fragen und Antworten zu generieren. Jede Frage ist aus den Stufen von Blooms Taxonomie erstellt, um sicherzustellen, dass sie mit dem Wissen von Mittelschülern übereinstimmt.
Für jede Frage erstellen wir zwei Antworten, die als original und verändert gekennzeichnet sind, bevor wir diese mit sowohl menschlichen als auch LLM-Richtern testen.
Versuchsobjekte
Insgesamt dienten 79 College-Studenten als menschliche Richter. Wir haben auch eine Auswahl repräsentativer Modelle bewertet, um sicherzustellen, dass sie minimale Positionsvorurteile aufweisen.
Versuchsverfahren
Wir haben unsere Richter in zwei Gruppen aufgeteilt: die Kontrollgruppe und die Experimentalgruppe. Der Prozess umfasst mehrere Runden der Bewertung jedes Antwortpaares, während ihre Positionen gemischt werden, um Vorurteile zu verringern.
Metriken
Wir verwenden mehrere Metriken, um die Leistung zu messen, einschliesslich der Erfolgsquote bei Angriffen (ASR), um die Widerstandsfähigkeit der Richter gegenüber Veränderungen zu bewerten.
Experimentelle Ergebnisse
Fallstrick-Überwachungs-Vorurteil
Die Ergebnisse zeigen, dass verschiedene Modelle und menschliche Richter unterschiedliche Fähigkeiten haben, faktische Fehler zu erkennen. GPT-4 und PaLM-2 haben am besten abgeschnitten, während menschliche Richter und LLaMA2-70B Schwächen zeigten.
Autoritäts-Vorurteil
Bei der Untersuchung des Autoritätsvorurteils fanden wir heraus, dass PaLM-2 am robustesten war, während viele Modelle, einschliesslich GPT-4, Schwierigkeiten mit diesem Typ Vorurteil hatten.
Schönheits-Vorurteil
Für visuell ansprechende Inhalte war Ernie am wenigsten von oberflächlichen Änderungen beeinflusst, während Claude-2 am stärksten betroffen war.
Umfangs-Vorurteil
Unsere Analyse zeigt, dass menschliche Richter und verschiedene Modelle eine Vorliebe für längere Antworten zeigten, wobei die Vorlieben mit zunehmender Antwortlänge intensiver wurden.
Positions-Vorurteil
Die meisten Bewerter zeigten Positionspräferenzen, wobei einige Modelle stärkere Vorurteile im Vergleich zu anderen aufwiesen.
Täuschung von LLM-Richtern
Da wir die Schwächen bei LLM-Richtern bemerkten, haben wir deren Reaktion auf schwächere Antworten untersucht, die durch Veränderungen ansprechender gemacht wurden. Unsere Ergebnisse deuten darauf hin, dass Autoritätsvorurteile eine bedeutende Rolle dabei spielen, wie LLMs Antworten bewerten.
Durch eine Reihe von Vergleichen haben wir aufgezeigt, dass selbst fehlerhafte Antworten höher bewertet werden können als die richtigen, indem man nicht-semantische Elemente manipuliert.
Fazit
Wir haben ein neuartiges Framework entwickelt, um Vorurteile bei menschlichen und LLM-Richtern zu untersuchen. Unsere Erkenntnisse zeigen signifikante Vorurteile in beiden Gruppen, was die Notwendigkeit besserer Bewertungsmethoden unterstreicht. Indem wir unseren Datensatz teilen, wollen wir weitere Forschung anstossen, um Vorurteile in Bewertungen zu verstehen und anzugehen.
Titel: Humans or LLMs as the Judge? A Study on Judgement Biases
Zusammenfassung: Adopting human and large language models (LLM) as judges (a.k.a human- and LLM-as-a-judge) for evaluating the performance of LLMs has recently gained attention. Nonetheless, this approach concurrently introduces potential biases from human and LLMs, questioning the reliability of the evaluation results. In this paper, we propose a novel framework that is free from referencing groundtruth annotations for investigating Misinformation Oversight Bias, Gender Bias, Authority Bias and Beauty Bias on LLM and human judges. We curate a dataset referring to the revised Bloom's Taxonomy and conduct thousands of evaluations. Results show that human and LLM judges are vulnerable to perturbations to various degrees, and that even the cutting-edge judges possess considerable biases. We further exploit these biases to conduct attacks on LLM judges. We hope that our work can notify the community of the bias and vulnerability of human- and LLM-as-a-judge, as well as the urgency of developing robust evaluation systems.
Autoren: Guiming Hardy Chen, Shunian Chen, Ziche Liu, Feng Jiang, Benyou Wang
Letzte Aktualisierung: 2024-09-25 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2402.10669
Quell-PDF: https://arxiv.org/pdf/2402.10669
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.