Die Neubewertung von Sprachmodellbewertungen
Forschung hinterfragt die traditionellen Methoden zur Bewertung von Werten und Meinungen von Sprachmodellen.
― 6 min Lesedauer
Inhaltsverzeichnis
- Aktuelle Bewertungspraktiken
- Der Bedarf an Veränderungen
- Wichtige Erkenntnisse
- Was ist der Political Compass Test?
- Überprüfung vergangener Arbeiten
- Auswirkungen erzwungener Wahl
- Analyse der Antworten
- Die Rolle der Umschreibung
- Übergang zu offenen Antworten
- Fazit: Empfehlungen für bessere Bewertungen
- Originalquelle
- Referenz Links
Jüngste Forschung konzentriert sich darauf, wie man die Werte und Meinungen von grossen Sprachmodellen (LLMs) durch Methoden wie Umfragen und Fragebögen bewerten kann. Diese Studien werden von Bedenken über die Auswirkungen dieser Modelle auf die Gesellschaft getrieben, wenn sie Inhalte für viele Nutzer generieren. Allerdings fühlt sich die Art und Weise, wie Forscher aktuell LLMs bewerten, oft künstlich an, weil echte Nutzer normalerweise nicht mit diesen Modellen über formelle Umfragefragen interagieren. Dieses Missverhältnis wirft eine wichtige Frage auf: Wie können wir genauer bewerten, welche Werte und Meinungen von LLMs ausgedrückt werden?
Aktuelle Bewertungspraktiken
Die meisten bestehenden Bewertungen basieren auf Multiple-Choice-Formaten, bei denen Modelle aus vorgegebenen Optionen wählen müssen. Zum Beispiel greifen Studien auf Umfragen wie das Global Attitudes-Dataset von Pew oder andere, die sich auf politische Werte konzentrieren, zurück. Während diese Formate für menschliche Befragte gut funktionieren mögen, spiegeln sie nicht wider, wie alltägliche Nutzer mit LLMs umgehen. Nutzer stellen den Modellen oft offene Fragen, anstatt eine Liste von Optionen zu geben. Dieser Unterschied in der Herangehensweise wirft erhebliche Bedenken auf, wie wir die Werte und Meinungen der LLMs verstehen.
Der Bedarf an Veränderungen
Angesichts der Einschränkungen der aktuellen Methoden konzentriert sich diese Forschung darauf, einen besseren Weg zur Bewertung von LLMs zu finden. Diese Studie verwendet den Political Compass Test (PCT) als Fallstudie, um das Problem zu veranschaulichen. Der PCT ist ein bekanntes Multiple-Choice-Questionnaire, das darauf abzielt, politische Werte zu bewerten. Eine Überprüfung früherer Arbeiten zeigt, dass die meisten Bewertungen mit dem PCT die Modelle zwingen, nur aus den vorgegebenen Optionen zu wählen. Wenn Modelle hingegen die Freiheit haben, frei zu Antworten, ergeben sich oft unterschiedliche Antworten.
Wichtige Erkenntnisse
Wir haben fünf Hauptentdeckungen gemacht:
- Eine gründliche Überprüfung der bestehenden Literatur zeigt, dass die meisten Studien, die den PCT verwenden, die Modelle auf das Multiple-Choice-Format beschränken.
- Wenn Modelle frei antworten dürfen, geben sie unterschiedliche Antworten.
- Die Art, wie Modelle angesprochen werden, führt zu Variationen in ihren Antworten.
- Die Antworten unterscheiden sich erheblich je nach kleinen Änderungen in der Formulierung der Fragen.
- Die Antworten der Modelle ändern sich erneut, wenn wir zu einem offeneren Antwortformat wechseln.
Diese Erkenntnisse deuten darauf hin, dass die herkömmlichen Bewertungen nicht nur begrenzt, sondern auch instabil sind, was die Notwendigkeit neuer Bewertungspraktiken betont, die besser die Interaktionen der Nutzer widerspiegeln.
Was ist der Political Compass Test?
Der Political Compass Test enthält 62 Aussagen, die die Ansichten der Nutzer zu mehreren Themen kategorisieren, einschliesslich nationaler und globaler Perspektiven, wirtschaftlicher Überzeugungen, persönlicher Werte, Gesellschaft, Religion und Sexualität. Jede Aussage erlaubt den Befragten, eine von vier Optionen auszuwählen: "stimme überhaupt nicht zu", "stimme nicht zu", "stimme zu" oder "stimme voll und ganz zu". Auffällig ist, dass es keine neutrale Option gibt.
Am Ende des Tests werden die Personen auf zwei Achsen positioniert, die ihre wirtschaftlichen Ansichten (links oder rechts) und sozialen Überzeugungen (libertär oder autoritär) darstellen. Wir haben den PCT als unsere Fallstudie gewählt, weil er die aktuellen Methoden zur Bewertung von Werten und Meinungen in LLMs gut repräsentiert.
Überprüfung vergangener Arbeiten
Um die Wirksamkeit des PCT bei der Bewertung von LLMs zu prüfen, haben wir 12 Studien betrachtet, die diesen Test verwendet haben. Die meisten dieser Studien fordern die Modelle auf, eine der vier PCT-Antworten für jede Aussage zu wählen. Einige Forscher glauben, dass diese erzwungene Wahl die wahre Natur der Modellantworten offenbart, während andere sie einfach als notwendig erachten, um gültige Ergebnisse zu erzielen. Die Realität ist jedoch, dass frühere Ergebnisse nicht eindeutig beweisen, wie robust diese Bewertungen sind, und es fehlt an Tests, wie kleine Änderungen bei den Aufforderungen die Ergebnisse beeinflussen.
Auswirkungen erzwungener Wahl
Die Praxis, LLMs zu zwingen, eine Antwort aus dem Multiple-Choice-Format des PCT auszuwählen, schafft eine unnatürliche Einschränkung der Fähigkeit des Modells, seine wahren Werte und Meinungen auszudrücken. In unseren Experimenten haben wir untersucht, wie sich das Entfernen und Variieren dieser erzwungenen Optionen auf die Antworten des Modells auswirkt.
Als wir den Modellen erlaubten, ohne den zusätzlichen Druck, sich für eine Seite zu entscheiden, zu antworten, fanden wir heraus, dass viele Modelle ungültige Antworten gaben. Diese ungültigen Antworten zeigen oft die Unfähigkeit eines Modells, eine Meinung zu vertreten oder beide Seiten einer Aussage darzustellen, was auf die Einschränkungen erzwungener Bewertungen hinweist.
Analyse der Antworten
Wir haben weiter untersucht, wie unterschiedliche Methoden der Aufforderung die Antworten von LLMs beeinflussen. Wir haben mehrere Strategien getestet, um zu sehen, wie verschiedene Aufforderungen den Anteil gültiger Antworten über verschiedene Modelle hinweg beeinflussten. Die Ergebnisse zeigen einen erheblichen Unterschied in der Zustimmung, basierend darauf, wie stark die Aufforderung formuliert war. Auffällig ist, dass einige Modelle besser auf weniger drängende Aufforderungen reagieren, während andere negativ reagieren, wenn negative Ergebnisse angedeutet werden.
Die Rolle der Umschreibung
Zudem haben wir untersucht, wie sich die Antworten ändern, wenn wir Fragen subtil umformulieren. Durch kleine Änderungen konnten wir beobachten, wie diese Variationen zu erheblichen Unterschieden in den Ergebnissen führten. Diese Inkonsistenz wirft Fragen zur Zuverlässigkeit der Verwendung von Multiple-Choice-Formaten zur Bewertung von Modellen auf.
Übergang zu offenen Antworten
Um ein realistischeres Verständnis von LLMs zu gewinnen, haben wir zu einem offenen Antwortformat gewechselt. Anstatt mehrere Optionen anzubieten, haben wir die Modelle ermutigt, freien Text zu generieren, der ihre Perspektive zu jedem Vorschlag festhält. Dieser Ansatz spiegelt wider, wie Nutzer typischerweise mit LLMs interagieren und ermöglicht eine nuanciertere Ausdrucksweise von Meinungen.
Als wir den Modellen erlaubten, in ihren eigenen Worten zu antworten, fanden wir heraus, dass sie oft gegensätzliche Ansichten im Vergleich zum Multiple-Choice-Format äusserten. Diese Verschiebungen in den Antworten zeigen, dass Modelle in einem offenen Format möglicherweise eher libertäre Ansichten vertreten. Die Ergebnisse zeigten ausserdem, dass kleine Änderungen in den Aufforderungen weiterhin signifikante Auswirkungen auf die Antworten der Modelle haben können, was darauf hinweist, dass auch in einem offenen Setting Instabilität besteht.
Fazit: Empfehlungen für bessere Bewertungen
Sowohl die Forschungsergebnisse als auch die theoretischen Herausforderungen legen nahe, dass die Bewertungen der Werte und Meinungen von LLMs sich weiterentwickeln sollten. Zunächst ist es entscheidend, die Bewertungen mit den Kontexten in Einklang zu bringen, in denen Nutzer mit den Modellen interagieren. Das bedeutet, sich von erzwungenen Formaten zu entfernen, die die Realität der Nutzung nicht widerspiegeln. Zweitens müssen Forscher umfassende Robustheitstests durchführen, um zu verstehen, wie kleine Änderungen in der Formulierung oder im Kontext die Ergebnisse beeinflussen könnten. Schliesslich ist es wichtig, sich darauf zu konzentrieren, lokal begrenzte Aussagen über die Werte des Modells zu machen, anstatt breit gefächerte, allgemeine Aussagen.
Letztendlich unterstreicht die Studie die Notwendigkeit für anpassungsfähigere und reflektierendere Methoden zur Bewertung der politischen Werte oder Meinungen von LLMs. Indem Forscher offenere Bewertungen annehmen, können sie eine breitere Palette von Antworten erfassen und so die nuancierten Ansichten besser darstellen, die von diesen Modellen ausgedrückt werden. Dieser Ansatz hilft nicht nur, LLMs zu verstehen, sondern trägt auch dazu bei, die dringenden gesellschaftlichen Bedenken zu adressieren, die mit ihrer Anwendung in realen Umgebungen verbunden sind.
Titel: Political Compass or Spinning Arrow? Towards More Meaningful Evaluations for Values and Opinions in Large Language Models
Zusammenfassung: Much recent work seeks to evaluate values and opinions in large language models (LLMs) using multiple-choice surveys and questionnaires. Most of this work is motivated by concerns around real-world LLM applications. For example, politically-biased LLMs may subtly influence society when they are used by millions of people. Such real-world concerns, however, stand in stark contrast to the artificiality of current evaluations: real users do not typically ask LLMs survey questions. Motivated by this discrepancy, we challenge the prevailing constrained evaluation paradigm for values and opinions in LLMs and explore more realistic unconstrained evaluations. As a case study, we focus on the popular Political Compass Test (PCT). In a systematic review, we find that most prior work using the PCT forces models to comply with the PCT's multiple-choice format. We show that models give substantively different answers when not forced; that answers change depending on how models are forced; and that answers lack paraphrase robustness. Then, we demonstrate that models give different answers yet again in a more realistic open-ended answer setting. We distill these findings into recommendations and open challenges in evaluating values and opinions in LLMs.
Autoren: Paul Röttger, Valentin Hofmann, Valentina Pyatkin, Musashi Hinck, Hannah Rose Kirk, Hinrich Schütze, Dirk Hovy
Letzte Aktualisierung: 2024-06-05 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2402.16786
Quell-PDF: https://arxiv.org/pdf/2402.16786
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.
Referenz Links
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://www.politicalcompass.org/test
- https://github.com/paul-rottger/llm-values-pct
- https://www.idrlabs.com/tests.php
- https://davidrozado.substack.com/p/the-political-orientation-of-the
- https://www.politicalcompass.org/uselection2020
- https://www.washingtonpost.com/technology/2023/08/16/chatgpt-ai-political-bias-research/
- https://www.forbes.com/sites/emmawoollacott/2023/08/17/chatgpt-has-liberal-bias-say-researchers/
- https://www.politico.com/newsletters/digital-future-daily/2023/08/24/the-tricky-problem-behind-ai-bias-00112845