Bewertung von Sprachmodellen mit Multiple-Choice-Fragen
Eine Studie zeigt, dass LLMs beim Beantworten von Auswahlfragen glänzen und unerwartete Denkfähigkeiten offenbaren.
― 6 min Lesedauer
Inhaltsverzeichnis
- Die Studie
- Wichtige Ergebnisse
- 1. Auswendiglernen ist nicht alles
- 2. Wahlmöglichkeiten sind wichtig
- 3. Erraten der Frage
- Bedeutung der Studie
- Experiment Übersicht
- Tests der Modelle
- Die Datensätze
- Der Prozess
- Einrichtung der Tests
- Vergleich der Ergebnisse
- Ungültige Ausgaben
- Ergebnisse zu Wahlmöglichkeiten-only-Prompts
- Die Rolle des Auswendiglernens
- Verständnis der Wahl-Dynamik
- Ableitung von Fragen
- Empfehlungen für zukünftige Arbeiten
- Fazit
- Originalquelle
- Referenz Links
Multiple-Choice-Fragenbeantwortung (MCQA) ist eine gängige Methode, um grosse Sprachmodelle (LLMs) zu testen. Es hilft uns zu sehen, ob diese Modelle die richtige Antwort aus einer Reihe von Optionen auswählen können. Diese Studie untersucht, wie gut LLMs Fragen beantworten können, wenn ihnen nur die Auswahlmöglichkeiten gegeben werden, ohne die eigentliche Frage.
Die Studie
Wir haben Tests mit drei verschiedenen MCQA-Datensätzen und vier verschiedenen LLMs durchgeführt, um zu sehen, ob sie die richtige Antwort nur aus den Optionen auswählen konnten. Zu unserer Überraschung fanden wir heraus, dass die Modelle besser abschnitten als erwartet, wenn sie nur die Antwortmöglichkeiten hatten. In 11 von 12 Fällen erzielten sie einen merklichen Anstieg der Genauigkeit, in einigen Fällen bis zu 0.33.
Um herauszufinden, warum das so ist, haben wir verschiedene Faktoren untersucht, einschliesslich ob die Modelle einfach Antworten auswendig lernten, wie sie mit einzelnen Optionen umgehen und ob sie die Frage basierend auf den Optionen erraten konnten.
Wichtige Ergebnisse
1. Auswendiglernen ist nicht alles
Wir haben festgestellt, dass die Modelle nicht nur auf Auswendiglernen angewiesen waren, um gut bei den Fragen abzuschneiden. Das bedeutet, dass sie nicht nur Antworten abgerufen haben, die sie zuvor in ihren Trainingsdaten gesehen hatten.
2. Wahlmöglichkeiten sind wichtig
Wir haben auch gelernt, dass die Modelle berücksichtigten, wie verschiedene Optionen zueinander stehen. Das bedeutet, dass sie beurteilen konnten, welche Antwort basierend auf der Gruppe von Optionen am besten sein könnte.
3. Erraten der Frage
Zuletzt haben LLMs ein gewisses Talent, abzuleiten, was die Frage basierend auf den gegebenen Optionen sein könnte. In einigen Fällen konnten sie sogar die ursprüngliche Frage ziemlich genau wiedergeben.
Bedeutung der Studie
Die Erkenntnisse aus dieser Forschung können dazu beitragen, künftige Tests von LLMs zu verbessern. Sie hebt die Notwendigkeit für bessere Bewertungsmethoden und stärkere Datensätze hervor, die besser beurteilen können, wie LLMs Entscheidungen treffen.
Experiment Übersicht
Tests der Modelle
Wir haben vier beliebte LLMs mit einer neuen Art von Eingabe getestet, die Wahlmöglichkeiten-only-Prompts genannt wird. In diesem Fall erhielten die Modelle nur die Antwortoptionen ohne die eigentliche Frage. Unsere Ergebnisse zeigten, dass sie oft besser abschnitten als eine einfache Schätzmethode namens Majority-Baseline.
Die Datensätze
Die Datensätze, die wir in dieser Studie verwendet haben, wurden sorgfältig ausgewählt, um verschiedene Arten von Argumentation darzustellen: faktisch, wissenschaftlich und gesunder Menschenverstand. Wir haben uns speziell drei Datensätze angesehen: ARC, MMLU und HellaSwag.
Der Prozess
Einrichtung der Tests
In unseren Tests sollten die Modelle die richtige Antwort aus vier Optionen identifizieren. Die Einrichtung war einfach, wobei jedes LLM einen Buchstaben generieren musste, der der richtigen Antwort entsprach.
Vergleich der Ergebnisse
Wir bewerteten, wie gut die Modelle sowohl mit vollständigen Prompts (wo sie die Frage und die Optionen sehen) als auch mit Wahlmöglichkeiten-only-Prompts abschnitten. Wir konzentrierten uns darauf, ob die Modelle eine hohe Genauigkeit beim Auswählen der richtigen Antworten beibehielten, ohne dass die Frage sichtbar war.
Ungültige Ausgaben
Eine Herausforderung, mit der wir konfrontiert waren, war, als die Modelle ungültige Ausgaben produzierten. Um dies fair zu behandeln, behandelten wir jede ungültige Ausgabe als zufälliges Raten. Diese Anpassung stellte sicher, dass wir die Modelle nicht unfair bestraften, wenn sie Fehler machten.
Ergebnisse zu Wahlmöglichkeiten-only-Prompts
Als wir überprüften, wie die LLMs nur mit den Optionen abschnitten, sahen wir, dass sie oft deutlich besser abschnitten als das Zufallsraten. Diese Erkenntnis stellte Fragen darüber auf, ob sie auf einfache Tricks zurückgriffen oder ob sie fortgeschrittenere Denkschemas verwendeten.
Die Rolle des Auswendiglernens
Um zu überprüfen, ob Auswendiglernen eine grosse Rolle bei ihrem Erfolg spielte, entwarfen wir Prompts, die nur funktionierten, wenn die Modelle die Antworten zuvor gesehen hatten. In diesen Fällen schnitten die Modelle nicht gut genug ab, um zu suggerieren, dass Auswendiglernen allein der Grund für ihre hohen Punktzahlen war.
Verständnis der Wahl-Dynamik
Wir haben auch untersucht, wie die Modelle jede Antwortoption betrachteten. Wir dachten über zwei Schlüsselfaktoren nach:
Individuelle Vorurteile: Das bedeutet, dass ein Modell ein Bauchgefühl über bestimmte Antworten basierend auf früheren Erfahrungen haben könnte. Wenn Antworten oft das Wort "immer" enthalten, könnte ein Modell voreingenommen gegenüber dieser Option sein.
Gruppendynamik: Das bezieht sich darauf, wie ein Modell die Beziehung zwischen verschiedenen Antwortmöglichkeiten nutzt, um seine Entscheidung zu leiten. Wenn zum Beispiel drei Optionen ungerade und eine gerade ist, könnte das Modell zur geraden Wahl tendieren, weil sie heraussticht.
Um diese Aspekte zu testen, entwarfen wir zusätzliche Prompts, bei denen wir die Optionen isolierten und sahen, wie die Modelle abschnitten. Wir fanden heraus, dass sich das blosse Verlassen auf einzelne Optionen nicht ausreichend erklärte, um ihre insgesamt gute Leistung zu verstehen.
Ableitung von Fragen
Als nächstes betrachteten wir, wie LLMs fundierte Vermutungen darüber anstellen konnten, welche Fragen gestellt wurden. Wir erstellten einen Prompt, der zwei Schritte umfasste:
- Das Modell würde ableiten, was die Frage basieren auf den Optionen sein könnte.
- Es würde dann versuchen, seine eigene erratene Frage zu beantworten.
Als wir diesen Prozess mit der Wahlmöglichkeiten-only-Methode verglichen, stellten wir fest, dass sie oft ähnliche Ergebnisse produzierten, was darauf hindeutet, dass die Modelle ähnliche Denkschemas verwenden könnten.
Empfehlungen für zukünftige Arbeiten
Basierend auf unseren Erkenntnissen schlagen wir mehrere Möglichkeiten vor, wie die Bewertung von LLMs bei MCQA-Aufgaben verbessert werden kann:
- Bessere Baselines: Die Leistung der Wahlmöglichkeiten-only als stärkeren Vergleich zu grundlegenden Schätzmethoden berichten.
- Stärkere Datensätze: Datensätze entwerfen, die die Chancen der Modelle einschränken, einfache Abkürzungen auszunutzen.
- Vielfältige Fragen: Fragen einbeziehen, die komplexere Überlegungen erfordern, um sicherzustellen, dass die Modelle das Material wirklich verstehen.
Fazit
Diese Studie zeigt, dass LLMs beeindruckende Genauigkeit bei MCQA-Aufgaben erreichen können, selbst wenn ihnen nur Antwortmöglichkeiten gegeben werden. Auch wenn es den Anschein hat, als würden sie nur Abkürzungen nutzen, zeigt unsere Forschung, dass sie komplexere Denkschemata anwenden.
Wenn wir vorankommen, ist es wichtig, wie wir diese Modelle bewerten, weiter zu verfeinern. So können wir besser verstehen, was sie können und wo ihre Grenzen liegen, was uns letztlich helfen wird, bessere Modelle in der Zukunft zu entwickeln.
Titel: Artifacts or Abduction: How Do LLMs Answer Multiple-Choice Questions Without the Question?
Zusammenfassung: Multiple-choice question answering (MCQA) is often used to evaluate large language models (LLMs). To see if MCQA assesses LLMs as intended, we probe if LLMs can perform MCQA with choices-only prompts, where models must select the correct answer only from the choices. In three MCQA datasets and four LLMs, this prompt bests a majority baseline in 11/12 cases, with up to 0.33 accuracy gain. To help explain this behavior, we conduct an in-depth, black-box analysis on memorization, choice dynamics, and question inference. Our key findings are threefold. First, we find no evidence that the choices-only accuracy stems from memorization alone. Second, priors over individual choices do not fully explain choices-only accuracy, hinting that LLMs use the group dynamics of choices. Third, LLMs have some ability to infer a relevant question from choices, and surprisingly can sometimes even match the original question. Inferring the original question is an impressive reasoning strategy, but it cannot fully explain the high choices-only accuracy of LLMs in MCQA. Thus, while LLMs are not fully incapable of reasoning in MCQA, we still advocate for the use of stronger baselines in MCQA benchmarks, the design of robust MCQA datasets for fair evaluations, and further efforts to explain LLM decision-making.
Autoren: Nishant Balepur, Abhilasha Ravichander, Rachel Rudinger
Letzte Aktualisierung: 2024-06-07 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2402.12483
Quell-PDF: https://arxiv.org/pdf/2402.12483
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.