Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Computerwissenschaften# Rechnen und Sprache# Maschinelles Lernen

Unsicherheit in grossen Sprachmodellen bewerten

Eine neue Methode verbessert die Vertrauensbewertung in Sprachmodellen mithilfe stabiler Erklärungen.

― 10 min Lesedauer


Vertrauen inVertrauen inKI-Vorhersagendurch Erklärungsanalyse verbessern.Vertrauenswürdigkeit von Sprachmodellen
Inhaltsverzeichnis

In vielen wichtigen Anwendungen des maschinellen Lernens ist es entscheidend, dass ein Modell zeigt, wann es sich bei seinen Vorhersagen unsicher ist. Grosse Sprachmodelle (LLMs) können ziemlich gut abschneiden, manchmal sogar besser als Menschen bei bestimmten Aufgaben. Aber oft geben sie selbstbewusste, aber falsche Antworten, was die Nutzer in die Irre führen kann. Es gab Fälle, in denen diese Modelle falsche Informationen erzeugen, ein Verhalten, das als „Halluzination“ bekannt ist. Das passiert selbst bei den grössten und fortschrittlichsten Modellen.

Um solche irreführenden Szenarien zu verhindern, gibt es den Ansatz, dass das Modell seine eigene Zuversicht in seinen Antworten meldet. Diese Aufgabe nennt man Unsicherheitsquantifizierung. Die einfachste Methode besteht darin, einen Score basierend auf den Vorhersagen des Modells zu berechnen. Leider spiegelt dieser Score oft nicht genau die wahre Wahrscheinlichkeit wider, korrekt zu sein.

Man hofft, dass wir, indem wir tiefer in die Arbeitsweise des Modells eintauchen, eine bessere Möglichkeit finden, seine Zuversicht zu bewerten. Leider ist der Zugang zu den inneren Abläufen eines grossen Sprachmodells oft praktikabel nicht möglich, aufgrund von Kosten und Einschränkungen. Kürzlich wurden mehrere Methoden entwickelt, die keinen Zugang zu diesen internen Details benötigen. Diese Techniken hängen oft davon ab, dass das Modell seine eigenen Zuversicherungen generiert oder mehrere Antwortvariationen bereitstellt. Auch wenn sie vielversprechend sind, können diese Methoden immer noch zu übertriebenen und falschen Antworten führen.

Das Hauptproblem bestehender Methoden zur Bewertung der Unsicherheit in Sprachmodellen basiert auf einer Annahme: dass Trainings- und Testdaten aus demselben Hintergrund stammen. Diese Annahme ist jedoch oft falsch. Daher kann ein Modell, das auf einem Datensatz gut abschneidet, auf einem anderen schlecht abschneiden. Grosse Sprachmodelle bieten eine einzigartige Möglichkeit, ihr Urteil zum Zeitpunkt des Tests anzupassen, indem sie Erklärungen für ihre Antworten generieren. Während zufälliger Text das Modell verwirren kann, können relevante Fakten oder logische Schritte helfen, seine Antworten stabiler zu machen.

Eingaben, die Denkprozesse im Modell anregen, haben Verbesserungen in der Genauigkeit gezeigt. Aber aktuelle Forschungen zeigen, dass selbst diese Erklärungen fehlerhaft sein können und möglicherweise nicht auf die richtigen Antworten hinweisen. Wenn wir stabile von instabilen Erklärungen unterscheiden könnten, würden wir besser verstehen, wie sehr wir den gegebenen Antworten vertrauen können.

In diesem Artikel diskutieren wir eine Methode zur Generierung von Scores, die anzeigen, wie zuversichtlich ein LLM in seinen Antworten ist, indem wir uns die Erklärungen ansehen, die es erstellt. Dieser Ansatz konzentriert sich auf logisch kohärente Erklärungen. Damit können wir eine bessere Massnahme für Unsicherheit festlegen. Wir werden demonstrieren, wie dieser Ansatz funktioniert, indem wir uns auf zwei Hauptaufgaben konzentrieren: zu überprüfen, ob die Zuversicht die tatsächliche Richtigkeit der Antworten dargestellt und zu bestimmen, wie gut die Zuversichts-Scores zwischen richtigen und falschen Antworten unterscheiden können.

Hintergrund zur Unsicherheit im maschinellen Lernen

Unsicherheit spielt eine wichtige Rolle im maschinellen Lernen. Es geht darum, zu bewerten, wie viel wir über Vorhersagen wissen und kann Entscheidungen basierend auf den Ausgaben des Modells beeinflussen. Viele Methoden wurden entwickelt, um Unsicherheit zu messen, oft basierend auf Wahrscheinlichkeit und Statistik.

Bei Klassifizierungsaufgaben lernen Modelle aus Datenpaare und Beschriftungen. Wenn neue Daten präsentiert werden, möchten wir, dass das Modell die richtige Antwort vorhersagt und einen nützlichen Zuversichtsscore liefert. Ein gut kalibrierter Zuversichtsscore bedeutet, dass Vorhersagen mit einem bestimmten Score meistens richtig sind.

Unsicherheit kann aus zwei Hauptquellen stammen: dem begrenzten Wissen des Agenten (Epistemische Unsicherheit) und der inhärenten Zufälligkeit der Daten (aleatorische Unsicherheit). Bestehende Methoden zur Quantifizierung von Unsicherheit unterscheiden sich darin, wie sie diese Quellen klassifizieren und ansprechen.

Viele Techniken gehen davon aus, dass die Trainings- und Testdatensätze aus derselben Verteilung stammen. Beispielsweise konzentrieren sich Bayes'sche neuronale Netzwerke (BNNs) darauf, Unsicherheit zu messen, indem sie die gelernten Gewichte anpassen, während mehr Informationen erfasst werden. Eine andere Methode, die konforme Vorhersage, zielt darauf ab, eine Menge von Vorhersagen zu erstellen, die das tatsächliche Label mit einer bestimmten Wahrscheinlichkeit enthält.

Unsicherheit in grossen Sprachmodellen

Kürzlich gab es grosses Interesse daran, wie Unsicherheit speziell in grossen Sprachmodellen gemessen werden kann. Da LLMs eine fast unendliche Anzahl von Textsequenzen erzeugen können, wird die Bewertung der Unsicherheit komplizierter als bei typischen Klassifizierungsaufgaben.

Üblicherweise werden diese Modelle bei Multiple-Choice-Fragen bewertet. Doch Probleme treten auf, wenn man versucht, die Zuversicht direkt aus den von der LLM generierten Token-Wahrscheinlichkeiten zu berechnen. Während grössere Modelle in der Regel besser bei dieser Aufgabe abschneiden, haben sie immer noch Probleme mit unterschiedlichen Formulierungen derselben Frage und erkennen oft Fragen nicht, die nicht beantwortet werden können.

Aktuelle Methoden zur Gewinnung von Zuversicht aus LLMs lassen sich in zwei breite Kategorien unterteilen: White-Box- und Black-Box-Methoden. White-Box-Methoden erfordern den Zugang zu internen Modellsdetails, wodurch Wahrscheinlichkeiten direkt aus den Ausgaben des Modells berechnet werden können. Im Gegensatz dazu sampling black-box methoden nur Ausgaben vom Modell, ohne die inneren Abläufe zu kennen.

White-Box-Techniken können die Berechnung von Wahrscheinlichkeiten für Token-Sequenzen umfassen, wobei Methoden wie konforme Vorhersage verwendet werden, um die Kalibrierung der Vorhersagen zu verbessern. Bei Black-Box-Methoden wird die Zuversicht oft aus der Beobachtung einer Reihe von Modellantworten abgeleitet, entweder durch die Generierung mehrerer Antworten oder indem man das Modell anregt, seine eigene Zuversicht verbal zu schätzen.

Das Konzept der stabilen Erklärungen

Um zu bestimmen, wie zuversichtlich ein Modell bei seiner Antwort ist, sollten wir uns die Erklärungen ansehen, die zusammen mit der Antwort generiert werden. Intuitiv gilt: Wenn Menschen sich sicher über eine Antwort fühlen, wird dies normalerweise durch plausible Erklärungen gestützt, während andere mögliche Antworten keine vernünftigen Begründungen haben.

Die unendliche Natur möglicher Erklärungen macht es jedoch schwer, sie direkt zu analysieren. Um dies anzugehen, sammeln wir zunächst eine Stichprobe von Erklärungen aus dem Modell, die sich auf eine bestimmte Frage beziehen. Dann bewerten wir diese Erklärungen auf ihre logische Kohärenz mit der Frage. Schliesslich berechnen wir, wie viel Unterstützung jede Erklärung für mögliche Antworten bietet.

Das führt zu einem zweistufigen Prozess: Schätzen, wie wahrscheinlich eine Erklärung mit der Frage übereinstimmt, und definieren einer bedingten Antwortverteilung basierend auf dieser Erklärung. Zusammen helfen diese Komponenten, eine bessere Vorhersage der Zuversicht zu erstellen.

Verständnis der Erklärungssicherheit

Wenn eine Frage an ein LLM gestellt wird, können wir eine Antwort finden, indem wir das Modell direkt mit der Frage versorgen. Wir können auch eine Wahrscheinlichkeitsverteilung über mögliche Antworten basierend auf den Ausgaben des Modells berechnen. Leider können diese Wahrscheinlichkeitsverteilungen falsch kalibriert und empfindlich gegenüber kleinen Änderungen in der Formulierung sein.

Erklärungen dienen als Sequenzen variabler Länge, die zwischen der Frage und der vom LLM generierten Antwort liegen. Durch die Generierung dieser Erklärungen können wir sie als Wege zu einer bestimmten Antwort betrachten. Während eine Vielzahl möglicher Wege besteht, können wir Erklärungen kategorisieren, um ihre Unterstützung für verschiedene Antworten zu bewerten.

Die naive Generierung von Erklärungen, indem man das Modell einfach auffordert, könnte ihre tatsächliche Nützlichkeit nicht genau widerspiegeln. Um die Situation zu verbessern, wenden wir logische Konsistenzprüfungen auf die generierten Erklärungen an. Dies hilft, die Erklärungen basierend auf ihrer Relevanz zur gestellten Frage zu gewichten, um hochwertigere Daten für unsere Analyse zu sichern.

Bewertung der Zuversichtsmetriken

Um zu wissen, ob eine Methode zur Bewertung der Zuversicht effektiv ist, bewerten wir sie anhand spezifischer Aufgaben. Die erste Aufgabe betrifft die Kalibrierung, bei der das Ziel darin besteht, Zuversichtsscores zu produzieren, die widerspiegeln, wie oft das Modell die Antwort richtig hat. Die zweite Aufgabe konzentriert sich auf selektive Unsicherheit, bei der das Ziel darin besteht, vorherzusagen, wann das Modell sich entscheiden sollte, eine Frage nicht zu beantworten, anstatt eine falsche Vermutung anzustellen.

Bewertungsmetriken helfen, die Leistung zu messen. Für beide Aufgaben werden wir gängige Metriken wie die Fläche unter der Receiver Operating Curve (AUROC) und die Fläche unter der Risk-Coverage Curve (AURC) betrachten. Das Ziel ist es, hohe Scores zu erreichen, indem präzise Vorhersagen getroffen werden, während Fehler minimiert werden.

Datensätze und Modellbewertung

In dieser Studie testen wir die Methode mit fünf anerkannten Datensätzen, die eine Vielzahl von Frage-Antwort-Aufgaben beinhalten. Diese Datensätze unterscheiden sich in ihrer Komplexität und decken eine Reihe von Themen ab. Die Fragen variieren in der Länge, was die Fähigkeit des Modells, genau zu antworten, beeinflusst.

Für den Bewertungsprozess generiert unsere Methode Zuversichtsscores basierend auf einer Stichprobe von Fragen aus jedem Datensatz. Wir verwenden Modelle wie GPT-3.5 und GPT-4 für unsere Experimente. Danach vergleichen wir unsere Ergebnisse mit verschiedenen anderen Methoden und analysieren, wie gut unsere Technik im Vergleich zu etablierten Baselines abschneidet.

Einblicke aus der Erklärungssicherheit

Die Wahrscheinlichkeit einer Erklärung basierend auf der unterstützten Antwort ist entscheidend. Selbst wenn eine Erklärung plausibel erscheint, bedeutet das nicht, dass die entsprechende Antwort korrekt ist. Diese Unterscheidung kann darauf hindeuten, ob das Modell zuverlässige Antworten geben kann.

Wenn wir die Erklärungen für sowohl korrekte als auch falsche Antworten untersuchen, stellen wir fest, dass sie oft Überlappungen in Bezug auf ihre mittlere Wahrscheinlichkeit aufweisen. Es sind jedoch auch signifikante Unterschiede in der Wahrscheinlichkeit falscher Erklärungen zu beobachten, die ein deutliches Muster zeigen. Das deutet darauf hin, dass eine Erklärung zwar gut formuliert sein kann, aber trotzdem an logischer Grundlage fehlen könnte.

Indem wir erkennen, wie Erklärungen mit der Richtigkeit von Antworten korrelieren, können wir unseren Ansatz verfeinern, um die Häufigkeit falscher Antworten zu reduzieren und das Vertrauen in die richtigen zu erhöhen.

Leistung der stabilen Zuversichtsmethode

Unsere Bewertung zeigt, dass die Methode der stabilen Erklärungen in Aufgaben zur Vorhersage falscher Antworten hervorragend abschneidet. Bei der Leistungsbewertung im Vergleich zu Baseline-Methoden stellen wir fest, dass sie in selektiven Unsicherheitsaufgaben über verschiedene Datensätze hinweg konstant besser abschneidet. Besonders in komplexen Szenarien zeigt die Methode der stabilen Erklärung einen signifikanten Leistungsschub.

Während die Kalibrierungsleistung möglicherweise nicht dieselben hohen Werte wie die Baselines erreicht, bleibt der Fokus darauf, die Vorhersagen falscher Antworten zu verbessern, was ein wesentlicher Vorteil dieses Ansatzes ist.

Einschränkungen und zukünftige Richtungen

Obwohl die Methode der stabilen Erklärungen zu Verbesserungen führt, bestehen Herausforderungen, insbesondere bei einfacheren Fragetypen. Die Methode hat Schwierigkeiten, Vorteile zu zeigen, wenn sie mit Fragen konfrontiert wird, die traditionellen Klassifizierungsaufgaben ähneln.

Darüber hinaus ist unser Ansatz auf Multiple-Choice-Datensätze beschränkt, während offene Fragen für zukünftige Erkundungen offen bleiben. Die Qualität der generierten Erklärungen ist ein weiteres Verbesserungsgebiet, da qualitativ hochwertigere Erklärungen zu besseren Ergebnissen führen könnten.

In zukünftigen Arbeiten planen wir, Methoden zu entwickeln, um hochwertige Erklärungen zu erkennen und zu akzeptieren, um letztendlich sicherzustellen, dass unsere Zuversichtsscores so genau und zuverlässig wie möglich sind.

Fazit

Die Fähigkeit, Unsicherheit in grossen Sprachmodellen zu messen, ist von grösster Bedeutung, insbesondere in Anwendungen, bei denen Genauigkeit und Vertrauenswürdigkeit entscheidend sind. Unser Ansatz zur Generierung von Zuversichtsscores durch stabile Erklärungen bietet einen soliden Rahmen zur Verbesserung von Vorhersagen. Durch kontinuierliche Analyse und Verfeinerung der Methoden zur Bewertung von Unsicherheit können wir die Zuverlässigkeit und Leistung von Sprachmodellen in realen Szenarien verbessern.

Originalquelle

Titel: Cycles of Thought: Measuring LLM Confidence through Stable Explanations

Zusammenfassung: In many high-risk machine learning applications it is essential for a model to indicate when it is uncertain about a prediction. While large language models (LLMs) can reach and even surpass human-level accuracy on a variety of benchmarks, their overconfidence in incorrect responses is still a well-documented failure mode. Traditional methods for ML uncertainty quantification can be difficult to directly adapt to LLMs due to the computational cost of implementation and closed-source nature of many models. A variety of black-box methods have recently been proposed, but these often rely on heuristics such as self-verbalized confidence. We instead propose a framework for measuring an LLM's uncertainty with respect to the distribution of generated explanations for an answer. While utilizing explanations is not a new idea in and of itself, by interpreting each possible model+explanation pair as a test-time classifier we can calculate a posterior answer distribution over the most likely of these classifiers. We demonstrate how a specific instance of this framework using explanation entailment as our classifier likelihood improves confidence score metrics (in particular AURC and AUROC) over baselines across five different datasets. We believe these results indicate that our framework is both a well-principled and effective way of quantifying uncertainty in LLMs.

Autoren: Evan Becker, Stefano Soatto

Letzte Aktualisierung: 2024-06-05 00:00:00

Sprache: English

Quell-URL: https://arxiv.org/abs/2406.03441

Quell-PDF: https://arxiv.org/pdf/2406.03441

Lizenz: https://creativecommons.org/licenses/by/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.

Mehr von den Autoren

Ähnliche Artikel