Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Computerwissenschaften# Rechnen und Sprache

Selbsterklärungen in Sprachmodellen bewerten

Eine Studie zur Zuverlässigkeit von Selbst-Erklärungen von LLMs bei Aufgaben in natürlicher Sprache.

― 7 min Lesedauer


LLMs und ihre ErklärungenLLMs und ihre Erklärungenuntersuchen.Selbst-Erklärungen von SprachmodellenDie Zuverlässigkeit von
Inhaltsverzeichnis

Kürzlich haben grosse Sprachmodelle (LLMs) beeindruckende Fähigkeiten bei Aufgaben mit natürlicher Sprache gezeigt. Sie werden mittlerweile in alltäglichen Anwendungen wie Chatbots eingesetzt. Da die Leute immer mehr auf diese Technologie angewiesen sind, ist es wichtig zu fragen: Wie zuverlässig sind die Erklärungen, die diese Modelle zu ihren eigenen Ausgaben geben? Können sie ihren Denkprozess effektiv erklären?

Zu wissen, wie LLMs argumentieren, ist grundlegend, um Vertrauen und Transparenz im Umgang mit ihnen aufzubauen. Diese Studie untersucht, wie zuverlässig Selbst-Erklärungen von diesen Modellen sind, besonders wenn sie gebeten werden, ihre vorherigen Ausgaben zu erklären. Wir konzentrieren uns auf zwei Arten von Selbst-Erklärungen: extraktive und kontrafaktische. Wir bewerten diese Erklärungen mit drei fortgeschrittenen LLMs, die in der Grösse variieren, und wenden sie auf zwei verschiedene Aufgaben an: eine objektive und eine subjektive.

Unsere Forschungsergebnisse zeigen, dass, obwohl die Selbst-Erklärungen von LLMs oft mit menschlichen Meinungen übereinstimmen, sie an Präzision mangeln und nicht immer genau wiedergeben, wie das Modell Entscheidungen trifft. Es gibt eine merkliche Lücke zwischen dem, was Menschen als das Denken des Modells wahrnehmen, und dem tatsächlichen Denken des Modells. Wir fanden jedoch heraus, dass das Anregen der Modelle zu kontrafaktischen Erklärungen klare, informative und überprüfbare Ergebnisse liefern kann, was sie zu einer starken Alternative zu traditionellen Methoden macht, um das Verhalten von Modellen zu erklären.

LLMs und Ihre Rolle

In den letzten Jahren haben sich grosse Sprachmodelle erheblich weiterentwickelt und schneiden in vielen Bereichen der Verarbeitung natürlicher Sprache gut ab. Nach ihrem Erfolg sind diese Modelle Teil des täglichen Lebens geworden, insbesondere durch Chatbots wie ChatGPT. Angesichts ihres Einflusses und des wachsenden Vertrauens in diese Technologie ist es entscheidend, herauszufinden, wie zuverlässig die von diesen Modellen generierten Erklärungen sind.

LLMs funktionieren typischerweise, indem sie Texteingaben durch eine Reihe von Vorhersagen vervollständigen, was Fragen zu ihrem Denken aufwirft. Diese Arbeit untersucht die Zuverlässigkeit von Selbst-Erklärungen, die von LLMs generiert werden, wenn sie gebeten werden, ihre Ausgaben zu rechtfertigen. Wir leisten mit unserer Forschung mehrere Beiträge.

Zuerst bewerten wir extraktive Selbst-Erklärungen, die von drei neuesten LLMs in zwei Klassifizierungsaufgaben erzeugt wurden. Während diese Erklärungen für Menschen sinnvoll erscheinen mögen, bieten sie nicht konstant eine genaue Beschreibung des Entscheidungsprozesses des Modells.

Zweitens zeigen wir, dass die Lücke zwischen Selbst-Erklärungen und genauer Argumentation verringert werden kann. Besonders das Fragen des LLM nach kontrafaktischen Erklärungen führt zu zuverlässigen Erklärungen, die leicht von den Modellen verifiziert werden können.

Drittens analysieren wir kontrafaktische Selbst-Erklärungen und finden heraus, dass sie den ursprünglichen Ausgaben ähnlich sehen können, jedoch einer individuellen Validierung bedürfen.

Erklärbarkeit in LLMs

Im Kontext dieser Arbeit definieren wir LLMs als Systeme, die dazu entworfen sind, Texteingaben mithilfe der Transformer-Architektur zu verarbeiten. Diese Systeme vervollständigen Eingabetexte, indem sie die nachfolgenden Tokens vorhersagen. Diese Architektur kann in verschiedene Schichten unterteilt werden, die jeweils eine spezifische Funktion erfüllen.

Ein LLM besteht speziell aus einer Embedding-Schicht, die die Eingabe verarbeitet, gefolgt von mehreren Transformer-Blöcken. Jeder Block verwendet Multi-Head-Attention, die es dem Modell ermöglicht, sich auf verschiedene Teile des Eingabetextes zu konzentrieren.

Moderne Transformer-Modelle können in drei Kategorien eingeteilt werden: nur-Encoder, Encoder-Decoder und nur-Decoder. Modelle, die die nur-Decoder-Architektur verwenden, haben gezeigt, dass sie Texte ohne zusätzliche Feinabstimmung klassifizieren können. Sie können Klassifizierungsaufgaben mit zwei Ansätzen durchführen: Zero-Shot-Prompting und Few-Shot-Prompting.

Unsere Forschung konzentriert sich speziell auf die Erklärung individueller Vorhersagen von Modellen, anstatt eine allgemeine Erklärung zu liefern, wie sie funktionieren. Seit der ersten Einführung von LLMs im Jahr 2017 haben Forscher verschiedene Methoden vorgeschlagen, um Erklärungen für ihre Klassifizierungsergebnisse zu generieren. Die Wahl der Methode hängt oft vom Klassifizierungsrahmen ab.

In diesem Papier konzentrieren wir uns auf zwei wichtige Erklärungsarten: auf Aufmerksamkeit basierende Erklärungen und gradientenbasierte Erklärungen.

Aufmerksamkeit-basierte Erklärungen

Diese Erklärungen nutzen die während des Vorwärtspasses des Modells erzeugten Aufmerksamkeitsgewichte. Durch die Analyse, welche Eingabetokens den grössten Einfluss auf die Ausgabe haben, erhalten wir Einblicke in die Argumentation des Modells. Es kann jedoch schwierig sein, klare Erklärungen ausschliesslich auf Basis der Aufmerksamkeit anzubieten.

Gradientenbasierte Erklärungen

Diese erstellen Karten, die zeigen, wie viel jeder Input zur Ausgabe beiträgt. Diese Methode konzentriert sich auf die Berechnung der Veränderung in der Ausgabe, wenn der Input geändert wird. Diese Methoden haben jedoch mit Herausforderungen zu kämpfen, wie dem Sättigungsproblem, bei dem gut trainierte Netzwerke sehr kleine Gradienten erzeugen.

Kontrafaktische Erklärungen

Kontrafaktische Erklärungen unterscheiden sich von den anderen Methoden. Sie präsentieren veränderte Versionen der Modell-Eingabe, die zu einer anderen Ausgabe führen. Eine gute kontrafaktische Erklärung sollte zwei Hauptkriterien erfüllen: Erstens muss sie eine andere Modell-Ausgabe erzeugen, und zweitens sollten die Änderungen an der ursprünglichen Eingabe minimal sein.

Forschungsfragen

Um unsere Untersuchung zu leiten, haben wir uns auf zwei zentrale Fragen konzentriert:

  1. Stimmen die von LLMs generierten Selbst-Erklärungen gut mit menschlichen Urteilen überein?
  2. Korrelieren diese Selbst-Erklärungen mit den internen Modelldynamiken, wie sie durch andere Erklärungsmethoden angezeigt werden?

Um diese Fragen zu beantworten, haben wir zunächst Selbst-Erklärungen von LLMs gesammelt und Erklärungen aus analytischen Ansätzen, die auf Gradienten und Aufmerksamkeit basieren, zusammengetragen.

Evaluierungsprozess

Für unsere Experimente nutzten wir zwei Aufgaben: Klassifikation von Lebensmittelrisiken und Sentiment-Klassifikation. Bei der Lebensmittelrisiko-Aufgabe arbeiteten wir mit offiziellen Rückruftiteln von Lebensmitteln und klassifizierten sie in spezifische Kategorien auf Basis von Expertenannotations. Die Sentiment-Klassifikationsaufgabe beinhaltete die Analyse von Filmkritiken, um deren emotionalen Ton zu bestimmen.

Anschliessend bewerteten wir unsere Ergebnisse anhand mehrerer Kriterien:

  • Treue: Wir massen, wie gut die Erklärungen die Bedeutung der Eingabetokens anzeigten.
  • Textähnlichkeit: Wir verwendeten verschiedene Methoden, um die generierten Erklärungen mit den Referenztexten und menschlichen Annotationen zu vergleichen.
  • Ähnlichkeit der Salienzkarte: Wir verglichen, wie eng die erzeugten Salienz-Karten mit der Bodenwahrheit übereinstimmten.

Ergebnisse

In beiden Aufgaben zeigten die LLMs eine Leistung über dem Zufallsniveau. Die Korrelation zwischen Selbst-Erklärungen und menschlichen Annotationen war positiv, was darauf hindeutet, dass LLMs das menschliche Denken in gewissem Masse widerspiegelten. Wir stellten jedoch fest, dass die Korrelationen nicht immer für subjektive Aufgaben zutrafen, die eine nuanciertere Interpretation erforderten.

Bei der Klassifikation von Lebensmittelrisiken wiesen die von den Modellen bereitgestellten Erklärungen eine klare positive Korrelation mit menschlichen Annotationen auf. Das deutet darauf hin, dass von LLMs generierte Selbst-Erklärungen als angemessene Darstellung des Denkens des Modells in dieser spezifischen Aufgabe angesehen werden können.

In unserer Sentiment-Klassifikationsaufgabe beobachteten wir ein ähnliches Muster. Die extraktiven Selbst-Erklärungen zeigten unterschiedliche Grade der Korrelation mit menschlichen Annotationen.

Diskussion und Fazit

Insgesamt zeigt unsere Forschung, dass Selbst-Erklärungen, die von LLMs generiert werden, tatsächlich mit menschlichen Urteilen korrelieren und einige Einblicke geben können, wie die Modelle arbeiten. Diese Beziehung ist jedoch nicht immer klar, besonders bei Aufgaben, die tiefere Argumentation erfordern.

Die Ergebnisse deuten darauf hin, dass, obwohl Selbst-Erklärungen einen vernünftigen Ausgangspunkt bieten können, um das Verhalten von LLMs zu verstehen, sie nicht notwendigerweise mit allen Aspekten der internen Modellfunktion übereinstimmen. Extraktive Selbst-Erklärungen neigen dazu, enger mit der Bodenwahrheit in Aufgaben übereinzustimmen, in denen eine klare Verbindung zwischen spezifischen Tokens und erwarteten Ergebnissen besteht.

Kontrafaktische Erklärungen zeigen vielversprechende Ansätze, besonders bei Aufgaben wie der Sentiment-Klassifikation, wo die Fähigkeit, Erklärungen leicht zu validieren, wertvolle Einblicke bieten kann.

Weitere Forschung ist nötig, um den Prompting-Prozess zu optimieren und Kontrafaktiken zu entwickeln, die die Transparenz und Vertrauenswürdigkeit des Modells verbessern können. Mit dem Aufkommen immer ausgeklügelterer Modelle wird es entscheidend sein, diese Methoden zu verfeinern, um besser zu verstehen, wie LLMs ihre Ausgaben ableiten.

Originalquelle

Titel: Evaluating the Reliability of Self-Explanations in Large Language Models

Zusammenfassung: This paper investigates the reliability of explanations generated by large language models (LLMs) when prompted to explain their previous output. We evaluate two kinds of such self-explanations - extractive and counterfactual - using three state-of-the-art LLMs (2B to 8B parameters) on two different classification tasks (objective and subjective). Our findings reveal, that, while these self-explanations can correlate with human judgement, they do not fully and accurately follow the model's decision process, indicating a gap between perceived and actual model reasoning. We show that this gap can be bridged because prompting LLMs for counterfactual explanations can produce faithful, informative, and easy-to-verify results. These counterfactuals offer a promising alternative to traditional explainability methods (e.g. SHAP, LIME), provided that prompts are tailored to specific tasks and checked for validity.

Autoren: Korbinian Randl, John Pavlopoulos, Aron Henriksson, Tony Lindgren

Letzte Aktualisierung: 2024-07-19 00:00:00

Sprache: English

Quell-URL: https://arxiv.org/abs/2407.14487

Quell-PDF: https://arxiv.org/pdf/2407.14487

Lizenz: https://creativecommons.org/licenses/by-sa/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.

Mehr von den Autoren

Ähnliche Artikel