Verbesserung des Denkens in Sprachmodellen durch strukturiertes Feedback
Eine neue Methode verbessert das Denken von Sprachmodellen durch automatisiertes Feedback.
― 9 min Lesedauer
Inhaltsverzeichnis
Sprachmodelle (LMs) haben sich in letzter Zeit bei Denkaufgaben echt verbessert, indem sie Schritte generieren, die zu Schlussfolgerungen führen, oft als "chain-of-thought prompting" bezeichnet. Manchmal können diese Schritte allerdings falsch sein, was zu falschen Endergebnissen führt. Hier stellen wir eine Methode vor, die LMs so anpasst, dass sie Zwischenreasoning-Schritte produzieren, während sie mit einem Kritiker-Modell arbeiten, das automatisches Feedback gibt.
Das Kritiker-Modell bewertet das Denken des LMs und gibt strukturiertes Feedback, was dem LM hilft, Schritt für Schritt besser zu werden. Wir haben diese Methode bei drei verschiedenen Denkaufgaben getestet und festgestellt, dass sie die Leistung im Vergleich zu anderen LMs ähnlicher Grösse deutlich verbessert. Ausserdem haben wir herausgefunden, dass das Verwenden von GPT3.5 als Denkmodell die Leistung steigern kann, ohne das Denkmodell weiter anpassen zu müssen.
Grosse Sprachmodelle (LLMs) haben grosse Fortschritte in der natürlichen Sprachverarbeitung (NLP) gemacht. Forschungen zeigen, dass das Generieren von Zwischenschritten während Denkaufgaben die Leistung eines Modells steigert und es einfacher macht zu verstehen, wie es zu seinen Schlussfolgerungen kommt. Diese Zwischenschritte geben Einblicke in die Vorhersagen des Modells und erlauben es den Leuten, den Denkprozess zu überprüfen. Allerdings sind diese Schritte nicht immer zuverlässig, was zu schlechten Ergebnissen in späteren Aufgaben führt. Eine wichtige Frage ist, wie man diese Zwischenschritte effektiv verfeinern kann, um die Gesamtleistung zu verbessern.
Der übliche Weg, um Denkfehler zu beheben, ist, neue Daten zu kennzeichnen und das Modell entweder neu zu trainieren oder feinzutunen. Leider ist diese Methode sowohl daten- als auch ressourcenintensiv und funktioniert vielleicht nicht gut bei komplizierten Denkaufgaben. Andere Forschungen haben versucht, Modelle mit Feedback zu verbessern, manchmal indem sie eine einzige Punktzahl geben oder die richtige Antwort direkt offenbaren. Allerdings ist es bei natürlichen Sprachdenkanfragen schwierig, eine Punktzahl zu erstellen, die verschiedene Arten von Denkfehlern erfasst.
In dieser Arbeit bieten wir detailliertes und strukturiertes Feedback zu Denkfehlern an. Wir führen einen neuen Weg ein, wie ein Generator-LM durch Feedback sein Denken verbessern kann. Diese Interaktion findet zwischen zwei Modellen statt: dem Generator, der lernt, Aufgaben zu lösen, indem er zuerst Zwischenschritte generiert, und dem Kritiker, der strukturiertes Feedback zu den Fehlern in diesen Schritten gibt.
Um das Kritiker-Modell effektiv zu trainieren, entwickeln wir eine Methode zur automatischen Erstellung von Feedback-Daten. Wir generieren Paare von falschen Zwischenschritten und strukturiertem Feedback zu spezifischen Denkfehlern. Dann trainieren wir den Kritiker, um detailliertes Feedback zu diesen falschen Denkschritten zu geben. Der Kritiker interagiert mit dem Generator-LM und gibt Feedback sowohl während des Trainings als auch bei Vorhersagen.
Die Hauptpunkte unserer Methode sind:
Einführung eines Rahmens: Wir schlagen einen neuen Rahmen vor, der die Denkfähigkeiten von LMs durch Feedback verbessert. Das ist die erste Forschung, die sich darauf konzentriert, wie feingliedriges Denkfeedback zu Zwischenschritten die Leistung von LMs bei Denkaufgaben beeinflusst.
Bewertung bei verschiedenen Aufgaben: Wir bewerten unsere Methode bei drei Denkaufgaben: das Lösen von Mathematik-Wortproblemen, einem synthetischen Test für natürliche Sprachreasoning und dem Generieren moralischer Handlungen. Unsere Methode zeigt signifikante Leistungssteigerungen im Vergleich zu verschiedenen starken LM-Baselines.
Verbesserung in einem Few-Shot-Setting: Bei Mathematik-Wortproblemen und synthetischen Denkaufgaben hilft unser Kritiker-Modell allein, die Zwischenrepräsentationen zu verbessern. Wir stellen auch fest, dass strukturiertes Feedback vorteilhafter ist als nur eine Punktzahl für moralische Handlungen und Mathematik-Wortproblemaufgaben.
Analyseergebnisse: Unsere Analyse zeigt zwei wichtige Aspekte: die Verbesserung der Generierung von Zwischenschritten steigert die Leistung in Denkaufgaben, und das Trainieren des Generators mit einem weniger perfekten Kritiker führt trotzdem zu Vorteilen.
Verwandte Arbeiten
Zwischenrepräsentationen
Während fortgeschrittene LMs bei vielen Aufgaben glänzen, haben sie Schwierigkeiten mit komplexen Denkaufgaben. Diese Aufgaben beinhalten oft zahlreiche Einschränkungen oder Teilprobleme, erfordern spezialisiertes Wissen oder haben Schlüsselwörter, die den häufigeren Aufgaben ähneln. Forschung zeigt, dass sowohl Zwischenschritte als auch Erklärungen dabei helfen können, mathematische Fähigkeiten zu erlernen und Denkoutputs zu verbessern.
Unsere Arbeit baut auf der Idee auf, dass das Generieren von Zwischenschritten wertvoll ist, verfolgt aber einen anderen Ansatz. Zuerst feintunen wir kleinere Modelle anstatt grosse Modelle zu nutzen. Zweitens ist unsere Methode flexibel und kann Aufgaben bewältigen, die nicht immer klare richtige Antworten haben, wie moralische Normaufgaben. Schliesslich nutzt unser Rahmen einen Kritiker, um Feedback zu geben und den Denkprozess des Modells zu verbessern.
Natürliche Sprachfeedback
Neueste Studien haben untersucht, wie man reichhaltigeres Feedback durch natürliche Sprache geben kann, um die Ausgaben von LMs an die Benutzerpräferenzen anzupassen. Leider beruht dieses Feedback oft auf menschlich erstellten Daten, was ressourcenintensiv ist. Während ein externer Feedbackgeber Modelle besser leiten kann, als sie es selbst können, war es herausfordernd, automatisierte Kritiker für Denkaufgaben zu entwickeln.
Unsere Forschung nutzt auch ein sekundäres Modell, einen Kritiker, der jedoch in einen Loop integriert ist, in dem er während des Trainings mit dem Generator-Modell interagiert. Wir geben Feedback speziell während der Zwischenschritte und nicht erst bei der Endantwort. Diese Methode konzentriert sich darauf, Fehler näher an ihrer Quelle zu beheben und hilft, das Denken des Modells auf die richtigen Schlussfolgerungen zu lenken.
Problemformulierung
Wir betrachten natürliches Sprachreasoning (NLR) als eine Aufgabe, bei der das Modell, gegeben einen Input, Ausgaben erzeugen muss, die die Anforderungen der Aufgabe erfüllen. Um eine korrekte oder plausible Ausgabe zu erstellen, muss das Modell effektiv Zwischenschritte ableiten.
Wir teilen NLR-Aufgaben in verschiedene Kategorien ein. Zum Beispiel:
Synthetisches natürliches Sprachreasoning (sNLR): Hier muss das Modell Schlussfolgerungen aus einem Szenario ableiten, das synthetische Regeln und Fakten enthält.
Mathematik-Wortprobleme (MWP): Das Modell erhält ein Wortproblem und muss diesen Kontext in einen gültigen mathematischen Ausdruck umwandeln und eine Lösung ableiten.
Generierung moralischer Normhandlungen (MS): Gegeben einen Kontext, eine Absicht und eine unmoralische Handlung, muss das Modell die moralische Norm und die moralische Handlung erzeugen. Dabei geht es darum, moralische Handlungen zu generieren, die mit der vorgegebenen moralischen Richtlinie übereinstimmen.
Wir lösen diese Aufgaben, indem wir Zwischenschritte generieren und sie basierend auf strukturiertem Feedback verfeinern. Unser interaktiver Rahmen besteht aus zwei Modellen: einem Kritiker-Modell, das das Zwischenreasoning bewertet, und einem Generator-Modell, das die Denkaufgabe löst.
Feedback-Datengenerierung
Um den Kritiker zu trainieren, müssen wir Beispieldatenpaare von unplausiblen Hypothesen und dem Feedback, das die Denkfehler beschreibt, erstellen. Wir definieren spezifische Arten von Denkfehlern für jede Aufgabe. Zum Beispiel kann in Mathematik-Wortproblemen eine Gleichung falsch sein, wenn die Operanden oder Operatoren nicht stimmen oder wenn Operatoren fehlen. In sNLR kann eine Schlussfolgerungsregel fehlerhaft sein, wenn sie logisch ungültig ist oder wenn Denkregeln fehlen.
Um unplausible Hypothesen zu erstellen, verändern wir plausible Hypothesen, indem wir Tokens oder Regeln weglassen, ersetzen oder hinzufügen. Wir geben dann strukturiertes Feedback, das den Fehlertyp in der falschen Hypothese beschreibt.
Kritiker-Modell
Die Aufgabe des Kritikers ist es, Feedback zu den Zwischenhypothesen zu geben, die vom Generator-Modell erstellt werden. Eine Möglichkeit, die Hypothese zu bewerten, besteht darin, sie mit einer korrekten zu vergleichen. Allerdings sind automatische Metriken wie BLEU oder ROUGE dafür nicht geeignet, da sie feingliedrige Denkfehler nicht erfassen. Daher trainieren wir ein Kritiker-Modell, um Hypothesen zu bewerten und strukturiertes Feedback zu geben.
Beim Training des Kritikers generieren wir einen Datensatz mit sowohl plausiblen als auch unplausiblen Hypothesen sowie deren Feedback. Dies ermöglicht es dem Kritiker, effektiv strukturiertes Feedback zu geben.
Generator-Modell
Wir präsentieren ein Generator-Modell, das lernt, mit dem Kritiker-Modell zu arbeiten. Zunächst wird der Generator trainiert, um plausible Hypothesen gegebenenfalls zu erzeugen. Nach einer Aufwärmphase nutzen wir das Feedback des Kritikers, um die Ausgaben des Generators zu verbessern.
In jeder Iteration erzeugt der Generator mehrere Hypothesen, und der Kritiker wählt eine aus, um sie zu bewerten. Dieser Prozess ermöglicht es dem Generator, während des Trainings ein breites Spektrum an Feedback zu erhalten.
Experimentelle Einrichtung
Datensätze
Wir bewerten unsere Methode bei drei Denkaufgaben und geben kurze Beschreibungen für jeden verwendeten Datensatz.
Mathematik-Wortproblem (MWP): Wir trainieren mit dem MAWPs-Datensatz und testen auf dem herausfordernden SVAMP-Datensatz, wobei sowohl die Gleichungserzeugung als auch die Vorhersage der Endantwort bewertet werden.
Synthetisches natürliches Sprachreasoning (sNLR): Wir verwenden einen Datensatz auf hohem Niveau für Denkszenarien mit synthetischen Regeln und Fakten.
Moralische Geschichte (MS): Dieser Datensatz enthält Situationen, Absichten und Handlungen zur Bewertung der moralischen Norm- und Handlungsgenerierung.
Trainingsdetails
Für jede Aufgabe trainieren wir ein spezifisches Modell. Die Hyperparameter wählen wir basierend auf dem Validierungsverlust und trainieren alle Modelle auf einer leistungsstarken GPU. Wir führen unsere Modelle mit verschiedenen Zufallszahlen aus und berichten durchschnittliche Ergebnisse.
Baselines
Wir vergleichen unsere Methode mit drei verschiedenen LMs, die als Generator-Modelle eingesetzt werden. Unsere Arbeit zeigt signifikante Verbesserungen im Vergleich zu starken LM-Baselines bei der Generierung von Zwischenschritten und Endantworten.
Ergebnisse
Leistung bei Zwischenschritten
Wir bewerten, wie gut unsere Methode bei Zwischenschritten abschneidet und stellen Verbesserungen bei allen Aufgaben fest. Die Ergebnisse bestätigen, dass die Verwendung eines Kritiker-Modells während des Trainings die Generierung von Zwischenschritten verbessert.
Ergebnisse bei der sNLR-Aufgabe
Ähnlich wie bei der MWP-Aufgabe zeigt unsere Methode deutliche Verbesserungen gegenüber den Basismodellen bei der Generierung von Schlussfolgerungsregeln und den daraus resultierenden Vorhersagen.
Ergebnisse bei der Generierung moralischer Handlungen
Menschliche Bewertungen zeigen, dass unsere Methode relevantere Normen und Handlungen in moralischen Geschicht Aufgaben liefert, was die Wirksamkeit des Feedbacks vom Kritiker-Modell weiter unterstützt.
Vorhersage der Endantwort
Unsere Ergebnisse zeigen, dass die Verbesserung der Qualität der Zwischenschritte zu besseren Vorhersagen der Endantworten bei Mathematik-Wortproblemen, synthetischen Denkaufgaben und moralischen Geschicht Aufgaben führt.
Fehleranalyse
Wir führen eine feingliedrige Fehleranalyse der Datensätze durch und identifizieren die häufigsten Fehler, die sowohl von unserer Methode als auch von Basismodellen gemacht werden. Unser trainierter Kritiker-Modell reduziert effektiv diese Fehler und hebt seine Rolle bei der Verbesserung der Denkergebnisse hervor.
Empfindlichkeit gegenüber Rauschen
Wir testen, wie sich das Training mit einem unvollkommenen Kritiker auf das Generator-Modell auswirkt. Unsere Experimente zeigen, dass das Vorhandensein eines guten Kritikers während der Inferenzzeit die Leistung erheblich beeinflusst.
Qualitative Beispiele
Wir geben qualitative Beispiele, die zeigen, wie unser Rahmen falsches Denken durch strukturiertes Feedback korrigieren kann. Ausserdem heben wir Situationen hervor, in denen der Kritiker den Generator erfolgreich geleitet hat, um seine Ausgaben zu verbessern.
Fazit
Dieses Papier präsentiert einen neuartigen Ansatz zur Verbesserung von Denkaufgaben in LMs durch strukturiertes Feedback. Indem wir uns auf die Verfeinerung der Zwischenschritte konzentrieren, bietet unser Rahmen signifikante Leistungsverbesserungen bei verschiedenen Aufgaben. Zukünftige Arbeiten werden darauf abzielen, unser Kritiker-Modell für breitere Denkanwendungen zu verallgemeinern und die Nuancen von Feedback in komplexen Denkszenarien weiter zu erforschen. Ethische Überlegungen bleiben wichtig, besonders in Bezug auf Vorurteile, die in LMs vorhanden sind, was weitere Aufmerksamkeit in zukünftigen Studien erfordert.
Zusammenfassend stellt unser Rahmen einen bedeutenden Schritt zur Verbesserung der Denkfähigkeiten in Sprachmodellen dar und ist eine wertvolle Ergänzung im Bereich der natürlichen Sprachverarbeitung.
Titel: REFINER: Reasoning Feedback on Intermediate Representations
Zusammenfassung: Language models (LMs) have recently shown remarkable performance on reasoning tasks by explicitly generating intermediate inferences, e.g., chain-of-thought prompting. However, these intermediate inference steps may be inappropriate deductions from the initial context and lead to incorrect final predictions. Here we introduce REFINER, a framework for finetuning LMs to explicitly generate intermediate reasoning steps while interacting with a critic model that provides automated feedback on the reasoning. Specifically, the critic provides structured feedback that the reasoning LM uses to iteratively improve its intermediate arguments. Empirical evaluations of REFINER on three diverse reasoning tasks show significant improvements over baseline LMs of comparable scale. Furthermore, when using GPT-3.5 or ChatGPT as the reasoner, the trained critic significantly improves reasoning without finetuning the reasoner. Finally, our critic model is trained without expensive human-in-the-loop data but can be substituted with humans at inference time.
Autoren: Debjit Paul, Mete Ismayilzada, Maxime Peyrard, Beatriz Borges, Antoine Bosselut, Robert West, Boi Faltings
Letzte Aktualisierung: 2024-02-04 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2304.01904
Quell-PDF: https://arxiv.org/pdf/2304.01904
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.