Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Computerwissenschaften# Rechnen und Sprache# Maschinelles Lernen

Verbesserung grosser Sprachmodelle mit MRPO

Eine neue Methode verbessert die Ausrichtung von Sprachmodellen mit mehreren Referenzen.

― 7 min Lesedauer


MRPO: Nächster SchrittMRPO: Nächster Schrittfür LLMsmenschlichen Vorlieben.Ausrichtung von Sprachmodellen anEin Verfahren zur Verbesserung der
Inhaltsverzeichnis

Grosse Sprachmodelle (LLMs) können menschenähnlichen Text schreiben und verstehen. Allerdings ist es ziemlich schwierig, diese Modelle so zu gestalten, dass sie wirklich menschliche Werte und Absichten widerspiegeln. Ein gängiger Weg, diese Ausrichtung zu verbessern, besteht darin, menschliche Präferenzen zu den Modellausgaben zu sammeln und die LLMs basierend auf diesem Feedback feinzujustieren. Das hilft sicherzustellen, dass die Updates nicht zu weit von einem Referenzmodell abweichen.

Traditionell wurden Techniken wie die Optimierung durch verstärkendes Lernen für diese Aufgabe verwendet. Diese Methoden können jedoch langsam und instabil sein. Ein neuerer Ansatz namens Direkte Präferenzoptimierung (DPO) bietet eine stabilere und schnellere Alternative, indem er klare, überwachte Verluste verwendet, die keinen komplexen Prozess des verstärkenden Lernens erfordern.

Trotz der Verbesserungen, die DPO mit sich bringt, hat es einen erheblichen Nachteil. Es hängt hauptsächlich von nur einem Referenzmodell ab. Das bedeutet, dass es die Stärken, die aus der Nutzung vieler vortrainierter Modelle resultieren, nicht ausnutzt. Um dieses Problem anzugehen, stellen wir eine Methode namens Multi-Reference Preference Optimization (MRPO) vor. Diese Methode nutzt mehrere Referenzmodelle, um mehr Wissen zu sammeln und das Präferenzlernen zu verbessern. Unsere Ergebnisse zeigen, dass LLMs, die mit MRPO feinjustiert wurden, besser im Verständnis und in der Generierung bevorzugter Ausgaben abschneiden, selbst wenn die Daten begrenzt sind. Darüber hinaus zeigt MRPO starke Ergebnisse in verschiedenen Aufgaben der natürlichen Sprachverarbeitung.

Die Herausforderung der Ausrichtung

LLMs wie GPT und andere können Text generieren, der dem, was ein Mensch schreiben könnte, sehr ähnlich scheint. Aber diese Modelle so auszurichten, dass sie wirklich menschliche Werte und Präferenzen widerspiegeln, ist kompliziert. Das Ziel ist es, ihre Antworten basierend auf sorgfältig ausgewähltem menschlichem Feedback zu formen.

Eine beliebte Methode dafür ist das verstärkende Lernen aus menschlichem Feedback (RLHF). In diesem Ansatz werden menschliche Bewertungen verwendet, um ein Belohnungsmodell zu erstellen, das hilft, die Reaktion des LLM zu optimieren. Der Prozess beinhaltet, die Ausrichtung des Modells mit diesen Bewertungen zu maximieren, während gleichzeitig Änderungen vom ursprünglichen Referenzmodell minimiert werden.

Obwohl RLHF einige Erfolge gezeigt hat, ist es oft kompliziert und ressourcenintensiv. Jüngste Fortschritte, einschliesslich DPO, versuchen, dies zu vereinfachen. DPO optimiert das Modell direkt, indem es negative Log-Likelihood-Verluste basierend auf Präferenzen minimiert. Da DPO jedoch auf einem einzigen Referenzmodell basiert, nutzt es nicht die potenziellen Vorteile mehrerer Modelle.

Der Wert der Nutzung mehrerer Referenzen

Die Verwendung vieler Referenzmodelle kann den Lernprozess erheblich verbessern. Wenn verschiedene Modelle das Hauptmodell bewerten und informieren, kann das resultierende Ergebnis eine breitere Palette von Perspektiven widerspiegeln, was die endgültigen Ergebnisse zuverlässiger macht. Das ist entscheidend, da die Community weiterhin verschiedene vortrainierte Modelle entwickelt und veröffentlicht, die auf unterschiedlichen Datensätzen basieren.

Trotz der Vorteile haben frühere Versuche nicht effektiv mehrere Referenzmodelle im Optimierungsprozess genutzt. Es gibt drei grosse Herausforderungen, die angegangen werden müssen:

  1. Komplexität der Nichtlinearitäten: Eine einfache Lösung zu finden, die mehrere Referenzmodelle einbezieht, ist schwierig, da die Berechnungen komplex und nichtlinear werden können.

  2. Abweichende Ausgaben: Verschiedene Referenzmodelle können für dasselbe Eingangsdatum unterschiedliche Ausgaben erzeugen, was zu Verwirrung während des Lernprozesses führen und das Training instabil machen kann.

  3. Bestimmung der Beiträge: Zu bestimmen, wie viel jedes Referenzmodell während des Trainings beiträgt, ist knifflig und erfordert oft viel Feintuning.

Einführung der Multi-Reference Preference Optimization (MRPO)

Um die oben genannten Herausforderungen zu überwinden, schlagen wir MRPO vor. Diese Methode vereinfacht den Optimierungsprozess, indem sie eine untere Schranke maximiert, die es uns ermöglicht, Erkenntnisse aus verschiedenen Referenzmodellen in einen einheitlichen Rahmen zu kombinieren.

Umgang mit Nichtlinearität

Um die Komplexität der Berechnungen zu bewältigen, schlagen wir eine einfachere surrogate untere Schranke vor. Diese untere Schranke hilft uns, eine solide geschlossene Lösung zu finden, die mehrere Referenzmodelle nutzt. Die theoretische Grundlage und die Leistung unserer Lösung erweisen sich als besser, als nur mehrere DPO-Verluste zu kombinieren.

Sicherstellung stabilen Trainings

Abweichende Ausgaben von verschiedenen Referenzmodellen können zu Instabilität führen. Um dieses Problem anzugehen, führen wir eine Technik namens clipped trust-region optimization (CTRO) ein. Diese Methode sorgt dafür, dass die Ausgabewahrscheinlichkeiten des Hauptmodells eng mit der Ausgabe des ausgewählten Referenzmodells abgestimmt bleiben. Indem wir die Log-Wahrscheinlichkeiten kürzen, können wir sicherstellen, dass die Unterschiede minimiert werden, was hilft, den Trainingsprozess zu stabilisieren.

Ausserdem kann die Kürzungsrate je nach vorhergesagter Wahrscheinlichkeit der Daten variieren. Wenn ein Referenzmodell bei seiner Ausgabe für einen bestimmten Input sehr zuversichtlich ist, wird ein kleinerer Kürzungsbereich verwendet, um sicherzustellen, dass das Hauptmodell eng von dieser vertrauenswürdigen Ausgabe lernt. Andererseits, wenn das Referenzmodell weniger zuversichtlich ist, erlaubt ein grösserer Kürzungsbereich ein bisschen mehr Erkundung.

Dynamische Beitraggewichtung

Es ist auch wichtig, zu bestimmen, wie viel Einfluss jedes Referenzmodell während des Trainings hat. Wir führen einen dynamischen Mechanismus ein, um Gewichte für die Beiträge jedes Modells basierend auf ihren Vertrauensniveaus zu berechnen. Indem wir beobachten, wie sicher ein Modell zwischen zwei Ausgaben unterscheiden kann, können wir die entsprechenden Gewichte adaptiv zuweisen.

Experimentelle Ergebnisse

Wir haben zahlreiche Bewertungen durchgeführt, um MRPO gegen traditionelle Methoden wie DPO und eine einfache Kombination von DPO-Verlusten zu testen.

Leistung mit begrenzten Daten

In vielen Situationen ist menschliches Feedback knapp. Wir haben MRPO mit kleinen Präferenzdatensätzen getestet und festgestellt, dass es DPO und naive Kombinationen mehrerer DPO-Verluste konsequent übertrifft. Die Verbesserung war besonders bemerkenswert, als die Menge an Trainingsdaten begrenzt war.

Leistung mit grossen Datensätzen

Um zu prüfen, ob MRPO mit grösseren, komplexeren Datensätzen umgehen kann, haben wir es mit realen Datensätzen wie HelpSteer, Ultrafeedback und Nectar getestet. In diesen Tests zeigte MRPO erneut signifikante Verbesserungen im Vergleich zu DPO und demonstrierte, dass es gut mit grösseren Datensätzen skaliert und effektiv aus umfassenderem menschlichem Input lernen kann.

Leistung bei allgemeinen Sprachverständnisaufgaben

Wir haben auch die Leistung von MRPO in Standardbenchmarks für das Sprachverständnis, wie GSM8K, MMLU und TruthfulQA, untersucht. Die Ergebnisse zeigen, dass MRPO nicht nur die Basisleistung der Modelle verbessert, sondern auch bemerkenswerte Verbesserungen im Vergleich zur DPO-Methode erzielt.

Destillation von stärkeren Modellen zu schwächeren Modellen

Ein interessanter Aspekt von MRPO ist seine Fähigkeit, Lernen von stärkeren, grösseren LLMs auf kleinere Modelle zu übertragen. Dies könnte besonders nützlich sein in Situationen, in denen kleinere Modelle für mobile Geräte oder andere ressourcenarme Szenarien benötigt werden. Bei Tests mit TinyLlama und Mistral als Referenzmodellen zeigte MRPO einen leichten Leistungsvorteil gegenüber DPO, was seine Effektivität selbst mit kleineren Modellen bestätigt.

Die Bedeutung der clipped trust-region optimization (CTRO)

CTRO spielt eine wichtige Rolle bei der Sicherstellung der Genauigkeit und Stabilität von MRPO. Durch Experimente haben wir bestätigt, dass ohne CTRO das Training instabil werden kann, insbesondere wenn es um Referenzmodelle geht, die sich stark voneinander unterscheiden.

Der Bedarf an adaptiver Gewichtung

Unsere Tests haben auch die Bedeutung eines adaptiven Ansatzes hervorgehoben, um die Beiträge jedes Modells zu gewichten. Es wurde gezeigt, dass ein fester Ansatz weniger effektiv war als die dynamische Anpassung der Gewichte basierend auf der Leistung jedes Modells.

Fazit

In dieser Arbeit haben wir MRPO eingeführt, eine neuartige Methode, die mehrere Referenzmodelle nutzt, um das Präferenzlernen für grosse Sprachmodelle zu verbessern. Die theoretische Grundlage und die praktischen Ergebnisse zeigen die Effektivität bei der Verbesserung der Verallgemeinerung über verschiedene Präferenzdatensätze hinweg.

Obwohl MRPO grosses Potenzial zeigt, gibt es Einschränkungen aufgrund der Anzahl der Referenzmodelle und ihrer Grössen. Zukünftige Forschungen werden sich damit beschäftigen, MRPO zu skalieren und zu verstehen, wie es mit grösseren Modellen und vielfältigeren Datensätzen vorteilhaft sein kann.

Breitere Implikationen

Wir haben öffentlich verfügbare Datensätze für unsere Experimente genutzt. Unser Ziel ist es, LLMs besser mit menschlichen Werten und Präferenzen in Einklang zu bringen. Wir erkennen jedoch an, dass dieser Ansatz missbraucht werden könnte, was ein Risiko ist, das in jedem System, das aus menschlichen Daten lernt, liegt.

Zusammenfassend stellt MRPO einen bedeutenden Schritt nach vorne in den fortlaufenden Bemühungen dar, LLMs zu verbessern, sie enger an den Bedürfnissen und Werten der Nutzer auszurichten und gleichzeitig sicherzustellen, dass sie effektiv relevante und bevorzugte Ausgaben generieren können.

Originalquelle

Titel: Multi-Reference Preference Optimization for Large Language Models

Zusammenfassung: How can Large Language Models (LLMs) be aligned with human intentions and values? A typical solution is to gather human preference on model outputs and finetune the LLMs accordingly while ensuring that updates do not deviate too far from a reference model. Recent approaches, such as direct preference optimization (DPO), have eliminated the need for unstable and sluggish reinforcement learning optimization by introducing close-formed supervised losses. However, a significant limitation of the current approach is its design for a single reference model only, neglecting to leverage the collective power of numerous pretrained LLMs. To overcome this limitation, we introduce a novel closed-form formulation for direct preference optimization using multiple reference models. The resulting algorithm, Multi-Reference Preference Optimization (MRPO), leverages broader prior knowledge from diverse reference models, substantially enhancing preference learning capabilities compared to the single-reference DPO. Our experiments demonstrate that LLMs finetuned with MRPO generalize better in various preference data, regardless of data scarcity or abundance. Furthermore, MRPO effectively finetunes LLMs to exhibit superior performance in several downstream natural language processing tasks such as GSM8K and TruthfulQA.

Autoren: Hung Le, Quan Tran, Dung Nguyen, Kien Do, Saloni Mittal, Kelechi Ogueji, Svetha Venkatesh

Letzte Aktualisierung: 2024-05-25 00:00:00

Sprache: English

Quell-URL: https://arxiv.org/abs/2405.16388

Quell-PDF: https://arxiv.org/pdf/2405.16388

Lizenz: https://creativecommons.org/licenses/by/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.

Mehr von den Autoren

Ähnliche Artikel