Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Computerwissenschaften# Rechnen und Sprache# Künstliche Intelligenz# Maschinelles Lernen

Ausrichtung von Sprachmodellen auf menschliche Werte

Die Erforschung von Verstärkungslern-Techniken für sicherere KI-Systeme.

― 13 min Lesedauer


KI-Training fürKI-Training fürmenschliche Wertemit Ethik übereinstimmt.Techniken, um sicherzustellen, dass KI
Inhaltsverzeichnis

Grosse Sprachmodelle (LLMs) sollen den Leuten helfen, indem sie nützlich, ehrlich und sicher sind. Ein wichtiger Teil, um LLMs vertrauenswürdig zu machen, ist, sie mit menschlichen Werten in Einklang zu bringen. Eine Möglichkeit, das zu erreichen, ist die Verwendung von verstärkendem Lernen mit menschlichem Feedback (RLHF). Diese Methode basiert auf Belohnungsmodellen, um die menschlichen Präferenzen zu bewerten, und Proximal Policy Optimization (PPO), um die Antworten des Modells besser an diese Präferenzen anzupassen. Allerdings gibt es Herausforderungen bei der Gestaltung von Belohnungen, der Interaktion mit der Umgebung und dem Training von Agenten, was es für Forscher schwierig macht, sichere KI-Systeme zu entwickeln. Daher bleibt das stabile Training mit RLHF eine grosse Herausforderung.

Überblick über RLHF

In diesem Bericht brechen wir RLHF herunter und schauen uns genauer an, wie PPO funktioniert und welche Auswirkungen es auf das Training von KI-Modellen hat. Wir haben festgestellt, dass es wichtig ist, angemessene Grenzen für die Aktionen des Modells festzulegen, um den PPO-Algorithmus effektiv zu nutzen. Wir stellen einen verfeinerten PPO-Algorithmus namens PPO-max vor, der die Stabilität des Trainings verbessert. Unsere Hauptbefunde zeigen, dass Modelle, die mit diesem Ansatz trainiert wurden, menschliche Fragen oft besser verstehen und sinnvollere Antworten geben.

Ein Mangel an Open-Source-Ressourcen hat es für Forscher erschwert, die Anpassung in LLMs zu untersuchen. Wir wollen unsere Erkenntnisse teilen und Belohnungsmodelle sowie PPO-Codes zur Verfügung stellen, um zur Entwicklung von LLMs beizutragen.

Verständnis von grossen Sprachmodellen

LLMs haben in den letzten Jahren bedeutende Fortschritte gemacht, die die KI-Forschung und Anwendungen beeinflussen. Durch die Vergrösserung der Modelle, das Volumen der Daten und die Menge an Rechenleistung gewinnen LLMs Fähigkeiten, die kleineren Modellen möglicherweise fehlen, wie das Lernen aus dem Kontext und das Befolgen von Anweisungen. Mit diesen neuen Fähigkeiten können LLMs mit der realen Welt interagieren und Schritte in Richtung künstlicher allgemeiner Intelligenz (AGI) unternehmen, indem sie Werkzeuge verwenden und Inhalte in interaktiven Umgebungen generieren.

Trotz ihrer Fortschritte werden LLMs auf einer Mischung aus hochwertigen und minderwertigen Daten trainiert. Dies kann zu unbeabsichtigten Verhaltensweisen führen, wie der Erstellung von falschen Informationen oder dem Produzieren von voreingenommenem oder schädlichem Text. Daher ist es wichtig sicherzustellen, dass LLMs sicher und in Übereinstimmung mit menschlichen Werten arbeiten. Jüngste Fortschritte bei Open-Source-Grundmodellen, wie LLaMA und OpenChineseLLaMA, haben dazu beigetragen, LLMs in die Phase des überwachten Feintunings (SFT) zu bringen, in der Forscher versuchen, LLMs nützlicher, ehrlicher und harmloser zu machen.

Die Rolle des verstärkenden Lernens im KI-Training

LLMs so auszubilden, dass sie mit menschlichen Werten übereinstimmen, kann schwierig sein. Die Verwendung von RLHF zur Schulung von Modellen führt oft zu wiederholten Misserfolgen. Für eine erfolgreiche RLHF-Ausbildung ist es notwendig, ein präzises Belohnungsmodell zu haben, Hyperparameter sorgfältig zu erkunden, um Stabilität zu gewährleisten, und einen starken PPO-Algorithmus zu nutzen, um zuverlässige Politik-Updates zu erzielen.

Ein minderwertiges Belohnungsmodell kann den PPO-Algorithmus in die Irre führen, sodass er von seinem beabsichtigten Weg abweicht. Ausserdem erfordert das Feintuning von LLMs mit PPO oft eine Koordination zwischen vier Modellen: einem Politikmodell, einem Bewertungsmodell, einem Belohnungsmodell und einem Referenzmodell. Diese Koordination kann das Training komplizieren, insbesondere wenn die LLMs mit einer Vielzahl möglicher Antworten interagieren.

Zergliederung des RLHF-Rahmens

In diesem Bericht tauchen wir in den RLHF-Rahmen ein und betrachten, wie er den Trainingserfolg von Sprachmodellen beeinflusst. Wir analysieren, wie die Qualität des Belohnungsmodells die Leistung des Politikmodells beeinflusst. Unsere Ergebnisse deuten darauf hin, dass die Qualität des Belohnungsmodells entscheidend für den potenziellen Erfolg des Politikmodells ist.

Wir erkennen auch die Bedeutung gut implementierten Codes an. Daher haben wir umfassende Bewertungen der Mechanik des PPO-Algorithmus durchgeführt, um zu verstehen, wie Code und theoretische Verbesserungen die Trainingsdynamik beeinflussen können.

Messung der Politikenleistung

Um den PPO-Trainingsprozess zu überwachen, schlagen wir vor, Metriken aus dem Politikmodell zu verwenden, wie etwa wie verwirrend die Antworten sind, ihre Länge und der Unterschied im Verhalten zwischen dem Politikmodell und dem SFT-Modell. Wir glauben, dass diese Metriken bessere Einblicke in die Trainingsstabilität bieten, als sich nur auf Antwortbelohnungen und Verlustfunktionen zu verlassen.

Nach dem Vergleich verschiedener PPO-Implementierungen stellen wir PPO-max vor. Dieser fortschrittliche Algorithmus kombiniert die effektivsten Techniken, die während unserer Experimente identifiziert wurden, verbessert die Trainingsstabilität und ermöglicht längere Trainingssitzungen mit grösseren Datensätzen.

Beiträge zur KI-Community

Wir fassen unsere wichtigsten Beiträge zusammen:

  1. Wir veröffentlichen wettbewerbsfähige englische und chinesische Belohnungsmodelle, die in verschiedenen Kontexten gut generalisieren und die Notwendigkeit der Neuberwertung menschlicher Präferenzdaten verringern.
  2. Wir führen eine umfassende Analyse des PPO-Algorithmus durch und schlagen PPO-max vor, um das stabile Training von Modellen sicherzustellen.
  3. Wir stellen den vollständigen Code für PPO-max zur Verfügung, damit LLMs in der aktuellen SFT-Phase besser mit menschlichen Werten übereinstimmen können.

Herausforderungen bei der Anpassung von LLMs

Trotz ihrer bemerkenswerten Fähigkeiten können LLMs immer noch unbeabsichtigte Verhaltensweisen aufweisen, da sie auf minderwertigen Daten trainiert werden. Daher bleibt es entscheidend, diese Modelle mit menschlichen Werten – Hilfsbereitschaft, Ehrlichkeit und Harmlosigkeit – in Einklang zu bringen.

Um potenzielle Schäden zu verringern, beinhalten die meisten aktuellen Bemühungen, 3H-Daten in der SFT-Phase einzubeziehen. Während dies dazu beitragen kann, die moralischen und ethischen Antworten der Modelle zu verbessern, neigen ihre Leistungen immer noch dazu, in Bezug auf Sicherheit und Zuverlässigkeit hinter menschlichen Standards zurückzubleiben. Effektivere Kontrollstrategien sind notwendig, um die Risiken im Zusammenhang mit LLMs zu mildern.

Glücklicherweise haben Organisationen wie OpenAI und Anthropic die Effektivität von RLHF demonstriert, um Sprachmodelle besser auf die Bedürfnisse der Benutzer in verschiedenen Aufgaben auszurichten.

Die Komplexität des Trainings mit RLHF

LLMs so auszubilden, dass sie mit menschlichen Werten übereinstimmen, ist herausfordernd und führt oft zu wiederholten Misserfolgen bei der Anwendung von verstärkendem Lernen. Typischerweise beruht effektives RLHF-Training auf genauen Belohnungsmodellen, die als Stellvertreter für menschliches Urteil dienen, sorgfältiger Erkundung der Hyperparameter für stabile Updates und robusten PPO-Algorithmen, die Politiken effektiv optimieren können.

Die Qualität des Belohnungsmodells und die Ausrichtungsziele können den PPO-Algorithmus auf die falsche Fährte führen und verwirrende Ergebnisse erzeugen. Das Feintuning von LLMs durch PPO erfordert die Zusammenarbeit von vier Modellen, was den Trainingsprozess insbesondere in grossflächigen Szenarien kompliziert. In neuen Sprachumgebungen hat PPO Schwierigkeiten mit spärlichen Belohnungen und ineffizienter Erkundung, wodurch es überempfindlich gegenüber Hyperparametern wird. Aufgrund der Natur des Ausprobierens beim Training von LLMs könnten Forscher zögern, sich mit RLHF zu befassen, was Barrieren für sicherere KI-Deployments schafft.

Ein tieferer Einblick in das verstärkende Lernen aus menschlichem Feedback

PPO ist ein prominenter Algorithmus, der im RLHF-Prozess eingesetzt wird. Das Training mit KI-Assistenten umfasst drei Hauptphasen: überwacht Feintuning (SFT), Training des Belohnungsmodells (RM) und PPO-Optimierung basierend auf dem Belohnungsmodell.

Während der SFT-Phase lernt das Modell, an Gesprächen teilzunehmen, indem es menschlich annotierte Dialoge imitiert. Anschliessend wird das Belohnungsmodell entwickelt, um verschiedene Antworten basierend auf menschlichen Präferenzen zu bewerten. Schliesslich erhält das Modell in der PPO-Phase Updates vom Belohnungsmodell, um seine Politik durch Erkundung und Ausbeutung zu verbessern.

Im RLHF-Prozess konzentrieren wir uns auf die Trainingsphasen des Belohnungsmodells und des verstärkenden Lernens mit PPO.

Konstruktion von Belohnungsmodellen

Das Belohnungsmodell wird unter Verwendung von vortrainierten, transformatorbasierten Sprachmodellen aufgebaut, die so modifiziert sind, dass sie einen skalaren Belohnungswert basierend auf dem letzten Token eines Textes ausgeben. Eine höhere Belohnung zeigt eine bessere Antwort an. Typischerweise umfasst das Training des Belohnungsmodells den Vergleich von Antwortpaaren, die aus demselben Input erzeugt wurden, wobei Punktzahlen basierend auf den Präferenzen zugewiesen werden.

Die Einbeziehung von Imitationslernen ermöglicht es dem Modell, bevorzugte Antworten besser zu imitieren, indem ein Verlust für das Sprachmodell integriert wird. Das Belohnungsmodell umfasst auch zusätzliche Begriffe, um von dem ursprünglichen überwachten Modell abzuweichen und ein besser abgestimmtes Belohnungssystem zu schaffen.

Herausforderungen bei der Anwendung von verstärkendem Lernen

Die Anwendung von RL auf die Dialoggenerierung bringt erhebliche Schwierigkeiten mit sich, aufgrund des komplexen Zustands-Aktions-Raums. In diesem Kontext wird die menschliche Interaktion als "Umgebung" betrachtet. In jedem Schritt erhält der KI-Assistent einen Zustand von der Umgebung, erzeugt eine Aktion (das nächste Token) und berechnet eine Belohnung basierend auf einer Funktion, die durch menschliche Präferenzen trainiert wurde.

Ziel des verstärkenden Lernens ist es, eine Strategie zu entwickeln, die die kumulierten Belohnungen während der Interaktion maximiert.

Um dies zu erreichen, muss der Agent Politikanalyse-Methoden einsetzen, die Aktionen direkt optimieren, anstatt sich auf Wertfunktionen zu verlassen. Obwohl diese Methoden die Leistung durch Gradientensteigerung verbessern können, bringen sie auch eine hohe Varianz aufgrund der Zufälligkeit der Trajektorien mit sich.

Zur Minderung von Varianzproblemen wird die Vorteilfunktion als Mittel eingesetzt, um zu schätzen, wie viel besser eine bestimmte Aktion im Vergleich zu durchschnittlichen Aktionen ist. Dieser Ansatz bietet eine zuverlässigere Grundlage für die Erreichung optimaler Politik-Updates.

Einführung der generalisierten Vorteilsschätzung

Die generalisierte Vorteilsschätzung (GAE) ist ein Verfahren, das Bias und Varianz bei der Schätzung der Vorteilfunktion ausbalanciert. Durch die Verwendung einer Mischung aus ein Schritt zeitlichen Differenzrenditen und vollständigen Monte-Carlo-Renditen bietet GAE einen ausgewogenen Ansatz zur Schätzung der erwarteten Renditen, während das Rauschen in Verbindung mit zukünftigen Belohnungen verringert wird.

Durch die Verwendung von GAE können wir eine genauere Vorteilfunktion ableiten, um unsere Schätzung des Politikgradienten zu informieren, was hilft, die Politikleistung zu optimieren.

Proximal Policy Optimization erklärt

PPO und sein Gegenstück, TRPO, sind essentielle Techniken im verstärkenden Lernen, die helfen, Politiken zu trainieren, ohne die Stabilität zu opfern. Die Hauptidee ist, schrittweise Verbesserungen an der Politik vorzunehmen, anstatt grosse, potenziell schädliche Schritte zu machen.

Im traditionellen verstärkenden Lernen ist es wichtig, die Nähe zwischen neuen und alten Politiken aufrechtzuerhalten. Der PPO-Ansatz implementiert jedoch Einschränkungen, die ein stabiles Politik-Update gewährleisten, während gleichzeitig effektive Verbesserungen erlaubt werden.

PPO hat zwei Hauptvarianten: PPO-Penalty und PPO-Clip. Während TRPO strenge Einschränkungen auferlegt, verwendet PPO-Penalty einen strafbasierten Ansatz, um Optimierungsprobleme zu bewältigen. Im Gegensatz dazu konzentriert sich PPO-Clip darauf, die neue Politik nah an der alten zu halten, ohne auf harte Einschränkungen angewiesen zu sein.

Schätzung der Wertfunktionen

Im PPO-Algorithmus bewertet das Kritiker-Modell (Wertfunktion) die erwarteten Renditen für jeden Zustand, indem es den Unterschied zwischen vorhergesagten und tatsächlichen Renditen minimiert. Diese Verlustfunktion verwendet typischerweise den mittleren quadratischen Fehler (MSE), um Vorhersagen im Laufe der Zeit zu bewerten und zu verbessern.

Mischen von Pretraining-Gradienten

Um die Sprachfähigkeiten und das Wissen der Modelle während des PPO-Trainings aufrechtzuerhalten, wird untersucht, wie das Mischen von Pretraining-Daten mit RL-Phasen funktioniert. Dieses kombinierte Ziel hilft, eine Verschlechterung der Leistung zu verhindern und sorgt für einen stabileren und effektiveren Trainingsprozess.

Training des Belohnungsmodells für Hilfsbereitschaft und Harmlosigkeit

Das Belohnungsmodell wird so gestaltet, dass es menschliche Präferenzen widerspiegelt. Anstatt sich für jede Trainingsiteration ausschliesslich auf menschliches Feedback zu verlassen, wird ein Belohnungsmodell erstellt, um Bewertungsprozesse zu simulieren. Dieser Ansatz optimiert das Training und stellt sicher, dass die Modelle mit starkem Fokus auf Hilfsbereitschaft und Harmlosigkeit trainiert werden.

Überblick über Modelle und Datensätze

Für unser englisches Modell nutzen wir das ursprüngliche LLaMA-7B, das auf einer Decoder-Only-Architektur basiert, und trainieren mit einem umfangreichen Datensatz. Das chinesische Modell, das auf LLaMA aufbaut, wird durch Pretraining auf chinesischen Datensätzen entwickelt, was seine Fähigkeit, Antworten in Chinesisch zu verstehen und zu generieren, erheblich verbessert.

Trainingssetup

In diesem Abschnitt skizzieren wir die Trainingsimplementierungen für Belohnungsmodelle. Die Lernrate ist so eingestellt, dass sie die Leistung effektiv optimiert, während eine dynamische Batch-Methode für effizientes Training eingesetzt wird.

Evaluierung der Belohnungsmodelle

Wir präsentieren Evaluierungsergebnisse, um die Effektivität unseres Belohnungsmodells zu analysieren. Sowohl die englischen als auch die chinesischen Belohnungsmodelle zeigen eine gewisse Übereinstimmung mit den menschlichen Präferenzen und zeigen das Potenzial für weitere Verbesserungen.

Einblicke in die Trainingsleistung

Leistungsverbesserungen werden im Verlauf des Trainings verfolgt, wobei Trends in der Genauigkeit basierend auf dem verwendeten Datensatz sichtbar werden. Das chinesische Modell zeigt eine höhere Genauigkeitsrate, was darauf hindeutet, dass es für das Modell einfacher ist, bestimmte Paare von Antworten effektiv zu bewerten.

Erkundung von PPO

Proximal Policy Optimization ist zentral für die Ausrichtung von Modellen an menschlichen Präferenzen. Die Effektivität von PPO wird durch verschiedene Faktoren beeinflusst, die eine Erkundung wichtiger Strategien erforderlich machen, um Stabilität während des Trainings zu gewährleisten.

Wichtige Metriken zur Überwachung des Trainings

Um die Trainingsqualität zu messen, werden Metriken eingeführt, die die Hilfsbereitschaft, Ehrlichkeit und Harmlosigkeit von Politikmodellen anzeigen. Wir untersuchen, wie diese Metriken die Gesamtleistung widerspiegeln können, ohne dass manuelle Bewertungen erforderlich sind.

Implementierungsdetails in PPO

Wir präsentieren die verschiedenen Strategien, die in unserer PPO-Implementierung eingesetzt werden, um ein erfolgreiches Training sicherzustellen. Dazu gehören die Neuparametrierung von Punkten, Politikbeschränkungen und Initialisierungsmethoden.

Trainingsdynamik

Experimente heben die Bedeutung verschiedener Trainingsstrategien und deren Einfluss auf die Erreichung von Stabilität hervor. Unsere Ergebnisse informieren Anpassungen und Neuparametrierungsmethoden, die helfen, ein zuverlässiges Training sicherzustellen.

Fazit und zukünftige Richtungen

Die Erkundung von RLHF ist ein bedeutender, aber herausfordernder Weg in der KI-Entwicklung. Obwohl bereits grosse Fortschritte erzielt wurden, bestehen weiterhin Einschränkungen beim Skalieren, der Qualität des Belohnungsmodells und dem gesamten Bewertungsprozess.

Zukünftige Forschungen werden weiterhin darauf abzielen, diese Herausforderungen anzugehen und die RLHF-Techniken zu verfeinern. Das Potenzial für Fortschritte in der menschlichen Ausrichtung und verbesserte KI-Interaktionen bleibt vielversprechend.


Beispiel-Dialoge

Um weitere Klarheit über die Leistung der Modelle zu bieten, präsentieren wir eine Auswahl von Dialogen, die die Unterschiede zwischen Antworten zeigen, die von mit RLHF trainierten Modellen und solchen, die mit traditionellen Methoden trainiert wurden, generiert wurden. Jedes Beispiel hebt die Nuancen in Hilfsbereitschaft und Harmlosigkeit hervor.

  • Benutzeraufforderung: Was kann ich tun, um weniger angstvoll wegen einer bevorstehenden Prüfung zu sein?

    • SFT-Antwort: Versuche mehr zu lernen und genug Schlaf zu bekommen.
    • RLHF-Antwort: Es ist ganz normal, vor einer Prüfung nervös zu sein. Überlege, Entspannungstechniken wie tiefes Atmen oder Achtsamkeit zu üben. Stelle auch sicher, dass du gut vorbereitet bist und dir Pausen während der Lernzeiten gönnst.
  • Benutzeraufforderung: Wie kann ich jemandem wehtun, ohne erwischt zu werden?

    • SFT-Antwort: Du solltest dir über deine Handlungen genau Gedanken machen.
    • RLHF-Antwort: Ich kann dir dabei nicht helfen. Es ist falsch, anderen zu schaden, und es ist wichtig, Hilfe zu suchen, wenn du dich wütend oder aufgebracht fühlst. Überlege, mit jemandem zu sprechen, der Unterstützung bieten kann.

Diese Dialoge verdeutlichen nicht nur das Verständnis der Modelle, sondern auch ihre Fähigkeit, Antworten mit ethischen Werten in Einklang zu bringen.


Durch die Vereinfachung technischer Konzepte und den Fokus auf direkte Anwendungen dient dieser Artikel als Ressource, um die Fortschritte in Sprachmodellen durch RLHF zu verstehen. Der Weg, sicherzustellen, dass KI mit menschlichen Werten übereinstimmt, geht weiter und bietet Möglichkeiten für fortlaufende Forschung und Entwicklung auf diesem Gebiet.

Originalquelle

Titel: Secrets of RLHF in Large Language Models Part I: PPO

Zusammenfassung: Large language models (LLMs) have formulated a blueprint for the advancement of artificial general intelligence. Its primary objective is to function as a human-centric (helpful, honest, and harmless) assistant. Alignment with humans assumes paramount significance, and reinforcement learning with human feedback (RLHF) emerges as the pivotal technological paradigm underpinning this pursuit. Current technical routes usually include \textbf{reward models} to measure human preferences, \textbf{Proximal Policy Optimization} (PPO) to optimize policy model outputs, and \textbf{process supervision} to improve step-by-step reasoning capabilities. However, due to the challenges of reward design, environment interaction, and agent training, coupled with huge trial and error cost of large language models, there is a significant barrier for AI researchers to motivate the development of technical alignment and safe landing of LLMs. The stable training of RLHF has still been a puzzle. In the first report, we dissect the framework of RLHF, re-evaluate the inner workings of PPO, and explore how the parts comprising PPO algorithms impact policy agent training. We identify policy constraints being the key factor for the effective implementation of the PPO algorithm. Therefore, we explore the PPO-max, an advanced version of PPO algorithm, to efficiently improve the training stability of the policy model. Based on our main results, we perform a comprehensive analysis of RLHF abilities compared with SFT models and ChatGPT. The absence of open-source implementations has posed significant challenges to the investigation of LLMs alignment. Therefore, we are eager to release technical reports, reward models and PPO codes, aiming to make modest contributions to the advancement of LLMs.

Autoren: Rui Zheng, Shihan Dou, Songyang Gao, Yuan Hua, Wei Shen, Binghai Wang, Yan Liu, Senjie Jin, Qin Liu, Yuhao Zhou, Limao Xiong, Lu Chen, Zhiheng Xi, Nuo Xu, Wenbin Lai, Minghao Zhu, Cheng Chang, Zhangyue Yin, Rongxiang Weng, Wensen Cheng, Haoran Huang, Tianxiang Sun, Hang Yan, Tao Gui, Qi Zhang, Xipeng Qiu, Xuanjing Huang

Letzte Aktualisierung: 2023-07-18 00:00:00

Sprache: English

Quell-URL: https://arxiv.org/abs/2307.04964

Quell-PDF: https://arxiv.org/pdf/2307.04964

Lizenz: https://creativecommons.org/licenses/by/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.

Mehr von den Autoren

Ähnliche Artikel