Ausrichten von Open LLMs mit menschlicher Bewertung
Eine neue Methode verbessert die Leistung von LLM bei personalisierten Bewertungen mit wenig Daten.
Javad Seraj, Mohammad Mahdi Mohajeri, Mohammad Javad Dousti, Majid Nili Ahmadabadi
― 6 min Lesedauer
Inhaltsverzeichnis
Automatische Bewertungen mit grossen Sprachmodellen (LLMs) sind heute ein heisses Thema. Allerdings kann die Bewertung von Aufgaben subjektiv sein und von verschiedenen Faktoren beeinflusst werden, was es schwer macht, sich anzupassen. Viele Studien zeigen, dass die besten proprietären LLMs im Vergleich zu menschlichen Bewertern gut abschneiden, aber sie haben oft Probleme, sich über die Zeit an Präferenzen anzupassen. Diese Anpassung ist notwendig für eine personalisierte Bewertung.
Es gab viele Versuche, offene LLMs als Bewerter zu nutzen, aber viele davon ignorieren das Problem, mit begrenzten Daten zu arbeiten. Personalisierte Urteile kommen oft aus Situationen mit wenigen Datenpunkten, was im echten Leben häufig vorkommt.
Dieses Papier schlägt eine Methode zur Datenaugmented an, um aus begrenzten Daten eine effektivere Stichprobe auszuwählen, um ein offenes LLM mit menschlichen Präferenzen in Einklang zu bringen. Die Ergebnisse zeigen eine Verbesserung von etwa 7% in der Pearson-Korrelation mit einem Referenzbewerter im Vergleich zur Ausgangsbasis und eine 30%ige Verbesserung gegenüber dem Basismodell in mathematischem Denken.
Der menschliche Bewertungsprozess ist subjektiv und kann je nach Stimmung des Bewerters stark variieren. Zum Beispiel kann die Bewertung von Schülerarbeiten von Semester zu Semester unterschiedlich sein, was die Stimmung oder die Situation des Lehrers widerspiegelt. Diese Variabilität muss berücksichtigt werden, wenn man versucht, das Verhalten eines Bewerters zu modellieren oder nachzuahmen.
Automatische Bewertungen stossen oft auf Einschränkungen, da normalerweise nur wenig Feedback zur Verfügung steht. Daher ist es wichtig, nach effektiven Trainingsmethoden für Bewertungen in Situationen mit begrenzten Daten zu suchen.
Dieses Papier zeigt, wie man ein offenes LLM in einer datenarmen Umgebung mit einem Referenzbewerter in Einklang bringen kann, wobei der Fokus auf personalisierten Urteilen in Aufgaben wie Mathematik und allgemeinen Fragen liegt.
Die LLM-basierte Bewertung hat sich zu einer skalierbaren und kostengünstigen Methode entwickelt, um sowohl maschinell generierte als auch menschlich generierte Texte zu bewerten. LLMs geben Feedback mit einer Punktzahl, die die Qualität anzeigt.
Frühere Studien, die proprietäre LLMs als Bewerter verwendet haben, zeigen eine hohe Korrelation mit menschlichen Urteilen, verbesserte Geschwindigkeit und Kosteneffizienz. Diese Modelle schneiden in statischen Bewertungen gut ab, bei denen die Noten auf festen Kriterien basieren. Allerdings ist es eine Herausforderung, diese Modelle für spezifische Bewerterpräferenzen zu personalisieren, und oft fehlt es ihnen an dynamischen Urteilen.
Dynamisches Urteil bedeutet die Fähigkeit eines Bewerters, aus wenigen Beispielen zu lernen und die Bewertungsrichtlinien über die Zeit anzupassen, was für eine personalisierte Bewertung entscheidend ist. Diese Arbeit präsentiert einen effektiven Weg, ein offenes LLM in einer Umgebung mit begrenzten Daten an einen Referenzbewerter anzupassen.
Das Ziel ist es, das Urteil des LLM an das des menschlichen Bewerters anzupassen. Die vorgeschlagene Methode zeigt eine etwa 9%ige und 7%ige höhere Pearson-Korrelation für Mathematik- und allgemeine Fragen-Bewertungen. Das zeigt, dass die Auswahl effektiverer Daten dazu hilft, den Ansatz besser abschneiden zu lassen als die Basismethoden.
Beiträge
- Vorschlag einer Methode zur Vereinfachung dynamischer Urteile für offene LLMs, was eine Herausforderung darstellt, die bisher nicht vollständig angegangen wurde.
- Einführung einer Technik zur Datenaugmentation, die darauf abzielt, die Denkfähigkeit des Bewertungsmodells mit der Chain of Thought (CoT) Methode zu verbessern.
- Einführung einer Methode zur Auswahl effektiver Instanzen aus Referenzurteilen, mit dem Fokus auf der Reduzierung von Bias im angepassten Modell.
Verwandte Arbeiten
Naive Datenkreation
Es gibt verschiedene Methoden zur Erstellung von Präferenzdaten. Der naive Ansatz zur Datenkreation verwendet direktes Feedback von einem Referenzbewerter.
LLM als Richter
Die Verwendung von LLMs als Richter hat an Aufmerksamkeit gewonnen, weil sie die menschliche Bewertungsgenauigkeit nachahmen können. Viele nutzen proprietäre Modelle wie GPT-4, die eine starke Übereinstimmung mit menschlichen Bewertungen gezeigt haben.
Ausrichtung an menschlichen Präferenzen
LLMs sind super im Textgenerieren, haben aber Schwierigkeiten mit der Befolgung von Anweisungen und der Ausrichtung an menschlichen Erwartungen. Supervised Fine-Tuning (SFT) ist eine wichtige Methode für diese Ausrichtung geworden. Es sind mehrere Methoden entstanden, die auf verstärkendem Lernen aus menschlichem Feedback (RLHF) basieren.
Daten-effiziente Ausrichtung
Grösse und Qualität der Daten haben einen grossen Einfluss auf die Trainingszeit und Kosten von LLMs. Effiziente Datennutzung kann die Trainingsiterationen reduzieren. Einige Studien konzentrieren sich darauf, die Datenqualität zu verbessern, indem sie minderwertige Daten herausfiltern.
Daten-effizientes Urteil
Dieser Abschnitt präsentiert einen Ansatz, um ein LLM mit einem Referenzbewerter in Einklang zu bringen. Während der Fokus auf maschinell generiertem Text liegt, könnte er auch auf menschliche Texte ausgeweitet werden.
Datenkuratierung und -augmentation
Bewertungsaufgaben erfordern starke Denkfähigkeiten, um faire und genaue Entscheidungen zu gewährleisten. Studien haben jedoch gezeigt, dass LLMs wie Llama-3.1-8B-Instruct als Bewerter nicht sehr effektiv sind.
Ausgangspunkt für Präferenzdatensatz
Ausgehend von einem Frage- und Antwortdatensatz werden Feedback und Bewertungen von einem Referenzbewerter gesammelt. Dieser Ausgangsdatensatz soll die Urteilskraft des LLM verbessern.
Naiver Datenkreationsansatz
In dieser Methode generiert das Basis-LLM Feedback und Bewertungen für Antworten. Das generierte Feedback wird als von geringerer Qualität angesehen im Vergleich zu dem Feedback vom Referenzbewerter.
Feedback-Pool-Ansatz
Für jede Antwort werden mehrere Feedback- und Bewertungs-Paare mit dem Basis-LLM generiert, was seine Denkfähigkeiten nutzt. Das erlaubt dem LLM, besseres Feedback zu geben.
Effizienter Sampling-Ansatz
Diese Methode wählt effektivere Stichproben vom Referenzbewerter aus. Statt alle Feedbacks zu verwenden, wird eine Teilmenge basierend auf der Ähnlichkeit ausgewählt.
Experimentaufbau
Beschreibt die Grösse der erstellten Daten und der Ausrichtungsdatensätze, die aus Feedbackdatensätzen extrahiert wurden. Die Ergebnisse zeigen eine verbesserte Ausrichtung mit dem Referenzbewerter.
Bewertungsaufbau
Der experimentelle Aufbau zur Bewertung von Bewerter-LLMs umfasst die Verwendung von Pearson, Spearman und Kendall-Tau für Leistungskennzahlen im Vergleich zum Referenzbewerter. Die Ergebnisse werden über drei Methoden verglichen, was die Bedeutung der gewählten Daten-Sampling-Strategie hervorhebt.
Ergebnisse
Die Erkenntnisse zeigen, dass der vorgeschlagene Ansatz signifikante Verbesserungen in der Ausrichtung mit menschlichen Bewertern erzielt. Die Studie ist jedoch durch die Verfügbarkeit von Daten eingeschränkt und konzentriert sich auf spezifische Aufgaben, was seine breitere Anwendbarkeit beeinträchtigen kann.
Fazit
Während LLMs Potenzial für automatische Bewertungen haben, bleibt es eine Herausforderung, sie für subjektive Aufgaben in Situationen mit begrenzten Daten zu personalisieren. Die vorgeschlagenen Methoden zeigen signifikante Verbesserungen und Potenzial für eine bessere Ausrichtung von LLMs an menschlichen Bewertungen. Zukünftige Arbeiten könnten sich auf die Erweiterung des Aufgabenspektrums und die Erhöhung der Datenvielfalt für eine grössere Verallgemeinerbarkeit konzentrieren.
Originalquelle
Titel: Optimizing Alignment with Less: Leveraging Data Augmentation for Personalized Evaluation
Zusammenfassung: Automatic evaluation by large language models (LLMs) is a prominent topic today; however, judgment and evaluation tasks are often subjective and influenced by various factors, making adaptation challenging. While many studies demonstrate the capabilities of state-of-the-art proprietary LLMs in comparison to human evaluators, they often struggle to adapt to reference evaluators over time, a requirement for achieving personalized judgment. Additionally, numerous works have attempted to apply open LLMs as judges or evaluators, but these efforts frequently overlook the limitations of working with scarce data. Personalized judgment is inherently associated with limited data scenarios, which are common in many real-world problems. Our work aims to present a data augmentation technique to select a more effective sample from limited data in order to align an open LLM with human preference. Our work achieves approximately 7% improvements in Pearson correlation with a reference judge over the baseline,and 30% improvement over the base model (Llama3.1-8B-Instruct) in the mathematical reasoning evaluation task. demonstrating that augmenting selecting more effective preference data enables our approach to surpass baseline methods.
Autoren: Javad Seraj, Mohammad Mahdi Mohajeri, Mohammad Javad Dousti, Majid Nili Ahmadabadi
Letzte Aktualisierung: 2024-12-10 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2412.07429
Quell-PDF: https://arxiv.org/pdf/2412.07429
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.