Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Computerwissenschaften# Rechnen und Sprache# Künstliche Intelligenz

Nutzung von selbst-generierten Daten zur Verbesserung von LLMs

Eine neue Methode ermöglicht es Sprachmodellen, ihre eigenen Trainingsdaten zu erzeugen, um besser abzuschneiden.

― 5 min Lesedauer


LLMs verbessern sich mitLLMs verbessern sich mitselbst generierten Daten.selbstgenerierte Beispiele.von Sprachmodellen durchNeue Methoden verbessern das Training
Inhaltsverzeichnis

Grosse Sprachmodelle (LLMs) haben mega viel Potenzial, um bei verschiedenen Aufgaben zu helfen, wenn man ihnen die richtigen Anweisungen in natürlicher Sprache gibt. Aber einfache Aufforderungen führen oft zu weniger genauen Vorhersagen, als wenn die Modelle mit vielen Trainingsdaten aktualisiert werden, was man Finetuning nennt. Obwohl Finetuning die Leistung verbessern kann, gibt's für viele Aufgaben nicht genug beschriftete Daten.

Einige Forscher haben versucht, aufgabenspezifische Daten mit fortschrittlichen LLMs zu erstellen, um kleineren Modellen zu helfen, besser zu werden. Diese Methode erfordert allerdings Zugriff auf ein anderes Modell, was teuer und schwer zu managen sein kann wegen rechtlicher Einschränkungen. Um diese Herausforderungen anzugehen, wurde ein neuer Ansatz vorgeschlagen, bei dem ein LLM seine eigenen Trainingsdaten generiert und diese dann nutzt, um sich selbst zu verbessern.

Diese Methode hat in Tests mit einem Benchmark namens Natural Instructions V2 vielversprechende Ergebnisse gezeigt. Die Ergebnisse zeigen, dass die Verwendung dieser selbst erzeugten Daten die Leistung des LLMs erheblich verbessert, mit etwa 15 % besseren Ergebnissen bei Klassifikationsaufgaben und 18 % besser bei Generierungsaufgaben.

Methodenübersicht

Der zentrale Prozess dieser neuen Methode besteht aus ein paar wichtigen Schritten. Zuerst erstellt das LLM Eingabe- und Ausgabe-Paare, die spezifisch für eine Aufgabe sind. Dann nutzt das Modell diese Paare, um sich selbst zu finetunen. Das geschieht in einem Few-Shot-Setting, was bedeutet, dass nur eine kleine Menge an Aufgabeninformationen und Beispielen verwendet wird.

Mit dieser Methode kann das Modell lernen, aufgabenbezogene Anweisungen zu befolgen, ohne externe Daten oder Aufforderungen zu benötigen. Der Ansatz konzentriert sich darauf, einen synthetischen Datensatz zu generieren, was bedeutet, dass das Modell neue Daten basierend auf seinen vorherigen Ergebnissen erstellt und dann daraus lernt.

Daten Generierungsprozess

Die Datengenerierung beinhaltet mehrere Schritte, um Qualität und Relevanz sicherzustellen. Der Prozess beginnt damit, die anfänglichen Beispiele mit der Anweisung zu kombinieren, um eine Prompt-Vorlage zu erstellen. Diese Prompt wird dann an das LLM geschickt, um neue Eingaben zu generieren. Wenn neue Eingaben erstellt werden, werden sie in einem Repository gespeichert. Eine Auswahl dieser Eingaben wird dann verwendet, um neue Prompts zu erstellen und den Eingabedatensatz weiter zu erweitern.

Es ist wichtig, die Qualität der generierten Daten sicherzustellen. Während der Verfeinerungsphase werden verschiedene Filter angewendet, um minderwertige Beispiele zu entfernen. Zwei Haupttypen von Filtern werden verwendet: Einer für Rauschen, der irrelevante Inhalte eliminiert, und ein anderer, der die Länge der generierten Eingaben überprüft, um den Erwartungen zu entsprechen.

Ähnlich durchlaufen die Ausgaben, die aus den neuen Eingaben generiert werden, einen Filterprozess, um sicherzustellen, dass sie nützlich sind. Das Modell lernt aus den Beispielen, die es erstellt hat, und verfeinert seine Ausgaben durch weitere Anpassungen.

Qualitätsoptimierung

Um qualitativ hochwertige Trainingsdaten zu erstellen, werden mehrere Parameter angepasst, einschliesslich der Anzahl der generierten Eingaben und der Temperatureinstellung, die die Vielfalt und Qualität der generierten Daten beeinflusst. Die Methode wurde mit spezifischen Parameter-Einstellungen getestet, die sich in verschiedenen Aufgaben bewährt haben.

Experimentelles Setup

Für die Tests wurden die Aufgaben in zwei Gruppen aufgeteilt. Eine Gruppe wurde verwendet, um die Parameter zu finetunen, während die andere für die Bewertung reserviert blieb. Das gleiche Modell wurde für alle Tests verwendet, um einen fairen Vergleich zu gewährleisten. In diesem Ansatz wurden 14 Klassifikationsaufgaben und 8 Generierungsaufgaben getestet, um zu überprüfen, wie gut die selbst generierten Daten die Leistung verbesserten.

Ergebnisse

Die Ergebnisse dieser Experimente zeigen, dass die vorgeschlagene Methode die Aufgabenleistung erheblich verbessert. Ein absoluter Anstieg von 14,6 % in der Genauigkeit bei Klassifikationsaufgaben und 17,9 % bei Generierungsaufgaben wurde beobachtet. Dies zeigt die Fähigkeit selbst generierter Daten, die Fähigkeit eines LLM zur Bearbeitung spezifischer Aufgaben zu erhöhen, selbst wenn Daten begrenzt sind.

Analyse der Verbesserungen

Weitere Tests wurden durchgeführt, um zu verstehen, wie die Leistungssteigerungen erreicht wurden. Die Ergebnisse deuteten darauf hin, dass das Finetuning des Modells mit synthetischen Daten effektiver war, als sich nur auf In-Context-Learning zu verlassen, was bedeutet, aus bestehenden Beispielen ohne Anpassungen zu lernen.

Dieser Prozess hat auch hervorgehoben, dass In-Context-Learning einige Aufgaben verbessert hat, aber bei Klassifikationsaufgaben weniger effektiv war, wo das Modell Schwierigkeiten hatte, sich auf die Anweisungen zu konzentrieren.

Umgang mit irrelevanten Informationen

Eine bemerkenswerte Verbesserung, die in den Ergebnissen zu sehen war, war, wie die Methode irrelevante Ausgaben reduziert hat. Das selbst generierte Modell produzierte Ausgaben, die mehr mit den erwarteten Ergebnissen übereinstimmten und unnötige Informationen eliminierten. Das verbesserte die allgemeine Effektivität und Effizienz des Modells.

Lernen über Muster hinaus

Ein wichtiger Aspekt der Forschung war zu sehen, ob das Modell die zugrunde liegende Aufgabe verstehen konnte, anstatt nur oberflächliche Muster zu memorieren. Tests verglichen die Leistung, wenn Labels in den ursprünglichen und synthetischen Beispielen randomisiert wurden. Die Ergebnisse deuteten darauf hin, dass das Modell immer noch nützliche Muster aus beiden Sets lernen konnte, aber insgesamt boten die selbst generierten Daten bessere Signale, um die tatsächliche Aufgabe zu lernen.

Bedeutung der Filterung

Der Filterprozess stellte sich als entscheidend heraus, um hohe Genauigkeitsniveaus sowohl bei Klassifikations- als auch bei Generierungsaufgaben aufrechtzuerhalten. Das Entfernen von Rauschen verbesserte die Klassifikationsgenauigkeit erheblich, während die Längenprüfung entscheidend für Generierungsaufgaben war, um sicherzustellen, dass die Antworten den erwarteten Standards entsprachen.

Fazit

Diese neue Methode zeigt, wie LLMs selbst Trainingsdaten generieren und die aufgabenspezifische Leistung verbessern können. Die Ergebnisse unterstreichen die Wichtigkeit, sowohl Trainingsdaten zu erweitern als auch die Effizienz von Finetuning im Vergleich zum In-Context-Learning. Der Ansatz ermöglicht es LLMs, ein tieferes Verständnis für Aufgaben zu entwickeln, während sie nützliche, oberflächliche Muster lernen.

Zukünftige Forschungen werden sich darauf konzentrieren, diese Methode auf verschiedene Sprachen und möglicherweise grössere Modelle anzuwenden, um ihre Anwendungen zu erweitern. Ethische Überlegungen im Zusammenhang mit der Technologie werden ebenfalls ein Schwerpunkt sein, um sicherzustellen, dass sie für positive Zwecke eingesetzt wird und Missbrauch vermieden wird.

Diese Arbeit zeigt grosses Potenzial, wie LLMs sich selbst anpassen und ihre Leistung autonom verbessern können, sodass sie näher an einem menschenähnlichen Verständnis in verschiedenen Aufgaben sind.

Originalquelle

Titel: SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning

Zusammenfassung: Large language models (LLMs) hold the promise of solving diverse tasks when provided with appropriate natural language prompts. However, prompting often leads models to make predictions with lower accuracy compared to finetuning a model with ample training data. On the other hand, while finetuning LLMs on task-specific data generally improves their performance, abundant annotated datasets are not available for all tasks. Previous work has explored generating task-specific data from state-of-the-art LLMs and using this data to finetune smaller models, but this approach requires access to a language model other than the one being trained, which introduces cost, scalability challenges, and legal hurdles associated with continuously relying on more powerful LLMs. In response to these, we propose SELF-GUIDE, a multi-stage mechanism in which we synthesize task-specific input-output pairs from the student LLM, then use these input-output pairs to finetune the student LLM itself. In our empirical evaluation of the Natural Instructions V2 benchmark, we find that SELF-GUIDE improves the performance of LLM by a substantial margin. Specifically, we report an absolute improvement of approximately 15% for classification tasks and 18% for generation tasks in the benchmark's metrics. This sheds light on the promise of self-synthesized data guiding LLMs towards becoming task-specific experts without any external learning signals.

Autoren: Chenyang Zhao, Xueying Jia, Vijay Viswanathan, Tongshuang Wu, Graham Neubig

Letzte Aktualisierung: 2024-08-11 00:00:00

Sprache: English

Quell-URL: https://arxiv.org/abs/2407.12874

Quell-PDF: https://arxiv.org/pdf/2407.12874

Lizenz: https://creativecommons.org/licenses/by/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.

Mehr von den Autoren

Ähnliche Artikel