Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Computerwissenschaften# Rechnen und Sprache# Maschinelles Lernen

Verbesserung grosser Sprachmodelle mit Strategien für synthetische Daten

Diese Studie untersucht effektive Methoden zur Erstellung synthetischer Daten für das Training von Sprachmodellen.

Yung-Chieh Chan, George Pu, Apaar Shanker, Parth Suresh, Penn Jenks, John Heyer, Sam Denton

― 14 min Lesedauer


Synthetische Daten fürSynthetische Daten fürLLM-TrainingSprachmodellen.Methoden verbessert das Training vonDas Studium von Daten generierenden
Inhaltsverzeichnis

Da grosse Sprachmodelle (LLMs) für immer mehr Aufgaben genutzt werden, wird es zunehmend zum Problem, gute Daten zu finden, um diese Modelle zu optimieren. Hochwertige menschliche Daten zu verwenden ist zwar gängig, um die Modellleistung zu verbessern, kann aber sehr teuer werden. Es gibt inzwischen andere Methoden zur Erstellung von Datensätzen, wie zum Beispiel die Nutzung von synthetischen Daten, aber es ist immer noch unklar, wie gut diese Methoden funktionieren, insbesondere wenn die Ressourcen begrenzt sind und die Aufgaben schwer zu überprüfen sind.

Um dieses Problem anzugehen, kategorisieren wir Methoden zur Generierung synthetischer Daten in drei Haupttypen: Antwort-Augenietierung, Fragen umformulieren und neue Fragen. Wir untersuchen, wie effektiv diese Strategien sind, wenn wir kleinere Versionen von LLMs trainieren, die als Schülermodelle bezeichnet werden, unter verschiedenen Einschränkungen, wie der Grösse des ursprünglichen Instruktionssatzes und der Anzahl der Anfragen, die wir nutzen können. Wir stellen fest, dass nicht alle Methoden in unterschiedlichen Situationen gleich gut funktionieren. Tatsächlich hängt die beste Methode zur Datenerstellung stark davon ab, wie viele Anfragen wir im Vergleich zur Grösse des Ausgangsinstruktionssatzes haben. Wenn weniger Anfragen zur Verfügung stehen, funktioniert das Hinzufügen neuer Antworten zu bestehenden Fragen am besten. Wenn wir jedoch mehr Anfragen haben, wird das Erstellen neuer Fragen zur besten Wahl.

Wir sehen auch, dass die Wahl, wie Daten angereichert werden und andere Designentscheidungen viel bedeutender sind, wenn man mit kleineren Datenmengen arbeitet als wenn man mit einer grossen Datenmenge zu tun hat. Wir bieten einen praktischen Leitfaden, um die richtige Methode zur Erstellung synthetischer Daten basierend auf verschiedenen Aspekten auszuwählen, einschliesslich der Skalierbarkeit der Methoden, der Wichtigkeit der Qualitätsüberprüfung von synthetischen Daten und der Arten von LLMs, die zur Generierung synthetischer Daten verwendet werden.

Anwendungen grosser Sprachmodelle

Die Anwendungen grosser Sprachmodelle decken viele Bereiche ab, wie das Verständnis natürlicher Sprache und die Generierung von Code. Aber die Anwendung dieser Modelle in neuen Bereichen steht oft vor Herausforderungen, gute, spezifische Daten zu beschaffen, die für die Aufgaben erforderlich sind.

Um dieses Problem zu lösen, sind verschiedene Lösungen entstanden, die menschliches Input, eine Mischung von Methoden und Synthetische Daten nutzen. Einige dieser Methoden beinhalten die Verbesserung der Datenqualität manuell oder automatisch, die Erhöhung der verfügbaren Datenmenge oder das Erhalten nützlicherer Lernsignale aus jeder Probe. Zum Beispiel haben einige Modelle ihre Fähigkeiten in Codierung, Mathematik und bei langen Kontextaufgaben verbessert, nachdem sie mit gemischten Daten optimiert wurden.

Obwohl diese Methoden Potenzial zeigen, ist ihre Kosteneffizienz und Leistung bei verschiedenen Aufgaben und unter unterschiedlichen Einschränkungen immer noch unklar, insbesondere wenn die verfügbaren Ressourcen niedrig sind. Diese Unsicherheit macht es schwierig für Leute, die ihre Datenstrategien für spezifische Aufgaben und Limits optimieren wollen.

Untersuchung von Strategien zur Generierung synthetischer Daten

In dieser Studie untersuchen wir die Effektivität verschiedener Strategien zur Generierung synthetischer Daten zum Training von LLMs unter unterschiedlichen Einschränkungen. Wir verwenden eine Situation, in der wir nur einen kleinen Satz von Ausgangsinstruktionen und ein Lehrer-LLM haben, das ein Schüler-LLM anleitet. Unser Ziel ist es, den begrenzten Satz von Ausgangsinstruktionen zu nutzen und das beste Lehrermodell auszuwählen, um das Schüler-Modell effektiv zu verbessern.

Um diese Strategien zu bewerten, analysieren wir, wie gut ein Schüler-LLM unter verschiedenen Bedingungen abschneidet, wie der Grösse des Ausgangsinstruktionssatzes und dem erlaubten Anfragebudget. Die Grösse des Ausgangsinstruktionssatzes gibt an, wie viele anfängliche, aufgabenbezogene Instruktionen verfügbar sind, während das Anfragebudget zeigt, wie viele Anfragen an das Lehrermodell wir stellen können.

Angesichts der Vielzahl von Methoden in mathematischen Aufgaben unterteilen wir die Ansätze zur Erstellung synthetischer Daten in drei Haupttypen - Antwort-Augenietierung, Fragen umformulieren und neue Fragen-Augenietierung. Wir bewerten auch, wie gut diese Methoden auf verschiedene Aufgaben wie Mathematik, Programmierung und allgemeines Fragenbeantworten angewendet werden können. Darüber hinaus zielen wir darauf ab, die Schlüsselaspekte zu klären, die bei der Gestaltung von Datenstrategien für das Training von LLMs erforderlich sind.

Wichtige Beiträge

  1. Wir führen einen neuen Rahmen ein, um Strategien zur Generierung synthetischer Daten unter Datenbeschränkungen zu bewerten, und zeigen, dass synthetische Daten auch für neue Aufgaben über traditionelle Mathematik- und Codierungsszenarien hinaus effektiv sein können.
  2. Wir demonstrieren, dass die beste Strategie zur Datengenerierung auf dem Gleichgewicht zwischen der Anzahl der Anfragen, die wir nutzen können, und der Grösse des Ausgangsinstruktionssatzes beruht. Wenn das Verhältnis niedrig ist, funktioniert das Hinzufügen neuer Antworten zu bestehenden Fragen am besten. Wenn das Verhältnis hoch ist, ist das Erstellen neuer Fragen besser.
  3. Wir stellen fest, dass die Wahl des Modells zur Erstellung neuer Fragen eine wesentliche Rolle dabei spielt, wie gut das Schüler-Modell abschneidet, während Aspekte wie die Überprüfung von Antworten und die Wahl des Schüler-Modells weniger Einfluss haben.

Verwandte Arbeiten

Effizientes Training von LLMs

Da die Modellgrössen und der Datenbedarf schnell zunehmen, wird es entscheidend, den Trainingsprozess für LLMs effizienter zu gestalten. Forscher haben nach Möglichkeiten gesucht, Trainern zu helfen, ihre Vortrainingstrategien durch Skalierungsgesetze und Datenmischungen zu optimieren. Angesichts des Anstiegs von Open-Source-LLMs und dem Drang nach aufgabenspezifischen LLMs haben sich mehrere Studien darauf konzentriert, die Effizienz während des Nachtrainings zu verbessern. Aus einer rechnerischen Perspektive sind Techniken entstanden, um die Ressourcen, die für das Feintuning benötigt werden, zu senken. Ausserdem haben frühere Arbeiten erfolgreich den Datenbedarf beim Feintuning verringert, indem sie die Qualität verbessert haben. Diese Bemühungen leiten unsere Arbeit zum Verständnis von Kosten und Effizienz beim Feintuning mit synthetischen Daten, die von LLMs generiert wurden.

Synthetische Daten für das Feintuning

Die Nutzung von synthetischen und hybriden Daten für das Feintuning war in vielen Aufgaben erfolgreich. Bei mathematischen Überlegungen sind hochwertige Anweisungen schwer zu finden, weshalb viele Studien synthetische Daten, die von LLMs generiert wurden, verwenden, um die mathematischen Fähigkeiten kleinerer LLMs zu verbessern. Bei Codierungsaufgaben können synthetische Daten gegen Testfälle überprüft oder Code ausgeführt werden, was hilft, die Ergebnisse zu verbessern. Ähnliche Methoden wurden in Aufgaben zur Befolgung von Anweisungen verwendet, bei denen LLMs mit verschiedenen synthetischen Anweisungen mit wenig bis keinem menschlichen Input trainiert wurden. Allerdings betrachten die meisten Studien nur ein einzelnes Fachgebiet, ohne zu berücksichtigen, wie diese Methoden unter unterschiedlichen Datenbeschränkungen und Strategien abschneiden. Wir zielen darauf ab, auf diese Methoden aufzubauen, während wir untersuchen, welche Faktoren bei der Erstellung synthetischer Daten in mehreren Aufgaben und Budgets entscheidend sind.

Effiziente Generierung synthetischer Daten

Obwohl synthetische Daten weniger teuer sind als echte Daten, können die Kosten für die Erstellung in grossem Massstab dennoch anfallen. Andere Arbeiten konzentrieren sich darauf, synthetische Datensätze auf Diversität und Richtigkeit zu filtern, unter Verwendung von Tricks, die für jedes Fachgebiet entwickelt wurden. Aktuelle Forschungen zum Training von LLMs mit synthetischen Daten betonen Skalierbarkeit und Leistung. Damit diese Methoden auf mehr Aufgaben anwendbar sind, müssen wir die Kosteneffizienz unter verschiedenen Massstäben und Bedingungen aufschlüsseln und bewerten. Unser Effort adressiert dies, indem wir einen Leitfaden für Modelltrainer bereitstellen, um ihre Strategien zur Generierung synthetischer Daten zu definieren und zu verfeinern, um maximale Effizienz innerhalb ihrer Budgetgrenzen zu erreichen.

Überblick über Ansätze zur Generierung synthetischer Daten

Aus einem Satz von Ausgangsanweisungen können wir für das Feintuning des Schüler-Modells mithilfe von drei verschiedenen Methoden Instruktions-Antwort-Paare erstellen. Wir beginnen damit, ein Beispiel für eine Ausgangsanweisung aus einem Datensatz zu betrachten und wie synthetische Anweisungen und Antworten generiert werden.

In dieser Arbeit untersuchen wir Techniken zur synthetischen Daten, die ursprünglich für mathematische Überlegungen entwickelt wurden, und erweitern diese Ansätze auf eine Vielzahl von Aufgaben und Szenarien. Wir wählen überwachte Feintuning als Lernmethode für unser Schüler-Modell, die einen Datensatz aus Instruktions-Antwort-Paaren erfordert.

Wir legen Begriffe fest, um unsere Diskussion über Datenstrategien und Experimente zu klären. Lassen Sie die Menge der Ausgangs- oder Anfangsanweisungen durch eine Grössenvariable definiert werden. Eine Strategie zur Generierung synthetischer Daten kann als zwei Schritte betrachtet werden: (1) den Ausgangsinstruktionssatz mit einem Modell zu erweitern, das auf die Erweiterung von Anweisungen ausgelegt ist, und (2) entsprechende Antworten für jede Anweisung mit einem Lehrermodell zu generieren. Durch die Auswahl unterschiedlicher Erweiterungsmodelle können wir einen synthetischen Trainingsdatensatz erstellen, der Anweisungen und deren zugehörige Antworten enthält, um das Schüler-Modell zu trainieren.

Datenstrategien

Antwort-Augenietierung

Diese Methode erstellt eine Vielzahl von Antworten für die Ausgangsanweisungen, die sich in Denkpfaden und Wortwahl unterscheiden. Durch die Verwendung von Chain-of-Thought-Prompting erhöhen wir die Vielfalt der Antworten. Wenn wir zum Beispiel fragen, wie oft sich die Erde in einem Tag um ihre Achse dreht, könnte die Antwort mit Hintergrundinformationen beginnen und mit der Antwort enden.

Fragen umformulieren

Diese Methode generiert neue Anweisungen, indem sie die Ausgangsanweisungen umformuliert. Im Allgemeinen ist es schwieriger, Modelle dazu zu bringen, vielfältige und relevante Anweisungen zu erstellen, als vielfältige Antworten auf gegebene Fragen zu generieren. Ein Beispiel für eine umformulierte Anweisung könnte die Frage sein, wie viele Umdrehungen die Erde in einem Zeitraum von 24 Stunden macht, die die gleiche endgültige Antwort haben sollte.

Neue Fragen-Augenietierung

Diese Methode produziert neue Anweisungen basierend auf dem Ausgangssatz, zielt aber auf verschiedene endgültige Antworten ab. Wir stellen sicher, dass die neuen Anweisungen relevant sind und dem richtigen Format folgen. Eine neue Anweisung könnte beispielsweise fragen, wie oft der Mond rotiert, während die Erde zweimal umkreist, was zu einer anderen endgültigen Antwort führt.

Experimentelle Einrichtung

Die Genauigkeit des Schüler- und Lehrer-Modells wird anhand eines Testdatensatzes von Proben gemessen, wobei eine höhere Genauigkeit besser ist. Unser Setup beinhaltet ein Schüler-Modell, ein Erweiterungsmodell, ein Lehrer-Modell und einen Satz von aufgabenspezifischen Ausgangsanweisungen. Das Schüler-Modell lernt aus einem grösseren Datensatz, der vom Erweiterungsmodell erstellt wurde.

Um zu verstehen, wie breit anwendbar unsere Methoden sind, wählen wir drei verschiedene Aufgabentypen: Mathematik, Programmierung und allgemeines Fragenbeantworten, die in der Branche beliebt sind. Für unsere Haupttests verwenden wir spezifische Versionen von Modellen, die sicherstellen, dass es einen deutlichen Leistungsunterschied zwischen dem Lehrer- und dem Schüler-Modell gibt, sodass wir die Verbesserungen, die mit jeder Methode erzielt wurden, besser hervorheben können.

Datensätze und Bewertungen

Wir wählen einen Datensatz für jede der drei Aufgaben aus, um die Strategien zur Generierung synthetischer Daten zu testen. Für Mathematik verwenden wir einen Datensatz, der Schulmathematikfragen enthält. Für das Programmieren nutzen wir einen Text-zu-SQL-Datensatz aus vielen verschiedenen Bereichen. Für das allgemeine Fragenbeantworten wählen wir einen Datensatz aus, der aus Fragen zur Naturwissenschaft der Grundschule besteht. Jeder Datensatz hat einen Testdatensatz, der zur Bewertung verwendet wird, um sicherzustellen, dass wir die Effektivität unserer Methoden zur Generierung synthetischer Daten messen.

Generierung synthetischer Daten unter Datenbeschränkungen

In dieser Arbeit schauen wir uns an, wie effektiv die gewählten Strategien zur Generierung synthetischer Daten unter spezifischen Limits von Ausgangsdaten und Kosten sind. Um die realen Datenbeschränkungen zu imitieren, erstellen wir unterschiedliche Grössen von Ausgangsinstruktionssätzen und paaren jede Generierungsmethode. Dadurch können wir sehen, wie viele Trainingssätze wir generieren können, gegeben die Anzahl der erlaubten Anfragen.

Experimentelle Ergebnisse

In unseren Experimenten bewerten wir, wie gut jede Strategie zur Generierung synthetischer Daten die Genauigkeit des Schüler-Modells beeinflusst. Zuerst erkunden wir, wie skalierbar jede Methode unter verschiedenen Einschränkungen ist. Dann analysieren wir die Kosteneffizienz der Erstellung neuer Anweisungen im Vergleich zu Antworten.

Effektivität der Strategien zur Generierung synthetischer Daten

Wir untersuchen, wie effektiv die Methoden zur Datengenerierung sind, indem wir die Genauigkeit des Schüler-Modells nach dem Feintuning mit synthetischen Daten aus jeder Methode vergleichen. Die Ergebnisse zeigen, dass sich Trends über verschiedene Einschränkungen verallgemeinern lassen, und Skalierbarkeit in den Datensätzen, die wir untersucht haben, gültig ist.

In unseren Tests beobachten wir, dass das neue Fragen-Augenietierung weiterhin die Genauigkeit verbessert, auch wenn wir mit einem grossen Datensatz starten. Allerdings beginnen sich die Leistungsunterschiede zwischen den Methoden zu verringern, wenn wir die Grösse des Ausgangsinstruktionssatzes erhöhen.

Kosteneffizienzanalyse: Wann neue Anweisungen oder Antworten erstellen?

Die beste Strategie zur Datengenerierung hängt von verschiedenen Faktoren ab, wie den Kosten für Anfragen und der Komplexität des Datensatzes. Wir konzentrieren uns auf die Frage, ob es besser ist, neue Antworten oder neue Anweisungen zu unserem Datensatz hinzuzufügen.

In Einstellungen mit begrenzten Ressourcen hilft die Antwort-Augenietierung, Verbesserungen zu messen, indem neue Antworten für die ursprünglichen Aufforderungen erstellt werden. Sowohl die Methoden zum Umformulieren von Fragen als auch neue Fragen ändern den Prompt-Bereich, und unsere Analyse zeigt, dass Antwort-Augenietierung die beste Wahl ist, wenn das Budgetverhältnis niedrig ist. Wenn das Budget zunimmt, wird es vorteilhafter, neue Aufforderungen zu erstellen, entweder durch Umformulierung oder neue Fragen.

Typischerweise schneidet neue Fragen-Augenietierung in Bezug auf Kosten und Skalierbarkeit besser ab als Fragen umformulieren, aber das Umformulieren von Fragen ist oft einfacher umzusetzen und kann in eingeschränkten Einstellungen besser funktionieren.

Leistungsausgleich mit verschiedenen Erweiterungsmodellen

Wir untersuchen, ob wir die Kosten reduzieren können, indem wir ein weniger leistungsfähiges Erweiterungsmodell zur Generierung von Anweisungen verwenden. Da Trends in der Kosteneffizienz über Aufgaben hinweg übertragbar sind, haben wir Experimente durchgeführt, um zu sehen, wie verschiedene Auswahlmöglichkeiten von Erweiterungsmodellen beim Generieren synthetischer Daten abschneiden.

Die Ergebnisse zeigen, dass das Umformulieren von Fragen auch mit schwächeren Modellen effektiv bleibt, jedoch eng mit den Fähigkeiten des verwendeten Erweiterungsmodells verknüpft ist, wenn es um neue Fragen geht. Es gab einen deutlichen Leistungsabfall, als schwächere Modelle für neue Fragenaufgaben verwendet wurden.

Leistungsausgleich mit Überprüfung

Da unsere Lehrermodelle manchmal für einige Anweisungen falsche Antworten geben, kann der Trainingsprozess auch fehlerhafte und ungenaue Antworten beinhalten. Wir überprüfen, ob das Verifizieren der synthetischen Antworten gegen korrekte Antworten die Effektivität des Trainings des Schüler-Modells verbessert.

Zu diesem Zweck konzentrieren wir uns auf Methoden, die korrekte endgültige Antworten erstellen. In unseren Ergebnissen beobachten wir, dass die Überprüfung von Antworten zu keinen signifikanten Verbesserungen in der Effektivität führt. Dies könnte daran liegen, dass das Schüler-Modell möglicherweise dennoch wertvolle Informationen aus falschen Antworten lernen kann, die von einem leistungsfähigeren Lehrermodell generiert wurden, obwohl Überprüfungsbemühungen die Gesamtvielfalt möglicherweise einschränken.

Kosteneffizienz mit einem anderen Schüler-Modell

Abschliessend analysieren wir, ob unsere Ergebnisse zur Kosteneffizienz auch dann zutreffen, wenn wir das Schüler-Modell wechseln. Durch die Verwendung verschiedener Methoden zur Datengenerierung wiederholen wir Tests mit einem anderen Schüler-Modell und konzentrieren uns auf die gleichen Ausgangsinstruktionssätze. Die Ergebnisse zeigen, dass ähnliche Muster in der Kosteneffizienz über unterschiedliche Modellkonfigurationen hinweg gelten, was die Idee unterstützt, die Grösse des anfänglichen Datensatzes und das verfügbare Budget zu berücksichtigen, wenn die beste Strategie zur Datengenerierung bestimmt werden soll.

Fazit

In dieser Studie bieten wir einen Rahmen zur Analyse der Effektivität verschiedener Methoden zur Generierung synthetischer Daten für das Training grosser Sprachmodelle unter unterschiedlichen Ressourcenbeschränkungen und Aufgabentypen. Unsere Ergebnisse zeigen, dass die optimale Strategie vom Verhältnis des Anfragebudgets zur Grösse des Ausgangsinstruktionssatzes abhängt. Wenn dieses Verhältnis niedrig ist, erweist sich die Anreicherung von Antworten auf bestehende Fragen als effektiv, während das Generieren neuer Fragen vorteilhafter wird, je höher das Verhältnis ist.

Wir sehen, dass die Wahl der Methode zur Anreicherung weniger entscheidend ist, wenn mehr Daten zur Verfügung stehen, was zukünftige Einsparungen und Effizienzverbesserungen ermöglichen könnte. Die Analyse zeigt auch, dass die Überprüfung synthetischer Antworten und die spezifische Wahl des Schüler-Modells tendenziell weniger Einfluss auf die Leistung haben. Diese Erkenntnisse können Praktikern helfen, die richtigen Strategien zur Datengenerierung zu wählen, um LLMs effizienter innerhalb ihrer Ressourcenlimits zu trainieren.

Originalquelle

Titel: Balancing Cost and Effectiveness of Synthetic Data Generation Strategies for LLMs

Zusammenfassung: As large language models (LLMs) are applied to more use cases, creating high quality, task-specific datasets for fine-tuning becomes a bottleneck for model improvement. Using high quality human data has been the most common approach to unlock model performance, but is prohibitively expensive in many scenarios. Several alternative methods have also emerged, such as generating synthetic or hybrid data, but the effectiveness of these approaches remain unclear, especially in resource-constrained scenarios and tasks that are not easily verified. To investigate this, we group various synthetic data generation strategies into three representative categories -- Answer Augmentation, Question Rephrase and New Question -- and study the performance of student LLMs trained under various constraints, namely seed instruction set size and query budget. We demonstrate that these strategies are not equally effective across settings. Notably, the optimal data generation strategy depends strongly on the ratio between the available teacher query budget and the size of the seed instruction set. When this ratio is low, generating new answers to existing questions proves most effective, but as this ratio increases, generating new questions becomes optimal. Across all tasks, we find that choice of augmentation method and other design choices matter substantially more in low to mid data regimes than in high data regimes. We provide a practical framework for selecting the appropriate augmentation method across settings, taking into account additional factors such as the scalability of each method, the importance of verifying synthetic data, and the use of different LLMs for synthetic data generation.

Autoren: Yung-Chieh Chan, George Pu, Apaar Shanker, Parth Suresh, Penn Jenks, John Heyer, Sam Denton

Letzte Aktualisierung: 2024-10-30 00:00:00

Sprache: English

Quell-URL: https://arxiv.org/abs/2409.19759

Quell-PDF: https://arxiv.org/pdf/2409.19759

Lizenz: https://creativecommons.org/licenses/by/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.

Ähnliche Artikel