Verbesserung von Sprachmodellen mit Ketten von Anweisungen
Dieser Artikel bespricht eine Methode, um Sprachmodelle mit strukturierten Anweisungen zu verbessern.
― 5 min Lesedauer
Inhaltsverzeichnis
In den letzten Jahren haben grosse Sprachmodelle ordentlich für Aufsehen gesorgt in der Welt der künstlichen Intelligenz. Diese Modelle können viele Aufgaben erledigen, wie Sprachen übersetzen, Texte zusammenfassen und Fragen beantworten. Sie schneiden richtig gut ab, wenn sie klare Anweisungen bekommen. Allerdings funktionieren die meisten aktuellen Modelle nur gut mit einfachen Anweisungen und haben Schwierigkeiten, wenn es um komplexe Aufgaben geht, die mehrere Schritte erfordern.
Dieser Artikel stellt eine neue Idee vor, die Chain-of-Instructions (CoI) genannt wird. Das Grundkonzept ist, dass wir anstatt einer einzelnen Anweisung eine Reihe von Anweisungen geben, wobei die Antwort auf eine Anweisung der nächsten hilft. Dieser Ansatz erleichtert es dem Modell, eine komplizierte Aufgabe in kleinere, handhabbare Teile zu zerlegen.
Was sind Chain-of-Instructions?
Chain-of-Instructions ist eine Methode, bei der das Modell eine Reihe von Aufgaben erhält, die voneinander abhängen. Zum Beispiel, wenn die Gesamtaufgabe darin besteht, einen Titel für einen Blogbeitrag auf Französisch zu erstellen, muss das Modell mehrere kleinere Aufgaben erledigen:
- Erstelle einen Titel basierend auf den gegebenen Informationen.
- Ändere den Titel, damit er zum Stil eines Blogbeitrags passt.
- Übersetze den finalen Titel ins Französische.
Indem die Aufgabe in Schritte zerlegt wird, kann sich das Modell jeweils auf einen Teil konzentrieren, was den gesamten Prozess einfacher macht.
Bedeutung der Qualität der Anweisungen
Die Qualität der Anweisungen ist entscheidend für den Erfolg jedes Sprachmodells. In traditionellen Setups sind Anweisungen oft zu lang oder verwirrend. Indem wir uns auf kürzere, klarere Anweisungen konzentrieren, können wir dem Modell helfen, besser abzuschneiden. Die CoI-Methode zielt darauf ab, Anweisungen zu erstellen, die nicht nur gut strukturiert, sondern auch leicht zu befolgen sind.
In unserer Arbeit haben wir lange und komplexe Anweisungen in kürzere, direkte Anweisungen zusammengefasst. Statt zu sagen: "Generiere einen Blogtitel auf kreative Weise, der das Thema des Textes widerspiegelt", könnten wir einfach sagen: "Erstelle einen Blogtitel."
Aufbau des Chain-of-Instructions-Datensatzes
Um zu testen, wie gut unser Chain-of-Instructions-Ansatz funktioniert, mussten wir einen Datensatz voller Beispiele für diese Anweisungen erstellen. Der Datensatz basiert auf bestehenden Anweisungssets, die häufig mit grossen Sprachmodellen verwendet werden.
Einer der Datensätze, den wir verwendet haben, enthielt über 1.300 einzigartige Aufgaben aus verschiedenen Kategorien. So konnten wir Aufgaben auswählen, die in Ketten von Anweisungen umgewandelt werden konnten. Wir haben diese Aufgaben genommen und sie in einfache Anweisungen zerlegt. So konnten wir Paare von Anweisungen erstellen, die logisch miteinander verknüpft sind.
Erstellung von Anweisungspaaren
Der Prozess der Verknüpfung von Anweisungen umfasst mehrere Schritte:
- Zusammenfassung: Zuerst haben wir die ursprünglichen Aufgabenbeschreibungen verkürzt, um sie leichter verständlich zu machen.
- Überprüfen der Kombinierbarkeit: Als nächstes haben wir geprüft, ob die Anweisungen logisch aufeinander folgen konnten. Zum Beispiel, wenn eine Anweisung nach einer Zusammenfassung fragt, könnte die nächste nach einer Übersetzung dieser Zusammenfassung fragen.
- Erstellung der endgültigen Ausgabe: Schliesslich haben wir die endgültige Ausgabe basierend auf den abgeschlossenen Anweisungen generiert.
Indem wir diese Schritte befolgt haben, konnten wir einen Datensatz speziell für Chain-of-Instructions-Aufgaben erstellen, was es den Modellen erleichtert hat, zu lernen, wie sie ihr Denken sequenzieren.
Vorteile von Chain-of-Instructions
Einer der Hauptvorteile der Verwendung des Chain-of-Instructions-Ansatzes ist, dass das Modell Schritt für Schritt arbeiten kann. Das ist besonders nützlich, wenn es um kompliziertere Aufgaben geht, da das Zerlegen hilft, den gesamten Prozess zu verstehen.
Ausserdem haben wir festgestellt, dass Modelle, die mit dieser neuen Methode trainiert wurden, bei Aufgaben, die mehrere Anweisungen beinhalteten, deutlich besser abschnitten. Wenn man Modelle vergleicht, die mit CoI trainiert wurden, mit denen, die mit einfachen Anweisungen trainiert wurden, haben die CoI-trainierten Modelle konstant besser abgeschnitten.
Bewertung der Modellleistung
Um zu verstehen, wie gut unser Chain-of-Instructions-System funktioniert hat, haben wir die Modelle getestet. Die Bewertung bestand aus automatischer Bewertung und menschlichen Einschätzungen. Wir haben eine Bewertungsmethode namens Rouge-L verwendet, um zu messen, wie gut die Ausgaben mit den erwarteten Ergebnissen übereinstimmten.
Zusätzlich zur automatischen Bewertung haben wir auch menschliche Bewerter gefragt, die Ausgaben der Modelle zu bewerten. Sie haben geschaut, wie sehr sie die Ergebnisse der CoI-trainierten Modelle gegenüber denen der traditionellen Modelle bevorzugten. Die CoI-Ausgaben erhielten viel Lob und zeigten, dass die Leute sie klarer und nützlicher fanden.
Anwendungen in der realen Welt
Der Chain-of-Instructions-Ansatz ist nicht nur eine akademische Übung; er hat auch Anwendungen in der realen Welt. In praktischen Einstellungen kann das Zerlegen komplexer Aufgaben in kleinere Teile zu besseren Ergebnissen in verschiedenen Bereichen führen.
Zum Beispiel im Bereich der mehrsprachigen Zusammenfassung ermöglicht diese Methode genauere Übersetzungen und Zusammenfassungen. Die Modelle wurden getestet, um Zusammenfassungen zwischen Englisch und Französisch zu übersetzen, und die Ergebnisse waren vielversprechend. Das CoI-System hat die Fähigkeit der Modelle verbessert, mit diesen Arten von Aufgaben effektiver umzugehen.
Fazit
Zusammenfassend ist die Chain-of-Instructions-Methode ein bedeutender Schritt nach vorne im Training grosser Sprachmodelle. Durch das Zerlegen komplexer Aufgaben in einfachere Anweisungen ermöglichen wir eine bessere Leistung und ein besseres Verständnis.
Während sich die künstliche Intelligenz weiterentwickelt, wird die Verwendung von Methoden wie CoI zunehmend wichtiger. Unsere Arbeit zeigt, dass wir selbst mit kleineren Modellen grossartige Ergebnisse erzielen können, indem wir uns auf zusammensetzende Anweisungsmethoden konzentrieren.
Wenn wir in die Zukunft blicken, gibt es viel Potenzial für weitere Verbesserungen. Die Idee, Anweisungen nicht nur zu erstellen, sondern sie auch weiter zu zerlegen, könnte weiter erforscht werden. Das Ziel ist, Maschinen intelligenter und fähiger zu machen, um die Komplexität der menschlichen Sprache zu bewältigen, die voller Feinheiten und Bedeutungsebenen ist.
Durch die Annahme dieser neuen Ansätze können wir den Weg für fortschrittlichere und intelligentere Systeme ebnen, die uns bei verschiedenen Aufgaben unterstützen können. Der Weg ist noch lange nicht zu Ende, und mit jedem Schritt bringen wir die künstliche Intelligenz näher daran, die reiche Struktur der menschlichen Kommunikation zu verstehen und zu unterstützen.
Titel: Chain-of-Instructions: Compositional Instruction Tuning on Large Language Models
Zusammenfassung: Fine-tuning large language models (LLMs) with a collection of large and diverse instructions has improved the model's generalization to different tasks, even for unseen tasks. However, most existing instruction datasets include only single instructions, and they struggle to follow complex instructions composed of multiple subtasks. In this work, we propose a novel concept of compositional instructions called chain-of-instructions (CoI), where the output of one instruction becomes an input for the next like a chain. Unlike the conventional practice of solving single instruction tasks, our proposed method encourages a model to solve each subtask step by step until the final answer is reached. CoI-tuning (i.e., fine-tuning with CoI instructions) improves the model's ability to handle instructions composed of multiple subtasks as well as unseen composite tasks such as multilingual summarization. Overall, our study find that simple CoI tuning of existing instruction data can provide consistent generalization to solve more complex, unseen, and longer chains of instructions.
Autoren: Shirley Anugrah Hayati, Taehee Jung, Tristan Bodding-Long, Sudipta Kar, Abhinav Sethy, Joo-Kyung Kim, Dongyeop Kang
Letzte Aktualisierung: 2024-06-24 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2402.11532
Quell-PDF: https://arxiv.org/pdf/2402.11532
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.