Neuer Datensatz verbessert Sprachmodelle für Mehrfachgespräche
Das M2Lingual-Datenset verbessert die Fähigkeiten zum Befolgen von Anweisungen in verschiedenen Sprachen.
― 6 min Lesedauer
Inhaltsverzeichnis
Grosse Sprachmodelle (LLMs) sind beliebte Werkzeuge für viele Aufgaben, die mit Sprache zu tun haben, wie Fragen beantworten, Texte zusammenfassen und verschiedene Sprachen verstehen. Diese Modelle funktionieren viel besser, wenn sie mit einer Vielzahl von Anweisungen trainiert werden, besonders in verschiedenen Sprachen. Allerdings konzentrieren sich die meisten Trainingsdaten hauptsächlich auf Sprachen, die viele Ressourcen haben, wie Englisch, während Sprachen mit weniger Ressourcen weniger Beachtung finden.
In diesem Artikel geht's um ein neues Datenset, das darauf abzielt, wie gut LLMs Anweisungen in vielen Sprachen verstehen und befolgen können, zu verbessern. Das Datenset ist speziell dafür ausgelegt, Multi-Turn-Gespräche zu unterstützen, was bedeutet, dass es den Austausch zwischen einem Nutzer und dem Modell fördern kann. Es deckt auch ein breites Spektrum an Sprachen und Aufgaben ab, was es vielseitiger macht.
Hintergrund
Instruction Fine-Tuning (IFT) ist ein Prozess, der genutzt wird, um LLMs beizubringen, wie sie Anweisungen von Nutzern befolgen. Das ist entscheidend, um diese Modelle in realen Anwendungen nützlich zu machen. Obwohl es Versuche gab, effektive IFT-Datensätze zu erstellen, konzentrieren sich die meisten von ihnen auf Sprachen mit vielen Ressourcen. Dadurch sind viele Sprachen mit weniger Ressourcen schlecht im Training vertreten, was die Fähigkeiten der Modelle, in diesen Sprachen gut abzuschneiden, einschränkt.
Bestehende mehrsprachige Datensets fallen in drei Hauptkategorien: von Menschen generiert, von Mensch-AI generiert und maschinell übersetzt. Menschlich generierte Datensets können sehr vielfältig sein, sind aber auch zeitaufwändig und teuer in der Erstellung. Menschlich-AI generierte Datensets sind weniger ressourcenintensiv, können aber Probleme wie Datenschutzbedenken und Datenqualität mit sich bringen. Maschinell übersetzte Datensets sparen Zeit, erfassen aber oft nicht die einzigartigen Merkmale jeder Sprache.
Viele Datensets konzentrieren sich auf offene Domain-Konversationen, was bedeutet, dass sie möglicherweise nicht gut für auf Anweisungen basierende Aufgaben geeignet sind. Das führt zu weniger effektiven Trainings für Modelle, die spezifische Anweisungen in verschiedenen Sprachen befolgen müssen.
Das neue Datenset
Um diese Einschränkungen zu überwinden, wurde ein neues Datenset erstellt, das vollständig synthetisch ist, was bedeutet, dass es komplett von Algorithmen und nicht von menschlichem Aufwand generiert wurde. Dieses Datenset heisst M2Lingual und ist dazu entwickelt, Multi-Turn-Anweisungen in vielen Sprachen zu unterstützen.
Der Prozess zur Erstellung dieses Datensets umfasste zwei wichtige Schritte. Der erste Schritt war, eine vielfältige Sammlung von Beispielen aus bestehenden Datensets zu sammeln, die qualitativ hochwertige Anweisungs-Antwort-Paare hatten. Der zweite Schritt war, eine spezielle Reihe von Regeln (Taxonomie) anzuwenden, um diese Beispiele in komplexere und herausforderndere Anweisungen zu verwandeln. Dies führte zu einem Datenset mit 182.000 Anweisungs-Antwort-Paaren in 70 verschiedenen Sprachen.
Auswahl der Samen
Das Datenset beginnt mit Samenbeispielen, die aus zwei Hauptquellen stammen. Eine Quelle ist ein Datenset namens Aya, das allgemeine Anweisungs-Antwort-Paare enthält, die von Muttersprachlern erstellt wurden. Die zweite Quelle ist ein anderer Teil von Aya, der Beispiele aus verschiedenen Sprachaufgaben beinhaltet. Diese Samen helfen, eine gute Grundlage für den Aufbau komplexerer Anweisungssets zu schaffen.
Die Samenbeispiele werden sorgfältig ausgewählt, um sicherzustellen, dass sie eine breite Vielfalt an Themen und Aufgaben repräsentieren. Durch die Auswahl von Beispielen aus beiden Quellen profitiert das Datenset von den Stärken jeder Quelle, was zu einem umfassenderen Trainingsset führt.
Erstellung von Anweisungs-Antwort-Paaren
Sobald die Samen ausgewählt sind, durchlaufen sie einen Transformationsprozess, um neue Anweisungs-Antwort-Paare zu erstellen. Dies umfasst die Anwendung eines Regelwerks, das darauf abzielt, die Komplexität und den Reichtum der Anweisungen zu verbessern. Dieser Schritt ist entscheidend, weil er die Generierung neuer Anweisungen ermöglicht, die nicht nur herausfordernder sind, sondern auch die einzigartigen Aspekte verschiedener Sprachen erfassen.
Der Transformationsprozess integriert verschiedene Arten von Anweisungen, die helfen, eine detailliertere und ansprechendere Interaktion zu schaffen. Dadurch kann das Datenset Anweisungen produzieren, die besser für komplexe Gespräche geeignet sind.
Multi-Turn-Gespräche
Nachdem die neuen Anweisungs-Antwort-Paare generiert wurden, ist der nächste Schritt, Multi-Turn-Gespräche zu erstellen. Das ist wichtig, da Gespräche im echten Leben oft einen Austausch beinhalten, und die Modelle müssen in der Lage sein, diese Interaktionen effektiv zu handhaben.
Der Multi-Turn-Aspekt wird durch eine Reihe von Dialogvariationen eingeführt, die es der KI ermöglichen, auf eine Art und Weise zu antworten, die natürlich und ansprechend wirkt. Es umfasst mehrere Arten von Folgefragen und Antworten, um sicherzustellen, dass die Gespräche reibungslos verlaufen und verschiedene potenzielle Interaktionen abdecken.
Bewertung
Sobald das Datenset erstellt ist, ist es wichtig, zu bewerten, wie gut es bei realen Aufgaben abschneidet. Das neue Datenset wird mit verschiedenen mehrsprachigen Benchmarks getestet, um seine Fähigkeit zu bewerten, Aufgaben wie Fragen beantworten, Zusammenfassen und Klassifizieren zu bewältigen. Das Ziel ist, die Leistung von Modellen, die mit diesem Datenset trainiert wurden, mit denen zu vergleichen, die mit anderen bestehenden Datensets trainiert wurden.
Die ersten Ergebnisse zeigen, dass Modelle, die mit M2Lingual trainiert wurden, die deutlich besser abschneiden als solche, die mit traditionellen Datensets trainiert wurden, insbesondere bei Aufgaben, die Sprachen mit weniger Ressourcen betreffen. Das beweist die Effektivität des Datensets, die Fähigkeit von LLMs zu verbessern, Anweisungen in verschiedenen Sprachen zu befolgen.
Auswirkungen auf Sprachen mit wenig Ressourcen
Eines der Hauptziele des neuen Datensets ist es, die Leistung von Sprachmodellen bei Sprachen mit weniger Ressourcen zu verbessern. Diese Sprachen haben oft nicht die umfangreichen Trainingsdaten, die für Sprachen mit vielen Ressourcen verfügbar sind, was zu schlechterer Modellleistung führt.
Das M2Lingual-Datenset enthält eine ausgewogene Repräsentation von Anweisungs-Antwort-Paaren für Sprachen mit weniger Ressourcen, wodurch sichergestellt wird, dass diesen Sprachen die Aufmerksamkeit zuteil wird, die sie verdienen. Das hilft, LLMs zugänglicher und nutzbarer für Sprecher dieser Sprachen zu machen und fördert die Inklusion in der Sprachtechnologie.
Fazit
Die Einführung des M2Lingual-Datensets stellt einen bedeutenden Schritt nach vorne dar, um die Fähigkeiten von Sprachmodellen zu verbessern, Anweisungen in mehreren Sprachen zu befolgen. Durch den Fokus auf Multi-Turn-Gespräche und die Behebung der Mängel bestehender Datensets verbessert diese neue Ressource die Gesamtleistung von LLMs, insbesondere in weniger vertretenen Sprachen.
Während die Sprachtechnologie sich weiterentwickelt, ist die Erstellung von Datensets wie M2Lingual entscheidend, um sicherzustellen, dass alle Sprachen, unabhängig von ihrer Ressourcenverfügbarkeit, von den Fortschritten in der künstlichen Intelligenz profitieren. Diese Arbeit eröffnet neue Möglichkeiten für mehr Menschen, mit KI-gesteuerten Systemen in Kontakt zu treten, und bereichert letztendlich die Interaktion zwischen Menschen und Maschinen.
Titel: M2Lingual: Enhancing Multilingual, Multi-Turn Instruction Alignment in Large Language Models
Zusammenfassung: Instruction finetuning (IFT) is critical for aligning Large Language Models (LLMs) to follow instructions. While many effective IFT datasets have been introduced recently, they predominantly focus on high-resource languages like English. To better align LLMs across a broad spectrum of languages and tasks, we propose a fully synthetic, novel taxonomy (Evol) guided Multilingual, Multi-turn instruction finetuning dataset, called M2Lingual. It is constructed by first selecting a diverse set of seed examples and then utilizing the proposed Evol taxonomy to convert these seeds into complex and challenging multi-turn instructions. We demonstrate the effectiveness of M2Lingual by training LLMs of varying sizes and showcasing the enhanced performance across a diverse set of languages. We contribute the 2 step Evol taxonomy with the guided generation code: https://github.com/ServiceNow/M2Lingual, as well as the first fully synthetic, general and task-oriented, multi-turn, multilingual dataset built with Evol - M2Lingual: https://huggingface.co/datasets/ServiceNow-AI/ M2Lingual - containing 182K total IFT pairs, covering 70 languages and 17+ NLP tasks.
Autoren: Rishabh Maheshwary, Vikas Yadav, Hoang Nguyen, Khyati Mahajan, Sathwik Tejaswi Madhusudhan
Letzte Aktualisierung: 2024-06-28 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2406.16783
Quell-PDF: https://arxiv.org/pdf/2406.16783
Lizenz: https://creativecommons.org/licenses/by-nc-sa/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.
Referenz Links
- https://choosealicense.com/licenses/apache-2.0/
- https://openai.com/policies/terms-of-use/
- https://huggingface.co/datasets/ServiceNow-AI/M2Lingual
- https://huggingface.co/api/datasets/ServiceNow-AI/M2Lingual/croissant
- https://nips.cc/public/guides/CodeSubmissionPolicy
- https://neurips.cc/public/EthicsGuidelines
- https://github.com/lcw99/evolve-instruct/blob/main/evolve.py
- https://sharegpt.com/
- https://github.com/OpenAccess-AI-Collective/axolotl
- https://ctan.org/pkg/pifont
- https://github.com/ServiceNow/M2Lingual