Simple Science

La science de pointe expliquée simplement

# Informatique# Calcul et langage# Apprentissage automatique

Améliorer les grands modèles de langage avec des stratégies de données synthétiques

Cette étude explore des méthodes efficaces pour générer des données synthétiques pour l'entraînement de modèles de langage.

Yung-Chieh Chan, George Pu, Apaar Shanker, Parth Suresh, Penn Jenks, John Heyer, Sam Denton

― 17 min lire


Données Synthétiques pourDonnées Synthétiques pourl'Entraînement des LLMmodèles de langage.données améliore l'entraînement desÉtudier les méthodes de génération de
Table des matières

À mesure que les grands modèles de langage (LLMs) sont utilisés pour de plus en plus de tâches, le besoin de bonnes données pour affiner ces modèles devient un problème. Utiliser des données humaines de haute qualité est courant pour améliorer les performances du modèle, mais cela peut coûter très cher. D'autres façons de créer des ensembles de données ont émergé, comme l'utilisation de Données synthétiques, mais on n'est pas encore sûr de leur efficacité, surtout quand les ressources sont limitées et que les tâches sont difficiles à vérifier.

Pour aborder ce problème, nous classons les méthodes de Génération de données synthétiques en trois types principaux : augmentation de réponses, reformulation de questions et nouvelle question. On étudie l'efficacité de ces stratégies lors de l'entraînement de versions plus petites des LLMs, appelées modèles étudiants, sous différentes limites, comme la taille de l'ensemble d'instructions d'origine et le nombre de requêtes qu'on peut utiliser. On constate que toutes les méthodes ne fonctionnent pas de la même manière selon les situations. En fait, la meilleure façon de créer des données dépend beaucoup du nombre de requêtes par rapport à la taille de l'ensemble d'instructions de départ. Quand il y a moins de requêtes, ajouter de nouvelles réponses aux questions existantes fonctionne le mieux. Cependant, avec plus de requêtes, créer de nouvelles questions devient le meilleur choix.

On remarque aussi que le choix de la méthode d'augmentation des données et d'autres décisions de conception ont beaucoup plus d'importance lorsqu'on travaille avec de petites quantités de données que lorsqu'on a beaucoup de données à disposition. On propose un guide pratique pour choisir la bonne méthode de création de données synthétiques basé sur plusieurs aspects, y compris la facilité de mise à l'échelle des méthodes, l'importance de vérifier la qualité des données synthétiques et les types de LLMs utilisés pour générer ces données.

Applications des Grands Modèles de Langage

Les applications des grands modèles de langage couvrent plusieurs domaines, comme la compréhension du langage naturel et la génération de code. Mais appliquer ces modèles à de nouveaux domaines rencontre souvent des défis pour obtenir de bonnes données spécifiques nécessaires aux tâches.

Pour gérer ce problème, différentes solutions ont émergé, utilisant des contributions humaines, un mélange de méthodes et des données synthétiques. Certaines de ces méthodes consistent à améliorer la qualité des données manuellement ou automatiquement, à augmenter la quantité de données disponibles ou à obtenir plus de signaux d'apprentissage utiles de chaque échantillon. Par exemple, certains modèles ont amélioré leurs compétences en codage, en mathématiques et dans des tâches à long contexte après avoir été affinés avec des données mixtes.

Bien que ces méthodes montrent du potentiel, leur rapport coût-efficacité et leurs performances dans diverses tâches et sous différentes contraintes ne sont pas encore clairs, surtout lorsque les ressources disponibles sont faibles. Cette incertitude rend difficile pour ceux qui souhaitent optimiser leurs stratégies de création de données pour des tâches et des limites spécifiques.

Enquête sur les Stratégies de Génération de Données Synthétiques

Dans cette étude, on examine l'efficacité de différentes stratégies de génération de données synthétiques pour entraîner des LLMs sous diverses limites. On utilise une situation où on n'a qu'un petit ensemble d'instructions de base et un modèle LLM professeur pour guider un modèle LLM étudiant. Notre but est d'utiliser cet ensemble limité d'instructions de base et de choisir le meilleur modèle professeur pour améliorer efficacement le modèle étudiant.

Pour évaluer ces stratégies, on analyse la performance du modèle étudiant dans différentes conditions, comme la taille de l'ensemble d'instructions de base et le budget de requêtes autorisé. La taille de l'ensemble d'instructions de base indique combien d'instructions spécifiques à la tâche sont disponibles, tandis que le budget de requêtes montre combien de requêtes on peut faire au modèle professeur.

Étant donné la variété des méthodes dans les tâches mathématiques, on divise les approches de création de données synthétiques en trois types principaux - augmentation de réponses, reformulation de questions et augmentation de nouvelles questions. On évalue aussi comment ces méthodes peuvent s'appliquer à différentes tâches comme les mathématiques, le codage et les questions générales. De plus, on vise à clarifier les aspects essentiels nécessaires lors de la conception de stratégies de données pour l'entraînement des LLMs.

Contributions Clés

  1. On introduit un nouveau cadre pour évaluer les stratégies de génération de données synthétiques sous des contraintes de données et on montre que les données synthétiques peuvent être efficaces pour de nouvelles tâches au-delà des scénarios mathématiques et de codage traditionnels.
  2. On démontre que la meilleure stratégie de génération de données dépend de l'équilibre entre le nombre de requêtes qu'on peut utiliser et la taille de l'ensemble d'instructions de base. Quand le ratio est bas, ajouter de nouvelles réponses aux questions existantes fonctionne le mieux. Quand le ratio est élevé, créer de nouvelles questions est préférable.
  3. On identifie que le choix du modèle pour la création de nouvelles questions joue un rôle essentiel dans la performance du modèle étudiant, tandis que des aspects comme la vérification des réponses et le choix du modèle étudiant ont un impact moindre.

Travaux Connexes

Entraînement Efficace des LLM

À mesure que les tailles de modèle et les besoins en données augmentent rapidement, rendre le processus d'entraînement des LLMs plus efficace devient crucial. Les chercheurs ont exploré des moyens d'aider les formateurs à optimiser leurs stratégies de pré-entraînement à travers des lois d'échelle et des mélanges de données. Reconnaissant la montée des LLMs open-source et la demande pour des LLMs spécifiques aux tâches, plusieurs études se sont concentrées sur l'amélioration de l'efficacité pendant l'après-entraînement. D'un point de vue computationnel, des techniques ont émergé pour réduire les ressources nécessaires pour le fine-tuning. De plus, des travaux précédents ont réussi à réduire les besoins en données lors du fine-tuning en améliorant la qualité. Ces efforts guident notre travail sur la compréhension des coûts et de l'efficacité lors du fine-tuning avec des données synthétiques générées par des LLMs.

Données Synthétiques pour le Fine-Tuning

L'utilisation de données synthétiques et hybrides pour le fine-tuning a connu du succès dans de nombreuses tâches. Dans le raisonnement mathématique, il est difficile de trouver des instructions de haute qualité, donc beaucoup d'études utilisent des données synthétiques générées par LLM pour améliorer les compétences en raisonnement mathématique de petits LLMs. Dans les tâches de codage, les données synthétiques peuvent être vérifiées contre des cas de test ou en exécutant du code, ce qui aide à améliorer les résultats. Des méthodes similaires ont été utilisées dans des tâches de suivi d'instructions, formant des LLMs sur diverses instructions synthétiques avec peu ou pas de contribution humaine. Cependant, la plupart des études se concentrent uniquement sur un domaine sans considérer comment ces méthodes fonctionnent sous différentes contraintes et stratégies de données. On vise à s'appuyer sur ces méthodes tout en explorant quels facteurs dans la génération de données synthétiques sont cruciaux à travers plusieurs tâches et budgets.

Génération Efficace de Données Synthétiques

Bien que les données synthétiques soient moins chères que les données réelles, les coûts associés à leur génération à grande échelle peuvent toujours s'accumuler. D'autres travaux se concentrent sur le filtrage des ensembles de données synthétiques pour la diversité et la véracité en utilisant des astuces conçues pour chaque domaine. La recherche actuelle sur l'entraînement des LLMs avec des données synthétiques met l'accent sur la scalabilité et la performance. Cependant, pour que ces méthodes s'appliquent à plus de tâches, il est nécessaire de décomposer et d'évaluer la rentabilité à travers différentes échelles et conditions. Notre effort aborde cela en fournissant un guide pour les formateurs de modèles afin de définir et d'affiner leurs stratégies de génération de données synthétiques, visant une efficacité maximale dans leurs limites budgétaires.

Vue d'Ensemble des Approches de Génération de Données Synthétiques

Étant donné un ensemble d'instructions de base, on peut créer des paires instruction-réponse pour le fine-tuning du modèle étudiant en utilisant trois méthodes différentes. On commence par prendre un exemple d'instruction de base d'un ensemble de données et par voir comment les instructions et réponses synthétiques sont générées.

Dans ce travail, on enquête sur des techniques de données synthétiques initialement développées pour le raisonnement mathématique et on étend ces approches à une plus grande variété de tâches et de scénarios. On choisit le fine-tuning supervisé comme méthode d'apprentissage pour notre modèle étudiant, ce qui nécessite un ensemble de données composé de paires instruction-réponse.

On établit des termes pour clarifier notre discussion sur les stratégies de génération de données et les expériences. Soit l'ensemble des instructions de base noté par une variable de taille. Une stratégie de génération de données synthétiques peut être vue comme deux étapes : (1) augmenter les instructions de base en utilisant un modèle conçu pour augmenter les instructions, et (2) générer des réponses correspondantes pour chaque instruction en utilisant un modèle professeur. En choisissant différents modèles d'augmentation, on peut créer un ensemble de données d'entraînement synthétique contenant des instructions et leurs réponses associées pour aider à entraîner un modèle étudiant.

Stratégies de Génération de Données

Augmentation de Réponses

Cette méthode crée une variété de réponses pour les instructions de base, se différenciant par les chemins de raisonnement et les choix de mots. En utilisant le prompting Chain-of-Thought, on augmente la diversité des réponses. Par exemple, si on demande combien de fois la Terre tourne sur son axe en une journée, la réponse générée pourrait commencer par des informations d'arrière-plan et se terminer par la réponse.

Reformulation de Questions

Cette méthode génère de nouvelles instructions en reformulant les instructions de base. En général, inciter les modèles à générer des instructions diverses et pertinentes est plus difficile que de créer des réponses diverses pour des questions données. Un exemple d'instruction reformulée pourrait être de demander combien de rotations la Terre effectue en une période de 24 heures, ce qui devrait avoir la même réponse finale.

Augmentation de Nouvelles Questions

Cette méthode produit de nouvelles instructions basées sur l'ensemble de base, mais vise des réponses finales différentes. On veille à ce que les nouvelles instructions soient pertinentes et suivent le bon format. Par exemple, une nouvelle instruction pourrait demander combien de fois la Lune tourne pendant que la Terre orbite deux fois, menant à une réponse finale différente.

Configuration Expérimentale

L'exactitude des modèles étudiants et professeurs est mesurée sur un ensemble de test d'échantillons, où une exactitude plus élevée est meilleure. Notre configuration implique un modèle étudiant, un modèle d'augmentation, un modèle professeur et un ensemble d'instructions de base spécifiques à la tâche. Le modèle étudiant apprend à partir d'un ensemble de données plus vaste créé par le modèle d'augmentation.

Pour comprendre à quel point nos méthodes sont largement applicables, on choisit trois types de tâches différents : mathématiques, codage et questions générales, qui sont populaires dans l'industrie. Pour nos tests principaux, on utilise des versions spécifiques de modèles qui garantissent une différence notable de performance entre les modèles professeur et étudiant, nous permettant de mieux mettre en évidence les améliorations apportées par chaque méthode.

Ensembles de Données et Évaluations

On choisit un ensemble de données pour chacune des trois tâches afin de tester les stratégies de génération de données synthétiques. Pour les mathématiques, on utilise un ensemble de données contenant des questions de mathématiques de niveau scolaire. Pour le codage, on utilise un ensemble de données texte-à-SQL provenant de nombreux domaines différents. Pour les questions générales, on sélectionne un ensemble de données composé de questions scientifiques de niveau scolaire. Chaque ensemble de données a un ensemble de test utilisé pour l'évaluation, garantissant qu'on mesure l'efficacité de nos méthodes de génération de données synthétiques.

Génération de Données Synthétiques sous Contraintes de Données

Dans ce travail, on examine l'efficacité des stratégies choisies de génération de données synthétiques sous des limites spécifiques de données de base et de coûts. Pour imiter les limitations réelles de données, on crée différentes tailles d'ensembles d'instructions de base et on associe chaque méthode de génération. En faisant cela, on peut voir combien d'ensembles d'entraînement on peut générer, compte tenu du nombre de requêtes autorisé.

Résultats Expérimentaux

Dans nos expériences, on évalue comment chaque stratégie de génération de données synthétiques impacte l'exactitude du modèle étudiant. D'abord, on explore à quel point chaque méthode est évolutive sous différentes contraintes. Ensuite, on analyse la rentabilité de la création de nouvelles instructions par rapport aux réponses.

Efficacité des Stratégies de Génération de Données Synthétiques

On étudie l'efficacité des méthodes de génération de données en comparant l'exactitude du modèle étudiant après l'avoir affiné sur des données synthétiques provenant de chaque méthode. Les résultats montrent que les tendances se généralisent à travers différentes contraintes, et la scalabilité est vraie pour les ensembles de données que l'on a examinés.

Dans nos tests, on observe que lorsqu'on commence avec un petit ensemble d'instructions de base, l'augmentation de nouvelles questions continue d'améliorer l'exactitude même avec un grand ensemble de données. Cependant, à mesure que l'on augmente la taille de l'ensemble d'instructions de base, les différences de performance entre les méthodes commencent à se réduire.

Analyse de Rentabilité : Quand Créer de Nouvelles Instructions ou Réponses ?

La meilleure stratégie de génération de données dépend de divers facteurs, comme les coûts de requêtes et la complexité de l'ensemble de données. On se concentre sur la question de savoir s'il vaut mieux ajouter de nouvelles réponses ou de nouvelles instructions à notre ensemble de données.

Dans des contextes avec des ressources limitées, l'augmentation de réponse aide à mesurer les améliorations en créant de nouvelles réponses pour les invites d'origine. Les méthodes de reformulation de questions et de nouvelles questions modifient l'espace des invites, et notre analyse montre que l'augmentation de réponses est le meilleur choix lorsque le ratio de budget est bas. À mesure que le budget augmente, créer de nouvelles invites, que ce soit par reformulation ou nouvelles questions, devient plus avantageux.

Typiquement, l'augmentation de nouvelles questions fonctionne mieux que la reformulation de questions en termes de coût et de scalabilité, mais reformuler des questions est souvent plus facile à mettre en œuvre et peut mieux fonctionner dans des contextes contraints.

Compromis de Performance avec Différents Modèles d'Augmentation

On examine si on peut réduire les coûts en utilisant un modèle d'augmentation moins puissant pour générer des instructions. Étant donné que les tendances en termes de rentabilité se traduisent d'une tâche à l'autre, on a réalisé des expériences pour voir comment divers choix de modèles d'augmentation fonctionnent lors de la génération de données synthétiques.

Les résultats montrent que, bien que la reformulation de questions reste efficace même avec des modèles faibles, la performance de l'augmentation de nouvelles questions est étroitement liée aux capacités du modèle d'augmentation utilisé. On a noté une chute significative de performance en utilisant des modèles moins puissants pour les tâches de nouvelles questions.

Compromis de Performance avec Vérification

Comme nos modèles professeurs donnent parfois des réponses incorrectes pour certaines instructions, le processus d'entraînement peut inclure des réponses bruyantes et inexactes. On vérifie si la vérification des réponses synthétiques contre des réponses correctes améliore l'efficacité de l'entraînement du modèle étudiant.

Pour cela, on se concentre sur des méthodes qui créent des réponses finales correctes. Dans nos conclusions, on observe que la vérification des réponses ne conduit pas à des améliorations significatives en efficacité. Cela pourrait être dû au fait que le modèle étudiant peut toujours apprendre des informations précieuses à partir de réponses incorrectes générées par un modèle professeur plus capable, malgré le fait que les efforts de vérification peuvent limiter la diversité globale.

Rentabilité avec un Modèle Étudiant Différent

Enfin, on analyse si nos conclusions en matière de rentabilité se maintiennent en changeant le modèle étudiant. En utilisant différentes méthodes de génération de données, on réplique les tests avec un modèle étudiant différent et on se concentre sur les mêmes ensembles d'instructions de base. Les résultats indiquent que des schémas similaires en matière de rentabilité s'appliquent à différentes configurations de modèles, renforçant l'idée de considérer la taille initiale de l'ensemble de données et le budget disponible lors de la détermination de la meilleure stratégie de génération de données.

Conclusion

Dans cette étude, on propose un cadre pour analyser l'efficacité de diverses méthodes de génération de données synthétiques pour entraîner des grands modèles de langage sous différentes contraintes de ressources et types de tâches. Nos résultats montrent que la stratégie optimale dépend du ratio entre le budget de requêtes et la taille de l'ensemble d'instructions de base. Quand ce ratio est bas, augmenter les réponses aux questions existantes s'avère le plus efficace, tandis que générer de nouvelles questions devient plus avantageux à mesure que le ratio augmente.

On voit que le choix de la méthode d'augmentation est moins critique lorsqu'on dispose de plus de données, ce qui pourrait permettre des économies futures et des améliorations d'efficacité. L'analyse souligne aussi que la vérification des réponses synthétiques et le choix spécifique du modèle étudiant ont tendance à avoir moins d'influence sur la performance. Ces perspectives peuvent aider les praticiens à choisir les bonnes stratégies de génération de données pour entraîner les LLMs plus efficacement dans leurs limites de ressources.

Source originale

Titre: Balancing Cost and Effectiveness of Synthetic Data Generation Strategies for LLMs

Résumé: As large language models (LLMs) are applied to more use cases, creating high quality, task-specific datasets for fine-tuning becomes a bottleneck for model improvement. Using high quality human data has been the most common approach to unlock model performance, but is prohibitively expensive in many scenarios. Several alternative methods have also emerged, such as generating synthetic or hybrid data, but the effectiveness of these approaches remain unclear, especially in resource-constrained scenarios and tasks that are not easily verified. To investigate this, we group various synthetic data generation strategies into three representative categories -- Answer Augmentation, Question Rephrase and New Question -- and study the performance of student LLMs trained under various constraints, namely seed instruction set size and query budget. We demonstrate that these strategies are not equally effective across settings. Notably, the optimal data generation strategy depends strongly on the ratio between the available teacher query budget and the size of the seed instruction set. When this ratio is low, generating new answers to existing questions proves most effective, but as this ratio increases, generating new questions becomes optimal. Across all tasks, we find that choice of augmentation method and other design choices matter substantially more in low to mid data regimes than in high data regimes. We provide a practical framework for selecting the appropriate augmentation method across settings, taking into account additional factors such as the scalability of each method, the importance of verifying synthetic data, and the use of different LLMs for synthetic data generation.

Auteurs: Yung-Chieh Chan, George Pu, Apaar Shanker, Parth Suresh, Penn Jenks, John Heyer, Sam Denton

Dernière mise à jour: 2024-10-30 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2409.19759

Source PDF: https://arxiv.org/pdf/2409.19759

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Articles similaires