Avancées dans le fine-tuning des modèles de langue avec GPT-4
Des recherches montrent que GPT-4 améliore le fine-tuning des modèles de langue avec des données générées par machine.
― 8 min lire
Table des matières
Des recherches récentes ont montré que le fine-tuning des grands modèles de langage (LLM) avec des données générées par des machines peut vraiment améliorer leur capacité à accomplir de nouvelles tâches sans avoir besoin d'instructions écrites par des humains. Cet article parle d'une première tentative d'utiliser GPT-4 pour créer ce genre de données d'instructions pour le fine-tuning des LLM. Nos premiers tests sur des modèles LLaMA ajustés avec ces données montrent que leur performance sur de nouvelles tâches est meilleure que celle de ceux entraînés avec des données de modèles plus anciens.
On a aussi recueilli des retours de GPT-4 pour évaluer les données générées et améliorer le processus d'entraînement. Les données qu'on a générées et le code qu'on a utilisé seront mis à la disposition du public pour encourager le développement dans ce domaine.
Contexte sur les Modèles de Langage
Les grands modèles de langage deviennent de plus en plus doués pour généraliser des connaissances afin de s'attaquer à diverses tâches. Ils peuvent apprendre du contexte et suivre des instructions. Pour aider ces modèles à accomplir des tâches spécifiques basées sur des instructions en langage naturel, les chercheurs ont travaillé sur des méthodes de tuning des instructions. Ces méthodes impliquent généralement de fine-tuner le modèle en utilisant soit des invites générées par des humains, soit des ensembles de données préexistants qui incluent un large éventail de tâches.
Une méthode efficace est le tuning Self-Instruct, qui permet à un modèle d'apprendre à partir de données d'instructions créées par d'autres modèles avancés. Cette direction de recherche montre beaucoup de promesses pour améliorer la capacité des LLM à généraliser et à s'adapter à de nouvelles instructions avec peu ou pas d'entraînement sur la tâche spécifique.
Avec le succès de plateformes comme ChatGPT et GPT-4, il y a une nouvelle occasion d'améliorer les LLM open-source grâce au tuning des instructions. LLaMA est une série de ces modèles open-source qui peuvent se comparer à des modèles propriétaires comme GPT-3. Pour créer des capacités de suivi d'instructions dans LLaMA, le tuning Self-Instruct a gagné en popularité grâce à son efficacité et son coût abordable.
Tuning des Instructions avec GPT-4
Dans cet article, on propose d'utiliser GPT-4 comme source pour créer des données de suivi d'instructions pour le tuning des LLM. Nos contributions incluent la génération d'un ensemble de données de 52 000 échantillons de suivi d'instructions en anglais et en chinois, ainsi que des données de rétroaction générées par GPT-4 pour évaluer la performance de différents modèles.
Processus de Génération de Données
On a basé notre ensemble de données sur 52 000 instructions uniques issues d'un ensemble de données précédent appelé Alpaca. Chaque instruction décrit une tâche pour le LLM. Pour générer des réponses à ces instructions, on a utilisé GPT-4. On a aussi traduit les instructions en chinois et obtenu des réponses dans cette langue pour étudier comment les LLM peuvent généraliser d'une langue à l'autre.
En plus, on a collecté des données de comparaison où GPT-4 a évalué ses propres réponses et celles de divers modèles. Ces données aident à entraîner des modèles de récompense qui évaluent la qualité des sorties générées par différents modèles.
Entraînement et Évaluation des Modèles
On a entraîné deux modèles en utilisant le checkpoint LLaMA 7B. Un modèle utilisait des données de suivi d'instructions en anglais générées par GPT-4, tandis que l'autre utilisait des données en chinois. Cela nous a permis d'évaluer la qualité des sorties de GPT-4 et comment les modèles performent à travers les langues.
Pour évaluer les modèles, on a adopté une méthode appelée Reinforcement Learning from Human Feedback (RLHF). Cette approche vise à améliorer les LLM en alignant leur comportement avec ce que les humains préfèrent. Le modèle de récompense prédit un score basé sur la façon dont la réponse d'un modèle correspond aux attentes humaines.
Résultats Expérimentaux
Évaluer les LLM est connu pour être compliqué. Dans notre étude, on s'est concentré sur le test des modèles ajustés avec des données de GPT-4 sur des instructions inédites. On a utilisé trois ensembles de données principaux pour l'évaluation qui incluaient un mélange d'applications pratiques, de questions difficiles et de jeux d'instructions non naturels.
Évaluation Humaine
Pour vérifier à quel point nos modèles sont alignés avec les valeurs humaines, on a suivi trois critères : l'utilité, l'honnêteté et la non-nocivité. L'utilité concerne si le modèle aide efficacement les utilisateurs à atteindre leurs objectifs. L'honnêteté vérifie si le modèle fournit des informations précises et communique les incertitudes. La non-nocivité évalue si le modèle évite de générer du contenu nuisible.
En utilisant Amazon Mechanical Turk, on a réalisé des évaluations humaines de nos sorties de modèle selon ces critères. Les résultats ont montré que les modèles ajustés avec GPT-4 avaient généralement de meilleures performances, surtout en matière d'utilité, comparés à ceux ajustés avec des modèles antérieurs.
Évaluation Automatique
On a aussi utilisé GPT-4 pour évaluer automatiquement les réponses de divers modèles à un ensemble de questions difficiles. Chaque réponse de modèle a été notée sur une échelle de 1 à 10. On a comparé tous les modèles pour établir comment ils se sont comportés, en mettant l'accent sur les modèles LLaMA ajustés avec GPT-4.
Les résultats ont montré que le modèle LLaMA, qui a été ajusté avec les données de GPT-4, a souvent surpassé ceux entraînés avec des versions antérieures de GPT. Cependant, on a noté qu'il y avait encore un écart de performance comparé à des modèles commerciaux plus grands, comme GPT-4.
Résultats sur la Génération de Langage
Dans nos comparaisons, on a aussi examiné la performance des modèles lorsqu'ils répondaient en chinois. Les traductions des réponses en anglais en chinois ont montré que les réponses générées étaient en retard par rapport aux traductions de GPT-4. Cette différence indique qu'il faut plus de données d'entraînement dans d'autres langues que l'anglais.
En plus, on a étudié comment les modèles géraient des instructions non naturelles, qui sont conçues pour défier les modèles de langage. Les résultats ont montré que si LLaMA-GPT4 et GPT-4 ont bien performé, il y avait encore de la marge pour s'améliorer, surtout pour produire des réponses cohérentes aux instructions plus complexes.
Implications Plus Larges
Notre travail illustre l'efficacité du tuning des instructions avec GPT-4. Les 52 000 exemples de suivi d'instructions en anglais et en chinois, ainsi que les modèles entraînés, visent à bénéficier à l'avancement des LLM open-source. Ces modèles peuvent mieux représenter l'intention humaine et accomplir des tâches par le biais d'un suivi d'instructions efficace.
On reconnaît que cela représente une recherche continue et qu'il y a beaucoup de pistes futures à explorer. Par exemple, augmenter la taille de l'ensemble de données et des modèles pourrait mener à de meilleures performances. Nos résultats suggèrent aussi que l'utilisation de données de comparaison générées par GPT-4 pourrait améliorer encore plus l'entraînement des LLM.
Conclusion
En résumé, la recherche démontre comment le fine-tuning des modèles de langage en utilisant des données de suivi d'instructions générées par des machines peut entraîner des améliorations significatives en performance sur de nouvelles tâches. En utilisant GPT-4 pour la génération de données, on a créé des ressources précieuses pour le développement de LLM open-source plus capables. Alors que le domaine évolue, on espère que ces insights et ressources serviront de base pour un progrès continu dans l'alignement des LLM avec les valeurs humaines et l'amélioration de leur utilité dans le monde réel.
Titre: Instruction Tuning with GPT-4
Résumé: Prior work has shown that finetuning large language models (LLMs) using machine-generated instruction-following data enables such models to achieve remarkable zero-shot capabilities on new tasks, and no human-written instructions are needed. In this paper, we present the first attempt to use GPT-4 to generate instruction-following data for LLM finetuning. Our early experiments on instruction-tuned LLaMA models show that the 52K English and Chinese instruction-following data generated by GPT-4 leads to superior zero-shot performance on new tasks to the instruction-following data generated by previous state-of-the-art models. We also collect feedback and comparison data from GPT-4 to enable a comprehensive evaluation and reward model training. We make our data generated using GPT-4 as well as our codebase publicly available.
Auteurs: Baolin Peng, Chunyuan Li, Pengcheng He, Michel Galley, Jianfeng Gao
Dernière mise à jour: 2023-04-06 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2304.03277
Source PDF: https://arxiv.org/pdf/2304.03277
Licence: https://creativecommons.org/licenses/by-nc-sa/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://github.com/goodfeli/dlbook_notation
- https://instruction-tuning-with-gpt-4.github.io/
- https://github.com/Instruction-Tuning-with-GPT4/GPT4-LLaMA
- https://arxiv.org/abs/2112.00861
- https://github.com/yizhongw/self-instruct/blob/main/human_eval/user_oriented_instructions.jsonl
- https://github.com/lm-sys/FastChat/blob/main/fastchat/eval/table/question.jsonl
- https://github.com/orhonovich/unnatural-instructions