Le rôle du réglage des instructions dans les modèles de langue
Explore comment l'ajustement des instructions améliore la performance des modèles de langage dans différentes tâches.
― 8 min lire
Table des matières
- L'importance du réglage d'instructions
- Types d'ensembles de données d'instructions
- Tailles et variations de modèles
- Évaluation de la performance des modèles
- Conclusions du réglage d'instructions
- Processus d'évaluation détaillé
- Évaluation des réponses humaines
- Comparaisons de performance
- Ensembles de données et formation de modèles
- Conclusions tirées de la recherche
- Directions futures
- Implications plus larges
- Source originale
- Liens de référence
Les modèles de langage sont des outils capables de comprendre et générer des textes similaires à ceux des humains. Récemment, il y a eu beaucoup de progrès pour rendre ces modèles meilleurs dans le suivi des instructions. Ce processus s'appelle le réglage d'instructions. Le réglage d'instructions implique de former des modèles sur divers ensembles de données conçus pour leur enseigner comment répondre à une variété de demandes humaines.
L'importance du réglage d'instructions
Le réglage d'instructions est essentiel car il aide les modèles de langage à mieux performer quand on leur demande d'accomplir des tâches. Par exemple, un modèle bien réglé peut répondre à des questions, rédiger des essais, créer des résumés, ou même coder des programmes. Cependant, il y a beaucoup de débats sur l'efficacité des modèles open-source par rapport à des modèles avancés et propriétaires comme ChatGPT ou GPT-4. Cela soulève la question de comment évaluer avec précision leur performance.
Types d'ensembles de données d'instructions
Les ensembles de données d'instructions sont des collections d'exemples qui montrent comment un modèle devrait répondre à différents prompts. Ces ensembles de données peuvent provenir de diverses sources :
Ensembles de données créés manuellement : Ils sont préparés par des chercheurs spécifiquement pour aider les modèles à apprendre à suivre des instructions. Des exemples incluent OpenAssistant et FLAN V2.
Ensembles de données générés automatiquement : Ces ensembles de données sont créés à partir de modèles existants, comme Alpaca ou Self-Instruct. Ils aident à générer rapidement plusieurs paires instruction-réponse.
Ensembles de données crowdsourcés : Ceux-ci impliquent des contributions de nombreuses personnes différentes, aidant à créer un ensemble diversifié d'instructions et de réponses.
Ensembles de données synthétiques : Ceux-ci sont créés de zéro à l'aide de règles ou d'algorithmes pour simuler des scénarios de suivi d'instructions.
Chaque ensemble de données a un but différent et aide à améliorer des compétences spécifiques dans les modèles.
Tailles et variations de modèles
Les modèles viennent en différentes tailles, mesurées par le nombre de paramètres qu'ils ont. Par exemple, certains modèles ont 6,7 milliards de paramètres, tandis que d'autres peuvent en avoir jusqu'à 65 milliards. En général, les modèles plus grands tendent à mieux performer car ils peuvent stocker plus d'informations et de motifs appris de leur formation.
Évaluation de la performance des modèles
Pour évaluer à quel point ces modèles suivent bien les instructions, diverses métriques et méthodes sont utilisées. Cela inclut :
Évaluation automatique : Cette méthode utilise des benchmarks et des tests pour évaluer l'exactitude factuelle et les capacités de raisonnement. Par exemple, l'ensemble de données Massive Multitask Language Understanding (MMLU) est souvent utilisé, comprenant divers sujets et niveaux de difficulté.
Évaluation humaine : Cela implique que des personnes évaluent les réponses générées par les modèles. Elles recherchent l'exactitude, la cohérence et la qualité globale dans les résultats du modèle.
Évaluation basée sur le modèle : Dans cette méthode, un modèle (comme GPT-4) est utilisé pour évaluer les réponses d'un autre modèle. Cela aide à comparer comment différents modèles performent sur des tâches similaires.
Conclusions du réglage d'instructions
Pas de modèle unique pour tous : Aucun ensemble d'instructions unique ne fonctionne le mieux pour toutes les tâches. Différents ensembles de données peuvent améliorer des capacités différentes dans les modèles. Par exemple, les ensembles de données axés sur le codage vont améliorer les Compétences en codage mais peuvent ne pas aider avec des questions ouvertes.
Le rôle des modèles de base : La qualité du modèle de base est cruciale. Les modèles qui sont plus grands ou formés plus longtemps tendent à donner de meilleurs résultats une fois le réglage d'instructions appliqué.
Les ensembles de données mixtes fonctionnent mieux : Utiliser une combinaison de différents ensembles de données pour le réglage d'instructions tend à fournir la meilleure performance globale, car ils aident à développer une plus large gamme de compétences dans les modèles.
Évaluations humaines vs. modèles : Parfois, les préférences des évaluateurs humains ne s'alignent pas avec les évaluations basées sur le modèle. Cela suggère que les évaluations humaines peuvent être influencées par des biais personnels, comme une préférence pour des réponses plus longues ou plus complexes.
Processus d'évaluation détaillé
Connaissances factuelles
Les connaissances factuelles sont vitales pour les modèles visant à servir de sources d'information. Évaluer à quel point les modèles se souviennent des faits utilise souvent l'ensemble de données MMLU, qui teste les connaissances dans divers sujets.
Capacités de raisonnement
Le raisonnement est une autre compétence importante pour les modèles de langage. Les évaluations utilisent des ensembles de données comme l'ensemble de données de mathématiques de l'école primaire et Big-Bench-Hard pour voir combien les modèles peuvent résoudre des problèmes complexes.
Capacités multilingues
Pour s'assurer que les modèles peuvent servir des utilisateurs à l'échelle mondiale, les capacités multilingues sont évaluées à l'aide d'ensembles de données comme TyDiQA, qui inclut des questions dans plusieurs langues.
Compétences en codage
La capacité de générer du code basé sur des instructions est de plus en plus importante. Les évaluations utilisant des ensembles de données comme HumanEval évaluent combien les modèles peuvent écrire un code fonctionnel à partir de directives fournies.
Suivi d'instructions ouvertes
Ce domaine examine à quel point les modèles gèrent des demandes diverses et imprévisibles. Les évaluations doivent tenir compte à la fois des benchmarks automatiques et des évaluations humaines pour obtenir une image complète des capacités du modèle.
Évaluation des réponses humaines
Pour évaluer à quel point les modèles performent dans des instructions ouvertes, une évaluation détaillée basée sur de nombreuses instructions est réalisée. Cela inclut la collecte d'évaluations d'experts venant de personnes formées pour évaluer les résultats des modèles. Elles évaluent les réponses individuelles pour leur acceptabilité et comparent les modèles directement pour déterminer lequel donne des réponses plus utiles.
Comparaisons de performance
En comparant les performances de différents modèles, les points suivants ont été notés :
Les modèles plus grands performent généralement mieux, mais les améliorations vues grâce au réglage d'instructions étaient plus significatives dans les modèles plus petits.
Même les plus grands modèles, comme les modèles de 65B, avaient du mal à surpasser des modèles propriétaires comme ChatGPT ou GPT-4.
L'évaluation a révélé que les différences de performance peuvent varier considérablement en fonction de la méthode utilisée (évaluations manuelles vs. mesures automatiques).
Ensembles de données et formation de modèles
Dans la formation des modèles, un format standardisé est utilisé pour s'assurer que les modèles apprennent efficacement à partir des divers ensembles de données d'instructions. Pendant la formation, les modèles apprennent à prédire des réponses basées sur des prompts donnés tout en étant encouragés à suivre un format de conversation structuré.
Conclusions tirées de la recherche
La diversité est clé : Utiliser un mélange d'ensembles de données conduit à de meilleures performances dans les tâches de suivi d'instructions. Cela souligne l'importance de sources de formation variées.
Qualité plutôt que quantité : Les modèles plus grands sont généralement plus efficaces, mais les améliorations peuvent diminuer à mesure que la taille du modèle augmente.
Subjectivité dans l'évaluation : Les évaluateurs humains ne sont pas toujours d'accord, ce qui indique la nécessité d'approches cohérentes pour évaluer les modèles avec précision.
Place à l'amélioration : Il y a encore un écart notable entre les modèles open-source et les modèles propriétaires, suggérant des domaines pour plus de recherche et développement.
Directions futures
Les travaux futurs devraient viser à améliorer la qualité des modèles de base et encourager des ensembles de données d'instructions plus diversifiés. De plus, les chercheurs sont incités à développer de meilleures méthodes d'évaluation, combinant à la fois évaluations humaines et automatisées pour obtenir une compréhension plus précise des capacités des modèles.
Implications plus larges
Comprendre comment fonctionne le réglage d'instructions et le potentiel des modèles de langage peut aider à rendre ces outils plus efficaces dans des applications pratiques. Au fur et à mesure que ces modèles deviennent plus capables, ils ont le potentiel de répondre à une large gamme de besoins dans divers domaines, de l'éducation au service client et au-delà.
S'assurer que ces modèles sont formés de manière responsable et évalués de manière approfondie est crucial alors que nous cherchons à exploiter leurs capacités efficacement.
Titre: How Far Can Camels Go? Exploring the State of Instruction Tuning on Open Resources
Résumé: In this work we explore recent advances in instruction-tuning language models on a range of open instruction-following datasets. Despite recent claims that open models can be on par with state-of-the-art proprietary models, these claims are often accompanied by limited evaluation, making it difficult to compare models across the board and determine the utility of various resources. We provide a large set of instruction-tuned models from 6.7B to 65B parameters in size, trained on 12 instruction datasets ranging from manually curated (e.g., OpenAssistant) to synthetic and distilled (e.g., Alpaca) and systematically evaluate them on their factual knowledge, reasoning, multilinguality, coding, and open-ended instruction following abilities through a collection of automatic, model-based, and human-based metrics. We further introduce T\"ulu, our best performing instruction-tuned model suite finetuned on a combination of high-quality open resources. Our experiments show that different instruction-tuning datasets can uncover or enhance specific skills, while no single dataset (or combination) provides the best performance across all evaluations. Interestingly, we find that model and human preference-based evaluations fail to reflect differences in model capabilities exposed by benchmark-based evaluations, suggesting the need for the type of systemic evaluation performed in this work. Our evaluations show that the best model in any given evaluation reaches on average 87% of ChatGPT performance, and 73% of GPT-4 performance, suggesting that further investment in building better base models and instruction-tuning data is required to close the gap. We release our instruction-tuned models, including a fully finetuned 65B T\"ulu, along with our code, data, and evaluation framework at https://github.com/allenai/open-instruct to facilitate future research.
Auteurs: Yizhong Wang, Hamish Ivison, Pradeep Dasigi, Jack Hessel, Tushar Khot, Khyathi Raghavi Chandu, David Wadden, Kelsey MacMillan, Noah A. Smith, Iz Beltagy, Hannaneh Hajishirzi
Dernière mise à jour: 2023-10-30 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2306.04751
Source PDF: https://arxiv.org/pdf/2306.04751
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://github.com/allenai/open-instruct
- https://sharegpt.com/
- https://huggingface.co/datasets/anon8231489123/ShareGPT_Vicuna_unfiltered/tree/main/HTML_cleaned_raw_dataset
- https://github.com/hendrycks/test
- https://www.overleaf.com/project/645d3612db5ebd45ad4b1fec
- https://simonwillison.net/2023/Mar/11/llama/
- https://github.com/databrickslabs/dolly/tree/master
- https://github.com/LAION-AI/Open-Assistant
- https://arxiv.org/abs/2305.11206
- https://www.aclweb.org/portal/content/acl-code-ethics