L'efficacité des invites automatisées vs manuelles dans les LLMs
Une étude comparant les invites automatiques et manuelles dans les grands modèles de langage.
― 6 min lire
Table des matières
- Le problème des données
- Comment fonctionne l'apprentissage basé sur les instructions
- Automatisation de la conception des instructions
- Contributions clés
- Recherches connexes
- Les comparaisons que nous avons faites
- Configuration de l'expérience
- Principales conclusions
- Analyse approfondie des instructions
- Implications pour les recherches futures
- Conclusion
- Source originale
- Liens de référence
Les grands modèles de langage (LLMs) sont des outils qui peuvent apprendre à partir de petits exemples. Ils fonctionnent mieux quand on leur donne des instructions utiles. Les chercheurs ont essayé de rendre les instructions automatiques, avec un certain succès. Certaines études montrent que l'automatisation peut parfois être plus efficace que le réglage fin. Cet article examine les instructions automatiques pour différentes tâches et analyse leur efficacité par rapport aux instructions manuelles simples.
Le problème des données
Les LLMs, qui utilisent une méthode d'entraînement appelée "pré-entraînement puis réglage fin", ont besoin de beaucoup de bonnes données pour bien fonctionner. Cependant, dans de nombreux cas, il n'y a tout simplement pas assez de données étiquetées de qualité disponibles pour l'entraînement. Cette limitation rend difficile l'obtention de résultats solides avec les méthodes traditionnelles. Pour faire face à ce problème, l'apprentissage basé sur les instructions a fait son apparition. Cette approche nécessite seulement quelques exemples pour aider le modèle à apprendre les spécificités d'une tâche.
Comment fonctionne l'apprentissage basé sur les instructions
Dans l'apprentissage basé sur les instructions, tu modifies l'entrée en utilisant un format spécial qui inclut des espaces réservés. Ces espaces réservés aident le modèle à comprendre sur quoi se concentrer. Par exemple, si tu veux que le modèle détermine si une phrase a un sentiment positif ou négatif, tu ajusterais l'entrée pour le signaler. En plus, un verbaliseur aide à relier les réponses aux bonnes catégories. De cette manière, même avec des données limitées, tu peux entraîner le modèle à donner des résultats utiles.
Automatisation de la conception des instructions
Créer des instructions n'est pas facile et peut prendre beaucoup de temps. Beaucoup de chercheurs ont essayé d'automatiser ce processus, croyant que les instructions automatiques pourraient mieux fonctionner que celles conçues manuellement. Dans cet article, on remet cette idée en question. On fournit des preuves que les instructions automatiques ne font pas systématiquement mieux que les instructions manuelles simples dans de nombreux scénarios d'apprentissage.
Contributions clés
- On a examiné de près les instructions automatiques et on a constaté qu'elles ne battent pas régulièrement les instructions manuelles, même quand ces dernières sont basiques et choisies parmi une petite sélection.
- Notre recherche montre que le réglage fin seul crée une base solide pour la performance dans différentes configurations d'apprentissage.
- En montrant comment les instructions automatiques ont été créées, on explique pourquoi elles pourraient ne pas être aussi efficaces que leurs homologues manuelles.
Recherches connexes
Le besoin de meilleures instructions est arrivé avec la montée des LLMs, qui peuvent apprendre avec peu d'exemples. Les premiers efforts se concentraient sur la création manuelle d'instructions, mais cela a vite évolué vers des conceptions automatisées. Certains chercheurs ont travaillé sur l'identification de mots clés pour les instructions, tandis que d'autres ont développé des cadres qui génèrent automatiquement des instructions en utilisant des méthodes comme la recherche basée sur le gradient. Les stratégies plus récentes impliquaient l'utilisation de différents types de représentations pour les instructions, suggérant que celles-ci peuvent être plus flexibles que l'utilisation de mots spécifiques.
Les comparaisons que nous avons faites
Dans ce travail, on a examiné deux méthodes représentatives d'instructions automatiques : AutoPrompt et Differential Prompt. On les a comparées avec des instructions créées manuellement et aussi avec une méthode de réglage fin sans aucune instruction.
Configuration de l'expérience
On a construit un cadre solide pour tester l'efficacité de différentes stratégies d'instructions. On s'est concentré sur des situations où seules quelques exemples étaient disponibles. Trois types de modèles ont été testés : instructions manuelles, instructions automatiques d'AutoPrompt, et instructions différenciées.
Ensembles de données utilisés
On a réalisé des expériences avec six ensembles de données. Ceux-ci comprenaient des tâches pour l'analyse des sentiments et d'autres types de relations textuelles. L'objectif était de vérifier comment les modèles ont performé avec les données limitées qui leur étaient fournies.
Conception des instructions
On a créé des instructions qui combinaient du texte d'entrée avec un espace réservé, permettant au modèle de comprendre ce qui était requis. Pour les instructions manuelles, on a utilisé des exemples d'études précédentes. Pour les instructions automatiques, on a utilisé des tokens déclencheurs pour aider le modèle à relier l'entrée à la sortie attendue.
Principales conclusions
En regardant les résultats, on a constaté que les instructions manuelles performaient mieux dans la plupart des cas. Elles étaient plus fortes dans 13 sur 24 configurations. Les instructions automatiques ne fonctionnaient pas toujours bien, avec certaines configurations montrant des performances inférieures par rapport aux instructions manuelles ou même au réglage fin.
Observations de performance
- Les instructions manuelles surpassaient généralement les automatiques dans divers scénarios.
- Dans certains cas, les méthodes automatiques ne faisaient pas mieux que le simple réglage fin.
- Pour des quantités de données plus petites, l'utilisation d'instructions menait souvent à des résultats bien meilleurs.
- L'instruction automatique échouait parfois de manière spectaculaire et montrait une incohérence dans les résultats, tandis que l'instruction manuelle s'est révélée plus fiable.
Analyse approfondie des instructions
À travers notre analyse, on a noté que les instructions automatiques manquaient souvent de généralisabilité. Elles sont générées à partir d'un nombre limité d'exemples, qui peuvent ne pas bien couvrir tous les scénarios. En revanche, les instructions créées manuellement proviennent souvent d'une connaissance humaine plus large et peuvent s'adapter à différents contextes.
Implications pour les recherches futures
On recommande que les futures études considèrent les instructions manuelles comme un point de départ. Nos découvertes suggèrent que, même si l'automatisation peut faire gagner du temps, elle ne donne pas toujours de meilleurs résultats. On pense qu'il y a encore beaucoup de place pour améliorer la conception des instructions manuelles et des verbaliseurs.
Conclusion
En résumé, cette recherche montre que l'instruction automatique ne surpasse pas systématiquement l'instruction manuelle. Bien que les méthodes automatiques puissent sembler attrayantes, elles peuvent mener à des performances plus faibles dans de nombreuses situations. Les instructions manuelles offrent une base plus stable pour les tâches d'apprentissage, surtout quand les données sont limitées. On espère que cette analyse encouragera les chercheurs à repenser leur approche en matière de conception d'instructions et à considérer les avantages des méthodes manuelles.
Titre: Revisiting Automated Prompting: Are We Actually Doing Better?
Résumé: Current literature demonstrates that Large Language Models (LLMs) are great few-shot learners, and prompting significantly increases their performance on a range of downstream tasks in a few-shot learning setting. An attempt to automate human-led prompting followed, with some progress achieved. In particular, subsequent work demonstrates automation can outperform fine-tuning in certain K-shot learning scenarios. In this paper, we revisit techniques for automated prompting on six different downstream tasks and a larger range of K-shot learning settings. We find that automated prompting does not consistently outperform simple manual prompts. Our work suggests that, in addition to fine-tuning, manual prompts should be used as a baseline in this line of research.
Auteurs: Yulin Zhou, Yiren Zhao, Ilia Shumailov, Robert Mullins, Yarin Gal
Dernière mise à jour: 2023-06-22 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2304.03609
Source PDF: https://arxiv.org/pdf/2304.03609
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.