Évaluer le RLAIF et le Fine-Tuning Supervisé : Une Perspective Critique
Une étude sur l'efficacité de RLAIF par rapport à l'affinage supervisé pour les modèles de langue.
― 11 min lire
Table des matières
- Ajustement Supervisé vs. Apprentissage par Renforcement avec Retour d'IA
- Comparaison de l'Efficacité de RLAIF et SFT
- Importance de la Qualité des Données
- Configuration de l'Étude et Résultats
- Évaluation de la Performance de RLAIF vs. SFT
- Exploration des Mécanismes Derrière l'Inéfficacité de RLAIF
- Recommandations pour Future Recherche
- Conclusion
- Source originale
- Liens de référence
L'apprentissage par renforcement avec retour d'IA (RLAIF) a pris de l'ampleur comme méthode pour améliorer la façon dont les modèles de langage suivent les instructions. Cette méthode commence par un ajustement supervisé (SFT) en utilisant des exemples d'un modèle professeur. Ensuite, on peaufine le modèle avec un apprentissage par renforcement (RL) basé sur les retours d'un Modèle Critique. Bien que beaucoup de récents modèles open-source montrent des améliorations grâce à cette étape de RL, on se demande si la complexité de cette étape est vraiment nécessaire.
Notre recherche indique que les gains issus de RLAIF proviennent principalement de l'utilisation d'un modèle professeur moins puissant pour recueillir les données SFT. Par exemple, si un modèle moins performant comme GPT-3.5 est utilisé pour les données SFT alors qu'un modèle plus fort, comme GPT-4, est utilisé pour donner des retours, on peut voir de grosses améliorations. On a trouvé que si on utilise simplement GPT-4 comme professeur pour le SFT, il performe mieux que la plupart des approches RLAIF existantes. Les résultats de RLAIF varient aussi beaucoup selon le type de modèles de base utilisés, comment ils sont testés, et quels modèles critiques sont appliqués.
On discute aussi des situations où SFT pourrait mieux fonctionner que le processus complet de RLAIF et on propose des recommandations pour rendre RLAIF plus bénéfique dans des situations pratiques.
Ajustement Supervisé vs. Apprentissage par Renforcement avec Retour d'IA
Utiliser SFT avec de bons professeurs peut expliquer les améliorations qu'on voit dans RLAIF. Dans les cas où on applique RLAIF avec un modèle fort comme GPT-4, on voit souvent des modèles de langage qui suivent les instructions bien mieux qu'avec SFT seul sur des ensembles de données populaires qui reposent sur les sorties de modèles plus faibles, comme celles de GPT-3.5. Cependant, simplement utiliser GPT-4 pour SFT peut mener à des modèles encore plus efficaces, montrant que les améliorations dans RLAIF peuvent venir de l'utilisation d'un meilleur professeur dès le départ.
Alors que les modèles de langage s'améliorent grâce à un pré-entraînement, il est devenu plus important de les aligner pour suivre efficacement et en toute sécurité les instructions des utilisateurs. SFT avec de grands ensembles de données de requêtes utilisateur et de réponses humaines est une manière d'y parvenir. On peut encore améliorer un modèle qui a subi SFT grâce à un apprentissage par renforcement avec retour humain (RLHF), ce qui peut améliorer la qualité des réponses. Cependant, recueillir des données pour SFT et RLHF coûte cher, et ça dépend souvent de l'apport humain pour les annotations.
Parce que recruter des humains peut être coûteux et qu'il peut y avoir des désaccords entre eux, beaucoup d'études ont commencé à remplacer les annotateurs humains par de forts modèles de langage, comme GPT-4. Cette approche s'est révélée efficace pour entraîner des modèles open-source avancés.
Cependant, remplacer les annotateurs humains par des modèles de langage pourrait ne pas être la meilleure utilisation de ces modèles. D'abord, les LLM excellent souvent à générer des réponses plutôt qu'à comparer des réponses, ce qui est un élément important pour fournir des retours. Ensuite, bien que les humains trouvent souvent plus facile de comparer des réponses sans produire les leurs, le coût de génération d'un classement par des LLM peut en fait être plus élevé que de générer une réponse. Pour ces raisons, on se demande si SFT ou les retours des LLM sont plus efficaces pour des modèles qui suivent les instructions.
Comparaison de l'Efficacité de RLAIF et SFT
Pour étudier l'efficacité de RLAIF par rapport à SFT, on a testé divers modèles de langage pré-entraînés avec les deux méthodes, en utilisant des incitations communes à partir d'ensembles de données. On a utilisé des démonstrations SFT de trois modèles professeurs (GPT-3.5, GPT-4, et Claude) et deux modèles critiques puissants (GPT-4 et Claude) pour générer des retours IA. On a ensuite évalué les modèles affinés en fonction de leur performance.
Dans nos résultats, on a observé que deux facteurs principaux doivent être présents pour que RLAIF surpasse SFT :
- Le modèle de base doit être suffisamment fort.
- Il doit y avoir une différence notable de capacité entre le professeur utilisé pour SFT et le critique utilisé pour le retour.
Le deuxième facteur a une implication importante : si les sorties cibles sont suffisamment bonnes et que les modèles utilisés pour SFT et le retour sont similaires, alors SFT peut être suffisant. Cela est évident quand on utilise GPT-4 pour SFT ; il peut surpasser une combinaison de GPT-3.5 pour SFT et GPT-4 pour le retour. Cela indique que RLAIF peut simplement compenser les faiblesses des ensembles de données SFT créés avec des professeurs plus faibles comme GPT-3.5.
Importance de la Qualité des Données
Alors que la performance des modèles de langage open-source s'améliore grâce à un entraînement à grande échelle, les méthodes pour aligner ces modèles à suivre les instructions ont gagné en attention. SFT avec de grands ensembles de données de requêtes utilisateurs et de réponses écrites est une approche. Affiner davantage les modèles entraînés avec SFT en utilisant RLHF peut améliorer la qualité des réponses. Cependant, la collecte de données pour SFT et RLHF est coûteuse et nécessite des apports humains.
Il y a une tendance croissante parmi les chercheurs à remplacer les annotateurs humains dans les phases SFT et RLHF par de forts modèles de langage, comme GPT-4. Cette approche a montré des résultats efficaces dans la création de modèles open-source puissants.
Pourtant, employer des LLM pour remplacer les annotateurs humains dans le pipeline RLHF pourrait ne pas être le moyen le plus efficace de les utiliser. Les LLM excellent dans la génération de réponses mais peuvent avoir du mal dans des tâches discriminatives, comme étiqueter les réponses préférées pour le retour. De plus, bien que les humains trouvent souvent plus facile de comparer des réponses avec des coûts cognitifs plus bas, la longueur du contexte requise par les LLM pour les comparaisons peut rendre la génération de préférences plus complexe que de fournir des réponses directes.
Pour discerner quelle approche mène à de meilleures capacités de Suivi des instructions, on a comparé la méthode RLAIF avec la réalisation de SFT basée sur des démonstrations générées directement à partir du modèle de langage annotateur.
Configuration de l'Étude et Résultats
Dans nos expériences, on a aligné divers modèles pré-entraînés en utilisant à la fois des techniques SFT et RLAIF, en utilisant des incitations de ShareGPT. Les résultats ont montré que deux conditions nécessaires pour que RLAIF dépasse SFT sont un modèle fort et une différence significative de capacité entre le professeur SFT et le critique de retour.
Nos données suggèrent que RLAIF ne montre des avantages de performance que lorsque les modèles impliqués présentent des différences notables. Si les niveaux de performance des modèles SFT et de retour IA sont trop proches, s'appuyer sur SFT peut même mener à de meilleurs résultats.
Cela indique que la qualité des données impacte significativement la performance. Utiliser de forts modèles pour générer des données d'instruction pourrait conduire à un entraînement plus efficace comparé aux processus RLAIF standards qui impliquent des modèles plus faibles pour la collecte de données SFT.
Évaluation de la Performance de RLAIF vs. SFT
Dans nos expériences, la première phase a impliqué d'aligner différents modèles en réalisant SFT basé sur des complétions cibles standards dans ShareGPT, qui reposait principalement sur les sorties de GPT-3.5. Il était évident que bien que RLAIF ait montré des améliorations substantielles pour le suivi des instructions à travers divers modèles de base, utiliser des modèles plus puissants pour SFT a constamment conduit à une performance supérieure par rapport à RLAIF.
Cette différence peut être attribuée à la qualité inhérente des données d'instruction utilisées dans le SFT. Il s'avère que l'efficacité de RLAIF est étroitement liée à la qualité des sorties SFT, ce qui souligne l'importance d'utiliser des ensembles de données d'ajustement d'instruction de haute qualité.
Si on considère différents scénarios utilisant le même modèle critique pour le retour IA et l'évaluation, on constate que RLAIF peut ne pas apporter les avantages escomptés lorsque la qualité des complétions SFT est suffisamment élevée. Cela suggère que RLAIF peut ne pas être en mesure d'améliorer le modèle de manière significative lorsque l'apprentissage a déjà bénéficié de données de haute qualité grâce à SFT.
Exploration des Mécanismes Derrière l'Inéfficacité de RLAIF
Notre recherche suggère que RLAIF sous-performe par rapport à SFT pour quelques raisons clés. Plus précisément, utiliser une distribution cible de haute qualité pour SFT minimise tous les gains potentiels de l'étape RLAIF. Lorsque le RLAIF débute avec des sorties de modèles puissants comme Claude, les résultats montrent que SFT au-delà d'un certain point peut même nuire aux gains de performance.
L'efficacité du modèle de base joue un rôle crucial dans la façon dont RLAIF fonctionne. Certains modèles, comme Llama 7B, montrent une amélioration limitée grâce aux méthodes RLAIF par rapport aux modèles SFT forts. Cela indique un manque potentiel de réactivité au retour IA en raison de la difficulté inhérente du modèle de base ou des ensembles de préférences spécifiques utilisés.
Un autre facteur est la façon dont la performance d'un modèle peut être influencée par la manière dont les préférences sont collectées et quel modèle génère les réponses. Lorsque la qualité de sortie du modèle utilisé pour générer le retour n'est pas en phase avec les attentes fixées par des modèles à performances supérieures, la performance peut significativement ralentir.
Recommandations pour Future Recherche
Sur la base de nos résultats, on recommande que les travaux futurs se concentrent sur l'amélioration des ensembles de données pour l'ajustement d'instruction. Beaucoup d'ensembles de données SFT actuels reposent sur des sorties de modèles moins puissants, ce qui peut affecter la performance finale lors de l'utilisation de retours IA.
Comme on l'a vu, il existe une forte corrélation entre la qualité des ensembles de données d'ajustement d'instruction et les résultats obtenus grâce à des techniques d'entraînement comme RLAIF. De nouveaux ensembles de données devraient incorporer des modèles plus forts pour améliorer la performance globale et garantir l'équité lors de l'étude des mécanismes de retour d'IA.
De plus, la communauté devrait poursuivre les mises à jour continues des ensembles de données d'ajustement d'instruction générées par l'IA. Cela garantit un alignement avec les dernières avancées dans les modèles de langage et aide à maintenir une cohérence de qualité dans les phases SFT et de retour IA.
Comme on l'a démontré, la façon dont les données sont collectées dans les cadres RLHF et RLAIF impacte significativement l'efficacité et les résultats. Des changements dans les approches de collecte de données pourraient atténuer certains des écarts de performance observés lorsqu'on utilise l'IA à la place des annotateurs humains.
Conclusion
En résumé, on a évalué de manière critique le rôle de RLAIF dans l'amélioration des capacités des modèles de langage à suivre les instructions. Nos résultats ont révélé que les gains observés pourraient être le résultat de différences dans les capacités des modèles et la qualité des données d'entraînement.
Alors que les modèles de langage continuent de s'améliorer, se concentrer sur des ensembles de données SFT de haute qualité est crucial pour maximiser la performance dans les tâches de suivi des instructions. De plus, nos résultats suggèrent que bien que le retour d'IA ait un potentiel pour des solutions évolutives dans l'alignement des modèles, il faut avancer avec prudence pour assurer son applicabilité pratique. Une exploration continue des méthodes d'entraînement efficaces et de la collecte de données sera nécessaire pour réaliser tout le potentiel des systèmes de retour d'IA.
Titre: A Critical Evaluation of AI Feedback for Aligning Large Language Models
Résumé: Reinforcement learning with AI feedback (RLAIF) is a popular paradigm for improving the instruction-following abilities of powerful pre-trained language models. RLAIF first performs supervised fine-tuning (SFT) using demonstrations from a teacher model and then further fine-tunes the model with reinforcement learning (RL), using feedback from a critic model. While recent popular open-source models have demonstrated substantial improvements in performance from the RL step, in this paper we question whether the complexity of this RL step is truly warranted for AI feedback. We show that the improvements of the RL step are virtually entirely due to the widespread practice of using a weaker teacher model (e.g. GPT-3.5) for SFT data collection than the critic (e.g., GPT-4) used for AI feedback generation. Specifically, we show that simple supervised fine-tuning with GPT-4 as the teacher outperforms existing RLAIF pipelines. More generally, we find that the gains from RLAIF vary substantially across base model families, test-time evaluation protocols, and critic models. Finally, we provide a mechanistic explanation for when SFT may outperform the full two-step RLAIF pipeline as well as suggestions for making RLAIF maximally useful in practice.
Auteurs: Archit Sharma, Sedrick Keh, Eric Mitchell, Chelsea Finn, Kushal Arora, Thomas Kollar
Dernière mise à jour: 2024-02-19 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2402.12366
Source PDF: https://arxiv.org/pdf/2402.12366
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.