Optimiseur Filtré par Momentum : Une Nouvelle Approche pour Éviter l'Oubli dans les LLMs
MoFO aide les grands modèles de langage à garder leur savoir pendant le fine-tuning sans perdre en performance.
― 6 min lire
Table des matières
Les modèles de langage de grande taille (LLMs) sont des outils avancés qui ont montré de super capacités pour effectuer diverses tâches, comme comprendre et générer du texte. En général, ces modèles passent par deux étapes principales : d'abord, ils sont pré-entraînés avec une énorme quantité de texte, puis ils sont affinés avec des ensembles de données plus petits et spécifiques pour les rendre meilleurs dans certains jobs.
Cependant, pendant le processus d'affinage, ces modèles peuvent Oublier ce qu'ils ont appris pendant le Pré-entraînement. Ça peut provoquer une baisse de leurs capacités globales. Du coup, régler le problème de l'oubli pendant l'affinage est devenu un sujet d'étude important.
Le Problème de l'Oubli
Quand les LLMs sont affinés, ils peuvent perdre une partie des connaissances acquises lors du pré-entraînement. Cet oubli est un enjeu crucial, car ça peut affecter la capacité du modèle à bien performer sur diverses tâches. Pour s'attaquer à ce problème, les chercheurs ont développé différentes approches. Les stratégies courantes incluent des méthodes basées sur la répétition, qui utilisent des données de la phase de pré-entraînement pendant l'affinage, et des méthodes basées sur la régularisation, qui ajoutent des restrictions au processus d'entraînement pour aider le modèle à garder ses connaissances précédentes.
Les méthodes basées sur la répétition peuvent être compliquées car beaucoup de LLMs open-source ne partagent pas complètement leurs données de pré-entraînement. Même si les données sont disponibles, les utiliser pendant l'affinage peut être coûteux en ressources de calcul. Les méthodes de régularisation essaient d'empêcher l'oubli en ajoutant des termes supplémentaires à la fonction de perte, ce qui peut parfois mener à une moins bonne performance sur les tâches d'affinage si la fonction de perte originale est trop modifiée.
Présentation de l'Optimiseur Filtré par Momentum (MoFO)
Pour résoudre le problème de l'oubli, on propose une nouvelle méthode appelée Optimiseur Filtré par Momentum (MoFO). Contrairement à d'autres méthodes, MoFO n'a pas besoin d'accéder aux données de pré-entraînement et ne modifie pas la fonction de perte originale, ce qui peut garder la performance sur les tâches d'affinage intacte.
L'idée principale derrière MoFO est de choisir quels Paramètres du modèle mettre à jour en fonction de leur momentum. À chaque étape de l'affinage, MoFO sélectionne les paramètres avec les valeurs de momentum les plus élevées à mettre à jour. Ça aide à garder les autres paramètres plus proches de ce qu'ils étaient pendant le pré-entraînement, réduisant ainsi le risque d'oubli.
Dans nos expériences, on a montré à travers divers tests que MoFO surpasse les méthodes existantes tant en maintenant les connaissances acquises lors du pré-entraînement qu'en obtenant de bonnes performances sur les tâches d'affinage.
Comment Fonctionne MoFO
MoFO fonctionne en divisant les paramètres du modèle en différentes parties. Pour chaque partie, seuls les paramètres avec les valeurs de momentum les plus élevées sont sélectionnés pour les mises à jour. En se concentrant sur ces paramètres, MoFO vise à réduire la distance entre l'état actuel du modèle et le modèle pré-entraîné. Ça veut dire que le processus d'affinage peut se dérouler de manière à oublier moins facilement les connaissances antérieures.
Une des raisons pour lesquelles MoFO peut y arriver, c'est qu'il tire parti de la façon dont les paramètres influencent la perte d'affinage. Certaines configurations de paramètres peuvent mener à de meilleures performances, et MoFO essaie de guider le modèle vers ces configurations en sélectionnant soigneusement les paramètres à mettre à jour.
Résultats Expérimentaux
On a réalisé des expériences approfondies pour comparer MoFO avec d'autres méthodes d'affinage courantes. On a utilisé plusieurs modèles et ensembles de données pour évaluer comment chaque méthode performait en termes d'efficacité d'affinage et de quantité d'oubli.
Affinage sur des Ensembles de Données Spécifiques
Pour nos expériences, on a utilisé un modèle appelé Pythia-160m. On a affiné ce modèle sur un sous-ensemble d'un grand jeu de données appelé FLAN. On a comparé comment le modèle performait en utilisant MoFO par rapport à des optimisateurs traditionnels comme Adam et Lion. Les résultats ont montré que MoFO obtenait non seulement une performance similaire en termes de perte d'affinage, mais il restait également plus proche de la configuration du modèle pré-entraîné.
Évaluation de l'Oubli
Pour mieux comprendre comment MoFO prévenait l'oubli, on a aussi évalué la performance du modèle sur des tâches nécessitant un raisonnement de bon sens, comme HellaSwag et ARC-Challenge. Nos résultats ont indiqué que MoFO montrait moins de déclin dans la précision comparé aux modèles affiné avec Adam ou Lion, ce qui signifie une meilleure rétention des connaissances pré-entraînées.
Importance du Mouvement des Paramètres
Un aspect crucial de MoFO est son attention sur la façon dont les paramètres bougent pendant l'affinage. Il a été observé que si les paramètres du modèle s'éloignent trop des valeurs pré-entraînées, le risque d'oubli augmente. MoFO met à jour stratégiquement un petit ensemble de paramètres, ce qui aide à garder les autres paramètres stables et proches de leurs valeurs originales.
En évitant de grands mouvements dans l'espace des paramètres, MoFO réduit efficacement la quantité d'oubli qui se produit pendant la phase d'affinage. Nos expériences ont montré que les modèles utilisant MoFO avaient moins de variation dans leur performance à travers différentes tâches comparés à ceux utilisant d'autres méthodes d'optimisation.
Conclusion et Directions Futures
En résumé, l'Optimiseur Filtré par Momentum (MoFO) présente une approche prometteuse pour résoudre le problème de l'oubli dans les modèles de langage de grande taille pendant l'affinage. En se concentrant sur les paramètres avec les plus grandes valeurs de momentum et en évitant des changements à la fonction de perte, MoFO aide à maintenir les connaissances pré-entraînées tout en obtenant de solides performances sur des tâches spécifiques.
Au fur et à mesure que le domaine progresse, il y a des opportunités pour affiner et améliorer encore la méthode MoFO. Les travaux futurs pourraient explorer des stratégies supplémentaires pour améliorer la performance, des applications potentielles dans des contextes multimodaux et des examens plus approfondis des propriétés de convergence. Le développement continu de méthodes comme MoFO pourrait mener à des modèles de langage encore plus robustes et capables dans diverses applications.
Titre: MoFO: Momentum-Filtered Optimizer for Mitigating Forgetting in LLM Fine-Tuning
Résumé: Recently, large language models (LLMs) have demonstrated remarkable capabilities in a wide range of tasks. Typically, an LLM is pre-trained on large corpora and subsequently fine-tuned on task-specific datasets. However, during fine-tuning, LLMs may forget the knowledge acquired in the pre-training stage, leading to a decline in general capabilities. To address this issue, we propose a new fine-tuning algorithm termed Momentum-Filtered Optimizer (MoFO). The key idea of MoFO is to iteratively select and update the model parameters with the largest momentum magnitudes. Compared to full-parameter training, MoFO achieves similar fine-tuning performance while keeping parameters closer to the pre-trained model, thereby mitigating knowledge forgetting. Unlike most existing methods for forgetting mitigation, MoFO combines the following two advantages. First, MoFO does not require access to pre-training data. This makes MoFO particularly suitable for fine-tuning scenarios where pre-training data is unavailable, such as fine-tuning checkpoint-only open-source LLMs. Second, MoFO does not alter the original loss function. This could avoid impairing the model performance on the fine-tuning tasks. We validate MoFO through rigorous convergence analysis and extensive experiments, demonstrating its superiority over existing methods in mitigating forgetting and enhancing fine-tuning performance.
Auteurs: Yupeng Chen, Senmiao Wang, Zhihang Lin, Zeyu Qin, Yushun Zhang, Tian Ding, Ruoyu Sun
Dernière mise à jour: 2024-07-31 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2407.20999
Source PDF: https://arxiv.org/pdf/2407.20999
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.