Simple Science

La science de pointe expliquée simplement

# Informatique# Apprentissage automatique# Intelligence artificielle

Optimiseur Filtré par Momentum : Une Nouvelle Approche pour Éviter l'Oubli dans les LLMs

MoFO aide les grands modèles de langage à garder leur savoir pendant le fine-tuning sans perdre en performance.

― 6 min lire


MoFO empêche d'oublierMoFO empêche d'oublierdans les LLMs.le fine-tuning.connaissances des LLM intactes pendantUne nouvelle méthode garde les
Table des matières

Les modèles de langage de grande taille (LLMs) sont des outils avancés qui ont montré de super capacités pour effectuer diverses tâches, comme comprendre et générer du texte. En général, ces modèles passent par deux étapes principales : d'abord, ils sont pré-entraînés avec une énorme quantité de texte, puis ils sont affinés avec des ensembles de données plus petits et spécifiques pour les rendre meilleurs dans certains jobs.

Cependant, pendant le processus d'affinage, ces modèles peuvent Oublier ce qu'ils ont appris pendant le Pré-entraînement. Ça peut provoquer une baisse de leurs capacités globales. Du coup, régler le problème de l'oubli pendant l'affinage est devenu un sujet d'étude important.

Le Problème de l'Oubli

Quand les LLMs sont affinés, ils peuvent perdre une partie des connaissances acquises lors du pré-entraînement. Cet oubli est un enjeu crucial, car ça peut affecter la capacité du modèle à bien performer sur diverses tâches. Pour s'attaquer à ce problème, les chercheurs ont développé différentes approches. Les stratégies courantes incluent des méthodes basées sur la répétition, qui utilisent des données de la phase de pré-entraînement pendant l'affinage, et des méthodes basées sur la régularisation, qui ajoutent des restrictions au processus d'entraînement pour aider le modèle à garder ses connaissances précédentes.

Les méthodes basées sur la répétition peuvent être compliquées car beaucoup de LLMs open-source ne partagent pas complètement leurs données de pré-entraînement. Même si les données sont disponibles, les utiliser pendant l'affinage peut être coûteux en ressources de calcul. Les méthodes de régularisation essaient d'empêcher l'oubli en ajoutant des termes supplémentaires à la fonction de perte, ce qui peut parfois mener à une moins bonne performance sur les tâches d'affinage si la fonction de perte originale est trop modifiée.

Présentation de l'Optimiseur Filtré par Momentum (MoFO)

Pour résoudre le problème de l'oubli, on propose une nouvelle méthode appelée Optimiseur Filtré par Momentum (MoFO). Contrairement à d'autres méthodes, MoFO n'a pas besoin d'accéder aux données de pré-entraînement et ne modifie pas la fonction de perte originale, ce qui peut garder la performance sur les tâches d'affinage intacte.

L'idée principale derrière MoFO est de choisir quels Paramètres du modèle mettre à jour en fonction de leur momentum. À chaque étape de l'affinage, MoFO sélectionne les paramètres avec les valeurs de momentum les plus élevées à mettre à jour. Ça aide à garder les autres paramètres plus proches de ce qu'ils étaient pendant le pré-entraînement, réduisant ainsi le risque d'oubli.

Dans nos expériences, on a montré à travers divers tests que MoFO surpasse les méthodes existantes tant en maintenant les connaissances acquises lors du pré-entraînement qu'en obtenant de bonnes performances sur les tâches d'affinage.

Comment Fonctionne MoFO

MoFO fonctionne en divisant les paramètres du modèle en différentes parties. Pour chaque partie, seuls les paramètres avec les valeurs de momentum les plus élevées sont sélectionnés pour les mises à jour. En se concentrant sur ces paramètres, MoFO vise à réduire la distance entre l'état actuel du modèle et le modèle pré-entraîné. Ça veut dire que le processus d'affinage peut se dérouler de manière à oublier moins facilement les connaissances antérieures.

Une des raisons pour lesquelles MoFO peut y arriver, c'est qu'il tire parti de la façon dont les paramètres influencent la perte d'affinage. Certaines configurations de paramètres peuvent mener à de meilleures performances, et MoFO essaie de guider le modèle vers ces configurations en sélectionnant soigneusement les paramètres à mettre à jour.

Résultats Expérimentaux

On a réalisé des expériences approfondies pour comparer MoFO avec d'autres méthodes d'affinage courantes. On a utilisé plusieurs modèles et ensembles de données pour évaluer comment chaque méthode performait en termes d'efficacité d'affinage et de quantité d'oubli.

Affinage sur des Ensembles de Données Spécifiques

Pour nos expériences, on a utilisé un modèle appelé Pythia-160m. On a affiné ce modèle sur un sous-ensemble d'un grand jeu de données appelé FLAN. On a comparé comment le modèle performait en utilisant MoFO par rapport à des optimisateurs traditionnels comme Adam et Lion. Les résultats ont montré que MoFO obtenait non seulement une performance similaire en termes de perte d'affinage, mais il restait également plus proche de la configuration du modèle pré-entraîné.

Évaluation de l'Oubli

Pour mieux comprendre comment MoFO prévenait l'oubli, on a aussi évalué la performance du modèle sur des tâches nécessitant un raisonnement de bon sens, comme HellaSwag et ARC-Challenge. Nos résultats ont indiqué que MoFO montrait moins de déclin dans la précision comparé aux modèles affiné avec Adam ou Lion, ce qui signifie une meilleure rétention des connaissances pré-entraînées.

Importance du Mouvement des Paramètres

Un aspect crucial de MoFO est son attention sur la façon dont les paramètres bougent pendant l'affinage. Il a été observé que si les paramètres du modèle s'éloignent trop des valeurs pré-entraînées, le risque d'oubli augmente. MoFO met à jour stratégiquement un petit ensemble de paramètres, ce qui aide à garder les autres paramètres stables et proches de leurs valeurs originales.

En évitant de grands mouvements dans l'espace des paramètres, MoFO réduit efficacement la quantité d'oubli qui se produit pendant la phase d'affinage. Nos expériences ont montré que les modèles utilisant MoFO avaient moins de variation dans leur performance à travers différentes tâches comparés à ceux utilisant d'autres méthodes d'optimisation.

Conclusion et Directions Futures

En résumé, l'Optimiseur Filtré par Momentum (MoFO) présente une approche prometteuse pour résoudre le problème de l'oubli dans les modèles de langage de grande taille pendant l'affinage. En se concentrant sur les paramètres avec les plus grandes valeurs de momentum et en évitant des changements à la fonction de perte, MoFO aide à maintenir les connaissances pré-entraînées tout en obtenant de solides performances sur des tâches spécifiques.

Au fur et à mesure que le domaine progresse, il y a des opportunités pour affiner et améliorer encore la méthode MoFO. Les travaux futurs pourraient explorer des stratégies supplémentaires pour améliorer la performance, des applications potentielles dans des contextes multimodaux et des examens plus approfondis des propriétés de convergence. Le développement continu de méthodes comme MoFO pourrait mener à des modèles de langage encore plus robustes et capables dans diverses applications.

Source originale

Titre: MoFO: Momentum-Filtered Optimizer for Mitigating Forgetting in LLM Fine-Tuning

Résumé: Recently, large language models (LLMs) have demonstrated remarkable capabilities in a wide range of tasks. Typically, an LLM is pre-trained on large corpora and subsequently fine-tuned on task-specific datasets. However, during fine-tuning, LLMs may forget the knowledge acquired in the pre-training stage, leading to a decline in general capabilities. To address this issue, we propose a new fine-tuning algorithm termed Momentum-Filtered Optimizer (MoFO). The key idea of MoFO is to iteratively select and update the model parameters with the largest momentum magnitudes. Compared to full-parameter training, MoFO achieves similar fine-tuning performance while keeping parameters closer to the pre-trained model, thereby mitigating knowledge forgetting. Unlike most existing methods for forgetting mitigation, MoFO combines the following two advantages. First, MoFO does not require access to pre-training data. This makes MoFO particularly suitable for fine-tuning scenarios where pre-training data is unavailable, such as fine-tuning checkpoint-only open-source LLMs. Second, MoFO does not alter the original loss function. This could avoid impairing the model performance on the fine-tuning tasks. We validate MoFO through rigorous convergence analysis and extensive experiments, demonstrating its superiority over existing methods in mitigating forgetting and enhancing fine-tuning performance.

Auteurs: Yupeng Chen, Senmiao Wang, Zhihang Lin, Zeyu Qin, Yushun Zhang, Tian Ding, Ruoyu Sun

Dernière mise à jour: 2024-07-31 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2407.20999

Source PDF: https://arxiv.org/pdf/2407.20999

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires