Simple Science

La science de pointe expliquée simplement

# Informatique# Apprentissage automatique

Impact de l'adaptation à faible rang sur la rétention des connaissances en apprentissage automatique

Analyser comment LoRA affecte la rétention des connaissances dans les modèles préentraînés pendant l'apprentissage continu.

― 10 min lire


L'impact de LoRA sur laL'impact de LoRA sur larétention d'apprentissagerétention des connaissances dans l'IA.Examiner l'influence de LoRA sur la
Table des matières

Ces dernières années, le domaine de l'apprentissage automatique, surtout l'apprentissage profond, a connu des avancées impressionnantes grâce à de gros modèles préentraînés dispos sur internet. Ces modèles, qui ont été formés avec une quantité énorme de données, peuvent facilement être ajustés pour des tâches spécifiques, comme classer des images, en les ajustant avec des ensembles de données plus petits. Cet ajustement est souvent plus efficace que de partir de zéro.

Une méthode populaire pour ajuster ces modèles est appelée Low-Rank Adaptation (LoRA). Cette méthode permet aux chercheurs de faire des ajustements sur de grands modèles en utilisant moins de mémoire et de puissance de calcul, ce qui est particulièrement important pour ceux qui ont des ressources limitées. Même si des études précédentes ont examiné comment LoRA fonctionne dans l'Apprentissage Continu, la plupart se sont concentrées sur la façon de conserver les informations apprises sans prendre en compte comment les changements dans le modèle pourraient affecter les connaissances précédemment acquises.

Cet article examine comment l'utilisation de LoRA affecte la capacité des grands modèles à retenir des connaissances tout en apprenant de nouvelles tâches. Nous analysons spécifiquement comment différents réglages de LoRA impactent l'oubli d'informations des étapes d'apprentissage précédentes en passant à de nouvelles tâches.

Contexte

Apprentissage Automatique et Modèles Préentraînés

L'apprentissage automatique permet aux ordinateurs d'apprendre des données et d'identifier des motifs. Cela a permis des progrès significatifs dans divers domaines, comme le traitement d'images et la compréhension du langage. L'émergence de grands modèles préentraînés a encore repoussé ces limites. Ces modèles peuvent bien performer dans de nombreuses tâches avec peu d'ajustements.

Les professionnels se heurtent souvent à des défis quand ils essaient d'utiliser ces grands modèles pour de nouvelles tâches. Les ajuster peut demander beaucoup de ressources, nécessitant une puissance de calcul et une mémoire substantielles. Pour relever ces défis, des techniques comme LoRA ont été développées. En ajustant seulement quelques paramètres dans un modèle, LoRA réduit efficacement les ressources nécessaires tout en maintenant la performance.

Low-Rank Adaptation (LoRA)

LoRA est une technique conçue pour ajuster de grands modèles en apprenant des matrices de poids de faible rang. En gros, ça modifie uniquement un petit segment des paramètres du modèle tout en permettant au modèle de bien performer sur de nouvelles tâches. Cette adaptabilité est cruciale quand on travaille avec de grands modèles contenant des milliards de paramètres.

LoRA permet d'ajuster sans avoir besoin de réentraîner complètement un modèle. En utilisant LoRA, les praticiens peuvent faire des mises à jour spécifiques sur des modèles pour de nouvelles tâches, ce qui peut mener à des expériences d'apprentissage pratiques et efficaces.

Apprentissage Continu

L'apprentissage continu se concentre sur l'amélioration des modèles en réponse à un flux de nouvelles données ou tâches. Le défi ici est de mettre à jour les modèles sans perdre les informations précédemment acquises, un phénomène connu sous le nom d'oubli catastrophique. Les méthodes traditionnelles commencent souvent de zéro pour chaque nouvelle tâche, ce qui peut mener à des inefficacités.

Des recherches récentes ont commencé à explorer comment les modèles préentraînés peuvent être adaptés pour l'apprentissage continu. Cependant, beaucoup d'approches existantes ne se concentrent pas sur l'amélioration de la performance du modèle original tout en apprenant de nouvelles tâches.

Objectifs de l'Étude

Cette étude vise à analyser comment l'utilisation de LoRA affecte l'oubli des tâches précédemment apprises et comment différentes configurations de LoRA peuvent impacter la performance. Nous allons explorer comment ces mises à jour influencent la capacité à retenir des connaissances des tâches antérieures tout en apprenant de nouvelles tâches plus spécialisées.

Méthodes

Configuration Expérimentale

Pour comprendre les effets de LoRA, nous avons conçu des expériences utilisant une séquence de quatre tâches détaillées : Voitures, Fleurs, Avions et Oiseaux. Chacune de ces tâches a son propre ensemble spécifique d'images et de catégories.

Nous avons utilisé des modèles préentraînés comme des Vision Transformers (ViT) et des Réseaux résiduels (ResNet). Chaque modèle a d'abord été entraîné sur un grand ensemble de données (ImageNet) avant de s'attaquer aux nouvelles tâches. Cette approche nous a permis d'observer à quel point ces modèles pouvaient maintenir leur performance sur les tâches originales tout en apprenant les nouvelles.

Ensemble de Données

Les ensembles de données pour nos tâches étaient les suivants :

  • Stanford Cars : 196 catégories avec plus de 8 000 images d'entraînement.
  • Oxford 102 Flowers : 102 catégories avec environ 1 000 images d'entraînement.
  • FGVC-Aircraft : 100 catégories avec environ 10 000 images.
  • Caltech-UCSD Birds : 200 catégories avec environ 6 000 images.

Nous avons appliqué des techniques d'entraînement cohérentes à travers tous les ensembles de données pour assurer une comparaison équitable des résultats.

Mise en Œuvre de LoRA

Dans nos tests, nous avons mis en œuvre LoRA en configurant un nouvel adaptateur pour chaque tâche. À la fin de chaque phase d'entraînement de tâche, nous avons intégré le nouvel adaptateur dans les poids du modèle. Cette méthode nous a permis d'évaluer comment le changement du rang des adaptateurs LoRA affectait à la fois la tâche originale (ImageNet) et les nouvelles tâches.

Nous avons ajusté le rang des adaptateurs LoRA pendant les expériences pour examiner comment cela influençait la performance et la rétention des connaissances acquises précédemment.

Optimisation

Nous avons utilisé un optimiseur appelé AdamW pour nos expériences. Le taux d'apprentissage et la taille des lots étaient réglés pour contrôler comment les modèles mettaient à jour leurs paramètres. Un planificateur de taux d'apprentissage a également été mis en place pour gérer le taux d'apprentissage dans le temps.

Résultats

Impact de l'Oubli sur les Tâches Préentraînées

Pour analyser comment l'oubli affecte la tâche de préentraînement, nous avons comparé deux méthodes : ajuster directement le modèle préentraîné sur chaque tâche et apprendre continuellement le modèle en prenant des points de contrôle après chaque tâche.

Nos résultats ont montré que lorsque nous ajustions directement sur les tâches Voitures et Fleurs, la performance du modèle sur la tâche Avions chutait considérablement. Cela indiquait une perte majeure de connaissances de la phase de préentraînement.

Effets du Rang de LoRA sur l'Oubli

Ensuite, nous avons expérimenté avec différents rangs de l'adaptateur LoRA pour voir comment ils influençaient l'oubli. Les résultats ont démontré que le rang de l'adaptateur jouait un rôle crucial dans la mesure où le modèle oubliait les tâches précédentes. Des rangs plus élevés entraînaient généralement un oubli accru, en particulier dans les modèles Vision Transformer.

Nous avons également examiné l'efficacité de la combinaison de LoRA avec une autre méthode d'apprentissage continu appelée Learning without Forgetting (LwF). Même avec LwF en place, le rang de l'adaptateur LoRA avait toujours un impact significatif sur la quantité de connaissances conservées par rapport à lorsque uniquement LwF était appliqué.

Oubli Contextuel

Une observation intéressante était que les Vision Transformers montraient une forme d'oubli contextuel. Cela signifie que lorsque le modèle apprenait de nouvelles tâches, il avait tendance à Oublier des catégories de la tâche de préentraînement qui étaient sémantiquement similaires à la tâche actuelle. Par exemple, lorsqu'il était formé sur des voitures, le modèle oubliait davantage de catégories liées aux véhicules provenant des données de préentraînement.

En revanche, les modèles ResNet ne montraient aucun signe d'oubli contextuel. Leur performance restait plus stable à travers les tâches, même s'ils continuaient à subir un oubli à un taux plus élevé.

Capacités de Transfert Antérieur

Nous avons exploré si l'apprentissage de plusieurs tâches pouvait améliorer la capacité du modèle à transférer des connaissances. En revisitant les tâches dans un ordre spécifique, nous avons examiné si le modèle pouvait atteindre une précision plus élevée sur des tâches après les avoir apprises la première fois.

Les résultats ont indiqué qu'il y avait un potentiel de transfert antérieur. Lorsque le modèle rencontrait une tâche pour la deuxième fois, il performait souvent mieux que lors de la première rencontre. Cela montre un potentiel pour des méthodes d'apprentissage continu qui tirent parti des tâches précédemment apprises pour améliorer l'apprentissage futur.

Discussion

Variations de Performance entre les Modèles

Notre recherche a révélé des différences notables entre la performance des ViTs et des ResNets. Alors que les Vision Transformers avaient tendance à montrer un oubli contextuel, les ResNets maintenaient une performance plus stable à travers les tâches. Cela suggère que les ViTs pourraient être plus sensibles aux tâches spécifiques sur lesquelles ils sont entraînés.

Cependant, les ResNets avaient tendance à subir un plus grand oubli lorsqu'ils étaient ajustés avec LoRA, ce qui indique que l'adaptabilité des Transformers pourrait offrir des avantages pour conserver des connaissances durant l'apprentissage incrémental.

Implications pour les Recherches Futures

Les résultats de cette étude indiquent la nécessité de recherches continues axées sur le développement de méthodes qui améliorent la rétention des connaissances dans les modèles d'apprentissage automatique. Comprendre comment différentes architectures réagissent aux techniques d'apprentissage continu peut mener à des avancées dans la construction de systèmes plus robustes.

Les études futures pourraient examiner le potentiel d'adapter des approches d'apprentissage continu existantes pour s'attaquer spécifiquement à l'oubli contextuel et améliorer la performance des modèles sur un éventail plus large de tâches.

Conclusion

En résumé, notre recherche a montré que l'utilisation de la Low-Rank Adaptation a un impact significatif sur la façon dont les modèles préentraînés stockent et oublient des connaissances en apprenant de nouvelles tâches. Le rang des adaptateurs LoRA, en particulier, joue un rôle clé dans la façon dont ce processus d'apprentissage se déroule.

Nos observations soulignent l'importance de comprendre l'équilibre entre le maintien des connaissances précédemment acquises et l'apprentissage efficace de nouvelles informations. En explorant davantage les différences entre les diverses architectures de modèles, nous pouvons améliorer l'efficacité des techniques d'apprentissage continu en apprentissage automatique.

Dans l'ensemble, le chemin pour affiner ces méthodes ne fera pas seulement avancer nos modèles mais ouvrira également la voie à des applications innovantes dans différents domaines, rendant l'apprentissage automatique plus accessible et efficace.

Source originale

Titre: An Empirical Analysis of Forgetting in Pre-trained Models with Incremental Low-Rank Updates

Résumé: Broad, open source availability of large pretrained foundation models on the internet through platforms such as HuggingFace has taken the world of practical deep learning by storm. A classical pipeline for neural network training now typically consists of finetuning these pretrained network on a small target dataset instead of training from scratch. In the case of large models this can be done even on modest hardware using a low rank training technique known as Low-Rank Adaptation (LoRA). While Low Rank training has already been studied in the continual learning setting, existing works often consider storing the learned adapter along with the existing model but rarely attempt to modify the weights of the pretrained model by merging the LoRA with the existing weights after finishing the training of each task. In this article we investigate this setting and study the impact of LoRA rank on the forgetting of the pretraining foundation task and on the plasticity and forgetting of subsequent ones. We observe that this rank has an important impact on forgetting of both the pretraining and downstream tasks. We also observe that vision transformers finetuned in that way exhibit a sort of ``contextual'' forgetting, a behaviour that we do not observe for residual networks and that we believe has not been observed yet in previous continual learning works.

Auteurs: Albin Soutif--Cormerais, Simone Magistri, Joost van de Weijer, Andew D. Bagdanov

Dernière mise à jour: 2024-05-28 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2405.18069

Source PDF: https://arxiv.org/pdf/2405.18069

Licence: https://creativecommons.org/licenses/by-sa/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Apprentissage automatiqueAméliorer l'efficacité de l'apprentissage automatique avec des réseaux à sortie anticipée

De nouvelles méthodes améliorent les modèles d'apprentissage automatique en réduisant l'utilisation des ressources tout en boostant la précision.

― 5 min lire

Articles similaires