Simple Science

La science de pointe expliquée simplement

# Informatique# Calcul et langage

Améliorer les modèles de langue en fusionnant des adaptateurs pré-entraînés

Présentation de MerA pour améliorer l'efficacité dans l'entraînement des modèles linguistiques.

― 6 min lire


Fusionner des adaptateursFusionner des adaptateurspour de meilleurs modèlesde NLPpréentraînés.fusionnant des adaptateursMerA améliore les modèles de langue en
Table des matières

Dans le monde du traitement du langage, le fine-tuning est une approche courante pour améliorer la façon dont les machines comprennent et génèrent du texte. Ce processus implique souvent d'utiliser des modèles de langage déjà formés sur de grandes quantités de données textuelles. Parmi les différentes méthodes, l'adapter tuning se distingue comme un moyen d'ajuster ces modèles avec un minimum de changements dans leur structure.

Adapter Tuning

L'adapter tuning se concentre sur la mise à jour d'une petite partie du modèle, connue sous le nom d'adaptateurs. Ces adaptateurs permettent des ajustements rapides sans avoir besoin de réentraîner le modèle entier. Cependant, pour l'apprentissage few-shot, où seule une petite quantité de données d'entraînement est disponible, les résultats peuvent être décevants. Cela montre qu'il y a besoin de techniques plus efficaces qui peuvent exploiter tout le potentiel de ces adaptateurs.

AdapterFusion

Une approche suggérée est AdapterFusion. Cette technique combine plusieurs adaptateurs pour améliorer la performance sur des tâches spécifiques. Elle utilise des couches spéciales pour fusionner les connaissances provenant de différents adaptateurs. Bien que cela semble prometteur, cela a des inconvénients. AdapterFusion tend à nécessiter plus de ressources, ce qui le rend coûteux à mettre en œuvre. Nos études initiales ont montré qu'utiliser un seul adaptateur peut parfois fonctionner mieux que la méthode fusionnée dans des scénarios few-shot.

Notre proposition : MerA

Pour pallier les limites des méthodes actuelles, nous introduisons un nouveau concept appelé Merging Pretrained Adapters (MerA). MerA vise à rassembler plusieurs adaptateurs pré-entraînés dans un seul modèle dans le but de le rendre plus efficace. Cela peut conduire à de meilleures performances sans ajouter de complexité ou de coût computationnel considérable.

Avantages de MerA

En fusionnant des adaptateurs pré-entraînés, MerA parvient à obtenir de bons résultats sans nécessiter d'extra paramètres entraînables. C'est particulièrement utile dans les situations d'apprentissage few-shot, où chaque petite part d'efficacité compte. Nos tests avec divers modèles de langage montrent que MerA améliore considérablement les performances des tâches par rapport aux adaptateurs uniques et à AdapterFusion.

Le paramètre "Same-Track"

En plus de MerA, nous proposons également le paramètre "same-track". Cette technique fusionne des adaptateurs provenant de formations similaires. Ce partage des connaissances provenant de tâches connexes booste encore les performances du modèle. En utilisant ce paramètre, nous avons observé des améliorations qui surpassent l'entraînement complet du modèle et l'adapter tuning standard.

Défis des approches actuelles

Bien que les techniques d'adapter tuning comme AdapterFusion essaient d'exploiter plusieurs adaptateurs, elles se heurtent souvent à des problèmes dans des scénarios où les ressources computationnelles sont limitées. Par exemple, AdapterFusion a besoin de couches supplémentaires pour combiner les adaptateurs, ce qui entraîne plus de paramètres à entraîner. Par conséquent, cela peut ralentir le processus et augmenter les coûts.

Exploration de la performance des adaptateurs

Pour explorer à quel point les adaptateurs uniques fonctionnent par rapport à AdapterFusion, nous avons réalisé une série d'expériences. Les résultats étaient surprenants : les adaptateurs uniques ont souvent mieux performé qu'AdapterFusion tout en utilisant moins de ressources. Cela a ouvert la voie à l'idée de fusionner plusieurs adaptateurs pour capitaliser sur les forces des adaptateurs uniques.

Techniques de fusion

Dans notre travail, nous avons considéré différentes méthodes pour fusionner les poids des adaptateurs formés sur diverses tâches. Deux méthodes simples ont été testées : la sommation et l'average des poids. Cependant, ces méthodes rencontrent des difficultés en raison du manque de correspondance directe entre les paramètres de différents adaptateurs. Ainsi, nous avons cherché à aligner les paramètres d'abord avant de les fusionner.

Évaluation de MerA

Dans nos évaluations, nous avons collecté divers adaptateurs pré-entraînés pour voir comment MerA fonctionne. Les adaptateurs que nous avons utilisés étaient formés sur différentes tâches, y compris l'analyse de sentiment et les questions-réponses. Notre évaluation était approfondie et reposait sur des benchmarks bien connus dans le domaine du traitement du langage.

Résultats et conclusions

Nos expériences ont montré que MerA surpasse systématiquement les méthodes d'adapter tuning standard. Spécifiquement, l'alignement des poids et des activations a conduit à de meilleurs résultats par rapport aux méthodes de fusion plus basiques. De plus, utiliser le paramètre "same-track" nous a permis d'élever encore plus les niveaux de performance dans divers benchmarks.

Stratégies de fine-tuning

Au-delà du simple tuning de base, nous voulions aussi voir comment MerA fonctionne avec différentes stratégies de fine-tuning. Nous avons exploré des méthodes comme le tuning basé sur des prompts, qui utilisent des instructions claires pour guider le modèle. Les résultats indiquent que MerA reste efficace à travers différentes méthodes de fine-tuning.

Expériences Zero-Shot

Pour illustrer davantage les avantages de MerA, nous avons réalisé des expériences zero-shot. Cela impliquait de connecter MerA à un modèle de base et d'évaluer son efficacité par rapport à des modèles avec des adaptateurs initialisés aléatoirement ou sans adaptateurs du tout. Les résultats étaient clairs : MerA fournissait un meilleur point de départ pour diverses tâches, conduisant à des améliorations notables en précision.

Importance des pistes de tâche

Fusionner des adaptateurs formés dans la même piste peut grandement améliorer les performances de MerA. Nous avons étudié différentes pistes de tâches, y compris le raisonnement de bon sens et l'inférence de langage naturel. Nos résultats révèlent que lorsque l'on fusionne des adaptateurs provenant de milieux connexes, MerA fonctionne beaucoup mieux par rapport à l'utilisation d'adaptateurs non liés.

Limites et futures directions

Malgré les résultats prometteurs, nous reconnaissons que notre travail a des limites. Nous nous sommes concentrés sur certaines méthodes de fusion et avons constaté qu'une méthode fonctionnait le mieux. Cependant, il pourrait y avoir d'autres techniques avancées qui pourraient donner encore de meilleurs résultats. De plus, nos tests actuels étaient limités à des architectures spécifiques, ce qui suggère qu'il est nécessaire de faire future travail incluant divers modèles et des tâches plus variées.

Conclusion

Notre recherche présente une nouvelle stratégie prometteuse pour améliorer les modèles de traitement du langage. En fusionnant des adaptateurs pré-entraînés via MerA et en appliquant la méthode same-track, nous avons montré qu'il est possible d'améliorer significativement les performances dans des scénarios d'apprentissage few-shot. L'efficacité gagnée en utilisant MerA est avantageuse pour la communauté NLP qui cherche à développer des capacités de traitement du langage puissantes avec des ressources limitées. En avançant, l'exploration de techniques de fusion avancées et de tâches plus larges sera essentielle pour affiner encore ces approches pour des applications réelles.

Source originale

Titre: MerA: Merging Pretrained Adapters For Few-Shot Learning

Résumé: Adapter tuning, which updates only a few parameters, has become a mainstream method for fine-tuning pretrained language models to downstream tasks. However, it often yields subpar results in few-shot learning. AdapterFusion, which assembles pretrained adapters using composition layers tailored to specific tasks, is a possible solution but significantly increases trainable parameters and deployment costs. Despite this, our preliminary study reveals that even single adapters can outperform Adapterfusion in few-shot learning, urging us to propose \textbf{\texttt{Merging Pretrained Adapters}} (MerA) that efficiently incorporates pretrained adapters to a single model through model fusion. Extensive experiments on two PLMs demonstrate that MerA achieves substantial improvements compared to both single adapters and AdapterFusion. To further enhance the capacity of MerA, we also introduce a simple yet effective technique, referred to as the "\textit{same-track}" setting, that merges adapters from the same track of pretraining tasks. With the implementation of the "\textit{same-track}" setting, we observe even more impressive gains, surpassing the performance of both full fine-tuning and adapter tuning by a substantial margin, e.g., 3.5\% in MRPC and 5.0\% in MNLI.

Auteurs: Shwai He, Run-Ze Fan, Liang Ding, Li Shen, Tianyi Zhou, Dacheng Tao

Dernière mise à jour: 2023-08-30 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2308.15982

Source PDF: https://arxiv.org/pdf/2308.15982

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires