Formation de sous-réseaux évolutifs : une approche rentable pour les LLMs
Apprends comment l'EST améliore l'efficacité de la formation et réduit les coûts pour les grands modèles de langage.
― 8 min lire
Table des matières
Les grands modèles de langage (LLMs) sont un domaine de recherche super important en intelligence artificielle. Ils peuvent traiter et générer du texte qui ressemble à du texte humain, ce qui les rend utiles pour plein d'applications. Mais voilà, entraîner ces modèles coûte cher et demande beaucoup de puissance de calcul, ce qui limite leur utilisation.
Cet article présente une nouvelle méthode pour entraîner les LLMs appelée Evolving Subnetwork Training (EST). Cette méthode a pour but de réduire les coûts d'entraînement en utilisant des petites parties, ou sous-réseaux, du modèle complet pendant l'entraînement. En augmentant progressivement la taille de ces sous-réseaux, EST rend le processus d'entraînement plus efficace tout en maintenant la performance.
Le Défi de l'Entraînement des Grands Modèles de Langage
Les LLMs ont plein de paramètres, qui sont les parties d'un modèle qui apprennent à partir des données. Par exemple, GPT-3 a un chiffre ahurissant de 175 milliards de paramètres. Entraîner un tel modèle demande des ressources énormes, avec des estimations de 355 années GPU et des coûts pouvant atteindre plusieurs millions de dollars.
Cette énorme demande de ressources ralentit la recherche et limite l'utilisation de ces modèles. De plus, l'impact environnemental de l'énergie utilisée pour l'entraînement est une préoccupation croissante. Du coup, il y a un besoin pressant de méthodes d'entraînement plus efficaces dans la recherche IA.
Méthodes d'Entraînement Actuelles
Plein d'approches ont été proposées pour s'attaquer aux inefficacités de l'entraînement des grands modèles de langage. Certaines se concentrent sur les améliorations matérielles, tandis que d'autres visent à améliorer les méthodes logicielles.
Quelques stratégies notables incluent :
Amélioration des Mécanismes d'Attention : Des techniques comme FlashAttention améliorent comment le modèle traite l'information en optimisant l'accès à la mémoire, réduisant ainsi les coûts d'entraînement.
Entraînement Épars : Cela implique des méthodes comme Mixture of Experts (MoE) qui permettent aux modèles d'utiliser seulement une partie de leur capacité selon les tâches spécifiques. Cependant, ces méthodes n'égalisent souvent pas la performance des modèles entièrement denses.
Entraînement Incrémental : Certaines techniques commencent avec des petits modèles et augmentent progressivement. Cette méthode peut améliorer la stabilité de l'entraînement mais n'utilise pas toujours le plein potentiel du modèle.
Présentation de l'Evolving Subnetwork Training (EST)
EST est une nouvelle approche qui combine les avantages de ces méthodes existantes tout en abordant leurs limites. L'idée clé est d'utiliser des sous-réseaux aléatoires pendant l'entraînement, qui sont échantillonnés depuis le modèle plus grand. Ce faisant, le processus d'entraînement devient plus flexible et efficace.
Composants de l'EST
Échantillonnage de Sous-Réseaux : EST échantillonne des réseaux plus petits du modèle global à chaque étape d'entraînement. Cela signifie qu'à chaque fois que le modèle est entraîné, il n'utilise pas toutes ses parties, mais se concentre sur quelques-unes.
Planification Adaptative : La méthode utilise un planificateur adaptatif pour contrôler quand et comment augmenter la taille des sous-réseaux au cours de l'entraînement. Cela permet une montée progressive des ressources, entraînant des économies sur les coûts d'entraînement.
Avantages de l'EST
Réduction des Coûts : En se concentrant sur de plus petites parties du modèle, l'EST peut économiser une quantité significative de ressources d'entraînement. Par exemple, des tests montrent des économies de 26,7 % pour le modèle GPT-2 et 25,0 % pour le modèle TinyLlama sans perdre en performance.
Performance Améliorée : Les modèles entraînés avec l'EST maintiennent non seulement des Performances similaires pendant l'entraînement mais montrent aussi des améliorations dans les tâches qui nécessitent de comprendre ou générer du texte.
Soutien Théorique : La méthode est soutenue par des études qui analysent comment les dynamiques d'entraînement changent lors de l'utilisation de sous-réseaux. Ces études confirment que les ajustements effectués pendant l'entraînement mènent à un apprentissage plus rapide et à une meilleure généralisation des données.
Comment Fonctionne l'EST
Processus Étape par Étape de l'EST
Initialisation : Le modèle complet est gardé intact tandis que de plus petits sous-réseaux sont définis aléatoirement. Cela peut inclure la sélection de moins de têtes d'attention ou la réduction de la taille de certaines couches internes.
Phases d'Entraînement : L'entraînement se déroule en plusieurs étapes. Au début, de petits sous-réseaux sont utilisés. À mesure que l'entraînement avance, le planificateur augmente la taille des sous-réseaux jusqu'à ce que le modèle complet soit entraîné.
Échantillonnage Aléatoire : À chaque étape d'entraînement, on sélectionne aléatoirement quels sous-réseaux utiliser. Cette randomisation aide le modèle à apprendre des aspects variés des données.
Normalisation des Sorties : Pendant l'entraînement, il est crucial de s'assurer que les sorties des sous-réseaux correspondent à celles du modèle complet. Cela se fait par des techniques de normalisation.
Exemple d'Entraînement de Sous-Réseau
Imaginons qu'on utilise un modèle avec plusieurs couches. Pendant l'entraînement, au lieu d'utiliser toutes les couches, EST pourrait n'en activer que certaines. Par exemple, cela pourrait activer juste quelques-unes tout en sélectionnant uniquement certaines têtes d'attention dans ces couches.
À mesure que l'entraînement progresse, il inclut progressivement plus de couches et de têtes jusqu'à ce que le modèle complet soit actif. Cette méthode garantit que le modèle apprend efficacement sans nécessiter toutes les ressources d'un coup.
Résultats : Tests de l'EST sur les Modèles GPT-2 et TinyLlama
Pour valider l'EST, des expériences ont été menées sur deux modèles populaires : GPT-2 et TinyLlama.
Expérience sur le Modèle GPT-2
Configuration : Le modèle GPT-2 avec 117 millions de paramètres a été entraîné à partir de zéro sur un grand dataset. L'entraînement a utilisé des optimizeurs et des tailles de lot spécifiques.
Résultats : Les résultats ont montré que l'EST a permis d'économiser sur les coûts d'entraînement tout en maintenant des niveaux de perte sur les datasets de validation. Il a également amélioré les performances sur des tâches comme GLUE et SQuAD.
Comparaison de Performance : Par rapport aux méthodes traditionnelles, l'EST a significativement réduit le temps nécessaire à l'entraînement sans dégrader la performance du modèle.
Expérience sur le Modèle TinyLlama
Détails : Des expériences similaires ont été menées sur un modèle TinyLlama plus grand avec 1,1 milliard de paramètres.
Résultats : Les économies de coûts d'entraînement étaient comparables à celles de GPT-2, avec des améliorations de performance observées sur divers benchmarks.
Scalabilité : Ces résultats illustrent que l'EST est scalable et peut être appliqué efficacement à des modèles plus grands.
Insights Théoriques sur l'EST
Comprendre les Économies de Coût
L'efficacité de l'EST peut être attribuée à la façon dont elle modifie les dynamiques d'entraînement. En utilisant des sous-réseaux plus petits, le processus d'entraînement voit des réductions de perte plus rapides, entraînant des coûts plus bas.
Dynamiques de Perte : Lors de la transition entre les étapes d'entraînement, utiliser moins de paramètres peut provoquer des chutes soudaines de la perte. C'est bénéfique car cela fournit un meilleur point de départ pour les étapes suivantes.
Optimisation des Paramètres : Les dynamiques d'entraînement sont encore améliorées parce que les sous-réseaux plus petits permettent au modèle d'explorer des régions plus plates du paysage de perte, rendant l'optimisation plus facile.
Généralisation et Performance du Modèle
Un autre avantage de l'EST est son impact positif sur la capacité d'un modèle à généraliser, ou à bien performer sur des données non vues.
Matrice Hessienne : Des études ont montré que les modèles entraînés avec l'EST maintiennent une trace plus basse de la matrice Hessienne-une représentation mathématique liée à la performance du modèle.
Évaluation : Des preuves empiriques suggèrent que les modèles entraînés avec l'EST non seulement atteignent une perte d'entraînement équivalente par rapport aux méthodes traditionnelles mais excellent aussi dans des tâches du monde réel.
Conclusion
L'Evolving Subnetwork Training (EST) présente une méthode prometteuse et efficace pour entraîner de grands modèles de langage. En échantillonnant de plus petites parties du modèle et en augmentant progressivement leur taille, l'EST réduit les coûts d'entraînement tout en améliorant la performance.
Les résultats positifs des deux modèles GPT-2 et TinyLlama indiquent que cette approche peut être largement appliquée à différents types de modèles. À mesure que l'IA continue de se développer, des méthodes comme l'EST joueront un rôle crucial pour rendre les modèles avancés accessibles et durables, au bénéfice des chercheurs et de l'environnement.
À travers des travaux futurs, des améliorations peuvent être apportées à l'EST, notamment en optimisant le planificateur d'échantillonnage et en l'appliquant à des modèles encore plus grands au-delà des Transformers. Les possibilités pour cette méthode sont énormes, ouvrant la voie à des pratiques IA plus efficaces.
Titre: Evolving Subnetwork Training for Large Language Models
Résumé: Large language models have ushered in a new era of artificial intelligence research. However, their substantial training costs hinder further development and widespread adoption. In this paper, inspired by the redundancy in the parameters of large language models, we propose a novel training paradigm: Evolving Subnetwork Training (EST). EST samples subnetworks from the layers of the large language model and from commonly used modules within each layer, Multi-Head Attention (MHA) and Multi-Layer Perceptron (MLP). By gradually increasing the size of the subnetworks during the training process, EST can save the cost of training. We apply EST to train GPT2 model and TinyLlama model, resulting in 26.7\% FLOPs saving for GPT2 and 25.0\% for TinyLlama without an increase in loss on the pre-training dataset. Moreover, EST leads to performance improvements in downstream tasks, indicating that it benefits generalization. Additionally, we provide intuitive theoretical studies based on training dynamics and Dropout theory to ensure the feasibility of EST. Our code is available at https://github.com/OpenDFM/EST.
Auteurs: Hanqi Li, Lu Chen, Da Ma, Zijian Wu, Su Zhu, Kai Yu
Dernière mise à jour: 2024-06-11 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2406.06962
Source PDF: https://arxiv.org/pdf/2406.06962
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.