Traiter les valeurs aberrantes dans les modèles Transformer pour une meilleure quantification
De nouvelles méthodes visent à réduire les valeurs aberrantes dans les modèles de transformateurs, améliorant l'efficacité de la quantification.
― 8 min lire
Table des matières
Ces dernières années, les modèles de transformateurs ont vraiment cartonné dans différents domaines de l'intelligence artificielle, notamment dans le traitement du langage. Les grands modèles linguistiques, en particulier, ont fait des progrès significatifs. Cependant, plus ces modèles deviennent gros, plus ils ont besoin de puissance de calcul et de mémoire, ce qui peut poser problème. Une méthode appelée Quantification a émergé comme une solution efficace pour régler ce souci en réduisant la quantité de mémoire et de calcul nécessaires.
La quantification aide à rendre les modèles plus petits et plus rapides en utilisant des chiffres moins précis. Cependant, les modèles de transformateurs modernes ont souvent du mal avec ce qu’on appelle des Valeurs aberrantes dans leurs activations, ce qui complique leur quantification. Ces valeurs aberrantes sont des valeurs élevées qui peuvent fausser les performances des modèles. Quand elles sont présentes, les modèles doivent parfois utiliser plus de mémoire ou un ajustement supplémentaire pour fonctionner correctement.
Cet article explore comment certaines caractéristiques du mécanisme d'Attention des transformateurs contribuent à ces valeurs aberrantes. Nous suggérons deux nouvelles méthodes, appelées softmax tronqué et attention contrôlée, pour aborder ce problème. Ces méthodes visent à garder les valeurs aberrantes plus petites tout en maintenant les performances des modèles.
Contexte sur les modèles de transformateurs
Les modèles de transformateurs ont été très efficaces pour des tâches comme la traduction, la reconnaissance d'images, et plus encore. Ils fonctionnent en utilisant des mécanismes d'attention qui permettent au modèle de se concentrer sur différentes parties des données d'entrée. C'est particulièrement utile dans le traitement du langage, où l'importance des mots peut dépendre du contexte dans lequel ils apparaissent.
Malgré leur succès, les transformateurs rencontrent des défis concernant la quantification. De nombreuses études ont montré que ces modèles peuvent développer des valeurs aberrantes dans leurs activations, notamment dans certaines couches. Cela peut entraîner des erreurs lors de la conversion des modèles à une précision inférieure pendant la quantification.
Le problème des valeurs aberrantes
Les valeurs aberrantes dans le contexte des réseaux neuronaux désignent des valeurs d'activation qui sont largement supérieures à la plupart des autres. Elles peuvent se produire dans certaines couches, ce qui entraîne des problèmes lors de la quantification du modèle. S'il y a trop de valeurs aberrantes, cela peut aboutir à une représentation inexacte des données, affectant les performances globales du modèle.
Les chercheurs ont proposé diverses approches pour gérer ces valeurs aberrantes. Certains recommandent d'ajuster le modèle encore plus après l'entraînement initial, tandis que d'autres suggèrent d'utiliser différents formats numériques ou d'ajuster l'architecture du modèle. Cependant, ces solutions viennent souvent avec leurs propres inconvénients, comme une complexité accrue ou le besoin de matériel spécialisé.
Notre objectif est de s'attaquer à la cause profonde de la création de valeurs aberrantes plutôt que d’adapter les méthodes de quantification pour les contourner.
Analyse des valeurs aberrantes dans les transformateurs
Après une analyse approfondie, nous avons découvert que les valeurs aberrantes apparaissent souvent dans les transformateurs parce que les têtes d'attention essaient parfois de ne pas mettre à jour l'état caché des données. Cela peut entraîner une situation où le modèle crée de fortes valeurs aberrantes à cause de la façon dont la fonction softmax fonctionne. Nous avons observé ce comportement dans les transformateurs de langage et de vision.
Par exemple, dans des modèles linguistiques comme BERT, on remarque que les valeurs aberrantes apparaissent fréquemment à la sortie de certaines couches. Ces valeurs aberrantes tendent à se concentrer dans certaines dimensions, notamment celles liées à des tokens de délimitation comme les virgules et les points. Cela suggère que le modèle n'actualise pas ses représentations efficacement lorsqu'il gère ces tokens, entraînant un comportement de valeurs aberrantes.
De même, dans les transformateurs de vision, on observe des schémas similaires où les valeurs aberrantes sont associées à des patchs d'images peu informatifs, comme les zones de fond. Dans les deux cas, l'attention du modèle semble mal allouée, entraînant de fortes valeurs aberrantes qui impactent les performances.
Solutions proposées
Pour résoudre le problème des valeurs aberrantes, nous proposons deux modifications simples au mécanisme d'attention des transformateurs : le softmax tronqué et l'attention contrôlée.
Softmax tronqué
La première solution, le softmax tronqué, vise à ajuster la sortie de la fonction softmax pour permettre des zéros exacts sans produire de valeurs aberrantes. En modifiant la façon dont le softmax traite les entrées, nous pouvons nous assurer que lorsque les valeurs sont faibles, elles sont tronquées à zéro. Cela empêche la formation de fortes valeurs aberrantes pendant l'entraînement.
En mettant en œuvre le softmax tronqué, le modèle peut maintenir ses performances tout en devenant plus adapté à la quantification. Les ajustements que nous introduisons sont relativement simples et peuvent être intégrés aux architectures de transformateurs existantes sans grandes modifications.
Attention contrôlée
La deuxième solution, l'attention contrôlée, introduit un mécanisme explicite pour contrôler les mises à jour des représentations de tokens. Plutôt que de se fier uniquement aux probabilités d'attention, cette méthode permet au modèle de décider s’il doit conserver ou annuler les mises à jour pour des tokens spécifiques.
Cette approche aide à garder la sortie d'attention petite, ce qui réduit à son tour l'occurrence des valeurs aberrantes. La fonction de contrôle est légère et peut être facilement intégrée à l'architecture du transformateur sans nécessiter de changements drastiques ou de charges de calcul supplémentaires.
Expériences et résultats
Pour évaluer les méthodes proposées, nous avons mené des expériences sur plusieurs architectures de transformateurs, y compris BERT et le Vision Transformer (ViT).
Expériences BERT
Dans nos tests avec BERT, nous avons constaté que l'application de la méthode softmax tronqué a réduit avec succès l'ampleur des valeurs aberrantes. Les résultats ont montré que le modèle pouvait maintenir ou améliorer ses performances avec moins de dépendance aux bits élevés pour la quantification.
Nous avons également remarqué que la méthode d'attention contrôlée a conduit à une diminution significative du nombre de valeurs aberrantes, indiquant que des valeurs moins extrêmes étaient utilisées dans les calculs du modèle.
Expériences Vision Transformer
De même, dans les expériences avec le Vision Transformer, nos méthodes ont montré une nette amélioration. L'attention contrôlée a aidé à atténuer les valeurs aberrantes tout en préservant l’efficacité du modèle.
À la fois le softmax tronqué et l'attention contrôlée se sont révélés améliorer considérablement les résultats de quantification, rendant plus facile la conversion des modèles à une précision inférieure tout en maintenant de bonnes performances.
Discussion
Les résultats de nos expériences confirment qu’en s’attaquant aux causes profondes des valeurs aberrantes, nous pouvons considérablement améliorer le processus de quantification. Nos méthodes permettent aux modèles de transformateurs d'être entraînés sans développer de valeurs aberrantes significatives, les rendant plus faciles à quantifier et à déployer sans sacrifier les performances.
Nous espérons que nos approches auront un impact positif sur le domaine de l'IA en permettant des modèles plus efficaces qui consomment moins d'énergie et pouvant être déployés sur une gamme plus large de dispositifs.
Limitations et travaux futurs
Bien que nos méthodes aient montré des résultats prometteurs, nous reconnaissons certaines limitations. Par exemple, nous nous sommes principalement concentrés sur les modèles BERT et ViT, et une validation supplémentaire sur d'autres architectures et modèles plus grands serait bénéfique.
De plus, bien que nos méthodes réduisent la complexité associée aux valeurs aberrantes, elles nécessitent encore un ajustement de certains paramètres. Les travaux futurs pourraient explorer comment rendre ces méthodes encore plus robustes dans différents contextes sans avoir à ajuster beaucoup d'hyperparamètres.
Conclusion
En résumé, notre recherche souligne l'importance de s’attaquer aux valeurs aberrantes dans les modèles de transformateurs pour améliorer leur quantification. En mettant en œuvre le softmax tronqué et l'attention contrôlée, nous pouvons atténuer les problèmes causés par les valeurs aberrantes tout en maintenant les performances de ces modèles.
À mesure que les transformateurs continuent d’évoluer, les stratégies que nous proposons pourraient s'avérer essentielles pour garantir qu'ils restent efficaces, accessibles et performants pour une variété d'applications en intelligence artificielle.
Titre: Quantizable Transformers: Removing Outliers by Helping Attention Heads Do Nothing
Résumé: Transformer models have been widely adopted in various domains over the last years, and especially large language models have advanced the field of AI significantly. Due to their size, the capability of these networks has increased tremendously, but this has come at the cost of a significant increase in necessary compute. Quantization is one of the most effective ways to reduce the computational time and memory consumption of neural networks. Many studies have shown, however, that modern transformer models tend to learn strong outliers in their activations, making them difficult to quantize. To retain acceptable performance, the existence of these outliers requires activations to be in higher bitwidth or the use of different numeric formats, extra fine-tuning, or other workarounds. We show that strong outliers are related to very specific behavior of attention heads that try to learn a "no-op" or just a partial update of the residual. To achieve the exact zeros needed in the attention matrix for a no-update, the input to the softmax is pushed to be larger and larger during training, causing outliers in other parts of the network. Based on these observations, we propose two simple (independent) modifications to the attention mechanism - clipped softmax and gated attention. We empirically show that models pre-trained using our methods learn significantly smaller outliers while maintaining and sometimes even improving the floating-point task performance. This enables us to quantize transformers to full INT8 quantization of the activations without any additional effort. We demonstrate the effectiveness of our methods on both language models (BERT, OPT) and vision transformers.
Auteurs: Yelysei Bondarenko, Markus Nagel, Tijmen Blankevoort
Dernière mise à jour: 2023-11-09 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2306.12929
Source PDF: https://arxiv.org/pdf/2306.12929
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.