Simple Science

La science de pointe expliquée simplement

# Informatique# Calcul et langage

Présentation du Transformateur de Fourier pour un NLP efficace

Le transformateur de Fourier améliore le traitement des longues séquences dans les tâches de langue naturelle.

― 8 min lire


Transformateur de FourierTransformateur de Fourier: Efficacité en PNLressources.de longues séquences avec moins deNouveau modèle améliore le traitement
Table des matières

Le modèle transformer est super utilisé dans les tâches de traitement du langage naturel à cause de son efficacité. Par contre, il demande beaucoup de puissance de calcul et peut être très lent quand il s'agit de traiter de longues séquences de texte. C'est surtout parce que son mécanisme d'attention doit analyser chaque partie de l'entrée, ce qui entraîne des coûts de calcul élevés.

Problème avec les Transformers Traditionnels

Quand on applique les modèles transformer à de longues séquences, ils ralentissent considérablement. Beaucoup de chercheurs ont essayé de créer de nouvelles variations du mécanisme d'auto-attention pour résoudre ce problème. Mais souvent, ces nouvelles méthodes ne peuvent pas utiliser les poids de grands modèles pré-entraînés, ce qui limite leur efficacité.

Une Approche Différente

Cette recherche propose de voir le problème sous un nouvel angle. La nouvelle méthode propose un Fourier Transformer, qui simplifie le processus en réduisant les parties inutiles des séquences cachées. En utilisant la Transformée de Fourier rapide (FFT), qui est une méthode mathématique pour traiter des signaux, le Fourier Transformer peut diminuer de façon significative la demande computationnelle tout en profitant des grands modèles pré-entraînés existants.

Résultats Expérimentaux

Les tests montrent que le Fourier Transformer fonctionne super bien pour les tâches nécessitant une modélisation à long terme comparé aux autres modèles transformer. Dans les tâches qui génèrent des séquences, comme résumer des articles ou répondre à des questions, ce modèle a surpassé les autres en utilisant efficacement les Poids pré-entraînés.

Comment Fonctionnent les Transformers

Les transformers sont la base de beaucoup de tâches de traitement du langage naturel. Ils peuvent faire pas mal de choses, comme classer des phrases ou résumer des textes complexes. Le principal défi arrive quand ces modèles traitent de longues entrées, car le mécanisme d'auto-attention doit examiner chaque partie de l'entrée, ce qui entraîne une utilisation excessive du temps et des ressources. Du coup, beaucoup de conceptions alternatives de transformers ont émergé pour réduire cette charge computationnelle.

Solutions Existantes

La plupart des nouvelles conceptions de transformers modifient le mécanisme d'attention pour réduire sa complexité. Certains y arrivent en simplifiant le calcul de l'auto-attention ou en utilisant des approximations de rang inférieur. Mais ces approches nécessitent souvent de nouveaux paramètres et ne permettent pas d'utiliser les poids pré-entraînés, ce qui les rend moins utiles dans la pratique.

D'autres méthodes essaient de se concentrer uniquement sur certaines parties de la matrice d'attention en utilisant des motifs fixes, tandis que certaines permettent d'apprendre ces motifs. Bien qu'efficaces, beaucoup de ces méthodes dépendent d'un codage spécial, ce qui les rend difficiles à déployer sur différents appareils.

Reconnaître la Redondance

Un facteur clé pour améliorer l'efficacité réside dans la reconnaissance de la redondance au sein des matrices d'attention et des états cachés. Des études montrent que la matrice d'attention apprend souvent à se concentrer sur des motifs plus simples. Cette recherche note les motifs observés dans les états cachés à mesure que l'on atteint des couches plus profondes du modèle. Elle montre que la puissance du signal, qui représente combien de poids portent différentes portions de l'entrée, a tendance à se concentrer sur les plages de fréquences basses plus l’on descend dans le modèle.

Introduction du Fourier Transformer

Le Fourier Transformer élimine le besoin d'apprendre des transformations complexes en utilisant des idées sur le spectre de puissance des états cachés. Il réduit systématiquement la redondance dans les séquences en utilisant la Transformée Discrète de Cosinus (DCT), qui est une adaptation de la méthode de Fourier générant des nombres réels simples.

En appliquant la DCT via l'opérateur FFT, le modèle proposé fonctionne facilement sur divers appareils puisque la FFT est très optimisée et largement disponible dans de nombreux environnements de calcul. Cela permet au Fourier Transformer de fonctionner plus vite que beaucoup de modèles transformer efficaces existants tout en demandant moins de mémoire.

Héritage des Poids

Une caractéristique importante du Fourier Transformer est sa capacité à utiliser les poids pré-entraînés de grands modèles de langage sans perdre en performance. Les tests sur des tâches de résumé et de réponse à des questions ont montré que ce modèle performait mieux que ceux standards tout en restant efficace en ressources.

Architecture du Modèle

La structure du Fourier Transformer inclut des composants spéciaux qui fonctionnent entre les couches du réseau transformer, utilisant la DCT pour réduire les longueurs de séquence. Plusieurs couches DCT travaillent ensemble pour minimiser progressivement les longueurs de séquence. Le mécanisme d'auto-attention d'origine reste intact, assurant que le modèle peut toujours utiliser efficacement les poids pré-entraînés.

Tâches Uniquement d'Encodage

Pour les tâches qui nécessitent seulement l'encodage, comme la classification de texte, le modèle génère une sortie de taille fixe à partir des séquences encodées. Il fait cela en utilisant l'average pooling quand il est entraîné depuis zéro ou en utilisant un token spécifique de modèles pré-entraînés.

Tâches Encodeur-Décoder

Dans les tâches qui nécessitent à la fois l'encodage et le décodage, le modèle utilise l'attention encodeur-décoder, qui relie les états de l'encodeur aux étapes de décodage. Pour assurer un fonctionnement fluide, le modèle agrandit les séquences raccourcies à leurs longueurs originales avant de faire des prédictions.

Préentraînement Supplémentaire

Pour gagner des améliorations de performance supplémentaires, le modèle peut subir un préentraînement supplémentaire avec une petite quantité de données avant d'être affiné pour des tâches spécifiques. Cela peut demander beaucoup moins de ressources comparé à un départ de zéro, tout en permettant d'atteindre une haute performance.

Analyse d'Efficacité

Le modèle transformer standard a des coûts élevés en temps et en mémoire quand il traite de longues entrées. En revanche, le Fourier Transformer peut réduire efficacement ces coûts. En compressant les séquences d'entrée, le nouveau modèle diminue de manière significative l'utilisation du temps et de la mémoire à chaque réduction.

Performance sur le Benchmark Long Range Arena

Le modèle a été testé sur un benchmark standardisé de tâches à long terme, qui évalue comment les transformers gèrent des séquences d'entrées longues. Les résultats ont montré que le Fourier Transformer surpassait de nombreux modèles transformer existants, démontrant des améliorations significatives en performance et en efficacité des ressources.

Performance Uniquement d'Encodage

Pour les scénarios uniquement d'encodage, le Fourier Transformer a été testé sur diverses tâches avec de longues séquences. Il a montré sa capacité à obtenir de bons résultats, surpassant plusieurs modèles établis en précision.

Performance Encodeur-Décoder

Dans les tâches qui nécessitent à la fois l'encodage et le décodage, le Fourier Transformer a aussi prouvé son efficacité. Comparé aux modèles traditionnels et aux transformers efficaces concurrents, il a délivré une meilleure performance dans les tâches de résumé et de réponse à des questions.

Conclusion

Ce travail introduit un nouveau modèle, le Fourier Transformer, qui gère efficacement de longues séquences dans le traitement du langage naturel. En appliquant une technique mathématique bien connue pour réduire les temps de traitement et l'utilisation des ressources, ce modèle fonctionne exceptionnellement bien tout en gardant la capacité de tirer parti des poids pré-entraînés des grands modèles de langage existants. Ces avancées présentent une voie prometteuse pour améliorer encore l'efficacité dans les architectures basées sur les transformers sans sacrifier la performance.

Les prochaines étapes incluent l'affinement des capacités du modèle dans les tâches de décodage, l'amélioration de l'efficacité et la résolution des défis liés à l'utilisation des ressources dans des applications pratiques.

Source originale

Titre: Fourier Transformer: Fast Long Range Modeling by Removing Sequence Redundancy with FFT Operator

Résumé: The transformer model is known to be computationally demanding, and prohibitively costly for long sequences, as the self-attention module uses a quadratic time and space complexity with respect to sequence length. Many researchers have focused on designing new forms of self-attention or introducing new parameters to overcome this limitation, however a large portion of them prohibits the model to inherit weights from large pretrained models. In this work, the transformer's inefficiency has been taken care of from another perspective. We propose Fourier Transformer, a simple yet effective approach by progressively removing redundancies in hidden sequence using the ready-made Fast Fourier Transform (FFT) operator to perform Discrete Cosine Transformation (DCT). Fourier Transformer is able to significantly reduce computational costs while retain the ability to inherit from various large pretrained models. Experiments show that our model achieves state-of-the-art performances among all transformer-based models on the long-range modeling benchmark LRA with significant improvement in both speed and space. For generative seq-to-seq tasks including CNN/DailyMail and ELI5, by inheriting the BART weights our model outperforms the standard BART and other efficient models. \footnote{Our code is publicly available at \url{https://github.com/LUMIA-Group/FourierTransformer}}

Auteurs: Ziwei He, Meng Yang, Minwei Feng, Jingcheng Yin, Xinbing Wang, Jingwen Leng, Zhouhan Lin

Dernière mise à jour: 2023-05-24 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2305.15099

Source PDF: https://arxiv.org/pdf/2305.15099

Licence: https://creativecommons.org/licenses/by-sa/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires