Simple Science

La science de pointe expliquée simplement

# Génie électrique et science des systèmes# Son# Traitement de l'audio et de la parole

Adapter des machines pour apprendre sans oublier

Une nouvelle méthode améliore l'apprentissage automatique pour les tâches audio tout en gardant les connaissances antérieures.

― 6 min lire


Apprendre sans oublierApprendre sans oublierintact dans les machines.Une nouvelle méthode garde le savoir
Table des matières

Créer des machines qui peuvent apprendre en continu, comme les humains, c'est super important pour plein d'applications. Mais y a un souci : quand les machines apprennent des trucs nouveaux, elles oublient souvent ce qu'elles ont appris avant. On appelle ça l'Oubli Catastrophique. Cet article parle d'une nouvelle méthode pour aider les machines à apprendre de nouvelles tâches de Classification audio tout en se souvenant des précédentes.

Le défi de l'apprentissage

Dans le monde de l'apprentissage machine, surtout l'apprentissage profond, les réseaux de neurones sont les outils qu'on utilise souvent. Ces réseaux sont faits pour apprendre à partir des données. Cependant, quand ils essaient d'apprendre de nouvelles tâches, ils peuvent changer leurs réglages internes, ce qui peut mener à l'oubli des tâches précédentes. Plusieurs méthodes ont été créées pour s'attaquer à ce problème, mais beaucoup ont encore du mal à équilibrer performance et efficacité.

Apprentissage incrémental

Une approche pour résoudre ce souci est d'utiliser une méthode appelée Apprentissage Continu Incrémental par Tâche (TI-CL). Dans cette méthode, les chercheurs peuvent créer des réseaux plus petits, spécifiques à chaque tâche, pour apprendre de nouvelles tâches. Ça veut dire que quand la machine apprend un truc nouveau, seule une partie du réseau est ajustée pendant que le reste reste le même, ce qui aide à préserver les connaissances antérieures. Cependant, cette méthode rencontre des défis en termes d'efficacité, que ce soit pour le nombre de paramètres à ajuster ou la puissance de calcul nécessaire.

Transformers de spectrogrammes audio

Dans ce travail, on se concentre sur les tâches de classification audio. On utilise un type de réseau de neurones appelé Transformers de Spectrogrammes Audio (AST). Ces réseaux ont montré de bonnes performances pour traiter des données audio. Cependant, les utiliser pour l'apprentissage séquentiel pose deux problèmes principaux : trop de paramètres et coût computationnel élevé.

Inefficacité des paramètres

Quand on essaie d'apprendre de nouvelles tâches avec des modèles AST, le nombre de paramètres à ajuster peut devenir écrasant. Ça peut amener le modèle à trop s'adapter, surtout s'il n'y a pas beaucoup de données pour certaines tâches. En gros, trop s'adapter signifie que le modèle apprend trop bien les données d'entraînement mais ne performe pas assez sur des données inconnues.

Inefficacité computationnelle

Un autre souci est la charge computationnelle liée au mécanisme d'attention de soi utilisé dans les transformers. Ce mécanisme peut entraîner une augmentation exponentielle du nombre de calculs nécessaires, surtout quand on traite des fichiers audio plus longs. Ajuster la longueur du spectrogramme audio peut entraîner une perte d'informations importantes, compliquant encore plus les choses.

Une nouvelle approche

Pour s'attaquer à ces problèmes, on propose une méthode appelée Apprentissage Continu Incrémental avec Adaptateurs (AI-CL). Cette méthode combine deux stratégies principales pour améliorer l'efficacité :

Adaptateurs convolutifs

Pour résoudre le problème du trop grand nombre de paramètres, on introduit l'Adaptateur Convolutif. Cet adaptateur permet au modèle de maintenir une bonne performance tout en réduisant le nombre de paramètres à ajuster. L'Adaptateur Convolutif utilise moins de 5 % des paramètres ajustables par rapport à un fine-tuning complet du modèle. Autrement dit, c'est léger et ça permet d'apprendre efficacement sans risquer de trop s'adapter.

Attention factorisée fréquence-temps

Pour résoudre le souci d'inefficacité computationnelle, on présente une nouvelle méthode appelée Attention Factorisée Fréquence-Temps (FTA). Au lieu d'obliger tous les tokens à interagir entre eux, FTA permet aux tokens d'interagir de manière sélective selon leurs caractéristiques de fréquence et de temps. Ça réduit considérablement les besoins en calcul tout en préservant la performance.

Comment fonctionne AI-CL

La stratégie AI-CL consiste à créer des adaptateurs séparés pour chaque nouvelle tâche tout en gardant le réseau principal inchangé. Ça veut dire que quand une tâche est ajoutée, le modèle ajoute un nouvel Adaptateur Convolutif, qui traite les nouvelles données sans perturber les connaissances des tâches précédentes. Pendant les tests, le modèle peut facilement identifier quel adaptateur utiliser selon un ID de tâche associé aux données.

Résultats expérimentaux

Pour valider notre approche, on a fait des expériences sur plusieurs tâches de classification audio. Ça incluait différents jeux de données, comme des sons environnementaux et des commandes vocales. Nos résultats ont montré que la méthode AI-CL non seulement empêche l'oubli catastrophique mais performe aussi de manière comparable aux méthodes traditionnelles tout en nécessitant beaucoup moins de ressources.

Évaluation de l'efficacité des paramètres

Dans nos tests, on a comparé les performances des modèles utilisant notre méthode proposée avec d'autres stratégies. La méthode d'Adaptateur Incrémental a montré une efficacité nettement meilleure. Alors que les méthodes traditionnelles nécessitaient beaucoup plus de paramètres et de stockage, AI-CL a bien performé avec moins de paramètres, ce qui la rend plus avantageuse pour les applications pratiques.

Évaluation de l'efficacité computationnelle

On a aussi mesuré combien de calculs chaque approche nécessitait. La méthode FTA s'est révélée beaucoup plus efficace, surtout en traitant des segments audio plus longs. Les résultats ont montré que FTA pouvait maintenir une précision de classification comparable aux méthodes d'attention de soi traditionnelles tout en utilisant beaucoup moins de puissance de calcul.

Conclusion

En gros, la méthode d'Apprentissage Continu Incrémental avec Adaptateurs représente une avancée significative dans la façon dont les machines peuvent apprendre à partir de données audio. En utilisant des techniques comme les Adaptateurs Convolutifs et l'Attention Factorisée Fréquence-Temps, on peut aider les machines à apprendre de nouvelles tâches sans oublier les précédentes, tout en gardant une faible consommation de ressources. Ce travail pose les bases pour créer des systèmes plus intelligents qui peuvent s'adapter et évoluer avec le temps. Au fur et à mesure que les techniques continuent d'évoluer, on peut s'attendre à ce que les machines gèrent une plus grande variété de tâches de manière plus efficace et performante.

Les travaux futurs s'appuieront sur ces résultats, préparant le terrain pour des systèmes de classification audio encore plus sophistiqués qui peuvent apprendre et s'adapter sans effort à plusieurs tâches. Cette approche non seulement améliore les capacités des classificateurs audio mais contribue aussi au champ plus large de l'apprentissage continu en intelligence artificielle.

Source originale

Titre: Adapter Incremental Continual Learning of Efficient Audio Spectrogram Transformers

Résumé: Continual learning involves training neural networks incrementally for new tasks while retaining the knowledge of previous tasks. However, efficiently fine-tuning the model for sequential tasks with minimal computational resources remains a challenge. In this paper, we propose Task Incremental Continual Learning (TI-CL) of audio classifiers with both parameter-efficient and compute-efficient Audio Spectrogram Transformers (AST). To reduce the trainable parameters without performance degradation for TI-CL, we compare several Parameter Efficient Transfer (PET) methods and propose AST with Convolutional Adapters for TI-CL, which has less than 5% of trainable parameters of the fully fine-tuned counterparts. To reduce the computational complexity, we introduce a novel Frequency-Time factorized Attention (FTA) method that replaces the traditional self-attention in transformers for audio spectrograms. FTA achieves competitive performance with only a factor of the computations required by Global Self-Attention (GSA). Finally, we formulate our method for TI-CL, called Adapter Incremental Continual Learning (AI-CL), as a combination of the "parameter-efficient" Convolutional Adapter and the "compute-efficient" FTA. Experiments on ESC-50, SpeechCommandsV2 (SCv2), and Audio-Visual Event (AVE) benchmarks show that our proposed method prevents catastrophic forgetting in TI-CL while maintaining a lower computational budget.

Auteurs: Nithish Muthuchamy Selvaraj, Xiaobao Guo, Adams Kong, Bingquan Shen, Alex Kot

Dernière mise à jour: 2024-01-02 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2302.14314

Source PDF: https://arxiv.org/pdf/2302.14314

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires