Simple Science

La science de pointe expliquée simplement

# Génie électrique et science des systèmes# Traitement de l'audio et de la parole# Son

Avancées dans la technologie de reconnaissance vocale automatique

Une nouvelle méthode améliore les modèles de reconnaissance vocale tout en réduisant la perte de connaissances.

― 5 min lire


Révolution dans laRévolution dans laReconnaissance Vocalereconnaissance vocale.l'oubli des modèles dans laNouvelle méthode pour lutter contre
Table des matières

La reconnaissance automatique de la parole (ASR) est une technologie qui permet aux ordinateurs de comprendre et de traiter la parole humaine. On l'utilise dans plein d'applis, comme les assistants virtuels comme Siri et Alexa, jusqu'aux services de transcription et aux appareils contrôlés par la voix. Les avancées récentes en ASR ont permis aux systèmes de reconnaître la parole en temps réel et dans différentes langues et accents.

Défis de l'apprentissage continu pour l'ASR

Malgré les progrès significatifs des systèmes ASR, ils rencontrent des défis pour s'adapter à de nouveaux types de données vocales. Un gros souci, c'est l'« Oubli Catastrophique ». Ça arrive quand un modèle oublie ce qu'il a appris avec les précédentes données quand on le forme sur de nouvelles. Le fine-tuning, qui est une méthode courante pour améliorer la performance d'un modèle sur de nouvelles données, peut amener à ce problème. Quand on ajuste un modèle pour qu'il soit meilleur sur un dataset, ses performances sur d'autres peuvent chuter.

De plus, maintenir plusieurs modèles pour différents types de parole peut être le bazar et demander beaucoup d'espace de stockage. C'est pas pratique, surtout pour les gros modèles. Certaines méthodes y remédient en fixant certaines parties du modèle tout en laissant d'autres se mettre à jour. Mais ces approches peuvent aussi donner des résultats variés et ne pas résoudre complètement le problème de l'oubli.

Solution proposée : la moyenne des experts de domaine

Pour relever ces défis, une nouvelle approche appelée la Moyenne des Experts de Domaine (AoDE) a été suggérée. Au lieu de former les modèles les uns après les autres, cette méthode permet de les entraîner en parallèle sur différents datasets. Après le fine-tuning sur ces datasets, les résultats sont combinés. L'idée, c'est qu'en moyennant les modèles, on peut créer un modèle unique qui garde des connaissances de tous les domaines sans perte significative.

Cette méthode est soutenue par des expériences montrant des résultats positifs dans la création d'un modèle ASR performant. Certaines techniques utilisées dans cette approche incluent le maintien de taux d'apprentissage flexibles et leur ajustement en fonction de la performance du modèle.

Configuration expérimentale

Dans les expériences, deux modèles de reconnaissance vocale différents ont été choisis, les deux ayant été préalablement formés sur de gros datasets. Le but était de faire un fine-tuning de ces modèles sur trois ensembles de données séparés avec des caractéristiques différentes.

Le premier dataset, appelé SPGISpeech, comprend des enregistrements de qualité des appels de résultats. Ce dataset pose un défi à cause de son vocabulaire unique lié à la finance, qui est rare dans d'autres données vocales. Le deuxième dataset, CORAAL, consiste en des enregistrements de conversations entre des locuteurs de l'anglais vernaculaire afro-américain, mettant en avant les défis de compréhension des schémas et styles de parole variés. Enfin, le dataset DiPCo contient des conversations décontractées dans un cadre de dîner et offre une complexité supplémentaire en raison de la diversité des locuteurs et des contextes.

Processus de Fine-Tuning

C'est là que la magie opère. Avec l'approche AoDE, les modèles sont formés sur chaque dataset en même temps. Après cette formation, on calcule une moyenne des modèles ajustés.

Des techniques comme la Décroissance du Taux d'Apprentissage par Couche (LLRD) ont été appliquées durant ce processus. Cette méthode assigne différents taux d'apprentissage à diverses parties du modèle, s'assurant que les couches les plus importantes reçoivent plus d'attention pendant l'apprentissage. L'objectif, c'est d'améliorer l'efficacité de l'apprentissage et réduire les chances d'oublier des connaissances précédentes.

Résultats des expériences

Les résultats ont montré que les modèles moyennés ont performé nettement mieux que ceux formés avec d'autres techniques traditionnelles. Ça a été particulièrement évident pour réduire l'oubli catastrophique.

Pour le modèle NeMo Conformer, la technique de moyennage a conduit à des métriques de performance semblables à celles du modèle pré-entraîné d'origine. En plus, les différences de performance à travers les datasets variés ont été minimisées, indiquant que l'approche AoDE a réussi à maintenir la capacité du modèle à généraliser à travers différents types de parole.

Le modèle Whisper a montré des tendances similaires, mais avec des défis légèrement plus grands liés à l'oubli. Quand l'ensemble du dataset a été utilisé, il risquait de perdre des connaissances antérieures. À la place, une plus petite portion des données a été sélectionnée pour la formation tout en obtenant des résultats significatifs.

Conclusion

Le passage de la formation séquentielle traditionnelle à la méthode Moyenne des Experts de Domaine marque un pas en avant dans le domaine de l'ASR. Cette stratégie permet une approche plus flexible pour le développement de modèles, tout en maintenant la capacité de s'adapter tout en minimisant la perte de connaissances acquises avec des datasets précédents.

L'avenir des systèmes ASR pourrait inclure des techniques encore plus avancées pour moyenniser les modèles. Ça pourrait impliquer des moyens de mieux gérer les différentes configurations des paramètres du modèle, menant potentiellement à une amélioration de la performance et de l'efficacité. Globalement, l'approche AoDE est une solution pratique pour surmonter l'oubli qui entrave souvent l'efficacité des systèmes de reconnaissance vocale, ouvrant la voie à des applications plus sophistiquées et efficaces à l'avenir.

Source originale

Titre: Continual Learning for End-to-End ASR by Averaging Domain Experts

Résumé: Continual learning for end-to-end automatic speech recognition has to contend with a number of difficulties. Fine-tuning strategies tend to lose performance on data already seen, a process known as catastrophic forgetting. On the other hand, strategies that freeze parameters and append tunable parameters must maintain multiple models. We suggest a strategy that maintains only a single model for inference and avoids catastrophic forgetting. Our experiments show that a simple linear interpolation of several models' parameters, each fine-tuned from the same generalist model, results in a single model that performs well on all tested data. For our experiments we selected two open-source end-to-end speech recognition models pre-trained on large datasets and fine-tuned them on 3 separate datasets: SGPISpeech, CORAAL, and DiPCo. The proposed average of domain experts model performs well on all tested data, and has almost no loss in performance on data from the domain of original training.

Auteurs: Peter Plantinga, Jaekwon Yoo, Chandra Dhir

Dernière mise à jour: 2023-05-12 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2305.09681

Source PDF: https://arxiv.org/pdf/2305.09681

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Articles similaires