Simple Science

La science de pointe expliquée simplement

# Informatique# Apprentissage automatique

Progrès dans l'efficacité de la reconnaissance vocale

De nouvelles méthodes d'entraînement améliorent la performance de l'ASR et réduisent la latence.

― 6 min lire


Percée en efficacité dePercée en efficacité del'ASRde la reconnaissance vocale.améliorent la vitesse et la précisionDes ajustements d'entraînement
Table des matières

La Reconnaissance Automatique de la Parole (RAP) est super importante pour des assistants vocaux comme Alexa et Siri. Elle transforme les mots prononcés en texte, ce qui permet aux utilisateurs d'interagir naturellement avec la technologie. La RAP a fait des progrès énormes, passant de vieilles méthodes à des systèmes avancés qui utilisent l'apprentissage profond. L'une des architectures modernes utilisées en RAP est le Réseau de Neurones Récurrents-Transducteur (RNN-T). Ce modèle est connu pour sa faible latence et sa grande précision, ce qui en fait un choix populaire pour la reconnaissance vocale en temps réel.

Le Défi de la Précision

Les méthodes de formation traditionnelles pour les modèles d'apprentissage machine utilisent des nombres à virgule flottante, qui offrent une haute précision. Cependant, lors de l'utilisation réelle des modèles sur des appareils, surtout ceux avec des puces spécialisées, cette haute précision peut ralentir les choses. Ces puces fonctionnent mieux avec une précision plus faible, notamment des opérations en virgule fixe. Bien que ces opérations puissent faire gagner du temps et de la mémoire, elles peuvent entraîner des inexactitudes dans les modèles.

Dans le contexte de la reconnaissance vocale, quand un système doit traiter la parole en temps réel, tout retard peut nuire à l'expérience utilisateur. Un bon système de RAP devrait commencer à convertir la parole en texte avant que le locuteur ait fini de parler. Comme ça, ça réduit le temps d'attente pour l'utilisateur. Le modèle RNN-T est particulièrement efficace grâce à son design, qui lui permet d'utiliser efficacement les informations passées tout en traitant de nouvelles entrées.

La Transition de la Virgule Flottante à la Virgule Fixe

En utilisant des nombres à virgule flottante, un ordinateur peut traiter un large éventail de valeurs, mais ces calculs peuvent être lents et consommer beaucoup de mémoire. C'est particulièrement vrai pour les modèles d'apprentissage profond qui effectuent de nombreux calculs pour chaque interaction. Pour résoudre ces problèmes, les systèmes de RAP peuvent passer à des nombres en virgule fixe, qui sont plus simples et plus rapides à calculer. Cependant, ce changement peut engendrer des problèmes. Les opérations en virgule fixe sont moins précises, et les erreurs peuvent s'accumuler, surtout dans les modèles qui s'appuient sur des architectures récursives comme le RNN-T.

Pour que ça fonctionne mieux sur les appareils, de nombreuses solutions modernes combinent des unités centrales de traitement (CPU) et des puces spécialisées appelées unités de traitement neuronal (NPU). Cette approche hybride vise à équilibrer vitesse et précision en assignant des tâches à l'unité appropriée. Cependant, cela peut créer des goulets d'étranglement, surtout quand les données doivent circuler entre le CPU et le NPU, ce qui peut ajouter au retard.

Méthodes de Formation Innovantes

Pour améliorer les performances des systèmes de reconnaissance vocale, une nouvelle approche connue sous le nom de formation consciente des accélérateurs (AAT) a été développée. Cette méthode vise à imiter les opérations en virgule fixe utilisées dans le NNA lors du processus de formation lui-même. Ça aide le modèle à mieux s'adapter à la précision plus faible qu'il rencontrera lors de son déploiement sur des appareils.

Dans la première étape de l'AAT, le modèle est entraîné avec une fonction de perte additionnelle qui encourage les entrées à rester dans une certaine plage. C'est important car les fonctions d'activation, comme tanh et sigmoid, peuvent introduire des erreurs significatives lorsque les entrées tombent en dehors de leur plage efficace. En limitant ces valeurs, le processus de formation peut éviter d'accumuler trop d'erreurs, ce qui pourrait freiner la capacité du modèle à apprendre.

Dans la deuxième étape, après que le modèle a été entraîné avec la perte de régularisation, l'entraînement se poursuit pour incorporer des niveaux de Quantification pour les entrées et les activations. Ici, le modèle apprend à simuler les comportements spécifiques en virgule fixe du NPU, ce qui aide à améliorer ses performances sur de vrais appareils.

Configuration Expérimentale et Résultats

Pour valider cette approche, des expériences ont été menées avec deux tailles de modèles différentes. Le premier modèle avait moins de couches et de paramètres, tandis que le deuxième modèle était plus grand et plus complexe. Les deux modèles ont subi une formation standard, suivie du processus AAT.

Les résultats ont montré que les modèles entraînés avec AAT fonctionnaient beaucoup mieux que ceux qui n'utilisaient pas cette méthode. Par exemple, la dégradation de performance typiquement observée lorsque les modèles étaient quantifiés a été réduite à moins de 1 % dans les modèles AAT. Ça veut dire que les modèles pouvaient maintenir une haute précision même avec une précision plus faible.

De plus, les mesures de latence ont montré une amélioration notable. Le temps nécessaire pour que les modèles traitent et reconnaissent la parole a été réduit, rendant l'expérience utilisateur plus fluide. En particulier, les modèles AAT ont obtenu une amélioration d'environ 5 à 7 % en latence, ce qui suggère que les utilisateurs remarqueraient moins de temps d'attente en interagissant avec les systèmes de RAP.

Résumé des Découvertes

La recherche a souligné l'importance d'adapter les modèles d'apprentissage machine spécifiquement pour un déploiement sur du matériel utilisant une précision plus faible. En incorporant des opérations quantifiées dans le processus de formation, des modèles comme le RNN-T peuvent maintenir leur performance tout en étant plus rapides et plus efficaces.

Avec l'AAT, les développeurs peuvent créer des systèmes de reconnaissance vocale qui fonctionnent bien dans des situations en temps réel, garantissant que les utilisateurs aient une expérience fluide. Cette approche ne fait pas seulement que minimiser les inconvénients du passage des opérations en virgule flottante aux opérations en virgule fixe, mais crée aussi des modèles robustes qui sont moins sensibles aux erreurs inévitables qui viennent avec la quantification.

Conclusion

La reconnaissance automatique de la parole est une technologie cruciale qui continue d'évoluer. À mesure que de plus en plus d'appareils s'appuient sur la conversion de la parole en temps réel, le besoin de modèles efficaces et précis grandit. En formant avec une approche consciente des accélérateurs, les développeurs peuvent améliorer significativement les performances des systèmes de reconnaissance vocale tout en minimisant la latence. Cette recherche souligne l'importance de l'innovation dans les méthodes de formation pour assurer la satisfaction des utilisateurs et la fiabilité du système dans un monde numérique en rapide évolution.

Source originale

Titre: Accelerator-Aware Training for Transducer-Based Speech Recognition

Résumé: Machine learning model weights and activations are represented in full-precision during training. This leads to performance degradation in runtime when deployed on neural network accelerator (NNA) chips, which leverage highly parallelized fixed-point arithmetic to improve runtime memory and latency. In this work, we replicate the NNA operators during the training phase, accounting for the degradation due to low-precision inference on the NNA in back-propagation. Our proposed method efficiently emulates NNA operations, thus foregoing the need to transfer quantization error-prone data to the Central Processing Unit (CPU), ultimately reducing the user perceived latency (UPL). We apply our approach to Recurrent Neural Network-Transducer (RNN-T), an attractive architecture for on-device streaming speech recognition tasks. We train and evaluate models on 270K hours of English data and show a 5-7% improvement in engine latency while saving up to 10% relative degradation in WER.

Auteurs: Suhaila M. Shakiah, Rupak Vignesh Swaminathan, Hieu Duy Nguyen, Raviteja Chinta, Tariq Afzal, Nathan Susanj, Athanasios Mouchtaris, Grant P. Strimel, Ariya Rastrow

Dernière mise à jour: 2023-05-12 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2305.07778

Source PDF: https://arxiv.org/pdf/2305.07778

Licence: https://creativecommons.org/publicdomain/zero/1.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires