Simple Science

La science de pointe expliquée simplement

# Génie électrique et science des systèmes# Calcul et langage# Vision par ordinateur et reconnaissance des formes# Son# Traitement de l'audio et de la parole

Avancées dans la classification de l'intention de parole et le remplissage de slots

Cet article explore un nouveau modèle pour l'identification de l'intention de discours et des slots.

― 8 min lire


Percée dans les modèlesPercée dans les modèlesd'IA de discoursde la parole.ouf dans les tâches de classificationNouveau modèle obtient des résultats
Table des matières

Dans le domaine de l'intelligence artificielle conversationnelle, comprendre la langue parlée est super important. Ce processus consiste à identifier l'intention de l'utilisateur et à remplir les détails nécessaires, une tâche connue sous le nom de classification d'intention vocale et de remplissage de slot (SICSF). Cet article parle d'une méthode qui utilise efficacement un type de modèle appelé Conformer-Transformer, qui commence avec un encodeur de reconnaissance vocale pré-entraîné pour obtenir une haute précision dans ce domaine.

Vue d'ensemble de la classification d'intention vocale et du remplissage de slot

La classification d'intention vocale cherche à déterminer ce que veut un utilisateur, tandis que le remplissage de slot extrait des informations spécifiques de son discours. Ce processus fait partie de la compréhension de la langue parlée (SLU), qui vise à tirer des données significatives des mots prononcés. La SLU peut couvrir divers tâches, y compris la reconnaissance des émotions dans la voix ou répondre à des questions.

Il existe principalement deux types de modèles pour la SLU :

  1. Modèles en cascade : Ceux-ci convertissent d'abord les mots prononcés en texte à l'aide de la reconnaissance vocale automatisée (ASR), puis appliquent un modèle de compréhension du langage naturel (NLU) pour analyser le texte.

  2. Modèles de bout en bout (E2E) : Ceux-ci prédisent directement l'intention et les détails à partir de l'audio sans d'abord le convertir en texte.

Les modèles E2E peuvent être avantageux car ils éliminent les erreurs potentielles qui pourraient survenir lors du transfert d'informations de l'ASR vers le NLU dans les modèles en cascade. Cependant, ils ont des limites car ils ne peuvent pas utiliser de grands modèles de langage pré-entraînés comme BERT, qui peuvent améliorer la compréhension.

L'importance du pré-entraînement

Dans cette étude, le pré-entraînement fait référence à l'utilisation d'un modèle entraîné sur une autre tâche avant de l'adapter pour le SICSF. On se concentre sur l'utilisation d'un modèle initialisé avec des données de reconnaissance vocale. Cette approche contraste avec l'apprentissage auto-supervisé (SSL), où un modèle apprend à distinguer des éléments dans ses entrées. La similitude de la tâche ASR avec le SICSF rend les modèles pré-entraînés par l'ASR plus efficaces.

Modèle Conformer-Transformer

Le modèle proposé utilise un cadre Conformer-Transformer. Le Conformer agit comme l'encodeur, extrayant des caractéristiques de l'entrée audio, tandis que le Transformer sert de décodeur, convertissant ces caractéristiques en intentions et sorties de slot souhaitées.

Le processus qu'on utilise consiste à traiter la tâche SICSF comme une mission audio-texte. Donc, on commence avec un encodeur pré-entraîné par l'ASR, qui est plus adapté à cette tâche qu'un encodeur pré-entraîné par SSL.

Principales découvertes

Efficacité

Notre modèle Conformer-Transformer dépasse les précédents benchmarks dans le dataset SLURP, atteignant 90,14 % de précision pour la détection d'intention et 82,27 % pour le remplissage de slot. Cet avantage confirme que l'utilisation d'un encodeur pré-entraîné par l'ASR est bénéfique en raison des similitudes de la tâche.

Efficacité

On a aussi examiné l'efficacité avec laquelle notre modèle utilise les paramètres. En gelant l'encodeur et en incorporant des modules Adapter, on montre que l'efficacité du modèle peut être maximisée lorsqu'on part d'un encodeur pré-entraîné par l'ASR. En comparaison, les modèles partant d'un encodeur pré-entraîné par SSL nécessitent un réentraînement complet pour obtenir de bons résultats.

Modèles E2E vs. Modèles en cascade

Quand on compare notre modèle E2E avec les modèles en cascade, on constate que notre modèle fonctionne aussi bien que les modèles en cascade équipés d'un système ASR idéal. En revanche, la plupart des anciens modèles E2E sont en retrait en termes de performance.

L'approche proposée

Notre approche a incorporé le Conformer comme encodeur car il est largement reconnu dans l'industrie. Ce choix vient de sa forte performance dans les tâches ASR. Contrairement aux tâches ASR typiques, la tâche SICSF n'insiste pas sur le maintien d'un ordre strict dans la sortie, ce qui nous permet d'utiliser le Transformer comme décodeur pour une meilleure compréhension du contexte.

On structure les sémantiques de sortie dans un format qui peut être facilement traité et évalué comme un dictionnaire Python avant de le reconvertir au format nécessaire pendant l'inférence.

Jeu de données et réglages

Pour évaluer les performances de notre modèle, on a utilisé le dataset SLURP, qui se compose d'enregistrements audio à travers les phases d'entraînement, de développement et de test. On s'est concentré sur la précision d'intention et les métriques SLURP pour l'évaluation.

Comparaison de performance

Dans nos évaluations, on a comparé notre modèle E2E à plusieurs modèles standards, à la fois E2E et en cascade. Les résultats ont indiqué que, bien que les modèles en cascade avec des systèmes ASR idéaux aient bien performé, notre modèle E2E a obtenu des performances comparables sans avoir besoin d'ajustements de paramètres étendus ou de réentraînement.

Notre modèle se distingue également par son utilisation efficace des paramètres, montrant une haute performance avec moins de paramètres comparé à d'autres modèles.

Détails de l'implémentation

Notre implémentation a utilisé des frameworks populaires comme PyTorch et NeMo. On a défini la taille du vocabulaire et les dimensions des tokens de manière appropriée pour la tâche. En utilisant Adam comme optimiseur, on a appliqué une stratégie de taux d'apprentissage adaptée pour les composants encodeur et décodeur.

Les résultats de diverses comparaisons ont mis en évidence l'efficacité d'utiliser un modèle ASR bien préparé par rapport à des modèles SSL moins préparés.

Études supplémentaires sur l'efficacité des paramètres

Des adaptateurs ont été introduits pour maximiser l'efficacité des paramètres. En ajoutant un petit nombre de paramètres tout en gelant le modèle principal, on espérait atteindre des niveaux de performance qui rivalisent avec un entraînement complet du modèle.

Pour les encodeurs pré-entraînés par SSL, simplement geler le modèle a considérablement réduit les performances, soulignant la nécessité d'ajouter des paramètres supplémentaires. En revanche, l'encodeur pré-entraîné par l'ASR a beaucoup mieux performé même lorsqu'il était gelé, indiquant qu'il était déjà bien équipé pour la tâche.

Les résultats suggèrent qu'un encodeur pré-entraîné par l'ASR bien préparé peut offrir un avantage de performance tout en minimisant le nombre de paramètres requis.

Analyse des techniques de pré-entraînement

Notre exploration des techniques de pré-entraînement a confirmé qu'il est meilleur de partir d'un solide encodeur pré-entraîné par l'ASR plutôt que d'un SSL ou de partir de zéro. L'avantage est resté significatif même avec différentes tailles de dataset, montrant l'efficacité du pré-entraînement par l'ASR appliqué à cette tâche.

Taille du vocabulaire

On a également examiné comment la taille du vocabulaire a affecté les performances de nos modèles. On a découvert qu'une taille de vocabulaire plus petite était préférable pour obtenir de meilleurs scores F1 dans notre modèle, contrastant avec les performances des modèles en cascade, qui tendent à s'améliorer avec des tailles de vocabulaire plus grandes.

Conclusion

En résumé, notre modèle Conformer-Transformer démontre l'efficacité d'utiliser un encodeur pré-entraîné par l'ASR pour la classification d'intention vocale et le remplissage de slot. Il atteint des résultats de pointe sur le dataset SLURP et montre que les modèles E2E peuvent rivaliser avec les modèles en cascade lorsqu'ils utilisent des systèmes ASR robustes. De plus, notre travail souligne l'efficacité du pré-entraînement par l'ASR par rapport au SSL et la valeur des méthodes d'efficacité des paramètres comme les Adaptateurs.

Cette étude fournit une solide base pour des recherches futures dans le domaine de la compréhension de la langue parlée, mettant en avant le potentiel d'améliorer l'IA conversationnelle grâce à un design de modèle réfléchi et des approches de pré-entraînement.

Source originale

Titre: Leveraging Pretrained ASR Encoders for Effective and Efficient End-to-End Speech Intent Classification and Slot Filling

Résumé: We study speech intent classification and slot filling (SICSF) by proposing to use an encoder pretrained on speech recognition (ASR) to initialize an end-to-end (E2E) Conformer-Transformer model, which achieves the new state-of-the-art results on the SLURP dataset, with 90.14% intent accuracy and 82.27% SLURP-F1. We compare our model with encoders pretrained on self-supervised learning (SSL), and show that ASR pretraining is much more effective than SSL for SICSF. To explore parameter efficiency, we freeze the encoder and add Adapter modules, and show that parameter efficiency is only achievable with an ASR-pretrained encoder, while the SSL encoder needs full finetuning to achieve comparable results. In addition, we provide an in-depth comparison on end-to-end models versus cascading models (ASR+NLU), and show that E2E models are better than cascaded models unless an oracle ASR model is provided. Last but not least, our model is the first E2E model that achieves the same performance as cascading models with oracle ASR. Code, checkpoints and configs are available.

Auteurs: He Huang, Jagadeesh Balam, Boris Ginsburg

Dernière mise à jour: 2023-07-13 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2307.07057

Source PDF: https://arxiv.org/pdf/2307.07057

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires