Avancées dans la classification de l'intention de parole et le remplissage de slots
Cet article explore un nouveau modèle pour l'identification de l'intention de discours et des slots.
― 8 min lire
Table des matières
- Vue d'ensemble de la classification d'intention vocale et du remplissage de slot
- L'importance du pré-entraînement
- Modèle Conformer-Transformer
- Principales découvertes
- L'approche proposée
- Jeu de données et réglages
- Comparaison de performance
- Détails de l'implémentation
- Études supplémentaires sur l'efficacité des paramètres
- Analyse des techniques de pré-entraînement
- Taille du vocabulaire
- Conclusion
- Source originale
- Liens de référence
Dans le domaine de l'intelligence artificielle conversationnelle, comprendre la langue parlée est super important. Ce processus consiste à identifier l'intention de l'utilisateur et à remplir les détails nécessaires, une tâche connue sous le nom de classification d'intention vocale et de remplissage de slot (SICSF). Cet article parle d'une méthode qui utilise efficacement un type de modèle appelé Conformer-Transformer, qui commence avec un encodeur de reconnaissance vocale pré-entraîné pour obtenir une haute précision dans ce domaine.
Vue d'ensemble de la classification d'intention vocale et du remplissage de slot
La classification d'intention vocale cherche à déterminer ce que veut un utilisateur, tandis que le remplissage de slot extrait des informations spécifiques de son discours. Ce processus fait partie de la compréhension de la langue parlée (SLU), qui vise à tirer des données significatives des mots prononcés. La SLU peut couvrir divers tâches, y compris la reconnaissance des émotions dans la voix ou répondre à des questions.
Il existe principalement deux types de modèles pour la SLU :
Modèles en cascade : Ceux-ci convertissent d'abord les mots prononcés en texte à l'aide de la reconnaissance vocale automatisée (ASR), puis appliquent un modèle de compréhension du langage naturel (NLU) pour analyser le texte.
Modèles de bout en bout (E2E) : Ceux-ci prédisent directement l'intention et les détails à partir de l'audio sans d'abord le convertir en texte.
Les modèles E2E peuvent être avantageux car ils éliminent les erreurs potentielles qui pourraient survenir lors du transfert d'informations de l'ASR vers le NLU dans les modèles en cascade. Cependant, ils ont des limites car ils ne peuvent pas utiliser de grands modèles de langage pré-entraînés comme BERT, qui peuvent améliorer la compréhension.
L'importance du pré-entraînement
Dans cette étude, le pré-entraînement fait référence à l'utilisation d'un modèle entraîné sur une autre tâche avant de l'adapter pour le SICSF. On se concentre sur l'utilisation d'un modèle initialisé avec des données de reconnaissance vocale. Cette approche contraste avec l'apprentissage auto-supervisé (SSL), où un modèle apprend à distinguer des éléments dans ses entrées. La similitude de la tâche ASR avec le SICSF rend les modèles pré-entraînés par l'ASR plus efficaces.
Modèle Conformer-Transformer
Le modèle proposé utilise un cadre Conformer-Transformer. Le Conformer agit comme l'encodeur, extrayant des caractéristiques de l'entrée audio, tandis que le Transformer sert de décodeur, convertissant ces caractéristiques en intentions et sorties de slot souhaitées.
Le processus qu'on utilise consiste à traiter la tâche SICSF comme une mission audio-texte. Donc, on commence avec un encodeur pré-entraîné par l'ASR, qui est plus adapté à cette tâche qu'un encodeur pré-entraîné par SSL.
Principales découvertes
Efficacité
Notre modèle Conformer-Transformer dépasse les précédents benchmarks dans le dataset SLURP, atteignant 90,14 % de précision pour la détection d'intention et 82,27 % pour le remplissage de slot. Cet avantage confirme que l'utilisation d'un encodeur pré-entraîné par l'ASR est bénéfique en raison des similitudes de la tâche.
Efficacité
On a aussi examiné l'efficacité avec laquelle notre modèle utilise les paramètres. En gelant l'encodeur et en incorporant des modules Adapter, on montre que l'efficacité du modèle peut être maximisée lorsqu'on part d'un encodeur pré-entraîné par l'ASR. En comparaison, les modèles partant d'un encodeur pré-entraîné par SSL nécessitent un réentraînement complet pour obtenir de bons résultats.
Modèles E2E vs. Modèles en cascade
Quand on compare notre modèle E2E avec les modèles en cascade, on constate que notre modèle fonctionne aussi bien que les modèles en cascade équipés d'un système ASR idéal. En revanche, la plupart des anciens modèles E2E sont en retrait en termes de performance.
L'approche proposée
Notre approche a incorporé le Conformer comme encodeur car il est largement reconnu dans l'industrie. Ce choix vient de sa forte performance dans les tâches ASR. Contrairement aux tâches ASR typiques, la tâche SICSF n'insiste pas sur le maintien d'un ordre strict dans la sortie, ce qui nous permet d'utiliser le Transformer comme décodeur pour une meilleure compréhension du contexte.
On structure les sémantiques de sortie dans un format qui peut être facilement traité et évalué comme un dictionnaire Python avant de le reconvertir au format nécessaire pendant l'inférence.
Jeu de données et réglages
Pour évaluer les performances de notre modèle, on a utilisé le dataset SLURP, qui se compose d'enregistrements audio à travers les phases d'entraînement, de développement et de test. On s'est concentré sur la précision d'intention et les métriques SLURP pour l'évaluation.
Comparaison de performance
Dans nos évaluations, on a comparé notre modèle E2E à plusieurs modèles standards, à la fois E2E et en cascade. Les résultats ont indiqué que, bien que les modèles en cascade avec des systèmes ASR idéaux aient bien performé, notre modèle E2E a obtenu des performances comparables sans avoir besoin d'ajustements de paramètres étendus ou de réentraînement.
Notre modèle se distingue également par son utilisation efficace des paramètres, montrant une haute performance avec moins de paramètres comparé à d'autres modèles.
Détails de l'implémentation
Notre implémentation a utilisé des frameworks populaires comme PyTorch et NeMo. On a défini la taille du vocabulaire et les dimensions des tokens de manière appropriée pour la tâche. En utilisant Adam comme optimiseur, on a appliqué une stratégie de taux d'apprentissage adaptée pour les composants encodeur et décodeur.
Les résultats de diverses comparaisons ont mis en évidence l'efficacité d'utiliser un modèle ASR bien préparé par rapport à des modèles SSL moins préparés.
Études supplémentaires sur l'efficacité des paramètres
Des adaptateurs ont été introduits pour maximiser l'efficacité des paramètres. En ajoutant un petit nombre de paramètres tout en gelant le modèle principal, on espérait atteindre des niveaux de performance qui rivalisent avec un entraînement complet du modèle.
Pour les encodeurs pré-entraînés par SSL, simplement geler le modèle a considérablement réduit les performances, soulignant la nécessité d'ajouter des paramètres supplémentaires. En revanche, l'encodeur pré-entraîné par l'ASR a beaucoup mieux performé même lorsqu'il était gelé, indiquant qu'il était déjà bien équipé pour la tâche.
Les résultats suggèrent qu'un encodeur pré-entraîné par l'ASR bien préparé peut offrir un avantage de performance tout en minimisant le nombre de paramètres requis.
Analyse des techniques de pré-entraînement
Notre exploration des techniques de pré-entraînement a confirmé qu'il est meilleur de partir d'un solide encodeur pré-entraîné par l'ASR plutôt que d'un SSL ou de partir de zéro. L'avantage est resté significatif même avec différentes tailles de dataset, montrant l'efficacité du pré-entraînement par l'ASR appliqué à cette tâche.
Taille du vocabulaire
On a également examiné comment la taille du vocabulaire a affecté les performances de nos modèles. On a découvert qu'une taille de vocabulaire plus petite était préférable pour obtenir de meilleurs scores F1 dans notre modèle, contrastant avec les performances des modèles en cascade, qui tendent à s'améliorer avec des tailles de vocabulaire plus grandes.
Conclusion
En résumé, notre modèle Conformer-Transformer démontre l'efficacité d'utiliser un encodeur pré-entraîné par l'ASR pour la classification d'intention vocale et le remplissage de slot. Il atteint des résultats de pointe sur le dataset SLURP et montre que les modèles E2E peuvent rivaliser avec les modèles en cascade lorsqu'ils utilisent des systèmes ASR robustes. De plus, notre travail souligne l'efficacité du pré-entraînement par l'ASR par rapport au SSL et la valeur des méthodes d'efficacité des paramètres comme les Adaptateurs.
Cette étude fournit une solide base pour des recherches futures dans le domaine de la compréhension de la langue parlée, mettant en avant le potentiel d'améliorer l'IA conversationnelle grâce à un design de modèle réfléchi et des approches de pré-entraînement.
Titre: Leveraging Pretrained ASR Encoders for Effective and Efficient End-to-End Speech Intent Classification and Slot Filling
Résumé: We study speech intent classification and slot filling (SICSF) by proposing to use an encoder pretrained on speech recognition (ASR) to initialize an end-to-end (E2E) Conformer-Transformer model, which achieves the new state-of-the-art results on the SLURP dataset, with 90.14% intent accuracy and 82.27% SLURP-F1. We compare our model with encoders pretrained on self-supervised learning (SSL), and show that ASR pretraining is much more effective than SSL for SICSF. To explore parameter efficiency, we freeze the encoder and add Adapter modules, and show that parameter efficiency is only achievable with an ASR-pretrained encoder, while the SSL encoder needs full finetuning to achieve comparable results. In addition, we provide an in-depth comparison on end-to-end models versus cascading models (ASR+NLU), and show that E2E models are better than cascaded models unless an oracle ASR model is provided. Last but not least, our model is the first E2E model that achieves the same performance as cascading models with oracle ASR. Code, checkpoints and configs are available.
Auteurs: He Huang, Jagadeesh Balam, Boris Ginsburg
Dernière mise à jour: 2023-07-13 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2307.07057
Source PDF: https://arxiv.org/pdf/2307.07057
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://github.com/NVIDIA/NeMo/tree/main/examples/slu/speech_intent_slot
- https://github.com/NVIDIA/NeMo
- https://catalog.ngc.nvidia.com/orgs/nvidia/teams/nemo/models/ssl_en_conformer_large
- https://catalog.ngc.nvidia.com/orgs/nvidia/teams/nemo/models/stt_en_conformer_ctc_large
- https://cloud.google.com/speech-to-text/docs/latest-models
- https://docs.nvidia.com/deeplearning/riva/user-guide/docs/reference/models/asr.html
- https://openai.com/blog/chatgpt