Améliorer la précision du marquage des intervenants dans les conversations
Un nouveau système corrige les erreurs d'identification des intervenants pour des transcriptions de conversation plus claires.
Grigor Kirakosyan, Davit Karamyan
― 9 min lire
Table des matières
- Importance de l'identification des locuteurs
- Défis du speaker tagging
- Travaux connexes
- Types d'erreurs dans le speaker tagging
- Le système de correction des erreurs de locuteur
- Entraînement du modèle de correction
- Correction des erreurs pendant l'inférence
- Évaluation des performances et résultats
- Modèle de prédiction d'orthographe alternative
- Conclusion
- Source originale
- Liens de référence
Les applis de reconnaissance vocale qui gèrent des conversations doivent faire deux trucs : reconnaître les mots prononcés et savoir qui les a dits. Ce truc s’appelle le "speaker tagging", où on attribue des mots à des intervenants précis. En général, on mélange les résultats de deux systèmes : un pour reconnaître la voix et un autre pour identifier les locuteurs. Mais dans la vraie vie, le système d'Identification des locuteurs peut galérer à cause de plusieurs défis. Ça peut être lié à la façon dont l'audio est segmenté, à un mauvais timing des mots, des Erreurs dans la fusion des intervenants, et du bruit de fond.
Pour résoudre ces soucis, il est super important de trouver et corriger les erreurs automatiquement quand c'est possible. On a développé un système qui corrige les erreurs d'identification des locuteurs à la fin des phrases. Ce système utilise un type de modèle de langage qui ne se base pas sur les mots précédents pour faire ses prédictions. Notre méthode a montré qu'elle réduit les erreurs dans le tagging des bons locuteurs sur deux ensembles de données différents.
Importance de l'identification des locuteurs
Les systèmes de reconnaissance vocale ont connu de grandes avancées ces dernières années. Pourtant, comprendre les conversations naturelles avec plusieurs intervenants, comme lors d'interviews ou de réunions, reste un défi. Reconnaître à la fois les mots prononcés et les intervenants est une première étape cruciale dans ce processus. Le système d'identification des locuteurs est essentiel pour déterminer "qui a dit quoi" dans les enregistrements avec plusieurs intervenants. Ce système travaille de pair avec la reconnaissance vocale pour lier chaque mot reconnu à un intervenant spécifique. Cette méthode est utile dans plein de domaines, comme créer des Transcriptions de réunions, des notes médicales, des sous-titres automatiques, et analyser les données des locuteurs.
Le processus passe généralement par trois étapes :
- Transcrire le discours avec un système de reconnaissance.
- Identifier les locuteurs avec un système d'identification des locuteurs.
- Fusionner les résultats des deux systèmes.
Une façon courante de fusionner ces résultats fonctionne comme ça :
- Si un mot chevauche un segment d'un locuteur, il est lié à celui dont le segment chevauche le plus.
- S'il n'y a pas de chevauchement, il est lié au locuteur dont le segment est le plus proche.
Défis du speaker tagging
Malgré d'énormes avancées, les systèmes d'identification des locuteurs font encore face à divers défis qui peuvent mener à des erreurs, ce qui peut affecter la qualité des transcriptions. Certaines de ces erreurs peuvent être corrigées grâce à des techniques de Correction. Dans nos travaux, on a d'abord étudié les erreurs courantes qui se produisent lors de la fusion et on les a classées. Ensuite, on a créé un module de correction pour réparer ces erreurs, surtout pour les mots à la fin des phrases prononcées par différentes personnes.
Les types courants d'erreurs incluent :
- Des étiquettes de locuteurs incorrectes dans un segment.
- Mauvaises étiquettes pour le premier et le dernier mot d'un segment.
- Des segments entiers attribués au mauvais locuteur.
La plupart des erreurs viennent de la façon dont les segments audio sont découpés et de la précision du timing des mots. Un timing inexact peut mener à des erreurs où les premiers ou derniers mots d'un segment sont étiquetés incorrectement. D'autres erreurs se produisent généralement lorsque le nombre de locuteurs est mal estimé ou quand il y a confusion dans le regroupement. Le bruit de fond et la musique peuvent aussi contribuer à ces erreurs.
Travaux connexes
Des études précédentes ont proposé différentes méthodes pour corriger les erreurs d'identification des locuteurs. Une méthode notable repose sur un correcteur d'erreurs lexical, qui corrige les erreurs de locuteurs au niveau des mots sans changer les systèmes principaux de reconnaissance vocale ou d'identification des locuteurs. Dans cette méthode, des caractéristiques provenant de la parole reconnue sont extraites à l'aide d'un modèle de langage et utilisées ensuite pour trouver et corriger les erreurs dans le tagging des locuteurs.
Un autre cadre a suggéré d'utiliser de grands modèles de langage pour améliorer les résultats d'un système d'identification des locuteurs. Les sorties de la reconnaissance vocale et de l'identification des locuteurs sont formatées de manière compacte et entrées dans un modèle de langage affiné. La sortie du modèle peut ensuite être utilisée comme résultats de tagging des locuteurs corrigés. Ce processus peut fonctionner avec les systèmes de reconnaissance existants sans avoir besoin de les réentraîner.
Une approche plus récente a impliqué de prédire la probabilité d'un locuteur pour chaque mot et d'intégrer cette info dans le processus d'identification. Cependant, cette méthode nécessite des probabilités précises des locuteurs au niveau des mots, ce que certains systèmes d'identification ne peuvent pas fournir.
Types d'erreurs dans le speaker tagging
Pour mesurer l'efficacité des systèmes d'identification des locuteurs, on utilise souvent un indicateur commun appelé le taux d'erreur de diarisation (DER). Cet indicateur résume trois grands types d'erreurs : fausses alertes, détections manquées, et erreurs de confusion des locuteurs, en comparant les étiquettes de locuteurs de référence avec celles prédite dans le domaine temporel. Cependant, dans les cas où la reconnaissance vocale et le tagging des locuteurs sont réalisés ensemble, un autre indicateur appelé taux d'erreur de diarisation des mots (WDER) est utilisé. Cet indicateur se concentre sur le pourcentage de mots étiquetés avec des étiquettes de locuteur incorrectes.
Le WDER ne prend pas en compte les erreurs dues à des mots omis ou ajoutés, car celles-ci ne se relient pas facilement aux étiquettes de référence.
Utiliser le WDER permet d'avoir un regard détaillé sur les erreurs dans le tagging des locuteurs au niveau des mots. En examinant ces erreurs de près, on peut les classer en trois groupes :
- Étiquettes incorrectes pour des mots dans un segment.
- Mauvaises étiquettes pour les premiers et derniers mots d'un segment.
- Un segment entier mal attribué à un autre locuteur.
Les erreurs des deux premiers groupes viennent souvent de la façon dont l'audio est segmenté, tandis que le troisième type se produit généralement à cause d'une estimation erronée du nombre de locuteurs.
Le système de correction des erreurs de locuteur
Pour améliorer la précision de l'identification des locuteurs, on a utilisé une méthode qui se concentre sur les mots eux-mêmes. Cette méthode extrait des caractéristiques des mots à l'aide d'un modèle de langage spécifique. Ces caractéristiques, avec les étiquettes de locuteur proposées, sont ensuite introduites dans un modèle qui fournit les étiquettes corrigées.
Au lieu d'utiliser le modèle original, on a choisi une version plus efficace qui consomme moins de mémoire. Notre méthode pour simuler les erreurs est aussi différente, car on prédit comment le système de reconnaissance se tromperait sans utiliser le système réel. On a aussi modifié la fonction de perte utilisée pendant l'entraînement pour améliorer les performances.
Entraînement du modèle de correction
Le système de correction est entraîné avec des situations impliquant deux locuteurs, créant des erreurs fictives pour les mots et les étiquettes de locuteur. Pour les erreurs de mots, un modèle est utilisé pour prédire comment un mot pourrait être mal reconnu. Pour les erreurs d'étiquettes de locuteur, on simule des erreurs aux endroits où les locuteurs changent. S'il n'y a qu'un seul locuteur, des erreurs sont générées soit au début, soit à la fin de l'entrée.
Le but est d'identifier précisément quand les intervenants changent, même si déterminer l'identité d'un locuteur peut parfois être flou. Pour gérer ces situations, on utilise une fonction de perte qui permet des ordres variés des étiquettes de locuteur pour obtenir les meilleurs résultats.
Correction des erreurs pendant l'inférence
Pendant la phase de correction, on ne corrige les erreurs qu'aux points où le locuteur change. On définit un contexte autour de ces points de changement et on fournit ce contexte, avec les étiquettes de locuteur devinées, à notre modèle de correction.
Évaluation des performances et résultats
On a entraîné notre modèle de correction en utilisant plusieurs ensembles de données. Pour l'évaluation, on a regardé à la fois des ensembles de données déjà séparés et utilisé des sous-ensembles de test spécifiques pour nos évaluations. On a utilisé le WDER pour les évaluations internes, car il reflète mieux les performances du système d'identification des locuteurs que d'autres indicateurs.
Notre modèle entraîné traite les données en commençant par transformer l'audio en texte. Ensuite, il applique le modèle de correction pour comparer les étiquettes corrigées aux étiquettes réelles et calculer les taux d'erreur.
Modèle de prédiction d'orthographe alternative
Pour entraîner le modèle qui prédit comment les mots peuvent être mal reconnus, on a utilisé environ 1,15 million de paires de mots d'un modèle précédent. On s'est concentré sur les paires de mots où la différence entre les mots réels et mal reconnus n’était pas trop grande.
Notre modèle de prédiction est basé sur un cadre qui utilise à la fois un encodeur et un décodeur. Il possède plusieurs couches et têtes d’attention. Pendant le processus, on applique une technique pour produire une liste de mots reconnus possibles pour chaque mot d'entrée. Cela aide à générer des prédictions plus précises.
Conclusion
En résumé, on a créé un système pour corriger les erreurs d'identification des locuteurs pour les mots aux frontières des phrases. Cela se fait en utilisant un modèle de langage qui travaille sur les transcriptions pour rendre le tagging plus précis. Notre entraînement a utilisé des erreurs simulées tant pour les mots que pour les étiquettes de locuteurs, sans avoir besoin d'enregistrements appariés. On a obtenu des améliorations notables en précision lors de divers tests, montrant le potentiel de notre méthode comme solution légère pouvant être intégrée aux systèmes de reconnaissance vocale et d'identification des locuteurs existants.
Titre: Speaker Tagging Correction With Non-Autoregressive Language Models
Résumé: Speech applications dealing with conversations require not only recognizing the spoken words but also determining who spoke when. The task of assigning words to speakers is typically addressed by merging the outputs of two separate systems, namely, an automatic speech recognition (ASR) system and a speaker diarization (SD) system. In practical settings, speaker diarization systems can experience significant degradation in performance due to a variety of factors, including uniform segmentation with a high temporal resolution, inaccurate word timestamps, incorrect clustering and estimation of speaker numbers, as well as background noise. Therefore, it is important to automatically detect errors and make corrections if possible. We used a second-pass speaker tagging correction system based on a non-autoregressive language model to correct mistakes in words placed at the borders of sentences spoken by different speakers. We first show that the employed error correction approach leads to reductions in word diarization error rate (WDER) on two datasets: TAL and test set of Fisher. Additionally, we evaluated our system in the Post-ASR Speaker Tagging Correction challenge and observed significant improvements in cpWER compared to baseline methods.
Auteurs: Grigor Kirakosyan, Davit Karamyan
Dernière mise à jour: 2024-08-30 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2409.00151
Source PDF: https://arxiv.org/pdf/2409.00151
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.