Évaluer les systèmes de diarisation des locuteurs en ligne
Cet article examine la latence de divers systèmes de diarisation des locuteurs dans le traitement audio.
― 8 min lire
Table des matières
Cet article parle de l'évaluation de différents systèmes de diarisation de locuteurs en ligne, en se concentrant sur la rapidité avec laquelle ils peuvent identifier qui parle dans un enregistrement audio. La diarisation de locuteurs, c'est le processus qui détermine "qui a parlé quand" dans un fichier audio, ce qui est super important pour transcrire correctement les conversations. On l'utilise dans plein de contextes, comme les réunions en ligne, les conférences téléphoniques, les audiences judiciaires et les interviews.
Un aspect crucial de la diarisation de locuteurs, c'est la Latence, qui se réfère au temps que met le système à traiter l'entrée audio et à produire les étiquettes de locuteur en sortie. Dans certaines applications, une faible latence est essentielle. Par exemple, dans le trading automatisé, des décisions doivent être prises presque instantanément en se basant sur la transcription de rapports financiers. Donc, des systèmes capables de donner des résultats rapidement sont nécessaires.
Bien que beaucoup d'entreprises qui proposent des systèmes de diarisation de locuteurs en ligne rapportent leur latence, il y a eu peu de recherches comparant la latence de plusieurs systèmes dans les mêmes conditions. Cet article vise à combler cette lacune en évaluant différents systèmes sur le même matériel en utilisant les mêmes données audio.
Aperçu de la Diarisation de Locuteurs
Dans la diarisation de locuteurs, le but est d'identifier les locuteurs dans un fichier audio et de déterminer quand chacun parle. Cette info est clé pour créer une transcription audio complète. Divers scénarios, comme des réunions, des appels de résultats et des procédures judiciaires, dépendent de la diarisation de locuteurs pour assurer des enregistrements précis.
Pour qu'un système de diarisation de locuteurs soit efficace, il est important de traiter l'audio rapidement. La diarisation de locuteurs en ligne désigne des systèmes capables d'obtenir cette faible latence. Beaucoup de fournisseurs de ces systèmes partagent des informations sur leur latence, mais la plupart ne comparent pas leurs systèmes de manière uniforme, ce qui rend difficile pour les utilisateurs de comprendre lequel est le mieux pour leurs besoins.
Le Processus de Diarisation
Le processus typique pour la diarisation de locuteurs comprend trois tâches principales :
- Détection d'Activité de Parole (SAD) : Cette étape identifie si le segment audio contient de la parole.
- Segmentation : Pendant cette phase, l'audio est divisé en segments, chacun contenant la parole d'un seul locuteur.
- Clustering : Ici, les différents segments audio sont attribués à des locuteurs connus ou nouveaux.
Dans les méthodes précédentes, chacune de ces tâches était gérée par des modèles séparés. Cependant, les avancées en deep learning permettent d'automatiser plusieurs tâches par un seul réseau neuronal, connu sous le nom de système de bout en bout.
Cadre d'Évaluation
Un système moderne appelé le cadre DIART intègre à la fois des approches de bout en bout et modulaires pour la diarisation de locuteurs. Ce système est conçu pour gérer la parole chevauchante à travers un entraînement supervisé. Cependant, un défi avec les systèmes de bout en bout est qu'ils nécessitent de connaître le nombre maximum de locuteurs à l'avance, ce qui n'est pas toujours faisable dans des scénarios en temps réel.
Le cadre DIART prend des segments audio, les traite avec un tampon audio roulant, et génère des probabilités de quel locuteur est actif durant ces trames. Cela est suivi par un algorithme de clustering qui crée des étiquettes de locuteur globales à partir des étiquettes locales, permettant l'identification de chaque locuteur sur des segments audio plus longs.
Un autre système appelé UIS-RNN-SML se concentre sur le clustering et adopte une approche supervisée. Il utilise une méthode spéciale pour calculer les probabilités de locuteur et a montré des améliorations grâce à de nouvelles techniques d'entraînement.
Enfin, FS-EEND est un autre système en ligne qui utilise des modèles de transformateur pour son analyse. Il reçoit des caractéristiques audio, les traite et sort les étiquettes de locuteur correspondantes.
Méthode de Recherche
L'objectif principal de cette recherche est d'identifier quel système de diarisation en ligne offre la plus faible latence de l'entrée audio à la sortie des étiquettes de locuteur. Pour y parvenir, une expérience standardisée a été mise en place, mesurant la latence à travers différentes combinaisons de modèles dans le cadre DIART, ainsi que les systèmes UIS-RNN-SML et FS-EEND.
L'évaluation a impliqué l'utilisation d'un ensemble de données spécifique connu sous le nom de TIMIT pour entraîner les modèles UIS-RNN-SML et FS-EEND, car il n'y avait pas de versions pré-entraînées disponibles pour ces systèmes. L'ensemble de données, qui contient des enregistrements de différents locuteurs, aide à évaluer comment les systèmes performe en termes de latence.
Pour les tests, un sous-ensemble d'un autre ensemble de données appelé Voxconverse a été utilisé. Ce sous-ensemble contenait quelques fichiers audio totalisant environ 20 minutes d'enregistrements. Les systèmes pouvaient gérer les fichiers audio au format WAV sans nécessiter de traitement supplémentaire, rendant l'évaluation simple.
Configuration Expérimentale
Les systèmes ont été évalués sur une plateforme matériel standardisée pour garantir l'équité des résultats. Des mesures de latence ont été prises pour chaque système pendant le traitement des segments audio. Les systèmes ont reçu des morceaux audio de 250 millisecondes pour l’évaluation.
Un aspect important de l'évaluation était la méthode de mesure, qui impliquait l'utilisation de minuteries haute résolution pour capturer avec précision le temps pris pour le traitement. La latence moyenne et l'écart type ont été rapportés pour chaque système afin de fournir un aperçu clair et comparable de leurs performances.
Résultats et Discussion
Les résultats ont montré que le cadre DIART, spécifiquement avec les modèles pyannote/embedding et pyannote/segmentation, a atteint la latence moyenne la plus basse d'environ 0.057 secondes. Cela indique que la combinaison de ces modèles est très efficace pour la diarisation de locuteurs en ligne.
En évaluant le système UIS-RNN-SML, il est devenu évident que bien qu'il fonctionne bien avec des segments audio plus courts, sa latence augmente significativement avec la longueur de l'audio. Cela le rend moins adapté pour des enregistrements plus longs ou des flux audio continus.
D'un autre côté, FS-EEND a démontré une latence moyenne d'environ 0.058 secondes, ce qui est comparable au meilleur système DIART. Les résultats de FS-EEND et du cadre DIART suggèrent que ces systèmes peuvent gérer efficacement la diarisation de locuteurs avec une faible latence.
Les découvertes ont également indiqué que le type de modèle d'embedding joue un rôle crucial dans la détermination de la latence. Les systèmes utilisant des modèles plus petits et plus efficaces ont obtenu de meilleurs résultats que ceux s'appuyant sur des modèles plus grands et plus complexes.
Fait intéressant, même si le cadre DIART suggère théoriquement que la latence devrait augmenter avec un plus grand nombre de locuteurs connus, cette relation n'était pas évidente dans les résultats des tests.
Conclusion
En conclusion, cette évaluation met en avant qu'il existe plusieurs systèmes de diarisation de locuteurs en ligne efficaces capables de fonctionner en temps quasi réel. Le cadre DIART avec ses modèles sélectionnés s'est démarqué comme le meilleur choix en termes de latence. Pendant ce temps, FS-EEND a fourni une performance similaire, le rendant comme une alternative viable.
Le système UIS-RNN-SML, bien qu'acceptable pour des audios courts, a montré une latence croissante avec des enregistrements prolongés, ce qui suggère qu'il pourrait ne pas être la meilleure option pour de longs flux audio.
Les travaux futurs pourraient se concentrer sur l'entraînement de modèles avec de meilleures performances et examiner l'équilibre latence-précision. De plus, il pourrait être bénéfique d'explorer l'impact d'un plus grand nombre de locuteurs sur la latence lors de tests plus extensifs.
Dans l'ensemble, la recherche confirme qu'il existe divers systèmes de diarisation de locuteurs en ligne à haute performance qui peuvent répondre aux besoins de traitement en temps réel pour une large gamme d'applications.
Titre: Systematic Evaluation of Online Speaker Diarization Systems Regarding their Latency
Résumé: In this paper, different online speaker diarization systems are evaluated on the same hardware with the same test data with regard to their latency. The latency is the time span from audio input to the output of the corresponding speaker label. As part of the evaluation, various model combinations within the DIART framework, a diarization system based on the online clustering algorithm UIS-RNN-SML, and the end-to-end online diarization system FS-EEND are compared. The lowest latency is achieved for the DIART-pipeline with the embedding model pyannote/embedding and the segmentation model pyannote/segmentation. The FS-EEND system shows a similarly good latency. In general there is currently no published research that compares several online diarization systems in terms of their latency. This makes this work even more relevant.
Auteurs: Roman Aperdannier, Sigurd Schacht, Alexander Piazza
Dernière mise à jour: 2024-07-05 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2407.04293
Source PDF: https://arxiv.org/pdf/2407.04293
Licence: https://creativecommons.org/licenses/by-sa/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.