Avancées dans les systèmes de reconnaissance vocale pour le défi VoxCeleb
Un aperçu détaillé des techniques de reconnaissance vocale développées pour la compétition de 2022.
― 6 min lire
Table des matières
- Performance du système dans les pistes 1 et 3
- Données d'entraînement
- Évaluation et données de développement
- Structures de modèle et entraînement
- Fonction de perte et protocoles d'entraînement
- Adaptation de Domaine Semi-Supervisée
- Algorithme de clustering et correction des étiquettes
- Étapes d'entraînement pour la piste 3
- Dernières étapes et calibration des scores
- Conclusion
- Source originale
Cet article donne un aperçu du système de reconnaissance vocale conçu pour le défi VoxCeleb Speaker Recognition de 2022. Le système est optimisé pour reconnaître différents locuteurs en fonction de leur voix, en utilisant un gros dataset d'enregistrements vocaux.
Performance du système dans les pistes 1 et 3
Le système a obtenu des résultats impressionnants dans deux pistes de la compétition. Pour la piste 1, il a atteint un coût de décision minimal (minDCF) de 0.1397 et un Taux d'erreur égal (EER) de 2.414. Dans la piste 3, les scores étaient légèrement plus élevés, avec un minDCF de 0.388 et un EER de 7.030.
Données d'entraînement
Les données d'entraînement utilisées provenaient de VoxCeleb2-dev. Ce dataset inclut une énorme quantité d'enregistrements vocaux, totalisant plus de 1 000 000 d'énoncés de près de 6 000 locuteurs. Pour enrichir ces données, des locuteurs supplémentaires ont été créés en changeant un peu la vitesse des enregistrements. Le dataset final contenait presque 18 000 locuteurs et plus de 3 millions d'énoncés.
En plus de ça, divers bruits de fond ont été ajoutés aux enregistrements pour rendre le système plus robuste. Ce processus incluait différents types de bruit comme des paroles et de la musique, ce qui aide le modèle à apprendre à reconnaître les locuteurs même dans des conditions moins idéales.
Évaluation et données de développement
Pour évaluer le modèle, plusieurs ensembles de validation officiels ont été utilisés. Ces ensembles de validation ont permis à l'équipe de tester la performance de leur système dans diverses conditions. Les caractéristiques d'entrée pour le système étaient dérivées des enregistrements, en utilisant un filtre log-Mel à 80 dimensions comme base d'analyse.
Structures de modèle et entraînement
L'approche comportait deux types principaux de modèles pour le défi : un basé sur la convolution 1D (ECAPA-TDNN) et un autre basé sur la convolution 2D (ResNet).
Variantes ECAPA-TDNN
Le modèle ECAPA-TDNN a été utilisé sous plusieurs variantes, qui ont été agrandies et complexifiées pour améliorer la performance. Ces modifications incluaient l’ajout de branches et la réorganisation de la structure pour renforcer sa capacité à reconnaître différentes voix.
Modèles ResNet
Le type de modèle ResNet était aussi inclus. Ce modèle était structuré avec 34 couches et utilisait des techniques spécifiques pour se concentrer sur les caractéristiques importantes lors de l'analyse. De plus, d'autres versions personnalisées de ResNet ont été mises en œuvre, en utilisant des mécanismes d'attention pour améliorer la précision de reconnaissance.
HS-ResNet et imitation de caractéristiques multi-échelles
HS-ResNet et Res2Net ont été utilisés pour capter des caractéristiques à différentes échelles. Cela a permis au modèle d'analyser les enregistrements plus efficacement et de reconnaître les voix efficacement.
Techniques RepVGG et de pooling
Les modèles RepVGG utilisaient une combinaison de branches durant l'entraînement mais ont été simplifiés pour une utilisation réelle, ce qui a amélioré la capacité du modèle à comprendre des caractéristiques complexes. Pour résumer les informations provenant des enregistrements, différentes méthodes de pooling ont été appliquées, reflétant l'importance de caractéristiques uniques à travers des segments audio.
Fonction de perte et protocoles d'entraînement
L'équipe a utilisé une fonction de perte basée sur la marge appelée circle loss, qui a considérablement amélioré la performance globale des modèles. Un processus d'entraînement en deux étapes a été suivi, commençant par une étape standard puis passant à un ajustement fin pour une meilleure précision.
Pendant l'entraînement, des stratégies avancées comme la variation des taux d'apprentissage et des tailles de lot ont été employées. Après l'entraînement principal, des techniques importantes comme la distance cosinus ont été utilisées pour évaluer les résultats de reconnaissance vocale.
Adaptation de Domaine Semi-Supervisée
Pour améliorer la reconnaissance, l'équipe a également utilisé l'adaptation de domaine semi-supervisée. Cette approche visait à tirer parti des données étiquetées et non étiquetées, avec pour objectif d'obtenir de meilleurs résultats en reconnaissance vocale dans différents scénarios.
Cadre de pseudo-étiquetage
Un cadre de pseudo-étiquetage a été mis en œuvre en cinq étapes principales. Initialement, les modèles ont été entraînés en utilisant des données étiquetées, suivies de l'adaptation des embeddings. Au cours de la troisième étape, des pseudo-étiquettes ont été générées pour des données non étiquetées, qui ont ensuite été utilisées pour effectuer un entraînement supervisé.
Atteindre le bruit dans les données
Comme les données contenaient du bruit et des échantillons audio répétés, un processus a été suivi pour nettoyer efficacement le dataset. Cela impliquait de supprimer les doublons en vérifiant les fichiers audio avec un identifiant unique.
Algorithme de clustering et correction des étiquettes
Pour affiner davantage les résultats, un nouvel algorithme de clustering a été introduit. Cet algorithme utilisait un système de vote multi-modèle pour améliorer la précision des étiquettes. Des échantillons à haute confiance ont été identifiés, et les pseudo-étiquettes ont été ajustées en fonction du vote majoritaire parmi les modèles.
Étapes d'entraînement pour la piste 3
Dans le processus d'entraînement pour la piste 3, des datasets étiquetés et non étiquetés ont été employés. Les modèles ont passé par deux étapes d'entraînement, se concentrant d'abord sur la construction d'un modèle de base puis en l'ajustant tout en préservant certains composants pour éviter le surapprentissage.
Dernières étapes et calibration des scores
Après l'entraînement, le système a subi une évaluation supplémentaire pour s'assurer de l'exactitude du processus de labellisation. Enfin, des techniques de calibration des scores ont été appliquées pour ajuster les scores en fonction d'un ensemble de développement bien défini. Cette étape finale était cruciale pour aligner la sortie du système avec les résultats attendus.
Conclusion
Les systèmes développés pour la compétition VoxSRC2022 soulignent des avancées significatives dans la technologie de reconnaissance vocale. Grâce à une combinaison de nouvelles approches de modélisation, de techniques d'entraînement avancées et d'évaluations soigneuses, les équipes ont obtenu des résultats compétitifs. Les méthodes discutées, y compris l'adaptation de domaine et les algorithmes de correction des étiquettes, montrent des stratégies efficaces pour améliorer la performance dans des applications réelles. Les progrès réalisés dans ce défi préparent le terrain pour de futures innovations dans les systèmes de reconnaissance vocale.
Titre: The HCCL system for VoxCeleb Speaker Recognition Challenge 2022
Résumé: This report describes our submission to track1 and track3 for VoxCeleb Speaker Recognition Challenge 2022(VoxSRC2022). Our best system achieves minDCF 0.1397 and EER 2.414 in track1, minDCF 0.388 and EER 7.030 in track3.
Auteurs: Zhenduo Zhao, Zhuo Li, Wenchao Wang, Pengyuan Zhang
Dernière mise à jour: 2023-05-21 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2305.12642
Source PDF: https://arxiv.org/pdf/2305.12642
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.