Avancées dans les systèmes de reconnaissance vocale pour le défi VoxCeleb

Table des matières

Performance du système dans les pistes 1 et 3
Données d'entraînement
Évaluation et données de développement
Structures de modèle et entraînement
Fonction de perte et protocoles d'entraînement
Adaptation de Domaine Semi-Supervisée
Algorithme de clustering et correction des étiquettes
Étapes d'entraînement pour la piste 3
Dernières étapes et calibration des scores
Conclusion
Source originale

Cet article donne un aperçu du système de reconnaissance vocale conçu pour le défi VoxCeleb Speaker Recognition de 2022. Le système est optimisé pour reconnaître différents locuteurs en fonction de leur voix, en utilisant un gros dataset d'enregistrements vocaux.

Performance du système dans les pistes 1 et 3

Le système a obtenu des résultats impressionnants dans deux pistes de la compétition. Pour la piste 1, il a atteint un coût de décision minimal (minDCF) de 0.1397 et un Taux d'erreur égal (EER) de 2.414. Dans la piste 3, les scores étaient légèrement plus élevés, avec un minDCF de 0.388 et un EER de 7.030.

Données d'entraînement

Les données d'entraînement utilisées provenaient de VoxCeleb2-dev. Ce dataset inclut une énorme quantité d'enregistrements vocaux, totalisant plus de 1 000 000 d'énoncés de près de 6 000 locuteurs. Pour enrichir ces données, des locuteurs supplémentaires ont été créés en changeant un peu la vitesse des enregistrements. Le dataset final contenait presque 18 000 locuteurs et plus de 3 millions d'énoncés.

En plus de ça, divers bruits de fond ont été ajoutés aux enregistrements pour rendre le système plus robuste. Ce processus incluait différents types de bruit comme des paroles et de la musique, ce qui aide le modèle à apprendre à reconnaître les locuteurs même dans des conditions moins idéales.

Évaluation et données de développement

Pour évaluer le modèle, plusieurs ensembles de validation officiels ont été utilisés. Ces ensembles de validation ont permis à l'équipe de tester la performance de leur système dans diverses conditions. Les caractéristiques d'entrée pour le système étaient dérivées des enregistrements, en utilisant un filtre log-Mel à 80 dimensions comme base d'analyse.

Structures de modèle et entraînement

L'approche comportait deux types principaux de modèles pour le défi : un basé sur la convolution 1D (ECAPA-TDNN) et un autre basé sur la convolution 2D (ResNet).

Variantes ECAPA-TDNN

Le modèle ECAPA-TDNN a été utilisé sous plusieurs variantes, qui ont été agrandies et complexifiées pour améliorer la performance. Ces modifications incluaient l’ajout de branches et la réorganisation de la structure pour renforcer sa capacité à reconnaître différentes voix.

Modèles ResNet

Le type de modèle ResNet était aussi inclus. Ce modèle était structuré avec 34 couches et utilisait des techniques spécifiques pour se concentrer sur les caractéristiques importantes lors de l'analyse. De plus, d'autres versions personnalisées de ResNet ont été mises en œuvre, en utilisant des mécanismes d'attention pour améliorer la précision de reconnaissance.

HS-ResNet et imitation de caractéristiques multi-échelles

HS-ResNet et Res2Net ont été utilisés pour capter des caractéristiques à différentes échelles. Cela a permis au modèle d'analyser les enregistrements plus efficacement et de reconnaître les voix efficacement.

Techniques RepVGG et de pooling

Les modèles RepVGG utilisaient une combinaison de branches durant l'entraînement mais ont été simplifiés pour une utilisation réelle, ce qui a amélioré la capacité du modèle à comprendre des caractéristiques complexes. Pour résumer les informations provenant des enregistrements, différentes méthodes de pooling ont été appliquées, reflétant l'importance de caractéristiques uniques à travers des segments audio.

Fonction de perte et protocoles d'entraînement

L'équipe a utilisé une fonction de perte basée sur la marge appelée circle loss, qui a considérablement amélioré la performance globale des modèles. Un processus d'entraînement en deux étapes a été suivi, commençant par une étape standard puis passant à un ajustement fin pour une meilleure précision.

Pendant l'entraînement, des stratégies avancées comme la variation des taux d'apprentissage et des tailles de lot ont été employées. Après l'entraînement principal, des techniques importantes comme la distance cosinus ont été utilisées pour évaluer les résultats de reconnaissance vocale.

Adaptation de Domaine Semi-Supervisée

Pour améliorer la reconnaissance, l'équipe a également utilisé l'adaptation de domaine semi-supervisée. Cette approche visait à tirer parti des données étiquetées et non étiquetées, avec pour objectif d'obtenir de meilleurs résultats en reconnaissance vocale dans différents scénarios.

Cadre de pseudo-étiquetage

Un cadre de pseudo-étiquetage a été mis en œuvre en cinq étapes principales. Initialement, les modèles ont été entraînés en utilisant des données étiquetées, suivies de l'adaptation des embeddings. Au cours de la troisième étape, des pseudo-étiquettes ont été générées pour des données non étiquetées, qui ont ensuite été utilisées pour effectuer un entraînement supervisé.

Atteindre le bruit dans les données

Comme les données contenaient du bruit et des échantillons audio répétés, un processus a été suivi pour nettoyer efficacement le dataset. Cela impliquait de supprimer les doublons en vérifiant les fichiers audio avec un identifiant unique.

Algorithme de clustering et correction des étiquettes

Pour affiner davantage les résultats, un nouvel algorithme de clustering a été introduit. Cet algorithme utilisait un système de vote multi-modèle pour améliorer la précision des étiquettes. Des échantillons à haute confiance ont été identifiés, et les pseudo-étiquettes ont été ajustées en fonction du vote majoritaire parmi les modèles.

Étapes d'entraînement pour la piste 3

Dans le processus d'entraînement pour la piste 3, des datasets étiquetés et non étiquetés ont été employés. Les modèles ont passé par deux étapes d'entraînement, se concentrant d'abord sur la construction d'un modèle de base puis en l'ajustant tout en préservant certains composants pour éviter le surapprentissage.

Dernières étapes et calibration des scores

Après l'entraînement, le système a subi une évaluation supplémentaire pour s'assurer de l'exactitude du processus de labellisation. Enfin, des techniques de calibration des scores ont été appliquées pour ajuster les scores en fonction d'un ensemble de développement bien défini. Cette étape finale était cruciale pour aligner la sortie du système avec les résultats attendus.

Conclusion

Les systèmes développés pour la compétition VoxSRC2022 soulignent des avancées significatives dans la technologie de reconnaissance vocale. Grâce à une combinaison de nouvelles approches de modélisation, de techniques d'entraînement avancées et d'évaluations soigneuses, les équipes ont obtenu des résultats compétitifs. Les méthodes discutées, y compris l'adaptation de domaine et les algorithmes de correction des étiquettes, montrent des stratégies efficaces pour améliorer la performance dans des applications réelles. Les progrès réalisés dans ce défi préparent le terrain pour de futures innovations dans les systèmes de reconnaissance vocale.

Avancées dans les systèmes de reconnaissance vocale pour le défi VoxCeleb

Un aperçu détaillé des techniques de reconnaissance vocale développées pour la compétition de 2022.

Performance du système dans les pistes 1 et 3

Données d'entraînement

Évaluation et données de développement

Structures de modèle et entraînement

Variantes ECAPA-TDNN

Modèles ResNet

HS-ResNet et imitation de caractéristiques multi-échelles

Techniques RepVGG et de pooling

Fonction de perte et protocoles d'entraînement

Adaptation de Domaine Semi-Supervisée

Cadre de pseudo-étiquetage

Atteindre le bruit dans les données

Algorithme de clustering et correction des étiquettes

Étapes d'entraînement pour la piste 3

Dernières étapes et calibration des scores

Conclusion

Sujets référencés

Avancées dans les systèmes de reconnaissance vocale pour le défi VoxCeleb

Un aperçu détaillé des techniques de reconnaissance vocale développées pour la compétition de 2022.

#Performance du système dans les pistes 1 et 3

#Données d'entraînement

#Évaluation et données de développement

#Structures de modèle et entraînement

#Variantes ECAPA-TDNN

#Modèles ResNet

#HS-ResNet et imitation de caractéristiques multi-échelles

#Techniques RepVGG et de pooling

#Fonction de perte et protocoles d'entraînement

#Adaptation de Domaine Semi-Supervisée

#Cadre de pseudo-étiquetage

#Atteindre le bruit dans les données

#Algorithme de clustering et correction des étiquettes

#Étapes d'entraînement pour la piste 3

#Dernières étapes et calibration des scores

#Conclusion

Sujets référencés

Performance du système dans les pistes 1 et 3

Données d'entraînement

Évaluation et données de développement

Structures de modèle et entraînement

Variantes ECAPA-TDNN

Modèles ResNet

HS-ResNet et imitation de caractéristiques multi-échelles

Techniques RepVGG et de pooling

Fonction de perte et protocoles d'entraînement

Adaptation de Domaine Semi-Supervisée

Cadre de pseudo-étiquetage

Atteindre le bruit dans les données

Algorithme de clustering et correction des étiquettes

Étapes d'entraînement pour la piste 3

Dernières étapes et calibration des scores

Conclusion