Simple Science

La science de pointe expliquée simplement

# Génie électrique et science des systèmes# Son# Traitement de l'audio et de la parole

Améliorations dans la qualité de la parole

Le cadre Gesper améliore la clarté de la parole dans des environnements bruyants.

― 6 min lire


Révolution de la qualitéRévolution de la qualitéde la paroledans des conditions difficiles.Gesper améliore la clarté de la parole
Table des matières

Les systèmes de communication comme les smartphones, les outils de visioconférence et les téléphones traditionnels sont super importants dans nos vies de tous les jours. Pour avoir des conversations claires et efficaces, il faut améliorer la qualité des signaux vocaux dans ces systèmes. Mais, des trucs comme le Bruit de fond, les échos et une mauvaise connexion affectent toujours la clarté de la voix.

Le Défi

L'objectif d'améliorer la qualité de la voix est au cœur de nombreux projets de recherche. Le Speech Signal Improvement (SSI) Challenge à ICASSP 2023 se concentre particulièrement sur comment rendre la voix plus claire dans diverses conditions. Des problèmes comme le bruit de fond, les échos et les variations de volume rendent parfois difficile d'entendre ce que quelqu'un dit, et le défi veut trouver des solutions à ces soucis.

Problèmes avec les Systèmes Actuels

Beaucoup de méthodes actuelles pour nettoyer les signaux vocaux passent par deux étapes principales. D'abord, on réduit le bruit pour rendre la voix plus claire. Mais ça peut créer des problèmes où enlever trop de bruit déforme la voix originale. Ensuite, la deuxième étape essaie de corriger la voix qui a été abîmée par la première étape, mais parfois ça ne fonctionne pas bien parce que la voix originale a déjà été endommagée.

La Solution Proposée

Pour régler ces soucis, un nouveau cadre appelé Gesper a été créé. Gesper est conçu pour à la fois restaurer et améliorer les signaux vocaux en deux étapes. Dans la première étape, l'objectif est de corriger les signaux vocaux abîmés en se concentrant sur les détails du son. Puis, dans la deuxième étape, le système travaille à améliorer la voix nettoyée pour enlever le bruit restant.

Le cœur de cette approche est un modèle spécial nommé CSM-GAN. Ce modèle utilise des infos sonores complexes plutôt que des méthodes plus simples. En faisant ça, il peut mieux gérer les sons à haute fréquence qui sont importants pour une voix claire. Le système commence par nettoyer la voix puis travaille à améliorer sa qualité globale.

Comment le Système Fonctionne

Le système se compose de trois parties principales :

  1. Ajustement du Niveau Sonore : La première étape est de s'assurer que l'audio a le bon volume. Cela se fait grâce à un algorithme qui ajuste le volume de l'audio avant tout autre traitement.

  2. Module de Restauration : Dans cette partie, le système essaie de corriger les distorsions dans l'audio. C'est ici que le nouveau modèle CSM-GAN brille vraiment. Au lieu de se concentrer uniquement sur les ondes sonores simples, il regarde les sons complexes pour de meilleurs résultats. L'objectif ici est d'enlever le bruit et les échos de la voix.

  3. Module d'Amélioration : Après la restauration, il pourrait encore rester un peu de bruit ou des problèmes dans la voix. Le module d'amélioration travaille à nettoyer ces derniers soucis. Il utilise deux méthodes pour traiter différentes parties de l'audio en même temps, rendant le processus plus efficace.

Simulation de Données

Pour développer et tester le système, un grand nombre d'échantillons audio ont été créés. Ces échantillons incluaient à la fois de la voix claire et différents types de bruit pour simuler des conditions réelles. Les données ont été traitées davantage pour imiter différentes qualités de microphone et des problèmes de réseau, simulant les types de défis auxquels de nombreux systèmes de communication sont confrontés.

Configuration Expérimentale

Le système a été testé avec des réglages spécifiques qui incluaient des longueurs de fenêtre et des décalages de trame pour segmenter l'audio en morceaux plus petits pour un traitement plus facile. Les modèles ont été entraînés à gérer un nombre fixe d'itérations pour s'assurer qu'ils apprenaient les meilleures façons de restaurer et d'améliorer la qualité de la voix.

Évaluation des Résultats

La performance du système Gesper a été évaluée en utilisant des mesures objectives et subjectives. Les métriques objectives évaluent la qualité de la voix traitée selon des normes établies. Pour les mesures subjectives, des tests d'écoute ont été réalisés pour recueillir les retours des utilisateurs sur la clarté et le naturel de la voix.

Le système a obtenu d'excellents résultats, montrant une amélioration significative de la qualité de la voix par rapport aux versions précédentes de la technologie. Il a été capable de gérer efficacement des problèmes comme le bruit de fond, la distorsion et les variations de volume.

Conclusions Clés

  1. Performance Améliorée : Le système Gesper a surpassé les méthodes précédentes dans plusieurs domaines, y compris la capacité à réduire le bruit et à améliorer la clarté sans endommager la voix d'origine.

  2. Approche en Deux Étapes : La combinaison de la restauration et de l'amélioration dans une approche en deux étapes s'est avérée très efficace. Chaque étape complète l'autre, menant à de meilleurs résultats globaux.

  3. Applicabilité Étroite : Le cadre est assez flexible pour être appliqué à divers types de situations de traitement audio, le rendant précieux pour les systèmes de communication en temps réel.

Comparaison avec d'Autres Systèmes

Dans des tests comparant différents systèmes de traitement de la voix, Gesper a montré de meilleurs résultats de manière constante. Il a géré efficacement divers types de défis, y compris le bruit de fond, les échos et les niveaux de volume, plus que les autres modèles existants.

Conclusion

Le système Gesper représente un pas en avant important pour améliorer la qualité de la voix dans les systèmes de communication. En combinant des méthodes innovantes de restauration et d'amélioration, il aborde des problèmes courants qui affectent la clarté dans la voix en temps réel. À mesure que la communication continue d'évoluer, des solutions comme Gesper joueront un rôle vital pour s'assurer que les conversations restent claires et efficaces, peu importe les circonstances.

Source originale

Titre: Gesper: A Restoration-Enhancement Framework for General Speech Reconstruction

Résumé: This paper describes a real-time General Speech Reconstruction (Gesper) system submitted to the ICASSP 2023 Speech Signal Improvement (SSI) Challenge. This novel proposed system is a two-stage architecture, in which the speech restoration is performed, and then cascaded by speech enhancement. We propose a complex spectral mapping-based generative adversarial network (CSM-GAN) as the speech restoration module for the first time. For noise suppression and dereverberation, the enhancement module is performed with fullband-wideband parallel processing. On the blind test set of ICASSP 2023 SSI Challenge, the proposed Gesper system, which satisfies the real-time condition, achieves 3.27 P.804 overall mean opinion score (MOS) and 3.35 P.835 overall MOS, ranked 1st in both track 1 and track 2.

Auteurs: Wenzhe Liu, Yupeng Shi, Jun Chen, Wei Rao, Shulin He, Andong Li, Yannan Wang, Zhiyong Wu

Dernière mise à jour: 2023-06-14 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2306.08454

Source PDF: https://arxiv.org/pdf/2306.08454

Licence: https://creativecommons.org/licenses/by-sa/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires