Simple Science

La science de pointe expliquée simplement

# Génie électrique et science des systèmes# Son# Traitement de l'audio et de la parole

Avancées dans la technologie d'extraction de la voix cible

Découvrez comment de nouvelles techniques améliorent la clarté de la parole dans des environnements bruyants.

― 6 min lire


Nouvelles techniquesNouvelles techniquesd'extraction de voixdes environnements difficiles.Améliorer la clarté de la parole dans
Table des matières

Ces dernières années, extraire la voix d'une personne spécifique dans un environnement bruyant ou bondé est devenu super important. Cette tâche est appelée Extraction de locuteur cible (TSE). Elle est utilisée dans plein d'applications comme la reconnaissance vocale, la vérification de locuteur et les visioconférences. Souvent, il y a plein de voix en arrière-plan, ce qui rend difficile d’entendre juste une personne. Cet article va expliquer comment fonctionne la TSE et les défis associés, surtout dans les endroits bruyants.

Qu'est-ce que l'extraction de locuteur cible ?

L'extraction de locuteur cible est une méthode qui sépare la voix d'un locuteur spécifique d'un mélange de sons. Imagine que tu es à une fête où plein de gens parlent en même temps. La TSE te permet de te concentrer sur la voix d'une seule personne, en filtrant tous les autres sons. C'est super utile dans des situations comme les réunions ou les appels téléphoniques, où la clarté de la parole est essentielle.

Le besoin d'infos sur le locuteur

Traditionnellement, les méthodes de TSE nécessitent des infos sur le locuteur cible, comme un enregistrement de sa voix ou même ses mouvements des lèvres. C'est pas facile de rassembler ces infos et ça peut poser des soucis de confidentialité. Du coup, les chercheurs cherchent des moyens de faire la TSE sans avoir besoin de ces infos à l'avance.

Séparation sonore basée sur la distance

Récemment, une nouvelle idée appelée séparation sonore basée sur la distance a émergé. Cette méthode sépare les sons selon leur éloignement du l’auditeur. Par exemple, les sons plus proches peuvent être isolés de ceux qui sont plus éloignés, aidant à nettoyer les signaux audio. Mais cette approche a ses limites. Il y a des situations où plusieurs locuteurs sont à la même distance du micro, ce qui rend difficile de séparer leurs voix.

Défis dans des environnements bruyants

Les environnements bruyants présentent des défis spécifiques pour la TSE. Par exemple, les échos peuvent interférer avec le son original, rendant la parole difficile à comprendre. De plus, les parties à haute fréquence de la parole peuvent être atténuées par le bruit ambiant. Ça signifie que la TSE doit être adaptée pour ces conditions.

Présentation de l'extracteur de sons proches

Pour aborder ces défis, un nouveau modèle appelé l'extracteur de sons proches a été développé. Ce modèle combine les avantages de la modélisation pleine bande et sous-bande pour améliorer les performances dans des scénarios bruyants. Il utilise des infos de distance pour aider à identifier et extraire efficacement la voix du locuteur souhaité.

Cet extracteur ne nécessite pas d'enregistrements préalables de la voix du locuteur, ce qui simplifie le processus. Au lieu de ça, il peut créer un profil vocal unique basé sur l'audio détecté du locuteur cible.

Comment fonctionne l'extracteur de sons proches

L'extracteur de sons proches fonctionne en utilisant une technique appelée mappage spectral. Cette méthode identifie les parties réelles et imaginaires des signaux audio, permettant au modèle de prédire les composants audio de chaque locuteur. Le modèle se compose de plusieurs couches, chacune affinant les données audio étape par étape.

Au cœur de cet extracteur se trouve une fonctionnalité d'auto-inscription de l'embedding de locuteur. Cela signifie que le modèle peut apprendre à connaître la voix unique du locuteur pendant le processus d'extraction, éliminant ainsi le besoin d'une inscription préalable.

Le processus d'embedding de locuteur

Pendant l'extraction, le modèle encode les signaux audio pour créer une représentation de l'identité du locuteur. Cela prend en compte les caractéristiques de la voix du locuteur, aidant à séparer son discours des autres. En traitant continuellement l'audio, le modèle peut s'adapter à différentes voix et récupérer la voix du locuteur cible même en présence d'interruptions ou de bruit.

Modélisation pleine et sous-bande

L'extracteur de sons proches utilise également la modélisation pleine et sous-bande. Cela aide le modèle à se concentrer sur différentes caractéristiques du signal audio. En prêtant attention aux aspects temporels et de fréquence du son, l'extracteur peut filtrer efficacement le bruit indésirable tout en préservant la clarté du discours cible.

Entraînement de l'extracteur

Pour entraîner l'extracteur de sons proches, un ensemble de données de discours enregistrés est utilisé. Ces enregistrements sont mélangés de plusieurs manières pour simuler différents environnements, comme des pièces calmes et des rassemblements bruyants. Le modèle est entraîné à reconnaître et extraire la voix cible de ces mélanges. Il apprend à distinguer les sons proches de ceux qui sont plus éloignés.

Le processus d'entraînement implique de régler le modèle pour améliorer sa précision au fil du temps. Cela inclut le réglage de sa capacité à gérer différents niveaux de bruit et d'interférences provenant d'autres locuteurs.

Performance de l'extracteur de sons proches

Des tests ont montré que l'extracteur de sons proches fonctionne bien dans divers scénarios difficiles. Il produit non seulement des signaux audio plus clairs, mais sépare également les voix efficacement dans des environnements avec plusieurs locuteurs. Comparé aux modèles précédents, cet nouvel extracteur montre des améliorations significatives, surtout dans des environnements qui imitent des situations réelles.

Apprentissage multitâche

Pour améliorer encore ses performances, l'extracteur de sons proches utilise une approche d'apprentissage multitâche. Ça veut dire qu'il est formé pour se concentrer sur plusieurs objectifs en même temps. Par exemple, tout en visant à améliorer la clarté de la parole extraite, il apprend aussi à identifier qui parle. Ce double objectif garantit que le modèle est non seulement efficace pour séparer les sons, mais aussi pour reconnaître différents locuteurs.

Conclusion

L'extracteur de sons proches représente un pas en avant significatif dans le domaine du traitement audio. En combinant des techniques innovantes et en réduisant le besoin d'infos préalables sur le locuteur, ce modèle facilite l'isolement et la compréhension de la parole dans des environnements bruyants. À mesure que la technologie audio continue d'évoluer, des méthodes comme celle-ci joueront un rôle essentiel dans l'amélioration de la communication dans notre vie quotidienne.

Que ce soit dans des réunions, des cours ou des rassemblements sociaux, la capacité de se concentrer sur une voix spécifique au milieu du bruit peut grandement améliorer notre expérience d'écoute. Les avancées dans la technologie TSE annoncent un futur prometteur pour une communication audio plus claire et plus efficace.

Source originale

Titre: Focus on the Sound around You: Monaural Target Speaker Extraction via Distance and Speaker Information

Résumé: Previously, Target Speaker Extraction (TSE) has yielded outstanding performance in certain application scenarios for speech enhancement and source separation. However, obtaining auxiliary speaker-related information is still challenging in noisy environments with significant reverberation. inspired by the recently proposed distance-based sound separation, we propose the near sound (NS) extractor, which leverages distance information for TSE to reliably extract speaker information without requiring previous speaker enrolment, called speaker embedding self-enrollment (SESE). Full- & sub-band modeling is introduced to enhance our NS-Extractor's adaptability towards environments with significant reverberation. Experimental results on several cross-datasets demonstrate the effectiveness of our improvements and the excellent performance of our proposed NS-Extractor in different application scenarios.

Auteurs: Jiuxin Lin, Peng Wang, Heinrich Dinkel, Jun Chen, Zhiyong Wu, Zhiyong Yan, Yongqing Wang, Junbo Zhang, Yujun Wang

Dernière mise à jour: 2023-10-07 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2306.16241

Source PDF: https://arxiv.org/pdf/2306.16241

Licence: https://creativecommons.org/licenses/by-sa/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires