Simple Science

La science de pointe expliquée simplement

# Génie électrique et science des systèmes# Traitement de l'audio et de la parole# Son

Avancement de l'extraction de la voix du locuteur dans les médias audio-visuels avec SEANet

SEANet améliore l'isolement des intervenants en réduisant le bruit dans le traitement audio.

― 8 min lire


SEANet : Extraction audioSEANet : Extraction audiode nouvelle générationla parole dans le bruit.Transformer comment les machines gèrent
Table des matières

Dans notre vie quotidienne, on se retrouve souvent dans des situations où on doit écouter une personne en particulier en ignorant le bruit de fond et les autres voix autour. Cette capacité, qu'on appelle l'Attention Auditive Sélective, nous permet de nous concentrer sur un orateur même dans des environnements bruyants. Les chercheurs en traitement audio travaillent à reproduire cette capacité dans des machines, notamment dans le domaine de l'extraction du locuteur cible audio-visuel (AV-TSE).

L'AV-TSE est une technologie qui vise à extraire la voix d'une personne spécifique d'un mélange audio à l'aide d'indices visuels, comme les mouvements de ses lèvres. La plupart des méthodes existantes se concentrent sur l'association du discours avec les mouvements de lèvres correspondants. Cependant, ces méthodes ont souvent du mal avec le bruit de fond et les autres voix, ce qui donne des résultats médiocres dans des situations difficiles.

Pour résoudre ces problèmes, une nouvelle approche appelée réseau de soustraction et d'extraction (SEANet) a été développée. Cette méthode vise à améliorer l'extraction de la voix du locuteur cible tout en minimisant l'impact du bruit de fond et d'autres sons perturbateurs.

Le besoin d'extraction de locuteur cible

Dans de nombreuses situations sociales, on fait face à un mélange de voix provenant de différents locuteurs accompagnées de bruit de fond. Les techniques traditionnelles de séparation de discours fonctionnent pour isoler la voix de chaque locuteur dans ce mélange, mais rencontrent des difficultés pour déterminer quelle voix appartient à quelle personne. C'est là qu'intervient l'extraction du locuteur cible.

Au lieu d'essayer de séparer toutes les voix, l'extraction du locuteur cible se concentre sur une voix spécifique. En utilisant des références visuelles, comme les mouvements de lèvres du locuteur cible, le système peut mieux isoler son discours. Cette technologie a des applications significatives dans des domaines tels que les systèmes de reconnaissance vocale, la visioconférence et la réalité augmentée.

Comment fonctionne l'AV-TSE ?

La base de l'extraction de locuteur cible audio-visuelle est la relation entre les mouvements de lèvres et le discours correspondant. Lorsqu'une personne parle, ses lèvres bougent d'une manière qui correspond aux sons qu'elle produit. En analysant les données audio et visuelles synchronisées, une machine peut apprendre à associer des mouvements de lèvres spécifiques avec les signaux audio corrects.

En pratique, les systèmes AV-TSE peuvent fonctionner sans avoir besoin de savoir combien de locuteurs sont présents. Ils s'appuient sur les indices visuels du visage du locuteur cible pour se concentrer uniquement sur sa voix. Cela peut être particulièrement utile dans diverses applications, comme améliorer la communication dans des environnements bruyants ou renforcer les capacités d'audition des robots.

Le défi du bruit

L'un des principaux défis de l'extraction de locuteur cible audio-visuelle est la présence de bruit. Les sons de fond, l'interférence d'autres locuteurs et d'autres éléments peuvent perturber le système et entraîner des erreurs dans le processus d'extraction. La plupart des méthodes actuelles se concentrent sur l'extraction mais négligent souvent les caractéristiques du bruit, ce qui peut entraîner des signaux incorrects extraits.

Pour contrer cela, le SEANet introduit un nouveau mécanisme appelé attention auditive sélective inversée. Cette approche permet au système de se concentrer sur ce qui est important tout en apprenant à filtrer le bruit indésirable. En comprenant les caractéristiques du bruit, le SEANet peut éviter d'extraire par erreur des signaux provenant de sources incorrectes.

Le cadre SEANet

Le cadre SEANet est conçu pour fonctionner en mettant en œuvre une stratégie de soustraction en plus de la méthode d'extraction traditionnelle. Cette combinaison permet au système de supprimer les bruits indésirables tout en extrayant la voix du locuteur cible.

Attention auditive sélective inversée

Au cœur du SEANet se trouve le mécanisme d'attention auditive sélective inversée. Ce mécanisme encourage le système à analyser à la fois la voix du locuteur cible et le bruit de manière organisée. Ce faisant, il apprend à distinguer entre l'audio souhaité et les interférences.

Apprentissage parallèle du discours et du bruit

Le SEANet utilise un bloc spécial appelé bloc d'apprentissage parallèle du discours et du bruit (PSNL). Ce bloc travaille à estimer à la fois le discours cible et le bruit présent dans l'audio. En apprenant des deux sources en même temps, le SEANet peut améliorer sa capacité à se concentrer sur la voix du locuteur cible tout en ignorant le bruit.

Encodage audio et visuel

Pour obtenir une extraction efficace, le SEANet utilise deux encodeurs : un pour l'entrée audio et un autre pour l'entrée visuelle. L'encodeur audio décompose le signal audio dans un format que la machine peut comprendre, tandis que l'encodeur visuel traite les images vidéo des mouvements de lèvres du locuteur cible. En combinant ces deux sources d'information, le SEANet peut apprendre efficacement les relations entre le discours et les mouvements de lèvres.

Résultats expérimentaux

Pour évaluer la performance du SEANet, des expériences complètes ont été réalisées en utilisant divers ensembles de données. À travers ces tests, le SEANet a été comparé à des méthodes existantes et a montré des capacités d'extraction supérieures sur plusieurs métriques.

Évaluation dans le domaine

L'évaluation dans le domaine fait référence à des tests du SEANet sur des ensembles de données sur lesquels il a été entraîné. Les résultats ont montré que le SEANet surpassait systématiquement les méthodes précédentes dans des métriques telles que la qualité du discours et l'intelligibilité. Ces résultats soulignent l'efficacité de l'incorporation des caractéristiques du bruit dans le processus d'extraction, permettant au SEANet de fournir des sorties vocales plus claires et plus précises.

Évaluation croisée

L'évaluation croisée consiste à tester le modèle sur des ensembles de données différents de ceux sur lesquels il a été entraîné. Le SEANet a maintenu une forte performance dans ce scénario également. Même lorsqu'il était confronté à des environnements variés et à des niveaux de bruit différents, sa capacité à différencier la voix du locuteur cible et le bruit de fond s'est révélée bénéfique.

Comparaison avec des modèles de référence

Dans le cadre expérimental, le SEANet a été comparé à trois méthodes AV-TSE bien connues. Il a systématiquement montré des améliorations tant en performance qu'en qualité d'extraction. Les résultats ont suggéré que la compréhension intégrée du bruit par le SEANet donne un avantage significatif par rapport à d'autres modèles.

Application du SEANet

Les avancées réalisées avec le SEANet ont des implications prometteuses pour de nombreuses applications réelles. Voici quelques domaines clés où cette technologie peut être bénéfique :

Systèmes de reconnaissance vocale

Le SEANet peut améliorer les technologies de reconnaissance vocale en rendant le discours extrait plus clair. Cela conduira à une meilleure précision dans les systèmes d'activation vocale, les rendant plus fiables dans l'utilisation quotidienne.

Visioconférence

Dans des situations où plusieurs locuteurs sont présents, comme des réunions ou des interviews, le SEANet peut aider à isoler la voix d'un locuteur spécifique. Cela peut grandement améliorer la qualité de la communication à distance, permettant aux participants de se concentrer sur un orateur sans distraction.

Réalité augmentée et robotique

Intégrer le SEANet dans des applications de réalité augmentée peut améliorer l'interaction avec les utilisateurs. Pour les robots, de meilleures capacités de traitement audio leur permettront de comprendre les commandes humaines plus efficacement, améliorant ainsi leur fonctionnalité dans diverses tâches.

Travaux futurs

En regardant vers l'avenir, plusieurs domaines potentiels s'offrent à la recherche et au développement. Les travaux futurs pourraient impliquer de perfectionner davantage le mécanisme d'attention auditive sélective inversée, d'explorer son applicabilité à d'autres domaines, et d'appliquer des principes similaires à des scénarios uniquement audio. De plus, comprendre les rôles des différents indices visuels pourrait conduire à des solutions encore plus sophistiquées pour l'extraction du locuteur cible.

Conclusion

Le développement du SEANet marque un pas significatif en avant dans le domaine de l'extraction de locuteur cible audio-visuelle. En gérant efficacement le bruit et en améliorant la clarté du discours, le SEANet a montré son potentiel pour améliorer diverses applications dans le traitement de la parole. Alors que les chercheurs continuent d'innover, le rêve de machines capables d'imiter la concentration auditive humaine devient de plus en plus proche de la réalité. La quête de systèmes audio intelligents capables de comprendre et d'interagir avec le monde comme les humains représente une frontière passionnante dans la technologie.

Source originale

Titre: Audio-Visual Target Speaker Extraction with Reverse Selective Auditory Attention

Résumé: Audio-visual target speaker extraction (AV-TSE) aims to extract the specific person's speech from the audio mixture given auxiliary visual cues. Previous methods usually search for the target voice through speech-lip synchronization. However, this strategy mainly focuses on the existence of target speech, while ignoring the variations of the noise characteristics. That may result in extracting noisy signals from the incorrect sound source in challenging acoustic situations. To this end, we propose a novel reverse selective auditory attention mechanism, which can suppress interference speakers and non-speech signals to avoid incorrect speaker extraction. By estimating and utilizing the undesired noisy signal through this mechanism, we design an AV-TSE framework named Subtraction-and-ExtrAction network (SEANet) to suppress the noisy signals. We conduct abundant experiments by re-implementing three popular AV-TSE methods as the baselines and involving nine metrics for evaluation. The experimental results show that our proposed SEANet achieves state-of-the-art results and performs well for all five datasets. We will release the codes, the models and data logs.

Auteurs: Ruijie Tao, Xinyuan Qian, Yidi Jiang, Junjie Li, Jiadong Wang, Haizhou Li

Dernière mise à jour: 2024-05-08 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2404.18501

Source PDF: https://arxiv.org/pdf/2404.18501

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires