Améliorer l'extraction du locuteur cible avec des indices visuels
Un nouveau modèle améliore l'extraction de la parole en utilisant des infos audio et visuelles.
― 7 min lire
Table des matières
L'extraction de la parole d'un locuteur cible (TSE) vise à capturer la voix d'une personne spécifique au milieu d'autres voix et du bruit de fond. Cette technique est super importante pour plein d'usages quotidiens, comme les appareils auditifs, la reconnaissance vocale, la vérification des locuteurs et la surveillance vocale. Contrairement à d'autres méthodes qui séparent les sons sans savoir sur qui se concentrer, la TSE s'appuie sur des infos supplémentaires pour identifier le locuteur cible.
Les indices visuels, surtout les mouvements des lèvres, peuvent vraiment aider avec la TSE. Ces indices ne sont pas affectés par le bruit de fond, ce qui les rend fiables. En plus, on peut souvent deviner ce qui se dit juste en regardant les lèvres de quelqu'un. Ça rend l'utilisation d'infos visuelles pratique, car ça ne nécessite pas de connaître le locuteur à l'avance.
Défis dans la TSE audio-visuelle
Les méthodes TSE actuelles rencontrent souvent des défis quand il s'agit de combiner les infos audio et visuelles. En général, les données visuelles sont accélérées pour correspondre au timing des données audio. Mais ça peut poser des problèmes, car le timing des signaux audio est beaucoup plus fin que celui des signaux visuels. Par exemple, les données audio peuvent avoir un taux beaucoup plus élevé que ce que la vidéo capte.
Par exemple, alors que la vidéo fonctionne souvent à 25 images par seconde (FPS), l'audio peut avoir un taux d'échantillonnage beaucoup plus élevé, jusqu'à 200 FPS dans certains cas. Un tel décalage peut réduire les performances des systèmes TSE. Du coup, il est essentiel d'aligner les entrées audio et visuelles plus précisément pour améliorer les résultats.
Modèle proposé
Pour relever ces défis, on présente un nouveau modèle qui fonctionne bien pour la TSE. Ce modèle est conçu pour gérer à la fois les données audio et visuelles à leurs vitesses respectives. Il fait ça en découpant l'audio en morceaux plus petits et gérables. Ça permet à la longueur des entrées audio de correspondre à celle des entrées visuelles.
Le modèle est composé de différentes parties qui travaillent ensemble pour affiner efficacement les infos audio et visuelles. Les trois principales composantes sont :
- IntraTransformer
- InterTransformer
- CrossModalTransformer
IntraTransformer
IntraTransformer se concentre sur l'affinage des données audio en petits segments. Il applique des techniques d'attention dans chaque segment audio pour extraire des caractéristiques détaillées.
InterTransformer
InterTransformer adopte une approche plus large. Il examine les données audio et visuelles combinées pour capturer le contexte général et les relations entre elles. C'est essentiel pour comprendre comment les signaux audio et visuels interagissent sur une plus longue durée.
CrossModalTransformer
CrossModalTransformer travaille à rassembler les caractéristiques audio et visuelles. Il utilise des techniques d'attention pour mélanger les deux types de données de manière significative, permettant au modèle d'apprendre des deux simultanément.
Codage positionnel 2D
Un aspect important de notre modèle est la façon dont il représente la position des points de données dans les entrées audio et visuelles. Les méthodes de codage positionnel classiques sont insuffisantes car elles traitent les données comme unidimensionnelles. Comme notre modèle gère les données en deux dimensions, on introduit une nouvelle méthode qui prend en compte les positions horizontales et verticales.
Cette amélioration permet au modèle d'avoir une compréhension plus claire des relations au sein de chaque segment audio et entre les entrées audio et visuelles.
Codage audio et visuel
Le modèle commence avec des encodeurs séparés pour les données audio et visuelles.
Encodeur audio
L'encodeur audio extrait des caractéristiques des sons de parole mélangés. Il utilise une technique appelée convolution 1D pour traiter l'audio rapidement et efficacement. L'audio est découpé en segments, préparant le terrain pour une analyse plus poussée.
Encodeur visuel
L'encodeur visuel traite les données vidéo, en se concentrant spécifiquement sur les mouvements des lèvres. Il utilise des méthodes pré-entraînées pour convertir les images vidéo en caractéristiques visuelles utiles. Les deux encodeurs fonctionnent ensemble, mais les données doivent être synchronisées correctement pour s'assurer qu'elles s'alignent dans le temps.
Séparateur
Une fois que les caractéristiques audio et visuelles sont prêtes, elles passent par un composant appelé le Séparateur, qui consiste en trois transformateurs mentionnés précédemment. Cette partie du modèle se concentre sur :
- L'affinage des caractéristiques de l'audio seul.
- La fusion des caractéristiques audio et visuelles en fonction de leurs timings.
- La compréhension du contexte global des deux types de données par rapport les uns aux autres.
Le Séparateur est clé pour s'assurer que le modèle combine efficacement les données audio et visuelles, améliorant ainsi le processus d'extraction de la parole cible.
Entraînement et performance
Pour évaluer l'efficacité de notre modèle, on l'a testé sur des ensembles de données bien connus conçus pour l'extraction de locuteurs. Ces ensembles de données comprenaient divers locuteurs et niveaux de bruit de fond, ce qui nous a aidés à évaluer comment le modèle performait dans différentes conditions.
On a comparé les résultats de notre modèle avec ceux de méthodes de pointe établies. Les résultats ont indiqué que notre modèle surpasse les autres, offrant une meilleure qualité dans les signaux de parole extraits.
Résumé des résultats
À travers divers tests, y compris des comparaisons avec d'autres modèles, notre approche a montré des améliorations significatives dans la qualité des signaux de parole. Les métriques mesurées incluaient :
- Le rapport signal à distorsion invariant à l'échelle (SI-SDR) : Cela mesure à quel point la parole est claire.
- L'évaluation perceptuelle de la qualité de la parole (PESQ) : Cela mesure comment les humains perçoivent la qualité de la parole.
Notre modèle a systématiquement obtenu de meilleurs scores dans les deux domaines par rapport aux méthodes existantes. Notamment, notre modèle a généré des signaux de parole plus clairs et a fourni une meilleure expérience d'écoute globale.
Importance des indices visuels
Nos résultats soulignent l'importance d'utiliser des informations visuelles, en particulier le mouvement des lèvres, pour améliorer la performance d'extraction de la parole. Les avantages d'utiliser des indices visuels incluent :
- Ils ne sont pas affectés par le bruit de fond.
- Ils peuvent fournir des aperçus directs sur le contenu parlé.
- Ils permettent une utilisation pratique sans nécessiter l'inscription préalable du locuteur.
Conclusion
Le nouveau modèle que nous avons présenté offre une solution solide pour l'extraction de la parole cible, relevant les défis posés par les différents timings des données audio et visuelles. En s'appuyant sur des techniques de transformateur avancées et en introduisant un codage positionnel efficace, notre approche améliore le processus d'extraction global.
Nos résultats montrent la valeur de la combinaison des informations visuelles et audio, prouvant qu'un modèle à double échelle conduit à une meilleure performance. Ce travail contribue non seulement au domaine du traitement de la parole, mais promet aussi des applications concrètes dans les appareils auditifs, la reconnaissance vocale, et plus encore.
Grâce à des recherches et développements continus, nous visons à perfectionner encore nos techniques, fournissant finalement des outils encore plus efficaces pour extraire la parole dans divers environnements bruyants.
Titre: AV-SepFormer: Cross-Attention SepFormer for Audio-Visual Target Speaker Extraction
Résumé: Visual information can serve as an effective cue for target speaker extraction (TSE) and is vital to improving extraction performance. In this paper, we propose AV-SepFormer, a SepFormer-based attention dual-scale model that utilizes cross- and self-attention to fuse and model features from audio and visual. AV-SepFormer splits the audio feature into a number of chunks, equivalent to the length of the visual feature. Then self- and cross-attention are employed to model and fuse the multi-modal features. Furthermore, we use a novel 2D positional encoding, that introduces the positional information between and within chunks and provides significant gains over the traditional positional encoding. Our model has two key advantages: the time granularity of audio chunked feature is synchronized to the visual feature, which alleviates the harm caused by the inconsistency of audio and video sampling rate; by combining self- and cross-attention, feature fusion and speech extraction processes are unified within an attention paradigm. The experimental results show that AV-SepFormer significantly outperforms other existing methods.
Auteurs: Jiuxin Lin, Xinyu Cai, Heinrich Dinkel, Jun Chen, Zhiyong Yan, Yongqing Wang, Junbo Zhang, Zhiyong Wu, Yujun Wang, Helen Meng
Dernière mise à jour: 2023-06-25 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2306.14170
Source PDF: https://arxiv.org/pdf/2306.14170
Licence: https://creativecommons.org/licenses/by-sa/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.