Simple Science

La science de pointe expliquée simplement

# Génie électrique et science des systèmes# Son# Traitement de l'audio et de la parole

Avancées dans l'amélioration de la parole : présentation de D2Former

Le modèle D2Former améliore la qualité du son dans des environnements bruyants grâce à des techniques de traitement audio innovantes.

― 7 min lire


D2Former : Une nouvelleD2Former : Une nouvelleère dans la paroledans des environnements bruyants.Un modèle innovant améliore la parole
Table des matières

L'amélioration de la parole monaurale, c'est un processus qui vise à améliorer la qualité de la parole mélangée avec du bruit de fond. C'est super important, surtout dans des domaines comme la communication orale et la reconnaissance vocale automatique, où un son clair est nécessaire. Mais améliorer la parole d'une seule source audio, c'est pas simple à cause des différentes manières dont le bruit peut affecter le son.

Le Défi de l'Amélioration de la Parole Monaurale

Au début, la recherche se concentrait surtout sur le fait d'augmenter le volume de la parole sans vraiment tenir compte de l'impact du bruit sur la texture du son. Des études récentes montrent qu'estimer correctement la texture du son, en particulier sa phase, peut vraiment améliorer la qualité de la parole. Ça a conduit à de nouvelles méthodes qui se concentrent soit sur l'estimation de phase, soit qui travaillent directement sur les ondes audio brutes. Les méthodes qui analysent le son par segments, en utilisant ce qu'on appelle la transformée de Fourier à court terme (STFT), sont devenues la méthode de choix. En examinant le son en segments temps-fréquence, les chercheurs peuvent mieux séparer la parole du bruit.

Pour améliorer le son efficacement, les chercheurs ont développé deux approches principales : le masquage de ratio complexe et le mapping spectral complexe. Les deux fonctionnent d'une manière complexe, c'est-à-dire qu'ils prennent en compte à la fois le son utilisable et son bruit ensemble. Le masque de ratio complexe est montré comme étant plus performant que ses homologues plus simples, et le mapping spectral complexe s'avère aussi plus efficace que de simplement augmenter le volume. Cependant, beaucoup d'études tendent à se concentrer sur une seule approche, perdant ainsi les bénéfices potentiels de les combiner.

Présentation de D2Former

Pour relever ces défis, un nouveau modèle appelé D2Former a été proposé. Ce modèle est basé sur un réseau à double chemin et double décodeur qui opère dans le domaine audio complexe. L'objectif de D2Former est de fusionner les avantages du masquage complexe et du mapping spectral en un modèle efficace.

D2Former est conçu pour gérer des entrées audio qui sont déjà au format complexe, ce qui signifie qu'il peut regarder à la fois le son et le bruit ensemble de manière plus intégrée. L'architecture comprend un encodeur à double chemin complexe, un bloc conformer qui traite l'audio en couches, et deux décodeurs séparés pour s'occuper des tâches de masquage et spectrales.

Architecture de D2Former

Le design de D2Former inclut plusieurs parties clés :

  • Encodeur à Double Chemin Complexe : Cette partie décompose l'audio entrant en éléments qui peuvent être analysés plus facilement. Elle utilise des techniques avancées qui lui permettent de regarder l'audio à la fois dans le temps et la fréquence, ce qui signifie qu'elle peut comprendre comment les sons changent au fil du temps et comment différentes fréquences interagissent.

  • Bloc Conformer à Double Chemin Complexe : Cette section aide à modéliser les relations dans la séquence audio. Elle capture efficacement à la fois des motifs locaux et globaux dans le son, s'assurant que le système apprend le contexte des sons avec précision.

  • Décodeurs pour le Masquage et le Mapping Spectral : D2Former dispose de deux décodeurs séparés. L'un se concentre sur la création d'un masque complexe qui améliore le son, tandis que l'autre travaille sur la représentation spectrale de l'audio. En traitant l'audio de cette manière, le modèle peut produire un son plus clair qui est moins affecté par le bruit.

Avantages du Modèle D2Former

Le modèle D2Former se distingue par rapport aux approches précédentes. Les modèles antérieurs traitaient souvent l'audio comme des parties séparées et travaillaient avec des nombres réels, ce qui pouvait passer à côté de propriétés riches du son qui peuvent être capturées avec des valeurs complexes. L'approche complexe de D2Former lui permet d'apprendre plus efficacement les relations entre les différentes parties du son.

Amélioration des Performances

D2Former obtient des résultats impressionnants sur des benchmarks largement utilisés, montrant de meilleures performances que de nombreux modèles précédents. Il le fait tout en restant relativement petit, ce qui est essentiel pour des applications pratiques. Sa capacité à combiner masquage et mapping spectral dans une seule structure conduit à une performance plus robuste.

Efficacité du Modèle

L'efficacité est cruciale dans l'amélioration de la parole. D2Former utilise une structure à double décodeur, ce qui aide à apprendre à partir des tâches de masquage et de mapping spectral. Cela permet non seulement une formation plus complète mais aide aussi le modèle à récupérer les informations perdues plus efficacement.

L'Importance de l'Entraînement

L'entraînement de D2Former a impliqué l'utilisation d'un mélange de différentes fonctions de perte pour s'assurer qu'il apprend aussi efficacement que possible. En équilibrant différents aspects de l'audio pendant l'entraînement, le modèle peut améliorer la qualité de sa sortie. Ce processus est nécessaire car il prend en compte à la fois l'intensité et la qualité du son.

Applications du Monde Réel

D2Former a une variété d'utilisations pratiques. Par exemple, dans des appareils comme les smartphones, il peut améliorer les appels vocaux en filtrant le bruit de fond. Dans les services de transcription automatisée, il aide à créer un texte plus précis à partir des mots prononcés, surtout dans des environnements bruyants. Il peut également être bénéfique dans les aides auditives, où un son clair est essentiel pour les utilisateurs.

Directions Futures

Bien que D2Former représente un pas en avant significatif, il y a toujours de la place pour l'amélioration. Les recherches futures pourraient se concentrer sur le perfectionnement de son architecture pour améliorer les performances. Cela pourrait inclure des expériences avec différents types de réseaux neuronaux ou l'ajustement des techniques d'entraînement pour voir comment elles influencent les résultats.

De plus, tester D2Former dans des environnements plus variés aidera à garantir qu'il fonctionne bien dans divers scénarios de la vie réelle, le rendant encore plus fiable pour les utilisateurs. Élargir cette technologie pour fonctionner avec de l'audio stéréo et multi-canaux pourrait également ouvrir de nouvelles possibilités, permettant des applications dans la production musicale et la conception sonore.

Conclusion

L'amélioration de la parole monaurale est un défi complexe et en cours dans le domaine de la technologie audio. L'introduction de D2Former marque un avancement significatif dans notre approche de ce problème en s'appuyant sur une architecture complexe à double chemin. Ce modèle combine des techniques importantes dans le traitement audio et démontre le potentiel pour une meilleure qualité sonore dans des environnements bruyants. Un travail continu dans ce domaine devrait mener à des solutions encore plus raffinées, améliorant la clarté audio dans les communications quotidiennes et ouvrant de nouvelles voies dans les domaines de la reconnaissance vocale automatisée et au-delà.

Source originale

Titre: D2Former: A Fully Complex Dual-Path Dual-Decoder Conformer Network using Joint Complex Masking and Complex Spectral Mapping for Monaural Speech Enhancement

Résumé: Monaural speech enhancement has been widely studied using real networks in the time-frequency (TF) domain. However, the input and the target are naturally complex-valued in the TF domain, a fully complex network is highly desirable for effectively learning the feature representation and modelling the sequence in the complex domain. Moreover, phase, an important factor for perceptual quality of speech, has been proved learnable together with magnitude from noisy speech using complex masking or complex spectral mapping. Many recent studies focus on either complex masking or complex spectral mapping, ignoring their performance boundaries. To address above issues, we propose a fully complex dual-path dual-decoder conformer network (D2Former) using joint complex masking and complex spectral mapping for monaural speech enhancement. In D2Former, we extend the conformer network into the complex domain and form a dual-path complex TF self-attention architecture for effectively modelling the complex-valued TF sequence. We further boost the TF feature representation in the encoder and the decoders using a dual-path learning structure by exploiting complex dilated convolutions on time dependency and complex feedforward sequential memory networks (CFSMN) for frequency recurrence. In addition, we improve the performance boundaries of complex masking and complex spectral mapping by combining the strengths of the two training targets into a joint-learning framework. As a consequence, D2Former takes fully advantages of the complex-valued operations, the dual-path processing, and the joint-training targets. Compared to the previous models, D2Former achieves state-of-the-art results on the VoiceBank+Demand benchmark with the smallest model size of 0.87M parameters.

Auteurs: Shengkui Zhao, Bin Ma

Dernière mise à jour: 2023-02-23 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2302.11832

Source PDF: https://arxiv.org/pdf/2302.11832

Licence: https://creativecommons.org/licenses/by-nc-sa/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires