Simple Science

La science de pointe expliquée simplement

# Génie électrique et science des systèmes# Son# Apprentissage automatique# Traitement de l'audio et de la parole

Convertir de l'audio mono en stéréo immersif

Une nouvelle méthode transforme les signaux mono en expériences stéréo captivantes.

― 7 min lire


Techniques de mono àTechniques de mono àstéréoexpériences audio.Des méthodes innovantes améliorent les
Table des matières

Transformer un signal audio Mono en un signal stéréo à deux canaux peut être compliqué. C'est essentiel pour créer une expérience sonore réaliste, surtout quand différents éléments sonores doivent être placés d'une manière spécifique. Cet article parle d'une méthode pour réaliser cette transformation en prédisant des paramètres stéréo en utilisant différentes techniques.

Pourquoi passer de Mono à Stéréo ?

Les signaux mono sont courants dans plein de situations, comme les vieux enregistrements et les actuels faits avec un seul micro. Ces enregistrements manquent souvent de la richesse du son stéréo, qu'on expérimente généralement avec des écouteurs ou des haut-parleurs. Convertir du mono en stéréo peut améliorer l'expérience d'écoute en donnant une sensation d'espace et de directionnalité.

Méthodes Traditionnelles pour Créer du Stéréo à Partir du Mono

La méthode traditionnelle pour créer un effet stéréo à partir d'une source mono implique une technique appelée décorrelation. Les premières méthodes utilisaient des délais et des filtres pour donner une impression de séparation entre les canaux gauche et droit. De nos jours, on utilise souvent des filtres all-pass, parfois combinés avec un traitement multi-bande pour améliorer l'effet stéréo. Cependant, ces méthodes donnent souvent un son stéréo limité qui ne sépare pas réalistement les différents éléments sonores.

Dans certains cas, des chercheurs ont essayé de séparer des sources sonores individuelles dans un mix, permettant plus de contrôle créatif sur le placement dans le champ stéréo. Bien que cette approche puisse donner de meilleures images spatiales, elle a ses défis. Notamment, les algorithmes de séparation peuvent introduire des artefacts indésirables, et ils ont parfois du mal à traiter efficacement la variété de sons présents dans un enregistrement typique.

Le Rôle de la Musique dans l'Imagerie Stéréo

La production musicale exploite souvent l'imagerie stéréo à des fins artistiques. Mixer des pistes avec divers instruments implique de les répartir dans le champ stéréo, ce qui nécessite à la fois des compétences techniques et une compréhension de la structure musicale. Il existe des pratiques standard pour mixer, mais le choix de placement stéréo est largement subjectif. Cette subjectivité en fait un domaine idéal pour les modèles modernes de machine learning.

La Méthode Proposée

Ce travail propose une manière de convertir du mono en stéréo en utilisant une technique appelée stéréo paramétrique (PS). La PS consiste à transmettre des informations stéréo à travers un signal mono avec des données supplémentaires qui peuvent aider à reconstruire le son stéréo original quand suffisamment de données sont disponibles.

En utilisant des techniques de machine learning, le projet vise à estimer les paramètres PS dans les cas où les données supplémentaires ne sont pas disponibles. Ces paramètres peuvent ensuite être utilisés pour traduire le signal mono en une sortie stéréo plausible.

Approches pour Générer des Paramètres PS

Deux principales méthodes sont suggérées pour générer des paramètres PS : une via une approche de plus proche voisin et une autre par le biais de modèles de deep learning. Cette dernière inclut des méthodes de modélisation autoregressive et de modélisation de token masqué.

Approche de Plus Proche Voisin

La première méthode proposée récupère les paramètres PS à partir d'enregistrements stéréo existants en utilisant un algorithme de plus proche voisin. Cela implique de trouver des cadres stéréo qui correspondent de près aux caractéristiques de l'entrée mono et d'utiliser leurs paramètres PS pour créer la sortie stéréo.

Pendant l'entraînement, le système sélectionne aléatoirement et analyse des cadres de morceaux stéréo pour stocker leurs paramètres PS liés aux cadres mono. Lors de la conversion d'un signal mono, le système identifie les correspondances les plus proches et applique leurs paramètres pour créer un effet stéréo.

Cependant, cette méthode peut entraîner un panoramique rapide ou incohérent, rendant le son instable. Pour remédier à cela, une étape de post-traitement lisse les transitions entre les cadres, réduisant les changements brusques dans le panoramique.

Approches de Deep Learning

La seconde approche utilise le deep learning pour générer des paramètres PS. Une variante utilise un modèle autoregressif, qui prédit les paramètres séquentiellement en fonction des cadres précédents. Cette méthode capture la structure sous-jacente des signaux audio et génère des effets spatiaux plus nuancés.

Une autre variante de deep learning utilise la modélisation de token masqué, qui cache aléatoirement des parties des données d'entrée pendant l'entraînement. Cela force le modèle à apprendre à prédire les parties manquantes en fonction du contexte, générant ainsi des sorties plus cohérentes.

Évaluation des Approches

Pour évaluer l'efficacité des méthodes proposées, une collection de morceaux stéréo enregistrés professionnellement est utilisée. Les résultats des tests montrent que les nouvelles approches surpassent les méthodes traditionnelles, produisant des sorties stéréo que les auditeurs trouvent plus agréables.

Les résultats des tests subjectifs indiquent que l'approche autoregressive est souvent préférée, tandis que les méthodes de plus proche voisin et de token masqué montrent aussi du potentiel. Ces résultats soulignent le potentiel de l'utilisation du machine learning pour des tâches de traitement audio qui impliquent créativité et préférences subjectives.

Mesures Objectives

En plus des évaluations subjectives, l'étude propose des métriques objectives pour évaluer la qualité des rendus stéréo. Les mesures objectives sont particulièrement difficiles en raison de la nature créative du mixage audio. Cependant, les méthodes décrites visent à fournir des métriques utiles pour évaluer la performance des processus de génération stéréo.

Limitations et Défis

Malgré les résultats prometteurs, il y a des limitations aux approches actuelles. La technique d'encodage PS peut introduire des artefacts audio, affectant la qualité globale des sorties générées. De plus, les méthodes peuvent avoir du mal à maintenir une image sonore cohérente dans le temps, avec des instruments passant de manière inattendue d'un canal à l'autre.

Un autre défi est la subjectivité de la méthodologie de test. Les auditeurs ont souvent trouvé difficile de noter plusieurs extraits audio, entraînant des incohérences dans leurs retours.

Conclusion

Cet article traite d'une approche novatrice pour convertir des signaux audio mono en stéréo en utilisant des techniques de machine learning. En appliquant des méthodes de stéréo paramétrique et différentes techniques de génération, l'étude montre qu'il est possible de produire un audio spatial que les auditeurs trouvent plus engageant et réaliste. Bien que la recherche ait des limitations, elle ouvre la porte à d'autres explorations dans des stratégies de traitement audio efficaces et créatives. Les idées obtenues peuvent mener à de meilleures méthodes d'amélioration audio dans des situations d'écoute professionnelles et décontractées.

La recherche de meilleures méthodes pour la conversion mono à stéréo pourrait grandement bénéficier à la production musicale, la restauration audio et d'autres domaines nécessitant des sorties audio de haute qualité. À mesure que la technologie progresse, il y a un potentiel pour des techniques encore plus raffinées à émerger, améliorant encore l'expérience d'écoute.

Source originale

Titre: Mono-to-stereo through parametric stereo generation

Résumé: Generating a stereophonic presentation from a monophonic audio signal is a challenging open task, especially if the goal is to obtain a realistic spatial imaging with a specific panning of sound elements. In this work, we propose to convert mono to stereo by means of predicting parametric stereo (PS) parameters using both nearest neighbor and deep network approaches. In combination with PS, we also propose to model the task with generative approaches, allowing to synthesize multiple and equally-plausible stereo renditions from the same mono signal. To achieve this, we consider both autoregressive and masked token modelling approaches. We provide evidence that the proposed PS-based models outperform a competitive classical decorrelation baseline and that, within a PS prediction framework, modern generative models outshine equivalent non-generative counterparts. Overall, our work positions both PS and generative modelling as strong and appealing methodologies for mono-to-stereo upmixing. A discussion of the limitations of these approaches is also provided.

Auteurs: Joan Serrà, Davide Scaini, Santiago Pascual, Daniel Arteaga, Jordi Pons, Jeroen Breebaart, Giulio Cengarle

Dernière mise à jour: 2023-06-26 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2306.14647

Source PDF: https://arxiv.org/pdf/2306.14647

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires