Avancer le matching de style audio avec des effets traditionnels
Une nouvelle méthode simplifie le transfert de style audio en utilisant des effets non-différentiables.
― 9 min lire
Table des matières
Les Effets audio, c'est des outils que les ingés son utilisent pour changer comment on entend les sons. Ces effets peuvent modifier des trucs comme le volume, la tonalité et le temps. Mais avec autant de réglages dispo, ça peut vite devenir compliqué pour les nouveaux utilisateurs et ralentir les pros qui veulent être créatifs. Récemment, on a vu des efforts pour utiliser l'apprentissage profond pour ajuster automatiquement ces réglages en comparant un morceau audio à une piste de référence. Ce truc s'appelle le Transfert de style.
Pas mal de méthodes actuelles s'appuient sur des systèmes compliqués qui n'allowent pas des changements faciles de réglages une fois qu'ils sont fixés ou qui exigent que les effets soient construits d'une certaine manière. Du coup, ça limite leur utilisation parce que beaucoup d'effets audio populaires sont fabriqués avec différentes technologies. Notre boulot essaie de combler ces manques en proposant une manière d'associer des styles audio en utilisant des effets audio normaux qui n'ont pas besoin d'être différentiables.
On veut rendre l'appariement des styles audio plus simple et flexible. Notre méthode peut fonctionner avec une plus grande variété d'effets audio et ne nécessite pas que les effets soient dans des formats spéciaux. En utilisant un genre particulier de Réseau de neurones, on peut prendre des Caractéristiques audio et les transformer en réglages pour différents effets. Le processus commence par entraîner un Autoencodeur Variationnel (VAE) pour capturer des caractéristiques audio importantes, qui sont ensuite utilisées pour matcher des styles entre deux pistes audio.
L'Importance des Effets Audio
Les effets audio numériques jouent un rôle crucial dans la production musicale et le design sonore. Ils aident à créer un son poli et pro. Cependant, avec un grand nombre de réglages ajustables, les débutants peuvent se sentir dépassés, et les pros peuvent passer trop de temps à peaufiner ces réglages pour obtenir les résultats désirés.
Les modèles d'apprentissage machine sont de plus en plus utilisés pour aider à gérer ces effets. Ces modèles peuvent enlever le tracas des ajustements manuels, rendant plus rapide et facile la transformation audio à la qualité désirée. Certaines solutions récentes ont utilisé une méthode qui nécessite un traitement de signal numérique différentiable, ce qui facilite l'entraînement mais limite la flexibilité dans le choix des effets.
La plupart des effets audio commerciaux sont conçus pour des tâches spécifiques et ne peuvent pas être facilement adaptés à des systèmes nécessitant un traitement différentiable. Ça peut rendre les utilisateurs hésitants à adopter de nouvelles méthodes quand ils sont à l'aise avec leurs outils existants.
Notre Approche
Dans notre travail, on a développé une méthode qui peut associer des styles audio en utilisant des effets audio traditionnels qui n'ont pas besoin d'être différentiables. On a entraîné un VAE pour apprendre des caractéristiques audio à partir d'une gamme d'effets. Ce modèle aide ensuite à créer des représentations conjointes de l'audio source et cible. Un réseau de neurones simple prend ensuite ces représentations et les transforme en réglages nécessaires pour l'effet utilisé.
Pour faciliter le processus d'apprentissage, on a mis en place une technique pour estimer les gradients, ce qui nous permet d'utiliser efficacement des paramètres non différentiables. Après avoir entraîné le modèle VAE, on fige certaines parties du réseau, donc on peut réentraîner le réseau de contrôle pour différents effets non vus plus tard.
Contributions Principales
Notre travail introduit un encodeur audio pré-entraîné qui aide dans les tâches de production audio. Cet encodeur permet une meilleure stabilité dans l'entraînement et une performance améliorée dans l'appariement de styles sans avoir à tout réentraîner à chaque fois. Ça rend notre méthode plus efficace dans une plus grande variété d'applications.
Bien qu'on ait fait de grands pas, il reste du boulot à faire pour appliquer notre méthode à des effets qui n'ont pas été vus lors de l'entraînement. On est super contents de partager notre implémentation open-source et de fournir des exemples des transformations audio réalisées grâce à notre méthode.
Travaux Connexes
Ces dernières années, l'apprentissage profond a trouvé plein d'utilisations dans le traitement audio, de la génération de discours à la classification de genres musicaux. Un domaine a été d'appliquer l'apprentissage profond pour modéliser des équipements analogiques. Par exemple, des efforts ont été faits pour modéliser des amplis de guitare vintage qui produisent des sons uniques grâce à leurs composants spécifiques.
Certains chercheurs ont aussi essayé d'utiliser des méthodes qui combinent le traitement audio traditionnel avec l'apprentissage profond. Ça a permis de créer des systèmes qui peuvent ajuster leurs paramètres selon les entrées des utilisateurs. Cependant, ces approches viennent souvent avec des défis, y compris le besoin de programmation différentiable ou exigent de réentraîner pour chaque réglage d'effet différent.
L'utilisation de réseaux siamés est une autre méthode courante dans le transfert de style audio. Ces réseaux peuvent apprendre des représentations de l'audio source et cible, ce qui les rend utiles pour diverses tâches, y compris le contrôle des effets audio.
Architecture du Modèle
Notre modèle commence avec un VAE qui reconstruit le spectrogramme (représentation visuelle du son) de l'audio d'entrée. Le but clé est d'extraire des caractéristiques qui peuvent être étroitement liées aux réglages de divers effets audio. L'architecture inclut plusieurs couches qui construisent progressivement un espace latent où des informations audio importantes sont capturées.
Le VAE se compose de couches convolutionnelles suivies de couches linéaires pour obtenir une représentation compacte de l'audio d'entrée. Le décodeur reconstruit ensuite le spectrogramme à partir de cet espace latent.
Pour relier cette représentation aux paramètres des effets audio, on utilise un réseau feed-forward simple qui prend les encodages combinés de l'entrée et de la référence, les cartographiant aux réglages nécessaires pour l'effet audio. Ce réseau est structuré avec plusieurs couches cachées et utilise des fonctions de normalisation et d'activation pour assurer un apprentissage efficace.
Génération de Dataset
Pour entraîner notre modèle, on a utilisé une collection de plugins audio open-source. Ces plugins couvrent divers types d'effets audio et sont populaires dans la production audio réelle. On a spécifiquement choisi des effets qui ajustent des paramètres continus pour s'aligner avec nos méthodes d'estimation des gradients.
Notre dataset a été construit en échantillonnant divers enregistrements audio et en appliquant différents effets audio pour créer un dataset d'entraînement diversifié. On a utilisé des techniques comme le décalage de hauteur et de temps pour augmenter nos données et accroître la variété. Chaque échantillon d'entraînement a été divisé en patches, avec un servant d'entrée et l'autre comme référence pendant l'entraînement.
Entraînement du Modèle
Lors de l'entraînement du VAE, on a sélectionné des effets audio spécifiques à travailler avec. Cette stratégie a permis au modèle d'apprendre de différents types de changements audio et de mieux généraliser. Les spectrogrammes ont été traités pour améliorer la visibilité et renforcer la capacité du modèle à capturer des informations audio critiques.
On a ensuite entraîné le réseau de bout en bout pour effectuer l'appariement de style. Pendant cette phase, on s'est concentré sur la minimisation de la différence entre les sorties prédites et l'audio réel pour peaufiner encore plus le modèle.
Résultats et Évaluation
Après l'entraînement, on a évalué notre encodeur audio en testant à quel point il classait bien les différents effets audio. Les résultats étaient positifs, montrant que notre méthode pouvait différencier avec précision les effets.
Pour notre réseau de bout en bout, on a comparé sa performance sur différents datasets et effets audio. Bien que notre approche ait montré du potentiel, elle a parfois mal performé par rapport aux méthodes de référence, surtout pour les effets qui produisent des changements de son moins marqués.
Des tests d'écoute ont été réalisés pour recueillir des retours sur la façon dont notre modèle a matché les styles audio. Les participants ont noté différents échantillons audio, fournissant des infos sur la qualité du transfert de style. Les résultats ont indiqué que notre réseau performait mieux avec certains effets-surtout quand les changements de qualité audio étaient plus évidents.
Conclusion
En résumé, on a développé une méthode pour transférer des styles audio en utilisant des effets traditionnels qui ne nécessitent pas de méthodes de traitement différentiable. Bien qu'on ait fait des avancées importantes pour améliorer le processus d'appariement des styles, on a aussi reconnu des domaines nécessitant des améliorations, en particulier lors de l'application de notre méthode à des effets audio non vus. Les travaux futurs se concentreront sur le perfectionnement de l'encodeur et son adaptation à des classes d'effets spécifiques pour augmenter son efficacité dans les tâches de production audio.
Titre: Style Transfer for Non-differentiable Audio Effects
Résumé: Digital audio effects are widely used by audio engineers to alter the acoustic and temporal qualities of audio data. However, these effects can have a large number of parameters which can make them difficult to learn for beginners and hamper creativity for professionals. Recently, there have been a number of efforts to employ progress in deep learning to acquire the low-level parameter configurations of audio effects by minimising an objective function between an input and reference track, commonly referred to as style transfer. However, current approaches use inflexible black-box techniques or require that the effects under consideration are implemented in an auto-differentiation framework. In this work, we propose a deep learning approach to audio production style matching which can be used with effects implemented in some of the most widely used frameworks, requiring only that the parameters under consideration have a continuous domain. Further, our method includes style matching for various classes of effects, many of which are difficult or impossible to be approximated closely using differentiable functions. We show that our audio embedding approach creates logical encodings of timbral information, which can be used for a number of downstream tasks. Further, we perform a listening test which demonstrates that our approach is able to convincingly style match a multi-band compressor effect.
Auteurs: Kieran Grant
Dernière mise à jour: 2023-09-29 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2309.17125
Source PDF: https://arxiv.org/pdf/2309.17125
Licence: https://creativecommons.org/licenses/by-nc-sa/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.