Avancement de l'appariement de son de synthétiseur avec le Transformateur de Spectrogramme Audio
Une nouvelle méthode simplifie l'accord des sons de synthétiseur pour les musiciens.
― 7 min lire
Table des matières
Les Synthétiseurs sont des outils super populaires pour faire de la musique. Ils créent des sons en ajustant divers Paramètres. Mais, régler ces paramètres peut être galère, surtout pour ceux qui débutent avec les synthés. Des systèmes qui ajustent automatiquement les réglages du synthétiseur pour recréer un son peuvent simplifier ce processus, le rendant plus rapide et facile pour tout le monde. Avec tous les différents synthétiseurs disponibles, un système général qui fonctionne avec divers types peut être vraiment utile.
Dans cet article, on vous présente une nouvelle méthode pour assortir les sons de synthétiseur en utilisant une technique appelée le Transformateur de spectrogramme audio. Cette méthode utilise un ordinateur pour analyser les sons, puis associe les réglages du synthétiseur à ces sons. Notre recherche a été réalisée avec un synthétiseur bien connu appelé Massive. On a construit un gros dataset contenant des sons générés en changeant aléatoirement les paramètres sur Massive et on a entraîné notre modèle pour prédire les réglages corrects selon les sons d'entrée.
Importance de l'Assortiment de Sons
Ajuster automatiquement les paramètres du synthétiseur pour créer des sons spécifiques, ce n'est pas une idée nouvelle. L'intérêt pour ces systèmes existe depuis les années 90. Ils peuvent aider les musiciens qui n'y connaissent pas grand-chose à la création sonore, tout en accélérant le processus pour les utilisateurs expérimentés. Ces systèmes de correspondance sonore ont le potentiel d'ouvrir de nouvelles portes créatives, permettant aux musiciens d'utiliser des sons comme moyen de contrôler les synthétiseurs et de créer des profils sonores uniques.
Cependant, beaucoup de systèmes existants nécessitent une connaissance préalable du fonctionnement d'un synthétiseur. Ça peut limiter leur utilité. Chaque synthétiseur a son propre ensemble de règles et de caractéristiques, donc un modèle conçu pour un peut ne pas fonctionner pour un autre. Ça rend difficile la création d'un système flexible qui puisse s'adapter à différents synthétiseurs, surtout ceux avec des réglages complexes.
Certains approches récentes ont essayé d'éviter d'avoir besoin d'une connaissance approfondie des synthétiseurs. Par exemple, certains systèmes utilisent des réseaux de neurones convolutifs pour deviner les réglages à partir des entrées audio. D'autres ont exploré l'utilisation de variations de réseaux de neurones pour mieux connecter les sons avec les réglages qui les ont créés.
Présentation du Transformateur de Spectrogramme Audio
Les transformateurs sont devenus de plus en plus populaires pour diverses tâches, y compris la recherche d'informations musicales. Ils sont connus pour leurs performances élevées mais nécessitent beaucoup de ressources informatiques et de données. Pour l'assortiment sonore dans les synthétiseurs, on propose d'utiliser le Transformateur de Spectrogramme Audio comme base. Cette méthode nous permet de créer un modèle qui fonctionne avec peu d'hypothèses sur le fonctionnement des synthétiseurs.
Notre approche se concentre sur l'appariement des sons en prédisant les réglages sous-jacents utilisés pour créer ce son. Étant donné un échantillon audio, notre modèle essaie de deviner les paramètres du synthétiseur, qui peuvent ensuite être utilisés pour générer un nouveau son. Le modèle a été entraîné sur un dataset spécialement créé d'échantillons audio appariés et de leurs réglages de paramètres de synthétiseur correspondants.
Comment Nous Avons Construit Notre Dataset
Pour notre projet d'appariement de sons de synthétiseur, nous avons créé un dataset d'un million d'échantillons. Chaque échantillon consistait en un son produit par le synthétiseur et son ensemble de paramètres correspondant. Au lieu d'utiliser des sons existants, nous avons généré des sons au hasard en ajustant les paramètres du synthétiseur Massive. Cette méthode nous a permis de capturer une grande variété de sons et de leurs réglages associés.
Le processus consistait à générer un son en alimentant le synthétiseur avec des réglages de paramètres aléatoires et à enregistrer la sortie. On s'est assuré que les sons étaient suffisamment forts pour éviter les échantillons silencieux en filtrant tout audio en dessous d'un certain niveau de volume. Cette méthode nous a permis de sampler une large gamme de réglages de synthétiseur et de produire un grand dataset pour entraîner notre modèle.
Entraînement et Évaluation du Modèle
Le processus d'entraînement de notre modèle consistait à lui fournir le dataset généré et à lui apprendre à prédire les réglages des paramètres du synthétiseur à partir de l'entrée audio. On a utilisé deux métriques principales pour évaluer les performances de notre modèle : l'erreur quadratique moyenne pour la prédiction des paramètres et la convergence spectrale pour la qualité audio.
Quand on a testé notre modèle par rapport à deux méthodes établies, il a montré un avantage significatif tant dans la précision des paramètres prédits que dans la recréation d'audio de haute qualité. Dans les deux cas, notre approche a démontré de fortes capacités, même comparée à des Modèles existants.
Résultats et Observations
Les résultats ont révélé que notre modèle n'excellait pas seulement dans la prédiction des paramètres du synthétiseur, mais il générer aussi des sons qui ressemblaient de près à l'audio d'entrée. Bien que le modèle ait bien fonctionné pour les sons générés par le synthétiseur Massive, il a également montré un bon potentiel pour assortir des sons d'autres instruments et même des imitations vocales.
Cependant, un domaine à améliorer est la capacité du modèle à prédire la hauteur de manière précise. Dans certains cas, de petites divergences dans le réglage de la hauteur ont entraîné des différences notables dans l'audio résultant. Résoudre ces problèmes pourrait améliorer l'efficacité de notre approche d'appariement sonore.
Directions Futures
En regardant vers l'avenir, on prévoit d'élargir notre approche en travaillant avec des ensembles de paramètres plus grands et plus complexes. On veut explorer comment mieux modéliser divers types de paramètres, y compris les réglages catégoriels et continus, pour refléter les options variées disponibles dans les synthétiseurs.
De plus, on vise à améliorer le processus d'entraînement en intégrant des variations de hauteur, permettant à notre modèle de s'ajuster plus efficacement aux différentes notes musicales. Ça peut aider à assortir des sons avec précision sans perdre en qualité.
Conclusion
Notre recherche montre le potentiel d'utiliser un Transformateur de Spectrogramme Audio pour créer un système d'appariement sonore de synthétiseur flexible et puissant. En développant une méthode qui nécessite peu d'hypothèses sur le fonctionnement des synthétiseurs, on peut créer des solutions qui s'adaptent à une large gamme de sons. Les résultats montrent que cette approche peut efficacement associer des sons aux réglages des synthétiseurs, suggérant une voie prometteuse pour explorer la technologie de production musicale à l'avenir.
Continuer à travailler dans ce domaine pourrait rendre la création sonore plus facile pour les musiciens de tous niveaux et encourager des façons plus innovantes d'utiliser les synthétiseurs dans la création musicale. Notre objectif est de continuer à repousser les limites de ce qui est possible avec l'appariement de sons de synthétiseur et d'ouvrir de nouvelles opportunités d'expression créative grâce à la technologie.
Titre: Synthesizer Sound Matching Using Audio Spectrogram Transformers
Résumé: Systems for synthesizer sound matching, which automatically set the parameters of a synthesizer to emulate an input sound, have the potential to make the process of synthesizer programming faster and easier for novice and experienced musicians alike, whilst also affording new means of interaction with synthesizers. Considering the enormous variety of synthesizers in the marketplace, and the complexity of many of them, general-purpose sound matching systems that function with minimal knowledge or prior assumptions about the underlying synthesis architecture are particularly desirable. With this in mind, we introduce a synthesizer sound matching model based on the Audio Spectrogram Transformer. We demonstrate the viability of this model by training on a large synthetic dataset of randomly generated samples from the popular Massive synthesizer. We show that this model can reconstruct parameters of samples generated from a set of 16 parameters, highlighting its improved fidelity relative to multi-layer perceptron and convolutional neural network baselines. We also provide audio examples demonstrating the out-of-domain model performance in emulating vocal imitations, and sounds from other synthesizers and musical instruments.
Auteurs: Fred Bruford, Frederik Blang, Shahan Nercessian
Dernière mise à jour: 2024-07-23 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2407.16643
Source PDF: https://arxiv.org/pdf/2407.16643
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.