Simple Science

La science de pointe expliquée simplement

# Génie électrique et science des systèmes # Son # Intelligence artificielle # Traitement de l'audio et de la parole

Une nouvelle façon de trouver des stems musicaux

Découvrez une nouvelle méthode pour récupérer des stems musicaux avec précision.

Alain Riou, Antonin Gagneré, Gaëtan Hadjeres, Stefan Lattner, Geoffroy Peeters

― 6 min lire


Nouvel outil pour les Nouvel outil pour les stems musicaux éléments musicaux. artistes trouvent et utilisent les Révolutionner la façon dont les
Table des matières

Vous vous êtes déjà surpris à fredonner une mélodie, sans jamais réussir à mettre le doigt sur la bonne piste qui irait avec ? Eh bien, vous n'êtes pas seul ! Dans le monde de la musique, savoir quelles pièces musicales s'accordent bien ensemble peut être compliqué. Cet article explore une façon amusante d'aider les musiciens et les créateurs à trouver les bons éléments musicaux—comme les voix, les percussions ou les parties de guitare—qui sonneront super ensemble.

Le défi de la récupération des éléments musicaux

La récupération des éléments musicaux, c'est un terme chic pour désigner la tâche de dénicher des parties spécifiques d'une chanson à partir d'une piste mixée. Imaginez essayer de sortir juste le solo de guitare d'une chanson rock tout en laissant les autres instruments de côté. C'est ça le défi !

Traditionnellement, la récupération musicale se concentrait plus sur la recherche de chansons entières à mixer que sur ces éléments individuels. Les premières méthodes étaient un peu comme un rendez-vous à l'aveugle avec la musique—parfois les match étaient top, mais souvent c'était juste gênant. Elles se basaient sur les rythmes et les accords, ce qui signifiait qu'elles zappaient certains aspects importants, comme le son unique de chaque instrument.

Cela a créé un besoin de quelque chose de mieux—quelque chose de plus malin qui pourrait comprendre la richesse de la musique et travailler avec elle de manière plus précise.

Une idée géniale : Architectures prédictives d'encodage joint

Voici les chevaliers en armure brillante : les Architectures Prédictives d'Encodage Joint (JEPA). Cette nouvelle méthode implique de former deux réseaux—un encodeur qui prend l'audio mixé et un prédicteur qui devine à quoi devraient ressembler les parties manquantes. C’est comme apprendre à un perroquet à parler en lui montrant des images de fruits !

Le meilleur dans tout ça ? Le prédicteur peut comprendre différents instruments, donc vous pouvez lui demander un élément de « guitare » ou de « batterie ». Cette flexibilité est un vrai changement de jeu, permettant aux utilisateurs d'entrer n'importe quel instrument qu'ils souhaitent.

S'entraîner pour réussir

Pour s'assurer que ce système fonctionne, l'encodeur reçoit un entraînement supplémentaire grâce à ce qu'on appelle l'Apprentissage contrastif. Pensez à ça comme à un camp d'entraînement musical où l'encodeur apprend à identifier ce qui fait que certains sons s'accordent bien ensemble.

En utilisant des ensembles de données avec divers styles musicaux, le modèle apprend à reconnaître des motifs et des similarités sonores. Après beaucoup d'entraînement, il peut extraire des éléments d'une chanson avec une précision surprenante.

Les ensembles de données : MUSDB18 et MoisesDB

Tester ce modèle nécessite des ensembles de données musicales sérieux. Deux bases de données, MUSDB18 et MoisesDB, fournissent ça. La première sépare les pistes en quatre parties claires : basse, batterie, voix, et tout le reste. La seconde est un peu plus complexe, avec une plus grande variété d'instruments et plus d'infos détaillées à leur sujet.

Entre les deux, l'équipe peut voir à quel point le modèle peut identifier des éléments spécifiques et vérifier s'il peut gérer une variété de styles musicaux.

Performance de récupération : Ça marche comment ?

Alors, passons à la partie amusante—comment a fait ce modèle ?

En utilisant les deux bases de données, les gens derrière ce projet ont testés la performance de leur modèle en lui demandant de trouver les éléments manquants basés sur l'audio mixé fourni. Ils ont utilisé deux systèmes de mesure pour voir à quel point il était efficace : vérifier combien de fois il a trouvé le bon élément et déterminer où se classait le bon élément parmi les autres options.

Les résultats étaient prometteurs. Le modèle a montré des améliorations significatives par rapport aux méthodes précédentes, en faisant un outil utile dans le monde de la récupération musicale.

Un regard plus proche sur la performance par instrument

Mais tous les instruments ne sont pas égaux ! Certains instruments reçoivent plus d'attention pendant l'entraînement, tandis que d'autres restent dans l'ombre. Le modèle s'est mieux débrouillé pour trouver des instruments communs comme les voix et les guitares, et il a eu un peu plus de mal avec des types moins courants comme le banjo ou les flûtes.

Cela nous amène à une autre leçon importante : même si avoir beaucoup de données d'entraînement est super, avoir une variété équilibrée est crucial aussi. Si le modèle rencontre beaucoup d'un type mais peu d'un autre, il ne performera pas bien quand il sera confronté à ce son rare.

L'importance du conditionnement

Une caractéristique intéressante de cette approche est ce qu'on appelle le conditionnement. Cela permet au modèle de comprendre quel instrument il doit trouver. Pensez à ça comme donner au modèle une paire de lunettes spéciales qui l'aide à voir le type de son qu'il doit rechercher.

À l'origine, le système de conditionnement était un peu rigide, n'autorisaient que quelques options d'instruments fixes. Cependant, en lui donnant plus de flexibilité et en utilisant des techniques modernes, le modèle peut travailler avec n'importe quel instrument en prenant une entrée en texte libre.

Suivi de rythme : À la recherche du rythme

Mais la récupération des éléments musicaux ne consiste pas seulement à trouver des parties d'instruments individuelles. C'est aussi important pour garder le rythme !

Les embeddings du modèle (ces morceaux de sortie chics de l'encodeur) peuvent aussi être testés pour leur capacité à suivre les rythmes dans la musique, ce qui est comme trouver le pouls d'une chanson. Le modèle s'est plutôt bien débrouillé, montrant qu'il peut gérer à la fois les aspects spécifiques des accords tonals et les grandes lignes du rythme.

Conclusion : Un changement de jeu pour les musiciens

Pour résumer, cette nouvelle méthode de récupération des éléments musicaux met en lumière une meilleure façon de trouver les sons parfaits en musique. Avec un esprit ludique, le modèle apprend de l'essence de la musique, capturant à la fois les qualités uniques de chaque son et le rythme qui les unit.

Que vous soyez à la recherche du riff de guitare idéal pour accompagner votre piste vocale ou que vous expérimentiez avec un mix complet, cette approche ouvre la porte à une manière plus intuitive de se connecter à la musique.

Alors, la prochaine fois que vous êtes en quête de la partie musicale parfaite, rappelez-vous qu'il y a un petit modèle malin là-dehors, prêt à vous aider à choper le son juste. Maintenant, allez-y, mélangez tout ça !

Source originale

Titre: Zero-shot Musical Stem Retrieval with Joint-Embedding Predictive Architectures

Résumé: In this paper, we tackle the task of musical stem retrieval. Given a musical mix, it consists in retrieving a stem that would fit with it, i.e., that would sound pleasant if played together. To do so, we introduce a new method based on Joint-Embedding Predictive Architectures, where an encoder and a predictor are jointly trained to produce latent representations of a context and predict latent representations of a target. In particular, we design our predictor to be conditioned on arbitrary instruments, enabling our model to perform zero-shot stem retrieval. In addition, we discover that pretraining the encoder using contrastive learning drastically improves the model's performance. We validate the retrieval performances of our model using the MUSDB18 and MoisesDB datasets. We show that it significantly outperforms previous baselines on both datasets, showcasing its ability to support more or less precise (and possibly unseen) conditioning. We also evaluate the learned embeddings on a beat tracking task, demonstrating that they retain temporal structure and local information.

Auteurs: Alain Riou, Antonin Gagneré, Gaëtan Hadjeres, Stefan Lattner, Geoffroy Peeters

Dernière mise à jour: Nov 29, 2024

Langue: English

Source URL: https://arxiv.org/abs/2411.19806

Source PDF: https://arxiv.org/pdf/2411.19806

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires