Simple Science

La science de pointe expliquée simplement

# Génie électrique et science des systèmes# Son# Traitement de l'audio et de la parole

Mesurer l'Adhérence dans les Modèles de Musique Générative

Une nouvelle méthode pour évaluer à quel point la musique suit les invites audio.

― 10 min lire


Évaluation de l'adhésionÉvaluation de l'adhésionà la musique généréela musique suit des invites audio.De nouvelles méthodes évaluent comment
Table des matières

Avec l'avancée de la technologie, de plus en plus de systèmes de création musicale utilisent des prompts audio comme guide pour générer de la musique. Un prompt audio, c'est en gros un morceau de musique qui sert de référence pour ce à quoi devrait ressembler un nouveau morceau. Cette méthode permet un meilleur contrôle sur la façon dont la musique est créée, un peu comme donner des instructions à un musicien.

Malgré la montée de ces systèmes, il n'existe pas de manière standard de mesurer à quel point la musique générée s'aligne bien avec le prompt audio original. Cela crée des défis lors du développement de nouveaux modèles et de la comparaison de leurs performances. Dans cet article, on explore une méthode potentielle pour mesurer à quel point la musique générée suit les prompts audio.

La Nécessité d'une Mesure Standard

Évaluer à quel point les modèles respectent les prompts audio se fait souvent de diverses manières selon la situation. Cependant, une méthode universelle serait bénéfique tant pour la création et l'entraînement de nouveaux modèles que pour comparer les performances de différents modèles.

De nombreuses méthodes actuelles se concentrent sur des facteurs comme la qualité audio, en utilisant des outils et des métriques spécifiques. Cependant, ces méthodes ne reflètent pas forcément avec précision à quel point un morceau de musique adhère au prompt audio guide.

Cet article examine si des méthodes Statistiques couramment utilisées peuvent aider à évaluer à quel point la musique générée correspond à son prompt audio. On propose une approche simple qui repose sur un nombre limité de composants pour évaluer systématiquement la mesure de l'adhérence.

Méthodologie Proposée

Pour évaluer l'adhérence au prompt audio, on a choisi une sélection de mesures statistiques largement acceptées. La procédure comprend l'utilisation d'un Modèle d'embedding qui transforme l'audio en un format approprié pour l'analyse, suivi par la comparaison de ces formats en utilisant différentes métriques de distance. Ces comparaisons quantifient à quel point la musique générée est similaire au prompt audio.

Lors de nos premiers tests, on a exploré à quel point cette approche est sensible aux changements courants dans l'audio, comme les variations de hauteur ou de timing. Les résultats ont montré que notre méthode pouvait détecter ces changements même lors de comparaisons de différentes collections de musique.

Bien que des tests supplémentaires soient nécessaires pour traiter les questions concernant la fiabilité de la mesure face à d'autres problèmes audio, les résultats impliquent que l'utilisation de distances statistiques pourrait fournir un moyen raisonnable de mesurer à quel point la musique générée adhère à son prompt audio.

L'Essor des Modèles Musicaux Génératifs

Les modèles musicaux génératifs ont gagné en popularité. Des technologies comme les réseaux antagonistes génératifs (GANs) et les modèles de diffusion permettent aux ordinateurs de créer de la musique. Ces systèmes peuvent produire des mixes complets, des parties individuelles ou juste le son d'un instrument.

Traditionnellement, les utilisateurs contrôlent le processus de génération musicale à travers des prompts textuels. Cependant, conditionner le modèle sur un prompt audio donne un contrôle encore plus précis. Le prompt audio peut être utilisé de deux manières principales : comme guide pour le transfert de style ou comme base pour créer de la musique complémentaire.

Dans les tâches de transfert de style, l'objectif est de reproduire des éléments du prompt audio, comme la mélodie ou le rythme. Dans les tâches d'accompagnement, le but du système est de générer de la musique qui s'harmonise bien avec l'audio original.

Évaluation de la Musique Générée

L'évaluation de la musique générative repose souvent sur plusieurs critères selon la tâche en cours. Une des mesures les plus courantes utilisées est la qualité audio, généralement évaluée à l'aide d'outils comme la Distance Audio Fréchet (FAD). Cette métrique évalue la distance entre l'audio réel et les représentations audio générées dans un format spécifique connu sous le nom d'espace d'embedding.

De plus, les évaluations humaines entrent souvent en jeu, où des individus notent la qualité de la musique générée. Ces notations peuvent couvrir divers aspects, y compris l'adhérence aux prompts. Cependant, cette méthode n'est pas aussi fiable ou facilement accessible que les évaluations computationnelles.

Pour la musique générée avec des prompts textuels, mesurer à quel point la sortie s'aligne avec le prompt peut être réalisé en comparant des vecteurs d'embedding qui représentent les deux éléments. Cela implique souvent différents modèles pour évaluer la relation entre la musique générée en fonction de prompts audio ou symboliques.

À l'heure actuelle, il n'existe pas de mesures quantitatives universelles qui sont spécifiques aux prompts audio et adaptables à différents types d'instruments musicaux. On vise à développer une méthode qui puisse fournir une évaluation significative de l'adhérence aux prompts audio.

L'Approche Basée sur la Distribution

Pour aborder le manque de mesures standard, on propose une méthode basée sur la distribution. Cela signifie qu'on se concentrera sur la façon dont les prompts audio se rapportent aux résultats générés, plutôt que d'analyser uniquement des instruments musicaux individuels.

Notre approche utilise des métriques établies comme la FAD et une autre mesure statistique connue sous le nom de Maximum Mean Discrepancy (MMD). On valide notre mesure proposée à travers des évaluations de référence pour déterminer à quel point elle distingue efficacement entre des paires de prompts audio correspondants et non correspondants.

Dans ces évaluations, on compare à quel point notre méthode proposée fonctionne lorsque l'audio de référence et l'audio candidat proviennent de la même collection par rapport à différentes collections. Notre objectif est d'identifier des configurations prometteuses qui peuvent aider à mesurer l'adhérence au prompt audio.

Processus d'Évaluation de Base

Comme on n'a pas de référence claire pour ce à quoi devrait ressembler la "vérité terrestre" en matière d'adhérence au prompt audio, on a mis en place une évaluation de base. On a utilisé des collections audio multitrack qui contiennent divers projets musicaux, chacun avec différentes pistes instrumentales.

On suppose que lorsque des pistes instrumentales d'un projet sont mélangées et utilisées comme prompt audio, les pistes restantes du même projet devraient s'aligner avec ce prompt. À l'inverse, on suppose que des pistes d'autres projets ne correspondent pas au prompt.

Cette compréhension nous amène à créer un processus d'évaluation simple. L'objectif est de maximiser les différences entre les paires audio non correspondantes et correspondantes, ce qui nous aide à identifier des métriques efficaces pour mesurer l'adhérence.

Collections de Données et Métriques Utilisées

Pour mener nos recherches, on a sélectionné des collections audio multitrack spécifiques. Une collection notable contient des chansons pop et rock qui sont accessibles au public, tandis que d'autres collections ont des licences internes avec divers genres.

On utilisera les métriques FAD et MMD pour mesurer les distances entre les distributions audio représentées dans l'espace d'embedding. Dans ce travail, on implémente un noyau polynomial pour la métrique MMD et on s'appuie sur des modèles d'embedding bien connus pour calculer les embeddings.

Choisir les bons modèles d'embedding est crucial car ils transforment l'audio en un format adapté à l'analyse statistique. Différents modèles peuvent donner des résultats variés en ce qui concerne les mesures d'adhérence, donc on examine aussi l'impact du traitement de ces embeddings audio pour optimiser nos évaluations.

Expérimentation avec les Métriques

Dans notre première expérience, on évalue si les métriques de distance peuvent efficacement distinguer entre les paires correspondantes et non correspondantes de prompts audio et de résultats. Pour garder notre analyse ciblée, on limite nos comparaisons à de courts segments audio-par exemple, cinq secondes-qui sont plus faciles à gérer et pertinents pour évaluer l'adhérence.

On échantillonne des segments de nos collections audio pour créer des paires correspondantes et non correspondantes. En utilisant cette méthode, on peut calculer les distances entre les paires et identifier si les métriques peuvent différencier efficacement celles qui respectent les prompts de celles qui ne le font pas.

Les résultats de nos expériences ont indiqué que bien que nos métriques choisies puissent souvent discerner des différences dans les paires audio, elles ont du mal à comparer des pistes provenant de différentes collections. Cette limitation sert de signal pour affiner notre approche afin qu'elle devienne plus sensible dans divers contextes.

Affiner la Mesure d'Adhérence

Sur la base de nos résultats, on propose une mesure d'adhérence alternative qui compare un ensemble de résultats audio à la fois contre l'ensemble de référence original et une version non correspondante créée par des appariements aléatoires. Cet ajustement aide à se concentrer moins sur les scores de distance absolue et plus sur la différence relative entre les ensembles correspondants et non correspondants.

En appliquant cette nouvelle méthode, on peut mieux évaluer à quel point la musique générée adhère au prompt audio. On effectue des tests supplémentaires pour vérifier la capacité de cette mesure à discriminer entre les paires correspondantes et non correspondantes dans différents contextes.

Tester la Sensibilité aux Changements Audio

Pour s'assurer que notre mesure est pratique, on examine également sa sensibilité aux changements audio courants qui pourraient affecter l'adhérence. Cela inclut des décalages temporels et de hauteur, qui peuvent altérer à quel point l'audio généré correspond au prompt. Notre hypothèse est que les scores d'adhérence au prompt audio devraient diminuer de manière significative lorsque ces décalages sont appliqués.

On a effectué plusieurs tests en appliquant des décalages de hauteur aléatoires et des ajustements temporels aux prompts audio et en évaluant comment notre mesure d'adhérence évolue en réponse. Les résultats soulignent l'efficacité potentielle de notre approche face à ces variations audio courantes.

Conclusion et Travaux Futurs

Avec l'avancement continu des systèmes de génération musicale basés sur l'IA, établir une méthode d'évaluation commune pour l'adhérence aux prompts audio est essentiel. Ensemble, nos expériences montrent qu'on peut mesurer l'adhérence des prompts audio de manière fiable, bien que des refinements soient encore nécessaires.

Pour l'avenir, il est crucial d'étendre nos tests pour inclure d'autres facteurs pouvant affecter les scores d'adhérence, comme les changements de qualité audio qui n'impactent pas à quel point la musique générée suit le prompt audio.

De plus, les travaux futurs se concentreront sur la détermination de la manière dont différents niveaux de volume entre les prompts et les sorties affectent les mesures d'adhérence. Notre objectif ultime est de créer une mesure robuste et universellement applicable qui améliore la performance des modèles musicaux génératifs tout en fournissant des informations précieuses sur leurs résultats.

Source originale

Titre: Measuring Audio Prompt Adherence with Distribution-based Embedding Distances

Résumé: An increasing number of generative music models can be conditioned on an audio prompt that serves as musical context for which the model is to create an accompaniment (often further specified using a text prompt). Evaluation of how well model outputs adhere to the audio prompt is often done in a model or problem specific manner, presumably because no generic evaluation method for audio prompt adherence has emerged. Such a method could be useful both in the development and training of new models, and to make performance comparable across models. In this paper we investigate whether commonly used distribution-based distances like Fr\'echet Audio Distance (FAD), can be used to measure audio prompt adherence. We propose a simple procedure based on a small number of constituents (an embedding model, a projection, an embedding distance, and a data fusion method), that we systematically assess using a baseline validation. In a follow-up experiment we test the sensitivity of the proposed audio adherence measure to pitch and time shift perturbations. The results show that the proposed measure is sensitive to such perturbations, even when the reference and candidate distributions are from different music collections. Although more experimentation is needed to answer unaddressed questions like the robustness of the measure to acoustic artifacts that do not affect the audio prompt adherence, the current results suggest that distribution-based embedding distances provide a viable way of measuring audio prompt adherence. An python/pytorch implementation of the proposed measure is publicly available as a github repository.

Auteurs: Maarten Grachten, Javier Nistal

Dernière mise à jour: 2024-12-28 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2404.00775

Source PDF: https://arxiv.org/pdf/2404.00775

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires