Simple Science

La science de pointe expliquée simplement

# Génie électrique et science des systèmes# Son# Intelligence artificielle# Apprentissage automatique# Traitement de l'audio et de la parole

Présentation de MARBLE : un étalon pour l'IA musicale

MARBLE établit une norme pour évaluer les modèles d'IA musicale sur plusieurs tâches.

― 9 min lire


MARBRE : Référence en IAMARBRE : Référence en IAmusicalecompréhension musicale.d'évaluation structuré pour laMARBLE met en place un cadre
Table des matières

Dernièrement, l'art et l'intelligence artificielle (IA) ont pas mal croisé le fer, notamment dans des domaines comme la création d'images et d'histoires. Mais l'utilisation de l'IA dans la musique, surtout pour comprendre la musique, est encore en pleine évolution. Il y a peu de recherches sur la manière de représenter la musique en profondeur, pas assez de grosses bases de données utiles, et un manque de normes communes pour évaluer les systèmes d'IA musicale. Pour combler cette lacune, on présente MARBLE-Music Audio Representation Benchmark for Universal Evaluation. MARBLE permet d'évaluer différentes tâches de récupération d'information musicale (MIR) en les organisant dans une structure claire.

C'est quoi MARBLE ?

MARBLE a pour but de fournir une manière standard d'évaluer divers tâches de MIR grâce à un système détaillé qui classe les tâches en quatre niveaux : acoustique, performance, partition, et descriptions de haut niveau de la musique. Le benchmark est basé sur 18 tâches à partir de 12 ensembles de données en accès libre. Cela offre une procédure standard pour évaluer les modèles musicaux, permettant ainsi aux chercheurs de comparer les résultats et de trouver des pistes d'amélioration.

MARBLE est conçu pour être convivial et permet aux chercheurs de s'appuyer facilement dessus. Il respecte les droits d'auteur et fournit des directives claires sur l'utilisation des ensembles de données. Les premières découvertes montrent que les modèles de langage musical récemment développés fonctionnent bien dans de nombreuses tâches, mais il y a encore de la marge pour des améliorations. Le site du benchmark et l'outil sont disponibles pour encourager de futures études dans la musique IA.

La nécessité de comprendre la musique

Alors que l'IA a progressé dans de nombreux domaines artistiques, son avancement dans la compréhension de la musique reste en retard. Les chercheurs se concentrent sur le MIR, qui consiste à extraire des informations à partir d'audio brut. Des tâches comme la classification musicale, la reconnaissance des émotions, l'estimation de la hauteur, et l'analyse des éléments musicaux sont au cœur du MIR. Cependant, à cause de défis comme le droit d'auteur et le coût élevé de l'annotation, il y a souvent des ensembles de données étiquetés insuffisants, limitant ainsi l'efficacité des modèles basés sur l'apprentissage supervisé.

L'apprentissage auto-supervisé (SSL) prend de l'ampleur dans divers domaines comme le traitement du langage naturel (NLP) et la vision par ordinateur (CV) car ça marche bien même avec peu de données annotées. Certains chercheurs ont commencé à expérimenter avec le SSL pour l'apprentissage de la représentation audio et des modèles pré-entraînés adaptés à la musique.

Benchmarks existants dans d'autres domaines

Dans le NLP, des benchmarks comme GLUE et SuperGLUE ont aidé à évaluer et promouvoir la recherche. De même, dans la CV, des ensembles de données comme VTAB et VISSL offrent des normes. Pourtant, dans la musique, les évaluations des modèles existants sont dispersées et offrent peu de conseils pour les comparaisons. Ça complique la tâche pour tirer des insights ou des conclusions significatifs entre différentes techniques pour comprendre la musique.

Actuellement, les modèles musicaux sont principalement testés sur des tâches en aval comme la classification de genre et d'émotion, l'identification d'instrument, le tagging musical, la détection de tonalité, et plus encore. Beaucoup d'études suivent divers designs expérimentaux, et seulement quelques-unes se concentrent sur des tâches séquentielles, comme le suivi de rythme et la séparation de différentes sources audio. Alors que d'autres benchmarks comme SUPERB et HEAR offrent des évaluations unifiées pour des tâches de parole et de son, l'audio musical présente des défis uniques.

Il y a un besoin urgent de benchmarks complets, étendus et accessibles pour stimuler le développement du SSL musical. C'est pourquoi on introduit MARBLE pour répondre à ce besoin.

La structure de MARBLE

MARBLE examine les capacités des modèles musicaux à travers un large éventail, proposant une nouvelle organisation pour les tâches de MIR. Les quatre niveaux de la hiérarchie s'alignent sur la compréhension professionnelle, offrant un cadre qui aide à structurer les ensembles de données et à identifier une diversité de tâches en aval.

Des tâches populaires de l'ancien défi MIREX ont été sélectionnées, en utilisant des ensembles de données correspondants qui ont des étiquettes limitées. Actuellement, MARBLE comprend 18 tâches à travers 13 catégories basées sur 12 ensembles de données accessibles au public ou commercialement disponibles.

En plus des tâches de classification traditionnelles, MARBLE inclut des tâches d'étiquetage de séquence comme la séparation de sources et le suivi de rythme. Les ensembles de données sont facilement accessibles, permettant aux utilisateurs de les télécharger directement depuis des sources officielles ou des sites externes.

Un protocole unifié est établi, accompagné d'outils pour évaluer la performance des modèles à travers les tâches. Dans ce protocole, les modèles servent de bases pour fournir des représentations générales pour toutes les tâches, tandis que des composants prédictifs spécifiques aux tâches sont ajoutés et entraînés sous diverses contraintes.

Tâches clés dans MARBLE

MARBLE englobe plusieurs catégories de tâches qui couvrent des aspects essentiels du traitement musical. Les tâches sont principalement divisées en deux catégories : discriminatives et génératives. Cette première version de MARBLE se concentre sur les tâches discriminatives, tandis que les tâches génératives, comme la création musicale, seront considérées dans les futures mises à jour.

Tâches de description de haut niveau

Les tâches de description de haut niveau mesurent les caractéristiques globales de la musique, comme le genre, l'humeur et la tonalité. Quelques exemples incluent :

  1. Détection de tonalité : Prédire la tonalité d'une chanson en utilisant des ensembles de données comme Giantsteps.

  2. Tagging musical : Assigner des étiquettes appropriées à des morceaux de musique, en utilisant des ensembles de données comme MagnaTagATune.

  3. Classification de genre : Catégoriser les chansons en genres selon des ensembles de données existants comme GTZAN et MTG-Genre.

  4. Reconnaissance des émotions : Déterminer le contenu émotionnel de la musique. Deux ensembles de données sont utilisés à cette fin : Emomusic et MTG-MoodTheme.

Tâches de niveau de partition

Ce niveau se concentre sur l'identification des éléments musicaux d'une partition. Certaines tâches impliquent :

  1. Classification de hauteur : Assignation des hauteurs à des échantillons audio, en utilisant des ensembles de données comme Nsynth.

  2. Suivi de rythme : Détecter les rythmes dans chaque cadre de musique.

  3. Estimation d'accords : Identifier les accords dans des clips audio, en utilisant l'ensemble de données GuitarSet.

  4. Extraction de mélodie : Extraire des mélodies à partir de l'audio, en utilisant l'ensemble de données MedleyDB.

Tâches de niveau de performance

Cette catégorie examine les techniques employées pendant une performance. Par exemple :

  1. Détection de technique vocale : Identifier les techniques de chant à partir de clips audio en utilisant l'ensemble de données VocalSet.

Tâches de niveau acoustique

Ici, on se concentre sur différentes qualités audio, notamment :

  1. Classification d'instrument : Identifier les instruments dans l'audio en utilisant des ensembles de données comme Nsynth.

  2. Identification de chanteur : Reconnaître les chanteurs à partir des enregistrements.

  3. Séparation de sources : Séparer des pistes audio en composants individuels, en utilisant l'ensemble de données MUSDB18.

Cadre d'évaluation

MARBLE a mis en place un cadre d'évaluation standardisé pour garantir des évaluations justes. Ce cadre utilise des modèles pré-entraînés pour examiner efficacement les prédictions spécifiques aux tâches.

Les pistes d'évaluation incluent :

  1. Piste non contrainte : Les participants peuvent soumettre n'importe quelle configuration, ce qui encourage la flexibilité.

  2. Piste semi-contraintes : Les soumissions doivent utiliser des modèles pré-entraînés fixes, restreignant les paramètres.

  3. Piste contrainte : Une approche standardisée où les soumissions doivent suivre des directives spécifiques, appliquant des limites sur la recherche d'hyperparamètres.

Problèmes de données et de licences

De nombreux ensembles de données utilisés dans le benchmark MARBLE rencontrent des défis liés aux droits d'auteur et aux licences. Cela limite la quantité de données étiquetées disponibles pour l'entraînement, menant à un potentiel biais dans les évaluations des modèles.

De plus, MARBLE vise à inclure plus d'ensembles de données commercialement disponibles dans le futur.

Limitations et directions futures

Bien que MARBLE vise à améliorer la compréhension de la musique, certains défis persistent. Par exemple, de nombreuses tâches impliquent plusieurs métriques, mais le benchmark inclut actuellement seulement une ou deux métriques à cause des problèmes de droits d'auteur et d'accès aux ensembles de données. Des ensembles de données plus complets sont nécessaires pour certaines tâches, et les versions futures incluront des tâches additionnelles, comme la détection de chansons couvertes.

Il y a aussi de la place pour développer des benchmarks qui évaluent la génération et la composition musicale, ainsi que des modèles pour combiner l'audio musical avec des représentations symboliques et linguistiques.

Conclusion

En gros, MARBLE sert de benchmark complet pour évaluer les caractéristiques musicales, avec une structure bien définie pour diverses tâches de MIR. La standardisation des processus permet des évaluations équitables et reproductibles à travers différents modèles. Les résultats trouvés dans MARBLE indiquent des résultats prometteurs pour plusieurs modèles pré-entraînés, mais le domaine a encore beaucoup de potentiel de croissance.

En facilitant l'accès facile et les mesures comparatives, MARBLE vise à promouvoir davantage de recherches dans le domaine de la compréhension musicale et ses applications en IA. La communauté musicale est encouragée à s'engager avec cette initiative pour faire avancer l'apprentissage de la représentation dans la récupération d'informations musicales.

Source originale

Titre: MARBLE: Music Audio Representation Benchmark for Universal Evaluation

Résumé: In the era of extensive intersection between art and Artificial Intelligence (AI), such as image generation and fiction co-creation, AI for music remains relatively nascent, particularly in music understanding. This is evident in the limited work on deep music representations, the scarcity of large-scale datasets, and the absence of a universal and community-driven benchmark. To address this issue, we introduce the Music Audio Representation Benchmark for universaL Evaluation, termed MARBLE. It aims to provide a benchmark for various Music Information Retrieval (MIR) tasks by defining a comprehensive taxonomy with four hierarchy levels, including acoustic, performance, score, and high-level description. We then establish a unified protocol based on 14 tasks on 8 public-available datasets, providing a fair and standard assessment of representations of all open-sourced pre-trained models developed on music recordings as baselines. Besides, MARBLE offers an easy-to-use, extendable, and reproducible suite for the community, with a clear statement on copyright issues on datasets. Results suggest recently proposed large-scale pre-trained musical language models perform the best in most tasks, with room for further improvement. The leaderboard and toolkit repository are published at https://marble-bm.shef.ac.uk to promote future music AI research.

Auteurs: Ruibin Yuan, Yinghao Ma, Yizhi Li, Ge Zhang, Xingran Chen, Hanzhi Yin, Le Zhuo, Yiqi Liu, Jiawen Huang, Zeyue Tian, Binyue Deng, Ningzhi Wang, Chenghua Lin, Emmanouil Benetos, Anton Ragni, Norbert Gyenge, Roger Dannenberg, Wenhu Chen, Gus Xia, Wei Xue, Si Liu, Shi Wang, Ruibo Liu, Yike Guo, Jie Fu

Dernière mise à jour: 2023-11-23 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2306.10548

Source PDF: https://arxiv.org/pdf/2306.10548

Licence: https://creativecommons.org/licenses/by-sa/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires