Simple Science

La science de pointe expliquée simplement

# Génie électrique et science des systèmes# Son# Recherche d'informations# Traitement de l'audio et de la parole

CLaMP : Une nouvelle approche pour la recherche de musique

CLaMP combine la musique et la langue pour la classification et la recherche automatiques de musique.

― 7 min lire


CLaMP : La musiqueCLaMP : La musiquerencontre la langueautomatique de musique.classification et la rechercheUn nouveau modèle pour la
Table des matières

CLaMP est un nouveau modèle qui combine musique et langage pour aider à trouver et classer automatiquement des morceaux de musique. Ça s'appelle la Récupération d'Information Musicale Symbolique (MIR). Les méthodes traditionnelles de MIR ont souvent du mal à comprendre la complexité de la musique. CLaMP utilise l'Apprentissage profond pour résoudre ce problème en apprenant à partir d'un large ensemble de paires musique-texte.

C'est quoi la Récupération d'Information Musicale Symbolique ?

La récupération d'information musicale symbolique consiste à analyser et récupérer de la musique en utilisant des formats symboliques comme les partitions ou les fichiers MIDI. Cette méthode est utile pour plusieurs tâches comme identifier des genres musicaux, transcrire de la musique depuis de l'audio, et recommander des morceaux de musique. Cependant, les anciennes méthodes qui s'appuyaient sur des caractéristiques fixes avaient du mal à capturer toute la richesse de la musique.

Apprentissage Profond en Musique

L'apprentissage profond a changé la donne dans la récupération de musique en permettant aux machines de repérer des motifs complexes dans la musique. Malgré ces avancées, obtenir suffisamment de données de musique étiquetées est souvent difficile et cher car beaucoup de jeux de données disponibles sont petits. Une solution à ce problème est d'utiliser des techniques qui permettent de récupérer et d'étiqueter de grandes quantités de données non étiquetées. C'est là que la recherche de musique à travers des descriptions ou la classification de la musique basée sur des étiquettes personnalisées sans besoin de formation préalable entre en jeu.

Le Design de CLaMP

Le design de CLaMP implique deux composants clés : un pour la musique et un pour le texte. Ces composants travaillent ensemble pour capturer à la fois la structure et le sens de la musique et du texte. L'objectif est de garder les paires similaires proches tout en éloignant les paires non liées. En termes simples, CLaMP apprend à distinguer quels morceaux de musique vont avec quelles descriptions efficacement.

Encodeurs de Musique et de Texte

L'encodeur de musique est conçu pour saisir les divers éléments de la musique, tandis que l'encodeur de texte est utilisé pour extraire des caractéristiques pertinentes du texte lié à la musique. L'encodeur de texte utilise un modèle de langage déjà réussi pour améliorer sa performance. De plus, une technique appelée "text dropout" aide à améliorer le modèle en s'assurant qu'il apprend à partir de différentes entrées de texte.

L'Encodeur de Musique

L'encodeur de musique est spécifiquement réglé pour interpréter la musique écrite dans un format textuel appelé notation ABC. Cette notation a divers symboles courants dans les partitions, offrant un aperçu complet des chansons. Pour gérer les données musicales plus efficacement, une méthode appelée "bar patching" est utilisée, permettant aux séquences d'être beaucoup plus courtes tout en gardant des informations essentielles.

La Technique de Bar Patching

Le bar patching organise la musique en segments liés à des mesures musicales, rendant le traitement plus facile. Cette méthode empêche les longues séquences auxquelles d'autres modèles étaient confrontés, améliorant ainsi l'efficacité. En segmentant la musique en morceaux plus petits, la longueur moyenne des séquences musicales est réduite de manière significative.

Le Modèle Musical Masqué

CLaMP utilise le Modèle Musical Masqué (M3) pour apprendre. Ce modèle introduit du bruit aléatoire dans certaines parties de la musique, et il apprend à combler les vides, l'aidant à mieux comprendre le contexte. M3 est construit avec une structure qui lui permet de se concentrer sur des sections individuelles de musique, apprenant comment elles se rapportent les unes aux autres.

Comment CLaMP Fonctionne

CLaMP peut effectuer différentes tâches qui mélangent musique et langage. Il permet de rechercher de la musique en utilisant des requêtes larges plutôt que des mots-clés spécifiques, ce qui rend la récupération de musique plus facile. Par exemple, on peut chercher "musique joyeuse" sans avoir besoin du titre exact ou du nom de l'artiste.

Classification Zero-Shot

La fonction de classification zero-shot de CLaMP signifie qu'il peut classer de la nouvelle musique sans avoir besoin d'entraînement supplémentaire. Cela se fait en utilisant des invites textuelles qui donnent un contexte au modèle, le rendant suffisamment intelligent pour comprendre quel type de musique il traite.

Le Dataset WebMusicText

Pour entraîner CLaMP efficacement, un grand dataset appelé WebMusicText (WebMT) a été créé. Il contient près de 1,5 million de paires de musique et de texte. Ce dataset inclut divers formats musicaux et garantit que le modèle a une large gamme de musique à apprendre. WebMT contient non seulement des types de partitions, mais aussi le texte accompagnant provenant de diverses ressources.

Évaluation de CLaMP

CLaMP a été évalué dans deux catégories principales : la recherche sémantique et la classification musicale.

Recherche Sémantique

En évaluant comment CLaMP performe dans les recherches sémantiques, il a été constaté que le modèle complet surpassait constamment les autres. Cela a été évident même lorsque CLaMP a été testé sans entraînement supplémentaire, montrant sa capacité à bien généraliser.

Classification Musicale

CLaMP a également été évalué sur sa performance en classification de musique basée sur ses caractéristiques. Les résultats ont montré qu'il peut rivaliser avec des modèles existants qui nécessitent un ajustement, soulignant son efficacité. Sa capacité à travailler sans exposition préalable aux datasets a également démontré sa force.

Conclusion

CLaMP est une addition significative dans le domaine de la récupération d'information musicale. Ses techniques pour mélanger musique et langage lui permettent d'exceller dans des tâches comme la recherche et la classification de musique sans avoir besoin de données d'entraînement supplémentaires. Ce modèle montre un potentiel pour de futures recherches visant à créer des systèmes qui combinent mieux musique et langage, ouvrant la voie à de nouvelles applications dans ce domaine. Cependant, des améliorations peuvent encore être apportées, notamment dans la compréhension des différents types de données musicales. Les futurs travaux se concentreront sur l'expansion de ses capacités et l'amélioration de son entraînement avec des formats musicaux plus divers.

À propos du Dataset WikiMusicText

Le dataset WikiMusicText se compose de plus de 1 000 morceaux de musique en notation ABC. Chaque morceau inclut des détails comme le titre, l'artiste, le genre et une brève description. La musique dans ce dataset est classée en plusieurs genres, garantissant une représentation équilibrée des différents styles musicaux.

Défis dans la Collecte de Données

La collecte des données pour le dataset WikiMusicText a impliqué plusieurs méthodes. Les fichiers musicaux ont été convertis en format notation ABC, les titres et noms d'artistes ont été extraits, et des entrées correspondantes de Wikipedia ont été rassemblées. Des critères spécifiques ont été établis pour inclure des morceaux de musique afin d'assurer qualité et pertinence.

Dernières Pensées

CLaMP représente un pas en avant dans le domaine de la recherche musicale symbolique. Son utilisation innovante du langage et de la musique ensemble ouvre de nouvelles possibilités sur la façon dont nous pouvons interagir avec la technologie musicale. Il se tient en tant que promesse d'un avenir où la récupération et la compréhension de la musique deviennent encore plus accessibles.

Source originale

Titre: CLaMP: Contrastive Language-Music Pre-training for Cross-Modal Symbolic Music Information Retrieval

Résumé: We introduce CLaMP: Contrastive Language-Music Pre-training, which learns cross-modal representations between natural language and symbolic music using a music encoder and a text encoder trained jointly with a contrastive loss. To pre-train CLaMP, we collected a large dataset of 1.4 million music-text pairs. It employed text dropout as a data augmentation technique and bar patching to efficiently represent music data which reduces sequence length to less than 10\%. In addition, we developed a masked music model pre-training objective to enhance the music encoder's comprehension of musical context and structure. CLaMP integrates textual information to enable semantic search and zero-shot classification for symbolic music, surpassing the capabilities of previous models. To support the evaluation of semantic search and music classification, we publicly release WikiMusicText (WikiMT), a dataset of 1010 lead sheets in ABC notation, each accompanied by a title, artist, genre, and description. In comparison to state-of-the-art models that require fine-tuning, zero-shot CLaMP demonstrated comparable or superior performance on score-oriented datasets. Our models and code are available at https://github.com/microsoft/muzic/tree/main/clamp.

Auteurs: Shangda Wu, Dingyao Yu, Xu Tan, Maosong Sun

Dernière mise à jour: 2023-10-18 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2304.11029

Source PDF: https://arxiv.org/pdf/2304.11029

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires