Faire avancer la recherche musicale avec l'apprentissage auto-supervisé
Une nouvelle approche utilise l'apprentissage auto-supervisé pour relier l'audio et la partition.
― 7 min lire
Table des matières
- Le Problème
- Approches Traditionnelles et Limitations
- Notre Méthode
- Apprentissage Contrastif Auto-Supervisé
- Techniques d’Augmentation pour les Partitions
- Techniques d’Augmentation pour l’Audio
- Expérimentations et Résultats
- Préparation des Données
- Mise en Place des Expérimentations
- Résumé des Résultats
- Identification de Pièces Cross-Modales
- Conclusion
- Source originale
- Liens de référence
Lier les Partitions de musique à des fichiers Audio est super important pour créer des systèmes de recherche musicale efficaces. Un des défis, c’est de créer des systèmes qui peuvent relier de courts extraits audio à des images de partitions. Mais, y’a pas assez de données annotées, ce qui freine les Performances de ces systèmes.
Cet article parle d'une méthode qui utilise l’apprentissage contrastif auto-supervisé pour résoudre le problème des données étiquetées rares. En préparant le modèle avec un grand nombre de fichiers musicaux non étiquetés, on peut améliorer sa capacité à relier les extraits audio avec les partitions correspondantes.
Le Problème
Trouver la bonne partition pour une pièce musicale, c’est vraiment galère. Les musiciens ont souvent un extrait audio mais connaissent pas le nom de la pièce ou la partition correspondante. Ça a l’air simple, mais c’est compliqué quand t’as pas d’infos supplémentaires.
Le boulot se concentre sur deux types de données : l’audio et la représentation écrite de cette musique, ce qu’on appelle la partition. Un défi courant, c’est de retrouver la bonne partition quand on a un court extrait audio.
Approches Traditionnelles et Limitations
Les méthodes précédentes qui relient des enregistrements audio à leur partition reposent sur des données étiquetées. Ça veut dire que chaque extrait audio devait être associé à la bonne partition de manière très détaillée. Malheureusement, obtenir ces données annotées est à la fois coûteux et long. Les experts doivent écouter l’audio et le faire correspondre avec les bonnes notes sur la partition.
À cause de ça, beaucoup de systèmes s’appuient plutôt sur des données musicales simulées. Ce qui peut mener à des performances médiocres quand les systèmes sont utilisés avec de vraies données musicales, car les données générées reflètent souvent pas les complexités des performances musicales réelles.
Notre Méthode
On propose une méthode qui utilise l’Apprentissage auto-supervisé. Cette approche permet au système d’apprendre à partir des données elles-mêmes sans avoir besoin d’étiquettes étendues. L’idée, c’est d’exposer le modèle à une grande quantité de données musicales, afin qu’il puisse apprendre les relations entre l’audio et la partition sans avoir besoin d'annotations explicites.
Apprentissage Contrastif Auto-Supervisé
Le processus d’apprentissage contrastif auto-supervisé consiste à entraîner le modèle avec diverses versions des mêmes extraits audio et des partitions. En appliquant des changements aléatoires ou des « Augmentations » aux données, on crée différentes vues de la même pièce. Ça apprend au modèle à reconnaître les similitudes entre les différentes représentations des mêmes données.
Par exemple, si on a un extrait audio, on peut y faire des petites modifications et s’attendre à ce que le modèle comprenne que ces versions sont liées. Comme ça, le modèle apprend ses caractéristiques sans avoir besoin d’étiquettes.
Techniques d’Augmentation pour les Partitions
Notre méthode repose sur diverses techniques d’augmentation pour les images de partitions. Quelques opérations incluent :
- Déplacer la partition horizontalement et verticalement.
- Redimensionner les images à des tailles légèrement différentes.
- Faire pivoter la partition.
- Ajouter du bruit ou flouter les images pour simuler une qualité inférieure.
Ces techniques aident le modèle à apprendre à reconnaître la musique peu importe les modifications.
Techniques d’Augmentation pour l’Audio
Comme pour les partitions, les extraits audio subissent aussi plusieurs augmentations, telles que :
- Déplacer le son dans le temps.
- Changer le volume ou ajouter du bruit aux fichiers audio.
- Modifier le tempo tout en gardant la hauteur constante.
Ces opérations préparent le modèle à comprendre des données audio qui peuvent ne pas toujours être parfaitement claires.
Expérimentations et Résultats
Préparation des Données
Pour les expériences, on a préparé des extraits audio et des partitions. Les images des partitions étaient correctement mises à l’échelle et sélectionnées pour contenir du contenu musical pertinent. Pour l’audio, on a calculé les spectrogrammes nécessaires pour que les extraits audio puissent être traités correctement.
Mise en Place des Expérimentations
On a évalué notre méthode sur plusieurs ensembles de données, certains contenant des données totalement synthétiques tandis que d’autres utilisaient de vraies données musicales. Cette variété nous a permis d’évaluer comment notre approche pouvait se généraliser d’un scénario à l’autre.
Notre système a été testé de plusieurs manières, comme récupérer des extraits basés sur des requêtes audio ou utiliser des partitions comme entrée.
Résumé des Résultats
Dans les expériences, on a découvert que les modèles entraînés avec l’apprentissage auto-supervisé avaient de meilleures performances, surtout quand de vraies données musicales étaient utilisées. Les améliorations observées étaient significatives en comparant les métriques de nos modèles proposés à celles des modèles supervisés traditionnels.
- Dans les cas où seule des données synthétiques étaient utilisées, la performance des modèles traditionnels chutait significativement lorsqu’ils étaient testés avec de vraies données musicales.
- Les modèles auto-supervisés maintenaient des relations plus étroites entre les extraits audio et les partitions, même en passant de données synthétiques à réelles.
- Les modèles qui avaient été pré-entraînés avec des méthodes auto-supervisées surpassaient systématiquement les méthodes de référence traditionnelles dans toutes les configurations.
Identification de Pièces Cross-Modales
On a aussi examiné une tâche de niveau supérieur appelée identification de pièces cross-modales. Dans cette tâche, on vise à trouver la bonne pièce de musique, que ce soit à partir d’un enregistrement audio ou de sa partition. Les expériences ont montré que nos modèles auto-supervisés étaient efficaces pour améliorer les résultats d'identification des pièces.
En agrégeant les embeddings des extraits, les modèles pouvaient récupérer les meilleures correspondances bien mieux que les méthodes de référence.
Conclusion
En conclusion, on a conçu un cadre d'apprentissage qui aide à résoudre le problème du manque de données étiquetées lors de l’entraînement des systèmes de récupération audio et de partitions. L’approche d’apprentissage contrastif auto-supervisé a permis au modèle d’apprendre à partir de données non étiquetées tout en utilisant des techniques d’augmentation pour construire des représentations robustes de la musique.
Nos expériences montrent que cette méthode améliore significativement les performances de récupération, surtout pour les tâches impliquant de vraies données musicales. Du coup, on croit que ce cadre peut aider à construire des systèmes plus fiables pour la recherche et la récupération musicale à l’avenir.
Titre: Self-Supervised Contrastive Learning for Robust Audio-Sheet Music Retrieval Systems
Résumé: Linking sheet music images to audio recordings remains a key problem for the development of efficient cross-modal music retrieval systems. One of the fundamental approaches toward this task is to learn a cross-modal embedding space via deep neural networks that is able to connect short snippets of audio and sheet music. However, the scarcity of annotated data from real musical content affects the capability of such methods to generalize to real retrieval scenarios. In this work, we investigate whether we can mitigate this limitation with self-supervised contrastive learning, by exposing a network to a large amount of real music data as a pre-training step, by contrasting randomly augmented views of snippets of both modalities, namely audio and sheet images. Through a number of experiments on synthetic and real piano data, we show that pre-trained models are able to retrieve snippets with better precision in all scenarios and pre-training configurations. Encouraged by these results, we employ the snippet embeddings in the higher-level task of cross-modal piece identification and conduct more experiments on several retrieval configurations. In this task, we observe that the retrieval quality improves from 30% up to 100% when real music data is present. We then conclude by arguing for the potential of self-supervised contrastive learning for alleviating the annotated data scarcity in multi-modal music retrieval models.
Auteurs: Luis Carvalho, Tobias Washüttl, Gerhard Widmer
Dernière mise à jour: 2023-09-21 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2309.12134
Source PDF: https://arxiv.org/pdf/2309.12134
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.