Améliorer la transcription de batterie avec des données synthétiques améliorées
De nouvelles stratégies visent à améliorer les ensembles de données synthétiques pour une meilleure transcription de batterie.
― 9 min lire
Table des matières
- Récupération d'Informations Musicales
- Défi des Ensembles de Données Limités
- Améliorer les Ensembles de Données Synthétiques
- Stratégies d'Amélioration
- Nouvel Ensemble de Données Synthétiques
- Construction de l’Ensemble de Données
- Évaluation du Nouvel Ensemble de Données
- Méthodologie de Comparaison
- Résultats des Évaluations
- Réalisme de l’Ensemble de Données
- Analyse de l'Écart de Transfert
- Résultats de l’Étude d’Ablation
- Conclusion
- Directions Futures
- Source originale
- Liens de référence
La transcription automatique de la batterie est un outil super important en technologie musicale pour analyser le rythme des chansons. Ça aide à identifier quand et quelles batteries sont jouées dans un morceau. Mais, il y a un souci : y’a pas assez de pistes audio labellisées dispos pour entraîner efficacement les modèles. Pour y remédier, une solution populaire est de créer des données synthétiques à partir de partitions de musique, ce qui permet de générer un nombre illimité de pistes.
Bien que les pistes synthétiques puissent être produites facilement et en grande quantité, elles n'arrivent souvent pas à bien fonctionner quand on les teste sur des enregistrements audio réels. Dans cet article, on va parler des moyens d'améliorer la qualité des données synthétiques pour la transcription de batterie. On va évaluer trois stratégies qui peuvent aider à rendre les données synthétiques plus réalistes et à réduire l'écart entre les données synthétiques et celles du monde réel.
Récupération d'Informations Musicales
La récupération d'informations musicales (MIR) est un domaine de recherche centré sur l'extraction de caractéristiques utiles de la musique. En obtenant des infos sur la structure, le tempo et la tonalité d'un morceau, les logiciels peuvent améliorer les études musicales et les expériences d'écoute. Certaines tâches en MIR cherchent à automatiser des processus chronophages qui nécessitent traditionnellement un travail manuel. La transcription automatique de batterie (ADT) est une de ces tâches, visant à repérer le timing et les instruments joués sur une batterie.
Transcrire les batteries est compliqué à cause de la complexité des enregistrements audio, surtout quand des instruments mélodiques sont impliqués. Quand les batteries sont mélangées à d'autres sons, c'est encore plus difficile de les isoler et de les identifier. À cause de ce défi, beaucoup des meilleures méthodes s'appuient sur des modèles d'apprentissage profond, qui peuvent analyser des mélanges audio complexes. Cependant, ces modèles nécessitent souvent de grandes quantités de données d'entraînement labellisées, ce qui n'est pas facile à obtenir.
Défi des Ensembles de Données Limités
Les ensembles de données labellisés pour la transcription de batterie sont rares. Annoter des pistes audio est du boulot, même pour des musiciens expérimentés. De plus, des problèmes de droits d'auteur empêchent souvent le partage des pistes, ce qui limite la disponibilité des données d'entraînement. Pour surmonter ces problèmes, les chercheurs se sont tournés vers des ensembles de données synthétiques. Ces ensembles peuvent être créés en générant de l'audio à partir de fichiers MIDI, ce qui permet un étiquetage précis sans besoin d'intervention manuelle.
Bien que l'utilisation de fichiers MIDI puisse générer une énorme quantité de données, les études montrent que les modèles entraînés sur des ensembles de données synthétiques ne performe pas aussi bien sur de l'audio réel. La qualité inférieure et le manque de complexité des ensembles de données synthétiques peuvent empêcher les modèles de comprendre les nuances des enregistrements réels. Reconnaissant cette limitation, certains chercheurs ont développé des stratégies pour améliorer les ensembles de données synthétiques, soit en adaptant les données elles-mêmes, soit les algorithmes d'apprentissage.
Améliorer les Ensembles de Données Synthétiques
Dans ce travail, on va mettre en avant des méthodes pour créer des ensembles de données synthétiques plus réalistes pour la transcription de batterie. En identifiant les faiblesses dans les procédures de génération actuelles, on peut proposer un nouvel ensemble de données qui surmonte ces défis.
Stratégies d'Amélioration
Utiliser des Performances Humaines : Au lieu de se fier uniquement aux fichiers MIDI sans touche humaine, on peut incorporer des performances captées de vrais batteurs utilisant des instruments électroniques. Ça apporte un niveau de réalisme que le MIDI de base ne peut pas atteindre.
Utiliser Plusieurs Instruments : Tandis que certains ensembles de données synthétiques se concentrent uniquement sur les batteries, inclure d'autres instruments comme le piano ou la guitare peut créer un son plus riche et améliorer la qualité globale des pistes.
Employer Divers Presets Sonores : Plutôt que de n’utiliser que quelques configurations de synthétiseurs, employer une large gamme de presets peut enrichir la variété des sons dans les pistes.
Nouvel Ensemble de Données Synthétiques
Avec ces stratégies en tête, on a créé un nouvel ensemble de données synthétiques appelé Automatic Drum Transcription On Synthesizers (ADTOS). Cet ensemble intègre des performances humaines, plusieurs instruments, et une large gamme de presets sonores, le rendant unique par rapport aux ensembles de données existants.
Construction de l’Ensemble de Données
Les pistes dans ADTOS sont construites à partir de boucles MIDI professionnelles enregistrées par des musiciens qualifiés. Les boucles contiennent une grande variété de séquences de batterie, de piano et de basse, et sont regroupées par thèmes pour créer des pistes cohérentes. Ces boucles contiennent de légères variations dans le timing et la dynamique, imitant une performance réelle plutôt qu'une représentation MIDI parfaitement quantifiée.
Pour générer des pistes complètes, on superpose plusieurs boucles ensemble, en s'assurant que les différentes sections de la piste maintiennent un certain degré de cohérence. De cette manière, on peut créer des compositions élaborées et engageantes qui varient selon les genres et les styles.
Évaluation du Nouvel Ensemble de Données
Pour évaluer la qualité de notre nouvel ensemble de données synthétiques, on a mené une série d'expérimentations en le comparant à d'autres ensembles de données existants pour la transcription de batterie.
Méthodologie de Comparaison
Évaluation du Réalisme : On a d'abord examiné les ensembles de données synthétiques pour déterminer à quel point leurs distributions de données correspondaient à celles des enregistrements du monde réel. Ça aide à identifier les domaines où les ensembles de données synthétiques manquent de réalisme.
Mesure de l'Écart de Transfert : On a aussi analysé comment différents ensembles de données performent à mesure que la quantité de données d'entraînement augmente. Cette analyse nous permet de comprendre la perte minimale qu'on s'attend à atteindre avec différentes procédures de génération.
Étude d’Ablation : Pour évaluer davantage l’efficacité des trois principales caractéristiques de notre ensemble de données, on a comparé différentes versions de notre ensemble, en changeant un élément à la fois pour voir comment ça affecte la performance.
Résultats des Évaluations
À travers nos études, on a constaté que notre nouvel ensemble de données fait des progrès significatifs en abordant les qualités réalistes des données synthétiques.
Réalisme de l’Ensemble de Données
Quand on compare les distributions de notre ensemble ADTOS avec celles d'autres ensembles, on a trouvé qu'ADTOS couvre une plus large gamme de caractéristiques qui se trouvent typiquement dans des données du monde réel. Ça suggère qu'il pourrait aider les modèles à mieux performer lors de l'extraction d'informations à partir de pistes audio réelles.
Analyse de l'Écart de Transfert
Les résultats ont montré que les modèles entraînés sur ADTOS performent mieux que ceux entraînés sur d'autres ensembles de données synthétiques. Bien qu'ADTOS n'atteigne pas le niveau de performance des modèles entraînés sur de l'audio réel, l'écart était considérablement plus petit. Ça démontre que notre technique de génération est plus efficace pour combler l'écart de transfert synthétique-vers-réalité.
Résultats de l’Étude d’Ablation
Notre étude d’ablation a confirmé l’impact positif de l’incorporation de performances humaines, de l’ajout d’instruments d’accompagnement et de l’utilisation de davantage de presets sonores. Chacune de ces caractéristiques a contribué à créer un ensemble de données plus diversifié et complexe, améliorant ainsi la performance des modèles entraînés avec.
Conclusion
Pour conclure, notre travail met en lumière que la qualité des données est essentielle pour les tâches de transcription de batterie. Simplement générer de grandes quantités de données synthétiques ne suffit pas ; le réalisme et la diversité de ces données sont cruciaux. En raffinant le processus de génération, on peut produire des ensembles de données synthétiques qui améliorent considérablement la performance des modèles lorsqu’ils sont appliqués à de l'audio réel.
Grâce à notre nouvel ensemble de données et aux stratégies qu'on a identifiées, on est optimistes pour le futur du travail sur l'amélioration de la transcription de batterie et sur les défis posés par les données labellisées limitées. Dans les années à venir, on espère explorer davantage le scaling de la performance des modèles avec des caractéristiques de données variées pour affiner encore notre approche.
Directions Futures
En avançant, on s'intéresse à analyser des aspects plus fins de la performance des modèles, comme leur capacité à gérer différents instruments de batterie ou divers genres de musique. Identifier des points spécifiques à améliorer dans la procédure de génération va nous aider à créer des ensembles de données encore plus réalistes dans le domaine de la transcription automatique de batterie.
En continuant à améliorer la qualité des données synthétiques, on peut faire des avancées significatives pour combler le fossé entre le synthétique et le réel, et finalement enrichir notre compréhension et notre plaisir de la musique.
Titre: Analyzing and reducing the synthetic-to-real transfer gap in Music Information Retrieval: the task of automatic drum transcription
Résumé: Automatic drum transcription is a critical tool in Music Information Retrieval for extracting and analyzing the rhythm of a music track, but it is limited by the size of the datasets available for training. A popular method used to increase the amount of data is by generating them synthetically from music scores rendered with virtual instruments. This method can produce a virtually infinite quantity of tracks, but empirical evidence shows that models trained on previously created synthetic datasets do not transfer well to real tracks. In this work, besides increasing the amount of data, we identify and evaluate three more strategies that practitioners can use to improve the realism of the generated data and, thus, narrow the synthetic-to-real transfer gap. To explore their efficacy, we used them to build a new synthetic dataset and then we measured how the performance of a model scales and, specifically, at what value it will stagnate when increasing the number of training tracks for different datasets. By doing this, we were able to prove that the aforementioned strategies contribute to make our dataset the one with the most realistic data distribution and the lowest synthetic-to-real transfer gap among the synthetic datasets we evaluated. We conclude by highlighting the limits of training with infinite data in drum transcription and we show how they can be overcome.
Auteurs: Mickaël Zehren, Marco Alunno, Paolo Bientinesi
Dernière mise à jour: 2024-07-29 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2407.19823
Source PDF: https://arxiv.org/pdf/2407.19823
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.