Avancées dans la transcription de la musique de piano et de violon
Une étude montre que de nouvelles techniques de mixage améliorent la précision de la transcription musicale.
― 5 min lire
Table des matières
Cette étude se penche sur comment améliorer le processus de transcription des notes de piano à partir d'enregistrements où un piano joue avec un violon. Alors qu'il y a eu de grands progrès dans la transcription automatique de la musique solo pour piano, faire de même pour les morceaux avec plusieurs instruments est plus compliqué. C'est surtout parce que les sons des autres instruments rendent difficile d'entendre clairement le piano.
But de l'étude
L'objectif principal est de découvrir comment différentes Techniques de mixage influencent la précision des Transcriptions de piano dans les enregistrements de piano et violon ensemble. Pour ce faire, les chercheurs ont créé un nouveau jeu de données et l'ont utilisé pour tester différentes méthodes de mixage audio.
Création du jeu de données
Pour réaliser l'étude, les chercheurs ont développé un jeu de données spécial appelé PFVN-synth. Ce jeu de données comprend des enregistrements de musique de violon et de piano qui ont été créés à partir de fichiers MIDI (fichiers musicaux numériques). Au total, les enregistrements totalisent environ sept heures de musique de différents morceaux classiques. Les chercheurs ont mélangé des enregistrements de violon solo avec des enregistrements de piano existants pour enrichir la collection.
Défis de la transcription multi-instrumentale
Quand on essaie de noter les notes de piano à partir d'enregistrements où le piano est joué avec d'autres instruments, le travail devient compliqué. Il y a beaucoup de sons qui se mélangent, rendant difficile d'isoler les sons du piano. Les méthodes existantes pour gérer cela incluent l'utilisation de Jeux de données contenant de l'audio mixte, mais obtenir des notes musicales précises à partir de ces enregistrements mélangés est difficile.
Techniques de mixage
Pour aider à la transcription, différentes techniques de mixage audio ont été testées. Une méthode courante consiste à mélanger aléatoirement différents segments audio. Cela se fait sans tenir compte de la manière dont les différents sons se relient les uns aux autres. Certains chercheurs ont essayé des mélanges plus intelligents basés sur des idées musicales, comme aligner des sons qui sont dans la même tonalité.
Méthodes de mixage proposées
Pour cette recherche, deux méthodes de mixage spécifiques ont été utilisées :
Mixage basé sur la tonalité : Cette méthode consiste à sélectionner des segments audio partageant des tonalités musicales similaires, augmentant les chances qu'ils sonnent harmonieusement ensemble.
Mixage basé sur les onset : Cette approche se concentre sur l'appariement du timing des notes jouées, ou des "onsets" de notes. L'idée est d'aligner étroitement les notes de piano et de violon, rendant le son global plus réaliste.
Évaluation des techniques de mixage
Les chercheurs ont mené des expériences pour tester l'efficacité de ces méthodes de mixage pour transcrire la musique au piano. Ils ont utilisé un modèle de transcription à la pointe de la technologie et ont comparé les résultats de plusieurs méthodes de mixage, y compris la technique de mixage aléatoire.
Résultats de l'étude
En examinant les données, il a été constaté que différentes méthodes de mixage produisaient des résultats variés selon les jeux de données utilisés. Par exemple, le mixage basé sur les onsets a bien fonctionné avec les enregistrements synthétisés, tandis que le mixage basé sur la tonalité était plus efficace avec des enregistrements réels. Les résultats suggèrent que l'utilisation de connaissances en théorie musicale améliore les résultats de transcription par rapport aux méthodes de mixage aléatoires.
Analyse de la performance
Lorsque le modèle a été formé en utilisant le jeu de données PFVN-synth avec les méthodes de mixage basées sur la tonalité et les onsets, des taux de précision très élevés ont été atteints pour la transcription. Notamment, la précision a grimpé après avoir combiné l'audio de piano avec d'autres enregistrements de violon. Cela montre que la qualité du mixage audio a un impact direct sur les performances du modèle de transcription.
Besoin de sources audio plus diverses
Les chercheurs ont noté que les différences de performance entre les différentes méthodes peuvent venir des qualités des enregistrements audio utilisés pour les tests. Les enregistrements réels avaient tendance à avoir plus d'onsets de notes par rapport aux synthétisés, ce qui a facilité la détection des notes de piano par le modèle.
Directions futures
Pour l'avenir, les chercheurs comptent rassembler plus d'enregistrements réels d'ensembles de piano et de violon pour affiner davantage leurs méthodes. Ils pensent que combiner différentes techniques de mixage de manière réfléchie continuera d'améliorer la capacité à transcrire la musique avec précision.
Conclusion
Cette étude met en lumière l'importance des techniques de mixage audio lors de la transcription de la musique au piano jouée avec d'autres instruments, notamment le violon. En expérimentant différentes méthodes, les chercheurs ont démontré que prendre en compte les caractéristiques musicales peut considérablement améliorer le processus de transcription. Ce travail ouvre de nouvelles perspectives pour la recherche future sur la transcription musicale automatique.
Titre: A study of audio mixing methods for piano transcription in violin-piano ensembles
Résumé: While piano music transcription models have shown high performance for solo piano recordings, their performance degrades when applied to ensemble recordings. This study aims to analyze the impact of different data augmentation methods on piano transcription performance, specifically focusing on mixing techniques applied to violin-piano ensembles. We apply mixing methods that consider both harmonic and temporal characteristics of the audio. To create datasets for this study, we generated the PFVN-synth dataset, which contains 7 hours of violin-piano ensemble audio by rendering MIDI files and corresponding labels, and also collected unaccompanied violin recordings and mixed them with the MAESTRO dataset. We evaluated the transcription results on both synthesized and real audio recordings datasets.
Auteurs: Hyemi Kim, Jiyun Park, Taegyun Kwon, Dasaem Jeong, Juhan Nam
Dernière mise à jour: 2023-05-23 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2305.13758
Source PDF: https://arxiv.org/pdf/2305.13758
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.