Simple Science

La science de pointe expliquée simplement

# Génie électrique et science des systèmes# Son# Intelligence artificielle# Multimédia# Traitement de l'audio et de la parole

Présentation de PIAST : un nouveau dataset pour la recherche sur la musique au piano

PIAST propose une collection unique de musique pour piano pour les chercheurs.

Hayeon Bang, Eunjin Choi, Megan Finch, Seungheon Doh, Seolhee Lee, Gyeong-Hoon Lee, Juhan Nam

― 6 min lire


Dataset PIAST pour laDataset PIAST pour larecherche sur le pianoau piano avec PIAST.Révolutionner l'analyse de la musique
Table des matières

La musique de piano, c'est un sujet super intéressant pour la recherche musicale, mais trouver des bons datasets là-dessus, c'est comme chercher une aiguille dans une botte de foin. La plupart des datasets se concentrent sur d'autres instruments ou styles de musique, laissant les pièces solo de piano un peu de côté, un peu solitaires. Pour changer ça, un nouveau dataset appelé PIAST a été créé. Ce dataset inclut de l'Audio, de la musique symbolique (comme des partitions), et des infos textuelles, ce qui le rend super utile pour ceux qui étudient la musique.

C'est quoi PIAST ?

PIAST, c'est l'acronyme pour Piano dataset avec Audio, Symbolic, et Text. C'est une collection de musique de piano qui regroupe différents éléments : enregistrements audio, fichiers MIDI, et Annotations textuelles utiles. L'objectif de ce dataset est d'aider les chercheurs dans le domaine de la Music Information Retrieval (MIR) – une façon chic de dire qu'on cherche et qu'on organise la musique par son contenu.

Pourquoi ce dataset est nécessaire ?

Le monde de la musique de piano est immense. Un piano peut exprimer plein de styles, du jazz au classique en passant par la pop. Pourtant, il n'y a pas beaucoup de datasets qui se concentrent uniquement sur la musique de piano, surtout avec des étiquettes textuelles qui expliquent de quoi parle la musique. La plupart des datasets existants manquent soit de variété, soit d'infos suffisantes. Par exemple, si tu regardes un dataset populaire comme ECALS, tu verras que seulement une petite fraction des morceaux contient de la musique solo de piano.

Il y a des datasets, comme MAESTRO et GiantMIDI, mais ils se concentrent généralement sur des genres spécifiques. D'autres, comme Pop1K7, parlent de musique pop, et PiJAMA est pour le piano jazz. Bien que ces datasets soient géniaux en soi, ils ne capturent pas vraiment toute la richesse de ce que la musique solo de piano a à offrir, surtout en ce qui concerne les descriptions textuelles détaillées.

Création de PIAST

Pour créer PIAST, les chercheurs ont d'abord établi une sorte de "dictionnaire" pour la musique de piano. Ce dictionnaire comprend 31 Tags couvrant les genres, les émotions, les ambiances et les styles, donc c'est clair ce que la musique représente. Ils ont rassemblé plus de 9 600 morceaux de YouTube, avec quelques experts en musique qui ont manuellement étiqueté environ 2 000 de ces morceaux. Le meilleur dans tout ça ? Le dataset ne contient pas seulement la musique, mais aussi des explications et descriptions qui peuvent aider quiconque s'intéresse à la musique de piano.

Le dataset PIAST-YT

Une partie de PIAST s'appelle PIAST-YT. Cette section contient environ 9 600 morceaux audio collectés sur YouTube, accompagnés d'infos textuelles comme les titres et descriptions des vidéos. Pour rassembler cette musique, les chercheurs ont utilisé deux méthodes : la collecte basée sur les tags et la collecte par chaînes. La méthode basée sur les tags consistait à chercher une variété de musique de piano en utilisant les tags établis. Mais YouTube, c'est un peu comme chercher un grain de riz spécifique dans un gros sac – il y a plein de trucs mélangés !

Pour assurer une bonne qualité de musique, les chercheurs ont aussi utilisé une méthode basée sur les chaînes, en sélectionnant du contenu provenant de 23 chaînes YouTube connues pour leurs vidéos de piano. Après un filtrage, le dataset a fini avec environ 1 006 heures d'audio, en veillant à ce qu'il présente principalement des performances solo de piano.

Le dataset PIAST-AT

Bien que PIAST-YT soit impressionnant, les données textuelles avaient encore quelques soucis. C'était un peu un mélange, et certaines pièces n'avaient pas de texte correspondant. Donc, les chercheurs ont créé PIAST-AT pour régler ça. Cette partie du dataset contient 2 023 morceaux annotés par des experts en musique. C'est comme avoir un tuteur musical personnel qui te dit exactement ce que représente chaque pièce !

Pour PIAST-AT, les chercheurs ont pris des échantillons de PIAST-YT et ont fait annoter des segments audio de 30 secondes par des experts. Chaque segment a été lu par au moins trois annotateurs différents pour garantir l'exactitude. Ils ont reçu des instructions claires sur ce qu'il fallait chercher et ont dû ignorer tout ce qui n'entrait pas strictement dans la catégorie de la musique solo de piano. Après beaucoup de boulot, ils ont fini avec des tags bien définis pour 2 023 échantillons.

Étiquetage et classification de la musique de piano

Avec PIAST, les chercheurs peuvent faire des choses sympas comme étiqueter et classifier la musique de piano. Le dataset permet l'analyse des données audio et MIDI. L'idée, c'est d'abord d'entraîner un modèle sur une large gamme de musique de piano, puis d'appliquer ce savoir à des tâches plus spécifiques.

Pour l'étiquetage, ils ont utilisé une méthode d'entraînement qui maximise la similitude entre différents fichiers de musique et leurs descriptions. Comme ça, le modèle apprend à reconnaître quels tags vont avec quelle musique. Pense à ça comme apprendre à un enfant à associer des images avec ses histoires préférées !

Résultats et performances

Les résultats de l'utilisation de PIAST pour les tâches d'étiquetage et de recherche de musique de piano étaient prometteurs. Les chercheurs ont comparé la performance de leurs modèles en utilisant les parties audio contre MIDI du dataset. Étonnamment, les modèles utilisant MIDI ont tendance à mieux performer. Il s'avère que MIDI capture les détails du rythme et des notes, ce qui le rend plus efficace pour les tâches de classification.

Dans leurs tests, la performance a significativement augmenté lorsqu'ils ont utilisé le plus grand dataset PIAST-YT pour l'entraînement, montrant que plus de données, en général, aide quand il s'agit d'apprendre aux modèles sur la musique.

L'avenir de PIAST

La musique de piano a tellement de potentiel pour la recherche et la créativité. Elle peut aider à améliorer notre façon de trouver de la musique, de l'analyser, et de comprendre les émotions qu'elle véhicule. L'équipe derrière PIAST cherche à élargir encore le dataset en ajoutant des morceaux variés et différents types d'annotations à l'avenir.

Donc, si tu es fan de musique de piano, ou si tu aimes juste une bonne sonate de temps en temps, ce dataset pourrait être l'outil parfait pour t'aider à découvrir tous les trésors cachés que le monde du piano a à offrir. Qui aurait cru que l'étude de la musique pouvait être aussi excitante qu'une chasse au trésor ? Après tout, chaque note jouée sur un piano raconte une histoire qui attend d'être découverte !

Source originale

Titre: PIAST: A Multimodal Piano Dataset with Audio, Symbolic and Text

Résumé: While piano music has become a significant area of study in Music Information Retrieval (MIR), there is a notable lack of datasets for piano solo music with text labels. To address this gap, we present PIAST (PIano dataset with Audio, Symbolic, and Text), a piano music dataset. Utilizing a piano-specific taxonomy of semantic tags, we collected 9,673 tracks from YouTube and added human annotations for 2,023 tracks by music experts, resulting in two subsets: PIAST-YT and PIAST-AT. Both include audio, text, tag annotations, and transcribed MIDI utilizing state-of-the-art piano transcription and beat tracking models. Among many possible tasks with the multi-modal dataset, we conduct music tagging and retrieval using both audio and MIDI data and report baseline performances to demonstrate its potential as a valuable resource for MIR research.

Auteurs: Hayeon Bang, Eunjin Choi, Megan Finch, Seungheon Doh, Seolhee Lee, Gyeong-Hoon Lee, Juhan Nam

Dernière mise à jour: Nov 7, 2024

Langue: English

Source URL: https://arxiv.org/abs/2411.02551

Source PDF: https://arxiv.org/pdf/2411.02551

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires