Simple Science

La science de pointe expliquée simplement

# Génie électrique et science des systèmes# Traitement de l'audio et de la parole

Approches innovantes pour la génération de pop musique

Une nouvelle méthode pour créer de la pop structurée en utilisant des techniques basées sur des graphes.

Wen Qing Lim, Jinhua Liang, Huan Zhang

― 7 min lire


Création de musique popCréation de musique popbasée sur des graphesdes techniques graphiques innovantes.Transformer la génération musicale avec
Table des matières

La musique, c'est un mélange de rythme, mélodie et harmonie qui suit souvent des structures spécifiques. En utilisant des graphes pour représenter la musique, on peut montrer les relations entre les différentes parties et éléments d'une chanson. Bien qu'il y ait plein de méthodes pour créer de la musique avec la tech, les approches basées sur des graphes ne sont pas super courantes. Les premières tentatives se concentraient surtout sur la création de mélodies, tandis que les nouveaux essais pour faire de la musique plus complexe ratent souvent le tableau global. Ce boulot vise à développer une nouvelle approche pour créer de la pop en s'intéressant à la fois au rythme et à la structure à long terme.

Le Défi de la Génération Musicale

Créer de la musique qui sonne bien et qui a une structure claire, c’est pas simple. Les méthodes traditionnelles ont fait des progrès pour générer des mélodies, mais elles prennent souvent pas en compte comment les chansons évoluent avec le temps. Des modèles précédents ont réussi à concevoir des mélodies ou des formes simples de musique, mais ils galèrent quand on leur demande de générer des pièces plus complexes avec plusieurs pistes et instruments différents.

Une question clé qu'on explore, c'est si c'est possible de créer avec succès de la musique polyphonique (celle qui a plusieurs mélodies indépendantes) tout en s'assurant qu'elle garde une structure globale cohérente.

Notre Approche

Pour relever ce défi, on propose une nouvelle méthode qui se divise en deux étapes principales. D'abord, on construit un modèle pour générer de courtes phrases-des petits bouts de chansons. Ensuite, on crée un second modèle pour agencer ces phrases en une chanson complète. En utilisant ce processus en deux étapes, on peut mieux comprendre comment les différentes parties d'une chanson se relient les unes aux autres.

La Structure de Notre Méthode

Le cœur de notre approche comprend deux modèles distincts. Le premier modèle s'appelle un Auto-encodeur variationnel (VAE), qui apprend à encoder et décoder des phrases musicales, tandis que le second VAE s'occupe de générer la structure de la chanson elle-même. Chaque VAE prend des données musicales et les convertit en une forme plus simple qui garde des informations importantes.

En combinant les résultats des deux modèles, on peut créer des séquences de phrases qui s'enchaînent pour former une pièce musicale plus longue.

Données et Préparation

Pour entraîner nos modèles, on a utilisé un dataset appelé POP909, qui contient 909 chansons pop chinoises au format MIDI. Chaque chanson a trois parties : la mélodie, un pont et un accompagnement au piano. Ce dataset contient aussi des étiquettes qui décrivent la structure des chansons, ce qui nous aide à comprendre comment les différentes parties s'assemblent.

Pour la génération de phrases, on s'est concentrés sur des chansons en 4/4. Chaque chanson a été découpée en phrases plus courtes selon les étiquettes fournies. Si une phrase dépassait quatre mesures, on la divisait en sections plus petites pour être sûr que notre modèle apprenne bien la structure.

Comment On Représente la Musique

Notre méthode utilise des graphes pour représenter différents niveaux de structure musicale. Au niveau des mesures, chaque note est représentée comme un nœud, avec des connexions montrant comment les différentes notes sont liées entre elles. Au niveau des phrases, on représente des phrases entières comme des nœuds et on montre comment elles se connectent pour créer de plus grandes sections d'une chanson.

En construisant ces graphes, on peut mieux visualiser les relations dans la musique, ce qui aide nos modèles à apprendre plus efficacement.

L'Architecture de Nos Modèles

Nos modèles de génération de phrases et de Structure de chansons suivent tous les deux des designs similaires. Chacun comprend des composants qui se concentrent sur la compréhension à la fois du contenu (les vraies notes et rythmes) et de la structure (comment ces notes et rythmes s'intègrent dans la chanson globale). Ça permet aux modèles de créer de la musique qui non seulement sonne bien, mais qui a aussi du sens en termes de structure.

Entraînement des Modèles

On a entraîné le modèle de génération de phrases avec un lot de 32 exemples à la fois, en ajustant doucement certains paramètres pour améliorer sa performance. Le modèle de structure de chanson a été entraîné sur des lots plus petits de 8, et on a fait des ajustements similaires tout au long de son entraînement. Les deux modèles ont traversé plusieurs époques, qui sont des cycles d’entraînement qui les aident à apprendre des données.

Après l'entraînement, on a généré de nouvelles phrases et structures de chansons et on a comparé leurs résultats avec la musique originale du dataset POP909 pour voir à quel point elles se rapprochaient.

Évaluation des Modèles

Une fois qu'on avait généré de la nouvelle musique, on a évalué à quel point cela se comparait à de la musique composée par des humains. On a regardé différentes métriques, comme la variété des notes utilisées, la longueur des phrases et à quelle fréquence certaines parties musicales apparaissaient. Ça nous a aidé à comprendre si la musique générée suivait des patterns typiquement trouvés dans la pop.

Globalement, on a trouvé des forces et des faiblesses dans la musique générée par nos modèles. Les phrases générées avaient parfois moins de notes uniques et plus de mesures vides par rapport à la musique originale. Par contre, elles capturaient aussi certaines tendances essentielles en harmonie et mélodie.

Génération de Structures de Chansons

Quand on a évalué le modèle de génération de structure de chansons, on a trouvé qu'il pouvait recréer le type et la longueur des phrases assez bien. Le modèle a atteint des taux de précision élevés dans la génération de nouvelles structures de chansons qui ressemblaient beaucoup à celles du jeu de données d'entraînement.

On a observé que le nombre de phrases et leurs longueurs dans la musique générée étaient similaires à celles du dataset original, montrant que le modèle pouvait efficacement imiter la structure de la musique existante.

Conclusion et Directions Futures

Notre recherche montre que les méthodes basées sur des graphes peuvent être efficaces pour générer de la musique avec des structures complexes. Bien que les modèles qu'on a créés aient réussi à reproduire de nombreux aspects des données d'entraînement, il y a encore des améliorations possibles. Par exemple, augmenter la précision des notes et réduire les barres vides pourrait rendre la musique encore meilleure.

À l'avenir, on pourrait penser à élargir notre dataset et à intégrer des détails plus complexes sur les phrases et structures. Ça permettrait aux modèles de produire de la musique qui est non seulement structurellement solide, mais aussi riche en subtilités qui rendent la pop agréable.

En ajustant nos modèles et en élargissant la variété de musique qu'on utilise pour l'entraînement, on peut continuer à repousser les limites de la génération musicale automatisée. Les connaissances acquises grâce à cette recherche ouvrent des portes à de nouvelles possibilités dans la création musicale, permettant à la technologie d'assister les artistes à produire des sons innovants.

Source originale

Titre: Hierarchical Symbolic Pop Music Generation with Graph Neural Networks

Résumé: Music is inherently made up of complex structures, and representing them as graphs helps to capture multiple levels of relationships. While music generation has been explored using various deep generation techniques, research on graph-related music generation is sparse. Earlier graph-based music generation worked only on generating melodies, and recent works to generate polyphonic music do not account for longer-term structure. In this paper, we explore a multi-graph approach to represent both the rhythmic patterns and phrase structure of Chinese pop music. Consequently, we propose a two-step approach that aims to generate polyphonic music with coherent rhythm and long-term structure. We train two Variational Auto-Encoder networks - one on a MIDI dataset to generate 4-bar phrases, and another on song structure labels to generate full song structure. Our work shows that the models are able to learn most of the structural nuances in the training dataset, including chord and pitch frequency distributions, and phrase attributes.

Auteurs: Wen Qing Lim, Jinhua Liang, Huan Zhang

Dernière mise à jour: 2024-09-12 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2409.08155

Source PDF: https://arxiv.org/pdf/2409.08155

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires