Simple Science

La science de pointe expliquée simplement

# Génie électrique et science des systèmes# Son# Apprentissage automatique# Traitement de l'audio et de la parole

Avancées dans la génération de musique structurée avec SING

Une nouvelle méthode pour générer de la musique en utilisant des matrices d'auto-similarité et des systèmes d'attention.

― 9 min lire


SING : Un nouveauSING : Un nouveaugénérateur de musiquede la musique structurée.Présentation d'un système qui façonne
Table des matières

La Génération de musique avec des ordis a fait un sacré bon en avant. Grâce aux nouvelles technos, on peut maintenant créer de la musique qui sonne comme si c’était fait par des humains. Par contre, faire de la musique qui non seulement claque mais qui a une vraie structure sur le long terme, avec des couplets et des refrains, c’est encore un défi.

Dans ce texte, on va vous présenter une nouvelle méthode qui utilise une technique spéciale appelée matrices de self-similarité, qui aident l'ordi à mieux comprendre les Structures musicales. Notre nouveau système, appelé Similarity Incentivized Neural Generator (SING), utilise cette méthode pour créer de la musique avec des motifs plus définis.

Le défi de la génération musicale

Au fil des ans, les ordis ont été utilisés pour créer de la musique avec différentes techniques. Au début, ces méthodes étaient assez simples et ne créaient que des mélodies basiques. Maintenant, on peut utiliser l'apprentissage profond - un type d'apprentissage machine qui imite comment les humains apprennent - pour générer des morceaux musicaux plus complexes.

Mais il reste un gros défi : créer de la musique avec des motifs et des structures répétitifs. Ces structures se trouvent souvent dans des genres comme la pop, où t’as des couplets et des refrains, ou dans la musique classique, où les thèmes et motifs se répètent. Les modèles de génération musicale traditionnels ont du mal avec ça, surtout quand ils ne sont pas spécialement conçus pour capturer ces motifs.

Qu'est-ce que l'Attention dans la génération musicale ?

Une façon d’aborder ce problème est d'utiliser une méthode appelée attention. En gros, l'attention permet à un ordi de se concentrer plus sur certaines parties de la musique quand il génère de nouvelles notes. Plutôt que de considérer toutes les notes précédentes de la même manière, l’ordi apprend à prioriser certaines notes basées sur leur importance.

Beaucoup de systèmes modernes de génération musicale, surtout ceux basés sur un type de modèle appelé Transformers, utilisent ce concept d’attention. Cela dit, les mécanismes d'attention peuvent être compliqués et manquent souvent d’explications claires sur leur fonctionnement.

Comprendre les matrices de self-similarité (SSMs)

Les matrices de self-similarité (SSMs) sont un outil spécial utilisé pour représenter les structures musicales. Elles aident à encoder à la fois les grands et petits motifs dans un morceau de musique. Une SSM montre, sous forme de matrice, à quel point différentes parties d'un morceau se ressemblent. Par exemple, si une certaine partie d'une chanson ressemble à une autre, cela va se voir clairement dans la SSM.

Cette représentation est utile parce qu'elle permet aux générateurs de musique de comprendre les relations entre les différentes parties d'un morceau. En utilisant les SSMs, on peut donner à notre système de génération musicale une meilleure orientation sur quelle structure suivre et reproduire.

Présentation du Similarity Incentivized Neural Generator (SING)

On propose une nouvelle méthode de génération musicale qui utilise les SSMs pour créer un meilleur système d'attention dans un modèle d'apprentissage profond. Notre système, SING, combine une couche de Long Short Term Memory (LSTM) avec une couche d'attention basée sur les SSMs. Cette combinaison permet à SING de générer de la musique qui ressemble beaucoup à un morceau modèle donné par l'utilisateur.

Dans notre approche, on entraîne SING avec un grand dataset de musique, où le système apprend à reproduire les structures affichées dans les SSMs. Le but, c'est que SING génère de la musique avec des motifs et des structures similaires à ceux des morceaux originaux.

Entraîner le modèle SING

Pour entraîner SING, on a utilisé un dataset appelé MAESTRO. Ce dataset contient des fichiers MIDI de musique classique et est assez grand pour fournir une variété d'exemples musicaux dont le modèle peut apprendre. Pendant ce processus, on a créé une méthode pour gérer des morceaux de différentes longueurs sans perdre de détails structurels importants.

Au lieu de simplement couper les longs morceaux en plus courts et d’ignorer les plus petits, on a développé une méthode de batch flexible. Cela nous permet de garder autant de données pertinentes que possible tout en s'assurant que les morceaux sont gérables pour le processus d'entraînement.

Comment SING fonctionne

SING a deux composants principaux. Le premier est la couche LSTM, qui génère des prédictions pour les prochaines notes musicales basées sur les notes précédentes et la SSM. Le second est la couche d'attention, qui applique des poids de la SSM pour aider le LSTM à se concentrer sur les notes passées les plus pertinentes pour chaque nouvelle note générée.

En prenant cette approche, SING peut produire de la musique qui garde plus de structure, ce qui la rend plus cohérente sur de plus longues sections. On a aussi ajouté un processus d’entraînement unique qui permet à SING d'apprendre efficacement sans être perdu par des données incorrectes.

Évaluer SING

Pour voir à quel point SING fonctionne bien, on a évalué ses performances de deux manières : par des mesures computationnelles et par des évaluations humaines. Dans l'évaluation computationnelle, on a regardé la similitude entre la musique générée et le modèle original en comparant leurs SSMs. Un score d'erreur plus bas indiquait que SING réussissait bien à reproduire la structure.

Dans l'évaluation humaine, on a demandé à des auditeurs de noter des morceaux de musique générés par SING par rapport à d'autres méthodes, y compris un modèle LSTM basique et du bruit aléatoire. Les participants ont écouté des paires de clips de 30 secondes et ont donné leur avis sur des facteurs comme l'intérêt et l'agrément.

Résultats de l'évaluation

Nos résultats ont montré que SING a bien performé dans les deux évaluations. Dans les tests computationnels, on a constaté que la musique générée par SING avait un score d'erreur plus bas comparé à celui du LSTM basique, indiquant une correspondance plus proche à la structure originale.

Dans l'étude humaine, les auditeurs ont trouvé la musique de SING plus intéressante et agréable que celle du LSTM basique. Même si elle n'a pas complètement surpassé les compositions originales, SING a montré une amélioration significative par rapport au bruit aléatoire, suggérant que le système génère de la musique qui semble plus structurée.

L'importance de la méthode de batching de longueur variable

Une contribution notable de notre travail est la méthode de batching de longueur variable. Cela nous permet de gérer efficacement des données de longueurs variées, garantissant que les structures importantes sont préservées. Les méthodes traditionnelles conduisent souvent soit à couper des informations musicales précieuses, soit à modifier artificiellement des morceaux pour les adapter à une longueur fixe.

Avec notre méthode, on peut regrouper les morceaux selon leurs longueurs naturelles, permettant au modèle d'apprendre davantage sur la structure à long terme sans perdre d'informations critiques. Cette flexibilité est particulièrement cruciale lorsqu’on traite des datasets complexes comme la musique classique, où les morceaux peuvent avoir une grande variété de longueurs et de structures.

Avancer : futures pistes et opportunités

Il y a plusieurs façons dont on pourrait améliorer SING et ses capacités. Une direction intéressante serait d'explorer l'utilisation de modèles plus avancés, comme les Transformers, avec notre mécanisme d'attention. Cela pourrait offrir aux utilisateurs encore plus de contrôle sur la structure musicale tout en bénéficiant de la haute qualité des sorties typiques des modèles Transformer.

Un autre domaine d'amélioration concerne la méthode d'échantillonnage utilisée dans SING. Actuellement, SING nécessite qu'au moins une note soit activée tout le temps. Améliorer cette approche d'échantillonnage pour permettre des silences pourrait améliorer la musicalité générale et la flexibilité de la musique générée.

De plus, notre dépendance à l'estimation automatique du tempo pose des défis. Les travaux futurs pourraient explorer l'utilisation de données annotées ou d'autres méthodes pour capturer plus précisément les structures rythmiques de la musique.

Conclusion

Ce texte visait à introduire une nouvelle approche de génération musicale, en se concentrant sur un système capable de créer de la musique structurée en utilisant des matrices de self-similarité. En combinant un LSTM avec un mécanisme d'attention innovant, SING démontre le potentiel de générer de la musique qui reflète les structures souhaitées tout en améliorant les méthodes précédentes.

Les résultats positifs des évaluations computationnelles et humaines indiquent que SING a le potentiel d'être un outil puissant pour la génération musicale. Ce travail ouvre de nouvelles possibilités dans le domaine, permettant un meilleur contrôle par l'utilisateur et la création de sorties musicales plus structurées.

Implications pour l'avenir de la génération musicale

Alors que la technologie de génération musicale continue de croître, des outils comme SING pourraient ouvrir la voie à de nouveaux processus créatifs qui autonomisent les musiciens et les compositeurs. En fournissant des systèmes qui peuvent générer de la musique basée sur des structures définies par l'utilisateur, on peut rendre la création musicale plus accessible à un public plus large.

Cette capacité pourrait inspirer de nouveaux genres ou styles qui émergent d'interactions collaboratives entre la créativité humaine et l'apprentissage machine. En fin de compte, la recherche et le développement continus dans la génération musicale façonneront l'avenir de la manière dont nous créons, vivons et interagissons avec la musique.

Source originale

Titre: Generating Music with Structure Using Self-Similarity as Attention

Résumé: Despite the innovations in deep learning and generative AI, creating long term structure as well as the layers of repeated structure common in musical works remains an open challenge in music generation. We propose an attention layer that uses a novel approach applying user-supplied self-similarity matrices to previous time steps, and demonstrate it in our Similarity Incentivized Neural Generator (SING) system, a deep learning autonomous music generation system with two layers. The first is a vanilla Long Short Term Memory layer, and the second is the proposed attention layer. During generation, this attention mechanism imposes a suggested structure from a template piece on the generated music. We train SING on the MAESTRO dataset using a novel variable batching method, and compare its performance to the same model without the attention mechanism. The addition of our proposed attention mechanism significantly improves the network's ability to replicate specific structures, and it performs better on an unseen test set than a model without the attention mechanism.

Auteurs: Sophia Hager, Kathleen Hablutzel, Katherine M. Kinnaird

Dernière mise à jour: 2024-06-25 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2406.15647

Source PDF: https://arxiv.org/pdf/2406.15647

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Articles similaires