Simple Science

La science de pointe expliquée simplement

# Génie électrique et science des systèmes# Son# Interaction homme-machine# Traitement de l'audio et de la parole

Compositeur : Une nouvelle façon de créer de la musique à partir des mots

Le compositeur utilise des invites textuelles pour créer des compositions musicales complexes en format MIDI.

― 7 min lire


Compositeur : InnovationCompositeur : Innovationdu texte à la musiquelangage naturel.musique en utilisant des invites enUne nouvelle façon de composer de la
Table des matières

Cet article parle d'un nouveau système appelé Composer qui peut créer des compositions musicales à partir de descriptions textuelles. Le système peut générer des chansons de plusieurs minutes avec divers éléments et structures musicales, le tout dans un format numérique connu sous le nom de MIDI.

Comment ça marche

Composer fonctionne en prenant des instructions en langage naturel et en les transformant en musique. Il utilise un modèle appelé modèle de transformateur autoregressif. Ce modèle aide à convertir les entrées des utilisateurs en une série de paramètres pour la musique, écrits dans un format appelé JSON. Ces paramètres incluent la signature rythmique de la chanson, les gammes utilisées, les progressions d'accords et des valeurs représentant des émotions. À partir de ces entrées, différentes pistes musicales comme la mélodie, la basse et la percussion sont créées.

Une des caractéristiques clés de ce système est son utilisation d'algorithmes génétiques pour générer des mélodies. Ces algorithmes imitent la sélection naturelle, permettant aux éléments musicaux d'évoluer grâce à des changements aléatoires et à des processus de sélection qui favorisent les résultats les plus plaisants. Cette méthode renforce la créativité de la musique générée.

Défis de la génération musicale

De nombreuses avancées récentes dans la génération musicale se sont concentrées sur la production d'audio directement plutôt que de musique symbolique. Bien que certains systèmes puissent générer de la musique audio, il y en a moins qui peuvent efficacement créer de la musique symbolique à partir de descriptions textuelles. Les données musicales symboliques sont plus difficiles à décrire avec un langage courant, ce qui représente un défi pour les systèmes conçus pour interpréter le langage naturel.

La plupart des systèmes de génération musicale IA existants reposent fortement sur des réseaux neuronaux. Ces systèmes nécessitent souvent de grands ensembles de données pour apprendre, ce qui peut les amener à produire de la musique basée sur des motifs communs, comme des progressions d'accords populaires ou des signatures rythmiques standards. Par conséquent, la musique générée peut manquer d'unicité ou de créativité.

Le rôle de Composer

Le système Composer vise à surmonter ces défis en permettant aux utilisateurs d'éditer et de modifier la musique générée via d'autres instructions. Ainsi, les utilisateurs peuvent créer des compositions plus personnalisées sans être limités par les structures dominantes que l'on retrouve souvent dans d'autres systèmes.

Le système Composer est structuré de manière à permettre de tester ou de développer différentes parties séparément tout en travaillant ensemble. Voici les étapes de son fonctionnement :

  1. Le système prédit la structure et les paramètres de la composition en fonction des entrées textuelles.
  2. Des pistes mélodiques et percussives sont créées selon la structure fournie.
  3. Enfin, les pistes générées sont combinées dans un fichier MIDI.

Génération de structure musicale

Pour créer la structure musicale, le système Composer utilise un modèle linguistique pour interpréter l'entrée de l'utilisateur. Le modèle reçoit des instructions spécifiques pour produire les détails au format JSON. Ce format inclut des informations telles que le nom de la chanson, les sections, les signatures rythmiques, les types de pistes, les progressions d'accords et les indications émotionnelles.

Le système est conçu pour être flexible, permettant aux utilisateurs de demander des modifications et des ajustements à la musique en fonction de divers critères, comme l'humeur ou le style.

Création de pistes mélodiques

Les pistes mélodiques dans le système Composer sont générées à l'aide d'algorithmes génétiques. Ces algorithmes créent trois types de pistes :

  1. Pistes sans restrictions : Celles-ci peuvent jouer une gamme de notes et sont plus flexibles.
  2. Pistes basse fréquence : Celles-ci tendent à être plus simples et répétitives.
  3. Pistes haute fréquence : Celles-ci ajoutent de la texture et répètent souvent des phrases.

Les notes musicales sont codées de manière à permettre différentes durées, ce qui est essentiel pour créer des systèmes multi-pistes. L'Algorithme génétique comprend plusieurs opérations, telles que l'initialisation aléatoire, des techniques de croisement et des mutations musicalement significatives. Ces mutations introduisent des éléments musicaux intéressants au lieu de simples changements aléatoires.

Évaluation de la qualité musicale

Pour s'assurer que les mélodies sont plaisantes, le système inclut une fonction de fitness. Cette fonction évalue à quel point la musique générée correspond à des qualités spécifiques souhaitées, telles que la tonalité, le rythme et la musicalité globale. Le système tient également compte de l'harmonie entre les différentes pistes, assurant qu'elles sonnent bien ensemble.

Le système Composer permet divers modes de génération de mélodie, ce qui peut conduire à différents styles et caractéristiques dans la musique, en fonction des préférences de l'utilisateur.

Génération de pistes de percussion

Pour les éléments de percussion, le système utilise une approche différente. Au lieu de s'appuyer sur des modèles d'apprentissage profond, il incorpore des règles et des méthodes basées sur la probabilité, y compris des Chaînes de Markov. Cela garantit que même en travaillant avec des signatures rythmiques moins courantes, le système peut toujours créer des motifs de batterie intéressants et cohérents.

Les motifs de batterie sont représentés dans un format binaire, ce qui facilite la spécification des instruments de percussion joués à un moment donné. Des motifs spécifiques pour la grosse caisse et la caisse claire sont élaborés sur la base des pratiques courantes en musique. Si une signature rythmique inhabituelle est rencontrée, le système la décompose en parties plus simples qu'il peut gérer.

Progressions d'accords

Les progressions d'accords forment l'épine dorsale d'une pièce musicale, et dans Composer, elles sont définies par le système en fonction des instructions des utilisateurs. Le système offre différentes méthodes pour jouer les accords. Par exemple, les notes peuvent être tenues pendant une mesure, jouées ensemble avec des longueurs variées, ou séquencées dans un ordre ascendant ou descendant.

Les valeurs émotionnelles fournies par l'utilisateur influencent la structure des accords et les voicings, améliorant l'expressivité de la musique.

Évaluation de la musique générée

Pour tester l'efficacité du système Composer, des tests d'écoute sont réalisés avec des participants, certains ayant des connaissances musicales. Ces tests évaluent diverses qualités de la musique générée, telles que la diversité, l'impact émotionnel et le plaisir global.

De plus, la musique générée par Composer est comparée à des compositions d'un grand ensemble de données MIDI, vérifiant à quel point elles correspondent aux descriptions fournies.

Conclusion

Le système Composer représente une avancée significative dans la génération musicale en offrant une nouvelle façon de créer des pièces musicales riches et complexes à partir d'entrées textuelles. En combinant des algorithmes génétiques avec des méthodes probabilistes, il permet une sortie plus diversifiée et créative tout en évitant les limitations de s'appuyer uniquement sur de grands ensembles de données.

Au fur et à mesure que les développements dans la génération musicale par IA se poursuivent, l'accent mis sur des techniques basées sur l'optimisation, comme celles utilisées dans Composer, pourrait mener à des compositions plus innovantes qui repoussent les limites de ce qui est actuellement possible dans la création musicale.

Source originale

Titre: $\text{M}^\text{6}(\text{GPT})^\text{3}$: Generating Multitrack Modifiable Multi-Minute MIDI Music from Text using Genetic algorithms, Probabilistic methods and GPT Models in any Progression and Time signature

Résumé: This work introduces the $\text{M}^\text{6}(\text{GPT})^\text{3}$ composer system, capable of generating complete, multi-minute musical compositions with complex structures in any time signature, in the MIDI domain from input descriptions in natural language. The system utilizes an autoregressive transformer language model to map natural language prompts to composition parameters in JSON format. The defined structure includes time signature, scales, chord progressions, and valence-arousal values, from which accompaniment, melody, bass, motif, and percussion tracks are created. We propose a genetic algorithm for the generation of melodic elements. The algorithm incorporates mutations with musical significance and a fitness function based on normal distribution and predefined musical feature values. The values adaptively evolve, influenced by emotional parameters and distinct playing styles. The system for generating percussion in any time signature utilises probabilistic methods, including Markov chains. Through both human and objective evaluations, we demonstrate that our music generation approach outperforms baselines on specific, musically meaningful metrics, offering a viable alternative to purely neural network-based systems.

Auteurs: Jakub Poćwiardowski, Mateusz Modrzejewski, Marek S. Tatara

Dernière mise à jour: 2024-11-29 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2409.12638

Source PDF: https://arxiv.org/pdf/2409.12638

Licence: https://creativecommons.org/licenses/by-nc-sa/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires