Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Elektrotechnik und Systemtechnik# Ton# Mensch-Computer-Interaktion# Audio- und Sprachverarbeitung

Composer: Ein neuer Weg, Musik aus Worten zu schaffen

Der Komponist nutzt Textanweisungen, um komplexe Musikkompositionen im MIDI-Format zu erstellen.

Jakub Poćwiardowski, Mateusz Modrzejewski, Marek S. Tatara

― 5 min Lesedauer


Komponist: Text zu MusikKomponist: Text zu MusikInnovationmit natürlichen Sprachaufforderungen.Ein neuer Ansatz zur Musikkomposition
Inhaltsverzeichnis

Dieser Artikel spricht über ein neues System namens Composer, das Musikkompositionen aus Textbeschreibungen erstellen kann. Das System kann mehrminütige Songs mit verschiedenen musikalischen Elementen und Strukturen generieren, alles im digitalen Format MIDI.

Wie das System funktioniert

Composer funktioniert, indem es natürliche Sprachaufforderungen nimmt und sie in Musik verwandelt. Es verwendet ein Modell namens autoregressives Transformermodell. Dieses Modell hilft, Benutzereingaben in eine Reihe von Parametern für die Musik umzuwandeln, die im JSON-Format geschrieben sind. Diese Parameter beinhalten das Metrum des Songs, die verwendeten Tonleitern, Akkordfolgen und Werte, die Emotionen repräsentieren. Aus diesen Eingaben werden verschiedene musikalische Spuren wie Melodie, Bass und Percussion erstellt.

Eine der Hauptfunktionen dieses Systems ist die Verwendung genetischer Algorithmen zur Generierung von Melodien. Diese Algorithmen ahmen die natürliche Selektion nach, wodurch musikalische Elemente durch zufällige Veränderungen und Auswahlprozesse evolvieren, die die angenehmsten Ergebnisse begünstigen. Diese Methode steigert die Kreativität der generierten Musik.

Herausforderungen in der Musikgeneration

Viele aktuelle Entwicklungen in der Musikgeneration konzentrieren sich darauf, Audio direkt zu erzeugen, anstatt symbolische Musik zu erstellen. Während einige Systeme Audio-Musik generieren können, gibt es weniger, die effektiv symbolische Musik aus Textbeschreibungen erstellen können. Symbolische Musikdaten sind schwerer mit alltäglicher Sprache zu beschreiben, was eine Herausforderung für Systeme darstellt, die darauf ausgelegt sind, natürliche Sprache zu interpretieren.

Die meisten bestehenden KI-Musikgenerierungssysteme verlassen sich stark auf neuronale Netzwerke. Diese Systeme benötigen oft grosse Datensätze, um daraus zu lernen, was dazu führen kann, dass sie Musik basierend auf gängigen Mustern produzieren, wie beliebten Akkordfolgen oder Standardmetren. Infolgedessen kann die generierte Musik an Einzigartigkeit oder Kreativität mangeln.

Die Rolle von Composer

Das Composer-System zielt darauf ab, diese Herausforderungen zu überwinden, indem es den Nutzern ermöglicht, die generierte Musik durch weitere Eingaben zu bearbeiten und zu modifizieren. Dadurch können Nutzer massgeschneiderte Kompositionen erstellen, ohne durch die dominierenden Strukturen anderer Systeme eingeschränkt zu werden.

Das Composer-System ist so strukturiert, dass verschiedene Teile separat getestet oder entwickelt werden können, während sie trotzdem zusammenarbeiten. Die folgenden Schritte skizzieren den Ablauf:

  1. Das System sagt die Struktur und Parameter der Komposition basierend auf Texteingaben voraus.
  2. Melodische und Percussion-Spuren werden gemäss der angegebenen Struktur erstellt.
  3. Schliesslich werden die generierten Spuren in eine MIDI-Datei kombiniert.

Generierung der musikalischen Struktur

Um die musikalische Struktur zu erstellen, verwendet das Composer-System ein Sprachmodell, um die Benutzereingaben zu interpretieren. Dem Modell werden spezifische Anweisungen gegeben, um die Details im JSON-Format auszugeben. Dieses Format enthält Informationen wie den Namen des Songs, Abschnitte, Zeitbeschreibungen, Tracktypen, Akkordfolgen und emotionale Hinweise.

Das System ist so gestaltet, dass es flexibel ist und die Nutzer Änderungen und Anpassungen an der Musik basierend auf verschiedenen Kriterien, wie Stimmung oder Stil, anfordern können.

Erstellung melodischer Spuren

Melodische Spuren im Composer-System werden mithilfe genetischer Algorithmen generiert. Diese Algorithmen erstellen drei Arten von Spuren:

  1. Ungefilterte Spuren: Diese können eine Reihe von Noten spielen und sind flexibler.
  2. Niedrigfrequente Spuren: Diese sind tendenziell einfacher und repetitiver.
  3. Hochfrequente Spuren: Diese fügen Textur hinzu und wiederholen häufig Phrasen.

Musikalische Noten sind so codiert, dass sie verschiedene Dauer haben, was für die Erstellung mehrspuriger Systeme wichtig ist. Der genetische Algorithmus umfasst mehrere Operationen, wie zufällige Initialisierung, Kreuzungstechniken und musikalisch bedeutungsvolle Mutationen. Diese Mutationen führen interessante musikalische Elemente ein, anstatt nur zufällige Veränderungen.

Bewertung der Musikqualität

Um sicherzustellen, dass die Melodien angenehm sind, enthält das System eine Fitnessfunktion. Diese Funktion bewertet, wie gut die generierte Musik bestimmten gewünschten Qualitäten entspricht, wie Tonhöhe, Rhythmus und allgemeiner Musikalität. Das System berücksichtigt auch die Harmonie zwischen verschiedenen Spuren, um sicherzustellen, dass sie gut zusammenklingen.

Das Composer-System ermöglicht verschiedene Methoden der Melodiegenerierung, die zu unterschiedlichen Stilen und Eigenschaften in der Musik führen können und dabei die Vorlieben des Nutzers berücksichtigen.

Generierung von Percussion-Spuren

Für die Percussion-Elemente verwendet das System einen anderen Ansatz. Anstatt sich auf Deep-Learning-Modelle zu verlassen, integriert es Regeln und wahrscheinlichkeitbasierte Methoden, einschliesslich Markov-Ketten. Das gewährleistet, dass das System auch bei weniger gängigen Zeitmassen interessante und kohärente Schlagzeugmuster erstellen kann.

Schlagzeugmuster werden in einem binären Format dargestellt, was es einfach macht, anzugeben, welche Percussioninstrumente zu einem bestimmten Zeitpunkt gespielt werden. Spezifische Muster für Bassdrum und Snare basieren auf gängigen Praktiken in der Musik. Wenn ein ungewöhnliches Zeitmass auftritt, zerlegt das System es in einfachere Teile, die es verarbeiten kann.

Akkordfolgen

Akkordfolgen bilden das Rückgrat eines Musikstücks, und im Composer werden sie vom System basierend auf Benutzereingaben definiert. Das System bietet verschiedene Methoden an, wie Akkorde gespielt werden können. Zum Beispiel können Noten während eines Taktes gehalten, zusammen mit unterschiedlichen Längen gespielt oder in aufsteigender oder absteigender Reihenfolge sequenziert werden.

Die emotionalen Werte, die der Nutzer bereitstellt, beeinflussen die Akkordstruktur und -stimmung und steigern die Ausdruckskraft der Musik.

Bewertung der generierten Musik

Um die Wirksamkeit des Composer-Systems zu testen, werden Hörtests mit Teilnehmern durchgeführt, von denen einige musikalisches Wissen haben. Diese Tests bewerten verschiedene Qualitäten der generierten Musik, wie Vielfalt, emotionalen Einfluss und allgemeine Freude.

Zusätzlich wird die von Composer generierte Musik mit Kompositionen aus einem grossen MIDI-Datensatz verglichen, um zu prüfen, wie gut sie mit den bereitgestellten Beschreibungen übereinstimmt.

Fazit

Das Composer-System stellt einen bedeutenden Fortschritt in der Musikgenerierung dar, indem es eine neue Möglichkeit bietet, reichhaltige und komplexe musikalische Stücke aus Texteingaben zu erstellen. Durch die Kombination genetischer Algorithmen mit probabilistischen Methoden ermöglicht es eine diversere und kreativere Ausgabe, während es die Einschränkungen vermeidet, die sich aus der ausschliesslichen Abhängigkeit von grossen Datensätzen ergeben.

Mit den Entwicklungen in der KI-Musikgenerierung könnte der Fokus auf optimierungsbasierten Techniken, wie sie im Composer verwendet werden, zu innovativeren Kompositionen führen, die die Grenzen dessen, was derzeit in der Musikschöpfung möglich ist, erweitern.

Originalquelle

Titel: $\text{M}^\text{6}(\text{GPT})^\text{3}$: Generating Multitrack Modifiable Multi-Minute MIDI Music from Text using Genetic algorithms, Probabilistic methods and GPT Models in any Progression and Time signature

Zusammenfassung: This work introduces the $\text{M}^\text{6}(\text{GPT})^\text{3}$ composer system, capable of generating complete, multi-minute musical compositions with complex structures in any time signature, in the MIDI domain from input descriptions in natural language. The system utilizes an autoregressive transformer language model to map natural language prompts to composition parameters in JSON format. The defined structure includes time signature, scales, chord progressions, and valence-arousal values, from which accompaniment, melody, bass, motif, and percussion tracks are created. We propose a genetic algorithm for the generation of melodic elements. The algorithm incorporates mutations with musical significance and a fitness function based on normal distribution and predefined musical feature values. The values adaptively evolve, influenced by emotional parameters and distinct playing styles. The system for generating percussion in any time signature utilises probabilistic methods, including Markov chains. Through both human and objective evaluations, we demonstrate that our music generation approach outperforms baselines on specific, musically meaningful metrics, offering a viable alternative to purely neural network-based systems.

Autoren: Jakub Poćwiardowski, Mateusz Modrzejewski, Marek S. Tatara

Letzte Aktualisierung: 2024-11-29 00:00:00

Sprache: English

Quell-URL: https://arxiv.org/abs/2409.12638

Quell-PDF: https://arxiv.org/pdf/2409.12638

Lizenz: https://creativecommons.org/licenses/by-nc-sa/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.

Mehr von den Autoren

Ähnliche Artikel