Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Elektrotechnik und Systemtechnik# Audio- und Sprachverarbeitung

Innovative Ansätze zur Popmusik-Generierung

Eine neue Methode zur Erstellung von strukturierter Popmusik mithilfe graphbasierter Techniken.

― 6 min Lesedauer


Graph-basierteGraph-basiertePopmusikschöpfungGraph-Techniken transformieren.Die Musikgenerierung mit innovativen
Inhaltsverzeichnis

Musik ist eine Mischung aus Rhythmus, Melodie und Harmonie, die oft bestimmten Strukturen folgt. Wenn wir Graphen verwenden, um Musik darzustellen, können wir die Beziehungen zwischen verschiedenen Teilen und Elementen eines Songs zeigen. Es gibt viele Methoden, Musik mit Technologie zu erstellen, aber graphbasierte Ansätze sind nicht so verbreitet. Frühere Versuche konzentrierten sich hauptsächlich auf die Erstellung von Melodien, während neuere Bemühungen, komplexere Musik zu schaffen, oft das Gesamtbild der Struktur vernachlässigen. Diese Arbeit zielt darauf ab, einen neuen Ansatz zur Erstellung von Popmusik zu entwickeln, indem sowohl Rhythmus als auch langfristige Struktur betrachtet werden.

Die Herausforderung der Musikgenerierung

Musik zu kreieren, die gut klingt und eine klare Struktur hat, ist nicht einfach. Traditionelle Methoden haben Fortschritte bei der Generierung von Melodien gemacht, aber sie berücksichtigen oft nicht, wie Songs sich im Laufe der Zeit entwickeln. Frühere Modelle haben Melodien oder einfache Musikformen erfolgreich erstellt, hatten aber Schwierigkeiten, komplexere Stücke mit mehreren Spuren und verschiedenen Instrumenten zu generieren.

Eine zentrale Frage, die wir untersuchen, ist, ob es möglich ist, sowohl polyphone Musik (Musik mit mehreren unabhängigen Melodien) erfolgreich zu erstellen und gleichzeitig sicherzustellen, dass sie eine zusammenhängende Gesamtstruktur beibehält.

Unser Ansatz

Um diese Herausforderung zu meistern, präsentieren wir eine neue Methode, die aus zwei Hauptschritten besteht. Zuerst bauen wir ein Modell, um kurze Phrasen - kleine Teile von Songs - zu generieren. Dann erstellen wir ein zweites Modell, um diese Phrasen zu einem kompletten Song anzuordnen. Durch den zweistufigen Prozess können wir besser verstehen, wie verschiedene Teile eines Songs miteinander in Beziehung stehen.

Die Struktur unserer Methode

Das Herzstück unseres Ansatzes besteht aus zwei separaten Modellen. Das erste Modell heisst Variational Auto-Encoder (VAE), das lernt, Musikphrasen zu kodieren und zu dekodieren, während das zweite VAE an der Struktur des Songs selbst arbeitet. Jedes VAE nimmt musikalische Daten an und wandelt sie in eine einfachere Form um, die wichtige Informationen behält.

Indem wir die Ausgaben beider Modelle kombinieren, können wir Sequenzen von Phrasen erstellen, die zusammenfliessen, um ein längeres Musikstück zu bilden.

Daten und Vorbereitung

Um unsere Modelle zu trainieren, haben wir einen Datensatz namens POP909 verwendet, der 909 chinesische Popsongs im MIDI-Format enthält. Jeder Song hat drei Teile: die Melodie, eine Brücke und eine Klavierbegleitung. Dieser Datensatz kommt auch mit Labels, die die Struktur der Songs beschreiben, was uns hilft zu verstehen, wie verschiedene Teile zusammenpassen.

Für die Phrasengenerierung haben wir uns auf Songs konzentriert, die im 4/4-Takt sind. Jeder Song wurde basierend auf den bereitgestellten Labels in kleinere Phrasen unterteilt. Wenn eine Phrase länger als vier Takte war, haben wir sie in kleinere Abschnitte unterteilt, damit unser Modell die Struktur richtig lernt.

Wie wir Musik darstellen

Unsere Methode verwendet Graphen, um verschiedene Ebenen der Musikstruktur darzustellen. Auf der Takt-Ebene wird jede Note als Knoten dargestellt, wobei Verbindungen zeigen, wie verschiedene Noten miteinander in Beziehung stehen. Auf der Phrasenebene stellen wir ganze Phrasen als Knoten dar und zeigen, wie sie sich verbinden, um grössere Abschnitte eines Songs zu bilden.

Durch den Aufbau dieser Graphen können wir die Beziehungen innerhalb der Musik besser visualisieren, was unseren Modellen hilft, effektiver zu lernen.

Die Architektur unserer Modelle

Unsere Modelle zur Phrasengenerierung und zur Songstruktur folgen ähnlichen Designs. Jedes enthält Komponenten, die sich darauf konzentrieren, sowohl den Inhalt (die tatsächlichen Noten und Rhythmen) als auch die Struktur (wie diese Noten und Rhythmen in den grösseren Song passen) zu verstehen. Dadurch können die Modelle Musik schaffen, die nicht nur gut klingt, sondern auch in Bezug auf die Struktur Sinn macht.

Training der Modelle

Wir haben das Modell zur Phrasengenerierung mit einer Charge von 32 Beispielen gleichzeitig trainiert und nach und nach bestimmte Einstellungen angepasst, um die Leistung zu verbessern. Das Modell zur Songstruktur wurde mit einer kleineren Batch-Grösse von 8 trainiert, und wir haben ähnliche Anpassungen während seines Trainings vorgenommen. Beide Modelle durchliefen mehrere Epochen, also Trainingsrunden, die ihnen helfen, aus den Daten zu lernen.

Nach dem Training haben wir neue Phrasen und Songstrukturen generiert und deren Ausgaben mit der ursprünglichen Musik im POP909-Datensatz verglichen, um zu sehen, wie nah sie sind.

Evaluation der Modelle

Als wir neue Musik generiert hatten, bewerteten wir, wie gut sie im Vergleich zu menschlich komponierter Musik abschnitt. Wir schauten uns verschiedene Metriken an, wie die Vielfalt der verwendeten Noten, die Länge der Phrasen und wie oft bestimmte musikalische Teile auftauchten. Das half uns zu verstehen, ob die generierte Musik Mustern folgte, die typischerweise in Popmusik zu finden sind.

Insgesamt fanden wir einige Stärken und Schwächen in der von unseren Modellen generierten Musik. Die generierten Phrasen hatten manchmal weniger einzigartige Noten und mehr leere Takte im Vergleich zur Originalmusik. Allerdings erfassten sie auch einige wesentliche Trends in Harmonie und Melodie.

Generierung von Songstrukturen

Als wir das Modell zur Generierung der Songstruktur bewerteten, fanden wir heraus, dass es die Art und Länge der Phrasen ziemlich gut nachbilden konnte. Das Modell erzielte hohe Genauigkeitsraten bei der Generierung neuer Songstrukturen, die denjenigen im Trainingsdatensatz ähnlich waren.

Wir beobachteten, dass die Anzahl der Phrasen und deren Längen in der generierten Musik denen im Originaldatensatz ähnlich waren, was zeigt, dass das Modell die Struktur vorhandener Musik effektiv nachahmen konnte.

Fazit und zukünftige Richtungen

Unsere Forschung zeigt, dass graphbasierte Methoden effektiv bei der Erstellung von Musik mit komplexen Strukturen sein können. Während die von uns erstellten Modelle viele Aspekte der Trainingsdaten erfolgreich replizierten, gibt es noch Spielraum für Verbesserungen. Zum Beispiel könnte eine Verbesserung der Genauigkeit der Noten und die Reduzierung leerer Takte die Musik noch besser klingen lassen.

In Zukunft könnten wir versuchen, unseren Datensatz weiter zu erweitern und komplexere Details zu den Phrasen und Strukturen einzubeziehen. So könnten die Modelle Musik produzieren, die nicht nur strukturell solide, sondern auch reich an den Feinheiten ist, die Popmusik angenehm machen.

Durch das Feintuning unserer Modelle und die Erweiterung der Vielfalt der Musik, die wir für das Training verwenden, können wir weiterhin die Grenzen der automatisierten Musikgenerierung verschieben. Die Erkenntnisse aus dieser Forschung öffnen Türen zu neuen Möglichkeiten in der Musikproduktion und ermöglichen es der Technologie, Künstler bei der Schaffung innovativer Klänge zu unterstützen.

Originalquelle

Titel: Hierarchical Symbolic Pop Music Generation with Graph Neural Networks

Zusammenfassung: Music is inherently made up of complex structures, and representing them as graphs helps to capture multiple levels of relationships. While music generation has been explored using various deep generation techniques, research on graph-related music generation is sparse. Earlier graph-based music generation worked only on generating melodies, and recent works to generate polyphonic music do not account for longer-term structure. In this paper, we explore a multi-graph approach to represent both the rhythmic patterns and phrase structure of Chinese pop music. Consequently, we propose a two-step approach that aims to generate polyphonic music with coherent rhythm and long-term structure. We train two Variational Auto-Encoder networks - one on a MIDI dataset to generate 4-bar phrases, and another on song structure labels to generate full song structure. Our work shows that the models are able to learn most of the structural nuances in the training dataset, including chord and pitch frequency distributions, and phrase attributes.

Autoren: Wen Qing Lim, Jinhua Liang, Huan Zhang

Letzte Aktualisierung: 2024-09-12 00:00:00

Sprache: English

Quell-URL: https://arxiv.org/abs/2409.08155

Quell-PDF: https://arxiv.org/pdf/2409.08155

Lizenz: https://creativecommons.org/licenses/by/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.

Mehr von den Autoren

Ähnliche Artikel