Klang und Bewegung in der Musik zusammenbringen
Ein neuer Ansatz, um Singen und Tanzen durch fortschrittliche Computertechniken zu kombinieren.
― 6 min Lesedauer
Inhaltsverzeichnis
- Das RapVerse-Datensatz
- Klang und Bewegung zusammenbringen
- Warum Texte wichtig sind
- Herausforderungen
- Erstellung des RapVerse-Datensatzes
- Wie wir Klang und Bewegung zusammen erzeugen
- Evaluierung unseres Systems
- Vergleich mit anderen Methoden
- Ergebnisse unserer Experimente
- Einschränkungen und zukünftige Richtungen
- Fazit
- Originalquelle
- Referenz Links
Musik und Tanz zusammen zu kreieren war schon immer ein Teil des menschlichen Ausdrucks. Es ist eine spannende Herausforderung, Gesang und Tanzbewegungen in einem System zu kombinieren. Diese Arbeit zielt darauf ab, Gesang und Ganzkörperbewegungen nur aus den Worten eines Songs zu generieren. Traditionell haben Forscher Gesang und Bewegung getrennt betrachtet, aber wir wollen sehen, wie sie zusammenarbeiten können, um ein lebendigeres Erlebnis zu schaffen.
Das RapVerse-Datensatz
Um diese Aufgabe zu unterstützen, haben wir einen speziellen Datensatz namens RapVerse erstellt. Dieser Datensatz enthält eine grosse Sammlung von Rap-Songs, einschliesslich der Texte, der Gesangsstimmen und der 3D-Bewegungen der Körper der Künstler. Mit diesem Datensatz wollen wir herausfinden, wie gut wir Gesang und Bewegung mit fortgeschrittenen Computertechniken verbinden können.
Der RapVerse-Datensatz ist in zwei Teile unterteilt:
Rap-Vocal-Subset: Dieser Teil hat 108 Stunden Rap-Gesang ohne Hintergrundmusik. Wir haben die Texte und den Gesang von verschiedenen Rap-Künstlern online gesammelt und sichergestellt, dass alles gut zusammenpasst.
Rap-Motion-Subset: Dieser Teil enthält etwa 27 Stunden Performance-Videos, die die gesamten Körperbewegungen der Rap-Künstler zeigen. Wir haben das aus online verfügbaren Videos gesammelt und sichergestellt, dass die Bewegungen zum Gesang passen.
Klang und Bewegung zusammenbringen
Wir glauben, dass Klang und Bewegung eng verbunden sind, besonders wenn es darum geht, Emotionen oder Ideen auszudrücken. Wenn eines dieser Elemente weiss, was das andere macht, können wir ein reichhaltigeres Erlebnis schaffen. Das bedeutet, wenn der Gesang Emotionen hat, kann der Tanz das ebenfalls widerspiegeln, was es natürlicher macht.
In dieser Arbeit nehmen wir die Frage in Angriff: Können Maschinen nicht nur singen, sondern auch wie Menschen bewegen? Wir glauben, dass wir durch die enge Verbindung von Stimme und Körperbewegungen die Interaktion mit digitalen Inhalten erheblich verbessern können.
Warum Texte wichtig sind
Wir sind der Meinung, dass Songtexte der beste Ausgangspunkt sind. Die Worte erzählen eine tiefgründige Geschichte und helfen, Gefühle zu vermitteln. Sie bieten uns eine bedeutungsvolle Möglichkeit, verschiedene Arten von Inhalten zu verbinden. Während einige frühere Arbeiten Musiknoten oder Sprachbefehle verwendeten, finden wir, dass Texte mehr Tiefe bieten.
Anstatt ein System zu erstellen, das zuerst Gesang erzeugt und dann versucht, die Bewegungen herauszufinden, zielen wir darauf ab, ein System zu schaffen, das beides gleichzeitig erzeugt. Dieser Ansatz vermeidet Fehler, die auftreten können, wenn jedes Teil separat funktioniert, wie wenn ein Missverständnis im Gesang zu ungeschickten Bewegungen führen kann.
Herausforderungen
Eine der grössten Herausforderungen besteht darin, genügend Daten zu finden, die Gesangsstimmen, Bewegung und passende Texte zusammenbringen. Andere Datensätze fehlen oft eines dieser Teile. Wir brauchen auch ein System, das in der Lage ist, Klang und Bewegung basierend nur auf den Texten zu erzeugen, ohne darauf warten zu müssen, dass ein Teil mit dem anderen fertig ist.
Erstellung des RapVerse-Datensatzes
Wir hatten mehrere Schritte, um den RapVerse-Datensatz zu erstellen. Für den Gesangsteil mussten wir viele Songs und ihre Texte online finden. Wir haben Tools verwendet, um diese Informationen zu sammeln und darauf geachtet, nur qualitativ hochwertige Inhalte auszuwählen. Nach dem Sammeln haben wir die Vocals von den Musik-Hintergründen getrennt, um nur die Gesangsstimmen zu erhalten.
Für den Bewegungsteil haben wir Hunderte von Performance-Videos gefunden. Wir haben nach Videos gesucht, in denen die Darsteller vollständig sichtbar waren und der Ton klar war. Mit spezieller Software haben wir die Geräusche in Text umgewandelt, um die Texte richtig auszurichten. Nachdem wir die Videos gesammelt hatten, haben wir sie bearbeitet, um die Bewegungen genau zu kennzeichnen.
Wie wir Klang und Bewegung zusammen erzeugen
Um Vocals und Bewegungen zu erzeugen, verwenden wir fortschrittliche Computermodelle. Der erste Schritt besteht darin, den Gesang und die Körperbewegungen in eine Form zu kodieren, die Maschinen verstehen können. Wir tun dies, indem wir den Gesang und die Bewegungen in Tokens umwandeln – kleine Teile, die Stücke von Klang oder Bewegung darstellen.
Für den Klang isolieren wir die Gesangsteile und verarbeiten ihre Merkmale. Für die Bewegung verwenden wir einen ähnlichen Ansatz und zerlegen die Bewegungen in diskrete Teile. Sobald wir diese Teile haben, verwenden wir eine besondere Art von Modell, das Transformer genannt wird, um die nächsten Tokens basierend auf dem, was bereits generiert wurde, vorherzusagen.
Durch die Kombination von Tokens aus allen drei Bereichen – Texte, Vocals und Bewegungen – können wir ein System trainieren, das lernt, wie man alles zusammen erzeugt.
Systems
Evaluierung unseresUm zu sehen, wie gut unser System funktioniert, betrachten wir verschiedene Faktoren. Für die Gesangsstimmen bitten wir die Leute, zu bewerten, wie natürlich die Stimmen klingen. Für die Bewegungen analysieren wir, wie realistisch die Bewegungen aussehen und wie gut sie mit dem Gesang synchronisiert sind.
Wir vergleichen auch unsere Ergebnisse mit anderen bestehenden Methoden, um zu sehen, ob unser Ansatz besser ist. Unser System hat grosses Potenzial gezeigt, da es Bewegungen erzeugt, die gut mit dem Rhythmus der Musik übereinstimmen.
Vergleich mit anderen Methoden
Wir haben uns Zeit genommen, um die bestehenden Systeme zu betrachten. Es gibt zum Beispiel Systeme, die nur Gesang erzeugen oder nur Bewegungen. Unser Ansatz, der beides kombiniert, hat gezeigt, dass er mit diesen spezialisierten Systemen mithalten oder sie sogar übertreffen kann.
Bei der Verwendung unseres Ansatzes stehen wir nicht vor denselben Problemen wie diejenigen, die zuerst den Gesang und dann die Bewegungen generieren. Unser kombinierter Ansatz hilft, Fehler zu vermeiden und produziert Ergebnisse, die zusammenhängender wirken.
Ergebnisse unserer Experimente
Unsere Experimente zeigen, dass unsere Methode hochwertige Gesangsstimmen und realistische Körperbewegungen nur aus den Texten erzeugen kann. Tatsächlich konkurriert die Gesangsqualität mit spezialisierten Gesangsgenerierungssystemen, und die Bewegungen zeigen ein hohes Mass an Realismus.
Die Ergebnisse haben bewiesen, dass der kombinierte Generierungsrahmen nicht nur funktioniert, sondern auch einen neuen Standard setzt, wie Stimmen und Bewegungen zusammen erzeugt werden können.
Einschränkungen und zukünftige Richtungen
Obwohl unsere aktuelle Forschung auf Rapmusik fokussiert ist, sehen wir grosses Potenzial, dies über nur ein Genre hinaus auszuweiten. Die Werkzeuge und Methoden könnten für andere Musikstile mit den richtigen Datensätzen angepasst werden.
In der Zukunft sind wir gespannt darauf, Performances zu schaffen, die mehrere Künstler beinhalten und die Realismus virtueller Konzerte und kollaborativer Musikerlebnisse verbessern.
Fazit
Unsere Arbeit zur Integration von Gesang und Bewegungs-generierung aus lyrischem Text öffnet Türen für neue Möglichkeiten in der Aufführungstechnologie und digitalen Inhalten. Das Ziel ist nicht nur, Klang und Bewegung zu erzeugen, sondern Erlebnisse zu schaffen, die lebendig und ansprechend sind. Durch die Nutzung dieser Fortschritte können wir interaktive und immersive Umgebungen für Unterhaltung, Gaming und mehr schaffen.
Zusammenfassend zeigt der Erfolg unseres kombinierten Ansatzes das Potenzial, wie wir über Musik und Bewegung denken, neu zu gestalten und einen Weg für dynamischere digitale Interaktionen in der Zukunft zu bieten.
Titel: RapVerse: Coherent Vocals and Whole-Body Motions Generations from Text
Zusammenfassung: In this work, we introduce a challenging task for simultaneously generating 3D holistic body motions and singing vocals directly from textual lyrics inputs, advancing beyond existing works that typically address these two modalities in isolation. To facilitate this, we first collect the RapVerse dataset, a large dataset containing synchronous rapping vocals, lyrics, and high-quality 3D holistic body meshes. With the RapVerse dataset, we investigate the extent to which scaling autoregressive multimodal transformers across language, audio, and motion can enhance the coherent and realistic generation of vocals and whole-body human motions. For modality unification, a vector-quantized variational autoencoder is employed to encode whole-body motion sequences into discrete motion tokens, while a vocal-to-unit model is leveraged to obtain quantized audio tokens preserving content, prosodic information, and singer identity. By jointly performing transformer modeling on these three modalities in a unified way, our framework ensures a seamless and realistic blend of vocals and human motions. Extensive experiments demonstrate that our unified generation framework not only produces coherent and realistic singing vocals alongside human motions directly from textual inputs but also rivals the performance of specialized single-modality generation systems, establishing new benchmarks for joint vocal-motion generation. The project page is available for research purposes at https://vis-www.cs.umass.edu/RapVerse.
Autoren: Jiaben Chen, Xin Yan, Yihang Chen, Siyuan Cen, Qinwei Ma, Haoyu Zhen, Kaizhi Qian, Lie Lu, Chuang Gan
Letzte Aktualisierung: 2024-05-30 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2405.20336
Quell-PDF: https://arxiv.org/pdf/2405.20336
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.