Offene Audio-Generierung: Ein neues Modell
Ein neues Text-zu-Audio-Modell, das nur öffentliche Daten verwendet.
― 6 min Lesedauer
Inhaltsverzeichnis
Die Erstellung von Audio aus Text ist ein wachsendes Forschungsfeld. Das Ziel ist es, Künstlern und Forschern zu helfen, indem es einfacher wird, Modelle zu entwickeln, die geschriebene Wörter in Klang umwandeln. Leider behalten viele bestehende Systeme ihre Methoden und Daten für sich, was es anderen schwer macht, sie zu verbessern. Wir stellen ein neues Text-zu-Audio-Modell vor, das nur öffentliche Daten nutzt, sodass jeder Zugang zu den Details und Ergebnissen hat.
Warum offene Modelle wichtig sind
Offene Modelle bieten ein paar wichtige Vorteile. Sie ermöglichen es Künstlern und Forschern, zu verstehen, wie die Modelle funktionieren, und sie können modifiziert werden, um unterschiedlichen Bedürfnissen gerecht zu werden. Leider sind viele heutige Modelle nicht öffentlich zugänglich. Das schränkt ihre Nutzung für neue Projekte und Forschung ein. Ausserdem sind die Daten, die zum Trainieren einiger Modelle verwendet werden, nicht richtig dokumentiert, was zu Problemen mit Urheberrechtsverletzungen führen kann.
Zum Beispiel nutzen einige Modelle Datensätze wie AudioSet ohne klare Lizenzen. Andere, wie MusicGen, sind offen, aber wurden mit gut dokumentierten, lizenzierten Daten trainiert. Aktuelle offene Modelle erreichen oft nicht die Qualität der besten verfügbaren Modelle, besonders wenn es darum geht, über längere Zeiträume kohärentes Audio zu erzeugen.
Unsere Ziele
Das Hauptziel unseres Projekts ist es, ein textbasiertes Audiomodell zu erstellen, das bestimmte Kriterien erfüllt:
- Es verwendet nur Audio, das unter Creative Commons lizenziert ist.
- Seine Details, einschliesslich Modellgewichte und Code, sind für alle zugänglich.
- Es erzeugt hochwertige Stereo-Töne mit 44,1 kHz.
Während diese Wahl der Daten möglicherweise die Fähigkeit des Modells einschränkt, Musik zu erstellen, sorgt sie für Transparenz darüber, wie die Daten gesammelt und verwendet wurden.
Modellarchitektur
Unser Modell erzeugt Audio unterschiedlicher Längen (bis zu 47 Sekunden) basierend auf Texthinweisen. Es hat drei Hauptkomponenten:
- Ein Autoencoder, der Audio komprimiert, damit es einfacher zu verarbeiten ist.
- Ein Text-Embedding-System, das den Text mit dem Audio verbindet.
- Ein Diffusionsmodell, das Audio basierend auf den komprimierten Eingaben erzeugt.
Der Autoencoder nimmt rohes Audio und zerlegt es in handhabbare Teile. Er verwendet fortschrittliche Verarbeitungstechniken, um die Audioqualität zu erhalten und die Klangdaten zu vereinfachen. Das Diffusionsmodell arbeitet in einem speziell geschaffenen Raum und folgt einer Reihe von Schritten, um Klang zu erzeugen, der dem Eingabetext entspricht.
Daten Trainingsprozess
Wir haben unser Modell mit Aufnahmen von Freesound und dem Free Music Archive trainiert. Wir haben gründliche Überprüfungen durchgeführt, um sicherzustellen, dass urheberrechtlich geschütztes Material nicht Teil unserer Trainingsdaten war.
Für Freesound haben wir Musikaufnahmen identifiziert, indem wir nach bestimmten Tags gesucht haben, die mit Musik zu tun haben, und dann diese gekennzeichneten Proben an ein vertrauenswürdiges Unternehmen zur Urheberrechtsprüfung geschickt haben. Nachdem wir jegliche markierte Inhalte entfernt hatten, haben wir erfolgreich eine grosse Menge an Audiodateien gesammelt. Ebenso haben wir sichergestellt, dass die Teilmenge aus dem Free Music Archive kein urheberrechtlich geschütztes Audio enthielt, indem wir eine gründliche Suche gegen eine grosse Datenbank durchgeführt haben.
Insgesamt hatten wir mehr als 486.000 Audioaufnahmen, die den Kriterien für Creative Commons-Lizenzen entsprachen, die sich gut für das Training unseres Modells eigneten.
Modelltraining
Während des Trainings haben wir das Audio in kurze Segmente zerlegt. Das half, eine vielfältige Auswahl an Klängen zu erhalten und zu verhindern, dass sich das Modell zu sehr auf längere Aufnahmen konzentriert. Wir haben auch eine Mischung aus hochqualitativen Quellen sichergestellt, um reichhaltige Audiodaten zu erstellen.
Während des Trainings des Modells haben wir verschiedene Ziele implementiert, um die Leistung zu verbessern. Zum Beispiel haben wir uns auf die genaue Reconstruction des Audios konzentriert und verschiedene Methoden genutzt, um den Erfolg der erzeugten Klänge zu bewerten.
Evaluation
Um die Leistung des Modells zu bewerten, haben wir es mit anderen bestehenden Modellen verglichen. Wir haben zwei Hauptdatensätze für die Evaluation verwendet: einen, der sich auf allgemeine Klänge konzentrierte, und einen anderen, der sich auf instrumentale Musik konzentrierte. Die Ergebnisse zeigten, dass unser Modell realistische Klänge produzierte und mit einigen der führenden Modelle auf dem Markt konkurrierte, besonders bei der Erzeugung von Soundeffekten.
Wenn es um die Musikgenerierung ging, war unser Modell im Vergleich zu den besten Modellen auf dem Markt etwas weniger effektiv. Es übertraf jedoch andere ähnliche offene Modelle. Bei der Bewertung haben wir auch die Qualität des erzeugten Audios untersucht, indem wir die Unterschiede zwischen den erzeugten Klängen und den ursprünglichen Trainingsdaten betrachtet haben.
Leistung und Geschwindigkeit
Unser Modell läuft effizient auf Standard-Consumer-Hardware, was bedeutet, dass es jeder nutzen kann, ohne teure Ausrüstung zu benötigen. Wir haben die Leistung in Bezug darauf gemessen, wie schnell das Modell Audio erzeugen konnte. Die Ergebnisse zeigten eine gute Leistung bei verschiedenen Setups, was es einem breiteren Publikum zugänglich macht.
Herausforderungen und Einschränkungen
Trotz seiner Fähigkeiten steht unser Modell vor einigen Herausforderungen. Es hat Schwierigkeiten, Eingaben zu erzeugen, die Verbindungswörter wie "und" oder "mit" enthalten. Ausserdem kann es keine klare Sprache erzeugen, was seine Anwendung für gesprochene Aufgaben einschränkt.
Da viele aktuelle Modelle zur Audioerzeugung von urheberrechtlich geschütztem Material abhängen, haben wir uns darauf konzentriert, nur Audio unter Creative Commons zu verwenden. Diese Entscheidung stellt sicher, dass unser Modell den rechtlichen Standards entspricht, schränkt aber seine Fähigkeit ein, hochwertige Musik zu produzieren.
Zukünftige Richtungen
In Zukunft planen wir, unser Modell weiter zu verbessern. Die Fähigkeit zur Musikgenerierung zu verbessern und gleichzeitig die strikte Einhaltung der Urheberrechtsbestimmungen aufrechtzuerhalten, wird ein wichtiger Fokus sein. Wir wollen auch die Anzahl der unterstützten Sprachen erweitern, da das Modell hauptsächlich mit englischem Text trainiert wurde.
Fazit
Zusammenfassend zeigt unser neues Text-zu-Audio-Modell den Wert offener Forschung und gemeinschaftlicher Ressourcen. Indem wir uns auf Creative Commons-Daten stützen, stellen wir sicher, dass das erzeugte Audio frei von Urheberrechtsproblemen ist. Das Modell zeigt Potenzial, hochwertige Audios zu produzieren und könnte sowohl Künstlern als auch Forschern helfen. Während wir das Modell weiter verfeinern, hoffen wir, neue Wege für kreative Erkundungen in der Audiosynthese zu eröffnen.
Titel: Stable Audio Open
Zusammenfassung: Open generative models are vitally important for the community, allowing for fine-tunes and serving as baselines when presenting new models. However, most current text-to-audio models are private and not accessible for artists and researchers to build upon. Here we describe the architecture and training process of a new open-weights text-to-audio model trained with Creative Commons data. Our evaluation shows that the model's performance is competitive with the state-of-the-art across various metrics. Notably, the reported FDopenl3 results (measuring the realism of the generations) showcase its potential for high-quality stereo sound synthesis at 44.1kHz.
Autoren: Zach Evans, Julian D. Parker, CJ Carr, Zack Zukowski, Josiah Taylor, Jordi Pons
Letzte Aktualisierung: 2024-07-31 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2407.14358
Quell-PDF: https://arxiv.org/pdf/2407.14358
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.
Referenz Links
- https://github.com/facebookresearch/audiocraft/blob/
- https://huggingface.co/stabilityai/stable-audio-open-1.0/
- https://huggingface.co/facebook/musicgen-stereo-large
- https://github.com/Stability-AI/stable-audio-metrics
- https://stability-ai.github.io/stable-audio-open-demo/
- https://x.com/RoyalCities/status/1808563794677018694
- https://www.youtube.com/watch?v=ex4OBD