Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Elektrotechnik und Systemtechnik# Ton# Künstliche Intelligenz# Audio- und Sprachverarbeitung

Offene Audio-Generierung: Ein neues Modell

Ein neues Text-zu-Audio-Modell, das nur öffentliche Daten verwendet.

― 6 min Lesedauer


Neues offenesNeues offenesAudio-ModellText in hochwertige Audio umwandeln.
Inhaltsverzeichnis

Die Erstellung von Audio aus Text ist ein wachsendes Forschungsfeld. Das Ziel ist es, Künstlern und Forschern zu helfen, indem es einfacher wird, Modelle zu entwickeln, die geschriebene Wörter in Klang umwandeln. Leider behalten viele bestehende Systeme ihre Methoden und Daten für sich, was es anderen schwer macht, sie zu verbessern. Wir stellen ein neues Text-zu-Audio-Modell vor, das nur öffentliche Daten nutzt, sodass jeder Zugang zu den Details und Ergebnissen hat.

Warum offene Modelle wichtig sind

Offene Modelle bieten ein paar wichtige Vorteile. Sie ermöglichen es Künstlern und Forschern, zu verstehen, wie die Modelle funktionieren, und sie können modifiziert werden, um unterschiedlichen Bedürfnissen gerecht zu werden. Leider sind viele heutige Modelle nicht öffentlich zugänglich. Das schränkt ihre Nutzung für neue Projekte und Forschung ein. Ausserdem sind die Daten, die zum Trainieren einiger Modelle verwendet werden, nicht richtig dokumentiert, was zu Problemen mit Urheberrechtsverletzungen führen kann.

Zum Beispiel nutzen einige Modelle Datensätze wie AudioSet ohne klare Lizenzen. Andere, wie MusicGen, sind offen, aber wurden mit gut dokumentierten, lizenzierten Daten trainiert. Aktuelle offene Modelle erreichen oft nicht die Qualität der besten verfügbaren Modelle, besonders wenn es darum geht, über längere Zeiträume kohärentes Audio zu erzeugen.

Unsere Ziele

Das Hauptziel unseres Projekts ist es, ein textbasiertes Audiomodell zu erstellen, das bestimmte Kriterien erfüllt:

  • Es verwendet nur Audio, das unter Creative Commons lizenziert ist.
  • Seine Details, einschliesslich Modellgewichte und Code, sind für alle zugänglich.
  • Es erzeugt hochwertige Stereo-Töne mit 44,1 kHz.

Während diese Wahl der Daten möglicherweise die Fähigkeit des Modells einschränkt, Musik zu erstellen, sorgt sie für Transparenz darüber, wie die Daten gesammelt und verwendet wurden.

Modellarchitektur

Unser Modell erzeugt Audio unterschiedlicher Längen (bis zu 47 Sekunden) basierend auf Texthinweisen. Es hat drei Hauptkomponenten:

  • Ein Autoencoder, der Audio komprimiert, damit es einfacher zu verarbeiten ist.
  • Ein Text-Embedding-System, das den Text mit dem Audio verbindet.
  • Ein Diffusionsmodell, das Audio basierend auf den komprimierten Eingaben erzeugt.

Der Autoencoder nimmt rohes Audio und zerlegt es in handhabbare Teile. Er verwendet fortschrittliche Verarbeitungstechniken, um die Audioqualität zu erhalten und die Klangdaten zu vereinfachen. Das Diffusionsmodell arbeitet in einem speziell geschaffenen Raum und folgt einer Reihe von Schritten, um Klang zu erzeugen, der dem Eingabetext entspricht.

Daten Trainingsprozess

Wir haben unser Modell mit Aufnahmen von Freesound und dem Free Music Archive trainiert. Wir haben gründliche Überprüfungen durchgeführt, um sicherzustellen, dass urheberrechtlich geschütztes Material nicht Teil unserer Trainingsdaten war.

Für Freesound haben wir Musikaufnahmen identifiziert, indem wir nach bestimmten Tags gesucht haben, die mit Musik zu tun haben, und dann diese gekennzeichneten Proben an ein vertrauenswürdiges Unternehmen zur Urheberrechtsprüfung geschickt haben. Nachdem wir jegliche markierte Inhalte entfernt hatten, haben wir erfolgreich eine grosse Menge an Audiodateien gesammelt. Ebenso haben wir sichergestellt, dass die Teilmenge aus dem Free Music Archive kein urheberrechtlich geschütztes Audio enthielt, indem wir eine gründliche Suche gegen eine grosse Datenbank durchgeführt haben.

Insgesamt hatten wir mehr als 486.000 Audioaufnahmen, die den Kriterien für Creative Commons-Lizenzen entsprachen, die sich gut für das Training unseres Modells eigneten.

Modelltraining

Während des Trainings haben wir das Audio in kurze Segmente zerlegt. Das half, eine vielfältige Auswahl an Klängen zu erhalten und zu verhindern, dass sich das Modell zu sehr auf längere Aufnahmen konzentriert. Wir haben auch eine Mischung aus hochqualitativen Quellen sichergestellt, um reichhaltige Audiodaten zu erstellen.

Während des Trainings des Modells haben wir verschiedene Ziele implementiert, um die Leistung zu verbessern. Zum Beispiel haben wir uns auf die genaue Reconstruction des Audios konzentriert und verschiedene Methoden genutzt, um den Erfolg der erzeugten Klänge zu bewerten.

Evaluation

Um die Leistung des Modells zu bewerten, haben wir es mit anderen bestehenden Modellen verglichen. Wir haben zwei Hauptdatensätze für die Evaluation verwendet: einen, der sich auf allgemeine Klänge konzentrierte, und einen anderen, der sich auf instrumentale Musik konzentrierte. Die Ergebnisse zeigten, dass unser Modell realistische Klänge produzierte und mit einigen der führenden Modelle auf dem Markt konkurrierte, besonders bei der Erzeugung von Soundeffekten.

Wenn es um die Musikgenerierung ging, war unser Modell im Vergleich zu den besten Modellen auf dem Markt etwas weniger effektiv. Es übertraf jedoch andere ähnliche offene Modelle. Bei der Bewertung haben wir auch die Qualität des erzeugten Audios untersucht, indem wir die Unterschiede zwischen den erzeugten Klängen und den ursprünglichen Trainingsdaten betrachtet haben.

Leistung und Geschwindigkeit

Unser Modell läuft effizient auf Standard-Consumer-Hardware, was bedeutet, dass es jeder nutzen kann, ohne teure Ausrüstung zu benötigen. Wir haben die Leistung in Bezug darauf gemessen, wie schnell das Modell Audio erzeugen konnte. Die Ergebnisse zeigten eine gute Leistung bei verschiedenen Setups, was es einem breiteren Publikum zugänglich macht.

Herausforderungen und Einschränkungen

Trotz seiner Fähigkeiten steht unser Modell vor einigen Herausforderungen. Es hat Schwierigkeiten, Eingaben zu erzeugen, die Verbindungswörter wie "und" oder "mit" enthalten. Ausserdem kann es keine klare Sprache erzeugen, was seine Anwendung für gesprochene Aufgaben einschränkt.

Da viele aktuelle Modelle zur Audioerzeugung von urheberrechtlich geschütztem Material abhängen, haben wir uns darauf konzentriert, nur Audio unter Creative Commons zu verwenden. Diese Entscheidung stellt sicher, dass unser Modell den rechtlichen Standards entspricht, schränkt aber seine Fähigkeit ein, hochwertige Musik zu produzieren.

Zukünftige Richtungen

In Zukunft planen wir, unser Modell weiter zu verbessern. Die Fähigkeit zur Musikgenerierung zu verbessern und gleichzeitig die strikte Einhaltung der Urheberrechtsbestimmungen aufrechtzuerhalten, wird ein wichtiger Fokus sein. Wir wollen auch die Anzahl der unterstützten Sprachen erweitern, da das Modell hauptsächlich mit englischem Text trainiert wurde.

Fazit

Zusammenfassend zeigt unser neues Text-zu-Audio-Modell den Wert offener Forschung und gemeinschaftlicher Ressourcen. Indem wir uns auf Creative Commons-Daten stützen, stellen wir sicher, dass das erzeugte Audio frei von Urheberrechtsproblemen ist. Das Modell zeigt Potenzial, hochwertige Audios zu produzieren und könnte sowohl Künstlern als auch Forschern helfen. Während wir das Modell weiter verfeinern, hoffen wir, neue Wege für kreative Erkundungen in der Audiosynthese zu eröffnen.

Ähnliche Artikel