Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Elektrotechnik und Systemtechnik# Audio- und Sprachverarbeitung# Maschinelles Lernen# Ton

Fortschrittliches Synthesizer-Sound-Matching mit Audiogramm-Transformer

Eine neue Methode vereinfacht das Abgleichen von Synthesizer-Sounds für Musiker.

― 6 min Lesedauer


Revolutionierung desRevolutionierung desSynth-Sound-Matchingverwandeln.fortgeschrittenes Sound-MatchingSynthesizer-Kreativität durch
Inhaltsverzeichnis

Synthesizer sind coole Werkzeuge, um Musik zu machen. Die erzeugen Klänge, indem man verschiedene Einstellungen anpasst. Aber diese Einstellungen richtig hinzukriegen, kann schwierig sein, vor allem für Leute, die neu in der Synthesizer-Welt sind. Systeme, die automatisch die Einstellungen anpassen, um einen bestimmten Klang zu reproduzieren, können das Ganze einfacher machen und schneller für alle gestalten. Da es viele verschiedene Synthesizer gibt, wäre ein allgemeines System, das mit verschiedenen Typen funktioniert, echt hilfreich.

In diesem Artikel stellen wir eine neue Methode vor, um Synthesizer-Klänge abzugleichen, und zwar mit einer Technik, die Audio Spectrogram Transformer heisst. Diese Methode nutzt einen Computer, um Klänge zu analysieren, und passt dann die Synthesizer-Einstellungen an diese Klänge an. Unsere Forschung haben wir mit einem bekannten Synthesizer namens Massive durchgeführt. Wir haben einen grossen Datensatz erstellt, in dem Klänge enthalten sind, die durch zufällige Änderung der Einstellungen auf Massive erzeugt wurden, und unser Modell darauf trainiert, die richtigen Einstellungen basierend auf den eingegebenen Klängen vorherzusagen.

Bedeutung des Klangabgleichs

Automatisches Anpassen der Synthesizer-Parameter, um bestimmte Klänge zu erzeugen, ist nicht neu. Bereits seit den 1990er Jahren gibt es Interesse an solchen Systemen. Sie können Musikern helfen, die nicht viel vom Klangdesign verstehen, und gleichzeitig den Prozess für erfahrene Nutzer beschleunigen. Diese Klangabgleich-Systeme könnten neue kreative Türen öffnen, indem sie es Musikern ermöglichen, Klänge zu nutzen, um Synthesizer zu steuern und einzigartige Klangprofile zu erstellen.

Allerdings benötigen viele bestehende Systeme vorheriges Wissen darüber, wie ein Synthesizer funktioniert. Das kann ihre Nützlichkeit einschränken. Jeder Synthesizer hat seine eigenen Regeln und Merkmale, also könnte ein Modell, das für einen funktioniert, bei einem anderen nicht klappen. Das macht es schwierig, ein flexibles System zu entwickeln, das sich an verschiedene Synthesizer anpassen kann, vor allem an solche mit komplexen Einstellungen.

Einige neuere Ansätze haben versucht, auf tiefes Wissen über Synthesizer zu verzichten. Manche Systeme verwenden zum Beispiel konvolutionale neuronale Netze, um Einstellungen aus Audio-Eingaben abzuleiten. Andere haben verschiedene Varianten von neuronalen Netzen untersucht, um die Verbindung zwischen Klängen und den Einstellungen, die sie erzeugt haben, besser herzustellen.

Einführung des Audio Spectrogram Transformers

Transformers sind in verschiedenen Aufgaben, einschliesslich Musikdatenretrieval, immer beliebter geworden. Sie sind bekannt für ihre starke Leistung, brauchen aber auch ziemlich viel Rechenleistung und Daten. Für den Klangabgleich bei Synthesizern schlagen wir vor, den Audio Spectrogram Transformer als Basis zu nutzen. Diese Methode erlaubt es uns, ein Modell zu erstellen, das mit minimalen Annahmen über die Funktionsweise von Synthesizern arbeitet.

Unser Ansatz konzentriert sich darauf, Klänge abzugleichen, indem wir die zugrunde liegenden Einstellungen vorhersagen, die genutzt wurden, um diesen Klang zu erzeugen. Gegeben einen Audio-Sample versucht unser Modell, die Synthesizer-Parameter zu erraten, die dann verwendet werden können, um einen neuen Klang zu generieren. Das Modell wurde mit einem speziell erstellten Datensatz aus gepairten Audio-Samples und den entsprechenden Synthesizer-Parameter-Einstellungen trainiert.

Wie wir unseren Datensatz erstellt haben

Für unser Projekt zum Abgleich von Synthesizer-Klängen haben wir einen Datensatz mit einer Million Samples erstellt. Jedes Sample bestand aus einem Klang, der vom Synthesizer erzeugt wurde, und seinem entsprechenden Satz von Parametern. Anstatt vorhandene Klänge zu verwenden, haben wir Klänge durch zufällige Anpassung der Parameter vom Massive-Synthesizer erzeugt. Diese Methode hat uns erlaubt, eine grosse Vielfalt an Klängen und den dazugehörigen Einstellungen zu erfassen.

Der Prozess beinhaltete das Erzeugen eines Klangs, indem wir dem Synthesizer zufällige Parameter-Einstellungen fütterten und das Ergebnis aufnahmen. Wir haben darauf geachtet, dass die Klänge laut genug sind, um stille Samples zu vermeiden, indem wir Audio unter einem bestimmten Lautstärkelevel herausgefiltert haben. So konnten wir eine beträchtliche Bandbreite an Synthesizer-Einstellungen abtasten und einen grossen Datensatz für das Training unseres Modells produzieren.

Modelltraining und -bewertung

Der Trainingsprozess für unser Modell beinhaltete das Füttern mit dem generierten Datensatz und das Lehren, Synthesizer-Parameter-Einstellungen basierend auf dem Audio-Eingang vorherzusagen. Wir haben zwei Hauptmetriken verwendet, um die Leistung unseres Modells zu bewerten: mittlerer quadratischer Fehler für die Parameter-Vorhersage und spektrale Konvergenz für die Audioqualität.

Als wir unser Modell mit zwei etablierten Methoden getestet haben, zeigte es einen signifikanten Vorteil, sowohl bei der genauen Vorhersage von Parametern als auch bei der Rekreation von hochwertigem Audio. In beiden Fällen hat unser Ansatz starke Fähigkeiten demonstriert, sogar im Vergleich zu bestehenden Modellen.

Ergebnisse und Beobachtungen

Die Ergebnisse haben gezeigt, dass unser Modell nicht nur bei der Vorhersage von Synthesizer-Parametern hervorragend abschnitt, sondern auch Klänge erzeugte, die den Eingangs-Audios sehr ähnlich waren. Während das Modell gut für Klänge vom Massive-Synthesizer abschneidet, zeigt es auch Potenzial, Klänge von anderen Instrumenten und sogar von Gesangsimitationen abzugleichen.

Ein Bereich zur Verbesserung ist jedoch die Fähigkeit des Modells, die Tonhöhe genau vorherzusagen. In bestimmten Fällen führten kleine Abweichungen in der Tonhöhenanpassung zu merklichen Unterschieden im resultierenden Audio. Diese Probleme anzugehen, könnte die Effektivität unseres Klangabgleichs-Ansatzes verbessern.

Zukünftige Richtungen

Blick nach vorn, planen wir, unseren Ansatz zu erweitern, indem wir mit grösseren und komplexeren Parametersets arbeiten. Wir wollen erkunden, wie man verschiedene Parameterarten, einschliesslich kategorialer und kontinuierlicher Einstellungen, besser modellieren kann, um die vielfältigen Optionen in Synthesizern widerzuspiegeln.

Ausserdem wollen wir den Trainingsprozess verbessern, indem wir Tonhöhenvariationen einbeziehen, damit unser Modell besser auf verschiedene musikalische Töne anpassen kann. Das kann helfen, Klänge genau abzugleichen, ohne die Qualität zu verlieren.

Fazit

Unsere Forschung zeigt das Potenzial, einen Audio Spectrogram Transformer zu nutzen, um ein flexibles und leistungsstarkes System zum Abgleichen von Synthesizer-Klängen zu schaffen. Indem wir eine Methode entwickeln, die minimale Annahmen darüber erfordert, wie Synthesizer funktionieren, können wir Lösungen bauen, die eine breite Palette von Klängen bedienen. Die Ergebnisse zeigen, dass dieser Ansatz effektiv Klänge mit Synthesizer-Einstellungen abgleichen kann, was einen vielversprechenden Weg für zukünftige Erkundungen in der Musikproduktionstechnologie nahelegt.

Weitere Arbeiten in diesem Bereich könnten zu einer einfacheren Klanggestaltung für Musiker aller Fähigkeitsstufen führen und innovativere Wege fördern, Synthesizer in der Musikproduktion zu nutzen. Unser Ziel ist es, die Grenzen dessen, was mit dem Abgleich von Synthesizer-Klängen möglich ist, weiter zu verschieben und neue Möglichkeiten für kreativen Ausdruck durch Technologie zu eröffnen.

Originalquelle

Titel: Synthesizer Sound Matching Using Audio Spectrogram Transformers

Zusammenfassung: Systems for synthesizer sound matching, which automatically set the parameters of a synthesizer to emulate an input sound, have the potential to make the process of synthesizer programming faster and easier for novice and experienced musicians alike, whilst also affording new means of interaction with synthesizers. Considering the enormous variety of synthesizers in the marketplace, and the complexity of many of them, general-purpose sound matching systems that function with minimal knowledge or prior assumptions about the underlying synthesis architecture are particularly desirable. With this in mind, we introduce a synthesizer sound matching model based on the Audio Spectrogram Transformer. We demonstrate the viability of this model by training on a large synthetic dataset of randomly generated samples from the popular Massive synthesizer. We show that this model can reconstruct parameters of samples generated from a set of 16 parameters, highlighting its improved fidelity relative to multi-layer perceptron and convolutional neural network baselines. We also provide audio examples demonstrating the out-of-domain model performance in emulating vocal imitations, and sounds from other synthesizers and musical instruments.

Autoren: Fred Bruford, Frederik Blang, Shahan Nercessian

Letzte Aktualisierung: 2024-07-23 00:00:00

Sprache: English

Quell-URL: https://arxiv.org/abs/2407.16643

Quell-PDF: https://arxiv.org/pdf/2407.16643

Lizenz: https://creativecommons.org/licenses/by/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.

Mehr von den Autoren

Ähnliche Artikel