Verbesserung der Audioverarbeitung mit SFI-Schichten
Neue Algorithmen verbessern die Audioverarbeitung bei unterschiedlichen Abtastraten.
― 5 min Lesedauer
Inhaltsverzeichnis
Deep Learning wird für viele audio-verwandte Aufgaben eingesetzt, wie das Trennen von Musikquellen, die Verbesserung der Sprachqualität und das Übersetzen von Musik in Noten. Ein häufiges Problem ist, dass diese Systeme normalerweise erwarten, dass die Audioeingabefrequenz während des Trainings und bei der Nutzung gleich ist. Wenn sich die Frequenz ändert, ist zusätzliche Verarbeitung nötig, wie das Ändern der Geschwindigkeit des Audios, was kompliziert sein kann.
Um das zu lösen, haben Forscher spezielle Schichten in Deep Learning-Modellen entwickelt, die Sampling-Frequency-Independent (SFI)-Schichten genannt werden. Diese Schichten erlauben es dem Modell, mit verschiedenen Frequenzen zu arbeiten, ohne dass das Audio zuerst verändert werden muss. Sie können traditionelle Schichten in vielen verschiedenen Netzwerkdesigns ersetzen, was sie flexibel macht. Allerdings hat die Kombination dieser SFI-Schichten mit anderen Schichten gezeigt, dass es einige Einschränkungen gibt. Zum Beispiel hat ein bekanntes Modell zum Trennen von Audioquellen, Conv-TasNet genannt, Schwierigkeiten, wenn die Änderungen der Frequenz keine ganzen Zahlen sind, was zu schlechterer Leistung führt.
Das Problem mit Nicht-Integer-Schritten
In typischen Operationen erwarten neuronale Netzwerke bestimmte Werte, wie Schrittgrösse und Kernelgrösse, die ganze Zahlen sein müssen. Wenn mit Nicht-Integer-Werten gearbeitet wird, können diese Systeme nicht richtig funktionieren. Wenn zum Beispiel ein Modell mit 5 ms und 2,5 ms Schritten bei einer Frequenz von 32 kHz trainiert wurde, gibt es Probleme, wenn es bei einer anderen Frequenz, wie 22,05 kHz, arbeiten muss, wo die Werte sich ändern und Brüche werden.
Das Runden dieser Werte auf die nächstgelegene ganze Zahl scheint eine einfache Lösung zu sein, führt aber zu Problemen. Dieses Runden kann die zeitliche Auflösung des Eingangs ändern, was zu schlechterer Leistung bei Aufgaben wie Audio-Trennung führt. Ausserdem hat eine andere Methode, die komplexe Systeme einbezieht, auch gezeigt, dass sie die Flexibilität beim Design einschränkt. Daher ist ein neuer Ansatz nötig, um diese Nicht-Integer-Werte effektiv zu verwalten.
Der vorgeschlagene Lösung
Wir schlagen vor, eine fensterbasierte Sinc-Interpolation als Lösung zu verwenden. Diese Methode ermöglicht es uns, eine kontinuierliche Version eines diskreten Audiosignals zu erstellen. Indem wir das anwenden, bevor wir die Daten im Modell reduzieren, können wir Eingangsproben in den benötigten Intervallen erzeugen, ohne dabei an Qualität zu verlieren.
Um das zu erreichen, entwickeln wir Algorithmen für die SFI-faltenden und transponierten faltenden Schichten. Diese Algorithmen nutzen die fensterbasierte Sinc-Interpolation, um die Nicht-Integer-Schrittwerte zu verwalten und sicherzustellen, dass das System die Genauigkeit bei der Darstellung der Audiosignale beibehält.
Wie SFI-faltende Schichten funktionieren
Die SFI-faltende Schicht ist darauf ausgelegt, Audio durch die Bearbeitung verschiedener Kanäle zu verarbeiten. Sie verwendet analoge Filter, um sich an unterschiedliche Frequenzen anzupassen. Wenn Audio eingegeben wird, verarbeitet das System das Signal, indem es eine Kreuzkorrelation mit Gewichten berechnet und dann die Daten in festgelegten Intervallen reduziert. Wenn diese Intervalle jedoch keine ganzen Zahlen sind, hat das System Schwierigkeiten.
Durch die Anwendung der fensterbasierten Sinc-Interpolation können wir diese Probleme mit Nicht-Integer-Schritten überwinden. Die Interpolation glättet die Änderungen, sodass das Modell arbeiten kann, ohne negativ von den Nicht-Ganzzahlwerten betroffen zu sein. Das schafft einen nahtloseren Übergang und sorgt für bessere Ergebnisse bei Aufgaben wie der Audio-Trennung.
Die SFI-transponierte faltende Schicht
Ähnlich der faltenden Schicht ist auch die transponierte Version modifiziert, um die Sinc-Interpolationsmethode zu verwenden. Dieser alternative Schichttyp funktioniert, indem er zunächst Nullen zwischen den Eingabewerten hinzufügt, bevor das Signal weiterverarbeitet wird. Für Nicht-Integer-Schritte brauchen wir erneut die kontinuierliche Version des Eingangssignals.
Indem wir das Signal als eines mit einer Abtastperiode behandeln, können wir die nötigen Datenpunkte für die Verarbeitung sammeln. Die gleiche Interpolationstechnik kommt hier zur Anwendung, die eine ordnungsgemässe Handhabung der Audiosignale ohne Verlust von Details ermöglicht.
Experimentieren mit der Trennung von Musikquellen
Um die Wirksamkeit unserer vorgeschlagenen Methoden zu testen, haben wir Experimente zur Trennung von Musikquellen mit einem bekannten Datensatz durchgeführt. Dieser Datensatz besteht aus verschiedenen Musikstücken mit unterschiedlichen Instrumenten. Für die Tests haben wir die Modelle mit einer Kombination von Einstellungen trainiert und Massnahmen wie das Signal-Rausch-Verhältnis zur Bewertung der Leistung verwendet.
Unser Fokus lag darauf, verschiedene Methoden zur Handhabung von Nicht-Integer-Schritten zu vergleichen. Die Methoden umfassten einfaches Runden, das Resampling von Audio auf eine kompatible Frequenz und unsere vorgeschlagene Methode mit Sinc-Interpolation.
Ergebnisse und Beobachtungen
Die Ergebnisse der Experimente zeigten, dass die vorgeschlagenen Methoden mit Sinc-Interpolation eine konsistente und zuverlässige Leistung bei unterschiedlichen Frequenzen boten. Im Gegensatz dazu führte die einfache Runden-Methode zu erheblichen Leistungseinbussen, besonders bei niedrigeren Frequenzen.
Beim Runden haben wir festgestellt, dass die Trennqualität abnahm, sobald die Frequenz fiel, was zeigt, wie diese Methode die Audioqualität beeinträchtigt. Die Resampling-Methoden schnitten besser ab als einfaches Runden, konnten jedoch immer noch nicht die stabilen Ergebnisse erreichen, die mit unseren vorgeschlagenen Algorithmen erzielt wurden.
Unsere Ergebnisse zeigten auch, dass bestimmte Instrumententypen, besonders gestimmte Klänge, stärker von Nicht-Integer-Schritten betroffen waren als ungestimmte Klänge wie Drums. Diese Beobachtung legt nahe, dass es entscheidend ist, die Zeitauflösung auf eine konsistent klare Weise zu verwalten, besonders bei der Handhabung komplexerer Audiotypen.
Fazit
Wir haben neue Algorithmen für SFI-Schichten vorgestellt, um Nicht-Integer-Schritte in Audioverarbeitungsaufgaben effektiv zu verwalten. Durch die Verwendung von fensterbasierter Sinc-Interpolation schliessen unsere Methoden die Lücken, die durch unterschiedliche Frequenzen entstehen, was zu konstant besseren Leistungen bei der Trennung von Audioquellen im Vergleich zu älteren Methoden führt.
Die Ergebnisse unserer Experimente unterstreichen die Bedeutung der Handhabung dieser technischen Herausforderungen auf eine Weise, die die Audioqualität bewahrt und in verschiedenen Kontexten funktioniert. Unsere Arbeit eröffnet Möglichkeiten für robustere Audioverarbeitungssysteme, die sich an eine Vielzahl von Bedingungen anpassen können, ohne an Effektivität zu verlieren.
Diese Fortschritte weisen auf eine vielversprechende Richtung für zukünftige Forschungen in der Audioverarbeitung und im Deep Learning hin und ebnen den Weg für Modelle, die flexibler und genauer in realen Anwendungen arbeiten können.
Titel: Algorithms of Sampling-Frequency-Independent Layers for Non-integer Strides
Zusammenfassung: In this paper, we propose algorithms for handling non-integer strides in sampling-frequency-independent (SFI) convolutional and transposed convolutional layers. The SFI layers have been developed for handling various sampling frequencies (SFs) by a single neural network. They are replaceable with their non-SFI counterparts and can be introduced into various network architectures. However, they could not handle some specific configurations when combined with non-SFI layers. For example, an SFI extension of Conv-TasNet, a standard audio source separation model, cannot handle some pairs of trained and target SFs because the strides of the SFI layers become non-integers. This problem cannot be solved by simple rounding or signal resampling, resulting in the significant performance degradation. To overcome this problem, we propose algorithms for handling non-integer strides by using windowed sinc interpolation. The proposed algorithms realize the continuous-time representations of features using the interpolation and enable us to sample instants with the desired stride. Experimental results on music source separation showed that the proposed algorithms outperformed the rounding- and signal-resampling-based methods at SFs lower than the trained SF.
Autoren: Kanami Imamura, Tomohiko Nakamura, Norihiro Takamune, Kohei Yatabe, Hiroshi Saruwatari
Letzte Aktualisierung: 2023-06-19 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2306.10718
Quell-PDF: https://arxiv.org/pdf/2306.10718
Lizenz: https://creativecommons.org/licenses/by-sa/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.