Sprache klarer machen in lauten Umgebungen
Ein neues System verbessert Sprachsignale, die von verschiedenen Verzerrungen betroffen sind.
― 5 min Lesedauer
Inhaltsverzeichnis
Eine klare Sprachkommunikation ist wichtig für effektive Gespräche. Aber viele Sachen können das Sprechen schwer hörbar oder verständlich machen. Dinge wie Hintergrundgeräusche, wie ein Raum klingt und Probleme während der Übertragung können die Sprachqualität beeinträchtigen. Frühere Studien haben oft nur eine Verzerrung gleichzeitig betrachtet. In letzter Zeit gab es einen Wandel hin zu Methoden, die mehrere Probleme auf einmal bewältigen können. Diese neueren Methoden nutzen oft generative Modelle, die effektiv sind, wenn es um fehlende Informationen oder komplexe Geräusche geht.
Vorgeschlagenes System
Das System, das wir vorschlagen, zielt darauf ab, Sprachsignale zu verbessern, indem es mit verschiedenen Verzerrungen umgeht. Es basiert auf einem generativen Diffusionsmodell. Dieses Modell hat sich in Situationen als effektiv erwiesen, in denen die Daten fehlen oder auf nicht-lineare Weise durcheinandergeraten sind.
Trainingsphase
Während des Trainings erstellen wir ein Modell, das simuliert, was passiert, wenn klare Sprache verzerrt wird. Wir beginnen mit klarer Sprache und fügen allmählich Geräusche hinzu, bis es sich korrupt anhört. Der Prozess beinhaltet, von der sauberen Version zur beschädigten zu wechseln, während wir zufällige Änderungen anwenden, die realen Problemen ähneln.
Inferenzphase
Wenn wir das System testen, versuchen wir, die klare Sprache aus der korrupten Version zurückzuholen. Wir machen dies, indem wir den Prozess des Hinzufügens von Rauschen umkehren. Dieser Schritt erfordert eine bestimmte Funktion, die uns hilft zu schätzen, wie die klare Sprache geklungen hätte. Leider können wir diese Funktion nicht direkt beim Testen verwenden, also trainieren wir ein tiefes neuronales Netzwerk, das als Ersatz fungiert.
Netzwerkarchitektur
Für die Aufgabe, die Sprachqualität zu schätzen und zu verbessern, verwenden wir eine modifizierte Version eines bestehenden Modells. Das Design basiert auf einem Encoder-Decoder-Setup, das sowohl die realen als auch die imaginären Teile des Spektrogramms separat verarbeitet. Das Design ist so angepasst, dass es den Anforderungen an Kausalität entspricht, was bedeutet, dass Informationen so verarbeitet werden, dass nicht nach vorne geschaut wird.
Wichtige Änderungen
Wir haben mehrere wichtige Änderungen am bestehenden Modell vorgenommen:
- Kausale Faltung: Wir haben das Padding in den Faltungen angepasst, sodass sie nur auf vergangene Daten schauen, um die kausale Verarbeitung zu gewährleisten.
- Normalisierung: Anstelle der Batch-Normalisierung haben wir kumulative Gruppennormalisierung implementiert, was bedeutet, dass wir die Statistiken schrittweise aktualisieren, was besser für unsere Bedürfnisse geeignet ist.
- Neuproben: Wir haben spezifische Arten von Faltungen verwendet, um den Prozess des Neuprobens der Daten in Zeit- und Frequenzdimensionen zu vereinfachen.
- Komplexität verringert: Bestimmte fortgeschrittene Komponenten, die nicht notwendig waren, wurden aus dem Netzwerk entfernt, um die Architektur zu straffen.
Automatische Lautstärkeregelung
Um sicherzustellen, dass unser System effektiv funktioniert, müssen wir die Audi livelli sorgfältig steuern. Hier kommt unsere automatische Lautstärkeregelung (AGC) ins Spiel. Die AGC passt die Lautstärke des Audiosignals an die Trainingsbedingungen an, die wir festgelegt haben.
Kausale Überwachung
Die AGC beginnt, das Audio zu überwachen, wenn sie erkennt, dass Sprache vorhanden ist. Um Fehler zu vermeiden, verwenden wir eine spezifische Methode, um falsche Positive herauszufiltern. Wenn das Signal für eine bestimmte Zeit Sprachaktivität anzeigt, beginnen wir, es als gültig zu betrachten. Jedes Mal, wenn ein lauteres Geräusch erkannt wird, wechseln wir sanft zur neuen Lautstärke, um abrupte Veränderungen zu vermeiden, die den Zuhörer verwirren könnten.
Experimentelles Setup
Für unsere Experimente haben wir einen spezifischen Sprachdatensatz verwendet und die Audio-Proben verändert, um reale Verzerrungen zu simulieren. Dazu gehörten verschiedene Arten von Rauschen, Echos aus Räumen und Probleme durch schlechte Verbindungen. Indem wir zufällig auswählten, welche Verzerrungen auf jede saubere Probe angewendet werden, haben wir einen vielfältigen Trainingsdatensatz erstellt.
Hyperparameter und Training
Alle unsere Verarbeitungen wurden bei einer festgelegten Frequenz durchgeführt. Wir haben eine spezielle Methode angewendet, um das Audio in Spektrogramme zu zerlegen, was es uns ermöglichte, Veränderungen über die Zeit zu verfolgen. Das Training bestand darin, verschiedene Einstellungen anzupassen, die letztendlich dazu beitrugen, bessere Ergebnisse zu erzielen. Wir verwendeten eine Deep-Learning-Methode für das Training, das ein paar Tage dauerte und leistungsstarke Grafikkarten benötigte, um effektiv zu laufen.
Bewertung und Ergebnisse
Um zu sehen, wie gut unser System funktioniert, haben wir verschiedene Bewertungen mit realen Testsets durchgeführt. Wir haben das verbesserte Audio mit den ursprünglichen verzerrten Tracks verglichen, um die Qualität zu bewerten. Unsere Ergebnisse zeigten, dass das System es schaffte, die Klarheit erheblich zu verbessern und ein besseres Hörerlebnis zu bieten.
Subjektive Tests
In subjektiven Tests schnitt unser Ansatz ziemlich gut ab, was darauf hindeutet, dass die Benutzer eine deutliche Verbesserung der Audioqualität wahrnahmen. Die Tests berücksichtigten verschiedene Aspekte der Klangqualität, wie den Gesamtklang, die Klarheit des Signals und die Hintergrundgeräuschpegel.
Fazit
Diese Arbeit baute auf früheren Ideen in diesem Bereich auf, indem sie sich darauf konzentrierte, Verbesserungen auf kausale Weise vorzunehmen und gleichzeitig in der Lage zu sein, mit verschiedenen Arten von Verzerrungen umzugehen. Die von uns entwickelte Methode wurde in Wettbewerben getestet und validiert, was ihre Fähigkeit beweist, Sprache erheblich zu verbessern. Das System bietet eine vielversprechende Lösung für Situationen, in denen klare Kommunikation wichtig ist, trotz vieler potenzieller Faktoren, die die Klangqualität beeinträchtigen könnten.
Titel: Speech Signal Improvement Using Causal Generative Diffusion Models
Zusammenfassung: In this paper, we present a causal speech signal improvement system that is designed to handle different types of distortions. The method is based on a generative diffusion model which has been shown to work well in scenarios with missing data and non-linear corruptions. To guarantee causal processing, we modify the network architecture of our previous work and replace global normalization with causal adaptive gain control. We generate diverse training data containing a broad range of distortions. This work was performed in the context of an "ICASSP Signal Processing Grand Challenge" and submitted to the non-real-time track of the "Speech Signal Improvement Challenge 2023", where it was ranked fifth.
Autoren: Julius Richter, Simon Welker, Jean-Marie Lemercier, Bunlong Lay, Tal Peer, Timo Gerkmann
Letzte Aktualisierung: 2023-03-15 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2303.08674
Quell-PDF: https://arxiv.org/pdf/2303.08674
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.