Fortschritte in der Sprachumwandlungstechnologie
Ein neues Modell verbessert die Sprachumwandlung, indem es die Methoden zur Sprachtrennung vereinfacht.
― 7 min Lesedauer
Inhaltsverzeichnis
Sprachkonvertierung (VC) ist eine Technik, die die Stimme einer Person so verändert, dass sie wie die einer anderen klingt, während der gleiche Text gesprochen wird. Diese Methode kann für verschiedene Anwendungen nützlich sein, wie zum Beispiel Synchronisation in Filmen oder das Erstellen von KI-Stimmen für virtuelle Assistenten. Damit VC gut funktioniert, muss die Sprache in verschiedene Teile zerlegt werden: Inhalt (was gesagt wird), Klangfarbe (die einzigartige Qualität der Stimme), Rhythmus (die Sprechgeschwindigkeit) und Tonhöhe (wie hoch oder tief die Stimme klingt).
Allerdings konzentrieren sich viele bestehende Methoden nur auf Inhalt und Klangfarbe, was zu unnatürlich klingender Sprache führen kann. Einige neuere Methoden können die Sprache in verschiedene Teile aufteilen, erfordern aber viel manuellen Aufwand, um die Einstellungen feinabzustimmen oder spezifische Merkmale zu verwenden, die im Voraus entworfen werden müssen.
In dieser Diskussion wird ein neues VC-Modell vorgestellt, das Sprache automatisch in alle vier Teile zerlegen kann, indem es nur zwei einfache Anpassungen an der Sprache vornimmt, ohne komplizierte Feinabstimmung oder eine Menge vorgefertigter Merkmale zu benötigen. Dieses Modell ist einfach und zeigt bessere Ergebnisse als frühere Modelle, sowohl in der Trennung der Sprachteile als auch in der Natürlichkeit des Outputs.
Sprachkonvertierung erklärt
Sprachkonvertierung erlaubt es einer Stimme, die Eigenschaften einer anderen "zu leihen", während sie dieselben Worte sagt. Das kann in Situationen wie der Nachbearbeitung von Filmen nützlich sein, wo die Stimme eines Schauspielers mit der Animation oder einem anderen Schauspieler übereinstimmen muss. Es kann auch in unterstützenden Technologien angewendet werden, wo Stimmen verändert werden können, um verschiedenen Benutzerpräferenzen gerecht zu werden.
Mit dem Fortschritt der Technologie haben sich auch die Methoden zur Durchführung von VC verbessert. Einige komplexere Systeme nutzen sekundäre Modelle, wie solche, die Sprache in Text umwandeln oder umgekehrt, um bei der Generierung der gewünschten Stimme zu helfen. Während diese Methoden gute Ergebnisse liefern können, sind sie oft schwierig umzusetzen und erfordern erhebliche Schulungsanstrengungen.
Ein einfacherer und neuerer Ansatz konzentriert sich darauf, Sprache in ihre grundlegenden Bestandteile zu zerlegen, wie Inhalt und Sprechermerkmale (Klangfarbe). Diese Methoden haben an Beliebtheit gewonnen, da sie keine zusätzlichen Modelle benötigen und leichter zu trainieren sind. Allerdings werden nicht alle Aspekte der Sprache berücksichtigt; Komponenten wie Rhythmus und Tonhöhe werden oft übersehen. Wenn ein System nur die Klangfarbe betrachtet, kann die resultierende Stimme weniger ausdrucksstark und natürlich klingen.
Bestehende Modelle
Zwei bemerkenswerte Modelle, bekannt als SpeechSplit und SpeechSplit2.0, versuchen, diese Sprachkomponenten effektiv zu trennen. Beide Modelle verwenden eine ähnliche Struktur mit unterschiedlichen Encodern für Inhalt, Rhythmus und Tonhöhe sowie einem Decoder, um diese Teile in einen endgültigen Sprachoutput zu kombinieren.
In SpeechSplit verwendet das Modell verschiedene manuell erstellte Merkmale für jeden Encoder-Typ. Das erfordert eine sorgfältige Anpassung der Einstellungen, wobei oft die Qualität der erzeugten Stimme auf der Strecke bleibt. SpeechSplit2.0 verbessert sein Vorgängermodell, indem es fortschrittlichere Signalverarbeitungstechniken einsetzt, verlässt sich jedoch immer noch stark auf diese handgefertigten Merkmale.
Ziel ist es, einen Weg zu finden, die Sprachkomponenten ohne all diesen manuellen Aufwand zu trennen. Eine automatische Lösung kann Zeit sparen und bessere Ergebnisse erzielen, indem sie Vorurteile reduziert, die durch menschliche Entscheidungen bei der Merkmalsauswahl eingeführt werden.
Vorgeschlagener Ansatz
Das hier vorgeschlagene neue VC-Modell weist einige Ähnlichkeiten mit bestehenden Modellen auf. Es hat jedoch einen Hauptunterschied: Es kann Sprache automatisch in ihre vier Komponenten zerlegen, indem es nur zwei Sprachmodifikationen vornimmt – die Tonhöhe ändern und den Rhythmus anpassen. Dadurch entfällt die Notwendigkeit für mehrere handgefertigte Merkmale und der mühsame Abstimmungsprozess wird eliminiert.
Inspiriert von Arbeiten in verwandten Bereichen enthält dieses Modell ein Rangmodul, das hilft, effektive Darstellungen von Sprache aus den Daten zu identifizieren. Das Modell wird trainiert, um die Originalsprache mit ihren modifizierten Versionen zu bewerten. Wenn beispielsweise die Tonhöhe angehoben wird, bewertet das Modell die modifizierte Version höher in Bezug auf die Tonhöhe, während die Rhythmuswerte gleich bleiben.
Durch die Verwendung eines Ansatzes, der es dem Modell ermöglicht, sich auf den Kerninhalt zu konzentrieren, getrennt von Änderungen in Tonhöhe und Rhythmus, kann das Modell die relevanten Merkmale für jede Sprachkomponente genau erkennen.
Trainingsprozess
Das Modell besteht aus mehreren Schritten. Zunächst extrahieren mehrere Encoder relevante Informationen für Inhalt, Rhythmus und Tonhöhe aus der Eingangssprache. Der Prozess beginnt damit, dass die Sprachdaten mit den beiden Augmentierungsfunktionen – Änderung der Tonhöhe und Rhythmus – modifiziert werden. Jedes Mal, wenn die Sprache modifiziert wird, geschieht dies zufällig, um Überanpassung zu vermeiden.
Sobald die Modifikationen durchgeführt sind, werden die ursprüngliche und die modifizierte Sprache in separate Encoder eingespeist, um die jeweiligen Inhalte, Rhythmen und Tonhöhenrepräsentationen zu extrahieren. Nach der Extraktion dieser Merkmale wendet das Modell einen Ranking-Mechanismus an, um sicherzustellen, dass die erzeugten Darstellungen effektiv getrennt sind.
Der nächste Schritt besteht darin, den Decoder zu trainieren, der alle Komponenten kombiniert, um die endgültige konvertierte Stimme zu erzeugen. Im Gegensatz zu früheren Methoden, die das gesamte Training auf einmal durchführen, trainiert dieses Modell zunächst die Encoder, bevor es zum Decoder übergeht. Dieses zweistufige Verfahren hilft, die Ergebnisse zu verbessern.
Experimentelle Einrichtung
Das Modell wurde mit dem VCTK-Korpus trainiert und bewertet, einem gut anerkannten Datensatz für Sprachkonvertierungsaufgaben. Dieser Datensatz enthält Aufnahmen von zahlreichen englischen Sprechern, wobei jeder Sprecher mehrere Sätze gelesen hat. Die Audioaufnahmen wurden verarbeitet, um bestimmte Merkmale zu extrahieren und sie für das Training des Modells vorzubereiten.
Ein Baseline-Vergleich wurde mit dem bereits etablierten Modell SpeechSplit2.0 angestellt, das sich als leistungsstark in diesem Bereich erwiesen hat. Mehrere Tests wurden durchgeführt, um die Effektivität des vorgeschlagenen Modells im Vergleich zu dieser Basislinie zu bewerten.
Bewertungsmethoden
Um zu evaluieren, wie gut das neue Modell funktioniert, wurden verschiedene Testmethoden verwendet. Ein Test konzentrierte sich auf die Messung der "Konversionsrate", bei der Probanden Sprachproben hörten und bestimmten, welche näher in Tonhöhe, Rhythmus oder Klangfarbe an der synthetisierten Stimme war. Dies kann zeigen, wie effektiv das Modell die Sprachkomponenten getrennt hat.
Eine andere Bewertungsmethode beinhaltete einen Mean Opinion Score (MOS), bei dem Zuhörer die Natürlichkeit der erzeugten Sprache auf einer Skala von schlecht bis ausgezeichnet bewerteten. Die Ergebnisse zeigten, dass das neue Modell konsequent Sprache erzeugte, die natürlicher klang als die Basislinie.
Die Character Error Rate (CER) wurde in einem weiteren Test verwendet, um zu messen, wie gut der Inhalt der Originalsprache im konvertierten Sprachoutput erhalten blieb, indem Unterschiede in der sprachlichen Genauigkeit verglichen wurden. Niedrigere CER-Ergebnisse deuteten auf eine bessere Leistung bei der Inhaltserhaltung hin.
Zusätzlich wurden die Tonhöhemerkmale mit dem Pearson-Korrelationskoeffizienten bewertet, der misst, wie eng die Tonhöhe-Muster von zwei Sprachproben übereinstimmen. Diese Bewertung zeigte weiter die Effektivität des Modells bei der Erfassung der wesentlichen Aspekte der Sprache.
Fazit
Das vorgeschlagene Sprachkonvertierungsmodell zeigt grosses Potenzial, Sprache automatisch in ihre entscheidenden Komponenten zu trennen. Durch die Verwendung von nur zwei einfachen Transformationen umgeht es die Komplikationen, die in früheren Methoden zu finden waren, die auf umfangreicher manueller Handhabung und Feinabstimmung basierten.
Die Ergebnisse deuten darauf hin, dass dieses neue Modell eine bessere Leistung erzielt, nicht nur in der Trennung von Sprachkomponenten, sondern auch in der Generierung von Stimmen, die natürlicher klingen. Die Arbeit stellt einen bedeutenden Fortschritt in der Sprachkonvertierungstechnologie dar und eröffnet neue Möglichkeiten für Anwendungen in Unterhaltung und KI-gesteuerten Schnittstellen.
Titel: Automatic Speech Disentanglement for Voice Conversion using Rank Module and Speech Augmentation
Zusammenfassung: Voice Conversion (VC) converts the voice of a source speech to that of a target while maintaining the source's content. Speech can be mainly decomposed into four components: content, timbre, rhythm and pitch. Unfortunately, most related works only take into account content and timbre, which results in less natural speech. Some recent works are able to disentangle speech into several components, but they require laborious bottleneck tuning or various hand-crafted features, each assumed to contain disentangled speech information. In this paper, we propose a VC model that can automatically disentangle speech into four components using only two augmentation functions, without the requirement of multiple hand-crafted features or laborious bottleneck tuning. The proposed model is straightforward yet efficient, and the empirical results demonstrate that our model can achieve a better performance than the baseline, regarding disentanglement effectiveness and speech naturalness.
Autoren: Zhonghua Liu, Shijun Wang, Ning Chen
Letzte Aktualisierung: 2023-06-21 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2306.12259
Quell-PDF: https://arxiv.org/pdf/2306.12259
Lizenz: https://creativecommons.org/licenses/by-nc-sa/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.