DurIAN-E: Fortschritte in der Text-zu-Sprache-Technologie
DurIAN-E verbessert synthetische Sprache mit mehr Ausdruckskraft und natürlichem Fluss.
― 5 min Lesedauer
Inhaltsverzeichnis
Text-to-Speech (TTS) Technik erstellt gesprochene Audios aus Text. Diese Technologie wird in Anwendungen wie Sprachassistenten, Navigationssystemen und Screenreaders verwendet. Ein grosses Ziel von TTS ist es, synthetische Sprache natürlicher und menschlicher klingen zu lassen. In diesem Artikel sprechen wir über ein fortschrittliches Modell namens DurIAN-E, das expressive und hochwertige synthetische Sprache erzeugt.
Hintergrund
Traditionelle TTS-Systeme hatten es schwer, Sprache zu erzeugen, die menschlich klingt. Frühere Methoden verwendeten Regeln und aufgenommene Klangfetzen, was oft zu roboterhaften Stimmen führte. Doch die letzten Fortschritte mit Deep Learning haben die Qualität der synthetischen Sprache deutlich verbessert. Diese Modelle können natürlichere Stimmen erzeugen, aber es fehlt immer noch an Ausdruck.
Ausdruck in Sprache bedeutet, Emotionen und Persönlichkeit zu vermitteln. Viele Forscher wollen den Ausdruck in TTS-Systemen verbessern, damit sie menschliche Sprachmuster und -stile besser nachahmen können. Es gibt zwei Hauptmethoden, um den Sprachstil zu steuern: eine verwendet vordefinierte Stil-Labels, während die andere aus echten Sprachbeispielen lernt.
Das DurIAN-Modell
Das DurIAN-Modell ist ein Schritt nach vorne in der TTS-Technologie. Es nutzt einen speziellen Aufmerksamkeitsmechanismus, der den eingegebenen Text mit dem erzeugten Klang ausrichtet. Dieses Modell hat eine Struktur, die einen Encoder enthält, der die Phoneme (die kleinsten Klangeinheiten) verarbeitet, und einen Decoder, der akustische Merkmale erzeugt.
Das DurIAN-Modell integriert auch ein Dauer-Modell. Dieses Modell hilft vorherzusagen, wie lange jeder Klang dauern sollte, was häufige Fehler im TTS vermindert, wie das Wiederholen oder Auslassen von Wörtern. Mit diesem Modell kann DurIAN genauere und klarere Sprache produzieren.
Einführung von DurIAN-E
Das neue DurIAN-E-Modell basiert auf dem ursprünglichen DurIAN-Modell. Es beinhaltet neue Techniken, um die Qualität der erzeugten Sprache weiter zu verbessern. Eine Innovation ist die Verwendung von SwishRNN, einer Art neuronales Netzwerk, das dem Modell hilft, Timing und Rhythmus besser zu verstehen. Das ist wichtig, damit Sprache natürlicher klingt, da menschliche Sprache einen natürlichen Fluss hat.
Darüber hinaus verwendet DurIAN-E eine fortschrittliche Methode namens Style-Adaptive Instance Normalization (SAIN). Dies ermöglicht es dem Modell, anzupassen, wie es verschiedene Stile in der Sprache darstellt, was den Ausdruck erhöht. Die Verwendung eines Denoisers – einem Mechanismus, der die erzeugte Sprache bereinigt – verbessert auch die Klarheit des Outputs.
Der Prozess der Sprachsynthese
Der Prozess, Sprache aus Text zu erzeugen, umfasst mehrere Schritte. Zuerst wird der Text in Phoneme umgewandelt. Das DurIAN-E-Modell verwendet dann die Phonemfolge und prosodische Grenzen (Indikatoren für Rhythmus und Betonung), um eine versteckte Zustandsfolge zu erstellen. Diese wird basierend auf vorhergesagten Dauern erweitert, um die akustische Merkmalsgenerierung vorzubereiten.
Sobald die versteckten Zustände bereit sind, erzeugt das Modell das Mel-Spektrogramm, eine visuelle Darstellung von Klang, Bild für Bild. In diesem Schritt kommt das Verständnis des Modells für Timing, Rhythmus und Stil ins Spiel. Das Mel-Spektrogramm wird dann durch einen Denoiser geleitet, der es für eine bessere Qualität bereinigt.
Bedeutung des Ausdrucks
Ausdruck in TTS ist entscheidend für Anwendungen, die darauf angewiesen sind, Emotionen zu vermitteln. Zum Beispiel könnte ein Navigationssystem zu robotermässig klingen, wenn es Dringlichkeit oder Ruhe nicht ausdrücken kann, wenn es nötig ist. Das DurIAN-E-Modell zielt darauf ab, diese Lücke zu schliessen. Durch die Verwendung verschiedener Techniken verbessert es die emotionale Bandbreite synthetischer Stimmen.
Mit DurIAN-E können TTS-Systeme Stilsteuerungsmethoden effektiv nutzen. Das Modell kann sich an verschiedene Sprechstile anpassen, was es für verschiedene Anwendungen geeignet macht. Diese Anpassungsfähigkeit bedeutet, dass die Nutzer wählen können, wie sie wollen, dass die synthetische Stimme klingt – ob glücklich, traurig, wütend oder neutral.
Experimentelle Ergebnisse
Die Leistung von DurIAN-E wurde mit anderen führenden TTS-Systemen getestet. In subjektiven Hörtests verglichen die Nutzer die synthetische Sprache von DurIAN-E mit der von anderen Modellen wie FastSpeech und DiffSpeech. Die Ergebnisse zeigten, dass die Zuhörer DurIAN-E wegen seines Ausdrucks und seiner Qualität bevorzugten.
Die Tests massen nicht nur, wie natürlich die Sprache klang, sondern auch, wie gut sie unterschiedliche Emotionen vermittelte. Die Verbesserungen durch die Verwendung von SwishRNN, SAIN und dem Denoiser waren deutlich. Die Zuhörer berichteten, dass DurIAN-E Sprache produzierte, die menschlicher Kommunikation näher kam.
Fazit
DurIAN-E stellt einen bedeutenden Fortschritt in der TTS-Technologie dar. Durch die Kombination verschiedener Modelle und Techniken erzeugt es Sprache, die sowohl hochwertig als auch ausdrucksvoll ist. Das macht synthetische Stimmen nachvollziehbarer und menschlicher. Während die TTS-Technologie weiter wächst, werden Modelle wie DurIAN-E eine wichtige Rolle dabei spielen, wie Maschinen mit Menschen kommunizieren.
Zukünftige Arbeiten für DurIAN-E könnten sich darauf konzentrieren, die Effizienz zu steigern, was helfen würde, die Zeit für die Sprachproduktion zu verkürzen und gleichzeitig die hohe Qualität zu erhalten. Bestrebungen, neue Innovationen zu integrieren, könnten den Ausdruck synthetischer Stimmen weiter bereichern. Letztendlich ist das Ziel, die Technologie für alle zugänglicher und angenehmer zu gestalten.
Titel: DurIAN-E: Duration Informed Attention Network For Expressive Text-to-Speech Synthesis
Zusammenfassung: This paper introduces an improved duration informed attention neural network (DurIAN-E) for expressive and high-fidelity text-to-speech (TTS) synthesis. Inherited from the original DurIAN model, an auto-regressive model structure in which the alignments between the input linguistic information and the output acoustic features are inferred from a duration model is adopted. Meanwhile the proposed DurIAN-E utilizes multiple stacked SwishRNN-based Transformer blocks as linguistic encoders. Style-Adaptive Instance Normalization (SAIN) layers are exploited into frame-level encoders to improve the modeling ability of expressiveness. A denoiser incorporating both denoising diffusion probabilistic model (DDPM) for mel-spectrograms and SAIN modules is conducted to further improve the synthetic speech quality and expressiveness. Experimental results prove that the proposed expressive TTS model in this paper can achieve better performance than the state-of-the-art approaches in both subjective mean opinion score (MOS) and preference tests.
Autoren: Yu Gu, Yianrao Bian, Guangzhi Lei, Chao Weng, Dan Su
Letzte Aktualisierung: 2023-09-22 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2309.12792
Quell-PDF: https://arxiv.org/pdf/2309.12792
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.