Fortschritte in der französischen Sprachsynthesetechnologie
Ein neu entwickeltes System erzeugt realistische französische Sprache für einen Wettbewerb.
― 6 min Lesedauer
Inhaltsverzeichnis
Dieser Artikel handelt von einem Sprachsynthesesystem, das für einen Wettbewerb entwickelt wurde. Ziel ist es, realistisch klingende Sprache auf Französisch mit einem grossen Datensatz zu erzeugen. Die Herausforderung hat zwei Aufgaben: Eine erfordert viele Daten von einem einzelnen Sprecher, während die andere weniger Daten nutzt und sich an einen anderen Sprecher anpasst.
Übersicht über das Sprachsynthesesystem
Das Sprachsynthesesystem ist so gestaltet, dass es natürliche und hochwertige französische Sprache erzeugt. Der Wettbewerb testet verschiedene Methoden zur Verbesserung der Sprachsynthese. Das System verwendet ein Modell, das bei der Erzeugung von Sprache hilft, die natürlicher klingt. Der Fokus liegt darauf, die Kontrolle darüber zu verbessern, wie die Sprache klingt, was als Prosodie bezeichnet wird.
Sprachsynthese-Challenge
Jedes Jahr bewertet die Blizzard Challenge, wie gut verschiedene Teams Sprachsynthesesysteme erstellen können. Die Teilnehmer bauen ihre Systeme mit bereitgestellten Daten. In diesem Jahr mussten die Teams eine Stimme mithilfe von zwei Aufgaben erstellen:
- Hub-Task: Nutze etwa 50 Stunden Daten von einer einzelnen französischen Sprecherin, um eine Stimme zu erstellen.
- Spoke-Task: Nutze etwa 2 Stunden Daten von einer anderen französischen Sprecherin, um ein vortrainiertes Modell anzupassen.
Die Teams konnten öffentliche Daten für die Hub-Aufgabe verwenden, durften aber ihre eigenen Daten für die Spoke-Aufgabe nutzen.
Modellentwurf und Ziele
Das Team wollte ein System entwickeln, das Sprache erzeugt, die so realistisch wie möglich klingt. Sie konzentrierten sich auf zwei Hauptziele: Die Sprache natürlich klingen zu lassen und die Kontrolle darüber zu ermöglichen, wie sie auf verschiedenen Ebenen klingt, wie ganzen Sätzen und einzelnen Wörtern.
Neuere Techniken mit neuronalen Netzwerken haben grosse Fortschritte dabei gemacht, wie natürlich erzeugte Sprache klingt. Viele Systeme verwenden einen zweistufigen Ansatz, bei dem ein Modell eine bestimmte Art von Audio-Repräsentation vorhersagt und ein zweites Modell diese Repräsentation in tatsächliche Sprache umwandelt.
In dieser Entwicklung verwendet das System ein auto-regressives Modell, das gut für die Erzeugung von Sprache mit konsistentem Klang ist. Das Team hat auch einige Teile des Modells modifiziert, um ein einfacheres Training zu ermöglichen.
Trainingsansatz
Das Modell trainiert in zwei Hauptteilen. Zuerst lernt es, die erzeugten Sprachlaute mit dem Texteingang abzugleichen. Diese Phase umfasst die Schätzung, wie lange verschiedene Laute ausgesprochen werden sollten. Der zweite Teil erzeugt die finalen Audioaufnahmen.
Um natürlichere Sprache zu erzeugen, verwendete das Team zwei verschiedene Informationssets, die als Stiltoken bezeichnet werden. Ein Set erfasst den Gesamtstil der Sprache auf Satzebene, während das andere Stile auf Wortebene erfasst.
Vorhersage der Sprachprosodie
Die Erzeugung von Sprache umfasst die Sicherstellung des richtigen Rhythmus und der Betonung. Hier kommt die Prosodie ins Spiel. Für eine bessere Kontrolle darüber, wie die Sprache klingt, verwendet das System zwei Arten von Stiltoken.
Das erste Token-Set erfasst den allgemeinen Sprachstil des gesamten Satzes, während das zweite den lokalen Stil für einzelne Wörter erfasst. Durch die Verwendung dieser Token kann das System anpassen, wie Wörter basierend auf dem Kontext des Satzes ausgesprochen werden.
Um die richtigen Stiltoken aus dem Text vorherzusagen, verwendet das System ein Modell namens BERT, das den Texteingang verarbeitet und die entsprechenden Token-Features bestimmt.
Umgang mit Aussprachevarianten
Im Französischen können bestimmte Wörter auf verschiedene Arten ausgesprochen werden. Um diese Aussprachevariationen zu berücksichtigen, entwickelte das Team eine Methode, die identifiziert, welche Version basierend auf dem Kontext der umgebenden Wörter verwendet werden soll.
Während des Trainings lernt das System aus tatsächlichen Aufnahmen, um verschiedene phonetische Entscheidungen zu klassifizieren. Das hilft sicherzustellen, dass die erzeugte Sprache sowohl genau als auch natürlich ist.
Technische Modellarchitektur
Die Struktur des Modells besteht aus mehreren Schichten, die zusammenarbeiten, um die Sprache zu erzeugen. Zunächst passt das System den geschriebenen Text an die Audio-Features an. Die erlernten Zuordnungen helfen dem Modell zu entscheiden, wie lange jeder Laut dauern sollte, wenn er ausgesprochen wird.
Sobald die Dauer vorhergesagt ist, erzeugt das System Sprache mit den Informationen, die es aus dem Text gelernt hat. Durch die Verwendung von lokalen und globalen Stiltoken passt das Modell die Sprachausgabe an, um sie ausdrucksvoller und natürlicher zu machen.
Vocoder
Datenverarbeitung undDer Schritt der Datenverarbeitung hilft, geschriebenen französischen Text in Töne umzuwandeln. Dabei wird der Text in Phoneme zerlegt, die die Grundlaute der Sprache sind. Das Team verwendete eine Textverarbeitungs-Pipeline, um diese Umwandlung zu erledigen.
Für die Erzeugung des finalen Audios verwendet das System ein Vocoder-Modell, das Audio-Features in tatsächliche Schallwellen umwandelt. Dieser Vocoder wurde optimiert, um die Qualität der erzeugten Sprache zu verbessern.
Trainingsstrategie
Um das Sprachsynthesemodell zu trainieren, kombinierte das Team verschiedene Verlustarten, um sicherzustellen, dass die Sprachausgabe den gewünschten Merkmalen entsprach. Durch die Fokussierung auf verschiedene Aspekte der Sprachqualität wollten sie ein ausgewogenes Modell schaffen, das qualitativ hochwertige Ergebnisse liefert.
Der Trainingsprozess verwendet einen bestimmten Datensatz für jede Aufgabe in der Challenge. Die Hub-Aufgabe umfasst einen grösseren Datensatz von einem Sprecher, während die Spoke-Aufgabe zusätzliche Informationen zu Sprechern zur Anpassung integriert.
Ergebnisse aus dem Wettbewerb
Im Wettbewerb wurde die Leistung des Modells im Vergleich zu anderen bewertet. Die Teilnehmer mussten einschätzen, wie natürlich die erzeugte Sprache klang. In beiden Aufgaben erzielte das System hohe Punktzahlen, was es zu einem der besten Performer machte.
In der Hub-Aufgabe erhielt das Modell gute Bewertungen für Natürlichkeit und Ähnlichkeit zur tatsächlichen Sprache. In der Spoke-Aufgabe schnitt es gut ab und verdeutlichte seine Effektivität bei der Erzeugung von Stimmen aus begrenzten Daten.
Fazit
In diesem Artikel wurde ein Sprachsynthesesystem beschrieben, das für einen Wettbewerb entwickelt wurde, der sich auf die Produktion von natürlich klingender französischer Sprache konzentriert. Der Ansatz des Teams betonte die Verbesserung der Prosodie und der Gesamtqualität des Sprachgenerierungsprozesses.
Durch ein sorgfältig gestaltetes Modell und eine Trainingsstrategie erzielte das System bemerkenswert hochwertige Ergebnisse. Auf dieser Grundlage könnte die zukünftige Arbeit darauf abzielen, die Sprecheranpassung zu verfeinern und die Kontrolle über verschiedene Sprachstile zu verbessern.
Die Fortschritte, die in diesem Projekt gemacht wurden, tragen zur fortlaufenden Entwicklung der Sprachsynthesistechnologie bei, mit dem Ziel, in Zukunft noch realistischere und anpassungsfähigere Systeme zu schaffen.
Titel: The DeepZen Speech Synthesis System for Blizzard Challenge 2023
Zusammenfassung: This paper describes the DeepZen text to speech (TTS) system for Blizzard Challenge 2023. The goal of this challenge is to synthesise natural and high-quality speech in French, from a large monospeaker dataset (hub task) and from a smaller dataset by speaker adaptation (spoke task). We participated to both tasks with the same model architecture. Our approach has been to use an auto-regressive model, which retains an advantage for generating natural sounding speech but to improve prosodic control in several ways. Similarly to non-attentive Tacotron, the model uses a duration predictor and gaussian upsampling at inference, but with a simpler unsupervised training. We also model the speaking style at both sentence and word levels by extracting global and local style tokens from the reference speech. At inference, the global and local style tokens are predicted from a BERT model run on text. This BERT model is also used to predict specific pronunciation features like schwa elision and optional liaisons. Finally, a modified version of HifiGAN trained on a large public dataset and fine-tuned on the target voices is used to generate speech waveform. Our team is identified as O in the the Blizzard evaluation and MUSHRA test results show that our system performs second ex aequo in both hub task (median score of 0.75) and spoke task (median score of 0.68), over 18 and 14 participants, respectively.
Autoren: Christophe Veaux, Ranniery Maia, Spyridoula Papandreou
Letzte Aktualisierung: 2023-09-01 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2308.15945
Quell-PDF: https://arxiv.org/pdf/2308.15945
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.