Fortschritte in der Sprachumwandlung mit Urhythmic-Technologie
Urhythmic verbessert die Sprachumwandlung, indem es sich auf den Sprachrhythmus konzentriert.
― 5 min Lesedauer
Inhaltsverzeichnis
Stimmkonversion ist eine Technologie, die die Sprache einer Person so verändert, dass sie wie die Stimme einer anderen Person klingt. Ein grosser Teil davon, wie wir eine Stimme erkennen, liegt nicht nur an den Worten, die gesagt werden, sondern auch daran, wie sie gesagt werden, inklusive Rhythmus und Sprechgeschwindigkeit. Leider ignorieren viele aktuelle Stimmkonversionssysteme diese wichtigen Details.
Um dieses Problem anzugehen, stellen wir eine Methode namens Urhythmic vor. Diese Methode hilft dabei, den Rhythmus der Sprache zu konvertieren, sodass die resultierende Stimme mehr wie der Zielsprecher klingt. Das Tolle an Urhythmic ist, dass es keine manuelle Zuordnung von Stimmen oder spezifischen Texten benötigt. Stattdessen verwendet es clevere Techniken, um den Rhythmus der Sprache automatisch zu analysieren und anzupassen.
Bedeutung des Rhythmus in der Stimmkonversion
Rhythmus in der Sprache bezieht sich auf den Fluss und das Timing von Wörtern und Klängen. Er erfasst Emotionen und Absichten und hilft den Zuhörern, die Einstellung des Sprechers zu verstehen. Verschiedene Sprecher haben einzigartige Rhythmen, die von Faktoren wie ihrem Hintergrund, Akzent und sogar ihrem Geschlecht beeinflusst werden.
Zum Beispiel können zwei Personen dasselbe Wort sagen, aber wenn einer schnell und der andere langsam spricht, macht der Unterschied im Rhythmus deutlich, dass sie unterschiedliche Individuen sind. Indem traditionelle Stimmkonversionsmethoden nur die Worte kopieren, ohne den Rhythmus nachzuahmen, bleiben sie in ihrer Genauigkeit, die Identität des Zielsprechers darzustellen, hinter den Erwartungen zurück.
Das Problem mit aktuellen Stimmkonversionssystemen
Aktuelle Stimmkonversionssysteme nehmen oft die Sprache einer Person und versuchen, sie wie die einer anderen klingen zu lassen, ohne den Rhythmus zu berücksichtigen. Stattdessen wiederholen sie einfach die Prosodie, also den Rhythmus und die Melodie des ursprünglichen Sprechers. Das führt zu Problemen wie ungenauen Klängen und einer weniger glaubwürdigen Stimmkonversion.
Einige Techniken wurden entwickelt, um die Rhythmuskonversion anzugehen. Diese erfordern jedoch in der Regel umfangreiche Mengen an gelabelten Daten, die schwer zu sammeln und zeitaufwendig zu verarbeiten sein können. Aufgrund dieser Herausforderungen wurden einige Methoden geschaffen, die nicht auf dieser Art von detaillierten Daten basieren, aber sie sind nicht so effektiv.
Urhythmic einführen
Urhythmic ist ein neuer Ansatz für die Rhythmuskonversion, der ohne Text oder gepaarte Aufnahmen von Reden funktioniert. Es nutzt eine Kombination aus selbstüberwachenden Lerntechniken, um die Sprache in handhabbare Segmente zu zerlegen, die verschiedene Teile des Klangs repräsentieren, wie Vokale oder Pausen.
Zunächst wird die Sprache in Stücke zerlegt, die verschiedene Klänge repräsentieren. Dann misst Urhythmic, wie lange jeder Klang dauert und wie schnell er gesprochen wird. Schliesslich passt es die identifizierten Sprachsegmente an den Rhythmus des Zielsprechers an.
Die Ergebnisse von Urhythmic zeigen, dass es eine bessere Qualität und natürlicher klingende Rhythmen als frühere Methoden liefert.
So funktioniert Urhythmic
Urhythmic funktioniert durch mehrere Hauptschritte:
Inhaltskodierung: Der erste Schritt besteht darin, die Sprache zu verarbeiten, um den Klang der Wörter zu erfassen und bestimmte Sprechermerkmale zu entfernen. Dadurch wird sichergestellt, dass die Stimmkonversion sich auf das, was gesagt wird, und nicht darauf, wer es sagt, konzentriert.
Segmentierung: Als nächstes gruppiert das System die Sprache in Segmente, die verschiedenen Klängen entsprechen, wie Vokalen, Konsonanten und Pausen. Das ist wichtig, um den Rhythmus zu erfassen, da sich jeder Klangtyp unterschiedlich verhält.
Rhythmusmodellierung: Urhythmic schätzt dann die Sprechgeschwindigkeit und die Länge der verschiedenen Klänge. Damit wird das Wesen des Rhythmus erfasst und identifiziert, wie die ursprüngliche Sprache am besten angepasst werden kann, um zur Zielstimme zu passen.
Zeitdehnung: Das System dehnt oder komprimiert die Audiosegmente basierend auf dem Zielrhythmus. Dieser Prozess verändert die ursprüngliche Sprache, damit sie mehr wie der Zielsprecher klingt, während die ursprüngliche Bedeutung erhalten bleibt.
Vocoder: Schliesslich konvertiert ein Vocoder die verarbeiteten Segmente zurück in Audio und erstellt die endgültige, konvertierte Sprache.
Vorteile von Urhythmic
Urhythmic bietet mehrere Vorteile gegenüber älteren Methoden:
Unabhängigkeit von gelabelten Daten: Urhythmic benötigt keinen Text oder gepaarte Aufnahmen, was es vielseitiger und einfacher macht, in verschiedenen Situationen anzuwenden.
Verbesserte Rhythmusmodellierung: Die Methode kann sowohl globale Sprechgeschwindigkeiten als auch detailliertere Rhythmusmuster darstellen, was es ihr ermöglicht, den einzigartigen Fluss der Sprache des Zielsprechers besser einzufangen.
Höhere Ausgabewqualität: Die Ergebnisse zeigen, dass Urhythmic zu natürlicher klingender Sprache mit besserer Klarheit führt, was es den Zuhörern erleichtert, zu verstehen.
Experimente und Ergebnisse
Um die Effektivität von Urhythmic zu bewerten, wurden mehrere Experimente durchgeführt:
Korrelation der Sprechgeschwindigkeiten: Forscher massen, wie nah die geschätzten Sprechgeschwindigkeiten den tatsächlichen Sprechgeschwindigkeiten entsprachen, die aus bekannten Daten abgeleitet wurden. Urhythmic zeigte starke Korrelationen und deutete darauf hin, dass es Sprechgeschwindigkeiten effektiv erfasst.
Rhythmusvergleich: Der Rhythmus der konvertierten Sprache wurde mit den Zielrhythmen analysiert. Urhythmic reduzierte erfolgreich die Unterschiede im Timing zwischen der konvertierten Sprache und der Zielstimme, was auf eine genauere Rhythmuskonversion hinweist.
Natürlichkeit und Verständlichkeit: Die konvertierte Sprache wurde auch daraufhin beurteilt, wie natürlich und verständlich sie war. Urhythmic schnitt in diesen Tests besser ab als andere Systeme und zeigte, dass es die Klarheit und die Leichtigkeit des Zuhörens ähnlich wie die ursprüngliche Sprache beibehalten kann.
Fazit
Urhythmic stellt einen bedeutenden Fortschritt in der Stimm- und Rhythmuskonversionstechnologie dar. Indem es sich auf den Rhythmus der Sprache konzentriert und die manuelle Dateneingabe überflüssig macht, ebnet es den Weg für natürlichere und ausdrucksvollere Stimmkonversionen. Während sich die Sprachtechnologie weiterhin entwickelt, werden Methoden wie Urhythmic eine entscheidende Rolle dabei spielen, maschinengenerierte Sprache menschlicher und realistischer klingen zu lassen.
Indem es nicht nur die Worte, sondern auch den Rhythmus dahinter genau nachahmt, hilft Urhythmic, die Lücke zwischen künstlichen und natürlichen Stimmen zu schliessen und macht Technologie zugänglicher und nachvollziehbarer.
Titel: Rhythm Modeling for Voice Conversion
Zusammenfassung: Voice conversion aims to transform source speech into a different target voice. However, typical voice conversion systems do not account for rhythm, which is an important factor in the perception of speaker identity. To bridge this gap, we introduce Urhythmic-an unsupervised method for rhythm conversion that does not require parallel data or text transcriptions. Using self-supervised representations, we first divide source audio into segments approximating sonorants, obstruents, and silences. Then we model rhythm by estimating speaking rate or the duration distribution of each segment type. Finally, we match the target speaking rate or rhythm by time-stretching the speech segments. Experiments show that Urhythmic outperforms existing unsupervised methods in terms of quality and prosody. Code and checkpoints: https://github.com/bshall/urhythmic. Audio demo page: https://ubisoft-laforge.github.io/speech/urhythmic.
Autoren: Benjamin van Niekerk, Marc-André Carbonneau, Herman Kamper
Letzte Aktualisierung: 2023-07-12 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2307.06040
Quell-PDF: https://arxiv.org/pdf/2307.06040
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.