Simple Science

Scienza all'avanguardia spiegata semplicemente

# Ingegneria elettrica e scienze dei sistemi# Calcolo e linguaggio# Suono# Elaborazione dell'audio e del parlato

Sviluppi nella sintesi vocale in svizzero tedesco

Nuovi metodi migliorano la sintesi vocale per il tedesco svizzero partendo da testi in tedesco standard.

― 5 leggere min


Rivoluzione nella sintesiRivoluzione nella sintesivocale in svizzerotedescopartire dal testo.generare audio in svizzero tedesco aIl nuovo modello è fantastico nel
Indice

Questo articolo parla di un nuovo modo per creare discorsi in Svizzero tedesco partendo da testo scritto. Gli autori hanno studiato quanto bene funzionano i diversi sistemi nel trasformare il testo in parlato svizzero tedesco. Hanno scoperto che un sistema, chiamato ViTs, ha funzionato meglio degli altri. Hanno anche inventato un modo nuovo per valutare quanto siano bravi questi sistemi di Sintesi vocale controllando se un modello addestrato potesse capire se un suono fosse parlato da un umano o generato da una macchina.

Svizzero Tedesco e Sintesi Vocale

Lo svizzero tedesco è abbastanza diverso dal tedesco standard a causa dei vari dialetti parlati in tutta la Svizzera. Circa il 60% delle persone in Svizzera parla svizzero tedesco, ma non c'è una forma scritta unica. Questo significa che creare un sistema per trasformare testo in discorso svizzero tedesco non è semplice.

Una delle sfide è che i diversi dialetti hanno la loro grammatica, vocabolario e suoni unici. Questo rende difficile per un sistema imparare a produrre il parlato svizzero tedesco in modo preciso. Mentre altre lingue hanno fatto molti progressi nella creazione di buoni sistemi di sintesi vocale, lo svizzero tedesco non ha ricevuto la stessa attenzione.

Tuttavia, negli ultimi anni, c'è stata una spinta per raccogliere dati audio di alta qualità per lo svizzero tedesco. Questo sforzo di raccolta dati ha aperto nuove possibilità per costruire sistemi migliori che possono convertire testo in tedesco standard in vari dialetti di svizzero tedesco.

Raccolta Dati

Per migliorare la sintesi vocale per lo svizzero tedesco, gli autori hanno usato tre diversi set di dati. Il primo si chiama SDS-200, che include 200 ore di registrazioni in svizzero tedesco da diversi dialetti, insieme alle loro traduzioni in tedesco standard. Il secondo set di dati è SwissDial, che ha circa 3 ore di audio di alta qualità per otto principali dialetti svizzeri tedeschi. L'ultimo set di dati è di SlowSoft, che si concentra sulle lingue minoritarie e contiene trascrizioni fonetiche per il dialetto grigionese.

Questi set di dati hanno permesso agli autori di testare quanto bene i diversi modelli possono convertire il testo in discorso svizzero tedesco. Gli autori si sono concentrati sulla creazione di un sistema che traduce il testo in tedesco standard in svizzero tedesco. Hanno anche addestrato un modello di apprendimento automatico usando il metodo VITS, che è un tipo di sintesi vocale end-to-end.

Il Modello VITS

Il modello VITS sta per Inferenza Variazionale con Apprendimento Antagonista per Sintesi Vocale End-to-End. Questo è un sistema che combina diverse tecniche per creare voce direttamente dal testo.

Gli autori hanno usato un approccio specifico con il modello VITS dove immettono il testo e il modello genera audio. Hanno anche scoperto che suddividere il testo in pezzi più piccoli, come caratteri invece di parole, ha aiutato a migliorare la qualità del parlato generato.

Per preparare i dati, gli autori si sono assicurati di rimuovere qualsiasi rumore di fondo dalle registrazioni audio. Hanno anche tagliato il silenzio all'inizio e alla fine di ogni registrazione per rendere l'output più naturale.

Sistema di Traduzione

Prima di trasformare il testo in discorso, gli autori hanno creato un sistema che traduce il testo in tedesco standard in svizzero tedesco. Hanno usato un modello chiamato T5, che è stato addestrato sul dataset SwissDial. Taggando i dialetti, si sono assicurati che il modello di traduzione potesse gestire le variazioni nello svizzero tedesco.

Valutazione della Qualità del Parlato

Valutare la qualità della sintesi vocale è importante ma può essere complesso. Gli autori hanno usato un mix di metodi di valutazione automatizzati e umani. Hanno misurato quanto il parlato sintetizzato si avvicinasse al parlato reale utilizzando diversi criteri, tra cui:

  • Distorsione Mel-Cepstral (MCD): Questo controlla quanto siano diversi due campioni vocali.
  • Errore Quadratico Medio della Log-F0 (RMSE): Questo guarda alle differenze di intonazione nel parlato.
  • Tasso di Errore dei Caratteri (CER) e Tasso di Errore delle Parole (WER): Questi misurano gli errori nel testo generato rispetto al testo corretto.

Gli autori hanno anche introdotto un nuovo metodo in cui un modello addestrato predice se i clip audio sono reali o generati da macchina. Questo ha aggiunto un ulteriore livello di valutazione al loro lavoro.

Risultati

I risultati del modello di traduzione T5 hanno mostrato potenzialità, con un buon punteggio che indica che il modello poteva tradurre efficacemente le frasi in tedesco standard nei dialetti svizzeri tedeschi. Gli autori hanno analizzato esempi e notato che mentre alcune traduzioni erano corrette, altre mostravano variazioni basate su scelte di scrittura personali o differenze dialettali.

Per il modello VITS, il dataset SDS-200 ha fornito i migliori risultati su determinate misure, ma il dataset SwissDial ha eccelso in altre. Ci sono state alcune sfide con il dataset SlowSoft a causa delle sue dimensioni più piccole, eppure ha comunque ottenuto buone prestazioni.

Per quanto riguarda la valutazione umana, gli autori hanno fatto ascoltare l'audio sintetizzato a delle persone che lo hanno valutato. L'audio del dataset SlowSoft ha ricevuto i punteggi più alti, dimostrando che un materiale di addestramento di qualità è fondamentale per generare un buon parlato.

Conclusione

In generale, questo lavoro dimostra che trasformare il testo in tedesco standard in discorso svizzero tedesco può essere fatto in modo efficace se si utilizzano dati di addestramento di alta qualità. I risultati hanno mostrato che il modello VITS può produrre audio di alta qualità in svizzero tedesco, superando a volte alcuni campioni di parlato reale provenienti da altri dataset.

Le scoperte suggeriscono che la combinazione di un buon sistema di traduzione e dati di qualità può portare a una sintesi vocale di successo per lo svizzero tedesco. Questo apre la porta a più ricerche e sviluppi nel campo della tecnologia vocale per lingue a bassa risorsa, dimostrando che il progresso è possibile con gli strumenti e i dati giusti.

Gli autori esprimono gratitudine per il supporto ricevuto per il loro progetto mirato a migliorare i sistemi di traduzione vocale per i dialetti svizzeri tedeschi a bassa risorsa.

Altro dagli autori

Articoli simili