Simple Science

Scienza all'avanguardia spiegata semplicemente

# Ingegneria elettrica e scienze dei sistemi# Calcolo e linguaggio# Suono# Elaborazione dell'audio e del parlato

Sviluppi nella tecnologia di sintesi vocale araba

Il database ClArTTS migliora la sintesi vocale araba con registrazioni di qualità.

― 6 leggere min


Svolta nel TTS araboSvolta nel TTS araboarabo.ClArTTS migliora la sintesi vocale in
Indice

La tecnologia Text-to-speech (TTS) sta migliorando e riesce a creare voci generate da computer che suonano naturali e facili da capire. Questo è soprattutto grazie a modelli avanzati che imparano da molte registrazioni di persone che parlano. Però, in arabo, c'è una mancanza di registrazioni di alta qualità per creare questi sistemi. La maggior parte delle banche dati vocali arabe esistenti ha tanti relatori o sono di bassa qualità, il che ne limita l'utilizzo per il TTS. Per risolvere questo problema, è stata creata una nuova banca dati chiamata ClArTTS, che si concentra sull'arabo classico ed è progettata per sviluppare sistemi TTS migliori.

La Necessità di Dati di Qualità

Per costruire buoni sistemi TTS, è fondamentale avere audio pulito e ben registrato da un solo relatore. Avere tanti relatori o condizioni di registrazione variabili può complicare il processo e rendere la voce generata meno chiara. Questo è diverso dai sistemi di Riconoscimento Vocale Automatico (ASR), che beneficiano di avere più relatori per migliorare le prestazioni. I sistemi TTS, invece, richiedono coerenza nella voce utilizzata per produrre il parlato.

Le banche dati vocali arabe esistenti spesso non sono all'altezza perché sono o troppo piccole o non ben progettate per il TTS. L'Arabic Speech Corpus (ASC), una delle poche opzioni disponibili pubblicamente, ha solo circa 3,4 ore di parlato, che non sono sufficienti per sviluppare sistemi TTS di alta qualità. In risposta a questo, è stato creato il corpus ClArTTS per fornire un dataset più ampio, adattato per applicazioni TTS.

Che Cos'è ClArTTS?

ClArTTS è un corpus di parlato fatto per i sistemi TTS in arabo classico. Ha circa 12 ore di audio registrato da un solo relatore maschile. Le registrazioni provengono da un audiolibro disponibile nel progetto LibriVox. L'audio è stato elaborato con attenzione, segmentato in pezzi più piccoli e trascritto a mano. Ogni pezzo di audio è stato anche annotato per garantire chiarezza e precisione.

L'obiettivo di ClArTTS è supportare la ricerca e lo sviluppo nel TTS arabo. Fornendo un dataset di alta qualità, si spera di colmare il gap nella tecnologia TTS per la lingua araba.

Come È Stato Creato Il Corpus?

La creazione del corpus ClArTTS ha coinvolto diversi passaggi per garantire qualità e coerenza:

  1. Selezione Audio: È stato scelto un audiolibro narrato da un solo relatore. Il libro selezionato si intitola "Kitab Adab al-Dunya w'al-Din."

  2. Elaborazione Audio: L'audiolibro originale è stato diviso in segmenti più piccoli. Questi segmenti sono stati analizzati e contrassegnati per le pause e i confini del parlato usando strumenti software.

  3. Trascrizione: L'audio è stato trascritto da un team di tre relatori arabi per garantire che il testo riflettesse accuratamente ciò che è stato detto. Le trascrizioni includevano caratteri speciali per indicare chiaramente la pronuncia.

  4. Validazione: Le trascrizioni sono state controllate più volte da diversi annotatori per correggere eventuali errori e garantire alta qualità.

  5. Compilazione Finale: Dopo aver completato le annotazioni, i segmenti audio sono stati organizzati in un corpus finale per l'uso nei sistemi TTS.

Confronto con i Corpora Esistenti

ClArTTS si distingue rispetto ad altri corpora vocali arabi disponibili. È più grande e contiene contenuti più diversi, il che aiuta a creare un TTS che suona più naturale. Anche se altre banche dati come l'Arabic Speech Corpus (ASC) e il Balanced Arabic Corpus (BAC) hanno i loro punti di forza, non offrono la quantità e la qualità di dati necessari per addestrare sistemi TTS avanzati.

L'ASC si concentra su una copertura fonetica massima, ma è limitato nel numero totale di ore di parlato registrato. ClArTTS è più ampio e copre una gamma più ampia di schemi e suoni vocali, cosa cruciale per sviluppare un Sistema TTs affidabile.

Sviluppo del Sistema TTS

Usando il corpus ClArTTS, sono stati sviluppati due sistemi TTS: Grad-TTS e Glow-TTS. Questi sistemi sono progettati per generare parlato da input testuali in modo efficiente. Le prestazioni di questi sistemi sono state valutate per capire quanto bene possono produrre un parlato chiaro e naturale.

Per sintetizzare il parlato, è stato utilizzato un vocoder specializzato per convertire le caratteristiche audio generate in vere onde sonore. Questo processo è vitale per assicurarsi che la voce sintetizzata assomigli da vicino al parlato umano.

Metodi di Valutazione

Per misurare l'efficacia dei sistemi TTS sviluppati con ClArTTS, sono state condotte due tipologie di valutazioni:

  1. Valutazione Soggettiva: Un gruppo di ascoltatori ha valutato la qualità del parlato sintetizzato. Hanno considerato aspetti come chiarezza, naturalezza e qualità complessiva. Questa valutazione aiuta a capire come le persone reali percepiscono il parlato sintetizzato.

  2. Valutazione Obiettiva: Sono state utilizzate metriche automatiche per valutare vari aspetti della qualità audio, come quanto precisamente il tono corrispondesse al parlato originale e quanto disturbo ci fosse nel segnale audio. Queste metriche forniscono una misura più scientifica della qualità del parlato sintetizzato.

Risultati e Scoperte

Le valutazioni hanno mostrato che i sistemi TTS addestrati con il corpus ClArTTS hanno funzionato meglio rispetto a quelli che utilizzano altre banche dati vocali arabe. Il parlato sintetizzato da ClArTTS ha ricevuto valutazioni più alte per chiarezza e naturalezza. I risultati suggeriscono che l'uso di un dataset più ampio e coerente porta a miglioramenti nella qualità del TTS.

Le voci sintetizzate utilizzando il corpus ClArTTS hanno anche mantenuto meglio le caratteristiche uniche della voce del relatore rispetto a quelle addestrate su altri dataset. Questo evidenzia l'importanza di avere registrazioni di alta qualità da un singolo relatore per sviluppare sistemi TTS efficaci.

Conclusione

Il corpus ClArTTS rappresenta un passo significativo avanti nella tecnologia TTS araba. Fornendo un dataset di alta qualità e ampio di parlato in arabo classico, mira a migliorare lo sviluppo di sistemi TTS che suonano più naturali e sono meglio compresi dagli ascoltatori.

Il lavoro in corso con il corpus ClArTTS sottolinea la necessità di risorse migliori nella Sintesi vocale araba. Man mano che la tecnologia TTS continua a progredire, la disponibilità di grandi e ben annotate banche dati vocali diventerà sempre più essenziale.

In futuro, ci sono piani di utilizzare il corpus ClArTTS per applicazioni ancora più avanzate, come l'adattamento di diverse voci e stili per vari usi. Questa espansione potrebbe portare a una ricca gamma di strumenti per la sintesi vocale che beneficiano molti settori, dall'istruzione all'intrattenimento.

Condividendo il corpus ClArTTS con la comunità di ricerca, si spera che altri possano costruire su questo lavoro e migliorare ulteriormente la tecnologia TTS araba, aiutando a colmare il gap nelle risorse linguistiche disponibili per i parlanti arabi.

Fonte originale

Titolo: ClArTTS: An Open-Source Classical Arabic Text-to-Speech Corpus

Estratto: At present, Text-to-speech (TTS) systems that are trained with high-quality transcribed speech data using end-to-end neural models can generate speech that is intelligible, natural, and closely resembles human speech. These models are trained with relatively large single-speaker professionally recorded audio, typically extracted from audiobooks. Meanwhile, due to the scarcity of freely available speech corpora of this kind, a larger gap exists in Arabic TTS research and development. Most of the existing freely available Arabic speech corpora are not suitable for TTS training as they contain multi-speaker casual speech with variations in recording conditions and quality, whereas the corpus curated for speech synthesis are generally small in size and not suitable for training state-of-the-art end-to-end models. In a move towards filling this gap in resources, we present a speech corpus for Classical Arabic Text-to-Speech (ClArTTS) to support the development of end-to-end TTS systems for Arabic. The speech is extracted from a LibriVox audiobook, which is then processed, segmented, and manually transcribed and annotated. The final ClArTTS corpus contains about 12 hours of speech from a single male speaker sampled at 40100 kHz. In this paper, we describe the process of corpus creation and provide details of corpus statistics and a comparison with existing resources. Furthermore, we develop two TTS systems based on Grad-TTS and Glow-TTS and illustrate the performance of the resulting systems via subjective and objective evaluations. The corpus will be made publicly available at www.clartts.com for research purposes, along with the baseline TTS systems demo.

Autori: Ajinkya Kulkarni, Atharva Kulkarni, Sara Abedalmonem Mohammad Shatnawi, Hanan Aldarmaki

Ultimo aggiornamento: 2023-02-28 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2303.00069

Fonte PDF: https://arxiv.org/pdf/2303.00069

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili