Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Calcolo e linguaggio# Apprendimento automatico

HK-LegiCoST: Colmare il divario tra lingua parlata e scritta del Cantonese

Un nuovo corpus per tradurre audio cantonese in testo inglese.

― 5 leggere min


Avanzamento nellaAvanzamento nellatraduzione cantoneseaudio dal cantonese all'inglese.Nuova risorsa migliora la traduzione
Indice

Negli ultimi anni, c'è stata un'influenza crescente nella traduzione del linguaggio parlato in testo scritto, soprattutto per applicazioni come i sottotitoli automatici nei video e l'apprendimento delle lingue straniere. Anche se la maggior parte della ricerca si è concentrata sulle lingue ampiamente parlate, manca uno studio sulle lingue che sono per lo più parlate o dove la forma parlata è abbastanza diversa dalla forma scritta. Il Cantonese è una di queste lingue, dove la versione scritta assomiglia spesso più al mandarino che a come la gente parla realmente.

Per affrontare questo problema, abbiamo sviluppato HK-LegiCoST, una nuova raccolta di traduzioni dal cantonese all'inglese. Questa raccolta include oltre 600 ore di Registrazioni audio in cantonese, insieme a Trascrizioni scritte in cinese standard e traduzioni in inglese. L'audio consiste in conversazioni e discorsi dal Consiglio Legislativo di Hong Kong, concentrandosi su argomenti legati alla politica governativa, discussioni e dibattiti.

Sfide nella Creazione del Corpus

Creare questa raccolta comporta alcune sfide notevoli. Uno dei principali problemi è allineare l'audio parlato con la sua trascrizione scritta a livello di frase. A causa delle differenze nel modo in cui il cantonese è parlato rispetto a come è scritto in cinese standard, le trascrizioni non corrispondono esattamente, complicando il processo.

Per creare questa risorsa, dovevamo prima raccogliere dati da vari incontri tenuti dal Consiglio Legislativo di Hong Kong. Gli incontri coprono un'ampia gamma di argomenti legati alla governance e alla politica. Il passo successivo consisteva nel convertire le registrazioni video in file audio e poi estrarre il testo dalle relative trascrizioni.

Raccolta e Elaborazione dei Dati

I dati grezzi sono stati raccolti da registrazioni video delle riunioni del consiglio dal 2016 al 2021. Le riunioni affrontavano varie questioni come la riforma educativa, case, sanità e politiche economiche. Il primo compito è stato convertire questi video in file audio, seguito da un processo chiamato segmentazione, che scompone l'audio in parti più piccole e gestibili in base agli argomenti discussi.

Successivamente, dovevamo ripulire le trascrizioni delle registrazioni. Questo implicava il filtraggio delle informazioni irrilevanti e la suddivisione del testo in segmenti più piccoli corrispondenti ai clip audio. Abbiamo organizzato il testo in base a chi stava parlando e lo abbiamo abbinato all'audio per facilitare l'allineamento.

Allineamento di Testo e Audio

Uno dei passaggi cruciali nella creazione della nostra risorsa è allineare il testo scritto con l'audio. Questo richiede un metodo per abbinare le frasi nell'audio con quelle nelle trascrizioni. Per fare ciò, abbiamo utilizzato una tecnica che prevede la creazione di embeddings di frase, che sono rappresentazioni di frasi in termini matematici. Confrontando questi embeddings, possiamo trovare frasi simili sia nella forma parlata che in quella scritta.

Abbiamo anche addestrato un modello di Riconoscimento Vocale Automatico (ASR) specificamente per il cantonese. Questo modello aiuta a convertire l'audio parlato di nuovo in testo scritto, facilitando l'allineamento con le trascrizioni. Tuttavia, poiché le trascrizioni non corrispondono esattamente a ciò che viene detto, questo aggiunge un ulteriore livello di difficoltà.

Allineamento Iniziale e a Livello di Frase

Per iniziare il processo di allineamento, abbiamo effettuato un allineamento iniziale e grossolano che abbinava segmenti audio a sezioni di testo. Utilizzando strumenti di rilevamento dell'attività vocale, siamo riusciti a isolare le parti dell'audio che contenevano discorsi. Dopo, abbiamo sviluppato un metodo più preciso per allineare le frasi.

Per segmenti audio più lunghi, abbiamo trovato difficile decodificare l'audio con precisione. Per gestire questo, abbiamo creato un algoritmo di allineamento flessibile che scompone i segmenti lunghi in parti più piccole. Questo algoritmo filtra anche qualsiasi testo che non corrisponde alla voce, migliorando l'accuratezza dei nostri allineamenti.

Caratteristiche Linguistiche del Corpus

Analizzando i dati, abbiamo identificato diverse caratteristiche interessanti della lingua cantonese come rappresentata nella nostra raccolta. Un fenomeno significativo è il riordino di parole e frasi che avviene quando il cantonese parlato viene trasformato in cinese standard. Ad esempio, una frase in cantonese può essere riordinata quando è scritta in cinese standard, risultando in un ordine delle parole diverso.

Un'altra caratteristica che abbiamo notato è la presenza di lunghe dipendenze contestuali, il che significa che il significato di alcune parole o frasi può dipendere dal testo precedente in un documento. Questo è comune in contesti formali come le riunioni del consiglio, dove le discussioni precedenti possono influenzare le affermazioni successive.

Esperimenti di Base

Per testare il nostro corpus, abbiamo stabilito alcuni esperimenti di base nel riconoscimento vocale automatico e nella Traduzione automatica. Utilizzando la nostra raccolta, abbiamo addestrato modelli per eseguire compiti di riconoscimento vocale e tradurre il linguaggio parlato in inglese. Abbiamo ottenuto risultati competitivi con un modello che abbiamo addestrato solo con i nostri dati.

Abbiamo anche confrontato i nostri sforzi di traduzione automatica con sistemi esistenti. I nostri modelli hanno performato meglio nella traduzione di entità nominate, che spesso sono difficili da gestire correttamente per i sistemi di traduzione.

Conclusione

Il corpus HK-LegiCoST è una risorsa importante per lo studio del riconoscimento vocale e della traduzione per il cantonese. Consiste in una vasta quantità di dati audio e testuali che catturano le caratteristiche linguistiche della lingua cantonese, insieme alle sfide uniche presentate dalle differenze tra le forme parlate e scritte.

Condividendo questa risorsa, miriamo a contribuire alla comprensione di come tradurre e riconoscere meglio le lingue parlate, in particolare quelle come il cantonese che hanno le proprie complessità. Questo lavoro è un passo verso l'avanzamento del campo della traduzione vocale e il miglioramento della tecnologia disponibile per le lingue che spesso vengono trascurate.

Inoltre, siamo in procinto di rendere questo corpus pubblicamente disponibile, poiché vogliamo che altri nella comunità di ricerca possano beneficiare delle nostre scoperte e contribuire ai futuri progressi in quest'area. Apprezziamo il supporto e le risorse fornite dal Consiglio Legislativo della Regione Amministrativa Speciale di Hong Kong, che hanno reso possibile questo progetto.

Fonte originale

Titolo: HK-LegiCoST: Leveraging Non-Verbatim Transcripts for Speech Translation

Estratto: We introduce HK-LegiCoST, a new three-way parallel corpus of Cantonese-English translations, containing 600+ hours of Cantonese audio, its standard traditional Chinese transcript, and English translation, segmented and aligned at the sentence level. We describe the notable challenges in corpus preparation: segmentation, alignment of long audio recordings, and sentence-level alignment with non-verbatim transcripts. Such transcripts make the corpus suitable for speech translation research when there are significant differences between the spoken and written forms of the source language. Due to its large size, we are able to demonstrate competitive speech translation baselines on HK-LegiCoST and extend them to promising cross-corpus results on the FLEURS Cantonese subset. These results deliver insights into speech recognition and translation research in languages for which non-verbatim or ``noisy'' transcription is common due to various factors, including vernacular and dialectal speech.

Autori: Cihan Xiao, Henry Li Xinyuan, Jinyi Yang, Dongji Gao, Matthew Wiesner, Kevin Duh, Sanjeev Khudanpur

Ultimo aggiornamento: 2023-06-19 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2306.11252

Fonte PDF: https://arxiv.org/pdf/2306.11252

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili