Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Calcolo e linguaggio

Valutare le prestazioni di traduzione dei grandi modelli di linguaggio

Quest'articolo valuta le abilità di traduzione dei LLM in diverse lingue.

― 7 leggere min


LLM vs. TraduzioneLLM vs. TraduzioneTradizionalemodelli linguistici.Valutare le lacune di traduzione nei
Indice

I modelli di linguaggio grandi (LLM) sono strumenti avanzati che possono aiutare con vari compiti linguistici, incluso la traduzione automatica (MT). Tuttavia, non c'è stata abbastanza ricerca per valutare quanto bene questi modelli si comportino nella traduzione di lingue diverse, specialmente quelle meno comuni.

In questo articolo, presenteremo i risultati di esperimenti condotti su 204 lingue utilizzando un benchmark di MT chiamato FLORES-200. Vogliamo fare chiarezza su come questi modelli, in particolare ChatGPT, si comportano nella traduzione di lingue ad alta disponibilità di risorse (lingue con molti dati disponibili) rispetto a lingue a bassa disponibilità di risorse (lingue con meno dati).

Performance dei Grandi Modelli di Linguaggio

La ricerca ha mostrato che gli LLM hanno fatto progressi significativi nelle abilità di traduzione. Eppure, molte lingue, in particolare quelle a bassa disponibilità di risorse, non sono state testate a dovere. Questa mancanza di informazioni rende difficile per i parlanti di varie lingue sapere se possono fidarsi degli LLM per una traduzione accurata.

I nostri risultati suggeriscono che, mentre LLM come ChatGPT mostrano risultati promettenti per molte lingue ad alta disponibilità di risorse, falliscono per quelle a bassa disponibilità. Infatti, per l'84.1% delle lingue a bassa disponibilità che abbiamo esaminato, i modelli MT tradizionali hanno avuto prestazioni migliori di ChatGPT.

Importanza delle Risorse Linguistiche

La disponibilità di dati gioca un ruolo critico nell'efficacia di un modello linguistico. La nostra analisi mostra che la quantità di informazioni disponibili per una lingua è il fattore più significativo che influenza le abilità di traduzione di ChatGPT. Il modello ha difficoltà con le lingue a bassa disponibilità, in particolare quelle parlate in Africa.

Molte lingue nel mondo sono a bassa disponibilità di risorse, e i sistemi di MT attuali spesso non funzionano bene con esse. Alcuni sistemi commerciali, come Google Translate, supportano un numero limitato di lingue a bassa disponibilità, ma molte altre rimangono ampiamente ignorate nella tecnologia linguistica.

Con la crescente popolarità degli LLM e la loro accessibilità al pubblico generale, è fondamentale valutare le loro capacità di traduzione in varie lingue, non solo in quelle ben fornite.

Impostazione Sperimentale

Abbiamo condotto esperimenti utilizzando FLORES-200, che include una grande varietà di lingue. Ci siamo concentrati sui compiti di traduzione da inglese ad altre lingue (ENG X), analizzando quanto bene ChatGPT si comportasse rispetto ad altri sistemi come Google Translate e NLLB, un noto modello di MT open-source.

Per i nostri test, abbiamo valutato le prestazioni di ChatGPT utilizzando due tipi di richieste: zero-shot (senza esempi forniti) e five-shot (cinque esempi forniti). Anche se alcuni studi hanno mostrato che fornire esempi può migliorare leggermente la qualità della traduzione, è essenziale considerare che le richieste zero-shot sono generalmente più semplici e meno costose per gli utenti.

Risultati degli Esperimenti

Modelli Tradizionali vs. LLM

In generale, i modelli MT tradizionali superano gli LLM. Google Translate ha dominato le classifiche di performance, seguito da NLLB, GPT-4 e infine ChatGPT. Abbiamo scoperto che, in media, Google si è comportato meglio degli altri sistemi nella traduzione delle lingue.

Tra le lingue che abbiamo testato, GPT-4 ha superato NLLB per cinque lingue e ha anche battuto Google Translate in un caso specifico. Tuttavia, per la maggior parte delle lingue, i sistemi tradizionali mantenevano ancora il vantaggio.

Lingue a Bassa Disponibilità di Risorse

La nostra ricerca ha identificato una chiara tendenza: le prestazioni di ChatGPT calano significativamente per le lingue a bassa disponibilità di risorse. Ha ottenuto risultati migliori con le lingue ad alta disponibilità, ma ha avuto difficoltà con quelle a bassa disponibilità. Solo il 6% delle lingue a bassa disponibilità esaminate aveva ChatGPT che le traduceva efficacemente rispetto alle sue prestazioni su lingue ad alta disponibilità.

Questa disparità solleva domande su quanto bene LLM come ChatGPT possano servire le comunità che parlano lingue con meno risorse disponibili.

Vantaggi delle Richieste Few-Shot

Abbiamo esaminato se fornire esempi (few-shot prompting) producesse una differenza notevole nelle prestazioni. In generale, i risultati hanno indicato che i metodi few-shot migliorano la traduzione solo marginalmente rispetto ai metodi zero-shot. Per alcune lingue, fornire esempi non ha affatto migliorato la qualità della traduzione. Infatti, in sei casi, la traduzione zero-shot ha prodotto risultati migliori.

I nostri miglioramenti medi dai prompt five-shot rispetto ai zero-shot sono stati minimi, suggerendo che in molti casi gli utenti potrebbero non ottenere abbastanza vantaggi per giustificare il maggiore sforzo o costo associato all'utilizzo di prompt few-shot.

Caratteristiche delle Lingue

Per comprendere meglio le variazioni nella qualità della traduzione, abbiamo analizzato le caratteristiche delle lingue nel nostro studio. Abbiamo preso in considerazione aspetti come il numero di pagine Wikipedia disponibili per ogni lingua, la dimensione delle sue risorse testuali bilingue e la composizione dei suoi caratteri.

Dalla nostra analisi, abbiamo scoperto che il numero di pagine Wikipedia è un forte indicatore del livello di risorse di una lingua. Altre caratteristiche, come il sistema di scrittura, hanno anche giocato un ruolo, ma non in modo altrettanto significativo.

Per le lingue ad alta disponibilità di risorse, alcune caratteristiche portavano a una migliore performance di traduzione. D'altra parte, le lingue a bassa disponibilità tendevano a fare fatica, in particolare le lingue delle famiglie africane. Questo suggerisce che gli LLM potrebbero essere meno efficaci nell'affrontare certe famiglie linguistiche.

Problemi con la Qualità dell'Output

Gli LLM spesso hanno difficoltà a identificare la lingua corretta, il che può influire significativamente sulla qualità della traduzione. Il nostro studio ha trovato che ChatGPT traduceva nella lingua di destinazione corretta solo il 72% delle volte utilizzando prompt zero-shot. Questo tasso è migliorato con i prompt five-shot, ma non ha comunque raggiunto l'accuratezza dei modelli MT tradizionali.

Il fatto che gli LLM traducano frequentemente nella lingua sbagliata rappresenta una preoccupazione significativa per gli utenti che dipendono da traduzioni precise per comunicare.

Confronto dei Costi dei Sistemi di MT

Quando si considera il miglior sistema di traduzione, è cruciale analizzare i costi insieme alle prestazioni. I nostri risultati hanno rivelato che GPT-4, nonostante sia più capace in alcuni casi, è significativamente più costoso rispetto a ChatGPT.

In generale, l'utilizzo di prompt few-shot per gli LLM comporta costi aggiuntivi, poiché gli utenti pagano sia per i token di input che per quelli di output. Al contrario, Google Translate offre utilizzo gratuito fino a un certo limite, rendendolo una scelta allettante per molti utenti.

NLLB è emerso come l'opzione a minor costo, fornendo un buon equilibrio tra costo e prestazioni. I nostri costi stimati per tradurre il benchmark FLORES-200 hanno rivelato che NLLB potrebbe essere una scelta pratica per gli utenti che necessitano di traduzioni efficaci senza spendere troppo.

Implicazioni per gli Utenti

I risultati del nostro studio sollevano considerazioni importanti per gli utenti, specialmente per quelli che parlano lingue a bassa disponibilità di risorse. Anche se gli LLM come ChatGPT mostrano potenziale nella traduzione di alcune lingue ad alta disponibilità, rimangono comunque indietro rispetto ai modelli MT tradizionali per quanto riguarda le lingue a bassa disponibilità.

Gli utenti che hanno bisogno di traduzioni affidabili per le loro lingue devono valutare attentamente le capacità dei diversi sistemi. Coloro che si affidano alle traduzioni per comunicazioni personali o professionali potrebbero trovare i sistemi MT tradizionali una scelta più affidabile, soprattutto quando si tratta di tradurre lingue a bassa disponibilità.

Conclusione

L'ascesa di grandi modelli di linguaggio come ChatGPT ha portato nuove possibilità nella traduzione automatica. Tuttavia, la nostra analisi evidenzia significative lacune nelle prestazioni tra LLM e sistemi MT tradizionali, in particolare per quanto riguarda le lingue a bassa disponibilità.

Mentre gli LLM hanno fatto progressi nella traduzione efficace delle lingue ad alta disponibilità, devono ancora fare molta strada per servire i parlanti di lingue meno comuni. Comprendere le limitazioni e i punti di forza di questi sistemi permetterà agli utenti di prendere decisioni informate quando cercano servizi di traduzione.

Le ricerche future dovrebbero continuare a esaminare le prestazioni degli LLM su un'ampia gamma di lingue, comprese quelle non adeguatamente rappresentate negli studi attuali. Inoltre, mentre la tecnologia linguistica evolve, sarà essenziale affrontare i problemi persistenti di bias e limitazioni riguardanti le lingue a bassa disponibilità per garantire inclusività nei servizi di traduzione.

Fonte originale

Titolo: ChatGPT MT: Competitive for High- (but not Low-) Resource Languages

Estratto: Large language models (LLMs) implicitly learn to perform a range of language tasks, including machine translation (MT). Previous studies explore aspects of LLMs' MT capabilities. However, there exist a wide variety of languages for which recent LLM MT performance has never before been evaluated. Without published experimental evidence on the matter, it is difficult for speakers of the world's diverse languages to know how and whether they can use LLMs for their languages. We present the first experimental evidence for an expansive set of 204 languages, along with MT cost analysis, using the FLORES-200 benchmark. Trends reveal that GPT models approach or exceed traditional MT model performance for some high-resource languages (HRLs) but consistently lag for low-resource languages (LRLs), under-performing traditional MT for 84.1% of languages we covered. Our analysis reveals that a language's resource level is the most important feature in determining ChatGPT's relative ability to translate it, and suggests that ChatGPT is especially disadvantaged for LRLs and African languages.

Autori: Nathaniel R. Robinson, Perez Ogayo, David R. Mortensen, Graham Neubig

Ultimo aggiornamento: 2023-09-14 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2309.07423

Fonte PDF: https://arxiv.org/pdf/2309.07423

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili