Sci Simple

New Science Research Articles Everyday

# Informatica # Calcolo e linguaggio

Superare le barriere linguistiche nell'NLP

Affrontare le sfide delle lingue a basso risorse nel processamento del linguaggio naturale.

Surangika Ranathungaa, Shravan Nayak, Shih-Ting Cindy Huang, Yanke Mao, Tong Su, Yun-Hsiang Ray Chan, Songchen Yuan, Anthony Rinaldi, Annie En-Shiun Lee

― 2 leggere min


Conquistare le lacune Conquistare le lacune linguistiche nell'NLP per una traduzione migliore. Affrontare le lingue a bassa risorsa
Indice

Il Natural Language Processing (NLP) riguarda l'insegnare ai computer come capire le lingue umane. È come cercare di far capire al tuo gatto che vuoi che scenda dalla tastiera. Alcune lingue, però, hanno meno dati disponibili per insegnare a questi modelli informatici. Queste lingue si chiamano lingue a basse risorse (LRLs). Quando si tratta di tradurre tra lingue, avere abbastanza esempi è fondamentale. Quindi, cosa facciamo quando non ci sono abbastanza esempi?

La Sfida delle LRLs

Immagina di cercare di insegnare a qualcuno a giocare a scacchi ma fornendo solo alcuni pezzi invece del set completo. È così che si sentono i modelli NLP che si occupano delle LRLs. Fanno fatica a svolgere compiti come la Traduzione quando non hanno abbastanza materiale da cui imparare. Questo porta alla necessità di metodi migliori di traduzione usando i pochi dati disponibili.

Usare Dati ausiliari

Un modo efficace per affrontare la mancanza di dati è usare dati paralleli da domini o lingue correlate. Pensala come condividere ricette tra amici. Se hai una ricetta che usa patate, ma vuoi preparare un piatto con patate dolci, è utile vedere come il tuo amico ha fatto il suo piatto. Nello stesso modo, possiamo allenare modelli di traduzione usando esempi di lingue o argomenti che sono in qualche modo correlati.

Fine-tuning vs. Pre-training

Quando si costruiscono sistemi di traduzione, ci sono generalmente due modi principali per utilizzare questi dati ausiliari: fine-tuning e pre-training.

  • Fine-tuning è come dare al tuo amico alcuni suggerimenti sulla sua cucina basati sulla tua esperienza. Hai già una comprensione di base e ora devi solo aggiustare un po' le cose.

  • Pre-training è più simile a tornare a scuola di cucina prima di provare a fare quel piatto di patate dolci. Si tratta di partire da zero.

Fonte originale

Titolo: Exploiting Domain-Specific Parallel Data on Multilingual Language Models for Low-resource Language Translation

Estratto: Neural Machine Translation (NMT) systems built on multilingual sequence-to-sequence Language Models (msLMs) fail to deliver expected results when the amount of parallel data for a language, as well as the language's representation in the model are limited. This restricts the capabilities of domain-specific NMT systems for low-resource languages (LRLs). As a solution, parallel data from auxiliary domains can be used either to fine-tune or to further pre-train the msLM. We present an evaluation of the effectiveness of these two techniques in the context of domain-specific LRL-NMT. We also explore the impact of domain divergence on NMT model performance. We recommend several strategies for utilizing auxiliary parallel data in building domain-specific NMT models for LRLs.

Autori: Surangika Ranathungaa, Shravan Nayak, Shih-Ting Cindy Huang, Yanke Mao, Tong Su, Yun-Hsiang Ray Chan, Songchen Yuan, Anthony Rinaldi, Annie En-Shiun Lee

Ultimo aggiornamento: 2024-12-27 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2412.19522

Fonte PDF: https://arxiv.org/pdf/2412.19522

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Articoli simili