Surmonter les barrières linguistiques en PNL
S'attaquer aux défis des langues à faible ressources dans le traitement du langage naturel.
Surangika Ranathungaa, Shravan Nayak, Shih-Ting Cindy Huang, Yanke Mao, Tong Su, Yun-Hsiang Ray Chan, Songchen Yuan, Anthony Rinaldi, Annie En-Shiun Lee
― 2 min lire
Table des matières
Le traitement du langage naturel (NLP), c'est enseigner aux ordinateurs comment comprendre les langues humaines. C'est un peu comme essayer de faire comprendre à ton chat que tu veux qu'il descende du clavier. Mais certaines langues ont moins de données disponibles pour entraîner ces modèles informatiques. Ces langues sont appelées des Langues à faibles ressources (LRLs). Quand il s'agit de traduire entre les langues, avoir assez d'exemples est super important. Alors, que faire quand il n'y a pas assez d'exemples ?
Le défi des LRLs
Imagine essayer d'apprendre à quelqu'un à jouer aux échecs, mais en ne lui donnant que quelques pièces au lieu d'un set complet. C'est un peu ce que ressentent les modèles NLP avec les LRLs. Ils galèrent à réaliser des tâches comme la traduction quand ils n'ont pas assez de matériel pour apprendre. Ça crée le besoin de meilleures méthodes de traduction en utilisant le peu de données qu'il y a.
Données auxiliaires
Utiliser desUne façon efficace de régler le manque de données, c'est d'utiliser des données parallèles provenant de domaines ou de langues liées. Pense à ça comme partager des recettes entre amis. Si tu as une recette avec des pommes de terre, mais que tu veux faire un plat avec des patates douces, c'est utile de regarder comment ton ami a fait son plat. De la même manière, on peut entraîner des modèles de traduction en utilisant des exemples provenant de langues ou de sujets qui sont un peu liés.
Ajustement fin vs. Pré-entraînement
Quand on construit des systèmes de traduction, il y a généralement deux manières principales d'utiliser ces données auxiliaires : l'ajustement fin et le pré-entraînement.
-
L'ajustement fin, c'est comme donner à ton ami quelques conseils sur sa cuisine basés sur ton expérience. Tu as déjà une compréhension de base, et maintenant tu dois juste l'ajuster un peu.
-
Le pré-entraînement, c'est un peu comme retourner à l'école de cuisine avant de tenter de faire ce plat de patates douces. C'est partir de zéro.
Titre: Exploiting Domain-Specific Parallel Data on Multilingual Language Models for Low-resource Language Translation
Résumé: Neural Machine Translation (NMT) systems built on multilingual sequence-to-sequence Language Models (msLMs) fail to deliver expected results when the amount of parallel data for a language, as well as the language's representation in the model are limited. This restricts the capabilities of domain-specific NMT systems for low-resource languages (LRLs). As a solution, parallel data from auxiliary domains can be used either to fine-tune or to further pre-train the msLM. We present an evaluation of the effectiveness of these two techniques in the context of domain-specific LRL-NMT. We also explore the impact of domain divergence on NMT model performance. We recommend several strategies for utilizing auxiliary parallel data in building domain-specific NMT models for LRLs.
Auteurs: Surangika Ranathungaa, Shravan Nayak, Shih-Ting Cindy Huang, Yanke Mao, Tong Su, Yun-Hsiang Ray Chan, Songchen Yuan, Anthony Rinaldi, Annie En-Shiun Lee
Dernière mise à jour: Dec 27, 2024
Langue: English
Source URL: https://arxiv.org/abs/2412.19522
Source PDF: https://arxiv.org/pdf/2412.19522
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://www.latex-project.org/lppl.txt
- https://www.elsevier.com/locate/latex
- https://ctan.org/pkg/elsarticle
- https://support.stmdocs.in/wiki/index.php?title=Model-wise_bibliographic_style_files
- https://support.stmdocs.in
- https://acl-org.github.io/ACLPUB/formatting.html
- https://2023.eacl.org/calls/papers/
- https://t.ly/MLrhd
- https://en.wikibooks.org/wiki/LaTeX/Document_Structure#Sectioning_commands
- https://en.wikibooks.org/wiki/LaTeX/Mathematics
- https://en.wikibooks.org/wiki/LaTeX/Advanced_Mathematics
- https://en.wikibooks.org/wiki/LaTeX/Tables
- https://en.wikibooks.org/wiki/LaTeX/Tables#The_tabular_environment
- https://en.wikibooks.org/wiki/LaTeX/Floats,_Figures_and_Captions
- https://en.wikibooks.org/wiki/LaTeX/Importing_Graphics#Importing_external_graphics
- https://www.pmindia.gov.in/en/
- https://www.wordproject.org/bibles/si/index.htm
- https://ebible.org/download.php
- https://github.com/mjpost/sacreBLEU
- https://www.nltk.org/
- https://en.wikibooks.org/wiki/LaTeX/Bibliography_Management