Améliorer les modèles de langue avec des données de traduction synthétiques
La recherche explore l'utilisation de la traduction pour améliorer les performances des modèles de langue pour les langues à faibles ressources.
― 10 min lire
Table des matières
- Le défi de la rareté des données linguistiques
- Utiliser le "translationese" pour le modélisation linguistique
- Création du jeu de données IndicMonoDoc
- Le processus de génération de données synthétiques
- Comparaison des performances des modèles de langage
- Importance de la qualité des données synthétiques
- Combler le fossé entre les langues
- Directions futures
- Considérations éthiques
- Conclusion
- Source originale
- Liens de référence
Ces dernières années, il y a eu un grand intérêt pour la création de programmes informatiques intelligents capables de comprendre et de produire le langage humain. Ces programmes sont appelés modèles de langage. Ils apprennent à partir de vastes quantités de textes écrits pour effectuer diverses tâches, comme traduire des langues, répondre à des questions et générer du texte. Cependant, un grand défi est que beaucoup de langues, surtout celles qui sont moins parlées, n'ont pas assez de matériel écrit disponible pour entraîner ces modèles efficacement.
Pour résoudre ce problème, les chercheurs ont commencé à examiner l'utilisation de Données synthétiques, qui sont des données générées par des machines plutôt que collectées à partir de sources naturelles. Dans ce contexte, un type spécifique de données synthétiques appelé "Translationese" est exploré. Le "translationese" fait référence à du texte qui a été traduit d'une langue à une autre. Ce texte conserve souvent certaines caractéristiques de la langue source, ce qui le rend différent du texte écrit à l'origine dans la langue cible.
Cet article discute d'une méthode qui consiste à créer et à utiliser le "translationese" pour améliorer la performance des modèles de langage, en particulier pour les langues qui disposent de peu de ressources.
Le défi de la rareté des données linguistiques
Les modèles de langage fonctionnent très bien pour les langues avec beaucoup de données, comme l'anglais. Cependant, beaucoup d'autres langues sont sous-représentées dans les textes disponibles. Par exemple, la collecte de données pour certains modèles multilingues se concentre souvent sur quelques grandes langues, laissant d'autres avec peu ou pas de représentation. Ce déséquilibre entraîne de mauvaises performances pour les langues moins couramment parlées, ce qui limite leur utilité dans des applications concrètes.
Pour améliorer les performances entre les langues, les chercheurs ont commencé à explorer les données synthétiques comme solution. En générant du texte par traduction, il est possible de créer des ensembles de données plus grands, même pour les langues avec moins de matériel disponible. Cette approche permet aux modèles de langage d'apprendre à partir d'un plus large éventail d'exemples, les aidant à mieux comprendre et générer du texte dans ces langues.
Utiliser le "translationese" pour le modélisation linguistique
Le "translationese" peut être un outil utile pour construire des modèles de langage. La recherche se concentre sur l'utilisation de traductions de l'anglais vers les langues indiennes, qui sont parlées en Inde et dans des pays voisins. L'objectif est de créer des données synthétiques en traduisant des textes anglais existants dans ces langues. Ce processus consiste à prendre des documents anglais nettoyés du web et à générer leurs traductions, qui peuvent ensuite être utilisées pour entraîner des modèles de langage.
L'étude implique plusieurs étapes. Tout d'abord, une grande collection de documents monolingues en anglais est rassemblée. Ensuite, ces documents sont traduits dans les langues indiennes cibles. Par la suite, le texte de "translationese" généré est filtré à l'aide d'un Modèle de langue spécialisé conçu pour évaluer la qualité des traductions. Ce filtrage garantit que seules les données de "translationese" de haute qualité sont utilisées pour l'entraînement.
Création du jeu de données IndicMonoDoc
Une contribution majeure de cette recherche est la création d'un nouveau jeu de données appelé IndicMonoDoc. Ce jeu de données est la plus grande collection de documents monolingues pour les langues indiennes. Il se compose de plus de 39,5 milliards de mots, avec une portion substantielle consacrée à l'anglais et à diverses langues indiennes. Cet ensemble de données vaste fournit une ressource riche pour entraîner des modèles de langage, en particulier pour ceux qui manquaient auparavant de données suffisantes.
Le jeu de données IndicMonoDoc a été construit à travers un processus systématique de recherche de texte sur le web. Cela a impliqué la collecte d'URL en utilisant des techniques de recherche spécifiques, le filtrage de contenus indésirables et le traitement du texte pour enlever tout matériel non pertinent ou offensant. Le jeu de données final inclut du texte adapté à l'entraînement des modèles de langage, garantissant qualité et pertinence.
Le processus de génération de données synthétiques
Créer des données de "translationese" implique plusieurs étapes. Au début, des documents anglais de haute qualité sont sélectionnés et traduits dans des langues cibles comme l'hindi et le gujarati. La traduction est réalisée à l'aide de technologies de traduction automatique avancées qui peuvent gérer efficacement de grands volumes de texte. Tout au long de ce processus, on veille à ce que les traductions maintiennent clarté et fluidité.
Une fois les traductions générées, elles passent par un processus de filtrage. C'est là qu'un modèle de langue léger entre en jeu. Le modèle évalue la qualité des données synthétiques, en les notant selon la manière dont il prédit le mot suivant dans une phrase. Cela aide à identifier et à garder seulement les meilleures traductions pour les étapes d'entraînement suivantes.
Cette méthode non seulement augmente la quantité de données d'entraînement disponibles pour les Langues à faibles ressources, mais améliore également la qualité globale des modèles de langage en développement.
Comparaison des performances des modèles de langage
L'étude évalue comment les modèles de langage entraînés sur des données propres et synthétiques se comportent dans différentes tâches. On a constaté que les modèles entraînés uniquement sur des données de "translationese" synthétiques ont légèrement moins bien performé que ceux entraînés sur des données de haute qualité et nettoyées. Cependant, après avoir filtré les données synthétiques et effectué un entraînement supplémentaire en utilisant une petite quantité de données propres, les écarts de performance ont été en grande partie comblés.
En termes pratiques, cela signifie que les modèles de langage peuvent être entraînés efficacement même avec des ressources limitées en s'appuyant sur des données de "translationese". L'approche a montré des résultats prometteurs dans diverses tâches linguistiques, y compris la compréhension du langage naturel et la génération de texte.
Importance de la qualité des données synthétiques
La qualité est un facteur critique en ce qui concerne les données synthétiques. Si les traductions générées ne sont pas précises ou de faible qualité, elles peuvent avoir un impact négatif sur les performances des modèles de langage. Cela souligne la nécessité de mécanismes de filtrage robustes qui peuvent trier à travers le texte généré et sélectionner uniquement les traductions les plus pertinentes et de haute qualité.
L'utilisation de modèles légers, comme les TinyLMs, pour filtrer les données de "translationese" a été essentielle pour maintenir la qualité. En se concentrant sur la perplexité-une mesure de la capacité du modèle à prédire du texte-le processus de filtrage garantit que les données synthétiques utilisées pour l'entraînement sont de la plus haute qualité. Cela conduit finalement à des modèles de langage mieux performants, capables de comprendre et de générer du texte plus efficacement.
Combler le fossé entre les langues
Un des principaux objectifs de cette recherche est de combler le fossé de performance entre les langues à haute et à faible ressources. En utilisant des données synthétiques, la recherche démontre qu'il est possible d'améliorer les capacités des modèles de langage pour des langues qui ont généralement du mal à cause de données insuffisantes.
L'approche a montré que même avec une petite quantité de données propres pour un entraînement prolongé, les modèles peuvent atteindre une performance compétitive. C'est particulièrement important pour les applications en traitement du langage naturel, où la capacité à comprendre et produire avec précision du texte dans diverses langues est cruciale.
Directions futures
En regardant vers l'avenir, les résultats suggèrent plusieurs directions pour de futurs travaux. Il y a un potentiel pour générer des échelles de données synthétiques encore plus grandes afin d'améliorer davantage les modèles de langage. Élargir la gamme de langues et explorer différentes stratégies de traduction pourrait également fournir des perspectives précieuses.
De plus, les méthodologies et techniques développées peuvent être appliquées à d'autres langues à faibles ressources à travers le monde, élargissant ainsi l'accès à des capacités avancées de modélisation linguistique.
Considérations éthiques
Quand on travaille avec des données synthétiques, surtout des données qui peuvent avoir été générées par traduction, il y a des implications éthiques à considérer. Bien que des efforts aient été déployés pour éliminer le contenu toxique ou nuisible des jeux de données, il existe toujours un risque que certains de ces cas passent à travers. Il est essentiel d'aborder l'utilisation de ces données avec prudence et de mettre en œuvre des mesures pour détecter et filtrer les contenus indésirables.
Alors que l'utilisation de données synthétiques devient plus courante, cela soulève des questions sur l'utilisation responsable de la technologie et le potentiel de créer des modèles multilingues qui pourraient perpétuer sans le vouloir des biais ou des contenus nuisibles.
Conclusion
En conclusion, la recherche fournit un cadre solide pour utiliser le "translationese" comme moyen de renforcer les modèles de langage, notamment pour les langues qui manquent de données d'entraînement suffisantes. En générant des données synthétiques de haute qualité par traduction, il est possible d'améliorer les capacités des modèles de langage et de soutenir une approche plus inclusive en traitement du langage naturel.
La création du jeu de données IndicMonoDoc représente un pas en avant significatif pour relever les défis posés par la rareté des données dans les langues à faibles ressources. Cela a non seulement des bénéfices immédiats pour améliorer les performances des modèles de langage, mais ouvre également des opportunités pour d'autres recherches dans le domaine.
En continuant à peaufiner ces techniques et en poursuivant de nouvelles avenues pour la génération de données et l'entraînement des modèles, nous pouvons aider à garantir que les technologies linguistiques restent accessibles et efficaces pour les locuteurs de toutes les langues, peu importe leur niveau de ressources.
Titre: Do Not Worry if You Do Not Have Data: Building Pretrained Language Models Using Translationese
Résumé: In this paper, we explore the utility of Translationese as synthetic data created using machine translation for pre-training language models (LMs). Pre-training requires vast amounts of monolingual data, which is mostly unavailable for languages other than English. Recently, there has been a growing interest in using synthetic data to address this data scarcity. We take the case of English and Indic languages and translate web-crawled monolingual documents (clean) into the target language. Then, we train language models containing 28M and 85M parameters on this translationese data (synthetic). We show that their performance on downstream natural language understanding and generative tasks is only 3.56% poorer on NLU tasks and 1.51% on NLG tasks than LMs pre-trained on clean data. Further, we propose the use of lightweight TinyLMs pre-trained on clean data to filter synthetic data efficiently which significantly improves the performance of our models. We also find that LMs trained on synthetic data strongly benefit from extended pretraining on a tiny fraction (10%) of clean data. We release the data we collected and created as a part of this work, IndicMonoDoc, the largest collection of monolingual document-level corpora, which we hope will help bridge the gap between English and non-English performance for large language models.
Auteurs: Meet Doshi, Raj Dabre, Pushpak Bhattacharyya
Dernière mise à jour: 2024-03-21 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2403.13638
Source PDF: https://arxiv.org/pdf/2403.13638
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://github.com/meetdoshi90/TinyLM/
- https://huggingface.co/datasets/cfilt/IITB-MonoDoc
- https://github.com/google/cld3
- https://pypi.org/project/mmh3/
- https://pypi.org/project/mosestokenizer/
- https://lightning.ai/docs/pytorch/stable/
- https://github.com/google/sentencepiece
- https://opensource.org/license/mit/
- https://creativecommons.org/share-your-work/public-domain/cc0/
- https://lightning.ai/docs/torchmetrics/stable/pages/lightning.html
- https://github.com/mjpost/sacrebleu
- https://github.com/csebuetnlp/xl-sum
- https://huggingface.co/ai4bharat/indictrans2-en-indic-1B
- https://huggingface.co/ai4bharat/indictrans2-indic-en-1B
- https://unicode.org/charts/