Combler les lacunes linguistiques : Un focus sur les langues indiennes
Soutenir la traduction pour les langues à faibles ressources en Inde.
Hamees Sayed, Advait Joglekar, Srinivasan Umesh
― 7 min lire
Table des matières
- Le défi de traduire des langues à faibles ressources
- Collecte de données : la première étape
- Entraînement du modèle : c'est l'heure de cuisiner
- L'importance de chaque langue
- Assamese : le voisin sympa
- Manipuri : le rapide
- Khasi : le conteur
- Mizo : le héros historique
- Préparation des données : tout préparer
- Jour d'entraînement : recette en action
- Inférence : le test de goût
- Évaluation : on a été comment ?
- Limitations : ce qui pourrait être mieux
- Conclusion : le chemin à suivre
- Source originale
- Liens de référence
Dans notre monde, il y a plein de langues parlées, mais certaines n'ont pas assez de ressources pour la traduction. C'est un peu comme avoir un plat préféré que personne ne sait cuisiner. Nous nous concentrons sur quatre langues d'Inde : Khasi, Mizo, Manipuri et Assamese. Elles ont besoin d'un peu d'amour dans le domaine de la traduction, et on est là pour aider !
Le défi de traduire des langues à faibles ressources
Traduire ces langues, c'est comme essayer d'apprendre à un chat à nager. C'est compliqué ! Alors qu'on a fait de grands progrès avec des langues comme l'anglais et l'espagnol, Khasi, Mizo, Manipuri et Assamese se retrouvent un peu perdues. Pourquoi ? Parce qu'elles n'ont pas assez de ressources bilingues, comme des livres ou des sites web, pour que les machines puissent apprendre.
Collecte de données : la première étape
Notre première étape a été de rassembler des données. On a cherché partout, mais d'une manière numérique, bien sûr. On a utilisé des jeux de données de différentes sources, en essayant de collecter le maximum de matériel bilingue possible. C'est comme rassembler des ingrédients pour une recette fancy – on avait besoin du bon mélange pour commencer.
Comme il n’y avait pas beaucoup de données disponibles pour Khasi et Mizo, on a utilisé un truc appelé rétro-traduction. Imagine que tu veux raconter une blague dans une autre langue, mais tu ne te souviens que de l'anglais. Tu la traduis dans une autre langue et ensuite de nouveau en anglais. Ça aide à créer plus d'exemples pour le modèle de traduction. C'est comme jouer au téléphone, mais avec moins de rires et plus de mots !
Entraînement du modèle : c'est l'heure de cuisiner
Maintenant qu'on a nos ingrédients, c'est le moment de cuisiner ! On a utilisé un super modèle de traduction appelé NLLB 3.3B. Pense à ça comme un chef numérique avec 3,3 milliards de pensées dans sa tête.
On a commencé par quelque chose appelé le masquage de langage. Pas de panique, aucune masque n’a été porté pendant ce processus ! Cela signifie juste qu'on a aidé le modèle à mieux apprendre la langue avec nos données monolingues, pour qu'il ne trébuche pas sur ses lacets plus tard.
Ensuite, on a affiné le modèle pour traduire de l'anglais vers nos quatre langues et vice versa. Pour le Khasi, qui avait besoin d’un peu plus d’attention parce qu'il n'était pas déjà pris en charge, on a ajouté des tokens spéciaux. C'est comme lui donner une épice unique pour qu'il puisse gérer les saveurs locales !
L'importance de chaque langue
Parlons un peu de nos stars du show !
Assamese : le voisin sympa
L’assamais est parlé au Assam, le pays du thé et des éléphants ! Avec plus de 15 millions de locuteurs, c’est un gros truc. Cette langue a une longue histoire, d'abord langue officielle dans les cours royales à aujourd'hui où elle est aimée par des millions.
Manipuri : le rapide
Le Manipuri c'est le cool de Manipur. Avec environ 1,76 million de locuteurs, c’est la langue tibéto-birmane la plus populaire en Inde. Si jamais il y a une course pour la croissance, le Manipuri serait juste derrière l'Hindi et le Kashmiri !
Khasi : le conteur
Le Khasi est comme le sage de Meghalaya. Environ 1 million de personnes le parlent, et il porte de riches histoires et traditions. Il est souvent écrit en alphabet latin, ce qui lui donne un petit twist moderne !
Mizo : le héros historique
Le Mizo est une langue du Mizoram, parlée par environ 800 000 personnes. Il a une riche histoire orale et a été mis par écrit à la fin du XIXe siècle. Imagine le Mizo comme le conteur de la famille, partageant des histoires d'antan en utilisant l'alphabet latin.
Préparation des données : tout préparer
Avant de pouvoir mettre notre modèle au travail, tout devait être préparé et poli. On a utilisé un outil appelé Moses (pas le gars qui a séparé les mers, mais un logiciel pratique !) pour lisser nos données textuelles.
On s'est débarrassé des caractères non imprimables – ils sont l'équivalent numérique des miettes qui n’ont juste pas leur place sur une assiette. Puis, on a veillé à ce que tout le texte ait le même aspect à travers différents formats. La cohérence est essentielle, tout comme dans une bonne recette !
Jour d'entraînement : recette en action
Le processus d'entraînement s'est déroulé sur des ordinateurs puissants. On a utilisé des GPU Nvidia A6000 – pense à eux comme aux bolides des ordinateurs. Ils nous ont aidés à accélérer le processus tout en s'assurant que la cuisson était juste.
Le modèle NLLB est basé sur ce qu'on appelle une architecture "Transformer". C'est une façon chic de dire que notre chef numérique a plein d'outils et de techniques sous la main pour améliorer les traductions.
Inférence : le test de goût
Après avoir cuisiné notre modèle de traduction, il était temps de faire le test de goût ! On a utilisé quelque chose appelé recherche par faisceau pour obtenir les meilleures traductions possibles. Imagine essayer de trouver la meilleure part de gâteau dans une boulangerie – tu veux la plus moelleuse et crémeuse, non ?
Évaluation : on a été comment ?
On avait besoin de savoir si notre modèle valait son poids en farine. On a utilisé différentes méthodes de scoring, y compris les scores BLEU, pour mesurer la performance. On a trouvé que les traductions assamaises s'en sortaient plutôt bien, tandis que le Khasi, le Mizo et le Manipuri avaient encore besoin de travail.
Par exemple, les traductions de l'anglais vers le Khasi ont obtenu un score bas, un peu comme un sandwich mal fait. Pendant ce temps, les traductions en Manipuri ont rencontré quelques défis, nous faisant réaliser que nos données rétro-traduites ne touchaient pas toujours le but.
Limitations : ce qui pourrait être mieux
Même notre modèle avait ses journées où il n'était pas tout à fait au point. Un problème était la taille limitée de notre dataset. Pense à ça comme avoir une petite cuisine avec pas assez de casseroles et poêles pour préparer un festin. Un plus grand dataset pourrait aider le modèle à faire des merveilles.
La qualité de nos données rétro-traduites était un autre souci. Parfois, la nourriture n’a pas le même goût quand elle est réchauffée. Cela signifie qu'on doit améliorer nos techniques de génération de données pour l'avenir.
On a aussi remarqué un écart entre la qualité de la traduction vers l'anglais et vers les langues indic. C'est comme si notre modèle pouvait danser le tango à la perfection mais trébuchait en essayant de faire le cha-cha.
Enfin, nos données pourraient ne pas vraiment représenter la richesse de l'usage réel des langues. C'est comme former quelqu'un à cuisiner en utilisant seulement une recette au lieu d'un livre de cuisine entier.
Conclusion : le chemin à suivre
En fin de compte, notre aventure dans la traduction des langues à faibles ressources nous a ouvert les yeux sur les défis et les opportunités à venir. Bien qu'on ait fait des progrès, il y a encore de la place pour s'améliorer.
En affinant nos modèles et en rassemblant de meilleures données, on peut espérer servir des traductions aussi délicieuses qu'un plat fait maison. Voici à un futur où le Khasi, le Mizo, le Manipuri et l'Assamais s'épanouissent dans le monde de la traduction, rendant la vie un peu moins solitaire pour ces belles langues !
Titre: SPRING Lab IITM's submission to Low Resource Indic Language Translation Shared Task
Résumé: We develop a robust translation model for four low-resource Indic languages: Khasi, Mizo, Manipuri, and Assamese. Our approach includes a comprehensive pipeline from data collection and preprocessing to training and evaluation, leveraging data from WMT task datasets, BPCC, PMIndia, and OpenLanguageData. To address the scarcity of bilingual data, we use back-translation techniques on monolingual datasets for Mizo and Khasi, significantly expanding our training corpus. We fine-tune the pre-trained NLLB 3.3B model for Assamese, Mizo, and Manipuri, achieving improved performance over the baseline. For Khasi, which is not supported by the NLLB model, we introduce special tokens and train the model on our Khasi corpus. Our training involves masked language modelling, followed by fine-tuning for English-to-Indic and Indic-to-English translations.
Auteurs: Hamees Sayed, Advait Joglekar, Srinivasan Umesh
Dernière mise à jour: 2024-11-11 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2411.00727
Source PDF: https://arxiv.org/pdf/2411.00727
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://ai4bharat.iitm.ac.in/bpcc/
- https://github.com/openlanguagedata/seed
- https://censusindia.gov.in/
- https://google.translate.com/
- https://github.com/facebookresearch/stopes/blob/main/stopes/pipelines/monolingual/monolingual_line_processor.py