Traduire les langues indigènes au Mexique
Un projet vise à améliorer la traduction entre le mazatèque, le mixteco et l'espagnol.
― 6 min lire
Table des matières
Cet article parle d'un projet spécial axé sur la traduction de deux langues autochtones du Mexique, le mazatèque et le mixteque, en espagnol. Ces langues font partie intégrante de la culture diverse du Mexique, mais elles manquent souvent de soutien technologique nécessaire pour une communication efficace avec des locuteurs d'autres langues. L'objectif du projet est de faciliter l'accès à l'information en espagnol pour les locuteurs de ces langues et vice versa.
Importance des Langues Autochtones
Le Mexique abrite de nombreuses langues autochtones parlées par diverses communautés. Malheureusement, beaucoup de ces langues risquent de s'éteindre pour diverses raisons. Dans la vie quotidienne, de nombreux locuteurs se sentent gênés d'utiliser leur langue maternelle en raison de la dominance de l'espagnol. Le projet vise à soutenir ces communautés en créant de meilleurs outils de traduction.
Création du Corpus parallèle
Pour commencer le processus de traduction, un corpus parallèle a été créé. Un corpus parallèle est une collection de textes qui inclut des traductions dans deux langues côte à côte. Pour ce projet, les chercheurs ont collecté des phrases en mazatèque et en mixteque, accompagnées de leurs traductions en espagnol. Ces phrases ont été regroupées à partir de différentes sources, y compris des textes religieux et des documents juridiques.
Au total, le projet a collecté près de 10 000 phrases en mazatèque et plus de 13 000 phrases en mixteque. Ces données servent de base pour entraîner des systèmes de Traduction automatique.
Approches de Traduction Automatique
Les chercheurs ont testé différentes méthodes pour traduire entre ces langues et l'espagnol. Les méthodes incluaient :
Modèles de Transformateur : Cette approche utilise un modèle de réseau qui peut analyser et traduire des phrases en une seule fois au lieu de mot par mot. Cette méthode est connue pour son efficacité dans de nombreuses tâches de traduction, mais nécessite beaucoup de données.
Apprentissage par transfert : Ici, les chercheurs ont utilisé des modèles existants entraînés sur d'autres langues, en particulier des langues à ressources élevées comme l'anglais et l'espagnol, pour aider à traduire le mazatèque et le mixteque. Cette méthode permet de partager les connaissances acquises à partir de plus grands ensembles de données pour améliorer la précision des traductions.
Ajustement fin : Cette méthode consiste à prendre un modèle déjà entraîné et à y apporter de petits ajustements pour des tâches de traduction spécifiques. Cela permet au modèle de mieux comprendre les nuances de la traduction entre les langues autochtones et l'espagnol.
Résultats et Conclusions
Les expérimentations ont montré que l'ajustement fin du modèle de traduction automatique a donné les meilleurs résultats lors des traductions du mazatèque et du mixteque vers l'espagnol et vice versa. Le modèle a réussi à traduire des phrases avec des Scores BLEU, qui mesurent la qualité de la traduction, allant de scores plus bas d'environ 12 à des scores plus élevés dépassant 22, selon la paire de langues.
Fait intriguant, les résultats ont indiqué que lors de la traduction vers le mazatèque et le mixteque, les modèles ont mieux performé que lors de la traduction de ces langues vers l'espagnol. Cela implique qu'il est plus facile pour les systèmes de générer des traductions vers les langues autochtones plutôt que de les traduire en espagnol.
Défis Rencontrés
Malgré les progrès réalisés, les chercheurs ont rencontré plusieurs défis. L'un des principaux problèmes était la disponibilité limitée de ressources et de données pour les langues autochtones. Cela signifiait que les modèles avaient parfois du mal à comprendre et à traduire avec précision des termes spécifiques uniques au mazatèque et au mixteque.
De plus, le contexte culturel joue un rôle crucial dans la traduction des langues. Les langues autochtones ont des phrases et des significations profondément ancrées dans des pratiques et des croyances culturelles, rendant difficile pour les systèmes de traduction automatique de saisir leur pleine signification sans compréhension supplémentaire.
Le Rôle des Données
La quantité et la qualité des données disponibles ont fortement influencé les résultats des traductions. Les chercheurs ont découvert que la taille de l'ensemble de données importait moins lorsque les langues à traduire étaient autochtones. Cela souligne l'importance de développer et de maintenir davantage de ressources pour les langues non dominantes afin d'améliorer la performance des traductions.
Directions Futures de Recherche
En regardant vers l'avenir, l'équipe prévoit d'explorer des méthodes avancées pour la traduction automatique, y compris des techniques comme l'apprentissage à zéro coup et l'apprentissage avec peu de données. Ces approches permettent aux modèles de réaliser des traductions avec très peu de données en utilisant des informations provenant de tâches ou de langues connexes. Cela pourrait être extrêmement bénéfique dans des contextes où les données d'entraînement disponibles sont limitées.
En combinant ces techniques avec les modèles existants, les chercheurs visent à améliorer encore davantage les systèmes de traduction, les rendant plus robustes et précis pour les langues à faibles ressources.
Conclusion
Le projet a réalisé des avancées significatives dans la création d'un corpus parallèle pour traduire le mazatèque et le mixteque en espagnol. En utilisant des techniques avancées de traduction automatique, il a montré des résultats prometteurs qui peuvent avoir un impact considérable sur les locuteurs de ces langues. Les résultats soulignent le besoin de plus de ressources pour soutenir les langues autochtones et leurs locuteurs.
Bien que la qualité de traduction actuelle ne réponde pas encore aux besoins pratiques, en particulier pour la traduction du mazatèque et du mixteque vers l'espagnol, les résultats représentent une solide base pour former de meilleurs outils de communication. L'exploration future d'approches d'apprentissage innovantes offre un potentiel d'amélioration des performances de traduction et de garantir que le riche patrimoine linguistique des langues autochtones continue de prospérer dans un monde de plus en plus numérique.
Cette recherche vise non seulement à favoriser la communication, mais aussi à promouvoir la préservation de ces langues importantes en autonomisant leurs locuteurs et en facilitant un accès plus large à l'information dans leurs langues maternelles.
Titre: Parallel Corpus for Indigenous Language Translation: Spanish-Mazatec and Spanish-Mixtec
Résumé: In this paper, we present a parallel Spanish-Mazatec and Spanish-Mixtec corpus for machine translation (MT) tasks, where Mazatec and Mixtec are two indigenous Mexican languages. We evaluated the usability of the collected corpus using three different approaches: transformer, transfer learning, and fine-tuning pre-trained multilingual MT models. Fine-tuning the Facebook M2M100-48 model outperformed the other approaches, with BLEU scores of 12.09 and 22.25 for Mazatec-Spanish and Spanish-Mazatec translations, respectively, and 16.75 and 22.15 for Mixtec-Spanish and Spanish-Mixtec translations, respectively. The findings show that the dataset size (9,799 sentences in Mazatec and 13,235 sentences in Mixtec) affects translation performance and that indigenous languages work better when used as target languages. The findings emphasize the importance of creating parallel corpora for indigenous languages and fine-tuning models for low-resource translation tasks. Future research will investigate zero-shot and few-shot learning approaches to further improve translation performance in low-resource settings. The dataset and scripts are available at \url{https://github.com/atnafuatx/Machine-Translation-Resources}
Auteurs: Atnafu Lambebo Tonja, Christian Maldonado-Sifuentes, David Alejandro Mendoza Castillo, Olga Kolesnikova, Noé Castro-Sánchez, Grigori Sidorov, Alexander Gelbukh
Dernière mise à jour: 2023-05-27 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2305.17404
Source PDF: https://arxiv.org/pdf/2305.17404
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.