Améliorer la traduction cantonais-anglais avec l'apprentissage automatique
Cet article parle d'améliorer la qualité de la traduction cantonais-anglais en utilisant des techniques avancées d'apprentissage automatique.
― 9 min lire
Table des matières
Le cantonais est une langue parlée à Hong Kong, à Macao et dans la région du Guangdong en Chine. Malgré un grand nombre de locuteurs, il manque souvent de bons outils de traduction, surtout entre le cantonais et l'anglais. Cet article examine les moyens d'améliorer la qualité de la traduction du cantonais vers l'anglais en utilisant des techniques d'apprentissage automatique.
Le besoin d'une meilleure traduction
La traduction automatique (TA) est devenue un outil important pour briser les barrières linguistiques. Cependant, le cantonais reçoit souvent moins d'attention par rapport à d'autres langues comme le mandarin. Cela a conduit à des résultats de traduction moins bons et à moins de ressources pour former les modèles de traduction. Le cantonais a des caractéristiques uniques, comme les colloquialismes et le code-switching, qui rendent la traduction difficile. Le langage colloquial inclut souvent de l'argot ou des phrases non standards, tandis que le code-switching implique de mélanger les langues dans une conversation.
Approches de traduction
Méthodes traditionnelles
Les premiers systèmes de traduction utilisaient des méthodes basées sur des règles. Ces systèmes reposaient beaucoup sur la compréhension de la grammaire et du vocabulaire, mais nécessitaient un effort humain considérable pour créer des règles et des dictionnaires. En conséquence, ils étaient limités en flexibilité et en évolutivité.
Avec l'avènement de la traduction automatique statistique, l'approche a changé. Les méthodes statistiques utilisaient de grandes quantités de données textuelles pour créer des modèles de traduction basés sur des motifs plutôt que sur des règles strictes. Cependant, ces modèles avaient parfois du mal avec les nuances de la langue et les idiomes.
Traduction automatique neuronale
L'introduction des réseaux neuronaux a révolutionné le domaine de la traduction automatique. Les systèmes de traduction automatique neuronale (TAN) sont conçus pour apprendre à partir de données et faire des prédictions sur les traductions sans nécessiter une saisie manuelle extensive. Les modèles TAN fonctionnent sur le principe de la compréhension du contexte des phrases plutôt que de traduire mot à mot.
Parmi les cadres TAN, le modèle Transformer a attiré une attention significative pour son efficacité et son efficacité. Ce modèle utilise un mécanisme appelé attention qui lui permet de se concentrer sur les parties pertinentes d'une phrase lors de la traduction.
Défis avec le cantonais
Malgré les avancées dans la technologie TA, traduire le cantonais reste un défi. Les principaux problèmes incluent des données d'entraînement limitées et la complexité de la langue elle-même. Les outils de traduction commerciaux courants ne prennent souvent pas en charge le cantonais ou fournissent des traductions de mauvaise qualité lorsqu'ils le font.
Plusieurs facteurs contribuent aux difficultés de traduction en cantonais :
Manque de ressources : Il y a moins de textes parallèles disponibles pour former des modèles par rapport à des langues comme le mandarin. Cette rareté rend difficile pour les modèles d'apprendre des traductions efficaces.
Langage colloquial : Une grande partie du cantonais parlé dans la vie quotidienne inclut des phrases informelles et de l'argot, qui ne sont souvent pas bien documentés. En conséquence, les modèles de traduction peuvent mal interpréter ou ne pas reconnaître ces expressions.
Environnement multilingue : Hong Kong, où le cantonais est largement parlé, a une population multilingue. Beaucoup de gens alternent entre le cantonais et l'anglais dans les conversations quotidiennes. Ce code-switching peut déranger les modèles de traduction, entraînant des inexactitudes.
Objectifs de recherche
Cet article vise à étudier comment améliorer la qualité de la traduction du cantonais vers l'anglais. Les principaux objectifs incluent :
Créer un ensemble de données plus large : En combinant des ensembles de données existants avec de nouvelles données collectées à partir de sources en ligne, nous pouvons améliorer la qualité des données d'entraînement disponibles pour les modèles.
Développer des modèles de traduction : L'accent sera mis sur l'utilisation de techniques avancées pour créer des modèles qui produisent de meilleures traductions de phrases en cantonais vers l'anglais.
Créer un outil open-source : Un outil de traduction convivial sera mis à la disposition du public, permettant un accès facile aux traductions cantonais-anglais.
Collecte de données
Pour améliorer la qualité de la traduction cantonais-anglais, un nouvel ensemble de données a été compilé. Cela a impliqué la collecte et le nettoyage de données provenant de diverses sources en ligne, y compris des forums et des dictionnaires.
Corpus parallèle
Un corpus parallèle se compose de phrases en cantonais et en anglais. Cela peut être utilisé pour former des modèles capables de réaliser des traductions précises. Plusieurs sources ont été utilisées pour rassembler une quantité substantielle de texte parallèle :
- Words.hk : Un dictionnaire en ligne cantonais-anglais a fourni de nombreuses phrases exemples.
- Wenlin Institute : Cette source a offert des paires de traduction supplémentaires, bien que l'extraction des données ait été plus complexe.
- OPUS Corpora : Une collection de textes traduits déjà alignés, ce qui les rend plus faciles à intégrer.
Corpus monolingue
En plus des textes parallèles, une grande quantité de données monolingues a été nécessaire. Cela incluait des textes monolingues en cantonais et en anglais. Le corpus cantonais a été recueilli sur des forums en ligne locaux, où des conversations informelles se déroulent.
Développement du modèle
Sélection du modèle
Trois principaux modèles de traduction ont été sélectionnés pour cette recherche :
- Opus-MT : Ce modèle est léger et adapté aux tâches de traduction cantonais-anglais.
- mBART : C'est un modèle plus complexe capable de gérer plusieurs langues, bien qu'il n'ait pas été spécifiquement conçu pour le cantonais.
- NLLB : C'est un grand modèle qui inclut le cantonais, ce qui le rend particulièrement précieux pour cette recherche.
Entraînement du modèle
Les modèles ont été formés en utilisant une combinaison de données parallèles et monolingues. Le processus de fine-tuning a impliqué l'ajustement des paramètres des modèles pour améliorer leurs capacités de traduction. Plusieurs techniques ont été appliquées, y compris :
- Back-Translation : Cette technique génère des données synthétiques en traduisant des phrases anglaises en cantonais. Cela aide à fournir plus d'exemples d'entraînement pour les modèles.
- Mécanisme de changement de modèle : Cela implique d'utiliser différents modèles ensemble pour tirer parti de leurs forces. Par exemple, un modèle pourrait traduire du cantonais vers l'anglais, tandis qu'un autre traduit de l'anglais vers le cantonais.
Évaluation des modèles
Après l'entraînement, la performance des modèles de traduction a été évaluée à l'aide de divers métriques. Ces métriques aident à évaluer à quel point chaque modèle peut traduire des phrases.
Évaluation automatique
Plusieurs métriques automatiques ont été utilisées pour mesurer la qualité de la traduction :
- SacreBLEU : Cette métrique mesure à quel point une phrase traduite correspond à une traduction de référence. Elle prend en compte l'ordre des mots et les correspondances exactes.
- hLEPOR : Cette métrique se concentre sur la structure globale et la qualité de la traduction, en tenant compte de facteurs comme la fluidité et l'adéquation.
- COMET et BERTscore : Ces nouvelles métriques exploitent des réseaux neuronaux pour évaluer la traduction en considérant le sens contextuel plutôt que de simples correspondances de mots en surface.
Évaluation humaine
En plus des métriques automatiques, une évaluation humaine a été menée. Une équipe de locuteurs fluides a évalué les traductions en se basant sur la clarté, l'exactitude et la qualité globale. Cela a fourni des insights précieux sur les forces et les faiblesses de chaque modèle.
Résultats
Les résultats des évaluations ont révélé des découvertes significatives :
- Performance du modèle NLLB : Le NLLB a constamment surpassé les autres modèles sur tous les métriques d'évaluation, prouvant qu'il est le plus efficace pour la traduction cantonais-anglais.
- Évaluation automatique vs. humaine : Bien que les métriques automatiques offrent un bon aperçu des performances des modèles, l'évaluation humaine a mis en lumière des domaines à améliorer, en particulier dans la traduction du langage colloquial.
- Impact de la qualité des données : Les modèles formés avec des données parallèles de haute qualité ont montré de meilleures performances que ceux reposant uniquement sur des données synthétiques.
Conclusion et travaux futurs
En résumé, cette recherche a contribué à améliorer la traduction automatique cantonais-anglais. En créant de nouveaux ensembles de données et en employant des techniques de modélisation avancées, le projet a obtenu des résultats prometteurs.
Pour l'avenir, plusieurs directions de travail sont envisageables :
- Élargir l'ensemble de données : D'autres efforts de collecte de données peuvent être entrepris pour améliorer encore les ensembles d'entraînement disponibles pour de futurs modèles.
- Améliorer la qualité des données : Il sera nécessaire de se concentrer sur le nettoyage et l'affinement des ensembles de données pour garantir que des matériaux d'entraînement de meilleure qualité soient utilisés.
- Développement de l'interface utilisateur : Des améliorations à l'interface utilisateur de l'outil de traduction faciliteront l'accès et l'utilisation du système de manière efficace.
Le développement réussi d'un système de traduction cantonais-anglais ouvre des portes pour de futures explorations dans le domaine du traitement des langues à faibles ressources et souligne le besoin continu d'outils de traduction efficaces.
Titre: CANTONMT: Investigating Back-Translation and Model-Switch Mechanisms for Cantonese-English Neural Machine Translation
Résumé: This paper investigates the development and evaluation of machine translation models from Cantonese to English, where we propose a novel approach to tackle low-resource language translations. The main objectives of the study are to develop a model that can effectively translate Cantonese to English and evaluate it against state-of-the-art commercial models. To achieve this, a new parallel corpus has been created by combining different available corpora online with preprocessing and cleaning. In addition, a monolingual Cantonese dataset has been created through web scraping to aid the synthetic parallel corpus generation. Following the data collection process, several approaches, including fine-tuning models, back-translation, and model switch, have been used. The translation quality of models has been evaluated with multiple quality metrics, including lexicon-based metrics (SacreBLEU and hLEPOR) and embedding-space metrics (COMET and BERTscore). Based on the automatic metrics, the best model is selected and compared against the 2 best commercial translators using the human evaluation framework HOPES. The best model proposed in this investigation (NLLB-mBART) with model switch mechanisms has reached comparable and even better automatic evaluation scores against State-of-the-art commercial models (Bing and Baidu Translators), with a SacreBLEU score of 16.8 on our test set. Furthermore, an open-source web application has been developed to allow users to translate between Cantonese and English, with the different trained models available for effective comparisons between models from this investigation and users. CANTONMT is available at https://github.com/kenrickkung/CantoneseTranslation
Auteurs: Kung Yin Hong, Lifeng Han, Riza Batista-Navarro, Goran Nenadic
Dernière mise à jour: 2024-05-13 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2405.08172
Source PDF: https://arxiv.org/pdf/2405.08172
Licence: https://creativecommons.org/licenses/by-nc-sa/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://github.com/kenrickkung/CantoneseTranslation
- https://dl.acm.org/ccs.cfm
- https://www.systran.de/
- https://marian-nmt.github.io/
- https://opus.nlpl.eu/
- https://translate.google.com/
- https://www.deepl.com/translator
- https://www.bing.com/translator
- https://fanyi.baidu.com
- https://chat.openai.com/share/7ee588af-dc48-4406-95f4-0471e1fb70a8
- https://github.com/ayaka14732/TransCan
- https://words.hk
- https://www2.statmt.org/wmt24
- https://wenlin.com
- https://www.baby-kingdom.com/forum.php
- https://www.discuss.com.hk/
- https://lihkg.com
- https://huggingface.co
- https://huggingface.co/docs/evaluate/index
- https://pypi.org/project/hLepor/