Améliorer la traduction pour le hokkien taïwanais
La recherche se concentre sur l'amélioration des capacités de traduction pour la langue hokkien taïwanais.
― 8 min lire
Table des matières
- L'Importance du Hokkien taïwanais
- Techniques Utilisées dans l'Étude
- Problèmes avec les Langues à Faible Ressources
- Diversité des Systèmes d'Écriture
- Progrès des Modèles de Langage de Grande Taille
- Expérimentations et Résultats
- Métriques d'Évaluation
- Directions Futures
- Considérations Éthiques
- Source originale
- Liens de référence
La technologie de traduction fonctionne généralement mieux avec des langues qui ont beaucoup de ressources, comme l’anglais et le mandarin. Cependant, beaucoup de langues, surtout celles comme le Hokkien taïwanais, qui n'ont pas autant de données disponibles, ont du mal à en tirer des avantages similaires. Cet article examine comment améliorer les systèmes de traduction pour le Hokkien taïwanais, facilitant ainsi la traduction entre le Hokkien, le mandarin et l'anglais.
L'Importance du Hokkien taïwanais
Le Hokkien taïwanais est largement parlé à Taïwan et dans certaines autres parties de l'Asie. Bien qu’il soit populaire en tant que langue parlée, sa forme écrite n'est pas aussi courante. Les gens utilisent principalement trois systèmes d'écriture pour le Hokkien : le Hokkien Han, qui utilise des caractères chinois ; le Tâi-lô et le Pe̍h-ōe-jī, qui utilisent des lettres latines ; et le Hàn-lô, qui mélange les deux. Le manque d'un système d'écriture standard a créé des défis pour les chercheurs et les développeurs qui veulent créer de bons modèles de traduction pour cette langue.
Techniques Utilisées dans l'Étude
Cette étude s'est fixée pour objectif de développer un modèle de traduction dual qui peut fonctionner entre le Hokkien taïwanais, le mandarin et l'anglais. En utilisant un modèle spécial déjà entraîné sur le mandarin, les chercheurs ont essayé de tirer parti des similitudes entre le Hokkien et le mandarin. Ils ont également effectué des tests qui comprenaient la traduction entre les différents systèmes d'écriture du Hokkien ainsi qu'entre le Hokkien et les deux autres langues.
Les chercheurs ont découvert qu'une petite quantité de données en Hokkien pouvait aider à booster les capacités de traduction des modèles. Ils ont réussi à standardiser divers systèmes d'écriture du Hokkien en Hokkien Han, ce qui a également contribué à améliorer la performance de traduction. Ils ont ensuite créé un nouveau moyen d'évaluer la qualité de la traduction qui utilisait la rétro-traduction ainsi qu'un autre modèle avancé appelé GPT-4 pour s'assurer que les traductions étaient précises, même pour des langues avec moins de données.
Problèmes avec les Langues à Faible Ressources
Les langues à faible ressources comme le Hokkien rencontrent des défis significatifs principalement en raison de la disponibilité limitée des données. Alors que les langues à ressources élevées ont de nombreuses ressources pour entraîner des modèles, les langues à faible ressources sont souvent négligées, ce qui entraîne des difficultés à développer des systèmes de traduction efficaces.
Le contexte historique et le manque de systèmes d'écriture standardisés pour le Hokkien compliquent encore les choses. Cette incohérence crée des problèmes avec les données disponibles, rendant difficile l'apprentissage des modèles de traduction. Le manque d'une forte tradition écrite et la dépendance à la communication orale signifient que beaucoup de jeunes générations à Taïwan perdent leur capacité à lire et écrire en Hokkien.
Diversité des Systèmes d'Écriture
Les trois principaux systèmes d'écriture utilisés pour le Hokkien taïwanais créent un paysage riche mais compliqué pour la traduction. Le Hokkien Han utilise des caractères, tandis que le Tâi-lô et le Pe̍h-ōe-jī utilisent des lettres latines. Le système hybride, le Hàn-lô, mélange les deux. Chaque système d'écriture a ses propres forces et faiblesses, et l'établissement récent d'un standard officiel pour le Hokkien Han aide à unifier une partie de la confusion.
Cependant, à cause de la standardisation récente du Hokkien Han, il n'y a toujours pas assez de ressources pour soutenir des systèmes de traduction efficaces. Cette lacune est particulièrement visible lorsqu'on essaie de comparer les données disponibles pour les différents systèmes d'écriture.
Progrès des Modèles de Langage de Grande Taille
Les avancées récentes dans les modèles de langage de grande taille (LLMs) comme LLaMA, ChatGPT et BLOOM montrent des résultats prometteurs dans diverses tâches, y compris la traduction. Ces modèles ont été introduits pour aider avec plusieurs langues, mais ils ont toujours du mal avec des langues qui sont différentes de l'anglais ou du mandarin.
Dans cette étude, les chercheurs ont utilisé un modèle pré-entraîné spécialisé en mandarin et ont essayé de l'adapter pour le Hokkien taïwanais. Ils se sont concentrés sur l'exploitation des similitudes entre le Hokkien Han et le mandarin pour aider à produire de meilleures traductions entre les différents systèmes d'écriture du Hokkien et entre le Hokkien et des langues à haute ressources comme l'anglais et le mandarin.
Expérimentations et Résultats
Les chercheurs ont mené des expériences approfondies incluant des tâches de traduction à travers tous les systèmes d'écriture du Hokkien et entre le Hokkien et d'autres langues. Leurs découvertes ont révélé qu'un corpus unifié de données Hokkien aiderait le modèle à améliorer significativement ses capacités de traduction. Ils ont également découvert que simplement ajouter plus de vocabulaire ne menait pas automatiquement à de meilleurs résultats. En fait, ils ont constaté que l'inclusion de jeux de données qui mélangeaient différents systèmes d'écriture entraînait une performance plus faible.
En standardisant les données Hokkien en Hokkien Han avant un entraînement supplémentaire, la performance du modèle s'est également améliorée. Cette étape de standardisation s'est avérée utile pour affiner les traductions en créant un ensemble de données plus robuste.
Métriques d'Évaluation
Pour évaluer la qualité de la traduction, les chercheurs ont utilisé plusieurs métriques différentes, y compris les Scores BLEU et les métriques basées sur GPT. Ces métriques ont aidé à donner une vision plus claire de la performance des modèles de traduction. Les scores BLEU se concentrent sur la correspondance des mots entre les traductions, tandis que les évaluations basées sur GPT examinent la qualité globale et la préservation du sens des traductions.
Pour obtenir une compréhension plus nuancée des traductions, ils ont comparé les traductions générées par le modèle avec les phrases originales en utilisant des techniques de rétro-traduction. Cette méthode leur a permis de mesurer dans quelle mesure la traduction préservait le sens original. Des évaluations humaines ont également été utilisées pour évaluer encore plus la qualité de la traduction, garantissant un processus d'examen complet.
Directions Futures
Le travail réalisé dans cette étude contribue à combler le fossé des ressources nécessaires pour le Hokkien taïwanais. Le modèle de traduction dual développé ici représente un pas significatif dans l'amélioration des efforts de traduction pour les langues à faible ressources. Les futures recherches pourraient se pencher sur l'expansion de ces méthodes pour inclure d'autres langues parlées à Taïwan, comme le Hakka, afin d'enrichir encore l'ensemble de données et les capacités du modèle.
Les chercheurs prévoient également d'explorer comment traduire du mandarin ou de l'anglais en Hokkien Han pourrait fournir du matériel d'entraînement supplémentaire. Cela pourrait aider à améliorer la qualité de la traduction pour le Hokkien et à développer un système plus robuste pour les utilisateurs.
Considérations Éthiques
Un aspect critique du développement de systèmes de traduction est de s'attaquer aux biais potentiels présents dans les données d'entraînement. Étant donné qu'une grande partie des données existantes peut refléter des vues ou des biais spécifiques, des efforts ont été faits pour inclure une gamme plus diversifiée de textes, y compris des chansons et des essais. Cette approche vise à créer un modèle équilibré qui reflète une représentation plus précise de la langue et de la culture Hokkien.
L'étude souligne les défis de travailler avec des langues à faible ressources et l'importance de données standardisées dans le développement de modèles de traduction efficaces. Les résultats mettent en évidence la nécessité de recherches continues et de ressources consacrées à des langues comme le Hokkien taïwanais, qui risquent d'être négligées dans le monde en rapide évolution de la technologie linguistique.
Titre: Enhancing Taiwanese Hokkien Dual Translation by Exploring and Standardizing of Four Writing Systems
Résumé: Machine translation focuses mainly on high-resource languages (HRLs), while low-resource languages (LRLs) like Taiwanese Hokkien are relatively under-explored. The study aims to address this gap by developing a dual translation model between Taiwanese Hokkien and both Traditional Mandarin Chinese and English. We employ a pre-trained LLaMA 2-7B model specialized in Traditional Mandarin Chinese to leverage the orthographic similarities between Taiwanese Hokkien Han and Traditional Mandarin Chinese. Our comprehensive experiments involve translation tasks across various writing systems of Taiwanese Hokkien as well as between Taiwanese Hokkien and other HRLs. We find that the use of a limited monolingual corpus still further improves the model's Taiwanese Hokkien capabilities. We then utilize our translation model to standardize all Taiwanese Hokkien writing systems into Hokkien Han, resulting in further performance improvements. Additionally, we introduce an evaluation method incorporating back-translation and GPT-4 to ensure reliable translation quality assessment even for LRLs. The study contributes to narrowing the resource gap for Taiwanese Hokkien and empirically investigates the advantages and limitations of pre-training and fine-tuning based on LLaMA 2.
Auteurs: Bo-Han Lu, Yi-Hsuan Lin, En-Shiun Annie Lee, Richard Tzong-Han Tsai
Dernière mise à jour: 2024-05-14 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2403.12024
Source PDF: https://arxiv.org/pdf/2403.12024
Licence: https://creativecommons.org/licenses/by-nc-sa/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://aclanthology.org/2022.lrec-1.588.pdf
- https://aclanthology.org/2022.lrec-1.716/
- https://mt-class.org/jhu/lin10.html
- https://aclanthology.org/search/
- https://www.stat.gov.tw/public/Data/1112144316VT5YTOVB.pdf
- https://www.stat.gov.tw/public/Data/
- https://ip194097.ntcu.edu.tw/longthok/longthok.asp
- https://www.facebook.com/groups/922800454445724
- https://sutian.moe.edu.tw/zh-hant/
- https://pojbh.lib.ntnu.edu.tw/script/index.php
- https://stti.moe.edu.tw/?lang=sutgi
- https://taide.tw/
- https://github.com/i3thuan5/KeSi
- https://github.com/Taiwanese-Corpus/icorpus_ka1_han3-ji7
- https://github.com/Taiwanese-Corpus/icorpus
- https://docs.google.com/presentation/d/1xhKEywwJhv7H9o5P_j5A9Yt59fsm4nCLlcLcw7X4yhQ/edit#slide=id.g14a686beb81_0_251
- https://github.com/ckiplab/ckiptagger