Améliorer la reconnaissance des entités nommées dans les langues à faibles ressources
Un nouveau cadre améliore le traitement des langues pour les langues sous-représentées.
― 6 min lire
Table des matières
Les modèles de langage pré-entraînés ont fait de gros progrès dans les tâches linguistiques, surtout pour les langues avec beaucoup de données disponibles. Mais pour les langues avec moins de données ou celles pas représentées pendant l'entraînement, ces modèles ne performent pas aussi bien.
Pour relever ce défi, un nouveau cadre appelé Traduction-et-fusion a été introduit. Cette méthode traduit le texte des langues à faibles ressources en langues à fortes ressources, afin d'ajouter de meilleures Annotations grâce à des modèles entraînés sur plus de données. Après annotation, l'info est réintégrée dans la langue à faibles ressources.
Le but est d'améliorer la reconnaissance des Entités nommées-comme les personnes, les lieux et les organisations-dans des langues qui ont généralement moins d'infos disponibles. Le nouveau modèle a été testé sur deux jeux de données comprenant 25 langues différentes. Les résultats montrent une nette amélioration par rapport à d'autres systèmes.
L'Importance des Modèles Multilingues
Les récents développements dans les modèles de langage supportant plusieurs langues sont devenus une stratégie populaire pour les tâches interlinguales. Ces modèles peuvent gérer plein de langues et bien performer dans celles qui sont étroitement liées. Cependant, quand il s'agit de reconnaître des entités dans des langues à faibles ressources, la performance a tendance à chuter significativement.
Beaucoup de chercheurs ont regardé comment adapter ces modèles multilingues pour mieux travailler avec les langues qui n’étaient pas incluses dans l’entraînement original. Ça implique souvent de réentraîner les modèles avec du texte disponible dans ces langues, mais ça peut poser des problèmes, comme oublier ce que le modèle avait appris au départ.
Les avancées en Traduction automatique ont ouvert de nouvelles opportunités pour aider les langues avec moins de données. En utilisant la traduction automatique, il devient plus facile de créer les jeux de données nécessaires pour l'entraînement.
Le Cadre Traduction-et-Fusion
Ce cadre suit trois étapes clés :
- Traduire : Convertir le texte en langue à faibles ressources en une langue à fortes ressources.
- Annoter : Utiliser un modèle entraîné pour étiqueter le texte traduit.
- Fusionner : Combiner les annotations des données des langues à fortes et faibles ressources pour améliorer les prédictions.
Un modèle est proposé qui intègre les données des deux langues pour produire des résultats plus précis.
Entraînement et Jeux de Données
Pour entraîner le nouveau modèle, il faut des phrases parallèles avec annotations. Ça implique de traduire des jeux de données en langue à fortes ressources en langues à faibles ressources tout en étiquetant les traductions. En combinant ces traductions avec les textes originaux, un jeu de données d'entraînement solide est créé.
Le modèle est entraîné en utilisant un mélange des deux ensembles de données, menant à des prédictions plus précises.
Deux jeux de données spécifiques ont été choisis pour cette étude : MasakhaNER2.0, qui se concentre sur les langues africaines, et LORELEI NER, qui examine les langues à faibles ressources dans des situations d'urgence. Les deux jeux de données aident à évaluer la performance du modèle plus efficacement.
Le Rôle de la Traduction Automatique
Au cœur du cadre Traduction-et-fusion se trouve la traduction automatique. Le modèle de traduction choisi peut traduire entre une large gamme de langues, soutenant les objectifs du cadre. En utilisant ce modèle pendant l'analyse, les chercheurs peuvent évaluer l'efficacité de la méthode Traduction-et-fusion avec différentes tailles de traduction.
La qualité de la traduction est cruciale car elle affecte le résultat global de la tâche de reconnaissance. Les bonnes traductions mènent à de meilleures annotations, ce qui à son tour améliore les prédictions.
Résultats et Conclusions
Après avoir évalué la méthode proposée, on a constaté qu'elle surpasse constamment les systèmes existants dans la reconnaissance des entités. Le nouveau modèle a montré des effets significatifs sur l'amélioration de la performance globale, indiquant qu'utiliser une combinaison de traductions et d'annotations peut mener à de meilleurs résultats dans des scénarios à faibles ressources.
L'analyse a révélé que le modèle proposé est efficace même face à des erreurs provenant des traductions et des annotations. Cette robustesse est essentielle pour garantir une performance fiable à travers différentes langues.
De plus, l'étude a exploré comment combiner des informations de plusieurs langues peut encore améliorer les résultats. Utiliser d'autres langues à fortes ressources pendant la phase d'entraînement a aidé à booster les capacités prédictives du modèle.
Défis et Considérations
Bien que le cadre Traduction-et-fusion offre plusieurs avantages, il introduit aussi des étapes supplémentaires pendant le processus de test, comme la traduction et l'annotation. Ça peut entraîner des délais, ce qui est un compromis que les praticiens doivent prendre en compte.
Utiliser des systèmes comme ChatGPT peut aussi aider à reconnaître des entités sans entraînement préalable dans des langues spécifiques. Le modèle a montré du potentiel pour réaliser des tâches en langues à faibles ressources, mais il est encore derrière les modèles entièrement supervisés.
Conclusion
En résumé, le cadre Traduction-et-fusion représente un pas en avant significatif pour améliorer la reconnaissance des entités nommées dans les langues à faibles ressources. En tirant parti des traductions et en combinant soigneusement les annotations de données, le modèle peut produire des résultats plus précis. L'examen continu de cette méthode indique qu'il y a plein de possibilités pour d'autres améliorations et applications dans les tâches de traitement linguistique.
Au fur et à mesure que plus de langues et de jeux de données variés deviennent disponibles, les efforts continus dans ce domaine aideront à combler le fossé pour les langues qui manquent actuellement de ressources suffisantes. Cette approche peut ouvrir la voie à une meilleure communication et compréhension à travers des paysages linguistiques divers.
Titre: Translation and Fusion Improves Zero-shot Cross-lingual Information Extraction
Résumé: Large language models (LLMs) combined with instruction tuning have shown significant progress in information extraction (IE) tasks, exhibiting strong generalization capabilities to unseen datasets by following annotation guidelines. However, their applicability to low-resource languages remains limited due to lack of both labeled data for fine-tuning, and unlabeled text for pre-training. In this paper, we propose TransFusion, a framework in which models are fine-tuned to use English translations of low-resource language data, enabling more precise predictions through annotation fusion. Based on TransFusion, we introduce GoLLIE-TF, a cross-lingual instruction-tuned LLM for IE tasks, designed to close the performance gap between high and low-resource languages. Our experiments across twelve multilingual IE datasets spanning 50 languages demonstrate that GoLLIE-TF achieves better zero-shot cross-lingual transfer over the base model. In addition, we show that TransFusion significantly improves low-resource language named entity recognition when applied to proprietary models such as GPT-4 (+5 F1) with a prompting approach, or fine-tuning different language models including decoder-only (+14 F1) and encoder-only (+13 F1) architectures.
Auteurs: Yang Chen, Vedaant Shah, Alan Ritter
Dernière mise à jour: 2024-06-20 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2305.13582
Source PDF: https://arxiv.org/pdf/2305.13582
Licence: https://creativecommons.org/licenses/by-sa/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.