Améliorer les modèles de langue féroïens grâce aux données scandinaves
Exploiter des données provenant de langues apparentées peut vraiment améliorer les modèles de langue féroïens.
― 8 min lire
Table des matières
Les modèles de langue multilingues ont fait de gros progrès pour aider les ordinateurs à comprendre plusieurs langues. Cependant, la plupart de ces modèles traitent chaque langue de la même manière, ce qui n'est pas la meilleure méthode pour toutes les langues, surtout celles qui ont moins de données, comme le féroïen.
Le féroïen est une petite langue qui fait partie de la famille des langues scandinaves, qui inclut des langues comme le danois, le norvégien, le suédois et l'islandais. Ces grandes langues ont souvent plus de données et de ressources disponibles pour entraîner des modèles de langue. Dans cette étude, on regarde comment utiliser les infos de ces langues proches peut améliorer les performances des modèles de langue pour le féroïen.
On a trouvé qu'en utilisant des données du danois, du norvégien, du suédois et de l'islandais, on peut rendre les modèles de langue pour le féroïen beaucoup meilleurs. Les résultats montrent que ces modèles fonctionnent beaucoup mieux quand ils utilisent des ressources de ces langues voisines plutôt que de se fier uniquement à de grands modèles multilingues.
Pour aider la langue féroïenne, on a créé une nouvelle collection en ligne de textes féroïens et de jeux de données pour des tâches spécifiques. Par exemple, on a préparé des jeux de données pour la Reconnaissance d'entités nommées, qui servent à identifier les noms de personnes, de lieux et d'objets dans le texte, et pour mesurer la similarité entre deux textes.
Informations de Contexte
Les modèles de langage sont des systèmes qui aident les ordinateurs à comprendre et à générer le langage humain. Ils peuvent être entraînés sur de grandes quantités de données textuelles. Le défi arrive quand on veut appliquer ces modèles à des langues à faibles ressources qui manquent de données suffisantes.
Des modèles comme mBERT et XLM-R sont populaires parce qu'ils peuvent gérer plusieurs langues en même temps. Cependant, ils se concentrent beaucoup sur les langues avec plein de données disponibles. Du coup, ils ne fonctionnent pas bien pour des langues qui n'ont pas beaucoup d'infos en ligne, comme le féroïen.
Les langues à faibles ressources sont souvent désavantagées parce qu'elles ont moins de ressources. Par exemple, de nombreuses langues régionales en Europe, y compris le féroïen, souffrent d'un manque de contenu numérique. Mais ces langues ont souvent des proches parents. Ça veut dire qu'on peut utiliser les données disponibles des langues sœurs à haute ressource pour améliorer les performances de la langue à faible ressource.
Dans ce travail, on se concentre sur le féroïen et sur comment utiliser les données des langues scandinaves peut aider son Modèle de langue. On croit que l'utilisation des ressources de langues parentes à haute ressource peut donner de meilleurs résultats que d'utiliser des modèles généraux limités par les contraintes de la multilingualité.
Collecte de Données pour le Féroïen
Créer un bon modèle de langue a besoin de données. Mais trouver suffisamment de données pour le féroïen peut être difficile à cause du petit nombre de locuteurs et de la présence en ligne limitée. Pour régler ça, on a profité des ressources disponibles des langues scandinaves connexes.
On a rassemblé beaucoup de textes féroïens provenant de différentes sources. Au total, on a constitué un corpus de 98 000 paragraphes de texte. Même si ça peut sembler petit par rapport aux données d'autres langues, c'est quand même utile pour entraîner des modèles.
En parallèle, on a créé des jeux de données spécifiques pour la reconnaissance d'entités nommées (NER) et la similarité sémantique des textes (STS). Pour le NER, on a parcouru la langue féroïenne et tagué des entités comme des noms et des lieux avec l'aide de locuteurs natifs. Pour le STS, on a produit des paires de phrases en anglais et en féroïen, notées pour leur similarité.
Entraînement du Modèle de Langue
Après ça, on a entraîné plusieurs modèles pour voir à quel point ils pouvaient apprendre le féroïen avec les nouveaux jeux de données. On a créé différents modèles, y compris ScandiBERT, qui a été entraîné sur toutes les langues scandinaves ensemble. On a aussi entraîné un modèle appelé DanskBERT en utilisant uniquement des données danoises.
Le processus d'entraînement consistait à ajuster ces modèles pour mieux comprendre le féroïen. On a découvert que le modèle ScandiBERT, qui a profité de toutes les langues scandinaves, fonctionnait mieux pour le féroïen que le modèle multilingue XLM-R. Ça souligne l'importance d'utiliser des langues voisines pour améliorer les modèles de langues peu ressources.
Résultats de l'Étude
On a réalisé une série de tests pour évaluer les performances des modèles de langue sur diverses tâches. Les tâches incluaient le balisage des parties du discours, l'analyse de dépendance, la reconnaissance d'entités nommées et la similarité sémantique des textes. Les résultats ont montré que les modèles entraînés avec des données de langues scandinaves surpassaient ceux qui n'utilisaient que de grands modèles multilingues.
Par exemple, le modèle ScandiBERT a produit d'excellents résultats pour la reconnaissance d'entités nommées, surpassant même des modèles qui incluaient des données féroïennes. Ça indique qu'utiliser des données de langues scandinaves proches aide à améliorer la compréhension de la langue féroïenne.
Les modèles ont aussi montré de meilleures performances quand ils étaient ajustés avec des données féroïennes. Ça prouve qu'une petite quantité de données ciblées peut entraîner des améliorations significatives.
Discussion
Globalement, nos résultats suggèrent que se concentrer sur des langues apparentées peut grandement améliorer les capacités des modèles destinés aux langues à faibles ressources comme le féroïen. Au lieu de s'appuyer uniquement sur de vastes modèles multilingues, on voit un bénéfice plus profond à examiner les langues étroitement liées pour obtenir du soutien en ressources.
Fait intéressant, certains modèles ont mieux fonctionné quand ils n'étaient pas directement entraînés sur des données féroïennes. À la place, ils se sont adaptés des modèles de langue de leurs proches. Ça suggère qu'utiliser des ressources de ces langues non seulement aide à apprendre le féroïen mais fournit aussi de meilleurs résultats en traduction et dans les tâches sémantiques.
Ça veut dire que le développement futur de modèles de langue pour les langues à faibles ressources devrait donner priorité à l'utilisation de données de parents linguistiques plutôt qu'à des modèles multilingues généraux qui ne répondent peut-être pas bien à ces langues.
Conclusion et Travaux Futurs
On a montré comment utiliser des données de langues étroitement liées peut améliorer les performances des modèles de langue pour les langues à faibles ressources. En se concentrant sur la famille des langues scandinaves, on a considérablement amélioré la performance de transfert vers le féroïen.
À l'avenir, on prévoit d'élargir nos recherches au-delà du féroïen et d'appliquer cette méthodologie à d'autres langues à faibles ressources qui ont des proches linguistiques riches. En faisant ça, on espère construire et soutenir plus de technologies linguistiques qui peuvent valoriser les langues à faibles ressources.
Pour soutenir la recherche continue, on a rendu disponibles les nouveaux modèles de langue et les jeux de données. Partager ces ressources aidera d'autres chercheurs dans le domaine à explorer et développer de meilleurs outils pour le féroïen et potentiellement d'autres langues similaires en besoin de soutien.
En tirant parti des avantages des proches linguistiques, on est confiant de pouvoir continuer à faire des progrès significatifs dans l'amélioration des modèles de langue pour les langues à faibles ressources et s'assurer qu'elles peuvent prospérer dans un monde de plus en plus numérique.
Titre: Transfer to a Low-Resource Language via Close Relatives: The Case Study on Faroese
Résumé: Multilingual language models have pushed state-of-the-art in cross-lingual NLP transfer. The majority of zero-shot cross-lingual transfer, however, use one and the same massively multilingual transformer (e.g., mBERT or XLM-R) to transfer to all target languages, irrespective of their typological, etymological, and phylogenetic relations to other languages. In particular, readily available data and models of resource-rich sibling languages are often ignored. In this work, we empirically show, in a case study for Faroese -- a low-resource language from a high-resource language family -- that by leveraging the phylogenetic information and departing from the 'one-size-fits-all' paradigm, one can improve cross-lingual transfer to low-resource languages. In particular, we leverage abundant resources of other Scandinavian languages (i.e., Danish, Norwegian, Swedish, and Icelandic) for the benefit of Faroese. Our evaluation results show that we can substantially improve the transfer performance to Faroese by exploiting data and models of closely-related high-resource languages. Further, we release a new web corpus of Faroese and Faroese datasets for named entity recognition (NER), semantic text similarity (STS), and new language models trained on all Scandinavian languages.
Auteurs: Vésteinn Snæbjarnarson, Annika Simonsen, Goran Glavaš, Ivan Vulić
Dernière mise à jour: 2023-04-18 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2304.08823
Source PDF: https://arxiv.org/pdf/2304.08823
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://huggingface.co/xlm-roberta-base
- https://huggingface.co/vesteinn/ScandiBERT
- https://huggingface.co/vesteinn/ScandiBERT-no-faroese
- https://huggingface.co/vesteinn/DanskBERT
- https://huggingface.co/vesteinn/FoBERT
- https://huggingface.co/datasets/vesteinn/FC3
- https://huggingface.co/datasets/vesteinn/sosialurin-faroese-ner
- https://huggingface.co/datasets/vesteinn/faroese-sts
- https://github.com/stofnun-arna-magnussonar/ordgreypingar_embeddings
- https://european-language-equality.eu/agenda/