Créer un jeu de données pour les langues africaines en NLP
Créer un ensemble de données complet pour classifier les sujets d'actualités en langues africaines.
― 6 min lire
Table des matières
- Création d'un Nouveau Jeu de Données
- Processus d'Annotation des Données
- Mesurer la Qualité de l'Annotation
- Comprendre la Classification des Sujets d'Actualité
- Modèles de Référence
- Résultats de l'Expérience
- Apprentissage Zero-Shot et Few-Shot
- Méthodes pour l'Apprentissage Zero-Shot et Few-Shot
- Évaluation des Méthodes Zero-Shot
- Évaluation des Méthodes Few-Shot
- Résumé des Principales Conclusions
- Directions Futures
- Conclusion
- Source originale
- Liens de référence
Les Langues africaines ont été laissées de côté dans le monde de la tech, surtout en Traitement Automatique des Langues (TAL). Y'a pas assez de Jeux de données pour soutenir les diverses tâches liées à ces langues. Bien qu’il existe quelques jeux de données pour certaines langues, il n'y a que quelques-uns qui couvrent des tâches importantes comme identifier des noms ou faire des traductions. Cet article vise à résoudre ce problème en créant un nouveau jeu de données pour catégoriser les sujets d'actualité dans 16 langues largement parlées en Afrique.
Création d'un Nouveau Jeu de Données
Le but de ce projet est de rassembler un jeu de données pour des articles de presse qui peut aider à classifier des sujets dans différentes langues africaines. Le jeu inclut des langues comme l'anglais et le français, ainsi que d'autres langues locales. L’équipe a produit ce jeu de données en collectant des articles de presse provenant de différentes sources comme la BBC et Voice of America. Ils ont rassemblé entre 2 000 et 12 000 articles pour chaque langue, selon la disponibilité.
Pour classer ces articles, ils se sont concentrés sur six principaux sujets : affaires, divertissement, santé, politique, sports et technologie. Ils voulaient s'assurer qu'il y avait assez d'articles pour chaque catégorie, en visant environ 3 000 articles au total. Ils ont aussi créé des étiquettes pour les articles qui ne rentraient pas dans ces catégories.
Processus d'Annotation des Données
Un groupe de bénévoles de la communauté Masakhane a aidé à étiqueter les articles dans les catégories choisies. Le processus d'étiquetage s'est déroulé en deux étapes. Dans la première étape, les annotateurs ont étiqueté les 200 premiers articles selon leur compréhension. Dans la seconde étape, ils ont utilisé un modèle entraîné pour faire des prédictions sur le reste des articles, ensuite corrigées par les annotateurs. Ce processus a rendu l'étiquetage plus rapide et efficace.
Mesurer la Qualité de l'Annotation
Pour s'assurer que l'étiquetage était fiable, l'équipe a calculé un score d'accord parmi les annotateurs. Ils ont trouvé que l'accord était élevé, indiquant que l'étiquetage était cohérent entre différents annotateurs.
Comprendre la Classification des Sujets d'Actualité
La classification des sujets d'actualité est un type de classification de texte qui consiste à trier des articles de presse en différentes catégories. Cela a été utilisé dans divers modèles d'apprentissage automatique pour comprendre à quel point ils peuvent bien réaliser des tâches liées à la détermination du sujet d'un article d'actualité. Ces tâches sont importantes pour évaluer à quel point les systèmes d'apprentissage automatique peuvent gérer différents types de données.
Modèles de Référence
L'équipe a entraîné plusieurs modèles pour établir une base de référence pour évaluer leur nouveau jeu de données. Ils ont utilisé trois modèles d'apprentissage automatique classiques : Naive Bayes, perceptron multicouche et XGBoost. Ils ont aussi affiné divers modèles linguistiques pour observer comment ils pouvaient classifier les articles. Les résultats ont montré que les modèles d'apprentissage automatique avaient tendance à moins bien performer que les modèles linguistiques affinés dans la plupart des cas.
Résultats de l'Expérience
Les résultats ont montré que les modèles plus grands ont mieux performé, surtout quand ils étaient entraînés sur une plus grande variété de langues. Ils ont découvert que certains modèles, comme AfroXLMR, ont obtenu les meilleurs résultats parce qu'ils étaient plus familiers avec les langues analysées.
La performance variait en fonction de la langue et de la quantité de données d'entraînement disponibles. Pour certaines langues moins bien représentées dans l'entraînement, les modèles d'apprentissage automatique traditionnels ont surpassé les modèles linguistiques.
Apprentissage Zero-Shot et Few-Shot
En plus des méthodes d'entraînement traditionnelles, l'équipe a exploré des méthodes d'apprentissage zero-shot et few-shot. L'apprentissage zero-shot signifie que le modèle fait des prédictions dans une langue qu'il n'a jamais vue auparavant. L'apprentissage few-shot fait référence à l'entraînement de modèles en utilisant seulement un petit nombre d'exemples. Ces approches peuvent faire gagner du temps et des ressources, les rendant cruciales pour les langues avec moins de données disponibles.
Méthodes pour l'Apprentissage Zero-Shot et Few-Shot
L'équipe a utilisé plusieurs méthodes pour mettre en œuvre ces techniques d'apprentissage. Ils ont expérimenté différentes stratégies comme le Prompting Language Models, le fine-tuning interlingual efficace en paramètres et l'entraînement exploitant des motifs. Ces stratégies visaient à améliorer la manière dont les modèles pouvaient travailler avec des données limitées.
Évaluation des Méthodes Zero-Shot
En évaluant comment les modèles ont performé dans des contextes zero-shot, l'équipe a constaté que le transfert interlingual - utilisant des connaissances d'une langue pour améliorer les prédictions dans une autre - a donné des résultats réussis. Certaines combinaisons de langues ont mieux fonctionné que d'autres. Par exemple, utiliser le swahili comme langue source a prouvé plus efficace que le haoussa pour faire des prédictions pour l'anglais ou le français.
Évaluation des Méthodes Few-Shot
Pour l'apprentissage few-shot, l'équipe a examiné comment les modèles pouvaient classifier des articles avec seulement quelques exemples. Ils ont trouvé que les modèles performaient mieux que les méthodes d'entraînement traditionnelles pour la plupart des langues, surtout à mesure que le nombre d'exemples augmentait. Cela a montré l'importance d'avoir même un petit nombre d'exemples étiquetés pour guider le processus d'apprentissage du modèle.
Résumé des Principales Conclusions
En résumé, créer un jeu de données pour classifier des sujets d'actualité dans les langues africaines comble une lacune significative dans la recherche en TAL. Les expériences ont montré qu'avec les bonnes techniques, il est possible d'obtenir des résultats impressionnants dans les scénarios zero-shot et few-shot. Ces découvertes encouragent plus de recherche et développement dans le domaine pour les langues à faibles ressources.
Directions Futures
L'article souligne le besoin de plus de jeux de données dans les langues africaines et cherche à élargir ce travail. Les efforts futurs viseront à inclure plus de langues et à appliquer ces découvertes à d'autres tâches en TAL, comme l'analyse de sentiments. L'espoir est que ces avancées soutiendront la croissance des technologies TAL qui sont plus inclusives pour toutes les langues.
Conclusion
La création du jeu de données de classification des sujets d'actualité représente une avancée importante pour étendre les capacités de l'apprentissage automatique aux langues africaines. Les résultats démontrent une solide base pour une exploration et un raffinement supplémentaires des méthodes TAL adaptées à ces langues. En continuant ce travail, les chercheurs peuvent aider à garantir que toutes les voix soient représentées dans le paysage numérique.
Titre: MasakhaNEWS: News Topic Classification for African languages
Résumé: African languages are severely under-represented in NLP research due to lack of datasets covering several NLP tasks. While there are individual language specific datasets that are being expanded to different tasks, only a handful of NLP tasks (e.g. named entity recognition and machine translation) have standardized benchmark datasets covering several geographical and typologically-diverse African languages. In this paper, we develop MasakhaNEWS -- a new benchmark dataset for news topic classification covering 16 languages widely spoken in Africa. We provide an evaluation of baseline models by training classical machine learning models and fine-tuning several language models. Furthermore, we explore several alternatives to full fine-tuning of language models that are better suited for zero-shot and few-shot learning such as cross-lingual parameter-efficient fine-tuning (like MAD-X), pattern exploiting training (PET), prompting language models (like ChatGPT), and prompt-free sentence transformer fine-tuning (SetFit and Cohere Embedding API). Our evaluation in zero-shot setting shows the potential of prompting ChatGPT for news topic classification in low-resource African languages, achieving an average performance of 70 F1 points without leveraging additional supervision like MAD-X. In few-shot setting, we show that with as little as 10 examples per label, we achieved more than 90\% (i.e. 86.0 F1 points) of the performance of full supervised training (92.6 F1 points) leveraging the PET approach.
Auteurs: David Ifeoluwa Adelani, Marek Masiak, Israel Abebe Azime, Jesujoba Alabi, Atnafu Lambebo Tonja, Christine Mwase, Odunayo Ogundepo, Bonaventure F. P. Dossou, Akintunde Oladipo, Doreen Nixdorf, Chris Chinenye Emezue, sana al-azzawi, Blessing Sibanda, Davis David, Lolwethu Ndolela, Jonathan Mukiibi, Tunde Ajayi, Tatiana Moteu, Brian Odhiambo, Abraham Owodunni, Nnaemeka Obiefuna, Muhidin Mohamed, Shamsuddeen Hassan Muhammad, Teshome Mulugeta Ababu, Saheed Abdullahi Salahudeen, Mesay Gemeda Yigezu, Tajuddeen Gwadabe, Idris Abdulmumin, Mahlet Taye, Oluwabusayo Awoyomi, Iyanuoluwa Shode, Tolulope Adelani, Habiba Abdulganiyu, Abdul-Hakeem Omotayo, Adetola Adeeko, Abeeb Afolabi, Anuoluwapo Aremu, Olanrewaju Samuel, Clemencia Siro, Wangari Kimotho, Onyekachi Ogbu, Chinedu Mbonu, Chiamaka Chukwuneke, Samuel Fanijo, Jessica Ojo, Oyinkansola Awosan, Tadesse Kebede, Toadoum Sari Sakayo, Pamela Nyatsine, Freedmore Sidume, Oreen Yousuf, Mardiyyah Oduwole, Tshinu Tshinu, Ussen Kimanuka, Thina Diko, Siyanda Nxakama, Sinodos Nigusse, Abdulmejid Johar, Shafie Mohamed, Fuad Mire Hassan, Moges Ahmed Mehamed, Evrard Ngabire, Jules Jules, Ivan Ssenkungu, Pontus Stenetorp
Dernière mise à jour: 2023-09-20 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2304.09972
Source PDF: https://arxiv.org/pdf/2304.09972
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://github.com/goodfeli/dlbook_notation
- https://github.com/masakhane-io/masakhane-news
- https://scikit-learn.org/stable/
- https://pypi.org/project/pytorch-lightning/
- https://cohere.ai/
- https://docs.cohere.ai/docs/text-classification-with-classify
- https://openai.com/blog/chatgpt
- https://chat.openai.com/chat
- https://huggingface.co/facebook/nllb-200-distilled-600M