Simple Science

La science de pointe expliquée simplement

# Informatique# Calcul et langage# Intelligence artificielle# Recherche d'informations

Nouveau jeu de données pour répondre à des questions en langues africaines

Un ensemble de données vise à améliorer les réponses aux questions dans les langues africaines.

― 8 min lire


Jeu de données QA sur lesJeu de données QA sur leslangues africaineslangues locales.Améliorer l'accès à l'info dans les
Table des matières

Cet article parle d'un nouveau jeu de données conçu pour le questionnement dans les Langues africaines. On va comparer ce jeu de données avec d'autres déjà existants pour souligner ses caractéristiques uniques.

Aperçu des Jeux de données existants

Beaucoup de jeux de données pour le questionnement se concentrent principalement sur l'anglais et quelques autres langues à forte ressource. Ça veut dire que les langues africaines ont été largement ignorées dans ce domaine. Le jeu de données actuel vise à combler ce vide en proposant un jeu de données de questionnement multilingue spécifiquement pour les langues africaines.

Caractéristiques du nouveau jeu de données

Le nouveau jeu de données contient plus de 12 000 paires question-réponse dans dix langues africaines. C'est important car c'est le premier jeu de données axé sur le questionnement multilingue pour ces langues. Beaucoup de jeux de données existants n'incluent pas les langues africaines ou ne les présentent que marginalement.

Le jeu de données est conçu pour être utile dans des applications réelles. Les questions sont générées en langues africaines et les réponses proviennent de langues à forte ressource comme l'anglais ou le français. Cette approche permet de mieux couvrir les Informations disponibles.

Importance des langues locales

Avoir des systèmes de questionnement qui répondent aux langues locales est crucial. Beaucoup de gens préfèrent l'information dans leur langue maternelle. En développant ce jeu de données, les chercheurs visent à améliorer l'accès à l'information pour les locuteurs de langues africaines.

C'est particulièrement important dans divers domaines, comme la santé et les questions juridiques, où de nombreuses communautés ont besoin d'informations fiables qui pourraient ne pas être facilement disponibles dans leurs langues locales.

Comparaison avec d'autres jeux de données

En comparant ce nouveau jeu de données avec ceux existants, il est clair que la plupart d'entre eux se concentrent sur l'anglais et d'autres langues à forte ressource. Par exemple, le jeu de données TyDi QA n'inclut que le swahili comme langue africaine représentative. D'autres jeux de données qui incluent des langues africaines tendent à être générés de manière synthétique et ne sont pas axés sur le questionnement.

En revanche, le nouveau jeu de données inclut une variété de langues africaines et utilise des questions réelles qui sont pertinentes pour les locuteurs de ces langues.

Défis pour les langues africaines dans le contenu numérique

Un défi important auquel font face les systèmes de questionnement dans les langues africaines est le manque de contenu numérique. Beaucoup de langues africaines n'ont pas assez de matériel en ligne, ce qui peut limiter la capacité des systèmes de QA à récupérer des informations utiles.

Pour répondre à ce défi, le nouveau jeu de données utilise des techniques de récupération ouverte multilingues. Cette méthode permet de récupérer des informations pertinentes à partir de langues à forte ressource tout en maintenant l'accent sur les langues africaines.

Structure du jeu de données

Le jeu de données est structuré pour faciliter son utilisation dans diverses applications. Les questions sont conçues pour être ouvertes et chercher des informations, ce qui est la façon dont les vrais utilisateurs interagissent généralement avec les systèmes de questionnement. Ce fonctionnement contraste avec les tâches de compréhension de lecture traditionnelles où les questions sont préparées avec les réponses déjà en tête.

Diversité linguistique

Les langues africaines sont incroyablement diverses, chacune ayant ses structures grammaticales, phonologie et typologies uniques. Ce jeu de données prend en compte ces différences lors de la formulation des questions, garantissant que la langue utilisée est appropriée pour chaque groupe spécifique.

Processus de collecte de données

Le jeu de données a été créé par des équipes de locuteurs natifs pour chacune des dix langues. Le processus de collecte de données a impliqué plusieurs étapes :

  1. Élicitation des questions : Les membres de l'équipe ont généré des questions basées sur des propositions des articles Wikipedia les plus populaires dans leurs langues.
  2. Traduction : Les questions ont été traduites dans une langue pivot, généralement l'anglais ou le français.
  3. Étiquetage des réponses : Des paragraphes pertinents dans la langue pivot ont été identifiés comme réponses potentielles.
  4. Traduction des réponses : Les réponses ont ensuite été traduites de nouveau dans les langues africaines d'origine.

Cette approche en plusieurs étapes garantit que les questions et réponses sont pertinentes et reflètent avec précision les propriétés linguistiques de chaque langue.

Mesures de contrôle de qualité

Pour maintenir la qualité du jeu de données, des mesures strictes de contrôle de qualité ont été mises en place à chaque étape. Des locuteurs natifs ont été choisis comme annotateurs, assurant l'exactitude linguistique tout au long du processus.

Les annotateurs ont suivi une formation pour s'assurer que les questions étaient factuelles et que les réponses n'étaient pas incluses dans les propositions. C'est important pour éviter les chevauchements qui pourraient fausser les résultats.

Aperçu statistique

Le jeu de données final comprend 12 239 questions dans dix langues africaines différentes, avec un taux de couverture des réponses élevé. L'équipe a pu répondre à plus de 60 % des questions dans la plupart des langues, soulignant l'efficacité de leurs méthodes de récupération.

Tâches et bases de référence

Le jeu de données est évalué sur diverses tâches liées au questionnement. Chaque tâche pose des défis différents étant donné la nature à faible ressource de nombreuses langues africaines.

  1. XOR-Récupérer : Cette tâche se concentre sur la récupération de passages pertinents dans la base de données.
  2. XOR-LanguePivotTranche : Cette tâche vise à localiser une réponse dans la même langue que la question, ce qui est plus complexe.
  3. XOR-Complet : Cela implique l'intégralité du pipeline de traduction de questions à l'extraction de réponses.

Systèmes de traduction utilisés

La traduction joue un rôle crucial dans le questionnement multilingue. Différents systèmes de traduction ont été testés pour voir à quel point ils pouvaient traduire des questions des langues africaines en langues pivots et vice versa.

  1. Traduction humaine : La meilleure performance a été observée avec des traductions humaines.
  2. Google Translate : Disponible pour beaucoup de langues mais pas pour toutes dans le jeu de données.
  3. Modèles open-source : Des systèmes comme NLLB et M2M-100 ajustés ont également été évalués.

Ces systèmes ont été comparés en fonction de leur précision à localiser des passages pertinents et à traduire des réponses.

Résultats de récupération et prédiction de réponses

Le jeu de données montre des résultats prometteurs. Les méthodes de récupération hybrides qui combinent des traductions humaines avec des modèles de récupération donnent souvent les meilleurs résultats.

Pour les tâches dequestionnement, utiliser des requêtes traduites par des humains a généralement surpassé les traductions automatiques, indiquant qu'il y a encore un écart dans la qualité de la traduction automatique pour les langues africaines.

Directions futures

La création de ce jeu de données ouvre de nouvelles voies pour la recherche dans le questionnement et le traitement du langage naturel pour les langues africaines. Ça encourage d'autres études pour améliorer la technologie qui s'adresse à ces langues et communautés.

En améliorant l'accès au contenu numérique dans les langues locales, le projet vise à promouvoir l'inclusivité et la diversité linguistique dans la technologie.

Conclusion

En conclusion, ce nouveau jeu de données est un pas en avant significatif dans le développement de systèmes de questionnement pour les langues africaines. Son accent sur la pertinence dans le monde réel, sa couverture linguistique étendue et son contrôle de qualité approfondi en font une ressource précieuse pour les chercheurs et développeurs dans le domaine du traitement du langage naturel.

Le succès de ce jeu de données pourrait encourager d'autres développements visant à démocratiser l'accès à l'information et à soutenir les langues sous-représentées dans l'espace numérique.

Source originale

Titre: AfriQA: Cross-lingual Open-Retrieval Question Answering for African Languages

Résumé: African languages have far less in-language content available digitally, making it challenging for question answering systems to satisfy the information needs of users. Cross-lingual open-retrieval question answering (XOR QA) systems -- those that retrieve answer content from other languages while serving people in their native language -- offer a means of filling this gap. To this end, we create AfriQA, the first cross-lingual QA dataset with a focus on African languages. AfriQA includes 12,000+ XOR QA examples across 10 African languages. While previous datasets have focused primarily on languages where cross-lingual QA augments coverage from the target language, AfriQA focuses on languages where cross-lingual answer content is the only high-coverage source of answer content. Because of this, we argue that African languages are one of the most important and realistic use cases for XOR QA. Our experiments demonstrate the poor performance of automatic translation and multilingual retrieval methods. Overall, AfriQA proves challenging for state-of-the-art QA models. We hope that the dataset enables the development of more equitable QA technology.

Auteurs: Odunayo Ogundepo, Tajuddeen R. Gwadabe, Clara E. Rivera, Jonathan H. Clark, Sebastian Ruder, David Ifeoluwa Adelani, Bonaventure F. P. Dossou, Abdou Aziz DIOP, Claytone Sikasote, Gilles Hacheme, Happy Buzaaba, Ignatius Ezeani, Rooweither Mabuya, Salomey Osei, Chris Emezue, Albert Njoroge Kahira, Shamsuddeen H. Muhammad, Akintunde Oladipo, Abraham Toluwase Owodunni, Atnafu Lambebo Tonja, Iyanuoluwa Shode, Akari Asai, Tunde Oluwaseyi Ajayi, Clemencia Siro, Steven Arthur, Mofetoluwa Adeyemi, Orevaoghene Ahia, Anuoluwapo Aremu, Oyinkansola Awosan, Chiamaka Chukwuneke, Bernard Opoku, Awokoya Ayodele, Verrah Otiende, Christine Mwase, Boyd Sinkala, Andre Niyongabo Rubungo, Daniel A. Ajisafe, Emeka Felix Onwuegbuzia, Habib Mbow, Emile Niyomutabazi, Eunice Mukonde, Falalu Ibrahim Lawan, Ibrahim Said Ahmad, Jesujoba O. Alabi, Martin Namukombo, Mbonu Chinedu, Mofya Phiri, Neo Putini, Ndumiso Mngoma, Priscilla A. Amuok, Ruqayya Nasir Iro, Sonia Adhiambo

Dernière mise à jour: 2023-05-11 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2305.06897

Source PDF: https://arxiv.org/pdf/2305.06897

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires