Pirá 2.0 : Faire avancer la recherche océanique grâce aux modèles linguistiques
Un nouveau jeu de données améliore la compréhension de la science des océans et du climat par l'apprentissage automatique.
― 8 min lire
Table des matières
Pirá 2.0 est un ensemble de données conçu pour aider les chercheurs et les modèles d'apprentissage automatique à comprendre des sujets liés à l'océan, à la côte brésilienne et au changement climatique. Il est composé de textes scientifiques provenant de divers rapports et résumés, offrant un large éventail d'informations. Cet ensemble de données est particulièrement utile pour tester la capacité des machines à gérer des questions scientifiques complexes. Cependant, avant ce projet, il n'y avait pas de normes claires pour évaluer son utilisation.
Aperçu de l'ensemble de données
L'ensemble de données original Pirá, connu sous le nom de Pirá 1.0, incluait des textes en portugais et en anglais. Il contenait des questions demandant des informations spécifiques ainsi que des réponses dérivées des textes de soutien. Pirá 2.0 améliore cela en corrigeant des problèmes grammaticaux, en ajoutant de nouvelles fonctionnalités et en s'attaquant à certaines limitations de la version précédente.
Le nouvel ensemble de données comprend maintenant :
- Des traductions de textes de l'anglais vers le portugais.
- Des étiquettes pour indiquer si une question peut être répondue en se basant sur le texte donné.
- Des paraphrases générées automatiquement de questions et de réponses.
- Des alternatives à choix multiples pour chaque question.
Ces ajouts améliorent l'utilité de l'ensemble de données pour diverses tâches de traitement du langage.
Référentiels
Pour tirer pleinement parti de l'ensemble de données Pirá 2.0, six référentiels ont été définis. Chacun de ces référentiels teste un aspect différent du traitement du langage :
Réponse à des questions génératives fermées (CGQA) : Cela teste si un modèle peut fournir des réponses correctes à des questions en se basant uniquement sur ses connaissances, sans aucun contexte provenant du texte.
Compréhension de lecture par machine (MRC) : Dans ce référentiel, une question et un texte de soutien sont fournis. Le modèle doit extraire une réponse du texte.
Recherche d'information (IR) : Ici, le modèle doit trouver des textes de soutien pertinents dans sa base de données qui peuvent répondre à une question.
Réponse à des questions ouvertes (OQA) : Cela implique à la fois la récupération de textes pertinents et la génération d'une réponse basée sur ces textes.
Déclenchement de réponse (AT) : Cette tâche détermine si une question peut être répondue en se basant sur le contexte fourni, cherchant à éviter des réponses trompeuses.
Réponse à choix multiples (MCQA) : Dans cette situation, plusieurs réponses possibles sont données pour une question, et le modèle doit sélectionner la bonne parmi les choix disponibles.
Pirá 1.0 vs. Pirá 2.0
Pirá 1.0 avait plusieurs domaines nécessitant des améliorations. Il était nécessaire de corriger les erreurs grammaticales et de s'assurer que les entrées n'étaient pas répétées. En plus de corriger ces problèmes, Pirá 2.0 a introduit de nombreuses nouvelles fonctionnalités :
- Les traductions ont facilité la gestion des questions dans les deux langues de manière efficace.
- L'ajout d'étiquettes de réponse aide les modèles à décider s'ils devraient essayer de répondre à une question ou non.
- Les paraphrases automatiques servent de ressource utile pour former les modèles et améliorer leurs compétences linguistiques.
- L'option de choix multiples encourage plus d'engagement de la part des modèles et ajoute de la profondeur à la manière dont les réponses peuvent être évaluées.
Construction de l'ensemble de données
La construction de l'ensemble de données original a impliqué plusieurs étapes, essentielles pour comprendre comment l'ensemble de données Pirá a évolué.
Collecte de corpus
Deux principales sources d'information ont été utilisées pour collecter des textes liés à l'océan. L'une était une base de données scientifique fournissant des résumés sur la côte brésilienne, et l'autre se composait d'extraits de rapports d'organisations internationales.
Création de questions et de réponses
Des annotateurs ont pris les textes de soutien et ont élaboré des questions, en veillant à ce qu'elles soient pertinentes et significatives. Ils ont créé des questions en portugais et en anglais. L'équipe a utilisé des outils de traduction automatique mais a toujours vérifié la précision des traductions.
Édition et évaluation
Les questions et réponses créées ont été soigneusement examinées pour déceler toute erreur d'orthographe ou de grammaire. Les annotateurs ont veillé à ce que seules des paires question-réponse de haute qualité figurent dans l'ensemble de données final. Ils ont évalué chaque ensemble QA pour s'assurer qu'ils étaient significatifs et pertinents.
Processus de validation
Les annotateurs ont également dû fournir des réponses de validation aux questions créées, permettant une série de vérifications de qualité. Ce processus a permis de s'assurer que les paires QA étaient précises et utiles.
Décomposition des référentiels
Chaque référentiel présente un défi unique, et différents modèles ont été testés dans chaque référentiel pour obtenir des résultats significatifs. Plongeons plus profondément dans ces référentiels.
Réponse à des questions génératives fermées (CGQA)
Ce référentiel se concentrait sur la mesure de la capacité des différents modèles à générer des réponses sans contexte préalable.
Dans les tests pour ces référentiels, différentes versions de T5 et de modèles de langage large comme GPT-3 et GPT-4 ont été utilisés. Les modèles devaient générer des réponses basées uniquement sur les questions, sans aucun contexte supplémentaire provenant des textes de soutien.
Compréhension de lecture par machine (MRC)
Dans cette section, des questions et des textes pertinents étaient fournis aux modèles. La tâche était de répondre avec des réponses précises basées sur les informations textuelles.
Des références humaines ont été établies pour mesurer l'efficacité des modèles. Il était évident que, bien que les modèles s'améliorent, ils manquaient encore de saisir pleinement les complexités présentes dans les données.
Recherche d'information (IR)
Pour le référentiel IR, les modèles devaient identifier les textes de soutien pertinents pour des questions données. L'objectif était de déterminer si le bon texte de soutien était inclus dans leurs récupérations.
Différentes approches ont été testées, et il a été montré que certaines méthodes comme BM25 surpassaient d'autres dans la récupération efficace d'informations utiles.
Réponse à des questions ouvertes (OQA)
L'OQA combinait des tâches de récupération et de compréhension, présentant un scénario plus complexe à analyser pour les modèles. L'efficacité des modèles variait considérablement en fonction de leurs capacités à identifier des informations pertinentes dans de grands textes.
Déclenchement de réponse (AT)
Dans l'AT, l'accent était mis sur la détermination de la possibilité de répondre à une question en fonction du contexte fourni. Ce référentiel est crucial car il empêche les modèles de faire des affirmations incorrectes.
Les modèles devaient démontrer qu'ils pouvaient discerner quand s'abstenir de répondre à une question, ce qui est important pour maintenir la fiabilité de l'information.
Réponse à choix multiples (MCQA)
Le MCQA exigeait que les modèles sélectionnent la bonne réponse parmi un ensemble d'alternatives. Une tâche MCQA réussie reposait fortement sur la capacité des modèles à faire la distinction entre des réponses similaires mais incorrectes.
La création de cet ensemble de données a été difficile, mais elle était essentielle pour fournir une compréhension complète des capacités de l'ensemble de données, permettant de meilleures évaluations et améliorations dans les modèles futurs.
Résumé des résultats
Dans l'ensemble, bien que divers modèles aient montré du potentiel dans différents référentiels, ils ont également rencontré des défis. Les résultats des référentiels étaient souvent inférieurs à ceux d'autres ensembles de données bien connus, soulignant la nature exigeante des questions et la complexité des textes sous-jacents.
Pirá 2.0 sert d'outil important pour évaluer comment les machines interagissent avec des textes scientifiquement denses. Cela encourage une exploration plus approfondie des tâches de traitement du langage et de compréhension dans un contexte souvent sous-représenté.
Directions futures
En avançant, il y a de la place pour des recherches et améliorations supplémentaires :
- Plus de données devraient être incorporées pour enrichir l'ensemble de données et améliorer la formation des modèles.
- Combiner des modèles plus petits avec des modèles de langage plus grands peut offrir des opportunités intéressantes pour de meilleures performances dans la réponse à des questions complexes.
- Des ajustements continus à l'ensemble de données garantiront qu'il reste pertinent et précieux pour les recherches futures.
Grâce à une étude et une exploration continues, Pirá 2.0 a le potentiel de contribuer significativement à la compréhension du traitement du langage dans les domaines scientifiques.
Titre: Benchmarks for Pir\'a 2.0, a Reading Comprehension Dataset about the Ocean, the Brazilian Coast, and Climate Change
Résumé: Pir\'a is a reading comprehension dataset focused on the ocean, the Brazilian coast, and climate change, built from a collection of scientific abstracts and reports on these topics. This dataset represents a versatile language resource, particularly useful for testing the ability of current machine learning models to acquire expert scientific knowledge. Despite its potential, a detailed set of baselines has not yet been developed for Pir\'a. By creating these baselines, researchers can more easily utilize Pir\'a as a resource for testing machine learning models across a wide range of question answering tasks. In this paper, we define six benchmarks over the Pir\'a dataset, covering closed generative question answering, machine reading comprehension, information retrieval, open question answering, answer triggering, and multiple choice question answering. As part of this effort, we have also produced a curated version of the original dataset, where we fixed a number of grammar issues, repetitions, and other shortcomings. Furthermore, the dataset has been extended in several new directions, so as to face the aforementioned benchmarks: translation of supporting texts from English into Portuguese, classification labels for answerability, automatic paraphrases of questions and answers, and multiple choice candidates. The results described in this paper provide several points of reference for researchers interested in exploring the challenges provided by the Pir\'a dataset.
Auteurs: Paulo Pirozelli, Marcos M. José, Igor Silveira, Flávio Nakasato, Sarajane M. Peres, Anarosa A. F. Brandão, Anna H. R. Costa, Fabio G. Cozman
Dernière mise à jour: 2023-09-19 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2309.10945
Source PDF: https://arxiv.org/pdf/2309.10945
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://www.springer.com/gp/editorial-policies
- https://www.nature.com/nature-research/editorial-policies
- https://www.nature.com/srep/journal-policies/editorial-policies
- https://www.biomedcentral.com/getpublished/editorial-policies
- https://github.com/C4AI/Pira
- https://github.com/allenai/unifiedqa
- https://haystack.deepset.ai/
- https://huggingface.co/tuner007/pegasus
- https://huggingface.co/hetpandya/t5-small-tapaco
- https://huggingface.co/pierreguillou/bert-base-cased-squad-v1.1-portuguese
- https://github.com/nunorc/squad-v1.1-pt
- https://github.com/C4AI/Pira/tree/chatgpt_on_pira/ChatGPT_On_Pira