Simple Science

La science de pointe expliquée simplement

# Informatique# Intelligence artificielle# Calcul et langage# Apprentissage automatique

Avancées des systèmes de questions-réponses en polonais

Nouveau jeu de données améliore la réponse aux questions de l'IA pour la langue polonaise.

― 16 min lire


Le système QA polonaisLe système QA polonaisprend de l'ampleur.capacités de l'IA en polonais.Un jeu de données innovant booste les
Table des matières

Les récents développements en intelligence artificielle (IA) et en traitement du langage naturel (TLP) ont modifié la façon dont les gens et les ordinateurs communiquent. Les systèmes de questions-réponses (QR) sont une grande partie de cette évolution. Ces systèmes sont conçus pour répondre à des questions en utilisant de grandes quantités d'informations. Un type spécifique de système QR s'appelle le questionnement basé sur des connaissances (KBQA). Il s'appuie sur des Graphes de connaissances structurés (KG) pour gérer des questions complexes nécessitant des informations précises.

Malgré ces avancées, il y a une grosse limitation dans les ensembles de données KBQA disponibles, surtout pour les langues qui ne sont pas largement parlées ou utilisées, comme le polonais. Beaucoup de méthodes actuelles utilisées pour créer ces ensembles de données sont dépassées et reposent énormément sur l'effort humain. En plus, des outils modernes comme les modèles de langage de grande taille (LLM), qui pourraient faciliter ce travail, ne sont souvent pas appliqués. Pour régler ces problèmes, une nouvelle méthode semi-automatisée pour créer des ensembles de données a été mise en place. Cette approche inclut des tâches comme le KBQA, la compréhension de lecture automatique (MRC) et la recherche d'informations (IR), surtout pour les langues avec moins de ressources.

Cette nouvelle méthode a abouti à l'ensemble de données PUGG, le premier du genre pour le polonais, avec de nouveaux ensembles de données pour MRC et IR. L'étude propose également une mise en œuvre complète, des résultats importants et des évaluations de modèles de base.

Importance des systèmes de questions-réponses

Les systèmes QR sont super importants car ils font le lien entre les humains et les ordinateurs. Pour être vraiment utiles, ces systèmes doivent répondre à des questions en se basant sur une tonne de données. La tâche KBQA joue un rôle clé dans cette nécessité. En utilisant des graphes de connaissances structurés, ces systèmes peuvent fournir des réponses précises et pertinentes. Les KG sont remplis d'entités liées et de relations, ce qui aide à traiter des requêtes complexes et à donner les bonnes réponses.

Un des gros avantages des systèmes KBQA, c'est leur capacité à éviter les "hallucinations", qui se produisent quand l'IA donne des réponses incorrectes ou absurdes. Contrairement à certains modèles de langage de grande taille, qui peuvent produire des infos inexactes, les systèmes qui utilisent des KG sont plus fiables. De plus, les KG peuvent être facilement mis à jour, ce qui aide à maintenir la précision des informations fournies.

Cependant, le manque d'ensembles de données KBQA pour beaucoup de langues, surtout pour des langues moins courantes comme le polonais, reste un problème. Alors que de nombreux ensembles de données KBQA existent pour l'anglais, les langues comme le polonais ont très peu de ressources disponibles. Ce problème reflète une tendance plus large dans le domaine du TLP, où beaucoup de langues n'ont pas d'ensembles de données adéquats pour entraîner des modèles. Dans cette optique, des efforts ont été faits pour créer un ensemble de données KBQA spécifiquement pour le polonais.

Défis rencontrés

Au cours du développement de l'ensemble de données, plusieurs défis sont apparus. Beaucoup d'ensembles de données existants reposaient sur des modèles plus simples et étaient très inefficaces, nécessitant beaucoup d'input humain. De plus, il n'y avait pas assez d'outils modernes pour faciliter la création de ces ensembles de données, surtout pour les langues avec moins de soutien. Les LLM sont particulièrement utiles à cet égard, car ils peuvent aider les annotateurs humains, surtout dans le cas des langues à faibles ressources.

Pour relever ces défis, une approche moderne pour créer des ensembles de données KBQA a été adaptée spécifiquement pour les environnements avec des ressources limitées. Wikidata a été choisi comme graphe de connaissances pour sa large disponibilité multilingue et son accès ouvert. Il est important de noter que le processus n'a impliqué aucune traduction, garantissant que les données restent naturelles pour la langue polonaise.

En développant l'ensemble de données KBQA, l'occasion s'est également présentée de créer des ensembles de données pour MRC et IR en même temps, sans avoir besoin d'input humain supplémentaire. La MRC est cruciale car elle permet à l'IA de lire et de comprendre des textes de manière similaire à un humain. Pendant ce temps, l'IR se concentre sur la recherche de la bonne information rapidement dans de vastes bases de données.

Aperçu des contributions

L'ensemble de données PUGG comprend trois tâches : KBQA, MRC et IR. Il présente des questions basées sur des faits en polonais, ce qui en fait la première ressource KBQA pour cette langue. Pour répondre à différents niveaux de difficulté, l'ensemble de données combine des questions naturelles avec des questions plus simples et basées sur des modèles.

Un pipeline de construction d'ensemble de données semi-automatisé a été proposé, conçu spécifiquement pour les environnements avec des ressources limitées. Ce pipeline peut créer des ensembles de données KBQA, MRC et IR tout en réduisant considérablement la charge de travail pour les annotateurs humains. De plus, des détails sur la mise en œuvre et des statistiques précieuses issues de la construction de l'ensemble de données PUGG ont été partagés, fournissant des idées pour les futurs développeurs d'ensembles de données. Des méthodes d'utilité personnalisées, comme celles pour lier des entités, ont également été développées pour une utilisation dans différents contextes.

Des modèles de base ont été évalués, fixant des références pour d'autres recherches utilisant l'ensemble de données PUGG.

Travaux connexes

De nombreux ensembles de données KBQA existants ont été examinés et comparés. Une constatation notable était l'absence d'un ensemble de données KBQA polonais. La plupart des ensembles disponibles sont principalement en anglais, avec seulement quelques exceptions pour d'autres langues. Le plus proche d'un ensemble de données KBQA polonais est le MKQA multilingue, bien qu'il manque les entités de sujet annotées nécessaires pour être correctement classifié.

Différentes méthodes ont été utilisées pour générer des questions dans les ensembles de données KBQA existants. L'approche adoptée pour créer des questions polonaises était basée sur des suggestions de requêtes, similaire aux stratégies utilisées dans des ensembles de données comme NQ et WikiQA, qui sont basées sur des questions provenant de moteurs de recherche. En revanche, les questions basées sur des modèles ont été créées à partir de modèles de raisonnement prédéfinis, ce qui est une méthode courante dans de nombreux ensembles de données KBQA. Beaucoup d'ensembles de données ont également utilisé le crowdsourcing pour créer des variations dans les questions. L'ensemble de données PUGG, cependant, automatise cela et n'incorpore la vérification humaine qu'à la dernière étape.

Ces dernières années, plusieurs ressources pour des tâches d'IR en polonais ont émergé. Le benchmark BEIR-PL a été établi, traduisant automatiquement le benchmark BEIR. L'ensemble de données MQUPQA combine plusieurs ensembles de données polonaises existants et incorpore des méthodes automatisées pour générer des questions et des réponses. Il existe également des ensembles de données provenant de compétitions comme PolEval qui se concentrent sur la récupération de passages pertinents.

L'ensemble de données PUGG vise à fournir une base solide pour la recherche en QA et IR dans des langues à faibles ressources.

Pipeline de construction

La méthode de création de l'ensemble de données PUGG est conçue pour générer un ensemble de données avec des questions basées sur des faits naturelles. Cette approche minimise considérablement l'effort requis des annotateurs humains. Le pipeline est adaptable à différentes circonstances et se concentre sur le cadre général, bien que des détails spécifiques de mise en œuvre soient fournis séparément.

Formulation des questions

La première étape du pipeline consiste à collecter une variété de questions naturelles basées sur des faits. Dans ce processus, des ensembles de données existants ont été utilisés pour réduire le besoin de travail manuel. Les préfixes de questions ont été rassemblés à partir d'ensembles de données QA précédents, allant de phrases basiques à des questions plus spécifiques. Ces préfixes ont ensuite été élargis pour former un ensemble complet de questions, utilisant à la fois des méthodes basées sur des règles et des modèles de langage.

Bien que certaines des questions générées puissent être incorrectes, cela ne pose pas de problème à ce stade, car elles sont filtrées plus tard lors de la vérification humaine.

Construction des passages

L'étape suivante consiste à récupérer des passages de texte qui peuvent fournir des réponses aux questions formulées. Wikipedia sert de source de données pour localiser des articles pertinents pour chaque question. Différentes techniques de récupération peuvent être utilisées pour trouver les meilleurs articles, qui sont ensuite divisés en passages plus petits et priorisés en fonction de leur probabilité de contenir les bonnes réponses.

Tous les passages rassemblés à cette étape contribuent au corpus de passage nécessaire pour la tâche d'IR.

Réponses textuelles et entités candidates

Le passage le plus pertinent est choisi comme candidat, et un modèle QA est utilisé pour identifier une section du passage contenant une réponse textuelle potentielle. Ces réponses sont liées à des articles spécifiques associés à des entités particulières dans Wikidata. Les entités candidates de réponse sont ensuite rassemblées à partir de ce processus.

Entités de sujet

Ensuite, le pipeline effectue un processus de liaison d'entités, identifiant et associant les entités mentionnées dans les questions avec celles du graphe de connaissances.

Vérification humaine

À ce stade, toutes les données nécessaires pour les ensembles de données KBQA, MRC et IR sont collectées. Bien que le processus automatisé réduise considérablement le besoin d'input humain, il ne peut pas garantir une précision totale. Pour garantir des données de haute qualité, un processus de vérification humaine est mis en œuvre. Cela implique de vérifier tous les éléments candidats avant de finaliser les ensembles de données.

L'étape de vérification peut entraîner des changements dans la taille des ensembles de données, car les éléments finaux ne contiendront que ceux confirmés comme précis.

KBQA basé sur des modèles

Alors que le pipeline génère des questions naturelles, des questions basées sur des modèles sont également créées pour enrichir davantage l'ensemble de données. Ces questions servent à offrir un ensemble d'inquiries plus simples, garantissant un chemin de raisonnement clair entre les entités de sujet et de réponse. Les questions basées sur des modèles sont également utiles pour les méthodes KBQA basées sur le parsing sémantique.

Le processus de création de questions basées sur des modèles implique le développement de modèles SPARQL aux côtés de questions en langage naturel correspondantes. Des entités et des relations potentielles sont spécifiées pour une utilisation dans ces modèles. Les entités et relations sont ensuite insérées dans les modèles pour produire des questions. Des requêtes SPARQL sont exécutées pour récupérer les entités de réponse.

Pour garantir que les questions sonnent naturelles, particulièrement en polonais, des stratégies comme l'inflexion des mots et la reformulation sont employées. Des outils d'automatisation sont utilisés pour l'inflexion, tandis que des LLM aident à reformuler les questions pour plus de diversité et de complexité. Une étape de vérification humaine garantit que toutes les questions restent significatives.

Exécution du pipeline

La mise en œuvre spécifique du pipeline de construction pour l'ensemble de données PUGG est adaptée aux ressources NLP polonaises, qui rencontrent des défis uniques. L'étape d'acquisition des questions a utilisé des ensembles de données polonaises existants pour extraire des préfixes. Trois différents modèles de reconnaissance d'entités nommées (NER) ont aidé à identifier les entités nommées et ont contribué à la variété des préfixes.

La phase de construction des passages a suivi des méthodes établies, en utilisant le moteur de recherche de Google pour trouver des articles Wikipedia pertinents. Ces articles ont été traités, en se concentrant spécifiquement sur ceux qui apparaissaient comme les plus pertinents par rapport aux questions.

Pour le marquage des réponses textuelles, un modèle génératif a été utilisé, guidé par un prompt spécifiquement conçu. Les entités candidates de réponse ont été directement référencées dans le texte pour une extraction facile.

L'étape de liaison d'entités a rencontré des défis en raison du manque d'outils disponibles pour le polonais. Une méthode heuristique a été développée pour trouver des entités en utilisant le moteur de recherche Wikipedia, combinant différentes approches pour assurer une identification précise des entités pertinentes.

Le processus de vérification humaine se compose de plusieurs étapes. Au départ, les questions avec des passages et réponses corrects sont identifiées. Ensuite, les annotateurs marquent séparément les entités de réponse et de sujet correctes. Tous les annotateurs parlent couramment le polonais et sont familiers avec la culture locale pour garantir des résultats de haute qualité.

Résultat

L'exécution du pipeline a réussi à créer l'ensemble de données PUGG, qui comprend KBQA (naturel et basé sur des modèles), MRC et IR. Chaque ensemble de données a des statistiques spécifiques, précisant combien d'exemples ont été générés à chaque étape.

Configuration expérimentale

L'évaluation des modèles de base utilisant l'ensemble de données PUGG est décrite dans cette section. Pour le KBQA, un modèle de cadre zero-shot a été testé, utilisant un LLM pour récupérer des entités de réponse. Des ajustements ont été effectués pour améliorer les performances, notamment des méthodes pour récupérer des informations connexes à partir du graphe de connaissances.

Des modèles couramment utilisés pour les tâches de questions-réponses extractives ont été sélectionnés pour la tâche MRC. Ces modèles ont été formés et évalués en utilisant des métriques standard pour mesurer leur efficacité.

Pour l'IR, des modèles pré-entraînés sur des ensembles de données étendus ont été évalués. Les résultats indiquent que l'ensemble de données pose un défi important en raison des caractéristiques lexicales spécifiques des questions, et les meilleurs modèles actuels ont montré des résultats prometteurs.

Résultats et discussion

Les résultats montrent que l'utilisation d'un KG améliore significativement les performances des tâches KBQA, bien que l'exactitude générale reste relativement modeste, montrant la complexité de l'ensemble de données PUGG. Les différences de performance entre les questions naturelles et basées sur des modèles correspondent aux attentes, les questions basées sur des modèles étant conçues pour être plus simples.

Les résultats de la MRC indiquent que les modèles extractifs sont meilleurs pour trouver des correspondances exactes dans le texte, tandis que les modèles génératifs peuvent obtenir de bons scores avec des réponses qui se chevauchent.

Les résultats des évaluations IR soulignent que les approches existantes peuvent avoir du mal avec les caractéristiques spécifiques de l'ensemble de données. Néanmoins, de nouvelles méthodes de récupération dense montrent des résultats solides, ce qui indique la haute valeur de l'ensemble de données pour une évaluation continue.

Limitations et travaux futurs

Plusieurs limites de l'étude sont notées. Les questions naturelles sont en domaine ouvert et centrées sur des contextes culturels spécifiques, ce qui peut ne pas représenter tous les aspects des connaissances. Le pipeline peut parfois négliger certaines entités de réponse en raison de la nature des questions et de leurs contextes.

Des problèmes comme des inexactitudes grammaticales dans les questions existent, reflétant la nature automatisée du processus d'annotation. Des travaux futurs pourraient explorer davantage de modèles de base et éventuellement intégrer des LLM open-source pour améliorer les performances. Il y a aussi de la place pour élargir l'éventail des tâches qui peuvent être effectuées à l'aide de l'ensemble de données PUGG.

Conclusion

Ce travail introduit l'ensemble de données PUGG, une avancée pour les tâches KBQA, MRC et IR en polonais. Il démontre un nouveau pipeline de construction semi-automatisé qui utilise des outils modernes pour créer des ressources précieuses pour les langues à faibles ressources. La mise en œuvre complète et les statistiques issues de la construction de l'ensemble de données PUGG serviront de base pour de futures recherches. L'évaluation des modèles de base souligne également la nature difficile de cet ensemble de données, mettant en avant son potentiel pour améliorer le développement des systèmes de QA.

Source originale

Titre: Developing PUGG for Polish: A Modern Approach to KBQA, MRC, and IR Dataset Construction

Résumé: Advancements in AI and natural language processing have revolutionized machine-human language interactions, with question answering (QA) systems playing a pivotal role. The knowledge base question answering (KBQA) task, utilizing structured knowledge graphs (KG), allows for handling extensive knowledge-intensive questions. However, a significant gap exists in KBQA datasets, especially for low-resource languages. Many existing construction pipelines for these datasets are outdated and inefficient in human labor, and modern assisting tools like Large Language Models (LLM) are not utilized to reduce the workload. To address this, we have designed and implemented a modern, semi-automated approach for creating datasets, encompassing tasks such as KBQA, Machine Reading Comprehension (MRC), and Information Retrieval (IR), tailored explicitly for low-resource environments. We executed this pipeline and introduced the PUGG dataset, the first Polish KBQA dataset, and novel datasets for MRC and IR. Additionally, we provide a comprehensive implementation, insightful findings, detailed statistics, and evaluation of baseline models.

Auteurs: Albert Sawczyn, Katsiaryna Viarenich, Konrad Wojtasik, Aleksandra Domogała, Marcin Oleksy, Maciej Piasecki, Tomasz Kajdanowicz

Dernière mise à jour: 2024-08-05 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2408.02337

Source PDF: https://arxiv.org/pdf/2408.02337

Licence: https://creativecommons.org/licenses/by-sa/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Articles similaires