Avancées dans le questionnement avec des graphes de connaissances multilingues
Une nouvelle méthode vise à améliorer le KGQA pour les personnes qui ne parlent pas anglais.
― 8 min lire
Table des matières
Le Question Answering sur Graphes de Connaissance (KGQA) est un moyen de poser des questions en langage simple pour obtenir des réponses à partir de modèles de connaissances basés sur des graphes. Ces modèles stockent pas mal d'infos dans un format qui relie différentes pièces de données entre elles. Même si le KGQA est devenu populaire, la plupart des recherches se sont concentrées sur l'anglais, laissant les locuteurs d’autres langues en difficulté. C’est un gros souci pour ceux qui ne parlent pas anglais, car ils galèrent souvent à accéder au même niveau d’information.
Beaucoup de systèmes KGQA existants qui supportent plusieurs langues rencontrent des problèmes pour produire des résultats qui égalent la performance des systèmes en anglais, surtout quand il s'agit de générer des requêtes SPARQL. SPARQL est un langage de requête utilisé pour récupérer des infos à partir des Graphes de Connaissance. La difficulté vient de la transformation des questions en langage naturel dans plusieurs langues différentes en requêtes SPARQL exploitables.
Pour résoudre ce problème, une nouvelle approche a été proposée. Cette méthode cherche à améliorer les systèmes KGQA multilingues en ajoutant directement des infos sur la langue et les Entités pertinentes dans le modèle linguistique qui traite les questions. Au lieu d’utiliser des composants séparés pour ajouter ces infos, la nouvelle méthode profite d’un seul modèle pré-entraîné qui peut gérer à la fois la question principale et les données supplémentaires. Cette intégration aide le modèle à convertir une question en langage naturel en une requête SPARQL adaptée de manière plus efficace.
Des tests préliminaires montrent que cette méthode fonctionne bien avec les ensembles de données QALD récents, notamment QALD-9-Plus et QALD-10. Ces ensembles sont connus pour contenir des questions en différentes langues, y compris des langues non européennes comme le chinois et le japonais. En incluant ces langues, la méthode s'assure que les utilisateurs qui les parlent peuvent aussi bénéficier d'améliorations des capacités KGQA.
L'objectif du KGQA est de faciliter l'accès des utilisateurs à une énorme quantité de connaissances stockées dans un modèle de graphe à travers des questions simples en langage naturel. Les récentes recherches ont mis en lumière ce problème, surtout puisque beaucoup de systèmes sont principalement axés sur l'anglais. Bien que quelques options multilingues existent, elles ne supportent souvent qu'un petit nombre de langues largement parlées, ce qui crée une différence de performance en répondant à des questions dans ces autres langues comparé à l’anglais.
Cette situation crée un fossé pour les non-anglophones, rendant plus difficile pour eux de trouver des informations ou des réponses à leurs questions. Les Graphes de Connaissance sont censés fonctionner dans différentes langues. Cependant, pour y parvenir, les systèmes KGQA doivent améliorer leur capacité à traiter des questions dans plusieurs langues. Les modèles linguistiques ont beaucoup progressé ces dernières années et peuvent maintenant être utilisés pour aider à traduire le langage naturel en requêtes SPARQL.
Dans le passé, de nombreux systèmes KGQA ont utilisé diverses méthodes pour convertir le langage naturel en SPARQL. Par exemple, certains ont utilisé des méthodes de traduction automatique pour transformer des questions en requêtes sans se baser sur des règles ou des modèles complexes. Cependant, ces méthodes peuvent poser des problèmes pour générer des requêtes syntaxiques ou quand il s’agit de questions qui peuvent avoir des structures uniques dans différentes langues.
Pour améliorer ces anciennes méthodes, une nouvelle approche se concentre sur l'intégration d'infos sur la langue et les entités directement dans le processus. Cette méthode améliorée utilise un seul modèle pour apprendre efficacement à partir de la question et des informations supplémentaires sur la linguistique et les entités. Cette approche conduit à un processus plus efficace pour générer des requêtes SPARQL.
La nouvelle méthode montre des résultats prometteurs sur les ensembles de données QALD, prouvant qu'elle peut traiter des questions dans plusieurs langues, y compris le chinois et le japonais. En utilisant une technique qui combine des informations de plusieurs sources, la méthode peut répondre aux requêtes avec un degré d'exactitude plus élevé.
Un aspect important de la nouvelle approche est son focus sur la simplification de l'intégration du contexte linguistique et des infos sur les entités dans les modèles linguistiques. Cela veut dire qu’au lieu de créer des systèmes complexes avec plein de pièces différentes, elle utilise un processus simple qui aide le modèle à apprendre et à connecter les infos pertinentes plus facilement.
Pour évaluer l’efficacité de cette nouvelle approche, les chercheurs ont mis en place divers expériences avec différents ensembles de données. Ils ont collecté des questions dans plusieurs langues, y compris celles qui n'avaient pas été représentées dans les systèmes KGQA auparavant. Le but était de voir comment le nouveau modèle se comportait pour générer des requêtes SPARQL en réponse aux questions.
Un des principaux ensembles de données utilisés pour l'entraînement était LC-QuAD 2.0, qui contient un grand ensemble de questions en anglais et leurs requêtes SPARQL correspondantes. En commençant avec cet ensemble, les chercheurs pouvaient aider le modèle à apprendre à connecter des questions en langage naturel avec les bonnes requêtes SPARQL avant d'ajouter des langues plus variées.
Ensuite, les chercheurs ont travaillé avec QALD-9-Plus, un ensemble de données qui inclut des questions en plusieurs langues, comme l'anglais, l'allemand, le russe, le français, et maintenant le chinois et le japonais. Cet ensemble a été transformé pour inclure des traductions approuvées par des locuteurs natifs, assurant la qualité. Un autre ensemble, QALD-10, a aussi été mis à jour pour contenir des traductions en japonais.
Ces ensembles de données ont fourni un terrain riche pour tester le nouveau modèle par rapport à ses prédécesseurs. Les résultats ont montré que l'intégration du contexte linguistique et des infos sur les entités a permis une meilleure performance que les méthodes précédentes. Le modèle a montré une précision dans la génération de requêtes SPARQL qui étaient fonctionnellement correctes, permettant aux utilisateurs de récupérer les bonnes réponses des Graphes de Connaissance.
En comparant les différentes versions du nouveau modèle, les chercheurs ont découvert qu'inclure à la fois le contexte linguistique et les infos sur les entités produisait généralement les meilleurs résultats. La performance variait selon les langues, certaines montrant de meilleurs résultats que d'autres. Par exemple, les résultats en allemand et en français étaient proches de ceux en anglais, tandis que la performance dans des langues comme le bachkir et le japonais était moins favorable.
Ces résultats soulignent que bien que la méthode ait un grand potentiel, il y a encore certaines langues qui peuvent être sous-représentées ou qui luttent à cause des limitations des outils de prétraitement disponibles pour ces langues. De plus, des défis persistent avec les systèmes de reconnaissance d'entités et d'extraction de contexte linguistique, ce qui peut affecter la performance globale.
Alors que les chercheurs avancent dans ce travail, ils prévoient d'améliorer encore le modèle en ajoutant plus d'infos, comme les types d'entités et les relations. Ils comptent aussi incorporer différentes techniques qui pourraient aider à améliorer la qualité des requêtes SPARQL finales générées par le modèle.
En conclusion, une nouvelle stratégie a été développée pour le KGQA multilingue. En se concentrant sur l'intégration fluide de connaissances supplémentaires dans les modèles linguistiques, la méthode vise à combler le fossé de performance entre l'anglais et les autres langues. Cela aboutit à un système capable de répondre efficacement à des questions dans diverses langues, donnant plus de personnes accès aux connaissances stockées dans des modèles basés sur des graphes.
Titre: MST5 -- Multilingual Question Answering over Knowledge Graphs
Résumé: Knowledge Graph Question Answering (KGQA) simplifies querying vast amounts of knowledge stored in a graph-based model using natural language. However, the research has largely concentrated on English, putting non-English speakers at a disadvantage. Meanwhile, existing multilingual KGQA systems face challenges in achieving performance comparable to English systems, highlighting the difficulty of generating SPARQL queries from diverse languages. In this research, we propose a simplified approach to enhance multilingual KGQA systems by incorporating linguistic context and entity information directly into the processing pipeline of a language model. Unlike existing methods that rely on separate encoders for integrating auxiliary information, our strategy leverages a single, pretrained multilingual transformer-based language model to manage both the primary input and the auxiliary data. Our methodology significantly improves the language model's ability to accurately convert a natural language query into a relevant SPARQL query. It demonstrates promising results on the most recent QALD datasets, namely QALD-9-Plus and QALD-10. Furthermore, we introduce and evaluate our approach on Chinese and Japanese, thereby expanding the language diversity of the existing datasets.
Auteurs: Nikit Srivastava, Mengshi Ma, Daniel Vollmers, Hamada Zahera, Diego Moussallem, Axel-Cyrille Ngonga Ngomo
Dernière mise à jour: 2024-07-08 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2407.06041
Source PDF: https://arxiv.org/pdf/2407.06041
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://www.w3.org/TR/rdf-sparql-query/
- https://github.com/dice-group/MST5
- https://www.w3.org/RDF/
- https://github.com/dice-group/LFQA/tree/main/naive-eamt
- https://spacy.io/
- https://spacy.io/usage/models
- https://www.wikidata.org/entity/Q5
- https://huggingface.co/docs/transformers/model_doc/mt5
- https://github.com/KGQA/QALD-10
- https://github.com/dice-group/gerbil/issues/320
- https://github.com/dice-group/gerbil/issues/211
- https://huggingface.co/google/mt5-xl
- https://www.tensorflow.org/datasets/catalog/c4
- https://www.deepspeed.ai/
- https://www.nvidia.com/en-us/data-center/a100/
- https://github.com/WSE-research/qa-systems-wrapper
- https://en.wikipedia.org/wiki/List_of_ISO_639-1_codes
- https://dbpedia.org/ontology/#1
- https://dbpedia.org/resource/#1
- https://www.w3.org/2001/sw/wiki/#1