Évaluation de la génération augmentée par la récupération avec des requêtes multi-sauts
Un nouveau jeu de données pour tester les systèmes RAG sur des questions complexes à plusieurs étapes.
― 6 min lire
Table des matières
- Développement du jeu de données
- Collecte de données
- Extraction de preuves
- Génération de revendications et de requêtes
- Assurance qualité
- Types de requêtes
- Métriques d'évaluation
- Évaluation de la récupération
- Évaluation de la réponse
- Benchmarking des systèmes RAG
- Tâches de récupération
- Tâches de génération
- Cas d'utilisation et perspectives futures
- Travaux connexes
- Conclusion
- Annexe
- Exemples de requêtes multi-hop
- Source originale
- Liens de référence
La Génération augmentée par récupération (RAG) améliore les grands modèles de langage (LLMs) en trouvant des infos utiles avant de créer des réponses. Cette méthode peut aider à réduire les erreurs dans les LLMs et améliorer la qualité de leurs réponses, rendant les LLMs plus pratiques dans des situations réelles. Cependant, les systèmes RAG actuels ont du mal avec les questions complexes qui nécessitent des infos de plusieurs sources. De plus, il n'existe pas de Jeux de données spécialement dédiés à ces types de questions. Cet article présente un nouveau jeu de données destiné à tester la Performance des systèmes RAG sur des requêtes multi-hop, qui exigent de combiner des infos provenant de plusieurs documents pour répondre aux questions.
Développement du jeu de données
On a créé un nouveau jeu de données qui comprend une base de connaissance, une collection de requêtes multi-hop, les bonnes réponses, et les Preuves nécessaires pour soutenir ces réponses.
Collecte de données
On a rassemblé des articles de presse en utilisant une API d'actualités, en se concentrant sur des histoires publiées entre septembre et décembre 2023. Cette période a été choisie pour s'assurer que les articles ne chevauchent pas les données d'entraînement de nombreux LLMs, offrant ainsi du contenu frais pour les tests.
Extraction de preuves
Pour chaque article, on a extrait des déclarations factuelles utilisables comme preuves. On a filtré ces déclarations pour s'assurer qu'elles pouvaient être liées à d'autres preuves provenant d'articles différents.
Génération de revendications et de requêtes
En utilisant un modèle de langage, on a ensuite transformé les déclarations extraites en revendications, qui sont des idées simplifiées dérivées des preuves. On a identifié des sujets ou entités communs dans ces revendications pour établir des connexions, qu'on a étiquetées comme entités ponts et sujets ponts. On a ensuite généré des questions multi-hop qui nécessitaient de combiner des infos de plusieurs revendications, avec les bonnes réponses.
Assurance qualité
Pour garantir la qualité du jeu de données, on a examiné manuellement un échantillon des requêtes et utilisé un modèle de langage pour évaluer si les requêtes utilisaient correctement toutes les preuves fournies.
Types de requêtes
Dans notre jeu de données, on a identifié quatre types de requêtes multi-hop :
Requête d'inférence : Celles-là nécessitent un raisonnement basé sur des preuves. Par exemple, une question pourrait demander quel rapport parle des risques de la chaîne d'approvisionnement pour une entreprise.
Requête de comparaison : Celles-là demandent de comparer des infos provenant de sources différentes. Un exemple pourrait être de savoir si deux entreprises ont rapporté des chiffres de revenus différents.
Requête temporelle : Celles-là explorent le timing des événements ou des rapports. Par exemple, une question pourrait demander si un produit a été lancé avant un autre.
Requête nulle : Celles-là n'ont pas de réponse pertinente basée sur les preuves récupérées, ce qui nous permet de tester si un LLM peut reconnaître quand il lui manque des infos.
Métriques d'évaluation
Pour évaluer la performance de notre système RAG avec le jeu de données, on s'est concentrés sur deux évaluations principales : la précision de récupération et la qualité des réponses.
Évaluation de la récupération
Cela implique de comparer les preuves récupérées avec les bonnes infos pour voir à quel point le système récupère des documents pertinents. On a utilisé plusieurs métriques à cet effet, comme la précision moyenne à K et le taux de réussite à K.
Évaluation de la réponse
Étant donné que les requêtes multi-hop nécessitent un raisonnement à partir de plusieurs pièces de preuve, on a aussi évalué à quel point le LLM pouvait générer des bonnes réponses basées sur les preuves fournies.
Benchmarking des systèmes RAG
Ce jeu de données peut servir de référence pour diverses tâches liées à la récupération et à la génération dans les systèmes RAG.
Tâches de récupération
Dans les tâches de récupération, on a testé différents modèles utilisés pour transformer des documents en vecteurs numériques pour la recherche. On a constaté que, bien que certains modèles aient mieux performé que d'autres, il restait des lacunes significatives dans la récupération de preuves pertinentes pour des requêtes complexes.
Tâches de génération
Lorsqu'on a évalué l'efficacité des LLMs à répondre aux requêtes multi-hop, on a découvert que même les meilleurs modèles avaient du mal avec la précision. Par exemple, GPT-4 a obtenu une précision de seulement 56 % lors de la récupération de preuves, et même lorsqu'il avait les bonnes preuves, ce n'était pas parfait.
Cas d'utilisation et perspectives futures
Au-delà des tâches principales examinées, il y a plusieurs autres domaines qui valent la peine d'être explorés. Par exemple, décomposer des requêtes complexes en parties plus simples peut améliorer la précision de récupération. De plus, explorer des méthodes où les LLMs peuvent automatiser le processus de formation de requêtes multi-hop pourrait mener à de meilleurs résultats.
Travaux connexes
Il existe divers jeux de données et outils pour le benchmarking RAG, mais beaucoup se concentrent sur des requêtes plus simples ou ne mesurent pas adéquatement la précision de récupération. Notre travail introduit un jeu de données unique qui cible spécifiquement des requêtes multi-hop plus complexes et vise à combler les lacunes laissées par les benchmarks existants.
Conclusion
Le jeu de données qu'on a créé offre une nouvelle façon d'examiner l'efficacité des systèmes de génération augmentée par récupération, surtout pour des requêtes complexes nécessitant des infos de plusieurs sources. On vise à fournir ce jeu de données à la communauté pour encourager le développement et l'évaluation des systèmes RAG, aidant à améliorer leur fiabilité et leur efficacité dans des applications réelles.
Annexe
Exemples de requêtes multi-hop
Exemple de requête d'inférence : Est-ce que les deux articles de presse différents ont rapporté une baisse de leurs indicateurs financiers ?
Exemple de requête de comparaison : La performance de deux équipes sportives a-t-elle été rapportée comme améliorée dans leurs articles respectifs ?
Exemple de requête temporelle : Le lancement d'un produit a-t-il été rapporté dans un article avant ou après un autre événement ?
Exemple de requête nulle : Quels sont les chiffres de vente d'une entreprise inexistante basés sur ses rapports ?
Titre: MultiHop-RAG: Benchmarking Retrieval-Augmented Generation for Multi-Hop Queries
Résumé: Retrieval-augmented generation (RAG) augments large language models (LLM) by retrieving relevant knowledge, showing promising potential in mitigating LLM hallucinations and enhancing response quality, thereby facilitating the great adoption of LLMs in practice. However, we find that existing RAG systems are inadequate in answering multi-hop queries, which require retrieving and reasoning over multiple pieces of supporting evidence. Furthermore, to our knowledge, no existing RAG benchmarking dataset focuses on multi-hop queries. In this paper, we develop a novel dataset, MultiHop-RAG, which consists of a knowledge base, a large collection of multi-hop queries, their ground-truth answers, and the associated supporting evidence. We detail the procedure of building the dataset, utilizing an English news article dataset as the underlying RAG knowledge base. We demonstrate the benchmarking utility of MultiHop-RAG in two experiments. The first experiment compares different embedding models for retrieving evidence for multi-hop queries. In the second experiment, we examine the capabilities of various state-of-the-art LLMs, including GPT-4, PaLM, and Llama2-70B, in reasoning and answering multi-hop queries given the evidence. Both experiments reveal that existing RAG methods perform unsatisfactorily in retrieving and answering multi-hop queries. We hope MultiHop-RAG will be a valuable resource for the community in developing effective RAG systems, thereby facilitating greater adoption of LLMs in practice. The MultiHop-RAG and implemented RAG system is publicly available at https://github.com/yixuantt/MultiHop-RAG/.
Auteurs: Yixuan Tang, Yi Yang
Dernière mise à jour: 2024-01-27 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2401.15391
Source PDF: https://arxiv.org/pdf/2401.15391
Licence: https://creativecommons.org/licenses/by-sa/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.