Évaluation de la génération augmentée par la récupération avec des requêtes multi-sauts

Un nouveau jeu de données pour tester les systèmes RAG sur des questions complexes à plusieurs étapes.

2025-09-14T00:36:30+00:00 ― 6 min lire

Table des matières

Développement du jeu de données
Types de requêtes
Métriques d'évaluation
Benchmarking des systèmes RAG
Cas d'utilisation et perspectives futures
Travaux connexes
Conclusion
Annexe
Source originale
Liens de référence

La Génération augmentée par récupération (RAG) améliore les grands modèles de langage (LLMs) en trouvant des infos utiles avant de créer des réponses. Cette méthode peut aider à réduire les erreurs dans les LLMs et améliorer la qualité de leurs réponses, rendant les LLMs plus pratiques dans des situations réelles. Cependant, les systèmes RAG actuels ont du mal avec les questions complexes qui nécessitent des infos de plusieurs sources. De plus, il n'existe pas de Jeux de données spécialement dédiés à ces types de questions. Cet article présente un nouveau jeu de données destiné à tester la Performance des systèmes RAG sur des requêtes multi-hop, qui exigent de combiner des infos provenant de plusieurs documents pour répondre aux questions.

Développement du jeu de données

On a créé un nouveau jeu de données qui comprend une base de connaissance, une collection de requêtes multi-hop, les bonnes réponses, et les Preuves nécessaires pour soutenir ces réponses.

Collecte de données

On a rassemblé des articles de presse en utilisant une API d'actualités, en se concentrant sur des histoires publiées entre septembre et décembre 2023. Cette période a été choisie pour s'assurer que les articles ne chevauchent pas les données d'entraînement de nombreux LLMs, offrant ainsi du contenu frais pour les tests.

Extraction de preuves

Pour chaque article, on a extrait des déclarations factuelles utilisables comme preuves. On a filtré ces déclarations pour s'assurer qu'elles pouvaient être liées à d'autres preuves provenant d'articles différents.

Génération de revendications et de requêtes

En utilisant un modèle de langage, on a ensuite transformé les déclarations extraites en revendications, qui sont des idées simplifiées dérivées des preuves. On a identifié des sujets ou entités communs dans ces revendications pour établir des connexions, qu'on a étiquetées comme entités ponts et sujets ponts. On a ensuite généré des questions multi-hop qui nécessitaient de combiner des infos de plusieurs revendications, avec les bonnes réponses.

Assurance qualité

Pour garantir la qualité du jeu de données, on a examiné manuellement un échantillon des requêtes et utilisé un modèle de langage pour évaluer si les requêtes utilisaient correctement toutes les preuves fournies.

Types de requêtes

Dans notre jeu de données, on a identifié quatre types de requêtes multi-hop :

Requête d'inférence : Celles-là nécessitent un raisonnement basé sur des preuves. Par exemple, une question pourrait demander quel rapport parle des risques de la chaîne d'approvisionnement pour une entreprise.
Requête de comparaison : Celles-là demandent de comparer des infos provenant de sources différentes. Un exemple pourrait être de savoir si deux entreprises ont rapporté des chiffres de revenus différents.
Requête temporelle : Celles-là explorent le timing des événements ou des rapports. Par exemple, une question pourrait demander si un produit a été lancé avant un autre.
Requête nulle : Celles-là n'ont pas de réponse pertinente basée sur les preuves récupérées, ce qui nous permet de tester si un LLM peut reconnaître quand il lui manque des infos.

Métriques d'évaluation

Pour évaluer la performance de notre système RAG avec le jeu de données, on s'est concentrés sur deux évaluations principales : la précision de récupération et la qualité des réponses.

Évaluation de la récupération

Cela implique de comparer les preuves récupérées avec les bonnes infos pour voir à quel point le système récupère des documents pertinents. On a utilisé plusieurs métriques à cet effet, comme la précision moyenne à K et le taux de réussite à K.

Évaluation de la réponse

Étant donné que les requêtes multi-hop nécessitent un raisonnement à partir de plusieurs pièces de preuve, on a aussi évalué à quel point le LLM pouvait générer des bonnes réponses basées sur les preuves fournies.

Benchmarking des systèmes RAG

Ce jeu de données peut servir de référence pour diverses tâches liées à la récupération et à la génération dans les systèmes RAG.

Tâches de récupération

Dans les tâches de récupération, on a testé différents modèles utilisés pour transformer des documents en vecteurs numériques pour la recherche. On a constaté que, bien que certains modèles aient mieux performé que d'autres, il restait des lacunes significatives dans la récupération de preuves pertinentes pour des requêtes complexes.

Tâches de génération

Lorsqu'on a évalué l'efficacité des LLMs à répondre aux requêtes multi-hop, on a découvert que même les meilleurs modèles avaient du mal avec la précision. Par exemple, GPT-4 a obtenu une précision de seulement 56 % lors de la récupération de preuves, et même lorsqu'il avait les bonnes preuves, ce n'était pas parfait.

Cas d'utilisation et perspectives futures

Au-delà des tâches principales examinées, il y a plusieurs autres domaines qui valent la peine d'être explorés. Par exemple, décomposer des requêtes complexes en parties plus simples peut améliorer la précision de récupération. De plus, explorer des méthodes où les LLMs peuvent automatiser le processus de formation de requêtes multi-hop pourrait mener à de meilleurs résultats.

Travaux connexes

Il existe divers jeux de données et outils pour le benchmarking RAG, mais beaucoup se concentrent sur des requêtes plus simples ou ne mesurent pas adéquatement la précision de récupération. Notre travail introduit un jeu de données unique qui cible spécifiquement des requêtes multi-hop plus complexes et vise à combler les lacunes laissées par les benchmarks existants.

Conclusion

Le jeu de données qu'on a créé offre une nouvelle façon d'examiner l'efficacité des systèmes de génération augmentée par récupération, surtout pour des requêtes complexes nécessitant des infos de plusieurs sources. On vise à fournir ce jeu de données à la communauté pour encourager le développement et l'évaluation des systèmes RAG, aidant à améliorer leur fiabilité et leur efficacité dans des applications réelles.

Annexe

Exemples de requêtes multi-hop

Exemple de requête d'inférence : Est-ce que les deux articles de presse différents ont rapporté une baisse de leurs indicateurs financiers ?
Exemple de requête de comparaison : La performance de deux équipes sportives a-t-elle été rapportée comme améliorée dans leurs articles respectifs ?
Exemple de requête temporelle : Le lancement d'un produit a-t-il été rapporté dans un article avant ou après un autre événement ?
Exemple de requête nulle : Quels sont les chiffres de vente d'une entreprise inexistante basés sur ses rapports ?

Évaluation de la génération augmentée par la récupération avec des requêtes multi-sauts

Un nouveau jeu de données pour tester les systèmes RAG sur des questions complexes à plusieurs étapes.

#Développement du jeu de données

#Collecte de données

#Extraction de preuves

#Génération de revendications et de requêtes

#Assurance qualité

#Types de requêtes

#Métriques d'évaluation

#Évaluation de la récupération

#Évaluation de la réponse

#Benchmarking des systèmes RAG

#Tâches de récupération

#Tâches de génération

#Cas d'utilisation et perspectives futures

#Travaux connexes

#Conclusion

#Annexe

#Exemples de requêtes multi-hop

Liens de référence

Sujets référencés