VERA : Un cadre pour évaluer les systèmes RAG
Découvrez comment VERA améliore la précision et l'efficacité de l'évaluation des systèmes RAG.
Tianyu Ding, Adi Banerjee, Laurent Mombaerts, Yunhong Li, Tarik Borogovac, Juan Pablo De la Cruz Weinstein
― 13 min lire
Table des matières
- L'Importance des Systèmes RAG
- Méthodes d'Évaluation Traditionnelles
- Pertinence du Répertoire Documentaire
- Travaux Connus
- La Méthode VERA
- Les LLM comme Évaluateurs
- Métriques d'Évaluation Multi-Dimensionnelles
- Métriques Bootstrapping pour l'Analyse de Pertinence du Répertoire Documentaire
- Analyse de Requête Contrastive pour la Pertinence du Répertoire Documentaire
- Expérimentation
- Résultats et Analyse
- Conclusion
- Limitations et Travaux Futurs
- Exemples de Prompts
- Prompt de la Métrique de Fidélité
- Prompt de la Métrique de Rappel de Récupération
- Prompt de la Métrique de Précision de Récupération
- Génération de Question pour la Métrique de Pertinence de Réponse
- Exemple de Prompt de Résumé RAG avec Chunks Récupérés
- Source originale
- Liens de référence
L'utilisation des systèmes de Génération augmentée par récupération (RAG) se développe dans plusieurs domaines, ce qui rend crucial d'avoir des méthodes strictes pour confirmer que ces systèmes fournissent des réponses précises et sécurisées. Dans cet article, on vous présente VERA, qui signifie Validation et Évaluation des Systèmes Augmentés par Récupération. VERA est conçu pour rendre les résultats des grands modèles de langage plus clairs et fiables. Ce cadre évalue les systèmes RAG de deux manières clés : il combine plusieurs Métriques importantes en un seul score, ce qui facilite l'évaluation des performances d'un système, et il utilise des statistiques de bootstrap pour vérifier la pertinence et la complétude des sources de données.
L'Importance des Systèmes RAG
Les systèmes RAG améliorent le traitement du langage naturel en combinant de grandes collections de données avec une génération de texte puissante. Ces systèmes sont particulièrement utiles pour répondre à des questions de domaine ouvert, vérifier des faits et interagir avec des clients. Ils fournissent des réponses pertinentes et utiles.
Cependant, les systèmes RAG partagent également certains défis avec les modèles de langage classiques. Ces problèmes incluent des processus de raisonnement peu clairs, le manque de preuves à l'appui des réponses et la production d'inexactitudes qui peuvent sembler correctes mais qui sont trompeuses. De plus, utiliser ces systèmes avec des bases de données statiques peut mener à des réponses obsolètes ou non pertinentes, car les données peuvent ne pas couvrir tous les sujets nécessaires, et la grande quantité de données peut engendrer des coûts élevés en ressources informatiques.
Méthodes d'Évaluation Traditionnelles
Les méthodes traditionnelles d'évaluation des systèmes RAG incluent des examens manuels approfondis et une surveillance humaine continue, ce qui peut consommer beaucoup de ressources. Pour résoudre ces problèmes, nous avons développé VERA, qui aide à évaluer les systèmes RAG efficacement tout en économisant du temps et des efforts.
VERA vérifie à la fois les phases de récupération et de réponse des systèmes RAG avec des métriques qui mesurent à quel point les informations sont récupérées avec précision et à quel point les réponses générées sont pertinentes et véridiques. Il utilise également un encodeur croisé pour combiner ces métriques en un seul score afin de faciliter la comparaison entre les systèmes RAG. Ce score permet aux utilisateurs de prendre rapidement des décisions sur les performances de leurs systèmes.
Pertinence du Répertoire Documentaire
Pour garantir que les systèmes RAG fonctionnent bien, il est essentiel de vérifier la pertinence des sources de données qu'ils utilisent. VERA introduit une méthode pour évaluer la pertinence des dépôts de documents. Ce processus mesure à quel point les documents sont liés à des thèmes ou sujets spécifiques. Par exemple, dans un dépôt consacré aux "Ventes et Marketing en Informatique en Nuage", la pertinence est jugée par le nombre de documents qui discutent vraiment des stratégies et des tendances dans ce domaine, en évitant les sujets sans rapport.
Travaux Connus
Les systèmes RAG ont été évalués précédemment en fonction de leurs performances sur des tâches spécifiques à l'aide de systèmes de notation établis. Ceux-ci comprenaient des métriques comme les scores EM et F1 pour les tâches de classification et divers autres pour les questions-réponses et la vérification des faits.
Certaines outils automatisent les Évaluations, mais beaucoup rencontrent encore des difficultés à mesurer différents aspects des systèmes RAG. Des recherches récentes ont montré que certains modèles de langage avancés peuvent égaler les jugements humains dans les évaluations, soulignant le potentiel d'utilisation de ces modèles en tant qu'évaluateurs automatisés.
La Méthode VERA
VERA évalue l'intégrité des dépôts de documents à l'aide de diverses métriques basées sur LLM, telles que la précision et le rappel de récupération, la fidélité et la pertinence. Il utilise ensuite des techniques comme les agrégations basées sur les rangs et le bootstrap pour améliorer l'utilisabilité de ces métriques.
VERA commence par prendre des requêtes utilisateur, en les associant aux réponses récupérées d'un système RAG. Cela forme la base de l'évaluation, en se concentrant sur la pertinence contextuelle, la fidélité des réponses et la pertinence des réponses. Ces métriques sont combinées à l'aide d'un encodeur croisé pour générer un score global qui aide à prioriser certains aspects et permet une prise de décision éclairée.
Les LLM comme Évaluateurs
Les avancées récentes dans les modèles de langage les rendent adaptés à l'évaluation des systèmes. VERA utilise un modèle spécifique comme évaluateur standard en raison de son équilibre entre coût et efficacité. Ce modèle a montré de fortes performances lors des tests de raisonnement et a surpassé d'autres modèles dans divers benchmarks.
VERA génère des métriques comme la fidélité, le rappel de récupération et la précision de récupération. Pour chaque métrique, des tâches spécifiques sont assignées pour déterminer à quel point les réponses correspondent aux contextes fournis.
Métriques d'Évaluation Multi-Dimensionnelles
Combiner diverses métriques d'évaluation en un score unique aide à simplifier le processus de décision. Cela garantit que les utilisateurs n'ont pas besoin de fouiller à travers plusieurs scores pour comprendre la performance d'un système.
Les méthodes traditionnelles de combinaison de scores masquent souvent les forces et faiblesses individuelles des métriques. VERA utilise des modèles d'encodeurs croisés avancés qui se concentrent sur les relations sémantiques pour améliorer significativement ce processus.
Métriques Bootstrapping pour l'Analyse de Pertinence du Répertoire Documentaire
L'évaluation des systèmes RAG nécessite de suivre des métriques comme la précision de récupération et la fidélité. Cependant, les résultats de ces évaluations peuvent varier en raison de la nature imprévisible des modèles de langage. Pour améliorer la fiabilité, VERA s'appuie sur des techniques de bootstrap qui permettent différentes scénarios de mesure, fournissant des aperçus plus larges sur les performances.
La méthode de bootstrap implique de tirer des échantillons des métriques observées pour former une compréhension plus claire du comportement du système, offrant une vue d'ensemble plus complète des performances.
Analyse de Requête Contrastive pour la Pertinence du Répertoire Documentaire
Il est essentiel de différencier le contenu au sein des dépôts de documents pour garantir qu'ils sont adaptés à des sujets spécifiques. VERA utilise un cadre d'analyse contrastive pour évaluer cette pertinence.
Cela implique de créer deux groupes de requêtes : l'un lié au sujet et l'autre complètement sans rapport. Évaluer comment le dépôt répond à ces deux types de requêtes met en lumière son accent sur le contenu pertinent.
Expérimentation
Dans nos études, nous avons utilisé à la fois des ensembles de données publiquement disponibles et propriétaires pour évaluer différents systèmes RAG. L'ensemble de données MS MARCO à source ouverte a servi de base pour des explorations de connaissances générales, tandis que des ensembles de données spécifiques à l'industrie ont été utilisés pour des évaluations sur mesure.
Nous avons également généré des données synthétiques à l'aide de modèles avancés pour créer des requêtes et des réponses adaptées à nos besoins de test, garantissant diversité et pertinence.
En menant nos expériences, nous avons associé différentes combinaisons de modèles de langage avec des récupérateurs avancés. Cette évaluation approfondie a souligné comment différentes configurations peuvent affecter les performances des systèmes RAG.
Résultats et Analyse
Les résultats ont montré que les puissants modèles de langage ont bien performé sur diverses métriques. Dans nos comparaisons, les modèles ont réussi à obtenir de bons scores en fidélité et en pertinence, indiquant leur efficacité à récupérer des informations précises.
Lors de la comparaison des performances de modèles plus forts avec des modèles plus faibles, nous avons remarqué des différences cohérentes dans les métriques d'évaluation, soulignant les avantages d'utiliser des modèles avancés.
Conclusion
Cet article présente VERA, un cadre créé pour évaluer efficacement les systèmes RAG. En se concentrant sur des métriques clés comme la fidélité, la pertinence des réponses et la précision de récupération, VERA vise à renforcer la confiance dans les applications d'IA.
Les résultats démontrent la capacité de VERA à améliorer la prise de décision dans divers scénarios, en maintenant l'intégrité des dépôts de données et en s'adaptant à des environnements changeants. À mesure que la technologie continue d'avancer, nous prévoyons de peaufiner les métriques de VERA et d'élargir son utilisation dans divers domaines.
Limitations et Travaux Futurs
L'étude reconnaît plusieurs limitations. Elle n'a pas inclus de scénarios avec des modèles de langage affinés, qui auraient pu fournir de meilleures indications. Le focus sur l'anglais peut également limiter son applicabilité à des situations multilingues. De plus, bien que le bootstrap offre une vue détaillée sur le contenu complexe, cela coûte cher en ressources informatiques.
Les travaux futurs visent à créer des stratégies de mesure plus efficaces. Nous allons également explorer les performances d'autres benchmarks publiquement disponibles pour fournir un contexte plus large à nos résultats.
Exemples de Prompts
Prompt de la Métrique de Fidélité
Considérez le contexte donné et les déclarations suivantes, puis déterminez si elles sont soutenues par les informations présentes dans le contexte. Fournissez une brève explication pour chaque déclaration avant d'arriver au verdict (Oui/Non). Fournissez un verdict final pour chaque déclaration dans l'ordre à la fin dans le format donné.
Contexte : Emma est une étudiante diplômée spécialisée en biologie marine à Coastal University. Elle s'intéresse particulièrement aux récifs coralliens et réalise sa thèse sur le blanchiment des coraux. Emma assiste à plusieurs séminaires relatifs aux écosystèmes marins et est activement impliquée dans des recherches sur le terrain dans les récifs coralliens à proximité. Elle collabore souvent avec d'autres chercheurs pour publier ses résultats.
- Emma étudie l'ingénierie mécanique.
- Emma travaille sur un projet lié aux récifs coralliens.
- Emma assiste souvent à des ateliers d'informatique.
- Emma collabore avec d'autres chercheurs.
- La recherche d'Emma est axée sur les écosystèmes marins.
Verdict final pour chaque déclaration dans l'ordre : Non. Oui. Non. Oui. Oui.
Prompt de la Métrique de Rappel de Récupération
Tâche : Étant donné un contexte et une réponse, analysez chaque phrase de la réponse et classez si la phrase est soutenue par le contexte donné ou non. Réfléchissez en étapes et raisonnez avant de conclure.
Contexte : Isaac Newton (25 décembre 1642 - 20 mars 1726/27) était un mathématicien, physicien, astronome, alchimiste et auteur anglais. Il est largement reconnu comme l'un des scientifiques les plus influents de tous les temps et une figure clé de la révolution scientifique. Son livre "Philosophiæ Naturalis Principia Mathematica," publié pour la première fois en 1687, a établi les bases de la mécanique classique. Newton a fait des contributions majeures à l'optique et partage le mérite avec Gottfried Wilhelm Leibniz pour le développement du calcul.
- Isaac Newton était un mathématicien, physicien et astronome anglais.
- Il est connu pour avoir écrit "Philosophiæ Naturalis Principia Mathematica."
- Newton a inventé le calcul de manière indépendante de Leibniz.
Phrases candidates :
- Isaac Newton était un mathématicien, physicien et astronome anglais. [Soutenu par le Contexte]
- Il est connu pour avoir écrit "Philosophiæ Naturalis Principia Mathematica." [Soutenu par le Contexte]
- Newton a inventé le calcul de manière indépendante de Leibniz. [Pas Soutenu par le Contexte]
Prompt de la Métrique de Précision de Récupération
Tâche : Évaluez si le contexte fourni peut répondre à la question donnée en extrayant des phrases pertinentes. Suivez ces lignes directrices :
Question : Qu'est-ce qui cause la montée et la descente des marées ?
Contexte : La force gravitationnelle de la lune et du soleil cause la montée et la descente des marées. La gravité de la lune a un plus grand effet car elle est plus proche de la Terre, créant des marées hautes et basses. Le soleil joue également un rôle, mais dans une moindre mesure.
Phrases candidates :
- La force gravitationnelle de la lune et du soleil cause la montée et la descente des marées.
- La gravité de la lune a un plus grand effet car elle est plus proche de la Terre, créant des marées hautes et basses.
Génération de Question pour la Métrique de Pertinence de Réponse
Tâche : Générer une question basée sur la réponse donnée. La question doit être spécifique, claire et directement liée aux informations fournies dans la réponse.
Réponse : La mission PSLV-C56 est prévue pour être lancée le dimanche 30 juillet 2023 à 06h30 IST / 01h00 UTC. Elle sera lancée depuis le Centre Spatial Satish Dhawan, Sriharikota, Andhra Pradesh, Inde.
Question Générée : Quelle est la date et l'heure de lancement prévue pour la mission PSLV-C56, et d'où sera-t-elle lancée ?
Exemple de Prompt de Résumé RAG avec Chunks Récupérés
Tâche : Évaluez la pertinence et l'exactitude des informations récupérées en réponse à une requête utilisateur. Chaque réponse candidate doit être évaluée pour son alignement avec le contexte fourni.
Contexte : La réponse réelle à la question suivante est : Selon le contexte donné, les adultes commencent généralement à perdre de la masse osseuse autour de l'âge de 40 ans. Les points clés sont : - La masse osseuse atteint son pic durant la jeune adulte, puis il y a une perte lente mais constante de l'os commençant vers l'âge de 40 ans.
Réponse : Les adultes commencent normalement à perdre de la masse osseuse autour de l'âge de 40 ans.
Évaluation des Métriques :
- Pertinence de la réponse : 0.9531866263993314
- Précision du contexte : 0.06666666666666667
- Rappel du contexte : 0.2727272727272727
- Fidélité : 1.0
Titre: VERA: Validation and Evaluation of Retrieval-Augmented Systems
Résumé: The increasing use of Retrieval-Augmented Generation (RAG) systems in various applications necessitates stringent protocols to ensure RAG systems accuracy, safety, and alignment with user intentions. In this paper, we introduce VERA (Validation and Evaluation of Retrieval-Augmented Systems), a framework designed to enhance the transparency and reliability of outputs from large language models (LLMs) that utilize retrieved information. VERA improves the way we evaluate RAG systems in two important ways: (1) it introduces a cross-encoder based mechanism that encompasses a set of multidimensional metrics into a single comprehensive ranking score, addressing the challenge of prioritizing individual metrics, and (2) it employs Bootstrap statistics on LLM-based metrics across the document repository to establish confidence bounds, ensuring the repositorys topical coverage and improving the overall reliability of retrieval systems. Through several use cases, we demonstrate how VERA can strengthen decision-making processes and trust in AI applications. Our findings not only contribute to the theoretical understanding of LLM-based RAG evaluation metric but also promote the practical implementation of responsible AI systems, marking a significant advancement in the development of reliable and transparent generative AI technologies.
Auteurs: Tianyu Ding, Adi Banerjee, Laurent Mombaerts, Yunhong Li, Tarik Borogovac, Juan Pablo De la Cruz Weinstein
Dernière mise à jour: 2024-08-16 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2409.03759
Source PDF: https://arxiv.org/pdf/2409.03759
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.