DIRAS : Améliorer l'annotation de pertinence pour les systèmes RAG
DIRAS améliore l'annotation de pertinence pour la recherche d'infos, optimisant la performance dans différents domaines.
― 8 min lire
Table des matières
- L'importance de la récupération d'information
- Présentation de DIRAS
- Caractéristiques clés de DIRAS
- Évaluation de DIRAS
- Expérience 1 : Annotation des données ChatReport
- Expérience 2 : Utilisation des données ClimRetrieve
- Comment DIRAS fonctionne
- Création de données d'entraînement
- Ajustement des modèles de langage
- Méthodes d'évaluation
- Résultats et constatations des expériences
- Conclusions ChatReport
- Conclusions ClimRetrieve
- Conclusion et directions futures
- Recommandations pour les systèmes RAG
- Considérations éthiques
- Remerciements
- Source originale
- Liens de référence
La génération augmentée par récupération (RAG) est une approche qui aide les systèmes à trouver des réponses aux requêtes en utilisant des documents spécifiques à un domaine. Cependant, il y a des inquiétudes selon lesquelles les systèmes RAG pourraient manquer d'informations importantes ou inclure trop de contenu hors sujet. Pour résoudre ces préoccupations, on a besoin de repères clairs pour évaluer l'efficacité de la récupération d'information (RI), surtout puisque ce qui est considéré comme pertinent peut varier énormément selon les différents domaines et requêtes.
Cet article propose DIRAS, un nouveau système pour annoter efficacement la Pertinence d'une manière qui ne nécessite pas un travail manuel intensif. En ajustant des modèles de langage open-source, DIRAS peut évaluer l'importance des documents en fonction de leur pertinence pour des requêtes spécifiques. Les tests montrent que DIRAS performe à un niveau élevé, comparable aux modèles avancés.
L'importance de la récupération d'information
Dans les systèmes RAG, la récupération d'information est une étape cruciale. Elle filtre les documents pertinents, ce qui réduit le coût global d'utilisation de grands modèles de langage (LLMs). Mais si le processus de récupération n'est pas assez bon, cela peut nuire à la performance du système entier. Si le système ne trouve pas d'informations pertinentes (faible rappel) ou trouve trop d'informations hors sujet (faible précision), ça peut entraîner d'importants problèmes de performance. Les repères généraux ne représentent souvent pas comment un système va performer dans un domaine spécifique, rendant nécessaire la création de repères spécifiques à un domaine.
Présentation de DIRAS
DIRAS signifie Annotation de Récupération d'Information Spécifique au Domaine avec Scalabilité. Il est conçu pour annoter efficacement des Données spécifiques à divers domaines. Les utilisateurs doivent simplement fournir quelques requêtes spécifiques et documents ainsi que des définitions de ce qui est pertinent pour ces requêtes. DIRAS utilise alors la prédiction de données à partir de modèles avancés pour étiqueter la pertinence sans engendrer de coûts élevés.
DIRAS offre une nouvelle manière de créer des données d'entraînement qui privilégient l'efficacité. Les systèmes précédents étaient souvent limités par des biais de sélection, mais DIRAS garantit une représentation plus large et plus précise de la pertinence.
Caractéristiques clés de DIRAS
DIRAS a plusieurs avantages qui l'aident à exceller dans la tâche d'annotation de pertinence :
Efficacité et Efficacité : Il permet d'annoter tous les paires (requête, document), évitant les biais dans la sélection. Cette exhaustivité est vitale pour de nombreuses requêtes. Les méthodes utilisées dans DIRAS ont montré de bonnes performances, répondant aux préoccupations sur la calibration dans les travaux antérieurs.
Meilleures définitions de la pertinence : DIRAS intègre des définitions claires de la pertinence directement dans le processus d'annotation. Cela aide à garantir des résultats plus cohérents. Le modèle analyse chaque document en détail par rapport à ces définitions, menant à de meilleures prédictions globales.
Prédictions riches : Contrairement aux méthodes précédentes qui classaient seulement les documents de manière relative, DIRAS fournit également des scores de pertinence binaires et détaillés. Cela donne aux systèmes RAG des capacités de récupération plus nuancées, leur permettant d'évaluer combien d'informations pertinentes sont nécessaires pour chaque requête.
Évaluation de DIRAS
Nous avons réalisé des expériences sur deux ensembles de données distincts pour évaluer l'efficacité de DIRAS.
Expérience 1 : Annotation des données ChatReport
Le premier ensemble de données était basé sur une application qui analyse de longs rapports d'entreprise. Cet ensemble de données incluait également des concepts de pertinence partielle et d'incertitude, ce qui en faisait un choix approprié pour tester DIRAS.
Les résultats étaient prometteurs, démontrant que DIRAS a généré des Annotations qui répondaient à des normes élevées, performants même mieux que les méthodes conventionnelles.
Expérience 2 : Utilisation des données ClimRetrieve
Le deuxième ensemble de données utilisé était ClimRetrieve, qui reflète comment les experts recherchent des informations dans des rapports. Cet ensemble de données comprenait un grand nombre de paires (requête, document).
Les tests ont montré que DIRAS pouvait comprendre les différences fines dans les niveaux de pertinence grâce à des définitions améliorées. De plus, DIRAS a identifié des informations auparavant ignorées, traitant certains biais dans les annotations originales.
Comment DIRAS fonctionne
Le pipeline DIRAS implique deux étapes principales : la création de données d'entraînement et l'ajustement des modèles de langage.
Création de données d'entraînement
DIRAS construit des données d'entraînement à partir de sources spécifiques au domaine. Cela garantit que chaque ensemble de documents inclut diverses paires (requête, document). Les définitions de pertinence peuvent être conçues par des experts ou créées à l'aide de LLMs. Nous utilisons des stratégies d'échantillonnage pour obtenir des documents pour chaque question tout en s'assurant de l'inclusion d'exemples pertinents et non pertinents.
Ajustement des modèles de langage
La prochaine étape consiste à ajuster les modèles de langage en utilisant les données d'entraînement créées précédemment. Le réglage par instructions aide à préparer ces modèles à prédire des étiquettes de pertinence et des scores de confiance.
Méthodes d'évaluation
Pour évaluer la performance de DIRAS, nous avons examiné deux types principaux d'étiquettes :
Étiquettes de pertinence : Elles déterminent si un document est utile pour répondre à une requête. Une étiquette finale est convenue après avoir résolu les différences entre divers annotateurs.
Étiquettes d'incertitude : Une entrée est jugée incertaine s'il y a un fort désaccord entre les annotateurs ou s'il y a accord sur le fait qu'un document est partiellement pertinent.
Nous avons suivi diverses métriques de performance, y compris la pertinence binaire, la calibration et la récupération d'information.
Résultats et constatations des expériences
Conclusions ChatReport
Dans l'ensemble de données ChatReport, DIRAS a montré sa capacité à produire des définitions de pertinence de haute qualité. Le classement point par point du système a réussi de manière significative par rapport aux méthodes traditionnelles, validant nos revendications initiales sur DIRAS.
Conclusions ClimRetrieve
L'ensemble de données ClimRetrieve a mis en évidence d'autres capacités de DIRAS. Il a réussi à classer efficacement les documents pertinents et à identifier des nuances dans les définitions de pertinence. Dans ce cadre réel, DIRAS a réussi à atténuer les biais en localisant des informations qui avaient précédemment été ignorées par les annotateurs humains.
Conclusion et directions futures
En résumé, DIRAS représente une avancée significative dans l'annotation efficace de la pertinence des documents pour les systèmes de récupération d'information. Il comble le fossé entre les méthodologies avancées d'IA et les exigences spécifiques de divers domaines.
À l'avenir, il y a un potentiel pour étendre les capacités de DIRAS au-delà des documents uniquement textuels pour inclure des données multimodales. Les modèles de langage à long contexte pourraient également influencer la façon dont la récupération fonctionne mais DIRAS sert de cadre nécessaire pour trouver plusieurs éléments d'information pertinents dans des contextes de données complexes.
Recommandations pour les systèmes RAG
Éviter la récupération Top-K : Les méthodes traditionnelles s'appuient souvent sur la sélection des meilleurs documents pour augmenter les réponses. Au lieu de cela, envisagez d'utiliser un système où tous les documents dépassant un certain score de pertinence sont récupérés.
Optimiser les définitions de pertinence : Les retours des utilisateurs finaux dans les scénarios RAG devraient guider le raffinement des définitions de pertinence, garantissant qu'elles répondent efficacement aux besoins du monde réel.
Considérations éthiques
Tous les participants impliqués dans les processus d'annotation sont compétents et conscients du contexte. Il n'y a pas de préoccupations concernant la confidentialité des données ou les biais dans les données collectées. Le travail a été financé par des subventions de recherche appropriées garantissant le respect des directives éthiques.
Remerciements
Nous remercions toutes les parties impliquées dans la recherche, des annotateurs humains aux contributeurs techniques, pour leur rôle dans le développement et la validation efficace de DIRAS. Vos contributions aident à illustrer le potentiel de l'IA pour transformer les pratiques de récupération d'information dans divers domaines.
Cet article présente DIRAS comme un outil novateur pour une annotation efficace de la pertinence qui peut conduire à une amélioration des performances de récupération d'information dans des domaines divers.
Titre: DIRAS: Efficient LLM Annotation of Document Relevance in Retrieval Augmented Generation
Résumé: Retrieval Augmented Generation (RAG) is widely employed to ground responses to queries on domain-specific documents. But do RAG implementations leave out important information when answering queries that need an integrated analysis of information (e.g., Tell me good news in the stock market today.)? To address these concerns, RAG developers need to annotate information retrieval (IR) data for their domain of interest, which is challenging because (1) domain-specific queries usually need nuanced definitions of relevance beyond shallow semantic relevance; and (2) human or GPT-4 annotation is costly and cannot cover all (query, document) pairs (i.e., annotation selection bias), thus harming the effectiveness in evaluating IR recall. To address these challenges, we propose DIRAS (Domain-specific Information Retrieval Annotation with Scalability), a manual-annotation-free schema that fine-tunes open-sourced LLMs to consider nuanced relevance definition and annotate (partial) relevance labels with calibrated relevance scores. Extensive evaluation shows that DIRAS enables smaller (8B) LLMs to achieve GPT-4-level performance on annotating and ranking unseen (query, document) pairs, and is helpful for real-world RAG development. All code, LLM generations, and human annotations can be found in \url{https://github.com/EdisonNi-hku/DIRAS}.
Auteurs: Jingwei Ni, Tobias Schimanski, Meihong Lin, Mrinmaya Sachan, Elliott Ash, Markus Leippold
Dernière mise à jour: 2024-10-16 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2406.14162
Source PDF: https://arxiv.org/pdf/2406.14162
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://reports.chatclimate.ai/
- https://www.fsb-tcfd.org/
- https://github.com/EdisonNi-hku/chatreport
- https://huggingface.co/BAAI/bge-reranker-v2-gemma
- https://github.com/jondurbin/qlora
- https://github.com/FlagOpen/FlagEmbedding/tree/master/examples/finetune