Simple Science

La science de pointe expliquée simplement

# Informatique# Recherche d'informations# Intelligence artificielle# Calcul et langage# Bibliothèques numériques

Golden-Retriever : Une nouvelle façon d'accéder aux connaissances de l'entreprise

Un système qui améliore la recherche d'infos en clarifiant les questions des utilisateurs.

― 7 min lire


Le Golden-RetrieverLe Golden-Retrievertransforme l'accès auxdocuments.d'infos dans les entreprises !Un système qui améliore la recherche
Table des matières

Golden-Retriever est un système qui aide les entreprises à accéder et à utiliser de grandes collections de documents. Ces documents contiennent souvent des termes et des phrases spécifiques qui peuvent être déroutants pour les utilisateurs, surtout ceux qui sont nouveaux dans un domaine technique. En améliorant la façon dont les questions sont formulées avant de chercher dans ces documents, Golden-Retriever facilite la recherche de la bonne info.

Pourquoi les Méthodes Traditionnelles Ont Du Mal

Beaucoup d'entreprises ont une tonne de documents créés au fil des ans, comme des supports de formation ou des documents de conception. Les nouveaux employés peinent souvent à comprendre rapidement ou à trouver ce dont ils ont besoin dans ces documents. C'est parce que beaucoup de documents utilisent des termes spéciaux connus sous le nom de jargon. Les méthodes habituelles pour répondre aux questions ratent souvent le coche quand ces jargons sont impliqués.

Les Modèles de Langage Grande Échelle (LLMs) sont des systèmes avancés conçus pour répondre aux questions. Même s'ils sont bons pour répondre à des questions générales, ils ont du mal avec des connaissances spécifiques à l'entreprise à moins d'être spécialement entraînés sur ces documents. Cependant, entraîner ces modèles coûte cher, peut entraîner des erreurs avec de nouvelles informations et peut remplacer des connaissances anciennes utiles.

Qu'est-ce que la Génération Augmentée par Récupération (RAG)?

RAG est une approche différente pour utiliser les LLMs. Au lieu de réentraîner tout le modèle avec des documents d'entreprise, il récupère des morceaux de documents pertinents en fonction des questions des utilisateurs. RAG intègre le modèle dans un système qui permet au LLM de puiser des infos dans une base de données de documents. Cela permet de continuer à mettre à jour la base de connaissances facilement au fur et à mesure que de nouveaux documents arrivent sans avoir à réentraîner le modèle à chaque fois.

Cependant, RAG a ses propres problèmes, surtout quand il s'agit d'interpréter des jargons spécifiques à l'entreprise. Si le système ne comprend pas correctement ces termes, cela peut mener à des résultats inexactes. D'autres méthodes essaient de corriger cela après que les documents aient été récupérés, mais si la récupération initiale est fausse, les corrections n’aident souvent pas beaucoup.

Les Défis du Jargon

Quand les utilisateurs posent des questions, la présence de jargon peut mener à de la confusion. Par exemple, le même terme peut signifier différentes choses selon le contexte. Cela peut entraîner des malentendus où le modèle comprend mal le sens. De plus, les utilisateurs n’incluent souvent pas assez de contexte dans leurs questions, rendant encore plus compliqué de trouver la bonne réponse.

Certaines approches essaient de catégoriser les questions des utilisateurs dans des Contextes spécifiques en utilisant des modèles supplémentaires. Cependant, cela demande beaucoup d'efforts et de temps pour rassembler les données nécessaires à l'entraînement de ces modèles, ce qui n'est souvent pas pratique.

Présentation de Golden-Retriever

Golden-Retriever vise à relever ces défis en améliorant la méthode RAG traditionnelle. Il le fait en se concentrant sur la formulation des questions avant de chercher dans les documents. Le système identifie le jargon dans les questions de l'utilisateur et clarifie leurs significations en fonction du contexte. Grâce à cela, il réduit les erreurs et augmente les chances de trouver les bons documents.

Comment Fonctionne Golden-Retriever

Golden-Retriever se compose de deux parties principales : un processus hors ligne et un processus en ligne.

Processus Hors Ligne

La partie hors ligne prépare la base de données de documents avant que les utilisateurs ne posent des questions. Elle utilise la Reconnaissance Optique de Caractères (OCR) pour lire le texte à partir de divers formats de documents. Le texte est ensuite raccourci et clarifié grâce à des LLMs. De cette manière, quand les utilisateurs posent des questions plus tard, le système est plus susceptible de trouver des documents pertinents.

Processus En Ligne

La partie en ligne se déroule de manière interactive lorsque les utilisateurs posent des questions. D'abord, le système identifie le jargon et le contexte dans la question en utilisant des LLMs. Ensuite, il tire des définitions d'un dictionnaire de jargon pour s'assurer que la question est claire et correctement formulée. Cette question augmentée est ensuite introduite dans le cadre RAG, permettant au système de récupérer efficacement les documents les plus pertinents.

Étapes Impliquées dans le Traitement des Questions

Identification du Jargon

Dans la première étape, Golden-Retriever vérifie la question de l'utilisateur pour le jargon ou les abréviations. C'est essentiel puisque beaucoup de questions incluent des termes spécialisés qui pourraient être mal compris. Le LLM aide en extrayant et en listant ces termes avec un accent sur la clarté.

Détermination du Contexte

Ensuite, le système identifie le contexte de la question. Le même terme peut signifier différentes choses selon la situation. Le système utilise des exemples définis pour aider le LLM à classifier correctement la question, garantissant que son sens est clair.

Consultation du Dictionnaire de Jargon

Une fois le jargon et le contexte identifiés, l'étape suivante est de les chercher dans un dictionnaire de jargon. Cette étape est essentielle pour fournir au modèle des définitions précises, garantissant que la question soit claire et compréhensible.

Augmentation de la Question

Avec les définitions et le contexte en main, la question originale de l'utilisateur est ensuite modifiée pour inclure ces nouvelles informations. Cela permet au système de trouver les documents les plus précis en clarifiant toute confusion dans la question elle-même.

Mécanisme de Secours

Si le système ne trouve pas d'informations pertinentes, il a un plan de secours. Dans de tels cas, il informera l'utilisateur que la question ne peut pas être répondue en raison d'informations manquantes et suggérera de vérifier l'orthographe ou de contacter quelqu'un pour clarification.

Test de Golden-Retriever

Golden-Retriever a été mis à l'épreuve à travers deux expériences principales : l'une pour voir à quel point il pouvait répondre aux questions basées sur des documents et l'autre pour évaluer son succès dans l'identification des abréviations.

Expérience de Réponse aux Questions

Lors de la première expérience, plusieurs questions à choix multiples ont été collectées à partir de divers documents de formation pour les nouvelles recrues. L'objectif était d'évaluer à quel point Golden-Retriever a répondu à ces questions par rapport aux approches standards.

Les résultats étaient impressionnants. Golden-Retriever a largement surpassé les méthodes régulières, montrant une augmentation significative de la précision.

Expérience d'Identification des Abréviations

Dans la deuxième expérience, l'accent était mis sur la capacité du système à identifier correctement des abréviations inconnues. Des abréviations aléatoires ont été mélangées dans les questions pour voir à quel point le système pouvait les reconnaître et y répondre. Les modèles de pointe ont montré une grande précision dans la détection de ces abréviations, bien que quelques défis demeurent.

Conclusion

Golden-Retriever est une solution prometteuse pour les entreprises qui cherchent à améliorer leur accès à des bases de connaissances complexes. En se concentrant sur la clarification des questions des utilisateurs avant de chercher, il améliore la capacité à récupérer des documents pertinents, conduisant à de meilleures réponses et une expérience utilisateur plus fluide. Avec des efforts continus pour affiner et développer davantage ce système, il a le potentiel d'être un outil précieux dans tout environnement technique.

Source originale

Titre: Golden-Retriever: High-Fidelity Agentic Retrieval Augmented Generation for Industrial Knowledge Base

Résumé: This paper introduces Golden-Retriever, designed to efficiently navigate vast industrial knowledge bases, overcoming challenges in traditional LLM fine-tuning and RAG frameworks with domain-specific jargon and context interpretation. Golden-Retriever incorporates a reflection-based question augmentation step before document retrieval, which involves identifying jargon, clarifying its meaning based on context, and augmenting the question accordingly. Specifically, our method extracts and lists all jargon and abbreviations in the input question, determines the context against a pre-defined list, and queries a jargon dictionary for extended definitions and descriptions. This comprehensive augmentation ensures the RAG framework retrieves the most relevant documents by providing clear context and resolving ambiguities, significantly improving retrieval accuracy. Evaluations using three open-source LLMs on a domain-specific question-answer dataset demonstrate Golden-Retriever's superior performance, providing a robust solution for efficiently integrating and querying industrial knowledge bases.

Auteurs: Zhiyu An, Xianzhong Ding, Yen-Chun Fu, Cheng-Chung Chu, Yan Li, Wan Du

Dernière mise à jour: 2024-07-20 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2408.00798

Source PDF: https://arxiv.org/pdf/2408.00798

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires