Golden-Retriever: Un Nuovo Modo per Accedere alla Conoscenza Aziendale
Un sistema che migliora il recupero delle informazioni chiarendo le domande degli utenti.
― 6 leggere min
Indice
- Perché i Metodi Tradizionali Faticano
- Che Cos'è il Retrieval Augmented Generation (RAG)?
- Le Sfide con il Gergo
- Presentiamo Golden-Retriever
- Come Funziona Golden-Retriever
- Fasi Coinvolte nella Gestione delle Domande
- Identificare il Gergo
- Determinare il Contesto
- Consultare il Dizionario di Gergo
- Aumentare la Domanda
- Meccanismo di Backup
- Testare Golden-Retriever
- Esperimento di Risposta a Domande
- Esperimento di Identificazione delle Abbreviazioni
- Conclusione
- Fonte originale
- Link di riferimento
Golden-Retriever è un sistema che aiuta le aziende ad accedere e utilizzare grandi collezioni di documenti. Questi documenti spesso contengono termini e frasi specifiche che possono essere confuse per gli utenti, soprattutto per chi è nuovo in un settore tecnico. Migliorando come vengono formulate le domande prima di cercare tra questi documenti, Golden-Retriever rende più facile trovare le informazioni giuste.
Perché i Metodi Tradizionali Faticano
Molte aziende hanno un sacco di documenti creati nel tempo, come materiali di formazione o documenti di design. I nuovi dipendenti spesso trovano difficile capire o trovare rapidamente ciò di cui hanno bisogno in questi documenti. Questo perché molti documenti usano termini speciali conosciuti come gergo. I metodi normali per rispondere alle domande spesso non colpiscono nel segno quando ci sono di mezzo questi gergali.
I Modelli di Linguaggio Grande (LLM) sono sistemi avanzati progettati per rispondere a domande. Anche se sono bravi a rispondere a domande generali, possono avere difficoltà con conoscenze specifiche dell'azienda a meno che non siano addestrati su quei documenti. Tuttavia, addestrare questi modelli è costoso, può portare a errori con nuove informazioni e può sovrascrivere conoscenze utili più vecchie.
RAG)?
Che Cos'è il Retrieval Augmented Generation (RAG è un approccio diverso per usare gli LLM. Invece di riaddestrare l'intero modello con documenti aziendali, recupera pezzi di documento rilevanti basati sulle domande degli utenti. RAG inserisce il modello all'interno di un sistema che consente all'LLM di attingere informazioni da un database di documenti. Questo rende possibile continuare ad aggiornare la base di conoscenze facilmente man mano che nuovi documenti arrivano senza dover riaddestrare il modello ogni volta.
Tuttavia, RAG ha i suoi problemi, in particolare quando si tratta di interpretare gergali specifici dell'azienda. Se il sistema non comprende correttamente questi termini, può portare a risultati inaccurati. Altri metodi cercano di correggere questo dopo che i documenti sono stati recuperati, ma se il recupero iniziale è sbagliato, le correzioni spesso non aiutano molto.
Le Sfide con il Gergo
Quando gli utenti pongono domande, la presenza di gergo può portare a confusione. Ad esempio, lo stesso termine potrebbe avere significati diversi in contesti diversi. Questo può portare a fraintendimenti in cui il modello capisce male il significato. Inoltre, gli utenti spesso non includono abbastanza Contesto nelle loro domande, rendendo ancora più complicato trovare la risposta corretta.
Alcuni approcci cercano di categorizzare le domande degli utenti in contesti specifici usando modelli aggiuntivi. Tuttavia, questo richiede molto sforzo e tempo per raccogliere i dati necessari per addestrare questi modelli, il che spesso non è praticabile.
Presentiamo Golden-Retriever
Golden-Retriever punta a risolvere queste sfide migliorando il metodo RAG tradizionale. Lo fa concentrandosi su come formulare meglio le domande prima di cercare tra i documenti. Il sistema identifica il gergo nelle domande degli utenti e chiarisce i loro significati in base al contesto. In questo modo, riduce gli errori e aumenta le possibilità di trovare i documenti giusti.
Come Funziona Golden-Retriever
Golden-Retriever è composto da due parti principali: processi offline e online.
Processo Offline
La parte offline prepara il database di documenti prima che gli utenti inizino a fare domande. Usa il Riconoscimento Ottico dei Caratteri (OCR) per leggere il testo da vari formati di documenti. Il testo viene poi abbreviato e reso più chiaro tramite l'uso di LLM. In questo modo, quando gli utenti fanno domande in seguito, il sistema ha più probabilità di trovare documenti rilevanti.
Processo Online
La parte online avviene interattivamente quando gli utenti fanno domande. Prima, il sistema identifica il gergo e il contesto all'interno della domanda usando LLM. Poi attinge definizioni da un dizionario di gergo per garantire che la domanda sia chiara e formulata correttamente. Questa domanda aumentata viene poi alimentata nel framework RAG, consentendo al sistema di recuperare i documenti più rilevanti in modo efficace.
Fasi Coinvolte nella Gestione delle Domande
Identificare il Gergo
Nel primo passo, Golden-Retriever controlla la domanda dell'utente per gergo o abbreviazioni. Questo è vitale dato che molte domande includono termini specializzati che potrebbero essere fraintesi. L'LLM aiuta estraendo e elencando questi termini con un focus sulla chiarezza.
Determinare il Contesto
Poi, il sistema identifica il contesto della domanda. Lo stesso termine può significare cose diverse a seconda della situazione. Il sistema usa esempi fissi per aiutare l'LLM a capire come classificare correttamente la domanda, assicurandosi che il significato sia chiaro.
Consultare il Dizionario di Gergo
Una volta identificati gergo e contesto, il passo successivo è cercarli in un dizionario di gergo. Questo passo è fondamentale per fornire al modello definizioni accurate, garantendo che la domanda sia chiara e comprensibile.
Aumentare la Domanda
Con definizioni e contesto a disposizione, la domanda originale dell'utente viene poi modificata per includere queste nuove informazioni. Questo consente al sistema di trovare i documenti più accurati chiarendo eventuali confusione nella domanda stessa.
Meccanismo di Backup
Se il sistema non trova informazioni rilevanti, ha un piano di riserva. In tali casi, informerà l'utente che la domanda non può essere risposta a causa di informazioni mancanti e suggerirà di controllare l'ortografia o contattare qualcuno per chiarimenti.
Testare Golden-Retriever
Golden-Retriever è stato messo alla prova attraverso due principali esperimenti: uno per vedere quanto bene potesse rispondere a domande basate su documenti e l'altro per valutare il suo successo nell'identificare abbreviazioni.
Esperimento di Risposta a Domande
Nel primo esperimento, sono state raccolte domande a scelta multipla da vari documenti di formazione per i nuovi assunti. L'obiettivo era valutare quanto bene Golden-Retriever rispondesse a queste domande rispetto agli approcci standard.
I risultati sono stati impressionanti. Golden-Retriever ha superato i metodi normali di un ampio margine, mostrando un significativo aumento di accuratezza.
Esperimento di Identificazione delle Abbreviazioni
Nel secondo esperimento, l'attenzione era sulla capacità del sistema di identificare correttamente abbreviazioni sconosciute. Abbreviazioni casuali sono state mescolate nelle domande per vedere quanto bene il sistema potesse riconoscerle e rispondere. I modelli all'avanguardia hanno mostrato alta accuratezza nel rilevare queste abbreviazioni, anche se alcuni problemi restano.
Conclusione
Golden-Retriever è una soluzione promettente per le aziende che cercano di migliorare l'accesso a basi di conoscenza complesse. Concentrandosi sul chiarire le domande degli utenti prima di cercare, migliora la capacità di recuperare documenti rilevanti, portando a risposte migliori e a un'esperienza più fluida per gli utenti. Con sforzi continui per affinare e sviluppare ulteriormente questo sistema, ha il potenziale per diventare uno strumento prezioso in qualsiasi ambiente tecnico.
Titolo: Golden-Retriever: High-Fidelity Agentic Retrieval Augmented Generation for Industrial Knowledge Base
Estratto: This paper introduces Golden-Retriever, designed to efficiently navigate vast industrial knowledge bases, overcoming challenges in traditional LLM fine-tuning and RAG frameworks with domain-specific jargon and context interpretation. Golden-Retriever incorporates a reflection-based question augmentation step before document retrieval, which involves identifying jargon, clarifying its meaning based on context, and augmenting the question accordingly. Specifically, our method extracts and lists all jargon and abbreviations in the input question, determines the context against a pre-defined list, and queries a jargon dictionary for extended definitions and descriptions. This comprehensive augmentation ensures the RAG framework retrieves the most relevant documents by providing clear context and resolving ambiguities, significantly improving retrieval accuracy. Evaluations using three open-source LLMs on a domain-specific question-answer dataset demonstrate Golden-Retriever's superior performance, providing a robust solution for efficiently integrating and querying industrial knowledge bases.
Autori: Zhiyu An, Xianzhong Ding, Yen-Chun Fu, Cheng-Chung Chu, Yan Li, Wan Du
Ultimo aggiornamento: 2024-07-20 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2408.00798
Fonte PDF: https://arxiv.org/pdf/2408.00798
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.