Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Calcolo e linguaggio

Valutare i sistemi di generazione aumentata da recupero

Un nuovo framework per valutare i sistemi RAG senza riferimenti umani.

― 6 leggere min


Framework di valutazioneFramework di valutazioneRAGpotenziati da recupero.Valutazione automatizzata per sistemi
Indice

RAGAs sta per Retrieval Augmented Generation Assessment. È un tool pensato per valutare quanto bene funzionano i sistemi di Retrieval Augmented Generation (RAG) senza bisogno di riferimenti umani. I sistemi RAG uniscono una parte di recupero che trova informazioni da un database e un modello linguistico (LM) che genera risposte usando queste informazioni. Questa combinazione aiuta i modelli linguistici a dare risposte più accurate utilizzando dati reali, riducendo gli errori noti come allucinazioni.

Valutare i sistemi RAG non è semplice. Ci sono molti fattori da considerare, come quanto bene la parte di recupero trova informazioni rilevanti, quanto bene il modello linguistico usa queste informazioni e la qualità complessiva della risposta fornita. RAGAs offre un insieme di misure per valutare questi diversi aspetti, accelerando il processo di valutazione, cosa importante visto che i modelli linguistici grandi stanno diventando sempre più popolari.

La Sfida dei Modelli Linguistici

I Modelli Linguistici (LM) raccolgono un sacco di informazioni sul mondo, permettendo loro di rispondere a domande senza fonti esterne. Questo concetto è diventato ben consolidato con modelli come BERT ed è stato ulteriormente stabilito con modelli più grandi. Anche se questi modelli possono funzionare bene su varie domande, hanno due grandi limitazioni. Primo, non possono rispondere a domande su eventi che sono accaduti dopo il loro ultimo addestramento. Secondo, faticano a ricordare informazioni che non vengono menzionate spesso nei dati su cui sono stati addestrati.

Per superare questi problemi, sono stati creati i sistemi RAG. Questi sistemi recuperano informazioni rilevanti da un database e poi forniscono tali informazioni al modello linguistico per generare una risposta. Mentre i metodi precedenti usavano modelli speciali per combinare recupero e generazione, ricerche recenti suggeriscono che semplicemente aggiungere documenti recuperati a modelli standard produce buoni risultati. Questo significa che le strategie RAG possono funzionare con qualsiasi modello linguistico accessibile tramite API.

Importanza della Valutazione Automatizzata

L’utilità delle strategie di recupero è evidente, ma richiedono un attento aggiustamento poiché il successo complessivo dipende da molti fattori, incluso il modello di recupero, il database utilizzato, il modello linguistico e il modo in cui sono formulate le domande. Per questo motivo, automatizzare la valutazione dei sistemi potenziati da recupero è essenziale.

Tradizionalmente, i sistemi RAG vengono valutati in base al compito di modellazione linguistica, comunemente misurando la perplessità su dataset di riferimento. Tuttavia, questo tipo di valutazione non prevede sempre come si comporterà il sistema nelle applicazioni reali. Dipende anche dalle probabilità fornite dal modello linguistico, che potrebbero non essere disponibili per alcuni modelli chiusi, come ChatGPT o GPT-4. Un'altra valutazione tipica comporta rispondere a domande, ma spesso vengono testate solo risposte molto brevi, che potrebbero non riflettere l'uso reale.

Per affrontare queste sfide, RAGAs fornisce un modo per valutare automaticamente i sistemi RAG. Si concentra su situazioni in cui non ci sono risposte di riferimento disponibili e dove possono essere stimate diverse misure di correttezza, insieme a quanto è utile l'informazione recuperata. RAGAs si integra con framework popolari per costruire soluzioni RAG, rendendo più facile per gli sviluppatori adottare questo metodo di valutazione.

Valutare la Fedeltà, la Pertinenza della Risposta e la Pertinenza del Contesto

In RAGAs, ci sono tre aspetti principali della qualità importanti per la valutazione: fedeltà, pertinenza della risposta e pertinenza del contesto.

Fedeltà

La fedeltà significa che la risposta dovrebbe essere basata sul contesto fornito. Questo assicura che non ci siano allucinazioni. In applicazioni dove l'accuratezza fattuale è essenziale, come in contesti legali, avere fedeltà è cruciale. Per valutare la fedeltà, RAGAs scompone risposte più lunghe in affermazioni più piccole e controlla se queste affermazioni possono essere supportate dal contesto. Questo processo aiuta a determinare quanto è radicata la risposta.

Pertinenza della Risposta

La pertinenza della risposta si riferisce a quanto bene la risposta affronta la domanda posta. La valutazione non considera l'accuratezza fattuale ma penalizza risposte che sono incomplete o contengono dettagli non necessari. Per stimare la pertinenza della risposta, RAGAs genera domande potenziali basate sulla risposta e verifica quanto queste domande allineano con la domanda originale.

Pertinenza del Contesto

La pertinenza del contesto esamina quanto è focalizzata l'informazione recuperata. L'obiettivo è assicurarsi che il contesto non includa informazioni eccessive o non correlate. Per valutare questo, RAGAs estrae frasi essenziali per rispondere alla domanda dal contesto fornito. In questo modo, penalizza l'inclusione di informazioni ridondanti.

Creare il Dataset WikiEval

Per testare il framework RAGAs, è stato sviluppato un dataset chiamato WikiEval. Questo nuovo dataset include esempi di combinazioni domanda-contesto-risposta con valutazioni umane. Sono state selezionate cinquanta pagine di Wikipedia che coprono eventi dall'inizio del 2022. Da queste pagine, sono state create domande, e poi le risposte sono state generate usando le sezioni introduttive di questi articoli.

Le domande sono state progettate per essere rispondibili in base al contesto dato e miravano a fornire informazioni non banali senza link. Annotatori umani hanno valutato le risposte generate in base a fedeltà, pertinenza della risposta e pertinenza del contesto, raggiungendo alti livelli di accordo nei loro giudizi.

Misurare l'Accordo con Valutatori Umani

Usando il dataset WikiEval, l'efficacia di RAGAs può essere confrontata con le valutazioni umane. Questo confronto guarda a quante volte le previsioni fatte da RAGAs si allineano con i giudizi umani riguardo a fedeltà, pertinenza della risposta e pertinenza del contesto.

Per fornire contesto ai risultati, le previsioni di RAGAs sono state confrontate con due metodi di riferimento. Un metodo prevedeva di assegnare un punteggio tra 0 e 10 per le tre dimensioni di qualità. Il secondo metodo prevedeva di chiedere al modello linguistico di scegliere la risposta o il contesto preferito. I risultati hanno indicato che le previsioni di RAGAs corrispondevano strettamente alle valutazioni umane, in particolare per fedeltà e pertinenza della risposta.

Conclusione

È stata sottolineata l'esigenza di un metodo di valutazione automatizzata per i sistemi RAG. Un buon framework di valutazione dovrebbe valutare la fedeltà (se la risposta è basata sul contesto recuperato), la pertinenza della risposta (se la risposta corrisponde alla domanda) e la pertinenza del contesto (il focus delle informazioni recuperate). Il dataset WikiEval supporta lo sviluppo di questo framework, fornendo valutazioni umane nelle tre aree. L'implementazione di RAGAs offre un approccio semplice per gli sviluppatori per ottenere informazioni sui loro sistemi RAG, anche quando la verità di base non è disponibile. RAGAs si dimostra uno strumento prezioso per migliorare la valutazione dei sistemi di Generazione Aumentata da Recupero nelle applicazioni in tempo reale.

Fonte originale

Titolo: RAGAS: Automated Evaluation of Retrieval Augmented Generation

Estratto: We introduce RAGAs (Retrieval Augmented Generation Assessment), a framework for reference-free evaluation of Retrieval Augmented Generation (RAG) pipelines. RAG systems are composed of a retrieval and an LLM based generation module, and provide LLMs with knowledge from a reference textual database, which enables them to act as a natural language layer between a user and textual databases, reducing the risk of hallucinations. Evaluating RAG architectures is, however, challenging because there are several dimensions to consider: the ability of the retrieval system to identify relevant and focused context passages, the ability of the LLM to exploit such passages in a faithful way, or the quality of the generation itself. With RAGAs, we put forward a suite of metrics which can be used to evaluate these different dimensions \textit{without having to rely on ground truth human annotations}. We posit that such a framework can crucially contribute to faster evaluation cycles of RAG architectures, which is especially important given the fast adoption of LLMs.

Autori: Shahul Es, Jithin James, Luis Espinosa-Anke, Steven Schockaert

Ultimo aggiornamento: 2023-09-26 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2309.15217

Fonte PDF: https://arxiv.org/pdf/2309.15217

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili