Affrontare le allucinazioni nei modelli di linguaggio
Un nuovo benchmark valuta i LLM per l'accuratezza fattuale.
― 6 leggere min
Indice
- Cosa sono le Allucinazioni?
- La Necessità di una Migliore Valutazione
- Il Nuovo Benchmark
- Caratteristiche Chiave del Benchmark
- Come Funziona il Benchmark
- Passo 1: Estrazione delle Entità
- Passo 2: Costruire la Fonte di Conoscenza
- Passo 3: Stimolare gli LLM
- Risultati della Valutazione
- Importanza di Comprendere le Allucinazioni
- Il Ruolo della Valutazione Automatica
- Metriche per la Valutazione
- Implicazioni per lo Sviluppo Futuro
- Conclusione
- Fonte originale
- Link di riferimento
I modelli di linguaggio grandi (LLM) sono programmi per computer che possono generare testi che sembrano scritti da una persona. Sono migliorati tanto col tempo e ora riescono a creare testi coerenti e facili da leggere. Però c'è ancora un gran problema: a volte questi modelli inventano informazioni che non sono vere. Questo problema è conosciuto come allucinazione.
Allucinazioni?
Cosa sono leNel contesto degli LLM, le allucinazioni si verificano quando il modello crea affermazioni che sono sbagliate o non basate su informazioni reali. Questo può essere un problema serio, specialmente quando questi modelli vengono usati in situazioni importanti dove la gente si fida delle loro risposte. Gli utenti spesso si fidano dei risultati degli LLM, il che può portare a problemi se le informazioni sono errate.
Valutazione
La Necessità di una MiglioreSono stati creati molti test per controllare quanto bene gli LLM forniscano informazioni fattuali. Tuttavia, questi test spesso non coprono tutti i diversi tipi di conoscenze che gli utenti cercano nella vita reale. La maggior parte dei test esistenti si concentra su dati di fonti come Wikipedia, ma un gran numero di argomenti reali non ha pagine su Wikipedia. Questo significa che i test potrebbero non essere completamente efficaci nel mostrare quanto bene gli LLM si comportano in situazioni reali.
Per affrontare questo problema, è stato creato un nuovo Benchmark di valutazione. Questo benchmark è progettato per testare l'Accuratezza fattuale degli LLM usando informazioni da conversazioni che utenti reali hanno avuto con chatbot. In questo modo, la valutazione copre un'ampia gamma di argomenti e tipi di informazioni rispetto ai benchmark precedenti.
Il Nuovo Benchmark
Il nuovo benchmark utilizza informazioni da conversazioni reali tra utenti e chatbot per testare gli LLM. Incoraggia questi modelli a generare informazioni su entità-persone, luoghi o concetti-basate su query reali. Le informazioni generate vengono poi verificate per accuratezza contro una raccolta di conoscenze affidabili da ricerche web.
Caratteristiche Chiave del Benchmark
Domini Diversificati: Il benchmark include una vasta gamma di argomenti, come cultura, finanza e tecnologia. Questo riflette gli interessi vari degli utenti, rendendolo più rilevante per le applicazioni nel mondo reale.
Verifica Automatica dei Fatti: Il processo implica il controllo automatico delle informazioni generate contro un set curato di documenti web. Questo può aiutare a identificare quali affermazioni fatte dagli LLM sono corrette e quali no.
Focus sulla Conoscenza Non-Wikipedia: Una parte significativa delle entità valutate non ha pagine corrispondenti su Wikipedia, indicando che gli utenti spesso richiedono informazioni che vanno oltre ciò che si trova tipicamente su Wikipedia.
Come Funziona il Benchmark
Passo 1: Estrazione delle Entità
Per creare il benchmark, i nomi propri vengono estratti dal dataset di conversazioni utente-chatbot, che contiene milioni di interazioni. Strumenti come GPT-3.5 e GPT-4o vengono utilizzati per identificare questi nomi propri e verificarne l'accuratezza. Questo aiuta a garantire che solo entità rilevanti siano incluse nelle valutazioni.
Passo 2: Costruire la Fonte di Conoscenza
Per ogni entità, viene costruita una base di conoscenze usando motori di ricerca commerciali. Invece di fare affidamento solo su Wikipedia, che molte entità non hanno, il benchmark raccoglie pagine web che forniscono informazioni pertinenti. In questo modo, crea una risorsa più completa per un controllo fattuale preciso.
Passo 3: Stimolare gli LLM
Una volta costruita la fonte di conoscenza, agli LLM vengono poste domande su ciascuna entità. Vengono invitati a generare paragrafi descrittivi. Le uscite vengono quindi analizzate automaticamente per determinare la loro correttezza fattuale.
Risultati della Valutazione
Il benchmark è stato usato per valutare vari LLM all'avanguardia. I risultati hanno mostrato alcuni schemi interessanti:
Tassi di Allucinazione Varia in Base al Dominio: Argomenti diversi hanno prodotto tassi di allucinazione differenti. Ad esempio, i modelli tendevano a fare più errori in aree come finanza e attributi personali, mentre si comportavano meglio in campi come geografia e tecnologia.
Entità Senza Pagine Wikipedia: È stato osservato che i modelli allucinano più spesso riguardo a entità che non hanno pagine Wikipedia associate. Questo indica che l'assenza di informazioni prontamente disponibili può portare a risultati scorretti.
Effetti di Recupero: Aggiungere un componente di ricerca ai modelli aiuta a ridurre leggermente le allucinazioni, ma non le elimina completamente. Questo suggerisce che, sebbene il recupero possa aiutare a fornire informazioni accurate, gli LLM possono comunque generare fatti errati.
Importanza di Comprendere le Allucinazioni
Capire come e perché gli LLM allucinano è fondamentale per migliorare la loro affidabilità. Le allucinazioni possono verificarsi per vari motivi, tra cui:
Dati di Formazione Insufficienti: Se il modello non è stato addestrato su informazioni accurate nazionali sufficienti su un argomento specifico, potrebbe creare uscite sbagliate quando genera testo su quello stesso argomento.
Query Complesse: Alcune domande degli utenti possono essere complesse o ambigue, portando a risposte che fraintendono ciò che viene chiesto.
Rumore Informativo: Le informazioni recuperate da ricerche web possono essere inaccurate o obsolete, influenzando la qualità delle uscite del modello.
Il Ruolo della Valutazione Automatica
Il processo di valutazione automatica mira a quantificare quanto bene gli LLM si comportano nel fornire informazioni accurate. Lo fa scomponendo i testi generati in affermazioni più piccole e controllando ciascuna affermazione contro la fonte di conoscenza.
Metriche per la Valutazione
Due metriche principali vengono utilizzate per valutare la factualità degli LLM:
Rapporto di Fatti di Supporto: Questa misura la percentuale di affermazioni supportate dalla fonte di conoscenza. Anche se questa metrica dà un'idea generale delle performance, potrebbe risultare fuorviante se il modello spesso sceglie di non rispondere.
Accuratezza dei Fatti Atomic: Questa misura se tutte le affermazioni su un'entità sono corrette. Se anche solo un'affermazione è sbagliata, il modello riceve un punteggio basso. Questa metrica è più severa e fornisce un quadro più chiaro dell'accuratezza fattuale.
Implicazioni per lo Sviluppo Futuro
I risultati delle valutazioni potrebbero aiutare a guidare i futuri miglioramenti negli LLM. Concentrandosi sulle aree in cui i modelli fanno fatica, gli sviluppatori possono lavorare per migliorare il loro addestramento e ridurre le possibilità di allucinazioni. Migliorare i metodi di recupero può anche aiutare a garantire che i modelli accedano alle informazioni più accurate durante la generazione del testo.
Conclusione
Lo sviluppo del nuovo benchmark per valutare gli LLM è un passo importante per affrontare le sfide delle allucinazioni. Concentrandosi sulle interazioni reali degli utenti e utilizzando fonti di conoscenza diversificate, questo benchmark offre un modo più efficace per misurare l'accuratezza fattuale dei modelli linguistici. Man mano che la tecnologia continua a progredire, comprendere e gestire le allucinazioni sarà cruciale per garantire che gli LLM possano essere fidati in varie applicazioni, portando infine a sistemi AI più sicuri e affidabili.
Il lavoro non finisce qui. Miglioramenti e aggiornamenti continui saranno necessari per tenere il passo con le tecnologie in evoluzione e la crescente complessità delle informazioni che gli utenti cercano.
Titolo: WildHallucinations: Evaluating Long-form Factuality in LLMs with Real-World Entity Queries
Estratto: While hallucinations of large language models (LLMs) prevail as a major challenge, existing evaluation benchmarks on factuality do not cover the diverse domains of knowledge that the real-world users of LLMs seek information about. To bridge this gap, we introduce WildHallucinations, a benchmark that evaluates factuality. It does so by prompting LLMs to generate information about entities mined from user-chatbot conversations in the wild. These generations are then automatically fact-checked against a systematically curated knowledge source collected from web search. Notably, half of these real-world entities do not have associated Wikipedia pages. We evaluate 118,785 generations from 15 LLMs on 7,919 entities. We find that LLMs consistently hallucinate more on entities without Wikipedia pages and exhibit varying hallucination rates across different domains. Finally, given the same base models, adding a retrieval component only slightly reduces hallucinations but does not eliminate hallucinations.
Autori: Wenting Zhao, Tanya Goyal, Yu Ying Chiu, Liwei Jiang, Benjamin Newman, Abhilasha Ravichander, Khyathi Chandu, Ronan Le Bras, Claire Cardie, Yuntian Deng, Yejin Choi
Ultimo aggiornamento: 2024-07-24 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2407.17468
Fonte PDF: https://arxiv.org/pdf/2407.17468
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.