Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Calcolo e linguaggio# Apprendimento automatico

Migliorare i modelli linguistici con il campionamento REAL

Un nuovo approccio migliora l'accuratezza e la creatività nei risultati dei modelli linguistici.

― 5 leggere min


REAL Sampling aumenta leREAL Sampling aumenta leprestazioni dei LLMdiversità nella generazione di testo.Raggiunge una migliore precisione e
Indice

I modelli di linguaggio, o LLM, sono strumenti usati per generare testo. Funzionano prevedendo cosa viene dopo in base a un input dato. Tuttavia, molti di questi modelli fanno fatica con l'accuratezza e la creatività allo stesso tempo. Quando generano testo, possono produrre informazioni false e, allo stesso tempo, essere ripetitivi o privi di varietà. Questi problemi sono spesso chiamati problemi di factualità e Diversità.

Per affrontare queste preoccupazioni, i ricercatori hanno cercato modi migliori per guidare come gli LLM creano risposte. Un metodo popolare chiamato nucleus sampling, che sceglie da un intervallo di parole possibili basato sulla loro probabilità, è stato ampiamente utilizzato. Tuttavia, c'è un compromesso: aumentare la diversità delle risposte può portare a più informazioni errate. Questo documento introduce un nuovo metodo chiamato REAL sampling che mira a migliorare sia la factualità che la diversità senza sacrificare l'uno per l'altro.

La Sfida dell’Allucinazione

Un grosso problema con gli LLM è un problema noto come allucinazione. Questo succede quando il modello genera informazioni che sono inventate o errate. Ad esempio, potrebbe affermare con sicurezza un fatto falso perché lo percepisce come probabile in base ai dati di addestramento. Questo è particolarmente preoccupante in compiti aperti dove ci si aspetta che il modello fornisca risultati accurati e informativi.

Le ricerche mostrano che a volte gli LLM possono essere consapevoli delle loro inaccuratezze, indicando che il modo in cui generano testo può contribuire significativamente all'allucinazione. I metodi di campionamento attuali potrebbero non affrontare adeguatamente questo problema, da qui la necessità di nuove strategie.

REAL Sampling: Un’Overview

Il REAL sampling è un nuovo metodo progettato per affrontare i due problemi dell’allucinazione migliorando la diversità. La base di questo metodo è un modello che prevede quando il modello di linguaggio potrebbe generare informazioni false. Facendo così, il REAL sampling può regolare il suo processo di selezione. Se c'è un'alta possibilità di errore, può concentrarsi su parole più affidabili. Al contrario, quando le possibilità di fare un errore sono basse, può ampliare la selezione per includere opzioni più diverse.

Il metodo si basa anche su modelli più piccoli che possono prevedere accuratamente la probabilità di allucinazione. Anche se questi modelli più piccoli non possiedono tutti i dati dei loro omologhi più grandi, possono comunque fornire intuizioni utili per regolare il processo di campionamento.

Come Funziona il REAL Sampling

Alla base, il REAL sampling modifica il tradizionale processo di campionamento incorporando una tecnica per stimare l'Incertezza delle previsioni delle parole. Questo viene fatto esaminando come le previsioni del modello cambiano con l'aumentare della dimensione. Modelli più grandi generalmente producono previsioni più affidabili, quindi osservando come i loro output differiscono, possiamo avere un'idea dell'incertezza intrinseca legata alle scelte della prossima parola.

Il processo di campionamento coinvolge:

  1. Previsione dell'Incertezza: Analizzando gli output di modelli di varie dimensioni, il REAL sampling stima un valore soglia per il prossimo token basato sull'incertezza osservata.

  2. Regolazione della Selezione: Con questa incertezza a disposizione, il REAL sampling può regolare la probabilità di scegliere una parola particolare. Se l'incertezza è alta, vengono scelte meno parole. Se è bassa, ci sono più opzioni disponibili, promuovendo la diversità.

  3. Ottimizzazione: Il metodo ottimizza continuamente confrontando l'accuratezza fattuale del contenuto generato con dati conosciuti e affidabili, come articoli di Wikipedia.

Valutazione delle Prestazioni

Per valutare l'efficacia del REAL sampling, sono stati condotti vari benchmark e confronti con metodi esistenti. Un benchmark notevole è stato il FactualityPrompts, che fornisce un modo strutturato per valutare l'accuratezza delle frasi generate confrontandole con dichiarazioni fattuali.

I risultati hanno indicato che le frasi generate utilizzando il REAL sampling contenevano significativamente meno imprecisioni e erano più diverse rispetto alle frasi generate con metodi tradizionali come il greedy e il nucleus sampling. Questi miglioramenti in termini di factualità e diversità erano costanti tra i diversi modelli.

Valutazione Umana

Oltre alle valutazioni automatizzate, sono state effettuate anche valutazioni umane per misurare la qualità percepita degli output. Ai partecipanti è stato chiesto di valutare vari aspetti come factualità, fluidità e qualità complessiva del testo generato da diversi metodi.

Il feedback ha rivelato una netta preferenza per il REAL sampling rispetto ai metodi tradizionali. I partecipanti hanno segnalato che il testo generato non era solo più accurato, ma anche più interessante e facile da leggere.

Implicazioni per Future Applicazioni

I progressi realizzati con il REAL sampling potrebbero avere implicazioni significative in vari campi che si basano sulla generazione di linguaggio. Ad esempio:

  • Chatbot e Assistenti Virtuali: Man mano che questi strumenti diventano sempre più integrati nella vita quotidiana, assicurarsi che forniscano risposte accurate e diversificate è fondamentale. Il REAL sampling potrebbe migliorarne l'affidabilità.

  • Creazione di Contenuto: Scrittori e marketer possono trarre vantaggio da strumenti che generano idee o contenuti con un grado maggiore di accuratezza e varietà, potenzialmente rivoluzionando il modo in cui viene prodotto il contenuto.

  • Educazione: I modelli di linguaggio che presentano informazioni accuratamente possono servire come strumenti educativi preziosi, fornendo agli studenti dati affidabili per i loro studi.

Conclusione

Il REAL sampling propone un approccio promettente per superare sfide di lunga data nelle prestazioni dei modelli di linguaggio. Affrontando sia la factualità che la diversità, questo metodo dimostra che è possibile migliorare le capacità di narrazione degli LLM. Man mano che la ricerca continua e il REAL sampling viene affinato, le sue potenziali applicazioni in vari settori potrebbero rimodellare il modo in cui vediamo e interagiamo con la tecnologia linguistica.

Con le basi gettate dal REAL sampling, è chiaro che possono essere compiuti progressi significativi nel campo della generazione di linguaggio, assicurando che questi modelli sempre più potenti fungano da fonti accurate e affidabili di informazioni e creatività.

Il futuro degli LLM sembra promettente, con metodologie innovative come il REAL sampling che aprono la strada a applicazioni più efficaci e fidate in vari settori. L'esplorazione continua in questo campo porterà senza dubbio a strumenti e strategie ancora più sofisticati che migliorano la nostra interazione con i modelli di linguaggio, rendendoli più utili per la società nel suo complesso.

Fonte originale

Titolo: REAL Sampling: Boosting Factuality and Diversity of Open-Ended Generation via Asymptotic Entropy

Estratto: Decoding methods for large language models (LLMs) usually struggle with the tradeoff between ensuring factuality and maintaining diversity. For example, a higher p threshold in the nucleus (top-p) sampling increases the diversity but decreases the factuality, and vice versa. In this paper, we propose REAL (Residual Entropy from Asymptotic Line) sampling, a decoding method that achieves improved factuality and diversity over nucleus sampling by predicting an adaptive threshold of $p$. Specifically, REAL sampling predicts the step-wise likelihood of an LLM to hallucinate, and lowers the p threshold when an LLM is likely to hallucinate. Otherwise, REAL sampling increases the p threshold to boost the diversity. To predict the step-wise hallucination likelihood without supervision, we construct a Token-level Hallucination Forecasting (THF) model to predict the asymptotic entropy (i.e., inherent uncertainty) of the next token by extrapolating the next-token entropies from a series of LLMs with different sizes. If a LLM's entropy is higher than the asymptotic entropy (i.e., the LLM is more uncertain than it should be), the THF model predicts a high hallucination hazard, which leads to a lower p threshold in REAL sampling. In the FactualityPrompts benchmark, we demonstrate that REAL sampling based on a 70M THF model can substantially improve the factuality and diversity of 7B LLMs simultaneously, judged by both retrieval-based metrics and human evaluation. After combined with contrastive decoding, REAL sampling outperforms 9 sampling methods, and generates texts that are more factual than the greedy sampling and more diverse than the nucleus sampling with $p=0.5$. Furthermore, the predicted asymptotic entropy is also a useful unsupervised signal for hallucination detection tasks.

Autori: Haw-Shiuan Chang, Nanyun Peng, Mohit Bansal, Anil Ramakrishna, Tagyoung Chung

Ultimo aggiornamento: 2024-06-11 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2406.07735

Fonte PDF: https://arxiv.org/pdf/2406.07735

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili