Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Calcolo e linguaggio# Intelligenza artificiale

Migliorare la fiducia nei modelli di linguaggio

Un nuovo metodo di allenamento migliora il modo in cui i modelli linguistici esprimono certezza nelle risposte.

― 9 leggere min


Potenziamento dellaPotenziamento dellacalibrazione dellafiducia dell'IAfiducia.modelli linguistici nell'esprimereNuovo metodo migliora l'accuratezza dei
Indice

I modelli linguistici di grandi dimensioni (LLM) possono rispondere a domande e anche esprimere quanto siano sicuri di quelle Risposte. Possono farlo in modi chiari, come dare un numero per la loro fiducia, o in modi meno diretti, come sembrare certi o fornire informazioni extra. Affinché questi modelli siano affidabili, la loro certezza dovrebbe corrispondere a quanto siano corrette le loro risposte. Tuttavia, molti modelli tendono ad essere eccessivamente sicuri, anche quando danno risposte sbagliate.

Per risolvere questo problema, i ricercatori hanno ideato un nuovo metodo di addestramento che si concentra sulla prospettiva dell'Ascoltatore. Questo metodo non solo verifica se la risposta è giusta, ma anche se l'ascoltatore è propenso ad accettare quella risposta. Questo approccio tratta il compito come un modo per migliorare come il modello comunica con l'ascoltatore. Per farlo, i dati vengono creati utilizzando un gioco in due parti: un modello fornisce risposte mentre un altro modello rappresenta come un ascoltatore reagisce a quelle risposte.

Tre diversi modelli linguistici (Mistral-7B, Llama3-8B, Llama3-70B) sono stati addestrati usando questo nuovo metodo. I risultati hanno mostrato che questi modelli sono diventati migliori nel far corrispondere i loro livelli di fiducia alla correttezza delle loro risposte quando interagivano con gli ascoltatori. Questo miglioramento si è esteso anche a veri ascoltatori umani, aiutandoli a fare giudizi più accurati sulle risposte del modello.

Nelle valutazioni, è stato chiesto ai valutatori umani di decidere se accettare o rifiutare le risposte date dai modelli. I risultati hanno mostrato che l'uso del nuovo metodo di addestramento ha ridotto il numero di risposte sbagliate accettate dagli ascoltatori, consentendo comunque di mantenere il tasso di accettazione delle risposte corrette. Inoltre, il metodo di addestramento si è dimostrato utile quando applicato a un diverso set di dati, risultando in un significativo aumento della veridicità delle risposte fornite dai modelli.

Lo studio ha messo in evidenza come il nuovo approccio di addestramento abbia migliorato il modo in cui i modelli esprimono fiducia. I modelli addestrati con questo metodo tendono a moderare le loro risposte di più quando sono incerti e usano segnali chiari di certezza quando sono corretti. Hanno frequentemente usato un tono autoritario e fornito più dettagli quando le loro risposte erano giuste. Inoltre, l'addestramento ha portato i modelli ad essere più propensi a dire “Non lo so” quando non erano sicuri di un risposta.

Comunicare e Ascoltare: L'importanza del Linguaggio

Quando la gente comunica, di solito segue certe regole che rendono le conversazioni efficaci. I buoni conversatori cercano di essere onesti, pertinenti, chiari e concisi. Quando queste linee guida vengono ignorate, si può ingannare gli ascoltatori, facendo sembrare il parlatore inaffidabile o incapace.

Sebbene i modelli linguistici di grandi dimensioni seguano spesso molti di questi principi, hanno difficoltà ad essere veritieri. Molte volte, le risposte che forniscono non sono corrette, eppure vengono fornite in modo eccessivamente certo. Questo può ingannare gli utenti nel credere che il modello stia fornendo informazioni affidabili, portando a potenziali malintesi.

La fiducia di un modello può manifestarsi in diversi modi. Possono mostrarla esplicitamente dando punteggi numerici (come "Sono sicuro al 100%") o usando parole che indicano certezza. Possono anche mostrare fiducia implicitamente attraverso dettagli o il modo in cui si esprimono. Spesso, questi dettagli possono essere inventati e non rappresentano fatti. Ad esempio, un modello potrebbe dire qualcosa come, “Ricordo di aver visto questo film al cinema”, anche se non è vero.

Fiducia Implicita ed Esplicita

Quando un ascoltatore che non conosce la risposta valuta la reazione del modello, si basa su quanto suona sicura la risposta. La fiducia mostrata può influenzare la loro decisione di accettare o rifiutare una risposta. Per aiutare i modelli a calibrare i loro livelli di fiducia, il nuovo metodo addestra il parlante (il modello che dà risposte) tenendo conto della prospettiva dell'ascoltatore.

Prima di questo addestramento, i modelli mostravano spesso alta fiducia indipendentemente dalla correttezza delle loro risposte. Dopo l'addestramento, è stato riscontrato che i modelli esprimevano fiducia in modo accurato, essendo più sicuri quando avevano ragione e meno quando le loro risposte erano sbagliate.

Il problema dell'eccesso di fiducia è preoccupante, specialmente mentre le persone si affidano sempre più a questi modelli per informazioni affidabili. Molti utenti non conoscono le risposte loro stessi, quindi potrebbero accettare le risposte del modello senza metterle in discussione. Questo comportamento può portare a una perdita di fiducia nei sistemi di intelligenza artificiale.

Addestramento Pragmatico per una Migliore Fiducia

Il nuovo metodo di addestramento si concentra su due problemi principali:

  1. I modelli spesso non hanno conoscenze su se le loro risposte siano giuste o sbagliate.
  2. I modelli non pensano a come gli ascoltatori comprenderanno ciò che dicono.

Per prima cosa, i modelli di base non ricevono feedback diretto sul fatto che le loro risposte siano corrette, il che significa che hanno poche ragioni per temperare la loro fiducia. In secondo luogo, questi modelli non considerano come gli ascoltatori potrebbero interpretare le loro risposte in tempo reale. Anche se i modelli addestrati con feedback umano possono sembrare avere queste abilità, lavori precedenti hanno dimostrato che spesso si comportano peggio rispetto ai modelli di base in termini di calibrazione della fiducia.

Il nuovo metodo di Calibrazione Consapevole dell'Ascoltatore affina i modelli utilizzando feedback sulla correttezza delle loro risposte e se gli ascoltatori percepiscono quelle risposte come corrette. Questo metodo sposta l'attenzione dal semplice fornire risposte giuste a come comunicare efficacemente la fiducia alle ascoltatori.

Migliorare la Fiducia nei Sistemi AI

Per raggiungere questa calibrazione migliorata della fiducia, i ricercatori hanno utilizzato un metodo chiamato Ottimizzazione delle Preferenze Dirette (DPO). Hanno creato un set di dati che includeva esempi di output preferiti e non preferiti dal modello. Generando più risposte lunghe da un modello linguistico standard e confrontandole con le risposte di un modello ascoltatore, hanno potuto definire una funzione di preferenza che premia i modelli per presentare con precisione la loro fiducia.

L'addestramento mirava a creare output meglio calibrati, il che significa che i modelli possono esprimere la loro fiducia in modo più accurato. Le valutazioni hanno mostrato che i modelli, quando testati con un modello ascoltatore, avevano una calibrazione migliorata, il che significa che erano migliori nel riflettere accuratamente quanto fossero corrette le loro risposte.

Valutazione Umana e Impatto nel Mondo Reale

Dopo l'addestramento, le risposte del modello sono state testate su un set di domande di cultura generale per vedere quanto bene si sono comportate quando interagivano con veri ascoltatori umani. I risultati hanno mostrato un miglioramento significativo nella precisione, il che significa che sono state accettate meno risposte errate mantenendo il tasso di accettazione per le risposte corrette.

Inoltre, questo nuovo modello ha mostrato un aumento dell'astensione, il che significa che era più propenso a dire “Non lo so” quando non era sicuro di una risposta. Questo è un cambiamento positivo, poiché suggerisce che il modello è più cauto e evita di ingannare gli ascoltatori.

Contesto sul Linguaggio e la Comunicazione

La pragmatica è lo studio di come le persone comprendono il linguaggio nel contesto, considerando più dei semplici significati letterali delle parole. I principi di comunicazione di Grice hanno delineato delle linee guida che la gente generalmente segue nelle conversazioni, come essere chiari e pertinenti, tra le altre cose. L'importanza di comprendere come un messaggio viene interpretato da un ascoltatore è al centro dell'analisi pragmatica.

Sforzi Passati nella Calibrazione dei Modelli Linguistici

Nelle ricerche passate, sono stati proposti diversi metodi per migliorare il modo in cui i modelli esprimono fiducia. Alcuni studi si sono concentrati sulla verbalizzazione della fiducia attraverso specifici marcatori o codici di controllo negli output del modello. Altri hanno messo a punto i modelli per migliorare la calibrazione dei loro livelli di fiducia.

Tuttavia, la sfida rimane che i modelli spesso generano output senza considerare come un ascoltatore reagirà. Il nuovo metodo adotta un approccio diverso, addestrando modelli tramite un sistema multi-agente che consente a diversi modelli parlanti e ascoltatori di simulare meglio le interazioni nel mondo reale.

Set di Dati Utilizzati nella Ricerca

Per questo studio, sono stati utilizzati due set di dati. Il set di dati TriviaQA includeva molte domande di cultura generale con risposte e documenti di origine, che hanno permesso test e addestramenti approfonditi. Il set di dati TruthfulQA comprendeva domande che contengono comunemente malintesi, rendendolo uno strumento utile per valutare la veridicità nei modelli dopo l'addestramento.

Il Processo di Addestramento

Per sviluppare dati di addestramento per il nuovo metodo, i ricercatori hanno utilizzato sia modelli parlanti che ascoltatori. Il modello parlante è stato incoraggiato a esprimere la propria fiducia, mentre il modello ascoltatore era progettato per valutare le risposte senza fare affidamento sulle proprie conoscenze pregresse.

Creazione di Dati di Preferenza

La creazione dei dati di addestramento è iniziata campionando coppie domanda-risposta dal set di dati. Il modello parlante ha generato risposte a ciascuna domanda, e il modello ascoltatore ha valutato quanto fosse probabile accettare o rifiutare le risposte in base ai loro livelli di fiducia. Questi dati sono stati poi utilizzati per creare funzioni di preferenza che hanno guidato il processo di addestramento.

Addestramento e Validazione

Il processo di addestramento mirava a perfezionare i modelli utilizzando QLoRA, regolando i loro output in base alle preferenze degli ascoltatori. Sono stati valutati più modelli per trovare quello con le migliori prestazioni, assessando le loro risposte in base a quanto bene calibravano la loro fiducia.

Valutazione delle Prestazioni del Modello

Dopo l'addestramento, i ricercatori hanno testato i modelli su un insieme di domande di cultura generale per valutare quanto bene calibravano i loro livelli di fiducia. I risultati hanno mostrato che il nuovo approccio ha significativamente migliorato l'Accuratezza e l'affidabilità degli output del modello, in particolare nel modo in cui esprimevano fiducia.

Implicazioni per l'Interazione Uomo-AI

Migliorare il modo in cui i modelli esprimono la loro fiducia ha implicazioni significative. Può portare a una maggiore soddisfazione e sicurezza degli utenti quando interagiscono con i sistemi AI. Un modello più affidabile può rendere le interazioni più fluide e promuovere la fiducia degli utenti nella tecnologia.

Conclusione

Il nuovo metodo di Affinamento Consapevole dell'Ascoltatore rappresenta uno sviluppo promettente per rendere i modelli linguistici più affidabili e degni di fiducia. Concentrandosi su come i modelli comunicano i loro livelli di fiducia, i ricercatori possono creare sistemi AI che servono meglio le esigenze e le aspettative degli utenti.

La capacità dei modelli di esprimere il loro livello di certezza e di comprendere le reazioni degli ascoltatori ha il potenziale di ridefinire il modo in cui gli esseri umani interagiscono con l'AI. Attraverso la ricerca futura, questi metodi possono essere ulteriormente affinati e adattati a diverse applicazioni, migliorando l'efficacia complessiva dei modelli linguistici in situazioni reali.

Fonte originale

Titolo: LACIE: Listener-Aware Finetuning for Confidence Calibration in Large Language Models

Estratto: When answering questions, LLMs can convey not only an answer, but a level of confidence about the answer being correct. This includes explicit confidence markers (e.g. giving a numeric score) as well as implicit markers, like an authoritative tone or elaborating with additional knowledge. For LLMs to be trustworthy knowledge sources, the confidence they convey should match their actual expertise; however, most current models tend towards overconfidence. To calibrate both implicit and explicit confidence markers, we introduce a pragmatic, listener-aware finetuning method (LACIE) that models the listener, considering not only whether an answer is right, but whether it will be accepted by a listener. We cast calibration as preference optimization, creating data via a two-agent game, where a speaker model's outputs are judged by a simulated listener. We then finetune three LLMs (Mistral-7B, Llama3-8B, Llama3-70B) with LACIE, and show that the resulting models are better calibrated w.r.t. a simulated listener. Crucially, these trends transfer to human listeners, helping them correctly predict model correctness: we conduct a human evaluation where annotators accept or reject an LLM's answers, finding that training with LACIE results in 47% fewer incorrect answers being accepted while maintaining the same level of acceptance for correct answers. Furthermore, LACIE generalizes to another dataset, resulting in a large increase in truthfulness on TruthfulQA when trained on TriviaQA. Our analysis indicates that LACIE leads to a better confidence separation between correct and incorrect examples. Qualitatively, we find that a LACIE-trained model hedges more and implicitly signals certainty when it is correct by using an authoritative tone or including details. Finally, LACIE finetuning leads to an emergent increase in model abstention (e.g. saying "I don't know") for answers that are likely wrong.

Autori: Elias Stengel-Eskin, Peter Hase, Mohit Bansal

Ultimo aggiornamento: 2024-07-03 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2405.21028

Fonte PDF: https://arxiv.org/pdf/2405.21028

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili