Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Calcolo e linguaggio# Intelligenza artificiale

Valutare l'affidabilità dei grandi modelli linguistici come basi di conoscenza

Uno studio su quanto bene funzionano i LLM come basi di conoscenza affidabili.

― 5 leggere min


Affidabilità degli LLMAffidabilità degli LLMcome basi di conoscenzaconoscenza.prestazioni dei LLM come basi diUno studio rivela lacune nelle
Indice

Recentemente, c'è stato un sacco di interesse nell'usare i grandi modelli linguistici (LLM) per compiti che richiedono tanta conoscenza. La gente è curiosa di vedere se gli LLM possono comportarsi come banche dati di conoscenza (KB). Tuttavia, quanto siano affidabili questi LLM in questo ruolo non è ancora del tutto chiaro. Anche se alcuni studi suggeriscono che gli LLM conservano conoscenze, avere semplicemente conoscenza non è sufficiente per dire che funzionano bene come KB.

Definire l'affidabilità negli LLM

Per determinare se un LLM può essere considerato affidabile come KB, dobbiamo pensare a cosa rende affidabile una KB. Questa ricerca si concentra su due punti principali: factualità e Coerenza. La factualità significa fornire risposte corrette, mentre la coerenza si riferisce a fornire risposte simili quando si pongono le stesse domande.

Conoscenza Vista vs. Non Vista

Ci sono due tipi di conoscenza da considerare. La conoscenza vista è quella che il modello ha appreso durante l'addestramento, mentre la conoscenza non vista è quella che non ha mai incontrato prima. Un LLM affidabile dovrebbe essere in grado di gestire bene sia la conoscenza vista che quella non vista.

Valutare gli LLM

Per valutare l'affidabilità di vari LLM, abbiamo elaborato alcune misure specifiche. Abbiamo studiato una gamma di LLM popolari per vedere come si sono comportati nel fornire risposte alle domande. La nostra valutazione ha esaminato diversi aspetti degli LLM, come le loro dimensioni e il modo in cui sono stati affinati.

Il Problema con le Valutazioni Attuali

Molte valutazioni esistenti trascurano aspetti importanti di ciò che significa essere una KB affidabile. Spesso assumono che semplicemente richiamare la conoscenza sia sufficiente. Tuttavia, sosteniamo che gli LLM debbano essere valutati secondo criteri che riconoscano il loro design unico.

Criteri Proposti per l'Affidabilità

Per valutare meglio gli LLM, suggeriamo un framework focalizzato sui seguenti criteri:

  1. Per la Conoscenza Vista: Un LLM affidabile dovrebbe avere tassi elevati di risposte corrette e tassi bassi di risposte sbagliate.
  2. Per la Conoscenza Non Vista: Un LLM affidabile dovrebbe evitare di dare risposte sbagliate e potrebbe dover indicare incertezza.

Metodologia

Abbiamo creato due dataset per la nostra valutazione: SeenQA e UnseenQA. SeenQA è composto da domande derivate da dataset noti, mentre UnseenQA consiste in domande a cui gli LLM addestrati prima di una certa data non dovrebbero sapere le risposte.

LLM Valutati

Abbiamo valutato una varietà di LLM, raggruppandoli per dimensione: piccoli, medi e grandi. Ogni modello è stato analizzato in base a quanto bene poteva svolgere i compiti che abbiamo impostato, concentrandoci particolarmente sulla loro capacità di rispondere correttamente e in modo coerente.

Tipi di Risposte dagli LLM

Gli LLM possono fornire tre tipi di risposte: corrette, poco informative o sbagliate. Per la nostra valutazione, abbiamo esaminato attentamente quanto spesso ciascun modello produceva questi tipi di risposte.

Risposte Corrette

Le risposte corrette sono quelle che corrispondono esattamente alle risposte attese. Abbiamo usato un metodo semplice per valutare se le risposte erano corrette.

Risposte Poco Informative

Le risposte poco informative includono il ripetere la domanda, dire che non sanno o fornire nessuna informazione rilevante. Comprendere quanto spesso gli LLM danno risposte poco informative è vitale per valutare la loro affidabilità.

Misurare la Coerenza

La coerenza è essenziale per qualsiasi KB. Abbiamo esaminato quanto bene gli LLM mantenessero risposte coerenti di fronte a domande simili. Abbiamo usato domande a scelta multipla per testare questa coerenza.

Importanza della Factualità e Coerenza

Un buon LLM dovrebbe essere affidabile nel fornire informazioni vere e mantenere coerenza nelle sue risposte. I nostri risultati suggeriscono che molti LLM, anche quelli che sembrano forti, hanno difficoltà in queste due aree.

Risultati e Scoperte

Dopo aver valutato 26 LLM popolari, abbiamo scoperto che molti di essi non erano così affidabili come ci si aspettava. Anche i modelli con le migliori prestazioni hanno avuto difficoltà con la factualità e la coerenza.

Modelli ad Alte Prestazioni

Il modello noto come GPT-3.5-turbo ha mostrato alcuni dei migliori risultati, ma non era sempre corretto o coerente. Abbiamo scoperto che il fine-tuning o l'aggiunta di esempi non hanno migliorato significativamente le loro prestazioni in queste aree.

Fattori che Influenzano le Prestazioni

Diversi fattori influenzano quanto bene gli LLM funzionino come KB. Questi includono la dimensione del modello, il processo di fine-tuning e quanti esempi i modelli hanno ricevuto.

L'Effetto della Dimensione del Modello

Man mano che aumentava la dimensione dei modelli, le loro prestazioni sulla conoscenza vista miglioravano. Tuttavia, i modelli più grandi spesso si comportavano peggio sulla conoscenza non vista. Questo schema solleva preoccupazioni su quanto bene questi modelli possano adattarsi a nuove informazioni.

Fine-Tuning dei Modelli

Il fine-tuning degli LLM ha migliorato la loro capacità di rispondere meglio alla conoscenza non vista. Tuttavia, abbiamo notato che a volte li ha resi peggiori nel gestire la conoscenza vista. Questo dimostra che il fine-tuning può avere effetti sia positivi che negativi sulle prestazioni degli LLM.

Apprendimento In-Context

Usare tiri incerti nei prompt ha migliorato le prestazioni degli LLM sulla conoscenza non vista. Tuttavia, la coerenza generale delle risposte non è migliorata significativamente, indicando un'area da esplorare ulteriormente.

Conclusione

La nostra esplorazione sull'affidabilità degli LLM come banche di conoscenza rivela che, sebbene mostrino potenzialità, ci sono lacune significative nelle loro prestazioni. Affinché gli LLM possano essere considerati KB affidabili, devono migliorare sia nella factualità che nella coerenza.

Direzioni per la Ricerca Futura

Trovare modi migliori per addestrare e affinare gli LLM sarà cruciale per renderli più efficaci nel fornire risposte affidabili. Ulteriori studi dovrebbero concentrarsi su come gli LLM possono gestire meglio la conoscenza non vista mantenendo alti tassi di coerenza. Questo sforzo continuo è essenziale per garantire che gli LLM possano svolgere il ruolo di banche di conoscenza affidabili in futuro.

Altro dagli autori

Articoli simili