Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Calcolo e linguaggio

Valutare i modelli linguistici con dati immaginari

Questo studio valuta la comprensione della lettura dei modelli linguistici utilizzando dati finti.

― 6 leggere min


Valutare i modelli diValutare i modelli dilinguaggio in modoefficacecomprensione dei modelli linguistici.Usare dati finti svela le lacune nella
Indice

I modelli linguistici sono strumenti che possono leggere testi e rispondere a domande. Questa capacità, nota come comprensione del testo, ci aiuta a valutare quanto bene questi modelli capiscano il linguaggio umano. Tuttavia, usare conoscenze del mondo reale in questi modelli può complicare la valutazione. Se la risposta del modello deriva dalla sua conoscenza predefinita piuttosto che dal contesto reale, può essere difficile capire quanto bene comprenda il testo.

Per risolvere questo problema, proponiamo di usare dati fittizi basati su fatti e persone inventati. In questo modo, possiamo controllare quanto bene i modelli afferrano il linguaggio senza fare affidamento su ciò che già sanno dal mondo reale.

La Sfida con la Conoscenza del Mondo Reale

Quando usiamo modelli linguistici come ChatGPT, GPT-4 o LLaMA 2, abbiamo scoperto che rispondono in modo accurato se il contesto corrisponde alla loro conoscenza. Tuttavia, se il contesto non si adatta alla loro conoscenza, i modelli possono fornire risposte sbagliate. Questo crea confusione nei risultati.

Per esempio, se un modello sa che "Elon Musk è il CEO di Twitter" ma il testo fornito dice il contrario, il modello potrebbe comunque dare la risposta basata su ciò che conosce, non sul testo. Quindi, per valutare correttamente la comprensione, dobbiamo separare la conoscenza predefinita del modello dalla sua capacità di capire il testo.

Usare Dati Fittizi

Abbiamo creato un metodo di test che utilizza situazioni immaginarie invece di fatti del mondo reale. Questo approccio ci consente di valutare la comprensione direttamente dal testo senza interferenze dalla conoscenza del modello. Per esempio, invece di fare riferimento a persone o eventi reali, abbiamo inventato nomi e scenari.

Testando i modelli su questi dati fittizi, abbiamo scoperto che facevano fatica con alcuni tipi di domande, soprattutto quelle che riguardano condizioni o possibilità, come "Se X fosse vero, cosa succederebbe?"

La maggior parte dei modelli si comporta bene con domande semplici ma ha difficoltà quando si tratta di situazioni ipotetiche. Quando viene chiesto "Se John fosse alto, sarebbe un giocatore di basket?", i modelli spesso non riescono a capire che questa domanda non può essere risposta solo in base al contesto.

Importanza della Fedeltà al Contesto

Per rispondere correttamente, un modello linguistico deve essere fedele al contesto. Questo significa che dovrebbe usare solo le informazioni fornite nel testo, senza fare affidamento sulla propria conoscenza interna. La nostra ricerca mostra che molti modelli non riescono a farlo in contesti ipotetici.

Quando viene fornita una dichiarazione con una condizione o una possibilità, i modelli tendono a tornare alla loro conoscenza pregressa invece di attenersi al testo. Questo influisce sulla loro affidabilità, specialmente in compiti come convalidare affermazioni o trovare informazioni specifiche in un testo.

Valutare la Comprensione con Diversi Tipi di Domande

Abbiamo valutato quanto bene i modelli linguistici afferrino le domande non affermative, che includono negazioni e ipotetiche. Per esempio, un modello dovrebbe riconoscere che una domanda come "Chi non è alto?" non può essere risposta se il contesto dice "John è alto."

I nostri esperimenti hanno testato cinque tipi di domande non affermative:

  1. Negazioni (es. "I Zogloxiani non hanno combattuto per i diritti delle donne").
  2. Non-fattivi negativi (es. "È improbabile che i Zogloxiani abbiano combattuto per i diritti delle donne").
  3. Costruzioni ipotetiche usando verbi modali (es. "I Zogloxiani potrebbero aver combattuto per i diritti delle donne").
  4. Dichiarazioni condizionali irreali (es. "Se i Zogloxiani avessero combattuto per i diritti delle donne...").
  5. Dichiarazioni condizionali che implicano un risultato possibile (es. "Se fossero stati parte di una società progressista, i Zogloxiani avrebbero combattuto...").

Abbiamo trovato che molti modelli avevano problemi con queste forme non affermative. Nella maggior parte dei casi, rispondevano in modo errato invece di astenersi quando non avrebbero dovuto fornire una risposta in base al testo.

Osservazioni e Risultati

Quando abbiamo valutato le prestazioni dei modelli su queste domande non affermative, abbiamo notato diversi schemi:

  • I modelli andavano bene con le semplici negazioni ma facevano molta fatica con le ipotetiche.
  • Gli errori riguardavano per lo più l'ignorare il contesto e agire come se il testo fosse affermativo. Per esempio, se il contesto diceva "Se i Zorg fossero parte di una società progressista," il modello potrebbe ancora dire "I Zorg hanno combattuto per i diritti delle donne," non riconoscendo la natura ipotetica della domanda.

Nelle revisioni manuali, abbiamo visto che quando i modelli avrebbero dovuto astenersi dal rispondere perché il contesto non era pertinente alla domanda, spesso ricorrevano alla loro conoscenza interna.

Impatto dei Conflitti di Conoscenza

La presenza di conflitti di conoscenza ha avuto un impatto significativo sulle prestazioni dei modelli. Per esempio, quando venivano poste domande sulle negazioni o ipotetiche, molti modelli faticavano a fornire risposte basate solo sul contesto.

In contesti in cui il testo contraddiceva la loro conoscenza predefinita, spesso fornivano risposte errate o non si astenevano. Questo difetto sottolinea la necessità di metodi migliori per garantire che i modelli linguistici rimangano fedeli al contesto fornito.

Tecniche di Suggerimento per Mitigare Errori

Abbiamo sperimentato diverse tecniche di suggerimento per migliorare le prestazioni dei modelli. Queste includevano:

  1. Suggerimento Istruito: Dove abbiamo detto direttamente ai modelli di ignorare la loro conoscenza del mondo.
  2. Suggerimento a Due Passi: Chiedendo al modello se il contesto contiene prove per la risposta prevista prima di prevedere.
  3. Suggerimento a Catena di Pensiero (CoT): Incoraggiando il modello a pensare passo dopo passo attraverso i problemi.

Queste tecniche hanno portato a un miglioramento dell'accuratezza delle risposte, specialmente nei casi non affermativi. Tuttavia, non hanno completamente eliminato i problemi che avevamo notato in precedenza. I modelli mostravano ancora difficoltà significative con le domande ipotetiche nonostante alcuni miglioramenti.

Conclusione

Usare dati immaginari è fondamentale per valutare con precisione la comprensione della lettura dai modelli linguistici. I nostri risultati indicano che, mentre i modelli possono gestire efficacemente domande semplici, faticano con costruzioni non affermative e ipotetiche più complesse.

Inoltre, i modelli spesso ricorrono alla loro conoscenza interna piuttosto che rimanere fedeli al testo fornito. Questo evidenzia la necessità di continuare a lavorare per migliorare le capacità di comprensione dei modelli linguistici, in particolare in scenari ipotetici.

Concentrandoci su quanto bene i modelli possono afferrare il contesto senza fare affidamento sulla conoscenza precedente, possiamo incoraggiare interazioni migliori e più affidabili con questi strumenti. È cruciale per gli utenti e gli sviluppatori essere consapevoli di queste limitazioni per migliorare l'affidabilità dei modelli linguistici in varie applicazioni.

Fonte originale

Titolo: LLMs' Reading Comprehension Is Affected by Parametric Knowledge and Struggles with Hypothetical Statements

Estratto: The task of reading comprehension (RC), often implemented as context-based question answering (QA), provides a primary means to assess language models' natural language understanding (NLU) capabilities. Yet, when applied to large language models (LLMs) with extensive built-in world knowledge, this method can be deceptive. If the context aligns with the LLMs' internal knowledge, it is hard to discern whether the models' answers stem from context comprehension or from LLMs' internal information. Conversely, using data that conflicts with the models' knowledge creates erroneous trends which distort the results. To address this issue, we suggest to use RC on imaginary data, based on fictitious facts and entities. This task is entirely independent of the models' world knowledge, enabling us to evaluate LLMs' linguistic abilities without the interference of parametric knowledge. Testing ChatGPT, GPT-4, LLaMA 2 and Mixtral on such imaginary data, we uncover a class of linguistic phenomena posing a challenge to current LLMs, involving thinking in terms of alternative, hypothetical scenarios. While all the models handle simple affirmative and negative contexts with high accuracy, they are much more prone to error when dealing with modal and conditional contexts. Crucially, these phenomena also trigger the LLMs' vulnerability to knowledge-conflicts again. In particular, while some models prove virtually unaffected by knowledge conflicts in affirmative and negative contexts, when faced with more semantically involved modal and conditional environments, they often fail to separate the text from their internal knowledge.

Autori: Victoria Basmov, Yoav Goldberg, Reut Tsarfaty

Ultimo aggiornamento: 2024-04-09 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2404.06283

Fonte PDF: https://arxiv.org/pdf/2404.06283

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili