Esaminando i limiti cognitivi dei modelli di linguaggio AI
Questa ricerca esamina le performance dei LLM nelle attività cognitive simili al comportamento dei neonati.
― 6 leggere min
Indice
I recenti progressi nell'intelligenza artificiale hanno portato allo sviluppo di modelli di linguaggio grandi (LLM) in grado di imitare compiti simili a quelli umani. Eppure, questi modelli mostrano ancora abilità cognitive limitate in alcune aree. Una di queste aree è l'errore A-Not-B, un comportamento osservato nei neonati. In questa situazione, un bambino cerca un giocattolo nel posto sbagliato anche se l'ha visto spostato in una nuova posizione. Questo riflette la loro capacità limitata di fermare un'abitudine o un'azione impulsiva.
La nostra ricerca mira a indagare come gli LLM si comportano in compiti simili alla situazione A-Not-B. Abbiamo creato un test di domande e risposte basato su testo per vedere se gli LLM possono resistere ai loro schemi di risposta precedenti quando il contesto cambia leggermente. Abbiamo scoperto che anche i migliori LLM commettono molti errori quando l'impostazione cambia, simile a come si comportano i neonati in queste situazioni.
Che cos'è l'errore A-Not-B?
L'errore A-Not-B è un esperimento classico in psicologia cognitiva. In questo compito, un giocattolo viene posizionato sotto la scatola A più volte mentre un bambino osserva. Quando il giocattolo viene spostato sotto la scatola B, il bambino continua a cercarlo sotto la scatola A, non aggiornando la sua comprensione di dove sia il giocattolo. Questo mostra che i bambini piccoli non hanno ancora sviluppato la capacità di controllare le loro risposte e comportamenti sulla base di nuove informazioni.
Gli adulti, d'altra parte, hanno imparato ad adattare le loro azioni in base ai cambiamenti nel loro ambiente. Ad esempio, un adulto ricorderà se la sua tazza di caffè è stata spostata e la cercherà nel nuovo posto invece che in quello vecchio. Questo sviluppo del Controllo Inibitorio è una tappa fondamentale nella crescita cognitiva umana.
LLM nei compiti cognitivi
I grandi modelli di linguaggio hanno mostrato promesse in vari compiti cognitivi. Possono eseguire alcune forme di ragionamento come gli esseri umani, eppure faticano ancora con compiti di base. Ad esempio, potrebbero fallire in aree come il ragionamento spaziale o la comprensione di problemi complessi. Questi fallimenti indicano che gli LLM non possiedono lo stesso livello di abilità cognitive degli esseri umani.
Attraverso la nostra ricerca, volevamo vedere se gli LLM possono gestire l'errore A-Not-B. Abbiamo adattato questo concetto in un framework testuale dove gli LLM potessero essere messi alla prova in modo simile ai neonati. Il nostro obiettivo principale era vedere se gli LLM potessero resistere alle loro risposte apprese in contesti in cambiamento.
Metodologia di ricerca
Per studiare il controllo inibitorio degli LLM, abbiamo progettato un test ispirato all'errore A-Not-B. Abbiamo presentato domande a scelta multipla ai modelli, stabilendo un modello fornendo sempre la stessa risposta corretta all'inizio. Poi, abbiamo posto una domanda dove la risposta corretta era diversa dalle precedenti. Questa configurazione è stata chiamata "A-Not-B prompting".
Ci aspettavamo che se gli LLM avessero avuto un buon controllo inibitorio, avrebbero scelto la risposta corretta anche dopo essere stati mostrati la stessa risposta ripetutamente. Tuttavia, abbiamo scoperto che modelli avanzati come Gemini spesso non riuscivano a scegliere correttamente in questa nuova impostazione. Questo suggeriva che le loro capacità di ragionamento non erano così forti come speravamo.
Riflessioni sugli esperimenti
Attraverso i nostri esperimenti, abbiamo visto un calo drastico di accuratezza tra gli LLM quando presentati con nuove domande dopo aver visto un modello. Ad esempio, alcuni modelli hanno performato bene quando il contesto era coerente, ma hanno faticato significativamente quando il contesto è cambiato leggermente.
Gli LLM hanno dimostrato una media di calo dell'83,3% in accuratezza quando dovevano adattarsi a una nuova risposta. Questo indica una grave limitazione nelle loro capacità cognitive, paragonabili a quelle dei bambini molto piccoli.
Fattori che influenzano le prestazioni
Diversi fattori hanno influenzato quanto bene gli LLM hanno performato in questi compiti:
Dimensione del modello: I modelli più grandi erano generalmente in grado di gestire meglio i "A-Not-B prompts" rispetto a quelli più piccoli. I modelli più piccoli hanno mostrato un calo di accuratezza più significativo. Questo suggerisce che avere più parametri e qualità potrebbe aiutare gli LLM a resistere meglio ai modelli errati.
Numero di esempi: Maggiore era il numero di esempi forniti, più è probabile che gli LLM fallissero nel riconoscere la nuova risposta corretta. Questo significa che troppa ripetizione della risposta A rendeva più difficile per loro cambiare le loro risposte.
Tipo di compito di ragionamento: Diversi Compiti di ragionamento hanno avuto impatti variabili sulle prestazioni. I compiti che richiedevano un ragionamento complesso tendevano a portare a maggiori errori quando si usavano i "A-Not-B prompts".
Analisi degli errori negli LLM
Nella nostra indagine, abbiamo anche esaminato da vicino perché si verificavano questi errori. Abbiamo scoperto che la dimensione del modello e la qualità dei dati su cui era stato addestrato giocavano ruoli cruciali nel suo rendimento. I modelli più grandi con dati di addestramento migliori mostrano meno errori A-Not-B.
Abbiamo anche identificato che strategie come l'auto-spiegazione, dove ai modelli viene chiesto di descrivere il loro ragionamento, non risolvevano completamente i problemi. I modelli continuavano a fare errori, rafforzando l'idea che i loro processi cognitivi differiscano fondamentalmente da quelli umani.
Confronto tra umani e LLM
Per capire le differenze tra umani e LLM, abbiamo condotto uno studio con studenti universitari. Hanno completato gli stessi compiti per vedere quanto bene potessero evitare gli errori A-Not-B. I nostri risultati hanno mostrato che gli umani si sono comportati molto meglio degli LLM, dimostrando una forte capacità di controllare le loro risposte sulla base di nuove informazioni.
Questo confronto evidenzia le debolezze distintive degli LLM. Mentre gli esseri umani possono imparare e adattarsi nel tempo, gli LLM faticano a modificare le loro risposte quando si trovano di fronte a circostanze leggermente alterate.
Implicazioni per future ricerche
Le limitazioni che abbiamo osservato negli LLM presentano opportunità cruciali per ulteriori indagini. Crediamo che capire come migliorare il controllo inibitorio degli LLM potrebbe essere fondamentale per il loro miglioramento e allineamento con il ragionamento umano.
Ci sono diverse aree degne di esplorazione, tra cui:
Addestramento del modello: Ulteriori ricerche possono concentrarsi sullo sviluppo di metodi di addestramento che incoraggino i modelli a migliorare le loro capacità di ragionamento in modo più efficace.
Diversi domini: Espandere la ricerca per includere vari compiti di ragionamento oltre a quelli testati può fornire più informazioni sulle capacità degli LLM.
Affrontare gli errori: Trovare modi per affrontare specificamente e ridurre gli errori A-Not-B negli LLM può portare a modelli più affidabili per applicazioni pratiche.
Conclusione
I nostri risultati rivelano che gli LLM, nonostante i loro progressi, mostrano ancora limitazioni significative nelle loro capacità cognitive. Faticano con compiti che richiedono l'inibizione delle risposte apprese, proprio come i neonati di fronte agli errori A-Not-B. Queste intuizioni aprono la strada per future ricerche per migliorare le capacità di ragionamento degli LLM, rendendoli più affidabili per varie applicazioni.
Incoraggiamo ulteriori esplorazioni nel miglioramento degli LLM, concentrandoci sullo sviluppo della loro capacità di adattarsi a contesti in cambiamento e rispondere accuratamente a nuove informazioni. Comprendendo i limiti cognitivi di questi modelli, possiamo lavorare verso la creazione di sistemi AI più sofisticati e affidabili.
Titolo: In-Context Learning May Not Elicit Trustworthy Reasoning: A-Not-B Errors in Pretrained Language Models
Estratto: Recent advancements in artificial intelligence have led to the creation of highly capable large language models (LLMs) that can perform tasks in a human-like manner. However, LLMs exhibit only infant-level cognitive abilities in certain areas. One such area is the A-Not-B error, a phenomenon seen in infants where they repeat a previously rewarded behavior despite well-observed changed conditions. This highlights their lack of inhibitory control -- the ability to stop a habitual or impulsive response. In our work, we design a text-based multi-choice QA scenario similar to the A-Not-B experimental settings to systematically test the inhibitory control abilities of LLMs. We found that state-of-the-art LLMs (like Llama3-8b) perform consistently well with in-context learning (ICL) but make errors and show a significant drop of as many as 83.3% in reasoning tasks when the context changes trivially. This suggests that LLMs only have inhibitory control abilities on par with human infants in this regard, often failing to suppress the previously established response pattern during ICL.
Autori: Pengrui Han, Peiyang Song, Haofei Yu, Jiaxuan You
Ultimo aggiornamento: Sep 23, 2024
Lingua: English
URL di origine: https://arxiv.org/abs/2409.15454
Fonte PDF: https://arxiv.org/pdf/2409.15454
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.