Valutare la Comprensione Emotiva dell'IA
Uno studio misura come i modelli di intelligenza artificiale comprendono le emozioni umane attraverso un framework strutturato.
Kanishk Gandhi, Zoe Lynch, Jan-Philipp Fränken, Kayla Patterson, Sharon Wambu, Tobias Gerstenberg, Desmond C. Ong, Noah D. Goodman
― 7 leggere min
Indice
Capire le emozioni è una parte fondamentale di come le persone interagiscono tra loro. Gli esseri umani possono facilmente leggere le emozioni da diverse situazioni o espressioni facciali. Possono anche interpretare le situazioni in base alle emozioni. Questo ci porta a chiederci quanto bene l'AI moderna possa fare queste cose.
Abbiamo creato un modo per testare quanto bene l'AI capisce le emozioni attraverso un framework. Partendo da idee della psicologia, abbiamo ideato 1.280 situazioni diverse che collegano valutazioni, emozioni, espressioni facciali e Risultati. Volevamo vedere come i modelli di base come GPT-4, Claude-3 e Gemini-1.5-Pro si confrontano con le persone nel capire le emozioni.
I nostri risultati indicano che questi modelli spesso si allineano con i pensieri umani e, in alcuni casi, fanno anche meglio di una persona media. Tutti i modelli che abbiamo testato hanno mostrato miglioramenti quando hanno usato un metodo di Ragionamento in cui pensano alle risposte passo dopo passo. Questo suggerisce che l'AI può avere un modo di pensare alle emozioni simile a quello degli esseri umani.
Cos'è la Cognizione Affettiva?
La cognizione affettiva si riferisce alla comprensione delle emozioni in relazione ai pensieri e ai contesti di una persona. Questa capacità aiuta gli esseri umani a connettersi meglio con gli altri come amici e partner empatici. Per esempio, pensa a Amy, una studentessa delle superiori che fa domanda per i college. Vuole frequentare un college statale locale, ma i suoi genitori vogliono che vada in un college privato. Se viene ammessa al college privato e non al college statale locale, potrebbe sentirsi delusa, ma se viene solo ammessa al college statale locale, sarà contenta.
Un'amica che vede la delusione di Amy potrebbe dedurre dalla sua reazione che voleva andare al college statale locale. Comprendere le emozioni in relazione ai pensieri e alle situazioni aiuta le persone a ottenere intuizioni più profonde e favorisce relazioni migliori.
Il Ruolo dell'AI nelle Emozioni
I recenti sviluppi nell'AI significano che ora ha un ruolo più grande nelle nostre vite quotidiane. Quindi, è importante valutare quanto bene l'AI comprenda le emozioni umane. Se gli assistenti o i compagni AI non afferrano le sfumature dei sentimenti come la tristezza o la gioia, la loro capacità di connettersi con noi sarà limitata. Questo solleva una domanda importante: gli modelli di AI possono davvero capire le emozioni come fanno gli esseri umani?
È essenziale notare che comprendere le emozioni va oltre il semplice riconoscerle dalle espressioni facciali o dal testo. La cognizione affettiva richiede una comprensione più complessa di come le emozioni si relazionano ai pensieri e ai contesti, modellati dalle valutazioni di una persona sulle situazioni. Questo processo di Valutazione è chiamato appraisal. Per esempio, quando Amy apprende del suo rifiuto dal college statale locale, i suoi sentimenti rifletteranno non solo l'esito, ma anche la sua interpretazione di esso. Se crede che potrebbe essere riammessa al secondo tentativo, potrebbe non sentirsi così delusa.
Valutare la Capacità dell'AI di Comprendere le Emozioni
Nonostante alcuni studi promettenti con modelli di AI come GPT-4 che mostrano risultati iniziali nella comprensione delle emozioni, non c'è ancora un metodo chiaro per definire i vari tipi di inferenze emotive o per misurarle sistematicamente. Per colmare questa lacuna, abbiamo sviluppato un modo strutturato per testare la cognizione affettiva nell'AI e confrontarla con le risposte umane.
Il nostro framework genera elementi progettati per testare la comprensione delle emozioni usando l'AI. Il processo di generazione coinvolge tre passaggi:
- Definizione di un template causale basato su teorie psicologiche che illustrano come le emozioni si relazionano con gli esiti e le valutazioni.
- Utilizzo di modelli di AI per popolare questo template. Per esempio, partendo da uno scenario come "Amy è una studentessa delle superiori che fa domanda per il college," possiamo generare diverse valutazioni e risultati.
- Creazione di stimoli dai template popolati che possono porre domande specifiche sulle inferenze emotive.
Questo metodo ci consente di creare in modo flessibile numerosi test per valutare quanto bene sia umano che AI possa ragionare sulle emozioni.
Raccogliere Risposte Umane
Prima di testare i modelli di AI, avevamo bisogno di convalidare i nostri stimoli. Abbiamo raccolto risposte da 567 persone, accumulando circa 20 risposte per ciascuna delle 1.280 domande. I partecipanti leggevano gli scenari e rispondevano a domande che offrivano risposte a scelta multipla.
Per misurare l'accordo tra i partecipanti, abbiamo controllato se le loro scelte corrispondevano alla maggioranza. Abbiamo scoperto che l'accordo tra i partecipanti era alto, superando ciò che la casualità avrebbe previsto. Per esempio, quando è stato chiesto di prevedere i sentimenti, hanno concordato il 91,67% delle volte. Un tale alto accordo indica che i nostri scenari hanno effettivamente suscitato reazioni umane coerenti.
Una volta stabilita la verità di base umana, abbiamo confrontato queste risposte con ciò che i modelli di AI prevedevano. Ci siamo concentrati su tre modelli: Claude-3, GPT-4 e Gemini-1.5-Pro, testandoli in due condizioni: un approccio diretto e un approccio di ragionamento passo dopo passo.
Risultati delle Valutazioni dell'AI
Quando abbiamo fatto dedurre ai partecipanti le emozioni dagli scenari, abbiamo notato che i modelli di AI in generale corrispondevano o superavano le risposte umane nei punteggi di accordo. Per esempio, Claude-3 con ragionamento passo dopo passo ha persino superato l'accordo umano in alcuni test.
Per i compiti legati alla previsione degli esiti in base alle emozioni, l'AI ha anche performato significativamente più in alto rispetto ai livelli casuali. GPT-4 ha ottenuto buoni risultati nel riconoscere emozioni e valutazioni, e Claude-3 lo ha superato in alcune situazioni quando usava ragionamento strutturato.
Curiosamente, abbiamo anche scoperto che i modelli performavano meglio quando i prompt includevano espressioni facciali insieme agli scenari. Questo dimostra che incorporare indizi aggiuntivi aiuta l'AI a fare giudizi più accurati.
L'Importanza del Ragionamento nell'AI
I risultati suggeriscono anche che il ragionamento gioca un ruolo vitale nella capacità dell'AI di fare giudizi emotivi. Quando abbiamo invitato l'AI a pensare alle risposte passo dopo passo, ha migliorato significativamente i punteggi di accordo. Questo suggerisce che man mano che l'AI sviluppa migliori capacità di ragionamento, potrebbe migliorare la sua capacità di interpretare le emozioni con precisione.
I nostri risultati dimostrano che questi modelli di base sono capaci di integrare informazioni da vari aspetti, come emozioni, esiti ed espressioni facciali, per comprendere meglio le situazioni.
Implicazioni per lo Sviluppo Futuro dell'AI
Man mano che l'AI continua a evolversi, definire gli aspetti chiave dell'intelligenza e creare test efficaci per essi diventa sempre più importante. La nostra ricerca mostra che, ancorando i test nella teoria psicologica, possiamo valutare quanto bene l'AI comprenda le emozioni.
Abbiamo appena scalfito la superficie, testando un intervallo limitato di valutazioni e scenari. Tuttavia, il framework che abbiamo stabilito può adattarsi per analizzare un intervallo più ampio di valutazioni emotive in vari contesti sociali. Sono necessarie ulteriori ricerche per determinare quanto siano robusti questi modelli nella comprensione delle emozioni.
I nostri risultati aprono anche diverse domande sul ragionamento emotivo nell'AI: come sono rappresentati i pensieri emotivi nella struttura dell'AI? Quali dati sono necessari per aiutare l'AI a sviluppare abilità di ragionamento emotivo?
Questo lavoro suggerisce un futuro in cui i sistemi AI potrebbero comprendere le emozioni e gli stati mentali umani meglio di quanto lo facciano le stesse persone. Tali capacità potrebbero portare a nuovi modi di fornire supporto o intervento per la salute mentale.
È fondamentale, tuttavia, riconoscere i rischi associati all'uso dell'AI in questo modo. Se mal utilizzati, questi sistemi potrebbero manipolare o ingannare le persone. Pertanto, sono vitali discussioni continue sulle implicazioni etiche del calcolo emotivo man mano che questi modelli avanzano.
In conclusione, il nostro studio presenta un modo metodico per misurare quanto bene i sistemi di AI comprendano le emozioni. I risultati mostrano una forte correlazione tra i giudizi umani e le risposte dell'AI, aprendo la strada a futuri progressi in interazioni che richiedono comprensione emotiva.
Titolo: Human-like Affective Cognition in Foundation Models
Estratto: Understanding emotions is fundamental to human interaction and experience. Humans easily infer emotions from situations or facial expressions, situations from emotions, and do a variety of other affective cognition. How adept is modern AI at these inferences? We introduce an evaluation framework for testing affective cognition in foundation models. Starting from psychological theory, we generate 1,280 diverse scenarios exploring relationships between appraisals, emotions, expressions, and outcomes. We evaluate the abilities of foundation models (GPT-4, Claude-3, Gemini-1.5-Pro) and humans (N = 567) across carefully selected conditions. Our results show foundation models tend to agree with human intuitions, matching or exceeding interparticipant agreement. In some conditions, models are ``superhuman'' -- they better predict modal human judgements than the average human. All models benefit from chain-of-thought reasoning. This suggests foundation models have acquired a human-like understanding of emotions and their influence on beliefs and behavior.
Autori: Kanishk Gandhi, Zoe Lynch, Jan-Philipp Fränken, Kayla Patterson, Sharon Wambu, Tobias Gerstenberg, Desmond C. Ong, Noah D. Goodman
Ultimo aggiornamento: 2024-09-18 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2409.11733
Fonte PDF: https://arxiv.org/pdf/2409.11733
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.