Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Calcolo e linguaggio# Intelligenza artificiale

Valutare i modelli di linguaggio nel gioco delle connessioni

Uno studio sulle prestazioni dei modelli linguistici grandi nelle sfide di raggruppamento di parole.

― 6 leggere min


Gli LLM faticano con ilGli LLM faticano con ilgioco delle connessionicategorizzazione delle parole.eguagliare il ragionamento umano nellaI modelli linguistici non riescono a
Indice

I giochi di parole sfidano il nostro pensiero e le abilità linguistiche. Uno di questi giochi è Connections, creato dal New York Times. Chiede ai giocatori di raggruppare le parole in categorie basate su tratti comuni. Questo gioco ha guadagnato popolarità dal suo lancio a giugno 2023 e attira sia giocatori occasionali che amanti dei puzzle di parole.

In questo studio, vediamo quanto bene i modelli di linguaggio di grandi dimensioni (LLM), che sono sistemi di intelligenza artificiale avanzati, riescono a competere in questo gioco rispetto ai giocatori umani. Abbiamo raccolto dati da 200 giochi di Connections per confrontare le performance degli LLM con quelle di giocatori umani sia principianti che esperti.

Cos'è il Gioco Connections?

Connections presenta una griglia di 16 parole e sfida i giocatori a trovare quattro gruppi distinti contenenti ciascuno quattro parole. Questi gruppi devono avere qualcosa in comune, come il loro significato o utilizzo. Il gioco non sfida solo i giocatori a un livello facile; include anche categorie difficili dove le connessioni potrebbero non essere immediatamente ovvie. Ad esempio, alcune categorie potrebbero coinvolgere parole che hanno più significati, aumentando la difficoltà.

I giocatori devono pensare in modo creativo e usare vari tipi di conoscenza per avere successo in questo gioco. Le parole possono essere ingannevoli perché alcune potrebbero sembrare adatte a uno stesso gruppo ma in realtà appartengono a categorie diverse-queste si chiamano "red herrings". Per esempio, le parole “Likes”, “Followers”, “Shares” e “Insult” potrebbero sembrare appartenere a una categoria dei social media, ma trovare le vere categorie richiede un pensiero più profondo.

Valutazione degli LLM

L'obiettivo di questa ricerca è valutare quanto bene gli LLM possano gestire il ragionamento astratto necessario per giocare a Connections. Abbiamo testato quattro LLM all'avanguardia: Gemini 1.5 Pro, Claude 3 Opus, GPT-4o e Llama 3 70B. Per misurare le loro performance, abbiamo confrontato i loro punteggi con quelli dei giocatori umani.

Nonostante siano progettati per elaborare il linguaggio in modo efficace, abbiamo scoperto che anche il miglior LLM, GPT-4o, ha risolto completamente solo l'8% dei giochi. Al contrario, i giocatori esperti hanno risolto molti più giochi correttamente. Questo dimostra che, mentre gli LLM possono svolgere alcune attività bene, hanno ancora difficoltà con compiti che richiedono un ragionamento più astratto simile a quello degli esseri umani.

Tipi di Conoscenza Necessari per Giocare

I giocatori di successo devono usare diversi tipi di conoscenza per categorizzare le parole in Connections. Abbiamo suddiviso i tipi di conoscenza richiesti in diverse categorie:

  1. Conoscenza Semantica: Riguarda la comprensione dei significati delle parole e di come si relazionano tra loro. I giocatori devono conoscere sinonimi, termini generali e specifici e parole con più significati.

  2. Conoscenza Associativa: Comporta il riconoscere connessioni tra parole che potrebbero non essere direttamente correlate dalle loro definizioni. I giocatori potrebbero dover raggruppare parole basate su temi comuni o connotazioni.

  3. Conoscenza Enciclopedica: Alcune parole richiedono conoscenze oltre le semplici definizioni; i giocatori devono comprendere riferimenti a entità, eventi o concetti del mondo reale. Ad esempio, sapere che “Jack Black” si riferisce a un attore e “Jack Frost” è un personaggio del folklore è cruciale.

  4. Espressioni Complesse: I giocatori spesso devono riconoscere che più parole possono creare una frase comune. Comprendere come funzionano queste frasi richiede familiarità con l'uso del linguaggio.

  5. Conoscenza Linguistica: Riguarda le regole e i modelli del linguaggio stesso, come la grammatica, i modelli sonori o la formazione delle parole.

  6. Conoscenza Combinata: Alcune delle categorie più difficili richiedono un mix dei tipi di conoscenza sopra elencati, rendendo queste categorie particolarmente difficili da ordinare.

Performance di Umani vs. LLM

Per capire meglio l'efficacia degli LLM, abbiamo confrontato le loro performance con quelle di giocatori umani principianti ed esperti. Abbiamo raccolto gruppi di volontari per giocare e sono stati invitati a categorizzare le parole proprio come gli LLM.

Giocatori Principianti

I giocatori umani principianti sono riusciti a performare leggermente meglio di GPT-4o nella risoluzione dei giochi di Connections. Il loro punteggio medio di raggruppamento non pesato era più alto, il che significa che sono riusciti a raggruppare le parole più efficacemente di quanto abbia fatto il modello.

Giocatori Esperti

I giocatori esperti hanno superato significativamente sia i principianti che gli LLM. Hanno raggiunto punteggi più alti in modo costante, dimostrando che una familiarità più profonda con il gioco e le sue sfide migliora notevolmente le performance. Ad esempio, i giocatori esperti sono stati in grado di risolvere completamente oltre il 60% dei giochi, mentre GPT-4o ne ha gestiti solo il 5%.

Sfide Affrontate dagli LLM

La nostra analisi ha rivelato che gli LLM hanno difficoltà in particolare con certi tipi di ragionamento. Si comportano bene con la conoscenza semantica di base, ma trovano difficile riconoscere espressioni complesse e categorie di conoscenza combinata. Questo indica che, mentre possono elaborare parole singole in modo efficiente, comprendere il contesto più ampio o relazioni più profonde è più complesso per loro.

Il Ruolo dei Red Herrings

Connections include red herrings che aggiungono un ulteriore livello di difficoltà. Queste sono parole che potrebbero sembrare adatte a una categoria ma non lo sono. Ad esempio, se un gruppo di parole sembra relativo al Natale ma una parola appartiene a un contesto diverso, separarle richiede attenzione.

Sia gli LLM che i giocatori umani hanno commesso più errori nelle categorie con red herrings, il che suggerisce che la disinformazione può ostacolare significativamente le performance. Gli LLM, in particolare, hanno spesso faticato a trovare le giuste connessioni quando erano presenti red herrings.

Ragionamento e Giustificazioni

Come parte della nostra valutazione, abbiamo anche esaminato quanto bene gli LLM potessero spiegare il loro ragionamento. Per alcuni raggruppamenti di successo, a volte fornivano ancora ragioni errate o poco chiare per le loro scelte.

Ad esempio, un LLM potrebbe raggruppare correttamente le parole ma non riuscire a spiegare perché si adattassero insieme nella sua spiegazione. Questa lacuna mette in evidenza l'importanza di comprendere non solo come categorizzare le parole, ma anche perché quelle categorizzazioni abbiano senso.

Direzioni Future

Per preparare meglio gli LLM a compiti come Connections in futuro, suggeriamo che potrebbero beneficiare di un addestramento più mirato. Strategie come identificare parole che non si adattano ad altre (red herrings) e ricevere feedback in tempo reale sui raggruppamenti potrebbero migliorare le loro performance.

In aggiunta, un addestramento su dati sintetici che imitano il gioco potrebbe anche colmare il divario tra esperti umani e LLM. Simulando l'ambiente di gioco e permettendo agli LLM di giocare tra di loro, potremmo ottenere risultati di performance migliori.

Conclusione

Valutando gli LLM rispetto ai giocatori umani utilizzando il gioco Connections del New York Times, scopriamo che, sebbene questi modelli siano strumenti potenti per l'elaborazione del linguaggio, le loro capacità di ragionamento astratto sono ancora carenti. La profondità della conoscenza e i diversi tipi di ragionamento richiesti per eccellere nel gioco mostrano aree di miglioramento.

Con più addestramento e dati migliori, è possibile che gli LLM possano migliorare le loro abilità in compiti di ragionamento astratto. Tuttavia, attualmente, i giocatori umani esperti superano significativamente gli LLM, dimostrando che comprensione e ragionamento rimangono sfide complesse per l'intelligenza artificiale.

Fonte originale

Titolo: Connecting the Dots: Evaluating Abstract Reasoning Capabilities of LLMs Using the New York Times Connections Word Game

Estratto: The New York Times Connections game has emerged as a popular and challenging pursuit for word puzzle enthusiasts. We collect 438 Connections games to evaluate the performance of state-of-the-art large language models (LLMs) against expert and novice human players. Our results show that even the best performing LLM, Claude 3.5 Sonnet, which has otherwise shown impressive reasoning abilities on a wide variety of benchmarks, can only fully solve 18% of the games. Novice and expert players perform better than Claude 3.5 Sonnet, with expert human players significantly outperforming it. We create a taxonomy of the knowledge types required to successfully cluster and categorize words in the Connections game. We find that while LLMs perform relatively well on categorizing words based on semantic relations they struggle with other types of knowledge such as Encyclopedic Knowledge, Multiword Expressions or knowledge that combines both Word Form and Meaning. Our results establish the New York Times Connections game as a challenging benchmark for evaluating abstract reasoning capabilities in AI systems.

Autori: Prisha Samadarshi, Mariam Mustafa, Anushka Kulkarni, Raven Rothkopf, Tuhin Chakrabarty, Smaranda Muresan

Ultimo aggiornamento: 2024-10-13 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2406.11012

Fonte PDF: https://arxiv.org/pdf/2406.11012

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili