Valutare i modelli di linguaggio nella navigazione nei labirinti
I test MANGO valutano i modelli di linguaggio per la navigazione e la mappatura in contesti di labirinto.
― 7 leggere min
Indice
- Cos'è MANGO?
- Come funziona MANGO
- Perché la mappatura e la navigazione sono importanti
- I componenti di MANGO
- Il processo di raccolta dei labirinti
- Generazione di domande
- Affrontare i percorsi impliciti
- Programma di valutazione
- Sperimentare con diversi modelli
- Analisi delle performance dei modelli
- Importanza della mappatura in altri compiti
- Direzioni future
- Conclusione
- Fonte originale
- Link di riferimento
Negli ultimi anni, grandi modelli di linguaggio (LLM) come ChatGPT e GPT-4 hanno mostrato abilità incredibili nel gestire vari compiti linguistici. Tuttavia, questi modelli potrebbero avere delle difficoltà quando si tratta di compiti che coinvolgono mappatura e navigazione basate su testi. Questo articolo presenta MANGO, un benchmark progettato per valutare quanto bene gli LLM possono svolgere la mappatura e la navigazione basate su testi in ambienti simili a labirinti.
Cos'è MANGO?
MANGO è un benchmark che testa la capacità dei modelli di linguaggio di comprendere e navigare attraverso labirinti usando descrizioni testuali. Ogni labirinto viene fornito con una guida che offre una serie di azioni, ma la guida non copre ogni possibile percorso all'interno del labirinto. Il compito principale coinvolge rispondere a Domande relative a questi labirinti, come ad esempio come andare da un luogo a un altro.
Come funziona MANGO
I labirinti usati in MANGO derivano da giochi di avventura testuali. Ogni labirinto è abbinato a un insieme di domande che testano la comprensione del modello della guida fornita. Ad esempio, un modello potrebbe dover rispondere a domande come "Come si va da Ovest della Casa alla Soffitta?" oppure "Dove sei se ti muovi a nord e a est dal Sotterraneo?"
Anche se queste domande sono relativamente semplici per gli esseri umani, le prestazioni degli LLM, compresi i modelli più recenti, sono sorprendentemente scarse. Ad esempio, GPT-4 ha faticato a rispondere correttamente a molte domande, specialmente quelle che richiedono di comprendere percorsi non esplicitamente menzionati nella guida.
Perché la mappatura e la navigazione sono importanti
La mappatura e la navigazione sono abilità cruciali sia per gli esseri umani che per i sistemi intelligenti. Mentre gli esseri umani possono costruire mappe mentali e navigare attraverso ambienti complessi, rimane poco chiaro se gli LLM possano replicare questa abilità. La nostra ricerca cerca di rispondere a questo interrogativo valutando gli LLM con il benchmark MANGO.
Quando gli esseri umani si muovono attraverso uno spazio sconosciuto, possono pianificare percorsi nella loro mente, anche se non ricordano ogni svolta. MANGO mira a valutare se gli LLM possono svolgere un ragionamento simile.
I componenti di MANGO
MANGO include più labirinti, ciascuno progettato per testare vari aspetti della mappatura e della navigazione:
Guide: Queste sono descrizioni dettagliate di come navigare nel labirinto, fornendo una sequenza di azioni intraprese durante il gioco.
Domande: Ogni labirinto ha domande associate che richiedono al modello di derivare risposte in base alla guida. Le domande possono essere suddivise in:
Metriche di valutazione: Il successo viene misurato in base a quanto accuratamente il modello risponde alle domande, con particolare attenzione sia alle domande semplici che a quelle difficili.
Il processo di raccolta dei labirinti
Per creare MANGO, abbiamo raccolto labirinti da una collezione di giochi testuali. Ogni gioco fornisce una guida che include una sequenza di passi che un giocatore potrebbe seguire per navigare. Il nostro obiettivo era generare un labirinto per ogni gioco che riflettesse le azioni specificate nella guida.
Abbiamo annotato attentamente ogni labirinto notando le posizioni presenti e le azioni che cambiano quelle posizioni. I dati del labirinto sono memorizzati in un formato strutturato, permettendoci di generare facilmente domande su percorsi e destinazioni.
Generazione di domande
Costruendo sui nostri dati labirintici, abbiamo creato domande di ricerca della destinazione e domande di ricerca del percorso. Un approccio semplice implica rappresentare i possibili punti di partenza e destinazioni come tuple. Tuttavia, molte domande sono difficili perché potrebbero coinvolgere percorsi non coperti esplicitamente nella guida.
Ad esempio, se la guida includeva il movimento da "Altare" a "Camera del Cupola," ma il modello deve considerare un percorso indiretto che attraversa diverse altre posizioni, questo richiede una comprensione più profonda delle relazioni spaziali.
Affrontare i percorsi impliciti
Non tutti i percorsi sono esplicitamente dichiarati nella guida. Alcuni potrebbero richiedere al modello di inferire potenziali percorsi basati su posizioni e azioni precedenti. Ad esempio, se un giocatore può muoversi a nord da una posizione a un'altra, progettiamo le nostre domande per assicurarci che il modello riconosca movimenti validi, anche se non sono stati menzionati direttamente.
Per assicurarci che il nostro framework includa questi percorsi impliciti, abbiamo esaminato meccaniche di gioco attraverso il gioco reale e identificato azioni come "entrare" e "pregare" che possono portare a diverse posizioni, ma non tutte possono essere facilmente inferite.
Programma di valutazione
Il programma di valutazione valuta quanto bene ciascun modello performa sul benchmark MANGO. Controlla l'accuratezza delle risposte confrontandole con quelle corrette. Assegniamo punteggi alle risposte in base alla precisione e al grado di sovrapposizione con le risposte corrette.
Per le domande DF, il successo è semplice: la risposta del modello deve corrispondere al nome della posizione attesa. Tuttavia, la possibilità di variazioni (come lievi riformulazioni) migliora la flessibilità della valutazione. Le domande RF vengono misurate in modo diverso, richiedendo una serie di mosse per raggiungere una posizione obiettivo.
Sperimentare con diversi modelli
Abbiamo testato diversi LLM ampiamente utilizzati, tra cui GPT-3.5, GPT-4 e altri modelli avanzati. Ogni modello è stato valutato utilizzando le stesse guide e domande per determinare quanto efficacemente potessero navigare i labirinti forniti usando solo il testo.
I risultati hanno mostrato che, mentre GPT-4 ha avuto la migliore performance, ha comunque faticato con molte domande. Questo evidenzia il divario nella capacità degli LLM rispetto alle capacità umane quando si tratta di ragionamento spaziale.
Analisi delle performance dei modelli
Abbiamo analizzato i tassi di successo tra i vari modelli per identificare schemi nelle loro performance. Le nostre scoperte suggeriscono che vari fattori influenzano quanto bene un modello possa rispondere alle domande, inclusa la complessità del labirinto, la lunghezza dei percorsi, e così via.
Alcuni labirinti si sono rivelati particolarmente difficili per i modelli, mentre altri erano più facili da navigare. Le prestazioni variavano notevolmente in base alla struttura e alle descrizioni del labirinto stesso.
Importanza della mappatura in altri compiti
Le abilità valutate da MANGO non sono preziose solo nei giochi, ma anche in altre applicazioni del mondo reale. Ad esempio, agenti intelligenti che utilizzano abilità di mappatura e navigazione possono comprendere meglio ambienti complessi e svolgere compiti che richiedono un senso di direzione.
Abbiamo condotto uno studio di caso su come abilità di mappatura solide possono aiutare i modelli nel completare vari compiti. Esaminando le prestazioni in scenari specifici, abbiamo trovato che i modelli con migliori abilità di navigazione potevano svolgere significativamente meglio in sfide correlate.
Direzioni future
MANGO pone le basi per valutare le abilità di mappatura e navigazione negli LLM. Le ricerche future possono espandere questo esaminando come i modelli possano generalizzare le loro conoscenze attraverso diversi scenari.
C'è anche bisogno di migliorare il benchmark MANGO stesso. Potremmo migliorare le configurazioni spaziali nei labirinti, aggiungere requisiti per movimenti più complessi, o persino integrare ulteriori strati di sfida per testare ulteriormente i modelli.
Conclusione
MANGO è uno strumento prezioso per capire come gli LLM possano gestire compiti di navigazione e mappatura. Le nostre valutazioni rivelano che anche i migliori modelli affrontano difficoltà in quest'area, specialmente con domande più complesse. Andando avanti, lo sviluppo di MANGO aiuterà a valutare i miglioramenti e le capacità negli LLM, fornendo un percorso per future ricerche in questo entusiasmante campo.
Titolo: MANGO: A Benchmark for Evaluating Mapping and Navigation Abilities of Large Language Models
Estratto: Large language models such as ChatGPT and GPT-4 have recently achieved astonishing performance on a variety of natural language processing tasks. In this paper, we propose MANGO, a benchmark to evaluate their capabilities to perform text-based mapping and navigation. Our benchmark includes 53 mazes taken from a suite of textgames: each maze is paired with a walkthrough that visits every location but does not cover all possible paths. The task is question-answering: for each maze, a large language model reads the walkthrough and answers hundreds of mapping and navigation questions such as "How should you go to Attic from West of House?" and "Where are we if we go north and east from Cellar?". Although these questions are easy to humans, it turns out that even GPT-4, the best-to-date language model, performs poorly at answering them. Further, our experiments suggest that a strong mapping and navigation ability would benefit large language models in performing relevant downstream tasks, such as playing textgames. Our MANGO benchmark will facilitate future research on methods that improve the mapping and navigation capabilities of language models. We host our leaderboard, data, code, and evaluation program at https://mango.ttic.edu and https://github.com/oaklight/mango/.
Autori: Peng Ding, Jiading Fang, Peng Li, Kangrui Wang, Xiaochen Zhou, Mo Yu, Jing Li, Matthew R. Walter, Hongyuan Mei
Ultimo aggiornamento: 2024-08-08 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2403.19913
Fonte PDF: https://arxiv.org/pdf/2403.19913
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.