Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica # Calcolo e linguaggio

Valutare agenti interattivi orientati agli obiettivi

Un sondaggio sui compiti pensati per valutare agenti interattivi e le loro capacità.

Mareike Hartmann, Alexander Koller

― 11 leggere min


Valutazione del compito Valutazione del compito per agenti interattivi valutare le prestazioni degli agenti. Esaminando i compiti attuali per
Indice

Gli Agenti interattivi orientati agli obiettivi sono programmi di computer progettati per completare Compiti interagendo con l'ambiente. Possono aiutare le persone in molte aree della vita quotidiana. Recentemente, i progressi nei modelli di linguaggio di grandi dimensioni (LLM) hanno portato alla creazione di nuovi compiti più impegnativi per valutare come questi agenti si comportano. Per capire come questi compiti siano diversi, è importante identificare le sfide che presentano. Questo sondaggio raccoglie vari compiti e Ambienti per valutare questi agenti, organizzandoli in modo da evidenziare le difficoltà attuali.

Esempi di compiti per agenti mostrano una vasta gamma di istruzioni, situazioni e azioni possibili. Recenti ricerche sugli LLM e sull'uso degli strumenti stanno cambiando il modo in cui le persone interagiscono con i computer. Prima, gli utenti dovevano dare comandi specifici ai computer uno alla volta. L'obiettivo ora è permettere ai computer di ricevere istruzioni a un livello più alto e di suddividerle in azioni che possono essere eseguite automaticamente. C'è stato un rapido sviluppo di agenti capaci di affrontare questi compiti migliorando il modo in cui gli LLM ragionano, analizzano i problemi e decidono quali strumenti o azioni usare.

Allo stesso tempo, sono state condotte ricerche significative sulla creazione di compiti per valutare questi agenti. Questi compiti possono includere la gestione di conversazioni via email, rispondere a domande complesse, acquistare online e completare compiti in situazioni reali. L'aumento della varietà e difficoltà di questi compiti aiuta a chiarire cosa possono e non possono fare gli agenti, il che stimola a progettare agenti più capaci.

Tuttavia, sta diventando sempre più difficile tenere traccia di questi compiti, interpretare i risultati sperimentali e capire le sfide uniche che ciascun compito presenta. Questo sondaggio mira a fornire una panoramica chiara dei compiti attuali per agenti interattivi orientati agli obiettivi, complementando la ricerca esistente sui progetti di agenti per questi compiti. Abbiamo anche in programma di tenere questo sondaggio aggiornato su un sito web dove i creatori di compiti possono contribuire.

I compiti sono raggruppati in base a vari fattori. Ambienti diversi, come spazi fisici simulati, siti web e database, possono avere spazi d'azione che differiscono notevolmente. Ad esempio, le azioni potrebbero comportare muoversi in uno spazio fisico, usare il mouse e la tastiera, selezionare elementi su una pagina web o inserire comandi in SQL.

I compiti variano anche in base a quanto sia osservabile l'ambiente, alla struttura delle ricompense e alle metriche di valutazione. Questi fattori influenzano notevolmente come devono essere progettati gli agenti, e questo sondaggio è destinato ad aiutare nello sviluppo futuro degli agenti.

Per definire il campo di applicazione di questo sondaggio, ci concentriamo sui compiti per agenti interattivi orientati agli obiettivi. "Orientato agli obiettivi" significa che gli agenti ricevono istruzioni specifiche (come comandi o domande in linguaggio naturale) da cui possono derivare le condizioni del compito. Ad esempio, nel gioco degli scacchi, l'istruzione "Scacco matto al re" fornisce obiettivi chiari, mentre "Vincere la partita" è vaga. Dunque, non includeremo compiti che definiscono obiettivi solo tramite funzioni di ricompensa.

Sottolineiamo compiti impegnativi che richiedono agli agenti di tradurre un obiettivo in una sequenza di azioni, piuttosto che compiti con istruzioni semplici passo dopo passo. Inoltre, limitiamo la nostra attenzione a compiti che possono essere risolti da un singolo agente autonomo senza bisogno di input umano, anche se discuteremo compiti che coinvolgono interazione umana o collaborazione tra più agenti.

Esistono già diversi sondaggi sugli agenti basati su LLM, fornendo panoramiche dettagliate di modelli a singolo agente, concentrandosi sulle loro strutture, applicazioni e componenti di memoria. Altri sondaggi coprono modelli di fondazione multimodali e le interazioni multi-agente spesso viste nei giochi. Questi lavori precedenti si concentrano principalmente sulla modellazione e sulle applicazioni generali, mentre il nostro sondaggio enfatizza compiti specifici e ambienti per gli agenti.

Nelle sezioni seguenti, presentiamo un insieme di compiti per agenti che illustrano varie caratteristiche. Un elenco completo dei lavori esaminati può essere trovato sul sito del nostro progetto.

Esempi di Compiti per Agenti

Introduciamo vari compiti per agenti per mostrare diverse caratteristiche. L'elenco completo è disponibile sul sito del nostro progetto.

Navigazione e Manipolazione di Oggetti nelle Simulazioni

Un gruppo di compiti coinvolge agenti che navigano e interagiscono con oggetti fisici in ambienti simulati. Queste simulazioni possono essere descritte visivamente o testualmente. Un tipo di compito richiede agli agenti di disporre oggetti in base a forme e colori in relazioni spaziali specificate. Un altro compito si concentra sulla navigazione in una griglia per raccogliere oggetti, come chiavi necessarie per passare attraverso porte.

In alcuni compiti, gli agenti operano in un ambiente di gioco basato su blocchi come Minecraft, permettendo loro di raccogliere risorse, creare oggetti e costruire strutture. Altri compiti si svolgono in ambienti fotorealistici come AI2-Thor, dove gli agenti completano compiti domestici comuni, come lavare frutta. Alcuni compiti richiedono di navigare negli ambienti per rispondere a domande su stanze e oggetti.

Mondi Basati su Testo

Negli ambienti basati su testo, gli agenti eseguono azioni basate su descrizioni scritte. Un compito imita giochi tradizionali in cui l'ambiente è descritto nel testo. Un altro compito richiede agli agenti di condurre esperimenti scientifici all'interno di simulazioni realistiche di vari processi. Alcuni compiti basati su giochi di testo classici consentono agli agenti di esplorare opzioni senza specifiche di obiettivi espliciti.

Compiti di Assistenza Digitale

Gli agenti funzionano anche in ambienti digitali, aiutando gli utenti con compiti quotidiani come prenotare viaggi, inviare email, analizzare dati e modificare immagini. Gli ultimi compiti si concentrano su domini specializzati, come scoprire nuove sostanze chimiche o risolvere problemi software.

Interazione con Strumenti e API

Un altro tipo di compito coinvolge agenti che risolvono problemi utilizzando software tramite Interfacce di Programmazione delle Applicazioni (API), anche chiamate strumenti. Qui, gli spazi d'azione si allineano con chiamate valide agli strumenti. Ad esempio, gli agenti possono eseguire ricerche su Wikipedia o effettuare calcoli numerici utilizzando un interprete di codice Python.

Interazione con Interfacce Utente Grafiche (GUI)

Gli assistenti digitali possono interagire direttamente con interfacce utente grafiche progettate per utenti tipici. Le azioni possono includere cliccare o inserire testo, mentre le osservazioni corrispondono allo stato attuale della GUI, come screenshot. Alcuni compiti richiedono agli agenti di navigare in siti web in base alle loro rappresentazioni HTML, mentre altri si concentrano su app mobili e applicazioni desktop.

Interazione con Interpreti di Codice

Gli agenti possono anche interagire con interpreti di codice per eseguire programmi. Lo Spazio d'azione è composto da istruzioni valide in un linguaggio di programmazione, comprese le interazioni con librerie esterne. Alcuni compiti richiedono agli agenti di navigare in una GUI tramite un interprete Python o gestire query di database.

Strutturare il Panorama dei Compiti

Forniamo una descrizione dettagliata e un confronto delle diverse caratteristiche dei compiti complessi per valutare le prestazioni degli agenti. Comprendere queste caratteristiche aiuta a identificare le difficoltà che devono affrontare gli agenti.

Formalizzazione del Compito

L'obiettivo di un agente è decidere una serie di azioni per raggiungere un obiettivo in un ambiente specifico. Gli agenti operano in passi temporali discreti, compiendo azioni e osservando gli effetti sull'ambiente. Definiamo un'istanza di compito come un tipo di problema decisionale che include uno stato iniziale e una specifica dell'obiettivo. L'agente ha un insieme di azioni tra cui scegliere, e il suo obiettivo è passare da uno stato all'altro soddisfacendo certe condizioni.

Specifica dell'Obiettivo

La specifica dell'obiettivo informa gli agenti su quando un compito è completato. Questa specifica può assumere varie forme, che vanno da descrizioni dirette di quale dovrebbe essere lo stato finale all'istruzioni meno esplicite che l'agente deve interpretare. I compiti con specifiche vaghe tendono a essere più difficili perché l'agente deve raccogliere più informazioni per procedere.

Tipi di Obiettivo

I compiti differiscono in base al tipo di obiettivo che mirano a raggiungere: o raggiungere uno stato specifico nell'ambiente o rispondere a una domanda. L'obiettivo di raggiungere uno stato specifico significa che gli agenti possono essere valutati in base a se soddisfano determinati criteri. L'obiettivo di rispondere a domande implica che gli agenti devono decidere di fornire una risposta finale basata sulla loro comprensione del contesto.

Criteri di Fermata

In molti compiti, gli agenti devono eseguire un'azione specifica per segnalare di aver raggiunto l'obiettivo. Alcuni ambienti riconoscono automaticamente quando un obiettivo è stato raggiunto, semplificando il processo per gli agenti.

Stati del Mondo e della Conoscenza

Alcuni compiti richiedono agli agenti di modificare l'ambiente per soddisfare le condizioni dell'obiettivo, mentre altri si concentrano sul recupero o la conversione di informazioni senza apportare modifiche. Questa distinzione è significativa, poiché riflette il tipo di ragionamento richiesto dall'agente.

Spazi d'Azione

Gli spazi d'azione per i compiti possono essere semplici o complessi, a seconda di quante azioni possibili un agente può intraprendere in un dato momento. Alcuni compiti richiedono di affrontare piccoli spazi d'azione, mentre altri coinvolgono spazi complessi che crescono in modo combinatorio con il vocabolario o i tipi di input disponibili.

Osservabilità dello Stato

Uno stato è completamente osservabile se l'agente può vedere tutte le informazioni rilevanti perfettamente. Al contrario, alcuni scenari richiedono agli agenti di compiere azioni per ottenere informazioni aggiuntive. La completa osservabilità è rara nelle situazioni pratiche e di solito esiste solo in compiti semplificati.

Osservazione degli Effetti dell'Esecuzione dell'Azione

Quando un agente compie un'azione, gli effetti sullo stato dell'ambiente devono essere osservati. Gli agenti ricevono spesso feedback che li informa su cosa è cambiato a causa delle loro azioni, guidando le decisioni future.

Osservazione del Feedback su Azioni Inammissibili

A volte, gli agenti potrebbero compiere azioni che non possono essere eseguite a causa dello stato attuale; comprendere il feedback su tali azioni è fondamentale per il miglioramento.

Osservazione delle Ricompense Intermedie

Alcuni compiti forniscono feedback a ogni passo, consentendo agli agenti di sapere se stanno facendo progressi verso i loro obiettivi. Questo feedback può essere impostato manualmente o generato automaticamente in base a metriche.

Valutazione dei Compiti

Valutare i compiti determina se un agente ha completato con successo un obiettivo specificato. La maggior parte dei compiti in questo sondaggio definisce condizioni che possono essere misurate oggettivamente per valutare il successo, come confrontare stati raggiunti con stati di riferimento o risposte.

Valutazione Basata su Riferimenti delle Risposte Finali

Molti compiti di risposta a domande confrontano le risposte previste con le risposte corrette, utilizzando metodi come il matching esatto o fuzzy. Nei compiti creativi, in cui le risposte possono variare notevolmente, la valutazione basata su riferimenti diventa più impegnativa.

Valutazione Basata su Riferimenti degli Stati Finali

I compiti che definiscono stati obiettivo possono essere valutati confrontando lo stato finale dell'agente con gli obiettivi specificati. Questa valutazione può considerare il completamento parziale o il grado in cui vengono soddisfatti i vincoli.

Valutazione Senza Riferimenti

I metodi di valutazione senza riferimenti non si basano su risposte corrette preimpostate. Invece, valutatori umani o altri modelli confrontano la qualità delle uscite generate. L'affidabilità degli LLM in questo contesto è ancora in fase di esame.

Proprietà Generali dell'Ambiente

Indicatori di difficoltà nei compiti sono cruciali per comprendere come creare compiti più impegnativi. Vari metriche, come la lunghezza della sequenza d'azione richiesta e le dimensioni dello spazio d'azione, possono servire come indicatori di complessità del compito.

Specificità del Dominio

I compiti possono variare in base a quanto è familiare o comune la conoscenza richiesta. Alcuni compiti possono richiedere conoscenze specializzate che agenti addestrati su dati generali potrebbero non possedere, rendendo quei compiti più difficili.

Disponibilità dei Dati

La disponibilità dei dati influisce su come gli agenti possono apprendere. Alcuni compiti potrebbero richiedere set di dati completi che includono ambienti interattivi, mentre altri forniscono solo sequenze di azioni che portano al completamento del compito.

Generazione di Compiti

La maggior parte dei compiti è formulata progettando uno spazio d'azione e creando istanze manualmente. Alcuni set di dati offrono generatori di problemi che creano automaticamente nuovi compiti risolvibili in base a requisiti specifici.

Discussione e Direzioni Future

Questo sondaggio delinea i compiti esistenti per valutare agenti interattivi orientati agli obiettivi. I rapidi progressi in questo campo sono promettenti e la varietà di compiti suggerisce che gli agenti si integreranno sempre di più nella vita quotidiana. Diverse aree chiave sono fondamentali per far progredire la tecnologia degli agenti oltre l'aumento della complessità.

Abilitare l'Interazione Agente-Utente

I compiti discussi coinvolgono tipicamente solo gli obiettivi iniziali degli utenti senza un'interazione continua. Tuttavia, i compiti nella vita reale potrebbero richiedere feedback e aggiustamenti continui da parte dell'utente. Combinare agenti orientati agli obiettivi con l'interazione degli utenti potrebbe migliorare la loro funzionalità.

Valutazione Mirata del Comportamento degli Agenti

Comprendere il comportamento degli agenti è cruciale per migliorare le prestazioni. Identificando aspetti specifici delle prestazioni e stabilendo quadri formali per studiarli, possiamo ottenere intuizioni sui limiti e le abilità degli agenti.

Standardizzare gli Ambienti

Man mano che lo sviluppo dei compiti continua, è essenziale affrontare le limitazioni dei benchmark esistenti. Queste includono garantire metodi di valutazione coerenti e ridurre le dipendenze da strumenti esterni che possono cambiare nel tempo.

In sintesi, man mano che il panorama dei compiti per agenti interattivi orientati agli obiettivi evolve, un approccio strutturato per comprendere e valutare questi compiti sarà essenziale per far progredire questo campo emozionante.

Articoli simili