Memoria del Workflow dell'Agente: Migliorare le Prestazioni nei Compiti Digitali
Un nuovo metodo migliora le capacità degli agenti di portare a termine compiti digitali complessi in modo efficace.
Zora Zhiruo Wang, Jiayuan Mao, Daniel Fried, Graham Neubig
― 8 leggere min
Indice
- Compiti di navigazione web
- La necessità di miglioramento
- Apprendere dall'esperienza
- Scenari offline e online
- Sperimentazione e risultati
- Benchmark WebArena
- Benchmark Mind2Web
- Rappresentazione dei flussi di lavoro
- Meccanismo di induzione dei flussi di lavoro
- Apprendimento continuo
- Generalizzazione tra compiti
- Miglioramenti nelle prestazioni dei compiti
- Conclusione
- Fonte originale
- Link di riferimento
Gli agenti basati su modelli linguistici hanno la capacità di svolgere Compiti nel mondo digitale, come navigare su siti web o usare app mobili. Tuttavia, la maggior parte di questi agenti ha difficoltà quando si trovano di fronte a compiti complessi che richiedono una serie di azioni su un periodo di tempo più lungo. Al contrario, gli esseri umani spesso risolvono tali compiti applicando routine apprese da esperienze passate.
Per aiutare gli agenti a imparare e migliorare le loro Prestazioni, proponiamo un metodo chiamato Agent Workflow Memory (AWM). Questo approccio consente agli agenti di identificare e riutilizzare routine o Flussi di lavoro comuni per migliorare le loro abilità di risoluzione dei compiti.
Gli agenti possono applicare questo metodo sia in situazioni offline che online. Negli scenari offline, possono apprendere flussi di lavoro da esempi di addestramento prima di affrontare nuovi compiti. Negli scenari online, possono creare flussi di lavoro al volo dai compiti che incontrano.
Compiti di navigazione web
Abbiamo testato AWM su due benchmark di navigazione web: Mind2Web e WebArena. Questi benchmark coinvolgono una varietà di compiti in diversi ambiti, come viaggi e acquisti. In generale, AWM migliora notevolmente le prestazioni degli agenti nel completare i compiti.
La necessità di miglioramento
La maggior parte degli agenti attuali si basa su un insieme fisso di esempi, rendendoli meno adattabili a nuove situazioni. Di solito si comportano bene in compiti che somigliano strettamente ai loro esempi di addestramento, ma faticano con qualsiasi cambiamento di contesto. In sostanza, non riescono a riconoscere e apprendere flussi di lavoro ripetibili che potrebbero aiutarli ad affrontare compiti complessi in modo più efficace.
Inoltre, quando gli agenti completano i compiti uno alla volta, non apprendono dai loro successi o errori passati, impedendo loro di migliorare nel tempo. Senza la capacità di imparare dalle esperienze, gli agenti perdono conoscenze preziose che potrebbero guidare le loro azioni future.
Apprendere dall'esperienza
Per migliorare gli agenti, osserviamo come gli esseri umani imparano a gestire i compiti astrarre routine dalle loro esperienze passate. Applicando questa idea agli agenti, AWM li aiuta a identificare flussi di lavoro comuni da compiti precedenti, integrando questi apprendimenti nella loro memoria. Ogni flusso di lavoro rappresenta un obiettivo e contiene una serie di passaggi che delineano le azioni necessarie per raggiungere quell'obiettivo.
Ad esempio, gli agenti potrebbero imparare un flusso di lavoro per “trovare un posto col suo nome”, che potrebbe essere un compito comune quando si cerca una posizione online. Una volta stabilito questo flusso di lavoro, gli agenti possono costruire flussi di lavoro più complessi basati su di esso, come “ottenere il codice postale di un posto”.
Questo approccio consente agli agenti di apprendere continuamente, migliorando la loro capacità di affrontare compiti sempre più complessi, sviluppando al contempo una memoria più ricca di flussi di lavoro utili.
Scenari offline e online
AWM può funzionare in entrambi gli ambienti offline e online. Negli scenari offline, gli agenti possono estrarre flussi di lavoro riutilizzabili da esempi di alta qualità, che li aiutano durante la fase di test. Al contrario, nelle impostazioni online dove non ci sono esempi precedenti, gli agenti possono generare flussi di lavoro dalle loro azioni e previsioni passate, costruendo la loro memoria in tempo reale mentre affrontano compiti.
Sperimentazione e risultati
Nei nostri esperimenti, utilizziamo WebArena e Mind2Web per valutare AWM. Osserviamo un miglioramento sostanziale nelle prestazioni rispetto ai metodi esistenti. Su WebArena, AWM supera i metodi migliori precedenti, aumentando significativamente il tasso di successo degli agenti.
Nel contesto di Mind2Web, il nostro metodo migliora il successo dei compiti in diversi compiti e ambiti, indicando le sue forti capacità di generalizzazione. Scopriamo anche che AWM consente agli agenti di apprendere efficacemente da esperienze iniziali limitate, dimostrando capacità di Apprendimento efficienti.
Benchmark WebArena
WebArena consiste in vari compiti su diversi siti web. Valuta le prestazioni degli agenti in base alla loro capacità di navigare e completare i compiti in modo efficace. Confrontiamo AWM con altri metodi, compresi quelli che usano flussi di lavoro generati da umani. I nostri risultati mostrano che AWM eccelle sia nei tassi di successo che nell'efficienza, permettendo agli agenti di completare i compiti in meno passaggi.
Un'osservazione notevole è che AWM si comporta costantemente bene su tutti i siti web testati, verificando la sua applicabilità in diversi contesti e formati.
Benchmark Mind2Web
Mind2Web presenta vari compiti di navigazione web che coprono più ambiti. Qui, gli agenti sono valutati in base alla loro capacità di prevedere azioni in modo efficace mentre navigano nel sito web. Applicando AWM, otteniamo tassi di successo più elevati non solo nelle prestazioni passo dopo passo, ma anche nei tassi generali di completamento dei compiti.
Confrontando AWM con altri metodi leader, troviamo che porta a un miglioramento significativo sia in accuratezza che in efficienza. AWM consente agli agenti di navigare meglio le complessità dei diversi ambienti web e adattarsi a scenari in evoluzione.
Rappresentazione dei flussi di lavoro
Il cuore di AWM è la sua capacità di rappresentare i flussi di lavoro in modo efficace. Ogni flusso di lavoro consiste in due componenti principali: una descrizione generale dell'obiettivo e una serie dettagliata di passi azionabili per raggiungerlo. Questi flussi di lavoro vengono generati attraverso un processo di induzione che estrae routine riutilizzabili dalle esperienze passate degli agenti.
Generando costantemente flussi di lavoro che rappresentano procedure comuni, AWM rafforza le capacità degli agenti nel compiere compiti simili. Ad esempio, i flussi di lavoro possono aiutare gli agenti a navigare su siti di e-commerce o piattaforme di social media in modo più efficace fornendo indicazioni strutturate.
Meccanismo di induzione dei flussi di lavoro
Il processo di induzione dei flussi di lavoro implica l'analisi delle esperienze passate per identificare modelli comuni di azione. Ciò comporta l'estrazione di sequenze di azioni da compiti precedenti e la loro riformulazione in flussi di lavoro generalizzati.
Quando gli agenti si imbattono in un nuovo compito, possono fare riferimento alla loro memoria dei flussi di lavoro e applicare il flusso di lavoro appropriato, riducendo significativamente il tempo necessario per completare i compiti. Questa adattabilità migliora le loro prestazioni in vari ambienti.
Apprendimento continuo
AWM promuove un approccio di apprendimento continuo, consentendo agli agenti di sviluppare la loro memoria di flussi di lavoro man mano che procedono attraverso i compiti. Questo processo crea un ciclo di feedback, dove gli agenti imparano sia dai tentativi di successo che da quelli non riusciti per affinare ulteriormente i loro flussi di lavoro.
Ad esempio, se un agente apprende un flusso di lavoro per “cercare un prodotto su Amazon”, può successivamente utilizzare questo flusso di lavoro per migliorare la propria efficienza nelle ricerche successive, adattandosi man mano che arrivano nuove informazioni ed esperienze.
Generalizzazione tra compiti
Uno dei vantaggi significativi di AWM è la sua capacità di generalizzare tra diversi compiti. Inducendo flussi di lavoro che catturano routine comuni, gli agenti possono applicare questi flussi di lavoro a nuovi compiti che condividono caratteristiche simili, migliorando così i tassi di successo.
Questa capacità di generalizzazione tra compiti è particolarmente preziosa in ambienti in cui i compiti possono variare, ma i modelli di azione di base rimangono costanti. Ad esempio, i flussi di lavoro sviluppati per cercare prodotti su un sito di e-commerce possono essere applicabili quando si naviga su un'altra piattaforma simile.
Miglioramenti nelle prestazioni dei compiti
Sfruttando AWM, gli agenti superano costantemente i benchmark precedenti in varie valutazioni. Dimostrano maggiore efficienza attraverso un completamento più rapido dei compiti e un numero ridotto di passaggi necessari per raggiungere gli obiettivi.
I nostri risultati indicano che gli agenti con AWM sono in grado di gestire un'ampia gamma di compiti, dimostrando maggiore flessibilità e adattabilità. Questo porta a tassi di successo complessivi più elevati rispetto a quelli che si basano esclusivamente su metodi tradizionali.
Conclusione
L'Agent Workflow Memory rappresenta un passo significativo verso il miglioramento delle capacità degli agenti basati su modelli linguistici nel navigare le complessità del mondo digitale. Consentendo agli agenti di imparare dalle esperienze e astrarre flussi di lavoro comunemente utilizzati, AWM li dotano degli strumenti per risolvere una varietà più ampia di compiti con maggiore efficienza.
Gli esperimenti condotti su WebArena e Mind2Web illustrano ulteriormente il potenziale di AWM di migliorare notevolmente le prestazioni degli agenti. Man mano che continuiamo a sviluppare questo metodo, crediamo che porterà ulteriori progressi nelle capacità degli agenti, favorendo un'interazione più efficace con il panorama in continua evoluzione dei compiti digitali.
In sintesi, AWM offre un approccio strutturato che consente agli agenti di apprendere continuamente e applicare le loro conoscenze in vari compiti, colmando infine il divario tra le prestazioni umane e quelle delle macchine nel regno digitale.
Titolo: Agent Workflow Memory
Estratto: Despite the potential of language model-based agents to solve real-world tasks such as web navigation, current methods still struggle with long-horizon tasks with complex action trajectories. In contrast, humans can flexibly solve complex tasks by learning reusable task workflows from past experiences and using them to guide future actions. To build agents that can similarly benefit from this process, we introduce Agent Workflow Memory (AWM), a method for inducing commonly reused routines, i.e., workflows, and selectively providing workflows to the agent to guide subsequent generations. AWM flexibly applies to both offline and online scenarios, where agents induce workflows from training examples beforehand or from test queries on the fly. We experiment on two major web navigation benchmarks -- Mind2Web and WebArena -- that collectively cover 1000+ tasks from 200+ domains across travel, shopping, and social media, among others. AWM substantially improves the baseline results by 24.6% and 51.1% relative success rate on Mind2Web and WebArena while reducing the number of steps taken to solve WebArena tasks successfully. Furthermore, online AWM robustly generalizes in cross-task, website, and domain evaluations, surpassing baselines from 8.9 to 14.0 absolute points as train-test task distribution gaps widen.
Autori: Zora Zhiruo Wang, Jiayuan Mao, Daniel Fried, Graham Neubig
Ultimo aggiornamento: 2024-09-11 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2409.07429
Fonte PDF: https://arxiv.org/pdf/2409.07429
Licenza: https://creativecommons.org/licenses/by-sa/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.