Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica # Calcolo e linguaggio

Agenti AI: Possono Sostituire gli Umani nel Lavoro?

Esaminando le capacità e i limiti degli agenti IA nell'automazione dei compiti.

Frank F. Xu, Yufan Song, Boxuan Li, Yuxuan Tang, Kritanjali Jain, Mengxue Bao, Zora Z. Wang, Xuhui Zhou, Zhitong Guo, Murong Cao, Mingyang Yang, Hao Yang Lu, Amaad Martin, Zhe Su, Leander Maben, Raj Mehta, Wayne Chi, Lawrence Jang, Yiqing Xie, Shuyan Zhou, Graham Neubig

― 5 leggere min


AI contro lavori umani AI contro lavori umani forza lavoro. Uno sguardo al ruolo dell'IA nella
Indice

Oggi ci appoggiamo tantissimo ai computer, sia per lavoro che per le cose personali. Questo affidamento è cresciuto insieme ai progressi nell'intelligenza artificiale, specialmente con l'arrivo dei modelli di linguaggio grandi (LLM). Questi sistemi AI sono diventati più intelligenti, permettendo loro di aiutare in una varietà di compiti che di solito richiedono l'intervento umano. Ma quanto sono bravi questi agenti AI a fare effettivamente compiti lavorativi? E possono farlo senza il nostro aiuto?

L'importanza dell'automazione dei compiti

Capire quanto bene gli agenti AI possono svolgere i compiti è fondamentale per le industrie che stanno considerando di adottare queste tecnologie. Mentre alcuni credono che l'AI presto sarà in grado di gestire la maggior parte dei lavori, altri sono scettici. Sostengono che l'incapacità dell'AI di pensare profondamente e ragionare significa che potrebbe avere solo un effetto limitato sul mercato del lavoro. Per fare chiarezza su questo argomento, i ricercatori hanno creato un Benchmark che valuta quanto efficacemente gli agenti AI possono gestire compiti nel mondo reale.

Il benchmark

Questo nuovo benchmark, progettato specificamente per gli agenti AI, funge da campo di prova per vedere quanto bene possono affrontare compiti simili a quelli che incontra un umano in un ambiente lavorativo. Simula una piccola azienda di sviluppo software, completa di siti web e dati che replicano un ambiente di lavoro reale. I compiti spaziano dalla codifica e gestione dei progetti alla navigazione sul web e comunicazione con i colleghi.

L'ambiente di lavoro

L'ambiente del benchmark è costruito per essere autonomo, il che significa che non dipende da software esterni e può essere facilmente riprodotto per test futuri. Questo garantisce che ogni scenario di test rimanga costante, permettendo confronti equi. I componenti chiave di questo ambiente includono:

  • Siti web interni che ospitano codice, documenti e strumenti di gestione
  • Colleghi simulati che interagiscono con l'AI per imitare conversazioni reali in ufficio

Tipi di compiti

I compiti svolti in questo benchmark sono variegati, coprendo diversi ruoli lavorativi in una azienda di ingegneria software. Hanno obiettivi chiari, permettendo agli agenti AI di mostrare le loro capacità in diverse situazioni. Ogni compito è suddiviso in checkpoint, che aiutano a misurare il successo e i progressi dell'agente.

I compiti sono progettati tenendo conto della loro rilevanza nel mondo reale. Vanno da compiti semplici che un normale sviluppatore software potrebbe incontrare a doveri di gestione progetti più complessi. Tuttavia, creare questi compiti richiede un notevole sforzo per garantire che riflettano le vere esigenze lavorative.

Metriche di performance

Per valutare quanto bene gli agenti AI performano, il benchmark utilizza diverse metriche. Queste metriche non solo valutano se un compito è stato completato, ma anche quanto bene l'agente ha affrontato le Sfide. Questo include esaminare il numero di passaggi che l'agente ha effettuato, l'accuratezza del suo lavoro e se ha comunicato efficacemente con i colleghi simulati.

Sperimentazione con gli agenti AI

Il benchmark testa vari modelli AI, inclusi sistemi open-source e proprietari. Questi modelli affrontano una serie di compiti che richiedono loro di interagire con diverse piattaforme e servizi, come applicazioni web e ambienti di codifica. L'obiettivo è capire quanto siano capaci questi modelli nel completare compiti che imitano scenari lavorativi reali.

Panoramica dei risultati

I risultati iniziali dai test sugli agenti AI rivelano alcune informazioni interessanti. Sebbene il modello con le migliori prestazioni sia riuscito a completare il 24% dei compiti, ha richiesto in media quasi 30 passaggi per farlo. Questo mostra che anche i migliori modelli AI hanno limiti quando si tratta di automatizzare compiti complessi.

Interessante notare che alcuni compiti che sembravano semplici per gli umani erano molto più complicati per gli agenti AI. Ad esempio, compiti che comportavano interazione sociale o navigazione in interfacce complesse rappresentavano sfide significative per l'AI. Questo ha evidenziato un divario tra le capacità umane e quelle degli attuali modelli AI.

Sfide affrontate dagli agenti AI

Durante gli esperimenti sono emerse alcune sfide comuni. Queste includevano:

  • Conoscenza di base: L'AI ha difficoltà con compiti che dipendono da senso comune o conoscenze specifiche del settore. Ad esempio, un'AI potrebbe fallire un compito semplicemente perché non è riuscita a inferire la necessità di un particolare formato di file.

  • Competenze sociali: La comunicazione è fondamentale in qualsiasi ambiente lavorativo. Gli agenti AI spesso non comprendono le sfumature delle interazioni sociali, portandoli a perdere opportunità di raccogliere informazioni necessarie.

  • Difficoltà di navigazione: Molti UIs web sono complessi, con elementi di distrazione che possono confondere gli agenti AI. Questo può ostacolare la loro capacità di completare compiti che dipendono da una navigazione efficace.

  • Carenza di creatività: I compiti che richiedono pensiero creativo o approcci innovativi sono ben oltre le attuali capacità dell'AI. Mentre gli esseri umani possono improvvisare di fronte all'ambiguità, l'AI spesso fatica a colmare le lacune.

Il futuro dell'AI nei luoghi di lavoro

Guardando al futuro, il benchmark mira a spianare la strada per valutazioni più complete delle performance dell'AI in compiti del mondo reale. Può aiutare i ricercatori a capire quali compiti sono adatti per l'automazione e dove l'AI deve migliorare. Questa conoscenza potrebbe guidare i futuri sviluppi nella tecnologia AI e la sua integrazione negli ambienti lavorativi.

Con l'evoluzione dell'AI, c'è ottimismo che diventerà più brava a gestire compiti complessi e a navigare nelle complessità della comunicazione umana. Con la ricerca e i miglioramenti continui, potremmo eventualmente vedere gli agenti AI assumere anche più responsabilità nella forza lavoro.

Conclusione

Gli agenti AI stanno facendo passi da gigante nell'automazione di compiti che tradizionalmente richiedevano sforzo umano, ma hanno ancora molta strada da fare. Il nuovo benchmark serve come strumento per misurare i loro progressi, rivelare i loro limiti e trovare aree di miglioramento. Man mano che andiamo avanti, capire come l'AI può assistere anziché sostituire i lavoratori umani è essenziale per plasmare il futuro del lavoro. E chissà? Magari un giorno, gli agenti AI gestiranno il tuo lavoro, lasciandoti a rilassarti e goderti un po' di meritato tempo libero.

Fonte originale

Titolo: TheAgentCompany: Benchmarking LLM Agents on Consequential Real World Tasks

Estratto: We interact with computers on an everyday basis, be it in everyday life or work, and many aspects of work can be done entirely with access to a computer and the Internet. At the same time, thanks to improvements in large language models (LLMs), there has also been a rapid development in AI agents that interact with and affect change in their surrounding environments. But how performant are AI agents at helping to accelerate or even autonomously perform work-related tasks? The answer to this question has important implications for both industry looking to adopt AI into their workflows, and for economic policy to understand the effects that adoption of AI may have on the labor market. To measure the progress of these LLM agents' performance on performing real-world professional tasks, in this paper, we introduce TheAgentCompany, an extensible benchmark for evaluating AI agents that interact with the world in similar ways to those of a digital worker: by browsing the Web, writing code, running programs, and communicating with other coworkers. We build a self-contained environment with internal web sites and data that mimics a small software company environment, and create a variety of tasks that may be performed by workers in such a company. We test baseline agents powered by both closed API-based and open-weights language models (LMs), and find that with the most competitive agent, 24% of the tasks can be completed autonomously. This paints a nuanced picture on task automation with LM agents -- in a setting simulating a real workplace, a good portion of simpler tasks could be solved autonomously, but more difficult long-horizon tasks are still beyond the reach of current systems.

Autori: Frank F. Xu, Yufan Song, Boxuan Li, Yuxuan Tang, Kritanjali Jain, Mengxue Bao, Zora Z. Wang, Xuhui Zhou, Zhitong Guo, Murong Cao, Mingyang Yang, Hao Yang Lu, Amaad Martin, Zhe Su, Leander Maben, Raj Mehta, Wayne Chi, Lawrence Jang, Yiqing Xie, Shuyan Zhou, Graham Neubig

Ultimo aggiornamento: 2024-12-18 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2412.14161

Fonte PDF: https://arxiv.org/pdf/2412.14161

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili