Agentes de IA: Eles Podem Substituir Humanos no Trabalho?
Analisando as capacidades e limitações de agentes de IA na automação de tarefas.
― 6 min ler
Índice
No mundo de hoje, a gente depende muito de computadores, tanto pra trabalho quanto pra tarefas pessoais. Essa dependência cresceu junto com os avanços em inteligência artificial, especialmente com a chegada dos modelos de linguagem grandes (LLMs). Esses sistemas de IA ficaram mais espertos, permitindo que eles ajudem em várias tarefas que normalmente precisam da intervenção humana. Mas quão bons esses agentes de IA são realmente em realizar tarefas de trabalho? E será que conseguem fazer isso sem a nossa ajuda?
A Importância da Automação de Tarefas
Entender como os agentes de IA conseguem realizar tarefas é fundamental pra indústrias que estão pensando em adotar essas tecnologias. Enquanto algumas pessoas acreditam que a IA logo vai conseguir lidar com a maioria dos empregos, outros são céticos. Eles argumentam que a incapacidade da IA de pensar profundamente e raciocinar pode significar que seu impacto no mercado de trabalho é limitado. Pra esclarecer isso, pesquisadores criaram um benchmark que avalia quão efetivamente os agentes de IA conseguem lidar com tarefas do mundo real.
O Benchmark
Esse novo benchmark, feito especialmente pra agentes de IA, funciona como um campo de testes pra ver quão bem eles conseguem navegar em tarefas parecidas com as que os humanos enfrentam no trabalho. Ele simula uma pequena empresa de desenvolvimento de software, com sites e dados que replicam um ambiente de trabalho real. As tarefas vão desde codificação e gerenciamento de projetos até navegação na web e comunicação com colegas.
Ambiente de Tarefa
O ambiente do benchmark é feito pra ser autossuficiente, ou seja, não depende de software externo e pode ser reproduzido facilmente pra futuros testes. Isso garante que cada cenário de teste permaneça constante, permitindo comparações justas. Componentes principais desse ambiente incluem:
- Sites internos que hospedam código, documentos e ferramentas de gerenciamento
- Colegas simulados que interagem com a IA pra imitar conversas reais no trabalho
Tipos de Tarefas
As tarefas realizadas dentro desse benchmark são diversas, cobrindo várias funções em uma empresa de engenharia de software. Elas têm objetivos claros, permitindo que os agentes de IA mostrem suas capacidades em diferentes cenários. Cada tarefa é dividida em checkpoints, que ajudam a medir o sucesso e o progresso do agente.
As tarefas são feitas com relevância do mundo real em mente. Elas vão de tarefas simples que um desenvolvedor de software típico encontraria até funções mais complexas de gerenciamento de projetos. Porém, criar essas tarefas envolve um esforço considerável pra garantir que elas reflitam as demandas genuínas do ambiente de trabalho.
Métricas de Desempenho
Pra avaliar quão bem os agentes de IA se saem, o benchmark usa várias métricas. Essas métricas não só avaliam se uma tarefa foi completada, mas também quão bem o agente navegou pelos Desafios. Isso inclui olhar pro número de passos que o agente tomou, a precisão do seu trabalho e se ele se comunicou efetivamente com colegas simulados.
Experimentando com Agentes de IA
O benchmark testa vários modelos de IA, incluindo tanto sistemas de código aberto quanto proprietários. Esses modelos enfrentam uma série de tarefas que exigem que eles interajam com diferentes plataformas e serviços, como aplicativos baseados na web e ambientes de codificação. O objetivo é entender quão capazes esses modelos são quando se trata de completar tarefas que imitam cenários de trabalho da vida real.
Visão Geral dos Resultados
Os resultados iniciais dos testes com os agentes de IA revelam algumas informações interessantes. Enquanto o modelo de melhor desempenho conseguiu completar 24% das tarefas, ele precisou de uma média de quase 30 passos pra isso. Isso mostra que até os melhores modelos de IA têm limitações quando se trata de automatizar tarefas complexas.
Curiosamente, algumas tarefas que pareciam simples pra humanos foram muito mais complicadas pros agentes de IA. Por exemplo, tarefas que envolviam interação social ou navegação em interfaces complexas representaram desafios significativos pra IA. Isso destacou uma diferença entre as capacidades humanas e as dos modelos de IA atuais.
Desafios Enfrentados pelos Agentes de IA
Durante os experimentos, alguns desafios comuns apareceram. Esses incluíram:
Conhecimento do senso comum: A IA tem dificuldade com tarefas que dependem de senso comum básico ou conhecimento específico de domínio. Por exemplo, uma IA pode falhar numa tarefa simplesmente porque não conseguiu inferir a necessidade de um formato de arquivo específico.
Habilidades sociais: Comunicação é fundamental em qualquer ambiente de trabalho. Agentes de IA muitas vezes não conseguem entender as sutilezas das interações sociais, o que os leva a perder oportunidades de coletar informações necessárias.
Dificuldades de navegação: Muitas interfaces web são complexas, com elementos distraindo que podem confundir os agentes de IA. Isso pode prejudicar sua habilidade de completar tarefas que dependem de uma navegação eficaz.
Déficits de criatividade: Tarefas que exigem pensamento criativo ou abordagens fora da caixa estão muito além das capacidades atuais da IA. Enquanto os humanos podem improvisar quando enfrentam ambiguidade, a IA muitas vezes tem dificuldade em preencher as lacunas.
O Futuro da IA nos Trabalhos
Olhando pra frente, o benchmark pretende abrir caminho pra avaliações mais abrangentes do desempenho da IA em tarefas do mundo real. Ele pode ajudar pesquisadores a entender quais tarefas são adequadas pra automação e onde a IA precisa melhorar. Esse conhecimento pode guiar os futuros desenvolvimentos na tecnologia de IA e sua integração nos ambientes de trabalho.
Conforme a IA continua a evoluir, há otimismo de que ela se torne mais capaz de lidar com tarefas complexas e entender as sutilezas da comunicação humana. Com a pesquisa e melhorias contínuas, talvez um dia vejamos agentes de IA assumirem ainda mais responsabilidades na força de trabalho.
Conclusão
Os agentes de IA estão avançando na automação de tarefas que tradicionalmente precisavam do esforço humano, mas ainda têm um longo caminho pela frente. O novo benchmark serve como uma ferramenta pra medir seu progresso, revelar suas limitações e encontrar áreas pra melhorar. À medida que avançamos, entender como a IA pode ajudar em vez de substituir os trabalhadores humanos é essencial pra moldar o futuro do trabalho. E quem sabe? Talvez um dia, os agentes de IA cuidem do seu trabalho, deixando você pra relaxar e aproveitar um tempo de lazer merecido.
Título: TheAgentCompany: Benchmarking LLM Agents on Consequential Real World Tasks
Resumo: We interact with computers on an everyday basis, be it in everyday life or work, and many aspects of work can be done entirely with access to a computer and the Internet. At the same time, thanks to improvements in large language models (LLMs), there has also been a rapid development in AI agents that interact with and affect change in their surrounding environments. But how performant are AI agents at helping to accelerate or even autonomously perform work-related tasks? The answer to this question has important implications for both industry looking to adopt AI into their workflows, and for economic policy to understand the effects that adoption of AI may have on the labor market. To measure the progress of these LLM agents' performance on performing real-world professional tasks, in this paper, we introduce TheAgentCompany, an extensible benchmark for evaluating AI agents that interact with the world in similar ways to those of a digital worker: by browsing the Web, writing code, running programs, and communicating with other coworkers. We build a self-contained environment with internal web sites and data that mimics a small software company environment, and create a variety of tasks that may be performed by workers in such a company. We test baseline agents powered by both closed API-based and open-weights language models (LMs), and find that with the most competitive agent, 24% of the tasks can be completed autonomously. This paints a nuanced picture on task automation with LM agents -- in a setting simulating a real workplace, a good portion of simpler tasks could be solved autonomously, but more difficult long-horizon tasks are still beyond the reach of current systems.
Autores: Frank F. Xu, Yufan Song, Boxuan Li, Yuxuan Tang, Kritanjali Jain, Mengxue Bao, Zora Z. Wang, Xuhui Zhou, Zhitong Guo, Murong Cao, Mingyang Yang, Hao Yang Lu, Amaad Martin, Zhe Su, Leander Maben, Raj Mehta, Wayne Chi, Lawrence Jang, Yiqing Xie, Shuyan Zhou, Graham Neubig
Última atualização: 2024-12-18 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2412.14161
Fonte PDF: https://arxiv.org/pdf/2412.14161
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://github.com/OpenDevin/OpenDevin/graphs/contributors
- https://github.com/OpenDevin/OpenDevin/stargazers
- https://neurips.cc/Conferences/2024/PaperInformation/FundingDisclosure
- https://github.com/goodfeli/dlbook_notation
- https://the-agent-company.com
- https://github.com/TheAgentCompany/TheAgentCompany
- https://github.com/TheAgentCompany/experiments
- https://github.com/All-Hands-AI/OpenHands
- https://docs.all-hands.dev/modules/usage/how-to/custom-sandbox-guide
- https://about.gitlab.com/install/
- https://doc.owncloud.com/
- https://github.com/makeplane/plane
- https://www.rocket.chat/install
- https://the-agent-company.com:8929/root/janusgraph
- https://the-agent-company.com:8092
- https://the-agent-company.com:3000/home
- https://the-agent-company.com:8091/tac/
- https://github.com/All-Hands-AI/OpenHands/tree/main/openhands/agenthub/codeact_agent
- https://github.com/ServiceNow/BrowserGym/blob/main/browsergym/core/src/browsergym/core/action/functions.py
- https://ctan.org/pkg/amssymb
- https://ctan.org/pkg/pifont