Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática # Computación y lenguaje

Agentes de IA: ¿Pueden reemplazar a los humanos en el trabajo?

Examinando las capacidades y limitaciones de los agentes de IA en la automatización de tareas.

Frank F. Xu, Yufan Song, Boxuan Li, Yuxuan Tang, Kritanjali Jain, Mengxue Bao, Zora Z. Wang, Xuhui Zhou, Zhitong Guo, Murong Cao, Mingyang Yang, Hao Yang Lu, Amaad Martin, Zhe Su, Leander Maben, Raj Mehta, Wayne Chi, Lawrence Jang, Yiqing Xie, Shuyan Zhou, Graham Neubig

― 6 minilectura


IA vs Trabajos Humanos IA vs Trabajos Humanos fuerza laboral. Una mirada al papel de la IA en la
Tabla de contenidos

En el mundo de hoy, dependemos mucho de las computadoras, ya sea para trabajar o para tareas personales. Esta dependencia ha crecido junto con los avances en inteligencia artificial, especialmente con la llegada de los grandes modelos de lenguaje (LLMs). Estos sistemas de IA se han vuelto más inteligentes, permitiéndoles ayudar en una variedad de tareas que normalmente requieren intervención humana. Pero, ¿qué tan buenos son estos agentes de IA para realizar tareas relacionadas con el trabajo? ¿Y pueden hacer esto sin nuestra ayuda?

La importancia de la automatización de tareas

Entender qué tan bien pueden realizar tareas los agentes de IA es crucial para las industrias que están considerando adoptar estas tecnologías. Mientras que algunas personas creen que la IA pronto podrá manejar la mayoría de los trabajos, otros son escépticos. Argumentan que la incapacidad de la IA para pensar profundamente y razonar significa que podría tener un impacto limitado en el mercado laboral. Para aclarar este tema, los investigadores han creado un estándar que evalúa cuán efectivamente los agentes de IA pueden manejar tareas del mundo real.

El estándar

Este nuevo estándar, diseñado específicamente para agentes de IA, actúa como un campo de pruebas para ver qué tan bien pueden navegar tareas similares a las que enfrentan los humanos en un lugar de trabajo. Simula una pequeña empresa de desarrollo de software, con sitios web y datos que replican un ambiente laboral real. Las tareas van desde codificación y gestión de proyectos hasta navegar por la web y comunicarse con colegas.

Entorno de tareas

El entorno del estándar está construido para ser autosuficiente, lo que significa que no depende de software externo y se puede reproducir fácilmente para futuras pruebas. Esto asegura que cada escenario de prueba se mantenga constante, permitiendo comparaciones justas. Los componentes clave de este entorno incluyen:

  • Sitios web internos que alojan código, documentos y herramientas de gestión
  • Colegas simulados que interactúan con la IA para imitar conversaciones laborales reales

Tipos de Tareas

Las tareas realizadas dentro de este estándar son diversas, cubriendo varios roles laborales en una empresa de ingeniería de software. Tienen objetivos claros, permitiendo que los agentes de IA muestren sus capacidades en diferentes escenarios. Cada tarea se divide en puntos de control, que ayudan a medir el éxito y progreso del agente.

Las tareas están diseñadas teniendo en cuenta la relevancia en el mundo real. Van desde tareas sencillas que un desarrollador de software típico encontraría hasta deberes más complejos de gestión de proyectos. Sin embargo, crear estas tareas implica un esfuerzo considerable para asegurar que reflejen las demandas genuinas del lugar de trabajo.

Métricas de Rendimiento

Para evaluar qué tan bien se desempeñan los agentes de IA, el estándar utiliza varias métricas. Estas métricas no solo evalúan si se completó una tarea, sino también qué tan bien el agente navegó a través de los Desafíos. Esto incluye observar el número de pasos que tomó el agente, la precisión de su trabajo y si se comunicó efectivamente con los colegas simulados.

Experimentación con agentes de IA

El estándar prueba varios modelos de IA, incluyendo sistemas de código abierto y propietarios. Estos modelos enfrentan una serie de tareas que requieren que interactúen con diferentes plataformas y servicios, como aplicaciones basadas en la web y entornos de codificación. El objetivo es entender qué tan capaces son estos modelos al completar tareas que imitan escenarios laborales reales.

Resumen de los resultados

Los resultados iniciales de las pruebas con los agentes de IA revelan algunas ideas interesantes. Mientras que el modelo mejor clasificado logró completar el 24% de las tareas, requirió un promedio de casi 30 pasos para hacerlo. Esto muestra que incluso los mejores modelos de IA tienen limitaciones cuando se trata de automatizar tareas complejas.

Curiosamente, algunas tareas que parecían simples para los humanos resultaron ser mucho más difíciles para los agentes de IA. Por ejemplo, tareas que implicaban interacción social o navegar por interfaces complejas supusieron grandes desafíos para la IA. Esto destacó una brecha entre las capacidades humanas y las de los modelos actuales de IA.

Desafíos enfrentados por los agentes de IA

A lo largo de los experimentos, surgieron ciertos desafíos comunes. Estos incluyeron:

  • Conocimiento de sentido común: La IA tiene problemas con tareas que dependen de sentido común básico o conocimiento específico del dominio. Por ejemplo, una IA podría fallar en una tarea simplemente porque no pudo inferir la necesidad de un formato de archivo particular.

  • Habilidades sociales: La comunicación es clave en cualquier lugar de trabajo. Los agentes de IA a menudo no logran captar las sutilezas de las interacciones sociales, lo que les lleva a perder oportunidades para recopilar información necesaria.

  • Dificultades de navegación: Muchas interfaces web son complejas, con elementos distractores que pueden confundir a los agentes de IA. Esto puede obstaculizar su capacidad para completar tareas que dependen de una navegación efectiva.

  • Déficits de creatividad: Las tareas que requieren pensamiento innovador o enfoques creativos están muy por encima de las capacidades actuales de la IA. Mientras que los humanos pueden improvisar cuando se enfrentan a la ambigüedad, la IA a menudo lucha por llenar los vacíos.

El futuro de la IA en los lugares de trabajo

Mirando hacia adelante, el estándar tiene como objetivo allanar el camino para evaluaciones más completas del rendimiento de la IA en tareas del mundo real. Puede ayudar a los investigadores a entender qué tareas son adecuadas para la automatización y dónde debe mejorar la IA. Este conocimiento podría guiar futuros desarrollos en tecnología de IA y su integración en entornos laborales.

A medida que la IA continúa evolucionando, hay optimismo en que se volverá más capaz de manejar tareas complejas y navegar por las complejidades de la comunicación humana. Con investigación y mejoras continuas, eventualmente podríamos ver a los agentes de IA asumir aún más responsabilidades en la fuerza laboral.

Conclusión

Los agentes de IA están avanzando en la automatización de tareas que tradicionalmente requerían esfuerzo humano, pero todavía les queda un largo camino por recorrer. El nuevo estándar desarrollado sirve como una herramienta para medir su progreso, revelar sus limitaciones y encontrar áreas de mejora. A medida que avanzamos, entender cómo la IA puede ayudar en lugar de reemplazar a los trabajadores humanos es esencial para dar forma al futuro del trabajo. Y, ¿quién sabe? Tal vez algún día, los agentes de IA manejen tu trabajo, dejándote relajarte y disfrutar de un merecido tiempo libre.

Fuente original

Título: TheAgentCompany: Benchmarking LLM Agents on Consequential Real World Tasks

Resumen: We interact with computers on an everyday basis, be it in everyday life or work, and many aspects of work can be done entirely with access to a computer and the Internet. At the same time, thanks to improvements in large language models (LLMs), there has also been a rapid development in AI agents that interact with and affect change in their surrounding environments. But how performant are AI agents at helping to accelerate or even autonomously perform work-related tasks? The answer to this question has important implications for both industry looking to adopt AI into their workflows, and for economic policy to understand the effects that adoption of AI may have on the labor market. To measure the progress of these LLM agents' performance on performing real-world professional tasks, in this paper, we introduce TheAgentCompany, an extensible benchmark for evaluating AI agents that interact with the world in similar ways to those of a digital worker: by browsing the Web, writing code, running programs, and communicating with other coworkers. We build a self-contained environment with internal web sites and data that mimics a small software company environment, and create a variety of tasks that may be performed by workers in such a company. We test baseline agents powered by both closed API-based and open-weights language models (LMs), and find that with the most competitive agent, 24% of the tasks can be completed autonomously. This paints a nuanced picture on task automation with LM agents -- in a setting simulating a real workplace, a good portion of simpler tasks could be solved autonomously, but more difficult long-horizon tasks are still beyond the reach of current systems.

Autores: Frank F. Xu, Yufan Song, Boxuan Li, Yuxuan Tang, Kritanjali Jain, Mengxue Bao, Zora Z. Wang, Xuhui Zhou, Zhitong Guo, Murong Cao, Mingyang Yang, Hao Yang Lu, Amaad Martin, Zhe Su, Leander Maben, Raj Mehta, Wayne Chi, Lawrence Jang, Yiqing Xie, Shuyan Zhou, Graham Neubig

Última actualización: 2024-12-18 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2412.14161

Fuente PDF: https://arxiv.org/pdf/2412.14161

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares