Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Ingeniería del software# Inteligencia artificial# Computación y lenguaje# Aprendizaje automático

Presentamos Ap pWorld: Una Nueva Plataforma de Pruebas para Agentes de IA

Ap pWorld simula tareas reales para agentes de IA en un entorno controlado.

― 8 minilectura


Ap pMundo: Probando laAp pMundo: Probando laEficiencia de la IAtareas complejas del mundo real.Evaluando agentes de IA a través de
Tabla de contenidos

En nuestra vida diaria, a menudo usamos varias aplicaciones para manejar tareas como pedir la compra, enviar mensajes y gestionar archivos. Para que las máquinas y programas de computadora, o agentes autónomos, nos ayuden con estas tareas de manera efectiva, necesitan hacer más que solo dar órdenes simples. Deben ser capaces de interactuar con diferentes aplicaciones y entender códigos complejos según lo que ven a su alrededor. Esto incluye manejar múltiples acciones y tomar decisiones basadas en diversas situaciones.

Sin embargo, muchas pruebas existentes para tales programas se centran solo en tareas simples. No desafían a los agentes a pensar más profundamente o a gestionar pasos complicados. Para abordar esto, creamos una nueva plataforma llamada Ap pWorld.

¿Qué es Ap pWorld?

Ap pWorld es un entorno controlado donde los programas pueden realizar tareas realistas usando diferentes aplicaciones. Este entorno incluye numerosas aplicaciones cotidianas, una variedad de herramientas y datos realistas que involucran a usuarios ficticios. Al diseñar un campo de pruebas desafiante, proporcionamos una mejor comprensión de qué tan bien los agentes autónomos pueden manejar tareas del mundo real que requieren codificación avanzada y pensamiento crítico.

Características de Ap pWorld

  1. Entorno de Ejecución Controlado: Ap pWorld actúa como un espacio seguro para que los agentes operen. Pueden interactuar con aplicaciones sin enfrentar riesgos del mundo real, como enviar correos no deseados o gastar dinero. Nuestra plataforma imita características de aplicaciones populares, permitiendo a los agentes acceder y usarlas a través de interfaces de programación controladas.

  2. Tareas Desafiantes: Creamos una serie de tareas que los agentes deben resolver. Estas tareas están diseñadas para ser complejas, requiriendo una mezcla de habilidades como razonamiento, planificación y codificación. Los agentes necesitarán combinar acciones de múltiples aplicaciones y enfrentar distracciones que pueden confundirlos.

  3. Evaluación Robusta: En lugar de solo comparar a los agentes con una solución perfecta, Ap pWorld tiene un método de evaluación sofisticado. Rastrean el estado de los datos antes y después de una tarea para determinar si el agente la completó con éxito sin causar errores.

Aplicaciones de Ap pWorld

Las crecientes capacidades de la IA muestran potencial para automatizar muchas tareas en nuestras vidas digitales. Por ejemplo, algo tan básico como pedir la compra implica varios pasos: revisar una lista, comunicarse con otros sobre sus necesidades y seleccionar los artículos correctos desde una aplicación. Automatizar tales tareas significa que el agente debe gestionar múltiples aplicaciones y tomar decisiones basadas en situaciones cambiantes.

Ejemplo de Tarea

Considera una tarea donde un agente tiene que poner música durante una sesión de entrenamiento. Primero, necesita revisar una nota que lista el plan de entrenamiento. El agente debe escribir un poco de código para leer esa nota, luego comprobar qué día es y, finalmente, averiguar cuánto tiempo se supone que durará el entrenamiento. Esto implica leer detalles de una nota, averiguar la duración de las canciones en las listas de reproducción y mantener el flujo de control para asegurarse de que se elija la lista de reproducción correcta.

Construyendo Ap pWorld

Para construir Ap pWorld, comenzamos desarrollando un marco de ejecución de alta calidad que incluye nueve aplicaciones cotidianas. Estas aplicaciones están diseñadas para representar herramientas reales que la mayoría de la gente usa, como sitios de compras, servicios de correo electrónico y sistemas de transferencia de dinero.

En Ap pWorld, los agentes interactúan con estas aplicaciones a través de un conjunto de 457 interfaces de programación de aplicaciones (APIs). El entorno está lleno de datos realistas basados en las acciones de 100 usuarios falsos que imitan interacciones de la vida real. Junto con eso, diseñamos un referente que presenta 750 tareas únicas. Estos desafíos requieren que los agentes generen código que pueda responder a diferentes indicaciones y situaciones inesperadas.

Creando Datos Realistas

Para simular la actividad real del usuario, creamos una base de datos que refleja cómo las personas usan aplicaciones en sus rutinas diarias. Esto involucró programar escenarios comunes, como dividir cuentas entre amigos o planificar actividades grupales. Los datos están estructurados para reflejar relaciones diversas, como compañeros de cuarto o colegas, lo que añade complejidad adicional a las tareas.

Diseño de Tareas

Cada tarea en Ap pWorld está construida en torno a escenarios comunes. Por ejemplo, una tarea puede involucrar pedir una compra reciente considerando preferencias de color. Cada una de estas tareas está diseñada para incluir elementos que obliguen al agente a pensar en diferentes caminos o resultados, requiriendo que se adapten según nueva información.

Evaluando el Rendimiento

Para evaluar qué tan bien los agentes realizan estas tareas, desarrollamos un sistema de evaluación programático. En lugar de simplemente comparar lo que el agente hizo con una solución correcta, observamos el estado final de la base de datos después de que se intenta la tarea. Verificamos los cambios esperados, así como cualquier consecuencia no intencionada que pueda surgir durante la ejecución de la tarea. Esto ayuda a asegurar que los modelos puedan completar tareas de diversas maneras válidas y aún lograr el resultado deseado.

Evaluación de Agentes

Después de construir Ap pWorld, pusimos a prueba varios modelos de inteligencia artificial para medir su rendimiento. Estos modelos se evaluaron utilizando los desafíos diseñados para Ap pWorld, enfocándose en qué tan efectivamente podrían navegar tareas que requieren codificación interactiva y uso de API.

Métricas de Rendimiento

Los modelos se evaluaron en función de dos métricas principales:

  • Finalización del Objetivo de Tarea (TGC): Esto nos dice el porcentaje de tareas individuales que el agente pudo completar con éxito.
  • Finalización del Objetivo del Escenario (SGC): Esto mide el porcentaje de escenarios de tareas completas que se resolvieron con éxito en general.

Los resultados mostraron que incluso los mejores modelos de IA tuvieron dificultades con las tareas que creamos, completando solo alrededor de la mitad de las tareas más simples y significativamente menos de los desafíos más complejos. Esto indica que las tareas en Ap pWorld son, de hecho, desafiantes y exigen niveles más altos de razonamiento e interacción.

Desafíos Comunes Enfrentados por los Modelos

Durante la evaluación, observamos errores típicos cometidos por los modelos:

  • Fallo en la Interacción: A veces, los agentes adivinaban respuestas sin realmente revisar el entorno o los datos, lo que llevaba a resultados incorrectos.
  • Malentendido del Uso de API: Los agentes usaban APIs correctas pero con parámetros erróneos o suposiciones incorrectas sobre lo que estaba disponible.
  • No Seguir Instrucciones Completamente: En algunos casos, los agentes seguían las instrucciones pero se perdían detalles clave, lo que llevaba a tareas incompletas o errores.

Direcciones Futuras

De cara al futuro, Ap pWorld abre numerosas vías para más investigación en IA y diseño de agentes autónomos. La plataforma puede modificarse para incluir tareas más complejas, interfase con tipos de aplicaciones adicionales, o incluso habilitar la coordinación entre múltiples agentes para tareas colaborativas.

Expandiendo el Entorno

Un enfoque es mejorar Ap pWorld añadiendo capacidades de interfaz de usuario (UI), donde los agentes puedan interactuar directamente con las aplicaciones en lugar de depender únicamente de APIs. Esto puede reflejar cómo los humanos se relacionan con la tecnología en situaciones del mundo real.

Escenarios de Múltiples Agentes

Además, explorar escenarios que involucren más de un agente puede llevar a experimentos interesantes. Por ejemplo, diferentes agentes podrían trabajar juntos para programar una reunión, gestionar recursos compartidos o resolver problemas que requieren trabajo en equipo.

Asegurando Calidad y Seguridad

A medida que evoluciona la tecnología de IA, asegurar que estos agentes trabajen de manera responsable es crucial. Ap pWorld proporciona un entorno seguro para probar y evaluar cómo se comportan los agentes antes de desplegarlos en situaciones de la vida real.

Conclusión

Ap pWorld representa un avance significativo en la evaluación y referencia de agentes de IA para tareas diarias. Al crear un entorno realista lleno de desafíos atractivos, podemos entender mejor las capacidades y límites de los agentes autónomos. Esto puede ayudarnos a mejorar su diseño y funcionalidad, acercándonos a un futuro donde la IA pueda asistir de manera fluida en nuestras vidas digitales.

Fuente original

Título: AppWorld: A Controllable World of Apps and People for Benchmarking Interactive Coding Agents

Resumen: Autonomous agents that address day-to-day digital tasks (e.g., ordering groceries for a household), must not only operate multiple apps (e.g., notes, messaging, shopping app) via APIs, but also generate rich code with complex control flow in an iterative manner based on their interaction with the environment. However, existing benchmarks for tool use are inadequate, as they only cover tasks that require a simple sequence of API calls. To remedy this gap, we built $\textbf{AppWorld Engine}$, a high-quality execution environment (60K lines of code) of 9 day-to-day apps operable via 457 APIs and populated with realistic digital activities simulating the lives of ~100 fictitious users. We then created $\textbf{AppWorld Benchmark}$ (40K lines of code), a suite of 750 natural, diverse, and challenging autonomous agent tasks requiring rich and interactive code generation. It supports robust programmatic evaluation with state-based unit tests, allowing for different ways of completing a task while also checking for unexpected changes, i.e., collateral damage. The state-of-the-art LLM, GPT-4o, solves only ~49% of our 'normal' tasks and ~30% of 'challenge' tasks, while other models solve at least 16% fewer. This highlights the benchmark's difficulty and AppWorld's potential to push the frontiers of interactive coding agents. The project website is available at https://appworld.dev/.

Autores: Harsh Trivedi, Tushar Khot, Mareike Hartmann, Ruskin Manku, Vinty Dong, Edward Li, Shashank Gupta, Ashish Sabharwal, Niranjan Balasubramanian

Última actualización: 2024-07-26 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2407.18901

Fuente PDF: https://arxiv.org/pdf/2407.18901

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares