Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática # Computación y lenguaje

Evaluando Agentes Interactivos Dirigidos por Objetivos

Una encuesta sobre tareas diseñadas para evaluar agentes interactivos y sus capacidades.

Mareike Hartmann, Alexander Koller

― 13 minilectura


Evaluación de Tareas para Evaluación de Tareas para Agentes Interactivos evaluar el rendimiento de los agentes. Revisando las tareas actuales para
Tabla de contenidos

Los Agentes interactivos enfocados en objetivos son programas de computadora diseñados para completar Tareas interactuando con su entorno. Pueden ayudar a las personas en muchas áreas de la vida diaria. Recientemente, los avances en modelos de lenguaje grandes (LLMs) han llevado a la creación de nuevas tareas más desafiantes para evaluar qué tan bien se desempeñan estos agentes. Para entender cómo difieren estas tareas, es importante identificar los desafíos que presentan. Esta encuesta recopila diversas tareas y Entornos para evaluar a estos agentes, organizándolos de una manera que resalte las dificultades actuales.

Los ejemplos de tareas de agentes muestran una amplia gama de instrucciones, situaciones y posibles acciones. La investigación reciente en LLMs y el uso de herramientas está cambiando la forma en que las personas interactúan con las computadoras. Antes, los usuarios tenían que darle comandos específicos a las computadoras uno a la vez. El objetivo ahora es permitir que las computadoras tomen instrucciones de alto nivel y las desglosen en acciones que se puedan ejecutar automáticamente. Ha habido un desarrollo rápido en agentes que pueden abordar estas tareas mejorando cómo los LLMs razonan, descomponen problemas y deciden qué herramientas o acciones usar.

Al mismo tiempo, ha habido una investigación significativa en la creación de tareas para evaluar a estos agentes. Estas tareas pueden incluir la gestión de conversaciones por correo electrónico, responder preguntas complejas, compras en línea y completar tareas en situaciones de la vida real. La creciente variedad y dificultad de estas tareas ayuda a aclarar qué pueden y no pueden hacer los agentes, lo que a su vez estimula el diseño de agentes más capaces.

Sin embargo, se está volviendo más difícil rastrear estas tareas, interpretar resultados experimentales y entender los desafíos únicos que presenta cada tarea. Esta encuesta tiene como objetivo proporcionar una visión clara de las tareas actuales para agentes interactivos enfocados en objetivos, complementando la investigación existente sobre diseños de agentes para estas tareas. También planeamos mantener esta encuesta actualizada en un sitio web donde los desarrolladores de tareas puedan contribuir.

Las tareas se agrupan según varios factores. Diferentes entornos, como espacios físicos simulados, sitios web y bases de datos, pueden tener espacios de acción que difieren significativamente. Por ejemplo, las acciones podrían implicar moverse en un espacio físico, usar un mouse y teclado, seleccionar elementos en una página web o ingresar comandos en SQL.

Las tareas también varían en cuán observable es el entorno, la estructura de recompensas y métricas de evaluación. Estos factores influyen en gran medida en cómo deben ser diseñados los agentes, y esta encuesta está destinada a ayudar en el desarrollo futuro de agentes.

Para definir el alcance de esta encuesta, nos enfocamos en tareas para agentes interactivos enfocados en objetivos. "Enfocados en objetivos" significa que los agentes reciben instrucciones específicas (como comandos en lenguaje natural o preguntas) de las que pueden derivar condiciones de objetivo. Por ejemplo, en ajedrez, la instrucción "Dame jaque mate al rey" da objetivos claros, mientras que "Gana el juego" es vago. Por lo tanto, no incluiremos tareas que definan objetivos solo a través de funciones de recompensa.

Enfatizamos tareas desafiantes que requieren que los agentes traduzcan un objetivo en una secuencia de acciones, en lugar de tareas con instrucciones simples paso a paso. Además, restringimos nuestro enfoque a tareas que pueden ser resueltas por un solo agente autónomo sin necesidad de intervención humana, aunque discutiremos tareas que involucren interacción humana o colaboración entre múltiples agentes.

Ya existen varias encuestas sobre agentes basados en LLM, proporcionando descripciones detalladas de modelos de un solo agente, centrándose en sus estructuras, aplicaciones y componentes de memoria. Otras encuestas cubren modelos fundamentales multimodales y las interacciones entre múltiples agentes que a menudo se ven en juegos. Estos trabajos anteriores se centran principalmente en el modelado y aplicaciones generales, mientras que nuestra encuesta enfatiza tareas y entornos específicos para agentes.

En las siguientes secciones, presentamos un conjunto de tareas de agentes que ilustran varias características. Una lista completa de los trabajos encuestados se puede encontrar en nuestro sitio web del proyecto.

Ejemplos de Tareas de Agentes

Introducimos diversas tareas de agentes para mostrar diferentes características de las tareas. La lista completa está disponible en nuestro sitio web del proyecto.

Navegación y Manipulación de Objetos en Simulaciones

Un grupo de tareas implica agentes navegando e interactuando con objetos físicos en entornos simulados. Estas simulaciones pueden describirse de manera visual o textual. Un tipo de tarea requiere que los agentes organicen objetos por su forma y color en relaciones espaciales específicas. Otra tarea se centra en navegar por una cuadrícula para recolectar elementos, como llaves necesarias para pasar por las puertas.

En algunas tareas, los agentes operan en un entorno de juego basado en bloques como Minecraft, lo que les permite reunir recursos, crear objetos y construir estructuras. Otras tareas tienen lugar en entornos foto-realistas como AI2-Thor, donde los agentes completan tareas comunes del hogar, como lavar frutas. Algunas tareas requieren navegar por entornos para responder preguntas sobre habitaciones y objetos.

Mundos Basados en Texto

En entornos basados en texto, los agentes realizan acciones basadas en descripciones escritas. Una tarea imita juegos tradicionales donde el entorno se describe en texto. Otra tarea requiere que los agentes realicen experimentos científicos dentro de simulaciones realistas de varios procesos. Algunas tareas basadas en juegos de texto clásicos permiten a los agentes explorar opciones sin especificaciones de objetivos explícitas.

Tareas de Asistencia Digital

Los agentes también funcionan en entornos digitales, ayudando a los usuarios con tareas cotidianas como reservar viajes, enviar correos electrónicos, analizar datos y editar imágenes. Las tareas recientes se enfocan en dominios especializados, como descubrir nuevos productos químicos o solucionar problemas de software.

Interacción con Herramientas y APIs

Otro tipo de tarea implica que los agentes resuelvan problemas utilizando software a través de Interfaces de Programación de Aplicaciones (APIs), también conocidas como herramientas. Aquí, los espacios de acción se alinean con llamadas de herramientas válidas. Por ejemplo, los agentes pueden realizar búsquedas en Wikipedia o ejecutar cálculos numéricos utilizando un intérprete de código Python.

Interacción con Interfaces Gráficas de Usuario (GUIs)

Los asistentes digitales pueden interactuar directamente con interfaces gráficas de usuario diseñadas para usuarios típicos. Las acciones pueden incluir hacer clic o ingresar texto, mientras que las observaciones corresponden al estado actual de la GUI, como capturas de pantalla. Algunas tareas requieren que los agentes naveguen por sitios web basados en sus representaciones HTML, mientras que otras se centran en aplicaciones móviles y de escritorio.

Interacción con Intérpretes de Código

Los agentes también pueden interactuar con intérpretes de código para ejecutar programas. El Espacio de Acción consiste en declaraciones válidas en un lenguaje de programación, incluidas interacciones con bibliotecas externas. Algunas tareas requieren que los agentes naveguen por una GUI a través de un intérprete de Python o gestionen consultas de bases de datos.

Estructuración del Paisaje de Tareas

Proporcionamos una descripción detallada y comparación de las diferentes características de tareas complejas para evaluar el rendimiento de los agentes. Comprender estas características ayuda a identificar las dificultades que enfrentan los agentes.

Formalización de Tareas

El objetivo de un agente es decidir una serie de acciones para lograr un objetivo en un entorno específico. Los agentes operan en pasos de tiempo discretos, tomando acciones y observando los efectos en el entorno. Definimos una instancia de tarea como un tipo de problema de toma de decisiones que incluye un estado inicial y una especificación de objetivo. El agente tiene un conjunto de acciones para elegir, y su objetivo es transitar de un estado a otro mientras cumple ciertas condiciones.

Especificación de Objetivos

La especificación de objetivos informa a los agentes sobre cuándo una tarea está completa. Esta especificación puede tomar varias formas, que van desde descripciones directas de cómo debería ser el estado objetivo hasta instrucciones menos explícitas que el agente debe interpretar. Las tareas con especificaciones vagas tienden a ser más difíciles porque el agente necesita reunir más información para proceder.

Tipos de Objetivos

Las tareas difieren según el tipo de objetivo que buscan lograr: ya sea alcanzar un estado específico en el entorno o responder una pregunta. El objetivo de alcanzar un estado específico significa que se puede evaluar a los agentes por si satisfacen ciertos criterios. El objetivo de responder preguntas implica que los agentes deben decidir proporcionar una respuesta final según su comprensión del contexto.

Criterios de Detención

En muchas tareas, los agentes necesitan realizar una acción específica para señalar que han cumplido el objetivo. Algunos entornos reconocen automáticamente cuándo se alcanza un objetivo, simplificando el proceso para los agentes.

Estados del Mundo y el Conocimiento

Algunas tareas requieren que los agentes modifiquen el entorno para cumplir con las condiciones del objetivo, mientras que otras se enfocan en recuperar o convertir información sin realizar cambios. Esta distinción es significativa, ya que refleja el tipo de razonamiento requerido por el agente.

Espacios de Acción

Los espacios de acción para las tareas pueden ser simples o complejos, dependiendo de cuántas acciones posibles un agente puede tomar en cualquier momento. Algunas tareas requieren lidiar con espacios de acción pequeños, mientras que otras involucran espacios complejos que crecen combinatoriamente con el vocabulario o tipos de entradas disponibles.

Observabilidad del Estado

Un estado es totalmente observable si el agente puede ver toda la información relevante perfectamente. En contraste, algunos escenarios requieren que los agentes realicen acciones para obtener información adicional. La observabilidad completa es rara en situaciones prácticas y generalmente solo existe en tareas simplificadas.

Observación de los Efectos de la Ejecución de Acciones

Cuando un agente toma acción, deben observarse los efectos en el estado del entorno. Los agentes a menudo reciben retroalimentación que les informa sobre lo que cambió debido a sus acciones, guiando decisiones futuras.

Observación de Retroalimentación sobre Acciones No Admitidas

A veces, los agentes pueden tomar acciones que no pueden ejecutarse debido al estado actual; entender la retroalimentación sobre tales acciones es crucial para la mejora.

Observación de Recompensas Intermedias

Algunas tareas brindan retroalimentación en cada paso, permitiendo a los agentes saber si están avanzando hacia sus objetivos. Esta retroalimentación puede ser establecida manualmente o generada automáticamente según métricas.

Evaluación de Tareas

Evaluar tareas determina si un agente completó con éxito un objetivo especificado. La mayoría de las tareas en esta encuesta definen condiciones que se pueden medir objetivamente para evaluar el éxito, como comparar los estados logrados con los estados de referencia o respuestas.

Evaluación Basada en Referencias de Respuestas Finales

Muchas tareas de respuesta a preguntas comparan respuestas predichas con respuestas correctas, utilizando métodos como coincidencia exacta o difusa. En tareas creativas, donde las respuestas pueden variar significativamente, la evaluación basada en referencias se vuelve más desafiante.

Evaluación Basada en Referencias de Estados Finales

Las tareas que definen estados objetivo pueden evaluarse al evaluar el estado final del agente contra los objetivos especificados. Esta evaluación puede considerar la finalización parcial o el grado en que se cumplen las restricciones.

Evaluación Libre de Referencias

Los métodos de evaluación libre de referencias no dependen de respuestas correctas preestablecidas. En su lugar, evaluadores humanos u otros modelos comparan la calidad de los resultados generados. La fiabilidad de los LLMs en este contexto aún está en examen.

Propiedades Generales del Entorno

Los indicadores de dificultad en las tareas son cruciales para entender cómo crear tareas más desafiantes. Varios métricas, como la longitud de la secuencia de acciones requerida y el tamaño del espacio de acción, pueden servir como indicadores de la complejidad de la tarea.

Especificidad del Dominio

Las tareas pueden variar según cuán familiar o común sea el conocimiento requerido. Algunas tareas pueden exigir conocimientos especializados que los agentes entrenados con datos generales pueden no poseer, haciéndolas más difíciles.

Disponibilidad de Datos

La disponibilidad de datos influye en cómo los agentes pueden aprender. Algunas tareas podrían requerir conjuntos de datos completos que incluyan entornos interactivos, mientras que otras solo proporcionan secuencias de acciones que conducen a la finalización de la tarea.

Generación de Tareas

La mayoría de las tareas son formuladas diseñando un espacio de acción y creando instancias manualmente. Algunos conjuntos de datos ofrecen generadores de problemas que crean automáticamente nuevas tareas solucionables basadas en requisitos específicos.

Discusión y Direcciones Futuras

Esta encuesta describe las tareas existentes para evaluar agentes interactivos enfocados en objetivos. Los rápidos avances en este campo son prometedores, y la variedad de tareas sugiere que los agentes se integrarán cada vez más en la vida diaria. Varias áreas clave son vitales para avanzar en la tecnología de agentes más allá de solo aumentar la complejidad.

Habilitar Interacción Agente-Usuario

Las tareas discutidas típicamente implican solo objetivos iniciales del usuario sin interacción continua. Sin embargo, las tareas del mundo real pueden requerir retroalimentación continua del usuario y ajustes. Combinar agentes enfocados en objetivos con interacción del usuario podría mejorar su funcionalidad.

Evaluación Dirigida del Comportamiento del Agente

Entender el comportamiento del agente es crucial para mejorar el rendimiento. Al identificar aspectos específicos del rendimiento y establecer marcos formales para estudiarlos, podemos obtener información sobre las limitaciones y habilidades de los agentes.

Estandarización de Entornos

A medida que continúa el desarrollo de tareas, es esencial abordar las limitaciones de los puntos de referencia existentes. Esto incluye asegurar métodos de evaluación consistentes y minimizar las dependencias de herramientas externas que pueden cambiar con el tiempo.

En resumen, a medida que evoluciona el panorama de tareas para agentes interactivos enfocados en objetivos, un enfoque estructurado para comprender y evaluar estas tareas será esencial para avanzar en este emocionante campo.

Artículos similares