Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Visión por Computador y Reconocimiento de Patrones# Inteligencia artificial# Computación y lenguaje

Presentamos MMInA: Un Nuevo Referente para Agentes Digitales

MMInA evalúa qué tan bien los agentes realizan tareas en múltiples sitios web.

― 8 minilectura


MMInA: Evaluación delMMInA: Evaluación delRendimiento de Agentestareas complejas de la web.Nuevo estándar evalúa a los agentes en
Tabla de contenidos

Hoy en día, muchas tareas digitales requieren acción en múltiples sitios web. Por ejemplo, podrías necesitar comprar en línea, reservar un vuelo o buscar consejos de viaje. Sin embargo, la mayoría de la tecnología actual tiene problemas para manejar estas tareas de manera efectiva. Este artículo presenta un nuevo estándar llamado MMInA, que tiene como objetivo evaluar qué tan bien los agentes autónomos pueden completar tareas complejas en varios sitios web.

¿Qué es MMInA?

MMInA significa "Multihop Multimodal Internet Agent benchmark". Consiste en una serie de tareas que requieren que un agente recolecte información y realice acciones en diferentes sitios web. Incluye:

  1. Sitios Web Reales: El estándar utiliza sitios web del mundo real que cambian con frecuencia, reflejando un entorno de navegación realista.
  2. Variedad de tareas: Hay 1,050 tareas que cubren diferentes áreas como compras, viajes y recolección de información.
  3. Múltiples Pasos: Muchas tareas requieren que el agente recolecte información de varias fuentes, convirtiéndolo en un desafío multihop.

¿Por Qué Necesitamos Este Estándar?

Los estándares existentes principalmente prueban a los agentes en tareas simples que no imitan escenarios del mundo real. A menudo, estas tareas solo involucran un sitio web y ignoran la necesidad de razonamiento o resolución de problemas en múltiples sitios. MMInA aborda esta brecha al centrarse en las siguientes áreas:

  1. Sitios Web en Evolución: Al utilizar sitios web que cambian, los agentes deben adaptarse a nuevos formatos e información.
  2. Tareas Compositivas: Muchas tareas requieren que los agentes recuperen información y actúen en múltiples sitios web, lo cual es más desafiante que las tareas de un solo salto.
  3. Evaluación Holística: Introduce una nueva forma de evaluar a los agentes según su rendimiento en diferentes fases de una tarea.

La Estructura de las Tareas de MMInA

Cada tarea en MMInA generalmente implica varios pasos, o saltos. La tarea promedio tiene alrededor de 2.85 saltos, lo que significa que los agentes deben recolectar información de varios sitios web para completar una única tarea.

Ejemplos de Tipos de Tareas

  • Compras: Encontrar un artículo específico en varios sitios de comercio electrónico.
  • Viajes: Reservar vuelos, buscar hoteles y comparar diferentes opciones.
  • Recolección de Información: Recoger datos diversos de múltiples fuentes como Wikipedia o sitios de noticias.

Desafíos para los Agentes

Aunque las tareas pueden parecer simples para los humanos, los agentes a menudo luchan, especialmente con tareas más largas. Los agentes tienden a fallar al principio de tareas más largas, lo que puede llevar a tasas de éxito más bajas. Aquí algunos desafíos comunes:

  1. Saltos Iniciales: Los agentes a menudo tienen dificultades para completar los primeros saltos en una tarea multihop.
  2. Problemas de Memoria: Muchos agentes no pueden recordar acciones pasadas de manera efectiva, lo que puede llevar a errores repetidos.
  3. Toma de Decisiones Complejas: Las tareas del mundo real requieren la capacidad de interpretar información visual y textual, lo que a menudo es abrumador para los agentes.

¿Qué Hace Único a MMInA?

MMInA se destaca por varias razones:

  1. Entradas Multimodales: A diferencia de otros estándares, las tareas de MMInA requieren que los agentes procesen tanto texto como imágenes, imitando mejor los escenarios de la vida real.
  2. Aumento de Memoria: Incluye técnicas que ayudan a los agentes a recordar acciones pasadas para informar los pasos futuros, haciéndolos más efectivos en el manejo de tareas.
  3. Enfoque de Evaluación Holística: Este nuevo método de evaluación analiza tanto qué tan bien completan los agentes cada parte de una tarea como el éxito general.

Resultados de las Pruebas de MMInA

Después de realizar pruebas exhaustivas con varios agentes, los resultados indican que a pesar de los avances en tecnología, los agentes todavía tienen problemas con tareas multihop. Por ejemplo, el modelo con mejor rendimiento logró solo un 21.8% de tasa de éxito en comparación con un 96.3% para los usuarios humanos.

Hallazgos Clave

  1. Complejidad de la Tarea: A medida que aumenta el número de saltos, el rendimiento de los agentes disminuye significativamente.
  2. Aprendizaje de la Memoria: Usar memoria mejoró el rendimiento, permitiendo a los agentes recordar acciones previas y tomar mejores decisiones.
  3. Brecha de Rendimiento: Hay una diferencia notable entre el rendimiento humano y el de los agentes, destacando la necesidad de capacidades más avanzadas.

El Futuro de los Agentes de Internet

A futuro, hay planes para mejorar aún más el estándar MMInA:

  1. Plataformas Móviles: Ampliar las tareas para incluir sitios web móviles, que son cada vez más populares.
  2. Memoria a Largo Plazo: Introducir formas para que los agentes recuerden acciones útiles a lo largo del tiempo, mejorando su capacidad para completar tareas de manera efectiva.
  3. Evaluación Basada en la Acción: Pasar de consultas por palabras clave a un enfoque en cómo los agentes realizan sus acciones durante las tareas, lo que proporcionará una imagen más clara de sus capacidades.

Conclusión

MMInA sirve como una herramienta importante para evaluar la efectividad de los agentes multimodales en completar tareas complejas en la web. Al centrarse en aplicaciones del mundo real y emplear un método de evaluación riguroso, establece las bases para avanzar en las capacidades de los agentes autónomos. Los desafíos identificados a través de este estándar guiarán la investigación futura y las mejoras en el campo de la inteligencia artificial, haciendo que los agentes sean más adaptables y capaces de satisfacer las necesidades de los usuarios en diversos escenarios.

Trabajo Relacionado

Aparte de MMInA, hay otros estándares y esfuerzos de investigación enfocados en mejorar los agentes autónomos. Aunque muchos de estos sistemas han contribuido a los avances, a menudo dependen de tareas simplificadas o entornos estáticos que no reflejan las complejidades de las interacciones web del mundo real.

Estándares Existentes

  1. APIBench: Se centra en evaluar qué tan bien los agentes pueden generar código usando herramientas.
  2. AgentBench: Proporciona un marco para probar el rendimiento de los agentes en responder consultas en diferentes entornos.
  3. WoB: Una plataforma para ayudar a los agentes a completar tareas en línea a través de interacciones web básicas.

Limitaciones en la Investigación Actual

Muchos estándares existentes se quedan cortos al no explorar todo el rango de capacidades requeridas para la navegación web del mundo real. Típicamente evalúan a los agentes basándose en tareas de un solo salto o no utilizan entradas multimodales, limitando su relevancia para las necesidades reales de los usuarios.

A través de MMInA, podemos identificar fallas específicas y trabajar para abordarlas. La transición a utilizar sitios web reales y tareas complejas ayudará a crear agentes que puedan desempeñarse más como los humanos, navegando por la web con facilidad.

La Importancia del Aprendizaje Multimodal

El aprendizaje multimodal ha crecido en importancia debido a la creciente complejidad de las tareas que involucran tanto información visual como textual. Modelos como CLIP y DALL-E ya han demostrado lo beneficioso que es entrenar a los agentes en diversos tipos de datos.

  1. Comprensión Mejorada: Los agentes entrenados en conjuntos de datos multimodales pueden entender mejor el contexto y los matices, mejorando su capacidad de toma de decisiones.
  2. Aplicaciones del Mundo Real: Las tareas que requieren interacción tanto con texto como con imágenes son comunes en la vida diaria; los agentes deben ser capaces de manejarlas para ser útiles.

Próximos Pasos en la Investigación

La evolución de los modelos para el aprendizaje multimodal dará forma al futuro de los agentes autónomos. A medida que la tecnología continúa desarrollándose, los investigadores explorarán nuevas formas de integrar diversas fuentes de información en conjuntos de datos de entrenamiento.

  1. Mejorar Métodos de Entrenamiento: Los investigadores se centrarán en mejorar los métodos para optimizar cómo los modelos aprenden de datos multimodales.
  2. Crear Conjuntos de Datos Comprensivos: El desarrollo de conjuntos de datos más grandes y diversos facilitará un mejor aprendizaje y rendimiento.
  3. Manejo de Contexto Más Largo: Abordar las limitaciones de la memoria y la longitud del contexto en el entrenamiento llevará a modelos más capaces.

Pensamientos Finales

El lanzamiento de MMInA marca un avance significativo en la evaluación de agentes autónomos. A medida que continuemos refinando estas tecnologías y estándares, debemos mantenernos enfocados en la aplicabilidad del mundo real, asegurándonos de que los agentes puedan satisfacer efectivamente las necesidades de los usuarios en el paisaje digital cada vez más complejo. La integración de memoria, entradas multimodales y tareas en evolución allanará el camino para un futuro donde los agentes puedan ayudar a los usuarios de manera más fluida e intuitiva que nunca.

Fuente original

Título: MMInA: Benchmarking Multihop Multimodal Internet Agents

Resumen: Autonomous embodied agents live on an Internet of multimedia websites. Can they hop around multimodal websites to complete complex user tasks? Existing benchmarks fail to assess them in a realistic, evolving environment for their embodiment across websites. To answer this question, we present MMInA, a multihop and multimodal benchmark to evaluate the embodied agents for compositional Internet tasks, with several appealing properties: 1) Evolving real-world multimodal websites. Our benchmark uniquely operates on evolving real-world websites, ensuring a high degree of realism and applicability to natural user tasks. Our data includes 1,050 human-written tasks covering various domains such as shopping and travel, with each task requiring the agent to autonomously extract multimodal information from web pages as observations; 2) Multihop web browsing. Our dataset features naturally compositional tasks that require information from or actions on multiple websites to solve, to assess long-range reasoning capabilities on web tasks; 3) Holistic evaluation. We propose a novel protocol for evaluating an agent's progress in completing multihop tasks. We experiment with both standalone (multimodal) language models and heuristic-based web agents. Extensive experiments demonstrate that while long-chain multihop web tasks are easy for humans, they remain challenging for state-of-the-art web agents. We identify that agents are more likely to fail on the early hops when solving tasks of more hops, which results in lower task success rates. To address this issue, we propose a simple memory augmentation approach replaying past action trajectories to reflect. Our method significantly improved both the single-hop and multihop web browsing abilities of agents. See our code and data at https://mmina.cliangyu.com

Autores: Ziniu Zhang, Shulin Tian, Liangyu Chen, Ziwei Liu

Última actualización: 2024-04-15 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2404.09992

Fuente PDF: https://arxiv.org/pdf/2404.09992

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares