Mejorando Agentes Web con Datos Autogenerados
Los modelos de lenguaje mejoran el rendimiento en tareas web a través de técnicas de auto-mejoría.
― 6 minilectura
Tabla de contenidos
- Desafíos en el Entrenamiento de Agentes Web
- ¿Qué Son los Modelos de Lenguaje Grandes?
- Auto-Mejora en Modelos de Lenguaje
- WebArena como Referencia
- Explorando Técnicas de Auto-Mejora
- Datos Sintéticos
- Evaluando el Rendimiento
- Resultados de la Auto-Mejora
- ¿Funciona la Auto-Mejora?
- Adquisición de Nuevas Capacidades
- Robustez en el Rendimiento
- Calidad de las Trayectorias Generadas
- Auto-Mejora Iterativa
- Investigación Relacionada
- Conclusión
- Direcciones Futuras
- Agradecimientos
- Fuente original
- Enlaces de referencia
Los modelos de lenguaje grandes (LLMs) son herramientas poderosas para entender y generar lenguaje humano. Sin embargo, usarlos como agentes web para completar tareas complejas puede ser complicado. Este artículo habla sobre cómo estos modelos pueden aprender a hacerlo mejor en estas situaciones desafiantes generando sus propios datos de entrenamiento y aprendiendo de ellos.
Desafíos en el Entrenamiento de Agentes Web
Entrenar agentes que puedan interactuar con entornos web a menudo enfrenta varios obstáculos. Uno de los problemas principales es la falta de datos de entrenamiento adecuados para las acciones específicas necesarias para navegar por la web. Recopilar datos para tareas que requieren múltiples pasos de toma de decisiones toma mucho tiempo y puede ser caro. Además, evaluar qué tan bien se desempeña un agente puede ser complicado porque la evaluación automática de las acciones tomadas no es sencilla.
¿Qué Son los Modelos de Lenguaje Grandes?
Los modelos de lenguaje grandes utilizan enormes cantidades de datos de texto para aprender patrones en el lenguaje. Este conocimiento les permite generar respuestas, responder preguntas y resumir información. Aunque muestran potencial en tareas simples, a menudo tienen dificultades con tareas que requieren una secuencia de acciones o una comprensión profunda del contexto.
Auto-Mejora en Modelos de Lenguaje
Estudios recientes muestran que los LLMs pueden mejorar su rendimiento con el tiempo. Una forma en que lo hacen es usando sus propias salidas para crear más ejemplos que mejoran su entrenamiento. Este método, llamado auto-mejora, les ayuda a adaptarse a nuevas tareas sin necesitar más datos de entrenamiento supervisados.
WebArena como Referencia
WebArena es una referencia utilizada para probar las habilidades de los agentes LLM en entornos web realistas. En este entorno, los agentes deben completar tareas interactuando directamente con páginas web. Por ejemplo, un agente podría necesitar determinar el tiempo de viaje entre dos ubicaciones usando un mapa en línea. Para completar estas tareas con éxito, los agentes deben realizar una serie de acciones, a menudo denominadas trayectoria.
Explorando Técnicas de Auto-Mejora
Investigamos cuán efectivos pueden ser los LLMs para mejorar su rendimiento en tareas web largas y complejas. Al ajustar finamente estos modelos con Datos sintéticos generados a partir de sus propias salidas, logramos mejoras significativas en las tasas de finalización de tareas.
Datos Sintéticos
Los datos sintéticos se refieren a ejemplos creados por los propios modelos. Estos datos pueden servir como material de entrenamiento de alta calidad para mejorar aún más el rendimiento. Nos enfocamos en recopilar dos tipos de datos sintéticos: ejemplos en dominio y ejemplos fuera de dominio.
Datos Sintéticos en Dominio
Los datos en dominio se generan a partir de tareas que el modelo ya ha encontrado. Por ejemplo, si el modelo intenta responder preguntas sobre tiempos de viaje y genera un número de acciones plausibles, esas acciones pueden filtrarse por calidad y usarse para un entrenamiento adicional.
Datos Sintéticos Fuera de Dominio
Los datos fuera de dominio son completamente nuevos y diferentes de lo que el modelo ha visto antes. Al solicitar al modelo que cree tareas y soluciones completamente nuevas, podemos expandir sus habilidades más allá de su alcance original de entrenamiento.
Evaluando el Rendimiento
Evaluar qué tan bien se desempeñan estos agentes es crucial. Introducimos varias métricas para evaluar su efectividad, robustez y la calidad general de sus acciones. En particular, observamos dos nuevas métricas: puntajes de capacidad y una versión modificada del puntaje VERTEX para rastrear la calidad de las secuencias de acción.
Resultados de la Auto-Mejora
¿Funciona la Auto-Mejora?
A través de nuestros experimentos, vemos que ajustar finamente en conjuntos de datos sintéticos puede mejorar significativamente el rendimiento. El modelo que mejor se desempeñó, que usó una combinación de ejemplos en y fuera de dominio, demostró un aumento del 31% en las tareas completadas con éxito.
Adquisición de Nuevas Capacidades
Nuestros hallazgos muestran que la auto-mejora permite a los agentes adquirir nuevas capacidades mientras mantienen las existentes. Sin embargo, algunas capacidades pueden perderse en el proceso. En general, los agentes que probamos ganaron más habilidades de las que perdieron, indicando un resultado neto positivo.
Robustez en el Rendimiento
La robustez se refiere a la capacidad de un agente para desempeñarse de manera consistente en diferentes escenarios. En nuestros resultados, encontramos que los modelos auto-mejorados mostraron una mayor consistencia en completar tareas en comparación con sus versiones base. Esta consistencia puede ser crucial para aplicaciones del mundo real donde la fiabilidad es clave.
Calidad de las Trayectorias Generadas
Un aspecto importante del rendimiento es la calidad y longitud de las secuencias de acción que los agentes generan. Nuestros análisis sugieren que, aunque la auto-mejora puede ayudar con el rendimiento, también puede llevar a secuencias de acción más largas y un aumento en el número de acciones inválidas en algunos casos. Equilibrar la complejidad y calidad de estas acciones es esencial para interacciones web efectivas.
Auto-Mejora Iterativa
También exploramos si realizar auto-mejora varias veces conduce a más beneficios. Aunque observamos algunas ganancias de una segunda ronda de ajuste fino, las mejoras fueron menos significativas que en la primera ronda. Esto indica que, aunque la auto-mejora es beneficiosa, hay rendimientos decrecientes cuando se aplica repetidamente.
Investigación Relacionada
La auto-mejora en LLMs es un área de interés creciente. Se están explorando varias técnicas, incluyendo el uso de las propias salidas de los modelos para un entrenamiento adicional. Otra investigación se ha centrado en estrategias de solicitud que pueden mejorar el rendimiento en tareas específicas.
Conclusión
En resumen, nuestro trabajo demuestra que los modelos de lenguaje grandes pueden auto-mejorarse en el contexto de tareas web largas y complejas. A través del uso de datos de entrenamiento sintéticos, estos modelos no solo mejoran su rendimiento, sino que también adquieren nuevas capacidades con una degradación mínima en la calidad de las acciones. Este enfoque tiene el potencial de elevar significativamente la efectividad de los LLMs en entornos dinámicos y complejos. A medida que estos modelos continúan evolucionando, pueden volverse cada vez más hábiles para afrontar los desafíos de las interacciones web del mundo real.
Direcciones Futuras
El trabajo futuro puede centrarse en refinar las métricas para evaluar el rendimiento de los agentes y explorar una gama más amplia de tareas web. Además, incorporar evaluaciones humanas en el proceso podría mejorar la fiabilidad de nuestros hallazgos. El objetivo final es desarrollar agentes de lenguaje robustos que puedan manejar una variedad diversa de tareas con facilidad y eficiencia.
Agradecimientos
Nos gustaría agradecer la financiación y el apoyo recibido de varias organizaciones e instituciones que contribuyeron a esta investigación. Sus recursos han sido invaluables para realizar nuestros experimentos y análisis.
Título: Large Language Models Can Self-Improve At Web Agent Tasks
Resumen: Training models to act as agents that can effectively navigate and perform actions in a complex environment, such as a web browser, has typically been challenging due to lack of training data. Large language models (LLMs) have recently demonstrated some capability to navigate novel environments as agents in a zero-shot or few-shot fashion, purely guided by natural language instructions as prompts. Recent research has also demonstrated LLMs have the capability to exceed their base performance through self-improvement, i.e. fine-tuning on data generated by the model itself. In this work, we explore the extent to which LLMs can self-improve their performance as agents in long-horizon tasks in a complex environment using the WebArena benchmark. In WebArena, an agent must autonomously navigate and perform actions on web pages to achieve a specified objective. We explore fine-tuning on three distinct synthetic training data mixtures and achieve a 31\% improvement in task completion rate over the base model on the WebArena benchmark through a self-improvement procedure. We additionally contribute novel evaluation metrics for assessing the performance, robustness, capabilities, and quality of trajectories of our fine-tuned agent models to a greater degree than simple, aggregate-level benchmark scores currently used to measure self-improvement.
Autores: Ajay Patel, Markus Hofmarcher, Claudiu Leoveanu-Condrei, Marius-Constantin Dinu, Chris Callison-Burch, Sepp Hochreiter
Última actualización: 2024-10-01 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2405.20309
Fuente PDF: https://arxiv.org/pdf/2405.20309
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.
Enlaces de referencia
- https://chat.lmsys.org/?leaderboard
- https://nips.cc/public/guides/CodeSubmissionPolicy
- https://neurips.cc/public/EthicsGuidelines
- https://tex.stackexchange.com/a/122329
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://store.economist.com/
- https://www.chilis.com/
- https://www.couponcabin.com/
- https://www.grammarly.com/
- https://www.grammarly.com/plans