Avanzando Agentes Inteligentes para Control de Computadoras
Te presentamos ScreenAgent, una IA innovadora para manejar tareas en la computadora de manera efectiva.
― 12 minilectura
Tabla de contenidos
- Entorno de Control e Interacción
- Introducción de ScreenAgent
- Trabajos Relacionados
- Modelos de Lenguaje Grande Multimodal
- Agentes de Modelo de Lenguaje Visual
- Entorno de Control de Computadora
- Tipos y Atributos de Acción
- Pipeline de Control
- Proceso de Anotación de Datos
- Conjunto de Datos ScreenAgent
- Métricas de Evaluación
- Resultados de Evaluación
- Entrenamiento de Ajuste Fino
- Estudios de Caso
- Conclusiones
- Consideraciones Éticas
- Fuente original
- Enlaces de referencia
Los Modelos de Lenguaje Grande (LLMs) pueden usar varias herramientas y sistemas para realizar tareas complicadas. Una computadora es una herramienta clave que podría ser manejada directamente por un agente LLM entrenado. Con este control, nuestro objetivo es crear un agente que pueda ayudar a la gente con actividades digitales cotidianas. Este documento describe cómo configuramos un entorno para que un agente de Modelo de Lenguaje Visual (VLM) interactúe con una pantalla de computadora real. En este entorno, el agente puede ver capturas de pantalla y controlar la Interfaz Gráfica de Usuario (GUI) usando acciones de mouse y teclado. También diseñamos un proceso de control que incluye fases de planificación, actuación y reflexión para guiar al agente en la realización de tareas de múltiples pasos.
Creamos el Conjunto de Datos ScreenAgent, que recopila capturas de pantalla y secuencias de acciones mientras completa varias tareas típicas en la computadora. Nuestro modelo, ScreenAgent, mostró habilidades de control similares a las de GPT-4V pero con mejor precisión en la posición de la GUI. Nuestro enfoque podría motivar más estudios para crear un agente LLM versátil.
Entorno de Control e Interacción
Construimos un entorno de control de computadora realista y creamos un proceso de control para el agente. El agente VLM recupera instrucciones y estados de computadora en tiempo real de este entorno. Realiza una serie de acciones, incluyendo planificación, actuación y reflexión. Este proceso lleva al agente a interactuar continuamente con el entorno y lograr tareas de múltiples pasos.
Los avances recientes en LLMs como ChatGPT y GPT-4 han mostrado resultados impresionantes en tareas de lenguaje natural, incluyendo generación de texto y diálogo. Estos modelos han impactado significativamente otras áreas de la inteligencia artificial. El auge de estas tecnologías apoya la investigación en agentes LLM inteligentes capaces de manejar tareas complejas. Un agente LLM es un sistema de IA impulsado por un modelo de lenguaje que puede percibir, pensar, recordar y tomar acciones. Esto le permite operar de manera autónoma y proactiva.
A medida que las computadoras personales, teléfonos inteligentes y tabletas se vuelven más comunes, nuestras vidas diarias implican cada vez más pantallas. Un agente que puede realizar acciones en estos dispositivos, liberando a los usuarios de tareas manuales, marca un gran avance hacia una inteligencia más independiente. Un agente de interacción con pantallas necesita un fuerte procesamiento visual y la capacidad de ejecutar comandos de control de computadora. Lograr esto requiere establecer un entorno interactivo para el agente VLM, desarrollar un pipeline de interacción continua y entrenar al agente para mejorar su rendimiento.
Sin embargo, implementar estas características dentro de un solo marco y lograr resultados satisfactorios presenta desafíos tanto desde los puntos de vista ingenieril como teórico. Aunque se ha avanzado en estudios previos, todavía hay áreas que necesitan atención. Por ejemplo, CogAgent se especializa en entender la GUI y planificar, demostrando habilidades impresionantes en desafíos cruzados de modalidad, pero carece de un proceso de pensamiento completo. AppAgent, por otro lado, se centra en tareas de teléfonos inteligentes, aprendiendo navegación al observar acciones humanas. Sin embargo, AppAgent limita las operaciones al etiquetar elementos, lo que restringe sus métodos de toque. Como resultado, los agentes VLM existentes tienen dificultades para interactuar con entornos reales de computadora o móviles para producir y ejecutar comandos continuos.
Introducción de ScreenAgent
Para enfrentar estos desafíos, presentamos ScreenAgent, un agente automatizado diseñado para operaciones continuas en pantalla. Este agente comprende tres componentes: planificación, ejecución y reflexión. El módulo de reflexión se inspira en el Ciclo de Aprendizaje Experiencial de Kolb, permitiendo al agente evaluar sus acciones y refinar su rendimiento futuro. Esto permite a ScreenAgent participar en un proceso de pensamiento completo, comprendiendo los siguientes pasos y realizando una serie de comandos.
Las contribuciones clave de nuestro trabajo son las siguientes:
Creamos un entorno de Aprendizaje por Refuerzo (RL) que permite al agente VLM interactuar directamente con una computadora real a través de protocolos de escritorio remoto. Al analizar capturas de pantalla, el agente puede controlar la GUI usando acciones básicas de mouse y teclado.
Establecimos un pipeline automatizado que incluye fases de planificación, actuación y reflexión. Este sistema integrado permite una interacción continua y distingue a nuestro agente de otros en el campo.
Desarrollamos el conjunto de datos ScreenAgent, que contiene secuencias de acciones para completar tareas típicas en Linux y Windows. Además, propusimos un sistema de puntuación detallado para evaluar varias habilidades necesarias para un agente VLM en tareas controladas por computadora.
Probamos GPT-4V y otros dos VLMs avanzados de código abierto en nuestro conjunto de pruebas. Los resultados mostraron que aunque GPT-4V podía controlar computadoras, tenía dificultades con la precisión en la posición. En contraste, ScreenAgent demostró una mejor posición de la UI y logró resultados comparables a GPT-4V en todos los aspectos. Nuestros hallazgos pueden inspirar una mayor exploración de agentes generalistas.
Trabajos Relacionados
Modelos de Lenguaje Grande Multimodal
Los LLMs han mostrado una fuerte comprensión contextual y habilidades de generación de texto, permitiendo sistemas complejos de preguntas y respuestas. Modelos como LLaMA proporcionan bases con miles de millones de parámetros, mientras que Vicuna-13B es un chatbot de código abierto ajustado a LLaMA. GPT-4 representa una mejora respecto a GPT-3, con mejoras significativas, y GPT-4V introduce capacidades multimodales. Otros modelos, como LLaVA, conectan codificadores visuales con modelos de chat para lograr capacidades multimodales similares.
CogVLM es un modelo de lenguaje visual de código abierto que apoya la comprensión de imágenes y sistemas de chat. Modelos recientes, como Monkey, emplean métodos de entrenamiento efectivos para mejorar las capacidades de resolución.
Agentes de Modelo de Lenguaje Visual
A medida que los LLMs avanzan, también lo hacen las capacidades de los agentes inteligentes. Modelos como WebGPT mejoran la navegación web afinando GPT-3 para explorar la web en busca de respuestas. ToolFormer combina utilidades para diversas tareas como cálculos y preguntas y respuestas. Voyager es el primer agente impulsado por LLM diseñado para el aprendizaje continuo en un entorno de videojuegos. Otros modelos, como RecAgent, sugieren que los agentes podrían generar pensamientos complejos basados en reflexiones de memoria.
Nuestro entorno de RL permite a los agentes VLM interactuar con pantallas de computadora reales, ver imágenes, seleccionar acciones y cumplir tareas.
Entorno de Control de Computadora
Desarrollamos un entorno de control de computadora para probar las habilidades de los agentes VLM. Este sistema se conecta a un sistema operativo de escritorio a través de un protocolo de escritorio remoto, permitiendo que los comandos de mouse y teclado sean enviados y ejecutados. El entorno tiene acciones, estados y funciones de recompensa definidas.
Espacio de Acción: Tratamos las acciones como llamadas a funciones. Si el agente proporciona una respuesta en un formato específico, el entorno puede analizar y ejecutarla.
Espacio de Estado: El entorno utiliza capturas de pantalla como su espacio de estado. Antes y después de cada acción, se recopilan capturas de pantalla para representar el estado actual.
Funciones de Recompensa: Dado que las tareas pueden ser abiertas, la función de recompensa puede adaptarse a diferentes interfaces y modelos.
A través del control remoto, el agente puede realizar cualquier tarea en la pantalla, creando un entorno complejo y desafiante con amplios espacios de estado y acción.
Tipos y Atributos de Acción
Los tipos de acción incluyen acciones de mouse y teclado, cada una con atributos específicos. Por ejemplo, las acciones de mouse pueden involucrar mover, hacer clic o arrastrar, mientras que las acciones de teclado pueden incluir presionar teclas o escribir texto.
Pipeline de Control
Nuestro pipeline de control guía al agente en la interacción continua con el entorno para completar tareas complejas. El pipeline consiste en fases de planificación, actuación y reflexión.
Fase de Planificación: El agente descompone la tarea general en subtareas más pequeñas basadas en el estado actual de la pantalla.
Fase de Actuación: El agente genera acciones específicas de mouse o teclado para su ejecución. El entorno analiza la respuesta del agente y la convierte en comandos que envía a la computadora controlada. Después de ejecutar una acción, se toma una nueva captura de pantalla para un procesamiento posterior.
Fase de Reflexión: El agente evalúa si sus acciones cumplieron la subtarea actual. Decide si seguir adelante, intentar de nuevo o reformular su plan.
Esta fase añade flexibilidad para gestionar escenarios inesperados.
Proceso de Anotación de Datos
Utilizamos GPT-4V para generar respuestas iniciales, que luego son corregidas por anotadores humanos para crear un conjunto de respuestas etiquetadas doradas. El entorno es capaz de analizar acciones de estas respuestas para su ejecución en una computadora real. Estos datos emparejados son esenciales para futuros métodos de entrenamiento.
Conjunto de Datos ScreenAgent
Los conjuntos de datos existentes para control de computadora a menudo se centran únicamente en escenarios específicos, como la navegación web. Nuestro Conjunto de Datos ScreenAgent aborda esta brecha al recopilar escenarios que involucran interacciones de mouse y teclado adecuadas para una variedad de aplicaciones de escritorio, incluyendo trabajo de oficina, recuperación de información y otras tareas diarias.
El conjunto de datos incluye una amplia gama de categorías que cubren 39 subtareas a través de seis temas, con un total de 273 sesiones de tarea. Esto incluye 203 sesiones para entrenamiento y 70 para pruebas. Nuestro conjunto de datos también proporciona información estadística esencial sobre las muestras recopiladas.
Métricas de Evaluación
Para evaluar la capacidad de un agente en tareas de control de computadora, introdujimos una métrica de evaluación detallada llamada Puntuación de Control de Computadora de Lenguaje Visual (CC-Score). Esta puntuación mide qué tan de cerca las secuencias de acciones predichas coinciden con las secuencias esperadas, considerando aspectos como el orden y los atributos de acción.
Desarrollamos métricas de similitud específicas para cada tipo de acción. Para las acciones de mouse, evaluamos la consistencia basada en tipos de acción y uso de botones. Para acciones de texto y teclado, buscamos consistencia en tipos de acción y precisión de entrada. Las puntuaciones generales se calculan usando un algoritmo de coincidencia para encontrar la mejor alineación entre acciones predichas y etiquetadas.
Resultados de Evaluación
Evaluamos el rendimiento de GPT-4V de OpenAI junto con otros dos VLMs líderes, LLaVA-1.5 y CogAgent. Nuestras evaluaciones se centraron en su capacidad para seguir instrucciones y completar tareas con precisión.
Seguimiento de Instrucciones: Los resultados mostraron que GPT-4V y LLaVA-1.5 lograron tasas más altas de llamadas de funciones exitosas que CogAgent. Este último tuvo dificultades para producir acciones en el formato requerido.
Finalización de Tareas: Las evaluaciones detalladas indicaron que GPT-4V sobresalió en seleccionar acciones apropiadas pero enfrentó desafíos para producir coordenadas de mouse precisas. Todos los modelos lucharon en la fase de reflexión, indicando que aún se necesita la entrada humana en escenarios del mundo real.
Entrenamiento de Ajuste Fino
Para mejorar aún más el rendimiento del agente, ajustamos el modelo CogAgent-Chat con nuestros datos de entrenamiento de ScreenAgent. Fusionamos datos de diversas fuentes para crear un conjunto de entrenamiento diverso, mejorando la capacidad del modelo para ejecutar comandos con precisión.
Después del ajuste fino, ScreenAgent igualó a GPT-4V en seguimiento de instrucciones y ejecución de acciones, superando a otros modelos en precisión de clics de mouse. Sin embargo, permaneció una brecha notable en las habilidades de planificación de tareas, resaltando las fortalezas de GPT-4V.
Estudios de Caso
Para ilustrar mejor las capacidades de ScreenAgent, examinamos dos casos en los que realizó tareas de control de computadora. Un caso destacó su proceso de ejecución de una serie de acciones mientras que el otro comparó el rendimiento de diferentes agentes en cada fase de nuestro pipeline.
En nuestras evaluaciones, ScreenAgent demostró una planificación y ejecución de acciones superiores, reconociendo efectivamente la necesidad de reintentar acciones cuando fue necesario.
Conclusiones
En este trabajo, establecimos un nuevo entorno para tareas de control de computadoras, permitiendo a los agentes VLM gestionar computadoras reales usando comandos de mouse y teclado. Diseñamos un proceso de control que guía a los agentes a través de fases de planificación, actuación y reflexión, habilitando interacción continua con las tareas.
Además, introdujimos un nuevo conjunto de datos que cubre una amplia gama de tareas digitales y una métrica de puntuación detallada para evaluar las capacidades de los agentes. Los resultados de las pruebas indicaron que aunque GPT-4V puede funcionar como un agente de control de computadoras, no logra la precisión en la posición. ScreenAgent, entrenado a partir de CogAgent, mostró resultados similares con mejor precisión de posicionamiento.
Esperamos que este trabajo inspire más investigación en el desarrollo de agentes más robustos y generalizados. Sin embargo, reconocemos las limitaciones de nuestros modelos, como su incapacidad para procesar múltiples cuadros o sus capacidades lingüísticas restringidas.
Consideraciones Éticas
Aunque los agentes automatizados pueden proporcionar beneficios significativos, incluyendo mejorar la accesibilidad de las computadoras y reducir tareas repetitivas, también presentan riesgos. Los problemas potenciales incluyen desplazamiento laboral, preocupaciones de privacidad y mal uso en actividades fraudulentas. Enfatizamos la importancia del uso responsable de la IA y la necesidad de directrices éticas en el desarrollo de tales tecnologías.
Título: ScreenAgent: A Vision Language Model-driven Computer Control Agent
Resumen: Existing Large Language Models (LLM) can invoke a variety of tools and APIs to complete complex tasks. The computer, as the most powerful and universal tool, could potentially be controlled directly by a trained LLM agent. Powered by the computer, we can hopefully build a more generalized agent to assist humans in various daily digital works. In this paper, we construct an environment for a Vision Language Model (VLM) agent to interact with a real computer screen. Within this environment, the agent can observe screenshots and manipulate the Graphics User Interface (GUI) by outputting mouse and keyboard actions. We also design an automated control pipeline that includes planning, acting, and reflecting phases, guiding the agent to continuously interact with the environment and complete multi-step tasks. Additionally, we construct the ScreenAgent Dataset, which collects screenshots and action sequences when completing a variety of daily computer tasks. Finally, we trained a model, ScreenAgent, which achieved computer control capabilities comparable to GPT-4V and demonstrated more precise UI positioning capabilities. Our attempts could inspire further research on building a generalist LLM agent. The code is available at \url{https://github.com/niuzaisheng/ScreenAgent}.
Autores: Runliang Niu, Jindong Li, Shiqi Wang, Yali Fu, Xiyu Hu, Xueyuan Leng, He Kong, Yi Chang, Qi Wang
Última actualización: 2024-02-08 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2402.07945
Fuente PDF: https://arxiv.org/pdf/2402.07945
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.