Avances en el Seguimiento Visual Corporal para Agentes
Un nuevo método mejora cómo los robots rastrean objetos en entornos complejos.
― 7 minilectura
Tabla de contenidos
Rastrear objetos en entornos 3D es una habilidad clave para robots y agentes virtuales. Esta tarea se llama seguimiento visual encarnado (EVT). Imagina un robot siguiendo a una persona en un área concurrida o un dron persiguiendo un objeto por un parque. Aunque suena simple, en realidad es bastante complicado debido a los diferentes obstáculos, objetos en movimiento y cambios en la escena.
Los métodos actuales para rastrear objetos a menudo tienen problemas. Requieren mucho tiempo para entrenar y a veces no pueden desempeñarse bien cuando enfrentan situaciones nuevas. Investigaciones recientes buscan combinar modelos visuales avanzados con técnicas de aprendizaje offline para mejorar cómo estos agentes rastrean objetos. Este artículo habla sobre un sistema que mezcla estos métodos para crear un agente de seguimiento más eficiente y capaz.
Antecedentes
Los agentes encarnados, como robots o avatares, necesitan rastrear objetos visualmente mientras realizan tareas. Por ejemplo, un robot podría necesitar seguir a una persona para ayudarla. Los usos prácticos del seguimiento visual encarnado incluyen robots móviles, drones y autos autónomos.
Sin embargo, hay desafíos en la implementación de un seguimiento efectivo:
Eficiencia en el entrenamiento: Los métodos tradicionales que usan aprendizaje por refuerzo requieren muchas interacciones con el entorno, lo que puede llevar mucho tiempo y consumir muchos recursos.
Brechas de Dominio: Los robots deben rastrear nuevos objetos que pueden verse diferente o moverse de manera impredecible. Esta inconsistencia puede generar dificultades cuando el agente interactúa con diferentes entornos.
Razonamiento Espacial y Temporal: Rastrear objetos en entornos complicados requiere que el agente entienda tanto el espacio como el tiempo a su alrededor para evitar obstáculos y distracciones.
Restricciones en Tiempo Real: El seguimiento en tiempo real es importante, ya que los objetos pueden moverse rápido. El sistema de seguimiento debe responder de inmediato, incluso con un poder de procesamiento limitado.
Método Propuesto
El sistema de seguimiento propuesto mezcla modelos visuales avanzados y aprendizaje offline para mejorar el seguimiento visual encarnado. El proceso comienza con la recolección de datos, donde el agente recopila información sobre su entorno.
Adquisición de Datos
El primer paso es reunir datos usando un agente que interactúa con un entorno virtual. Recoge imágenes y acciones que representan cómo seguir al objetivo. Estos datos incluyen varios casos, incluyendo cuando objetos bloquean la vista o cuando objetos similares podrían distraer al agente.
Las imágenes en color se procesan usando un modelo de base visual (VFM) para crear máscaras semánticas que resaltan el objeto objetivo. Las máscaras ayudan al agente a diferenciar entre el objetivo, los obstáculos y el fondo.
El modelo de seguimiento no requiere un ajuste fino extenso; puede trabajar con el modelo preentrenado. El algoritmo de aprendizaje por refuerzo offline entrena el sistema usando los datos recopilados sin necesidad de interactuar de nuevo con el entorno.
Reorientación de Máscaras y Estrategia de Recolección de Datos
Para mejorar la resiliencia del modelo y su capacidad de generalización, el método propuesto también incluye mecanismos para reorientar las máscaras y reunir datos a varios niveles. El objetivo es entrenar un rastreador confiable rápidamente, incluso en hardware de grado consumidor.
La recolección de datos consta de varios pasos:
Randomización del Entorno: Se configura el entorno virtual para que cambie sus condiciones, haciéndolo más desafiante y variado. La iluminación, los obstáculos y los objetos se aleatorizan para crear diferentes escenarios.
Generación de Datos a Múltiples Niveles: El método usa un sistema de navegación para crear caminos diversos para el objetivo y distracciones. El agente utiliza una estrategia de control específica para seguir los objetivos mientras introduce ruido para simular diferentes niveles de habilidad.
Procesamiento de Observaciones Crudas: Las imágenes recopiladas se procesan para crear las máscaras semánticamente significativas, que simplifican la información con la que el modelo tiene que lidiar durante el seguimiento.
Aprendiendo la Política
La parte central del método es el entrenamiento de una red de políticas recurrentes que aprende a rastrear el objetivo usando las máscaras semánticas. La red recurrente ayuda al agente a recordar información con el tiempo, lo cual es esencial para manejar situaciones complicadas.
El entrenamiento se enfoca en el aprendizaje por refuerzo offline, donde el modelo aprende de un conjunto de datos fijo, evitando la necesidad de interacciones adicionales con el entorno. Esto mejora la eficiencia del aprendizaje y reduce el costo del entrenamiento.
Evaluación del Método
El sistema de seguimiento propuesto fue probado en varios entornos de alta fidelidad para evaluar su rendimiento. Estos entornos simulan condiciones del mundo real para desafiar al agente de seguimiento.
Configuración Experimental
El método fue evaluado en cinco entornos diferentes que imitan situaciones del mundo real. Cada entorno presentó desafíos únicos, como variaciones de iluminación, distracciones de objetos y diseños complejos.
El rendimiento del sistema se evaluó en base a las siguientes métricas:
- Recompensa Acumulada: La recompensa total obtenida por el agente en cada entorno a lo largo de múltiples pruebas.
- Duración del Episodio: La duración promedio de tiempo que el agente rastreó con éxito al objetivo.
- Tasa de Éxito: El porcentaje de episodios en los que el agente mantuvo al objetivo a la vista durante toda la prueba.
Robustez y Generalización
Uno de los aspectos clave de la evaluación fue verificar cómo el método propuesto maneja distracciones de objetos similares y oclusiones. Los resultados demostraron que el agente de seguimiento puede mantener un alto nivel de rendimiento incluso con varias distracciones.
La capacidad de generalizar a nuevos entornos y categorías de objetivos no vistas también fue un enfoque. El agente de seguimiento se desempeñó bien en diferentes configuraciones, confirmando su adaptabilidad.
Discusión de Resultados
Los resultados mostraron que el nuevo sistema de seguimiento superó los métodos existentes en términos de eficiencia y efectividad. El método propuesto logró crear un agente de seguimiento funcional y confiable que puede aprender rápidamente, generalizar bien a nuevas situaciones y resistir distracciones.
Eficiencia en el Entrenamiento
Comparado con métodos tradicionales de aprendizaje por refuerzo en línea, que generalmente requieren largas horas de interacción con el entorno, el método propuesto solo necesitó alrededor de una hora para lograr resultados similares o mejores. Esta reducción drástica en el tiempo de entrenamiento es una mejora significativa.
Generalización a Objetivos No Vistos
Cuando se probó en entornos con objetivos previamente no vistos, el método propuesto todavía logró desempeñarse bien. Esta habilidad muestra la robustez de la política de seguimiento.
Robustez a Distracciones
A través de pruebas rigurosas, quedó claro que el sistema podría manejar varias distracciones. A pesar de la presencia de objetos confusos que se asemejaban al objetivo, el agente pudo mantener el enfoque en su objetivo y rastrear de manera efectiva.
Conclusión
Este trabajo destaca un avance significativo en el seguimiento visual encarnado a través de la combinación de modelos de base visual y aprendizaje por refuerzo offline. El método propuesto es eficiente, robusto y capaz de generalizar bien en diferentes condiciones.
Los hallazgos abren el camino para futuras investigaciones en mejorar los agentes de visión encarnada. Al continuar mejorando la adaptabilidad y minimizar la dependencia de conjuntos de datos extensos, las aplicaciones potenciales de esta tecnología en escenarios del mundo real son emocionantes.
Los desarrollos en este campo podrían llevar a sistemas robóticos más avanzados capaces de operar sin problemas en entornos dinámicos, mejorando su utilidad práctica en varios sectores.
Título: Empowering Embodied Visual Tracking with Visual Foundation Models and Offline RL
Resumen: Embodied visual tracking is to follow a target object in dynamic 3D environments using an agent's egocentric vision. This is a vital and challenging skill for embodied agents. However, existing methods suffer from inefficient training and poor generalization. In this paper, we propose a novel framework that combines visual foundation models(VFM) and offline reinforcement learning(offline RL) to empower embodied visual tracking. We use a pre-trained VFM, such as "Tracking Anything", to extract semantic segmentation masks with text prompts. We then train a recurrent policy network with offline RL, e.g., Conservative Q-Learning, to learn from the collected demonstrations without online interactions. To further improve the robustness and generalization of the policy network, we also introduce a mask re-targeting mechanism and a multi-level data collection strategy. In this way, we can train a robust policy within an hour on a consumer-level GPU, e.g., Nvidia RTX 3090. We evaluate our agent on several high-fidelity environments with challenging situations, such as distraction and occlusion. The results show that our agent outperforms state-of-the-art methods in terms of sample efficiency, robustness to distractors, and generalization to unseen scenarios and targets. We also demonstrate the transferability of the learned agent from virtual environments to a real-world robot.
Autores: Fangwei Zhong, Kui Wu, Hai Ci, Churan Wang, Hao Chen
Última actualización: 2024-07-22 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2404.09857
Fuente PDF: https://arxiv.org/pdf/2404.09857
Licencia: https://creativecommons.org/licenses/by-nc-sa/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.
Enlaces de referencia
- https://www.dji-robomaster.com/robomaster-ep.html
- https://sites.google.com/view/offline-evt
- https://support.apple.com/en-ca/guide/preview/prvw11793/mac#:~:text=Delete%20a%20page%20from%20a,or%20choose%20Edit%20%3E%20Delete
- https://www.adobe.com/acrobat/how-to/delete-pages-from-pdf.html#:~:text=Choose%20%E2%80%9CTools%E2%80%9D%20%3E%20%E2%80%9COrganize,or%20pages%20from%20the%20file
- https://superuser.com/questions/517986/is-it-possible-to-delete-some-pages-of-a-pdf-document
- https://github.com/visionml/pytracking
- https://github.com/zfw1226/active_tracking_rl/distractor
- https://github.com/hkchengrex/Tracking-Anything-with-DEVA
- https://github.com/z-x-yang/Segment-and-Track-Anything
- https://github.com/facebookresearch/dinov2
- https://github.com/xetdata/EfficientSAM
- https://github.com/BY571/CQL
- https://ctan.org/pkg/axessibility?lang=en