Avancées dans le suivi visuel incarné pour les agents
Une nouvelle méthode améliore la façon dont les robots suivent des objets dans des environnements complexes.
― 8 min lire
Table des matières
Suivre des objets dans des environnements 3D, c'est une compétence clé pour les robots et les agents virtuels. Cette tâche s'appelle le suivi visuel incarné (EVC). Imagine un robot qui suit une personne dans un endroit bondé ou un drone qui suit un objet dans un parc. Même si ça a l'air simple, c'est en fait assez compliqué à cause des obstacles, des objets en mouvement et des changements dans la scène.
Les méthodes actuelles pour suivre des objets ont souvent du mal. Elles nécessitent beaucoup de temps pour s'entraîner et parfois, elles ne s'en sortent pas bien face à de nouvelles situations. Les recherches récentes essaient de fusionner des modèles visuels avancés avec des techniques d'apprentissage hors ligne pour améliorer la façon dont ces agents suivent les objets. Cet article parle d'un système qui combine ces méthodes pour créer un agent de suivi plus efficace et capable.
Contexte
Les agents incarnés, comme les robots ou les avatars, ont besoin de suivre visuellement des objets tout en effectuant des tâches. Par exemple, un robot pourrait devoir suivre une personne pour l'aider. Les utilisations pratiques du suivi visuel incarné incluent les robots mobiles, les drones et les voitures autonomes.
Mais il y a des défis pour mettre en place un suivi efficace :
Efficacité de l'entraînement : Les méthodes traditionnelles utilisant l'apprentissage par renforcement nécessitent beaucoup d'interactions avec l'environnement, ce qui peut prendre du temps et consommer beaucoup de ressources.
Écarts de domaine : Les robots doivent suivre de nouveaux objets qui peuvent avoir l'air différents ou bouger de manière imprévisible. Cette incohérence peut poser des problèmes lorsque l'agent interagit avec différents environnements.
Raisonnement spatial et temporel : Suivre des objets dans des environnements compliqués nécessite que l'agent comprenne à la fois l'espace et le temps qui l'entourent pour éviter les obstacles et les distractions.
Contraintes en temps réel : Le suivi en temps réel est important car les objets peuvent bouger rapidement. Le système de suivi doit réagir immédiatement, même avec une puissance de traitement limitée.
Méthode proposée
Le système de suivi proposé fusionne des modèles visuels avancés et un apprentissage hors ligne pour améliorer le suivi visuel incarné. Le processus commence par la collecte de données, où l'agent recueille des informations sur son environnement.
Acquisition de données
La première étape consiste à rassembler des données en utilisant un agent qui interagit avec un environnement virtuel. Il collecte des images et des actions qui représentent comment suivre la cible. Ces données incluent divers cas, y compris lorsque des objets bloquent la vue ou lorsque des objets ressemblants pourraient distraire l'agent.
Les images couleur sont traitées à l'aide d'un modèle de fond visuel (MFV) pour créer des masques sémantiques qui mettent en évidence l'objet cible. Les masques aident l'agent à faire la différence entre la cible, les obstacles et l'arrière-plan.
Le modèle de suivi ne nécessite pas un ajustement fin étendu ; il peut fonctionner avec le modèle pré-entraîné. L'algorithme d'apprentissage par renforcement hors ligne entraîne le système en utilisant les données collectées sans avoir besoin d'interagir à nouveau avec l'environnement.
Retargeting des masques et stratégie de collecte de données
Pour améliorer la résilience du modèle et sa capacité à généraliser, la méthode proposée inclut également des mécanismes de retargeting des masques et de collecte de données à différents niveaux. L'objectif est de former un suiveur fiable rapidement, même sur du matériel grand public.
La collecte de données se compose de plusieurs étapes :
Randomisation de l'environnement : L'environnement virtuel est configuré pour modifier ses conditions, rendant les choses plus difficiles et variées. L'éclairage, les obstacles et les objets sont randomisés pour créer différents scénarios.
Génération de données multi-niveaux : La méthode utilise un système de navigation pour créer des chemins divers pour la cible et les distractions. L'agent utilise une stratégie de contrôle spécifique pour suivre les cibles tout en introduisant du bruit pour simuler différents niveaux de compétence.
Traitement des observations brutes : Les images collectées sont traitées pour créer les masques sémantiquement significatifs, qui simplifient les informations que le modèle doit gérer pendant le suivi.
Apprentissage de la politique
La partie principale de la méthode est l'entraînement d'un réseau de politique récurrent qui apprend comment suivre la cible en utilisant les masques sémantiques. Le réseau récurrent aide l'agent à se souvenir des informations au fil du temps, ce qui est essentiel pour gérer des situations difficiles.
L'entraînement se concentre sur l'apprentissage par renforcement hors ligne, où le modèle apprend à partir d'un ensemble de données fixe, évitant ainsi la nécessité d'interactions supplémentaires avec l'environnement. Cela améliore l'efficacité de l'apprentissage et réduit le coût de l'entraînement.
Évaluation de la méthode
Le système de suivi proposé a été testé dans divers environnements à haute fidélité pour évaluer sa performance. Ces environnements simulent des conditions réelles pour mettre au défi l'agent de suivi.
Configuration expérimentale
La méthode a été évaluée dans cinq environnements différents qui imitent des cadres du monde réel. Chaque environnement présentait des défis uniques, tels que des variations d'éclairage, des distractions d'objets et des agencements complexes.
La performance du système a été évaluée sur la base des métriques suivantes :
- Récompense accumulée : La récompense totale obtenue par l'agent dans chaque environnement lors de plusieurs essais.
- Durée des épisodes : La durée moyenne pendant laquelle l'agent a suivi avec succès la cible.
- Taux de réussite : Le pourcentage d'épisodes durant lesquels l'agent a maintenu la cible en vue tout au long de l'essai.
Robustesse et généralisation
Un des aspects critiques de l'évaluation était de vérifier comment la méthode proposée gère les distractions provenant d'objets ressemblants et les occlusions. Les résultats ont démontré que l'agent de suivi pouvait maintenir un haut niveau de performance même avec diverses distractions.
La capacité à généraliser à de nouveaux environnements et à des catégories de cibles non vues était également un axe d'attention. L'agent de suivi a bien performé dans différents environnements, confirmant son adaptabilité.
Discussion des résultats
Les résultats ont montré que le nouveau système de suivi a surperformé les méthodes existantes en termes d'efficacité et d'efficacité. La méthode proposée a réussi à créer un agent de suivi fonctionnel et fiable qui pouvait apprendre rapidement, bien généraliser à de nouvelles situations et résister aux distractions.
Efficacité de l'entraînement
Comparé aux méthodes traditionnelles d'apprentissage par renforcement en ligne, qui nécessitent généralement de longues heures d'interaction avec l'environnement, la méthode proposée n'a eu besoin que d'environ une heure pour obtenir des résultats similaires ou meilleurs. Cette réduction drastique du temps d'entraînement est une amélioration significative.
Généralisation aux cibles non vues
Lorsqu'il a été testé dans des environnements avec des cibles auparavant non vues, la méthode proposée a tout de même réussi à bien performer. Cette capacité montre la robustesse de la politique de suivi.
Robustesse aux distractions
À travers des tests rigoureux, il est devenu clair que le système pouvait gérer diverses distractions. Malgré la présence d'objets confus ressemblant à la cible, l'agent a pu garder son attention sur sa cible et suivre efficacement.
Conclusion
Ce travail met en avant une avancée significative dans le suivi visuel incarné grâce à la combinaison de modèles de fond visuel et d'apprentissage par renforcement hors ligne. La méthode proposée est efficace, robuste et capable de bien généraliser dans différentes conditions.
Les résultats ouvrent la voie pour des recherches futures visant à améliorer les agents de vision incarnée. En continuant à améliorer l'adaptabilité et à minimiser la dépendance à de grands ensembles de données, les applications potentielles de cette technologie dans des scénarios réels sont passionnantes.
Les développements dans ce domaine pourraient conduire à des systèmes robotiques plus avancés capables d'opérer sans problème dans des environnements dynamiques, augmentant leur utilité pratique dans divers secteurs.
Titre: Empowering Embodied Visual Tracking with Visual Foundation Models and Offline RL
Résumé: Embodied visual tracking is to follow a target object in dynamic 3D environments using an agent's egocentric vision. This is a vital and challenging skill for embodied agents. However, existing methods suffer from inefficient training and poor generalization. In this paper, we propose a novel framework that combines visual foundation models(VFM) and offline reinforcement learning(offline RL) to empower embodied visual tracking. We use a pre-trained VFM, such as "Tracking Anything", to extract semantic segmentation masks with text prompts. We then train a recurrent policy network with offline RL, e.g., Conservative Q-Learning, to learn from the collected demonstrations without online interactions. To further improve the robustness and generalization of the policy network, we also introduce a mask re-targeting mechanism and a multi-level data collection strategy. In this way, we can train a robust policy within an hour on a consumer-level GPU, e.g., Nvidia RTX 3090. We evaluate our agent on several high-fidelity environments with challenging situations, such as distraction and occlusion. The results show that our agent outperforms state-of-the-art methods in terms of sample efficiency, robustness to distractors, and generalization to unseen scenarios and targets. We also demonstrate the transferability of the learned agent from virtual environments to a real-world robot.
Auteurs: Fangwei Zhong, Kui Wu, Hai Ci, Churan Wang, Hao Chen
Dernière mise à jour: 2024-07-22 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2404.09857
Source PDF: https://arxiv.org/pdf/2404.09857
Licence: https://creativecommons.org/licenses/by-nc-sa/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://www.dji-robomaster.com/robomaster-ep.html
- https://sites.google.com/view/offline-evt
- https://support.apple.com/en-ca/guide/preview/prvw11793/mac#:~:text=Delete%20a%20page%20from%20a,or%20choose%20Edit%20%3E%20Delete
- https://www.adobe.com/acrobat/how-to/delete-pages-from-pdf.html#:~:text=Choose%20%E2%80%9CTools%E2%80%9D%20%3E%20%E2%80%9COrganize,or%20pages%20from%20the%20file
- https://superuser.com/questions/517986/is-it-possible-to-delete-some-pages-of-a-pdf-document
- https://github.com/visionml/pytracking
- https://github.com/zfw1226/active_tracking_rl/distractor
- https://github.com/hkchengrex/Tracking-Anything-with-DEVA
- https://github.com/z-x-yang/Segment-and-Track-Anything
- https://github.com/facebookresearch/dinov2
- https://github.com/xetdata/EfficientSAM
- https://github.com/BY571/CQL
- https://ctan.org/pkg/axessibility?lang=en