Simple Science

La science de pointe expliquée simplement

# Informatique# Vision par ordinateur et reconnaissance des formes# Intelligence artificielle# Robotique

Avancées dans le suivi visuel incarné pour les agents

Une nouvelle méthode améliore la façon dont les robots suivent des objets dans des environnements complexes.

― 8 min lire


Méthode de suivi d'objetMéthode de suivi d'objetefficaceobjets en temps réel.Un système robuste pour suivre des
Table des matières

Suivre des objets dans des environnements 3D, c'est une compétence clé pour les robots et les agents virtuels. Cette tâche s'appelle le suivi visuel incarné (EVC). Imagine un robot qui suit une personne dans un endroit bondé ou un drone qui suit un objet dans un parc. Même si ça a l'air simple, c'est en fait assez compliqué à cause des obstacles, des objets en mouvement et des changements dans la scène.

Les méthodes actuelles pour suivre des objets ont souvent du mal. Elles nécessitent beaucoup de temps pour s'entraîner et parfois, elles ne s'en sortent pas bien face à de nouvelles situations. Les recherches récentes essaient de fusionner des modèles visuels avancés avec des techniques d'apprentissage hors ligne pour améliorer la façon dont ces agents suivent les objets. Cet article parle d'un système qui combine ces méthodes pour créer un agent de suivi plus efficace et capable.

Contexte

Les agents incarnés, comme les robots ou les avatars, ont besoin de suivre visuellement des objets tout en effectuant des tâches. Par exemple, un robot pourrait devoir suivre une personne pour l'aider. Les utilisations pratiques du suivi visuel incarné incluent les robots mobiles, les drones et les voitures autonomes.

Mais il y a des défis pour mettre en place un suivi efficace :

  1. Efficacité de l'entraînement : Les méthodes traditionnelles utilisant l'apprentissage par renforcement nécessitent beaucoup d'interactions avec l'environnement, ce qui peut prendre du temps et consommer beaucoup de ressources.

  2. Écarts de domaine : Les robots doivent suivre de nouveaux objets qui peuvent avoir l'air différents ou bouger de manière imprévisible. Cette incohérence peut poser des problèmes lorsque l'agent interagit avec différents environnements.

  3. Raisonnement spatial et temporel : Suivre des objets dans des environnements compliqués nécessite que l'agent comprenne à la fois l'espace et le temps qui l'entourent pour éviter les obstacles et les distractions.

  4. Contraintes en temps réel : Le suivi en temps réel est important car les objets peuvent bouger rapidement. Le système de suivi doit réagir immédiatement, même avec une puissance de traitement limitée.

Méthode proposée

Le système de suivi proposé fusionne des modèles visuels avancés et un apprentissage hors ligne pour améliorer le suivi visuel incarné. Le processus commence par la collecte de données, où l'agent recueille des informations sur son environnement.

Acquisition de données

La première étape consiste à rassembler des données en utilisant un agent qui interagit avec un environnement virtuel. Il collecte des images et des actions qui représentent comment suivre la cible. Ces données incluent divers cas, y compris lorsque des objets bloquent la vue ou lorsque des objets ressemblants pourraient distraire l'agent.

Les images couleur sont traitées à l'aide d'un modèle de fond visuel (MFV) pour créer des masques sémantiques qui mettent en évidence l'objet cible. Les masques aident l'agent à faire la différence entre la cible, les obstacles et l'arrière-plan.

Le modèle de suivi ne nécessite pas un ajustement fin étendu ; il peut fonctionner avec le modèle pré-entraîné. L'algorithme d'apprentissage par renforcement hors ligne entraîne le système en utilisant les données collectées sans avoir besoin d'interagir à nouveau avec l'environnement.

Retargeting des masques et stratégie de collecte de données

Pour améliorer la résilience du modèle et sa capacité à généraliser, la méthode proposée inclut également des mécanismes de retargeting des masques et de collecte de données à différents niveaux. L'objectif est de former un suiveur fiable rapidement, même sur du matériel grand public.

La collecte de données se compose de plusieurs étapes :

  1. Randomisation de l'environnement : L'environnement virtuel est configuré pour modifier ses conditions, rendant les choses plus difficiles et variées. L'éclairage, les obstacles et les objets sont randomisés pour créer différents scénarios.

  2. Génération de données multi-niveaux : La méthode utilise un système de navigation pour créer des chemins divers pour la cible et les distractions. L'agent utilise une stratégie de contrôle spécifique pour suivre les cibles tout en introduisant du bruit pour simuler différents niveaux de compétence.

  3. Traitement des observations brutes : Les images collectées sont traitées pour créer les masques sémantiquement significatifs, qui simplifient les informations que le modèle doit gérer pendant le suivi.

Apprentissage de la politique

La partie principale de la méthode est l'entraînement d'un réseau de politique récurrent qui apprend comment suivre la cible en utilisant les masques sémantiques. Le réseau récurrent aide l'agent à se souvenir des informations au fil du temps, ce qui est essentiel pour gérer des situations difficiles.

L'entraînement se concentre sur l'apprentissage par renforcement hors ligne, où le modèle apprend à partir d'un ensemble de données fixe, évitant ainsi la nécessité d'interactions supplémentaires avec l'environnement. Cela améliore l'efficacité de l'apprentissage et réduit le coût de l'entraînement.

Évaluation de la méthode

Le système de suivi proposé a été testé dans divers environnements à haute fidélité pour évaluer sa performance. Ces environnements simulent des conditions réelles pour mettre au défi l'agent de suivi.

Configuration expérimentale

La méthode a été évaluée dans cinq environnements différents qui imitent des cadres du monde réel. Chaque environnement présentait des défis uniques, tels que des variations d'éclairage, des distractions d'objets et des agencements complexes.

La performance du système a été évaluée sur la base des métriques suivantes :

  1. Récompense accumulée : La récompense totale obtenue par l'agent dans chaque environnement lors de plusieurs essais.
  2. Durée des épisodes : La durée moyenne pendant laquelle l'agent a suivi avec succès la cible.
  3. Taux de réussite : Le pourcentage d'épisodes durant lesquels l'agent a maintenu la cible en vue tout au long de l'essai.

Robustesse et généralisation

Un des aspects critiques de l'évaluation était de vérifier comment la méthode proposée gère les distractions provenant d'objets ressemblants et les occlusions. Les résultats ont démontré que l'agent de suivi pouvait maintenir un haut niveau de performance même avec diverses distractions.

La capacité à généraliser à de nouveaux environnements et à des catégories de cibles non vues était également un axe d'attention. L'agent de suivi a bien performé dans différents environnements, confirmant son adaptabilité.

Discussion des résultats

Les résultats ont montré que le nouveau système de suivi a surperformé les méthodes existantes en termes d'efficacité et d'efficacité. La méthode proposée a réussi à créer un agent de suivi fonctionnel et fiable qui pouvait apprendre rapidement, bien généraliser à de nouvelles situations et résister aux distractions.

Efficacité de l'entraînement

Comparé aux méthodes traditionnelles d'apprentissage par renforcement en ligne, qui nécessitent généralement de longues heures d'interaction avec l'environnement, la méthode proposée n'a eu besoin que d'environ une heure pour obtenir des résultats similaires ou meilleurs. Cette réduction drastique du temps d'entraînement est une amélioration significative.

Généralisation aux cibles non vues

Lorsqu'il a été testé dans des environnements avec des cibles auparavant non vues, la méthode proposée a tout de même réussi à bien performer. Cette capacité montre la robustesse de la politique de suivi.

Robustesse aux distractions

À travers des tests rigoureux, il est devenu clair que le système pouvait gérer diverses distractions. Malgré la présence d'objets confus ressemblant à la cible, l'agent a pu garder son attention sur sa cible et suivre efficacement.

Conclusion

Ce travail met en avant une avancée significative dans le suivi visuel incarné grâce à la combinaison de modèles de fond visuel et d'apprentissage par renforcement hors ligne. La méthode proposée est efficace, robuste et capable de bien généraliser dans différentes conditions.

Les résultats ouvrent la voie pour des recherches futures visant à améliorer les agents de vision incarnée. En continuant à améliorer l'adaptabilité et à minimiser la dépendance à de grands ensembles de données, les applications potentielles de cette technologie dans des scénarios réels sont passionnantes.

Les développements dans ce domaine pourraient conduire à des systèmes robotiques plus avancés capables d'opérer sans problème dans des environnements dynamiques, augmentant leur utilité pratique dans divers secteurs.

Source originale

Titre: Empowering Embodied Visual Tracking with Visual Foundation Models and Offline RL

Résumé: Embodied visual tracking is to follow a target object in dynamic 3D environments using an agent's egocentric vision. This is a vital and challenging skill for embodied agents. However, existing methods suffer from inefficient training and poor generalization. In this paper, we propose a novel framework that combines visual foundation models(VFM) and offline reinforcement learning(offline RL) to empower embodied visual tracking. We use a pre-trained VFM, such as "Tracking Anything", to extract semantic segmentation masks with text prompts. We then train a recurrent policy network with offline RL, e.g., Conservative Q-Learning, to learn from the collected demonstrations without online interactions. To further improve the robustness and generalization of the policy network, we also introduce a mask re-targeting mechanism and a multi-level data collection strategy. In this way, we can train a robust policy within an hour on a consumer-level GPU, e.g., Nvidia RTX 3090. We evaluate our agent on several high-fidelity environments with challenging situations, such as distraction and occlusion. The results show that our agent outperforms state-of-the-art methods in terms of sample efficiency, robustness to distractors, and generalization to unseen scenarios and targets. We also demonstrate the transferability of the learned agent from virtual environments to a real-world robot.

Auteurs: Fangwei Zhong, Kui Wu, Hai Ci, Churan Wang, Hao Chen

Dernière mise à jour: 2024-07-22 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2404.09857

Source PDF: https://arxiv.org/pdf/2404.09857

Licence: https://creativecommons.org/licenses/by-nc-sa/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires