Simple Science

La science de pointe expliquée simplement

# Informatique # Vision par ordinateur et reconnaissance des formes

Walker : Une nouvelle façon de suivre des objets dans les vidéos

Walker propose un suivi d'objets efficace avec un minimum d'étiquetage de données.

Mattia Segu, Luigi Piccinelli, Siyuan Li, Luc Van Gool, Fisher Yu, Bernt Schiele

― 7 min lire


Les transformées Walker Les transformées Walker pour le suivi d'objet d'objets. de labellisation dans le suivi Une nouvelle méthode réduit les efforts
Table des matières

Le Suivi d'objets multiples (MOT) est une tâche super importante en vision par ordinateur où l'objectif est de suivre plusieurs objets dans une vidéo au fil du temps. Traditionnellement, ça demande beaucoup de travail manuel pour annoter chaque objet dans chaque image, ce qui peut devenir super long et cher. Cet article présente Walker, une nouvelle méthode qui peut suivre des objets dans des vidéos avec un effort d'annotation minimal.

C'est quoi l'Apprentissage auto-supervisé ?

L'apprentissage auto-supervisé est une technique où le modèle apprend directement des données sans avoir besoin d'Annotations détaillées. Dans ce cas, Walker apprend à suivre des objets en utilisant seulement des annotations de boîtes englobantes éparses, ce qui signifie que les boîtes qui identifient les objets sont fournies seulement pour certaines images, pas toutes. Ça réduit le besoin d'annotations extensives, rendant le processus d'entraînement plus efficace.

Aperçu de la Méthode Walker

La méthode Walker est conçue pour apprendre le suivi d'objets à partir de vidéos avec seulement des annotations limitées. Au lieu de nécessiter des étiquettes constantes pour chaque image, Walker utilise ce qu'il appelle un graphe d'apparence d'objet temporel quasi-dense (TOAG). Ce graphe relie différentes détections dans la vidéo pour aider le modèle à apprendre les identités des objets.

Comment Walker Fonctionne

  1. Conception du Graphe : La première étape consiste à créer un graphe où chaque nœud représente un objet détecté dans la vidéo. Les connexions (arêtes) entre les nœuds sont basées sur la similarité d'apparence des objets.

  2. Apprendre les Similarités des Objets : Walker utilise une technique spéciale appelée apprentissage contrastif multi-positif, qui aide le modèle à apprendre quels objets se ressemblent. Cela se fait en optimisant des marches aléatoires - en gros une manière de naviguer à travers le graphe pour trouver des connexions entre les objets détectés.

  3. Trouver des Correspondances : Lorsqu'il s'agit de suivre des objets, Walker utilise les infos du graphe pour associer les objets détectés dans une image aux tracklets dans une autre. Ça se fait en se basant sur les transitions les plus probables des objets pendant qu'ils se déplacent dans la vidéo.

Pourquoi c'est Important ?

Le MOT est essentiel pour différentes applications, comme les voitures autonomes, la surveillance vidéo et la réalité augmentée. Les méthodes de suivi traditionnelles nécessitent beaucoup de données annotées, ce qui peut être difficile à obtenir. L'approche auto-supervisée de Walker permet un suivi efficace même quand la quantité de données étiquetées disponibles est faible.

Avantages de Walker

  • Coûts d'Annotation Réduits : En utilisant l'auto-supervision au niveau vidéo, Walker peut tirer parti des images sans étiquettes, réduisant ainsi le besoin d'annotations extensives.

  • Performance Compétitive : Malgré un effort d'annotation réduit, Walker montre des résultats prometteurs, atteignant des niveaux de performance comparables aux trackers supervisés à la pointe.

  • Flexibilité : Walker peut être adapté pour fonctionner avec divers ensembles de données et scénarios de suivi, le rendant polyvalent dans ses applications.

Travaux Connexes

Approches de Suivi d'Objets Multiples

La plupart des méthodes MOT existantes reposent sur la détection d'objets dans chaque image et ensuite sur leur liaison à travers les images. Les méthodes traditionnelles utilisent souvent des heuristiques basées sur le mouvement pour faire correspondre les objets au fil du temps, mais peuvent avoir du mal dans des conditions difficiles comme les occlusions ou les mouvements rapides.

Les avancées récentes combinent détection et apprentissage d'apparence, où le modèle non seulement détecte mais apprend aussi à reconnaître les objets selon leur apparence. Cependant, ces méthodes nécessitent généralement des annotations détaillées, ce qui limite leur utilisation pratique.

Apprentissage Auto-Supervisé en Ré-Identification

Dans le domaine de la ré-identification (Re-ID), les méthodes auto-supervisées supposent généralement la présence de bonnes détections. Elles s'appuient souvent sur l'auto-supervision au niveau de l'image, ce qui ne tire pas parti des données temporelles dans les vidéos. Ça peut créer des défis pour apprendre des caractéristiques d'apparence robustes qui résistent aux changements de point de vue ou d'échelle.

Contributions de Walker

  1. Suivi Auto-Supervisé : Walker introduit une approche novatrice de suivi auto-supervisé qui nécessite seulement des annotations éparses, réduisant significativement la charge d'annotation.

  2. Apprentissage Multi-Positif : En optimisant plusieurs cibles positives pendant le processus d'apprentissage, Walker est capable de créer des représentations plus précises des objets, permettant un meilleur suivi.

  3. Exclusivité Mutuelle : Walker impose une propriété d'exclusivité mutuelle dans ses règles de connectivité, garantissant que chaque objet est identifié de manière unique pendant le processus de suivi.

Entraînement du Modèle Walker

Préparation des Données

Entraîner Walker implique de sélectionner des images clés de la vidéo qui contiennent des annotations de boîtes englobantes. Dans le cadre épars, une image est étiquetée pour toutes les 10 images. Les autres images peuvent quand même être utilisées pour l'apprentissage, même si elles ne sont pas annotées.

Le Processus d'Entraînement

Pendant l'entraînement, Walker utilise les images étiquetées pour apprendre à représenter les objets en créant le TOAG. Le modèle s'ajuste continuellement pour s'assurer que les représentations d'objets qu'il apprend sont efficaces pour distinguer différents objets.

Suivi avec Walker

Lors du suivi, Walker traite les vidéos entrantes pour associer les objets détectés aux tracklets existants. La première étape consiste à faire correspondre les détections à haute confiance aux tracklets existants en se basant sur les représentations apprises. Une étape secondaire implique d'associer des détections à plus faible confiance aux tracklets.

Stratégie d'Association

Walker combine les informations de mouvement et d'apparence pour améliorer l'association des objets. Ça veut dire qu'il ne regarde pas seulement à quel point les objets se ressemblent mais considère aussi où le modèle s'attend à ce qu'ils soient en fonction de leurs positions précédentes.

Évaluation de Walker

Pour évaluer l'efficacité de Walker, des expériences ont été réalisées en utilisant des ensembles de données bien connus dans le domaine du MOT, tels que MOT17 et BDD100K. Les résultats montrent que Walker fonctionne bien avec des annotations réduites par rapport aux méthodes traditionnelles.

Comparaison avec d'Autres Méthodes

Walker a été comparé à diverses méthodes à la pointe en termes de performance sur ces ensembles de données. Les résultats indiquent que Walker peut atteindre un niveau de performance compétitif tout en utilisant beaucoup moins de données annotées.

Conclusion

L'introduction de Walker représente une avancée importante dans le domaine du suivi d'objets multiples. En mettant en œuvre une approche auto-supervisée qui minimise les exigences en matière d'annotations, Walker simplifie non seulement le processus d'entraînement mais maintient aussi des normes de performance élevées. Cela a des implications significatives pour la recherche future et l'application dans des domaines nécessitant des solutions de suivi efficaces.

Le design de Walker lui permet de s'adapter à différentes situations avec des données étiquetées limitées, ouvrant la voie à une utilisation plus large dans diverses tâches de vision par ordinateur. Le développement continu de méthodes auto-supervisées comme Walker est crucial pour améliorer les capacités des systèmes de suivi dans des applications réelles.

Source originale

Titre: Walker: Self-supervised Multiple Object Tracking by Walking on Temporal Appearance Graphs

Résumé: The supervision of state-of-the-art multiple object tracking (MOT) methods requires enormous annotation efforts to provide bounding boxes for all frames of all videos, and instance IDs to associate them through time. To this end, we introduce Walker, the first self-supervised tracker that learns from videos with sparse bounding box annotations, and no tracking labels. First, we design a quasi-dense temporal object appearance graph, and propose a novel multi-positive contrastive objective to optimize random walks on the graph and learn instance similarities. Then, we introduce an algorithm to enforce mutually-exclusive connective properties across instances in the graph, optimizing the learned topology for MOT. At inference time, we propose to associate detected instances to tracklets based on the max-likelihood transition state under motion-constrained bi-directional walks. Walker is the first self-supervised tracker to achieve competitive performance on MOT17, DanceTrack, and BDD100K. Remarkably, our proposal outperforms the previous self-supervised trackers even when drastically reducing the annotation requirements by up to 400x.

Auteurs: Mattia Segu, Luigi Piccinelli, Siyuan Li, Luc Van Gool, Fisher Yu, Bernt Schiele

Dernière mise à jour: 2024-09-25 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2409.17221

Source PDF: https://arxiv.org/pdf/2409.17221

Licence: https://creativecommons.org/licenses/by-sa/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires

Physique des hautes énergies - Phénoménologie Avancées dans la modélisation de particules masquées pour la physique

Les chercheurs améliorent les techniques de modélisation des particules en utilisant des méthodes d'apprentissage automatique.

Matthew Leigh, Samuel Klein, François Charton

― 9 min lire