Simple Science

La science de pointe expliquée simplement

# Informatique# Vision par ordinateur et reconnaissance des formes

Avancées dans le suivi multiple d'objets à vocabulaire ouvert

Un nouveau traqueur identifie et suit efficacement divers objets dans les vidéos.

― 9 min lire


Nouveau progrès dans leNouveau progrès dans lesuivi d'objetsobjets invisibles en temps réel.Révolutionner la façon dont on suit les
Table des matières

Reconnaître, localiser et suivre des objets en mouvement dans les vidéos est super important pour plein d'usages dans la vraie vie, comme les voitures autonomes et les robots. Mais bon, beaucoup de systèmes existants ne peuvent suivre qu'un nombre limité de types d'objets sur lesquels ils ont été formés. Du coup, ça limite leur capacité à fonctionner dans le monde réel où plein de types d'objets différents peuvent apparaître.

Le Problème

Les méthodes de suivi actuelles se concentrent sur une petite liste de types d'objets. Ça veut dire que si un objet n'est pas dans la liste, le système peut ne pas bien le reconnaître ou le suivre. C'est un gros souci quand l'objectif est d'appliquer le suivi dans diverses situations quotidiennes.

Alors que certains chercheurs essaient de s'attaquer à ça en créant des systèmes capables de gérer plus d'objets inconnus, ils rencontrent des défis. Identifier chaque objet dans une vidéo coûte cher et prend du temps. En plus, sans définition claire de ce qui compte comme objet, déterminer à quel point un système de suivi fonctionne devient compliqué.

Une Nouvelle Approche

Cet article présente une nouvelle tâche appelée suivi multiple d'objets à Vocabulaire ouvert (MOT). Le but de cette tâche est de suivre différents types d'objets qui n'ont pas été définis pendant l'entraînement. On vous présente un nouveau tracker conçu pour gérer n'importe quel type d'objet.

Le tracker est construit sur deux idées principales : d'abord, il utilise un modèle qui relie images et texte pour aider à identifier et connecter les objets ; ensuite, il utilise une méthode unique pour créer des données d'entraînement supplémentaires à partir d'images existantes.

Le Tracker

Ce tracker à vocabulaire ouvert est efficace et capable de suivre un large éventail d'objets. Pendant l'entraînement, il utilise un modèle qui connecte visuels et textes pour générer plus d'exemples d'entraînement et apprendre de meilleures associations. En phase de test, le tracker peut identifier à la fois des objets familiers et des nouveaux en se référant à ce modèle.

Suivi Multiple d'Objets Expliqué

Le suivi multiple d'objets fait référence au processus de reconnaissance et de suivi de plusieurs objets dans une séquence vidéo. Cette capacité est clé pour analyser des scènes dynamiques, ce qui est essentiel pour des applications comme la conduite autonome et la surveillance vidéo.

Les méthodes traditionnelles de suivi reposent sur un ensemble limité de catégories, ce qui restreint leur efficacité. En conséquence, beaucoup de systèmes de suivi actuels peuvent ne pas bien fonctionner avec de nouveaux objets ou dans des scénarios complexes.

Contexte de Suivi en Monde Ouvert

Des recherches précédentes ont exploré le suivi dans un cadre de monde ouvert, où le système doit identifier des objets dans une scène sans connaître leurs catégories à l'avance. Certaines méthodes segmentent la scène pour isoler les objets avant d'essayer de les classer. D'autres utilisent des localisateurs génériques qui ne nécessitent pas de catégories prédéfinies.

Cependant, ce suivi en monde ouvert fait encore face à d'importants défis. Par exemple, annoter chaque objet dans une vidéo n'est pas pratique. De plus, sans catégories claires pour les objets, mesurer la précision du suivi devient compliqué.

Notre Proposition : MOT à Vocabulaire Ouvert

Le MOT à vocabulaire ouvert vise à suivre plusieurs objets sans être limité à une liste de catégories. Au lieu d'ignorer complètement la classification, on suppose que l'on sait quels objets on veut suivre au stade des tests. Cette approche nous permet d'utiliser des métriques établies qui mesurent efficacement la précision et le rappel.

On décrit un nouveau système pour le suivi à vocabulaire ouvert, en se concentrant sur la manière de construire et d'évaluer un tel tracker. Notre méthode est conçue pour relever deux défis principaux : s'étendre au-delà des catégories fixes et faire face au manque de données.

Caractéristiques Clés du Tracker

Pour suivre efficacement un large éventail d'objets, on remplace les méthodes de classification traditionnelles par un système qui mesure les similarités entre les objets et un large ensemble de catégories. On y arrive en utilisant des modèles existants qui relient images et textes.

Un suivi robuste dépend énormément de la compréhension des mouvements et des apparences des objets. Alors que les indices de mouvement peuvent être peu fiables dans des contextes ouverts, les indices d'apparence sont plus fiables. Améliorer la manière dont on représente les apparences nous permet de mieux suivre, même parmi des objets inconnus.

S'attaquer à la Disponibilité des données

Un gros problème, c'est la disponibilité des données d'entraînement. Comprendre comment les objets peuvent apparaître dans des situations réelles signifie qu'on a besoin d'une vaste et diverse gamme d'exemples d'entraînement. Pour contrer ce problème, on tire parti des avancées récentes dans la création de données synthétiques via des modèles génératifs, ce qui nous permet de produire de nouveaux exemples d'entraînement.

Résumé des Contributions

En résumé, on développe le premier tracker multi-objets à vocabulaire ouvert, qui utilise des modèles reliant vision et langage pour améliorer l'efficacité du suivi. De plus, notre approche innovante de génération de données aide à résoudre le manque de données d'entraînement.

Notre tracker montre des performances impressionnantes à travers diverses métriques, prouvant qu'il peut gérer efficacement plusieurs objets inconnus tout en surpassant les systèmes existants.

Travaux Connus

Méthodes Actuelles de Suivi d'Objets

La plupart des systèmes de suivi d'objets reposent sur une technique appelée suivi par détection. Cela implique de détecter des objets dans chaque image et ensuite d'essayer de les suivre dans le temps. Beaucoup d'études se concentrent sur l'amélioration de la manière dont les données sont associées en explorant des similarités visuelles et des motifs de mouvement.

Bien que certaines avancées utilisent des réseaux de neurones graphiques ou des transformateurs pour améliorer l'association, elles rencontrent encore des défis parce que les modèles traditionnels sont souvent adaptés à des catégories spécifiques présentes dans les données d'entraînement.

Détection et Suivi en Monde Ouvert

Les méthodes de détection en monde ouvert visent à repérer tout objet visible dans une image, peu importe sa catégorie. Cependant, l'aspect classification devient compliqué puisque de nouvelles classes sont généralement inconnues. Les méthodes en monde ouvert contournent ce problème en traitant la classification comme un défi de regroupement.

En revanche, la détection à vocabulaire ouvert se concentre sur l'identification de toute classe donnée et connue au moment des tests. Cela a conduit à des connexions entre la détection d'objets et les représentations textuelles pour améliorer le suivi.

Aller au-delà des Méthodes Traditionnelles

Bien qu'il y ait eu quelques explorations dans le suivi en monde ouvert, beaucoup d'approches peinent encore à évaluer à quel point un tracker peut identifier un objet. De manière générale, en connaissant les classes qui nous intéressent pendant les tests, on peut mieux mesurer les performances du suivi.

Entraîner Notre Tracker

Le tracker à vocabulaire ouvert est entraîné sans avoir besoin de données vidéo étiquetées. Au lieu de ça, on utilise des images statiques et adopte un processus de formation en deux étapes. La première étape se concentre sur l'enseignement des composants de détection en n'utilisant que des images statiques. La seconde étape ajuste le modèle pour les besoins du suivi.

On s'appuie sur un grand et diversifié ensemble de données d'images statiques pour développer notre système de suivi. L'apprentissage se fait en contrastant des exemples similaires et dissemblables, ce qui est clé pour améliorer notre capacité à identifier et suivre les objets avec précision.

Stratégie d'Hallucination de Données

Pour aider à simuler l'apparence des objets dans les vidéos, notre tracker utilise une technique d'hallucination de données. Cette stratégie génère des variations d'images en introduisant des changements aléatoires, ce qui nous permet de créer de nouveaux exemples ressemblant à la diversité observée dans les vidéos.

On introduit des transformations aléatoires sur les images, améliorant ainsi l'ensemble de données d'entraînement en créant des instances supplémentaires susceptibles de se produire dans des scénarios réels.

Évaluation des Performances du Suivi

Lors de l'évaluation des performances de notre tracker, on le compare à des trackers à ensembles fermés existants et à d'autres méthodes à vocabulaire ouvert. On mesure la performance en fonction de la capacité à suivre des objets connus et inconnus.

À l'aide de diverses métriques, on montre que notre tracker est efficace pour maintenir des capacités de suivi robustes tout en réussissant à classer des objets, surtout ceux qui n'ont pas été vus pendant la phase d'entraînement.

Résultats

Nos résultats indiquent que notre tracker performe significativement mieux que les systèmes existants. Il obtient des scores plus élevés sur diverses métriques, montrant sa capacité à suivre des objets qui n'étaient pas inclus pendant l'entraînement.

En comparant notre méthode avec d'autres sur un ensemble de catégories connues et de nouvelles classes, on confirme que notre tracker gère efficacement les deux scénarios.

Conclusion

Ce travail établit le suivi multiple d'objets à vocabulaire ouvert comme une approche précieuse pour améliorer les systèmes de suivi. En tirant parti des connexions entre l'information visuelle et textuelle, on a créé un nouveau tracker capable de gérer efficacement un large éventail de classes.

Notre approche s'attaque efficacement aux défis de disponibilité des données et de Précision de classification, ouvrant la voie aux futures avancées dans les technologies de suivi.

En gros, notre tracker ouvre la voie à des applications réelles améliorées, où des objets divers et inconnus peuvent être suivis avec une plus grande précision et efficacité.

Source originale

Titre: OVTrack: Open-Vocabulary Multiple Object Tracking

Résumé: The ability to recognize, localize and track dynamic objects in a scene is fundamental to many real-world applications, such as self-driving and robotic systems. Yet, traditional multiple object tracking (MOT) benchmarks rely only on a few object categories that hardly represent the multitude of possible objects that are encountered in the real world. This leaves contemporary MOT methods limited to a small set of pre-defined object categories. In this paper, we address this limitation by tackling a novel task, open-vocabulary MOT, that aims to evaluate tracking beyond pre-defined training categories. We further develop OVTrack, an open-vocabulary tracker that is capable of tracking arbitrary object classes. Its design is based on two key ingredients: First, leveraging vision-language models for both classification and association via knowledge distillation; second, a data hallucination strategy for robust appearance feature learning from denoising diffusion probabilistic models. The result is an extremely data-efficient open-vocabulary tracker that sets a new state-of-the-art on the large-scale, large-vocabulary TAO benchmark, while being trained solely on static images. Project page: https://www.vis.xyz/pub/ovtrack/

Auteurs: Siyuan Li, Tobias Fischer, Lei Ke, Henghui Ding, Martin Danelljan, Fisher Yu

Dernière mise à jour: 2023-04-17 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2304.08408

Source PDF: https://arxiv.org/pdf/2304.08408

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires