Simple Science

La science de pointe expliquée simplement

# Informatique# Vision par ordinateur et reconnaissance des formes

Progrès dans la segmentation d'instances vidéo en open-world

Découvrez comment OW-VIS transforme la reconnaissance d'objets vidéo avec de nouvelles techniques.

― 7 min lire


OW-VISFormer : UneOW-VISFormer : Unenouvelle frontièreconcrètes.d'objets vidéo pour des applicationsRévolutionner la reconnaissance
Table des matières

La Segmentation d'instances vidéo (VIS) est une tâche en vision par ordinateur qui vise à identifier, suivre et séparer différents objets dans les vidéos. C'est un boulot pas facile parce que les vidéos contiennent souvent des mouvements rapides, des objets variés et des arrière-plans compliqués. Les méthodes traditionnelles de VIS fonctionnent bien quand elles sont entraînées avec un ensemble fixe d'objets connus. Mais elles galèrent quand elles tombent sur des objets nouveaux ou inconnus qui n'étaient pas dans leur ensemble d'entraînement.

Le problème du monde fermé

Beaucoup de systèmes VIS existants fonctionnent sur l'hypothèse d'un monde fermé. Ça veut dire qu'ils ne peuvent travailler qu'avec des objets qu'ils ont déjà vus pendant l'entraînement. Si un nouvel objet apparaît dans une vidéo, ces systèmes peuvent ne pas l'identifier correctement ou peuvent le classer comme arrière-plan, ce qui fait qu'ils ratent des infos importantes. C'est un gros problème, parce que dans la vraie vie, on trouve souvent des objets inattendus ou peu familiers.

Vers une VIS en monde ouvert

Pour palier aux limites de l'approche du monde fermé, les chercheurs développent des méthodes de segmentation d'instances vidéo en monde ouvert (OW-VIS). Dans un cadre en monde ouvert, le système est conçu pour reconnaître à la fois des objets connus et inconnus. La première étape consiste à identifier les objets connus et à marquer tout le reste comme inconnu. Quand on a plus d'infos sur les objets inconnus, le système peut apprendre à reconnaître ces nouveaux objets sans devoir tout réentraîner depuis zéro.

Comment fonctionne OW-VIS

Dans OW-VIS, le système apprend à catégoriser les objets de deux manières :

  1. Il identifie les objets connus, ceux dont il a déjà entendu parler.
  2. Il classe les objets inconnus comme "inconnus" au départ, mais peut ensuite apprendre à les reconnaître comme de nouveaux objets connus quand il reçoit plus d'infos.

Ce processus permet au système VIS d'élargir ses connaissances au fil du temps, en s'adaptant aux nouvelles données au fur et à mesure qu'elles arrivent.

Présentation du cadre OW-VISFormer

Le OW-VISFormer est une nouvelle approche conçue spécialement pour la segmentation d'instances vidéo en monde ouvert. Il utilise deux techniques principales pour améliorer les performances :

Mécanisme d'enrichissement des caractéristiques

Ce mécanisme aide le système à mieux distinguer les différents objets dans la vidéo. Il améliore les caractéristiques qui aident à identifier et à séparer les objets connus et inconnus au niveau des pixels. En utilisant un réseau différent spécifiquement entraîné pour cette tâche, le système peut obtenir de meilleurs résultats en reconnaissant et en segmentant les objets.

Module d'objectivité spatio-temporelle

Ce module se concentre sur l'amélioration de la détection d'objets à travers plusieurs images vidéo. Il aide à créer des étiquettes pour les objets inconnus en évaluant les résultats de détection d'objets au fil du temps. Grâce à cette info, le système peut apprendre à mieux identifier et séparer les objets, même s'ils n'ont pas été reconnus pendant l'entraînement précédent.

Résultats de OW-VISFormer

Les expériences montrent que le OW-VISFormer surpasse les méthodes traditionnelles dans un cadre en monde ouvert. Le système peut identifier et segmenter avec précision à la fois les objets connus et inconnus, ce qui améliore globalement les performances. De plus, testé contre des systèmes VIS entièrement supervisés existants, le OW-VISFormer a montré des améliorations significatives.

Les gains de performance sont les plus évidents lorsqu'on compare à quel point le système reconnaît les objets inconnus, démontrant l'efficacité des techniques d'enrichissement des caractéristiques et du module d'objectivité.

Comparaison avec les méthodes traditionnelles

Les méthodes traditionnelles de VIS dépendent beaucoup des données étiquetées pour toutes les catégories d'objets. Elles utilisent généralement un ensemble d'entraînement bien défini d'objets connus, ce qui limite leur capacité à s'adapter à de nouvelles situations. En revanche, le OW-VISFormer cherche à apprendre de manière incrémentielle, facilitant la découverte et la classification des objets inconnus.

En rassemblant des infos sur des inconnues rencontrées précédemment et en ajustant sa compréhension au fur et à mesure que de nouvelles données arrivent, le OW-VISFormer peut gérer un ensemble d'objets en évolution. Cette capacité à s'adapter à de nouvelles données est cruciale pour les applications réelles, où des objets non vus apparaissent souvent.

Défis dans la VIS en monde ouvert

Malgré ses avantages, l'OW-VIS fait face à des défis uniques. Un problème est la confusion potentielle entre objets connus et inconnus, surtout s'ils partagent des caractéristiques similaires. Le système doit avoir des méthodes robustes pour étiqueter ces objets en temps réel.

De plus, il est crucial de s'assurer que le système n'oublie pas ses connaissances précédentes en apprenant de nouvelles catégories. Cet équilibre est un défi commun en apprentissage automatique, connu sous le nom d'oubli catastrophique. Le OW-VISFormer intègre des stratégies pour atténuer ce problème, le rendant plus efficace.

Évaluation du OW-VISFormer

L'efficacité du cadre OW-VISFormer est évaluée à travers divers critères typiquement utilisés dans le domaine de la VIS. Cela inclut la précision moyenne et le rappel moyen, qui mesurent à quel point le système identifie et suit les objets au fil du temps.

Dans des tests complets avec différents ensembles de données, le OW-VISFormer a constamment surpassé ses prédécesseurs, confirmant sa capacité à s'adapter efficacement aux nouvelles instances inconnues.

Applications de la segmentation d'instances vidéo en monde ouvert

Les avancées dans la segmentation d'instances vidéo en monde ouvert ont des implications vastes. Voici quelques applications potentielles :

Systèmes de surveillance

Dans la sécurité et la surveillance, le OW-VIS peut aider à surveiller des environnements où de nouvelles personnes ou objets peuvent fréquemment apparaître. Il peut différencier les menaces connues et les activités en cours, fournissant des infos critiques en temps réel.

Véhicules autonomes

Pour la technologie de conduite autonome, reconnaître et catégoriser des objets dans des environnements dynamiques est vital. La capacité du OW-VIS d'apprendre à partir de nouvelles données peut renforcer les capacités des véhicules à réagir face à des obstacles inattendus ou à des piétons.

Réalité augmentée

Dans la réalité augmentée, reconnaître des objets du monde réel est essentiel pour offrir une expérience utilisateur fluide. Le OW-VIS peut soutenir des applications qui interagissent avec les utilisateurs en temps réel, s'adaptant à l'environnement et fournissant des informations contextuelles.

Conclusion

La segmentation d'instances vidéo en monde ouvert représente un pas en avant significatif dans le domaine de la vision par ordinateur. En permettant aux systèmes de reconnaître et d'apprendre des objets connus et inconnus, le OW-VIS crée des opportunités pour des applications dans divers domaines, comme la surveillance, la conduite autonome et la réalité augmentée.

Le cadre OW-VISFormer améliore les méthodes traditionnelles en intégrant des stratégies innovantes qui permettent un apprentissage continu et une segmentation précise des objets dans des environnements dynamiques. À mesure que la recherche progresse, on peut s'attendre à des approches encore plus raffinées pour relever les défis de la reconnaissance et du suivi des objets dans le monde réel.

Source originale

Titre: Video Instance Segmentation in an Open-World

Résumé: Existing video instance segmentation (VIS) approaches generally follow a closed-world assumption, where only seen category instances are identified and spatio-temporally segmented at inference. Open-world formulation relaxes the close-world static-learning assumption as follows: (a) first, it distinguishes a set of known categories as well as labels an unknown object as `unknown' and then (b) it incrementally learns the class of an unknown as and when the corresponding semantic labels become available. We propose the first open-world VIS approach, named OW-VISFormer, that introduces a novel feature enrichment mechanism and a spatio-temporal objectness (STO) module. The feature enrichment mechanism based on a light-weight auxiliary network aims at accurate pixel-level (unknown) object delineation from the background as well as distinguishing category-specific known semantic classes. The STO module strives to generate instance-level pseudo-labels by enhancing the foreground activations through a contrastive loss. Moreover, we also introduce an extensive experimental protocol to measure the characteristics of OW-VIS. Our OW-VISFormer performs favorably against a solid baseline in OW-VIS setting. Further, we evaluate our contributions in the standard fully-supervised VIS setting by integrating them into the recent SeqFormer, achieving an absolute gain of 1.6\% AP on Youtube-VIS 2019 val. set. Lastly, we show the generalizability of our contributions for the open-world detection (OWOD) setting, outperforming the best existing OWOD method in the literature. Code, models along with OW-VIS splits are available at \url{https://github.com/OmkarThawakar/OWVISFormer}.

Auteurs: Omkar Thawakar, Sanath Narayan, Hisham Cholakkal, Rao Muhammad Anwer, Salman Khan, Jorma Laaksonen, Mubarak Shah, Fahad Shahbaz Khan

Dernière mise à jour: 2023-04-03 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2304.01200

Source PDF: https://arxiv.org/pdf/2304.01200

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires