Simple Science

La science de pointe expliquée simplement

# Informatique# Vision par ordinateur et reconnaissance des formes# Intelligence artificielle# Apprentissage automatique

Améliorer la reconnaissance d'images sous occlusion

Des recherches montrent des lacunes dans les modèles de classification d'images quand les objets sont partiellement cachés.

Kaleb Kassaw, Francesco Luzi, Leslie M. Collins, Jordan M. Malof

― 8 min lire


Aperçus sur laAperçus sur lareconnaissance d'imagesocclusesbien.cachés, mais les humains gèrent tropLes modèles galèrent avec les objets
Table des matières

Les modèles de classification d'images, comme les réseaux de neurones convolutionnels (CNN), sont bons pour identifier des objets dans les images. Par contre, ils galèrent quand les objets sont partiellement cachés, une situation qu’on appelle occlusion partielle. Quand quelque chose bloque la vue de l'objet qu'on veut que le modèle voit, ça complique la reconnaissance de ce qu'il regarde.

Pour que ces modèles soient plus efficaces avec les objets cachés, les chercheurs ont testé plusieurs méthodes. Certaines incluent l'augmentation de données, qui modifie les images d'une certaine manière pour aider le modèle à mieux apprendre, et la création de nouveaux modèles plus résistants à l'occlusion, comme les modèles Vision Transformer (ViT). Bien que certaines études aient examiné l’efficacité de ces améliorations, elles utilisent souvent des images artificielles où l'occlusion est générée par un programme. Ces images sont généralement plus faciles à étiqueter que les images du monde réel.

En plus, beaucoup de ces approches ne sont pas directement comparées entre elles, et certaines se contentent de vieux modèles qui ne sont peut-être pas aussi performants que les nouveaux. Pour combler ces lacunes, on a créé un nouveau jeu de données appelé le jeu de données d'Identification d'Images Sous Occlusion (IRUO). Ce jeu de données utilise à la fois des images du monde réel et des images artificiellement occluses pour tester à quel point différents modèles fonctionnent quand les objets sont partiellement cachés.

En plus du jeu de données, on a aussi mené une étude impliquant des gens pour voir comment ils s'en sortent pour reconnaître des objets à différents niveaux d'occlusion. Nos résultats montrent que les nouveaux modèles CNN fonctionnent mieux avec des images occluses que les vieux modèles, et les modèles ViT performent souvent encore mieux que les CNN, se rapprochant de la Performance humaine. Cependant, certains types d'occlusion, comme l'occlusion diffuse, qui se produit quand on voit des objets à travers des ouvertures comme des clôtures ou des feuilles, peuvent considérablement diminuer la précision des modèles et des humains.

Contexte

Les modèles d'apprentissage profond, en particulier les réseaux de neurones profonds (DNN), ont été assez réussis dans la reconnaissance visuelle des objets. Certains ont même égalé ou dépassé la performance humaine dans certaines tâches. Pourtant, l'occlusion reste un défi. L'objet qu'on veut reconnaître peut être partiellement bloqué par d'autres éléments d'une scène. Ce genre de situation est courant dans le monde réel.

Pour mieux comprendre comment différents modèles performent sous occlusion, on doit se poser deux questions clés :

  1. Quels modèles sont les plus précis avec des images occluses ?
  2. Les modèles existants sont-ils fiables quand les objets sont partiellement cachés ? Comment se comparent-ils à la performance humaine ?

Répondre à ces questions peut aider les développeurs à choisir les bons modèles pour des tâches impliquant l'occlusion et guider les chercheurs pour améliorer les futurs modèles.

Défis Actuels

La plupart des études sur l'occlusion utilisent des jeux de données qui n'incluent que des classes limitées ou des Occlusions synthétiques, ce qui peut ne pas refléter avec précision les situations réelles. Pour des applications pratiques, il est crucial de comprendre comment divers modèles performent dans des scénarios réels où la reconnaissance est compromise à cause de l'occlusion.

Dans notre recherche, on compare la précision de plusieurs modèles actuels - un mélange de CNN traditionnels, ViTs, et modèles spécifiquement conçus pour gérer l'occlusion. De plus, on évalue la précision humaine dans la reconnaissance d'objets dans des images occluses. Cela nous permet de voir non seulement comment les machines performent mais aussi comment elles se comparent aux capacités humaines.

Le Jeu de Données IRUO

On a construit le jeu de données IRUO sur un autre jeu de données connu sous le nom de Segmentation d'Instances Vidéo Occluses (OVIS). Le jeu de données IRUO se compose d'images occluses du monde réel pour fournir un terrain d'essai plus précis pour les modèles de classification d'images. Il a 23 classes et environ 88 000 images, en s'attaquant aux lacunes des jeux de données précédents qui avaient une taille ou une diversité limitée.

Le jeu de données est divisé en ensembles d'entraînement et de test, tout en garantissant qu'aucune image de l'ensemble d'entraînement n'apparaît dans l'ensemble de test. De cette façon, on évite tout biais dans nos estimations de précision. On a aussi créé des sous-ensembles du jeu de données, en se concentrant sur les tests humains et en examinant différents niveaux d'occlusion - ça nous aide à mesurer la performance humaine et à voir comment elle se rapporte à divers modèles.

Étude Humaine

Pour évaluer la précision humaine sous occlusion, on a mené une étude avec 20 participants qui ont étiqueté des images de notre jeu de données IRUO. Chaque personne a évalué une sélection d'images, conçues pour représenter divers niveaux d'occlusion. On s'est assuré que chaque participant rencontrait les mêmes images autant que possible pour créer une base solide pour les comparaisons.

On a demandé aux participants d'identifier les objets et de les sélectionner en cliquant dessus dans les images. On a utilisé une approche structurée pour guider leurs réponses, minimisant les erreurs et leur facilitant la concentration sur ce qu'ils voyaient. Les résultats de ces réponses humaines fournissent un étalon pour mesurer la performance des modèles.

Résultats des Comparaisons entre Modèles et Humains

Après avoir évalué les modèles existants sous occlusion, on a constaté que certains modèles plus récents, en particulier ceux basés sur l'architecture des transformateurs, montraient une meilleure précision à tous les niveaux d'occlusion par rapport aux vieux modèles. Le modèle Swin, lorsqu'il est utilisé avec une technique d'augmentation appelée Mixup, a obtenu la meilleure précision en général.

Cependant, les modèles étaient toujours à la traîne par rapport à la performance humaine dans les cas d'occlusion. En moyenne, les humains pouvaient identifier les objets plus précisément que le modèle le plus performant sous occlusion. C'est particulièrement important, car cela montre que bien qu'on ait fait des progrès significatifs dans la conception des modèles, il y a encore de la place pour s'améliorer.

Effets de Différents Types d'Occlusion

Notre recherche a montré que le type d'occlusion joue aussi un rôle crucial dans la précision des modèles. Par exemple, l'occlusion diffuse - où des choses comme des feuilles ou des clôtures cachent des parties d'objets - avait tendance à plus perturber les modèles que les occlusions solides, qui couvrent une plus grande partie de l'objet de manière uniforme.

On a mené des expériences supplémentaires pour étudier comment différents types d'obstruction affectaient la performance des modèles. Nos résultats ont suggéré que des obstacles plus petits et plus dispersés entraînaient une plus grande perte de précision pour les modèles par rapport à des obstacles solides et plus grands. Cette découverte montre comment les propriétés des occlusions influencent considérablement la robustesse des modèles.

Conclusion

En résumé, même si les modèles d'apprentissage profond ont fait des avancées notables dans la reconnaissance d'images, des défis demeurent quand il s'agit de reconnaître des objets partiellement obscurcis. Notre travail avec le jeu de données IRUO et les évaluations de performance humaine contribuent des insights précieux sur les domaines à améliorer.

Les résultats montrent que les modèles modernes basés sur des transformateurs surpassent généralement les CNN traditionnels dans de telles tâches, mais ils n'égalisent toujours pas les capacités humaines, surtout face à certains types d'occlusions. Cette recherche prépare le terrain pour une exploration plus approfondie dans le domaine des modèles conscients de l'occlusion et encourage le développement de nouvelles techniques pour améliorer la performance dans des scénarios réels.

En abordant à la fois les forces et les faiblesses des modèles actuels, on pose une base pour de futurs travaux visant à améliorer la reconnaissance visuelle et ses applications dans des situations quotidiennes où l'occlusion est une réalité.

Source originale

Titre: Are Deep Learning Models Robust to Partial Object Occlusion in Visual Recognition Tasks?

Résumé: Image classification models, including convolutional neural networks (CNNs), perform well on a variety of classification tasks but struggle under conditions of partial occlusion, i.e., conditions in which objects are partially covered from the view of a camera. Methods to improve performance under occlusion, including data augmentation, part-based clustering, and more inherently robust architectures, including Vision Transformer (ViT) models, have, to some extent, been evaluated on their ability to classify objects under partial occlusion. However, evaluations of these methods have largely relied on images containing artificial occlusion, which are typically computer-generated and therefore inexpensive to label. Additionally, methods are rarely compared against each other, and many methods are compared against early, now outdated, deep learning models. We contribute the Image Recognition Under Occlusion (IRUO) dataset, based on the recently developed Occluded Video Instance Segmentation (OVIS) dataset (arXiv:2102.01558). IRUO utilizes real-world and artificially occluded images to test and benchmark leading methods' robustness to partial occlusion in visual recognition tasks. In addition, we contribute the design and results of a human study using images from IRUO that evaluates human classification performance at multiple levels and types of occlusion. We find that modern CNN-based models show improved recognition accuracy on occluded images compared to earlier CNN-based models, and ViT-based models are more accurate than CNN-based models on occluded images, performing only modestly worse than human accuracy. We also find that certain types of occlusion, including diffuse occlusion, where relevant objects are seen through "holes" in occluders such as fences and leaves, can greatly reduce the accuracy of deep recognition models as compared to humans, especially those with CNN backbones.

Auteurs: Kaleb Kassaw, Francesco Luzi, Leslie M. Collins, Jordan M. Malof

Dernière mise à jour: 2024-09-16 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2409.10775

Source PDF: https://arxiv.org/pdf/2409.10775

Licence: https://creativecommons.org/licenses/by-sa/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Articles similaires

Cosmologie et astrophysique nongalactiqueImpact des conditions d'enquête sur les mesures de galaxies

Enquête sur comment les conditions variables influencent les données de décalage vers le rouge des galaxies provenant des enquêtes astronomiques.

Qianjun Hang, Benjamin Joachimi, Eric Charles

― 7 min lire