Évaluer la robustesse des modèles de fond visuel dans les tâches de segmentation
Une étude sur la performance des modèles visuels fondamentaux face à des distorsions réelles dans les tâches de segmentation.
― 11 min lire
Table des matières
- Défis de la segmentation visuelle
- L'importance de la robustesse
- Notre approche
- Comprendre les décalages de distribution
- Niveaux de gravité
- Les modèles sélectionnés pour l'évaluation
- Ensembles de données utilisés dans l'évaluation
- Métriques d'évaluation de la performance
- Évaluation de la robustesse
- Résultats sur la performance des modèles
- Analyse approfondie des catégories d'objets
- Comparaison des modèles Transformer et CNN
- Recommandations pour les futures recherches
- Conclusion
- Source originale
- Liens de référence
Avec la hausse de la puissance de calcul et un accès plus facile aux données, on a vu une montée des grands modèles d'apprentissage profond. Ces modèles, souvent appelés modèles de base, sont entraînés sur une immense quantité de données avec des méthodes qui demandent peu ou pas de supervision directe. Ils peuvent être adaptés à diverses tâches comme la classification et la détection d'objets sans avoir besoin de réentraînement intensif sur des ensembles de données spécifiques.
Dans cette analyse, on va regarder la Robustesse des Modèles de Fond Visuels (MFV) dans les tâches de Segmentation. On compare ces modèles à de plus petits modèles supervisés en termes de leur capacité à gérer les changements et les distorsions qui peuvent se produire dans des situations réelles.
On examine quatre modèles de segmentation leaders et on les teste sur deux ensembles de données populaires : COCO et ADE20K. On applique 17 types différents de Perturbations, ou distorsions, aux images avec cinq niveaux de gravité pour chaque type. Nos résultats révèlent des points importants :
- Les MFV galèrent avec les distorsions provoquées par la Compression.
- Bien que les MFV ne surclassent pas significativement les petits modèles, ils montrent une résilience compétitive lors des évaluations sans entraînement, surtout quand les petits modèles sont entraînés sous supervision.
- Les MFV s'avèrent plus robustes pour reconnaître certains types d'objets, probablement grâce à leurs méthodes d'entraînement uniques, conçues pour fonctionner avec une large gamme de catégories d'objets.
On pense que notre évaluation de la robustesse établit de nouvelles normes pour les modèles de base, encourageant davantage de recherches pour améliorer leur performance globale.
Défis de la segmentation visuelle
La segmentation visuelle est un problème de longue date dans la vision par ordinateur. Elle implique différentes tâches qui nécessitent divers niveaux de détail. Ces tâches incluent la segmentation sémantique, où l'objectif est d'identifier et de labelliser chaque pixel d'une image, et la segmentation d'instance, qui va un peu plus loin en distinguant des objets séparés.
Traditionnellement, chacune de ces tâches et ensembles de données a été abordée avec des modèles spécialisés qui fonctionnaient indépendamment. Cela limitait le potentiel d'apprentissage à partir de tâches connexes. Cependant, avec l'essor de modèles polyvalents basés sur des transformateurs et un entraînement à grande échelle qui combine des données visuelles et linguistiques, on observe un changement vers le développement de modèles capables de gérer plusieurs tâches simultanément.
Inspirés par le succès de Modèles de Langage Large (MLL) comme ChatGPT, les MFV ont adapté ces idées pour les tâches de segmentation. Par exemple, des modèles comme Segment Anything (SAM) et ODISE peuvent segmenter n'importe quel objet dans une image sans besoin d'un entraînement supplémentaire sur des ensembles de données spécifiques. Ces avancées ouvrent de nombreuses possibilités, notamment dans des applications critiques du monde réel comme les véhicules autonomes et la santé.
L'importance de la robustesse
Quand les modèles sont utilisés dans le monde réel, ils font face à de nombreux changements imprévisibles, appelés décalages de distribution. Ces décalages peuvent amener les modèles à se comporter de manière inattendue. Pour résoudre ce problème, il est crucial d'étudier comment les modèles d'apprentissage profond actuels gèrent les distorsions potentielles du monde réel.
Les types de perturbations sur lesquels on se concentre ne sont pas créés artificiellement par des attaques, mais se produisent naturellement à cause de divers facteurs, y compris des changements d'éclairage, différents réglages de caméra et compression d'image. Des chercheurs ont déjà introduit plusieurs méthodes pour évaluer la robustesse des modèles en classification d'image, et ces approches sont maintenant appliquées pour évaluer les modèles de segmentation aussi.
Alors que des études précédentes ont examiné les modèles dans des environnements supervisés, il y a un manque de compréhension de la manière dont les MFV s'en sortent dans les tâches de segmentation sous ces conditions réelles.
Notre approche
Dans ce travail, on effectue une analyse approfondie de la robustesse des MFV, qui contiennent des milliards de paramètres, spécifiquement dans les tâches de segmentation. De plus, on compare leur performance à celle de modèles plus petits qui ont été entraînés dans des contextes supervisés.
On utilise deux méthodes MFV récentes, ODISE et Segment Anything (SAM), pour évaluer leur performance. On introduit 17 perturbations courantes et on soumet les images des ensembles de données COCO et ADE20K à ces distorsions à différents niveaux de gravité.
Les résultats montrent que :
- Les MFV ne gèrent pas aussi bien les distorsions liées à la compression que d'autres modèles basés sur des transformateurs.
- Ils ne surpassent pas systématiquement les modèles supervisés traditionnels ; cependant, ils restent robustes de manière compétitive dans des scénarios réels.
- Les MFV montrent une plus grande résilience pour certaines catégories d'objets, comme les objets d'extérieur ou les appareils, en raison de leur entraînement sur une plus large gamme de catégories.
Comprendre les décalages de distribution
On a identifié cinq catégories de distorsions du monde réel typiquement utilisées dans l'évaluation de la robustesse :
Bruit
Cette catégorie comprend quatre types :
- Bruit gaussien provenant de problèmes liés aux capteurs, comme l'illumination et les interférences électroniques.
- Bruit de tir qui survient avec des variations dans les comptes de photons pendant l'exposition d'image.
- Bruit d'impulsion qui est une version colorée du bruit de sel et de poivre, souvent dû à des erreurs de bits.
- Bruit de speckle, une forme de bruit multiplicatif où les niveaux d'intensité correspondent à la luminosité des pixels.
Flou
Cette catégorie est composée de trois types :
- Flou de mise au point qui se produit quand toutes les couches d'une scène ne sont pas nettes, rendant certaines zones floues.
- Flou de mouvement produit lorsque la caméra bouge en prenant une image.
- Flou de zoom qui se produit quand la caméra effectue un zoom rapide.
Compression
Dans le domaine numérique, on a :
- Compression JPEG, qui perd une partie de la qualité d'image.
- Pixelisation, qui se produit quand des images basse résolution sont agrandies, entraînant une perte de détails.
Météo
Cela couvre les distorsions imitant des conditions météorologiques réelles comme le brouillard et la neige.
Caméra
Cela inclut des changements à la position de l'image, comme translation (déplacement de l'image) et rotation (rotation de l'image).
Éclairage
Des perturbations dans la luminosité de l'image peuvent survenir à cause d'un éclairage excessivement lumineux ou sombre.
Niveaux de gravité
Dans le monde réel, ces décalages de distribution peuvent se produire à différents niveaux de gravité. On définit cinq niveaux de gravité, le niveau 1 étant un petit décalage et le niveau 5 un décalage significatif. Chaque image de notre ensemble de données subit toutes les distorsions proposées à travers ces niveaux de gravité.
Pour réaliser notre analyse, on évalue quatre modèles de pointe qui représentent à la fois les MFV et les modèles supervisés traditionnels utilisés pour la segmentation. On a filtré ces modèles en fonction de leur code disponible, de leurs poids et de leur reproductibilité.
Les modèles sélectionnés pour l'évaluation
On se concentre sur deux Modèles de Fond Visuels, ODISE et SAM, tous deux entraînés sur des ensembles de données étendus.
ODISE
ODISE utilise des techniques apprises de Stable Diffusion et CLIP, en utilisant une méthode appelée Mask2Former pour générer des masques. Le modèle capture des images et utilise des invites textuelles apprises pour identifier les catégories d'objets. Il peut être appliqué à n'importe quel ensemble de données pour une évaluation sans entraînement, ce qui en fait une option polyvalente.
Segment Anything (SAM)
SAM adopte un Transformateur de Vision pré-entraîné (ViT) et utilise diverses invites (comme des points et du texte) pour délimiter les objets désirés. Il est également conçu pour un usage sans entraînement, améliorant ainsi sa flexibilité. On évalue deux variantes de SAM : PromptSAM et GroundedSAM, les adaptant pour des tâches spécifiques comme la segmentation d'instance.
On compare aussi ces MFV avec des modèles supervisés traditionnels, y compris MaskDINO et Mask2Former.
Ensembles de données utilisés dans l'évaluation
On utilise deux ensembles de données de référence pour nos expériences : COCO Panoptic et ADE20K. L'ensemble de données COCO contient 80 catégories de "choses" et 53 catégories de "choses à l'état brut", tandis qu'ADE20K présente 100 catégories de "choses" et 50 catégories de "choses à l'état brut". Chaque image est soumise à diverses perturbations, aboutissant à des ensembles de données étendus pour l'analyse.
Métriques d'évaluation de la performance
On évalue les modèles en fonction de leur capacité à réaliser des tâches de segmentation à l'aide de deux métriques :
- Intersection de Moyenne sur l'Union (mIoU) pour la segmentation sémantique, qui indique à quel point le modèle identifie et segmente bien différentes zones.
- Précision Moyenne (mAP) pour la segmentation d'instance, qui se concentre sur l'exactitude de la détection d'objets individuels.
Évaluation de la robustesse
Pour jauger la robustesse, on utilise deux métriques : la robustesse absolue et la robustesse relative. La robustesse absolue regarde la chute globale de performance après application des distorsions, tandis que la robustesse relative mesure comment la performance change par rapport aux données d'origine.
Des scores plus élevés indiquent une meilleure résilience, un score de 1 montrant une haute robustesse, tandis qu'un score de 0 représente aucune robustesse.
Résultats sur la performance des modèles
De notre analyse, on voit que tous les modèles rencontrent des défis avec les distorsions de flou. Cependant, les MFV affichent une robustesse particulièrement faible avec les corruptions liées à la compression. Par exemple, les deux modèles peinent significativement avec les distorsions de compression JPEG et de pixelisation.
Les MFV montrent une performance absolue plus faible comparée aux non-MFV, surtout sous compression. Pourtant, ils affichent une robustesse compétitive dans des scénarios sans entraînement, montrant leur capacité à s'adapter plus flexiblement à de nouvelles tâches.
De plus, on observe que les MFV présentent une plus grande robustesse relative pour certaines catégories d'objets, comme ceux dans des environnements sport ou extérieur. Cet avantage découle de leur approche d'entraînement à vocabulaire ouvert, leur permettant d'identifier une plus large gamme de types d'objets.
Analyse approfondie des catégories d'objets
Pour mieux comprendre comment des objets spécifiques sont affectés sous diverses distorsions, on évalue les modèles en fonction de leur performance à travers différentes catégories. Par exemple, certains objets d'extérieur et appareils sont identifiés plus fiablement par les MFV que par des modèles traditionnels, surtout en cas de compression et conditions de flou.
Comparaison des modèles Transformer et CNN
En comparant les différents types d'architectures, on remarque que les modèles basés sur des transformateurs, y compris les MFV, montrent une plus grande robustesse globale que leurs homologues basés sur des CNN. Cette observation est valable à travers divers types de perturbations, en particulier pour les distorsions basées sur les pixels et de compression.
Recommandations pour les futures recherches
Nos résultats suggèrent que, bien que les MFV aient des capacités impressionnantes, ils font encore face à des défis dans des applications réelles. Il est évident qu'une exploration supplémentaire est nécessaire pour améliorer leur résilience, en particulier contre la compression et des distorsions similaires.
L'étude appelle à des recherches supplémentaires pour aborder les lacunes identifiées et améliorer la performance et la fiabilité des modèles de segmentation fondamentaux.
Conclusion
En conclusion, notre analyse fournit des insights cruciaux sur la robustesse des Modèles de Fond Visuels par rapport aux modèles supervisés traditionnels dans les tâches de segmentation. Bien que les MFV montrent généralement une performance compétitive, ils rencontrent des difficultés avec des distorsions spécifiques comme la compression.
Notre recherche souligne la nécessité d'une évaluation continue et d'un affinage de ces modèles pour garantir leur efficacité dans des scénarios réels. Cette étude contribue des informations précieuses au domaine de la vision par ordinateur et encourage davantage d'exploration pour améliorer la résilience et l'adaptabilité des modèles.
Titre: Robustness Analysis on Foundational Segmentation Models
Résumé: Due to the increase in computational resources and accessibility of data, an increase in large, deep learning models trained on copious amounts of multi-modal data using self-supervised or semi-supervised learning have emerged. These ``foundation'' models are often adapted to a variety of downstream tasks like classification, object detection, and segmentation with little-to-no training on the target dataset. In this work, we perform a robustness analysis of Visual Foundation Models (VFMs) for segmentation tasks and focus on robustness against real-world distribution shift inspired perturbations. We benchmark seven state-of-the-art segmentation architectures using 2 different perturbed datasets, MS COCO-P and ADE20K-P, with 17 different perturbations with 5 severity levels each. Our findings reveal several key insights: (1) VFMs exhibit vulnerabilities to compression-induced corruptions, (2) despite not outpacing all of unimodal models in robustness, multimodal models show competitive resilience in zero-shot scenarios, and (3) VFMs demonstrate enhanced robustness for certain object categories. These observations suggest that our robustness evaluation framework sets new requirements for foundational models, encouraging further advancements to bolster their adaptability and performance. The code and dataset is available at: \url{https://tinyurl.com/fm-robust}.
Auteurs: Madeline Chantry Schiappa, Shehreen Azad, Sachidanand VS, Yunhao Ge, Ondrej Miksik, Yogesh S. Rawat, Vibhav Vineet
Dernière mise à jour: 2024-04-26 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2306.09278
Source PDF: https://arxiv.org/pdf/2306.09278
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.