Simple Science

La science de pointe expliquée simplement

# Informatique# Vision par ordinateur et reconnaissance des formes# Intelligence artificielle

Évaluer la robustesse des modèles d'estimation de pose

Une étude sur comment les modèles d'estimation de pose se comportent avec des images corrompues.

― 10 min lire


Estimation de la postureEstimation de la posturesous stressproblèmes d'images du monde réel.Évaluer la fiabilité du modèle face aux
Table des matières

L'Estimation de pose, c'est le processus de recherche de points clés sur le corps d'un humain ou d'un animal à partir d'une seule image. Ce skills est super utile et peut être appliqué dans plein de domaines, comme la santé, le divertissement, la sécurité, la conduite autonome et la conservation de la faune. Les modèles actuels en estimation de pose fonctionnent bien sur des images propres, mais ils ont souvent du mal avec des images réelles qui peuvent être corrompues ou floues. Ça peut poser de sérieux problèmes de sécurité dans des applications du monde réel.

Le Problème avec les Modèles Actuels

La plupart des modèles d'estimation de pose existants sont formés et testés uniquement avec des images propres. Quand ils sont utilisés dans des situations réelles, les images sur lesquelles ils travaillent peuvent devenir corrompues à cause de divers facteurs comme le mouvement de la caméra, la lumière ou la perte de données. Ça rend ces modèles vulnérables aux échecs quand ils rencontrent des problèmes du monde réel, ce qui représente un risque pour la sécurité.

Pour régler ce problème, on a besoin d'un moyen de tester à quel point ces modèles peuvent gérer des images corrompues, pour évaluer leur fiabilité. Bien que certaines études aient examiné les Performances des programmes sous corruption dans d'autres domaines comme la détection 3D, l'estimation de pose n'a pas reçu le même niveau d'attention. Les efforts précédents pour tester des modèles de pose sur des images corrompues comprenaient seulement un nombre limité de méthodes et ne prenaient pas en compte l'estimation de pose animale, qui est assez différente de celle des humains.

Présentation de PoseBench

Pour combler les lacunes dans la recherche actuelle, on vous présente PoseBench, un outil conçu pour évaluer à quel point les modèles d'estimation de pose peuvent gérer des problèmes du monde réel. On a évalué 60 modèles différents qui incluent diverses approches, comme les méthodes top-down, bottom-up, basées sur des heatmaps, régressions et classifications, en se concentrant sur les poses humaines et animales.

PoseBench teste contre 10 types de Corruptions courantes qu'on peut rencontrer dans la vie quotidienne. Ça inclut :

  1. Flou de mouvement et bruit
  2. Compression et perte de couleur
  3. Conditions d'éclairage difficiles
  4. Parties manquantes des images (occlusions)

On a aussi examiné divers paramètres qui affectent les performances, comme la taille de l'image d'entrée, le pré-entraînement avec différents ensembles de données, l'architecture du modèle et les améliorations de données.

Résultats Clés de l'Étude

Nos résultats ont produit plusieurs insights importants :

  1. Les modèles d'estimation de pose actuels ont du mal avec des images corrompues, mais il y a une connexion claire entre leurs performances sur des images propres et leur capacité à gérer les corruptions.
  2. Le flou de mouvement et les changements de contraste sont particulièrement nuisibles pour ces modèles, tandis que les changements de luminosité ont un effet plus faible.
  3. Les méthodes basées sur la régression tendent à être plus résistantes aux parties manquantes des images, même si ces modèles ne sont pas les meilleurs sur des images propres.
  4. La Robustesse des modèles varie en fonction des ensembles de données utilisés, ceux conçus pour les humains étant plus affectés par la compression et le flou, tandis que les modèles de pose animale ont plus de mal avec les changements de contraste.
  5. Les choix de conception clés, notamment le pré-entraînement et les ajustements de post-traitement, boostent significativement la résistance aux corruptions, mais simplement augmenter la taille de l'image n'aide pas beaucoup.

Importance de la Robustesse en Estimation de Pose

La robustesse est essentielle pour l'estimation de pose, car les modèles doivent fonctionner de manière fiable dans diverses conditions. Si un modèle peut gérer des images avec corruption, il est susceptible de mieux performer dans des tâches du monde réel. Cette fiabilité est super importante dans des domaines comme la santé, où une estimation précise de la pose peut soutenir de meilleurs plans de traitement.

Approches Actuelles en Estimation de Pose

Les méthodes d'estimation de pose peuvent être largement classées en deux catégories : top-down et bottom-up.

Méthodes Top-Down

Dans les méthodes top-down, le modèle détecte d'abord des individus dans une image et ensuite localise les points clés sur leur corps. Cette approche est généralement plus précise et est largement utilisée. Des exemples de cette catégorie incluent des modèles qui s'appuient sur la construction de heatmaps indiquant où les points clés se trouvent.

Méthodes Bottom-Up

À l'inverse, les méthodes bottom-up identifient d'abord les points clés dans l'ensemble de l'image, puis groupent ces points clés en fonction de l'individu auquel ils appartiennent. Bien que cette approche soit plus efficace, elle pose des défis en termes de précision, surtout dans les scènes bondées.

Techniques Variées Utilisées

Il y a trois techniques principales utilisées en estimation de pose :

  1. Méthodes basées sur les heatmaps : Elles génèrent une distribution de probabilité sur la zone des points clés, utilisant des fonctions gaussiennes pour créer des pics lisses.
  2. Méthodes basées sur la régression : Elles prédisent directement les coordonnées des points clés à partir des images d'entrée.
  3. Méthodes basées sur la classification : Elles classifient les emplacements des points clés en catégories distinctes.

Attention à l'Estimation de Pose Animale

Récemment, il y a eu un intérêt croissant pour l'estimation de pose animale, grâce à de nouveaux ensembles de données ciblant les mouvements des animaux. Adapter les méthodes d'estimation de pose humaine pour les animaux est possible mais vient avec ses propres défis à cause des structures corporelles et des schémas de mouvement différents.

Comprendre les Corruptions

Dans le monde réel, les images capturées par les caméras peuvent avoir des problèmes, comme être floues ou trop lumineuses, ce qui complique la tâche d'estimation de pose. Ces problèmes peuvent survenir pendant le processus de capture d'image, la transmission du signal ou même pendant le stockage.

Voici les types courants de corruptions que nous avons examinés dans notre étude :

  1. Flou de Mouvement : Se produit quand il y a du mouvement durant la capture d'image, ce qui entraîne des images floues.
  2. Bruit : Variations aléatoires de luminosité et de couleur qui peuvent provenir d'erreurs de capteur ou de mauvaises conditions d'éclairage.
  3. Changements de Luminosité : Conditions qui sont soit trop lumineuses soit trop sombres, rendant difficile la détection des points clés.
  4. Occlusions : Quand des parties de l'image manquent, soit à cause de facteurs environnementaux soit d'erreurs de traitement des données.

Les Ensembles de Données Utilisés

Pour évaluer la robustesse des modèles d'estimation de pose, on a créé trois ensembles de données correspondant aux poses humaines et animales :

  1. Ensemble de Données COCO-C : Construit à partir d'un ensemble de données bien connu pour la pose humaine avec un grand nombre d'images.
  2. Ensemble de Données OCHuman-C : Dérivé d'un ensemble de données connu pour sa complexité, axé sur les poses humaines dans des occlusions difficiles.
  3. Ensemble de Données AP10K-C : Formé à partir d'un ensemble de données pour les poses animales, qui inclut une variété d'espèces.

Chaque ensemble de données a été soumis aux mêmes types de corruptions sous différents niveaux de gravité pour fournir une évaluation complète.

Métriques d'Évaluation

Dans notre évaluation, on a utilisé deux métriques courantes pour mesurer l'efficacité de l'estimation de pose :

  1. Précision Moyenne (mAP) : Mesure l'exactitude des prédictions de points clés.
  2. Rappel Moyen (mAR) : Se concentre sur la complétude des points clés détectés.

On a aussi développé une nouvelle métrique appelée Robustesse Relative Moyenne (mRR) pour mesurer à quel point la performance d'un modèle chute quand il fait face à des images corrompues.

Insights de l'Évaluation

Les résultats ont révélé que tous les modèles devaient faire face à des baisses de performance lorsqu'ils étaient testés contre des images corrompues. Chaque modèle a montré des niveaux de robustesse variables en fonction du type de corruption. Par exemple, les modèles qui ont bien performé sur des images propres ont tendance à maintenir mieux leur performance sous des influences corrompues.

Évaluation des Différents Types de Corruption

Certains types de corruption ont un impact plus significatif que d'autres :

  • Le flou de mouvement et le bruit entraînent des pertes de performance substantielles.
  • Les changements de luminosité et les problèmes liés aux masques ont des effets plus légers.

Stratégies pour l'Amélioration

Pour améliorer la fiabilité des modèles d'estimation de pose face aux corruptions, on a exploré plusieurs stratégies :

Impact de l'Architecture du Modèle

Différents backbones de modèles, y compris les réseaux de neurones convolutionnels traditionnels (CNN) et les transformateurs de vision plus récents (ViT), ont été évalués. Les résultats ont montré que les modèles avec des backbones ViT ont généralement mieux performé dans des conditions propres et corrompues.

Effets de la Résolution d'Entrée

Former avec des images haute résolution tend à améliorer la généralisation et la robustesse des modèles. Cependant, simplement augmenter la taille des images d'entrée ne conduit pas à d'énormes améliorations en résistance aux corruptions.

Importance de l'Augmentation de Données

L'augmentation de données est une pratique courante dans la formation des modèles, impliquant des techniques qui transforment les images d'entraînement pour augmenter la diversité. Cette approche aide les modèles à devenir plus robustes en les exposant à divers scénarios.

Conclusion

En résumé, cette étude présente un nouveau benchmark pour comprendre la robustesse des modèles d'estimation de pose face aux corruptions du monde réel. On a évalué 60 modèles différents provenant de diverses approches, en se concentrant sur les poses humaines et animales à travers plusieurs ensembles de données. Les insights obtenus peuvent aider à développer des modèles qui ne sont pas seulement performants sur des images propres, mais aussi résilients dans des applications du monde réel.

Une recherche continue dans ce domaine est essentielle, avec une exploration supplémentaire sur la façon dont les modèles répondent aux défis du monde réel et comment ils peuvent être conçus pour mieux gérer ces problèmes. Les connaissances tirées de ce travail visent à mener à des modèles d'estimation de pose plus fiables, capables de s'adapter aux conditions variées auxquelles ils seront confrontés dans un usage pratique.

Source originale

Titre: PoseBench: Benchmarking the Robustness of Pose Estimation Models under Corruptions

Résumé: Pose estimation aims to accurately identify anatomical keypoints in humans and animals using monocular images, which is crucial for various applications such as human-machine interaction, embodied AI, and autonomous driving. While current models show promising results, they are typically trained and tested on clean data, potentially overlooking the corruption during real-world deployment and thus posing safety risks in practical scenarios. To address this issue, we introduce PoseBench, a comprehensive benchmark designed to evaluate the robustness of pose estimation models against real-world corruption. We evaluated 60 representative models, including top-down, bottom-up, heatmap-based, regression-based, and classification-based methods, across three datasets for human and animal pose estimation. Our evaluation involves 10 types of corruption in four categories: 1) blur and noise, 2) compression and color loss, 3) severe lighting, and 4) masks. Our findings reveal that state-of-the-art models are vulnerable to common real-world corruptions and exhibit distinct behaviors when tackling human and animal pose estimation tasks. To improve model robustness, we delve into various design considerations, including input resolution, pre-training datasets, backbone capacity, post-processing, and data augmentations. We hope that our benchmark will serve as a foundation for advancing research in robust pose estimation. The benchmark and source code will be released at https://xymsh.github.io/PoseBench

Auteurs: Sihan Ma, Jing Zhang, Qiong Cao, Dacheng Tao

Dernière mise à jour: 2024-09-13 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2406.14367

Source PDF: https://arxiv.org/pdf/2406.14367

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires