Simple Science

La science de pointe expliquée simplement

# Informatique# Vision par ordinateur et reconnaissance des formes# Intelligence artificielle

ESCAPE : Un nouveau cadre pour l'estimation de la pose humaine en 3D

Présentation d'ESCAPE, un cadre qui améliore la précision et la vitesse de la pose humaine en 3D.

― 8 min lire


Cadre ESCAPE pourCadre ESCAPE pourl'estimation de posel'estimation de pose.Améliorer la vitesse et la précision de
Table des matières

L'estimation de pose humaine en 3D (HPE) est une tâche super importante en vision par ordinateur. Ça aide à identifier les positions des articulations clés dans le corps d'une personne à partir d'images, ce qui est utile dans plein de domaines comme la santé, la réalité virtuelle et l'interaction homme-robot. Malgré les progrès technologiques, il y a encore des défis quand il s'agit d'estimer correctement les poses dans des conditions inconnues ou avec des données qui n'étaient pas dans l'entraînement initial.

Un gros souci, c'est que les modèles entraînés sur des ensembles de données spécifiques galèrent souvent quand ils sont confrontés à des données nouvelles ou différentes. C'est surtout vrai pour les positions loin du centre du corps, comme les poignets et les chevilles. Des recherches ont montré que les méthodes existantes pour ajuster les modèles pendant les tests ralentissent souvent le processus de manière significative. Donc, il faut trouver une meilleure façon de régler ces problèmes sans compromettre la rapidité.

Le défi

La plupart des approches actuelles se concentrent sur l'amélioration de la précision des modèles à l'aide de données réelles, qui ne sont pas toujours disponibles lors d'applications concrètes. Ça mène à une chute de performance notable pendant que le modèle essaie de s'adapter pendant l'inférence. De plus, beaucoup de méthodes augmentent le temps nécessaire pour obtenir des résultats à cause de calculs complexes. Donc, trouver une solution qui puisse estimer les poses avec précision tout en gardant un traitement rapide est crucial.

Solution proposée : ESCAPE

Pour relever ces défis, on introduit un nouveau cadre appelé ESCAPE, qui signifie Correction Adaptive Selective Basée sur l'Énergie pour l'Estimation de Pose Humaine 3D Hors distribution. Ce système vise à corriger rapidement et efficacement les estimations de pose en appliquant un processus d'ajustement sélectif. En gros, il se concentre sur le perfectionnement des prédictions pour les poses particulièrement difficiles à estimer, tout en utilisant une méthode de correction plus rapide pour les plus simples.

Concepts clés d'ESCAPE

  1. Fonction d'énergie : ESCAPE utilise une fonction d'énergie pour classer rapidement les données entrantes comme étant hors distribution (OOD) ou dans distribution (ID). Ça veut dire qu'il peut identifier quand une pose est significativement différente des données sur lesquelles le modèle a été entraîné à l'origine.

  2. Adaptation sélective : Le cadre réserve des ajustements intensifs uniquement pour les échantillons identifiés comme OOD, économisant ainsi du temps pour la majorité des données entrantes qui peuvent être gérées avec une méthode de correction rapide.

  3. Réseau de correction (CNet) : Un léger réseau de correction est utilisé pour affiner les positions estimées des points clés distaux. Ce réseau est entraîné sur des données existantes, ce qui lui permet d'apprendre comment corriger efficacement les prédictions sans avoir besoin de nouvelles annotations.

  4. Perte d'auto-consistance pour les échantillons OOD : Pour les échantillons OOD, ESCAPE utilise une technique où le modèle se vérifie pour son exactitude, améliorant ainsi les estimations en se basant sur ses prédictions précédentes.

Importance de la détection OOD

Le cœur de l'efficacité d'ESCAPE réside dans sa capacité à différencier les cas faciles des cas difficiles. Beaucoup d'échantillons s'inscrivent bien dans les connaissances existantes du modèle et ne nécessitent pas d'ajustements intenses. En mettant en œuvre la fonction d'énergie pour évaluer la fiabilité de chaque échantillon, ESCAPE réussit à garder des temps de traitement plus bas tout en améliorant l'exactitude globale.

Architecture du modèle

ESCAPE se compose de deux composants clés :

  • Le premier est l'estimateur de pose humaine de base, qui produit une estimation initiale des points clés.
  • Le second est le réseau de correction (CNet) qui ajuste les estimations en fonction des retours fournis par la fonction d'énergie.

L'architecture du réseau de correction suit un design résiduel qui permet un apprentissage profond tout en maintenant l'efficacité. Cela signifie que le réseau peut apprendre à améliorer sa précision à partir des couches précédentes, ce qui mène à de meilleures prédictions.

Processus d'implémentation

Pour implémenter ESCAPE, le processus commence par alimenter une image dans le modèle de base, qui génère les estimations de pose initiales. La fonction d'énergie calcule ensuite un score d'énergie pour ces prédictions afin de déterminer si la sortie est OOD ou ID.

Si un échantillon est classé comme ID, le CNet applique une correction rapide aux points clés distaux. S'il est OOD, un processus d'adaptation plus intensif est mis en œuvre, utilisant à la fois le CNet et un réseau de correction inverse qui aide à ajuster les articulations proximales en fonction des retours des points clés distaux.

Configuration expérimentale

Pour tester l'efficacité d'ESCAPE, il a été évalué sur plusieurs ensembles de données bien connus, y compris 3DPW, 3DHP et SURREAL. Ces ensembles de données présentent une grande variété de poses et de conditions, fournissant un paysage d'évaluation complet.

Préparation des données

Les ensembles de données utilisés pour l'entraînement et le test incluaient différents angles, éclairages et poses pour s'assurer que le modèle pouvait bien se généraliser dans diverses situations. Les données ont été séparées en ensembles d'entraînement et de test pour mesurer précisément la performance.

Résultats

Performance globale

ESCAPE a montré des améliorations significatives par rapport aux méthodes existantes sur les ensembles de test. En particulier, il a amélioré la performance de plusieurs modèles populaires, prouvant son efficacité à affiner les prédictions des points clés tant pour les échantillons ID que OOD.

Sur l'ensemble de test 3DPW, par exemple, ESCAPE a amélioré l'exactitude des prédictions distales de manière notable par rapport à de nombreuses méthodes à la pointe. Des améliorations similaires ont également été observées sur les ensembles 3DHP et SURREAL, mettant en avant l’adaptabilité du cadre.

Temps d'inférence

Un des avantages critiques d'ESCAPE est sa rapidité. Comparé aux anciennes méthodes d'adaptation, ESCAPE a montré une réduction remarquable du temps de calcul. Le cadre profite du processus d'adaptation sélective, appliquant des ajustements intensifs uniquement aux cas les plus difficiles tout en maintenant un traitement rapide pour les plus simples.

Ce focus sélectif sur les échantillons OOD a entraîné un gain de plusieurs fois en moyenne par rapport aux techniques existantes, faisant d'ESCAPE une solution très pratique pour des applications en temps réel.

Résultats qualitatifs

Les évaluations visuelles de la façon dont ESCAPE a affiné les sorties des estimateurs de base ont révélé des améliorations significatives. Même quand les prédictions initiales étaient raisonnables, les ajustements faits par ESCAPE ont conduit à une bien meilleure correspondance avec les poses réelles.

Limitations et échecs

Malgré les avantages, ESCAPE a rencontré des limitations. Dans les cas où la pose globale était mal alignée ou quand plusieurs erreurs de points clés se produisaient en même temps, le cadre avait du mal à améliorer les prédictions. Ça a souvent entraîné une perte d'exactitude significative, surtout pour les poses difficiles qui mêlaient plusieurs problèmes à la fois.

Directions futures

Bien qu'ESCAPE représente un progrès dans le domaine de l'estimation de pose humaine en 3D, il y a encore des domaines à améliorer. Notamment, le cadre se concentre actuellement sur l'affinage des points clés distaux et n'aborde pas directement l'exactitude des points clés proximaux. Les développements futurs pourraient explorer l'intégration de corrections plus larges sur l'ensemble du corps.

En plus, le seuil de fonction d'énergie fixe utilisé pour catégoriser les échantillons pourrait être adapté pour varier en fonction des modèles ou des ensembles de données spécifiques utilisés, ce qui donnerait une meilleure spécificité dans la détection OOD.

Conclusion

ESCAPE présente une nouvelle méthode prometteuse pour améliorer l'estimation de pose humaine en 3D, surtout dans des applications en temps réel. En introduisant une approche d'adaptation sélective au moment du test, il équilibre efficacement précision et rapidité, répondant à de nombreux points faibles des méthodes précédentes. L'intégration d'une fonction d'énergie pour la sélection des échantillons permet d'identifier efficacement les poses nécessitant plus de considération, menant finalement à des améliorations de performance dans l'ensemble.

À mesure que la technologie continue de progresser, des cadres comme ESCAPE sont cruciaux pour rendre l'estimation de pose plus pratique et efficace dans une variété de scénarios du monde réel. Ces améliorations ouvrent la voie à d'autres recherches et développements dans le domaine, ouvrant des possibilités pour des méthodes d'estimation de pose encore plus précises et rapides.

Source originale

Titre: ESCAPE: Energy-based Selective Adaptive Correction for Out-of-distribution 3D Human Pose Estimation

Résumé: Despite recent advances in human pose estimation (HPE), poor generalization to out-of-distribution (OOD) data remains a difficult problem. While previous works have proposed Test-Time Adaptation (TTA) to bridge the train-test domain gap by refining network parameters at inference, the absence of ground-truth annotations makes it highly challenging and existing methods typically increase inference times by one or more orders of magnitude. We observe that 1) not every test time sample is OOD, and 2) HPE errors are significantly larger on distal keypoints (wrist, ankle). To this end, we propose ESCAPE: a lightweight correction and selective adaptation framework which applies a fast, forward-pass correction on most data while reserving costly TTA for OOD data. The free energy function is introduced to separate OOD samples from incoming data and a correction network is trained to estimate the errors of pretrained backbone HPE predictions on the distal keypoints. For OOD samples, we propose a novel self-consistency adaptation loss to update the correction network by leveraging the constraining relationship between distal keypoints and proximal keypoints (shoulders, hips), via a second ``reverse" network. ESCAPE improves the distal MPJPE of five popular HPE models by up to 7% on unseen data, achieves state-of-the-art results on two popular HPE benchmarks, and is significantly faster than existing adaptation methods.

Auteurs: Luke Bidulka, Mohsen Gholami, Jiannan Zheng, Martin J. McKeown, Z. Jane Wang

Dernière mise à jour: 2024-07-19 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2407.14605

Source PDF: https://arxiv.org/pdf/2407.14605

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires