Simple Science

La science de pointe expliquée simplement

# Informatique# Vision par ordinateur et reconnaissance des formes

AiOS : Une nouvelle approche pour l'estimation de la posture humaine

AiOS combine la détection et l'estimation de pose humaine en un seul processus efficace.

― 8 min lire


AiOS : TransformerAiOS : Transformerl'estimation de posehumaine.pour estimer la pose et la formeUne méthode plus rapide et plus précise
Table des matières

Comprendre les poses et les formes humaines est super important dans plein de domaines, comme l'animation, les jeux vidéo et le streaming. Les méthodes traditionnelles pour ça passent souvent par deux étapes : d'abord détecter le corps humain puis estimer ses parties. Mais ces méthodes ont leurs défauts, surtout dans des scènes bondées. Elles peuvent perdre des infos importantes et avoir du mal à connecter les parties du corps correctement. Pour régler ces problèmes, on te présente AiOS, une nouvelle approche qui estime les poses et les formes humaines en une seule étape.

Qu'est-ce qu'AiOS ?

AiOS, ça veut dire All-in-One-Stage. C'est conçu pour estimer les poses et les formes humaines sans avoir besoin de d'abord détecter les individus. Contrairement aux autres méthodes qui utilisent des processus de détection et d'estimation séparés, AiOS fait ces tâches en même temps. Ça rend le tout plus rapide et plus précis, surtout dans des scènes complexes avec plusieurs personnes.

Comment ça marche AiOS ?

AiOS utilise une méthode appelée DETR, qui considère la tâche de comprendre les poses et les formes humaines comme un problème de prédiction d'ensembles d'objets. Il utilise des tokens pour représenter différentes parties du corps humain et les regroupe de manière à capturer à la fois les caractéristiques globales et locales.

  1. Human Token : Ce token trouve où une personne se situe dans l'image et rassemble des infos sur ses caractéristiques.

  2. Joint Token : Ce token se concentre sur des articulations spécifiques du corps pour obtenir des infos détaillées nécessaires pour une estimation précise.

Ces caractéristiques travaillent ensemble pour créer une image complète de la pose et de la forme d'une personne sans avoir à recadrer les images en sections plus petites.

Avantages d'AiOS

AiOS a plusieurs avantages par rapport aux méthodes traditionnelles :

  1. Processus en Une Étape : Les méthodes traditionnelles nécessitent souvent de recadrer les images en morceaux plus petits, ce qui peut entraîner une perte d’informations. AiOS travaille directement avec l'image entière, ce qui le rend plus efficace.

  2. Meilleure Précision : En connectant les caractéristiques globales et locales, AiOS améliore la précision. Il peut gérer des scènes complexes où les gens se superposent sans perdre de détail.

  3. Polyvalence : AiOS peut estimer les poses, les mouvements des mains et les expressions faciales ensemble, ce qui le rend adapté à diverses applications.

Résultats de Performance

AiOS a montré des résultats impressionnants lors de tests contre des modèles à la pointe de la technologie. Il montre des améliorations significatives en précision, surtout dans des scénarios où les boîtes de détection sont bruyantes ou imprecises.

  • Sur un benchmark appelé AGORA, AiOS a réalisé une erreur inférieure de 9% par rapport aux méthodes précédentes, montrant son efficacité même dans des conditions difficiles.

Contexte sur l'Estimation de Poses et de Formes humaines

L'estimation de poses et de formes humaines implique la reconstruction d'une maquette 3D d'un corps humain à partir d'images. Les méthodes existantes utilisent souvent des modèles paramétriques qui représentent les parties du corps. Ces méthodes fonctionnent en général en étapes :

  • Étape 1 : Détection des parties du corps en utilisant des modèles existants.
  • Étape 2 : Estimation de chaque partie à partir d'images recadrées.

Bien que cette approche ait montré du succès, elle a aussi ses limites, comme la création d'artéfacts aux intersections des articulations et sa complexité à mettre en œuvre. La nécessité de boîtes englobantes pour la détection pose aussi des défis, surtout dans des applications réelles.

Le Besoin d'une Nouvelle Approche

Au fur et à mesure que la recherche en estimation de poses et de formes humaines progresse, il y a un besoin croissant de méthodes plus efficaces qui peuvent travailler directement sur des images entières. Recadrer les images entraîne souvent une perte d'informations spatiales, rendant difficile la détection d'individus qui se chevauchent. Des défis de taille se posent dans des scénarios où les gens sont très proches les uns des autres ou partiellement cachés.

Caractéristiques Clés d'AiOS

AiOS propose plusieurs designs innovants :

  1. Cadre Intégré : En combinant détection et estimation en un seul processus, AiOS réduit la complexité et améliore la performance.

  2. Conception Humain-en-Tokens : Cette approche unique considère les humains comme des ensembles de tokens, permettant au modèle de s'adapter dynamiquement à différentes positions et configurations.

  3. Mécanismes d'Attention : L'utilisation de l'auto-attention et de l'attention croisée aide le modèle à analyser les relations entre les parties du corps et les individus, améliorant la performance dans des environnements encombrés.

Vue d'Ensemble du Pipeline AiOS

Le pipeline AiOS peut être décomposé en plusieurs étapes :

  1. Localisation du Corps : Cette étape prédit où se trouvent les humains dans l'image.

  2. Affinement du Corps : Ici, le modèle peaufine les caractéristiques pour estimer avec précision les emplacements du corps, des mains et du visage.

  3. Affinement du Corps Complet : Cette étape finale combine toutes les infos pour régresser la maquette complète du corps.

Entraînement et Ensembles de Données

AiOS a été entraîné sur une variété d'ensembles de données, y compris des scénarios complexes avec plusieurs personnes et différents types de formes et de mouvements corporels. Les ensembles de données spécifiques incluent AGORA, BEDLAM et COCO, entre autres. Le modèle a été testé sur divers benchmarks pour assurer sa polyvalence et ses capacités de généralisation.

Configuration Expérimentale et Évaluation

Le modèle a été évalué en utilisant des métriques standards, y compris l'erreur moyenne des sommets et l'erreur moyenne de position par articulation. Ces évaluations visaient à mesurer la précision de reconstruction et la précision de détection. Des comparaisons avec des méthodes à la pointe de la technologie ont mis en avant les forces d'AiOS dans la gestion de scénarios réels.

Sensibilité à la Précision des Boîtes Englobantes

Les méthodes précédentes ont montré une sensibilité à la précision des boîtes englobantes utilisées pour la détection. AiOS a pu maintenir de fortes performances même en utilisant des boîtes englobantes de précision variable, montrant sa robustesse dans des situations difficiles.

Applications Réelles

Les applications potentielles pour AiOS sont vastes, notamment :

  • Animation : Capturer avec précision les mouvements humains pour les animations de personnages.
  • Jeux : Améliorer l'interaction des joueurs en comprenant les gestes et les expressions.
  • Streaming : Permettre l'analyse en temps réel du langage corporel pour les créateurs de contenu.

Défis et Limitations

Bien qu'AiOS ait montré d'importants progrès, certains défis persistent :

  1. Diversité des Données : Des ensembles de données plus diversifiés peuvent améliorer la performance du modèle, en particulier dans des scénarios réels.

  2. Interactions Complexes : Les situations avec des interactions complexes entre plusieurs individus peuvent encore poser des défis.

Conclusion

AiOS représente une avancée significative dans le domaine de l'estimation de poses et de formes humaines. En intégrant détection et estimation dans un seul cadre, il améliore l'efficacité et la précision, surtout dans des scènes complexes. Des recherches et développements continus peuvent encore améliorer ses capacités et résoudre les défis existants dans le domaine.

Travaux Futurs

En regardant vers l'avenir, la recherche future pourrait se concentrer sur :

  • L'expansion des ensembles de données d'entraînement pour inclure plus d'interactions réelles.
  • L'exploration de l'intégration du suivi et de la localisation 3D dans le cadre AiOS.
  • L'investigation de l'estimation des mouvements dans des environnements à basse résolution.

Remerciements

L'équipe derrière AiOS est reconnaissante pour le soutien reçu tout au long du processus de recherche. Ce projet a bénéficié de plusieurs collaborations et partenariats qui ont enrichi le développement et la validation du modèle.

Ressources Supplémentaires

Pour ceux qui s'intéressent à plus de détails sur AiOS, plus d'infos peuvent être trouvées concernant les ensembles de données utilisés, des implémentations spécifiques du modèle, et des évaluations de performance étendues. Des résultats visuels et des comparaisons avec d'autres méthodes peuvent aussi donner un aperçu des capacités de cette approche innovante.

Source originale

Titre: AiOS: All-in-One-Stage Expressive Human Pose and Shape Estimation

Résumé: Expressive human pose and shape estimation (a.k.a. 3D whole-body mesh recovery) involves the human body, hand, and expression estimation. Most existing methods have tackled this task in a two-stage manner, first detecting the human body part with an off-the-shelf detection model and inferring the different human body parts individually. Despite the impressive results achieved, these methods suffer from 1) loss of valuable contextual information via cropping, 2) introducing distractions, and 3) lacking inter-association among different persons and body parts, inevitably causing performance degradation, especially for crowded scenes. To address these issues, we introduce a novel all-in-one-stage framework, AiOS, for multiple expressive human pose and shape recovery without an additional human detection step. Specifically, our method is built upon DETR, which treats multi-person whole-body mesh recovery task as a progressive set prediction problem with various sequential detection. We devise the decoder tokens and extend them to our task. Specifically, we first employ a human token to probe a human location in the image and encode global features for each instance, which provides a coarse location for the later transformer block. Then, we introduce a joint-related token to probe the human joint in the image and encoder a fine-grained local feature, which collaborates with the global feature to regress the whole-body mesh. This straightforward but effective model outperforms previous state-of-the-art methods by a 9% reduction in NMVE on AGORA, a 30% reduction in PVE on EHF, a 10% reduction in PVE on ARCTIC, and a 3% reduction in PVE on EgoBody.

Auteurs: Qingping Sun, Yanjun Wang, Ailing Zeng, Wanqi Yin, Chen Wei, Wenjia Wang, Haiyi Mei, Chi Sing Leung, Ziwei Liu, Lei Yang, Zhongang Cai

Dernière mise à jour: 2024-03-26 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2403.17934

Source PDF: https://arxiv.org/pdf/2403.17934

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires