Simple Science

La science de pointe expliquée simplement

# Informatique# Vision par ordinateur et reconnaissance des formes

Modéliser les interactions humaines à partir d'images

Un nouveau modèle analyse les interactions sociales en utilisant des images 2D pour simuler un comportement 3D.

― 5 min lire


ModélisationModélisationd'interaction sociale en3D3D.partir d'images 2D en représentationsAnalyser le comportement humain à
Table des matières

Les interactions humaines sont super importantes dans nos vies quotidiennes. Quand on voit des gens ensemble, leurs positions et gestes peuvent en dire long sur leur relation et leurs sentiments. Par contre, comprendre ces interactions en trois dimensions (3D) n'est pas simple. Les méthodes traditionnelles pour étudier ça reposent souvent sur la Collecte de données 3D spécifiques, ce qui prend du temps et c'est compliqué. Au lieu de ça, on peut utiliser des images où les gens interagissent. Cette approche permet de créer un meilleur modèle de comment les gens se comportent dans des situations sociales.

C'est quoi la Proxémie ?

La proxémie, c'est comment les gens se positionnent par rapport aux autres. Par exemple, quand deux amis se tiennent proches, ça montre un certain niveau d'intimité. À l'inverse, si deux inconnus se tiennent plus loin, ça suggère une certaine formalité. Ces relations spatiales peuvent montrer des indices sociaux qui guident nos interactions. En étudiant la proxémie, on peut en apprendre plus sur le comportement humain.

Approche pour Comprendre les Interactions Sociales

Dans cette étude, on se concentre sur la création d'un modèle qui peut apprendre des interactions sociales 3D à partir d'images 2D. On fait ça en construisant une représentation de comment deux personnes interagissent de près. On analyse des images où des gens sont vus ensemble et on utilise ça pour entraîner un modèle capable de simuler différentes interactions en 3D.

Collecte de Données

Bien qu'il y ait beaucoup d'infos dans les images de gens, collecter des données 3D de deux ou plusieurs personnes interagissant est difficile. Pour contourner ça, on développe une méthode pour créer des modèles 3D "pseudo-véritables" à partir d'images. En utilisant des techniques existantes, on génère des formes et poses 3D de gens interagissant selon leurs positions dans les images.

Apprentissage à Partir des Données

On entraîne notre modèle avec les représentations 3D qu'on a générées à partir des images. Le modèle apprend à quoi ressemblent des interactions typiques, ce qui lui permet de générer de nouvelles interactions à partir de points de départ simples, comme du bruit aléatoire. Ça veut dire qu'on peut créer des représentations réalistes de gens interagissant sans avoir besoin d'annotations détaillées.

Les Avantages d'Utiliser des Images

Utiliser des images a plein d'avantages. On a un tas de photos qui montrent des gens dans différentes situations sociales. Ça fournit un ensemble de données riche qui reflète les interactions réelles. Le modèle qu'on a construit peut produire diverses interactions, comme des gens qui s'enlacent, jouent à des sports, ou simplement se tiennent proches. Cette flexibilité est utile pour des applications comme créer des scènes réalistes en réalité virtuelle ou en animation.

Validation du modèle

Pour s'assurer que notre modèle fonctionne bien, on le valide à travers des études avec des utilisateurs. On demande à des volontaires d'évaluer à quel point les interactions produites par le modèle sont réalistes comparées à de vraies images. Les retours nous aident à comprendre à quel point le modèle capte les nuances des interactions humaines. Les résultats montrent que notre modèle peut créer des interactions plus convaincantes que les méthodes existantes.

Reconstruction des Interactions à Partir d'Images

En plus de générer des interactions, notre approche peut aussi prendre une image unique et reconstruire comment deux personnes pourraient interagir en 3D. Ce processus utilise le modèle qu'on a développé pour optimiser leurs poses en 3D. Plutôt que de s'appuyer sur des annotations spécifiques, on guide le modèle avec les principes appris de l'interaction sociale. Le processus d'optimisation ajuste les poses pour qu'elles s'intègrent mieux dans le contexte de l'image.

Applications

Les connaissances tirées de ce travail peuvent être appliquées dans divers domaines. Par exemple, en réalité augmentée (RA), on peut peupler des environnements virtuels avec des représentations réalistes de personnes. Dans les jeux vidéo et les films, créer des interactions de personnages crédibles peut améliorer le récit. De plus, notre approche peut être utile pour les robots sociaux, les aidant à mieux comprendre le comportement humain.

Défis et Travaux Futurs

Bien qu'on ait fait des progrès significatifs, des défis restent à relever. Les interactions générées peuvent être encore améliorées, et on prévoit d'enrichir le modèle en l'entraînant avec des données plus diverses. En plus, explorer comment le modèle peut fonctionner avec des scénarios plus complexes, comme des groupes de personnes, serait intéressant. De futures expériences pourraient aussi impliquer de conditionner le modèle avec différents types d'entrées, comme des descriptions textuelles ou des actions spécifiques, pour générer des interactions plus ciblées.

Conclusion

Comprendre comment les humains interagissent dans l'espace 3D à partir d'images 2D ouvre de nouvelles possibilités pour étudier le comportement social. En exploitant les données existantes des photographies, on peut créer un modèle qui reflète fidèlement les interactions humaines. Ce modèle ne génère pas seulement des représentations réalistes de gens dans des situations sociales, mais aide aussi à reconstruire des interactions à partir d'images uniques. Les découvertes ouvrent la voie à une compréhension plus profonde du comportement humain et peuvent vraiment contribuer à des industries qui se fient à des interactions de personnages réalistes. À mesure qu'on continue de peaufiner le modèle, on attend avec impatience des applications plus larges et des avancées dans le domaine de l'interaction homme-machine.

Source originale

Titre: Generative Proxemics: A Prior for 3D Social Interaction from Images

Résumé: Social interaction is a fundamental aspect of human behavior and communication. The way individuals position themselves in relation to others, also known as proxemics, conveys social cues and affects the dynamics of social interaction. Reconstructing such interaction from images presents challenges because of mutual occlusion and the limited availability of large training datasets. To address this, we present a novel approach that learns a prior over the 3D proxemics two people in close social interaction and demonstrate its use for single-view 3D reconstruction. We start by creating 3D training data of interacting people using image datasets with contact annotations. We then model the proxemics using a novel denoising diffusion model called BUDDI that learns the joint distribution over the poses of two people in close social interaction. Sampling from our generative proxemics model produces realistic 3D human interactions, which we validate through a perceptual study. We use BUDDI in reconstructing two people in close proximity from a single image without any contact annotation via an optimization approach that uses the diffusion model as a prior. Our approach recovers accurate and plausible 3D social interactions from noisy initial estimates, outperforming state-of-the-art methods. Our code, data, and model are availableat our project website at: muelea.github.io/buddi.

Auteurs: Lea Müller, Vickie Ye, Georgios Pavlakos, Michael Black, Angjoo Kanazawa

Dernière mise à jour: 2023-12-12 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2306.09337

Source PDF: https://arxiv.org/pdf/2306.09337

Licence: https://creativecommons.org/licenses/by-sa/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires