Simple Science

La science de pointe expliquée simplement

# Informatique# Vision par ordinateur et reconnaissance des formes

Faire avancer la génération de mouvements humains avec in2IN

Le modèle in2IN améliore les interactions humaines réalistes dans différents domaines.

― 9 min lire


in2IN : Mouvement Humainin2IN : Mouvement HumainRéalistehumaines authentiques.Un nouveau modèle pour des interactions
Table des matières

Cet article parle d'un nouveau modèle appelé in2IN, conçu pour créer des mouvements humains réalistes pendant des interactions basées sur un texte descriptif. Cet outil peut être utile dans divers domaines comme la robotique, l'animation et les jeux vidéo. Le but de ce modèle est de générer des mouvements humains qui reflètent avec précision la dynamique des deux personnes impliquées.

Le processus de génération de ces interactions passe par la compréhension de la manière dont les gens se comportent dans des contextes sociaux. Ça inclut leurs mouvements, leurs états émotionnels et le contexte dans lequel ils interagissent. La plupart des méthodes existantes ont des limites pour montrer une grande variété de mouvements qu'une personne peut faire durant une interaction. L'objectif d'in2IN est d'améliorer cela en combinant des descriptions d'interactions générales avec des détails spécifiques sur les actions de chaque personne impliquée.

Le besoin d'une meilleure génération de mouvement

Créer des mouvements humains réalistes a toujours été un gros défi en informatique, surtout quand il s'agit de capturer comment les gens interagissent entre eux. Les tentatives précédentes de simuler ces mouvements ont souvent abouti à un manque de variété et de réalisme. C'est surtout parce que les données sur les mouvements humains sont limitées et manquent souvent de détails nécessaires pour une génération précise.

Dans beaucoup de scénarios, la capacité de contrôler les détails du mouvement d'une personne basé sur une invite textuelle est cruciale. C'est particulièrement important dans les jeux vidéo, où les personnages doivent réagir de manière appropriée à différentes conditions, comme les actions d'autres personnages, des facteurs environnementaux ou des changements d'émotion.

En modélisant efficacement à la fois comment les individus interagissent entre eux et comment ils se comportent seuls, in2IN vise à créer une représentation plus diversifiée et précise des actions humaines.

Comment in2IN fonctionne

Le modèle in2IN utilise une approche de diffusion pour générer des mouvements. Ça veut dire qu'il affine progressivement une représentation brute du mouvement en quelque chose de plus détaillé et précis. L'unicité d'in2IN réside dans sa capacité à prendre deux types d'entrée : l'une décrit l'interaction globale, et l'autre détaille les actions de chaque personne impliquée.

Pour cela, le modèle utilise un grand ensemble de données appelé InterHuman, qui contient de nombreux exemples d'interactions humaines. En ajoutant des descriptions générées par un modèle de langage, in2IN améliore cet ensemble de données avec des détails plus spécifiques sur les Mouvements Individuels, donnant ainsi de meilleures sorties.

Défis de la génération de mouvement humain

Créer un mouvement humain qui paraît naturel est complexe. Les gens ajustent souvent leurs mouvements selon divers facteurs, y compris leurs émotions et les actions de ceux qui les entourent. De plus, la même personne peut effectuer la même action de différentes manières selon la situation.

Cette variabilité rend difficile la modélisation précise du comportement humain, car les données de mouvement peuvent manquer de richesse pour représenter toutes les manières possibles dont les gens pourraient bouger et interagir. En conséquence, beaucoup de méthodes existantes produisent des sorties qui semblent répétitives ou irréalistes.

L'importance des descriptions individuelles

Une caractéristique clé d'in2IN est son focus sur les mouvements individuels. En conditionnant la génération de mouvement sur des détails spécifiques concernant les actions de chaque personne, le modèle peut produire une plus grande variété de mouvements. Cela aide à garantir qu'aucune interaction ne se ressemble, même si le contexte global reste inchangé.

Par exemple, dans un scénario de salutation, deux personnes pourraient faire un signe de la main pour dire bonjour de différentes manières – l'une pourrait agiter la main gauche, tandis que l'autre pourrait choisir de faire une révérence. En reconnaissant et en modélisant ces différences, in2IN améliore non seulement le réalisme des interactions, mais ajoute aussi de la profondeur à la manière dont les personnages s'expriment dans divers contextes.

Introduction de DualMDM pour la composition de mouvement

Pour encore plus diversifier les mouvements générés, in2IN intègre une technique appelée DualMDM. Cette méthode combine la sortie du modèle in2IN avec des données d'un modèle de mouvement d'une seule personne, qui a été entraîné séparément. En mélangeant ces deux sources d'information, DualMDM vise à augmenter la variété des mouvements tout en maintenant la cohérence des interactions.

Cette approche permet une représentation plus dynamique du comportement humain. Elle reconnaît que bien que les interactions impliquent généralement plusieurs personnes, les mouvements de chaque individu peuvent varier énormément. En intégrant les connaissances tirées des mouvements individuels et partagés, DualMDM améliore les interactions résultantes.

Méthodes actuelles vs. in2IN

Les méthodes traditionnelles de Génération de mouvements humains reposent souvent sur des modèles simplifiés qui ne prennent pas en compte la pleine complexité des interactions humaines. Beaucoup de ces méthodes ne peuvent produire que des variations limitées de mouvements, ce qui tend à conduire à des résultats répétitifs ou non naturels.

En revanche, in2IN et sa technique DualMDM permettent une génération de mouvement plus riche et nuancée. En utilisant des descriptions textuelles détaillées pour guider les mouvements et en les améliorant avec des données supplémentaires provenant de modèles de mouvement individuels, in2IN peut produire un large éventail d'interactions humaines qui semblent plus authentiques et réactives.

Évaluation de la performance du modèle

Pour évaluer la performance d'in2IN, les chercheurs le comparent à des méthodes existantes en utilisant diverses métriques d'évaluation. Ces métriques aident à identifier à quel point les mouvements générés s'alignent avec les descriptions souhaitées et à quel point les sorties sont diverses. En pratique, cela signifie mesurer à quel point chaque mouvement généré est différent lorsqu'il est provoqué par des descriptions textuelles similaires.

Ce processus d'évaluation est crucial pour s'assurer que le modèle produit non seulement des mouvements réalistes, mais maintient aussi la qualité des interactions dans différents scénarios. Cela aide à identifier les domaines à améliorer dans le processus de génération et valide l'efficacité d'in2IN dans le contexte plus large de la génération de mouvement.

Directions futures

Bien que in2IN et DualMDM montrent des promesses, il reste encore des domaines à affiner. Par exemple, le modèle de langage utilisé pour générer des descriptions individuelles produit parfois des sorties qui ne correspondent pas avec précision aux mouvements souhaités. Les travaux futurs pourraient se concentrer sur l'amélioration de ces descriptions pour garantir une plus grande précision et pertinence par rapport aux mouvements générés.

De plus, explorer de meilleures techniques pour mélanger les sorties des modèles de mouvement individuel et d'interaction pourrait améliorer la qualité globale des interactions générées. Cela pourrait impliquer de développer des méthodes plus sophistiquées pour ajuster l'influence de chaque entrée pendant le processus de génération.

Conclusion

Le modèle in2IN représente un pas en avant significatif dans le domaine de la génération de mouvement humain. En fusionnant à la fois des descriptions d'interaction générales et des actions individuelles détaillées, il permet de créer des interactions humaines plus réalistes et diversifiées.

Avec la capacité ajoutée de DualMDM pour la composition de mouvement, in2IN offre une approche flexible pour capturer la complexité du comportement humain. Bien qu'il reste des défis à relever, les avancées présentées ici jettent une base solide pour de futures recherches et applications dans des domaines comme la robotique, les jeux vidéo et l'animation.

En se concentrant à la fois sur l'individu et sur la dynamique des interactions, ce modèle ouvre de nouvelles avenues pour créer des mouvements humains engageants et réalistes qui peuvent s'adapter à divers contextes et états émotionnels, améliorant considérablement l'expérience dans les environnements virtuels.

Applications pratiques

Les avancées offertes par in2IN vont au-delà de la recherche théorique. En termes pratiques, ce modèle peut considérablement améliorer l'expérience dans les jeux et les simulations. Les personnages générés par cette méthode peuvent réagir et se déplacer de manière authentique, rendant les interactions plus engageantes pour les utilisateurs.

Dans la robotique, avoir des robots capables de comprendre et de imiter les mouvements humains peut conduire à des interactions homme-robot plus efficaces et naturelles. Cela pourrait être particulièrement bénéfique dans des domaines comme le soin aux personnes, où les robots doivent interagir étroitement avec les humains de manière sensible et réactive.

L'industrie de l'animation peut également tirer parti d'in2IN pour créer rapidement des mouvements de personnages réalistes. Au lieu de compter sur les animateurs pour façonner manuellement chaque interaction, ce modèle peut automatiser le processus tout en permettant un contrôle créatif sur les actions des personnages.

Résumé

En résumé, le modèle in2IN améliore la génération de mouvement humain en combinant des descriptions d'interaction générales avec des actions individuelles spécifiques. Cela donne lieu à des interactions plus réalistes et variées qui peuvent s'adapter au contexte et aux états émotionnels des personnages impliqués. Grâce à l'utilisation de DualMDM, le modèle augmente encore la diversité des mouvements individuels, offrant une représentation plus complète du comportement humain lors des interactions.

Ces avancées préparent le terrain pour des améliorations significatives dans divers secteurs, des jeux et de l'animation à la robotique et au-delà, permettant des expériences plus engageantes et réalistes dans des applications virtuelles et réelles.

Source originale

Titre: in2IN: Leveraging individual Information to Generate Human INteractions

Résumé: Generating human-human motion interactions conditioned on textual descriptions is a very useful application in many areas such as robotics, gaming, animation, and the metaverse. Alongside this utility also comes a great difficulty in modeling the highly dimensional inter-personal dynamics. In addition, properly capturing the intra-personal diversity of interactions has a lot of challenges. Current methods generate interactions with limited diversity of intra-person dynamics due to the limitations of the available datasets and conditioning strategies. For this, we introduce in2IN, a novel diffusion model for human-human motion generation which is conditioned not only on the textual description of the overall interaction but also on the individual descriptions of the actions performed by each person involved in the interaction. To train this model, we use a large language model to extend the InterHuman dataset with individual descriptions. As a result, in2IN achieves state-of-the-art performance in the InterHuman dataset. Furthermore, in order to increase the intra-personal diversity on the existing interaction datasets, we propose DualMDM, a model composition technique that combines the motions generated with in2IN and the motions generated by a single-person motion prior pre-trained on HumanML3D. As a result, DualMDM generates motions with higher individual diversity and improves control over the intra-person dynamics while maintaining inter-personal coherence.

Auteurs: Pablo Ruiz Ponce, German Barquero, Cristina Palmero, Sergio Escalera, Jose Garcia-Rodriguez

Dernière mise à jour: 2024-04-15 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2404.09988

Source PDF: https://arxiv.org/pdf/2404.09988

Licence: https://creativecommons.org/licenses/by-nc-sa/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires