Simple Science

La science de pointe expliquée simplement

# Informatique# Vision par ordinateur et reconnaissance des formes

Une nouvelle façon de chercher des données sur le mouvement humain

On vous présente une méthode pour récupérer des données de mouvement en utilisant des requêtes en langage naturel.

― 7 min lire


Révolutionner laRévolutionner larécupération de donnéesde mouvementmouvement humain.en langage naturel pour les données deUn nouveau système permet la recherche
Table des matières

Les récentes avancées technologiques nous permettent de suivre les mouvements humains à partir de vidéos, créant une version numérique de la façon dont une personne se déplace. Cette version numérique utilise un modèle 3D composé de points représentant différentes parties du corps, appelés séquences de squelette. Bien qu'il existe de nombreuses façons intéressantes d'utiliser ces données, trouver des mouvements spécifiques dans de grandes bases de données reste assez difficile. Cet article présente une nouvelle méthode qui permet aux utilisateurs de rechercher des mouvements de manière plus conviviale en utilisant des descriptions en langage naturel.

Défis avec les données de mouvement

Avec l'intérêt croissant pour les données de squelette, il y a un besoin de technologies capables de gérer efficacement ces grandes quantités d'informations. Beaucoup de recherches actuelles se concentrent principalement sur la construction de systèmes avancés capables de classer différents types de mouvements ou de détecter des actions dans des flux de données en cours. Ces systèmes reposent souvent sur des méthodes d'apprentissage profond qui nécessitent beaucoup de données étiquetées pour apprendre efficacement.

Un des principaux défis dans la récupération de mouvements est que les utilisateurs ne savent souvent pas exactement quel exemple de requête ils souhaitent utiliser. Par exemple, ils n'ont peut-être pas une séquence de squelette spécifique en tête ou n'ont peut-être pas les compétences pour en créer une. Cet article aborde ce problème en permettant aux utilisateurs d'exprimer leurs besoins à travers un texte normal.

La nouvelle méthode de récupération de mouvement à partir de texte

Notre méthode est conçue pour combler le fossé entre les descriptions textuelles et les données de mouvement. L'objectif est de créer un système capable de parcourir une base de données de mouvements et de trouver ceux qui correspondent le mieux à une requête textuelle donnée.

Pour cela, nous avons utilisé deux composants principaux : un pour comprendre le texte et un autre pour interpréter le mouvement. Nous nous sommes concentrés sur la création d'un pipeline où les deux types d'informations sont traitées séparément avant d'être intégrées dans un espace commun pour comparaison.

Compréhension du texte

Nous avons utilisé deux modèles bien connus pour traiter le texte : BERT et CLIP. BERT est conçu pour comprendre la structure et le contexte des phrases de manière approfondie. Il aide à créer des représentations riches du texte en comprenant le lien entre les mots et leurs significations dans une phrase.

CLIP, quant à lui, est un modèle plus récent qui peut associer des images à des descriptions textuelles. Il fonctionne en analysant des éléments visuels et en les liant à la langue dans un contexte partagé. Pour notre méthode, nous avons utilisé la partie traitement du texte de CLIP pour convertir les requêtes des utilisateurs en un format pouvant être comparé aux données de mouvement.

Interprétation du mouvement

Pour comprendre le mouvement, nous avons plusieurs méthodes à notre disposition. Nous avons choisi d'utiliser des systèmes avancés capables de reconnaître les modèles de mouvement humain à partir des séquences de squelette. Ces systèmes utilisent différentes techniques pour traiter les données temporelles, ce qui est essentiel pour capturer l'évolution du mouvement au fil du temps.

Certaines des techniques que nous avons utilisées incluent les GRUs, qui aident à traiter des séquences de données, et le DG-STGCN, un modèle qui capture efficacement la dynamique du mouvement. En appliquant ces méthodes, nous pouvons créer des représentations numériques des mouvements qui peuvent être facilement comparées aux descriptions textuelles.

Apprentissage et évaluation

Comprendre la qualité de notre système est primordial. Nous avons établi des benchmarks clairs pour évaluer les performances de notre méthode dans la récupération de mouvements basés sur des requêtes textuelles. En utilisant diverses métriques, nous pouvons mesurer des choses comme la précision et la pertinence des résultats renvoyés par notre système.

Nous avons utilisé deux ensembles de données pour tester notre méthode : le KIT Motion Language Dataset et le HumanML3D Dataset. Ces collections contiennent différents types de mouvements ainsi que des descriptions textuelles détaillées, ce qui nous permet d'évaluer la précision avec laquelle notre méthode récupère les mouvements pertinents.

Résultats et observations

Les résultats de notre évaluation indiquent que notre nouvelle méthode de récupération de mouvement à partir de texte fonctionne efficacement dans différents scénarios. Lorsque nous avons comparé diverses méthodes d'encodage de texte et de mouvement, nous avons constaté que l'utilisation de CLIP pour le texte et notre encodeur de mouvement avancé produisait les correspondances les plus précises.

Un point intéressant à noter est la capacité de notre système à discerner des différences subtiles dans le mouvement lorsque des termes spécifiques sont utilisés dans la requête textuelle. Par exemple, si l'utilisateur spécifie "dans le sens inverse des aiguilles d'une montre" dans sa demande, les résultats renvoyés donneront la priorité aux mouvements correspondant à cette direction. Si aucun terme directionnel n'est inclus, le système peut renvoyer à la fois des mouvements originaux et inversés, montrant sa flexibilité pour gérer des requêtes vagues.

Comprendre l'importance de l'espace commun

Un aspect clé de notre approche est la création d'un espace commun où les données textuelles et de mouvement peuvent coexister. Cela permet des comparaisons simples entre différents types d'informations. Nos résultats ont montré que maintenir une dimensionnalité relativement faible dans cet espace commun était efficace, car la performance chutait à peine même lorsque nous réduisions considérablement la taille de cet espace.

Les différentes fonctions de perte que nous avons expérimentées pendant l'entraînement se sont également révélées cruciales. Nous avons découvert qu'une fonction de perte en particulier, l'InfoNCE, surpassait les autres, confirmant son efficacité dans notre domaine conjoint texte-mouvement.

Directions futures

En regardant vers l'avenir, il y a plusieurs voies d'amélioration et d'exploration. Une opportunité significative est de former nos modèles sur des ensembles de données plus diversifiés pour améliorer leur capacité à généraliser à travers différents types de mouvements et de requêtes textuelles. Nous visons également à intégrer d'autres types de données, comme des vidéos, dans notre processus de récupération de mouvement.

En continuant à affiner ces méthodes et à élargir leurs capacités, nous espérons rendre la recherche et la compréhension du mouvement humain plus accessibles et intuitives pour tout le monde, que ce soit dans des domaines comme le divertissement, le sport ou la réhabilitation.

Conclusion

Nous avons introduit une nouvelle méthode pour récupérer des données de mouvement humain à partir de requêtes en langage naturel, facilitant la recherche de mouvements spécifiques sans avoir besoin de compétences en modélisation formelle. En tirant parti de modèles avancés de traitement du texte et du mouvement, nous avons créé un système qui fonctionne bien avec les deux types de données.

Les progrès réalisés ici ouvrent la voie à de futures études et applications dans ce domaine de recherche passionnant. À mesure que la technologie continue d'évoluer, nous espérons améliorer encore notre compréhension et notre accès aux données de mouvement humain dans divers domaines.

Source originale

Titre: Text-to-Motion Retrieval: Towards Joint Understanding of Human Motion Data and Natural Language

Résumé: Due to recent advances in pose-estimation methods, human motion can be extracted from a common video in the form of 3D skeleton sequences. Despite wonderful application opportunities, effective and efficient content-based access to large volumes of such spatio-temporal skeleton data still remains a challenging problem. In this paper, we propose a novel content-based text-to-motion retrieval task, which aims at retrieving relevant motions based on a specified natural-language textual description. To define baselines for this uncharted task, we employ the BERT and CLIP language representations to encode the text modality and successful spatio-temporal models to encode the motion modality. We additionally introduce our transformer-based approach, called Motion Transformer (MoT), which employs divided space-time attention to effectively aggregate the different skeleton joints in space and time. Inspired by the recent progress in text-to-image/video matching, we experiment with two widely-adopted metric-learning loss functions. Finally, we set up a common evaluation protocol by defining qualitative metrics for assessing the quality of the retrieved motions, targeting the two recently-introduced KIT Motion-Language and HumanML3D datasets. The code for reproducing our results is available at https://github.com/mesnico/text-to-motion-retrieval.

Auteurs: Nicola Messina, Jan Sedmidubsky, Fabrizio Falchi, Tomáš Rebok

Dernière mise à jour: 2023-10-04 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2305.15842

Source PDF: https://arxiv.org/pdf/2305.15842

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires