Simple Science

La science de pointe expliquée simplement

# Informatique# Robotique

Des robots apprennent à interpréter le geste de pointer des humains

Un système pour que les robots reconnaissent et réagissent aux gestes de pointage humains avec une caméra RGB.

― 8 min lire


Des robots qui décryptentDes robots qui décryptentle geste de pointer deshumains.humaines.robots comprennent les directionsUne nouvelle méthode pour que les
Table des matières

Dans notre vie quotidienne, on utilise souvent des gestes pour communiquer. Un geste courant est de pointer du doigt. Ce geste peut transmettre des informations importantes, surtout quand on veut diriger quelqu'un ou quelque chose vers un endroit précis. Pour les robots interagissant avec les humains, comprendre et répondre aux gestes de pointage peut être vital. Cet article parle du développement d'un système qui permet aux robots de reconnaître quand une personne pointe et d'estimer l'emplacement et la direction indiqués.

Importance du Pointage dans la Communication Humaine

Pointer est un geste universel utilisé dans toutes les cultures. Ça permet aux gens de diriger l’attention sans avoir besoin de mots. Par exemple, quand quelqu'un pointe un objet, ça attire immédiatement l'attention d'une autre personne sur cet objet. Les bébés utilisent souvent le pointage même avant de pouvoir parler. Cette forme de communication naturelle devient encore plus importante quand il y a des barrières linguistiques entre des gens de différents horizons.

Dans des situations impliquant des humains et des robots, le pointage peut rendre les instructions plus claires et réduire l'effort cognitif pour les utilisateurs. Dans des scénarios critiques comme des opérations de recherche et de sauvetage ou pendant des urgences médicales, pouvoir pointer et diriger un robot peut faire gagner du temps précieux et sauver des vies.

Défis Actuels dans l'Interaction Humain-Robot

La plupart des systèmes existants pour aider les robots à comprendre le pointage dépendent d'équipements complexes, comme des caméras de profondeur. Ces systèmes fonctionnent souvent bien à l'intérieur, mais ont du mal à donner des directions précises pour diverses tâches en extérieur. Ils reconnaissent généralement les gestes de pointage seulement entre des cibles spécifiques, ce qui limite leur utilité.

Notre approche vise à résoudre ces défis en utilisant une seule caméra RGB, qui est plus simple et plus flexible pour les robots dans différents environnements, que ce soit à l'intérieur ou à l'extérieur.

Cadre Proposé pour la Reconnaissance du Pointage

Notre système introduit un cadre novateur pour reconnaître les gestes de pointage, estimer la position et la direction du doigt d'une personne, et permettre aux robots d'agir en fonction de ces instructions. Le cadre se compose de plusieurs composants :

  1. Reconnaissance du Pointage : Ce modèle identifie si une personne est en train de pointer.
  2. Estimation du Pointage : Ce composant détermine où la personne pointe en estimant la position et la direction du doigt.
  3. Modèle de segmentation : Ce modèle se concentre sur le bras de la personne pour améliorer la précision des processus de reconnaissance et d'estimation.

Le robot utilise ces composants pour déterminer où aller ensuite en fonction du geste de pointage de l'utilisateur.

Le Rôle de la Segmentation dans le Processus

Quand une personne pointe, le robot doit se concentrer sur le bras qui est levé. Pour cela, nous avons mis en place un modèle de segmentation qui isole le bras du reste de l'image. Cette segmentation aide à réduire le bruit de fond et les informations inutiles, permettant aux modèles de reconnaissance et d'estimation de fonctionner plus efficacement.

Comment le Modèle de Reconnaissance Fonctionne

Une fois que le modèle de segmentation a isolé le bras, le modèle de reconnaissance l'analyse pour voir si la personne est vraiment en train de pointer. Il traite des images du bras découpées pour les classifier comme pointant ou pas pointant. C'est une tâche de classification binaire, ce qui signifie que le modèle décide simplement entre deux options.

Estimation de la Direction du Pointage

Si le modèle de reconnaissance confirme que la personne pointe, l'étape suivante est d'estimer la position et la direction du doigt. Cela se fait en utilisant les informations obtenues grâce au modèle de segmentation et à l'estimation de profondeur de la scène. En analysant la direction de l'index et sa position, le système peut calculer où le robot doit aller pour atteindre la cible indiquée.

Collecte de Données pour Former les Modèles

Pour former efficacement ces modèles, nous avons collecté un ensemble diversifié d'images. Trois ensembles de données distincts ont été créés :

  • Données de Segmentation de Bras : Des images de bras dans différentes positions ont été rassemblées pour aider le modèle à apprendre à isoler le bras efficacement.
  • Données de Reconnaissance de Pointage : Un deuxième ensemble d'images a été recueilli, en étiquetant chaque image pour indiquer si le pointage était présent ou non.
  • Données d'Estimation de Pointage : Le troisième ensemble de données impliquait des mesures précises des positions et directions des doigts à l'aide de la technologie de capture de mouvement.

Ces ensembles de données sont essentiels pour enseigner aux modèles à reconnaître et comprendre le pointage de manière précise.

Évaluations de la Précision des Modèles

Nous avons évalué les performances de notre système proposé en utilisant divers indicateurs. Pour tester la précision de la segmentation du bras, nous l'avons comparée à d'autres modèles populaires. Notre modèle de segmentation a très bien performé, identifiant avec précision les bras dans divers scénarios difficiles.

Pour la reconnaissance du pointage, nous avons évalué à quel point notre modèle distinguait bien entre les images pointant et non pointant. Les résultats ont montré une amélioration claire en utilisant le modèle de segmentation par rapport à ne pas l’utiliser.

En ce qui concerne la précision de l'estimation du pointage, nous l'avons comparée à des approches traditionnelles qui reposaient sur des systèmes complexes d'estimation de pose humaine. Nos modèles ont largement surpassé ces approches en termes de précision et d'applicabilité.

Application du Cadre dans des Scénarios Réels

Pour prouver l'efficacité du cadre, nous l'avons testé sur deux plateformes robotiques : un robot quadrupède et un rover à roues. Chaque robot était équipé d'une caméra RGB standard et utilisait notre système pour reconnaître les gestes de pointage et planifier leurs mouvements en conséquence.

Tests avec le Robot Quadrupède

Lors des tests avec le robot quadrupède, nous avons marqué des cibles aléatoires sur le sol pour que le robot les atteigne. Le robot a réussi à suivre avec précision le geste de pointage de l'utilisateur, atteignant les cibles désignées avec une précision remarquable.

Tests avec le Rover à Roues

Le rover à roues a également été testé dans des conditions similaires, où l'utilisateur pointait vers un petit banc pendant que le robot devait naviguer dans un environnement à l'aide de ses capteurs. Bien qu'il y ait eu quelques instances où le robot a raté la cible, dans l'ensemble, il a démontré sa capacité à interpréter les gestes de pointage de manière efficace.

Prédictions en Temps Réel et Performances

Dans des scénarios en temps réel, les modèles ont montré une grande précision et efficacité. Les robots étaient capables de traiter rapidement les images entrantes, de reconnaître les gestes de pointage, d'estimer les directions et d'exécuter les mouvements avec un minimum de délai.

Gestion des Cas Limites

Notre système a également été évalué dans des cas limites difficiles, comme des utilisateurs portant des gants, des corps occlus, des scénarios multi-utilisateurs et des pointages en position assise. Les modèles ont montré une robustesse et ont maintenu leur précision même dans ces situations délicates.

Implications et Développements Futurs

Le cadre proposé a le potentiel d'avoir des applications au-delà des robots. Il pourrait être utilisé dans des expériences de réalité virtuelle et augmentée, permettant aux utilisateurs d'interagir plus naturellement avec des environnements numériques. Il pourrait aussi se coupler avec des instructions verbales, créant une manière plus complète pour les humains de communiquer avec les machines.

De futurs développements pourraient inclure l'intégration de l'estimation du regard, permettant au robot de comprendre non seulement où quelqu'un pointe, mais aussi où il regarde, améliorant considérablement les capacités d'interaction.

Conclusion

En résumé, ce travail présente une approche globale pour permettre aux robots de reconnaître et de répondre aux gestes de pointage humains à partir d'une seule caméra RGB. En se concentrant sur la segmentation du bras, la reconnaissance des gestes et l'estimation du pointage, nous avons développé un système qui permet une interaction efficace entre humains et robots. Avec des résultats prometteurs de nos expériences, ce cadre ouvre de nouvelles avenues pour une communication efficace entre humains et robots dans une variété d'applications pratiques.

Source originale

Titre: Recognition and Estimation of Human Finger Pointing with an RGB Camera for Robot Directive

Résumé: In communication between humans, gestures are often preferred or complementary to verbal expression since the former offers better spatial referral. Finger pointing gesture conveys vital information regarding some point of interest in the environment. In human-robot interaction, a user can easily direct a robot to a target location, for example, in search and rescue or factory assistance. State-of-the-art approaches for visual pointing estimation often rely on depth cameras, are limited to indoor environments and provide discrete predictions between limited targets. In this paper, we explore the learning of models for robots to understand pointing directives in various indoor and outdoor environments solely based on a single RGB camera. A novel framework is proposed which includes a designated model termed PointingNet. PointingNet recognizes the occurrence of pointing followed by approximating the position and direction of the index finger. The model relies on a novel segmentation model for masking any lifted arm. While state-of-the-art human pose estimation models provide poor pointing angle estimation accuracy of 28deg, PointingNet exhibits mean accuracy of less than 2deg. With the pointing information, the target is computed followed by planning and motion of the robot. The framework is evaluated on two robotic systems yielding accurate target reaching.

Auteurs: Eran Bamani, Eden Nissinman, Lisa Koenigsberg, Inbar Meir, Yoav Matalon, Avishai Sintov

Dernière mise à jour: 2023-07-06 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2307.02949

Source PDF: https://arxiv.org/pdf/2307.02949

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires