Simple Science

La science de pointe expliquée simplement

# Informatique# Vision par ordinateur et reconnaissance des formes

Améliorer la compréhension des interactions entre objets par les machines

De nouvelles méthodes aident les machines à comprendre comment les gens peuvent interagir avec des objets.

― 8 min lire


Améliorer laAméliorer lareconnaissanced'interaction des objetsl'utilité des objets.compréhension par les machines deNouveau modèle améliore la
Table des matières

La Segmentation des Affordances visuelles aide les machines à comprendre quelles parties d'un objet peuvent être manipulées par une personne. Ça peut aller de la reconnaissance de l'endroit où saisir une tasse à l'identification des zones d'un couteau qui peuvent être utilisées pour couper. Avec l'avancement de la technologie, avoir des machines capables de comprendre ces interactions devient important pour des domaines comme la robotique et les dispositifs qui aident les gens.

Reconnaître les affordances n'est pas simple. Chaque objet peut avoir plusieurs formes et matériaux, ce qui peut changer son apparence ou son utilisation. Parfois, des parties d'un objet peuvent être cachées par un autre objet ou par la main d'une personne, rendant la tâche plus compliquée. Cet article va parler d'une méthode récente qui peut améliorer la façon dont les machines identifient ces affordances, surtout quand la main d'une personne est sur le chemin.

Le Défi des Occlusions

Quand une personne tient un objet, sa main peut cacher certaines parties. Cette situation, qu'on appelle occlusion, rend difficile pour les machines d'identifier correctement les parties utilisables. Par exemple, si quelqu'un tient une tasse de biais, le côté de la tasse où on saisit normalement pourrait ne pas être visible. Ça cause de la confusion pour les systèmes qui essaient de déterminer que la tasse peut être prise ou remplie.

Pour surmonter ces défis, des chercheurs ont développé un système qui se concentre spécifiquement sur deux zones : l'objet et la main. En séparant ces zones, le système peut mieux apprendre et identifier les affordances, même quand la main peut cacher certaines vues.

Le Modèle Proposé

Le nouveau modèle utilise un design qui décompose la tâche en plusieurs branches. D'abord, il y a une branche qui se concentre sur l'identification de la main, une autre pour l'objet, et une troisième qui combine ces infos pour prédire les affordances. Cette approche permet au modèle d'apprendre à la fois de la main et de l'objet en même temps tout en comprenant comment ces éléments interagissent.

Quand le modèle est entraîné, il utilise des images où les objets sont tenus par une personne, lui permettant d'apprendre quelles parties de l'objet peuvent être saisies ou comment elles peuvent être utilisées même avec une main sur le chemin. Ça se fait grâce à un mélange d'images réelles et synthétiques montrant divers arrière-plans et positions.

Solutions Existantes et leurs Limites

Avant, beaucoup de solutions se concentraient sur des objets posés sur une surface plane, comme une table. Ces méthodes fonctionnaient bien pour des objets complètement visibles mais avaient du mal quand des mains bloquaient la vue. Bien qu'il y ait une méthode qui visait à s'attaquer aux objets tenus à la main, elle n'a pas totalement pris en compte comment le bras et la main pourraient affecter l'interaction avec l'objet, conduisant à des erreurs dans l'identification des parties utilisables.

Beaucoup des ensembles de données actuels utilisés pour entraîner ces systèmes impliquent des images capturées d'une vue de dessus où la main n'est pas considérée. Ça crée un écart quand on essaie d'appliquer ces méthodes à des scénarios du monde réel. Bien que certains ensembles de données incluent des objets tenus à la main, ils sont souvent limités en taille et ne couvrent pas assez de variations pour entraîner un modèle robuste.

Construire un Meilleur Ensemble de Données

Pour améliorer l'entraînement, un nouvel ensemble de données a été créé incluant des images de mains tenant des contenants depuis une perspective où on peut voir à la fois les mains et les objets efficacement. Cet ensemble combine des images synthétiques avec des éléments de réalité mixte, permettant aux machines d'apprendre d'une plus grande variété de scénarios.

L'ensemble de données comprend des annotations qui indiquent quelles parties de chaque objet sont saisissables ou utilisables. En marquant ces affordances directement sur les images, le modèle peut apprendre quoi chercher, améliorant ainsi sa précision dans des situations réelles.

Comment le Modèle Fonctionne

Le nouveau modèle fonctionne en utilisant une structure qui prend une image et la traite à travers différentes branches. Chaque branche se concentre sur des tâches spécifiques : une pour le bras, une autre pour l'objet, et une finale qui rassemble tout pour prédire les affordances.

  1. Segmentation du Bras : Cette branche identifie où se trouve le bras dans l'image, aidant à le séparer de l'objet.

  2. Segmentation de l'Objet : Cette section se concentre sur l'identification de l'objet lui-même, comprenant sa forme et les surfaces visibles.

  3. Prédiction des Affordances : La dernière branche prend les infos des deux branches précédentes et prédit quelles zones de l'objet peuvent être manipulées.

Cette approche multi-branches permet au modèle d'apprendre des interactions entre la main et l'objet, menant à une compréhension plus précise.

Entraîner le Modèle

Entraîner ce modèle nécessite un grand nombre d'images montrant des mains et des objets dans diverses positions. Comme de tels ensembles de données faisaient défaut, des ensembles existants ont été mélangés avec de nouvelles annotations pour fournir le matériel d'apprentissage nécessaire.

Utiliser des images où une main tient un objet dans des contextes réalistes enrichit l'expérience d'apprentissage. Les annotations précisent ce qu'on peut faire avec l'objet, aidant le modèle à s'entraîner efficacement.

Augmentation d'Images

Pour encore enrichir l'ensemble de données d'entraînement, des techniques comme le redimensionnement et le retournement des images ont été utilisées pour augmenter la variété. Ça aide le modèle à mieux apprendre en l'exposant à différentes situations, tout en s'assurant que la qualité reste intacte.

Évaluation des Performances du Modèle

Une fois entraîné, le modèle devait être évalué pour voir à quel point il était efficace pour identifier les affordances. Divers ensembles de données ont été utilisés pour évaluer sa précision. Les Prédictions du modèle ont été comparées à des annotations de vérité terre pour calculer des métriques comme la précision, le rappel et l'Index de Jaccard.

Les résultats ont montré que le nouveau modèle a surpassé les approches précédentes dans presque tous les tests, en particulier dans les cas où la main était visible avec les objets. Ça indique que se concentrer sur la séparation de la main et de l'objet, tout en prédisant les affordances, mène à une meilleure généralisation aux différents arrière-plans et instances.

Comparaison avec d'Autres Modèles

Comparé aux modèles existants :

  • Nouveau Modèle (ACANet) : A obtenu les meilleurs résultats pour identifier les zones saisissables et contenables.
  • Anciens Modèles : Ont eu des difficultés avec la précision, surtout dans des scénarios réels où les arrière-plans et l'apparence des objets variaient beaucoup.

Lors des phases de test, le nouveau modèle a systématiquement donné des scores plus élevés pour les zones d'intérêt que les anciens modèles, validant ainsi l'efficacité de son approche.

Applications dans le Monde Réel

Les implications de ce travail s'étendent à de nombreux domaines. En robotique, par exemple, une machine capable de comprendre avec précision quelles parties d'un objet sont utilisables pourrait considérablement améliorer sa capacité à aider les humains. Cette capacité pourrait être cruciale dans la préparation des aliments, les soins de santé, et même dans les véhicules autonomes où comprendre comment interagir avec des objets est essentiel.

De plus, les idées tirées de cette recherche pourraient mener à des améliorations dans les technologies d'assistance conçues pour les personnes âgées ou handicapées, rendant leurs interactions avec les objets du quotidien plus fluides et intuitives.

Directions Futures

En regardant vers l'avenir, il y a beaucoup d'opportunités pour améliorer encore les capacités du modèle. Une direction future serait d'élargir l'ensemble de données avec plus d'objets et d'interactions, permettant au modèle d'apprendre d'un ensemble d'expériences encore plus large.

D'autres recherches peuvent aussi être menées sur la façon de réduire la puissance informatique nécessaire pour faire fonctionner ces modèles, les rendant plus accessibles pour diverses applications. Enfin, des tests pratiques dans des environnements réels, surtout dans des scénarios où humains et robots travaillent ensemble, seraient une étape essentielle pour affiner cette technologie.

Conclusion

En résumé, l'avancement de la segmentation des affordances visuelles, surtout en présence d'occlusions de main, offre de grandes promesses. En s'appuyant sur un modèle multi-branches qui se concentre à la fois sur l'objet et la main, les chercheurs ont créé un outil qui non seulement apprend mieux mais performe aussi plus précisément dans des scénarios réels.

À mesure que cette technologie évolue, ses applications potentielles sont vastes, ouvrant la voie à des machines plus intelligentes qui peuvent assister les humains dans diverses tâches, améliorant notre quotidien et promouvant une plus grande indépendance pour ceux qui en ont besoin.

Source originale

Titre: Affordance segmentation of hand-occluded containers from exocentric images

Résumé: Visual affordance segmentation identifies the surfaces of an object an agent can interact with. Common challenges for the identification of affordances are the variety of the geometry and physical properties of these surfaces as well as occlusions. In this paper, we focus on occlusions of an object that is hand-held by a person manipulating it. To address this challenge, we propose an affordance segmentation model that uses auxiliary branches to process the object and hand regions separately. The proposed model learns affordance features under hand-occlusion by weighting the feature map through hand and object segmentation. To train the model, we annotated the visual affordances of an existing dataset with mixed-reality images of hand-held containers in third-person (exocentric) images. Experiments on both real and mixed-reality images show that our model achieves better affordance segmentation and generalisation than existing models.

Auteurs: Tommaso Apicella, Alessio Xompero, Edoardo Ragusa, Riccardo Berta, Andrea Cavallaro, Paolo Gastaldo

Dernière mise à jour: 2023-08-22 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2308.11233

Source PDF: https://arxiv.org/pdf/2308.11233

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Vision par ordinateur et reconnaissance des formesAméliorer la classification de la confidentialité des images : une approche centrée sur l'utilisateur

Une nouvelle méthode améliore la classification de la vie privée des images avec des explications claires et faciles à comprendre.

― 9 min lire

Articles similaires