Simple Science

La science de pointe expliquée simplement

# Informatique# Vision par ordinateur et reconnaissance des formes# Interaction homme-machine# Apprentissage automatique

Helios : Reconnaissance de gestes pour lunettes intelligentes

Helios propose un système de reconnaissance de gestes à faible consommation d'énergie pour des lunettes connectées.

― 8 min lire


Helios : Contrôle desHelios : Contrôle deslunettes intelligentespar gestesmains.des lunettes intelligentes sans lesReconnaissance de gestes efficace pour
Table des matières

Cet article parle de Helios, un système qui reconnaît les gestes de la main en utilisant très peu d'énergie, conçu pour des lunettes intelligentes toujours allumées. Alors que la technologie de réalité augmentée (AR) continue d'évoluer, beaucoup de lunettes intelligentes actuelles privilégient le confort et l'esthétique visuelle au détriment de la fonctionnalité. Les interfaces actuelles comme les écrans tactiles et les commandes vocales ont des inconvénients, y compris l'inconfort, des problèmes de confidentialité et une forte consommation de batterie. Helios vise à offrir une meilleure expérience utilisateur grâce à des gestes de la main naturels qui semblent plus intuitifs.

Caractéristiques clés de Helios

Helios utilise une petite Caméra événementielle qui mesure seulement 3 mm par 4 mm et consomme seulement 20 mW d'énergie. Cette caméra reconnaît les gestes de la main en temps réel, diffusant de la vidéo pour une utilisation typique sur des lunettes intelligentes. Les données de la caméra sont traitées par un modèle d'Apprentissage automatique fonctionnant sur une plateforme informatique efficace, avec une consommation d'énergie de moins de 350 mW. Helios peut identifier sept types de gestes avec une précision de 91 %. Le système fonctionne aussi rapidement, affichant un délai de seulement 60 ms lors de la reconnaissance des gestes, basé sur des tests réalisés avec 20 utilisateurs.

Limitations des lunettes intelligentes actuelles

Les lunettes intelligentes réussies, comme celles fabriquées par Meta, se concentrent davantage sur l'intégration de la technologie dans un style de lunettes familier plutôt que d'ajouter des fonctionnalités pour le calcul spatial. Ces lunettes permettent aux utilisateurs d'écouter de l'audio et d'interagir avec des assistants IA, mais elles doivent être légères et tenir toute la journée avec une seule charge de batterie. Les interfaces actuelles s'appuient principalement sur les entrées tactiles et vocales. L'interface tactile nécessite un contact physique, ce qui peut être inconfortable lors d'une utilisation prolongée. Les commandes vocales peuvent également sembler gênantes pour les utilisateurs, surtout en public.

Le passage aux gestes de la main

Les gestes de la main naturels offrent un moyen plus simple d'interagir avec les appareils. En déplaçant leurs mains, les utilisateurs peuvent effectuer des tâches avec des mouvements simples qui semblent plus naturels. Les contrôles gestuels peuvent créer une expérience plus engageante, permettant des interactions avec la technologie plus faciles et plus agréables. Cette méthode peut aussi être plus discrète que les commandes vocales, ce qui peut rendre certains utilisateurs plus à l'aise.

Défis de la reconnaissance des gestes

Reconnaître les petits mouvements de la main, ou microgestes, pose des défis car ces actions subtiles peuvent être difficiles à distinguer des mouvements accidentels ou du bruit. Les variations entre différents utilisateurs ajoutent encore plus de complexité à l'identification précise des gestes. Pour surmonter ces obstacles, le système Helios utilise l'apprentissage automatique. Il a été formé en utilisant un type d'intelligence artificielle appelé réseaux de neurones convolutifs (CNN), ce qui aide à distinguer sept classes de gestes avec une grande précision. La faible latence est cruciale pour les interactions en temps réel, surtout en AR où les utilisateurs s'attendent à des réponses rapides.

Comment fonctionne Helios

Le système Helios traite les événements capturés par une caméra compacte plutôt que de s'appuyer sur des caméras vidéo traditionnelles. Alors que les caméras standard capturent des images à intervalles fixes, la caméra événementielle enregistre uniquement les changements de lumière, créant un flux de données plus efficace. Cela aide à réduire la consommation d'énergie et à accélérer la reconnaissance des gestes.

Helios passe des flux d'événements bruts à la reconnaissance des gestes directement, offrant une amélioration significative par rapport à d'autres systèmes qui s'appuient sur le suivi squelettique. Pour gérer les utilisateurs marchant en portant les lunettes, le système est conçu pour ignorer les faux déclenchements causés par des mouvements naturels ou du bruit.

Contributions du système

Helios est notable pour être le premier système de reconnaissance gestuelle en temps réel qui permet des interactions mains naturelles avec des lunettes intelligentes. Le matériel est optimisé pour les flux d'événements, permettant aux utilisateurs de manipuler les lunettes confortablement sans commandes tactiles ou vocales. Les tests montrent que les utilisateurs trouvent l'interface gestuelle facile à utiliser et efficace.

Contexte sur les caméras événementielles

Les caméras événementielles peuvent fonctionner à très faible puissance, aussi basse que 3 mW, ce qui est attrayant pour les appareils portables. Contrairement aux caméras traditionnelles, qui peuvent avoir du mal avec le mouvement et les conditions d'éclairage, les capteurs d'événements peuvent bien fonctionner dans divers environnements. Ils capturent les changements de luminosité par pixel, permettant un traitement des gestes en temps réel.

Compréhension des données événementielles

Lors du traitement des données événementielles, deux représentations courantes sont généralement utilisées : les volumes d'événements et les surfaces temporelles. Les surfaces temporelles capturent le temps du dernier événement pour chaque pixel, ce qui facilite le traitement efficace des données. Cependant, travailler avec des données d'événements nécessite des méthodes d'apprentissage automatique spécialisées pour tirer parti de ses caractéristiques uniques.

Vue d'ensemble du système de vision machine

Le système de vision machine Helios est conçu pour s'intégrer parfaitement aux lunettes intelligentes. Le système a deux composants principaux : une caméra événementielle qui capture les données et une plateforme informatique qui traite ces données en sorties utilisables. Cette connexion en deux parties permet au système d'atteindre à la fois haute performance et faible consommation d'énergie.

La caméra utilisée dans Helios présente un large champ de vision et une adaptabilité à diverses conditions d'éclairage, ce qui la rend idéale pour une utilisation avec des lunettes intelligentes. Elle se connecte à un petit processeur optimisé pour l'efficacité, le rendant adapté à des applications mobiles comme les lunettes intelligentes.

Recherche utilisateur pour les gestes

Développer une interface facile à utiliser pour des lunettes intelligentes implique de rechercher les préférences des utilisateurs en matière de gestes. La phase initiale de tests impliquait d'identifier des mouvements de main potentiels pour contrôler des fonctions multimédias comme jouer de la musique. Les utilisateurs ont été invités à donner leur avis sur différents gestes, qui ont ensuite été évalués pour leur efficacité dans le contrôle des médias.

Les gestes résultants pour Helios consistent en des mouvements simples comme des balayages et des pincements que les utilisateurs ont trouvés confortables et socialement acceptables. Les gestes choisis nécessitaient un minimum de mouvement, permettant des interactions discrètes dans des lieux publics.

Algorithme de reconnaissance des gestes

Le processus de reconnaissance des gestes dans Helios implique deux étapes principales : capturer le flux d'événements de la caméra et convertir ces données en un format utilisable pour l'apprentissage automatique. Les surfaces temporelles ont été choisies comme la manière la plus efficace de représenter ces événements.

En utilisant l'apprentissage automatique, le modèle apprend à identifier différents gestes en fonction des motifs de mouvement détectés dans les surfaces temporelles. En formant le modèle avec divers échantillons de données, il devient capable de reconnaître les gestes en temps réel de manière efficace.

Entraînement du modèle

L'entraînement du modèle Helios a impliqué l'utilisation d'un jeu de données simulé pour apprendre au système à reconnaître les sept gestes différents. Un mélange de gestes a été utilisé pendant l'entraînement, et le modèle a atteint un haut niveau de précision. Le processus de formation visait à s'assurer que le modèle pouvait bien se généraliser à de nouvelles situations et comportements d'utilisateur.

Résultats et performances

Le test du système Helios avec des utilisateurs en direct a permis d'évaluer sa précision et son efficacité. Les utilisateurs ont effectué divers gestes, et les taux de précision et de rappel du modèle ont été enregistrés. Le système a montré une forte précision, la plupart des utilisateurs obtenant des résultats conformes aux performances attendues.

Taille du modèle et consommation d'énergie

Le modèle Helios est compact, contenant moins de paramètres que de nombreux systèmes concurrents, ce qui contribue à ses faibles besoins en énergie. La consommation d'énergie actuelle en fonctionnement est d'environ 340 mW, ce qui le rend pratique pour une utilisation dans des appareils alimentés par batterie.

Conclusion

En résumé, le système Helios offre une solution puissante pour la reconnaissance des gestes dans des lunettes intelligentes, mettant l'accent sur la faible consommation d'énergie et les interactions conviviales. L'intégration de caméras événementielles avancées et d'algorithmes d'apprentissage automatique optimisés permet une reconnaissance en temps réel des gestes naturels de la main. Les développements futurs pourraient élargir la gamme de gestes pouvant être reconnus tout en maintenant une faible consommation d'énergie, faisant de Helios un candidat idéal pour améliorer la manière dont les utilisateurs interagissent avec leurs lunettes intelligentes.

Source originale

Titre: Helios: An extremely low power event-based gesture recognition for always-on smart eyewear

Résumé: This paper introduces Helios, the first extremely low-power, real-time, event-based hand gesture recognition system designed for all-day on smart eyewear. As augmented reality (AR) evolves, current smart glasses like the Meta Ray-Bans prioritize visual and wearable comfort at the expense of functionality. Existing human-machine interfaces (HMIs) in these devices, such as capacitive touch and voice controls, present limitations in ergonomics, privacy and power consumption. Helios addresses these challenges by leveraging natural hand interactions for a more intuitive and comfortable user experience. Our system utilizes a extremely low-power and compact 3mmx4mm/20mW event camera to perform natural hand-based gesture recognition for always-on smart eyewear. The camera's output is processed by a convolutional neural network (CNN) running on a NXP Nano UltraLite compute platform, consuming less than 350mW. Helios can recognize seven classes of gestures, including subtle microgestures like swipes and pinches, with 91% accuracy. We also demonstrate real-time performance across 20 users at a remarkably low latency of 60ms. Our user testing results align with the positive feedback we received during our recent successful demo at AWE-USA-2024.

Auteurs: Prarthana Bhattacharyya, Joshua Mitton, Ryan Page, Owen Morgan, Ben Menzies, Gabriel Homewood, Kemi Jacobs, Paolo Baesso, David Trickett, Chris Mair, Taru Muhonen, Rory Clark, Louis Berridge, Richard Vigars, Iain Wallace

Dernière mise à jour: 2024-08-26 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2407.05206

Source PDF: https://arxiv.org/pdf/2407.05206

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Articles similaires