Simple Science

La science de pointe expliquée simplement

# Informatique# Vision par ordinateur et reconnaissance des formes# Informatique neuronale et évolutive

Caméras basées sur des événements : Une nouvelle façon de capturer le mouvement

Les caméras basées sur des événements offrent une capture de mouvement efficace en se concentrant sur les changements dans les scènes.

― 8 min lire


Révolution dans laRévolution dans lacapture de mouvementavec efficacité.redéfinissent la détection de mouvementLes caméras événementielles
Table des matières

Les caméras sont des outils courants qu'on utilise pour capturer ce qu'on voit. On les retrouve dans les smartphones, les voitures, les robots, et plein d'autres appareils. Les caméras traditionnelles prennent des images en capturant toutes les couleurs et la luminosité de la scène d'un coup. Récemment, un nouveau type de caméra appelé caméras basées sur des événements a été développé. Ces caméras fonctionnent différemment en se concentrant sur les changements dans la scène plutôt qu'en capturant des images statiques.

Qu'est-ce que les caméras basées sur des événements ?

Les caméras basées sur des événements, aussi connues sous le nom de caméras neuromorphiques, s'inspirent de la façon dont fonctionnent nos yeux. Au lieu de capturer une série de frames, comme les caméras traditionnelles, elles observent les scènes en continu et réagissent aux changements de luminosité. Cela signifie qu'elles sont beaucoup plus efficaces dans le traitement de l'information visuelle, surtout pour enregistrer des objets en mouvement rapide.

Un des types bien connus de caméras basées sur des événements s'appelle le capteur de vision dynamique (DVS). Il utilise une grille de pixels qui s'active seulement quand ils détectent un changement de lumière. Ça permet à la caméra de se concentrer sur les événements intéressants et d'ignorer les parties de la scène qui ne changent pas. Grâce à ce design, les caméras basées sur des événements consomment moins d'énergie et produisent moins de données par rapport aux caméras traditionnelles.

Le défi de l'ego-mouvement

Un gros défi avec les caméras basées sur des événements est de déterminer si le mouvement observé dans les données vient du mouvement de la caméra elle-même ou du mouvement des objets dans la scène. Quand une caméra est en mouvement, elle peut créer des signaux confus. Distinguer entre ces deux types de mouvement - le mouvement de la caméra (ego-mouvement) et le mouvement d'un objet (mouvement d'objet) - est crucial pour des tâches comme la détection d'objets.

Les caméras RGB traditionnelles capturent des images complètes, ce qui rend plus facile la compréhension du contexte d'une scène. En revanche, les caméras basées sur des événements fournissent des informations limitées, ce qui complique cette tâche. Pour résoudre le problème de l'ego-mouvement, diverses méthodes ont été proposées, y compris l'utilisation de modèles de mouvement et d'apprentissage machine. Cependant, ces méthodes peuvent être complexes et nécessitent beaucoup de puissance de calcul.

Sensibilité au mouvement d'objet (OMS)

Une solution prometteuse vient de l'étude du système visuel animal, en particulier de la façon dont certaines cellules de la rétine réagissent au mouvement. Cette réponse est connue sous le nom de Sensibilité au Mouvement d'Objet (OMS). Ça aide les animaux à différencier le mouvement causé par leur propre mouvement et celui causé par des objets autour d'eux.

Dans la rétine, des cellules spécifiques appelées cellules ganglionnaires rétiniennes (RGC) effectuent des calculs qui aident à distinguer ces deux types de mouvement. Notre approche imite ce processus biologique pour créer un système qui peut mieux gérer l'ego-mouvement dans les caméras basées sur des événements.

En utilisant les principes de l'OMS dans les systèmes de caméras, on peut développer de nouveaux capteurs qui séparent efficacement le mouvement d'objet de l'ego-mouvement. Un nouveau type de caméra appelé Fonctionnalité Rétinienne Intégrée dans les Capteurs d'Image CMOS (IRIS) a été créé pour atteindre cet objectif. IRIS vise à reproduire les processus complexes de l'œil humain et à effectuer des calculs directement dans le capteur lui-même.

Avantages de l'OMS dans la technologie des caméras

Utiliser l'OMS dans la technologie des caméras offre plusieurs avantages. D'abord, ça permet un traitement efficace de l'information visuelle, réduisant la quantité de données à transmettre. C'est particulièrement utile dans des applications où la vitesse et la consommation d'énergie sont critiques, comme dans les véhicules autonomes et la robotique.

Ensuite, l'OMS peut améliorer la performance des systèmes de détection d'objets. En filtrant efficacement l'ego-mouvement, le système peut se concentrer sur les objets en mouvement, améliorant l'exactitude dans des tâches comme l'identification des piétons ou des véhicules sur la route.

Troisièmement, la simplicité inhérente de l'approche inspirée de la biologie peut mener à moins de surcharge computationnelle comparé aux modèles d'apprentissage machine lourds. Ça facilite l'implémentation dans les systèmes en temps réel.

Évaluation de la performance de l'OMS

Pour évaluer la performance de l'OMS par rapport aux méthodes traditionnelles, on a réalisé des expériences en utilisant un ensemble de données appelé Berkeley Deep Drive 100K Multi-Object Tracking and Segmentation (BDD100K). Cet ensemble de données comprend des vidéos de divers scénarios de conduite avec des objets étiquetés comme des voitures et des piétons.

On a comparé la performance de trois types de représentations : Images RGB traditionnelles, données DVS, et données OMS. En utilisant un modèle de détection d'objets populaire appelé YOLOv5, on a affiné le modèle sur ces différents types de données pour mesurer son exactitude.

Nos résultats ont montré que bien que les images RGB aient les meilleures performances en termes d'exactitude brute, les représentations DVS et OMS apportaient des avantages uniques en termes d'efficacité des données. La représentation OMS a pu fournir plus d'informations pertinentes par unité de données traitées, ce qui en fait un concurrent solide malgré une précision globale plus faible dans les comparaisons directes.

Comparaison des débits de données

Un aspect clé de notre évaluation a impliqué l'examen des débits de données - la quantité d'informations transmises par image. Les images RGB ont généralement les débits de données les plus élevés puisqu'elles capturent toute la gamme de couleurs. En revanche, les représentations DVS et OMS sont conçues pour transporter moins de données tout en conservant des caractéristiques importantes, les rendant plus efficaces.

À travers nos tests, on a découvert que l'OMS était capable de maintenir une quantité substantielle d'informations utiles tout en réduisant significativement le débit de données par rapport aux images RGB. Cette réduction des besoins en bande passante est avantageuse pour les applications où les ressources de communication sont limitées.

Résultats de l'évaluation de performance

Après avoir réalisé des tests approfondis, on a observé que la représentation OMS permet une haute densité d'informations. Lorsqu'on normalise par rapport aux débits de données, chaque bit de données dans la représentation OMS portait beaucoup plus d'informations que la même quantité de données dans les images RGB. Cela rend l'OMS un outil précieux pour les systèmes de détection d'objets en temps réel qui nécessitent un traitement efficace.

Bien que les RGB restent supérieurs en termes de performance absolue, les avantages de l'OMS résident dans sa capacité à gérer les données avec peu de surcharge. Donc, les systèmes qui fonctionnent sous des contraintes, comme une puissance de traitement ou une bande passante limitées, pourraient bénéficier beaucoup de l'utilisation de l'OMS.

Directions futures

En regardant vers l'avenir, il y a plusieurs opportunités intéressantes pour étendre l'utilisation de l'OMS dans la vision par ordinateur. Un domaine d'intérêt est d'explorer comment changer différents paramètres de l'algorithme OMS pourrait impacter son efficacité dans des scénarios réels. Cela pourrait impliquer d'affiner le modèle pour s'adapter à différentes conditions d'éclairage ou types de mouvement.

On vise aussi à comparer la performance de l'algorithme OMS avec son homologue biologique chez les animaux pour mieux comprendre à quel point notre simulation imite la nature. Cela peut informer d'autres améliorations de nos systèmes.

D'autres travaux futurs se concentreront sur l'intégration de fonctions supplémentaires inspirées des systèmes de vision biologique. En développant un cadre plus complet qui inclut plusieurs caractéristiques visuelles, on peut créer des applications de vision par ordinateur encore plus efficaces.

Conclusion

Les caméras basées sur des événements représentent une avancée significative dans la technologie d'imagerie, offrant des moyens plus rapides et plus efficaces de capturer et d'analyser le mouvement. Des approches comme la Sensibilité au Mouvement d'Objet offrent des solutions prometteuses aux défis rencontrés par ces caméras, en particulier dans la distinction précise entre ego-mouvement et mouvement d'objet.

En s'appuyant sur des insights biologiques, on peut développer des systèmes de caméras qui sont non seulement efficaces mais aussi capables d'effectuer des tâches visuelles complexes en temps réel. Alors que la recherche continue, il y aura de nombreuses opportunités pour affiner ces technologies et repousser les limites de ce qui est possible dans la vision par ordinateur.

Source originale

Titre: Object Motion Sensitivity: A Bio-inspired Solution to the Ego-motion Problem for Event-based Cameras

Résumé: Neuromorphic (event-based) image sensors draw inspiration from the human-retina to create an electronic device that can process visual stimuli in a way that closely resembles its biological counterpart. These sensors process information significantly different than the traditional RGB sensors. Specifically, the sensory information generated by event-based image sensors are orders of magnitude sparser compared to that of RGB sensors. The first generation of neuromorphic image sensors, Dynamic Vision Sensor (DVS), are inspired by the computations confined to the photoreceptors and the first retinal synapse. In this work, we highlight the capability of the second generation of neuromorphic image sensors, Integrated Retinal Functionality in CMOS Image Sensors (IRIS), which aims to mimic full retinal computations from photoreceptors to output of the retina (retinal ganglion cells) for targeted feature-extraction. The feature of choice in this work is Object Motion Sensitivity (OMS) that is processed locally in the IRIS sensor. Our results show that OMS can accomplish standard computer vision tasks with similar efficiency to conventional RGB and DVS solutions but offers drastic bandwidth reduction. This cuts the wireless and computing power budgets and opens up vast opportunities in high-speed, robust, energy-efficient, and low-bandwidth real-time decision making.

Auteurs: Shay Snyder, Hunter Thompson, Md Abdullah-Al Kaiser, Gregory Schwartz, Akhilesh Jaiswal, Maryam Parsa

Dernière mise à jour: 2023-04-14 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2303.14114

Source PDF: https://arxiv.org/pdf/2303.14114

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires