Simple Science

La science de pointe expliquée simplement

# Génie électrique et science des systèmes# Vision par ordinateur et reconnaissance des formes# Traitement de l'image et de la vidéo

Tri-Cam : Système de suivi oculaire abordable

Tri-Cam simplifie le suivi du regard avec des webcams pas chères et des méthodes innovantes.

― 6 min lire


Tri-Cam : Suivi de regardTri-Cam : Suivi de regardsimplifiéutilisateurs.l'expérience de suivi du regard desDes webcams abordables améliorent
Table des matières

Les yeux des gens peuvent exprimer plein d'infos, comme leurs sentiments, leurs intentions, et même des signes de leur santé. Du coup, suivre où quelqu’un regarde peut être super utile dans plein de domaines, comme le boulot sur ordi et dans des secteurs comme la psychologie et la médecine. Mais bon, beaucoup de méthodes actuelles pour suivre le regard sont compliquées et ça marche souvent pas trop si l’utilisateur bouge.

Pour ça, on a développé Tri-Cam, un système qui utilise trois webcams pas chères pour suivre le regard de manière pratique. Ce système est construit avec des techniques de deep learning et inclut une installation spéciale qui facilite la surveillance de ce que l’utilisateur regarde, même quand il bouge.

Qu'est-ce que le Suivi du regard ?

Le suivi du regard, c'est déterminer où une personne regarde. Cette technologie peut servir à plein de choses, comme améliorer les méthodes d'interaction avec les ordis, étudier le comportement humain, et même pour le suivi de la santé. Avec le suivi du regard, les utilisateurs peuvent contrôler des appareils et des applis juste en les regardant, ce qui ouvre de nouvelles façons d'interagir avec la tech.

Les défis des méthodes actuelles de suivi du regard

La plupart des systèmes de suivi du regard qu’on trouve aujourd’hui ont du mal quand les utilisateurs bougent. Ils demandent souvent aux utilisateurs de passer par un processus d’installation compliqué, ce qui peut être fatiguant. Les systèmes existants ne fonctionnent bien que si les utilisateurs restent immobiles, ce qui peut être frustrant.

Construire Tri-Cam

Tri-Cam vise à améliorer tout ça en utilisant trois webcams à bas prix, chacune coûtant environ 10$. L'installation est conçue pour bien marcher même quand l'utilisateur se déplace. Ce système a deux parties principales : une structure de réseau divisée pour un meilleur entraînement et une fonctionnalité de calibration spéciale qui réduit l’effort demandé aux utilisateurs.

Comment ça marche Tri-Cam

Structure de réseau divisée

Tri-Cam a un design unique qui divise les tâches de suivi du regard en deux parties : une qui se concentre sur la relation entre les caméras et les yeux de l'utilisateur, et une autre qui regarde comment les yeux de l'utilisateur se connectent à l'écran. Cette séparation permet au système de traiter l’information plus efficacement.

Géométrie caméra-œil

La première partie du système s'occupe de la géométrie entre les caméras et les yeux de l’utilisateur. Les caméras capturent des images des yeux de l'utilisateur, et le système utilise ces images pour estimer la position des yeux. En analysant comment les caméras voient les yeux sous différents angles, Tri-Cam peut déterminer la profondeur et la position du regard de l’utilisateur.

Géométrie œil-écran

La seconde partie se concentre sur la géométrie entre les yeux et l'écran. Elle analyse la direction du regard et traduit ça en où l'utilisateur regarde sur l'écran. Ça se fait grâce à des réseaux neuronaux qui aident à filtrer et traiter les données visuelles pour déterminer le point de regard.

Amélioration de la précision avec plusieurs caméras

Avoir trois caméras au lieu d'une seule aide Tri-Cam de plusieurs manières. Les trois caméras travaillent ensemble pour former des triangles qui fournissent des infos de profondeur. Ça veut dire que même si une caméra n'arrive pas à capturer le regard de l'utilisateur, les deux autres peuvent combler les lacunes.

Le mécanisme d'intra-validation

Pour améliorer encore la précision, Tri-Cam utilise un mécanisme d'intra-validation. Ce système utilise les infos de deux caméras pour prédire comment la troisième caméra verrait les yeux de l’utilisateur. En faisant ça, il construit une meilleure compréhension de la géométrie impliquée, ce qui améliore les performances du suivi du regard.

Gestion des fluctuations de qualité d'image

Un des défis dans le suivi du regard, c’est que la qualité des images peut changer à cause de différents facteurs, comme des reflets ou des clignements d'yeux. Tri-Cam aborde ça avec une approche de fusion pondérée. Il évalue la qualité des images de chaque caméra et accorde plus d'importance aux images de meilleure qualité lors de la prise de décision.

Calibration implicite pour faciliter l'utilisation

Un problème commun avec les systèmes de suivi du regard, c'est qu'ils demandent aux utilisateurs de passer par des processus de calibration fastidieux. Tri-Cam inclut un module de calibration implicite qui utilise des clics de souris sur l'écran pour rassembler des données de regard alignées sans exiger d'effort direct de la part des utilisateurs. Ça veut dire que les utilisateurs peuvent continuer à faire leurs tâches habituelles sur l'ordi pendant que le système apprend et s'adapte.

Collecte de données efficacement

Tri-Cam peut recueillir un grand nombre d'échantillons de données sans trop demander aux utilisateurs. En suivant les clics de souris, le système collecte des données précieuses qui aident à entraîner le modèle de suivi du regard. Ce processus est rapide, permettant au système d'être prêt à l'emploi en peu de temps.

Test de performance

On a testé Tri-Cam de manière extensive pour voir comment il se comporte par rapport à un tracker oculaire commercial de pointe, le Tobii Pro Spark. Tri-Cam a montré un niveau de précision similaire tout en permettant plus de mouvements. Par exemple, à une distance de 50 cm de l'écran, Tri-Cam a eu une erreur de regard moyenne d'environ 2,06 cm, contre 1,95 cm pour le Tobii.

Résumé des contributions

En gros, Tri-Cam est conçu pour être pratique et facile à utiliser. Il simplifie le processus de suivi du regard en :

  1. Divisant les tâches de suivi pour une meilleure efficacité.
  2. Utilisant trois caméras pour améliorer la précision.
  3. Implémentant un mécanisme d'intra-validation pour prédire les données manquantes.
  4. Introduisant une approche de fusion pondérée pour gérer les fluctuations de qualité d'image.
  5. Employant un module de calibration implicite pour réduire l’effort de l’utilisateur pendant l’installation.

Applications pratiques

La flexibilité et le prix abordable de Tri-Cam le rendent convenable pour une variété d’applications. Il peut être utilisé dans les jeux, la réalité virtuelle, les technologies d'assistance pour les personnes handicapées, et même dans des études psychologiques où le suivi du regard peut fournir des informations précieuses.

Conclusion

Tri-Cam représente un pas en avant dans la technologie de suivi du regard. En s’appuyant sur du matériel abordable et des méthodes d'entraînement innovantes, il offre une solution accessible qui répond aux besoins des utilisateurs quotidiens. Son design robuste permet un suivi précis dans des scénarios réels, ce qui en fait un outil prometteur pour diverses applications.

Source originale

Titre: Tri-Cam: Practical Eye Gaze Tracking via Camera Network

Résumé: As human eyes serve as conduits of rich information, unveiling emotions, intentions, and even aspects of an individual's health and overall well-being, gaze tracking also enables various human-computer interaction applications, as well as insights in psychological and medical research. However, existing gaze tracking solutions fall short at handling free user movement, and also require laborious user effort in system calibration. We introduce Tri-Cam, a practical deep learning-based gaze tracking system using three affordable RGB webcams. It features a split network structure for efficient training, as well as designated network designs to handle the separated gaze tracking tasks. Tri-Cam is also equipped with an implicit calibration module, which makes use of mouse click opportunities to reduce calibration overhead on the user's end. We evaluate Tri-Cam against Tobii, the state-of-the-art commercial eye tracker, achieving comparable accuracy, while supporting a wider free movement area. In conclusion, Tri-Cam provides a user-friendly, affordable, and robust gaze tracking solution that could practically enable various applications.

Auteurs: Sikai Yang, Wan Du

Dernière mise à jour: Dec 12, 2024

Langue: English

Source URL: https://arxiv.org/abs/2409.19554

Source PDF: https://arxiv.org/pdf/2409.19554

Licence: https://creativecommons.org/licenses/by-sa/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires