Simple Science

La science de pointe expliquée simplement

# Informatique# Vision par ordinateur et reconnaissance des formes

Système de suivi du regard du conducteur avec des caméras standards

Une méthode économique pour surveiller l'attention des conducteurs avec des caméras de tableau de bord.

― 12 min lire


Nouveau système de suiviNouveau système de suivide regard pourconducteursutilisant des caméras ordinaires.de l'attention des conducteurs enUne méthode innovante améliore le suivi
Table des matières

On vous présente une nouvelle méthode pour suivre où un conducteur regarde en conduisant. Ce système utilise deux caméras classiques placées sur la voiture, une sur le pare-brise face au conducteur et une sur le tableau de bord qui regarde la route. Suivre le regard d'un conducteur est compliqué à cause du rythme rapide du trafic et des distances inconnues dans des environnements en trois dimensions. En plus, la distance entre le conducteur et les caméras peut changer quand le conducteur ajuste sa position.

Pour résoudre ces problèmes, on a créé un réseau spécial qui analyse en même temps le visage du conducteur et la scène de conduite. Ce réseau a un module de Calibration de caméra qui calcule comment le conducteur et les caméras sont positionnés les uns par rapport aux autres. Cette fonctionnalité améliore les performances du système entier, permettant une formation à se faire dans un processus continu.

Un défi important dans ce domaine est le manque de données pour entraîner et tester ces systèmes. Pour y remédier, on a collecté un grand ensemble de données de sessions de conduite en milieu urbain, avec des Données de regard incluses. Cet ensemble de données comprend des images synchronisées de la route et du visage du conducteur, ce qui permet un entraînement et une évaluation précis de notre méthode. Nos tests montrent que cette nouvelle approche est plus précise que les méthodes existantes, atteignant une petite erreur de prédiction moyenne d'environ 29,69 pixels quand on estime où le conducteur regarde.

Le but de ce travail est de créer un dispositif abordable qui peut surveiller les mouvements de tête et de visage d'un conducteur, aidant à identifier sur quoi le conducteur est concentré dans l'environnement de trafic. Ce dispositif peut être produit en masse pour une utilisation dans les voitures, aidant à améliorer la vigilance des conducteurs et à réduire les accidents. Par exemple, il peut alerter les conducteurs s'ils passent à côté d'informations critiques comme un panneau de circulation ou un piéton. Il peut aussi fournir des aperçus sur ce qui attire ou distrait l’attention d’un conducteur, menant à de meilleurs designs de routes et mesures de sécurité.

Certains systèmes ont tenté de suivre le regard du conducteur en utilisant des lunettes spéciales conçues pour cela. Cependant, ces lunettes peuvent être chères et inconfortables pour un usage régulier. Elles ont aussi des limitations, car elles ne nous disent que où le conducteur regarde, pas ce qu’il pourrait manquer en dehors de son champ de vision. C’est important parce que les conducteurs peuvent facilement être distraits par des choses à l’intérieur de la voiture.

À cause de ces limitations, on propose une nouvelle approche en utilisant des caméras montées sur le tableau de bord. Ce dispositif ne nécessite que deux caméras standard : une capturant le visage du conducteur et l'autre se concentrant sur la route devant. Notre objectif est de développer un algorithme de vision par ordinateur qui traite les images des deux caméras pour déterminer le point de regard du conducteur.

Créer cet algorithme n’est pas simple. Premièrement, il n'existe pas d'ensemble de données combinant les bons types d'images et d'annotations de regard nécessaires pour l'entraînement. Cela est probablement dû au défi d'identifier avec précision où regarde le conducteur à partir d'une caméra distante. Pour y remédier, on a fait une contribution significative en rassemblant un grand ensemble de données comprenant plus de cent mille paires d'images avec des annotations de regard.

Un autre défi avec notre système monté sur tableau de bord est que la position du conducteur par rapport aux caméras peut changer pendant la conduite. Il est irréaliste de demander au conducteur de s'arrêter ou de recalibrer le système en pleine conduite. Donc, on a développé une méthode d'estimation de regard auto-calibrante. Cela implique de traiter la relation entre la caméra et le conducteur comme des variables qui peuvent être estimées en utilisant un module de calibration de caméra, qui fonctionne en conjonction avec tout le réseau.

Nos expériences montrent que ce module de calibration améliore nettement la précision des prédictions de regard. Notre méthode atteint une erreur de prédiction de 29,69 pixels, ce qui est assez petit comparé à la résolution de la caméra de scène.

Travaux Connexes

Dans notre travail, on introduit une méthode pour estimer où un conducteur regarde, et un nouvel ensemble de données pour cette tâche. Plusieurs études et ensembles de données ont été créés pour l'estimation du regard et la surveillance du comportement des conducteurs, mais notre approche se distingue par ses objectifs et l'ensemble de données que nous fournissons.

Ensembles de Données d'Estimation du Regard

Récemment, plusieurs ensembles de données ont été mis à disposition pour l'estimation du regard. L'un des plus notables est l'Eye Chimera, qui contient des images de visages marquées avec plusieurs directions de regard. D'autres exemples incluent l'ensemble de données Columbia, qui a collecté des échantillons de différents sujets sous divers angles, et l'ensemble de données UT Multiview, axé sur les caractéristiques d'estimation du regard basées sur l'apparence. Il y a également l'ensemble de données GazeCapture, qui comprenait un grand nombre d'images prises de personnes regardant des appareils mobiles.

Cependant, aucun de ces ensembles de données ne convient à nos besoins, car ils manquent des bonnes annotations de regard pour des scénarios de conduite ou se concentrent uniquement sur des écrans numériques.

Ensembles de Données de Surveillance des Conducteurs

Pour surveiller l'attention des conducteurs, les ensembles de données peuvent être classés en trois types principaux : ceux basés sur les mouvements des mains, les mouvements du corps et les mouvements du visage. Les ensembles de données basés sur les mains utilisent des caméras pour capturer comment les conducteurs utilisent leurs mains pendant la conduite, tandis que les ensembles de données basés sur le corps offrent des vues latérales pour suivre les mouvements du haut du corps. Les ensembles de données basés sur le visage se concentrent sur le visage du conducteur pour le suivi de l'attention.

L'un des plus grands ensembles de données dans le domaine de l'attention des conducteurs est l'ensemble de données StateFarm, qui identifie plusieurs actions de conduite distraites. Cependant, de nombreux ensembles de données existants ne reproduisent pas de véritables environnements de conduite car ils ont été capturés dans des conditions contrôlées, limitant l'application des résultats dans le monde réel.

Méthodes d'Estimation du Regard

Les méthodes d'estimation du regard peuvent être regroupées en deux catégories : basées sur un modèle et basées sur l'apparence. Les méthodes basées sur un modèle utilisent les caractéristiques géométriques de l'œil et nécessitent du matériel spécialisé, ce qui les rend moins fiables pour un usage général. Les méthodes basées sur l'apparence, en revanche, utilisent des caméras classiques pour capturer des images faciales et apprennent ensuite à prédire la direction du regard à travers divers algorithmes, y compris des réseaux de neurones.

Notre approche s'inspire du succès de ces méthodes d'apprentissage profond, mais elle s'attaque au défi unique d'estimer le point de regard basé sur des scènes de trafic tridimensionnelles complexes.

Ensemble de Données sur les Points de Regard des Conducteurs

Pour soutenir notre méthode, on a construit un nouvel ensemble de données appelé l'ensemble de données des Points de Regard des Conducteurs (DPoG). Cet ensemble de données comprend les données de regard de onze conducteurs qui ont conduit dans des rues de la ville. Il capture des conditions de conduite réelles et consiste en 19 sessions, enregistrant diverses expériences de différents conducteurs dans diverses situations de trafic.

Collecte et Annotation des Données

On a utilisé des caméras GoPro pour la collecte des données. Une caméra était montée sur le pare-brise pour suivre le visage du conducteur, tandis qu'une autre était placée sur le tableau de bord pour observer la route. Pour obtenir des points de regard précis, on a utilisé des lunettes de suivi oculaire spécialisées pendant ce processus de collecte de données, principalement pour rassembler des données d'entraînement qui ne seraient pas nécessaires dans le produit final.

Sessions de Conduite

Un total de 13 conducteurs a participé, et ils ont conduit sous diverses conditions pendant deux semaines. Chaque conducteur a complété deux à trois sessions, suivant des itinéraires planifiés. Les sessions variaient en longueur mais tombaient généralement entre 15 et 35 minutes. Après avoir analysé les données collectées, certaines sessions ont été jugées inutilisables en raison d'informations incomplètes ou corrompues. Au final, on a conservé 19 sessions valides de 11 conducteurs pour une utilisation ultérieure.

Calibration et Synchronisation

Au début de chaque session, les lunettes de suivi oculaire ont été calibrées. Les caméras GoPro n'ont pas été calibrées en raison de leur positionnement sensible. Pour synchroniser les vidéos des différentes caméras, les conducteurs ont applaudi au début de chaque session, ce qui nous a permis d'aligner les séquences.

Cependant, synchroniser les données de regard capturées par les lunettes de suivi oculaire avec les séquences GoPro s'est avéré plus compliqué. Après plusieurs tentatives, on a constaté que la fréquence d’images de la vidéo de regard pouvait varier, rendant difficile l'alignement avec les autres séquences. On a résolu cela en extrayant de courts clips des données de regard et en les associant manuellement avec les clips correspondants du visage et de la scène.

Annotation des Points de Regard

On a extrait un grand nombre de triplets d'images synchronisées contenant la scène, le visage et les données de regard. Toutes les images n'avaient pas de points de regard, donc on a utilisé une méthode appelée RANSAC-Flow pour aligner les points de regard avec les images de scène. Une vérification manuelle a assuré que les points de regard transférés étaient précis, ce qui a abouti à un ensemble final de 143 675 triplets d'images.

Réseau d'Estimation des Points de Regard des Conducteurs

On vise à créer un système qui identifie avec précision où un conducteur regarde en temps réel. Alors que les méthodes existantes se concentrent sur des écrans fixes, notre système doit prédire le regard dans un environnement dynamique et tridimensionnel. Pour cela, on a développé le Réseau d'Estimation des Points de Regard des Conducteurs (DPEN), qui analyse à la fois les images faciales du conducteur et la scène de conduite environnante.

Architecture du Réseau et Pipeline de Traitement

Le réseau se compose de deux parties principales : le module de calibration de caméra et le module de régression du regard. On capture une zone plus petite autour du visage du conducteur et l'utilise avec l'image de la scène pour calculer un ensemble de paramètres de calibration qui reflètent le positionnement des deux caméras par rapport au conducteur. La sortie finale est l'emplacement prédit du regard dans l'image de la scène.

La première partie est le module de calibration de caméra, qui traite à la fois les images de scène et du visage pour produire des paramètres qui relient les deux caméras entre elles. La deuxième partie, le module de régression du regard, prend en entrée les deux images et les paramètres de calibration pour prédire le point de regard.

Procédure d'Entraînement

Le réseau peut être entraîné en une seule fois, optimisant les paramètres pour minimiser la différence entre les points de regard estimés et réels. On utilise des fonctions de perte spécifiques pour guider le processus d'entraînement et peaufiner le système.

Résultats

Dans nos évaluations, on compare la performance de notre approche à plusieurs méthodes de référence. On mesure à quel point notre système prédit avec précision le point de regard en le comparant aux points réels. Les différentes méthodes de référence incluent celles qui prédisent le centre de la scène ou qui se basent uniquement sur des objets détectés dans la scène de conduite.

Notre méthode a constamment surpassé ces références, atteignant une erreur de prédiction moyenne notable de 29,69 pixels. Les scores AUC indiquent que notre méthode non seulement prédit bien, mais montre aussi de bonnes performances en détection de saillance.

Conclusion

On a introduit un système monté sur tableau de bord conçu pour suivre le regard d'un conducteur tout en conduisant dans des environnements réels. En utilisant deux caméras, notre approche capture à la fois le visage du conducteur et les scènes extérieures au véhicule. Le système prend aussi en compte la distance variable entre le conducteur et le dispositif de caméra, permettant une estimation précise du regard. On a présenté un nouvel ensemble de données avec des annotations de vérité fondamentale, offrant des ressources précieuses pour la future recherche sur l'attention des conducteurs et la sécurité. Dans l'ensemble, ce travail contribue au développement de dispositifs qui peuvent améliorer la sécurité routière et améliorer l’expérience de conduite globale.

Source originale

Titre: Driver Attention Tracking and Analysis

Résumé: We propose a novel method to estimate a driver's points-of-gaze using a pair of ordinary cameras mounted on the windshield and dashboard of a car. This is a challenging problem due to the dynamics of traffic environments with 3D scenes of unknown depths. This problem is further complicated by the volatile distance between the driver and the camera system. To tackle these challenges, we develop a novel convolutional network that simultaneously analyzes the image of the scene and the image of the driver's face. This network has a camera calibration module that can compute an embedding vector that represents the spatial configuration between the driver and the camera system. This calibration module improves the overall network's performance, which can be jointly trained end to end. We also address the lack of annotated data for training and evaluation by introducing a large-scale driving dataset with point-of-gaze annotations. This is an in situ dataset of real driving sessions in an urban city, containing synchronized images of the driving scene as well as the face and gaze of the driver. Experiments on this dataset show that the proposed method outperforms various baseline methods, having the mean prediction error of 29.69 pixels, which is relatively small compared to the $1280{\times}720$ resolution of the scene camera.

Auteurs: Dat Viet Thanh Nguyen, Anh Tran, Hoai Nam Vu, Cuong Pham, Minh Hoai

Dernière mise à jour: 2024-04-11 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2404.07122

Source PDF: https://arxiv.org/pdf/2404.07122

Licence: https://creativecommons.org/licenses/by-nc-sa/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires