Améliorer les Vision Transformers avec le suivi oculaire humain
Cette étude examine comment le suivi oculaire améliore la performance des Vision Transformers dans les tâches de conduite.
― 10 min lire
Table des matières
- Importance du Suivi oculaire Humain
- Régions de Fixation et Prise de Décision
- Attention conjointe aux scènes et fixations
- Perte d'intersection attention-fixation
- Importance du Suivi Oculaire en Conduite
- Systèmes de Suivi du Regard
- Prise de Décision Humaine vs Machine
- Méthodes Proposées pour l'Intégration
- Évaluation de l'Efficacité des Méthodes
- Performance du Modèle et Conclusions
- Implications pour la Recherche Future
- Conclusion
- Source originale
- Liens de référence
Ces dernières années, des modèles informatiques appelés Vision Transformers (ViTs) ont fait des progrès significatifs dans la réalisation de tâches visuelles, parfois même surpassant les capacités humaines. Ces modèles traitent des images et des vidéos pour accomplir des tâches comme reconnaître des objets, classifier des actions et même aider à la conduite autonome. Malgré leurs succès, les ViTs ont encore du mal avec certaines tâches complexes, surtout dans des domaines où le jugement humain est crucial, comme l'interprétation d'images médicales ou la Prise de décisions de conduite. Cela montre qu'il y a besoin d'un lien plus profond entre la compréhension visuelle humaine et les modèles d'apprentissage machine.
Suivi oculaire Humain
Importance duUne façon d'améliorer les ViTs est d'intégrer les données visuelles humaines, spécifiquement grâce à la technologie de suivi oculaire. Les dispositifs de suivi oculaire peuvent enregistrer avec précision où une personne regarde, révélant les points de focalisation de son Attention. Ces Fixations sont essentielles pour comprendre comment les humains perçoivent leur environnement et peuvent fournir des informations précieuses pour améliorer les modèles d'IA.
En intégrant les données des dispositifs de suivi oculaire, nous pouvons informer les modèles ViT sur les zones que les humains considèrent comme les plus importantes pendant des tâches comme la conduite. Cette intégration peut potentiellement améliorer la précision du modèle dans diverses situations, offrant une compréhension plus nuancée des contextes visuels.
Régions de Fixation et Prise de Décision
Dans cette étude, nous nous concentrons sur la façon dont l'attention humaine, représentée par des points de fixation, peut guider un modèle ViT à prendre de meilleures décisions de conduite. Nous commençons par analyser les régions de fixation en relation avec les choix de conduite à gauche et à droite. En comparant les cartes de fixation générées par des sujets humains avec les poids d'attention d'un modèle ViT, nous pouvons identifier les chevauchements et les différences dans la façon dont chacun traite l'information visuelle.
En comprenant où les humains fixent leur regard en conduisant, nous pouvons simplifier le modèle sans perdre en précision. Cela signifie qu'on peut rendre le modèle plus simple et plus rapide tout en maintenant son efficacité.
Attention conjointe aux scènes et fixations
Pour améliorer la capacité du modèle à prendre des décisions basées à la fois sur la scène de conduite et les données d'attention humaine, nous introduisons une nouvelle méthode appelée attention "conjointe scène-fixation" (JSF). Cette méthode combine les informations visuelles de la scène de conduite avec les données de fixation collectées via le suivi oculaire. L'objectif est de créer une entrée plus holistique pour le modèle ViT, lui permettant d'apprendre à la fois de l'environnement et du comportement visuel humain.
Mise en œuvre de JSF
Dans notre approche, nous utilisons une séquence à deux images où une image contient la scène de conduite, et l'autre superpose la carte de fixation. En traitant les deux entrées ensemble, nous fournissons au modèle un contexte plus riche, l'aidant à se concentrer sur les zones pertinentes de la scène de manière similaire à un humain.
Perte d'intersection attention-fixation
Pour affiner davantage le processus d'apprentissage du modèle, nous introduisons une nouvelle fonction de perte appelée "perte d'intersection attention-fixation" (FAX). Cette fonction encourage le modèle à prêter plus attention aux zones que les humains fixent lors de tâches de conduite. En entraînant le modèle à aligner son attention avec les zones de fixation humaines, nous pouvons améliorer significativement ses performances.
Entraînement du Modèle
L'intégration des données de fixation via JSF et FAX conduit à une amélioration de la précision du modèle et nécessite moins d'époques d'entraînement. Cela signifie que le modèle peut apprendre efficacement sans nécessiter un entraînement intensif, économisant ainsi du temps et des ressources.
Importance du Suivi Oculaire en Conduite
Les études de suivi oculaire dans des contextes de conduite ont montré que les conducteurs humains ont tendance à se concentrer sur des régions fournissant des informations cruciales pour la prise de décision. En analysant comment les gens dirigent leur regard, on peut améliorer les systèmes automatisés dans les voitures autonomes. Cette technologie peut aider à interpréter le comportement humain, rendant les systèmes plus réactifs et sûrs.
Systèmes de Suivi du Regard
Les recherches actuelles appliquent souvent le suivi oculaire pour surveiller l'attention et l'alerte des conducteurs. Ces systèmes utilisent des coordonnées de fixation pour déterminer où le conducteur regarde, offrant des informations sur son niveau de concentration sur la route ou sa distraction. En identifiant quand un conducteur n'est pas attentif, le système peut fournir des alertes ou prendre des mesures préventives.
Le suivi oculaire peut même améliorer la capacité des voitures autonomes à prédire les intentions des conducteurs, comme les changements de voie ou les tournants à venir. En interprétant les modèles de regard, les systèmes autonomes peuvent ajuster leur comportement en conséquence, garantissant à la fois sécurité et efficacité sur la route.
Prise de Décision Humaine vs Machine
Les humains excellent à prendre des décisions sensorimotrices en cas d'incertitude. Par exemple, lors d'un tournant dans une rue, les gens peuvent traiter plusieurs types d'informations en même temps pour arriver à la meilleure décision. Les développements récents en robotique visent à reproduire cette capacité, améliorant la flexibilité de la prise de décision dans les systèmes artificiels.
L'attention visuelle, qui peut être mesurée par le suivi oculaire, joue un rôle vital dans la manière dont les humains prennent des décisions. Les recherches montrent que l'attention visuelle est particulièrement importante dans les premières étapes du traitement de l'information, car elle aide à déterminer quelles informations sont les plus critiques pour la tâche à accomplir.
Méthodes Proposées pour l'Intégration
Notre approche intégrée implique trois méthodes principales pour combiner les données de fixation humaines avec le modèle Vision Transformer :
Masquage Périphérique de l'Entrée : Cette méthode se concentre sur l'amélioration de l'entrée en éliminant les régions non pertinentes en dehors de la zone visuelle où les gens ont tendance à se fixer. En isolant les zones clés d'attention, nous pouvons améliorer le processus d'apprentissage du modèle.
Augmentation de l'Entrée avec des Cartes de Fixation : En ajoutant des cartes de fixation aux entrées du modèle, nous fournissons des informations supplémentaires sur les régions d'intérêt. Ce contexte supplémentaire peut aider le modèle à prendre de meilleures décisions.
Fonction de Perte Personnalisée : La perte FAX aide à aligner l'attention du modèle avec la fixation humaine, garantissant que le modèle apprend à se concentrer sur les zones importantes lors des prévisions.
Évaluation de l'Efficacité des Méthodes
À travers des expériences, nous comparons la précision des approches proposées par rapport à la performance de base du modèle ViT. Les résultats indiquent que les méthodes utilisant les données de fixation humaine donnent des résultats significativement meilleurs dans diverses conditions d'incertitude.
Ensembles de Données Utilisés
Pour évaluer l'efficacité de nos méthodes proposées, nous avons utilisé deux ensembles de données : un ensemble de données de conduite en réalité virtuelle (VR) et l'ensemble de données DR(eye)VE. L'ensemble de données VR a été conçu pour simuler une expérience de conduite dans un environnement contrôlé, tandis que l'ensemble de données DR(eye)VE capture des scénarios de conduite du monde réel.
Configuration de l'Entraînement
Le processus d'entraînement implique de diviser les ensembles de données en segments d'entraînement, de validation et de test. Les modèles sont évalués en fonction de la précision et des métriques de performance, garantissant une évaluation complète de leurs capacités à prédire des décisions de conduite.
Performance du Modèle et Conclusions
L'intégration des données de fixation humaine conduit systématiquement à une amélioration des métriques de performance dans les deux ensembles de données. Le modèle montre une meilleure précision et nécessite moins d'époques d'entraînement, démontrant les avantages de l'utilisation d'entrées centrées sur l'humain.
Attention Visuelle vs Attention du Modèle
En analysant l'attention visuelle entre les humains et le modèle, nous observons des différences distinctes. Alors que le modèle a tendance à distribuer son attention plus largement à travers les images, la fixation humaine est souvent plus concentrée sur des zones spécifiques. Cette différence souligne la nécessité d'ajuster le focus du modèle pour qu'il s'aligne davantage sur le comportement visuel humain.
Implications pour la Recherche Future
Les idées tirées de cette étude peuvent influencer les recherches futures dans le domaine de l'intelligence artificielle. En reconnaissant l'importance des données de fixation humaine, nous pouvons développer des modèles plus sophistiqués qui intègrent des processus de prise de décision similaires à ceux des humains. Cela peut améliorer la fiabilité et la sécurité des systèmes automatisés dans des domaines critiques comme la conduite et la santé.
Applications Élargies
Au-delà de la conduite autonome, l'intégration des approches guidées par l'humain peut avoir des implications pour une variété de tâches visuelles où le jugement d'expert est essentiel. De l'analyse d'images médicales à la robotique, ces méthodes peuvent ouvrir de nouvelles voies pour améliorer la performance des modèles grâce à une meilleure compréhension de l'attention humaine.
Conclusion
En conclusion, notre étude illustre le potentiel de combiner les données de suivi oculaire humain avec les Vision Transformers pour améliorer leur performance dans des tâches nécessitant une compréhension nuancée et une prise de décision. En tirant parti des perspectives uniques fournies par les motifs de fixation humaine, nous pouvons développer des systèmes d'IA qui sont non seulement plus précis mais aussi plus capables d'incorporer la perception humaine. À mesure que la technologie évolue, la collaboration entre la cognition humaine et l'apprentissage machine peut conduire à des avancées significatives dans le domaine de l'intelligence artificielle, ouvrant la voie à des systèmes automatisés plus sûrs et plus efficaces.
Titre: Fixating on Attention: Integrating Human Eye Tracking into Vision Transformers
Résumé: Modern transformer-based models designed for computer vision have outperformed humans across a spectrum of visual tasks. However, critical tasks, such as medical image interpretation or autonomous driving, still require reliance on human judgments. This work demonstrates how human visual input, specifically fixations collected from an eye-tracking device, can be integrated into transformer models to improve accuracy across multiple driving situations and datasets. First, we establish the significance of fixation regions in left-right driving decisions, as observed in both human subjects and a Vision Transformer (ViT). By comparing the similarity between human fixation maps and ViT attention weights, we reveal the dynamics of overlap across individual heads and layers. This overlap is exploited for model pruning without compromising accuracy. Thereafter, we incorporate information from the driving scene with fixation data, employing a "joint space-fixation" (JSF) attention setup. Lastly, we propose a "fixation-attention intersection" (FAX) loss to train the ViT model to attend to the same regions that humans fixated on. We find that the ViT performance is improved in accuracy and number of training epochs when using JSF and FAX. These results hold significant implications for human-guided artificial intelligence.
Auteurs: Sharath Koorathota, Nikolas Papadopoulos, Jia Li Ma, Shruti Kumar, Xiaoxiao Sun, Arunesh Mittal, Patrick Adelman, Paul Sajda
Dernière mise à jour: 2023-08-26 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2308.13969
Source PDF: https://arxiv.org/pdf/2308.13969
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.