Simple Science

La science de pointe expliquée simplement

# Informatique# Vision par ordinateur et reconnaissance des formes

Une nouvelle méthode améliore les prédictions de recherche visuelle

Une nouvelle approche pour prédire comment les gens cherchent visuellement des objets.

― 7 min lire


Améliorer les techniquesAméliorer les techniquesde recherche visuelleprécision améliorée.trajectoires de regard avec uneUn nouveau modèle prédit les
Table des matières

La recherche visuelle est super importante dans la vie de tous les jours. Les gens ont souvent besoin de trouver des objets spécifiques dans des endroits bondés. Par exemple, les parents cherchent leurs enfants dans les parcs, ou les clients cherchent un produit parmi plein d'articles similaires. Prédire comment les gens bougent les yeux en cherchant peut aider dans plein de domaines, comme la robotique et le marketing.

Traditionnellement, les études sur le mouvement des yeux se concentraient sur les pixels dans les images plutôt que sur les objets. Mais des découvertes récentes suggèrent que notre attention est plus dirigée vers les objets que vers juste les couleurs et les formes des pixels. Cet article présente une nouvelle méthode pour prédire comment les gens cherchent des objets, en se concentrant sur des articles spécifiques plutôt que sur l'image entière.

La Nouvelle Méthode

Cette nouvelle méthode s'appelle le Transformer d'Attention au Niveau des Objets (OAT). Elle prédit le chemin que les gens suivent avec leurs yeux quand ils cherchent un objet cible parmi des distractions. L'OAT utilise une structure en deux parties appelée Encodeur-Décodeur.

Comment Fonctionne l'OAT

  • Encodeur : Cette partie recueille des infos sur où sont les objets et à quoi ils ressemblent dans une image.
  • Décodeur : Cette partie prédit l'ordre dans lequel les gens vont regarder les objets, basé sur les infos de l'encodeur.

Une amélioration significative de cette méthode est une nouvelle façon de marquer les positions qui reflète mieux comment les objets sont liés les uns aux autres dans l'espace.

Les chercheurs ont testé l'OAT en utilisant un dataset de couvertures de livres d'Amazon et un nouvel ensemble d'images qu'ils ont collectées. Les résultats ont montré que les prédictions de l'OAT correspondaient mieux aux mouvements oculaires humains que d'autres méthodes centrées sur les pixels.

Importance de l'Étude

Comprendre comment les gens cherchent visuellement est crucial. Des prédictions précises peuvent aider dans diverses applications, comme :

  • Aider les robots à guider les utilisateurs.
  • Améliorer les expériences en réalité virtuelle et augmentée.
  • Rendre la publicité plus efficace.

Comme notre vision aiguë ne se concentre que sur une petite zone, les gens font souvent des mouvements oculaires rapides, appelés saccades, pour voir différentes parties du champ visuel. Ces mouvements créent un schéma appelé scanpath.

Grâce à de meilleures prédictions de ces scanpaths, les chercheurs pensent qu'ils peuvent mieux comprendre le comportement de recherche visuelle.

Travaux Précédents

La plupart des études passées sur la prédiction des scanpaths se concentraient sur l'analyse au niveau des pixels. Ça veut dire qu'ils mesuraient comment les gens regardent des pixels individuels plutôt que l'ensemble des objets. Les premières techniques reposaient sur des cartes de saillance, qui montrent les zones qui attirent l'attention, mais ces modèles ne prenaient pas en compte les aspects temporels de la façon dont les gens regardent les images.

Les avancées récentes ont commencé à explorer comment les gens regardent les images avec un objectif en tête, comme rechercher un objet spécifique. Les nouveaux modèles incorporent des composants visuels et temporels, menant à de meilleures prédictions des séquences de regard. Cependant, beaucoup de ces méthodes se concentraient encore sur des prédictions au niveau des pixels.

Les recherches montrent que l'attention est dirigée vers les objets, surtout quand on cherche un but précis. Plusieurs expériences soulignent l'importance de l'identification des objets pour comprendre les schémas visuels.

Pour combler cette lacune, les chercheurs derrière l'OAT proposent que modéliser les scanpaths en fonction des fixations d'objets donnera des résultats plus précis. C'est particulièrement utile dans des environnements encombrés.

Architecture de l'OAT

L'OAT se compose de quatre parties principales :

  1. Intégration d'Objets : Ce module extrait des caractéristiques visuelles et géométriques de chaque objet dans une image.
  2. Encodeur : Cela combine les infos de l'objet cible avec celles des autres objets de la scène.
  3. Décodeur : Ce module prédit le prochain objet qui sera fixé en fonction de la séquence précédente.
  4. Attention aux Objets : Cette étape permet au modèle de se concentrer sur les objets les plus pertinents basés sur les fixations passées et les infos sur la cible.

Le processus commence par diviser l'image en objets individuels et en ajoutant la cible au début. Le modèle traite chacun de ces composants pour créer une séquence de mouvements oculaires prédits.

Codage Positionnel

Une des grandes contributions de l'OAT est une technique de codage positionnel qui représente mieux les distances entre les objets. La plupart des méthodes traditionnelles ne saisissent pas efficacement à quel point les objets sont proches les uns des autres en termes de comportement de regard.

La nouvelle approche garantit que le système comprend que les gens sont susceptibles de regarder d'abord les objets proches. Cette méthode améliore l'exactitude du modèle, car elle s'aligne plus étroitement avec la façon dont la vision humaine fonctionne.

Évaluation de l'OAT

Les chercheurs ont évalué l'OAT en utilisant deux ensembles de données, un d'Amazon et l'autre qu'ils ont collecté eux-mêmes. Ils ont introduit une nouvelle façon de mesurer à quel point les prédictions du modèle correspondaient au comportement humain.

Lors des tests, l'OAT a constamment surpassé les autres modèles existants. Les prédictions étaient remarquablement proches des véritables scanpaths humains, démontrant l'efficacité de l'OAT pour modéliser l'attention humaine.

Métriques de Performance

Pour comparer les résultats, les chercheurs ont utilisé plusieurs métriques :

  • Pourcentage de Recherche : À quelle fréquence le modèle prédit que les utilisateurs vont chercher de nouveaux objets.
  • Pourcentage de Retour : À quelle fréquence les utilisateurs revenaient voir des objets qu'ils avaient déjà regardés.
  • Pourcentage de Refixation : À quelle fréquence les utilisateurs retournaient plusieurs fois au même objet.

Ces métriques ont aidé à déterminer à quel point l'OAT imite le comportement de regard humain.

Résultats

Les résultats ont montré que l'OAT pouvait prédire les mouvements oculaires avec une grande précision. En fait, la différence entre les prédictions de l'OAT et les véritables scanpaths humains n'était qu'un petit pourcentage.

Comparé aux anciennes méthodes qui reposaient sur des données de pixels, l'OAT a considérablement amélioré les prédictions, surtout dans des configurations d'images chaotiques où beaucoup d'objets similaires étaient présents.

Capacité de Généralisation

L'OAT a aussi montré une capacité impressionnante à s'adapter à des données non vues. Lorsqu'il était confronté à des mises en page et des objets cibles non inclus dans son entraînement, il réussissait quand même à prédire efficacement les mouvements oculaires. Cette flexibilité illustre la capacité de l'OAT à s'appliquer à des scénarios du monde réel plus général.

Conclusion

Cette étude présente l'OAT comme une nouvelle méthode pour prédire les chemins de regard au niveau des objets. Les résultats indiquent une plus grande précision dans la modélisation du comportement humain par rapport aux méthodes traditionnelles au niveau des pixels. La capacité de l'OAT à se généraliser à différents contextes améliore encore ses applications potentielles.

Les futures recherches pourraient explorer comment l'OAT peut être adapté à des scénarios de recherche plus complexes impliquant divers types d'objets et d'environnements. En se concentrant sur les informations au niveau des objets, l'OAT représente une avancée significative dans la compréhension du comportement de recherche visuelle et l'amélioration de solutions pratiques dans différents domaines.

Remarques Finales

Les découvertes de l'OAT ont de larges implications dans divers secteurs. En fournissant un aperçu plus clair de comment les gens interagissent visuellement avec leur environnement, cette recherche pourrait influencer le développement dans les systèmes interactifs, les stratégies de marketing, et la conception technologique. Avec plus de tests et de perfectionnements, l'OAT pourrait devenir une approche standard pour prédire le comportement de regard dans des situations variées.

Source originale

Titre: OAT: Object-Level Attention Transformer for Gaze Scanpath Prediction

Résumé: Visual search is important in our daily life. The efficient allocation of visual attention is critical to effectively complete visual search tasks. Prior research has predominantly modelled the spatial allocation of visual attention in images at the pixel level, e.g. using a saliency map. However, emerging evidence shows that visual attention is guided by objects rather than pixel intensities. This paper introduces the Object-level Attention Transformer (OAT), which predicts human scanpaths as they search for a target object within a cluttered scene of distractors. OAT uses an encoder-decoder architecture. The encoder captures information about the position and appearance of the objects within an image and about the target. The decoder predicts the gaze scanpath as a sequence of object fixations, by integrating output features from both the encoder and decoder. We also propose a new positional encoding that better reflects spatial relationships between objects. We evaluated OAT on the Amazon book cover dataset and a new dataset for visual search that we collected. OAT's predicted gaze scanpaths align more closely with human gaze patterns, compared to predictions by algorithms based on spatial attention on both established metrics and a novel behavioural-based metric. Our results demonstrate the generalization ability of OAT, as it accurately predicts human scanpaths for unseen layouts and target objects.

Auteurs: Yini Fang, Jingling Yu, Haozheng Zhang, Ralf van der Lans, Bertram Shi

Dernière mise à jour: 2024-07-18 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2407.13335

Source PDF: https://arxiv.org/pdf/2407.13335

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires