Simple Science

La science de pointe expliquée simplement

# Informatique# Vision par ordinateur et reconnaissance des formes

Méthode innovante pour analyser les fixations vidéo

Une nouvelle méthode améliore la collecte de données de fixation dans les vidéos en utilisant un écran d'ordinateur.

― 6 min lire


Collecte de données deCollecte de données defixation réinventéevidéos.et l'analyse de l'attention dans lesUne nouvelle méthode améliore le suivi
Table des matières

Ces dernières années, on a remarqué un intérêt croissant pour la manière dont on collecte et analyse les Fixations dans les vidéos, surtout dans des environnements immersifs. Cet article présente une nouvelle méthode qui s'attaque à certains problèmes courants rencontrés avec les méthodes traditionnelles.

Problèmes avec les Méthodes Actuelles

La méthode habituelle pour recueillir des données de fixation utilise un écran monté sur la tête (HMD). Bien que ça fonctionne, cette approche a des inconvénients majeurs. Un des principaux problèmes est connu sous le nom de "zoom aveugle". Ça veut dire que quand les utilisateurs portent un HMD, ils ne peuvent pas toujours voir toute la scène vidéo car ils ne bougent leur tête que dans certaines directions. Ça entraîne des événements importants manqués qui se passent en dehors de leur champ de vision immédiat. Du coup, les données de fixation recueillies ne reflètent souvent qu'une petite partie de la scène au lieu du tableau global.

Un autre souci, c'est que les HMD peuvent être inconfortables et chers. Les utilisateurs ressentent souvent de l'inconfort en portant ces appareils, comme des vertiges ou des nausées, ce qui impacte leur capacité à regarder et s'engager pleinement avec le contenu vidéo.

Présentation de WinDB

Pour surmonter ces défis, une nouvelle méthode appelée WinDB a été développée. Cette approche utilise un écran d'ordinateur au lieu de lunettes pour afficher la vidéo, permettant aux utilisateurs de regarder confortablement et de collecter des données de fixation sans les contraintes d'un HMD.

Avantages de WinDB

  1. Expérience Confortable : Les utilisateurs regardent simplement depuis un écran d'ordinateur, ce qui rend l'expérience de visionnage plus agréable et moins encombrante.
  2. Données Plus Précises : Comme il n'y a pas de zoom aveugle, les données de fixation collectées avec WinDB représentent une vue plus précise de ce qui est important dans la scène.
  3. Réaction Dynamique : WinDB utilise une technique où la vidéo peut flouter dynamiquement certaines zones qui attirent l'attention, garantissant que le focus reste sur ce qui est pertinent.

Le Jeu de Données

Basé sur cette nouvelle méthode, un jeu de données a été compilé avec 300 clips vidéo de différentes catégories. Chaque clip inclut des scènes avec des événements soudains et des moments dignes d'intérêt. Le jeu de données est conçu pour être difficile, visant à améliorer l'étude de la façon dont les humains prêtent attention à différentes parties d'une vidéo.

Catégories Couverte

Le jeu de données couvre plus de 225 catégories sémantiques différentes. Cela assure une variété de scénarios, faisant de lui une ressource précieuse pour les chercheurs intéressés par la compréhension du comportement de fixation dans des scènes complexes.

Phénomène de Changement de Fixation

Un aspect intéressant du jeu de données est l'occurrence de "changement de fixation". Cela fait référence au moment où les spectateurs déplacent soudainement leur regard d'une partie de la scène à une autre, souvent à cause de quelque chose d'inattendu qui se produit. Comprendre ce phénomène est crucial, car cela met en lumière comment l'attention peut changer rapidement selon ce qui se passe dans la vidéo.

Besoin d'un Nouveau Modèle de Réseau

Avec le nouveau jeu de données et la méthode, il y a un besoin pour un modèle de réseau capable de gérer les défis uniques posés par le changement de fixation. Les modèles traditionnels ont tendance à négliger cet aspect, se concentrant plutôt sur le maintien d'un flux d'attention fluide.

Présentation de FishNet

Pour y remédier, une nouvelle architecture de réseau, FishNet, a été proposée. FishNet est conçu pour être sensible au changement de fixation, lui permettant de s'adapter et de répondre à la manière dont les spectateurs changent naturellement leur focus dans une vidéo.

Caractéristiques Clés de FishNet
  1. Perception Globale : FishNet peut examiner toute la scène plutôt que juste des zones locales. Cette vue globale lui permet de capturer efficacement des événements soudains et des changements d'attention.
  2. Conscience du Changement : Le modèle peut reconnaître quand des changements de fixation se produisent, améliorant sa capacité à prédire où les spectateurs vont regarder ensuite.
  3. Amélioration des Caractéristiques : FishNet renforce activement les caractéristiques associées aux fixations changeantes, rendant plus probable de savoir ce qui attire l'attention des spectateurs.

Expérimentations et Analyse

Une série d'expériences a été menée pour tester l'efficacité de WinDB et du modèle FishNet. Ces tests garantissent que les nouvelles méthodes surpassent les approches traditionnelles.

Études Utilisateurs

Dans les études utilisateurs, les participants ont regardé des clips vidéo et leurs mouvements oculaires ont été suivis avec le nouveau système. L'objectif était de comparer les données de fixation recueillies à partir des HMDs avec celles collectées en utilisant WinDB pour voir laquelle représentait mieux le focus dans les scènes.

Résultats

Les résultats ont montré que les données de fixation recueillies avec WinDB étaient plus efficaces pour capturer avec précision les changements d'attention pendant les visionnages. Les utilisateurs étaient plus engagés et réactifs aux événements soudains montrés à l'écran.

Applications Futures

Les implications de cette recherche sont vastes. Les résultats peuvent considérablement améliorer divers domaines, comme la réalité virtuelle et les jeux vidéo, où comprendre l'attention des spectateurs est essentiel pour le design et l'expérience utilisateur.

Conclusion

En résumé, l'introduction de WinDB et FishNet offre une nouvelle approche pour collecter et analyser des données de fixation dans les vidéos. Avec son accent sur le confort et l'exactitude, cette méthode a le potentiel de redéfinir la façon dont les chercheurs comprennent l'attention visuelle dans des scènes complexes. Le jeu de données créé à partir de cette recherche sert de ressource précieuse pour d'autres études sur l'attention humaine et le comportement de fixation.

Source originale

Titre: WinDB: HMD-free and Distortion-free Panoptic Video Fixation Learning

Résumé: To date, the widely adopted way to perform fixation collection in panoptic video is based on a head-mounted display (HMD), where users' fixations are collected while wearing an HMD to explore the given panoptic scene freely. However, this widely-used data collection method is insufficient for training deep models to accurately predict which regions in a given panoptic are most important when it contains intermittent salient events. The main reason is that there always exist "blind zooms" when using HMD to collect fixations since the users cannot keep spinning their heads to explore the entire panoptic scene all the time. Consequently, the collected fixations tend to be trapped in some local views, leaving the remaining areas to be the "blind zooms". Therefore, fixation data collected using HMD-based methods that accumulate local views cannot accurately represent the overall global importance - the main purpose of fixations - of complex panoptic scenes. To conquer, this paper introduces the auxiliary window with a dynamic blurring (WinDB) fixation collection approach for panoptic video, which doesn't need HMD and is able to well reflect the regional-wise importance degree. Using our WinDB approach, we have released a new PanopticVideo-300 dataset, containing 300 panoptic clips covering over 225 categories. Specifically, since using WinDB to collect fixations is blind zoom free, there exists frequent and intensive "fixation shifting" - a very special phenomenon that has long been overlooked by the previous research - in our new set. Thus, we present an effective fixation shifting network (FishNet) to conquer it. All these new fixation collection tool, dataset, and network could be very potential to open a new age for fixation-related research and applications in 360o environments.

Auteurs: Guotao Wang, Chenglizhao Chen, Aimin Hao, Hong Qin, Deng-Ping Fan

Dernière mise à jour: 2023-09-27 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2305.13901

Source PDF: https://arxiv.org/pdf/2305.13901

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires