Prédire le regard avec des instructions en langage
Un nouveau modèle prédit où les gens regardent en fonction des commandes verbales.
― 7 min lire
Table des matières
- L'Importance de la Prédiction du Regard
- Présentation de la Tâche de Référentiel d'Objets Incrémental
- Développement du Modèle de Prédiction du Regard
- Collecte de Données et le Dataset RefCOCO-Gaze
- Performance d'ART et d'Autres Modèles
- Prédiction du Regard dans des Scénarios Quotidiens
- Comprendre l'Interaction Humaine dans la Technologie
- Aborder les Limitations et la Recherche Future
- Conclusion
- Source originale
- Liens de référence
Les humains communiquent souvent en utilisant le langage parlé pour diriger l'attention des autres vers des objets spécifiques dans notre environnement. Par exemple, quand un client demande à un boulanger "la plus petite pâtisserie à gauche", il précise clairement ce qu'il veut. Cette capacité à utiliser le langage pour guider l'attention est un domaine important en sciences cognitives, qui étudie comment nous traitons l'information.
Avec l'avancée de la technologie et notre interaction de plus en plus fréquente avec des ordinateurs et des appareils intelligents, il est crucial que ces systèmes comprennent comment le langage affecte notre attention. Si ces systèmes peuvent prédire où une personne regardera en fonction de ce qu'elle entend, cela pourrait améliorer l'expérience utilisateur, notamment dans des domaines comme la réalité virtuelle (VR) et la réalité augmentée (AR).
L'Importance de la Prédiction du Regard
Prédire où une personne va regarder en entendant des Instructions est super précieux. Cette prédiction aide à améliorer les interactions dans diverses applications, y compris la conduite en VR, où un commandement oral peut aider à diriger efficacement l'attention d'une personne. Utiliser la prédiction du regard signifie que les appareils peuvent fournir des conseils plus clairs et plus efficaces, rendant l'utilisation plus conviviale.
Cependant, prédire le regard en fonction des instructions orales est complexe. Les études précédentes se sont souvent concentrées sur des scénarios simples avec peu d'objets et un langage vague. Il y a besoin d'étudier comment le langage influence l'attention dans des situations plus réalistes avec plusieurs objets et des instructions complexes.
Présentation de la Tâche de Référentiel d'Objets Incrémental
Pour étudier cela, les chercheurs ont développé une tâche de référentiel d'objets incrémental impliquant deux actions principales : regarder une image et écouter une description orale de cette image. Dans cette tâche, l'objectif est de prédire où une personne va regarder à mesure qu'elle reçoit chaque mot de l'instruction orale.
Par exemple, si l'instruction orale décrit un objet, comme "le gant de baseball rouge sur le bureau", le défi est de prédire quand le regard de l'auditeur va se tourner vers le gant en fonction des mots qu'il entend. Cette approche incrémentale se distingue des méthodes traditionnelles qui se concentrent uniquement sur la direction finale du regard après que toutes les informations sont données.
Développement du Modèle de Prédiction du Regard
Pour relever ces défis, les chercheurs ont créé un modèle appelé Attention in Referral Transformer (ART). Ce modèle combine différents types d'informations, comme des données visuelles des images et les descriptions orales, pour prédire efficacement les mouvements du regard.
ART se compose de deux parties principales : un encodeur qui traite les informations visuelles et textuelles et un décodeur qui prédit le regard en fonction de ces informations. Lors de l’analyse, ART a été formé avec un nouveau dataset appelé RefCOCO-Gaze. Ce dataset inclut divers motifs de regard observés chez les personnes réalisant la tâche de référentiel d'objets incrémental.
Collecte de Données et le Dataset RefCOCO-Gaze
Le dataset RefCOCO-Gaze est essentiel pour former ART. Il comprend des milliers de mouvements de regard enregistrés pendant que les participants regardaient des images et écoutaient des descriptions orales correspondantes. Le dataset comporte 19 738 parcours de regard liés à 2 094 images, permettant aux chercheurs d'analyser comment les gens dirigent leur attention en réponse au langage parlé.
Les participants avaient pour tâche de trouver des objets spécifiques dans les images en entendant des descriptions qui guidaient leur recherche. Les enregistrements vidéo de leurs mouvements de regard fournissent des données cruciales pour former des Modèles comme ART.
Performance d'ART et d'Autres Modèles
Une fois qu'ART a été formé, les chercheurs ont comparé sa performance avec d'autres modèles existants sur le même dataset. Les résultats ont montré qu'ART pouvait prédire les mouvements de regard plus précisément que ses concurrents, capturant un comportement humain dans le contrôle de l'attention. ART a efficacement suivi différents schémas de comportement de regard, comme attendre des clarifications, balayer plusieurs objets et vérifier la bonne cible avant de faire un choix final.
Cette performance souligne les applications potentielles du modèle dans des domaines où comprendre et prédire l'attention humaine est vital, comme dans les systèmes HCI qui dépendent des commandes vocales et des informations visuelles.
Prédiction du Regard dans des Scénarios Quotidiens
Dans la vraie vie, les gens naviguent souvent dans des environnements Visuels complexes tout en comprenant des instructions orales en même temps. Par exemple, dans un restaurant bondé, un serveur peut décrire un plat tout en pointant sa localisation sur un menu. Cette interaction démontre l'importance de comprendre comment les informations visuelles et auditives fonctionnent ensemble.
ART vise à simuler ces situations quotidiennes, aidant les machines à apprendre à répondre aux indices humains de manière plus naturelle. En prédisant avec précision où une personne va regarder en fonction de ce qu'elle entend, on peut créer des appareils plus intelligents qui semblent intuitifs à utiliser.
Comprendre l'Interaction Humaine dans la Technologie
L'intégration des modèles de prédiction du regard dans la technologie pourrait améliorer considérablement l'expérience utilisateur. Lorsque les systèmes peuvent anticiper l'attention des utilisateurs, ils peuvent offrir des informations plus pertinentes et améliorer les interactions, rendant la technologie plus naturelle et centrée sur l'utilisateur.
Par exemple, dans une simulation de conduite en VR, si une commande vocale dit à un utilisateur de "regarder à gauche pour le prochain virage", une prédiction efficace du regard pourrait automatiquement cibler l'affichage visuel sur cette zone. Cette intégration rendrait l'expérience plus fluide et immersive, réduisant la charge cognitive sur l'utilisateur.
Aborder les Limitations et la Recherche Future
Bien que le modèle actuel montre des promesses, il y a encore des limitations à considérer. ART traite les instructions orales comme du texte plutôt que d’analyser la phonétique et la prosodie - le rythme et le ton de la parole qui peuvent influencer la façon dont l'information est reçue. La recherche future explorera comment ces éléments impactent l'attention et la prédiction du regard.
L'étude continue de la prédiction du regard en relation avec le traitement du langage approfondira notre compréhension de la cognition humaine. Les chercheurs visent à créer des modèles plus sophistiqués qui peuvent mieux imiter les interactions de type humain.
Conclusion
Alors que nous continuons à avancer dans la technologie, comprendre comment le langage et la vision interagissent devient de plus en plus important. Le développement de modèles comme ART ouvre de nouvelles possibilités pour des interactions homme-machine plus intuitives. En prédisant où les gens vont regarder en fonction des instructions orales, nous pouvons construire des systèmes qui répondent plus efficacement aux besoins humains.
Ce travail est crucial pour l'avenir des appareils intelligents, des environnements VR/AR et des interactions quotidiennes avec la technologie. Il renforce l'idée que les machines devraient mieux s'aligner avec les styles de communication humains pour créer des expériences fluides et efficaces pour les utilisateurs.
Titre: Look Hear: Gaze Prediction for Speech-directed Human Attention
Résumé: For computer systems to effectively interact with humans using spoken language, they need to understand how the words being generated affect the users' moment-by-moment attention. Our study focuses on the incremental prediction of attention as a person is seeing an image and hearing a referring expression defining the object in the scene that should be fixated by gaze. To predict the gaze scanpaths in this incremental object referral task, we developed the Attention in Referral Transformer model or ART, which predicts the human fixations spurred by each word in a referring expression. ART uses a multimodal transformer encoder to jointly learn gaze behavior and its underlying grounding tasks, and an autoregressive transformer decoder to predict, for each word, a variable number of fixations based on fixation history. To train ART, we created RefCOCO-Gaze, a large-scale dataset of 19,738 human gaze scanpaths, corresponding to 2,094 unique image-expression pairs, from 220 participants performing our referral task. In our quantitative and qualitative analyses, ART not only outperforms existing methods in scanpath prediction, but also appears to capture several human attention patterns, such as waiting, scanning, and verification.
Auteurs: Sounak Mondal, Seoyoung Ahn, Zhibo Yang, Niranjan Balasubramanian, Dimitris Samaras, Gregory Zelinsky, Minh Hoai
Dernière mise à jour: 2024-09-09 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2407.19605
Source PDF: https://arxiv.org/pdf/2407.19605
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.