Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Visione artificiale e riconoscimento di modelli

Prevedere lo sguardo con istruzioni linguistiche

Un nuovo modello prevede dove le persone guardano in base ai comandi vocali.

― 6 leggere min


Previsione dello sguardoPrevisione dello sguardocon la parolaistruzioni vocali.tracciamento dello sguardo usandoIl nuovo modello migliora il
Indice

Gli esseri umani comunicano spesso usando il linguaggio parlato per indirizzare l’attenzione degli altri su oggetti specifici nell’ambiente. Per esempio, quando un cliente chiede a un panettiere "il dolce più piccolo a sinistra", specifica chiaramente cosa vuole. Questa capacità di usare il linguaggio per guidare l'attenzione è un’area importante nella scienza cognitiva, che studia come elaboriamo le informazioni.

Con l'avanzare della tecnologia e l'interazione crescente con computer e dispositivi smart, è fondamentale che questi sistemi capiscano come il linguaggio influisce sulla nostra attenzione. Se questi sistemi riescono a prevedere dove una persona guarderà in base a ciò che sente, potrebbe portare a esperienze utente migliori, specialmente nei settori della realtà virtuale (VR) e della realtà aumentata (AR).

L'importanza di prevedere lo sguardo

Prevedere dove una persona guarderà mentre ascolta Istruzioni è molto utile. Questa previsione aiuta a migliorare le interazioni in varie applicazioni, incluso la guida virtuale in VR, dove un comando vocale può indirizzare l'attenzione in modo efficace. Usare la previsione dello sguardo significa che i dispositivi possono offrire indicazioni più chiare ed efficienti, rendendoli più user-friendly.

Tuttavia, prevedere lo sguardo sulla base di istruzioni parlate è complesso. Studi precedenti hanno spesso esaminato scenari semplici con oggetti limitati e linguaggio poco chiaro. C'è bisogno di studiare come il linguaggio influisce sull’attenzione in situazioni più realistiche con più oggetti e istruzioni complesse.

Introduzione all'Incremental Object Referral Task

Per studiare questo, i ricercatori hanno sviluppato un compito di riferimento incrementale degli oggetti che coinvolge due azioni principali: visualizzare un'immagine e ascoltare una descrizione parlata di quell'immagine. In questo compito, l'obiettivo è prevedere dove una persona guarderà mentre riceve ogni parola dell'istruzione parlata.

Per esempio, se l'istruzione parlata descrive un oggetto, come "il guanto da baseball rosso sulla scrivania", la sfida è prevedere quando lo sguardo dell'ascoltatore si sposterà verso il guanto in base alle parole che sente. Questo approccio incrementale è diverso dai metodi tradizionali che si concentrano solo sulla direzione finale dello sguardo dopo che tutte le informazioni sono state date.

Sviluppo del Modello di Previsione dello Sguardo

Per affrontare queste sfide, i ricercatori hanno creato un modello chiamato Attention in Referral Transformer (ART). Questo modello combina diversi tipi di informazioni, come dati visivi dalle immagini e descrizioni parlate, per prevedere i movimenti dello sguardo in modo efficace.

ART si compone di due parti principali: un encoder che elabora sia le informazioni visive che quelle testuali e un decoder che prevede lo sguardo basandosi su queste informazioni. Durante l'analisi, ART è stato addestrato utilizzando un nuovo dataset chiamato RefCOCO-Gaze. Questo dataset include diversi schemi di sguardo osservati nelle persone mentre eseguono il compito di riferimento incrementale degli oggetti.

Raccolta Dati e Il Dataset RefCOCO-Gaze

Il dataset RefCOCO-Gaze è essenziale per addestrare ART. Include migliaia di movimenti oculari registrati mentre i partecipanti visualizzavano immagini e ascoltavano le corrispondenti descrizioni parlate. Il dataset presenta 19.738 percorsi di sguardo collegati a 2.094 immagini, permettendo ai ricercatori di analizzare come le persone dirigono la loro attenzione in risposta al linguaggio parlato.

I partecipanti avevano il compito di trovare oggetti specifici nelle immagini mentre ascoltavano le descrizioni che guidavano la loro ricerca. Le registrazioni video dei loro movimenti oculari forniscono dati cruciali per addestrare modelli come ART.

Prestazioni di ART e di Altri Modelli

Una volta addestrato, i ricercatori hanno confrontato le prestazioni di ART con altri modelli esistenti sullo stesso dataset. I risultati hanno mostrato che ART poteva prevedere i movimenti oculari con maggiore precisione rispetto ai concorrenti, catturando comportamenti simili a quelli umani nel controllo dell'attenzione. ART ha tracciato efficacemente diversi schemi di comportamento dello sguardo, come aspettare chiarezza, esaminare più oggetti e verificare il bersaglio corretto prima di fare una scelta finale.

Questa prestazione sottolinea le potenziali applicazioni del modello in aree dove è fondamentale comprendere e prevedere l'attenzione umana, come nei sistemi HCI che dipendono da comandi vocali e informazioni visive.

Previsione dello Sguardo in Situazioni Quotidiane

Nella vita reale, le persone spesso navigano in ambienti visivi complessi e comprendono istruzioni parlate contemporaneamente. Per esempio, in un ristorante affollato, un cameriere potrebbe descrivere un piatto mentre indica la sua posizione nel menu. Questa interazione dimostra l'importanza di capire come le informazioni visive e uditive lavorano insieme.

ART mira a simulare queste situazioni quotidiane, aiutando le macchine a rispondere ai segnali umani in modo più naturale. Prevedendo accuratamente dove una persona guarderà in base a ciò che sente, possiamo creare dispositivi più intelligenti che sembrano intuitivi da usare.

Comprendere l'Interazione Umana nella Tecnologia

L'integrazione dei modelli di previsione dello sguardo nella tecnologia potrebbe migliorare significativamente le esperienze utente. Quando i sistemi possono anticipare l'attenzione degli utenti, possono offrire informazioni più rilevanti e migliorare le interazioni, rendendo la tecnologia più naturale e centrata sull'utente.

Per esempio, in una simulazione di guida VR, se un comando vocale dice a un utente di "guardare a sinistra per la prossima svolta", una previsione efficace dello sguardo potrebbe automaticamente focalizzare il display Visivo su quell'area. Questa integrazione renderebbe l'esperienza più fluida e immersiva, riducendo il carico cognitivo sull'utente.

Affrontare le Limitazioni e la Ricerca Futura

Anche se il modello attuale mostra promesse, ci sono ancora limitazioni da considerare. ART tratta le istruzioni parlate come testo anziché analizzare la fonetica e la prosodia - il ritmo e il tono della voce che possono influenzare come le informazioni vengono ricevute. La ricerca futura esplorerà come questi elementi impattano l’attenzione e la previsione dello sguardo.

Lo studio continuo della previsione dello sguardo in relazione all'elaborazione del linguaggio approfondirà la nostra comprensione della cognizione umana. I ricercatori mirano a creare modelli più sofisticati che possano imitare meglio le interazioni simili a quelle umane.

Conclusione

Con il continuo avanzamento della tecnologia, capire come il linguaggio e la visione interagiscono diventa sempre più importante. Lo sviluppo di modelli come ART apre nuove possibilità per interazioni uomo-computer più intuitive. Prevedendo dove le persone guarderanno in base a istruzioni parlate, possiamo costruire sistemi che rispondono meglio alle esigenze umane.

Questo lavoro è cruciale per il futuro dei dispositivi smart, degli ambienti VR/AR e delle interazioni quotidiane con la tecnologia. Rinforza l'idea che le macchine dovrebbero allinearsi meglio con gli stili di comunicazione umana per creare esperienze seamless ed efficienti per gli utenti.

Fonte originale

Titolo: Look Hear: Gaze Prediction for Speech-directed Human Attention

Estratto: For computer systems to effectively interact with humans using spoken language, they need to understand how the words being generated affect the users' moment-by-moment attention. Our study focuses on the incremental prediction of attention as a person is seeing an image and hearing a referring expression defining the object in the scene that should be fixated by gaze. To predict the gaze scanpaths in this incremental object referral task, we developed the Attention in Referral Transformer model or ART, which predicts the human fixations spurred by each word in a referring expression. ART uses a multimodal transformer encoder to jointly learn gaze behavior and its underlying grounding tasks, and an autoregressive transformer decoder to predict, for each word, a variable number of fixations based on fixation history. To train ART, we created RefCOCO-Gaze, a large-scale dataset of 19,738 human gaze scanpaths, corresponding to 2,094 unique image-expression pairs, from 220 participants performing our referral task. In our quantitative and qualitative analyses, ART not only outperforms existing methods in scanpath prediction, but also appears to capture several human attention patterns, such as waiting, scanning, and verification.

Autori: Sounak Mondal, Seoyoung Ahn, Zhibo Yang, Niranjan Balasubramanian, Dimitris Samaras, Gregory Zelinsky, Minh Hoai

Ultimo aggiornamento: 2024-09-09 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2407.19605

Fonte PDF: https://arxiv.org/pdf/2407.19605

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili