Migliorare i Vision Transformers con il tracciamento oculare umano
Questo studio esamina come il tracciamento degli occhi migliora le prestazioni dei Vision Transformers nei compiti di guida.
― 8 leggere min
Indice
- Importanza del Tracciamento Oculare
- Regioni di Fissazione e Decisioni
- Attenzione Congiunta tra Scena e Fissazione
- Perdita di Intersezione Fissazione-Attenzione
- Importanza del Tracciamento Oculare nella Guida
- Sistemi di Tracciamento Oculare
- Decisioni Umani Vs. Macchina
- Metodi Proposti per l'Integrazione
- Valutazione dell'Efficacia dei Metodi
- Prestazioni del Modello e Risultati
- Implicazioni per la Ricerca Futura
- Conclusione
- Fonte originale
- Link di riferimento
Negli ultimi anni, i modelli computerizzati noti come Vision Transformers (ViTs) hanno fatto enormi passi avanti nel svolgere compiti visivi, a volte superando le capacità umane. Questi modelli elaborano immagini e video per svolgere attività come riconoscere oggetti, classificare azioni e persino assistere nelle auto a guida autonoma. Nonostante i loro successi, i ViTs faticano ancora con alcuni compiti complessi, specialmente in aree dove il giudizio umano è fondamentale, come l'interpretazione di immagini mediche o la presa di decisioni alla guida. Questo sottolinea la necessità di una connessione più profonda tra la comprensione visiva umana e i modelli di machine learning.
Importanza del Tracciamento Oculare
Un modo per migliorare i ViTs è integrare l'input visivo umano, in particolare attraverso la tecnologia di tracciamento oculare. I dispositivi di tracciamento oculare possono registrare con precisione dove guarda una persona, rivelando i punti focali della loro Attenzione. Queste Fissazioni sono essenziali per comprendere come gli esseri umani percepiscono l'ambiente circostante e possono fornire informazioni preziose per migliorare i modelli di intelligenza artificiale.
Integrando i dati dai dispositivi di tracciamento oculare, possiamo informare i modelli ViT sulle aree che gli esseri umani considerano più importanti durante compiti come la guida. Questa integrazione può potenzialmente migliorare l'accuratezza del modello in varie situazioni, offrendo una comprensione più sfumata dei contesti visivi.
Regioni di Fissazione e Decisioni
In questo studio, ci concentriamo su come l'attenzione umana, rappresentata dai punti di fissazione, possa guidare un modello ViT a Prendere decisioni di guida migliori. Iniziamo analizzando le regioni di fissazione in relazione alle scelte di guida a sinistra e a destra. Confrontando le mappe di fissazione generate da soggetti umani con i pesi di attenzione di un modello ViT, possiamo identificare sovrapposizioni e differenze nel modo in cui entrambi elaborano le informazioni visive.
Comprendendo dove gli esseri umani fissano lo sguardo mentre guidano, possiamo semplificare il modello senza perdere precisione. Questo significa che possiamo rendere il modello più semplice e veloce senza compromettere la sua efficacia.
Attenzione Congiunta tra Scena e Fissazione
Per migliorare la capacità del modello di prendere decisioni basate sia sulla scena di guida che sui dati di attenzione umana, introduciamo un nuovo metodo chiamato attenzione "joint scene-fixation" (JSF). Questo metodo combina le informazioni visive dalla scena di guida con i dati di fissazione raccolti dal tracciamento oculare. L'obiettivo è creare un input più olistico per il modello ViT, permettendogli di apprendere sia dall'ambiente che dal comportamento visivo umano.
Implementazione di JSF
Nel nostro approccio, utilizziamo una sequenza di due fotogrammi in cui un fotogramma contiene la scena di guida e l'altro sovrappone la mappa di fissazione. Elaborando entrambi gli input insieme, forniamo al modello un contesto più ricco, aiutandolo a concentrarsi su aree rilevanti della scena in modo simile a come farebbe un umano.
Perdita di Intersezione Fissazione-Attenzione
Per raffinare ulteriormente il processo di apprendimento del modello, introduciamo una nuova funzione di perdita chiamata "fixation-attention intersection" (FAX). Questa funzione incoraggia il modello a prestare più attenzione alle aree su cui gli esseri umani si fissano durante i compiti di guida. Allenando il modello ad allineare la sua attenzione con le aree di fissazione umana, possiamo migliorare significativamente le sue prestazioni.
Addestramento del Modello
L'integrazione dei dati di fissazione tramite JSF e FAX porta a un miglioramento dell'accuratezza del modello e richiede meno epoche di addestramento. Questo significa che il modello può apprendere in modo efficace senza necessità di un addestramento esteso, risparmiando tempo e risorse.
Importanza del Tracciamento Oculare nella Guida
Gli studi di tracciamento oculare nei contesti di guida hanno dimostrato che i conducenti umani tendono a concentrarsi su aree che forniscono informazioni critiche per la presa di decisione. Analizzando come le persone dirigono il loro sguardo, possiamo migliorare i sistemi automatizzati nelle auto a guida autonoma. Questa tecnologia può aiutare a interpretare il comportamento umano, rendendo i sistemi più reattivi e sicuri.
Sistemi di Tracciamento Oculare
La ricerca attuale applica spesso il tracciamento oculare per monitorare l'attenzione e la vigilanza del conducente. Questi sistemi utilizzano le coordinate di fissazione per determinare dove sta guardando il conducente, offrendo informazioni su se è concentrato sulla strada o distratto. Identificando quando un conducente non presta attenzione, il sistema può fornire avvisi o prendere misure preventive.
Il tracciamento oculare può persino migliorare la capacità delle auto a guida autonoma di prevedere le intenzioni del conducente, come cambi di corsia o svolte imminenti. Interpretando i modelli di sguardo, i sistemi autonomi possono adeguare il loro comportamento di conseguenza, garantendo sia sicurezza che efficienza sulla strada.
Decisioni Umani Vs. Macchina
Gli esseri umani eccellono nel prendere decisioni sensomotorie in condizioni di incertezza. Per esempio, quando devono svoltare in una strada, le persone possono elaborare vari tipi di informazioni contemporaneamente per arrivare alla migliore decisione. Gli sviluppi recenti nella robotica puntano a replicare questa abilità, migliorando la flessibilità decisionale nei sistemi artificiali.
L'attenzione visiva, che può essere misurata attraverso il tracciamento oculare, gioca un ruolo vitale nel modo in cui gli esseri umani prendono decisioni. La ricerca mostra che l'attenzione visiva è particolarmente importante nelle fasi iniziali dell'elaborazione delle informazioni, poiché aiuta a determinare quali informazioni siano più critiche per il compito in questione.
Metodi Proposti per l'Integrazione
Il nostro approccio integrato coinvolge tre metodi principali per combinare i dati di fissazione umana con il modello Vision Transformer:
Mascheramento Periferico dell'Input: Questo metodo si concentra sul migliorare l'input rimuovendo le aree irrilevanti al di fuori dell'area visiva su cui le persone tendono a fissarsi. Isolando le aree chiave di attenzione, possiamo migliorare il processo di apprendimento del modello.
Aggiunta di Mappe di Fissazione all'Input: Aggiungendo mappe di fissazione agli input del modello, forniamo informazioni aggiuntive sulle aree di interesse. Questo contesto extra può aiutare il modello a prendere decisioni migliori.
Funzione di Perdita Personalizzata: La perdita FAX aiuta ad allineare l'attenzione del modello con quella della fissazione umana, garantendo che il modello impari a concentrarsi sulle aree importanti quando fa predizioni.
Valutazione dell'Efficacia dei Metodi
Attraverso esperimenti, confrontiamo l'accuratezza dei metodi proposti rispetto alle prestazioni di base del modello ViT. I risultati indicano che i metodi che utilizzano i dati di fissazione umana producono risultati significativamente migliori in diverse condizioni di incertezza.
Dataset Utilizzati
Per valutare l'efficacia dei nostri metodi proposti, abbiamo utilizzato due dataset: un dataset di guida in realtà virtuale (VR) e il dataset DR(eye)VE. Il dataset VR è stato progettato per simulare un'esperienza di guida in un ambiente controllato, mentre il dataset DR(eye)VE cattura scenari di guida nel mondo reale.
Impostazione dell'Addestramento
Il processo di addestramento comporta la suddivisione dei dataset in segmenti di addestramento, convalida e test. I modelli vengono valutati in base a metriche di accuratezza e prestazioni, garantendo una valutazione completa di quanto bene possano prevedere le decisioni di guida.
Prestazioni del Modello e Risultati
L'integrazione dei dati di fissazione umana porta costantemente a metriche di prestazione migliori in entrambi i dataset. Il modello mostra un'accuratezza migliore e richiede meno epoche di addestramento, dimostrando i benefici dell'utilizzo di input incentrati sull'essere umano.
Attenzione Visiva Vs. Attenzione del Modello
Analizzando l'attenzione visiva tra umani e modello, osserviamo differenze distintive. Mentre il modello tende a distribuire l'attenzione in modo più ampio tra i fotogrammi, la fissazione umana è spesso più concentrata in aree specifiche. Questa differenza evidenzia la necessità di tarare il focus del modello per allinearsi meglio con il comportamento visivo umano.
Implicazioni per la Ricerca Futura
Le intuizioni ottenute da questo studio possono influenzare la ricerca futura nel campo dell'intelligenza artificiale. Riconoscendo l'importanza dei dati di fissazione umana, possiamo sviluppare modelli più sofisticati che incorporino processi decisionali simili a quelli umani. Questo può migliorare l'affidabilità e la sicurezza dei sistemi automatizzati in domini critici come la guida e la sanità.
Espansione delle Applicazioni
Oltre alla guida autonoma, l'integrazione di approcci guidati dall'umano può avere implicazioni per una varietà di compiti visivi dove il giudizio esperto è essenziale. Dall'analisi delle immagini mediche alla robotica, questi metodi possono aprire nuove strade per migliorare le prestazioni dei modelli attraverso una migliore comprensione dell'attenzione umana.
Conclusione
In conclusione, il nostro studio illustra il potenziale di combinare i dati di tracciamento oculare umano con i Vision Transformers per migliorare le loro prestazioni in compiti che richiedono comprensione e decisioni sfumate. Sfruttando le intuizioni uniche fornite dai modelli di fissazione umana, possiamo sviluppare sistemi di intelligenza artificiale che siano non solo più accurati, ma anche più capaci di codificare la percezione simile agli esseri umani. Man mano che la tecnologia evolve, la collaborazione tra la cognizione umana e il machine learning può portare a significativi progressi nel campo dell'intelligenza artificiale, aprendo la strada a sistemi automatizzati più sicuri ed efficaci.
Titolo: Fixating on Attention: Integrating Human Eye Tracking into Vision Transformers
Estratto: Modern transformer-based models designed for computer vision have outperformed humans across a spectrum of visual tasks. However, critical tasks, such as medical image interpretation or autonomous driving, still require reliance on human judgments. This work demonstrates how human visual input, specifically fixations collected from an eye-tracking device, can be integrated into transformer models to improve accuracy across multiple driving situations and datasets. First, we establish the significance of fixation regions in left-right driving decisions, as observed in both human subjects and a Vision Transformer (ViT). By comparing the similarity between human fixation maps and ViT attention weights, we reveal the dynamics of overlap across individual heads and layers. This overlap is exploited for model pruning without compromising accuracy. Thereafter, we incorporate information from the driving scene with fixation data, employing a "joint space-fixation" (JSF) attention setup. Lastly, we propose a "fixation-attention intersection" (FAX) loss to train the ViT model to attend to the same regions that humans fixated on. We find that the ViT performance is improved in accuracy and number of training epochs when using JSF and FAX. These results hold significant implications for human-guided artificial intelligence.
Autori: Sharath Koorathota, Nikolas Papadopoulos, Jia Li Ma, Shruti Kumar, Xiaoxiao Sun, Arunesh Mittal, Patrick Adelman, Paul Sajda
Ultimo aggiornamento: 2023-08-26 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2308.13969
Fonte PDF: https://arxiv.org/pdf/2308.13969
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.