Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Visione artificiale e riconoscimento di modelli# Intelligenza artificiale

FaceTouch: Un Nuovo Modo di Monitorare il Tocco del Viso

FaceTouch tiene traccia dei contatti mano-viso per aiutare a ridurre la diffusione delle malattie.

― 9 leggere min


Tracciare i Tocchi delTracciare i Tocchi delViso con la Tecnologiamano-viso usando tecniche avanzate.Un sistema che identifica i contatti
Indice

Molti virus si diffondono attraverso il nostro sistema respiratorio, spesso passando da una persona all'altra. Un buon esempio è il Covid-19, che ha messo in evidenza l'importanza di tracciare e ridurre i contatti per prevenire la sua diffusione. Tuttavia, c'è una mancanza di metodi automatici che possano rilevare efficacemente quando qualcuno si tocca il viso, specialmente in luoghi urbani affollati o al chiuso.

In questo articolo, presentiamo un nuovo programma chiamato FaceTouch. Questo programma utilizza tecnologia avanzata per riconoscere quando le mani entrano in contatto con i volti tramite flussi video, che si tratti di videochiamate, telecamere degli autobus o telecamere di sicurezza. Anche quando i volti sono parzialmente coperti, FaceTouch può imparare a identificare questi momenti osservando movimenti del corpo come quelli delle braccia. Questo sistema va oltre il semplice rilevamento dei movimenti delle mani e della prossimità al viso, rendendolo utile in contesti affollati. Utilizza un metodo chiamato Supervised Contrastive Learning per allenarsi su un dataset che abbiamo raccolto, dato che non ci sono dataset di riferimento disponibili.

Le persone hanno una tendenza naturale a toccarsi il viso, soprattutto in aree sensibili come occhi, naso e bocca. Questo comportamento può aumentare i rischi per la salute introducendo germi nel corpo e diffondendo malattie. Quindi, è fondamentale monitorare i contatti facciali per un cambiamento comportamentale. Un sistema automatizzato che possa interpretare le azioni umane in ambienti complicati può essere utile in molte situazioni. Durante le pandemie, poter tracciare dove le nostre mani toccano potrebbe aiutare a capire come si diffondono le malattie.

Recentemente, i progressi nella visione artificiale e nel deep learning ci hanno aiutato a comprendere vari aspetti delle azioni umane e come interagiscono con l'ambiente circostante. Anche se ci sono ancora lacune nel trovare dataset di immagini del mondo reale per riconoscere i tocchi mano-volto, alcuni studi si concentrano sull'uso di dispositivi smart indossabili per rilevare queste azioni. Tuttavia, questo approccio può essere complicato e insostenibile poiché richiede dati da più fonti di diversi individui. Altri sistemi si basano sul rilevamento separato delle mani e dei volti e decidono se un tocco è avvenuto in base alle loro distanze. Questo metodo può portare a errori, specialmente quando i movimenti delle mani somigliano a un tocco sul viso, ma in realtà sono azioni non correlate, come bere.

In questo lavoro, presentiamo i seguenti contributi:

  1. L'introduzione del framework FaceTouch che mira a rilevare i tocchi mano-volto in varie situazioni, comprese videochiamate, immagini da autobus e riprese CCTV. Questo framework impara a individuare i tocchi anche quando il viso è parzialmente nascosto, osservando gesti corporei come i movimenti delle braccia.
  2. Espandiamo l'uso dell'apprendimento auto-supervisionato all'apprendimento completamente supervisionato, utilizzando efficacemente le etichette delle immagini.
  3. Creiamo un nuovo dataset specificamente per i tocchi mano-volto, catturando varie pose umane in ambienti sia interni che esterni.
  4. Analizziamo diversi modelli di deep learning che possono affrontare sfide simili.

Dopo l'introduzione, spiegheremo lavori correlati e metodi precedentemente utilizzati. Dopo di che, descriveremo il framework FaceTouch, i metodi di allenamento e le metriche di valutazione. Riassumeremo i risultati e li discuteremo in relazione alla letteratura attuale, notando lavori futuri e limitazioni. Infine, concluderemo la nostra ricerca.

Lavoro Correlato

Diversi studi sono correlati a questo argomento e possono essere raggruppati in due categorie:

Rilevamento tramite Dispositivi Sensoriali

Alcuni metodi utilizzano smartwatch per rilevare tocchi spontanei del viso analizzando i dati degli accelerometri. Questi metodi coinvolgono varie tecniche di machine learning, tra cui Random Forest e Support Vector Machines. Approcci simili usano i dati degli accelerometri per identificare i tocchi sul viso. Sono state sviluppate altre tecnologie indossabili per aiutare a prevenire il tocco inconscio del viso, utilizzando sia dati degli accelerometri che deep learning per la classificazione dei movimenti delle mani. Inoltre, uno studio ha impiegato un dispositivo indossato nell'orecchio, rilevando i tocchi delle mani e identificandoli come mucosali o non mucosali analizzando segnali termici e fisiologici che indicano cambiamenti nella pelle durante il contatto con il viso.

Rilevazioni Separate delle Mani e del Viso

Identificare i tocchi facciali può anche essere fatto rilevando separatamente una mano e un viso e calcolando la distanza tra di loro per vedere se è avvenuto un contatto. Per la rilevazione del viso, sono stati sviluppati diversi metodi leggeri che funzionano bene in tempo reale per i dispositivi edge. Un metodo utilizza piramidi di caratteristiche e architetture profonde per rilevare e localizzare i volti in vari contesti. Un altro metodo si concentra sulla rilevazione di piccoli volti usando tecniche CNN e ridimensiona le immagini in input per una migliore rilevazione multi-risoluzione.

Per la rilevazione delle mani, è stato creato un modello CNN senza postura per riconoscere le mani da immagini RGB. Altri studi hanno migliorato la rilevazione delle mani utilizzando blocchi di deep learning per una migliore interpretazione dei risultati. Alcuni ricercatori hanno introdotto Reti Neurali Avversarie Generative per ricostruire rappresentazioni delle mani, mentre altri hanno sviluppato modelli per stimare le pose delle mani basate su punti chiave.

In sintesi, sono stati fatti progressi nell'utilizzo dei dati provenienti da dispositivi di rilevamento e approcci aritmetici per comprendere le azioni di tocco mano-volto. Inoltre, sono stati compiuti progressi nella localizzazione dell'occlusione del viso causata dalle mani, ma rimangono sfide nel riconoscere i tocchi sul viso in scenari del mondo reale.

Materiali e Metodi

Il progetto ha ricevuto approvazione etica dall’Osservatorio Urbano dell'Università di Newcastle. Non è stato necessario il consenso individuale poiché i dati utilizzati non rivelano informazioni personali. Presentiamo solo risultati basati su dati pubblicamente disponibili, con i volti sfocati per motivi di privacy.

In questa sezione, discuteremo il nostro approccio, architettura, materiali, metriche di valutazione e dettagli di implementazione, compresi gli iperparametri del modello.

Per rilevare i tocchi sul viso, utilizziamo un input di immagine RGB, che varia in scala e risoluzione. Ci affidiamo all'Apprendimento Contrastivo Supervisionato per affrontare questo compito. Questo metodo è simile alla triplet loss, che si è dimostrata migliore rispetto all'apprendimento supervisionato tradizionale.

Nell'apprendimento contrastivo supervisionato, utilizziamo due reti: una rete di codifica e una rete di proiezione. L'encoder mappa i dati di input a una rappresentazione vettoriale, mentre la rete di proiezione mappa a un altro vettore. Questa configurazione ci permette di misurare le distanze nello spazio vettoriale latente. L'encoder può consistere in architetture popolari come ResNet o MobileNet, mentre la rete di proiezione è utilizzata solo durante l'addestramento.

L'Architettura di FaceTouch

Il nostro framework proposto consente il rilevamento e la localizzazione di persone e volti a diverse scale. È composto da quattro componenti principali:

  1. Backbone: Utilizziamo due modelli backbone per la rilevazione di oggetti e volti, migliorando la capacità del framework di classificare i tocchi sul viso in scene complesse. Inizialmente, un rilevatore di volti opera, mentre il rilevatore di esseri umani rimane inattivo. Se non vengono rilevati volti, il rilevatore umano si attiva per identificare le persone nella scena.

  2. Action Encoder: Dopo il backbone, passiamo le immagini rilevate a un encoder per classificarle e identificare possibili tocchi sul viso utilizzando l'apprendimento contrastivo supervisionato. Abbiamo addestrato diverse architetture encoder all'avanguardia per ottimizzare velocità ed efficienza.

  3. Face Blur: Per garantire la privacy e ridurre i rischi di identificazione, aggiungiamo rumore gaussiano alle immagini che contengono volti rilevati, garantendo anonimato.

  4. AI Spiegabile: Includiamo una funzione per visualizzare l'attenzione durante l'inferenza, utilizzando Grad-CAM per evidenziare quali parti dell'immagine il modello focalizza quando classifica un tocco sul viso.

Perdita del Framework e Metriche di Valutazione

Per la parte di rilevazione degli oggetti, definiamo la perdita basata sulla localizzazione e la confidenza, assicurando una rilevazione e classificazione accurate. Per allenare l'action encoder, utilizziamo la perdita contrastiva supervisionata. Applichiamo anche la tradizionale perdita di cross-entropy abbinata alla focal loss per affrontare gli squilibri di classe.

Valutiamo le prestazioni del modello utilizzando accuratezza, precisione, richiamo e punteggio F1. Calcoliamo la curva Receiver Operating Characteristic (ROC) per valutare le prestazioni di classificazione sia del backbone che degli encoder di azione.

Dati Raccolti

Attualmente non ci sono dataset di deep learning ad accesso aperto per etichettare e classificare i tocchi mano-volto. Per affrontare questo problema, abbiamo raccolto il nostro dataset, raccogliendo oltre 20.000 immagini da internet. Abbiamo ispezionato visivamente i dati per concentrarci su casi rilevanti di individui che si toccano il viso e abbiamo diviso le immagini in set di addestramento e testing.

Abbiamo addestrato il modello per analizzare immagini sia facciali che a corpo intero, dando al modello la flessibilità di riconoscere i tocchi delle mani indipendentemente dall'angolo o dall'elevazione dell'immagine. Anche se questo può complicare l'addestramento, consente al modello di adattarsi a varie esigenze di rilevamento in ambienti diversi.

Dettagli di Implementazione

Rilevazione degli Oggetti: Abbiamo addestrato il rilevatore di oggetti su un dataset ben noto seguendo procedure appropriate. Abbiamo utilizzato tecniche di data augmentation e ottimizzato il modello in base a tassi di apprendimento e dimensioni del batch.

Riconoscimento delle Azioni: Per la classificazione delle azioni, abbiamo addestrato classificatori utilizzando sia l'apprendimento supervisionato tradizionale che l'apprendimento contrastivo supervisionato. Ci siamo assicurati di esplorare una gamma di architetture, regolando strati, funzioni di attivazione e metodi di ottimizzazione per raggiungere buone prestazioni.

Risultati e Analisi

Dopo aver addestrato diversi modelli all'interno di FaceTouch, i nostri risultati dimostrano significativi miglioramenti nelle prestazioni utilizzando l'apprendimento contrastivo supervisionato attraverso varie architetture. Abbiamo registrato metriche come Mean Average Precision, Richiamo e punteggio F1, indicando l'efficacia del nostro approccio.

Il modello di rilevazione degli oggetti ha mostrato forti prestazioni nel riconoscere persone e volti, mentre i modelli di riconoscimento delle azioni hanno eccelso quando addestrati con l'apprendimento contrastivo supervisionato. Abbiamo anche analizzato come il modello si concentrava sulle posizioni delle mani e sulla rilevazione facciale, evidenziando le classificazioni riuscite rispetto alle identificazioni errate.

Il framework FaceTouch si dimostra utile in applicazioni in tempo reale, rilevando con successo i tocchi mano-volto in diversi contesti, comprese videochiamate, immagini di autobus a bassa risoluzione e contesti urbani complessi. Il sistema può aiutare le persone non vedenti a mantenere una distanza sociale sicura mentre sono consapevoli di altri che potrebbero toccarsi il viso.

Direzioni di Ricerca Future

I risultati di questo studio potrebbero essere amplificati incorporando dati sequenziali in flussi video per rilevare schemi nei tocchi mano-volto o altre interazioni comuni negli spazi pubblici. Il framework FaceTouch potrebbe migliorare utilizzando informazioni temporali e assumendosi il compito di etichettare le immagini in sequenza. Inoltre, le capacità di rilevazione degli oggetti potrebbero essere estese per includere altri oggetti oltre le figure umane.

In conclusione, FaceTouch rappresenta un nuovo e efficace approccio alla rilevazione dei tocchi mano-volto in flussi video non modificati. Garantendo l'anonimato degli individui e sfruttando un dataset recentemente creato, il framework mostra un'alta validazione sui dati di test e promette applicazioni future nel monitoraggio dei comportamenti di salute pubblica.

Fonte originale

Titolo: FaceTouch: Detecting hand-to-face touch with supervised contrastive learning to assist in tracing infectious disease

Estratto: Through our respiratory system, many viruses and diseases frequently spread and pass from one person to another. Covid-19 served as an example of how crucial it is to track down and cut back on contacts to stop its spread. There is a clear gap in finding automatic methods that can detect hand-to-face contact in complex urban scenes or indoors. In this paper, we introduce a computer vision framework, called FaceTouch, based on deep learning. It comprises deep sub-models to detect humans and analyse their actions. FaceTouch seeks to detect hand-to-face touches in the wild, such as through video chats, bus footage, or CCTV feeds. Despite partial occlusion of faces, the introduced system learns to detect face touches from the RGB representation of a given scene by utilising the representation of the body gestures such as arm movement. This has been demonstrated to be useful in complex urban scenarios beyond simply identifying hand movement and its closeness to faces. Relying on Supervised Contrastive Learning, the introduced model is trained on our collected dataset, given the absence of other benchmark datasets. The framework shows a strong validation in unseen datasets which opens the door for potential deployment.

Autori: Mohamed R. Ibrahim, Terry Lyons

Ultimo aggiornamento: 2023-08-24 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2308.12840

Fonte PDF: https://arxiv.org/pdf/2308.12840

Licenza: https://creativecommons.org/licenses/by-nc-sa/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili