Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Visione artificiale e riconoscimento di modelli

Avanzando il Monitoraggio della Salute Remota con Contrast-Phys+

Nuovo metodo migliora le misurazioni della salute a distanza usando l'analisi video del viso.

― 8 leggere min


Monitoraggio della saluteMonitoraggio della saluteda remoto reinventatodel volto.della salute attraverso l'analisi videoNuovo metodo migliora il monitoraggio
Indice

La misurazione fisiologica remota è una tecnica che ci permette di misurare i segnali di salute da lontano usando video. L'obiettivo principale è usare i nostri video facciali per catturare i cambiamenti nel flusso sanguigno. Questo metodo è conosciuto come fotopletismografia remota, o rPPG. I metodi tradizionali per misurare la nostra frequenza cardiaca e respirazione di solito usano sensori che toccano la pelle, come i saturimetri. Questi dispositivi possono essere a volte scomodi e possono causare irritazioni cutanee.

Al contrario, rPPG usa telecamere che sono facilmente disponibili in dispositivi come smartphone e laptop. Questo ci consente di misurare cose come la frequenza cardiaca e la respirazione senza bisogno di contatto ravvicinato, rendendolo particolarmente utile per la salute remota e situazioni in cui il contatto fisico potrebbe non essere ideale.

Sfide con i Metodi Attuali

Anche se molte tecniche rPPG mostrano buoni risultati quando vengono addestrate con dati etichettati, ottenere questi dati etichettati può essere difficile e costoso. Molti metodi esistenti necessitano di video abbinati a misurazioni fisiologiche corrette. Raccogliere questi dati richiede un notevole sforzo, spesso coinvolgendo attrezzature mediche specializzate.

Sono stati fatti alcuni recenti progressi, inclusi metodi che possono apprendere dai dati video senza bisogno di etichette complete. Tuttavia, queste tecniche possono ancora avere problemi quando i dati sono di scarsa qualità o quando le etichette non corrispondono bene ai video. Qui è dove nuovi metodi possono aiutare.

Introduzione di Contrast-Phys+

È stato sviluppato un nuovo metodo chiamato Contrast-Phys+ per migliorare la misurazione rPPG. Questo metodo può essere addestrato in due modi diversi: senza etichette (non supervisionato) o con alcune etichette che potrebbero non corrispondere completamente al video (debilmente supervisionato). Questo è un passo significativo in avanti poiché consente al sistema di utilizzare video anche quando non abbiamo dati perfetti o completi.

L'approccio utilizza un modello di deep learning chiamato Rete Neurale Convoluzionale 3D (3DCNN) per comprendere i modelli nei video. Il modello impara a identificare segnali dai video che sono collegati a cambiamenti fisiologici come la frequenza cardiaca. Questo modello funziona usando un concetto noto come perdita contrastiva, che aiuta il sistema a riconoscere che i segnali provenienti dallo stesso video dovrebbero essere simili, mentre i segnali provenienti da video diversi dovrebbero essere diversi.

Vantaggi del Nuovo Approccio

Contrast-Phys+ è stato testato con set di dati pubblici che includono sia video a colori standard (RGB) che video nel vicino infrarosso. I risultati mostrano che questo nuovo metodo supera i metodi supervisionati più vecchi, anche quando i dati di addestramento mancano di etichette complete o quando alcune etichette non corrispondono bene ai dati video. Mostra anche vantaggi nella gestione del rumore e nel miglioramento delle prestazioni complessive delle misurazioni fisiologiche remote.

Il metodo è basato su diverse osservazioni importanti riguardo a come funzionano i segnali rPPG. Queste osservazioni aiutano il sistema a presupporre che certi modelli o somiglianze dovrebbero esistere nei segnali se provengono dallo stesso video o da situazioni simili.

Osservazioni Chiave sui Segnali rPPG

  1. Somiglianza Spaziale: I segnali rPPG provenienti da diverse parti del viso tendono a sembrare simili. Se misuri da varie regioni facciali, probabilmente vedrai modelli simili nei segnali.

  2. Somiglianza Temporale: La frequenza cardiaca tende a cambiare gradualmente. Questo significa che se prendi misurazioni rPPG da momenti vicini, dovrebbero anche sembrare simili.

  3. Dissimilarità Incrociata nei Video: Diversi video avranno generalmente segnali diversi. Questo perché ogni individuo può avere frequenze cardiache e risposte fisiologiche variabili.

  4. Vincolo dell'Intervallo di Frequenza Cardiaca: La frequenza cardiaca normale per la maggior parte delle persone è compresa tra 40 e 250 battiti al minuto. Questo aiuta a filtrare segnali insoliti e si concentra sull'intervallo previsto delle frequenze cardiache.

Implementazione di Contrast-Phys+

Contrast-Phys+ è progettato per funzionare in varie condizioni. Può utilizzare efficacemente video non etichettati così come quelli con etichette parziali o disallineate. Questo metodo può adattarsi a situazioni in cui i dati etichettati mancano o quando non sono perfettamente sincronizzati con il video.

Il primo passo è preprocessare i video per localizzare e isolare i volti. Dopo aver identificato i punti di riferimento facciali, il modello ritaglia queste aree e le uniforma in dimensione per l'analisi.

Rappresentazione Blocco Spaziotemporale

La tecnica poi utilizza una Rete Neurale Convoluzionale 3D per creare qualcosa chiamato rappresentazione blocco spaziotemporale. Questo blocco contiene segnali rPPG raccolti dai video nel tempo. Il processo assicura che ogni azione o cambiamento nel video fornisca informazioni preziose al modello riguardo al segnale della frequenza cardiaca.

Per creare questi campioni rPPG, il modello utilizza sia tecniche di campionamento spaziale che temporale. Questo significa che osserva diverse posizioni spaziali sul viso e prende misurazioni nel tempo. Risultando in un set di dati robusto che aiuta il modello ad apprendere efficacemente.

Funzioni di Perdita in Contrast-Phys+

L'idea centrale dell'addestramento del modello è la funzione di perdita, che misura quanto bene il modello sta facendo. In Contrast-Phys+, la funzione di perdita incoraggia il modello a identificare segnali dallo stesso video che sono simili, assicurandosi che i segnali provenienti da video differenti siano distinti l'uno dall'altro.

Questo avviene attraverso componenti di perdita separate che guidano l'allineamento del segnale rPPG basato sulle varie osservazioni precedentemente notate. Questo include coppie positive e negative che aiutano il modello a capire relazioni e differenze tra i segnali in modo efficiente.

Configurazione degli Esperimenti

L'efficacia di Contrast-Phys+ è stata valutata utilizzando cinque set di dati ben noti che includono una varietà di tipi di video e condizioni di registrazione. Ogni set di dati aveva scenari diversi per garantire che il modello fosse testato a fondo in varie condizioni.

Per il test, i video sono stati suddivisi in segmenti che sono stati poi analizzati per estrarre segnali rPPG e calcolare metriche legate al cuore. L'obiettivo finale era valutare quanto bene il modello potesse misurare la frequenza cardiaca e altri indicatori fisiologici in modo accurato solo basandosi sui dati video.

Metriche di Valutazione

Per valutare le prestazioni, sono state utilizzate diverse metriche, inclusi Errore Assoluto Medio (MAE) e coefficienti di correlazione. Queste metriche aiutano a valutare quanto accuratamente le frequenze cardiache previste corrispondano a quelle misurate dai metodi tradizionali.

Risultati degli Esperimenti

Misurazione della Frequenza Cardiaca

I risultati del test di Contrast-Phys+ hanno mostrato che ha costantemente superato i metodi più vecchi, anche in scenari con etichette mancanti o parziali. Questo include test sia in condizioni non supervisionate che debolmente supervisionate. In molti casi, ha raggiunto risultati paragonabili a metodi completamente supervisionati, dimostrando che è possibile apprendere in modo efficace anche con dati non ottimali.

Variabilità della Frequenza Cardiaca

Il metodo si è rivelato efficace anche nella misurazione della variabilità della frequenza cardiaca nel tempo. Questo aspetto è cruciale per applicazioni nella salute e nell'analisi delle emozioni, dove capire i modelli delle variazioni della frequenza cardiaca può fornire informazioni sullo stato di salute o sulla condizione emotiva di una persona.

Generalizzazione tra Dataset

Una delle scoperte chiave è stata l'abilità del modello di generalizzare tra diversi set di dati. Questo significa che il modello addestrato su un insieme di video potrebbe fare previsioni accurate su dati video del tutto nuovi. Tale flessibilità è essenziale per applicazioni pratiche, dove le fonti video possono variare ampiamente.

Robustezza al Rumore ed Efficienza Computazionale

Un altro vantaggio di Contrast-Phys+ è la sua robustezza contro il rumore. Il modello poteva concentrarsi sulle aree facciali importanti, ignorando il rumore di fondo o le distrazioni nel video. Questo è stato confermato attraverso mappe di salienza, che hanno dimostrato che il modello enfatizza le parti rilevanti del viso piuttosto che essere distratto da dettagli irrilevanti.

Contrast-Phys+ è anche computazionalmente efficiente. Funziona più velocemente di alcuni metodi esistenti, rendendolo adatto per applicazioni in tempo reale dove è necessaria un'analisi rapida dei dati video.

Discussione

La capacità di funzionare bene con etichette parziali o assenti segna un avanzamento significativo nella misurazione fisiologica remota. Questo apre a nuove possibilità per utilizzare dati video di uso quotidiano per il monitoraggio della salute senza la necessità onerosa di attrezzature specializzate o set di dati etichettati estesi.

L'adattabilità del metodo lo rende un forte candidato per applicazioni nella salute remota, dove la necessità di monitorare i pazienti senza visite di persona sta diventando sempre più importante. La sua capacità di elaborare i dati rapidamente ed efficacemente mantenendo l'accuratezza rappresenta uno strumento potente per studi e applicazioni future.

Direzioni Future

Guardando al futuro, ci sono molte potenziali estensioni per Contrast-Phys+. I prossimi lavori potrebbero esplorare altri segnali fisiologici oltre alla frequenza cardiaca, come tassi respiratori o anche livelli di stress. Lo sviluppo continuo di questo metodo potrebbe portare a soluzioni di monitoraggio della salute più complete che utilizzano tecnologie video comuni e tecniche di machine learning.

Rendendo il monitoraggio della salute più accessibile e meno dipendente da strumenti specializzati, Contrast-Phys+ rappresenta un passo avanti nella nostra capacità di tracciare e rispondere alle condizioni di salute in tempo reale. Con l'evoluzione della salute remota, tali innovazioni saranno essenziali per fornire soluzioni efficaci per soddisfare le esigenze moderne della salute.

Conclusione

In sintesi, Contrast-Phys+ rappresenta un avanzamento significativo nel campo della misurazione fisiologica remota. Sfruttando l'analisi video e il machine learning, questo metodo consente un monitoraggio della salute accurato senza la necessità di contatto diretto o di dati di addestramento etichettati estesi. La sua capacità di adattarsi a varie condizioni di dati e la sua robustezza contro il rumore evidenziano il suo potenziale per le applicazioni nel mondo reale. Mentre guardiamo al futuro, l'integrazione di tali tecnologie nel monitoraggio della salute quotidiano diventerà probabilmente sempre più comune, aprendo la strada a approcci più innovativi per comprendere e gestire la salute.

Fonte originale

Titolo: Contrast-Phys+: Unsupervised and Weakly-supervised Video-based Remote Physiological Measurement via Spatiotemporal Contrast

Estratto: Video-based remote physiological measurement utilizes facial videos to measure the blood volume change signal, which is also called remote photoplethysmography (rPPG). Supervised methods for rPPG measurements have been shown to achieve good performance. However, the drawback of these methods is that they require facial videos with ground truth (GT) physiological signals, which are often costly and difficult to obtain. In this paper, we propose Contrast-Phys+, a method that can be trained in both unsupervised and weakly-supervised settings. We employ a 3DCNN model to generate multiple spatiotemporal rPPG signals and incorporate prior knowledge of rPPG into a contrastive loss function. We further incorporate the GT signals into contrastive learning to adapt to partial or misaligned labels. The contrastive loss encourages rPPG/GT signals from the same video to be grouped together, while pushing those from different videos apart. We evaluate our methods on five publicly available datasets that include both RGB and Near-infrared videos. Contrast-Phys+ outperforms the state-of-the-art supervised methods, even when using partially available or misaligned GT signals, or no labels at all. Additionally, we highlight the advantages of our methods in terms of computational efficiency, noise robustness, and generalization. Our code is available at https://github.com/zhaodongsun/contrast-phys.

Autori: Zhaodong Sun, Xiaobai Li

Ultimo aggiornamento: 2024-02-18 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2309.06924

Fonte PDF: https://arxiv.org/pdf/2309.06924

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili