Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Computerwissenschaften# Computer Vision und Mustererkennung

Fortschrittliche Fernüberwachung der Gesundheit mit Contrast-Phys+

Neue Methode verbessert die Fernmessung von Gesundheitsdaten mithilfe von Videoanalysen des Gesichts.

― 8 min Lesedauer


Die Neuinterpretation derDie Neuinterpretation derFernüberwachung vonGesundheitGesichtsvideoanalyse.Gesundheitsüberwachung durchNeue Methode verbessert
Inhaltsverzeichnis

Die Fernmessung von physiologischen Werten ist eine Technik, die es uns ermöglicht, Gesundheitsdaten aus der Ferne mit Video zu messen. Der Hauptfokus liegt darauf, unsere Gesichtsvideos zu nutzen, um Veränderungen im Blutfluss zu erfassen. Diese Methode nennt sich Fern-Photoplethysmographie oder rPPG. Traditionelle Methoden zur Messung von Herzfrequenz und Atmung verwenden normalerweise Sensoren, die die Haut berühren, wie Pulsoximeter. Diese Geräte können manchmal unangenehm sein und Hautreizungen verursachen.

Im Gegensatz dazu verwendet rPPG Kameras, die leicht in Geräten wie Smartphones und Laptops verfügbar sind. Das ermöglicht es uns, Dinge wie Herzfrequenz und Atmung zu messen, ohne engen Kontakt zu benötigen, was besonders nützlich für die Fernmedizin ist und in Situationen, in denen physischer Kontakt nicht ideal ist.

Herausforderungen mit den aktuellen Methoden

Obwohl viele rPPG-Techniken gute Ergebnisse zeigen, wenn sie mit beschrifteten Daten trainiert werden, kann es schwierig und teuer sein, diese beschrifteten Daten zu bekommen. Viele bestehende Methoden benötigen Videos, die mit korrekten physiologischen Messungen gepaart sind. Die Datensammlung erfordert erheblichen Aufwand, oft unter Verwendung spezialisierter medizinischer Geräte.

Es wurden einige Fortschritte gemacht, unter anderem Methoden, die aus Videodaten lernen können, ohne vollständige Beschriftungen zu benötigen. Dennoch können diese noch Probleme haben, wenn die Daten von schlechter Qualität sind oder die Beschriftungen nicht gut zu den Videos passen. Hier können neue Methoden helfen.

Einführung von Contrast-Phys+

Eine neue Methode namens Contrast-Phys+ wurde entwickelt, um die rPPG-Messung zu verbessern. Diese Methode kann auf zwei verschiedene Arten trainiert werden: ohne jegliche Beschriftungen (unüberwacht) oder mit einigen Beschriftungen, die möglicherweise nicht perfekt zum Video passen (schwach überwacht). Das ist ein bedeutender Fortschritt, da es dem System ermöglicht, Videos zu nutzen, auch wenn wir nicht perfekte oder vollständige Daten haben.

Der Ansatz verwendet ein tiefes Lernmodell namens 3D Convolutional Neural Network (3DCNN), um Muster in den Videos zu erkennen. Das Modell lernt, Signale aus den Videos zu identifizieren, die mit physiologischen Veränderungen wie der Herzfrequenz verbunden sind. Dieses Modell arbeitet mit einem Konzept, das als kontrastive Verlustfunktion bekannt ist, wodurch das System erkennt, dass Signale aus demselben Video ähnlich sein sollten, während Signale aus verschiedenen Videos unterschiedlich sein sollten.

Vorteile des neuen Ansatzes

Contrast-Phys+ wurde mit öffentlichen Datensätzen getestet, die sowohl Standardfarbvideos (RGB) als auch Nahinfrarotvideos enthalten. Die Ergebnisse zeigen, dass diese neue Methode ältere überwachte Methoden übertrifft, selbst wenn die Trainingsdaten keine vollständigen Beschriftungen aufweisen oder wenn einige Beschriftungen nicht gut zur Videodaten passen. Sie zeigt auch Vorteile beim Umgang mit Rauschen und verbessert die Gesamtleistung der Fernmessungen physiologischer Werte.

Die Methode basiert auf mehreren wichtigen Beobachtungen darüber, wie rPPG-Signale funktionieren. Diese Beobachtungen helfen dem System anzunehmen, dass bestimmte Muster oder Ähnlichkeiten in den Signalen existieren sollten, wenn sie aus demselben Video oder ähnlichen Situationen stammen.

Wichtige Beobachtungen zu rPPG-Signalen

  1. Räumliche Ähnlichkeit: rPPG-Signale aus verschiedenen Teilen des Gesichts sehen oft ähnlich aus. Wenn du aus verschiedenen Gesichtsbereichen misst, wirst du wahrscheinlich ähnliche Muster in den Signalen sehen.

  2. Zeitliche Ähnlichkeit: Die Herzfrequenz verändert sich normalerweise allmählich. Das bedeutet, dass, wenn du rPPG-Messungen aus nahe gelegenen Zeiten machst, sie auch ähnlich aussehen sollten.

  3. Kreuz-Video-Dissimilarität: Verschiedene Videos haben im Allgemeinen unterschiedliche Signale. Das liegt daran, dass jeder Mensch unterschiedliche Herzfrequenzen und physiologische Reaktionen haben kann.

  4. Einschränkung des Herzfrequenzbereichs: Die normale Herzfrequenz für die meisten Menschen liegt zwischen 40 und 250 Schlägen pro Minute. Das hilft, ungewöhnliche Signale herauszufiltern und konzentriert sich auf den erwarteten Bereich der Herzfrequenzen.

Implementierung von Contrast-Phys+

Contrast-Phys+ ist so konzipiert, dass es unter verschiedenen Bedingungen funktioniert. Es kann effektiv unbeschriftete Videos sowie solche mit teilweise oder falsch ausgerichteten Beschriftungen nutzen. Diese Methode kann sich an Situationen anpassen, in denen beschriftete Daten fehlen oder wenn sie nicht perfekt mit dem Video synchronisiert sind.

Der erste Schritt besteht darin, die Videos vorzuverarbeiten, um die Gesichter zu lokalisieren und zu isolieren. Nachdem die Gesichtsmarker identifiziert wurden, schneidet das Modell diese Bereiche aus und macht sie für die Analyse einheitlich in der Grösse.

Räumlich-zeitliche Blockdarstellung

Die Technik verwendet dann ein 3D Convolutional Neural Network, um eine sogenannte räumlich-zeitliche Blockdarstellung zu erzeugen. Dieser Block enthält rPPG-Signale, die über die Zeit aus den Videos gesammelt wurden. Der Prozess stellt sicher, dass jede Aktion oder Veränderung im Video wertvolle Informationen über das Herzfrequenzsignal in das Modell einbringt.

Um diese rPPG-Proben zu erstellen, verwendet das Modell sowohl räumliche als auch zeitliche Sampling-Techniken. Das bedeutet, dass es sich verschiedene räumliche Positionen im Gesicht anschaut und über die Zeit hinweg Messungen vornimmt. Dies führt zu einem robusten Datensatz, der dem Modell effektives Lernen ermöglicht.

Verlustfunktionen in Contrast-Phys+

Die Kernidee des Trainings des Modells ist die Verlustfunktion, die misst, wie gut das Modell abschneidet. Bei Contrast-Phys+ ermutigt die Verlustfunktion das Modell, Signale aus demselben Video zu identifizieren, die ähnlich sind, während sichergestellt wird, dass Signale aus verschiedenen Videos voneinander unterschieden werden.

Dies geschieht durch separate Verlustkomponenten, die die Ausrichtung der rPPG-Signale basierend auf den zuvor genannten Beobachtungen leiten. Dazu gehören positive und negative Paare, die dem Modell helfen, Beziehungen und Unterschiede zwischen Signalen effizient zu verstehen.

Experimentelle Einrichtung

Die Wirksamkeit von Contrast-Phys+ wurde mithilfe von fünf bekannten Datensätzen bewertet, die eine Vielzahl von Videotypen und Aufnahmebedingungen umfassen. Jeder Datensatz hatte unterschiedliche Szenarien, um sicherzustellen, dass das Modell gründlich unter verschiedenen Bedingungen getestet wurde.

Zum Testen wurden die Videos in Segmente unterteilt, die dann analysiert wurden, um rPPG-Signale zu extrahieren und herzbezogene Kennzahlen zu berechnen. Das ultimative Ziel war es zu bewerten, wie gut das Modell Herzfrequenzen und andere physiologische Indikatoren genau basierend auf Videodaten allein messen konnte.

Bewertungskennzahlen

Um die Leistung zu bewerten, wurden verschiedene Kennzahlen verwendet, darunter der durchschnittliche absolute Fehler (MAE) und Korrelationskoeffizienten. Diese Kennzahlen helfen, zu beurteilen, wie genau die vorhergesagten Herzfrequenzen mit denen übereinstimmen, die durch traditionelle Methoden gemessen wurden.

Ergebnisse der Experimente

Herzfrequenzmessung

Die Ergebnisse aus den Tests mit Contrast-Phys+ zeigten, dass es ältere Methoden konstant übertraf, selbst in Szenarien mit fehlenden oder teilweise Beschriftungen. Dies beinhaltete Tests unter sowohl unüberwachten als auch schwach überwachten Bedingungen. In vielen Fällen erzielte es Ergebnisse, die mit vollständig überwachten Methoden vergleichbar waren, was zeigt, dass es möglich ist, effektiv zu lernen, selbst mit suboptimalen Daten.

Variabilität der Herzfrequenz

Die Methode erweist sich auch als effektiv bei der Messung der Variabilität der Herzfrequenz über die Zeit. Dieser Aspekt ist entscheidend für Anwendungen im Gesundheitswesen und der Emotionsanalyse, bei denen das Verständnis der Muster von Herzfrequenzänderungen Einblicke in den Gesundheitszustand oder die emotionale Verfassung einer Person geben kann.

Generalisierung über Datensätze hinweg

Eine der wichtigsten Erkenntnisse war die Fähigkeit des Modells, über verschiedene Datensätze hinweg zu generalisieren. Das bedeutet, dass das auf einem Satz von Videos trainierte Modell effektive Vorhersagen auf völlig neuen Videodaten treffen konnte. Solche Flexibilität ist wichtig für praktische Anwendungen, bei denen Videoquellen stark variieren können.

Rauschrobustheit und Rechenleistungseffizienz

Ein weiterer Vorteil von Contrast-Phys+ ist seine Robustheit gegenüber Rauschen. Das Modell konnte sich auf die wichtigen Gesichtsbereiche konzentrieren und dabei Hintergrundgeräusche oder Ablenkungen im Video ignorieren. Dies wurde durch Salienz-Karten bestätigt, die zeigten, dass das Modell die relevanten Teile des Gesichts betont, anstatt sich von irrelevanten Details ablenken zu lassen.

Contrast-Phys+ ist auch recheneffizient. Es läuft schneller als einige bestehende Methoden, was es für Echtzeitanwendungen geeignet macht, bei denen eine schnelle Analyse von Videodaten erforderlich ist.

Diskussion

Die Fähigkeit, gut mit teilweisen oder keinen Beschriftungen abzuschneiden, stellt einen bedeutenden Fortschritt in der Fernmessung physiologischer Werte dar. Dies eröffnet neue Möglichkeiten, alltägliche Videodaten zur Gesundheitsüberwachung zu nutzen, ohne die belastende Notwendigkeit für spezialisierte Geräte oder umfassende beschriftete Datensätze.

Die Anpassungsfähigkeit der Methode macht sie zu einem starken Kandidaten für Anwendungen im Bereich der Fernmedizin, wo die Notwendigkeit, Patienten ohne persönliche Besuche zu überwachen, immer wichtiger wird. Ihre Fähigkeit, Daten schnell und effizient zu verarbeiten, während sie die Genauigkeit beibehält, bietet ein leistungsstarkes Werkzeug für zukünftige Studien und Anwendungen.

Zukünftige Richtungen

In der Zukunft gibt es viele mögliche Erweiterungen für Contrast-Phys+. Zukünftige Arbeiten könnten andere physiologische Signale erkunden, die über die Herzfrequenz hinausgehen, wie Atemfrequenzen oder sogar Stresslevel. Die kontinuierliche Weiterentwicklung dieser Methode könnte zu umfassenderen Gesundheitsüberwachungslösungen führen, die gängige Videotechnologie und maschinelles Lernen nutzen.

Durch die Zugänglichkeit der Gesundheitsüberwachung und die geringere Abhängigkeit von spezialisierten Werkzeugen stellt Contrast-Phys+ einen Fortschritt in unserer Fähigkeit dar, Gesundheitszustände in Echtzeit zu verfolgen und darauf zu reagieren. Während sich die Fernmedizin weiterentwickelt, werden solche Innovationen entscheidend sein, um effektive Lösungen zu bieten, die den modernen Gesundheitsbedürfnissen gerecht werden.

Fazit

Zusammenfassend lässt sich sagen, dass Contrast-Phys+ einen bedeutenden Fortschritt im Bereich der Fernmessung physiologischer Werte darstellt. Durch die Nutzung von Videoanalysen und maschinellem Lernen ermöglicht diese Methode eine genaue Gesundheitsüberwachung, ohne dass direkter Kontakt oder umfangreiche beschriftete Trainingsdaten erforderlich sind. Ihre Fähigkeit, sich an verschiedene Datenbedingungen anzupassen und ihre Robustheit gegenüber Rauschen unterstreichen ihr Potenzial für Anwendungen in der realen Welt. Wenn wir in die Zukunft blicken, wird die Integration solcher Technologien in die alltägliche Gesundheitsüberwachung wahrscheinlich immer häufiger werden und den Weg für innovativere Ansätze zur Gesundheitsüberwachung und -management ebnen.

Originalquelle

Titel: Contrast-Phys+: Unsupervised and Weakly-supervised Video-based Remote Physiological Measurement via Spatiotemporal Contrast

Zusammenfassung: Video-based remote physiological measurement utilizes facial videos to measure the blood volume change signal, which is also called remote photoplethysmography (rPPG). Supervised methods for rPPG measurements have been shown to achieve good performance. However, the drawback of these methods is that they require facial videos with ground truth (GT) physiological signals, which are often costly and difficult to obtain. In this paper, we propose Contrast-Phys+, a method that can be trained in both unsupervised and weakly-supervised settings. We employ a 3DCNN model to generate multiple spatiotemporal rPPG signals and incorporate prior knowledge of rPPG into a contrastive loss function. We further incorporate the GT signals into contrastive learning to adapt to partial or misaligned labels. The contrastive loss encourages rPPG/GT signals from the same video to be grouped together, while pushing those from different videos apart. We evaluate our methods on five publicly available datasets that include both RGB and Near-infrared videos. Contrast-Phys+ outperforms the state-of-the-art supervised methods, even when using partially available or misaligned GT signals, or no labels at all. Additionally, we highlight the advantages of our methods in terms of computational efficiency, noise robustness, and generalization. Our code is available at https://github.com/zhaodongsun/contrast-phys.

Autoren: Zhaodong Sun, Xiaobai Li

Letzte Aktualisierung: 2024-02-18 00:00:00

Sprache: English

Quell-URL: https://arxiv.org/abs/2309.06924

Quell-PDF: https://arxiv.org/pdf/2309.06924

Lizenz: https://creativecommons.org/licenses/by/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.

Mehr von den Autoren

Ähnliche Artikel