Fortschritte bei der menschlichen Aktionserkennung mithilfe von IMUs
Eine Methode, die visuelle und IMU-Daten kombiniert, um die Aktionskennung zu verbessern.
― 7 min Lesedauer
Inhaltsverzeichnis
- Kombination von visuellen und Bewegungsdaten
- Die Herausforderung mit aktuellen Systemen
- Vorteile von IMUs
- Der Integrationsbedarf
- Unser Ansatz
- Ergebnisse und Erkenntnisse
- Verständnis der Modellenarchitektur
- Trainings- und Testprozess
- Experimente mit verschiedenen Datensätzen
- Überwindung von Einschränkungen
- Leistungsvergleich mit anderen Modellen
- Zusätzliche Experimente
- Fazit
- Originalquelle
- Referenz Links
In unserer Welt sammeln wir Infos durch verschiedene Sinne. Die meisten KI-Systeme nutzen hauptsächlich visuelle und Textdaten, um menschliches Handeln zu verstehen. Aber es gibt jetzt einen neuen Weg, um dieses Verständnis zu verbessern, indem man Geräte namens Inertial Measurement Units (IMUs) verwendet. Diese Geräte können Bewegungen nachverfolgen, sind aber oft schwierig zu handhaben, weil die gesammelten Daten schwer zu deuten sind und manchmal knapp.
Kombination von visuellen und Bewegungsdaten
Wir konzentrieren uns auf eine Methode, die Wissen aus visuellen Daten und Daten von IMUs kombiniert. Die Grundidee ist, einen gemeinsamen Raum zu schaffen, der dabei hilft, Aktionen zu erkennen, die von Menschen durchgeführt werden, selbst wenn ein Datentyp keine Beschriftungen hat. Diese Methode heisst Fusion und Cross-modal Transfer (FACT). Mit dieser Methode wollen wir ein Modell trainieren, das aus visuellen Daten lernen kann und dann dieses Lernen anwendet, um IMU-Daten zu interpretieren, ohne während des Trainings beschriftete Beispiele zu benötigen.
Die Herausforderung mit aktuellen Systemen
Während Menschen neue Bewegungen einfach beobachten können, ist es nicht so einfach, Maschinenlernmodelle dazu zu bringen, dasselbe mit verschiedenen Sensortypen zu tun. Die meisten Deep-Learning-Systeme arbeiten mit visuellen und Textdaten, weil sie davon genug haben. Ständige Nutzung von Kameras zur Sammlung visueller Daten oder von Textmodellen zur Informationsbeschaffung ist nicht immer praktikabel, wodurch diese Systeme weniger effektiv in der Praxis sind.
Vorteile von IMUs
IMUs sammeln Daten wie Beschleunigung und Rotation von physischen Geräten wie Smartwatches und Smartphones. Sie bieten eine subtilere Methode, menschliche Aktivitäten zu überwachen, ohne dabei aufdringlich zu sein. Viele tragbare Geräte haben IMUs eingebaut. Aber das Potenzial dieser Geräte wird oft in maschinellem Lernen nicht vollständig genutzt, wegen Herausforderungen wie begrenzten Daten und der Schwierigkeit, diese Daten zu deuten.
Der Integrationsbedarf
Mit der zunehmenden Popularität verschiedener Sensortypen stellt sich die drängende Frage: Wie können wir neue Sensoren neben älteren nutzen, wenn keine beschrifteten Daten verfügbar sind? Eine Lösung ist, gut dokumentierte Daten von einem Sensor zu verwenden, um das Wissen über den neuen Sensor zu verbessern. Dieser Prozess wird als cross-modal transfer bezeichnet. Allerdings basieren bestehende Techniken hauptsächlich darauf, dass während des Trainings einige beschriftete Daten für jeden Sensor vorhanden sind, was selten der Fall ist.
Unser Ansatz
Unsere Hypothese ist, dass es eine verborgene Struktur oder einen Raum gibt, der verschiedene Sensortypen miteinander verbindet und so eine bessere Erkennung menschlicher Aktionen ermöglicht. Wir erkunden verschiedene Möglichkeiten, diese Struktur zu schaffen und testen, ob sie beim Transfer von Lernen von einem Sensor auf einen anderen helfen kann, auch ohne Beschriftungen für den zweiten Sensor.
In unserer Methode, die FACT heisst, testen wir sie mit Daten sowohl aus RGB (Farb-)Videos als auch von IMU-Sensoren aus vier verschiedenen Datensätzen. Während des Trainings verwenden wir beschriftete Daten aus RGB-Videos und unbeschriftete Daten von IMUs. Das Ziel ist zu sehen, ob das Modell lernen kann, Aktionen aus IMU-Daten zu erkennen, wenn es später getestet wird.
Ergebnisse und Erkenntnisse
Unsere Experimente zeigen, dass die FACT-Methode deutlich besser abschneidet als bestehende Methoden, wenn es darum geht, Aktionen aus IMU-Daten ohne vorherige Beschriftungen zu erkennen. Die Tests zeigen auch, dass das Modell Aktionen nur durch das Betrachten von IMU-Daten verstehen kann, was die Fähigkeiten des cross-modal transfer demonstriert.
Verständnis der Modellenarchitektur
Die Struktur von FACT ist so gestaltet, dass verschiedene Komponenten während des Trainings zusammenarbeiten können. Diese Flexibilität bedeutet, dass wir sie leicht für verschiedene Sensortypen und Aufgaben anpassen können. Das Modell besteht aus drei Hauptteilen:
- Video Feature Encoder: Dieser verarbeitet Videobilder mithilfe eines Standardnetzwerks und extrahiert wichtige Merkmale.
- IMU Feature Encoder: Dieser nutzt ein eindimensionales konvolutionales Netzwerk zur Analyse von IMU-Daten.
- HAR Task Decoder: Dieses Modul nimmt die extrahierten Merkmale und sagt die ausgeführte Aktion voraus.
Wir haben auch eine zeitbewusste Version von FACT namens T-FACT entwickelt, die die Zeit berücksichtigt, wenn Daten von verschiedenen Sensoren ausgerichtet und kombiniert werden.
Trainings- und Testprozess
Das Training des Modells besteht aus zwei Schritten:
- Lernen aus beschrifteten RGB-Daten, um ein Modell zur Erkennung menschlicher Aktionen (HAR) zu erstellen.
- Ausrichten der Darstellungen von RGB- und IMU-Daten, um den cross-modal transfer zu verbessern.
Beim Testen muss das Modell Aktionen nur aus IMU-Daten vorhersagen, ohne diese Labels während des Trainings gesehen zu haben.
Experimente mit verschiedenen Datensätzen
Wir führen Tests mit mehreren Datensätzen durch, darunter UTD-MHAD, CZU-MHAD, MMACT und MMEA-CL. Jeder dieser Datensätze bietet einzigartige Herausforderungen und hilft uns, die Effektivität der FACT-Methode in verschiedenen Szenarien zu bewerten.
- UTD-MHAD: Dieser Datensatz enthält mehrere Datentypen, wie RGB, Skelett, Tiefe und IMU. Er hilft zu validieren, wie gut FACT mit realen Daten funktioniert.
- CZU-MHAD: Dieser Datensatz ist kontrollierter und ermöglicht eine bessere Messung der Modellleistung aufgrund der konsistenten Umgebung.
- MMACT: Ein grösserer Datensatz, der verschiedene Szenen umfasst, in denen Aktionen stattfinden, was Vorhersagen kniffliger macht.
- MMEA-CL: Fokussiert auf alltägliche Aktionen, testet dieser Datensatz die Anpassungsfähigkeit des Modells an unterschiedliche Aktivitäten.
Überwindung von Einschränkungen
Obwohl viele Studien sich darauf konzentrieren, mit fehlenden Daten während des Trainings oder Testens umzugehen, beschäftigen sich nur wenige mit der Situation, in der keine beschrifteten Daten von einem Sensortyp verfügbar sind. Diese Lücke macht es komplex, Basisverfahren zu etablieren.
Wir haben Basisverfahren entwickelt, wie Schüler-Lehrer-Modelle, die normalerweise beschriftete Daten von beiden Sensoren benötigen. Unser Ansatz ist anders, da FACT ohne Labels von einem Sensor arbeiten kann, indem es Daten verwendet, um Beziehungen zwischen ihnen zu finden.
Leistungsvergleich mit anderen Modellen
Bestehende Sensor-Fusionsmodelle sind gut darin, mit unvollständigen Daten umzugehen, jedoch nicht in der Lage, den Fall von null beschrifteten Daten während des Trainings gut zu handhaben. Wir haben gezeigt, dass diese Modelle im Vergleich zu FACT Schwierigkeiten haben, das Wissen von beschrifteten Daten eines Sensors zu nutzen, um dem anderen zu helfen.
Wir haben auch kontrastive Lernmethoden untersucht, insbesondere wie gut diese mit unseren Daten funktionieren könnten. Einige Modelle, wie ImageBind, funktionierten nicht effektiv mit IMU-Daten, besonders weil dieser Ansatz für andere Aufgaben konzipiert war.
Zusätzliche Experimente
Um die Effektivität von FACT zu gewährleisten, haben wir verschiedene Experimente durchgeführt, um seine Leistungsfähigkeit besser zu verstehen. Wir haben untersucht, wie das Modell unter verschiedenen Bedingungen abschneidet und seine Robustheit sowie Anpassungsfähigkeit in verschiedenen Settings analysiert.
Wir haben Ablationsstudien durchgeführt, um herauszufinden, welche Trainingsmethode die besten Ergebnisse liefert und den besten Weg zur Ausrichtung und zum Training des Modells zu bestimmen.
Fazit
Durch unsere Forschung haben wir eine vielversprechende Methode entdeckt, um Wissen zwischen verschiedenen Sensortypen zu übertragen, insbesondere von visuellen Daten zu IMUs. Unser Ansatz, FACT, zeigt signifikante Fähigkeiten, selbst in Szenarien ohne beschriftetes Training, und bietet vielversprechende Perspektiven für praktische Anwendungen in der alltäglichen Technologie, wie tragbaren Geräten und Smart Devices.
Indem wir einen Weg schaffen, verschiedene Sensorikmodalitäten effizient zu integrieren, zielt FACT darauf ab, das Verständnis von KI für menschliche Aktionen in realen Umgebungen zu verbessern. Damit legen wir den Grundstein für zukünftige Arbeiten in diesem Bereich und öffnen Türen für neue Fortschritte im maschinellen Lernen und dessen Anwendungen.
Titel: C3T: Cross-modal Transfer Through Time for Human Action Recognition
Zusammenfassung: In order to unlock the potential of diverse sensors, we investigate a method to transfer knowledge between modalities using the structure of a unified multimodal representation space for Human Action Recognition (HAR). We formalize and explore an understudied cross-modal transfer setting we term Unsupervised Modality Adaptation (UMA), where the modality used in testing is not used in supervised training, i.e. zero labeled instances of the test modality are available during training. We develop three methods to perform UMA: Student-Teacher (ST), Contrastive Alignment (CA), and Cross-modal Transfer Through Time (C3T). Our extensive experiments on various camera+IMU datasets compare these methods to each other in the UMA setting, and to their empirical upper bound in the supervised setting. The results indicate C3T is the most robust and highest performing by at least a margin of 8%, and nears the supervised setting performance even in the presence of temporal noise. This method introduces a novel mechanism for aligning signals across time-varying latent vectors, extracted from the receptive field of temporal convolutions. Our findings suggest that C3T has significant potential for developing generalizable models for time-series sensor data, opening new avenues for multi-modal learning in various applications.
Autoren: Abhi Kamboj, Anh Duy Nguyen, Minh Do
Letzte Aktualisierung: 2024-11-07 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2407.16803
Quell-PDF: https://arxiv.org/pdf/2407.16803
Lizenz: https://creativecommons.org/licenses/by-sa/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.
Referenz Links
- https://wandb.ai/akamboj2/mmea-toy-RGB-IMU-HAR-middle/runs/w5xfs7uw
- https://wandb.ai/akamboj2/mmact-toy-RGB-IMU-HAR-student_teacher/runs/61fhy5iv/logs?nw=nwuserakamboj2
- https://wandb.ai/akamboj2/toy-RGB-IMU-HAR-student_teacher/runs/ild8v883/logs?nw=nwuserakamboj2
- https://wandb.ai/akamboj2/mmea-toy-RGB-IMU-HAR-attn/runs/h2dbhc4y
- https://wandb.ai/akamboj2/mmact-toy-RGB-IMU-HAR-attn/runs/l0v907j4
- https://wandb.ai/akamboj2/czu_mhad-toy-RGB-IMU-HAR-cross_modal1/runs/ttbbt8ib
- https://wandb.ai/akamboj2/mmact-toy-RGB-IMU-HAR-cross_modal1/runs/52o5h6zp/logs?nw=nwuserakamboj2
- https://wandb.ai/akamboj2/mmea-toy-RGB-IMU-HAR-cross_modal1/runs/8sl63dz1
- https://wandb.ai/akamboj2/czu_mhad-toy-RGB-IMU-HAR-cross_modal1/runs/lnlvooub
- https://wandb.ai/akamboj2/mmea-toy-RGB-IMU-HAR-cross_modal1/runs/mc2mglwh/logs?nw=nwuserakamboj2
- https://wandb.ai/akamboj2/toy-RGB-IMU-HAR-cross_modal1_keep_time/runs/sot1d1rr/logs?nw=nwuserakamboj2
- https://wandb.ai/akamboj2/czu_mhad-toy-RGB-IMU-HAR-cross_modal1_keep_time/runs/cyhr0gi7
- https://wandb.ai/akamboj2/mmact-toy-RGB-IMU-HAR-cross_modal1_keep_time/runs/8k7stei0
- https://wandb.ai/akamboj2/mmea-toy-RGB-IMU-HAR-cross_modal1_keep_time/runs/fzqau8u9
- https://wandb.ai/akamboj2/mmea-toy-RGB-IMU-HAR-cross_modal1_keep_time/runs/grddij6f
- https://mmact19.github.io/challenge/
- https://tex.stackexchange.com/questions/413603/how-to-adjust-subfigure-caption-width
- https://tex.stackexchange.com/questions/119984/subfigures-side-by-side-with-captions
- https://nips.cc/public/guides/CodeSubmissionPolicy
- https://neurips.cc/public/EthicsGuidelines