Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Computerwissenschaften# Computer Vision und Mustererkennung

Verbesserung der Erkennung menschlicher Aktionen mit UCFFormer

Ein neuer Ansatz verbessert die Erkennung menschlicher Aktionen durch multimodale Datenfusion.

― 5 min Lesedauer


UCFFormer:UCFFormer:Aktionserkennung neudefiniertSensordaten zu erkennen.menschliche Aktionen mit verschiedenenNeues Framework glänzt darin,
Inhaltsverzeichnis

Das Erkennen menschlicher Aktionen durch Daten, die von Sensoren gesammelt werden, ist in vielen Bereichen wichtig, darunter Gesundheitswesen, Fitness und smarte Technologien. In diesem Papier wird ein neuer Ansatz vorgestellt, um Maschinen das Erkennen menschlicher Aktionen zu erleichtern, indem Daten aus verschiedenen Sensortypen kombiniert werden. Der Hauptfokus liegt auf einem System namens Unified Contrastive Fusion Transformer (UCFFormer), das verschiedene Datentypen effektiv zusammenführt, um die Erkennungsgenauigkeit zu verbessern.

Menschliches Aktions-Erkennen (HAR)

Menschliches Aktions-Erkennen (HAR) bezeichnet die Fähigkeit von Maschinen, automatisch verschiedene menschliche Aktionen anhand von Daten aus unterschiedlichen Sensoren zu identifizieren und zu klassifizieren. HAR kann in vielen Bereichen eingesetzt werden, wie z. B. bei der Gesundheitsüberwachung, der Verfolgung von Fitnessaktivitäten, der Analyse von Verhaltensweisen, der Erstellung von gestenbasierten Schnittstellen und der Entwicklung von Systemen, die die Handlungen von Menschen im Kontext verstehen.

HAR stützt sich allgemein auf Daten aus verschiedenen Sensoren. Diese Sensoren lassen sich grob in zwei Kategorien einteilen: visuelle Sensoren und nicht-visuelle Sensoren. Visuelle Sensoren, wie Kameras, liefern Bilder oder Videos, die die Bewegungen und Haltungen von Personen zeigen. Nicht-visuelle Sensoren, wie Beschleunigungsmesser und Gyroskope, erfassen Daten zu physischen Bewegungen. Geräte wie Smartphones und Fitness Tracker beinhalten häufig diese Sensoren.

Motivation für Multimodale Daten

Die Nutzung mehrerer Sensortypen, bekannt als multimodale Daten, kann die Genauigkeit der Aktions­erkennung erheblich verbessern. Das liegt daran, dass jeder Sensortyp unterschiedliche Aspekte menschlicher Bewegungen erfasst und ergänzende Informationen liefert. Ausserdem können multimodale Daten den Erkennungsprozess robuster und anpassungsfähiger an verschiedene Benutzer, Szenarien und Umgebungen gestalten. Allerdings bringt die Kombination von Daten aus verschiedenen Sensoren auch einige Herausforderungen mit sich.

Herausforderungen bei der Integration multimodaler Daten

Eine grosse Herausforderung bei der Nutzung multimodaler Daten für HAR besteht darin, eine gemeinsame Darstellung zu schaffen, die die Beziehungen zwischen verschiedenen Datentypen effektiv erfasst. Modellentwickler sollten sicherstellen, dass die Merkmale jedes Sensors gut aufeinander abgestimmt sind, um die Vorteile der Kombination dieser Datentypen zu maximieren.

Eine weitere Herausforderung besteht darin, wie die Daten aus verschiedenen Sensoren effizient verarbeitet und kombiniert werden können. Diese Daten können oft laut und komplex sein, was eine Methode erfordert, die Daten adaptiv integrieren kann, während sie deren Qualität berücksichtigt.

Bestehende Methoden zur multimodalen Fusion

Es wurden bereits verschiedene Methoden entwickelt, um Daten aus verschiedenen Sensoren für HAR zu kombinieren. Einige Studien verwendeten einen späten Fusionsansatz, bei dem die Ergebnisse der Klassifizierung jedes Sensors kombiniert wurden, um eine endgültige Vorhersage zu treffen. Andere konzentrierten sich auf die Fusion auf der Ebene von Zwischenmerkmalen, bei der Merkmale, die aus mehreren Sensoren extrahiert wurden, kombiniert wurden.

Dieses Papier führt ein neues Framework namens UCFFormer ein, das darauf abzielt, bestehende Herausforderungen im multimodalen HAR zu überwinden. Es bietet eine effektive Möglichkeit, verschiedene Datentypen, einschliesslich visueller und nicht-visueller Informationen, zu kombinieren.

Überblick über UCFFormer

UCFFormer ist ein neuartiges Framework für multimodale Fusion, das darauf ausgelegt ist, HAR zu verbessern. Es kombiniert effektiv Daten aus verschiedenen Sensortypen und verwendet fortschrittliche Techniken, um diese Informationen zu verarbeiten. Das Framework besteht aus zwei Hauptkomponenten: dem Factorized Time-Modality Transformer (FTMT) und dem Multimodal Contrastive Alignment Network (MCANet).

Factorized Time-Modality Transformer (FTMT)

Der FTMT ist verantwortlich für die Kodierung der Merkmale, die aus jedem Sensordatentyp extrahiert werden. Er verwendet eine einheitliche Transformer-Architektur, die die Daten so verarbeitet, dass die Beziehungen zwischen verschiedenen Datentypen im Zeitverlauf erfasst werden. FTMT verwendet einen einzigartigen Selbstaufmerksamkeitsmechanismus, der es ihm ermöglicht, Merkmale aus beiden zeitlichen und modalitären Domänen unabhängig zu verarbeiten und so eine effektive Interaktionsmodellierung sicherzustellen.

Multimodal Contrastive Alignment Network (MCANet)

Nachdem der FTMT die Sensordaten verarbeitet hat, gibt er die Informationen an das MCANet weiter, das die Merkmale verfeinert. Das MCANet verwendet einen kontrastiven Lernansatz, um sicherzustellen, dass die Merkmale aus verschiedenen Sensoren gut ausgerichtet sind. Durch die Minimierung der Unterschiede zwischen den Merkmalen verschiedener Sensoren verbessert MCANet die Genauigkeit des endgültigen Outputs.

Leistungsbewertung

Das UCFFormer-Framework wurde an zwei weit verbreiteten Datensätzen für HAR bewertet: UTD-MHAD und NTU RGB+D. In beiden Fällen erzielte der UCFFormer eine Spitzenleistung und übertraf viele bestehende Modelle.

UTD-MHAD-Datensatz

Der UTD-MHAD-Datensatz enthält Daten von verschiedenen Sensoren für 27 menschliche Aktionen, die von acht Probanden durchgeführt wurden. Bei dieser Bewertung zeigte UCFFormer beeindruckende Ergebnisse beim Erkennen von Aktionen mit hohen Genauigkeitsniveaus.

NTU RGB+D-Datensatz

Der NTU RGB+D-Datensatz besteht aus einer grösseren und vielfältigeren Aktion, insgesamt 56.880 Proben, die von 40 Personen durchgeführt wurden. UCFFormer konnte auch in diesem Datensatz seine hohe Leistung beim Erkennen menschlicher Aktivitäten aufrechterhalten.

Vorteile von UCFFormer

UCFFormer bietet mehrere Vorteile:

  1. Effektive multimodale Fusion: Durch die Integration von Daten aus verschiedenen Sensortypen erfasst UCFFormer unterschiedliche Aspekte menschlicher Aktionen und bietet umfassendere und genauere Erkennungen.

  2. Robuste Leistung: Das Framework behält auch bei Variabilität der Sensordaten eine starke Leistung bei und ist anpassungsfähig an verschiedene Einstellungen und Szenarien.

  3. Effizienz: Der faktorierte Aufmerksamkeitsmechanismus von UCFFormer reduziert die rechnerische Komplexität bei der Verarbeitung multimodaler Daten, was schnellere Verarbeitung ermöglicht, ohne die Genauigkeit zu beeinträchtigen.

Fazit

Das UCFFormer-Framework stellt einen bedeutenden Fortschritt in der Fusion multimodaler Daten für das Erkennen menschlicher Aktionen dar. Es kombiniert effektiv Merkmale aus verschiedenen Sensoren und verbessert die Leistung durch kontrastives Lernen. Dadurch kann UCFFormer beeindruckende Genauigkeiten beim Erkennen menschlicher Aktionen in verschiedenen Datensätzen erreichen. Die Implikationen dieser Forschung gehen über HAR hinaus und bieten potenzielle Anwendungen in allen Bereichen, in denen die Integration verschiedener Datentypen für den Erfolg entscheidend ist.

Originalquelle

Titel: Unified Contrastive Fusion Transformer for Multimodal Human Action Recognition

Zusammenfassung: Various types of sensors have been considered to develop human action recognition (HAR) models. Robust HAR performance can be achieved by fusing multimodal data acquired by different sensors. In this paper, we introduce a new multimodal fusion architecture, referred to as Unified Contrastive Fusion Transformer (UCFFormer) designed to integrate data with diverse distributions to enhance HAR performance. Based on the embedding features extracted from each modality, UCFFormer employs the Unified Transformer to capture the inter-dependency among embeddings in both time and modality domains. We present the Factorized Time-Modality Attention to perform self-attention efficiently for the Unified Transformer. UCFFormer also incorporates contrastive learning to reduce the discrepancy in feature distributions across various modalities, thus generating semantically aligned features for information fusion. Performance evaluation conducted on two popular datasets, UTD-MHAD and NTU RGB+D, demonstrates that UCFFormer achieves state-of-the-art performance, outperforming competing methods by considerable margins.

Autoren: Kyoung Ok Yang, Junho Koh, Jun Won Choi

Letzte Aktualisierung: 2023-09-10 00:00:00

Sprache: English

Quell-URL: https://arxiv.org/abs/2309.05032

Quell-PDF: https://arxiv.org/pdf/2309.05032

Lizenz: https://creativecommons.org/licenses/by/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.

Mehr von den Autoren

Ähnliche Artikel