Verbesserung der Gruppenbewegungsvorhersage mit Joint-Relation Transformer
Eine neue Methode konzentriert sich auf die Beziehungen zwischen Körperteilen, um bessere Bewegungsprognosen zu machen.
― 5 min Lesedauer
Inhaltsverzeichnis
Die Vorhersage, wie sich Menschen in einer Gruppe bewegen, ist ne echte Herausforderung. Das liegt daran, dass die Bewegungen einer Person nicht nur davon abhängen, was sie vorher gemacht hat, sondern auch davon, was andere um sie herum tun. Neuere Methoden, die eine Technologie namens Transformer nutzen, zeigen zwar vielversprechende Ansätze, schauen aber nicht genau genug, wie verschiedene Körperteile miteinander zusammenhängen. Diese Info ist entscheidend, um zu verstehen, wie Einzelpersonen in einer Gruppe interagieren.
Der Vorschlag
In diesem Artikel wird ein neuer Ansatz vorgestellt, der Joint-Relation Transformer heisst. Diese Methode zielt darauf ab, die Vorhersagen, wie sich mehrere Leute bewegen, zu verbessern, indem der Fokus auf die Beziehungen zwischen Körperteilen gelegt wird. Die wichtigen Merkmale, die wir einbeziehen wollen, sind der Abstand zwischen den Gelenken und die physikalischen Einschränkungen, die beeinflussen, wie Menschen sich bewegen – sowohl zwischen verschiedenen Personen als auch innerhalb des Körpers einer einzelnen Person.
Um Informationen über Körpergelenke und deren Beziehungen zu kombinieren, haben wir ein spezielles Feature namens Joint-Relation Fusion Layer entwickelt. Dieses Feature nutzt etwas, das Relation-aware Attention heisst, um beide Informationsarten zu verbessern. Ausserdem helfen wir, die Vorhersage zu steuern, indem wir die Abstände zwischen den Gelenken in der Zukunft vorhersagen.
Warum es wichtig ist
Die Vorhersage, wie sich Menschen in einer Gruppe bewegen, ist nützlich für viele reale Anwendungen. Dazu gehört, selbstfahrende Autos sicherer zu machen, indem wir wissen, wie Fussgänger sich bewegen könnten, die Verbesserung von Überwachungssystemen und die Unterstützung im Gesundheitsmonitoring. Gute Vorhersagen können auch zu besseren Mensch-Roboter-Interaktionen führen, was immer wichtiger wird.
Bisherige Arbeiten
Frühere Forschungen zur Vorhersage von Bewegungen in Gruppen nutzten hauptsächlich zwei Arten von Modellen: Graph Neural Networks (GNNs) und Transformer. GNNs erstellen ein Modell von Personen als Graph, wodurch sie Interaktionen verstehen können. Allerdings haben diese Modelle oft Schwierigkeiten, tiefe Merkmale zu lernen, aufgrund von inhärenten Einschränkungen. Transformer hingegen betrachten Bewegungssequenzen und können komplexe Muster effektiv lernen.
Aber die meisten transformer-basierten Ansätze lernen nur implizit, wie Gelenke miteinander in Beziehung stehen, ohne ein klares Verständnis der Körperstruktur. Der Joint-Relation Transformer zielt darauf ab, dies zu korrigieren, indem er die Beziehungen zwischen Gelenken explizit betrachtet.
Struktur des Joint-Relation Transformers
Unser vorgeschlagenes Modell hat drei Hauptteile:
- Encoding-Modul: Diese Phase ist verantwortlich für das Extrahieren von Merkmalen aus den Eingabedaten.
- Fusion-Modul: Hier kombinieren wir die Merkmale, die mit den Gelenken und deren Beziehungen zusammenhängen.
- Decoding-Modul: In dieser finalen Phase produzieren wir die vorhergesagten Bewegungen und Abstände zwischen den Gelenken.
Encoding-Modul
Die meisten Transformer-Modelle nutzen Gelenkpositionen im 3D-Raum als Eingabe, wodurch das Modell komplexe Verbindungen selbst lernen muss. Unser Ansatz verbessert dies, indem wir Informationen darüber hinzufügen, wie Gelenke sich über die Zeit bewegen und welche Beziehungen bestehen.
Wir verwenden zwei Arten von Encoder-Funktionen:
Joint Encoder: Der konzentriert sich auf die Positionen der Gelenke und fügt Informationen über deren Geschwindigkeiten hinzu, um festzuhalten, wie schnell sie sich bewegen.
Relation Encoder: Dieser erfasst Beziehungen zwischen Gelenken auf drei verschiedene Arten:
- Relativer Abstand: Misst, wie weit jeder Gelenk voneinander entfernt ist.
- Adjazenzmatrix: Zeigt, welche Gelenke durch Knochen direkt verbunden sind.
- Konnektivitätsmatrix: Identifiziert, welche Gelenke zur gleichen Person gehören und wie sie sich wahrscheinlich gemeinsam bewegen.
Fusion-Modul
Nachdem wir die Gelenkinformationen und Beziehungsinformationen codiert haben, leiten wir sie ins Fusion-Modul weiter. Wir fügen jeder Information positionsbezogene Infos hinzu, sodass die endgültige Ausgabe weiss, wo sich jedes Gelenk befindet.
Wir führen hier zwei spezifische Methoden ein:
Relation-Aware Joint Feature Learning: Diese Methode aktualisiert die Gelenkinformationen, während sie die Beziehungen zwischen ihnen berücksichtigt.
Joint-Aware Relation Feature Learning: Diese Methode aktualisiert die Beziehungsinformationen basierend auf den Merkmalen der Gelenke.
Decoding-Modul
In diesem Teil übersetzen wir die fusionierten Merkmale zurück in die tatsächlichen Bewegungen und Abstände zwischen den Gelenken. Wir haben:
Joint Decoder: Der rekonstruiert die Bewegungen jedes Gelenks über die Zeit.
Relation Decoder: Der konzentriert sich darauf, vorherzusagen, wie sich die Abstände zwischen den Gelenken verändern.
Training des Modells
Um den Joint-Relation Transformer zu trainieren, verwenden wir drei Arten der Überwachung:
Joint Supervision: Wir messen, wie gut die vorhergesagten Gelenkpositionen mit den tatsächlichen Positionen übereinstimmen.
Relation Supervision: Wir bewerten, wie genau die vorhergesagten Abstände mit den realen Abständen übereinstimmen.
Deep Supervision: Dies wird in jeder Schicht des Modells angewendet, um sicherzustellen, dass es sich nicht zu sehr an die Trainingsdaten anpasst.
Experimentelle Einrichtung
Wir bewerten unser Modell anhand mehrerer Datensätze, die Daten zu Bewegungen mehrerer Personen enthalten. Ein Datensatz wird von mobilen Kameras gesammelt und fokussiert sich auf reale Szenarien. Ein anderer Datensatz ist eine Motion-Capture-Datenbank mit kontrollierten Szenen.
Ergebnisse
Unsere Experimente zeigen, dass der Joint-Relation Transformer viele bestehende Methoden in den meisten Datensätzen übertrifft. Wir sehen eine signifikante Verbesserung in den Metriken, die messen, wie genau die Bewegungen vorhergesagt werden. Die Visualisierungen zeigen auch, dass der Aufmerksamkeit-Mechanismus effektiv auf die relevanten Merkmale fokussiert, was zu realistischeren Bewegungen führt.
Einsichten aus der Visualisierung
Die Visualisierung der Aufmerksamkeitsgewichte hilft uns zu verstehen, wie das Modell den Fokus auf verschiedene Gelenke verteilt. Wir sehen, dass unser Ansatz erfolgreich Aufmerksamkeitsmatrizen erzeugt, die sowohl Interaktionen innerhalb einer Person als auch zwischen mehreren Individuen erfassen.
Fazit
Zusammenfassend stellt der Joint-Relation Transformer einen wichtigen Schritt nach vorn bei der Vorhersage von Bewegungen mehrerer Personen dar. Durch die effektive Einbeziehung von Beziehungsinformationen und die Verwendung einer neuartigen Fusionsebene zeigt unser Ansatz verbesserte Leistungen in verschiedenen Datensätzen.
Einschränkungen und zukünftige Arbeiten
Obwohl unsere Arbeit das Feld erheblich vorantreibt, bleibt sie auf deterministische Vorhersagen fokussiert. Künftige Forschungen werden die Möglichkeit stochastischer Vorhersagen erkunden, die unterschiedliche Bewegungsverhalten berücksichtigen. Ausserdem werden wir mehrskalige Strukturen untersuchen, um die Vorhersagegenauigkeit weiter zu verbessern.
Anerkennung
Diese Forschung wurde von mehreren Förderagenturen unterstützt, was die Bedeutung und das potenzielle Ausmass dieser Arbeit beim Verständnis menschlicher Bewegungen in sozialen Situationen hervorhebt.
Titel: Joint-Relation Transformer for Multi-Person Motion Prediction
Zusammenfassung: Multi-person motion prediction is a challenging problem due to the dependency of motion on both individual past movements and interactions with other people. Transformer-based methods have shown promising results on this task, but they miss the explicit relation representation between joints, such as skeleton structure and pairwise distance, which is crucial for accurate interaction modeling. In this paper, we propose the Joint-Relation Transformer, which utilizes relation information to enhance interaction modeling and improve future motion prediction. Our relation information contains the relative distance and the intra-/inter-person physical constraints. To fuse relation and joint information, we design a novel joint-relation fusion layer with relation-aware attention to update both features. Additionally, we supervise the relation information by forecasting future distance. Experiments show that our method achieves a 13.4% improvement of 900ms VIM on 3DPW-SoMoF/RC and 17.8%/12.0% improvement of 3s MPJPE on CMU-Mpcap/MuPoTS-3D dataset.
Autoren: Qingyao Xu, Weibo Mao, Jingze Gong, Chenxin Xu, Siheng Chen, Weidi Xie, Ya Zhang, Yanfeng Wang
Letzte Aktualisierung: 2023-10-26 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2308.04808
Quell-PDF: https://arxiv.org/pdf/2308.04808
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.