Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Computerwissenschaften# Computer Vision und Mustererkennung

Fortschritte bei der 3D-Formwiederherstellung aus Videos

Eine neue Methode verbessert die Genauigkeit und Effizienz beim Erfassen von 3D-Formen von mehreren Leuten.

― 4 min Lesedauer


Durchbruch bei derDurchbruch bei der3D-Formwiederherstellungder 3D-Tracking von mehreren Personen.Neue Methode verbessert die Effizienz
Inhaltsverzeichnis

Das Wiederherstellen von 3D-Formen von mehreren Personen aus Videos ist wichtig, um Interaktionen in verschiedenen Umgebungen wie Virtual Reality und Physiotherapie zu verstehen. Traditionelle Methoden basieren auf mehreren Schritten, bei denen jede Person nacheinander erkannt und verfolgt wird. Dieser mehrstufige Ansatz hat Einschränkungen, da er nicht berücksichtigt, wie Menschen über die Zeit miteinander interagieren, was zu Ungenauigkeiten führt.

Der Neue Ansatz: CoordFormer

Um diese Herausforderungen zu überwinden, wurde ein neuer Ansatz namens CoordFormer eingeführt. Diese Methode kann die Wiederherstellung mehrerer 3D-Formen in einem Schritt durchführen, im Gegensatz zu älteren Methoden, die mehrere Schritte benötigen. CoordFormer lernt direkt, wie Menschen räumlich und zeitlich zueinander stehen, was es schneller und effizienter macht.

Wie CoordFormer Funktioniert

CoordFormer verwendet einen speziellen Aufmerksamkeitsmechanismus namens Koordinaten-bewusste Aufmerksamkeit (CAA). Dieser Mechanismus hilft, genaue Details auf Pixelebene zu bewahren und gleichzeitig die Positionen der Personen im Video im Auge zu behalten. Ausserdem gibt es eine Technik namens Körperzentrum-Aufmerksamkeit (BCA), die sich auf die wahrscheinlichsten Positionen jedes Körperzentrums konzentriert. Die Kombination dieser Techniken ermöglicht es CoordFormer, bessere Ergebnisse als frühere Methoden zu erzielen.

Leistungsverbesserungen

Tests auf einem Datensatz namens 3DPW zeigten, dass CoordFormer besser abschnitt als die besten vorherigen Methoden. Es gelang, die Fehler bei den Messungen um bemerkenswerte Prozentsätze zu reduzieren, und es war auch 40 % schneller. Das bedeutet, dass CoordFormer 3D-Formen genauer und schneller wiederherstellen kann als ältere Methoden.

Wie Andere Methoden Funktionieren

Die meisten bestehenden Methoden zur video-basierten Wiederherstellung von 3D-Formen arbeiten in zwei Hauptschritten. Zuerst verwenden sie ein zweidimensionales (2D) Personenerkennungssystem, um Einzelpersonen in Videos zu finden. Dann verfolgen sie diese Personen über verschiedene Frames. Diese Zweistufenmethode hat oft Schwierigkeiten, wenn Personen sich überlappen oder wenn es Ungenauigkeiten bei der Erkennung von Personen gibt. Die Leistung hängt stark von den Erkennungs- und Verfolgungsphasen ab, was zu langsameren Verarbeitungszeiten und möglichen Ungenauigkeiten führt.

Vorteile der Ein-Stufen-Methode

Mit dem Ein-Stufen-Design von CoordFormer lernt das System, Personen gleichzeitig zu erkennen und zu verfolgen. Dieser Ansatz erstellt mehrere 3D-Formfolgen auf einmal, was den gesamten Prozess effizienter macht. Das neue Modell erfasst auch, wie sich Personen gemeinsam bewegen, was dazu beiträgt, realistischere 3D-Formen zu liefern.

Hauptmerkmale von CoordFormer

CoordFormer integriert zwei Hauptinnovationen, um seine Leistung zu verbessern. Der Körperzentrum-Aufmerksamkeitsmechanismus ermöglicht es dem Modell, genau zu erkennen, wo sich Personen im Video befinden. Dieser Fokus ermöglicht eine bessere Extraktion der relevanten Merkmale, die benötigt werden, um genaue 3D-Formen zu erstellen. Die koordinaten-bewusste Aufmerksamkeit behält die Pixel-genauen Details im Auge, um sicherzustellen, dass die Formen die Bewegungen einer Person genau darstellen, während sie mit anderen interagiert.

Experimentelle Ergebnisse

Die Leistung von CoordFormer wurde durch umfangreiche Tests auf dem 3DPW-Datensatz validiert, der für seine Komplexität bekannt ist. Die Ergebnisse zeigten, dass es frühere Methoden in Bezug auf die Genauigkeit deutlich übertraf. Diese Ergebnisse hoben die Bedeutung hervor, die Positionen und Bewegungen mehrerer Personen in Videos zu verstehen, was für Anwendungen wie virtuelle Interaktionen oder Rehabilitationstherapien entscheidend ist.

Anwendungsbereiche in der Realität

Die Verbesserungen, die CoordFormer bietet, können verschiedenen Bereichen zugutekommen, insbesondere solchen, die eine Analyse des Gruppenverhaltens erfordern. Beispielsweise verbessert das präzise Tracking mehrerer Nutzer in virtuellen Realitätseinstellungen das Gesamterlebnis. Ebenso kann das Verständnis der Bewegungen von Patienten in der Physiotherapie zu besseren Behandlungsplänen führen.

Aktuelle Einschränkungen und Zukünftige Richtungen

Obwohl CoordFormer grosses Potenzial zeigt, hat es immer noch Einschränkungen. Derzeit hat es Schwierigkeiten, die Formen von Personen wiederherzustellen, die völlig aus dem Blickfeld verschwunden sind. Zukünftige Forschungen könnten sich darauf konzentrieren, den Wiederherstellungsprozess für verdeckte Personen zu verbessern, indem die zeitlichen Informationen, die im Videodaten erfasst werden, genutzt werden.

Fazit

Die Einführung von CoordFormer stellt einen bedeutenden Fortschritt bei der Wiederherstellung von 3D-Formen mehrerer Personen aus Videos dar. Durch die Kombination von Erkennung, Verfolgung und Modellierung in einem einzelnen Schritt bietet es eine effizientere und genauere Lösung im Vergleich zu traditionellen mehrstufigen Methoden. Mit dem Fortschritt der Technologie könnte CoordFormer neue Wege für Forschung und Anwendungen im Verständnis des Gruppenverhaltens in verschiedenen Umgebungen eröffnen.

Originalquelle

Titel: Coordinate Transformer: Achieving Single-stage Multi-person Mesh Recovery from Videos

Zusammenfassung: Multi-person 3D mesh recovery from videos is a critical first step towards automatic perception of group behavior in virtual reality, physical therapy and beyond. However, existing approaches rely on multi-stage paradigms, where the person detection and tracking stages are performed in a multi-person setting, while temporal dynamics are only modeled for one person at a time. Consequently, their performance is severely limited by the lack of inter-person interactions in the spatial-temporal mesh recovery, as well as by detection and tracking defects. To address these challenges, we propose the Coordinate transFormer (CoordFormer) that directly models multi-person spatial-temporal relations and simultaneously performs multi-mesh recovery in an end-to-end manner. Instead of partitioning the feature map into coarse-scale patch-wise tokens, CoordFormer leverages a novel Coordinate-Aware Attention to preserve pixel-level spatial-temporal coordinate information. Additionally, we propose a simple, yet effective Body Center Attention mechanism to fuse position information. Extensive experiments on the 3DPW dataset demonstrate that CoordFormer significantly improves the state-of-the-art, outperforming the previously best results by 4.2%, 8.8% and 4.7% according to the MPJPE, PAMPJPE, and PVE metrics, respectively, while being 40% faster than recent video-based approaches. The released code can be found at https://github.com/Li-Hao-yuan/CoordFormer.

Autoren: Haoyuan Li, Haoye Dong, Hanchao Jia, Dong Huang, Michael C. Kampffmeyer, Liang Lin, Xiaodan Liang

Letzte Aktualisierung: 2023-08-20 00:00:00

Sprache: English

Quell-URL: https://arxiv.org/abs/2308.10334

Quell-PDF: https://arxiv.org/pdf/2308.10334

Lizenz: https://creativecommons.org/licenses/by-nc-sa/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.

Mehr von den Autoren

Ähnliche Artikel