Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Computerwissenschaften# Computer Vision und Mustererkennung

Fortschritte bei der Handrekonstruktion für AR/VR-Anwendungen

Ein neues Framework verbessert die Handposen-Schätzung mit mehreren Blickwinkeln.

― 7 min Lesedauer


Zwei-HandZwei-HandRekonstruktionsrahmenEnthülltund den Realismus von Handposen.Neues Modell verbessert die Genauigkeit
Inhaltsverzeichnis

Die Rekonstruktion von Händen aus Bildern ist wichtig für Bereiche wie virtuelle und erweiterte Realität (AR/VR). Bestehende Methoden konzentrieren sich oft auf eine Hand gleichzeitig und haben Schwierigkeiten, wenn es um zwei Hände geht. Dieses Papier stellt ein neues Framework vor, das verbessert, wie wir zwei Hände rekonstruieren, indem wir mehrere Bilder aus verschiedenen Winkeln verwenden. Dadurch können wir realistischere Darstellungen von zwei Händen erstellen und die Unterarme integrieren, um einen besseren Kontext für Handbewegungen zu bieten, was für interaktive Anwendungen entscheidend ist.

Das Problem

Die Schätzung der Handpose ist eine grosse Herausforderung in AR/VR. Viele aktuelle Methoden funktionieren gut für einzelne Hände, aber nicht für zwei, besonders wenn sie interagieren. Ein grosses Problem ist das Fehlen geeigneter Datensätze, die die Positionen von zwei Händen aus der Ich-Perspektive, auch bekannt als egozentrische Sicht, abdecken, was das Training von Modellen erschwert.

Die Vorgeschlagene Lösung

Unser Ansatz nutzt ein neues Modell, das auf einer Transformer-Architektur basiert und die Vorteile mehrerer Ansichten der Hände nutzt. Die Idee ist, detailliertere und genauere Posen beider Hände zu erfassen. Ausserdem haben wir einen synthetischen Datensatz erstellt, der speziell entwickelt wurde, um die Lücken in bestehenden Handdatensätzen zu schliessen.

Wichtige Merkmale des Frameworks

  1. Multi-View Rekonstruktion: Anstatt nur ein Bild zu verwenden, machen wir mehrere Bilder der Hände aus unterschiedlichen Winkeln. Das gibt dem Modell mehr Informationen.

  2. Synthetischer Datensatz: Viele bestehende Datensätze sind nicht geeignet, um die Sicht auf Hände aus verschiedenen Winkeln einzufangen. Wir haben einen synthetischen Datensatz erstellt, der eine Vielzahl von Handbewegungen vor unterschiedlichen Hintergründen und Beleuchtungssituationen enthält.

  3. Fusion von Bildmerkmalen: Wir haben eine Technik entwickelt, um Merkmale aus den verschiedenen Ansichten zu kombinieren, wobei wir nur die wichtigen Details zu Handbewegungen beibehalten.

  4. Graph-basierter Ansatz: Wir behandeln Hand-Meshes als eine Graphstruktur und nutzen Ideen aus der Graphentheorie, um die Darstellung und Rekonstruktion der Handformen zu verbessern.

  5. Verfeinerungsphase: Nach der ersten Rekonstruktion wenden wir einen Optimierungsschritt an, um unrealistische Überlappungen oder Durchdringungen im Mesh zu korrigieren, sodass die Hände natürlicher erscheinen.

Hintergrund

Die Handrekonstruktion ist seit langem ein Interessensgebiet. Viele Forscher haben Systeme entwickelt, um Handbewegungen mit Tiefenbildern oder RGB-Bildern zu erfassen. Die Herausforderung tritt auf, wenn man versucht, dies für beide Hände gleichzeitig zu tun, insbesondere wenn die Hände interagieren.

Frühere Arbeiten

Frühere Methoden konzentrierten sich typischerweise nur auf eine Hand und verwendeten verschiedene Techniken, um ihre Pose zu schätzen. Einige verwendeten parametrische Modelle, die auf bekannten Formen und Grössen von Händen basieren. In letzter Zeit sind fortschrittlichere Techniken aufgetaucht, die direkt Hand-Meshes aus Bildern berechnen. Diese haben jedoch oft Schwierigkeiten mit zwei Händen.

Der Bedarf für einen neuen Datensatz

Obwohl es einige Datensätze für Handbewegungen gibt, bieten sie entweder nicht genug Vielfalt in den Hintergründen oder erfassen egozentrische Sichtweisen nicht effektiv. Das macht es schwer, Modelle zu trainieren, die in realen Anwendungen gut funktionieren. Unsere Lösung war, einen detaillierten synthetischen Datensatz zu erstellen, der zwei Hände in unterschiedlichen Umgebungen zeigt, mit Schwerpunkt auf egozentrischen Perspektiven.

Erstellung des synthetischen Datensatzes

Wir haben unseren synthetischen Datensatz erstellt, indem wir realistische Handmodelle in verschiedenen Posen und Hintergründen mit fortschrittlichen Beleuchtungstechniken gerendert haben. So konnten wir eine grosse Anzahl von Bildern sammeln, die jeweils mit hochwertigen annotierten Daten über die Positionen und Orientierungen der Hände gepaart sind.

Wie das Framework funktioniert

Das Framework arbeitet in mehreren Schlüsselschritten.

Schritt 1: Bildinput

Wir sammeln mehrere RGB-Bilder von zwei Händen aus verschiedenen Winkeln. Diese Bilder werden mit einem sorgfältig kalibrierten Kamerasetup aufgenommen, um eine genaue Erfassung zu gewährleisten.

Schritt 2: Merkmals-Extraktion

Der erste Schritt besteht darin, ein neuronales Netzwerk zu verwenden, um relevante Merkmale aus den Bildern zu extrahieren. Wir setzen für diese Aufgabe ein gemeinsames konvolutionales neuronales Netzwerk (CNN) ein.

Schritt 3: Soft-Attention Fusion

Sobald wir die Merkmale aus verschiedenen Ansichten haben, kombinieren wir sie mit einem Soft-Attention-Mechanismus. Dies ermöglicht es dem Modell, sich auf die wichtigsten Teile der Bilder zu konzentrieren, wie die Bereiche der Hände und Unterarme, ohne sich durch weniger relevante Details ablenken zu lassen.

Schritt 4: Mesh-Segmentierung

Wir wenden eine Segmentierungstechnik auf die Hand-Meshes an, um verschiedene Teile der Hände zu kategorisieren. Dies erleichtert es unserem Modell, komplexe Interaktionen zwischen den Händen zu handhaben.

Schritt 5: Transformer Encoder

Die kombinierten und segmentierten Merkmale werden dann in einen Transformer-Encoder eingespeist. Dieses Modell lernt, eine grobe Darstellung der Hand-Meshes zu erstellen, bevor es sie in hochwertige Ausgaben verfeinert.

Schritt 6: Spektraler Graph-Decoder

Der letzte Schritt nutzt einen spektralen Graph-Decoder, um die grobe Mesh-Darstellung hochzuskalieren. Dieser Decoder ist darauf ausgelegt, die strukturelle Integrität der Handformen zu bewahren und gleichzeitig die Details in den Ausgabemeshes zu verfeinern.

Schritt 7: Optimierung für Realismus

Nach der ersten Erstellung der Hand-Meshes führen wir einen Optimierungsprozess durch, um sicherzustellen, dass es keine unrealistischen Überlappungen oder Durchdringungen zwischen Fingern oder Händen gibt. Dieser Schritt verbessert die physische Plausibilität der Ausgabe.

Experimentelle Bewertung

Um unsere Methode zu bewerten, haben wir eine Reihe von Experimenten durchgeführt.

Testen des synthetischen Datensatzes

Wir haben unser Framework mit dem synthetischen Datensatz getestet, den wir erstellt haben. Die Ergebnisse zeigten, dass unser Ansatz bestehende Methoden in Bezug auf Genauigkeit deutlich übertroffen hat.

Vergleich mit bestehenden Methoden

Wir haben unsere Methode mit einer bekannten Basislinie namens METRO verglichen, die zur Rekonstruktion menschlicher Meshes aus Bildern entwickelt wurde. Unsere Methode lieferte nicht nur eine bessere Genauigkeit, sondern hatte auch eine kleinere Modellgrösse.

Ergebnisse mit echten Daten

Wir haben unser Modell auch mit realen Daten getestet, die von einem Multi-Kamera-Setup gesammelt wurden. Die Ergebnisse bestätigten, dass unser synthetisches Modell gut auf reale Bilder verallgemeinern konnte und seine Robustheit unter Beweis stellte.

Vorteile des Frameworks

  1. Hohe Treue bei Rekonstruktionen: Unsere Methode liefert hochwertige Ausgaben für beide Hände, was die Realität der Posen verbessert.

  2. Effizienz: Das Design des Modells sorgt dafür, dass es effizient läuft, was es für Echtzeitanwendungen in AR/VR geeignet macht.

  3. Generalität: Das Framework ist anpassungsfähig und somit auch auf andere Aufgaben der Multi-View-Rekonstruktion anwendbar.

  4. Breite der Anwendung: Die Fähigkeit, zwei Hände genau zu rekonstruieren, eröffnet neue Möglichkeiten für verschiedene Anwendungen, von Spielen bis hin zu virtuellen Trainingsumgebungen.

Herausforderungen und Einschränkungen

Obwohl unsere Methode vielversprechend ist, gibt es immer noch Herausforderungen zu überwinden. Probleme im Zusammenhang mit Selbstdurchdringung während komplexer Interaktionen bleiben ein Problem, besonders wenn die Hände sehr nah beieinander sind.

Zukünftige Richtungen

In Zukunft wollen wir die genannten Herausforderungen angehen. Eine Möglichkeit könnte sein, zeitliche Informationen aus Videosequenzen zu integrieren, damit das Modell versteht, wie sich die Hände über die Zeit bewegen und interagieren.

Fazit

Das vorgeschlagene Framework stellt einen bedeutenden Fortschritt bei der Rekonstruktion von zwei Händen aus mehreren Bildern dar. Es nutzt innovative Methoden und einen massgeschneiderten Datensatz, um Ergebnisse zu liefern, die unser Verständnis und unsere Fähigkeiten in diesem Bereich voranbringen. Indem wir verbessern, wie wir Handgesten und Interaktionen darstellen, eröffnen wir neue Wege zur Verbesserung in AR/VR-Anwendungen. Mit laufender Forschung und Entwicklung wollen wir diesen Prozess weiter verfeinern und seine Fähigkeiten auf komplexere Szenarien erweitern.

Originalquelle

Titel: Spectral Graphormer: Spectral Graph-based Transformer for Egocentric Two-Hand Reconstruction using Multi-View Color Images

Zusammenfassung: We propose a novel transformer-based framework that reconstructs two high fidelity hands from multi-view RGB images. Unlike existing hand pose estimation methods, where one typically trains a deep network to regress hand model parameters from single RGB image, we consider a more challenging problem setting where we directly regress the absolute root poses of two-hands with extended forearm at high resolution from egocentric view. As existing datasets are either infeasible for egocentric viewpoints or lack background variations, we create a large-scale synthetic dataset with diverse scenarios and collect a real dataset from multi-calibrated camera setup to verify our proposed multi-view image feature fusion strategy. To make the reconstruction physically plausible, we propose two strategies: (i) a coarse-to-fine spectral graph convolution decoder to smoothen the meshes during upsampling and (ii) an optimisation-based refinement stage at inference to prevent self-penetrations. Through extensive quantitative and qualitative evaluations, we show that our framework is able to produce realistic two-hand reconstructions and demonstrate the generalisation of synthetic-trained models to real data, as well as real-time AR/VR applications.

Autoren: Tze Ho Elden Tse, Franziska Mueller, Zhengyang Shen, Danhang Tang, Thabo Beeler, Mingsong Dou, Yinda Zhang, Sasa Petrovic, Hyung Jin Chang, Jonathan Taylor, Bardia Doosti

Letzte Aktualisierung: 2023-08-21 00:00:00

Sprache: English

Quell-URL: https://arxiv.org/abs/2308.11015

Quell-PDF: https://arxiv.org/pdf/2308.11015

Lizenz: https://creativecommons.org/licenses/by-nc-sa/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.

Mehr von den Autoren

Ähnliche Artikel