Verbesserung der 3D-Handposenschätzung bei Interaktionen
Neue Methoden verbessern die Genauigkeit der Handpositionsbestimmung während Interaktionen.
― 6 min Lesedauer
Inhaltsverzeichnis
Die Schätzung der Positionen von Händen im 3D-Raum aus Bildern ist ein beliebtes Forschungsgebiet. Viele Techniken haben die Genauigkeit dieser Aufgabe verbessert, aber es gibt immer noch beträchtliche Herausforderungen, besonders wenn zwei Hände miteinander interagieren. Wenn Hände nah beieinander sind, können sie sich gegenseitig behindern, was es schwer macht, ihre Positionen genau zu bestimmen.
Ein grosses Problem ist, dass traditionelle Methoden oft die physischen Einschränkungen, die die Handpositionen realistisch halten, nicht berücksichtigen. Das bedeutet, wenn zwei Hände angezeigt werden, können sie sich falsch überlappen oder schneiden. Wir schlagen einen Ansatz vor, der ein spezifisches Modell verwendet, um den Raum der Hände effektiver darzustellen, wodurch es einfacher wird, diese Überlappungen zu vermeiden.
Die Herausforderung der Hand-zu-Hand-Interaktion
Hand-zu-Hand-Interaktionen sind komplex. Wenn zwei Hände nah beieinander sind, können sie sich gegenseitig blockieren. Das nennt man Okklusion. Ausserdem können Finger sich überlappen, was es noch schwieriger macht zu bestimmen, wo sich jede Hand befindet. Einfache Methoden, wie zum Beispiel zu versuchen, beide Hände unabhängig zu schätzen, bringen oft keine guten Ergebnisse. Die Interaktionen zwischen den Händen können nützliche Informationen liefern, die die Schätzung ihrer Positionen einfacher machen.
In früheren Studien haben Forscher versucht, diese Herausforderungen mit verschiedenen Methoden anzugehen. Einige verwendeten Optimierungstechniken, während andere anfingen, Deep Learning zu nutzen. Allerdings haben diese Methoden oft immer noch Schwierigkeiten, wenn es darum geht, die Interaktionen zwischen zwei Händen genau zu modellieren.
Verwandte Arbeiten
In der Vergangenheit konzentrierten sich Forscher darauf, die Position einer einzelnen Hand zu schätzen, erkannten jedoch zunehmend die Bedeutung der Schätzung mehrerer interagierender Hände. Frühe Versuche stützten sich auf Optimierungsmethoden, die erkennbare Punkte, Kanten und andere Merkmale aus Bildern verwendeten.
Mit dem Aufkommen von Deep Learning sind neue Methoden entstanden, die in diesem Bereich helfen. Verschiedene Techniken werden jetzt verwendet, um Bilder zu analysieren und zu lernen, wie man Handpositionen schätzt. Einige Forscher nutzten Tiefenkameras, um Hände zu verfolgen, während andere mehrere Kameras einsetzten, um mehr Daten über Handpositionen zu sammeln.
Eine weitere gängige Methode ist die Verwendung spezifischer parametrischer Modelle, wie dem MANO-Modell, das die Aufgabe der Handdarstellung vereinfacht. Obwohl diese Ansätze Verbesserungen gezeigt haben, kämpfen sie immer noch mit den spezifischen Herausforderungen, die durch das Interagieren von zwei Händen entstehen.
Unser Ansatz
In dieser Arbeit schlagen wir ein umfassendes Framework vor, um die Schätzung von 3D-Handposen in Bildern zu verbessern, insbesondere mit Fokus auf Interaktionen zwischen zwei Händen. Unser Framework beinhaltet eine neue Möglichkeit, Handformen darzustellen, und eine innovative Verlustfunktion, die darauf abzielt, Überlappungen zwischen den Händen zu minimieren.
Hand-Mesh-Darstellung
Wir führen ein neues Hand-Mesh-Modell ein, das eine Möglichkeit ist, die Form der Hand effektiver darzustellen als traditionelle Modelle. Diese neue Darstellung ermöglicht ein wasserdichtes Mesh, das sicherstellt, dass es keine Löcher oder Lücken gibt; das ist entscheidend für eine genaue Modellierung. Das Mesh wird unter Verwendung eines Skeletts der Hand erstellt und fügt Scheitelpunkte hinzu, um eine vollständige Handform zu erzeugen.
Unser Modell hat weniger Scheitelpunkte als das weit verbreitete MANO-Modell, was es einfacher und benutzerfreundlicher macht. Dieses neue Mesh ist auch effizienter für die Modellierung der volumetrischen Form von Händen und kann schnell erstellt werden, was für unser Occupancy-Netzwerk entscheidend ist.
Occupancy-Netzwerk
Der Kern unseres Ansatzes ist ein Occupancy-Netzwerk. Dieses Netzwerk verwendet eine Darstellung der Handform, um zu bestimmen, ob ein Punkt im 3D-Raum im Volumen der Hand liegt. Das Occupancy-Netzwerk bietet eine kontinuierliche Darstellung der Hand, die dabei helfen kann, Überlappungen genau zu identifizieren.
Wenn zwei Hände interagieren, müssen wir überprüfen, ob ein Punkt im Volumen einer der Hände liegt. Das Occupancy-Netzwerk ermöglicht es uns, dies effektiv zu modellieren. Durch das Kodieren von Informationen über die Handform kann es eine Wahrscheinlichkeit angeben, ob ein gegebener Punkt von einer der Hände eingenommen wird.
Verlustfunktion für Überlappungen
Um die Leistung unseres Frameworks zu optimieren, führen wir eine Verlustfunktion für Überlappungen ein. Diese Funktion adressiert speziell die Herausforderungen überlappender Hände, indem sie die Wahrscheinlichkeit von Überlappungen minimiert. Sie stellt sicher, dass, wenn beide Hände im Modell dargestellt werden, wir unrealistische Überlappungen vermeiden.
Die Verlustfunktion für Überlappungen funktioniert, indem sie die Punkte der linken Hand mit dem Modell der rechten Hand vergleicht und umgekehrt. Diese Überprüfung hilft, physikalische Einschränkungen durchzusetzen, wie Hände interagieren können, was zu realistischeren Schätzungen führt.
Experimente und Ergebnisse
Wir haben unseren Ansatz mit mehreren bekannten Datensätzen evaluiert, wobei wir uns besonders auf den InterHand2.6M-Datensatz konzentriert haben, der eine grosse Sammlung von Bildern zeigt, die sowohl einzelne als auch interagierende Hände darstellen.
Leistung im InterHand2.6M-Datensatz
Mit unseren Modellen, die mit der Verlustfunktion für Überlappungen trainiert wurden, haben wir erhebliche Verbesserungen sowohl in der mittleren Fehlerquote für Handgelenke als auch eine Reduktion der Anzahl von Überlappungen festgestellt. Dies zeigte, dass unsere Methode nicht nur genauere Schätzungen liefert, sondern auch die physischen Interaktionen zwischen Händen besser handhabt als frühere Ansätze.
Bewertung auf anderen Datensätzen
Wir haben unsere Modelle auch auf anderen Datensätzen getestet, wie den Re:InterHand- und SMILE-Datensätzen, die komplexere Szenarien wie die Gebärdensprache-Interpretation enthalten. Die Ergebnisse dieser Datensätze bestätigten weiter, dass unsere Methode kontinuierlich die Überlappungen der Hände reduziert und eine geringe mittlere Fehlerquote bei der Gelenkposition beibehält, was ihre Effektivität in verschiedenen realen Anwendungen beweist.
Bewertung mit realen Videos
Um die praktische Anwendung unseres Modells zu bewerten, führten wir Auswertungen mit realen Videos durch. Diese Videos enthalten oft keine präzisen Ground-Truth-Daten, was es schwierig macht, die Genauigkeit zu messen. Trotzdem verbesserte unser Modell erfolgreich die Qualität der geschätzten Handpositionen und zeigte das Potenzial unseres Ansatzes in praktischen Szenarien.
Fazit
Unsere Arbeit bietet eine signifikante Verbesserung bei der Schätzung von 3D-Handposen, insbesondere wenn zwei Hände interagieren. Durch die Entwicklung einer neuen Hand-Mesh-Parametrisierung, einem Occupancy-Netzwerk zur Modellierung von Handvolumina und einer Verlustfunktion für Überlappungen, die die Überlappungen minimiert, haben wir ein robustes Framework geschaffen.
Diese Methode verbessert die Genauigkeit der Handpose-Schätzung über verschiedene Datensätze hinweg und reduziert unrealistische Überlappungen. Mit weiteren Tests und Anwendungen kann unser Ansatz einen erheblichen Einfluss auf die Bereiche Computer Vision, Mensch-Computer-Interaktion und Gebärdensprachenerkennung haben.
Titel: Two Hands Are Better Than One: Resolving Hand to Hand Intersections via Occupancy Networks
Zusammenfassung: 3D hand pose estimation from images has seen considerable interest from the literature, with new methods improving overall 3D accuracy. One current challenge is to address hand-to-hand interaction where self-occlusions and finger articulation pose a significant problem to estimation. Little work has applied physical constraints that minimize the hand intersections that occur as a result of noisy estimation. This work addresses the intersection of hands by exploiting an occupancy network that represents the hand's volume as a continuous manifold. This allows us to model the probability distribution of points being inside a hand. We designed an intersection loss function to minimize the likelihood of hand-to-point intersections. Moreover, we propose a new hand mesh parameterization that is superior to the commonly used MANO model in many respects including lower mesh complexity, underlying 3D skeleton extraction, watertightness, etc. On the benchmark InterHand2.6M dataset, the models trained using our intersection loss achieve better results than the state-of-the-art by significantly decreasing the number of hand intersections while lowering the mean per-joint positional error. Additionally, we demonstrate superior performance for 3D hand uplift on Re:InterHand and SMILE datasets and show reduced hand-to-hand intersections for complex domains such as sign-language pose estimation.
Autoren: Maksym Ivashechkin, Oscar Mendez, Richard Bowden
Letzte Aktualisierung: 2024-04-08 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2404.05414
Quell-PDF: https://arxiv.org/pdf/2404.05414
Lizenz: https://creativecommons.org/licenses/by-nc-sa/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.
Referenz Links
- https://openaccess.thecvf.com/content/CVPR2023/papers/Yu_ACR_Attention_Collaboration-Based_Regressor_for_Arbitrary_Two-Hand_Reconstruction_CVPR_2023_paper.pdf
- https://openaccess.thecvf.com/content/ICCV2021/papers/Zhang_Interacting_Two-Hand_3D_Pose_and_Shape_Reconstruction_From_Single_Color_ICCV_2021_paper.pdf
- https://openaccess.thecvf.com/content/CVPR2022/papers/Li_Interacting_Attention_Graph_for_Single_Image_Two-Hand_Reconstruction_CVPR_2022_paper.pdf
- https://www.ecva.net/papers/eccv_2022/papers_ECCV/papers/136660374.pdf
- https://openaccess.thecvf.com/content/CVPR2023/papers/Jiang_A2J-Transformer_Anchor-to-Joint_Transformer_Network_for_3D_Interacting_Hand_Pose_Estimation_CVPR_2023_paper.pdf
- https://arxiv.org/pdf/2107.00434v2.pdf
- https://www.sciencedirect.com/science/article/pii/S092523122101849X
- https://openaccess.thecvf.com/content/CVPR2021/papers/Liu_Semi-Supervised_3D_Hand-Object_Poses_Estimation_With_Interactions_in_Time_CVPR_2021_paper.pdf
- https://openaccess.thecvf.com/content/WACV2023/papers/Wang_Interacting_Hand-Object_Pose_Estimation_via_Dense_Mutual_Attention_WACV_2023_paper.pdf
- https://arxiv.org/pdf/2109.11399.pdf
- https://mks0601.github.io/InterHand2.6M/
- https://tex.stackexchange.com/questions/160109/citations-not-linking-to-bibliography
- https://tex.stackexchange.com/questions/52729/forcing-page-numbers-with-ieeetran