Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Computerwissenschaften# Computer Vision und Mustererkennung

Fortschritte bei der Erstellung von 3D-Avataren aus Bildern

Erfahre, wie Technologie es einfacher macht, lebensechte 3D-Menschenavatare aus Bildern zu erstellen.

― 5 min Lesedauer


3D Avatar-Erstellung3D Avatar-ErstellungEinfach GemachtBildern.Entwicklung lebensechter Avatare ausNeue Methoden vereinfachen die
Inhaltsverzeichnis

Das Erstellen von 3D-Menschen-Avataren aus Bildern wird immer beliebter, besonders für Anwendungen im Metaversum und in Augmented Reality (AR) oder Virtual Reality (VR). Früher war es echt schwierig, solche Avatare zu machen, da man talentierte Künstler und teure Tools brauchte. Aber dank technologischen Fortschritten, vor allem bei neuronalen Netzwerken, wird dieser Prozess einfacher und automatisierter.

Traditionelle Methoden

Früher benötigte die Erstellung von Menschen-Avataren viel manuelle Arbeit und sorgfältige Einstellungen. Die Künstler mussten Modelle in kontrollierten Umgebungen erstellen und jedes Detail anpassen. In letzter Zeit gibt es einige Tools, die das einfacher machen wollen, indem sie Deep-Learning-Techniken nutzen. Diese Methoden können entweder so trainiert werden, dass sie menschliche Formen direkt aus Bildern verstehen oder Tiefenkarten vorhersagen, die eine Vorstellung davon geben, wie weit entfernt jeder Teil des Bildes ist.

Neue Techniken

Neuere Techniken kombinieren verschiedene Methoden, um bessere 3D-Modelle zu erstellen. Einige Methoden nutzen sogenannte tiefe implizite Funktionen. Diese Funktionen können die Form eines Menschen bestimmen, indem sie Abstände im 3D-Raum berechnen. Andere basieren auf expliziten Methoden, die direkt vorhersagen, wie Dinge aus einem bestimmten Winkel aussehen. Das bedeutet, sie könnten Formen wie Tiefenkarten klarer vorhersagen als der implizite Ansatz.

Einige Methoden mischen explizite und implizite Ansätze für bessere Ergebnisse. Sie nutzen beide Formen, um die Qualität der erstellten Modelle zu verbessern. Das hat dazu geführt, dass Forscher untersuchen, wie man diese Modelle animieren kann, um lebensechte Bewegungen zu erzeugen.

Erstellung lebensechter Avatare

Um Avatare zu erstellen, die natürlich bewegen, ist es wichtig, die Positionierung der Gelenke und die Skinning-Gewichte zu bekommen, also wie die Haut über das Skelett passt und sich bewegt. Viele Studien verwenden bestehende Modelle als Ausgangspunkt, indem sie diese Vorlagen auf die neuen Modelle anpassen. Dieser Prozess wird als inverses Skinning bezeichnet. Es ermöglicht die Erstellung eines Basis-Meshs, das realistisch bewegt werden kann.

Direkte Methoden zur Vorhersage von Skinning-Gewichten sind ebenfalls aufgetaucht. Durch die Nutzung von Tiefenkarten können einige Systeme schätzen, wie sich jeder Punkt auf einem Mesh basierend auf den gemachten Bildern bewegen sollte.

Schlüsselkonzepte

Eine der Hauptideen bei der Entwicklung dieser Avatare ist das, was man Linear Blend Skinning (LBS) nennt. Diese Technik berechnet, wie verschiedene Gelenke die Position der Mesh-Vorfelder beeinflussen. Wenn sich ein Modell bewegt, bewegt sich die Haut entsprechend, was hilft, einen natürlichen Look zu erzeugen.

Bei fortschrittlicheren Techniken sagen Forscher gleichzeitig Tiefen- und LBS-Karten voraus. Das bedeutet, ein besseres Verständnis dafür zu bekommen, wie das Modell aus verschiedenen Winkeln aussehen sollte, während auch geschätzt wird, wie es sich bewegen wird.

Der Prozess der Avatar-Erstellung

Der Prozess der Avatar-Erstellung beginnt damit, Tiefen- und Skinning-Gewichte aus Bildern vorherzusagen. Oft wird dafür ein geteilter Encoder und ein dualer Decoder-Netzwerk verwendet. Dieses System analysiert die Bilder und liefert sowohl Tiefen- als auch Skinning-Gewicht-Karten für die Vorder- und Rückseite.

Nachdem diese Vorhersagen getroffen wurden, besteht der nächste Schritt darin, ein anfängliches Mesh zu erstellen, das zur Formung des finalen Modells verwendet werden kann. Dieses anfängliche Mesh wird typischerweise verfeinert, indem mehrere Bilder über einen Rendering-Prozess integriert werden. Durch Minimierung der Fehler im vorhergesagten Mesh wird das Ergebnis ein genauerer und lebensechter Avatar.

Verfeinerung des Modells

Sobald das anfängliche Mesh erstellt ist, durchläuft es einen Verfeinerungsprozess. Dieser Schritt stellt sicher, dass das Modell nicht nur gut aussieht, sondern sich auch gut bewegt, wenn es in verschiedenen Positionen posiert wird. Es ist wichtig, Abweichungen zwischen tatsächlichen Farben, Formen und wie sie in den Bildern erscheinen, zu minimieren.

Durch eine Technik namens Neural Deferred Shading (NDS) kann die Pose und das Aussehen des Modells basierend auf den gesammelten Eingabedaten aktualisiert werden. Dieser Prozess aktualisiert den Avatar, indem er viele Bilder auf einmal aufnimmt, sodass das System verschiedene Posen und Winkel ohne Detailverlust verarbeiten kann.

Vorteile des Ansatzes

Der besprochene Ansatz ermöglicht mehr Flexibilität und Genauigkeit. Indem er die Anzahl der verwendbaren Bilder nicht einschränkt, bietet er Vielseitigkeit, um Modelle aus verschiedenen Perspektiven zu erstellen. Egal, ob es ein Bild oder mehrere sind, das System kann Avatare effektiv erstellen und verfeinern.

Darüber hinaus kann die Methode Fehler anpassen, die von den Posen oder Skinning-Gewichten herrühren könnten. Das bedeutet, selbst wenn die ursprünglichen Eingabebilder nicht perfekt sind, kann der finale Avatar trotzdem gut aussehen.

Herausforderungen im Bereich

Trotz der Fortschritte bei der Erstellung von Menschen-Avataren gibt es einige Herausforderungen. Zum Beispiel bleibt es ein Problem, lockere Kleidung und Haarbewegungen genau zu erfassen. Viele bestehende Methoden haben Schwierigkeiten mit diesen Elementen, da sie oft auf vordefinierten Vorlagen basieren, die sich möglicherweise nicht gut an Variationen im Stil und Schnitt anpassen.

Ausserdem kann es zu Problemen führen, wenn sichergestellt werden muss, dass alle Teile des Avatars sichtbar und korrekt definiert sind. Zum Beispiel könnten Bereiche wie Achseln oder Oberschenkel nicht die passende Aufmerksamkeit bekommen, die sie verdienen, was zu Lücken im finalen Modell führt.

Die Zukunft der Avatar-Erstellung

In die Zukunft blickend konzentrieren sich Forscher darauf, wie diese Avatare verbessert werden können. Es gibt grosses Interesse daran, realistischere Aspekte von Avataren einzufangen, einschliesslich der natürlichen Bewegungen von Kleidung und Haar. Das zu erreichen erfordert die Kombination aktueller Methoden mit generativen Techniken, um vielfältigere und lebensechtere Avatar-Designs zu ermöglichen.

Das Ziel ist es, diese Avatare nicht nur visuell ansprechend, sondern auch funktional in virtuellen Räumen zu machen. Diese Evolution wird eine breitere Palette an Anwendungen unterstützen, die Interaktionen im Metaversum verbessern und die Erfahrungen in AR- und VR-Umgebungen steigern.

Fazit

Zusammenfassend lässt sich sagen, dass die Erstellung realistischer und beweglicher 3D-Menschen-Avatare aus Bildern spannende Möglichkeiten bietet. Mit den fortlaufenden Fortschritten in Technologie und Techniken bewegen sich die Prozesse, die früher erheblichen manuellen Aufwand erforderten, jetzt in Richtung Automatisierung und Effizienz. Wenn sich diese Methoden weiterentwickeln, können wir eine breitere Vielfalt an lebensechten Avataren erwarten, die unsere Erfahrungen in virtuellen Umgebungen bereichern.

Originalquelle

Titel: CanonicalFusion: Generating Drivable 3D Human Avatars from Multiple Images

Zusammenfassung: We present a novel framework for reconstructing animatable human avatars from multiple images, termed CanonicalFusion. Our central concept involves integrating individual reconstruction results into the canonical space. To be specific, we first predict Linear Blend Skinning (LBS) weight maps and depth maps using a shared-encoder-dual-decoder network, enabling direct canonicalization of the 3D mesh from the predicted depth maps. Here, instead of predicting high-dimensional skinning weights, we infer compressed skinning weights, i.e., 3-dimensional vector, with the aid of pre-trained MLP networks. We also introduce a forward skinning-based differentiable rendering scheme to merge the reconstructed results from multiple images. This scheme refines the initial mesh by reposing the canonical mesh via the forward skinning and by minimizing photometric and geometric errors between the rendered and the predicted results. Our optimization scheme considers the position and color of vertices as well as the joint angles for each image, thereby mitigating the negative effects of pose errors. We conduct extensive experiments to demonstrate the effectiveness of our method and compare our CanonicalFusion with state-of-the-art methods. Our source codes are available at https://github.com/jsshin98/CanonicalFusion.

Autoren: Jisu Shin, Junmyeong Lee, Seongmin Lee, Min-Gyu Park, Ju-Mi Kang, Ju Hong Yoon, Hae-Gon Jeon

Letzte Aktualisierung: 2024-07-15 00:00:00

Sprache: English

Quell-URL: https://arxiv.org/abs/2407.04345

Quell-PDF: https://arxiv.org/pdf/2407.04345

Lizenz: https://creativecommons.org/licenses/by-nc-sa/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.

Mehr von den Autoren

Ähnliche Artikel