Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Computerwissenschaften# Computer Vision und Mustererkennung

Modellierung menschlicher Interaktionen aus Bildern

Ein neues Modell analysiert soziale Interaktionen mit 2D-Bildern, um 3D-Verhalten zu simulieren.

― 5 min Lesedauer


3D Soziale3D SozialeInteraktionsmodellierung3D-Darstellungen.Verhalten aus 2D-Bildern inDas Analysieren von menschlichem
Inhaltsverzeichnis

Menschliche Interaktionen sind wichtig in unserem Alltag. Wenn wir Leute zusammen sehen, können ihre Positionen und Gesten uns viel über ihre Beziehung und Gefühle erzählen. Aber diese Interaktionen in drei Dimensionen (3D) zu verstehen, ist nicht einfach. Herkömmliche Methoden, das zu studieren, basieren oft darauf, spezifische 3D-Daten zu sammeln, was zeitaufwendig und kompliziert ist. Stattdessen können wir Bilder verwenden, in denen Menschen interagieren. Dieser Ansatz erlaubt es uns, ein besseres Modell dafür zu erstellen, wie Menschen sich in sozialen Situationen verhalten.

Was ist Proxemik?

Proxemik bezieht sich darauf, wie Leute sich in Bezug auf andere positionieren. Zum Beispiel, wenn zwei Freunde nah beieinander stehen, deutet das auf ein gewisses Mass an Intimität hin. Andererseits, wenn zwei Fremde weiter auseinander stehen, deutet das auf Formalität hin. Diese räumlichen Beziehungen können soziale Hinweise geben, die unsere Interaktionen leiten. Indem wir Proxemik studieren, können wir mehr über menschliches Verhalten lernen.

Ansatz zum Verstehen sozialer Interaktionen

In dieser Studie konzentrieren wir uns darauf, ein Modell zu erstellen, das 3D-soziale Interaktionen aus 2D-Bildern lernen kann. Das geschieht durch einen Prozess, der eine Darstellung davon aufbaut, wie zwei Personen eng miteinander interagieren. Wir analysieren Bilder, auf denen Menschen zusammen zu sehen sind, und nutzen diese, um ein Modell zu trainieren, das verschiedene Interaktionen in 3D simulieren kann.

Datensammlung

Obwohl es in Bildern von Menschen viele Informationen gibt, ist es herausfordernd, 3D-Daten von zwei oder mehr Personen, die miteinander interagieren, zu sammeln. Um das zu umgehen, entwickeln wir eine Methode, um "Pseudo-Ground Truth" 3D-Modelle aus Bildern zu erstellen. Mithilfe bestehender Techniken generieren wir 3D-Formen und Posen von interagierenden Personen basierend auf ihren Positionen in den Bildern.

Lernen aus Daten

Wir trainieren unser Modell mit den 3D-Darstellungen, die wir aus den Bildern generiert haben. Das Modell lernt, wie typische Interaktionen aussehen, wodurch es neue Interaktionen generieren kann, wenn es mit einfachen Ausgangspunkten, wie zufälligem Rauschen, gefüttert wird. Das bedeutet, wir können realistische Darstellungen von Menschen, die interagieren, erstellen, ohne detaillierte Anmerkungen zu benötigen.

Die Vorteile der Verwendung von Bildern

Die Verwendung von Bildern bietet verschiedene Vorteile. Wir haben eine Menge Fotos, die Menschen in unterschiedlichen sozialen Situationen zeigen. Das bietet einen reichhaltigen Datensatz, der reale Interaktionen widerspiegelt. Das Modell, das wir gebaut haben, kann verschiedene Interaktionen erzeugen, wie Menschen, die sich umarmen, Sport treiben oder einfach nur nah beieinander stehen. Diese Flexibilität ist wertvoll für Anwendungen wie die Erstellung realistischer Szenen in der virtuellen Realität oder Animation.

Validierung des Modells

Um sicherzustellen, dass unser Modell gut funktioniert, validieren wir es durch Benutzerstudien. Wir bitten Freiwillige, zu bewerten, wie realistisch die vom Modell produzierten Interaktionen im Vergleich zu echten Bildern erscheinen. Feedback hilft uns zu verstehen, wie gut das Modell die Nuancen menschlicher Interaktionen einfängt. Die Ergebnisse zeigen, dass unser Modell überzeugendere Interaktionen erzeugen kann als bestehende Methoden.

Rekonstruktion von Interaktionen aus Bildern

Neben der Generierung von Interaktionen kann unser Ansatz auch ein einzelnes Bild nehmen und rekonstruieren, wie zwei Personen möglicherweise in 3D interagieren. Dieser Prozess nutzt das Modell, das wir entwickelt haben, um ihre 3D-Posen zu optimieren. Statt auf spezifische Anmerkungen zu setzen, leiten wir das Modell mit den gelernten Prinzipien sozialer Interaktion. Der Optimierungsprozess passt die Posen so an, dass sie besser in den Kontext des Bildes passen.

Anwendungen

Die Erkenntnisse aus dieser Arbeit können in verschiedenen Bereichen angewendet werden. Zum Beispiel können wir in der erweiterten Realität (AR) virtuelle Umgebungen mit realistischen Darstellungen von Menschen bevölkern. In Videospielen und Filmen kann die Erstellung glaubhafter Charakterinteraktionen das Geschichtenerzählen verbessern. Darüber hinaus kann unser Ansatz nützlich bei sozialen Robotern sein, um ihnen zu helfen, menschliches Verhalten besser zu verstehen.

Herausforderungen und zukünftige Arbeiten

Obwohl wir bedeutende Fortschritte gemacht haben, bleiben Herausforderungen bestehen. Die erzeugten Interaktionen können weiter verbessert werden, und wir planen, das Modell zu erweitern, indem wir es mit vielfältigeren Daten trainieren. Ausserdem wäre es spannend zu erkunden, wie das Modell mit komplexeren Szenarien, wie Gruppen von Leuten, arbeiten kann. Zukünftige Experimente könnten auch darin bestehen, das Modell mit verschiedenen Arten von Eingaben, wie Textbeschreibungen oder spezifischen Aktionen, zu konditionieren, um fokussiertere Interaktionen zu erzeugen.

Fazit

Das Verständnis der Art und Weise, wie Menschen in 3D-Räumen aus 2D-Bildern interagieren, eröffnet neue Möglichkeiten, um soziales Verhalten zu studieren. Durch die Nutzung bestehender Daten aus Fotografien können wir ein Modell erstellen, das menschliche Interaktionen genau widerspiegelt. Dieses Modell generiert nicht nur realistische Darstellungen von Menschen in sozialen Situationen, sondern hilft auch bei der Rekonstruktion von Interaktionen aus einzelnen Bildern. Die Ergebnisse ebnen den Weg für ein tieferes Verständnis menschlichen Verhaltens und können erheblich zu Industrien beitragen, die auf realistische Charakterinteraktionen angewiesen sind. Während wir weiterhin das Modell verfeinern, freuen wir uns auf breitere Anwendungen und Fortschritte im Bereich der Mensch-Computer-Interaktion.

Originalquelle

Titel: Generative Proxemics: A Prior for 3D Social Interaction from Images

Zusammenfassung: Social interaction is a fundamental aspect of human behavior and communication. The way individuals position themselves in relation to others, also known as proxemics, conveys social cues and affects the dynamics of social interaction. Reconstructing such interaction from images presents challenges because of mutual occlusion and the limited availability of large training datasets. To address this, we present a novel approach that learns a prior over the 3D proxemics two people in close social interaction and demonstrate its use for single-view 3D reconstruction. We start by creating 3D training data of interacting people using image datasets with contact annotations. We then model the proxemics using a novel denoising diffusion model called BUDDI that learns the joint distribution over the poses of two people in close social interaction. Sampling from our generative proxemics model produces realistic 3D human interactions, which we validate through a perceptual study. We use BUDDI in reconstructing two people in close proximity from a single image without any contact annotation via an optimization approach that uses the diffusion model as a prior. Our approach recovers accurate and plausible 3D social interactions from noisy initial estimates, outperforming state-of-the-art methods. Our code, data, and model are availableat our project website at: muelea.github.io/buddi.

Autoren: Lea Müller, Vickie Ye, Georgios Pavlakos, Michael Black, Angjoo Kanazawa

Letzte Aktualisierung: 2023-12-12 00:00:00

Sprache: English

Quell-URL: https://arxiv.org/abs/2306.09337

Quell-PDF: https://arxiv.org/pdf/2306.09337

Lizenz: https://creativecommons.org/licenses/by-sa/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.

Mehr von den Autoren

Ähnliche Artikel