Generare movimenti umani realistici in 3D
Un metodo per creare movimento umano in ambienti 3D basato su testo.
― 7 leggere min
Indice
Creare movimenti umani realistici che possano interagire con scene tridimensionali (3D) è importante per tanti ambiti, come i videogiochi e la robotica. Ad esempio, gli animatori che lavorano su videogiochi e film devono creare movimenti che permettano ai personaggi di camminare attraverso ambienti complessi e interagire con oggetti in modo naturale. Non si tratta solo di far muovere il personaggio, ma anche di assicurarsi che il movimento si adatti allo stile specifico desiderato dall'animatore.
Un modo semplice per controllare questi movimenti è usare descrizioni testuali. Per esempio, una descrizione come "salta felice verso la sedia e siediti" può guidare il processo di animazione. Di recente, sono emerse tecniche conosciute come modelli di diffusione, che mostrano buoni risultati nella generazione di movimenti umani basati su tali input testuali. Questi modelli permettono agli utenti di gestire lo stile del movimento, incorporando anche dettagli spaziali per rendere i movimenti più realistici.
Tuttavia, molti metodi precedenti si sono concentrati su personaggi che si muovono senza considerare l'ambiente circostante o gli oggetti con cui interagiscono. Il nostro lavoro cerca di cambiare questo includendo la consapevolezza della scena nel modo in cui generiamo movimenti umani.
Sfide nella Generazione di Movimenti
Generare movimenti che coinvolgono l'Interazione con l'ambiente non è facile. Uno dei problemi più grandi è che ci sono pochissimi dataset che mostrano come gli esseri umani si muovono in diversi ambienti mentre interagiscono con oggetti. La maggior parte dei dataset disponibili mostra persone che si muovono da sole senza alcun contesto o oggetti attorno a loro.
Alcuni tentativi passati di risolvere questo problema si sono basati su piccoli dataset, che limitano la gamma di movimenti che i modelli possono riprodurre con precisione. Altri hanno utilizzato tecniche di apprendimento per rinforzo, permettendo ai modelli di apprendere movimenti da esempi limitati. Tuttavia, creare funzioni di ricompensa per questi modelli per produrre movimenti naturali è spesso complesso e richiede tempo.
Per affrontare queste sfide, abbiamo sviluppato un metodo per generare movimenti umani in una scena basato su suggerimenti testuali. Il nostro metodo non solo affronta la mancanza di dati, ma incorpora anche la consapevolezza della scena nei movimenti generati.
Il Metodo Proposto
Il nostro approccio coinvolge due componenti principali: generare movimenti per navigare attorno agli ostacoli e creare interazioni con oggetti. L'obiettivo è permettere agli utenti di controllare queste azioni tramite descrizioni testuali, garantendo al contempo che i movimenti generati siano realistici e vari.
Prima, pre-addestriamo un modello senza scene specifiche, concentrandoci su un ampio dataset di movimenti umani. Questo consente al modello di apprendere i movimenti di base che gli esseri umani compiono e come questi movimenti si relazionano alle descrizioni testuali. Una volta stabilito questo modello di base, lo affinizziamo aggiungendo una componente specifica per la scena che utilizza dettagli sull'ambiente circostante.
Il processo di affinamento richiede dati che mostrano esseri umani che interagiscono con vari oggetti in Ambienti 3D realistici. Abbiamo sviluppato un nuovo dataset specificamente per questo scopo, combinando dati esistenti sui movimenti umani con informazioni dettagliate sulla scena.
Strutturando il nostro approccio in due fasi, Navigazione e interazione, possiamo garantire che la generazione di movimenti sia sia contestualmente appropriata che reattiva agli input testuali.
Processo di Generazione del Movimento
Quando un utente fornisce una descrizione testuale e specifica un oggetto target, il nostro sistema divide il compito in due parti:
- Navigazione: Questo implica muovere il personaggio verso una posizione specifica vicino all'oggetto target evitando ostacoli.
- Interazione: Una volta che il personaggio è abbastanza vicino all'oggetto, il sistema genera il movimento necessario per interagire con esso in modo appropriato.
La fase di navigazione utilizza un modello addestrato per prevedere un percorso attraverso l'ambiente basato sulle istruzioni testuali. Questo percorso viene quindi trasformato in un movimento a corpo intero, garantendo che il movimento del personaggio appaia naturale mentre si avvicina all'oggetto.
Una volta che il personaggio raggiunge l'area target, il modello di interazione subentra per generare il movimento specifico necessario per interagire con l'oggetto, come sedersi o raccoglierlo.
Addestramento con Consapevolezza della Scena
Per addestrare il nostro modello per la componente di navigazione, abbiamo utilizzato informazioni dettagliate sulle scene 3D, inclusi layout e forme degli oggetti all'interno di quelle scene. Per questo, abbiamo creato un dataset che include numerosi movimenti di camminata collocati in vari ambienti interni. Questo dataset consente al modello di imparare come navigare in ambienti complessi senza collidere con gli oggetti.
Per il modello di interazione, ci siamo concentrati su come i personaggi possono interagire con oggetti come sedie o tavoli. Abbiamo potenziato la capacità del modello di gestire queste interazioni utilizzando una combinazione di dati sui movimenti esistenti e aggiungendo descrizioni testuali per ogni movimento.
Abbiamo utilizzato l'augmentazione dei dati per migliorare ulteriormente le prestazioni del nostro modello, assicurandoci che possa gestire forme e posizioni diverse degli oggetti mantenendo interazioni realistiche.
Esperimenti e Risultati
Per valutare il nostro metodo, abbiamo condotto vari test per confrontare la nostra generazione di movimenti con tecniche esistenti. Ci siamo concentrati su due aree principali: prestazioni di navigazione e movimenti di interazione uomo-oggetto.
Prestazioni di Navigazione
Il nostro modello di navigazione è stato testato su un dataset dedicato che includeva numerose scene. Le metriche di valutazione consideravano quanto accuratamente il movimento generato raggiungeva una posizione specifica evitando ostacoli. I risultati hanno mostrato che il nostro modello ha superato i metodi precedenti, raggiungendo una maggiore accuratezza nel raggiungere gli obiettivi con meno collisioni.
Il modello è stato anche confrontato con approcci precedenti addestrati su dati non specifici per la scena. Il nostro metodo ha mantenuto alte prestazioni, indicando che l'incorporazione della consapevolezza della scena ha migliorato significativamente le abilità di navigazione.
Interazione Uomo-Oggetto
Per le interazioni uomo-oggetto, abbiamo confrontato il nostro approccio con un'altra tecnica avanzata che genera movimenti basati sull'apprendimento per rinforzo. Nei nostri test, il nostro metodo ha dimostrato una migliore accuratezza nel raggiungere le pose desiderate e ha mostrato meno casi di penetrazione del corpo del personaggio negli oggetti.
Uno studio con utenti ha ulteriormente evidenziato l'efficacia del nostro approccio. I partecipanti hanno preferito i movimenti generati dal nostro metodo rispetto alla tecnica concorrente, notando il maggiore realismo nelle interazioni.
Generazione di Movimenti Realistici
Il nostro metodo consente agli utenti di esercitare il controllo sui movimenti del personaggio tramite una varietà di suggerimenti testuali. Questo consente azioni distinte come sedersi o alzarsi, stilizzate in base alle descrizioni fornite, come "sedersi lentamente" o "saltare sulla sedia."
Inoltre, gli utenti possono guidare il percorso del personaggio fornendo un percorso definito, consentendo un controllo ancora più sfumato sulla navigazione del personaggio attraverso le scene.
Guida al Momento del Test
Durante la fase di test, abbiamo applicato tecniche di guida per migliorare il realismo dei movimenti generati. Questo includeva misure per garantire che i personaggi raggiungessero i loro obiettivi evitando gli ostacoli. Gli aggiustamenti fatti in questa fase hanno aiutato a rifinire i movimenti, portando a interazioni più convincenti e coinvolgenti.
Limitazioni e Lavori Futuri
Sebbene il nostro metodo di navigazione riesca a raggiungere obiettivi con precisione e generi movimenti controllabili, il processo di generazione in due fasi potrebbe non sempre creare movimenti perfettamente sincronizzati tra navigazione e interazione. Ricerche future potrebbero esplorare modelli a una fase che generano traiettorie del bacino e movimenti a corpo intero simultaneamente per un output più coerente.
Inoltre, espandere la gamma di azioni che il modello può eseguire, come sdraiarsi o interagire con oggetti in movimento, creerebbe un sistema più dinamico. Integrare il modello con sistemi di pianificazione per formulare una sequenza di azioni basate su suggerimenti testuali potrebbe ulteriormente migliorare le sue capacità.
Conclusione
Abbiamo introdotto un metodo per generare interazioni umane in ambienti 3D basato su descrizioni testuali. Questo nuovo approccio combina un robusto sistema di navigazione con un modello di interazione che considera il contesto circostante, creando movimenti realistici e diversificati.
Sviluppando un nuovo dataset e sfruttando dati esistenti di cattura del movimento, il nostro modello supera le tecniche all'avanguardia mentre consente il controllo da parte dell'utente attraverso semplici input testuali. I risultati supportano l'efficacia dell'inclusione della consapevolezza della scena nella generazione di movimenti, aprendo la strada a applicazioni interattive più avanzate nei giochi e nella robotica.
Titolo: Generating Human Interaction Motions in Scenes with Text Control
Estratto: We present TeSMo, a method for text-controlled scene-aware motion generation based on denoising diffusion models. Previous text-to-motion methods focus on characters in isolation without considering scenes due to the limited availability of datasets that include motion, text descriptions, and interactive scenes. Our approach begins with pre-training a scene-agnostic text-to-motion diffusion model, emphasizing goal-reaching constraints on large-scale motion-capture datasets. We then enhance this model with a scene-aware component, fine-tuned using data augmented with detailed scene information, including ground plane and object shapes. To facilitate training, we embed annotated navigation and interaction motions within scenes. The proposed method produces realistic and diverse human-object interactions, such as navigation and sitting, in different scenes with various object shapes, orientations, initial body positions, and poses. Extensive experiments demonstrate that our approach surpasses prior techniques in terms of the plausibility of human-scene interactions, as well as the realism and variety of the generated motions. Code will be released upon publication of this work at https://research.nvidia.com/labs/toronto-ai/tesmo.
Autori: Hongwei Yi, Justus Thies, Michael J. Black, Xue Bin Peng, Davis Rempe
Ultimo aggiornamento: 2024-04-16 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2404.10685
Fonte PDF: https://arxiv.org/pdf/2404.10685
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.
Link di riferimento
- https://research.nvidia.com/labs/toronto-ai/tesmo
- https://www.figma.com/file/HitmjkhQTnJIGsQFO7szSc/teaser?type=design&t=4Iqo8WmDja2Unhaq-1
- https://docs.google.com/drawings/d/1hu0Cg9_yuTaQ7MMvxMh8ElMleRA7WqGzPJF_eUBECBk/edit?usp=sharing
- https://www.springer.com/gp/computer-science/lncs
- https://ctan.org/pkg/axessibility?lang=en