Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Visione artificiale e riconoscimento di modelli

Sviluppi nella Generazione del Movimento Umano

Nuovi metodi migliorano la qualità e la diversità della generazione di movimento dal testo.

― 5 leggere min


Migliorare le tecniche diMigliorare le tecniche digenerazione del movimentoqualità e la varietà del movimento.Nuovo dataset e metodi migliorano la
Indice

Generare movimenti umani basati su descrizioni testuali è diventato un argomento di interesse negli ultimi anni. Questo compito è fondamentale perché può essere applicato in vari settori, tra cui videogiochi, film, realtà virtuale e altro. Tuttavia, creare questi movimenti è stato complicato, soprattutto a causa della dipendenza da animatori professionisti o attori e attrezzature costose. Questa dipendenza rende il processo laborioso e costoso.

La Sfida della Generazione di Movimento

Molti dei metodi esistenti per generare movimenti umani si concentrano principalmente sulla qualità dei movimenti generati. Tuttavia, spesso trascurano la diversità dei movimenti. Questa mancanza di diversità può portare ad azioni ripetitive che rendono gli ambienti virtuali noiosi e poco coinvolgenti. Quando descrizioni testuali simili generano movimenti quasi identici, si traduce in una mancanza di varietà nelle azioni rappresentate.

I ricercatori hanno osservato che la gamma limitata di azioni disponibili nei dataset di movimento esistenti contribuisce a questo problema. Quando non ci sono abbastanza modelli di azione unici rappresentati nei dati, i modelli addestrati su questi dataset faticano a produrre output diversi. Inoltre, molti metodi attuali tendono a concentrarsi sul verbo principale in una descrizione testuale, ignorando altre parole importanti che possono aggiungere sfumature e dettagli alle azioni.

Costruire un Dataset di Movimento Diversificato

Per affrontare queste limitazioni, i ricercatori hanno proposto di creare un nuovo dataset che offre una gamma più ampia di azioni umane e descrizioni testuali corrispondenti. Questo nuovo dataset, noto come Wild Motion-Caption dataset, mira a colmare il divario tra i dati di movimento disponibili e la diversità necessaria per una migliore generazione di movimento da testo. Consiste in numerosi tipi di azione e consente una generazione di movimento di alta qualità e variegata.

Il processo di creazione di questo dataset implica la raccolta di un gran numero di clip di movimento da dataset di movimento esistenti. Queste clip vengono poi abbinate a descrizioni testuali che riflettono accuratamente le azioni eseguite. Utilizzando modelli AI avanzati, i ricercatori possono generare automaticamente didascalie diverse per le sequenze di movimento, arricchendo ulteriormente il dataset.

Comprendere i Comandi Testuali con Analisi Gerarchica

Una volta stabilito il dataset, comprendere i comandi testuali forniti diventa il passo successivo. Gli approcci tradizionali possono avere difficoltà a catturare tutti i dettagli in una frase. Per affrontare questo problema, è stato sviluppato un nuovo metodo chiamato Aggregazione Semantica Gerarchica (HSA). Questo metodo consente un'analisi più approfondita del testo, aiutando il modello di generazione di movimento a considerare tutti gli aspetti del comando, inclusi verbi, aggettivi e altre parole rilevanti.

Utilizzando HSA, il modello può creare una rappresentazione più ricca del testo, permettendogli di generare movimenti che sono più allineati con le descrizioni fornite. Questo consente una migliore comprensione delle azioni previste e aiuta a garantire che l'output finale rifletta accuratamente il testo di input.

Il Framework di Diffusione Discreta del Movimento

Il prossimo sviluppo significativo è il framework di Diffusione Discreta del Movimento (MDD), che integra il nuovo dataset costruito e il metodo di analisi gerarchica. Questo framework combina varie tecniche, inclusa la rappresentazione avanzata del movimento e i modelli di diffusione. L'obiettivo di MDD è raggiungere un equilibrio tra la qualità dei movimenti generati e la loro diversità.

Utilizzando un tipo specifico di autoencoder noto come Autoencoder Variazionale Quantizzato a Vettore (VQ-VAE), MDD può comprimere e rappresentare efficacemente i movimenti umani. Questa rappresentazione consente al framework di generare movimenti di alta qualità che sono anche diversi e variegati, affrontando i problemi visti nei modelli precedenti.

Metriche di Valutazione

Per misurare l'efficacia dei movimenti generati, vengono utilizzate diverse metriche di valutazione. Tra queste, la Distanza di Inception di Frechet (FID) valuta quanto i movimenti generati somigliano ai movimenti reali. Un FID più basso indica una migliore performance. Un'altra metrica, Distanza Multimodale (MM-Dist), confronta quanto bene i movimenti generati corrispondono alle loro descrizioni testuali. Più alta è la coerenza, migliori sono i risultati.

Queste metriche aiutano a fornire un quadro più chiaro di quanto bene il modello funzioni nella generazione di movimenti basati su input testuali e mettono in evidenza aree di miglioramento.

Risultati e Scoperte

Dopo ampi test su vari benchmark, il nuovo approccio ha dimostrato di superare i metodi esistenti all'avanguardia. I risultati mostrano che l'introduzione del Wild Motion-Caption dataset, insieme al modulo HSA, porta a miglioramenti significativi sia nella qualità che nella diversità dei movimenti generati.

Ad esempio, durante la valutazione su dataset ampiamente utilizzati, il modello sviluppato ha mostrato metriche di performance notevoli, indicando la sua capacità di produrre movimenti che non sono solo accurati, ma anche vari. Questo miglioramento è cruciale per applicazioni in cui azioni coinvolgenti e diversificate sono necessarie, come nei giochi e nell'animazione.

Conclusione

I progressi fatti nella generazione di movimenti umani attraverso lo sviluppo del Wild Motion-Caption dataset e del framework di Diffusione Discreta del Movimento presentano una direzione promettente per la ricerca futura. Concentrandosi sia sulla qualità che sulla diversità dei movimenti generati, questo lavoro apre la strada per esperienze virtuali più coinvolgenti.

La capacità di generare movimenti ricchi e variegati basati su descrizioni testuali apre nuove possibilità per i creatori in vari settori, rendendo più facile realizzare le loro visioni. Con il continuo avanzare della tecnologia, il potenziale per ulteriori miglioramenti in questo campo rimane notevole, promettendo sviluppi entusiasmanti nella generazione di movimenti umani.

Fonte originale

Titolo: DiverseMotion: Towards Diverse Human Motion Generation via Discrete Diffusion

Estratto: We present DiverseMotion, a new approach for synthesizing high-quality human motions conditioned on textual descriptions while preserving motion diversity.Despite the recent significant process in text-based human motion generation,existing methods often prioritize fitting training motions at the expense of action diversity. Consequently, striking a balance between motion quality and diversity remains an unresolved challenge. This problem is compounded by two key factors: 1) the lack of diversity in motion-caption pairs in existing benchmarks and 2) the unilateral and biased semantic understanding of the text prompt, focusing primarily on the verb component while neglecting the nuanced distinctions indicated by other words.In response to the first issue, we construct a large-scale Wild Motion-Caption dataset (WMC) to extend the restricted action boundary of existing well-annotated datasets, enabling the learning of diverse motions through a more extensive range of actions. To this end, a motion BLIP is trained upon a pretrained vision-language model, then we automatically generate diverse motion captions for the collected motion sequences. As a result, we finally build a dataset comprising 8,888 motions coupled with 141k text.To comprehensively understand the text command, we propose a Hierarchical Semantic Aggregation (HSA) module to capture the fine-grained semantics.Finally,we involve the above two designs into an effective Motion Discrete Diffusion (MDD) framework to strike a balance between motion quality and diversity. Extensive experiments on HumanML3D and KIT-ML show that our DiverseMotion achieves the state-of-the-art motion quality and competitive motion diversity. Dataset, code, and pretrained models will be released to reproduce all of our results.

Autori: Yunhong Lou, Linchao Zhu, Yaxiong Wang, Xiaohan Wang, Yi Yang

Ultimo aggiornamento: 2023-09-04 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2309.01372

Fonte PDF: https://arxiv.org/pdf/2309.01372

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili