Generando movimientos humanos realistas en 3D
Un método para crear movimiento humano en entornos 3D basado en texto.
― 8 minilectura
Tabla de contenidos
- Desafíos en la Generación de Movimientos
- El Método Propuesto
- Proceso de Generación de Movimientos
- Entrenamiento con Conciencia de la Escena
- Experimentos y Resultados
- Rendimiento de Navegación
- Interacción Humano-Objeto
- Generación de Movimiento Realista
- Guía en Tiempo de Prueba
- Limitaciones y Trabajo Futuro
- Conclusión
- Fuente original
- Enlaces de referencia
Crear movimientos humanos realistas que puedan interactuar con escenas tridimensionales (3D) es importante para muchos campos, como los videojuegos y la robótica. Por ejemplo, los animadores que trabajan en videojuegos y películas necesitan crear movimientos que permitan a los personajes caminar a través de entornos complejos y interactuar con objetos de manera natural. No se trata solo de hacer que el personaje se mueva, sino también de asegurar que el movimiento se ajuste al estilo específico deseado por el animador.
Una manera sencilla de controlar estos movimientos es usando descripciones en texto. Por ejemplo, una descripción como "salta felizmente hacia la silla y siéntate" puede guiar el proceso de animación. Recientemente, han surgido técnicas conocidas como modelos de difusión, que han mostrado buenos resultados en la generación de movimientos humanos basados en tales entradas de texto. Estos modelos permiten a los usuarios gestionar el estilo del movimiento, al mismo tiempo que incorporan detalles espaciales para que los movimientos sean más realistas.
Sin embargo, muchos métodos anteriores se centraron en personajes que se movían sin considerar su entorno o los objetos con los que interactuaban. Nuestro trabajo busca cambiar esto al incluir la conciencia de la escena en cómo generamos movimientos humanos.
Desafíos en la Generación de Movimientos
Generar movimientos que involucren Interacción con el entorno no es fácil. Uno de los mayores problemas es que hay muy pocos Conjuntos de datos que muestren cómo se mueven los humanos en diferentes entornos mientras interactúan con objetos. La mayoría de los conjuntos de datos disponibles muestran a personas moviéndose solas sin ningún contexto ni objetos a su alrededor.
Algunos intentos anteriores por resolver este problema dependieron de conjuntos de datos pequeños, lo que limita el rango de movimientos que los modelos pueden reproducir con precisión. Otros han utilizado técnicas de aprendizaje por refuerzo, permitiendo que los modelos aprendan movimientos de ejemplos limitados. Sin embargo, crear funciones de recompensa para que estos modelos produzcan movimientos naturales suele ser complejo y consumir mucho tiempo.
Para enfrentar estos desafíos, desarrollamos un método para generar movimientos humanos en una escena basados en indicaciones de texto. Nuestro método no solo aborda la falta de datos, sino que también incorpora la conciencia del escenario en los movimientos generados.
El Método Propuesto
Nuestro enfoque involucra dos componentes principales: generar movimientos para navegar alrededor de obstáculos y crear interacciones con objetos. El objetivo es permitir a los usuarios controlar estas acciones a través de descripciones en texto mientras se asegura que los movimientos generados sean realistas y variados.
Primero, preentrenamos un modelo sin escenas específicas, centrándonos en un conjunto grande de movimientos humanos. Esto permite que el modelo aprenda los movimientos básicos que realizan los humanos y cómo estos movimientos se relacionan con las descripciones de texto. Una vez establecido este modelo fundamental, lo afinamos añadiendo un componente específico de la escena que utiliza detalles sobre el entorno.
El proceso de ajuste fino requiere datos que muestren a humanos interactuando con varios objetos en Entornos 3D realistas. Desarrollamos un nuevo conjunto de datos específicamente para este propósito, combinando datos existentes sobre movimientos humanos con información detallada de las escenas.
Al estructurar nuestro enfoque en dos etapas, Navegación e interacción, podemos asegurar que la generación de movimientos sea tanto apropiada contextualmente como receptiva a las entradas de texto.
Proceso de Generación de Movimientos
Cuando un usuario proporciona una descripción en texto y especifica un objeto objetivo, nuestro sistema divide la tarea en dos partes:
- Navegación: Esto implica mover al personaje a una ubicación específica cerca del objeto objetivo mientras se evitan obstáculos.
- Interacción: Una vez que el personaje está lo suficientemente cerca del objeto, el sistema genera el movimiento necesario para interactuar con él adecuadamente.
El paso de navegación utiliza un modelo entrenado para predecir un camino a través del entorno basado en las instrucciones de texto. Este camino se transforma en un movimiento de cuerpo completo, asegurando que el movimiento del personaje se vea natural mientras se acerca al objeto.
Una vez que el personaje llega al área objetivo, el modelo de interacción toma el control para generar el movimiento específico necesario para interactuar con el objeto, como sentarse o recogerlo.
Entrenamiento con Conciencia de la Escena
Para entrenar nuestro modelo para la componente de navegación, usamos información detallada sobre las escenas 3D, incluyendo el diseño y las formas de los objetos dentro de esas escenas. Para esto, creamos un conjunto de datos que incluye numerosos movimientos de caminar colocados en varios entornos interiores. Este conjunto de datos permite que el modelo aprenda a navegar en entornos complejos sin chocar con objetos.
Para el modelo de interacción, nos enfocamos en aprender cómo los personajes pueden interactuar con objetos como sillas o mesas. Fortalecimos la capacidad del modelo para manejar estas interacciones utilizando una combinación de datos de movimiento existentes y añadiendo descripciones de texto para cada movimiento.
Utilizamos aumento de datos para mejorar aún más el rendimiento de nuestro modelo, asegurando que pueda manejar diferentes formas y posiciones de objetos mientras mantiene interacciones realistas.
Experimentos y Resultados
Para evaluar nuestro método, realizamos varias pruebas para comparar nuestra generación de movimientos con técnicas existentes. Nos centramos en dos áreas principales: rendimiento de navegación y movimientos de interacción humano-objeto.
Rendimiento de Navegación
Nuestro modelo de navegación fue probado en un conjunto de datos dedicado que incluía numerosas escenas. Las métricas de evaluación consideraron cuán precisamente el movimiento generado alcanzaba una ubicación específica mientras evitaba obstáculos. Los resultados mostraron que nuestro modelo superó a los métodos anteriores, logrando una mayor precisión al alcanzar metas con menos colisiones.
El modelo también se comparó con enfoques previos entrenados en datos agnósticos a la escena. Nuestro método mantuvo un alto rendimiento, indicando que incorporar la conciencia de la escena mejoró significativamente las habilidades de navegación.
Interacción Humano-Objeto
Para las interacciones humano-objeto, comparamos nuestro enfoque con otra técnica avanzada que genera movimientos basados en aprendizaje por refuerzo. En nuestras pruebas, nuestro método demostró mejor precisión al lograr las poses deseadas y mostró menos instancias de que el cuerpo del personaje penetrara los objetos.
Un estudio con usuarios enfatizó aún más la efectividad de nuestro enfoque. Los participantes prefirieron los movimientos generados por nuestro método sobre la técnica competidora, notando una mayor realismo en las interacciones.
Generación de Movimiento Realista
Nuestro método permite a los usuarios ejercer control sobre los movimientos del personaje a través de una variedad de indicaciones de texto. Esto permite acciones distintas como sentarse o ponerse de pie, estilizadas según las descripciones dadas, como "siéntate lentamente" o "salta hacia la silla."
Además, los usuarios pueden guiar el camino del personaje proporcionando una ruta definida, lo que permite un control aún más matizado sobre la navegación del personaje a través de las escenas.
Guía en Tiempo de Prueba
Durante la fase de prueba, aplicamos técnicas de guía para mejorar el realismo de los movimientos generados. Esto incluyó medidas para asegurar que los personajes alcanzaran sus metas mientras evitaban obstáculos. Los ajustes realizados en esta etapa ayudaron a refinar los movimientos, llevando a interacciones más convincentes y atractivas.
Limitaciones y Trabajo Futuro
Si bien nuestro método de navegación logra con éxito alcanzar objetivos precisos y generar movimientos controlables, el proceso de generación en dos pasos puede no siempre crear movimientos perfectamente sincronizados entre la navegación y la interacción. Investigaciones futuras podrían explorar modelos de una sola etapa que generen trayectorias de pelvis y movimientos de cuerpo completo simultáneamente para una salida más cohesiva.
Además, expandir la gama de acciones que el modelo puede realizar, como acostarse o interactuar con objetos en movimiento, crearía un sistema más dinámico. Integrar el modelo con sistemas de planificación para formular una secuencia de acciones basadas en indicaciones de texto podría mejorar aún más sus capacidades.
Conclusión
Hemos introducido un método para generar interacciones humanas en entornos 3D basados en descripciones en texto. Este enfoque novedoso combina un sistema de navegación robusto con un modelo de interacción que considera el contexto circundante, creando movimientos realistas y diversos.
Al desarrollar un nuevo conjunto de datos y aprovechar los datos de captura de movimiento existentes, nuestro modelo supera a las técnicas más avanzadas mientras permite el control del usuario a través de simples entradas de texto. Los hallazgos apoyan la efectividad de incluir la conciencia de la escena en la generación de movimientos, abriendo el camino para aplicaciones interactivas más avanzadas en videojuegos y robótica.
Título: Generating Human Interaction Motions in Scenes with Text Control
Resumen: We present TeSMo, a method for text-controlled scene-aware motion generation based on denoising diffusion models. Previous text-to-motion methods focus on characters in isolation without considering scenes due to the limited availability of datasets that include motion, text descriptions, and interactive scenes. Our approach begins with pre-training a scene-agnostic text-to-motion diffusion model, emphasizing goal-reaching constraints on large-scale motion-capture datasets. We then enhance this model with a scene-aware component, fine-tuned using data augmented with detailed scene information, including ground plane and object shapes. To facilitate training, we embed annotated navigation and interaction motions within scenes. The proposed method produces realistic and diverse human-object interactions, such as navigation and sitting, in different scenes with various object shapes, orientations, initial body positions, and poses. Extensive experiments demonstrate that our approach surpasses prior techniques in terms of the plausibility of human-scene interactions, as well as the realism and variety of the generated motions. Code will be released upon publication of this work at https://research.nvidia.com/labs/toronto-ai/tesmo.
Autores: Hongwei Yi, Justus Thies, Michael J. Black, Xue Bin Peng, Davis Rempe
Última actualización: 2024-04-16 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2404.10685
Fuente PDF: https://arxiv.org/pdf/2404.10685
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.
Enlaces de referencia
- https://research.nvidia.com/labs/toronto-ai/tesmo
- https://www.figma.com/file/HitmjkhQTnJIGsQFO7szSc/teaser?type=design&t=4Iqo8WmDja2Unhaq-1
- https://docs.google.com/drawings/d/1hu0Cg9_yuTaQ7MMvxMh8ElMleRA7WqGzPJF_eUBECBk/edit?usp=sharing
- https://www.springer.com/gp/computer-science/lncs
- https://ctan.org/pkg/axessibility?lang=en