Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Visión por Computador y Reconocimiento de Patrones

Mejorando la predicción del movimiento humano con tareas auxiliares

Un nuevo método mejora la predicción de movimiento usando tareas de aprendizaje auxiliares.

― 6 minilectura


Tareas Auxiliares para laTareas Auxiliares para laPredicción de Movimientopredicción de movimientos.Un método que mejora la precisión en la
Tabla de contenidos

La predicción del movimiento humano trata de adivinar cómo se moverán las personas en el futuro basándose en sus movimientos pasados. Esto tiene usos prácticos en áreas como robótica, videojuegos y coches autónomos. Uno de los grandes retos en este campo es entender cómo se mueven las diferentes partes del cuerpo juntas a lo largo del tiempo. Los métodos anteriores han intentado resolver esto usando tipos específicos de redes diseñadas para observar tanto el espacio (la posición de las articulaciones) como el tiempo (cómo cambia el movimiento).

El Problema

Cuando observamos el movimiento de una persona, podemos ver cómo sus partes del cuerpo (como brazos y piernas) interactúan de una manera compleja. Para predecir movimientos futuros con precisión, es importante captar cómo estas partes del cuerpo se relacionan entre sí tanto en términos de sus posiciones como de cómo cambian con el tiempo. Desarrollar técnicas efectivas para captar estas relaciones es esencial para hacer mejores predicciones.

Muchos métodos existentes se centran en construir estructuras de red complejas, pero este trabajo presenta un enfoque diferente utilizando Tareas auxiliares. Estas tareas ayudan a mejorar la tarea principal de predecir movimiento al hacer que la red aprenda más de los datos.

Enfoque de Tareas Auxiliares

En nuestro enfoque, introducimos tareas auxiliares donde algunas coordenadas de las articulaciones se vuelven deliberadamente poco claras al enmascararlas o añadirles ruido aleatorio. La tarea de la red es averiguar las posiciones originales a partir de las coordenadas claras restantes. Al entrenar el modelo con estas tareas extra, mejora su comprensión de las relaciones entre las articulaciones, lo que lleva a una mejor predicción del movimiento.

Las tareas auxiliares en las que nos enfocamos son:

  1. Tarea de Denoising: Se añade ruido aleatorio a las coordenadas de las articulaciones en diferentes momentos, y el objetivo es recuperar el movimiento original suave.

  2. Tarea de Predicción de Características Enmascaradas: Se ocultan coordenadas aleatorias y el objetivo es predecir estas posiciones faltantes basándose en otros datos visibles.

Estas tareas obligan a la red a aprender más sobre cómo las relaciones espaciales y temporales trabajan juntas.

Cómo Funcionan los Métodos Actuales

Los métodos tradicionales dependían de ciertas estructuras como Redes Neuronales Recurrentes (RNNs) o Redes Neuronales Convolucionales de Grafo (GCNs) para captar la sincronización de los movimientos o cómo se conectan las articulaciones espacialmente. Mientras algunos usaron GCNs para relacionar las articulaciones del cuerpo como nodos en un grafo, muchos no lograron captar efectivamente tanto el tiempo como la posición juntos.

Algunos métodos lucharon por modelar bien las dependencias espaciales ya que se enfocaron solo en el aspecto temporal. Nuestro trabajo añade a los métodos existentes introduciendo tareas de aprendizaje adicionales que empujan a la red a captar mejor estas relaciones.

Nuestra Solución: Transformer Adaptado a Auxiliares

Para implementar nuestras tareas auxiliares en el proceso de aprendizaje, diseñamos un tipo especial de red llamada Transformer Adaptado a Auxiliares. Esta red es capaz de manejar datos incompletos mientras captura cómo diferentes articulaciones dependen entre sí.

Características Clave de Nuestra Red

  1. Dependencia por Coordenada: La posición de cada articulación se trata como una característica individual. La red aprende a relacionar estas características usando mecanismos de atención que modelan tanto dependencias espaciales como temporales.

  2. Adaptable a Datos Faltantes: La red puede reconocer cuándo falta información (debido a la tarea de enmascaramiento) usando tokens especiales para indicar esto.

  3. Estructura Compartida: La tarea principal de predicción y las tareas auxiliares comparten la misma estructura de red, haciendo que el modelo sea más cohesivo y eficiente.

Marco de Aprendizaje

El marco de aprendizaje consiste en tres tareas trabajando juntas:

  1. Tarea Principal de Predicción Futura: Este es el objetivo principal, predecir cómo se moverá una persona en el futuro.

  2. Tarea Auxiliar de Denoising: Ayuda a la red a recuperarse de Datos Ruidosos.

  3. Tarea Auxiliar de Predicción de Enmascaramiento: Ayuda a predecir posiciones ocultas de las articulaciones.

Al tener estas tareas funcionando juntas, el modelo aprende mejor las dependencias espacio-temporales, lo que ayuda a mejorar la predicción general del movimiento.

Resultados Experimentales

Realizamos experimentos para ver qué tan bien funciona nuestro método en la práctica. Probamos en tres conjuntos de datos diferentes: Human3.6M, CMU Mocap y 3DPW.

Predicción a Corto Plazo

En las predicciones a corto plazo (hasta 400 milisegundos), nuestro método mostró un rendimiento mejorado en comparación con técnicas existentes. Monitoreamos cuán precisamente nuestro método predijo posiciones en varios momentos futuros y encontramos que consistentemente superó otros enfoques.

Predicción a Largo Plazo

Para predicciones más largas (más de 400 milisegundos), nuestro método mantuvo su éxito. Lo comparamos con varios métodos establecidos y encontramos que consistentemente proporcionó mejor precisión en una variedad de acciones.

Robustez ante la Calidad de los Datos

Nuestro método no solo predice el movimiento bien, sino que también funciona mejor cuando faltan o hay datos ruidosos. Probamos qué tan bien podía funcionar nuestro modelo cuando partes de los datos de entrada estaban ocultas o distorsionadas. En ambas situaciones, nuestro enfoque demostró ser más efectivo en comparación con métodos tradicionales, indicando que puede manejar problemas del mundo real donde los datos pueden no ser perfectos.

Conclusión

En este trabajo, introdujimos un marco innovador para predecir el movimiento humano que utiliza tareas auxiliares para mejorar la comprensión de las dependencias espacio-temporales entre las articulaciones del cuerpo. Nuestro enfoque, conocido como AuxFormer, demuestra un rendimiento mejorado al predecir movimientos futuros en comparación con los métodos existentes. No solo logra resultados de vanguardia en varios conjuntos de datos, sino que también muestra mayor robustez cuando se enfrenta a datos faltantes o ruidosos.

Este avance podría allanar el camino para aplicaciones más confiables en robótica y AI, donde predecir con precisión el movimiento humano es vital para la interacción y la seguridad.

Fuente original

Título: Auxiliary Tasks Benefit 3D Skeleton-based Human Motion Prediction

Resumen: Exploring spatial-temporal dependencies from observed motions is one of the core challenges of human motion prediction. Previous methods mainly focus on dedicated network structures to model the spatial and temporal dependencies. This paper considers a new direction by introducing a model learning framework with auxiliary tasks. In our auxiliary tasks, partial body joints' coordinates are corrupted by either masking or adding noise and the goal is to recover corrupted coordinates depending on the rest coordinates. To work with auxiliary tasks, we propose a novel auxiliary-adapted transformer, which can handle incomplete, corrupted motion data and achieve coordinate recovery via capturing spatial-temporal dependencies. Through auxiliary tasks, the auxiliary-adapted transformer is promoted to capture more comprehensive spatial-temporal dependencies among body joints' coordinates, leading to better feature learning. Extensive experimental results have shown that our method outperforms state-of-the-art methods by remarkable margins of 7.2%, 3.7%, and 9.4% in terms of 3D mean per joint position error (MPJPE) on the Human3.6M, CMU Mocap, and 3DPW datasets, respectively. We also demonstrate that our method is more robust under data missing cases and noisy data cases. Code is available at https://github.com/MediaBrain-SJTU/AuxFormer.

Autores: Chenxin Xu, Robby T. Tan, Yuhong Tan, Siheng Chen, Xinchao Wang, Yanfeng Wang

Última actualización: 2023-09-02 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2308.08942

Fuente PDF: https://arxiv.org/pdf/2308.08942

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares