Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Visión por Computador y Reconocimiento de Patrones

Una nueva forma de buscar datos de movimiento humano

Presentamos un método para recuperar datos de movimiento usando consultas en lenguaje natural.

― 6 minilectura


Revolucionando laRevolucionando larecuperación de datos demovimientomovimiento humano en lenguaje natural.Nuevo sistema permite buscar datos de
Tabla de contenidos

Las mejoras recientes en tecnología nos permiten rastrear el movimiento humano a partir de videos, creando una versión digital de cómo se mueve una persona. Esta versión digital utiliza un modelo 3D compuesto de puntos que representan diferentes partes del cuerpo, conocido como secuencias de esqueleto. Aunque hay muchas formas emocionantes de usar estos datos, encontrar movimientos específicos dentro de grandes bases de datos sigue siendo bastante difícil. Este artículo presenta un nuevo método que permite a los usuarios buscar movimientos de manera más amigable usando descripciones en lenguaje natural.

Desafíos con los Datos de Movimiento

Con el creciente interés en los datos de esqueleto, hay una necesidad de tecnologías que puedan manejar de manera eficiente estas grandes cantidades de información. Gran parte de la investigación actual se centra principalmente en construir sistemas avanzados que puedan clasificar diferentes tipos de movimientos o detectar acciones en flujos de datos en curso. Estos sistemas a menudo dependen de métodos de aprendizaje profundo que necesitan muchos datos etiquetados para aprender de manera efectiva.

Un desafío principal en la recuperación de movimiento es que los usuarios a menudo no saben el ejemplo exacto de consulta con el que quieren trabajar. Por ejemplo, puede que no tengan una secuencia de esqueleto específica en mente o carezcan de las habilidades para crear una. Este documento aborda este problema al permitir a los usuarios expresar sus necesidades a través de texto común.

El Nuevo Método de Recuperación de Movimiento a partir de Texto

Nuestro método está diseñado para cerrar la brecha entre descripciones de texto y datos de movimiento. El objetivo es crear un sistema que pueda buscar en una base de datos de movimientos y encontrar aquellos que mejor coincidan con una consulta de texto dada.

Para lograr esto, empleamos dos componentes principales: uno para entender el texto y otro para interpretar el movimiento. Nos centramos en crear un proceso donde ambos tipos de información se procesan por separado antes de ser llevados a un espacio compartido para comparación.

Entendimiento del Texto

Utilizamos dos modelos bien conocidos para procesar texto: BERT y CLIP. BERT está diseñado para entender la estructura y el contexto de las oraciones de manera profunda. Ayuda a crear representaciones ricas del texto al entender la conexión entre palabras y sus significados en una oración.

CLIP, por otro lado, es un modelo más nuevo que puede emparejar imágenes con descripciones textuales. Funciona analizando elementos visuales y relacionándolos con el lenguaje en un contexto compartido. Para nuestro método, usamos la parte de procesamiento de texto de CLIP para convertir las consultas de los usuarios en un formato que se pueda comparar con datos de movimiento.

Interpretación del Movimiento

Para entender el movimiento, tenemos varios métodos a nuestra disposición. Decidimos usar sistemas avanzados capaces de reconocer patrones de movimiento humano a partir de las secuencias de esqueleto. Estos sistemas utilizan diferentes técnicas para procesar datos de series de tiempo, lo cual es esencial para capturar cómo evoluciona el movimiento a lo largo del tiempo.

Algunas de las técnicas que usamos incluyen GRUs, que ayudan a procesar secuencias de datos, y DG-STGCN, un modelo que captura la dinámica del movimiento de manera efectiva. Al aplicar estos métodos, podemos crear representaciones numéricas de los movimientos que se pueden comparar fácilmente con las descripciones de texto.

Aprendizaje y Evaluación

Entender la calidad de nuestro sistema es fundamental. Establecimos referencias claras para evaluar qué tan bien funciona nuestro método en la recuperación de movimientos basados en consultas de texto. Al emplear diversas métricas, podemos medir cosas como la precisión y la relevancia de los resultados devueltos por nuestro sistema.

Utilizamos dos Conjuntos de datos para probar nuestro método: el KIT Motion Language Dataset y el HumanML3D Dataset. Estas colecciones contienen varios tipos de movimiento junto con descripciones textuales detalladas, lo que nos permite evaluar cuán precisamente nuestro método recupera los movimientos relevantes.

Resultados y Observaciones

Los resultados de nuestra evaluación indicaron que nuestro nuevo método de recuperación de movimiento a partir de texto funciona de manera efectiva en diferentes escenarios. Cuando comparamos varios métodos de codificación de texto y movimiento, encontramos que usar CLIP para texto y nuestro codificador de movimiento avanzado produjo las coincidencias más precisas.

Un punto interesante a destacar es la capacidad de nuestro sistema para discernir diferencias sutiles en el movimiento cuando se usan términos específicos en la consulta de texto. Por ejemplo, si el usuario especifica "en sentido contrario a las agujas del reloj" en su solicitud, los resultados devueltos priorizarán movimientos que coincidan con esa dirección. Si no se incluye ningún término direccional, el sistema puede devolver tanto movimientos originales como reflejados, mostrando su flexibilidad para manejar consultas vagas.

Entendiendo la Importancia del Espacio Común

Un aspecto clave de nuestro enfoque es crear un espacio común donde tanto los datos de texto como de movimiento puedan coexistir. Esto permite comparaciones sencillas entre diferentes tipos de información. Nuestros resultados mostraron que mantener una dimensionalidad relativamente baja en este espacio común fue eficiente, ya que el rendimiento disminuyó mínimamente incluso cuando reducimos significativamente el tamaño del espacio.

Las diversas funciones de pérdida que experimentamos durante el entrenamiento también resultaron cruciales. Descubrimos que una función de pérdida en particular, InfoNCE, superó a las demás, confirmando su efectividad en nuestro dominio conjunto de texto y movimiento.

Direcciones Futuras

Mirando hacia adelante, hay varias vías para mejorar y explorar. Una oportunidad significativa es entrenar nuestros modelos en conjuntos de datos más diversos para mejorar su capacidad de generalizar a través de diferentes tipos de movimientos y prompts de texto. También buscamos incorporar otros tipos de datos, como video, en nuestro proceso de recuperación de movimiento.

Al seguir refinando estos métodos y expandiendo sus capacidades, esperamos hacer que la búsqueda y comprensión del movimiento humano sea más accesible e intuitiva para todos, ya sea en campos como el entretenimiento, el deporte o la rehabilitación.

Conclusión

Hemos introducido un nuevo método para recuperar datos de movimiento humano basados en consultas en lenguaje natural, facilitando a los usuarios encontrar movimientos específicos sin necesidad de habilidades de modelado formal. Al aprovechar modelos avanzados de procesamiento de texto y movimiento, hemos creado un sistema que funciona bien con ambos tipos de datos.

El progreso logrado aquí sienta las bases para futuros estudios y aplicaciones en esta emocionante área de investigación. A medida que la tecnología continúa evolucionando, esperamos seguir mejorando nuestra comprensión y acceso a los datos de movimiento humano en varios campos.

Fuente original

Título: Text-to-Motion Retrieval: Towards Joint Understanding of Human Motion Data and Natural Language

Resumen: Due to recent advances in pose-estimation methods, human motion can be extracted from a common video in the form of 3D skeleton sequences. Despite wonderful application opportunities, effective and efficient content-based access to large volumes of such spatio-temporal skeleton data still remains a challenging problem. In this paper, we propose a novel content-based text-to-motion retrieval task, which aims at retrieving relevant motions based on a specified natural-language textual description. To define baselines for this uncharted task, we employ the BERT and CLIP language representations to encode the text modality and successful spatio-temporal models to encode the motion modality. We additionally introduce our transformer-based approach, called Motion Transformer (MoT), which employs divided space-time attention to effectively aggregate the different skeleton joints in space and time. Inspired by the recent progress in text-to-image/video matching, we experiment with two widely-adopted metric-learning loss functions. Finally, we set up a common evaluation protocol by defining qualitative metrics for assessing the quality of the retrieved motions, targeting the two recently-introduced KIT Motion-Language and HumanML3D datasets. The code for reproducing our results is available at https://github.com/mesnico/text-to-motion-retrieval.

Autores: Nicola Messina, Jan Sedmidubsky, Fabrizio Falchi, Tomáš Rebok

Última actualización: 2023-10-04 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2305.15842

Fuente PDF: https://arxiv.org/pdf/2305.15842

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares