Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Ingeniería Eléctrica y Ciencia de Sistemas# Visión por Computador y Reconocimiento de Patrones# Inteligencia artificial# Procesado de señales

Avances en la estimación de pose humana con tecnología de radar

La tecnología de radar mejora la estimación de posturas humanas mientras enfrenta desafíos de privacidad y rendimiento.

― 7 minilectura


Estimación de la posturaEstimación de la posturahumana basada en radarhumana.seguimiento preciso de la posturaRadar ofrece nuevas soluciones para un
Tabla de contenidos

La Estimación de Pose Humana (HPE) es clave para varias tecnologías, como la realidad virtual, la salud y la interacción humano-computadora. Los métodos tradicionales para determinar la posición y pose de una persona utilizan principalmente cámaras RGB. Sin embargo, estos métodos tienen limitaciones, especialmente en lo que respecta a la privacidad y problemas como la iluminación y oclusión. Ahí es donde entran los enfoques basados en radar. Usar radar puede ayudar a identificar las poses humanas mientras se mantiene la privacidad, lo que lo hace adecuado para situaciones de la vida real.

Resumen del conjunto de datos RT-Pose

Para abordar los desafíos de la estimación de poses, los investigadores crearon el conjunto de datos RT-Pose. Este conjunto incluye datos de radar 4D, nubes de puntos LiDAR e imágenes RGB, recolectadas en una variedad de entornos y movimientos. El conjunto está compuesto por 72,000 fotogramas, con diferentes acciones realizadas por los participantes, lo que permite registrar movimientos complejos.

Lo único de este conjunto de datos es su uso de tensores de radar 4D. Estos tensores llevan información espacial y temporal detallada, lo que los distingue de otros conjuntos de datos que típicamente usan nubes de puntos de radar. El objetivo de este conjunto es ayudar en el desarrollo de métodos de estimación de pose basados en radar más efectivos.

Ventajas del radar para HPE

La tecnología radar es especialmente adecuada para HPE por varias razones. Primero, el radar puede ver a través de paredes y es menos afectado por condiciones de poca luz. Esto lo hace valioso para aplicaciones donde la privacidad es una preocupación, como en hogares o centros de cuidado. Segundo, el radar también es resistente a cambios climáticos, asegurando su funcionalidad en diferentes entornos, ya sea en interiores, exteriores o durante la lluvia.

En aplicaciones automotrices inteligentes, el radar mejora la seguridad al proporcionar datos confiables en situaciones de poca luz o mal tiempo, donde las cámaras tradicionales podrían fallar. En el ámbito de la salud, el radar minimiza los riesgos de privacidad asociados con el uso de cámaras, haciéndolo una opción preferida para monitorear personas.

Proceso de recolección de datos

El conjunto de datos RT-Pose se recopiló haciendo que diez participantes realizaran seis tipos diferentes de acciones. Las acciones variaron desde movimientos simples, como estar de pie y saludar, hasta comportamientos más complejos, como caminar mientras saludan o sentarse. La recolección de datos se llevó a cabo en múltiples entornos, incluyendo tanto espacios interiores como exteriores, incorporando diversos desafíos como desorden y condiciones de iluminación.

El equipo para la recolección de datos incluía dos cámaras RGB, un escáner LiDAR y un módulo de radar 4D. Estos dispositivos trabajaron juntos para capturar con precisión las poses y movimientos humanos configurando parámetros específicos para las operaciones de radar.

Pasos de procesamiento de datos

Para procesar los datos de radar recopilados, se siguen varios pasos. Inicialmente, el radar captura las señales que cambian al rebotar en los objetos. La diferencia de frecuencia entre las señales transmitidas y recibidas se analiza para estimar la distancia y velocidad del objeto en movimiento. Esta información se transforma luego en un formato más manejable para la estimación de poses.

Los datos de radar se procesan además para mejorar la calidad y utilidad de la información. Esto implica re-modular las señales de radar según la posición de la antena, permitiendo mediciones de ángulo más precisas. Los resultados finales se convierten en un tensor de radar 4D, que incluye detalles sobre velocidad, altura, ancho y profundidad.

Flujo de trabajo de anotación

Para asegurar una detección precisa de la pose humana, se usa una combinación de datos de radar, LiDAR y cámara RGB. Inicialmente, se extraen las poses 2D usando HRNet, un modelo preentrenado. Estas poses 2D se mejoran y refinan usando un método llamado ZeDO, que ayuda a estimar poses 3D de manera más confiable.

El proceso incluye una revisión manual donde expertos aseguran la calidad de la anotación, verificando que las poses sean correctas para el conjunto de datos. El objetivo final es generar un conjunto de datos que tenga datos de verdad terrestre precisos para entrenar modelos de estimación de poses.

Modelo HRRadarPose

El modelo HRRadarPose está diseñado para ser el primero de su tipo que emplea una única arquitectura para interpretar datos de radar 4D para HPE. Este modelo está construido para maximizar los detalles capturados en las señales de radar mientras minimiza el ruido y los errores.

Al usar una estructura que mantiene representaciones de alta resolución, el modelo HRRadarPose es capaz de procesar información espacial y temporal rica. El diseño del modelo permite una estimación eficiente de la pose humana directamente desde los datos de radar, asegurando que el sistema sea tanto efectivo como más fácil de implementar en varios escenarios.

Resultados y rendimiento

El rendimiento del modelo HRRadarPose se ha evaluado contra varios benchmarks. No solo superó a los métodos tradicionales basados en radar, sino que también demostró mejor precisión en la determinación de poses humanas en acciones complejas. El error medio de posición por junta (MPJPE) medido para el HRRadarPose fue significativamente más bajo que otros métodos, indicando su efectividad en aplicaciones del mundo real.

Los experimentos revelan que, aunque el modelo funciona bien en acciones simples, todavía existen desafíos con actividades complejas. Por ejemplo, el modelo ofrece resultados confiables para acciones como estar de pie o saludar, pero tiene dificultades con movimientos más intrincados que involucran múltiples acciones a la vez.

Desafíos y limitaciones

A pesar de las ventajas de usar radar, hay desafíos que persisten. La potencia computacional requerida para manejar datos de radar 4D puede ser significativa. Además, la efectividad del sistema de radar disminuye a mayores distancias. Este aspecto limita el rango de recolección de datos, lo que puede inhibir el rendimiento y la precisión.

Además, el modelo HRRadarPose aún necesita mejorar en áreas específicas, como rastrear con precisión poses en acciones multifacéticas o entornos concurridos. La complejidad real de los movimientos humanos a menudo lleva a ambigüedades que necesitan resolverse para un seguimiento eficiente.

Direcciones futuras

Para mejorar HPE usando tecnología de radar, se necesita más investigación. Ampliar el conjunto de datos para incluir acciones y entornos más variados ayudaría a crear modelos más fuertes. Además, los avances en métodos computacionales, que pueden acelerar el procesamiento de grandes cantidades de datos de radar, son cruciales para hacer que estos sistemas sean más rápidos y eficientes.

También es importante abordar las limitaciones del hardware utilizado para la recolección de datos. Mejorar la tecnología utilizada en los sistemas de radar puede llevar a una mejor precisión y fiabilidad al capturar poses humanas.

Conclusión

El conjunto de datos RT-Pose representa un paso significativo hacia adelante en el campo de la estimación de pose humana usando tecnología de radar. Al combinar tensores de radar 4D con datos de LiDAR y RGB, el conjunto ofrece un recurso rico para investigadores que buscan avanzar en métodos de HPE. El modelo HRRadarPose demuestra el potencial para una estimación de poses efectiva, destacando tanto las fortalezas de los datos de radar como las áreas que requieren más exploración.

A medida que el campo avanza, la esperanza es que los métodos de HPE basados en radar continúen desarrollándose, proporcionando soluciones confiables que respeten la privacidad y funcionen de manera efectiva en una variedad de situaciones del mundo real. El trabajo realizado con el conjunto de datos RT-Pose establece una base para estos avances, fomentando futuras innovaciones en tecnologías de estimación de pose humana.

Fuente original

Título: RT-Pose: A 4D Radar Tensor-based 3D Human Pose Estimation and Localization Benchmark

Resumen: Traditional methods for human localization and pose estimation (HPE), which mainly rely on RGB images as an input modality, confront substantial limitations in real-world applications due to privacy concerns. In contrast, radar-based HPE methods emerge as a promising alternative, characterized by distinctive attributes such as through-wall recognition and privacy-preserving, rendering the method more conducive to practical deployments. This paper presents a Radar Tensor-based human pose (RT-Pose) dataset and an open-source benchmarking framework. The RT-Pose dataset comprises 4D radar tensors, LiDAR point clouds, and RGB images, and is collected for a total of 72k frames across 240 sequences with six different complexity-level actions. The 4D radar tensor provides raw spatio-temporal information, differentiating it from other radar point cloud-based datasets. We develop an annotation process using RGB images and LiDAR point clouds to accurately label 3D human skeletons. In addition, we propose HRRadarPose, the first single-stage architecture that extracts the high-resolution representation of 4D radar tensors in 3D space to aid human keypoint estimation. HRRadarPose outperforms previous radar-based HPE work on the RT-Pose benchmark. The overall HRRadarPose performance on the RT-Pose dataset, as reflected in a mean per joint position error (MPJPE) of 9.91cm, indicates the persistent challenges in achieving accurate HPE in complex real-world scenarios. RT-Pose is available at https://huggingface.co/datasets/uwipl/RT-Pose.

Autores: Yuan-Hao Ho, Jen-Hao Cheng, Sheng Yao Kuan, Zhongyu Jiang, Wenhao Chai, Hsiang-Wei Huang, Chih-Lung Lin, Jenq-Neng Hwang

Última actualización: 2024-07-18 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2407.13930

Fuente PDF: https://arxiv.org/pdf/2407.13930

Licencia: https://creativecommons.org/licenses/by-nc-sa/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares