Robots aprendiendo a predecir movimientos humanos
Un nuevo método ayuda a los robots a anticipar cómo se mueve la gente en espacios compartidos.
― 6 minilectura
Tabla de contenidos
Navegar seguro en espacios como casas y oficinas requiere que los robots prevean cómo se moverán las personas. Esto es importante porque los humanos no siempre siguen caminos claros y pueden aparecer de repente de lugares como esquinas o puertas. En nuestro trabajo, presentamos una nueva manera para que los robots anticipen los movimientos humanos usando tecnología avanzada.
El Reto de Predecir el Movimiento Humano
Los robots deben ser capaces de detectar a las personas en su entorno y tomar decisiones basadas en cómo es probable que se muevan. Hay tres tareas principales involucradas: Percepción, Predicción y Planificación.
- Percepción: Se trata de notar a la gente y entender el entorno.
- Predicción: Esto significa averiguar hacia dónde podrían ir las personas a continuación.
- Planificación: Los robots necesitan decidir cómo moverse hacia su objetivo evitando colisiones con los humanos.
Si bien predecir cómo se mueven los autos ha sido estudiado mucho, predecir el movimiento humano en lugares cotidianos, como casas u hospitales, es menos común pero muy importante.
Por Qué los Humanos Son Diferentes
Los humanos se mueven de una manera mucho menos predecible que los autos. Pueden caminar, correr, detenerse o cambiar de dirección rápidamente, dependiendo de sus tareas. Esto significa que un robot en una oficina concurrida tiene que lidiar con muchos movimientos impredecibles de diferentes personas al mismo tiempo.
Además, en espacios más pequeños, a menudo hay cosas en el camino, como paredes y muebles, que pueden obstruir la vista del robot sobre una persona hasta que están muy cerca. Así que el robot debe actuar rápido y con precisión basado en la información limitada que tiene.
Características Humanas
Nuestra Solución: UsandoPara mejorar cómo los robots predicen los movimientos humanos, diseñamos un sistema que utiliza diferentes tipos de información sobre una persona. Esto incluye:
- Dónde están: El robot rastrea las posiciones de las personas.
- Hacia dónde miran: El robot observa los movimientos de la cabeza.
- Postura corporal: El robot usa modelos 3D para entender cómo está de pie o moviéndose una persona.
Este enfoque permite que los robots reúnan mucha información sin necesitar datos perfectos. Ayuda a los robots a hacer mejores predicciones sobre a dónde irán las personas a continuación.
La Importancia de las Características Humanas
Los humanos emiten señales visuales, como hacia dónde miran o cómo se mueven, que pueden decirle a un robot mucho sobre sus intenciones. Por ejemplo, si una persona gira la cabeza o mira en una cierta dirección, es una pista fuerte sobre hacia dónde podría moverse a continuación. Usar este tipo de información puede mejorar significativamente las predicciones del robot.
Contribuciones Clave de Nuestro Trabajo
- Adaptarse a la Navegación Humana: Nos enfocamos en cómo hacer que los robots sean mejores prediciendo movimientos en entornos donde las personas están frecuentemente presentes.
- Usar Características Visuales: Nuestro sistema incorpora características 3D, como las posiciones corporales, para ofrecer una comprensión más clara de las acciones humanas.
- Abordar Datos Limitados: Mostramos cómo usar señales visuales es especialmente útil cuando los robots tienen poca información sobre los movimientos pasados de una persona.
El Marco para la Predicción
Desarrollamos un sistema avanzado que procesa diferentes tipos de información. Así es como funciona:
- Recolección de datos: Los robots usan sus sensores para reunir datos sobre las posiciones de las personas, los movimientos de cabeza y la postura corporal.
- Procesamiento de Información: El sistema combina esta información usando una arquitectura especial que le permite considerar las relaciones entre diferentes características humanas.
- Haciendo Predicciones: El robot luego predice hacia dónde irá la persona en el futuro cercano, teniendo en cuenta la incertidumbre del comportamiento humano.
Investigación Anterior y Limitaciones
Muchos estudios han analizado cómo predecir hacia dónde se moverán los autos. Estos estudios generalmente se enfocan en datos de posición simples y no incluyen insights más profundos sobre las personas involucradas. Ha habido algo de investigación fusionando los movimientos del cuerpo humano con predicciones de trayectorias, pero a menudo esto se hace en entornos controlados, que no reflejan las condiciones del mundo real.
Probando Nuestro Sistema
Para validar nuestro enfoque, lo probamos en varios entornos del mundo real. Seguimos qué tan bien funcionó nuestro modelo en comparación con otros métodos. Nuestro objetivo era mostrar que incorporar características humanas lleva a mejores predicciones en espacios concurridos.
El Papel de las Características Basadas en la Visión
Nuestros hallazgos indican que usar características visuales mejora la precisión de la predicción, especialmente cuando hay poca información histórica sobre una persona. Cuando los robots se encontraban con una nueva persona, confiar únicamente en posiciones pasadas no daba buenas predicciones. Sin embargo, cuando incluimos características visuales como la postura corporal, nuestro modelo anticipó con precisión hacia dónde se movería la persona a continuación.
Recolección de Datos y Evaluación
Usamos conjuntos de datos existentes para evaluar nuestro modelo. Muchos de estos conjuntos eran limitados ya que fueron grabados en entornos específicos, a menudo usando una sola cámara. Nuestro objetivo era demostrar que nuestro enfoque podría adaptarse a diversas situaciones, mejorando significativamente el rendimiento de la predicción.
Resultados sobre Navegación Centrada en Humanos
A través de diversas pruebas, demostramos que nuestra arquitectura mejora efectivamente las predicciones en entornos donde los humanos están activos. Notamos resultados especialmente buenos en situaciones sociales donde las personas interactúan de cerca. Esto es crucial para robots que trabajan junto a humanos en lugares concurridos.
Conclusión
Nuestra investigación ofrece una nueva perspectiva sobre cómo los robots pueden anticipar y responder a los movimientos humanos en espacios compartidos. Al usar información sobre características humanas, mejoramos significativamente la precisión de las predicciones de movimiento. Nuestro trabajo abre la puerta a futuros estudios que podrían mejorar aún más estos sistemas, particularmente en entornos dinámicos y del mundo real.
Los robots que entienden mejor el movimiento humano pueden llevar a interacciones más seguras y efectivas, haciendo que los espacios cotidianos sean más navegables tanto para robots como para personas.
Título: Robots That Can See: Leveraging Human Pose for Trajectory Prediction
Resumen: Anticipating the motion of all humans in dynamic environments such as homes and offices is critical to enable safe and effective robot navigation. Such spaces remain challenging as humans do not follow strict rules of motion and there are often multiple occluded entry points such as corners and doors that create opportunities for sudden encounters. In this work, we present a Transformer based architecture to predict human future trajectories in human-centric environments from input features including human positions, head orientations, and 3D skeletal keypoints from onboard in-the-wild sensory information. The resulting model captures the inherent uncertainty for future human trajectory prediction and achieves state-of-the-art performance on common prediction benchmarks and a human tracking dataset captured from a mobile robot adapted for the prediction task. Furthermore, we identify new agents with limited historical data as a major contributor to error and demonstrate the complementary nature of 3D skeletal poses in reducing prediction error in such challenging scenarios.
Autores: Tim Salzmann, Lewis Chiang, Markus Ryll, Dorsa Sadigh, Carolina Parada, Alex Bewley
Última actualización: 2023-09-29 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2309.17209
Fuente PDF: https://arxiv.org/pdf/2309.17209
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.