Enseñando robots a través de demostraciones en video de humanos
Un método que permite a los robots aprender tareas a partir de videos de personas.
― 8 minilectura
Tabla de contenidos
Enseñar a los Robots a seguir comandos de usuarios no expertos es clave para crear robots que puedan manejar diferentes tareas. Una manera fácil de decirle a un robot qué hacer es mostrando un video de una persona realizando esa tarea. La mayoría de las investigaciones anteriores se centraron en hacer que los robots imitaran Acciones humanas en entornos controlados. Este estudio examina una situación más realista donde las demostraciones se graban en escenarios cotidianos.
Introducimos el Aprendizaje de Políticas Condicionado por Video (VIP), que es un método que aprende de videos de tareas que el robot nunca ha visto antes y enseña al robot cómo realizar acciones similares. Este método toma un video de una persona demostrando una tarea y observa la situación para generar acciones adecuadas para el robot. Para ayudar al robot a aprender a generalizar y manejar varias tareas, no usamos tareas específicas durante el entrenamiento. En lugar de eso, recopilamos movimientos de robots no etiquetados junto con videos de esos movimientos para informar nuestro proceso de aprendizaje.
En la etapa de prueba, convertimos el video de la Demostración humana en una forma que el robot puede usar, y luego aplicamos esto para controlar al robot.
Importancia de los Agentes Robots Generalistas
Se han hecho avances recientes en la creación de robots que pueden realizar una amplia gama de habilidades en diferentes entornos. Una parte clave de este desafío es proporcionar tareas y recompensas al robot de una manera que sea fácil de entender para los usuarios. En el aprendizaje por refuerzo tradicional, una tarea se marca con una función de recompensa. Sin embargo, crear estas funciones de recompensa para cada tarea individual puede ser complejo y puede limitar la capacidad del robot para aprender nuevas tareas.
Se han desarrollado algunos métodos para ayudar a los robots a aprender mediante la imitación y el refuerzo con menos supervisión, pero dar el objetivo correcto a menudo sigue requiriendo la entrada de operadores especializados. Otros estudios han demostrado que se puede enseñar a los robots usando comandos de lenguaje y videos de demostración humana, que son más fáciles de proporcionar para los no expertos. Esto abre la posibilidad de que los robots manejen tareas más complejas durante períodos más prolongados.
Sin embargo, muchos de estos métodos aún requieren muchos ejemplos etiquetados de cómo realizar diferentes tareas, lo que puede ser tedioso de obtener, especialmente cuando se involucran entornos nuevos. Nuestro método, ViP, permite que el robot reciba instrucciones a través de videos humanos sin necesidad de ejemplos previos de datos similares de robots.
Cómo Funciona ViP
ViP controla el robot interpretando videos humanos de tareas dentro de una escena no robótica. Esto significa que cuando un humano muestra cómo cerrar un cajón en un video, el robot puede actuar en consecuencia incluso si nunca se le ha entrenado específicamente en esa tarea. El método funciona aprendiendo un codificador de video que identifica tareas dentro de los videos y luego utiliza ese entendimiento para formatear acciones para el robot.
El proceso de ViP inicialmente utiliza grandes conjuntos de datos de videos humanos etiquetados para entender diferentes acciones de manipulación. Al estudiar estos videos, el robot aprende a realizar tareas sin necesitar información extra sobre tareas de robots emparejadas con instrucciones humanas durante el entrenamiento.
En cualquier momento en que el robot reciba instrucciones de un video humano, la estrategia de ViP codifica este video en un formato (incrustación) que el robot puede usar. Luego, extrae de una biblioteca de acciones de robots previamente entrenadas para identificar qué puede hacer para coincidir con la instrucción. El robot utiliza esto para ejecutar las acciones necesarias relevantes a las instrucciones del video humano.
Trabajo Relacionado en Aprendizaje de Robots
Muchos estudios han investigado cómo los robots pueden aprender de videos humanos. Algunos métodos se centran en seguir demostraciones humanas utilizando técnicas como detección de poses, traducción de imágenes y aprendizaje sobre representación de objetos. Aunque estos trabajos implican observar directamente tareas en el mismo entorno, nosotros miramos escenarios donde los videos humanos se toman en diferentes configuraciones.
Investigaciones recientes han combinado conjuntos de datos de videos humanos a gran escala con control robótico y han mostrado potencial para aprender acciones de videos variados. Un enfoque notable es el uso del Discriminador de Video Agnóstico de Dominio (DVD), que trabaja para comandar robots utilizando videos humanos recopilados de la vida cotidiana. DVD requiere datos de video emparejados de robots y humanos realizando tareas similares, lo cual puede ser difícil de reunir. Nuestro enfoque ofrece una diferencia significativa al no necesitar datos emparejados de humanos-robots durante el entrenamiento.
Nuestro método emplea particularmente el aprendizaje contrastivo para extraer representaciones útiles de los videos de demostración humana de una manera que sea beneficiosa para las tareas robóticas.
Resumen del Método ViP
El objetivo de nuestro método es ejecutar tareas usando un robot basado en demostraciones de video humano en entornos dinámicos. Durante las pruebas, el sistema recibe un video de una tarea, como empujar una taza, y usa esto para controlar el brazo robótico para realizar una acción similar.
Trabajamos con una colección de situaciones que proporcionan el mismo conjunto de acciones y observaciones, pero difieren en la tarea que se completa. Las recompensas específicas relacionadas con estas tareas no son parte de lo que entrenamos; en su lugar, deben ser inferidas del video humano proporcionado.
Para ayudar al robot a aprender de manera efectiva, nos basamos en un conjunto de datos a gran escala de acciones humanas etiquetadas. A través de este conjunto de datos, aprendemos cómo evaluar la similitud entre dos videos. En nuestro enfoque en videos humanos, desarrollamos una función de similitud que determina cuándo dos videos representan la misma tarea.
Mientras entrenamos, recopilamos demostraciones de robots no etiquetadas en un sistema, conectándolas con las acciones correspondientes y videos humanos. Durante la fase de entrenamiento, se entrena un controlador para predecir las acciones del robot basándose en el estado actual y la entrada del video humano.
Inferencia y Ejecución
En la fase de prueba, nuestro primer paso es traducir el video de instrucción humana en una incrustación de video de robot, centrándonos en encontrar una coincidencia de tarea que se ajuste a las expectativas del robot. Usamos un método donde comparamos distancias entre la incrustación de video humano y la de video robot y promediamos las coincidencias más relevantes.
En este punto, la incrustación seleccionada se usa para guiar al robot en la ejecución de la acción identificada. Este proceso permite que el robot lleve a cabo tareas de manera efectiva incluso cuando no ha sido entrenado específicamente en ellas.
Aprendizaje de Similitud de Tareas
Aplicamos aprendizaje contrastivo supervisado para hacer coincidir las instrucciones de video humano con las acciones del robot. El sistema utiliza una estructura de fondo que traduce videos en vectores de representación y luego en vectores de incrustación, de modo que las tareas similares tengan incrustaciones más cercanas entre sí.
Al mejorar la similitud a través de esta métrica, se vuelve más fácil averiguar qué videos humanos se alinean con las tareas del robot. Esto hace posible que el robot aprenda y aplique acciones de los videos humanos, incluso si provienen de diferentes contextos o configuraciones.
Validación Experimental
Para probar nuestro método, lo evaluamos en múltiples tareas dentro de entornos desafiantes. Comparamos nuestros resultados con el enfoque DVD para ver qué sistema funcionaba mejor bajo diversas condiciones.
En nuestros experimentos, se le pidió al robot que controlara un brazo en diferentes configuraciones, como una mesa con cajones y una cocina con varios objetos. Analizamos qué tan bien podía el robot realizar acciones como empujar una taza o abrir un microondas utilizando nuestro método para interpretar las instrucciones de video humano.
Los resultados mostraron que ViP superó significativamente a DVD, demostrando ser más eficiente y efectivo en la ejecución de tareas dadas.
Conclusión y Trabajo Futuro
El método ViP proporciona una nueva forma de controlar robots usando instrucciones de video humano sin necesidad de datos emparejados extensos. Esto permite mayor flexibilidad y la capacidad de aprender de diversas demostraciones de tareas.
Como un paso hacia la menor dependencia de la supervisión constante en robótica, hemos demostrado que usar un gran conjunto de datos de videos humanos puede informar a los robots sobre cómo completar tareas sin necesidad de ver ejemplos previos.
De cara al futuro, la investigación podría explorar otras maneras de conectar instrucciones de lenguaje humano con acciones de robots y ampliar la efectividad de este enfoque en diversas tareas y entornos.
Título: Learning Video-Conditioned Policies for Unseen Manipulation Tasks
Resumen: The ability to specify robot commands by a non-expert user is critical for building generalist agents capable of solving a large variety of tasks. One convenient way to specify the intended robot goal is by a video of a person demonstrating the target task. While prior work typically aims to imitate human demonstrations performed in robot environments, here we focus on a more realistic and challenging setup with demonstrations recorded in natural and diverse human environments. We propose Video-conditioned Policy learning (ViP), a data-driven approach that maps human demonstrations of previously unseen tasks to robot manipulation skills. To this end, we learn our policy to generate appropriate actions given current scene observations and a video of the target task. To encourage generalization to new tasks, we avoid particular tasks during training and learn our policy from unlabelled robot trajectories and corresponding robot videos. Both robot and human videos in our framework are represented by video embeddings pre-trained for human action recognition. At test time we first translate human videos to robot videos in the common video embedding space, and then use resulting embeddings to condition our policies. Notably, our approach enables robot control by human demonstrations in a zero-shot manner, i.e., without using robot trajectories paired with human instructions during training. We validate our approach on a set of challenging multi-task robot manipulation environments and outperform state of the art. Our method also demonstrates excellent performance in a new challenging zero-shot setup where no paired data is used during training.
Autores: Elliot Chane-Sane, Cordelia Schmid, Ivan Laptev
Última actualización: 2023-05-10 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2305.06289
Fuente PDF: https://arxiv.org/pdf/2305.06289
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.