Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Robótica# Inteligencia artificial# Aprendizaje automático# Sistemas multiagente

Entrenando coches autónomos con el comportamiento humano

Un nuevo método mejora el entrenamiento de coches autónomos a través de una interacción parecida a la humana.

― 7 minilectura


Entrenamiento Humano paraEntrenamiento Humano paraAutos Autodirigidosseguros.autónomos sean más inteligentes yNuevo método hace que los coches
Tabla de contenidos

Crear coches autónomos que funcionen bien con conductores humanos es una tarea complicada. Una parte clave para lograrlo es cómo estos coches aprenden a interactuar con las personas en la carretera. Una forma efectiva de entrenar a estos coches es a través de simulaciones, donde pueden practicar conduciendo en varias situaciones de tráfico de manera segura y económica. Sin embargo, la Simulación debe representar de cerca los escenarios de la vida real para preparar estos coches para condiciones del mundo real.

La Necesidad de Agentes Humanos Realistas

Las simulaciones actuales a menudo utilizan modelos básicos o datos de conductores humanos reales para crear situaciones para coches autónomos. Muchos de estos modelos no reaccionan de manera dinámica como lo hacen los humanos reales, lo que dificulta que los coches aprendan a conducir de forma efectiva y segura. Para cerrar esta brecha, es importante desarrollar agentes en las simulaciones que se comporten más como humanos, respondiendo de manera precisa a las condiciones de tráfico cambiantes y a otros conductores.

PPO Regulada por Humanos (HR-PPO)

Para crear mejores agentes de Entrenamiento, desarrollamos un método llamado PPO Regulada por Humanos (HR-PPO). Este método utiliza una técnica especial donde los agentes de conducción aprenden de sus propias experiencias en la simulación, mientras también son guiados por cómo se comportan los conductores humanos reales. Este equilibrio ayuda a los agentes a aprender a conducir de manera más segura y de una forma que se asemeje a los estilos de conducción humanos.

HR-PPO no se trata solo de copiar las acciones humanas. En su lugar, se entrena a los agentes para alcanzar sus metas de manera eficiente mientras mantienen un estilo de conducción parecido al humano. Este enfoque ha mostrado resultados prometedores, haciendo que los agentes sean efectivos para evitar colisiones y navegar por el tráfico.

Resultados de los Agentes HR-PPO

Cuando se probaron en varios escenarios de tráfico, los agentes HR-PPO mostraron un rendimiento impresionante. Lograron una tasa de éxito del 93% al alcanzar sus metas. Además, tuvieron bajas tasas de salirse de la carretera y chocar con otros vehículos, del 3.5% y 3%, respectivamente. En comparación, los métodos tradicionales sin el entrenamiento similar al humano mostraron tasas de fallo más altas.

Una ventaja significativa del método HR-PPO es que estos agentes aprenden a actuar como conductores humanos reales. Esta semejanza humana es crucial para asegurar que los agentes puedan coexistir de manera segura y efectiva con conductores humanos en la carretera.

Entrenamiento en Simulación

Entrenar coches autónomos usando simulación ofrece un entorno seguro donde pueden practicar conducir repetidamente sin los riesgos que conlleva conducir en el mundo real. En estas simulaciones, los coches pueden interactuar con varios escenarios de tráfico que imitan las condiciones de conducción diarias. Al practicar en estos escenarios, los coches autónomos desarrollan mejores hábitos de conducción, se vuelven más eficientes y pueden aprender a navegar situaciones complejas.

Para el entrenamiento, utilizamos un gran conjunto de datos que incluía muchos escenarios de tráfico, proporcionando a los vehículos una variedad de situaciones de las que aprender. El objetivo del coche es alcanzar un objetivo designado sin cometer errores, como colisiones o salirse de la carretera.

Mejorando el Entrenamiento con Comportamientos Similares a Humanos

Usando datos de conductores humanos, creamos un modelo de referencia que guía el entrenamiento de nuestros agentes. Este modelo captura las acciones de los conductores humanos en diferentes escenarios, ayudando a los agentes a aprender de estrategias de conducción probadas. El objetivo no es solo hacer que los coches conduzcan bien, sino asegurar que su comportamiento se alinee estrechamente con cómo operan los conductores humanos en la carretera.

Combinando Diferentes Enfoques de Entrenamiento

Entrenar coches autónomos utilizando una combinación de técnicas puede llevar a mejores resultados. Al integrar el clonaje de comportamiento, donde los coches aprenden imitando a los conductores humanos, con el aprendizaje por refuerzo, donde los agentes mejoran a través de prueba y error, creamos un entorno de entrenamiento robusto.

Este enfoque mixto permite que los agentes aprendan tanto de sus experiencias como de los comportamientos probados de los conductores humanos. El resultado son agentes que son más adaptables y capaces de manejar los desafíos planteados por conductores humanos reales en el tráfico.

Comparación con Otros Métodos

En las pruebas, los agentes HR-PPO mostraron un mejor rendimiento en comparación con otros métodos de entrenamiento. Los agentes entrenados únicamente en imitación sin el enfoque HR-PPO tuvieron un rendimiento peor, lo que indica la necesidad de una estrategia de entrenamiento más completa. Además, los agentes HR-PPO mantuvieron su efectividad incluso cuando se enfrentaron a condiciones nuevas o diferentes a las que entrenaron.

En general, la integración de comportamientos similares a humanos en el proceso de entrenamiento demostró ser una ventaja significativa. Los agentes no solo lograron sus objetivos, sino que lo hicieron mientras conducían de una manera que se asemeja más al comportamiento humano.

La Importancia del Realismo en la Simulación

El realismo en las simulaciones juega un papel importante en el entrenamiento de coches autónomos. Si los escenarios son demasiado simples o poco realistas, los coches pueden no aprender a manejar las complejidades de la conducción en el mundo real. Para crear simulaciones efectivas, es esencial capturar los matices de la conducción, incluidas las interacciones con otros vehículos y peatones.

Las simulaciones que reflejan con precisión las condiciones de tráfico de la vida real ayudan a los agentes a desarrollar un mejor juicio, llevando a prácticas de conducción más seguras. Cuanto más realista sea el entorno de entrenamiento, mejor preparados estarán los agentes para manejar situaciones de conducción reales.

Direcciones Futuras

El trabajo en HR-PPO representa un avance prometedor en el desarrollo de la tecnología de conducción autónoma. Sin embargo, aún hay desafíos que abordar. Ampliar el conjunto de datos utilizado para el entrenamiento puede mejorar la capacidad de los agentes para generalizar a nuevas situaciones. Además, refinar las técnicas de aprendizaje por imitación y explorar arquitecturas más avanzadas puede mejorar aún más el rendimiento de los agentes.

El trabajo futuro también puede explorar varios métodos de evaluación para evaluar qué tan bien estos agentes se desempeñan en situaciones de conducción real. Probar contra un rango más amplio de conductores humanos e integrar escenarios de conducción más complejos puede proporcionar información sobre sus capacidades.

Conclusión

En resumen, el desarrollo de PPO Regulada por Humanos ha creado un nuevo camino para entrenar coches autónomos. Al equilibrar la imitación de conductores humanos con el aprendizaje por refuerzo, podemos crear agentes que no solo son efectivos en navegar el tráfico, sino que también se comportan de maneras que son compatibles con los conductores humanos. A medida que continuamos refinando estos métodos, estamos pavimentando el camino hacia tecnologías de conducción autónoma más seguras y eficientes que pueden impactar positivamente nuestras carreteras.

Fuente original

Título: Human-compatible driving partners through data-regularized self-play reinforcement learning

Resumen: A central challenge for autonomous vehicles is coordinating with humans. Therefore, incorporating realistic human agents is essential for scalable training and evaluation of autonomous driving systems in simulation. Simulation agents are typically developed by imitating large-scale, high-quality datasets of human driving. However, pure imitation learning agents empirically have high collision rates when executed in a multi-agent closed-loop setting. To build agents that are realistic and effective in closed-loop settings, we propose Human-Regularized PPO (HR-PPO), a multi-agent algorithm where agents are trained through self-play with a small penalty for deviating from a human reference policy. In contrast to prior work, our approach is RL-first and only uses 30 minutes of imperfect human demonstrations. We evaluate agents in a large set of multi-agent traffic scenes. Results show our HR-PPO agents are highly effective in achieving goals, with a success rate of 93%, an off-road rate of 3.5%, and a collision rate of 3%. At the same time, the agents drive in a human-like manner, as measured by their similarity to existing human driving logs. We also find that HR-PPO agents show considerable improvements on proxy measures for coordination with human driving, particularly in highly interactive scenarios. We open-source our code and trained agents at https://github.com/Emerge-Lab/nocturne_lab and provide demonstrations of agent behaviors at https://sites.google.com/view/driving-partners.

Autores: Daphne Cornelisse, Eugene Vinitsky

Última actualización: 2024-06-22 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2403.19648

Fuente PDF: https://arxiv.org/pdf/2403.19648

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares