Mejorando el flujo de tráfico con vehículos autónomos

Tabla de contenidos

El Problema
Cómo Funciona el Sistema
Evaluando el Sistema
Conocimientos Previos
Modelo Integrado de Seguimiento de Autos y Cambio de Carril
Pasos de Implementación
Resultados
Conclusión
Fuente original

Los embotellamientos a menudo ocurren en las autopistas debido a trabajos en la carretera, accidentes o fallas de vehículos. Estas situaciones pueden ser frustrantes para los conductores. Los Vehículos Autónomos (AVs) tienen sensores que les ayudan a recopilar información como velocidad, distancia y posición. Esta información permite a los AVs tomar decisiones informadas, como cambiar de carril para evitar obstáculos. Aunque muchos estudios han investigado cómo los autos se siguen entre sí y cómo cambian de carril, no hay muchos estudios que combinen ambos aspectos en un solo modelo. Este artículo explica un nuevo sistema que utiliza técnicas de aprendizaje profundo por refuerzo (DRL) para ayudar a los AVs a tomar mejores decisiones de manejo en situaciones donde hay construcción en la carretera.

El Problema

Cuando hay trabajos de construcción repentina en una autopista, los conductores necesitan reaccionar rápido para evitar problemas de tráfico. La mayoría de los modelos existentes solo analizan el comportamiento de seguir un auto o el comportamiento de cambiar de carril. No consideran cómo estos dos comportamientos interactúan entre sí al tomar decisiones de manejo. En este trabajo, nuestro objetivo es crear un sistema que pueda gestionar tanto el comportamiento de seguir un auto como el de cambiar de carril simultáneamente. Al hacer esto, esperamos mejorar el flujo de tráfico en general y reducir la probabilidad de accidentes.

Cómo Funciona el Sistema

Para modelar este problema, utilizamos algo llamado un Proceso de Decisión de Markov (MDP). Este enfoque nos permite descomponer la compleja situación de manejo en piezas más manejables. Entrenamos un programa de computadora usando un método de DRL bien conocido llamado Deep Q-Network (DQN) para ayudar al vehículo a aprender cuándo cambiar de carril o quedarse en el mismo carril.

El Rol de MEC

Para lidiar con los retrasos y requerimientos de procesamiento asociados con DRL, introducimos una arquitectura de Computación en el Borde de Acceso Múltiple (MEC). Esto permite entrenar a los agentes de aprendizaje por refuerzo en servidores ubicados cerca de donde los vehículos están operando. Al hacer esto, podemos reducir los tiempos de respuesta, que son cruciales al tomar decisiones rápidas de manejo.

Evaluando el Sistema

Para probar qué tan bien funciona nuestro sistema, utilizamos dos políticas de toma de decisiones diferentes: la política Epsilon-Greedy y la política Boltzmann. La política Epsilon-Greedy está diseñada para explorar diferentes acciones basadas en elecciones aleatorias mientras todavía se enfoca en acciones que han funcionado bien antes. La política Boltzmann, por otro lado, usa un método específico para evaluar las mejores acciones a tomar basándose en sus probabilidades.

Simulación de Tráfico

También creamos un entorno de simulación usando herramientas como SUMO (Simulación de Movilidad Urbana) y OpenAI GYM. Esta simulación nos permite ver qué tan bien desempeña nuestro sistema en un entorno controlado antes de aplicarlo a escenarios del mundo real.

Conocimientos Previos

Aprendizaje por Refuerzo

El Aprendizaje por Refuerzo (RL) es un tipo de aprendizaje automático donde los agentes aprenden a tomar decisiones basándose en sus experiencias. En configuraciones típicas de RL, un agente recibe recompensas o penalizaciones por las acciones que toma en diferentes situaciones. El objetivo del agente es aprender cómo tomar acciones que maximicen sus recompensas futuras.

Aprendizaje Profundo por Refuerzo

El Aprendizaje Profundo por Refuerzo (DRL) combina el RL tradicional con técnicas de aprendizaje profundo. Usando redes neuronales, el DRL puede manejar situaciones más complejas y aprender más rápido que los métodos tradicionales. Esto lo hace adecuado para aplicaciones como la conducción autónoma, donde la toma de decisiones rápida y precisa es esencial.

Modelo Integrado de Seguimiento de Autos y Cambio de Carril

Nuestro modelo propuesto combina los comportamientos de seguimiento de autos y de cambio de carril para crear un marco de toma de decisiones unificado. El modelo asume que el AV tiene varios sensores y sistemas de comunicación, lo que le permite recopilar datos importantes sobre su entorno.

Espacios de Estado y Acción

En nuestro modelo, definimos un estado que consiste en datos importantes del vehículo, como la distancia a obstáculos, la velocidad y la posición. El espacio de acción se define como las posibles decisiones que el vehículo puede tomar, como cambiar de carril o quedarse en el carril actual.

Sistema de recompensas

Para fomentar el comportamiento correcto, configuramos un sistema de recompensas. El vehículo recibe recompensas positivas por cambiar de carril exitosamente y evitar obstáculos, mientras que recibe recompensas negativas por no cambiar de carril o fusionarse demasiado lento. Este sistema ayuda al agente a aprender a tomar mejores decisiones con el tiempo.

Pasos de Implementación

Para implementar el modelo, pasamos por varios pasos.

Modelar el MDP en Python: Definimos los espacios de estado y acción, así como la función de recompensa.
Configurar la Simulación: Creamos el entorno de simulación usando SUMO, donde los AVs podrían operar.
Entrenar al Agente: Usando OpenAI GYM, entrenamos a nuestros agentes de DRL para aprender de sus experiencias en la simulación.
Integrar SUMO y GYM: Conectamos el entorno de simulación con el agente entrenado, permitiendo la toma de decisiones en tiempo real.

Resultados

Después de entrenar durante varios episodios, analizamos qué tan bien funcionó cada política. Se encontró que la política Epsilon-Greedy era más efectiva que la política Boltzmann.

Comparación de Acciones

Durante la simulación, la política Epsilon-Greedy tomó una variedad más amplia de acciones. Fue capaz de adaptar su comportamiento basado en el entorno cambiante y maximizar las recompensas con el tiempo. La política Boltzmann, por otro lado, tendía a apegarse a un conjunto consistente de acciones y le costaba adaptarse igual.

Conclusión

Nuestro trabajo demuestra que un enfoque integrado al seguimiento de autos y el cambio de carril puede mejorar significativamente el desempeño de los vehículos autónomos en escenarios de tráfico complejos. Al utilizar técnicas de aprendizaje profundo por refuerzo y un entorno de simulación bien estructurado, podemos reducir retrasos y mejorar la seguridad en las carreteras.

Trabajo Futuro

El marco que construimos presenta una oportunidad para probar diferentes algoritmos y hacer mejoras. En el futuro, planeamos explorar métodos adicionales de DRL y considerar varias situaciones de tráfico, permitiendo una solución más robusta. Esta investigación tiene como objetivo contribuir a sistemas de transporte más seguros y eficientes.

Mejorando el flujo de tráfico con vehículos autónomos

Un nuevo sistema mejora la toma de decisiones de los AV durante la construcción de carreteras.

El Problema

Cómo Funciona el Sistema

El Rol de MEC

Evaluando el Sistema

Simulación de Tráfico

Conocimientos Previos

Aprendizaje por Refuerzo

Aprendizaje Profundo por Refuerzo

Modelo Integrado de Seguimiento de Autos y Cambio de Carril

Espacios de Estado y Acción

Sistema de recompensas

Pasos de Implementación

Resultados

Comparación de Acciones

Conclusión

Trabajo Futuro

Temas referenciados

Mejorando el flujo de tráfico con vehículos autónomos

Un nuevo sistema mejora la toma de decisiones de los AV durante la construcción de carreteras.

#El Problema

#Cómo Funciona el Sistema

#El Rol de MEC

#Evaluando el Sistema

#Simulación de Tráfico

#Conocimientos Previos

#Aprendizaje por Refuerzo

#Aprendizaje Profundo por Refuerzo

#Modelo Integrado de Seguimiento de Autos y Cambio de Carril

#Espacios de Estado y Acción

#Sistema de recompensas

#Pasos de Implementación

#Resultados

#Comparación de Acciones

#Conclusión

#Trabajo Futuro

Temas referenciados

El Problema

Cómo Funciona el Sistema

El Rol de MEC

Evaluando el Sistema

Simulación de Tráfico

Conocimientos Previos

Aprendizaje por Refuerzo

Aprendizaje Profundo por Refuerzo

Modelo Integrado de Seguimiento de Autos y Cambio de Carril

Espacios de Estado y Acción

Sistema de recompensas

Pasos de Implementación

Resultados

Comparación de Acciones

Conclusión

Trabajo Futuro