Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Aprendizaje automático# Inteligencia artificial

Mejorando el flujo de tráfico con vehículos autónomos

Un nuevo sistema mejora la toma de decisiones de los AV durante la construcción de carreteras.

― 6 minilectura


Los AVs transforman laLos AVs transforman lagestión del tráfico.de trabajo en carretera.los vehículos autónomos en situacionesNuevo sistema mejora el rendimiento de
Tabla de contenidos

Los embotellamientos a menudo ocurren en las autopistas debido a trabajos en la carretera, accidentes o fallas de vehículos. Estas situaciones pueden ser frustrantes para los conductores. Los Vehículos Autónomos (AVs) tienen sensores que les ayudan a recopilar información como velocidad, distancia y posición. Esta información permite a los AVs tomar decisiones informadas, como cambiar de carril para evitar obstáculos. Aunque muchos estudios han investigado cómo los autos se siguen entre sí y cómo cambian de carril, no hay muchos estudios que combinen ambos aspectos en un solo modelo. Este artículo explica un nuevo sistema que utiliza técnicas de aprendizaje profundo por refuerzo (DRL) para ayudar a los AVs a tomar mejores decisiones de manejo en situaciones donde hay construcción en la carretera.

El Problema

Cuando hay trabajos de construcción repentina en una autopista, los conductores necesitan reaccionar rápido para evitar problemas de tráfico. La mayoría de los modelos existentes solo analizan el comportamiento de seguir un auto o el comportamiento de cambiar de carril. No consideran cómo estos dos comportamientos interactúan entre sí al tomar decisiones de manejo. En este trabajo, nuestro objetivo es crear un sistema que pueda gestionar tanto el comportamiento de seguir un auto como el de cambiar de carril simultáneamente. Al hacer esto, esperamos mejorar el flujo de tráfico en general y reducir la probabilidad de accidentes.

Cómo Funciona el Sistema

Para modelar este problema, utilizamos algo llamado un Proceso de Decisión de Markov (MDP). Este enfoque nos permite descomponer la compleja situación de manejo en piezas más manejables. Entrenamos un programa de computadora usando un método de DRL bien conocido llamado Deep Q-Network (DQN) para ayudar al vehículo a aprender cuándo cambiar de carril o quedarse en el mismo carril.

El Rol de MEC

Para lidiar con los retrasos y requerimientos de procesamiento asociados con DRL, introducimos una arquitectura de Computación en el Borde de Acceso Múltiple (MEC). Esto permite entrenar a los agentes de aprendizaje por refuerzo en servidores ubicados cerca de donde los vehículos están operando. Al hacer esto, podemos reducir los tiempos de respuesta, que son cruciales al tomar decisiones rápidas de manejo.

Evaluando el Sistema

Para probar qué tan bien funciona nuestro sistema, utilizamos dos políticas de toma de decisiones diferentes: la política Epsilon-Greedy y la política Boltzmann. La política Epsilon-Greedy está diseñada para explorar diferentes acciones basadas en elecciones aleatorias mientras todavía se enfoca en acciones que han funcionado bien antes. La política Boltzmann, por otro lado, usa un método específico para evaluar las mejores acciones a tomar basándose en sus probabilidades.

Simulación de Tráfico

También creamos un entorno de simulación usando herramientas como SUMO (Simulación de Movilidad Urbana) y OpenAI GYM. Esta simulación nos permite ver qué tan bien desempeña nuestro sistema en un entorno controlado antes de aplicarlo a escenarios del mundo real.

Conocimientos Previos

Aprendizaje por Refuerzo

El Aprendizaje por Refuerzo (RL) es un tipo de aprendizaje automático donde los agentes aprenden a tomar decisiones basándose en sus experiencias. En configuraciones típicas de RL, un agente recibe recompensas o penalizaciones por las acciones que toma en diferentes situaciones. El objetivo del agente es aprender cómo tomar acciones que maximicen sus recompensas futuras.

Aprendizaje Profundo por Refuerzo

El Aprendizaje Profundo por Refuerzo (DRL) combina el RL tradicional con técnicas de aprendizaje profundo. Usando redes neuronales, el DRL puede manejar situaciones más complejas y aprender más rápido que los métodos tradicionales. Esto lo hace adecuado para aplicaciones como la conducción autónoma, donde la toma de decisiones rápida y precisa es esencial.

Modelo Integrado de Seguimiento de Autos y Cambio de Carril

Nuestro modelo propuesto combina los comportamientos de seguimiento de autos y de cambio de carril para crear un marco de toma de decisiones unificado. El modelo asume que el AV tiene varios sensores y sistemas de comunicación, lo que le permite recopilar datos importantes sobre su entorno.

Espacios de Estado y Acción

En nuestro modelo, definimos un estado que consiste en datos importantes del vehículo, como la distancia a obstáculos, la velocidad y la posición. El espacio de acción se define como las posibles decisiones que el vehículo puede tomar, como cambiar de carril o quedarse en el carril actual.

Sistema de recompensas

Para fomentar el comportamiento correcto, configuramos un sistema de recompensas. El vehículo recibe recompensas positivas por cambiar de carril exitosamente y evitar obstáculos, mientras que recibe recompensas negativas por no cambiar de carril o fusionarse demasiado lento. Este sistema ayuda al agente a aprender a tomar mejores decisiones con el tiempo.

Pasos de Implementación

Para implementar el modelo, pasamos por varios pasos.

  1. Modelar el MDP en Python: Definimos los espacios de estado y acción, así como la función de recompensa.
  2. Configurar la Simulación: Creamos el entorno de simulación usando SUMO, donde los AVs podrían operar.
  3. Entrenar al Agente: Usando OpenAI GYM, entrenamos a nuestros agentes de DRL para aprender de sus experiencias en la simulación.
  4. Integrar SUMO y GYM: Conectamos el entorno de simulación con el agente entrenado, permitiendo la toma de decisiones en tiempo real.

Resultados

Después de entrenar durante varios episodios, analizamos qué tan bien funcionó cada política. Se encontró que la política Epsilon-Greedy era más efectiva que la política Boltzmann.

Comparación de Acciones

Durante la simulación, la política Epsilon-Greedy tomó una variedad más amplia de acciones. Fue capaz de adaptar su comportamiento basado en el entorno cambiante y maximizar las recompensas con el tiempo. La política Boltzmann, por otro lado, tendía a apegarse a un conjunto consistente de acciones y le costaba adaptarse igual.

Conclusión

Nuestro trabajo demuestra que un enfoque integrado al seguimiento de autos y el cambio de carril puede mejorar significativamente el desempeño de los vehículos autónomos en escenarios de tráfico complejos. Al utilizar técnicas de aprendizaje profundo por refuerzo y un entorno de simulación bien estructurado, podemos reducir retrasos y mejorar la seguridad en las carreteras.

Trabajo Futuro

El marco que construimos presenta una oportunidad para probar diferentes algoritmos y hacer mejoras. En el futuro, planeamos explorar métodos adicionales de DRL y considerar varias situaciones de tráfico, permitiendo una solución más robusta. Esta investigación tiene como objetivo contribuir a sistemas de transporte más seguros y eficientes.

Fuente original

Título: Implicit Sensing in Traffic Optimization: Advanced Deep Reinforcement Learning Techniques

Resumen: A sudden roadblock on highways due to many reasons such as road maintenance, accidents, and car repair is a common situation we encounter almost daily. Autonomous Vehicles (AVs) equipped with sensors that can acquire vehicle dynamics such as speed, acceleration, and location can make intelligent decisions to change lanes before reaching a roadblock. A number of literature studies have examined car-following models and lane-changing models. However, only a few studies proposed an integrated car-following and lane-changing model, which has the potential to model practical driving maneuvers. Hence, in this paper, we present an integrated car-following and lane-changing decision-control system based on Deep Reinforcement Learning (DRL) to address this issue. Specifically, we consider a scenario where sudden construction work will be carried out along a highway. We model the scenario as a Markov Decision Process (MDP) and employ the well-known DQN algorithm to train the RL agent to make the appropriate decision accordingly (i.e., either stay in the same lane or change lanes). To overcome the delay and computational requirement of DRL algorithms, we adopt an MEC-assisted architecture where the RL agents are trained on MEC servers. We utilize the highly reputable SUMO simulator and OPENAI GYM to evaluate the performance of the proposed model under two policies; {\epsilon}-greedy policy and Boltzmann policy. The results unequivocally demonstrate that the DQN agent trained using the {\epsilon}-greedy policy significantly outperforms the one trained with the Boltzmann policy.

Autores: Emanuel Figetakis, Yahuza Bello, Ahmed Refaey, Lei Lei, Medhat Moussa

Última actualización: 2023-09-25 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2309.14395

Fuente PDF: https://arxiv.org/pdf/2309.14395

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares