Mejorando las Predicciones en la Planificación del Transporte con ENSY
Presentamos ENSY para mejorar las predicciones de modos de viaje de minorías.
― 8 minilectura
Tabla de contenidos
La planificación del transporte depende en gran medida de entender cómo la gente elige sus modos de viaje. Predecir con precisión estas elecciones ayuda a mejorar los sistemas de transporte público y a gestionar el tráfico de manera efectiva. Sin embargo, los métodos tradicionales de predicción a menudo pasan por alto opciones de viaje menos comunes, lo que lleva a resultados desequilibrados. Este artículo presenta un nuevo método llamado Ensemble Synthesizer (ENSY) que busca mejorar las predicciones para los modos de viaje minoritarios y aumentar la precisión general en los modelos de transporte.
El Desafío de la Predicción de Elección de Modos
La predicción de elección de modos se centra en por qué los viajeros eligen una opción de transporte sobre otra. Los factores que influyen en estas elecciones pueden ser simples, como la distancia y el tiempo de viaje, o más abstractos, como la seguridad y la comodidad. Con nuevas opciones de transporte surgiendo, como el carpooling y los scooters eléctricos, entender estas elecciones se ha vuelto aún más complejo.
Históricamente, los economistas y expertos en transporte han usado modelos de elección discreta (DCMs) para predecir las elecciones de modo. Estos modelos tienen sus méritos, incluyendo explicaciones claras de su funcionamiento. Sin embargo, también requieren muchas suposiciones y un procesamiento de datos extenso, lo que puede complicar su uso.
Los avances recientes en el aprendizaje automático (ML) ofrecen una nueva perspectiva. A diferencia de los métodos tradicionales, el ML no necesita estructuras de datos rígidas, lo que le permite adaptarse de manera más efectiva al comportamiento diverso visto en las elecciones de viaje.
Conjuntos de Datos Desequilibrados
Un gran obstáculo en la predicción de elección de modos son los conjuntos de datos desequilibrados. En los estudios de transporte, ciertos modos de viaje, como caminar o andar en bicicleta, pueden ser mucho menos comunes que otros, como conducir. Los modelos tradicionales pueden funcionar bien con modos comunes, pero batallan con opciones raras, lo que lleva a resultados sesgados.
Para mejorar las predicciones para modos menos comunes, los investigadores han explorado varios métodos. Algunos de estos incluyen diferentes técnicas para la creación de datos sintéticos, que es la práctica de crear datos sintéticos para equilibrar los tamaños de clase. Sin embargo, muchos métodos existentes tienen limitaciones, lo que resulta en desafíos continuos para predicciones precisas.
Presentando Ensemble Synthesizer (ENSY)
Este artículo presenta ENSY como una solución a los problemas planteados por conjuntos de datos desequilibrados en la predicción de elección de modos. ENSY utiliza distribuciones de probabilidad de datos existentes para crear nuevos puntos de datos sintéticos diseñados específicamente para mejorar la predicción de clases minoritarias.
El método ENSY tiene dos componentes principales: un generador y un validador. El generador crea nuevos puntos de datos para clases subrepresentadas basándose en los patrones de datos existentes. El validador chequea si estos puntos generados encajan dentro de las categorías definidas, asegurando datos sintéticos de alta calidad antes de ser utilizados en la capacitación de modelos de predicción.
Cómo Funciona ENSY
Generación de datos
En el primer paso, el generador de ENSY crea nuevas instancias para cada modo de viaje. Comienza con la distribución general de los datos existentes para formar nuevas muestras. El generador trabaja con datos numéricos y categóricos por separado.
Para las características numéricas, un Modelo de Mezcla Gaussiana identifica patrones en los datos, permitiendo que el generador cree nuevos valores que se mantengan dentro de límites realistas. Si los valores generados superan los límites mínimos o máximos de los datos reales, pueden ajustarse para cumplir con estos límites.
Para características categóricas, ENSY utiliza frecuencias observadas de diferentes categorías para generar nuevas instancias. Mediante una técnica de mapeo sencilla, ENSY asegura que los valores categóricos creados reflejen la distribución de los datos originales.
Proceso de Validación
Una vez generadas las instancias sintéticas, pasan por el validador. Un clasificador entrenado evalúa los nuevos puntos de datos para determinar si representan con precisión las clases minoritarias. Si el clasificador identifica una instancia como incorrecta, se descarta; de lo contrario, se incluye en el conjunto de entrenamiento. Este paso de validación es crucial porque asegura que solo se añadan datos de alta calidad, lo que lleva a un mejor rendimiento del modelo.
Evaluando el Rendimiento
Para medir qué tan bien rinde ENSY, se utilizan varias métricas estándar, como la precisión general, la precisión, el recall y el F1-score. La precisión general refleja cuántos casos fueron predichos correctamente, mientras que la precisión indica qué tan precisas fueron las predicciones para la clase minoritaria. El recall mide la capacidad del modelo para identificar todos los casos dentro de la clase minoritaria, y el F1-score combina precisión y recall en una única métrica.
Al comparar ENSY con métodos existentes, como Random Oversampling, SMOTE y Redes Generativas Antagónicas, ENSY mostró consistentemente un mejor rendimiento en términos de mejorar el F1-score para modos de viaje menos comunes.
Resultados
Los resultados de usar ENSY en conjuntos de datos como el conjunto de datos de elección de modo de pasajeros de Londres y la base de datos de transporte de Corea mostraron mejoras prometedoras. Por ejemplo, ENSY casi cuadruplicó el F1 score para la clase minoritaria de ciclismo y aumentó la precisión general en alrededor del 3% en el conjunto de datos de Londres, demostrando también efectividad en el conjunto de datos coreano.
Además, al aplicar algoritmos de aprendizaje automático como Extreme Gradient Boosting y Random Forest, ENSY mostró un potencial significativo. En muchos casos, la tasa de éxito de clasificación mejoró, especialmente al utilizar el modelo XGB, que consistentemente superó a otros en los resultados.
Comparación con Otros Métodos
Random Oversampling
El Random Oversampling implica simplemente duplicar instancias de la clase minoritaria. Si bien este es un método sencillo, tiene algunas desventajas. Principalmente, no añade nueva información, lo que puede evitar que el modelo aprenda distinciones más sutiles dentro de los datos. En contraste, ENSY genera instancias sintéticas variadas, ayudando al clasificador a capturar más detalles.
SMOTE
La Técnica de Sobreamuestreo de Minorías Sintéticas (SMOTE) crea nuevas instancias interpolando entre las existentes. Si bien es efectiva, SMOTE tiene limitaciones porque depende de la estructura de los datos existentes. ENSY, por otro lado, explora patrones más amplios en los datos, permitiéndole crear instancias sintéticas que brindan más información sobre las clases minoritarias.
GANs
Las Redes Generativas Antagónicas (GANs) involucran dos modelos compitiendo entre sí, uno generando datos y el otro distinguiendo entre reales y falsos. Si bien las GANs son potentes, pueden sobreajustarse a las clases mayoritarias o generar ruido para las clases minoritarias. ENSY aborda estos problemas generando datos sintéticos basados en la distribución existente de todas las clases y priorizando la calidad a través de su paso de validación.
Conclusión
En resumen, ENSY ofrece un enfoque innovador para abordar el desequilibrio de clases en la predicción de elección de modos. Al generar datos sintéticos de alta calidad adaptados para clases minoritarias, aumenta la precisión predictiva en general. Los resultados tanto del conjunto de datos de elección de modo de pasajeros de Londres como de la base de datos de transporte de Corea destacan la promesa de ENSY como una herramienta fiable para mejorar las predicciones en la planificación del transporte.
Aunque los avances mostrados por ENSY son alentadores, se necesita continuar la investigación para refinar aún más el método y explorar aplicaciones adicionales. El trabajo futuro podría involucrar la optimización de parámetros, explorar técnicas de aprendizaje en conjunto e integrar una ingeniería de características más detallada para optimizar su efectividad.
En conclusión, a medida que los sistemas de transporte continúan evolucionando, asegurar predicciones precisas de elección de modos seguirá siendo crucial. ENSY proporciona un valioso camino para mejorar estas predicciones, ayudando en última instancia a una mejor planificación y gestión del transporte.
Título: Improving Trip Mode Choice Modeling Using Ensemble Synthesizer (ENSY)
Resumen: Accurate classification of mode choice datasets is crucial for transportation planning and decision-making processes. However, conventional classification models often struggle to adequately capture the nuanced patterns of minority classes within these datasets, leading to sub-optimal accuracy. In response to this challenge, we present Ensemble Synthesizer (ENSY) which leverages probability distribution for data augmentation, a novel data model tailored specifically for enhancing classification accuracy in mode choice datasets. In our study, ENSY demonstrates remarkable efficacy by nearly quadrupling the F1 score of minority classes and improving overall classification accuracy by nearly 3%. To assess its performance comprehensively, we compare ENSY against various augmentation techniques including Random Oversampling, SMOTE-NC, and CTGAN. Through experimentation, ENSY consistently outperforms these methods across various scenarios, underscoring its robustness and effectiveness
Autores: Amirhossein Parsi, Melina Jafari, Sina Sabzekar, Zahra Amini
Última actualización: 2024-07-01 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2407.01769
Fuente PDF: https://arxiv.org/pdf/2407.01769
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.