Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Apprendimento automatico

Un Approccio Più Semplice alla Previsione del Traffico con AutoEn

AutoEn semplifica la previsione del traffico usando tecniche di machine learning automatiche.

― 8 leggere min


Previsione del trafficoPrevisione del trafficoefficiente con AutoEnautomatico automatizzato.traffico grazie all'apprendimentoAutoEn semplifica la previsione del
Indice

I dati sul traffico sono ovunque, prodotti da sistemi di trasporto intelligenti, e gestirli può essere davvero complicato. Per affrontare questo problema, possiamo usare tecniche di machine learning (ML) per prevedere le condizioni future del traffico. Queste previsioni possono aiutare a ridurre gli ingorghi e rendere i viaggi più fluidi per tutti. Tuttavia, uno dei principali problemi nell'usare il machine learning per le previsioni sul traffico è il Problema di Selezione del Modello (MSP). Questo problema si presenta quando dobbiamo scegliere la giusta combinazione di metodi di elaborazione dei dati e algoritmi di machine learning per i dati sul traffico, che possono variare a seconda del tipo di ambiente di trasporto.

Per aiutare con questo, possiamo usare un metodo chiamato AutoML (Machine Learning Automatizzato). Questo metodo automatizza l'intero processo di machine learning, dalla preparazione dei dati al collaudo del modello. AutoML è particolarmente utile quando le persone non hanno abbastanza competenze nel machine learning, cosa che accade spesso nelle previsioni sul traffico. Anche se esistono molti metodi di AutoML, la maggior parte si basa su processi di ricerca complessi per trovare la pipeline migliore per un set di dati specifico.

In questo articolo, presentiamo un nuovo metodo più semplice chiamato AutoEn. Questo nuovo metodo crea ensemble di classificatori da un insieme predefinito di pipeline di machine learning, evitando la necessità di complicati processi di ricerca. Confronteremo le prestazioni di AutoEn con altri metodi AutoML popolari, dimostrando la sua efficacia in diversi scenari di Previsione del traffico.

Contesto

L'aumento delle tecnologie di rilevamento e telecomunicazione ha portato a enormi quantità di dati. Nel contesto dei trasporti, i sistemi di trasporto intelligenti (ITS) hanno generato grandi volumi di dati sul traffico. Questi dati possono essere utilizzati per varie applicazioni, tra cui fornire informazioni ai viaggiatori e prevedere le condizioni del traffico.

Le previsioni sul traffico (TF) giocano un ruolo cruciale nella gestione del traffico. Prevedendo stati di traffico come il tempo di viaggio o i livelli di congestione, possiamo aiutare ad alleviare i problemi di traffico. Da una prospettiva di machine learning, le previsioni sul traffico comportano l'uso di dati passati per prevedere le condizioni future.

Tuttavia, i dati sul traffico presentano due sfide significative per il machine learning:

  1. Formati Dati Diversificati: I dati sul traffico possono essere raccolti in varie forme, come conteggi di veicoli o tracciamento GPS. Inoltre, diversi scenari di trasporto, come aree urbane o autostrade, portano a diversi tipi di dati. Questi fattori possono influenzare le prestazioni degli algoritmi di machine learning.

  2. Bisogni di Preprocessing Dati: I dati grezzi sul traffico spesso richiedono preprocessing prima dell'analisi. Trovare la migliore combinazione di tecniche di preprocessing e algoritmi di machine learning può richiedere tempo e conoscenze specializzate.

Date queste problematiche, l'AutoML sembra essere uno strumento prezioso per gestire le complessità delle previsioni sul traffico. Può aiutare ad automatizzare il processo, rendendo più semplice per chi non ha competenze specializzate nel machine learning utilizzare soluzioni di machine learning.

Approcci AutoML Esistenti

Ci sono vari metodi AutoML disponibili, ma solo pochi automatizzano la creazione di pipeline complete di machine learning. Nel campo dei trasporti, pochi studi hanno esplorato il potenziale dei metodi AutoML di uso generale specificatamente per le previsioni sul traffico.

Alcuni metodi notevoli includono Auto-WEKA e Auto-sklearn, che si basano su strategie di ricerca online per trovare pipeline ottimali per il dataset specifico. Questi metodi spesso utilizzano tecniche come l'ottimizzazione e il meta-apprendimento per migliorare la loro ricerca di pipeline adatte. Tuttavia, questi approcci possono essere intensivi in termini di risorse computazionali e richiedere molto tempo, soprattutto quando si trattano grandi set di dati.

La principale preoccupazione con tali processi di ottimizzazione è la loro complessità e la necessità di significative risorse computazionali. Inoltre, c'è il rischio di overfitting quando i modelli vengono sintonizzati per molto tempo. Anche se il meta-apprendimento può aiutare, spesso ha difficoltà con set di dati diversificati, portando alla possibilità di raccomandare pipeline inappropriate.

Queste sfide evidenziano la necessità di un approccio AutoML più efficiente e robusto per le previsioni sul traffico. Qui entra in gioco AutoEn.

Introduzione di AutoEn

AutoEn è progettato come un metodo più semplice ed efficiente per gestire i problemi di previsione del traffico. Invece di concentrarsi sull'ottimizzazione di singole pipeline-un approccio che può portare a lunghi tempi di ricerca e potenziale overfitting-AutoEn crea ensemble di classificatori da un insieme predefinito di pipeline di machine learning.

Caratteristiche Chiave di AutoEn

  1. Creazione Automatica di Ensemble: Invece di ottimizzare ogni pipeline, AutoEn genera ensemble da pipeline che sono già state definite. Questo consente un approccio più diretto alla costruzione dei modelli pur migliorando le prestazioni.

  2. Riduzione della Complessità: Evitando il profondo processo di ottimizzazione, AutoEn offre un metodo più scalabile e meno soggetto a overfitting. Questo porta anche a uno spazio di ricerca più gestibile per quanto riguarda gli iperparametri.

  3. Selezione Basata su Validazione: Quando vengono introdotti nuovi dati, AutoEn valuta le prestazioni delle sue pipeline di base su un set di validazione e utilizza queste informazioni per decidere quali pipeline includere nell'ensemble. Questo passaggio garantisce che vengano selezionati solo i classificatori più adatti per il modello finale.

Come Funziona AutoEn

Il funzionamento di AutoEn può essere suddiviso in due fasi principali:

  1. Fase Preliminare: Durante questa fase, viene costruito un insieme di pipeline di machine learning diverse utilizzando diverse tecniche di preprocessing e algoritmi. Queste pipeline vengono allenate offline su vari compiti di apprendimento prima di essere memorizzate.

  2. Fase Online: Una volta che arrivano nuovi dati, AutoEn suddivide il set di dati in set di addestramento, validazione e test. Le pipeline predefinite vengono poi valutate in base alle loro prestazioni sul set di validazione. I classificatori ad alte prestazioni vengono selezionati e combinati in un modello ensemble che verrà utilizzato per la previsione sul set di test.

Questo approccio completa i metodi tradizionali concentrandosi sulla creazione di ensemble robusti invece di fare affidamento solo su singole pipeline.

Quadro Sperimentale

Per valutare le prestazioni di AutoEn, abbiamo condotto test sia in contesti di uso generale che in scenari specifici di previsione del traffico.

Test di Uso Generale

In questa fase, AutoEn è stato confrontato con metodi AutoML consolidati come Auto-sklearn e Auto-WEKA. L'obiettivo era valutare quanto bene AutoEn si comporta in una varietà di problemi di classificazione binaria e multiclasse.

Sono stati utilizzati un totale di 28 set di dati, compresi problemi di classificazione binaria e multiclasse. Le principali misure di performance includevano l'area sotto la curva del carattere operativo del ricevitore (ROC AUC) per i set di dati binari e la perdita logaritmica per i set di dati multiclasse. Sono stati impiegati test statistici per accertare la significatività dei risultati.

Test di Previsione del Traffico

Per i test di previsione del traffico, abbiamo raccolto dati da due fonti chiave: ambienti urbani e autostradali. L'obiettivo era prevedere il Livello di Servizio (LoS), che fornisce indicazioni sulla qualità del flusso del traffico.

I dataset includevano dati temporali sul traffico raccolti su diversi orizzonti temporali. Le prestazioni di AutoEn sono state confrontate con Auto-sklearn utilizzando più modelli con vari tempi di esecuzione per valutare la sua efficacia.

Risultati

Risultati nel Dominio di Uso Generale

AutoEn ha dimostrato risultati competitivi quando testato contro altri metodi AutoML. Le prestazioni per i set di dati binari hanno mostrato più pareggi e punteggi ravvicinati tra i metodi, senza che un singolo metodo si sia costantemente distinto sopra gli altri.

Nei test sui set di dati multiclasse, AutoEn ha ottenuto risultati notevoli, raggiungendo risultati simili o migliori rispetto ai suoi concorrenti. In particolare, AutoEn ha mantenuto un tempo di esecuzione costante, spesso rimanendo sotto i limiti di tempo previsti per altri metodi.

Risultati di Previsione del Traffico

In termini di previsione del traffico, AutoEn è emerso come un forte concorrente. È stato particolarmente efficace in set di dati dove i tempi di previsione più lunghi erano cruciali. AutoEn ha superato Auto-sklearn in diversi scenari, specialmente nel trattare strutture di dati complessi sul traffico.

Analisi Statistica

Sono stati condotti test statistici per determinare la significatività delle prestazioni. I risultati hanno indicato che non c'era un chiaro vincitore tra i metodi testati, ma AutoEn si è costantemente classificato bene, mostrando spesso prestazioni superiori negli scenari di previsione del traffico.

Conclusione

In sintesi, AutoEn presenta un nuovo approccio al machine learning automatizzato, specificamente progettato per le previsioni sul traffico. Concentrandosi sulla creazione di ensemble piuttosto che sulla profonda ottimizzazione, AutoEn offre vantaggi in termini di efficienza computazionale e ridotto rischio di overfitting. Le sue prestazioni su vari set di dati e compiti indicano il suo potenziale come strumento affidabile per utenti non esperti che cercano di sfruttare il machine learning nella gestione del traffico.

Con la sua implementazione più facile e la capacità di adattarsi a diverse dimensioni di dataset, AutoEn è pronto a affrontare molte delle sfide nel campo delle previsioni automatizzate sul traffico e potrebbe colmare il divario per coloro che non hanno una vasta esperienza nel machine learning. Questo lo rende un'aggiunta promettente nel campo del Machine Learning Automatizzato.

Fonte originale

Titolo: AutoEn: An AutoML method based on ensembles of predefined Machine Learning pipelines for supervised Traffic Forecasting

Estratto: Intelligent Transportation Systems are producing tons of hardly manageable traffic data, which motivates the use of Machine Learning (ML) for data-driven applications, such as Traffic Forecasting (TF). TF is gaining relevance due to its ability to mitigate traffic congestion by forecasting future traffic states. However, TF poses one big challenge to the ML paradigm, known as the Model Selection Problem (MSP): deciding the most suitable combination of data preprocessing techniques and ML method for traffic data collected under different transportation circumstances. In this context, Automated Machine Learning (AutoML), the automation of the ML workflow from data preprocessing to model validation, arises as a promising strategy to deal with the MSP in problem domains wherein expert ML knowledge is not always an available or affordable asset, such as TF. Various AutoML frameworks have been used to approach the MSP in TF. Most are based on online optimisation processes to search for the best-performing pipeline on a given dataset. This online optimisation could be complemented with meta-learning to warm-start the search phase and/or the construction of ensembles using pipelines derived from the optimisation process. However, given the complexity of the search space and the high computational cost of tuning-evaluating pipelines generated, online optimisation is only beneficial when there is a long time to obtain the final model. Thus, we introduce AutoEn, which is a simple and efficient method for automatically generating multi-classifier ensembles from a predefined set of ML pipelines. We compare AutoEn against Auto-WEKA and Auto-sklearn, two AutoML methods commonly used in TF. Experimental results demonstrate that AutoEn can lead to better or more competitive results in the general-purpose domain and in TF.

Autori: Juan S. Angarita-Zapata, Antonio D. Masegosa, Isaac Triguero

Ultimo aggiornamento: 2023-03-19 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2303.10732

Fonte PDF: https://arxiv.org/pdf/2303.10732

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Articoli simili