Migliorare le previsioni nella modellazione del comportamento di viaggio
Un nuovo framework affronta le incertezze nei modelli di scelta discreta per fare previsioni migliori.
― 6 leggere min
Indice
La modellazione del comportamento di viaggio ci aiuta a capire come le persone fanno scelte riguardo ai trasporti. Un metodo comune usato per questo scopo si chiama modelli di scelta discreta (DCM). Questi modelli cercano di prevedere quale opzione una persona sceglierà tra un insieme di alternative. Per esempio, quando deve decidere come arrivare al lavoro, una persona potrebbe scegliere tra guidare, prendere l'autobus o andare in bicicletta.
Tuttavia, i Dati che raccogliamo per costruire questi modelli hanno spesso errori. Questi errori possono provenire da varie fonti, come errori nelle risposte ai questionari o problemi con il modo in cui i dati sono stati registrati. Ricerche precedenti si sono concentrate principalmente su come migliorare la stima dei parametri del modello sottostante. Anche se questo è importante, non aiuta direttamente quando si cerca di prevedere nuove scelte basate sui dati che contengono errori.
In questa discussione, ci concentreremo su come prevedere meglio le nuove scelte fatte da individui quando ci sono incertezze nei dati.
Background sui Modelli di Scelta Discreta
I modelli di scelta discreta funzionano calcolando la probabilità che una persona scelga una particolare opzione in base a determinati fattori. Questi fattori possono includere tempo di viaggio, costo o preferenze personali. Un tipo comune di modello di scelta discreta è il modello logit multinomiale (MNL), dove si assume che le preferenze di ciascuna persona possano essere catturate attraverso variabili specifiche.
In pratica, deriviamo il modello dalla teoria dell'utilità, che aiuta a spiegare come le persone fanno le loro scelte. Ogni alternativa ha un'utilità associata, che è la soddisfazione o il beneficio che una persona ottiene scegliendo quella opzione. L'utilità può essere influenzata da vari fattori osservati e non osservati.
Di solito, un DCM produce probabilità per ogni alternativa, permettendoci di prevedere quale scelta è probabile che una persona faccia. I dati che usiamo per costruire questi modelli provengono solitamente da sondaggi in cui gli individui riportano le loro preferenze.
Sfide con le Incertezze nei Dati
Una delle sfide più significative nell'uso dei modelli di scelta discreta è che i dati possono essere incerti. Questo include errori di misurazione, dove le informazioni raccolte non riflettono accuratamente la realtà. Per esempio, un partecipante al sondaggio potrebbe riportare in modo errato il proprio reddito, portando a risultati distorti. Questi errori possono verificarsi nelle caratteristiche (variabili indipendenti) o nelle etichette (variabili dipendenti).
Gli errori di misurazione possono portare a previsioni distorte, riducendo l'efficacia dei modelli. I metodi tradizionali per gestire questi errori spesso si basano sull'uso di variabili strumentali, che presumono che abbiamo informazioni corrette disponibili per aiutare ad aggiustare queste imprecisioni. Tuttavia, trovare variabili ausiliarie adatte in pratica può essere difficile.
La maggior parte delle ricerche esistenti si è concentrata nell'affrontare gli errori di misurazione durante la fase di formazione dello sviluppo del modello. Tuttavia, una volta che il modello è addestrato e cerchiamo di prevedere risultati da nuovi dati, gli errori di misurazione possono ancora persistere. Questa situazione solleva la domanda: come possiamo migliorare le previsioni quando ci troviamo di fronte a incertezze nei dati?
L'Approccio Proposto: Modelli di Scelta Discreta Robusti
Per affrontare le sfide presentate dagli errori di misurazione, proponiamo un framework di modelli di scelta discreta robusti. Questo framework si concentra sull'accounting per le incertezze sia nelle caratteristiche che nelle etichette per migliorare l'accuratezza delle previsioni quando si tratta di nuovi dati.
L'idea centrale dietro il framework Robusto è minimizzare la perdita nel peggior caso attraverso una varietà di scenari di incertezza dei dati. Questo comporta riconoscere che gli errori di misurazione si presenteranno, e abbiamo bisogno di una soluzione che rimanga efficace anche in presenza di tali problemi.
Gestione delle Incertezze delle Caratteristiche e delle Etichette
Nel nostro modello robusto, trattiamo le incertezze delle caratteristiche assumendo che l'errore di misurazione su ciascuna caratteristica sia inferiore a una soglia precedentemente impostata. Questo consente al modello di essere più resiliente alle imprecisioni nei dati di input. Per le incertezze delle etichette, consideriamo che ci siano al massimo un numero limitato di scelte errate.
Utilizzando questo approccio strutturato, possiamo derivare controparti robuste sia per i modelli di scelta discreta robusta delle caratteristiche che per quelli delle etichette. Le valutazioni iniziali suggeriscono che questi modelli possono superare i DCM standard in accuratezza e prestazioni previsionali.
Implementazione del Framework Robusto
Abbiamo applicato il nostro framework robusto in due casi studio: un set di dati per scelte binarie e un set di dati per scelte multinomiali. Il primo ha riguardato scelte relative al viaggio per la prima e l'ultima parte del tragitto a Singapore, mentre il secondo ha esaminato le preferenze per diversi modi di viaggio in Svizzera.
In entrambi i casi, abbiamo generato sistematicamente dati sintetici con errori noti per testare la robustezza dei nostri modelli. I risultati hanno mostrato che i modelli che considerano le incertezze hanno prodotto una migliore accuratezza nei test e log-verosimiglianza rispetto ai metodi convenzionali.
Riflessioni dagli Esperimenti
I risultati sperimentali hanno dimostrato che man mano che aumentiamo la considerazione delle incertezze nei nostri modelli, l'accuratezza dell'addestramento può diminuire. Questa diminuzione si verifica perché il modello sta dando priorità alla robustezza rispetto al fitting preciso dei dati di addestramento. Nonostante questo, quando applichiamo i modelli a nuovi dati, i modelli robusti si comportano significativamente meglio rispetto ai loro omologhi tradizionali.
Un'osservazione importante è che la robustezza nei nostri modelli funziona in modo simile alle tecniche di regolarizzazione comunemente usate nel machine learning. La regolarizzazione aiuta i modelli a generalizzare meglio prevenendo l'overfitting ai dati di addestramento. Nel nostro caso, l'approccio alla robustezza porta a stime di parametro più piccole, promuovendo una migliore generalizzazione a nuovi campioni.
Conclusione
In sintesi, abbiamo presentato un framework di modelli di scelta discreta robusti che gestisce efficacemente le incertezze nelle caratteristiche e nelle etichette. Concentrandoci sull'ottimizzazione robusta, il nostro approccio offre un modo per migliorare le previsioni fatte dai dati che possono contenere imprecisioni. I risultati positivi dei nostri esperimenti suggeriscono che questo framework ha buone possibilità di migliorare l'accuratezza delle previsioni sul comportamento di viaggio.
Le direzioni future della ricerca potrebbero includere la combinazione di modelli robusti delle caratteristiche e delle etichette in un framework unificato e lo sviluppo di metodi per regolare automaticamente gli iper-parametri. Inoltre, potrebbero essere fatti sforzi per perfezionare i metodi di approssimazione utilizzati nei nostri modelli multinomiali robusti per fornire previsioni ancora più accurate.
La sfida delle incertezze nei dati è prevalente in molti campi, e affrontando questi problemi nel contesto della modellazione del comportamento di viaggio, possiamo migliorare l'efficacia della pianificazione dei trasporti e dell'analisi delle politiche.
Titolo: Robust Discrete Choice Model for Travel Behavior Prediction With Data Uncertainties
Estratto: Discrete choice models (DCMs) are the canonical methods for travel behavior modeling and prediction. However, in many scenarios, the collected data for DCMs are subject to measurement errors. Previous studies on measurement errors mostly focus on "better estimating model parameters" with training data. In this study, we focus on "better predicting new samples' behavior" when there are measurement errors in testing data. To this end, we propose a robust discrete choice model framework that is able to account for data uncertainties in both features and labels. The model is based on robust optimization theory that minimizes the worst-case loss over a set of uncertainty data scenarios. Specifically, for feature uncertainties, we assume that the $\ell_p$-norm of the measurement errors in features is smaller than a pre-established threshold. We model label uncertainties by limiting the number of mislabeled choices to at most $\Gamma$. Based on these assumptions, we derive a tractable robust counterpart for robust-feature and robust-label DCM models. The derived robust-feature binary logit (BNL) and the robust-label multinomial logit (MNL) models are exact. However, the formulation for the robust-feature MNL model is an approximation of the exact robust optimization problem. The proposed models are validated in a binary choice data set and a multinomial choice data set, respectively. Results show that the robust models (both features and labels) can outperform the conventional BNL and MNL models in prediction accuracy and log-likelihood. We show that the robustness works like "regularization" and thus has better generalizability.
Autori: Baichuan Mo, Yunhan Zheng, Xiaotong Guo, Ruoyun Ma, Jinhua Zhao
Ultimo aggiornamento: 2024-01-06 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2401.03276
Fonte PDF: https://arxiv.org/pdf/2401.03276
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.