Elaborazione dei dati efficace per previsioni migliori
Uno sguardo ai metodi di elaborazione dei dati per migliorare i risultati dei modelli predittivi.
― 6 leggere min
Indice
Questo articolo analizza diversi metodi per elaborare i dati al fine di migliorare le previsioni, specialmente per i modelli di classificazione binaria, come quelli che utilizzano eXtreme Gradient Boosting (XGBoost). Abbiamo usato tre diversi tipi di set di dati creati con varie complessità, insieme a un set di dati reale di Lending Club. Abbiamo esaminato una gamma di metodi per selezionare le caratteristiche importanti, gestire i dati categorici e riempire i valori mancanti. L'attenzione è rivolta a capire come questi metodi si comportano e quali funzionano meglio in situazioni diverse.
Introduzione
Negli ultimi anni, banche e aziende di tecnologia finanziaria hanno iniziato a usare sempre di più i dati per guidare le decisioni, in particolare nel prestare soldi alle persone. Mentre raccolgono enormi quantità di dati, diventa fondamentale preparare queste informazioni nel modo giusto per massimizzare le prestazioni dei loro modelli, che possono influenzare profitti e perdite. Esistono vari metodi per preparare i dati, noti collettivamente come preprocessing.
Questo articolo mira ad analizzare le prestazioni di diversi metodi di preprocessing in tre aree: Selezione delle Caratteristiche, gestione dei dati categorici e imputazione dei valori nulli. Esaminando come si comportano i metodi più popolari, speriamo di illuminare il loro uso pratico.
Metodi di Selezione delle Caratteristiche
Selezionare le caratteristiche giuste, o variabili di input, è fondamentale per migliorare le prestazioni del modello. Concentrandoci solo sulle variabili più rilevanti, possiamo migliorare sia la velocità che l'accuratezza dei modelli predittivi. Ecco i metodi che abbiamo esaminato:
Riduzione del Coefficiente di Correlazione: Questo implica identificare e rimuovere le caratteristiche correlate tra loro, lasciando solo quelle che forniscono informazioni uniche.
Regolarizzazione: Questo metodo aiuta a limitare il numero di caratteristiche incluse aggiungendo una penalità per la complessità eccessiva, eliminando di fatto le caratteristiche meno importanti.
Importanza delle Caratteristiche in XGBoost: XGBoost ha modi integrati per misurare quanto siano importanti le caratteristiche in base al loro impatto sulle previsioni.
Importanza delle Caratteristiche Basata sulla Permutazione: Questa tecnica valuta l'importanza di una caratteristica misurando quanto diminuisce la performance quando i valori della caratteristica vengono mescolati.
Eliminazione Ricorsiva delle Caratteristiche: Questo metodo rimuove progressivamente le caratteristiche meno importanti in base alle prestazioni del modello fino a raggiungere un numero specificato.
Le nostre scoperte suggeriscono che non tutti i metodi funzionano allo stesso modo su diversi set di dati. Ad esempio, mentre alcuni metodi potrebbero funzionare bene per strutture di dati più semplici, altri potrebbero beneficiarne notevolmente di più per quelle più complesse.
Metodi di Gestione dei Dati Categorici
Le variabili categoriche sono quelle che rappresentano categorie o gruppi piuttosto che numeri continui. Poiché la maggior parte delle tecniche di modellazione richiede input numerici, abbiamo esplorato diversi modi per convertire i dati categorici in un formato utilizzabile:
One-Hot Encoding: Questa tecnica trasforma ciascuna categoria in una nuova variabile binaria, indicando la presenza o l'assenza di quella categoria.
Codifica Helmert: Questo metodo mette a confronto ogni categoria con la media delle categorie successive, aiutando a preservare alcune informazioni mentre riduce il numero totale di caratteristiche.
Codifica per Frequenza: Questo metodo sostituisce ogni categoria con la proporzione di occorrenze nei dati, mantenendo lo spazio delle caratteristiche gestibile.
Codifica Binaria: Questa tecnica trasforma le etichette delle categorie in numeri binari, fornendo un modo efficiente per gestire caratteristiche ad alta cardinalità.
La scelta del metodo può influenzare significativamente le prestazioni di un modello. Ad esempio, mentre la codifica per frequenza potrebbe funzionare bene per categorie più complesse, la codifica one-hot potrebbe essere migliore per casi più semplici. È quindi essenziale considerare la natura dei dati prima di decidere una strategia di codifica.
Metodi di Imputazione dei Valori Nulli
I valori mancanti, o nulli, sono un problema comune nell'analisi dei dati. Esistono vari metodi per riempire queste lacune, e il nostro studio ha esaminato i seguenti approcci:
Imputazione della Media: Questo metodo semplice sostituisce i valori mancanti con la media dei valori esistenti.
Imputazione della Mediana: Simile alla media, ma utilizza il valore mediano, che può essere più adatto per dati sbilanciati.
Imputazione con Indicatore di Mancanza: Questo metodo crea una nuova variabile che indica se un valore era assente, permettendo al modello di imparare dall'assenza di dati.
Imputazione Decilare: Questa tecnica sostituisce i valori mancanti sulla base della media dei valori in un segmento specifico o decile dei dati.
Imputazione per Clustering: Qui, vengono formati cluster basati su somiglianze nei dati, e i valori mancanti vengono riempiti utilizzando il valore medio del cluster corrispondente.
Imputazione con Albero Decisionale: Questo metodo costruisce un albero decisionale per prevedere i valori mancanti in base ad altre caratteristiche nei dati.
Le nostre comparazioni hanno mostrato che i diversi metodi di imputazione producono risultati variabili, con alcuni che performano meglio di altri a seconda del contesto.
Risultati e Osservazioni
Confrontando i metodi sopra in scenari pratici, abbiamo fatto diverse osservazioni significative:
Selezione delle Caratteristiche
Per la selezione delle caratteristiche, abbiamo scoperto che l'importanza basata sulla permutazione e la regolarizzazione non erano i migliori approcci. Le prestazioni variavano notevolmente, specialmente nei set di dati con interazioni locali. Scegliere le caratteristiche in base alla loro importanza attraverso il guadagno ha prodotto i risultati più coerenti, portando a migliori prestazioni complessive.
Gestione dei Dati Categorici
Nella nostra analisi della gestione dei dati categorici, la codifica per frequenza spesso ha ottenuto risultati scarsi nei dati strutturati. Per categorie semplici, la codifica one-hot è stata molto efficace, mentre in scenari più complessi, metodi come la codifica Helmert hanno mostrato risultati migliori. È cruciale adattare il metodo alla struttura dei dati.
Imputazione dei Valori Nulli
Quando si tratta di gestire i valori mancanti, l'imputazione con indicatore di mancanza si è distinta come il metodo più efficace in generale. Ci ha permesso di sfruttare la presenza di dati mancanti anziché ignorarli. Sebbene metodi più semplici come l'imputazione della media e della mediana avessero le loro utilità, non si adattavano bene alle relazioni intrinseche nei dati.
Direzioni Future
Lo studio ha evidenziato diverse aree per il lavoro futuro. Mentre ci siamo concentrati principalmente sui modelli XGBoost, altre tecniche di machine learning potrebbero mostrare risultati diversi con gli stessi metodi di preprocessing. Espandere la nostra analisi per includere algoritmi più variati potrebbe fornire una comprensione più completa delle migliori pratiche per il preprocessing dei dati.
Inoltre, la nostra analisi ha assunto distribuzioni specifiche e tipi di caratteristiche limitati. Ricerche future potrebbero esplorare diversi tipi di distribuzioni e incorporare set di dati più ampi e diversificati per una prospettiva più ampia.
Conclusione
Il preprocessing è un passo critico nello sviluppo di modelli predittivi, eppure non ci sono standard universali per le migliori pratiche. Molte organizzazioni si affidano all'esperienza di data scientist per scegliere i metodi appropriati in base alle caratteristiche specifiche dei loro dati.
Questo articolo mira a colmare quella lacuna, confrontando vari metodi di preprocessing e fornendo osservazioni chiare sulle loro prestazioni. Abbiamo appreso che metodi specifici potrebbero non essere sempre ottimali su diversi set di dati e che il contesto è fondamentale quando si scelgono tecniche per la selezione delle caratteristiche, la gestione dei dati categorici e l'imputazione dei valori mancanti.
Comprendendo i punti di forza e i limiti di queste metodologie, speriamo di assistere i praticanti nel prendere decisioni informate che migliorino i loro sforzi di modellazione.
Titolo: A Comparison of Modeling Preprocessing Techniques
Estratto: This paper compares the performance of various data processing methods in terms of predictive performance for structured data. This paper also seeks to identify and recommend preprocessing methodologies for tree-based binary classification models, with a focus on eXtreme Gradient Boosting (XGBoost) models. Three data sets of various structures, interactions, and complexity were constructed, which were supplemented by a real-world data set from the Lending Club. We compare several methods for feature selection, categorical handling, and null imputation. Performance is assessed using relative comparisons among the chosen methodologies, including model prediction variability. This paper is presented by the three groups of preprocessing methodologies, with each section consisting of generalized observations. Each observation is accompanied by a recommendation of one or more preferred methodologies. Among feature selection methods, permutation-based feature importance, regularization, and XGBoost's feature importance by weight are not recommended. The correlation coefficient reduction also shows inferior performance. Instead, XGBoost importance by gain shows the most consistency and highest caliber of performance. Categorical featuring encoding methods show greater discrimination in performance among data set structures. While there was no universal "best" method, frequency encoding showed the greatest performance for the most complex data sets (Lending Club), but had the poorest performance for all synthetic (i.e., simpler) data sets. Finally, missing indicator imputation dominated in terms of performance among imputation methods, whereas tree imputation showed extremely poor and highly variable model performance.
Autori: Tosan Johnson, Alice J. Liu, Syed Raza, Aaron McGuire
Ultimo aggiornamento: 2023-02-23 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2302.12042
Fonte PDF: https://arxiv.org/pdf/2302.12042
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.