Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Apprendimento automatico# Intelligenza artificiale

Ridefinire le valutazioni dei modelli di machine learning per i dati tabulari

Un nuovo approccio per valutare i modelli di ML concentrandosi sulla preparazione dei dati.

― 8 leggere min


Ripensare le valutazioniRipensare le valutazioniMLmodello.piuttosto che sulle prestazioni delConcentrati sulla preparazione dei dati
Indice

I dati tabulari sono comuni in molti settori dove si usa il machine learning, come la salute, la finanza e il commercio al dettaglio. I ricercatori spesso inventano nuovi modelli pensati per imparare da questo tipo di dati. Per vedere quanto funzionano bene questi modelli, gli studi di solito li valutano seguendo passaggi standardizzati per la lavorazione dei dati. Tuttavia, questi approcci standard potrebbero non riflettere le pratiche reali. La modellazione reale richiede spesso passaggi specifici per preparare i dati e creare caratteristiche utili.

Questo articolo propone un nuovo modo di valutare i modelli di machine learning che si concentra sui dati stessi piuttosto che solo sui modelli. Analizziamo dieci set di dati rilevanti dalle competizioni di Kaggle, creando processi di preparazione dei dati a livello esperto per ciascuno. Eseguiamo test con diversi metodi di lavorazione dei dati e modifichiamo le impostazioni per vedere come questi fattori cambiano le prestazioni dei modelli. I nostri risultati principali mostrano che dopo aver personalizzato la preparazione delle caratteristiche, le classifiche dei modelli cambiano in modo significativo e le differenze nelle prestazioni diventano più piccole.

Il Problema con i Metodi di Valutazione Attuali

La maggior parte degli studi valuta le prestazioni dei modelli su set di dati tabulari basandosi su metodi predefiniti di suddivisione dei dati e usando la stessa lavorazione standard per tutti i set di dati. Queste pratiche presentano due problemi rilevanti:

  1. I processi di valutazione non somigliano a ciò che i professionisti fanno realmente, che spesso include la preparazione dei dati in modi specifici adattati a ciascun set.
  2. Non c'è un benchmark affidabile per le prestazioni massime possibili per un compito, il che rende difficile capire quanto bene stia funzionando un modello.

Per risolvere questi problemi, suggeriamo di spostare il nostro focus dai modelli ai dati stessi. I principali contributi del nostro lavoro includono una raccolta di dieci importanti set di dati del mondo reale, processi di preparazione dei dati adattati a ciascun set e un modo per misurare i migliori risultati possibili per ciascun set di dati.

Abbiamo selezionato i nostri set di dati rivedendo le competizioni su Kaggle. Per quanto ne sappiamo, il nostro lavoro offre la gamma più ampia di soluzioni a livello esperto per set di dati tabulari attualmente disponibili.

Cambiamenti nelle Classifiche dei Modelli

Nella nostra analisi, abbiamo esaminato come il confronto tra i modelli cambia quando usiamo processi specifici per ciascun set di dati invece dei metodi standard. La nostra indagine mostra che:

  1. La classifica dei modelli può cambiare drasticamente quando consideriamo la preparazione specifica del set di dati.
  2. Quando applichiamo una preparazione a livello esperto, i divari di prestazioni tra i modelli diminuiscono e molti potrebbero raggiungere risultati eccellenti.
  3. La forza percepita di alcuni modelli, come CatBoost, può cambiare quando consideriamo preparazioni specifiche delle caratteristiche, dato che questo modello già ha caratteristiche integrate che altri modelli non hanno.

L'Importanza del Feature Engineering

Il feature engineering comporta la creazione di nuove caratteristiche basate sui dati esistenti per migliorare le Prestazioni del Modello. I nostri risultati suggeriscono che migliorare i dati attraverso il feature engineering rimane cruciale per ottenere risultati ottimali, anche con modelli di machine learning avanzati. Nessun modello esistente automatizza completamente questo compito, rendendo la preparazione delle caratteristiche un fattore chiave nel successo di molti progetti.

Quando abbiamo confrontato i modelli usando processi standard, abbiamo scoperto che vari modelli non superavano significativamente gli altri. Solo quando abbiamo incorporato una preparazione specifica delle caratteristiche abbiamo visto miglioramenti sostanziali nelle prestazioni. Questo dimostra che, mentre la scelta del modello è importante, i passaggi di preparazione dei dati possono avere un impatto ancora maggiore sulle prestazioni.

Adattamento al Momento del Test

Un altro aspetto interessante che abbiamo trovato è il concetto di adattamento al momento del test (TTA). Molti modelli addestrati su dati presumibilmente statici richiedono ancora di adattarsi ai cambiamenti nel tempo. I campioni vengono spesso raccolti nel tempo, rivelando che un set di dati potrebbe cambiare, e adattarsi a questi cambiamenti è spesso necessario. Anche se la maggior parte dei set di dati tabulari è trattata come statica, la nostra analisi mostra forti evidenze che molte competizioni su Kaggle mostrano caratteristiche temporali.

Adattarsi ai cambiamenti dei dati è importante nelle applicazioni del mondo reale. I nostri risultati suggeriscono che le valutazioni accademiche attuali potrebbero non collegarsi bene con le esigenze dei professionisti poiché spesso trascurano l'importanza di questi cambiamenti.

Imparare dalle Competizioni di Kaggle

Kaggle è una piattaforma online dove si svolgono competizioni di machine learning. Le aziende presentano problemi reali e persone da tutto il mondo cercano di risolverli usando i loro modelli. Molti studi hanno confrontato nuovi approcci con le prestazioni dei partecipanti a queste competizioni. Il nostro framework di valutazione utilizza queste competizioni per identificare soluzioni ad alte prestazioni da cui altri possono imparare.

Abbiamo impostato il nostro metodo di valutazione basandoci su tre fattori chiave spesso trascurati nella ricerca sui dati tabulari:

  1. Valutare su set di dati del mondo reale senza semplificare aspetti chiave, come la gestione delle caratteristiche categoriche.
  2. Creare processi di preparazione dei dati specifici guidati da esperti per ciascun set di dati.
  3. Confrontare le prestazioni del modello rispetto ai livelli di esperti umani su set di dati di test nascosti.

Scegliere i Dati Giusti

Per creare il nostro framework di valutazione, abbiamo selezionato set di dati dalle competizioni di Kaggle che soddisfacevano i seguenti criteri:

  1. Devono includere dati tabulari.
  2. Le competizioni dovrebbero avere un numero significativo di partecipanti.
  3. Dovrebbe esserci un incentivo a partecipare, sia finanziario che altro.

Dopo aver valutato le competizioni con questi criteri, abbiamo selezionato un totale di dieci set di dati per la nostra analisi.

Creare Soluzioni Esperte e Pipeline di Elaborazione Dati

Il nostro framework di valutazione include tre metodi di preparazione dei dati. Uno di questi segue i processi comunemente usati nelle valutazioni dei modelli, mentre gli altri due sono specifici per i set di dati che abbiamo analizzato. Questo approccio ci aiuta a confrontare vari modelli in modo più significativo.

Preprocessing Standardizzato

Questa prima pipeline è cruciale per valutare singoli modelli con un input umano minimo. In questo metodo, gestiamo valori mancanti e rimuoviamo colonne costanti, assicurandoci che gli obiettivi siano log-trasformati per compiti di regressione. Questi passaggi sono comuni negli studi correlati e riflettono le attuali pratiche di valutazione accademica.

Feature Engineering Esperto

Per ciascun set di dati, abbiamo selezionato con attenzione una soluzione ad alte prestazioni da Kaggle. Ci siamo concentrati sul separare la preparazione dei dati da altri componenti del modello. Per la maggior parte dei set di dati, questa pipeline comporta solo tecniche di feature engineering, indipendenti dai tipi di modello.

Adattamento al Momento del Test

Questa pipeline rispecchia la preparazione esperta delle caratteristiche ma utilizza informazioni dai set di dati di test quando applicabile. Molti gruppi di soluzioni hanno utilizzato dati di test per preparare caratteristiche per sei dei nostri set di dati selezionati. Anche se potrebbe sembrare ingiusto, è rilevante in alcuni scenari reali dove i modelli si adattano già al momento del test.

Valutare le Prestazioni del Modello

Il nostro framework di valutazione ci ha permesso di valutare come fattori individuali come la selezione del modello, il feature engineering e l'adattamento al momento del test hanno influenzato le prestazioni. I risultati hanno dimostrato chiaramente che affidarsi semplicemente agli assetti di valutazione standard mostrerebbe solo una parte delle prestazioni potenziali per molti set di dati.

Risultati e Implicazioni

Attraverso i nostri test, abbiamo osservato che l'importanza del feature engineering non può essere sottovalutata. È il componente più significativo nel guidare le prestazioni complessive del modello. I modelli basati sul deep learning non hanno ancora automatizzato efficacemente questo aspetto essenziale.

Quando abbiamo guardato specificamente al ruolo dell'adattamento al momento del test, questo ha costantemente portato a guadagni nelle prestazioni. Questo indica che nei set di dati reali, le caratteristiche usate per addestrare i modelli dovrebbero anche riflettere i cambiamenti nei dati nel tempo.

Il nostro framework evidenzia che le valutazioni attuali in accademia sono spesso sbilanciate verso un approccio centrato sul modello, trascurando il ruolo vitale della preparazione delle caratteristiche e le implicazioni dei cambiamenti temporali nei dati. Suggeriamo che la ricerca futura dovrebbe esplorare questi aspetti in modo più approfondito.

Direzioni per la Ricerca Futura

I ricercatori focalizzati sul miglioramento del machine learning per dati tabulari dovrebbero considerare le seguenti direzioni:

  1. Differenziare tra valutazioni standard di AutoML e quelle che tengono conto di compiti specifici ai dati.
  2. Creare un benchmark che includa set di dati del mondo reale riflettenti le pressanti esigenze aziendali e industriali.
  3. Sviluppare metodi che automatizzino tecniche di feature engineering efficaci adatte a vari modelli.
  4. Targetizzare set di dati che mostrano caratteristiche temporali e sviluppare modelli con le necessarie adattamenti in mente.

Affrontando queste questioni, il campo può progredire nell'affrontare le vere sfide che si presentano quando si applica il machine learning ai dati tabulari.

Conclusione

In sintesi, i modelli di machine learning per dati tabulari devono essere valutati da una prospettiva centrata sui dati piuttosto che esclusivamente su un approccio centrato sul modello. I nostri risultati evidenziano che metodi di preparazione dei dati efficaci e l'adattamento ai cambiamenti temporali nei dati giocano ruoli cruciali nei risultati delle prestazioni.

Le intuizioni fornite in questo lavoro chiedono aggiustamenti nel modo in cui viene condotta la ricerca attuale. Sottolineando l'importanza del feature engineering, comprendendo i cambiamenti temporali e adattandosi a set di dati unici, il lavoro futuro può avvicinare il machine learning a applicazioni pratiche che offrono benefici reali.

Fonte originale

Titolo: A Data-Centric Perspective on Evaluating Machine Learning Models for Tabular Data

Estratto: Tabular data is prevalent in real-world machine learning applications, and new models for supervised learning of tabular data are frequently proposed. Comparative studies assessing the performance of models typically consist of model-centric evaluation setups with overly standardized data preprocessing. This paper demonstrates that such model-centric evaluations are biased, as real-world modeling pipelines often require dataset-specific preprocessing and feature engineering. Therefore, we propose a data-centric evaluation framework. We select 10 relevant datasets from Kaggle competitions and implement expert-level preprocessing pipelines for each dataset. We conduct experiments with different preprocessing pipelines and hyperparameter optimization (HPO) regimes to quantify the impact of model selection, HPO, feature engineering, and test-time adaptation. Our main findings are: 1. After dataset-specific feature engineering, model rankings change considerably, performance differences decrease, and the importance of model selection reduces. 2. Recent models, despite their measurable progress, still significantly benefit from manual feature engineering. This holds true for both tree-based models and neural networks. 3. While tabular data is typically considered static, samples are often collected over time, and adapting to distribution shifts can be important even in supposedly static data. These insights suggest that research efforts should be directed toward a data-centric perspective, acknowledging that tabular data requires feature engineering and often exhibits temporal characteristics. Our framework is available under: https://github.com/atschalz/dc_tabeval.

Autori: Andrej Tschalzev, Sascha Marton, Stefan Lüdtke, Christian Bartelt, Heiner Stuckenschmidt

Ultimo aggiornamento: 2024-12-18 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2407.02112

Fonte PDF: https://arxiv.org/pdf/2407.02112

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Link di riferimento

Altro dagli autori

Articoli simili