Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Apprendimento automatico

Affrontare il Post-Selezione nella Ricerca sul Deep Learning

Esaminare l'impatto della Post-Selection sulla valutazione dei modelli nel deep learning.

― 5 leggere min


Fissare la Post-SceltaFissare la Post-Sceltanell'IAl'affidabilità dell'IA.dei modelli per aumentareMigliorare le pratiche di valutazione
Indice

Il Deep Learning è un metodo usato in informatica per creare modelli che possono imparare dai dati. Anche se ha avuto un grande successo, ci sono seri problemi su come alcuni studi riportano i risultati. Un problema importante è noto come "Post-Selection". Questo si riferisce alla pratica di selezionare i modelli con le migliori prestazioni da un gruppo basandosi sulla loro performance su un set di validazione. Quando gli autori si concentrano solo sui risultati migliori, può dare un'impressione fuorviante su quanto bene il modello si comporterà su nuovi dati non visti.

Cos'è il Post-Selection?

Il Post-Selection si verifica quando i ricercatori addestrano più modelli e poi decidono di riportare solo quelli che hanno ottenuto i risultati migliori sul set di validazione. Può sembrare ragionevole all'inizio, ma può portare a una mancanza di trasparenza e affidabilità. Ci sono due principali tipi di comportamenti scorretti legati a questa pratica:

  1. Imbrogliare in Assenza di un Test: In molti casi, i dati di test possono essere accessibili dai ricercatori, permettendo loro di usarli per migliorare i loro modelli. Tuttavia, i dati di test dovrebbero idealmente essere tenuti separati, così che i modelli possano essere valutati in modo equo.

  2. Nascondere Scarse Prestazioni: I ricercatori spesso non riportano le prestazioni di modelli che non hanno fatto bene, il che distorce la percezione di quanto sia efficace il metodo.

Il Ruolo degli Errori

Quando si valutano i modelli, è essenziale considerare gli errori che commettono. Questi errori non dovrebbero solo riflettere i modelli con le migliori prestazioni, ma dovrebbero anche includere errori medi tra tutti i modelli. Riportare solo il modello con le migliori prestazioni può gonfiare le aspettative e rappresentare in modo errato le capacità del modello.

Nuovi Approcci alla Valutazione dei Modelli

Ci sono metodi di valutazione che possono fornire un quadro più accurato delle prestazioni del modello. Un approccio è usare la Validazione Incrociata Generale. Questo metodo coinvolge la valutazione dei modelli non solo in base alle loro prestazioni con pesi iniziali generati casualmente, ma anche su parametri regolati manualmente.

  1. Validazione Incrociata Generale: Questa valuta la prestazione media di tutti i modelli, piuttosto che solo il migliore. Richiede di riportare un'ampia gamma di metriche di prestazione, inclusi errori medi e specifici percentili di prestazione.

  2. Validazione Incrociata Tradizionale: Questa è una tecnica ampiamente usata che mira a garantire che i modelli non si sovradattino ai dati di addestramento. Tuttavia, potrebbe comunque non essere sufficiente se i modelli vengono scelti sulla base del post-selection.

  3. Validazione Incrociata Nascosta: Questo è un approccio più complesso che tenta di coinvolgere più validazioni all'interno di ogni ciclo di addestramento del modello. Tuttavia, nonostante la sua complessità, non affronta efficacemente i problemi sottostanti legati al post-selection.

Implicazioni dei Comportamenti Scorretti nel Deep Learning

La pratica del Post-Selection può avere implicazioni di vasta portata oltre le preoccupazioni tecniche. Quando i ricercatori inseguono solo i modelli più fortunati e ignorano quelli meno riusciti, stanno distorcendo i risultati. Questo può portare a decisioni sbagliate in aree come la sanità, la finanza e la tecnologia, dove i costi di un fallimento possono essere significativi.

Esempi Pratici di Comportamenti Scorretti

Per illustrare i problemi del Post-Selection, considera l'evoluzione di alcuni modelli di IA di successo. Durante i concorsi, come quelli per il gioco del Go, i ricercatori potrebbero aver fatto affidamento sulla segnalazione selettiva delle prestazioni dei loro algoritmi. In molti casi, lo stesso modello è stato affilato e regolato per adattarsi ai dati contro cui è stato testato, distorcendo così la visione complessiva delle sue prestazioni.

Molte pubblicazioni nella comunità del deep learning hanno affrontato simili scrutinio per non aver separato adeguatamente i loro dati di validazione e test. Non mantenendo l'integrità dei loro risultati, potrebbero inavvertitamente ingannare futuri ricercatori e praticanti.

La Necessità di Migliori Pratiche di Reporting

È essenziale che gli autori nel campo del deep learning adottino migliori pratiche di reporting. Questo significa fornire un quadro più completo delle prestazioni dei loro modelli:

  1. Riportare errori medi tra tutti i modelli addestrati piuttosto che solo il migliore.

  2. Includere metriche specifiche, come gli errori per il 25% inferiore, la mediana e il 25% superiore.

  3. Assicurarsi che vengano utilizzati set di test appropriati che non sovrappongano ai dati di addestramento o validazione.

Problemi Sociali Connessi ai Comportamenti Scorretti

Le implicazioni di queste pratiche si estendono anche a problemi sociali. Risultati fuorvianti nell'IA possono influenzare sistemi sociali, decisioni governative e persino la sicurezza pubblica. Ad esempio, se un sistema di IA che prevede le necessità sanitarie è basato su dati distorti o male interpretati, potrebbe portare a conseguenze gravi per la cura dei pazienti.

Anche la metodologia dietro le decisioni nelle politiche pubbliche rischia di soffrire. Ad esempio, se le decisioni politiche sono basate su dati distorti da reporting selettivo, può influire su tutto, dallaallocazione delle risorse alla fiducia pubblica.

Conclusione

Il Deep Learning è uno strumento potente, ma la sua efficacia può essere compromessa da pratiche scadenti nella valutazione e nel reporting dei modelli. Affrontando problemi come il Post-Selection e adottando un approccio più trasparente su come vengono valutati i modelli, i ricercatori possono contribuire a garantire che lo sviluppo dell'IA rimanga affidabile e impattante.

In generale, muoversi verso metodologie migliorate può portare a applicazioni più affidabili ed etiche del deep learning in vari campi. Questo, a sua volta, può favorire una maggiore innovazione e progresso, riducendo al minimo i rischi legati alla misrepresentation nella ricerca.

Fonte originale

Titolo: Misconduct in Post-Selections and Deep Learning

Estratto: This is a theoretical paper on "Deep Learning" misconduct in particular and Post-Selection in general. As far as the author knows, the first peer-reviewed papers on Deep Learning misconduct are [32], [37], [36]. Regardless of learning modes, e.g., supervised, reinforcement, adversarial, and evolutional, almost all machine learning methods (except for a few methods that train a sole system) are rooted in the same misconduct -- cheating and hiding -- (1) cheating in the absence of a test and (2) hiding bad-looking data. It was reasoned in [32], [37], [36] that authors must report at least the average error of all trained networks, good and bad, on the validation set (called general cross-validation in this paper). Better, report also five percentage positions of ranked errors. From the new analysis here, we can see that the hidden culprit is Post-Selection. This is also true for Post-Selection on hand-tuned or searched hyperparameters, because they are random, depending on random observation data. Does cross-validation on data splits rescue Post-Selections from the Misconducts (1) and (2)? The new result here says: No. Specifically, this paper reveals that using cross-validation for data splits is insufficient to exonerate Post-Selections in machine learning. In general, Post-Selections of statistical learners based on their errors on the validation set are statistically invalid.

Autori: Juyang Weng

Ultimo aggiornamento: 2024-02-13 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2403.00773

Fonte PDF: https://arxiv.org/pdf/2403.00773

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Articoli simili