Ripensare l’Addestramento dei Modelli: Il Ruolo del Dimenticare nella Generalizzazione
Quest'articolo parla di come i modelli possono dimenticare i pregiudizi per migliorare le previsioni.
― 5 leggere min
L'apprendimento automatico ha fatto grandi progressi negli ultimi anni, soprattutto su come i modelli apprendono dai dati. Un'area di focus è come i modelli generalizzano dai dati di addestramento a nuovi dati non visti. Una tecnica comune usata si chiama Minimizzazione consapevole della nitidezza (SAM), che mira a migliorare la Generalizzazione rendendo la superficie di perdita più piatta. Tuttavia, la relazione tra nitidezza e generalizzazione non è semplice, portando a nuove idee su come i modelli apprendono e dimenticano i pregiudizi.
La Sfida della Generalizzazione
Quando un modello viene addestrato, impara schemi dai dati che elabora. Idealmente, dovrebbe poi applicare questa conoscenza a nuovi dati. Questa abilità si chiama generalizzazione. Sfortunatamente, molti modelli eccellono nel memorizzare i dati di addestramento ma faticano di fronte a nuovi esempi. Questo fenomeno viene chiamato Overfitting, e spesso deriva dal fatto che il modello apprende pregiudizi indesiderati dal set di dati di addestramento.
Gli approcci tradizionali per affrontare l'overfitting prevedono la minimizzazione della nitidezza, puntando a zone più piatte della superficie di perdita dove le previsioni del modello rimangono coerenti anche con piccoli cambiamenti nell'input. Tuttavia, le ricerche mostrano che la nitidezza non sempre si correla con una migliore generalizzazione, portando all'esplorazione di metodi alternativi.
Una Prospettiva Alternativa: Dimenticanza Perturbata
Lavori recenti propongono una nuova visione di SAM concentrandosi su cosa succede durante l'addestramento. Invece di cercare solo di ridurre la nitidezza, l'idea è che le perturbazioni usate in SAM permettano al modello di "dimenticare" pregiudizi indesiderati mentre impara. In altre parole, apportando piccoli cambiamenti ai parametri del modello, può scartare i pregiudizi che non lo aiutano a generalizzare bene.
Questo processo di dimenticanza è importante perché i modelli possono assimilare informazioni irrilevanti che portano a previsioni scarse su nuovi dati. Usando ciò che viene chiamato "dimenticanza perturbata", i modelli possono identificare e scartare meglio questi pregiudizi durante l'addestramento.
Come Funziona la Dimenticanza Perturbata
Quando un modello viene addestrato usando SAM, passa attraverso più passaggi in cui i parametri del modello vengono regolati leggermente. Questi aggiustamenti o perturbazioni sono cruciali poiché offrono opportunità per il modello di dimenticare i pregiudizi che ha appreso. Ad esempio, se un modello inizia ad associare certe caratteristiche nei dati di addestramento a previsioni errate, le perturbazioni possono aiutarlo a disimparare queste cattive associazioni.
L'idea centrale è trattare queste perturbazioni come un modo per affinare il processo di apprendimento. Invece di concentrarsi rigorosamente sulla minimizzazione della nitidezza, il modello si concentra sulla scoperta e sul rilascio dei pregiudizi che influenzano negativamente le prestazioni sui nuovi dati.
Collegi all'Informazione Teorica
Per capire come funziona questa dimenticanza, possiamo guardare al principio del collo di bottiglia informativo. Questo principio suggerisce che un modello dovrebbe trattenere solo le informazioni utili per fare previsioni. Qualsiasi informazione irrilevante dovrebbe idealmente essere scartata, il che si correla con una migliore generalizzazione.
Guardando le perturbazioni di SAM attraverso questa lente, vediamo che possono aiutare i modelli a dimenticare pregiudizi non necessari, rendendoli più robusti e meglio capaci di generalizzare dai dati di addestramento a situazioni non viste. Questo framework aiuta a chiarire perché piccole perturbazioni possono portare a una generalizzazione più forte rispetto a cambiamenti maggiori e più indiscriminati.
Progettazione di Nuove Perturbazioni
Il SAM tradizionale usa un metodo chiamato salita più ripida per mirare ai pregiudizi del modello da dimenticare. Tuttavia, intuizioni recenti suggeriscono che possiamo anche mirare ai pregiudizi rivelati dalle uscite del modello. Questo porta a un nuovo metodo chiamato dimenticanza dei pregiudizi di output (OBF), progettato specificamente per combattere i pregiudizi che sorgono dalle previsioni del modello.
Con OBF, il modello si concentra sull'aumento della probabilità di previsioni corrette senza amplificare i pregiudizi esistenti. Essenzialmente, spinge delicatamente il modello verso previsioni che sono uniformemente distribuite quando necessario, permettendo un dimenticare più forte dei pregiudizi che possono interferire con l'apprendimento.
Implicazioni per l'Addestramento del Modello
L'introduzione di OBF suggerisce che il nostro modo di pensare all'addestramento del modello deve cambiare. Mentre molti nel campo si sono concentrati sull'idea di ottenere superfici di perdita più piatte, questa nuova prospettiva sottolinea che il dimenticare attivamente i pregiudizi può essere un approccio più efficace.
Nella pratica, i modelli addestrati con OBF hanno dimostrato di superare quelli addestrati con metodi standard in vari benchmark. Questo indica che permettendo ai modelli di dimenticare informazioni indesiderate, possiamo migliorare le loro prestazioni generali senza preoccuparci eccessivamente di raggiungere i minimi più piatti possibili nel paesaggio della perdita.
Applicazioni nel Mondo Reale e Benchmark
L'efficacia della nuova prospettiva e dei metodi può essere vista esaminando le prestazioni su set di dati standard. Ad esempio, quando i modelli vengono addestrati su set di dati complessi come ImageNet, quelli che utilizzano OBF dimostrano una migliore generalizzazione a nuovi dati e una maggiore robustezza contro varie sfide.
Allo stesso modo, negli scenari di transfer learning, i modelli pre-addestrati con OBF hanno performato significativamente meglio quando sono stati affinati su set di dati più semplici come CIFAR-10 e CIFAR-100. Questo suggerisce che i vantaggi della dimenticanza dei pregiudizi possono estendersi a diversi compiti e set di dati, migliorando le prestazioni complessive del modello.
Conclusione
L'esplorazione dell'addestramento dei modelli attraverso la lente della dimenticanza perturbata offre una nuova prospettiva che sfida le visioni tradizionali sulla nitidezza e la generalizzazione. Concentrandosi su come i modelli possono dimenticare attivamente pregiudizi indesiderati, possiamo migliorare la loro capacità di generalizzare e di avere prestazioni affidabili.
Con la continua crescita del campo dell'apprendimento automatico, queste intuizioni saranno preziose per sviluppare algoritmi di addestramento più efficaci e migliorare le prestazioni dei modelli in una vasta gamma di compiti. Il passaggio dalla sola minimizzazione della nitidezza consente una comprensione più olistica di come i modelli apprendono e si adattano, fornendo una via più chiara per raggiungere una migliore generalizzazione in varie applicazioni.
Titolo: Forget Sharpness: Perturbed Forgetting of Model Biases Within SAM Dynamics
Estratto: Despite attaining high empirical generalization, the sharpness of models trained with sharpness-aware minimization (SAM) do not always correlate with generalization error. Instead of viewing SAM as minimizing sharpness to improve generalization, our paper considers a new perspective based on SAM's training dynamics. We propose that perturbations in SAM perform perturbed forgetting, where they discard undesirable model biases to exhibit learning signals that generalize better. We relate our notion of forgetting to the information bottleneck principle, use it to explain observations like the better generalization of smaller perturbation batches, and show that perturbed forgetting can exhibit a stronger correlation with generalization than flatness. While standard SAM targets model biases exposed by the steepest ascent directions, we propose a new perturbation that targets biases exposed through the model's outputs. Our output bias forgetting perturbations outperform standard SAM, GSAM, and ASAM on ImageNet, robustness benchmarks, and transfer to CIFAR-{10,100}, while sometimes converging to sharper regions. Our results suggest that the benefits of SAM can be explained by alternative mechanistic principles that do not require flatness of the loss surface.
Autori: Ankit Vani, Frederick Tung, Gabriel L. Oliveira, Hossein Sharifi-Noghabi
Ultimo aggiornamento: 2024-06-10 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2406.06700
Fonte PDF: https://arxiv.org/pdf/2406.06700
Licenza: https://creativecommons.org/licenses/by-nc-sa/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.