L'impatto complesso della levigatura delle etichette sulla fiducia del modello
Il label smoothing migliora l'accuratezza ma potrebbe ridurre l'affidabilità nella classificazione selettiva.
― 7 leggere min
Indice
- Come Funziona la Smussatura delle Etichette
- Il Ruolo dell'Incertezza Predittiva
- Prove Empiriche di Prestazioni Degradate
- Il Problema Sottostante: Eccessiva Fiducia e Scarsa Fiducia
- Una Possibile Soluzione: Normalizzazione dei Logit
- L'Efficacia della Normalizzazione dei Logit
- L'Importanza delle Ricette di Addestramento
- Implicazioni per la Ricerca Futura
- Conclusione
- Fonte originale
- Link di riferimento
La smussatura delle etichette (LS) è una tecnica usata per addestrare modelli di deep learning per migliorare le performance sui dati di test. Funziona modificando le etichette "duro" usate nell'addestramento, che di solito sono codificate in one-hot. La codifica one-hot significa che per un compito di classificazione, l'etichetta indica una singola classe con un 1 e tutte le altre classi con 0. La smussatura delle etichette prende questa rappresentazione one-hot e mescola leggermente alcune probabilità per le altre classi. Questo aiuta a prevenire che il modello diventi troppo sicuro delle sue previsioni e riduce il rischio di overfitting ai dati di addestramento.
Anche se la smussatura delle etichette può migliorare la precisione nei compiti di classificazione, si è scoperto che influisce negativamente su un metodo noto come Classificazione Selettiva (SC). La classificazione selettiva è una tecnica usata per prendere decisioni non solo su quale classe appartiene un input, ma anche se il modello è incerto sulle sue previsioni. L'obiettivo è evitare di fare previsioni sbagliate rifiutando output incerti.
Testando vari modelli e compiti, è diventato chiaro che usare la smussatura delle etichette riduceva costantemente le performance nei compiti di classificazione selettiva. Questo è sconcertante, dato che la smussatura delle etichette è progettata per rendere i modelli più affidabili. La differenza sta nel modo in cui la smussatura delle etichette influisce sulla fiducia del modello. Anche se può migliorare la precisione generale del modello, porta anche a una maggiore eccessiva sicurezza nelle sue previsioni in situazioni in cui non dovrebbe esserlo.
Come Funziona la Smussatura delle Etichette
La smussatura delle etichette aggiusta le etichette di addestramento mescolandole con una distribuzione uniforme tra le classi. Supponiamo che un modello venga addestrato per classificare immagini in tre categorie: gatti, cani e uccelli. Invece di dire semplicemente che un'immagine è un gatto con un'etichetta di [1, 0, 0], la smussatura delle etichette potrebbe dare un'etichetta come [0.9, 0.05, 0.05]. Questo significa che il modello è incoraggiato a considerare la possibilità che l'immagine possa appartenere anche alle altre classi.
Questa tecnica è efficace in molti scenari di addestramento, poiché aiuta il modello a generalizzare meglio, il che significa che funzionerà bene su nuovi dati non visti. Tuttavia, in compiti in cui il modello deve rifiutare certe previsioni in base a quanto è incerto, la smussatura delle etichette può causare problemi.
Il Ruolo dell'Incertezza Predittiva
Nella classificazione selettiva, quando un modello è incerto sulla sua previsione, dovrebbe idealmente rifiutare quella previsione. Ad esempio, se un modello sta prevedendo se un'immagine contiene un gatto e non è sicuro, sarebbe meglio dire "Non so" invece di indovinare male. Questo è cruciale in situazioni ad alto rischio, come la guida autonoma o diagnosi mediche, dove previsioni sbagliate possono avere conseguenze gravi.
Tuttavia, si è dimostrato che la smussatura delle etichette rende i modelli eccessivamente fiduciosi nelle previsioni anche quando dovrebbero essere incerti. Questa eccessiva fiducia significa che il modello potrebbe accettare più previsioni errate, portando a un numero maggiore di errori nelle applicazioni pratiche.
Prove Empiriche di Prestazioni Degradate
Quando sono stati condotti esperimenti su varie architetture neurali e compiti, è diventato chiaro che i modelli addestrati con smussatura delle etichette faticavano nella classificazione selettiva. Anche quando la precisione generale di classificazione migliorava, la capacità di rifiutare previsioni incerte diminuiva. Questo suggerisce che mentre il modello sembra migliore nel classificare immagini in generale, diventa meno affidabile nel decidere quando rifiutare quelle classificazioni.
Questi risultati sono in linea con applicazioni del mondo reale dove la sicurezza è critica. Ad esempio, nella guida autonoma, un modello potrebbe credere falsamente di riconoscere un cartello di stop e ignorare l'incertezza. Allo stesso modo, in ambito sanitario, un modello potrebbe diagnosticare male una condizione, il che potrebbe portare a gravi implicazioni.
Il Problema Sottostante: Eccessiva Fiducia e Scarsa Fiducia
I problemi causati dalla smussatura delle etichette si riducono a come modifica i livelli di fiducia del modello. Quando il modello è addestrato con smussatura delle etichette, diventa più sicuro delle decisioni quando non dovrebbe esserlo. Questo è chiamato eccessiva fiducia. Al contrario, ci sono casi in cui il modello dovrebbe essere sicuro, eppure non lo è, portando a scarsa fiducia. Entrambi gli scenari danneggiano le performance nella classificazione selettiva.
L'eccessiva fiducia si verifica quando il modello prevede una classe con alta certezza, nonostante si trovi in una situazione in cui non ha abbastanza informazioni per essere così sicuro. La scarsa fiducia, d'altra parte, si verifica quando il modello ha abbastanza prove per essere certo di una classe ma si trattiene, portando a rifiuti non necessari.
Entrambi i problemi portano a una diminuzione della capacità del modello di utilizzare efficacemente la classificazione selettiva, il che può avere conseguenze negative nelle applicazioni reali.
Una Possibile Soluzione: Normalizzazione dei Logit
Date le sfide poste dalla smussatura delle etichette, i ricercatori hanno esplorato metodi per recuperare le prestazioni perse nella classificazione selettiva. Un approccio è noto come normalizzazione dei logit. Questa tecnica implica l'aggiustamento dei valori di output del modello prima di prendere decisioni sull'incertezza.
La normalizzazione dei logit modifica i logit (i punteggi di previsione grezzi) prodotti dal modello in un modo che aiuta a stimare meglio l'incertezza. Cambiando il modo in cui vengono trattati i logit, il modello potrebbe migliorare la sua capacità di distinguere tra previsioni sicure e incerte.
L'Efficacia della Normalizzazione dei Logit
Quando testata, la normalizzazione dei logit ha mostrato risultati promettenti nel migliorare le prestazioni dei modelli colpiti dalla smussatura delle etichette. Applicando la normalizzazione dei logit, ha permesso ai modelli addestrati con smussatura delle etichette di recuperare parte dell'efficacia nei compiti di classificazione selettiva. Questo è stato particolarmente vantaggioso nei casi in cui il modello affrontava alta fiducia nonostante l'incertezza.
In pratica, applicare la normalizzazione dei logit aiuta a ripristinare la capacità del modello di prendere decisioni migliori su quando rifiutare le classificazioni. Questo è cruciale per applicazioni in cui fare la scelta giusta è importante.
L'Importanza delle Ricette di Addestramento
Il modo in cui i modelli vengono addestrati influisce notevolmente sulle loro prestazioni. Recenti valutazioni di modelli pre-addestrati hanno dimostrato che molti classificatori forti performano male nei compiti di classificazione selettiva. È stato trovato che questi classificatori spesso utilizzano la smussatura delle etichette nelle loro ricette di addestramento, contribuendo alla loro ridotta efficacia nella SC.
Questo evidenzia la necessità per i professionisti di essere consapevoli delle tecniche di addestramento che utilizzano. Anche se concentrarsi solo sul miglioramento della precisione è essenziale, trascurare le implicazioni di queste tecniche può portare a risultati negativi nell'uso pratico.
Implicazioni per la Ricerca Futura
Le scoperte riguardanti la smussatura delle etichette e la classificazione selettiva aprono nuove vie per la ricerca. Comprendere come diversi approcci di addestramento influenzano le prestazioni in varie applicazioni downstream può portare a modelli migliori per compiti specifici.
È cruciale espandere le indagini su come la smussatura delle etichette interagisce con altre tecniche come il mixup, che altera anche gli obiettivi di addestramento. Esaminando queste interazioni, i ricercatori possono sviluppare strategie complete che sfruttano i punti di forza dei vari metodi di addestramento affrontando allo stesso tempo le loro debolezze.
Conclusione
In sintesi, la smussatura delle etichette è una tecnica utile per migliorare la precisione del modello nei compiti di classificazione. Tuttavia, il suo impatto negativo sulla classificazione selettiva non può essere ignorato. Man mano che i modelli diventano più sicuri delle loro previsioni anche quando non dovrebbero, la conseguenza è un numero maggiore di classificazioni sbagliate che vengono accettate.
Questa degradazione delle performance evidenzia l'importanza di prestare attenzione alle ricette di addestramento e di comprendere come varie tecniche possano influenzare il comportamento del modello. Implementando soluzioni come la normalizzazione dei logit, è possibile mitigare gli effetti negativi della smussatura delle etichette e migliorare l'affidabilità dei modelli in scenari ad alto rischio.
L'interazione tra metodi di addestramento e performance del modello è un'area importante per la ricerca futura, mirata a sviluppare modelli robusti che possano operare efficacemente nelle applicazioni reali.
Titolo: Towards Understanding Why Label Smoothing Degrades Selective Classification and How to Fix It
Estratto: Label smoothing (LS) is a popular regularisation method for training neural networks as it is effective in improving test accuracy and is simple to implement. Hard one-hot labels are smoothed by uniformly distributing probability mass to other classes, reducing overfitting. Prior work has suggested that in some cases LS can degrade selective classification (SC) -- where the aim is to reject misclassifications using a model's uncertainty. In this work, we first demonstrate empirically across an extended range of large-scale tasks and architectures that LS consistently degrades SC. We then address a gap in existing knowledge, providing an explanation for this behaviour by analysing logit-level gradients: LS degrades the uncertainty rank ordering of correct vs incorrect predictions by regularising the max logit more when a prediction is likely to be correct, and less when it is likely to be wrong. This elucidates previously reported experimental results where strong classifiers underperform in SC. We then demonstrate the empirical effectiveness of post-hoc logit normalisation for recovering lost SC performance caused by LS. Furthermore, linking back to our gradient analysis, we again provide an explanation for why such normalisation is effective.
Autori: Guoxuan Xia, Olivier Laurent, Gianni Franchi, Christos-Savvas Bouganis
Ultimo aggiornamento: 2024-10-11 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2403.14715
Fonte PDF: https://arxiv.org/pdf/2403.14715
Licenza: https://creativecommons.org/licenses/by-sa/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.
Link di riferimento
- https://pytorch.org/blog/how-to-train-state-of-the-art-models-using-torchvision-latest-primitives/
- https://github.com/tensorflow/tpu/blob/master/models/official/efficientnet/main.py#L249
- https://github.com/google/automl/blob/master/efficientnetv2/datasets.py#L658
- https://github.com/facebookresearch/deit/blob/main/main.py#L101
- https://github.com/microsoft/Swin-Transformer/blob/main/config.py#L70
- https://github.com/facebookresearch/ConvNeXt/blob/main/main.py#L105
- https://github.com/pytorch/vision/tree/main/references/classification
- https://github.com/google-research/vision_transformer