Migliorare la calibrazione nelle reti di dati distillati
Nuovi metodi migliorano la calibrazione delle reti neurali addestrate su dataset distillati.
― 7 leggere min
Indice
Le reti neurali addestrate su Dati Distillati spesso mostrano previsioni troppo sicure, che devono essere corrette attraverso metodi di Calibrazione. Approcci di calibrazione comuni come il temperature scaling e il mixup funzionano bene per le reti addestrate con grandi quantità di dati originali. Tuttavia, questi metodi non funzionano bene per le reti addestrate su dati distillati presi da set di dati più grandi. Questo documento evidenzia come i dati distillati possano impedire alle reti di essere correttamente calibrate per due motivi principali: la distribuzione concentrata dei punteggi più alti, o logits, e la perdita di informazioni importanti che sono rilevanti ma non direttamente correlate al compito di classificazione.
Per risolvere questo problema, introduciamo due nuovi metodi: Masked Temperature Scaling (MTS) e Masked Distillation Training (MDT). Questi metodi affrontano i problemi legati ai dati distillati e portano a migliori risultati di calibrazione mantenendo comunque i benefici della Distillazione del dataset.
I Vantaggi della Distillazione del Dataset
La distillazione del dataset è diventata più popolare grazie alla sua efficienza nel ridurre la quantità di dati necessaria per addestrare modelli di deep learning, il che a sua volta diminuisce il tempo e lo spazio di archiviazione richiesti. Sebbene sia efficiente, la ricerca ha dimostrato che la distillazione del dataset presenta alcune limitazioni. Da un lato, il processo di distillazione può essere lento, richiedere molte risorse computazionali e occupare spazio di archiviazione significativo. Inoltre, le reti neurali profonde (DNN) addestrate su dati distillati spesso faticano a generalizzare bene su modelli o compiti diversi.
Nonostante questi problemi, la calibrazione dei dataset distillati viene spesso trascurata, il che è fondamentale per un uso sicuro di questi dataset nelle applicazioni del mondo reale. Più studi stanno ora considerando la calibrazione come un aspetto chiave delle DNN. Fondamentalmente, la calibrazione assicura che un modello capisca quando è probabile che commetta un errore. In termini semplici, il livello di confidenza di un modello dovrebbe riflettere accuratamente quanto siano corrette le sue previsioni.
Indagini precedenti hanno scoperto che le DNN tendono ad essere troppo sicure e non riconoscono quando si sbagliano. Questo può creare preoccupazioni per la sicurezza, soprattutto in applicazioni ad alto rischio come l'automazione sanitaria e le auto a guida autonoma.
Affrontare i Problemi di Calibrazione nelle Reti di Dati Distillati
Per la prima volta, ci concentriamo sui problemi di calibrazione nelle reti neurali addestrate su dati distillati (che chiamiamo DDNN).
Problema 1: Eccessiva Sicurezza nelle DDNN
Valutiamo la qualità della calibrazione delle DDNN utilizzando l'Expected Calibration Error (ECE), una metrica comunemente usata che misura il divario tra la fiducia di un modello e le sue prestazioni effettive. Per calcolare l'ECE, separiamo le probabilità di output e la precisione in vari gruppi e troviamo la differenza media. Più piccola è l'ECE, migliore è la calibrazione.
I risultati mostrano che le DDNN mostrano spesso un notevole problema di eccessiva sicurezza, suggerendo che di solito assegnano una probabilità più alta alle loro previsioni di quanto non sia giustificato dalla loro reale accuratezza. Pertanto, la calibrazione è essenziale per rendere le DDNN più affidabili nelle loro previsioni.
Problema 2: Fallimento dei Metodi di Calibrazione Esistenti
Molti metodi di calibrazione sono progettati per allineare la fiducia delle DNN addestrate su set di dati completi (FDNN). Questi metodi cambiano il termine di perdita durante l'addestramento, usano etichette più morbide o regolano i logits (i punteggi di output grezzo) dopo l'addestramento. Tuttavia, quando applicati ai dati distillati, molti metodi di calibrazione esistenti tendono a correggere eccessivamente le DDNN.
Scopriamo che una DDNN addestrata su CIFAR10 distillato ha un'ECE iniziale del 6.17%. Dopo aver tentato di calibrarla utilizzando focal loss, mixup o label smoothing, l'ECE sale rispettivamente al 7.79%, 14.09% e 26.18%. Questo mostra che le tecniche di calibrazione esistenti spesso portano a errori più significativi quando utilizzate su DDNN.
Analizzando l'Incapacità di Calibrare
Poniamo domande cruciali riguardo al motivo per cui le DDNN non possono essere calibrate efficacemente usando i metodi attuali. Analizziamo le differenze tra dati completi e dati distillati, scoprendo che i dati distillati conservano solo le informazioni necessarie per il compito di classificazione, scartando altre caratteristiche vitali. Questa perdita di informazioni chiave limita la capacità delle DDNN di apprendere e comprendere temi che vanno oltre la semplice classificazione, limitando le loro prestazioni.
Inoltre, le DDNN hanno un'uscita di logits più concentrata, il che rende più difficile per i metodi di calibrazione funzionare efficacemente dopo l'addestramento.
Le Nostre Soluzioni Proposte
Per rendere le DDNN più calibrabili, proponiamo due nuove tecniche: Masked Temperature Scaling e Masked Distillation Training.
Masked Temperature Scaling (MTS)
Date le valori di logit concentrati prodotti dalle DDNN, che ostacolano una calibrazione efficace, esploriamo modi per regolare i dati di convalida in modo che la rete possa produrre valori di logit più diversificati e inferiori. MTS sostituisce una parte dei dati di convalida con zeri, ispirato dalle tecniche di dropout utilizzate nelle reti neurali. In questo modo, MTS consente alla rete di apprendere e aggiornare i propri parametri in un modo che porta a output più diversificati, che possono poi essere calibrati più efficacemente.
Masked Distillation Training (MDT)
MDT mira a migliorare il processo di distillazione includendo una maschera binaria durante l'addestramento. Questa maschera costringe il modello a derivare informazioni più complete dai dati sorgente nelle opzioni distillate. Quando il modello impara a concentrarsi su questo range più ampio di informazioni, ciò porta a migliori prestazioni e calibrazione successivamente.
Sia MTS che MDT possono essere implementati durante e dopo l'addestramento, offrendo opzioni flessibili per applicare tecniche di calibrazione.
Validazione Sperimentale
Eseguiamo vari esperimenti per testare l'efficacia di MTS e MDT su più dataset, tipologie di modelli e metodi di distillazione.
Fondamenti della Distillazione del Dataset
Utilizziamo quattro dataset di riferimento: CIFAR10, CIFAR100, Tiny ImageNet e un sottoinsieme di ImageNet chiamato ImageNette. Impostazioni coerenti per vari fondamenti di distillazione assicurano che il nostro confronto rimanga equo e informativo.
Metodi di Calibrazione Usati per il Confronto
Confrontiamo i nostri metodi con tecniche di calibrazione tradizionali, incluso il Temperature Scaling (TS), mixup, Label Smoothing (LS) e Focal Loss (FL).
I nostri esperimenti hanno dimostrato che MTS riduce notevolmente i valori ECE, raggiungendo errori quasi nulli per i bin di confidenza durante i test su CIFAR10 e CIFAR100. I metodi tradizionali a volte portano a una insufficiente fiducia nei modelli, creando preoccupazioni per la sicurezza in pratica.
Risultati di Calibrazione
I nostri studi mostrano che sia MTS che MDT migliorano i risultati di calibrazione rispetto ai metodi esistenti. In diverse impostazioni, applicare i nostri metodi insieme porta a prestazioni migliori rispetto a usarli separatamente. I risultati evidenziano che le nostre tecniche mantengono i livelli di accuratezza originali mentre forniscono migliori risultati di calibrazione.
Impatto sulla Capacità di Encoding delle Reti Neurali
Le reti neurali si basano su l'encoding delle caratteristiche importanti dei dati su cui sono addestrate. I nostri metodi non solo affrontano i problemi di calibrazione, ma migliorano anche la capacità di encoding delle DDNN. Le visualizzazioni dei vettori di caratteristiche provenienti da diversi strati di una rete indicano che le DDNN addestrate con i nostri metodi conservano informazioni più ricche e producono rappresentazioni di caratteristiche meno concentrate.
Informazioni Semantiche nei Dati Distillati
Scopriamo che i dati distillati spesso mancano di importanti informazioni semantiche che potrebbero migliorare le prestazioni delle DDNN in compiti oltre la semplice classificazione. I nostri metodi proposti aiutano a conservare di più queste informazioni critiche, migliorando la capacità generale dei modelli.
Direzioni Future
Nel nostro lavoro futuro, puntiamo a perfezionare i metodi di distillazione per mantenere di più le informazioni sorgente intatte, portando a reti che possono essere facilmente calibrate. Inoltre, desideriamo esplorare l'affidabilità generale delle DDNN in vari compiti, incluso il riconoscimento di campioni fuori distribuzione e dimostrare la loro robustezza in scenari difficili.
Conclusione
I nostri risultati rivelano che le reti neurali addestrate su dati distillati faticano con una corretta calibrazione e potrebbero mancare di vitali capacità di encoding perché il processo di distillazione si concentra principalmente sulla classificazione. I metodi che proponiamo, Masked Distillation Training e Masked Temperature Scaling, affrontano efficacemente queste limitazioni, portando a reti più affidabili e calibrabili. Man mano che ci addentriamo ulteriormente in questo campo, intendiamo migliorare i metodi di distillazione del dataset assicurando al contempo sicurezza e accuratezza nelle applicazioni del mondo reale.
Titolo: Rethinking Data Distillation: Do Not Overlook Calibration
Estratto: Neural networks trained on distilled data often produce over-confident output and require correction by calibration methods. Existing calibration methods such as temperature scaling and mixup work well for networks trained on original large-scale data. However, we find that these methods fail to calibrate networks trained on data distilled from large source datasets. In this paper, we show that distilled data lead to networks that are not calibratable due to (i) a more concentrated distribution of the maximum logits and (ii) the loss of information that is semantically meaningful but unrelated to classification tasks. To address this problem, we propose Masked Temperature Scaling (MTS) and Masked Distillation Training (MDT) which mitigate the limitations of distilled data and achieve better calibration results while maintaining the efficiency of dataset distillation.
Autori: Dongyao Zhu, Bowen Lei, Jie Zhang, Yanbo Fang, Ruqi Zhang, Yiqun Xie, Dongkuan Xu
Ultimo aggiornamento: 2023-09-14 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2307.12463
Fonte PDF: https://arxiv.org/pdf/2307.12463
Licenza: https://creativecommons.org/licenses/by-nc-sa/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.