Améliorer l'étalonnage dans les réseaux de données distillés
De nouvelles méthodes améliorent la calibration des réseaux de neurones entraînés sur des ensembles de données distillés.
― 9 min lire
Table des matières
Les réseaux de neurones entraînés sur des Données distillées montrent souvent des prédictions trop confiantes, qu'il faut corriger grâce à des méthodes de calibration. Les approches de calibration courantes comme le redimensionnement de température et le mixup fonctionnent bien pour les réseaux entraînés avec de grandes quantités de données originales. Cependant, ces méthodes ne marchent pas super bien pour les réseaux formés sur des données distillées issues de gros ensembles de données. Cet article met en avant comment les données distillées peuvent empêcher une bonne calibration des réseaux pour deux raisons principales : la distribution concentrée des scores les plus élevés, ou logits, et la perte d'informations cruciales qui sont pertinentes mais pas directement liées à la tâche de classification.
Pour résoudre ce problème, on introduit deux nouvelles méthodes : le Redimensionnement de Température Masqué (MTS) et l'Entraînement de Distillation Masqué (MDT). Ces méthodes ciblent les problèmes liés aux données distillées et entraînent de meilleurs résultats de calibration tout en gardant les avantages de la distillation de données.
Les Avantages de la Distillation de Données
La distillation de données est devenue plus populaire grâce à son efficacité à réduire la quantité de données nécessaires pour entraîner des modèles d'apprentissage profond, diminuant ainsi le temps et l'espace de stockage requis. Bien que ce soit efficace, des recherches ont montré que la distillation de données a également ses limites. D'une part, le processus de distillation peut être lent, utiliser beaucoup de ressources informatiques et nécessiter un espace de stockage important. De plus, les réseaux de neurones profonds (DNN) formés sur des données distillées ont souvent du mal à bien se généraliser à différents modèles ou tâches.
Malgré ces soucis, la calibration des ensembles de données distillées est souvent négligée, ce qui est critique pour utiliser ces ensembles en toute sécurité dans des applications réelles. De plus en plus d'études considèrent maintenant la calibration comme un aspect clé des DNN. En gros, la calibration assure qu'un modèle comprend quand il est susceptible de se tromper. En termes simples, le niveau de confiance d'un modèle devrait refléter avec précision à quel point ses prédictions sont correctes.
Des investigations précédentes ont trouvé que les DNN ont tendance à être trop confiants et ne reconnaissent pas quand ils ont tort. Ça peut poser des problèmes de sécurité, surtout dans des applications à enjeux élevés comme l'automatisation de la santé et les voitures autonomes.
Aborder les Problèmes de Calibration dans les Réseaux de Données Distillées
Pour la première fois, on se concentre sur les problèmes de calibration dans les réseaux de neurones formés sur des données distillées (qu'on appelle DDNN).
Problème 1 : La Surconfiance dans les DDNN
On évalue la qualité de calibration des DDNN en utilisant l'Erreur de calibration attendue (ECE), une métrique souvent utilisée qui mesure l'écart entre la confiance d'un modèle et sa performance réelle. Pour calculer l'ECE, on sépare les probabilités de sortie et la précision en divers groupes et trouve la différence moyenne. Plus l'ECE est petit, mieux c'est.
Les résultats montrent que les DDNN affichent souvent un problème de surconfiance notable, ce qui suggère qu'ils attribuent généralement une probabilité plus élevée à leurs prédictions que ce que leur précision réelle justifie. Donc, la calibration est essentielle pour rendre les DDNN plus fiables dans leurs prédictions.
Problème 2 : Échec des Méthodes de Calibration Existantes
Beaucoup de méthodes de calibration visent à aligner la confiance des DNN entraînés sur des ensembles de données complets (FDNN). Ces méthodes modifient soit le terme de perte pendant l'entraînement, utilisent des étiquettes plus douces, ou ajustent les logits (les scores bruts) après l'entraînement. Malgré ça, quand elles sont appliquées à des données distillées, beaucoup de méthodes de calibration existantes ont tendance à sur-corriger les DDNN.
On découvre qu'un DDNN entraîné sur le CIFAR10 distillé a un ECE initial de 6.17%. Après des tentatives de calibration utilisant la perte focal, le mixup ou le lissage des étiquettes, l'ECE monte en fait à 7.79%, 14.09% et 26.18%, respectivement. Ça montre que les techniques de calibration existantes conduisent souvent à des erreurs plus significatives quand elles sont utilisées sur des DDNN.
Analyser l'incapacité à se Calibrer
On soulève des questions cruciales sur pourquoi les DDNN ne peuvent pas être calibrés efficacement avec les méthodes actuelles. On analyse les différences entre les données complètes et les données distillées, apprenant que les données distillées conservent seulement les informations nécessaires pour la tâche de classification tout en rejetant d'autres caractéristiques essentielles. Cette perte d'informations clés limite la capacité des DDNN à apprendre et à comprendre des thèmes qui vont au-delà de la simple classification, restreignant leur performance.
De plus, les DDNN ont une sortie de logits plus concentrée, ce qui rend plus difficile pour les méthodes de calibration de fonctionner efficacement après l'entraînement.
Nos Solutions Proposées
Pour rendre les DDNN plus calibrables, on propose deux nouvelles techniques : le Redimensionnement de Température Masqué et l'Entraînement de Distillation Masqué.
Redimensionnement de Température Masqué (MTS)
Étant donné les valeurs de logits concentrées produites par les DDNN, qui empêchent une calibration efficace, on explore des moyens d'ajuster les données de validation afin que le réseau puisse produire des valeurs de logits plus diverses et plus basses. Le MTS substitue une partie des données de validation par des zéros, inspiré par les techniques de dropout utilisées dans les réseaux de neurones. En faisant cela, le MTS permet au réseau d'apprendre et de mettre à jour ses paramètres d'une manière qui conduit à des sorties plus diverses, qui peuvent ensuite être calibrées plus efficacement.
Entraînement de Distillation Masqué (MDT)
Le MDT vise à améliorer le processus de distillation en incluant un masque binaire pendant l'entraînement. Ce masque force le modèle à extraire des informations plus complètes des données sources vers les options distillées. Quand le modèle apprend à se concentrer sur cette gamme plus large d'informations, cela mène à une meilleure performance et calibration par la suite.
Le MTS et le MDT peuvent être mis en œuvre pendant et après l'entraînement, offrant des options flexibles pour appliquer les techniques de calibration.
Validation Expérimentale
On réalise diverses expériences pour tester l'efficacité du MTS et du MDT à travers plusieurs ensembles de données, types de modèles et méthodes de distillation.
Squelettes de Distillation de Données
On utilise quatre ensembles de données de référence : CIFAR10, CIFAR100, Tiny ImageNet, et un sous-ensemble d'ImageNet appelé ImageNette. Des réglages constants pour différents squelettes de distillation garantissent que notre comparaison reste juste et informative.
Méthodes de Calibration Utilisées pour la Comparaison
On compare nos méthodes avec des techniques de calibration traditionnelles, y compris le Redimensionnement de Température (TS), le mixup, le Lissage des Étiquettes (LS), et la Perte Focale (FL).
Nos expériences ont montré que le MTS réduit considérablement les valeurs d'ECE, atteignant presque zéro erreur pour les bins de confiance lors des tests sur CIFAR10 et CIFAR100. Les méthodes traditionnelles entraînent parfois une sous-confiance parmi les modèles, créant une préoccupation en matière de sécurité dans la pratique.
Résultats de Calibration
Nos études montrent que le MTS et le MDT améliorent les résultats de calibration par rapport aux méthodes existantes. Dans plusieurs configurations, appliquer nos méthodes ensemble donne de meilleures performances que de les utiliser séparément. Les résultats soulignent que nos techniques conservent les niveaux de précision d'origine tout en fournissant de meilleurs résultats de calibration.
Impact sur la Capacité d'Encodage des Réseaux de Neurones
Les réseaux de neurones dépendent de l'encodage des caractéristiques importantes des données sur lesquelles ils sont formés. Nos méthodes non seulement abordent les problèmes de calibration mais améliorent aussi la capacité d'encodage des DDNN. Les visualisations des vecteurs de caractéristiques provenant de différentes couches d'un réseau indiquent que les DDNN entraînés avec nos méthodes conservent des informations plus riches et produisent moins de représentations de caractéristiques concentrées.
Informations Sémantiques dans les Données Distillées
On trouve que les données distillées manquent souvent d'informations sémantiques importantes qui pourraient améliorer la performance des DDNN dans des tâches au-delà de la simple classification. Nos méthodes proposées aident à conserver plus de ces informations critiques, améliorant la capacité générale des modèles.
Directions Futures
Dans nos travaux futurs, nous visons à affiner les méthodes de distillation pour conserver plus d'informations sources intactes, conduisant à des réseaux qui peuvent être facilement calibrés. De plus, nous souhaitons explorer la fiabilité générale des DDNN dans diverses tâches, y compris la reconnaissance d'échantillons hors distribution et prouver leur robustesse dans des scénarios difficiles.
Conclusion
Nos découvertes révèlent que les réseaux de neurones entraînés sur des données distillées ont du mal avec une bonne calibration et peuvent manquer de capacités d'encodage vitales parce que le processus de distillation se concentre principalement sur la classification. Les méthodes que nous proposons, l'Entraînement de Distillation Masqué et le Redimensionnement de Température Masqué, abordent efficacement ces limitations, menant à des réseaux plus fiables et calibrables. En approfondissant ce domaine, nous cherchons à améliorer les méthodes de distillation de données tout en assurant sécurité et précision dans des applications réelles.
Titre: Rethinking Data Distillation: Do Not Overlook Calibration
Résumé: Neural networks trained on distilled data often produce over-confident output and require correction by calibration methods. Existing calibration methods such as temperature scaling and mixup work well for networks trained on original large-scale data. However, we find that these methods fail to calibrate networks trained on data distilled from large source datasets. In this paper, we show that distilled data lead to networks that are not calibratable due to (i) a more concentrated distribution of the maximum logits and (ii) the loss of information that is semantically meaningful but unrelated to classification tasks. To address this problem, we propose Masked Temperature Scaling (MTS) and Masked Distillation Training (MDT) which mitigate the limitations of distilled data and achieve better calibration results while maintaining the efficiency of dataset distillation.
Auteurs: Dongyao Zhu, Bowen Lei, Jie Zhang, Yanbo Fang, Ruqi Zhang, Yiqun Xie, Dongkuan Xu
Dernière mise à jour: 2023-09-14 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2307.12463
Source PDF: https://arxiv.org/pdf/2307.12463
Licence: https://creativecommons.org/licenses/by-nc-sa/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.