Simple Science

La science de pointe expliquée simplement

# Informatique# Apprentissage automatique# Intelligence artificielle

Repensons l'entraînement des modèles : le rôle de l'oubli dans la généralisation

Cet article parle de comment les modèles peuvent oublier des biais pour améliorer les prédictions.

― 7 min lire


Oublie les biais pour deOublie les biais pour demeilleurs modèlesmodèle.généralisation et la performance duL'oubli actif améliore la
Table des matières

L'apprentissage automatique a fait de grands progrès ces dernières années, surtout en ce qui concerne la façon dont les modèles apprennent à partir des données. Un domaine d'intérêt est comment les modèles généralisent à partir des données d'entraînement vers de nouvelles données jamais vues. Une technique courante utilisée s'appelle la minimisation consciente de la netteté (SAM), qui vise à améliorer la Généralisation en rendant la surface de perte plus plate. Cependant, la relation entre la netteté et la généralisation n'est pas si simple, ce qui pousse à penser à de nouvelles idées sur la façon dont les modèles apprennent et oublient les biais.

Le défi de la généralisation

Quand un modèle est entraîné, il apprend des patterns à partir des données qu'il traite. Idéalement, il devrait ensuite appliquer ce savoir à de nouvelles données. Cette capacité est connue sous le nom de généralisation. Malheureusement, beaucoup de modèles excellent à mémoriser les données d'entraînement mais galèrent face à de nouveaux exemples. Ce phénomène est appelé sur-apprentissage, et il provient souvent du fait que le modèle apprend des biais non désirés à partir de l'ensemble de données d'entraînement.

Les approches traditionnelles pour combattre le sur-apprentissage impliquent de minimiser la netteté, en visant des zones plus plates de la surface de perte où les prédictions du modèle restent cohérentes même avec de petits changements dans les entrées. Cependant, des recherches montrent que la netteté ne correspond pas toujours à une meilleure généralisation, ce qui conduit à l'exploration de méthodes alternatives.

Une perspective alternative : l'oubli perturbé

Des travaux récents proposent une nouvelle vision de SAM en se concentrant sur ce qui se passe pendant l'entraînement. Au lieu d'essayer simplement de réduire la netteté, l'idée est que les perturbations utilisées dans SAM permettent au modèle d'"oublier" les biais indésirables en apprenant. En d'autres termes, en faisant de petits changements aux paramètres du modèle, il peut rejeter les biais qui ne l'aident pas à bien généraliser.

Ce processus d'oubli est important parce que les modèles peuvent capter des informations non pertinentes qui mènent à de mauvaises prédictions sur de nouvelles données. En utilisant ce qu'on appelle "l'oubli perturbé", les modèles peuvent mieux identifier et rejeter ces biais pendant l'entraînement.

Comment fonctionne l'oubli perturbé

Quand un modèle est entraîné en utilisant SAM, il passe par plusieurs étapes où les paramètres du modèle sont légèrement ajustés. Ces ajustements ou perturbations sont cruciaux car ils offrent des opportunités au modèle pour oublier les biais qu'il a appris. Par exemple, si un modèle commence à associer certaines caractéristiques dans les données d'entraînement avec des prédictions incorrectes, les perturbations peuvent l'aider à désapprendre ces mauvaises associations.

L'idée centrale est de traiter ces perturbations comme un moyen de peaufiner le processus d'apprentissage. Plutôt que de minimiser strictement la netteté, le modèle se concentre sur la découverte et le lâcher-prise des biais qui impactent négativement les performances sur de nouvelles données.

Liens avec la théorie de l'information

Pour comprendre comment cet oubli fonctionne, on peut regarder le principe du goulot d'étranglement de l'information. Ce principe suggère qu'un modèle devrait ne garder que les informations utiles pour faire des prédictions. Toute information non pertinente devrait idéalement être rejetée, ce qui est lié à une meilleure généralisation.

En voyant les perturbations de SAM à travers ce prisme, on réalise qu'elles peuvent aider les modèles à oublier des biais inutiles, les rendant plus robustes et mieux à même de généraliser des données d'entraînement à des situations non vues. Ce cadre aide à clarifier pourquoi de petites perturbations peuvent mener à une généralisation plus forte comparé à des changements plus grands et plus indiscriminés.

Concevoir de nouvelles perturbations

Le SAM traditionnel utilise une méthode appelée montée la plus raide pour cibler les biais du modèle à oublier. Cependant, des idées récentes suggèrent qu'on peut aussi cibler les biais révélés par les sorties du modèle. Cela mène à une nouvelle méthode appelée oubli de biais de sortie (OBF), conçue spécifiquement pour combattre les biais qui émergent des prédictions du modèle.

Avec OBF, le modèle se concentre sur la maximisation de la probabilité des bonnes prédictions sans amplifier les biais existants. Essentiellement, cela pousse doucement le modèle vers des prédictions qui sont uniformément réparties, permettant un oubli plus fort des biais qui pourraient interférer avec l'apprentissage.

Implications pour l'entraînement des modèles

L'introduction de l'OBF suggère que notre façon de penser l'entraînement des modèles doit changer. Alors que beaucoup dans le domaine se sont concentrés sur l'idée d'obtenir des surfaces de perte plus plates, cette nouvelle perspective met l'accent sur le fait que l'oubli actif des biais peut être une approche plus efficace.

En pratique, les modèles entraînés avec OBF ont montré de meilleures performances que ceux entraînés avec des méthodes standards sur divers benchmarks. Cela indique qu'en permettant aux modèles d'oublier des informations indésirables, on peut améliorer leur performance générale sans trop se soucier d'obtenir les minima les plus plats possibles dans le paysage de perte.

Applications réelles et benchmarks

L'efficacité de cette nouvelle perspective et de ces méthodes peut être vue en examinant les performances sur des ensembles de données standards. Par exemple, quand des modèles sont entraînés sur des ensembles de données complexes comme ImageNet, ceux utilisant OBF montrent une meilleure généralisation à de nouvelles données et une robustesse améliorée face à divers défis.

De même, dans des scénarios d'apprentissage par transfert, des modèles pré-entrainés avec OBF ont mieux performances quand ils sont affinés sur des ensembles de données plus simples comme CIFAR-10 et CIFAR-100. Cela suggère que les avantages de l'oubli des biais peuvent se transférer entre différentes tâches et ensembles de données, améliorant la performance globale du modèle.

Conclusion

L'exploration de l'entraînement des modèles à travers le prisme de l'oubli perturbé offre une nouvelle perspective qui remet en question les idées traditionnelles sur la netteté et la généralisation. En se concentrant sur la façon dont les modèles peuvent activement oublier des biais indésirables, on peut améliorer leur capacité à généraliser et à performer de manière fiable.

À mesure que le domaine de l'apprentissage automatique continue de croître, ces idées seront précieuses pour développer des algorithmes d'entraînement plus efficaces et améliorer la performance des modèles sur une large gamme de tâches. Le changement d'accent, loin de se concentrer uniquement sur la minimisation de la netteté, permet une compréhension plus holistique de la façon dont les modèles apprennent et s'adaptent, fournissant une voie plus claire pour atteindre une meilleure généralisation dans diverses applications.

Source originale

Titre: Forget Sharpness: Perturbed Forgetting of Model Biases Within SAM Dynamics

Résumé: Despite attaining high empirical generalization, the sharpness of models trained with sharpness-aware minimization (SAM) do not always correlate with generalization error. Instead of viewing SAM as minimizing sharpness to improve generalization, our paper considers a new perspective based on SAM's training dynamics. We propose that perturbations in SAM perform perturbed forgetting, where they discard undesirable model biases to exhibit learning signals that generalize better. We relate our notion of forgetting to the information bottleneck principle, use it to explain observations like the better generalization of smaller perturbation batches, and show that perturbed forgetting can exhibit a stronger correlation with generalization than flatness. While standard SAM targets model biases exposed by the steepest ascent directions, we propose a new perturbation that targets biases exposed through the model's outputs. Our output bias forgetting perturbations outperform standard SAM, GSAM, and ASAM on ImageNet, robustness benchmarks, and transfer to CIFAR-{10,100}, while sometimes converging to sharper regions. Our results suggest that the benefits of SAM can be explained by alternative mechanistic principles that do not require flatness of the loss surface.

Auteurs: Ankit Vani, Frederick Tung, Gabriel L. Oliveira, Hossein Sharifi-Noghabi

Dernière mise à jour: 2024-06-10 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2406.06700

Source PDF: https://arxiv.org/pdf/2406.06700

Licence: https://creativecommons.org/licenses/by-nc-sa/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires