Simple Science

La science de pointe expliquée simplement

# Informatique# Vision par ordinateur et reconnaissance des formes# Apprentissage automatique

Faire progresser la détection des données hors distribution avec PEPR

Une nouvelle méthode améliore la détection de données inhabituelles dans les systèmes d'apprentissage automatique.

― 7 min lire


PEPR : Prochaine étapePEPR : Prochaine étapedans la détection OODinhabituelles efficacement.potentiel pour détecter des donnéesUne nouvelle méthode montre du
Table des matières

Dans le monde d'aujourd'hui, les systèmes d'apprentissage automatique jouent un rôle essentiel dans de nombreuses applications. Ces systèmes peuvent parfois faire face à des défis lorsqu'ils traitent des données qui ne font pas partie de l'ensemble de formation normal, connues sous le nom de données hors distribution (OOD). Les performances des modèles d'apprentissage automatique peuvent chuter lorsqu'ils rencontrent des données inattendues, rendant crucial d'avoir des méthodes en place pour identifier et gérer ces situations.

L'importance de la détection OOD

Détecter les entrées OOD est vital pour maintenir la sécurité et la fiabilité des systèmes automatisés. Quand ces systèmes rencontrent des données inhabituelles ou incorrectes, ils doivent réagir de manière appropriée pour éviter les erreurs. Par exemple, les voitures autonomes doivent reconnaître quand elles sont face à quelque chose d'inconnu, ce qui leur permet de ralentir ou de demander de l'aide humaine. Les chercheurs ont exploré diverses méthodes pour s'attaquer à la détection OOD, en se concentrant particulièrement sur des ensembles de données plus petits. Cependant, à mesure que la technologie avance, le besoin de méthodes de détection efficaces pour des ensembles de données plus vastes et plus complexes est devenu évident.

Défis des méthodes actuelles

De nombreuses techniques existantes pour la détection OOD fonctionnent bien pour les petits ensembles de données, qui incluent généralement des images de plus faible résolution et moins de catégories. En revanche, les données réelles peuvent comprendre des milliers de classes et des images de haute résolution. Cette complexité pose des défis significatifs pour les méthodes de détection conventionnelles, entraînant une confiance réduite dans leurs prédictions à mesure que le nombre de classes augmente.

Une nouvelle approche : Régression de puissance d'encodage prédite (PEPR)

Pour répondre à ces défis, une nouvelle méthode appelée Régression de puissance d'encodage prédite (PEPR) a été développée. PEPR se concentre sur l'amélioration de la détection des données OOD dans des scénarios où les ensembles de données sont grands et divers. L'idée principale derrière PEPR consiste à utiliser des probabilités dérivées des étiquettes de classe apprises pendant l'entraînement du modèle pour mieux comprendre les données OOD. Cette approche vise à s'éloigner des méthodes traditionnelles qui s'appuient principalement sur les probabilités de classification maximales.

Comment fonctionne PEPR

PEPR tire parti des caractéristiques uniques d'une fonction d'activation connue sous le nom d'unité linéaire exponentielle (ELU) et d'un processus appelé normalisation par lots. En combinant ces éléments, PEPR peut créer des encodages plus efficaces qui représentent les données traitées. Essentiellement, la méthode cherche à déterminer la probabilité qu'une entrée particulière appartienne aux catégories connues en fonction des modèles déjà appris.

Le processus implique trois étapes principales : d'abord, entraîner le modèle à classer les images ; ensuite, estimer les valeurs d'encodage en fonction des probabilités prédites ; et enfin, définir un seuil pour calculer des scores pour les entrées. Cette méthode permet d'améliorer le score de la probabilité qu'un point de données se situe en dehors de la distribution attendue.

Évaluation de la méthode

Dans les tests, PEPR a été appliqué à divers ensembles de données, y compris des collections populaires comme Imagenet. La méthode a montré des résultats prometteurs, dépassant souvent les techniques existantes en termes d'efficacité et de précision. En utilisant PEPR, les chercheurs ont démontré qu'ils pouvaient réduire de manière significative les ressources informatiques nécessaires tout en maintenant, voire en améliorant, les performances de détection.

Travaux connexes en détection OOD

Les recherches précédentes en détection OOD ont pris plusieurs directions. Certaines approches s'appuient sur des modèles pré-entraînés pour améliorer la détection à travers différentes classes. D'autres se concentrent sur le réglage fin des modèles avec des données supplémentaires provenant de l'extérieur de l'ensemble de données de formation normal. Ces méthodes n'utilisent généralement pas de données OOD pour leurs phases d'entraînement, ce qui peut limiter leur efficacité dans les applications réelles.

Une autre ligne de recherche vise à améliorer la détection OOD pour des ensembles de données à grande échelle. Ces efforts ont conduit au développement de méthodes qui utilisent la classification hiérarchique et des techniques d'échantillonnage bayésien. Bien que ces méthodes montrent du potentiel, elles s'accompagnent souvent d'une complexité accrue ou de coûts computationnels plus élevés.

Le rôle des ensembles dans la détection OOD

Un aspect clé pour améliorer la détection OOD est l'utilisation de méthodes d'ensemble, qui combinent les prévisions de plusieurs modèles pour obtenir de meilleures performances globales. Cette approche peut aider à atténuer les faiblesses des modèles individuels et à fournir des prédictions plus stables à travers des ensembles de données divers. PEPR et ses variations ont montré une plus grande variabilité que de nombreuses techniques standard, soulignant le besoin d'ensembles pour améliorer les résultats globaux.

Ensembles de données utilisés pour les tests

L'efficacité de PEPR a été évaluée à l'aide de divers ensembles de données. L'ensemble de données principal pour les tests en distribution a été Imagenet, une référence bien connue dans le domaine. Pour évaluer les performances OOD, d'autres ensembles de données comme Textures, SUN et iNaturalist ont été utilisés. Cet ensemble de données divers permet une évaluation complète de la méthode face à une gamme de scénarios réels.

Indicateurs de performance

Lors de l'évaluation des méthodes de détection OOD, il est essentiel de mesurer la performance à l'aide d'indicateurs appropriés. Les indicateurs couramment utilisés incluent le Taux de faux positifs (FPR), la surface sous la courbe des caractéristiques de fonctionnement du récepteur (AUROC) et la surface sous la courbe de précision-rappel (AUPR). Ces mesures donnent un aperçu de la capacité d'une méthode de détection à identifier les instances OOD tout en minimisant les classifications incorrectes.

Résultats et conclusions

Les résultats obtenus en testant PEPR par rapport aux méthodes existantes étaient particulièrement positifs. La nouvelle méthode a systématiquement atteint des scores AUROC et AUPR plus élevés par rapport aux approches traditionnelles. Dans de nombreux cas, PEPR a nécessité moins de puissance de calcul sans sacrifier la qualité de détection, renforçant son potentiel en tant qu'outil puissant dans la détection OOD.

Cependant, il a été noté que PEPR a rencontré des défis avec certains ensembles de données, en particulier l'ensemble de données Textures. Ici, les performances n'ont pas répondu aux attentes, indiquant que certaines caractéristiques des données pourraient entraver l'efficacité de la méthode. Une exploration plus approfondie des facteurs causant cet écart de performance est nécessaire pour affiner et améliorer l'approche PEPR.

Conclusion

En conclusion, le développement de la Régression de puissance d'encodage prédite (PEPR) représente une avancée significative dans le domaine de la détection OOD. En se concentrant sur l'amélioration de la compréhension de la manière dont les données s'intègrent ou non dans les distributions connues, PEPR a montré qu'il pouvait surpasser de nombreuses méthodes existantes tout en maintenant l'efficacité. À mesure que l'apprentissage automatique continue d'évoluer, le besoin de méthodes de détection robustes va croître, rendant essentiel la recherche continue sur des méthodes comme PEPR pour garantir la sécurité et la fiabilité des systèmes automatisés.

Grâce à un raffinement supplémentaire et à une exploration continue de cette méthode, les chercheurs espèrent fournir de meilleurs outils pour détecter les entrées OOD, conduisant finalement à des systèmes d'apprentissage automatique plus sûrs et plus efficaces dans diverses applications.

Source originale

Titre: Predicted Embedding Power Regression for Large-Scale Out-of-Distribution Detection

Résumé: Out-of-distribution (OOD) inputs can compromise the performance and safety of real world machine learning systems. While many methods exist for OOD detection and work well on small scale datasets with lower resolution and few classes, few methods have been developed for large-scale OOD detection. Existing large-scale methods generally depend on maximum classification probability, such as the state-of-the-art grouped softmax method. In this work, we develop a novel approach that calculates the probability of the predicted class label based on label distributions learned during the training process. Our method performs better than current state-of-the-art methods with only a negligible increase in compute cost. We evaluate our method against contemporary methods across $14$ datasets and achieve a statistically significant improvement with respect to AUROC (84.2 vs 82.4) and AUPR (96.2 vs 93.7).

Auteurs: Hong Yang, William Gebhardt, Alexander G. Ororbia, Travis Desell

Dernière mise à jour: 2023-03-14 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2303.04115

Source PDF: https://arxiv.org/pdf/2303.04115

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires