Simple Science

La science de pointe expliquée simplement

# Informatique# Apprentissage automatique# Vision par ordinateur et reconnaissance des formes

La fonction d'activation absolue dans les réseaux de neurones

Explorer la fonction d'activation Absolute pour améliorer les performances de classification.

― 8 min lire


Percée de la fonctionPercée de la fonctiond'activation absolueAbsolute dans les réseaux de neurones.Découvrez les avantages de l'activation
Table des matières

Les réseaux neuronaux sont devenus des outils importants pour résoudre plein de problèmes, surtout dans les tâches de classification. Une approche populaire consiste à utiliser une fonction d'activation, qui aide le réseau à apprendre à partir des données. Cet article parle d'une fonction d'activation spécifique appelée la fonction d'activation absolue et comment elle peut améliorer la performance des réseaux neuronaux dans la classification des chiffres manuscrits, notamment en utilisant le dataset MNIST.

C'est quoi la fonction d'activation absolue ?

Une fonction d'activation est une opération mathématique appliquée à la sortie d'un neurone dans un réseau neuronal. Elle aide à décider si le neurone doit être activé ou pas. La fonction d'activation absolue se démarque des fonctions traditionnelles comme Tanh, ReLU et SeLU. Alors que la plupart des fonctions d'activation sont soit non décroissantes, soit ont des motifs spécifiques, la fonction d'activation absolue se comporte différemment. Elle est continue et offre des avantages uniques, surtout dans les réseaux profonds.

Pourquoi utiliser l'activation absolue ?

Le problème commun dans l'entraînement des réseaux neuronaux profonds est celui des Gradients qui disparaissent ou explosent. Ce souci survient quand les poids du réseau deviennent trop petits (disparition) ou trop grands (explosion) en faisant circuler l'information à travers les couches. La fonction d'activation absolue aide à prévenir ces problèmes, ce qui en fait une bonne option pour les réseaux simples et complexes.

En utilisant la fonction d'activation absolue, on a constaté qu'elle ne mène pas à des gradients qui disparaissent ou explosent, ce qui signifie que le réseau peut apprendre efficacement peu importe le nombre de couches ajoutées. Cette caractéristique permet une plus grande flexibilité lors de la construction des réseaux neuronaux.

Comparaison des fonctions d'activation

Dans les tests, la fonction d'activation absolue a été comparée à d'autres fonctions populaires comme Tanh et ReLU en utilisant une architecture de réseau neuronal bien connue appelée LeNet-5. LeNet-5 est souvent utilisé pour des tâches comme la classification des chiffres manuscrits du dataset MNIST.

Dans les tests, on a trouvé que la fonction d'activation absolue se comportait aussi bien, voire mieux, que les autres fonctions. Non seulement elle fournissait des résultats précis, mais elle nécessitait aussi moins de paramètres, ce qui signifie que le réseau pouvait être plus petit et plus efficace.

Processus d'entraînement

Entraîner un réseau neuronal implique d'ajuster ses paramètres jusqu'à atteindre le niveau de précision désiré. La fonction d'activation absolue a introduit une nouvelle méthode pour estimer la limite inférieure de précision lors des tests du réseau. Cette méthode permet un processus d'entraînement plus efficace et aide à trouver le meilleur taux d'apprentissage. Le taux d'apprentissage est un paramètre crucial qui détermine la rapidité avec laquelle le réseau apprend.

Pendant l'entraînement, il était important de surveiller la précision du réseau par plusieurs méthodes. En s'assurant que l'entraînement ne surajuste pas les données de formation, le réseau a pu bien performer sur des données jamais vues auparavant. Cette approche a conduit à découvrir le point optimal pour arrêter l'entraînement, garantissant que le réseau pourrait bien se généraliser à de nouveaux exemples.

Résultats dans les tâches de classification simples

Pour démontrer l'efficacité de la fonction d'activation absolue, des tâches de classification simples en deux dimensions ont été résolues. Ces tâches comprenaient la séparation linéaire, la séparation de type croisé, et la séparation de zones circulaires.

Dans ces tests, trois configurations de réseau différentes ont été utilisées : une avec une seule couche cachée et activation ReLU, une avec deux couches cachées et activation ReLU, et une avec une seule couche cachée utilisant la fonction d'activation absolue. Les résultats ont montré que le réseau avec la fonction d'activation absolue se comportait bien, obtenant des prédictions stables et des classifications précises.

Les résultats ont indiqué que, même si le réseau avec deux couches cachées performait légèrement mieux, le réseau avec une seule couche cachée utilisant l'activation absolue était non seulement plus simple mais aussi plus stable en termes de résultats.

Application au problème MNIST

Le problème MNIST consiste à classifier des images de chiffres manuscrits de 28x28 pixels en dix classes. Le modèle LeNet-5 a été utilisé plusieurs fois pour cette tâche en raison de son efficacité. La version de LeNet-5 avec activation Tanh traditionnelle a été comparée à une version modifiée utilisant l’activation absolue.

Les deux réseaux avaient des architectures et un nombre de paramètres similaires, mais celui utilisant la fonction d'activation absolue a montré une meilleure précision lors de l'entraînement et des tests. Spécifiquement, le réseau utilisant l'activation absolue a atteint près de 99,44 % de précision, ce qui est une amélioration significative.

Détails et défis de l'entraînement

Pendant l'entraînement, le réseau utilisant l'activation absolue a montré plus de fluctuations en précision et perte que son homologue avec activation Tanh. Cette variabilité était principalement due à la manière dont la fonction d'activation absolue réagit aux petites modifications lors des mises à jour. Cela a suggéré que des taux d'apprentissage plus bas pourraient être nécessaires pour un apprentissage fluide.

Pour garantir un entraînement efficace, le processus a inclus l'évaluation de la précision en utilisant une méthode de bootstrap pour estimer la performance basée sur des ensembles de validation. Au lieu de se fier uniquement aux données d'entraînement, le réseau a été évalué sur des données de validation inconnues pour estimer sa véritable performance.

Robustesse contre les problèmes de gradient

Une considération importante lors de la conception de réseaux neuronaux est leur robustesse contre les problèmes de gradient. La fonction d'activation absolue s'est révélée efficace pour lutter contre les gradients qui disparaissent. Dans les expériences, des couches supplémentaires ont été ajoutées tant à LeNet-5 qu'à la version modifiée avec activation absolue. Ce setup a confirmé qu'en dépit d'une complexité accrue, les deux réseaux pouvaient encore être entraînés efficacement.

La fonction d'activation absolue a maintenu sa capacité à gérer les gradients dans ces réseaux profonds, montrant qu'elle peut être utilisée de manière fiable même lorsque l'architecture du réseau devient plus compliquée.

Réduction de la taille du réseau

Un autre avantage d'utiliser la fonction d'activation absolue est son potentiel à réduire la taille globale du réseau neuronal sans sacrifier la précision. En retirant certaines couches et en simplifiant l'architecture tout en utilisant toujours l'activation absolue, les chercheurs ont trouvé qu'ils pouvaient obtenir des performances similaires, voire meilleures.

Cette réduction de taille est essentielle, surtout lors de déploiements de modèles dans des situations où les ressources sont limitées. Des modèles plus petits nécessitent moins de mémoire et de puissance de calcul, les rendant plus faciles à utiliser dans des applications réelles.

Apprentissage par ensemble

Pour améliorer encore la précision, l'apprentissage par ensemble a été envisagé. Cette méthode consiste à entraîner plusieurs versions du même réseau avec différents paramètres initiaux et ensuite à combiner leurs sorties. En utilisant différentes fonctions d'activation dans ces ensembles, il était possible d'améliorer la performance globale.

L'approche par ensemble a été utilisée pour mesurer la précision de la fonction d'activation absolue par rapport à d'autres fonctions comme ReLU et Tanh. Les résultats ont indiqué que la fonction absolue surpassait systématiquement ou égalait la précision des autres fonctions.

Conclusion

Cette exploration de la fonction d'activation absolue révèle son potentiel à améliorer la performance des réseaux neuronaux, surtout dans les tâches de classification. Ses caractéristiques uniques lui permettent d'exceller dans des domaines où les fonctions traditionnelles peuvent rencontrer des défis, comme la stabilité des gradients et l'efficacité.

En appliquant cette fonction d'activation à diverses architectures de réseaux neuronaux, particulièrement pour résoudre le problème MNIST, des améliorations significatives en précision et en taille de réseau ont été réalisées. L'avenir de l'utilisation de la fonction d'activation absolue semble prometteur pour de nouvelles avancées en apprentissage automatique et en réseaux neuronaux.

Les recherches indiquent qu'à mesure que le domaine de l'intelligence artificielle progresse, la fonction d'activation absolue pourrait jouer un rôle crucial dans le développement de réseaux neuronaux robustes, efficaces et précis pour une large gamme d'applications.

Source originale

Titre: Improving Classification Neural Networks by using Absolute activation function (MNIST/LeNET-5 example)

Résumé: The paper discusses the use of the Absolute activation function in classification neural networks. An examples are shown of using this activation function in simple and more complex problems. Using as a baseline LeNet-5 network for solving the MNIST problem, the efficiency of Absolute activation function is shown in comparison with the use of Tanh, ReLU and SeLU activations. It is shown that in deep networks Absolute activation does not cause vanishing and exploding gradients, and therefore Absolute activation can be used in both simple and deep neural networks. Due to high volatility of training networks with Absolute activation, a special modification of ADAM training algorithm is used, that estimates lower bound of accuracy at any test dataset using validation dataset analysis at each training epoch, and uses this value to stop/decrease learning rate, and re-initializes ADAM algorithm between these steps. It is shown that solving the MNIST problem with the LeNet-like architectures based on Absolute activation allows to significantly reduce the number of trained parameters in the neural network with improving the prediction accuracy.

Auteurs: Oleg I. Berngardt

Dernière mise à jour: 2023-04-23 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2304.11758

Source PDF: https://arxiv.org/pdf/2304.11758

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus de l'auteur

Articles similaires