Améliorer les réseaux de neurones graphiques avec le module SNR
Une nouvelle méthode améliore les GNN, s'attaquant à l'oversmoothing et boostant les performances.
― 6 min lire
Table des matières
Les Graph Neural Networks (GNNs) sont un type de modèle de machine learning utilisé pour traiter des données structurées sous forme de graphes. Les graphes sont composés de nœuds (ou points) et d'arêtes (ou connexions entre ces points). Les GNNs sont spécialement conçus pour apprendre à partir de ces structures en utilisant les infos des nœuds voisins pour développer une représentation de chaque nœud.
Les GNNs ont montré des résultats impressionnants dans différentes applications, comme les réseaux sociaux, les systèmes de recommandation et la découverte de médicaments. Cependant, avec l'augmentation du nombre de couches dans les GNNs, leurs performances commencent souvent à diminuer. Cela est en partie dû à un phénomène appelé oversmoothing, où les représentations des nœuds deviennent trop similaires et perdent leur distinctivité.
Le Défi de l'Oversmoothing
Quand les GNNs deviennent plus profonds, ils agrègent des informations sur plusieurs couches. En conséquence, les représentations des nœuds deviennent de plus en plus similaires, surtout pour ceux situés dans des zones denses du graphe. Cela rend difficile pour le modèle de distinguer les différents nœuds, ce qui entraîne des problèmes de performance.
Pour contrer ça, certains modèles avancés ont incorporé des connexions résiduelles. Ces connexions permettent d'intégrer les données des couches précédentes dans les représentations finales des nœuds. Cependant, bien que cette approche aide à maintenir certaines informations uniques des nœuds, elle ne résout pas complètement le problème de l'oversmoothing.
Nouvelle Perspective sur l'Agrégation de Sous-graphes
Pour s'attaquer aux problèmes des GNNs traditionnels, les chercheurs ont pris un nouveau regard sur la façon dont les GNNs agrègent les informations des sous-graphes, qui sont des sections plus petites du graphe. Ils soutiennent que le chevauchement d'informations dans des sous-graphes à haut saut – qui se réfèrent aux nœuds qui sont à plusieurs étapes d'un nœud donné – entraîne un chevauchement d'informations dans les représentations des nœuds.
En examinant comment les GNNs existants utilisent les sous-graphes, il devient clair que beaucoup de modèles précédents s'appuient sur une structure rigide qui ne s'adapte pas bien aux informations diverses présentes dans différents nœuds. Ces modèles traitent souvent les informations de chaque saut de sous-graphe comme également importantes, ce qui réduit leur flexibilité pour apprendre des nuances du graphe.
Introduction de SNR : Module Résiduel de Nœud Basé sur l'Échantillonnage
Pour surmonter les limitations des approches précédentes, les chercheurs ont proposé une nouvelle méthode appelée le module Résiduel de Nœud Basé sur l'Échantillonnage (SNR). Cette approche introduit l'idée d'utiliser des paramètres échantillonnés pour permettre un mélange plus flexible d'informations provenant de différents sauts d'agrégation de sous-graphes.
Au lieu d'utiliser des paramètres fixes, qui peuvent mener à un surajustement – où le modèle apprend trop bien les données d'entraînement et performe mal sur de nouvelles données – SNR adopte une approche plus statistique. Cette méthode échantillonne des paramètres à partir d'une distribution apprise durant l'entraînement, rendant le tout adaptable à divers scénarios sans surcharger le modèle avec des coefficients fixes.
Évaluation de l'Efficacité de SNR
Pour montrer à quel point SNR peut être efficace, plusieurs expériences ont été menées. L'objectif était de comprendre comment SNR fonctionne dans diverses situations, comme maintenir les performances dans des modèles peu profonds, surmonter l'oversmoothing dans des modèles plus profonds et fonctionner efficacement pendant l'entraînement.
Classification de nœuds Semi-supervisée
Un des premiers tests a examiné la classification de nœuds semi-supervisée, où l'objectif est de classifier des nœuds en n'utilisant qu'une partie des données étiquetées. Les performances des GNNs avec SNR étaient systématiquement meilleures que celles des modèles traditionnels dans différents contextes. Ça montre que SNR peut réellement améliorer les performances des GNN dans des tâches où il y a moins d'étiquettes disponibles.
Performance des GNNs Profonds
Un autre ensemble de tests a examiné comment les GNNs avec SNR performaient dans des architectures plus profondes. Au fur et à mesure que le nombre de couches augmentait, les GNNs traditionnels voyaient souvent une baisse de précision à cause de l'oversmoothing. Cependant, les GNNs utilisant l'approche SNR ont maintenu leurs performances même avec de nombreuses couches.
Les tests ont révélé que les GNNs plus profonds utilisant SNR pouvaient mieux conserver les caractéristiques uniques des nœuds que ceux sans ce module. Cette flexibilité leur a permis de tirer parti d'informations plus complètes, entraînant des améliorations significatives de précision même dans des modèles de 32 couches de profondeur.
Gestion des Caractéristiques Manquantes
SNR a également été appliqué à des scénarios où les caractéristiques des nœuds étaient manquantes, connus sous le nom de classification de nœuds semi-supervisée avec vecteurs manquants. Dans ces situations, les GNNs profonds sont particulièrement utiles car ils doivent rassembler des informations à travers de nombreux nœuds pour fournir des représentations efficaces, ce que SNR aide à faciliter.
Les expériences ont montré que les GNNs équipés de SNR surpassaient toutes les autres méthodes en ce qui concerne la gestion des caractéristiques manquantes, soulignant l'adaptabilité du module à divers défis.
Efficacité d'Entraînement
Dans les applications pratiques, il est essentiel non seulement qu'un modèle performe bien, mais qu'il le fasse aussi efficacement. Un dernier ensemble d'expériences a mesuré à quelle vitesse différents modèles atteignaient leurs meilleures performances pendant l'entraînement. Les résultats ont montré que, tandis que les GNNs traditionnels faisaient face à une baisse de l'efficacité d'entraînement avec plus de couches, les modèles utilisant SNR maintenaient une efficacité d'entraînement plus élevée, permettant des adaptations plus rapides et des niveaux de performance optimaux.
Conclusion
En résumé, l'introduction du module Résiduel de Nœud Basé sur l'Échantillonnage offre des avantages significatifs aux Graph Neural Networks. En s'attaquant à la question de l'oversmoothing et en permettant une agrégation plus flexible des informations des sous-graphes, SNR améliore l'expressivité des GNNs. Son adaptabilité signifie que les GNNs peuvent mieux performer dans un éventail de tâches, y compris celles nécessitant des architectures profondes ou traitant des données manquantes. Cette recherche pave la voie à de futurs développements dans les GNNs et leurs applications dans des scénarios réels.
Titre: Deep Graph Neural Networks via Posteriori-Sampling-based Node-Adaptive Residual Module
Résumé: Graph Neural Networks (GNNs), a type of neural network that can learn from graph-structured data through neighborhood information aggregation, have shown superior performance in various downstream tasks. However, as the number of layers increases, node representations become indistinguishable, which is known as over-smoothing. To address this issue, many residual methods have emerged. In this paper, we focus on the over-smoothing issue and related residual methods. Firstly, we revisit over-smoothing from the perspective of overlapping neighborhood subgraphs, and based on this, we explain how residual methods can alleviate over-smoothing by integrating multiple orders neighborhood subgraphs to avoid the indistinguishability of the single high-order neighborhood subgraphs. Additionally, we reveal the drawbacks of previous residual methods, such as the lack of node adaptability and severe loss of high-order neighborhood subgraph information, and propose a \textbf{Posterior-Sampling-based, Node-Adaptive Residual module (PSNR)}. We theoretically demonstrate that PSNR can alleviate the drawbacks of previous residual methods. Furthermore, extensive experiments verify the superiority of the PSNR module in fully observed node classification and missing feature scenarios. Our code is available at https://github.com/jingbo02/PSNR-GNN.
Auteurs: Jingbo Zhou, Yixuan Du, Ruqiong Zhang, Jun Xia, Zhizhi Yu, Zelin Zang, Di Jin, Carl Yang, Rui Zhang, Stan Z. Li
Dernière mise à jour: 2024-10-31 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2305.05368
Source PDF: https://arxiv.org/pdf/2305.05368
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://neurips.cc/public/guides/PaperChecklist
- https://www.neurips.cc/
- https://mirrors.ctan.org/macros/latex/contrib/natbib/natnotes.pdf
- https://www.ctan.org/pkg/booktabs
- https://tex.stackexchange.com/questions/503/why-is-preferable-to
- https://tex.stackexchange.com/questions/40492/what-are-the-differences-between-align-equation-and-displaymath
- https://mirrors.ctan.org/macros/latex/required/graphics/grfguide.pdf
- https://neurips.cc/Conferences/2023/PaperInformation/FundingDisclosure
- https://github.com/Kaixiong-Zhou/DGN/
- https://github.com/DropEdge/DropEdge
- https://docs.dgl.ai/en/0.9.x/api/python/nn-pytorch.html