Améliorer l'apprentissage dans les réseaux temporels avec CurNM
Une nouvelle méthode améliore l'entraînement des modèles dans les réseaux temporels.
― 8 min lire
Table des matières
- Défis dans les réseaux temporels
- Rareté positive
- Décalage positif
- Présentation du Curriculum Negative Mining (CurNM)
- Pourquoi c'est important ?
- Méthodologie
- Stratégie d'apprentissage par curriculum
- Construction du pool négatif
- Fonction de sélection négative
- Expériences et résultats
- Comparaison avec d'autres méthodes
- Résultats
- Complexité et efficacité
- Analyse du temps d'exécution
- Importance de chaque composant
- Conclusion
- Source originale
- Liens de référence
Les réseaux temporels représentent des connexions entre des entités qui changent au fil du temps. Ces réseaux sont utiles pour comprendre comment les relations se développent, que ce soit sur les réseaux sociaux ou en ligne. Récemment, les chercheurs se sont concentrés sur l'amélioration des modèles qui apprennent de ces réseaux, surtout avec un type appelé Réseaux de neurones graphiques temporels (TGNNs). Bien qu'on ait beaucoup travaillé sur la façon de mieux représenter les connexions et les nœuds, on n'a pas assez prêté attention à la façon dont les Échantillons négatifs sont générés pendant l'entraînement.
Les échantillons négatifs sont importants pour entraîner les modèles. Quand un modèle apprend, il doit comparer ce qu'il comprend à des choses qu'il sait être incorrectes. Cette comparaison aide à améliorer la capacité du modèle à prédire correctement. Dans les réseaux temporels, cependant, générer ces échantillons négatifs est compliqué pour deux raisons principales : la rareté positive et le décalage positif.
Défis dans les réseaux temporels
Rareté positive
La rareté positive se produit lorsqu'il y a beaucoup plus d'échantillons négatifs que positifs à un moment donné. En gros, si on essaie d'apprendre à partir des interactions entre utilisateurs, il pourrait n'y avoir que quelques interactions (échantillons positifs) comparées à un grand nombre de paires d'utilisateurs aléatoires qui n'ont pas interagi (échantillons négatifs). Cela peut rendre l'apprentissage du modèle difficile.
Décalage positif
Le décalage positif se produit lorsque les connexions ou les relations entre les utilisateurs changent avec le temps. Par exemple, quelqu'un peut aimer un certain produit aujourd'hui mais pas demain, ou ses intérêts peuvent varier au cours de semaines ou de mois. Si le modèle ne tient pas compte de ces changements, il pourrait finir par s'entraîner sur des informations dépassées, ce qui entraîne de mauvaises prédictions.
Présentation du Curriculum Negative Mining (CurNM)
Pour aborder les problèmes mentionnés, on propose une nouvelle méthode appelée Curriculum Negative Mining (CurNM). Cette approche ajuste dynamiquement la sélection des échantillons négatifs en fonction des progrès d'apprentissage du modèle. Voici comment ça marche :
Pool Négatif Dynamique : On crée un pool d'échantillons négatifs qui inclut un mélange de négatifs aléatoires, d'échantillons du passé et de négatifs plus difficiles. Cette approche aide à atténuer le problème de rareté positive.
Sélection Consciente du Temps : On met en place un système qui sélectionne les échantillons négatifs en fonction des interactions récentes. Cela permet au modèle d'apprendre des changements dans les préférences des utilisateurs au fil du temps.
En appliquant ces principes, on vise à améliorer le processus d'apprentissage des TGNNs et à augmenter leur performance.
Pourquoi c'est important ?
Améliorer la façon dont les modèles apprennent des réseaux temporels est crucial pour de nombreuses applications, des systèmes de recommandation à la compréhension des dynamiques sociales. Si les modèles peuvent apprendre plus efficacement, ils peuvent faire de meilleures prédictions, ce qui mène à de meilleures expériences utilisateur et à des insights sur des données complexes.
Méthodologie
Stratégie d'apprentissage par curriculum
Notre méthode utilise une stratégie d'apprentissage par curriculum. Ça signifie qu'on augmente progressivement la difficulté des échantillons négatifs en fonction de la performance du modèle.
Phase d'apprentissage précoce
Au début, les échantillons négatifs sont plus faciles. Le modèle est entraîné avec un mélange d'échantillons historiques et aléatoires. L'objectif est d'aider le modèle à saisir les bases sans le surcharger avec des exemples difficiles.
Phase d'apprentissage avancé
Une fois que le modèle montre de bons progrès, on introduce des échantillons plus difficiles. Cette étape se produit lorsque le modèle a suffisamment appris des exemples plus faciles. En augmentant progressivement la difficulté, on s'assure que le modèle est toujours mis au défi au bon niveau.
Construction du pool négatif
Le pool négatif est essentiel pour la stratégie d'apprentissage par curriculum. Pendant la phase initiale, on remplit ce pool d'échantillons aléatoires et d'échantillons négatifs historiques. Au fur et à mesure que l'entraînement progresse et que le modèle s'améliore, on commence à incorporer des négatifs plus difficiles en fonction de la performance du modèle.
Fonction de sélection négative
Le processus de sélection négative est la deuxième partie clé de notre méthode. On se concentre sur deux étapes pour sélectionner les négatifs les plus informatifs :
Démêler les facteurs non pertinents : On différencie les facteurs clés qui aident le modèle à prédire correctement de ceux qui ne le font pas. Cela aide le modèle à apprendre plus efficacement.
Scoring temporel : On score les échantillons négatifs en fonction de leur pertinence et du moment de leurs interactions. Ainsi, on privilégie les échantillons qui pourraient embrouiller le modèle, le poussant à affiner son apprentissage.
Expériences et résultats
On a effectué de nombreuses expériences en utilisant douze jeux de données différents sur trois types de TGNNs. Le but de ces tests était de voir comment notre méthode se comporte par rapport aux techniques existantes.
Comparaison avec d'autres méthodes
Pour notre analyse, on a comparé notre méthode à deux techniques de sampling négatif courantes : l'échantillonnage aléatoire et l'échantillonnage récent. On a aussi inclus ENS, la seule autre méthode spécifiquement conçue pour les réseaux temporels.
Résultats
À travers différents jeux de données, notre méthode a constamment montré une meilleure performance que les autres. Voici quelques points clés de nos résultats :
Test Transductif : Dans des configurations où les modèles sont testés sur des données familières, notre méthode a surpassé les autres dans huit des douze jeux de données. Cela indique sa force dans la prédiction des interactions historiques.
Test Inductif : Lorsqu'on évalue la capacité des modèles à généraliser à de nouvelles données, notre méthode a également excellé. Elle a maintenu une haute performance, montrant qu'elle peut apprendre efficacement à partir de nœuds non vu.
Complexité et efficacité
Une préoccupation clé était de savoir combien de puissance de calcul supplémentaire notre approche nécessiterait. Heureusement, notre méthode ajoute un temps de traitement minimal par rapport aux approches de sampling traditionnelles. Bien qu'elle prenne un peu plus de temps à cause du processus de mining négatif, elle reste efficace.
Analyse du temps d'exécution
En termes pratiques, notre méthode a été testée sur le modèle TGN, montrant des augmentations minimales du temps d'exécution par rapport aux méthodes de référence. Cette efficacité prouve qu'elle peut être mise en œuvre sans coût computationnel significatif, ce qui la rend pratique pour des applications réelles.
Importance de chaque composant
À travers diverses études, on a évalué comment les différents éléments de notre méthode influençaient sa performance. On a constaté que :
- Retirer les négatifs aléatoires nuisait considérablement à la capacité d'apprentissage du modèle.
- Les caractéristiques conscientes du temps et les stratégies adaptatives aidaient vraiment à garder la performance du modèle forte.
Conclusion
La recherche met en avant les défis uniques rencontrés dans le sampling négatif au sein des réseaux temporels. En introduisant le Curriculum Negative Mining, on fournit un cadre robuste qui aborde efficacement les problèmes de rareté positive et de décalage positif.
Nos expériences montrent que CurNM améliore significativement la performance des Réseaux de Neurones Graphiques Temporels. Bien que notre approche donne de bons résultats, des efforts continus devraient se concentrer sur l'optimisation de la méthode et la réduction du besoin d'un réglage des paramètres étendu.
En fin de compte, à mesure que les réseaux temporels continuent de croître en importance, affiner la façon dont les modèles apprennent d'eux sera essentiel pour faire avancer plusieurs domaines, y compris l'analyse des réseaux sociaux, les systèmes de recommandation, et plus encore. Cette capacité d'apprentissage améliorée a le potentiel de débloquer de nouvelles perspectives et d'améliorer la compréhension dans divers domaines.
Titre: Curriculum Negative Mining For Temporal Networks
Résumé: Temporal networks are effective in capturing the evolving interactions of networks over time, such as social networks and e-commerce networks. In recent years, researchers have primarily concentrated on developing specific model architectures for Temporal Graph Neural Networks (TGNNs) in order to improve the representation quality of temporal nodes and edges. However, limited attention has been given to the quality of negative samples during the training of TGNNs. When compared with static networks, temporal networks present two specific challenges for negative sampling: positive sparsity and positive shift. Positive sparsity refers to the presence of a single positive sample amidst numerous negative samples at each timestamp, while positive shift relates to the variations in positive samples across different timestamps. To robustly address these challenges in training TGNNs, we introduce Curriculum Negative Mining (CurNM), a model-aware curriculum learning framework that adaptively adjusts the difficulty of negative samples. Within this framework, we first establish a dynamically updated negative pool that balances random, historical, and hard negatives to address the challenges posed by positive sparsity. Secondly, we implement a temporal-aware negative selection module that focuses on learning from the disentangled factors of recently active edges, thus accurately capturing shifting preferences. Extensive experiments on 12 datasets and 3 TGNNs demonstrate that our method outperforms baseline methods by a significant margin. Additionally, thorough ablation studies and parameter sensitivity experiments verify the usefulness and robustness of our approach. Our code is available at https://github.com/zziyue83/CurNM.
Auteurs: Ziyue Chen, Tongya Zheng, Mingli Song
Dernière mise à jour: 2024-07-24 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2407.17070
Source PDF: https://arxiv.org/pdf/2407.17070
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.