Simple Science

La science de pointe expliquée simplement

# Informatique# Intelligence artificielle# Apprentissage automatique

Améliorer l'apprentissage par peu d'exemples avec RPLKG

Une nouvelle méthode améliore l'efficacité du modèle pour apprendre avec peu de données.

― 7 min lire


RPLKG : AméliorerRPLKG : Améliorerl'apprentissage àquelques exemplespeu d'exemples.dans les tâches d'apprentissage avecUne méthode qui améliore l'efficacité
Table des matières

Les gros Modèles pré-entraînés sont connus pour être bons à plein de tâches, même avec des données qu'ils n'ont jamais vues avant. Dernièrement, des modèles multimodaux comme CLIP ont montré des résultats impressionnants à travers différents tests. Cependant, quand il n'y a pas beaucoup d'exemples étiquetés pour apprendre, ces modèles galèrent encore à bien performer. Pour les rendre meilleurs avec moins d'exemples, les chercheurs ont essayé différentes méthodes, y compris l'apprentissage par prompt et l'utilisation d'adaptateurs. Mais les façons actuelles de s'adapter à ces modèles peuvent être compliquées à comprendre et nécessitent beaucoup de puissance de calcul.

Dans cet article, on présente une méthode appelée Robust Prompt Learning with Knowledge Graph (RPLKG). Cette méthode utilise un graphe de connaissances pour créer automatiquement des ensembles de prompts faciles à comprendre. Elle fait aussi gagner du temps et de la mémoire pendant l'entraînement des modèles. RPLKG choisit automatiquement les meilleurs prompts selon les données utilisées, ce qui la rend plus efficace.

Contexte

Les modèles pré-entraînés ont été utiles pour différentes tâches, montrant leur capacité à transférer des connaissances d'une tâche à une autre. Par exemple, quand ils sont appliqués à des tâches comme la reconnaissance d'image et la compréhension de texte, ces modèles ont bien performé, même avec des données limitées. Des modèles comme CLIP ont surpassé d'autres dans des tâches en zéro-shot, où le modèle doit classifier de nouvelles images en se basant sur du texte sans entraînement sur ces classes.

Pourtant, le défi persiste dans l'apprentissage few-shot, où le modèle doit faire des prédictions sur seulement quelques exemples. Bien que CLIP ait des avantages, il y a encore un écart de performance notable en matière d'apprentissage few-shot comparé à quand le modèle est entraîné sur un ensemble de données complet.

Peaufiner tout le modèle pour améliorer la performance coûte cher en ressources de calcul. À cause de ça, les chercheurs cherchent des moyens d'adapter seulement une petite partie du modèle, tout en permettant aux parties principales de rester inchangées. Une manière efficace de faire ça est d'utiliser des prompts, qui sont des textes courts qui guident le modèle pour comprendre ce qu'il doit faire.

Méthode RPLKG

RPLKG vise à améliorer l'apprentissage few-shot avec de gros modèles pré-entraînés comme CLIP. Cette méthode construit des prompts à partir d'un graphe de connaissances et sélectionne automatiquement le prompt le plus adapté pour chaque image. Beaucoup de prompts différents peuvent être créés pour un seul nom de classe, mais trouver le meilleur peut être une tâche complexe. Les méthodes traditionnelles peuvent prendre beaucoup de temps, donc RPLKG utilise une technique spéciale pour accélérer le processus.

Cette méthode a plusieurs avantages. D'abord, elle permet d'inclure efficacement des connaissances humaines. Elle transforme le graphe de connaissances en texte simple qui est facile à comprendre. Ensuite, RPLKG est facile à interpréter car elle utilise des prompts en texte clair plutôt que des couches d'informations cachées difficiles à saisir. Enfin, RPLKG nécessite moins de puissance de calcul car elle fonctionne à un niveau supérieur du modèle sans avoir besoin de revenir sur toutes les couches.

Construction automatique de prompts

Une des fonctions principales de RPLKG est la construction automatique de prompts. Elle cherche des informations pertinentes dans le graphe de connaissances et les utilise pour créer des prompts en texte clair de haute qualité. Quand un ensemble de données a des noms de classe absents dans le graphe de connaissances, RPLKG applique un ensemble de règles minimales pour aider à créer des prompts efficaces.

Par exemple, elle peut séparer les synonymes en fonction de symboles spécifiques comme des barres obliques ou des espaces, ajustant le libellé dans un format que le graphe de connaissances peut comprendre. Des règles supplémentaires aident à convertir les mots en minuscules ou à les fusionner sans espaces si nécessaire. Cette flexibilité garantit que le modèle produit des prompts de haute qualité peu importe l'ensemble de données.

Embedding mis en cache

RPLKG utilise des embeddings mis en cache pour stocker et récupérer des informations de manière efficace. Au lieu de constamment peaufiner tout le gros modèle ou de générer des prompts à répétition, elle capture les informations clés avec juste un passage vers l’avant. Cette stratégie réduit l'utilisation de mémoire et accélère le processus d'entraînement, le rendant plus efficace par rapport aux méthodes traditionnelles.

Sélection optimale de prompts

Une autre partie importante de RPLKG est sa capacité à sélectionner le meilleur prompt pour chaque image. Face à différents prompts, le modèle doit trouver lequel fonctionne le mieux. Les méthodes traditionnelles peuvent avoir du mal avec ça à cause de leur complexité. RPLKG simplifie cela en appliquant une méthode qui permet une prise de décision rapide.

Le modèle traite l'embedding de l'image et le compare avec les embeddings des différents prompts. En utilisant une méthode appelée Gumbel-Softmax, RPLKG peut faire des sélections claires parmi les prompts tout en permettant un entraînement fluide. Cela signifie qu’elle identifie efficacement le meilleur prompt tout en aidant le modèle à apprendre plus rapidement.

Expérimentations

Pour tester l’efficacité de RPLKG, des expériences ont été faites sur divers ensembles de données dans différentes conditions. La performance du modèle a été évaluée dans des scénarios où seuls quelques exemples étaient disponibles pour l'entraînement, ainsi que dans des cas où il fallait généraliser à de nouvelles classes.

Dans les expériences, RPLKG a montré une forte performance comparée à d'autres méthodes existantes. Même avec des données minimales, elle a produit de meilleurs résultats que les modèles zéro-shot. Le modèle a continué à bien performer à mesure que le nombre d'exemples augmentait, démontrant sa polyvalence.

Dans les cas de transfert de connaissances vers de nouvelles catégories, RPLKG a maintenu un avantage significatif sur les modèles standards, nécessitant moins de mémoire et de calcul tout en fournissant des résultats impressionnants.

Efficacité et utilisation des ressources

Un aspect important de RPLKG est son efficacité en termes de temps et d'utilisation de mémoire. Le modèle nécessite beaucoup moins de mémoire comparé aux méthodes traditionnelles, ce qui signifie qu'il peut être utilisé efficacement même avec des ressources limitées. Les tests ont montré que RPLKG non seulement fait gagner du temps pendant l'entraînement, mais assure aussi une performance constante à travers différents scénarios.

En résumé, RPLKG représente un pas en avant significatif dans l'utilisation de gros modèles pré-entraînés pour l'apprentissage few-shot. En créant et en sélectionnant automatiquement des prompts, en incorporant efficacement des connaissances et en fonctionnant avec des contraintes de mémoire plus strictes, cette méthode se démarque comme un outil pratique et efficace pour relever les défis quotidiens en apprentissage automatique.

Conclusion

RPLKG ouvre de nouvelles portes pour les modèles pré-entraînés dans diverses applications, particulièrement où les données sont rares. En simplifiant le processus de création et de Sélection de prompts, elle conduit à des résultats plus rapides et meilleurs. Cette méthode n'est pas seulement un moyen d'améliorer la performance du modèle, mais elle fournit aussi une compréhension plus claire de comment les modèles fonctionnent, rendant plus facile pour les autres de l'implémenter et de construire dessus.

Avec la demande croissante de solutions d'apprentissage automatique efficaces et efficaces, RPLKG établit une solide fondation pour les avancées futures. En s'appuyant sur les connaissances humaines à travers des Graphes de connaissances et en optimisant l'utilisation des ressources, cette méthode est bien placée pour soutenir le déploiement plus large des technologies d'apprentissage automatique dans plusieurs domaines.

Source originale

Titre: RPLKG: Robust Prompt Learning with Knowledge Graph

Résumé: Large-scale pre-trained models have been known that they are transferable, and they generalize well on the unseen dataset. Recently, multimodal pre-trained models such as CLIP show significant performance improvement in diverse experiments. However, when the labeled dataset is limited, the generalization of a new dataset or domain is still challenging. To improve the generalization performance on few-shot learning, there have been diverse efforts, such as prompt learning and adapter. However, the current few-shot adaptation methods are not interpretable, and they require a high computation cost for adaptation. In this study, we propose a new method, robust prompt learning with knowledge graph (RPLKG). Based on the knowledge graph, we automatically design diverse interpretable and meaningful prompt sets. Our model obtains cached embeddings of prompt sets after one forwarding from a large pre-trained model. After that, model optimizes the prompt selection processes with GumbelSoftmax. In this way, our model is trained using relatively little memory and learning time. Also, RPLKG selects the optimal interpretable prompt automatically, depending on the dataset. In summary, RPLKG is i) interpretable, ii) requires small computation resources, and iii) easy to incorporate prior human knowledge. To validate the RPLKG, we provide comprehensive experimental results on few-shot learning, domain generalization and new class generalization setting. RPLKG shows a significant performance improvement compared to zero-shot learning and competitive performance against several prompt learning methods using much lower resources.

Auteurs: Yewon Kim, YongTaek Lim, Dokyung Yoon, KyungWoo Song

Dernière mise à jour: 2023-04-21 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2304.10805

Source PDF: https://arxiv.org/pdf/2304.10805

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires