Exploiter les LLM pour améliorer le classement des recommandations
Cet article examine comment les grands modèles de langage peuvent améliorer les classements de recommandations.
― 11 min lire
Table des matières
- Le Problème de Recommandation
- Approche de Recherche
- Résultats Clés
- Pourquoi les Modèles Traditionnels Éprouvent des Difficultés
- Intérêt Croissant pour les Modèles de Langage
- La Force des LLM
- Le Processus de Classement
- Ensembles de Données Utilisés
- Évaluation
- Comprendre le Comportement des Utilisateurs
- Résultats sur la Reconnaissance de Séquence
- Améliorer les Performances des LLM
- Classement des Candidats
- Biais dans les LLM
- Facteurs Affectant les Performances des LLM
- Conclusion
- Exemples de Prompts
- Source originale
- Liens de référence
Récemment, on a vu des modèles de langage comme GPT-4 montrer qu'ils peuvent gérer plein de tâches, y compris faire des recommandations. Cet Article se penche sur comment ces modèles peuvent aider à classer des éléments dans des Systèmes de recommandation.
Le Problème de Recommandation
Pour comprendre comment les LLM peuvent aider, on doit d'abord réfléchir au problème de recommandation en termes de classement. Ici, on regarde les interactions passées des utilisateurs avec les éléments, les considérant comme des conditions, et les éléments qui pourraient être suggérés comme candidats. Pour aider les LLM à faire des Classements, on crée des modèles d'instructions qui incluent l'historique d'interaction des utilisateurs, les éléments possibles à recommander, et des instructions pour classer ces éléments.
Approche de Recherche
On a réalisé des expériences avec deux ensembles de données bien connus dans le domaine de la recommandation. On s'est concentré sur la capacité des LLM à classer des éléments sans avoir besoin d'un entraînement supplémentaire sur des données spécifiques de recommandation. On a découvert plusieurs points importants concernant les performances des LLM dans ce domaine.
Résultats Clés
- Les LLM montrent de bonnes capacités à classer correctement des éléments, parfois même mieux que les méthodes de recommandation traditionnelles.
- Cependant, ils peuvent avoir du mal à comprendre la séquence des interactions passées. Par exemple, ils pourraient classer des éléments différemment selon la façon dont ces interactions passées sont présentées.
- Il existe des biais dans les LLM, comme la préférence pour les éléments montrés plus tôt dans une liste ou ceux qui sont plus populaires. On a exploré comment certaines techniques de prompts pourraient aider à améliorer leurs performances.
Pourquoi les Modèles Traditionnels Éprouvent des Difficultés
Les systèmes de recommandation traditionnels dépendent généralement de données de comportement utilisateur spécifiques à une certaine tâche. Cela peut limiter leur compréhension de ce que l'utilisateur veut vraiment. Ils s'appuient souvent uniquement sur des actions passées, ce qui ne reflète pas pleinement les intentions de l'utilisateur. De plus, beaucoup de modèles traditionnels ont un champ d'application étroit, manquant de connaissances générales qui pourraient améliorer les recommandations.
Intérêt Croissant pour les Modèles de Langage
À la lumière de ces limitations, de plus en plus de chercheurs se tournent vers des modèles de langage pré-entraînés. Ces modèles visent à mieux capter les préférences des utilisateurs exprimées en langage naturel tout en s'appuyant sur des connaissances plus larges provenant du texte. Bien qu'ils montrent du potentiel, il est souvent nécessaire de peaufiner ces modèles sur des tâches spécifiques, ce qui peut limiter leur flexibilité.
La Force des LLM
Les LLM se distinguent parce qu'ils peuvent raisonner par le bon sens, utiliser des connaissances, et généraliser sur différentes tâches. Certaines études ont suggéré d'utiliser les LLM pour faire des recommandations, et bien que les premiers résultats soient prometteurs, on voulait approfondir leur potentiel.
Le Processus de Classement
Pour notre étude, on a examiné les LLM agissant comme classeurs dans des systèmes de recommandation. Traditionnellement, ces systèmes fonctionnent en deux grandes étapes : la génération de candidats (trouver des éléments pertinents) et le classement (ordonner ces éléments). Notre recherche s'est principalement concentrée sur la phase de classement puisqu'il peut être lourd de faire fonctionner les LLM avec un grand nombre de candidats.
On a formalisé le processus de recommandation comme une tâche de classement, demandant aux LLM de classer des éléments en fonction des interactions précédentes des utilisateurs. Grâce à des expériences contrôlées, on cherchait à répondre à deux questions principales :
- Les LLM peuvent-ils identifier efficacement les préférences des utilisateurs à partir de leur historique d'interactions ?
- Les LLM peuvent-ils exploiter leurs connaissances pour classer les candidats générés par différentes stratégies ?
Ensembles de Données Utilisés
Pour mener nos expériences, on a choisi deux ensembles de données publics couramment utilisés dans les recommandations :
- MovieLens-1M : Cet ensemble de données enregistre les évaluations des utilisateurs pour des films.
- Amazon Review (catégorie Jeux) : Cet ensemble contient des critiques d'utilisateurs, que l'on a considérées comme des interactions.
On a veillé à exclure les utilisateurs et les éléments avec moins de cinq interactions et à organiser les interactions pour refléter leur ordre historique.
Évaluation
On a utilisé une stratégie de leave-one-out pour les besoins d'évaluation. Pour chaque historique d'interaction d'un utilisateur, le dernier élément était considéré comme vérité de base. On a également utilisé des métriques comme NDCG@N, qui aide à mesurer à quel point le classement correspond aux préférences des utilisateurs.
Comprendre le Comportement des Utilisateurs
Un des principaux objectifs de notre étude était de voir si les LLM pouvaient comprendre les séquences des interactions des utilisateurs. Dans la littérature existante, les interactions des utilisateurs sont souvent modélisées par des méthodes spécialisées. Notre approche était différente car on a directement entré ces interactions dans un LLM sans qu'il soit spécifiquement entraîné pour des recommandations.
On voulait tester si les LLM pouvaient utiliser ces interactions historiques pour faire des recommandations précises. Dans le cadre de cette analyse, on a examiné à quel point les LLM reconnaissent et utilisent l'ordre de ces interactions.
Résultats sur la Reconnaissance de Séquence
Nos résultats ont indiqué que les LLM ont du mal à voir l'importance de l'ordre des interactions des utilisateurs. On a comparé divers modèles pour voir comment ils classaient les éléments lorsque les interactions historiques étaient mélangées. Les modèles traditionnels ont montré des baisses de performance significatives lorsque les interactions historiques étaient désordonnées, tandis que les LLM n'ont pas montré autant de sensibilité à ce changement.
On a également exploré comment le nombre d'interactions incluses dans les prompts affectait l'exactitude du classement. On a constaté que l'utilisation de trop d'interactions ne menait pas nécessairement à de meilleures performances et pouvait même avoir un impact négatif dans certains cas.
Observation 1
Les LLM peuvent utiliser les interactions passées pour un classement personnalisé, mais ils négligent souvent l'ordre de ces interactions.
Améliorer les Performances des LLM
Étant donné les défis de reconnaissance de l'ordre, on a testé des stratégies de prompts alternatives visant à aider les LLM à percevoir les ordres d'interaction plus efficacement. Deux approches réussies étaient :
- Prompting axé sur la récence : Cette méthode met l'accent sur la dernière interaction.
- Apprentissage en contexte : Cette technique consiste à donner des exemples dans le prompt pour guider les LLM.
Les deux méthodes ont conduit à une meilleure performance de classement.
Observation 2
Des prompts spécialement conçus peuvent aider les LLM à reconnaître l'ordre des interactions historiques, ce qui entraîne de meilleurs résultats de classement.
Classement des Candidats
Ensuite, on a étudié à quel point les LLM pouvaient efficacement classer les candidats. On a effectué des tests de référence contre des modèles conventionnels et des méthodes de classement en zéro-shot existantes.
Les LLM ont montré des capacités de classement en zéro-shot prometteuses, surpassant d'autres méthodes de manière significative. Ils étaient particulièrement bons pour faire des recommandations même sans entraînement spécifique sur la tâche.
Observation 3
Les LLM excellent dans le classement des candidats générés par plusieurs méthodes.
Biais dans les LLM
Bien que les LLM aient montré de fortes capacités de classement, on a remarqué qu'ils pouvaient être influencés par des biais. Par exemple, le placement des éléments dans la liste impactait les résultats de classement. Les éléments apparaissaient plus bas dans le classement lorsqu'ils étaient présentés plus tard dans le prompt.
De plus, les LLM avaient tendance à favoriser des éléments plus populaires. C'est similaire aux modèles traditionnels, qui ont également un biais de popularité.
Répondre aux Biais
Pour s'attaquer à la question du biais de position, on a employé une méthode de bootstrapping où les classements des candidats étaient répétés plusieurs fois avec des listes mélangées. Cela a permis aux LLM d'évaluer chaque élément depuis différentes positions, ce qui a entraîné une amélioration des performances de classement.
De plus, on a constaté que lorsque les LLM se concentraient sur l'historique utilisateur, l'impact du biais de popularité diminuait.
Observation 4
Le biais de position et le biais de popularité peuvent influencer les classements des LLM, mais ces biais peuvent être atténués grâce à des stratégies de prompts et de bootstrapping efficaces.
Facteurs Affectant les Performances des LLM
Dans notre analyse finale, on a examiné quels facteurs contribuent aux capacités de classement des LLM. En particulier, on s'est concentré sur le réglage des instructions et la taille du modèle.
Réglage des Instructions : On a comparé des LLM qui avaient été ajustés avec ceux qui ne l'avaient pas été. Les résultats ont indiqué que les modèles réglés par instructions fonctionnaient mieux, soulignant l'importance de cette technique.
Mise à l'Échelle des Modèles : Comme prévu, les modèles plus grands avaient tendance à mieux classer. On a évalué différentes tailles de modèles pour voir comment cela influençait la performance de classement et confirmé que les modèles plus grands obtenaient de meilleurs résultats.
Conclusion
Dans cette étude, on a examiné comment les LLM peuvent agir en tant que modèles de classement pour des systèmes de recommandation. En formalisant le processus comme une tâche de classement et en créant des prompts en langage naturel, on voulait voir à quel point les LLM pouvaient performer dans cet espace.
On a découvert que les LLM ont un potentiel fort pour les tâches de classement mais rencontrent également des défis comme la reconnaissance de l'ordre des interactions et la gestion des biais. Nos découvertes offrent des aperçus sur comment améliorer les capacités des LLM dans ce domaine, comme optimiser l'utilisation des interactions historiques et réduire les biais grâce à de meilleures stratégies de prompts.
Les travaux futurs impliqueront le développement d'approches pour s'attaquer aux défis clés qui subsistent lors de l'implémentation des LLM en tant que classeurs en zéro-shot. De plus, on espère créer des systèmes de recommandation basés sur les LLM qui peuvent être facilement ajustés pour des recommandations personnalisées selon le comportement utilisateur.
Exemples de Prompts
Prompting Séquentiel
Input : J'ai regardé les films suivants dans le passé dans cet ordre :
Maintenant, il y a 20 films candidats que je peux regarder ensuite :
Veuillez classer ces 20 films en mesurant les possibilités que je voudrais regarder le plus, selon mon historique de visionnage.
Output :
- X-Men
- Carlito's Way
- Ronin
- The Edge
...
Prompting Axé sur la Récence
Input : J'ai regardé les films suivants dans le passé dans cet ordre :
Maintenant, il y a 20 films candidats que je peux regarder ensuite :
Veuillez classer ces 20 films en mesurant les possibilités que je voudrais regarder le plus, selon mon historique de visionnage.
Notez que mon dernier film regardé est Gladiator.
Output :
- Once Upon a Time in America
- Angel Heart
- The Truth About Cats & Dogs
...
Apprentissage en Contexte
Input : J'ai regardé les films suivants dans le passé dans cet ordre :
Alors si je vous demande de me recommander un nouveau film selon mon historique de visionnage, vous devriez recommander Shampoo.
Maintenant, il y a 20 films candidats que je peux regarder ensuite :
Veuillez classer ces 20 films en mesurant les possibilités que je voudrais regarder le plus, selon mon historique de visionnage.
Output :
- Manon of the Spring (Manon des sources)
- Citizen Kane
- Grand Hotel
...
Exemples d'Ensembles de Données
Ensemble de Données MovieLens-1M
Input : J'ai regardé les films suivants dans le passé dans cet ordre :
Maintenant, il y a 20 films candidats que je peux regarder ensuite :
Veuillez classer ces 20 films en mesurant les possibilités que je voudrais regarder le plus, selon mon historique de visionnage.
Output :
1
5
6
10
...
Ensemble de Données Amazon Review (Jeux)
Input : J'ai acheté les produits suivants dans le passé dans cet ordre :
Maintenant, il y a 20 produits candidats que je peux envisager d'acheter ensuite :
Veuillez classer ces 20 produits en mesurant les possibilités que je voudrais acheter le plus, selon mes historiques d'achat donnés.
Output :
1
5
6
10
...
Titre: Large Language Models are Zero-Shot Rankers for Recommender Systems
Résumé: Recently, large language models (LLMs) (e.g., GPT-4) have demonstrated impressive general-purpose task-solving abilities, including the potential to approach recommendation tasks. Along this line of research, this work aims to investigate the capacity of LLMs that act as the ranking model for recommender systems. We first formalize the recommendation problem as a conditional ranking task, considering sequential interaction histories as conditions and the items retrieved by other candidate generation models as candidates. To solve the ranking task by LLMs, we carefully design the prompting template and conduct extensive experiments on two widely-used datasets. We show that LLMs have promising zero-shot ranking abilities but (1) struggle to perceive the order of historical interactions, and (2) can be biased by popularity or item positions in the prompts. We demonstrate that these issues can be alleviated using specially designed prompting and bootstrapping strategies. Equipped with these insights, zero-shot LLMs can even challenge conventional recommendation models when ranking candidates are retrieved by multiple candidate generators. The code and processed datasets are available at https://github.com/RUCAIBox/LLMRank.
Auteurs: Yupeng Hou, Junjie Zhang, Zihan Lin, Hongyu Lu, Ruobing Xie, Julian McAuley, Wayne Xin Zhao
Dernière mise à jour: 2024-01-23 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2305.08845
Source PDF: https://arxiv.org/pdf/2305.08845
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.