Améliorer les recommandations de cours avec une récupération en deux étapes
BrightFit améliore les suggestions de cours grâce à une nouvelle approche de récupération en deux étapes.
― 8 min lire
Table des matières
- Le besoin d'apprendre de nouvelles compétences
- Approche des recommandations de cours
- Données et méthodologie
- Sources de données
- Création de requêtes
- Ensembles de données d'évaluation
- Nouvelle méthode de récupération en deux étapes
- Première étape : Récupération initiale
- Deuxième étape : Re-ranking
- Utilisation de la résumation
- Expérimentation avec la Quantification
- Évaluation de l'expérience utilisateur
- Test A/B
- Feedback des utilisateurs
- Conclusion
- Source originale
- Liens de référence
Dans le marché de l'emploi en constante évolution d'aujourd'hui, acquérir de nouvelles compétences est essentiel tant pour les employés que pour les employeurs. Les employeurs souhaitent que leur personnel reste compétitif, et les employés doivent s'adapter aux nouvelles exigences pour progresser dans leur carrière. Beaucoup de gens ont du mal à trouver des opportunités de formation qui correspondent à leurs besoins en compétences. BrightFit est un système en ligne conçu pour aider les utilisateurs à trouver des cours en ligne pertinents en fonction de leurs compétences actuelles et de leurs aspirations professionnelles futures.
Cet article discute d'une étude qui a amélioré les recommandations fournies par BrightFit, les rendant plus efficaces et efficientes grâce à un pipeline de récupération en deux étapes. Cette nouvelle approche promet d'aider les utilisateurs à trouver les bons cours plus rapidement et plus précisément.
Le besoin d'apprendre de nouvelles compétences
Selon des rapports récents, une partie significative des compétences en demande va évoluer dans les années à venir. En conséquence, tant les employeurs que les travailleurs expriment un fort intérêt pour l'apprentissage et l'amélioration des compétences. Cependant, beaucoup ont du mal à identifier des cours adaptés pour satisfaire leurs besoins.
BrightFit aide les utilisateurs en analysant leurs compétences actuelles et en suggérant des cours en ligne pour combler les lacunes pour les emplois qu'ils souhaitent. Ce système recommande des cours provenant de diverses plateformes en ligne bien connues, facilitant ainsi la recherche de formations pertinentes pour les utilisateurs.
Approche des recommandations de cours
Le système de recommandation existant dans BrightFit, appelé BM25, est une méthode traditionnelle basée sur l'appariement de mots-clés. Cependant, cette approche présente des limitations, surtout lorsque les utilisateurs ont des occupations différentes et des ensembles de compétences variés. Pour surmonter ces problèmes, une nouvelle méthode de récupération en deux étapes a été proposée.
Dans cette nouvelle méthode, la première étape utilise des modèles avancés conçus pour mieux comprendre le contexte des compétences et des emplois des utilisateurs. Le système crée une requête basée sur la compétence que l'utilisateur souhaite apprendre et l'emploi qu'il vise. Par exemple, si un utilisateur veut apprendre "Python pour Analyste de Données", le système générera une requête appropriée.
La deuxième étape utilise un modèle de re-ranking pour améliorer la qualité des suggestions basées sur les résultats initiaux. La nouvelle méthode est conçue pour bien fonctionner même sans données historiques sur les utilisateurs, ce qui est courant dans des scénarios d'utilisation à court terme comme BrightFit.
Données et méthodologie
Sources de données
BrightFit collecte des données sur les cours à partir de quatre grandes plateformes d'apprentissage en ligne, notamment Udemy et edX. Chaque plateforme propose divers cours couvrant un large éventail de sujets. Les cours sont accompagnés de titres et de descriptions, qui sont essentiels pour faire correspondre les objectifs d'apprentissage des utilisateurs.
Avant l'analyse, les descriptions de cours doivent être traitées pour garantir leur cohérence et leur facilité d'utilisation. Cela inclut la conversion en texte brut et la normalisation de leur format.
Création de requêtes
Les utilisateurs interagissent avec BrightFit en exprimant les compétences qu'ils souhaitent acquérir et en sélectionnant leurs rôles professionnels actuels. Le système crée des requêtes basées sur ces entrées pour rechercher des cours pertinents. Chaque requête suit un format spécifique combinant la compétence et le titre de l'emploi, permettant au système de récupération de trouver des cours adaptés plus efficacement.
Ensembles de données d'évaluation
Pour évaluer l'efficacité des nouvelles méthodes de recommandation, deux ensembles de données ont été créés :
- BrightFit IT Dataset : Cet ensemble de données se concentre uniquement sur les compétences liées à l'IT, qui ont généralement plus de cours disponibles que d'autres domaines.
- BrightFit General Skills Dataset : Cela inclut une gamme plus large d'occupations et de compétences.
Chaque ensemble de données contient des requêtes liées à des compétences et des professions spécifiques, et les cours ont été évalués pour leur pertinence sur une échelle de trois points. Cela garantit que les recommandations faites par le nouveau système sont pertinentes et utiles pour les utilisateurs.
Nouvelle méthode de récupération en deux étapes
Première étape : Récupération initiale
Le premier pas dans la nouvelle approche consiste à utiliser un modèle appelé GTR. Ce modèle aide à récupérer une liste de cours potentiels basée sur la requête de l'utilisateur. Le modèle GTR fonctionne mieux que le système BM25 existant, garantissant qu'un plus grand nombre de cours pertinents soient inclus dans les résultats initiaux.
Deuxième étape : Re-ranking
Après que la première étape ait identifié des cours potentiels, la deuxième étape utilise un autre modèle appelé RankT5 pour affiner ces résultats. Ce modèle est particulièrement performant pour comprendre le contexte des cours par rapport aux compétences recherchées.
Pour améliorer les performances, le modèle RankT5 est affiné sur un ensemble de données précédent appelé MSMARCO, ce qui lui permet de fournir des classements de cours plus précis.
Utilisation de la résumation
Les descriptions de cours peuvent souvent être longues et remplies d'informations inutiles. Pour résoudre ce problème, des techniques de résumé sont appliquées pour raccourcir et clarifier les descriptions. Deux modèles de résumé ont été expérimentés :
- LongT5 : Un modèle ajusté pour créer des Résumés concis.
- Vicuna : Un modèle avancé qui génère des résumés sans formation spécifique mais répond à des invites.
Les tests sur les deux modèles ont montré que la résumation des descriptions de cours améliorait considérablement la précision des classements, car elle éliminait les détails non pertinents et aidait le modèle de classement à se concentrer sur les informations essentielles.
Quantification
Expérimentation avec laPour améliorer encore la vitesse et l'efficacité, différentes méthodes de quantification ont été explorées. La quantification minimise l'utilisation de la mémoire du modèle, le rendant plus rapide tout en visant à maintenir la qualité des recommandations intacte. Trois méthodes de quantification ont été testées :
- Quantification dynamique
- Quantification statique
- SmoothQuant
Ces expériences ont démontré que la quantification pouvait considérablement augmenter la vitesse du processus de classement, permettant à BrightFit de fournir des recommandations plus rapidement sans sacrifier la qualité.
Évaluation de l'expérience utilisateur
Test A/B
Pour comprendre comment les utilisateurs interagissent avec le nouveau système de recommandations, un test A/B a été réalisé. Dans ce test, certains utilisateurs ont reçu des recommandations basées sur l'ancien système BM25 tandis que d'autres ont été exposés aux nouvelles suggestions basées sur RankT5.
Les résultats ont indiqué que les utilisateurs montraient un taux d'interaction plus élevé avec le système traditionnel que prévu, malgré des évaluations hors ligne suggérant que la nouvelle méthode était supérieure en termes de précision.
Feedback des utilisateurs
Un questionnaire a également été utilisé pour recueillir des retours directs des utilisateurs concernant leurs préférences. Les participants ont été présentés avec des listes de cours recommandés provenant des deux systèmes et ont été interrogés sur ceux qu'ils préféraient et pourquoi.
Les résultats ont révélé que, dans la plupart des cas, les utilisateurs préféraient les nouvelles recommandations RankT5, mettant en avant des aspects tels que les évaluations des cours et la diversité du contenu des cours comme des facteurs importants influençant leurs choix.
Conclusion
L'étude a démontré qu'une approche de récupération en deux étapes pouvait améliorer significativement les recommandations de cours dans un environnement d'apprentissage en ligne comme BrightFit. L'utilisation de GTR pour la récupération initiale, combinée à RankT5 pour le re-ranking, a permis d'obtenir des suggestions plus efficaces pour les utilisateurs cherchant à améliorer leurs compétences.
De plus, l'implémentation de la résumation a amélioré la pertinence des descriptions de cours, facilitant ainsi l'évaluation par le modèle de classement des cours qui correspondraient le mieux aux requêtes des utilisateurs.
Les techniques de quantification ont en outre optimisé la rapidité des recommandations, garantissant que les utilisateurs reçoivent des suggestions en temps opportun sans compromettre les performances.
Dans l'ensemble, bien que les résultats du test A/B aient été surprenants en termes d'interaction des utilisateurs, les conclusions des évaluations hors ligne et les retours des utilisateurs soutiennent l'efficacité des nouvelles méthodes. Les améliorations futures pourraient inclure une prise en compte plus attentive des préférences des utilisateurs et la création d'un ensemble de données d'entraînement robuste pour des performances encore meilleures.
BrightFit est désormais mieux équipé pour aider les individus à trouver les bons cours pour améliorer leurs compétences et atteindre leurs aspirations professionnelles, rendant l'apprentissage plus accessible et efficace.
Titre: Efficient course recommendations with T5-based ranking and summarization
Résumé: In this paper, we implement and evaluate a two-stage retrieval pipeline for a course recommender system that ranks courses for skill-occupation pairs. The in-production recommender system BrightFit provides course recommendations from multiple sources. Some of the course descriptions are long and noisy, while retrieval and ranking in an online system have to be highly efficient. We developed a two-step retrieval pipeline with RankT5 finetuned on MSMARCO as re-ranker. We compare two summarizers for course descriptions: a LongT5 model that we finetuned for the task, and a generative LLM (Vicuna) with in-context learning. We experiment with quantization to reduce the size of the ranking model and increase inference speed. We evaluate our rankers on two newly labelled datasets, with an A/B test, and with a user questionnaire. On the two labelled datasets, our proposed two-stage ranking with automatic summarization achieves a substantial improvement over the in-production (BM25) ranker: nDCG@10 scores improve from 0.482 to 0.684 and from 0.447 to 0.844 on the two datasets. We also achieve a 40% speed-up by using a quantized version of RankT5. The improved quality of the ranking was confirmed by the questionnaire completed by 29 respondents, but not by the A/B test. In the A/B test, a higher clickthrough rate was observed for the BM25-ranking than for the proposed two-stage retrieval. We conclude that T5-based re-ranking and summarization for online course recommendation can obtain much better effectiveness than single-step lexical retrieval, and that quantization has a large effect on RankT5. In the online evaluation, however, other factors than relevance play a role (such as speed and interpretability of the retrieval results), as well as individual preferences.
Auteurs: Thijmen Bijl, Niels van Weeren, Suzan Verberne
Dernière mise à jour: 2024-06-27 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2406.19018
Source PDF: https://arxiv.org/pdf/2406.19018
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://pygments.org/
- https://pypi.python.org/pypi/Pygments
- https://yamadharma.github.io/
- https://kmitd.github.io/ilaria/
- https://conceptbase.sourceforge.net/mjf/
- https://go.randstadrisesmart.com/BrightFit
- https://github.com/tbijl/course_ranking_data
- https://www.udemy.com/developers/affiliate/
- https://business-support.udemy.com/hc/en-us/articles/11965611508375-Udemy-Business-API-Best-Practices
- https://huggingface.co/sentence-transformers/gtr-t5-base
- https://huggingface.co/t5-base
- https://huggingface.co/google/long-t5-tglobal-base
- https://huggingface.co/lmsys/vicuna-7b-v1.3
- https://github.com/intel/neural-compressor
- https://marketingplatform.google.com/about/analytics/
- https://name.example.com
- https://ctan.org/pkg/booktabs
- https://goo.gl/VLCRBB
- https://github.com/borisveytsman/acmart
- https://www.ctan.org/tex-archive/macros/latex/contrib/els-cas-templates
- https://github.com/yamadharma/ceurart
- https://www.overleaf.com/project/5e76702c4acae70001d3bc87
- https://www.overleaf.com/latex/templates/template-for-submissions-to-ceur-workshop-proceedings-ceur-ws-dot-org/pkfscdkgkhcq