Migliorare le raccomandazioni dei corsi con il recupero a due fasi
BrightFit migliora i suggerimenti sui corsi attraverso un nuovo approccio di recupero in due fasi.
― 7 leggere min
Indice
Nel mercato del lavoro in rapida evoluzione di oggi, apprendere nuove competenze è essenziale sia per i dipendenti che per i datori di lavoro. I datori di lavoro vogliono che il proprio personale rimanga competitivo e i dipendenti devono adattarsi a nuove esigenze per crescere nelle proprie carriere. Molte persone faticano a trovare opportunità di formazione che corrispondano alle loro necessità di competenze. BrightFit è un sistema online progettato per aiutare gli utenti a trovare corsi online pertinenti basati sulle loro competenze attuali e sulle aspirazioni lavorative future.
Questo articolo discute uno studio che ha migliorato le raccomandazioni fornite da BrightFit, rendendole più efficaci ed efficienti utilizzando un pipeline di recupero a due fasi. Questo nuovo approccio promette di aiutare gli utenti a trovare i corsi giusti in modo più rapido e preciso.
La Necessità di Apprendere Nuove Competenze
Secondo rapporti recenti, una parte significativa delle competenze richieste cambierà nei prossimi anni. Di conseguenza, sia i datori di lavoro che i lavoratori esprimono un forte interesse per l'apprendimento e il miglioramento delle competenze. Tuttavia, molti trovano difficile identificare corsi adatti per soddisfare le loro esigenze.
BrightFit aiuta gli utenti analizzando le loro competenze attuali e suggerendo corsi online per colmare eventuali lacune per i lavori che desiderano. Questo sistema raccomanda corsi provenienti da varie piattaforme online ben note, rendendo più semplice per gli utenti trovare formazione pertinente.
Approccio alle Raccomandazioni dei Corsi
Il sistema di raccomandazione esistente in BrightFit, chiamato BM25, è un metodo tradizionale basato sul matching delle parole chiave. Tuttavia, questo approccio ha delle limitazioni, specialmente quando gli utenti hanno diverse occupazioni e set di competenze variabili. Per superare questi problemi, è stato proposto un nuovo metodo di recupero a due fasi.
In questo nuovo metodo, la prima fase utilizza modelli avanzati progettati per comprendere meglio il contesto delle competenze e dei lavori degli utenti. Il sistema crea una query basata sulla competenza che l'utente desidera apprendere e sul lavoro a cui aspira. Ad esempio, se un utente vuole imparare "Python per Data Analyst," il sistema genererà una query appropriata.
La seconda fase impiega un modello di riordino per migliorare la qualità delle suggerimenti basati sui risultati iniziali. Il nuovo metodo è progettato per funzionare bene anche senza dati storici sugli utenti, che è comune in scenari di utilizzo a breve termine come BrightFit.
Dati e Metodologia
Fonti di Dati
BrightFit raccoglie dati sui corsi da quattro principali piattaforme di apprendimento online, tra cui Udemy ed edX. Ogni piattaforma offre vari corsi che coprono una vasta gamma di argomenti. I corsi sono forniti con titoli e descrizioni, che sono essenziali per allineare gli obiettivi di apprendimento degli utenti.
Prima dell'analisi, le descrizioni dei corsi necessitano di un'elaborazione per garantire che siano coerenti e facili da gestire. Questo include la conversione in testo semplice e la standardizzazione del loro formato.
Creazione di Query
Gli utenti interagiscono con BrightFit esprimendo le competenze che desiderano apprendere e selezionando i propri ruoli lavorativi attuali. Il sistema crea query basate su questi input per cercare corsi pertinenti. Ogni query segue un formato specifico che combina la competenza e il titolo del lavoro, consentendo al sistema di recupero di trovare corsi adatti in modo più efficace.
Dataset di Valutazione
Per valutare l'efficacia dei nuovi metodi di raccomandazione, sono stati creati due dataset:
- Dataset IT di BrightFit: Questo dataset si concentra esclusivamente sulle competenze legate all'IT, che generalmente hanno più corsi disponibili rispetto ad altre aree.
- Dataset di Competenze Generali di BrightFit: Questo include una gamma più ampia di occupazioni e competenze.
Ogni dataset contiene query collegate a competenze e occupazioni specifiche, e i corsi sono stati valutati in base alla loro pertinenza su una scala a tre punti. Questo garantisce che le raccomandazioni fornite dal nuovo sistema siano rilevanti e utili per gli utenti.
Nuovo Metodo di Recupero a Due Fasi
Prima Fase: Recupero Iniziale
Il primo passo nel nuovo approccio prevede l'uso di un modello chiamato GTR. Questo modello aiuta a recuperare un elenco di corsi potenziali basati sulla query dell'utente. Il modello GTR offre prestazioni migliori rispetto al sistema BM25 esistente, garantendo che un numero maggiore di corsi pertinenti sia incluso nei risultati iniziali.
Seconda Fase: Riordino
Dopo che la prima fase identifica corsi potenziali, la seconda fase utilizza un modello diverso chiamato RankT5 per perfezionare questi risultati. Questo modello è particolarmente abile nella comprensione del contesto dei corsi in relazione alle competenze ricercate.
Per migliorare le prestazioni, il modello RankT5 viene affinato su un dataset precedente chiamato MSMARCO, consentendogli di fornire classifiche di corsi più accurate.
Uso della Sintesi
Le descrizioni dei corsi possono spesso essere lunghe e contenere informazioni non necessarie. Per affrontare questo problema, vengono applicate tecniche di sintesi per accorciare e chiarire le descrizioni. Sono stati sperimentati due modelli di sintesi:
- LongT5: Un modello affinato per creare sintesi concise.
- Vicuna: Un modello avanzato che genera sintesi senza un addestramento specifico ma risponde a richieste.
Testando entrambi i modelli, è emerso che la sintesi delle descrizioni dei corsi ha migliorato significativamente l'accuratezza del ranking, poiché ha eliminato dettagli irrilevanti e ha aiutato il modello di ranking a concentrarsi sulle informazioni essenziali.
Quantizzazione
Sperimentazione con laPer migliorare ulteriormente la velocità e l'efficienza, sono stati esplorati diversi metodi di quantizzazione. La quantizzazione minimizza l'uso della memoria del modello, rendendolo più veloce pur cercando di mantenere intatta la qualità delle raccomandazioni. Sono stati testati tre metodi di quantizzazione:
- Quantizzazione Dinamica
- Quantizzazione Statica
- SmoothQuant
Questi esperimenti hanno dimostrato che la quantizzazione può aumentare significativamente la velocità del processo di ranking, consentendo a BrightFit di fornire raccomandazioni più rapidamente senza sacrificare la qualità.
Valutazione dell'Esperienza Utente
Test A/B
Per comprendere come gli utenti interagiscono con il nuovo sistema di raccomandazione, è stato condotto un test A/B. In questo test, alcuni utenti hanno ricevuto le raccomandazioni tradizionali basate su BM25, mentre altri sono stati mostrati i nuovi suggerimenti basati su RankT5.
I risultati hanno indicato che gli utenti hanno mostrato un tasso di interazione più elevato con il sistema tradizionale rispetto alle aspettative, nonostante le valutazioni offline suggerissero che il nuovo metodo fosse superiore in termini di accuratezza.
Feedback degli Utenti
È stato utilizzato anche un questionario per raccogliere feedback diretto dagli utenti riguardo alle loro preferenze. Ai partecipanti sono state presentate liste di corsi raccomandati da entrambi i sistemi e sono stati chiesti quali preferissero e perché.
I risultati hanno rivelato che nella maggior parte dei casi, gli utenti preferivano le nuove raccomandazioni di RankT5, evidenziando aspetti come le valutazioni dei corsi e la diversità del contenuto dei corsi come fattori importanti che influenzano le loro scelte.
Conclusione
Lo studio ha dimostrato che un approccio di recupero a due fasi potrebbe migliorare significativamente le raccomandazioni dei corsi in un ambiente di apprendimento online come BrightFit. L'uso di GTR per il recupero iniziale, combinato con RankT5 per il riordino, ha portato a suggerimenti più efficaci per gli utenti che cercavano di migliorare le proprie competenze.
Inoltre, l'implementazione della sintesi ha migliorato la pertinenza delle descrizioni dei corsi, rendendo più facile per il modello di ranking valutare quali corsi corrispondessero meglio alle query degli utenti.
Le tecniche di quantizzazione hanno ulteriormente ottimizzato la velocità delle raccomandazioni, garantendo che gli utenti ricevessero suggerimenti tempestivi senza compromettere le prestazioni.
Nel complesso, anche se i risultati del test A/B sono stati sorprendenti in termini di interazione degli utenti, i risultati delle valutazioni offline e il feedback degli utenti supportano l'efficacia dei nuovi metodi. I futuri miglioramenti potrebbero includere considerare più attentamente le preferenze degli utenti e creare un dataset di addestramento robusto per prestazioni ancora migliori.
BrightFit è ora meglio attrezzato per aiutare le persone a trovare i corsi giusti per migliorare le proprie competenze e raggiungere le proprie aspirazioni professionali, rendendo l'apprendimento più accessibile ed efficace.
Titolo: Efficient course recommendations with T5-based ranking and summarization
Estratto: In this paper, we implement and evaluate a two-stage retrieval pipeline for a course recommender system that ranks courses for skill-occupation pairs. The in-production recommender system BrightFit provides course recommendations from multiple sources. Some of the course descriptions are long and noisy, while retrieval and ranking in an online system have to be highly efficient. We developed a two-step retrieval pipeline with RankT5 finetuned on MSMARCO as re-ranker. We compare two summarizers for course descriptions: a LongT5 model that we finetuned for the task, and a generative LLM (Vicuna) with in-context learning. We experiment with quantization to reduce the size of the ranking model and increase inference speed. We evaluate our rankers on two newly labelled datasets, with an A/B test, and with a user questionnaire. On the two labelled datasets, our proposed two-stage ranking with automatic summarization achieves a substantial improvement over the in-production (BM25) ranker: nDCG@10 scores improve from 0.482 to 0.684 and from 0.447 to 0.844 on the two datasets. We also achieve a 40% speed-up by using a quantized version of RankT5. The improved quality of the ranking was confirmed by the questionnaire completed by 29 respondents, but not by the A/B test. In the A/B test, a higher clickthrough rate was observed for the BM25-ranking than for the proposed two-stage retrieval. We conclude that T5-based re-ranking and summarization for online course recommendation can obtain much better effectiveness than single-step lexical retrieval, and that quantization has a large effect on RankT5. In the online evaluation, however, other factors than relevance play a role (such as speed and interpretability of the retrieval results), as well as individual preferences.
Autori: Thijmen Bijl, Niels van Weeren, Suzan Verberne
Ultimo aggiornamento: 2024-06-27 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2406.19018
Fonte PDF: https://arxiv.org/pdf/2406.19018
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.
Link di riferimento
- https://pygments.org/
- https://pypi.python.org/pypi/Pygments
- https://yamadharma.github.io/
- https://kmitd.github.io/ilaria/
- https://conceptbase.sourceforge.net/mjf/
- https://go.randstadrisesmart.com/BrightFit
- https://github.com/tbijl/course_ranking_data
- https://www.udemy.com/developers/affiliate/
- https://business-support.udemy.com/hc/en-us/articles/11965611508375-Udemy-Business-API-Best-Practices
- https://huggingface.co/sentence-transformers/gtr-t5-base
- https://huggingface.co/t5-base
- https://huggingface.co/google/long-t5-tglobal-base
- https://huggingface.co/lmsys/vicuna-7b-v1.3
- https://github.com/intel/neural-compressor
- https://marketingplatform.google.com/about/analytics/
- https://name.example.com
- https://ctan.org/pkg/booktabs
- https://goo.gl/VLCRBB
- https://github.com/borisveytsman/acmart
- https://www.ctan.org/tex-archive/macros/latex/contrib/els-cas-templates
- https://github.com/yamadharma/ceurart
- https://www.overleaf.com/project/5e76702c4acae70001d3bc87
- https://www.overleaf.com/latex/templates/template-for-submissions-to-ceur-workshop-proceedings-ceur-ws-dot-org/pkfscdkgkhcq