Mejorando las recomendaciones de cursos con recuperación en dos etapas
BrightFit mejora las sugerencias de cursos a través de un nuevo enfoque de recuperación en dos etapas.
― 8 minilectura
Tabla de contenidos
- La necesidad de aprender nuevas habilidades
- Enfoque para las recomendaciones de cursos
- Datos y metodología
- Fuentes de datos
- Creación de consultas
- Conjuntos de datos de evaluación
- Nuevo método de recuperación en dos etapas
- Primera etapa: Recuperación inicial
- Segunda etapa: Reordenamiento
- Uso de la resumisión
- Experimentación con Cuantización
- Evaluación de la experiencia del usuario
- Pruebas A/B
- Comentarios de los usuarios
- Conclusión
- Fuente original
- Enlaces de referencia
En el actual mercado laboral en constante cambio, aprender nuevas habilidades es esencial tanto para empleados como para empleadores. Los empleadores quieren que su personal se mantenga competitivo, y los empleados necesitan adaptarse a nuevas demandas para crecer en sus carreras. Muchas personas luchan por encontrar oportunidades de capacitación que coincidan con sus necesidades de habilidades. BrightFit es un sistema en línea diseñado para ayudar a los usuarios a encontrar cursos en línea relevantes según sus habilidades actuales y aspiraciones laborales futuras.
Este artículo discute un estudio que mejoró las recomendaciones proporcionadas por BrightFit, haciéndolas más efectivas y eficientes utilizando un pipeline de recuperación en dos etapas. Este nuevo enfoque promete ayudar a los usuarios a encontrar los cursos adecuados más rápido y con mayor precisión.
La necesidad de aprender nuevas habilidades
Según informes recientes, una parte significativa de las habilidades en demanda cambiará en los próximos años. Como resultado, tanto empleadores como trabajadores expresan un fuerte interés en aprender y mejorar habilidades. Sin embargo, muchos encuentran difícil identificar cursos adecuados que satisfagan sus necesidades.
BrightFit ayuda a los usuarios analizando sus habilidades actuales y sugiriendo cursos en línea para cubrir cualquier brecha para los trabajos que desean. Este sistema recomienda cursos de varias plataformas de aprendizaje en línea bien conocidas, facilitando a los usuarios la búsqueda de capacitación relevante.
Enfoque para las recomendaciones de cursos
El sistema de recomendación existente en BrightFit, llamado BM25, es un método tradicional basado en la coincidencia de palabras clave. Sin embargo, este enfoque tiene limitaciones, especialmente cuando los usuarios tienen diferentes ocupaciones y conjuntos de habilidades variadas. Para superar estos problemas, se propuso un nuevo método de recuperación en dos etapas.
En este nuevo método, la primera etapa utiliza modelos avanzados diseñados para comprender mejor el contexto de las habilidades y trabajos de los usuarios. El sistema crea una consulta basada en la habilidad que el usuario desea aprender y el trabajo al que aspira. Por ejemplo, si un usuario quiere aprender "Python para Analista de Datos", el sistema generará una consulta apropiada.
La segunda etapa emplea un modelo de reordenamiento para mejorar la calidad de las sugerencias basadas en los resultados iniciales. El nuevo método está diseñado para funcionar bien incluso sin datos históricos de usuarios, que son comunes en escenarios de uso a corto plazo como BrightFit.
Datos y metodología
Fuentes de datos
BrightFit recopila datos de cursos de cuatro plataformas de aprendizaje en línea importantes, incluyendo Udemy y edX. Cada plataforma ofrece varios cursos que cubren una amplia gama de temas. Los cursos vienen con títulos y descripciones, que son esenciales para alinear los objetivos de aprendizaje de los usuarios.
Antes del análisis, las descripciones de los cursos necesitan procesamiento para asegurarse de que sean consistentes y fáciles de manejar. Esto incluye convertirlas en texto plano y estandarizar su formato.
Creación de consultas
Los usuarios interactúan con BrightFit expresando las habilidades que desean aprender y seleccionando sus roles laborales actuales. El sistema crea consultas basadas en estas entradas para buscar cursos relevantes. Cada consulta sigue un formato específico que combina la habilidad y el título del trabajo, lo que permite al sistema de recuperación encontrar cursos adecuados de manera más efectiva.
Conjuntos de datos de evaluación
Para evaluar la efectividad de los nuevos métodos de recomendación, se crearon dos conjuntos de datos:
- BrightFit IT Dataset: Este conjunto de datos se centra únicamente en habilidades relacionadas con la informática, que generalmente tienen más cursos disponibles que otras áreas.
- BrightFit General Skills Dataset: Este incluye una gama más amplia de ocupaciones y habilidades.
Cada conjunto de datos contiene consultas vinculadas a habilidades y ocupaciones específicas, y los cursos se evaluaron por relevancia en una escala de tres puntos. Esto asegura que las recomendaciones hechas por el nuevo sistema sean relevantes y útiles para los usuarios.
Nuevo método de recuperación en dos etapas
Primera etapa: Recuperación inicial
El primer paso en el nuevo enfoque implica el uso de un modelo llamado GTR. Este modelo ayuda a recuperar una lista de cursos potenciales basada en la consulta del usuario. El modelo GTR funciona mejor que el sistema BM25 existente, asegurando que un mayor número de cursos relevantes se incluya en los resultados iniciales.
Segunda etapa: Reordenamiento
Después de que la primera etapa identifica cursos potenciales, la segunda etapa utiliza un modelo diferente llamado RankT5 para refinar estos resultados. Este modelo es particularmente bueno para comprender el contexto de los cursos en relación con las habilidades que se buscan.
Para aumentar el rendimiento, el modelo RankT5 se ajusta finamente en un conjunto de datos anterior llamado MSMARCO, lo que le permite ofrecer clasificaciones de cursos más precisas.
Uso de la resumisión
Las descripciones de los cursos a menudo pueden ser extensas y estar llenas de información innecesaria. Para abordar este problema, se aplican técnicas de resumisión para acortar y clarificar las descripciones. Se experimentó con dos modelos de resumisión:
- LongT5: Un modelo afinado para crear resúmenes concisos.
- Vicuna: Un modelo avanzado que genera resúmenes sin entrenamiento específico pero responde a indicaciones.
Las pruebas de ambos modelos mostraron que resumir las descripciones de los cursos mejoró significativamente la precisión de las clasificaciones, ya que eliminó detalles irrelevantes y ayudó al modelo de clasificación a centrarse en la información esencial.
Cuantización
Experimentación conPara mejorar aún más la velocidad y eficiencia, se exploraron diferentes métodos de cuantización. La cuantización minimiza el uso de memoria del modelo, haciéndolo más rápido mientras se busca mantener la calidad de las recomendaciones intacta. Se probaron tres métodos de cuantización:
- Cuantización dinámica
- Cuantización estática
- SmoothQuant
Estos experimentos demostraron que la cuantización podría aumentar significativamente la velocidad del proceso de clasificación, permitiendo a BrightFit proporcionar recomendaciones más rápidamente sin sacrificar la calidad.
Evaluación de la experiencia del usuario
Pruebas A/B
Para comprender cómo interactúan los usuarios con el nuevo sistema de recomendaciones, se realizó una prueba A/B. En esta prueba, algunos usuarios recibieron las recomendaciones tradicionales basadas en BM25, mientras que otros vieron las nuevas sugerencias basadas en RankT5.
Los resultados indicaron que los usuarios mostraron una tasa de interacción más alta con el sistema tradicional de lo esperado, a pesar de que las evaluaciones fuera de línea sugerían que el nuevo método era superior en términos de precisión.
Comentarios de los usuarios
También se utilizó un cuestionario para recopilar comentarios directos de los usuarios sobre sus preferencias. A los participantes se les presentaron listas de cursos recomendados de ambos sistemas y se les preguntó cuál preferían y por qué.
Los hallazgos revelaron que en la mayoría de los casos, los usuarios preferían las nuevas recomendaciones de RankT5, destacando aspectos como las calificaciones de los cursos y la diversidad en el contenido del curso como factores importantes que influyen en sus elecciones.
Conclusión
El estudio demostró que un enfoque de recuperación en dos etapas podría mejorar significativamente las recomendaciones de cursos en un entorno de aprendizaje en línea como BrightFit. El uso de GTR para la recuperación inicial, combinado con RankT5 para el reordenamiento, resultó en sugerencias más efectivas para los usuarios que buscan actualizar sus habilidades.
Además, la implementación de la resumisión mejoró la relevancia de las descripciones de los cursos, facilitando al modelo de clasificación evaluar qué cursos coincidirían mejor con las consultas de los usuarios.
Las técnicas de cuantización optimizaron aún más la velocidad de las recomendaciones, asegurando que los usuarios recibieran sugerencias oportunas sin sacrificar el rendimiento.
En general, aunque los resultados de la prueba A/B fueron sorprendentes en términos de interacción del usuario, los hallazgos de las evaluaciones fuera de línea y los comentarios de los usuarios respaldan la efectividad de los nuevos métodos. Las futuras mejoras pueden incluir considerar las preferencias de los usuarios más cuidadosamente y crear un conjunto de datos de entrenamiento robusto para un rendimiento aún mejor.
BrightFit ahora está mejor equipado para ayudar a las personas a encontrar los cursos adecuados para mejorar sus habilidades y lograr sus aspiraciones profesionales, haciendo que el aprendizaje sea más accesible y efectivo.
Título: Efficient course recommendations with T5-based ranking and summarization
Resumen: In this paper, we implement and evaluate a two-stage retrieval pipeline for a course recommender system that ranks courses for skill-occupation pairs. The in-production recommender system BrightFit provides course recommendations from multiple sources. Some of the course descriptions are long and noisy, while retrieval and ranking in an online system have to be highly efficient. We developed a two-step retrieval pipeline with RankT5 finetuned on MSMARCO as re-ranker. We compare two summarizers for course descriptions: a LongT5 model that we finetuned for the task, and a generative LLM (Vicuna) with in-context learning. We experiment with quantization to reduce the size of the ranking model and increase inference speed. We evaluate our rankers on two newly labelled datasets, with an A/B test, and with a user questionnaire. On the two labelled datasets, our proposed two-stage ranking with automatic summarization achieves a substantial improvement over the in-production (BM25) ranker: nDCG@10 scores improve from 0.482 to 0.684 and from 0.447 to 0.844 on the two datasets. We also achieve a 40% speed-up by using a quantized version of RankT5. The improved quality of the ranking was confirmed by the questionnaire completed by 29 respondents, but not by the A/B test. In the A/B test, a higher clickthrough rate was observed for the BM25-ranking than for the proposed two-stage retrieval. We conclude that T5-based re-ranking and summarization for online course recommendation can obtain much better effectiveness than single-step lexical retrieval, and that quantization has a large effect on RankT5. In the online evaluation, however, other factors than relevance play a role (such as speed and interpretability of the retrieval results), as well as individual preferences.
Autores: Thijmen Bijl, Niels van Weeren, Suzan Verberne
Última actualización: 2024-06-27 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2406.19018
Fuente PDF: https://arxiv.org/pdf/2406.19018
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.
Enlaces de referencia
- https://pygments.org/
- https://pypi.python.org/pypi/Pygments
- https://yamadharma.github.io/
- https://kmitd.github.io/ilaria/
- https://conceptbase.sourceforge.net/mjf/
- https://go.randstadrisesmart.com/BrightFit
- https://github.com/tbijl/course_ranking_data
- https://www.udemy.com/developers/affiliate/
- https://business-support.udemy.com/hc/en-us/articles/11965611508375-Udemy-Business-API-Best-Practices
- https://huggingface.co/sentence-transformers/gtr-t5-base
- https://huggingface.co/t5-base
- https://huggingface.co/google/long-t5-tglobal-base
- https://huggingface.co/lmsys/vicuna-7b-v1.3
- https://github.com/intel/neural-compressor
- https://marketingplatform.google.com/about/analytics/
- https://name.example.com
- https://ctan.org/pkg/booktabs
- https://goo.gl/VLCRBB
- https://github.com/borisveytsman/acmart
- https://www.ctan.org/tex-archive/macros/latex/contrib/els-cas-templates
- https://github.com/yamadharma/ceurart
- https://www.overleaf.com/project/5e76702c4acae70001d3bc87
- https://www.overleaf.com/latex/templates/template-for-submissions-to-ceur-workshop-proceedings-ceur-ws-dot-org/pkfscdkgkhcq