Caminos profesionales: El futuro de la predicción de trayectorias laborales
Un nuevo conjunto de datos que está cambiando la forma en que predecimos los movimientos profesionales.
Elena Senger, Yuri Campbell, Rob van der Goot, Barbara Plank
― 8 minilectura
Tabla de contenidos
- ¿Qué es Karrierewege?
- El desafío de los Títulos de Trabajo y los currículums
- Por qué importa la predicción de trayectorias profesionales
- Vínculo con ESCO
- Proceso de creación de datos
- Sintetizando datos
- Medidas de control de calidad
- Comparando con otros conjuntos de datos
- Evaluación comparativa y entrenamiento de modelos
- Próximos pasos y futuras posibilidades
- Consideraciones éticas
- Conclusión
- Fuente original
- Enlaces de referencia
En el mundo de buscar trabajo y reclutamiento, predecir a dónde podría ir una persona en su carrera puede ser complicado. Es como tratar de adivinar el siguiente movimiento de baile de alguien que es realmente bueno bailando—¡podrían sorprenderte! La necesidad de herramientas que ayuden a predecir movimientos en la carrera está creciendo, pero el problema es que a menudo no tenemos todos los Datos que necesitamos. Por suerte, un nuevo conjunto de datos llamado Karrierewege está aquí para ayudar.
¿Qué es Karrierewege?
Karrierewege es una gran colección de más de 500,000 trayectorias profesionales. ¡Eso es un montón de movimientos en la carrera! Este conjunto de datos es mucho más grande que muchos otros que hay, convirtiéndolo en un recurso valioso para cualquiera que necesite información sobre trayectorias profesionales. Los creadores han vinculado esta colección a un sistema de clasificación europeo popular llamado ESCO. Al hacer esto, facilitan la comprensión y la predicción de cambios de trabajo.
Títulos de Trabajo y los currículums
El desafío de losUn problema común en el mercado laboral es que los currículums a menudo contienen títulos de trabajo y descripciones en texto libre. Piensa en los currículums como un buffet; cada quien tiene diferentes gustos, y no todos sirven el mismo platillo. Para hacer que las predicciones sean más precisas, los creadores de Karrierewege idearon una solución ingeniosa. Generaron nuevos títulos de trabajo y descripciones para ayudar a llenar los vacíos. Esto se llama Karrierewege+. Con estos nuevos títulos y descripciones sintéticos, es mucho más fácil hacer predicciones a partir de la mezcla de información que se encuentra en los currículums del mundo real.
Por qué importa la predicción de trayectorias profesionales
La predicción de trayectorias profesionales es útil para muchas personas. Los que buscan empleo quieren saber qué opciones podrían tener en el futuro. Los reclutadores quieren encontrar a los mejores candidatos para los trabajos. Los departamentos de recursos humanos quieren hacer un seguimiento de las tendencias de la fuerza laboral. Los maestros y entrenadores podrían buscar maneras de ayudar a los estudiantes a adquirir las habilidades adecuadas. Todos estos grupos pueden beneficiarse de mejores predicciones sobre carreras.
Sin embargo, el campo ha estado limitado por la disponibilidad de conjuntos de datos que muestren historias laborales detalladas. La mayoría de los conjuntos de datos existentes son más pequeños y no están disponibles públicamente. ¡Esto hace que el lanzamiento de Karrierewege sea especialmente emocionante!
Vínculo con ESCO
La taxonomía ESCO significa "Habilidades, Competencias, Calificaciones y Ocupaciones Europeas". Ayuda a estandarizar términos de trabajo y habilidades en el mercado laboral europeo. Es similar a tener un idioma común; puede hacer que las conversaciones sobre trabajos sean mucho más fáciles. El sistema ESCO incluye miles de títulos de trabajo y habilidades en 28 idiomas diferentes. Entonces, cuando los creadores de Karrierewege decidieron vincular su conjunto de datos a ESCO, realmente abrieron muchas oportunidades para la investigación y la aplicación.
Proceso de creación de datos
¡Crear un conjunto de datos como Karrierewege no es tarea fácil! El equipo detrás de esto usó currículums anónimos de la Agencia de Empleo de Alemania como su punto de partida. Encontraron currículums de personas que buscaban trabajo en todo tipo de industrias. Sin embargo, como un chef probando la sopa, señalaron que el conjunto de datos podría tener algunos sesgos. Por ejemplo, podría inclinarse más hacia industrias con mayor desempleo que otras, o el contexto cultural podría estar sesgado hacia Alemania.
Para abordar esto, mapeaban los títulos de trabajo de los currículums a sus equivalentes en el sistema ESCO. Este mapeo cuidadoso ayuda a garantizar que los datos recopilados sean útiles y precisos.
Sintetizando datos
Una de las características destacadas de Karrierewege+ es el uso de datos sintéticos. Para hacer que el conjunto de datos sea más robusto y útil, emplearon grandes modelos de lenguaje para generar nuevos títulos de trabajo y descripciones. Imagina a un chef ideando nuevas versiones divertidas de recetas clásicas.
Usaron dos enfoques:
- Cada título de trabajo podría tener hasta siete nuevas versiones creadas. Este enfoque tenía como objetivo diversificar el conjunto de datos.
- Toda la secuencia de títulos de trabajo en una trayectoria profesional podría reescribirse. Este método buscaba contexto y coherencia, como contar una historia que tenga sentido de principio a fin.
Al usar estos métodos, los creadores buscaban enriquecer su conjunto de datos, haciéndolo aún más representativo del mundo real.
Medidas de control de calidad
Para asegurarse de que los nuevos datos fueran de alta calidad, los desarrolladores evaluaron los títulos de trabajo y descripciones basándose en varios criterios. Miraron:
- Corrección: ¿Son los títulos verdaderos títulos de trabajo que la gente realmente usa?
- Similitud semántica: ¿Los nuevos títulos transmiten un significado similar a los originales?
- Diversidad: ¿Hay títulos únicos incluidos, o es el mismo título repetido una y otra vez?
- Coherencia: ¿Los títulos encajan bien dentro de una trayectoria profesional?
Para probar estas cualidades, un equipo de expertos revisó muestras manualmente, e incluso se trajo a una IA para ayudar. Usar tanto evaluaciones humanas como de IA ayudó a proporcionar una imagen completa de la calidad de los datos.
Comparando con otros conjuntos de datos
Ya hay muchos conjuntos de datos disponibles para la predicción de trayectorias profesionales, pero la mayoría son pequeños y privados. Los datos de Karrierewege son mucho más grandes y brindan una mejor oportunidad para que los modelos aprendan. Piénsalo como un gran buffet en comparación con un pequeño refrigerio. Cuantos más datos tengas, mejor podrás predecir lo que podría pasar a continuación.
Karrierewege tiene más títulos de trabajo únicos que muchos conjuntos de datos más pequeños. También cubre una gama más amplia de industrias, desde ocupaciones elementales hasta roles de servicio. Este amplio alcance proporciona una mejor comprensión del mercado laboral.
Evaluación comparativa y entrenamiento de modelos
Para mostrar la efectividad de Karrierewege, el equipo realizó experimentos utilizando modelos de última generación existentes. Querían ver qué tan bien estos modelos podían predecir trayectorias profesionales utilizando su conjunto de datos.
Afinaron sus modelos enseñándoles a encontrar conexiones entre trayectorias profesionales y títulos de trabajo. ¡Los resultados fueron prometedores! Los modelos entrenados en Karrierewege superaron a los entrenados en conjuntos de datos más pequeños. Es como correr un maratón con los zapatos adecuados en lugar de intentar hacerlo en chanclas.
Próximos pasos y futuras posibilidades
Ahora que Karrierewege está disponible, hay muchas oportunidades para futuras investigaciones. El conjunto de datos podría ampliarse para incluir datos de otras regiones y lenguas. Esto lo haría aún más útil para predicciones de trayectorias profesionales a nivel global. Además, se podrían abordar desafíos como los cambios de carrera entre diferentes industrias para mejorar la precisión.
Consideraciones éticas
Como con cualquier conjunto de datos, hay consideraciones éticas a tener en cuenta. Si el conjunto de datos destaca demasiado ciertos sectores laborales, podría llevar a predicciones sesgadas. Por esto es importante monitorear y ajustar continuamente los datos para asegurar la equidad. Al implementar medidas para mitigar sesgos, los creadores esperan crear herramientas más equitativas para las predicciones de carrera.
Conclusión
Karrierewege y su versión mejorada, Karrierewege+, traen un aire fresco al campo de la predicción de trayectorias profesionales. Al ofrecer un gran conjunto de datos disponible públicamente vinculado a una taxonomía estandarizada, allanan el camino para nuevas investigaciones y aplicaciones. A medida que se utilice este conjunto de datos, la esperanza es ver a más personas navegando con éxito en sus carreras, como encontrar la mejor ruta en un mapa.
Al final, ya seas un buscador de empleo tratando de averiguar tu próximo movimiento, un reclutador en busca de talento, o simplemente un curioso observador, Karrierewege tiene mucho potencial para hacer conjeturas bien fundamentadas sobre el futuro del trabajo. Así que, ¡brindemos virtualmente por el futuro de la predicción de trayectorias profesionales—que sea brillante y lleno de oportunidades!
Fuente original
Título: KARRIEREWEGE: A Large Scale Career Path Prediction Dataset
Resumen: Accurate career path prediction can support many stakeholders, like job seekers, recruiters, HR, and project managers. However, publicly available data and tools for career path prediction are scarce. In this work, we introduce KARRIEREWEGE, a comprehensive, publicly available dataset containing over 500k career paths, significantly surpassing the size of previously available datasets. We link the dataset to the ESCO taxonomy to offer a valuable resource for predicting career trajectories. To tackle the problem of free-text inputs typically found in resumes, we enhance it by synthesizing job titles and descriptions resulting in KARRIEREWEGE+. This allows for accurate predictions from unstructured data, closely aligning with real-world application challenges. We benchmark existing state-of-the-art (SOTA) models on our dataset and a prior benchmark and observe improved performance and robustness, particularly for free-text use cases, due to the synthesized data.
Autores: Elena Senger, Yuri Campbell, Rob van der Goot, Barbara Plank
Última actualización: 2024-12-19 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2412.14612
Fuente PDF: https://arxiv.org/pdf/2412.14612
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.
Enlaces de referencia
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://esco.ec.europa.eu/en/about-esco/what-esco
- https://esco.ec.europa.eu/en/about-esco/esco-stakeholders
- https://huggingface.co/datasets/ElenaSenger/Karrierewege
- https://huggingface.co/datasets/ElenaSenger/Karrierewege_plus
- https://www.arbeitsagentur.de/bewerberboerse/
- https://web.arbeitsagentur.de/berufenet/
- https://esco.ec.europa.eu/en/about-esco/escopedia/escopedia/international-standard-classification-occupations-isco
- https://statistik.arbeitsagentur.de/DE/Statischer-Content/Grundlagen/Klassifikationen/Klassifikation-der-Berufe/KldB2010-Fassung2020/Arbeitsmittel/Umschluesselungstabellen.html
- https://huggingface.co/sentence-transformers/distiluse-base-multilingual-cased-v2
- https://huggingface.co/sentence-transformers/all-mpnet-base-v2