Simple Science

La science de pointe expliquée simplement

# Informatique# Calcul et langage

Chemins de carrière : L'avenir de la prédiction des parcours professionnels

Un nouveau jeu de données qui change la façon dont on prédit les choix de carrière.

Elena Senger, Yuri Campbell, Rob van der Goot, Barbara Plank

― 8 min lire


Chemins de carrière :Chemins de carrière :Prédire les carrièresprédictions de carrière.Un dataset révolutionnaire pour les
Table des matières

Dans le monde de la recherche d'emploi et du recrutement, deviner où une personne pourrait aller dans sa carrière peut être compliqué. C'est comme essayer de deviner le prochain mouvement de danse d'un super danseur : ils pourraient te surprendre ! Le besoin d'outils qui aident à prédire les mouvements de carrière grandit, mais le problème, c'est qu'on n'a souvent pas toutes les Données nécessaires. Heureusement, un nouveau jeu de données appelé Karrierewege est là pour aider.

Qu'est-ce que Karrierewege ?

Karrierewege est une énorme collection de plus de 500 000 Parcours professionnels. Ça fait beaucoup de mouvements de carrière ! Ce jeu de données est bien plus grand que beaucoup d'autres, ce qui en fait une ressource précieuse pour quiconque a besoin d'insights sur les trajectoires de carrière. Les créateurs ont lié cette collection à un système de classification européen populaire appelé ESCO. En faisant ça, ils rendent plus facile la compréhension et la prédiction des changements de travail.

Le défi des Titres de postes et des CV

Un problème courant sur le marché du travail, c'est que les CV contiennent souvent des titres de poste et des descriptions en texte libre. Pense aux CV comme à un buffet ; chacun a ses goûts, et tout le monde ne sert pas le même plat. Pour rendre les prédictions plus précises, les créateurs de Karrierewege ont trouvé une solution astucieuse. Ils ont généré de nouveaux titres de poste et descriptions pour combler les lacunes. Ça s'appelle Karrierewege+. Avec ces nouveaux titres synthétiques et descriptions, c'est beaucoup plus facile d'effectuer des prédictions à partir de ce mélange d'infos qu'on trouve dans les CV réels.

Pourquoi la prédiction de parcours professionnels est importante

La prédiction de parcours professionnels est utile pour beaucoup de gens. Les chercheurs d'emploi veulent savoir quelles options ils peuvent avoir à l'avenir. Les recruteurs veulent trouver les meilleurs candidats pour les postes. Les départements RH souhaitent suivre les tendances de la main-d'œuvre. Les enseignants et formateurs pourraient chercher des moyens d'aider les étudiants à acquérir les bonnes compétences. Tous ces groupes peuvent bénéficier de meilleures prédictions sur les carrières.

Cependant, le domaine a été limité par la disponibilité de jeux de données qui montrent des histoires de carrière détaillées. La plupart des jeux de données existants sont plus petits et pas accessibles au public. C'est pourquoi la sortie de Karrierewege est particulièrement excitante !

Lien avec ESCO

La taxonomie ESCO signifie "Compétences, compétences, qualifications et professions européennes". Elle aide à standardiser les termes d'emploi et les compétences à travers le marché du travail européen. C'est un peu comme avoir une langue commune ; ça rend les conversations sur les emplois beaucoup plus faciles. Le système ESCO inclut des milliers de titres de postes et de compétences dans 28 langues différentes. Donc, quand les créateurs de Karrierewege ont décidé de lier leur jeu de données à ESCO, ils ont vraiment ouvert plein d'opportunités pour la recherche et l'application.

Processus de création du jeu de données

Créer un jeu de données comme Karrierewege n'est pas une mince affaire ! L'équipe derrière ça a utilisé des CV anonymisés de l'Agence allemande pour l'emploi comme point de départ. Ils ont trouvé des CV de personnes cherchant des emplois dans toutes sortes d'industries. Cependant, comme un chef goûtant sa soupe, ils ont noté que le jeu de données pourrait avoir des biais. Par exemple, il pourrait pencher plus vers des industries avec un taux de chômage plus élevé que d'autres, ou le contexte culturel pourrait être biaisé vers l'Allemagne.

Pour y remédier, ils ont mappé les titres de postes des CV à leurs équivalents dans le système ESCO. Ce mapping minutieux aide à garantir que les données collectées sont utiles et précises.

Synthétiser des données

Une des caractéristiques marquantes de Karrierewege+ est l'utilisation de données synthétiques. Pour rendre le jeu de données plus robuste et utile, ils ont employé de grands modèles de langage pour générer de nouveaux titres de postes et descriptions. Imagine un chef qui trouve des twists amusants sur des recettes classiques.

Ils ont utilisé deux approches :

  1. Chaque titre de poste pouvait avoir jusqu'à sept nouvelles versions créées. Cette approche visait à diversifier le jeu de données.
  2. L'ensemble de la séquence de titres de postes dans un parcours professionnel pouvait être réécrit. Cette méthode visait à apporter contexte et cohérence, comme raconter une histoire qui a du sens du début à la fin.

En utilisant ces méthodes, les créateurs ont cherché à enrichir leur jeu de données, le rendant encore plus représentatif de la réalité.

Mesures de contrôle de la qualité

Pour s'assurer que les nouvelles données étaient de haute qualité, les développeurs ont évalué les titres de postes et descriptions selon plusieurs critères. Ils ont examiné :

  • Exactitude : Les titres sont-ils de vrais titres que les gens utilisent ?
  • Similarité sémantique : Les nouveaux titres transmettent-ils un sens similaire aux originaux ?
  • Diversité : Y a-t-il des titres uniques inclus, ou est-ce le même titre répété encore et encore ?
  • Cohérence : Les titres s'assemblent-ils bien dans un parcours professionnel ?

Pour tester ces qualités, une équipe d'experts a examiné manuellement des échantillons, et même une IA a été impliquée pour aider. Utiliser à la fois des évaluations humaines et IA a aidé à fournir une image complète de la qualité des données.

Comparaison avec d'autres jeux de données

Il existe déjà plein de jeux de données pour la prédiction de parcours professionnels, mais la plupart sont petits et privés. Les données de Karrierewege sont beaucoup plus grandes et offrent une meilleure chance pour les modèles d'apprendre. Pense à ça comme un gros buffet comparé à un petit en-cas. Plus tu as de données, mieux tu peux prédire ce qui pourrait arriver ensuite.

Karrierewege a plus de titres de postes uniques que beaucoup de petits jeux de données. Il couvre aussi un éventail plus large d'industries, des professions de base aux rôles de service. Cette portée large fournit une meilleure compréhension du marché du travail.

Benchmarking et entraînement des modèles

Pour montrer l'efficacité de Karrierewege, l'équipe a mené des expériences en utilisant des modèles existants à la pointe de la technologie. Ils voulaient voir à quel point ces modèles pouvaient prédire des parcours professionnels en utilisant leur jeu de données.

Ils ont affiné leurs modèles en leur apprenant à trouver des connexions entre les parcours professionnels et les titres de postes. Les résultats étaient prometteurs ! Les modèles formés sur Karrierewege ont surpassé ceux formés sur des jeux de données plus petits. C’est comme courir un marathon avec les bonnes chaussures plutôt que d'essayer de le faire en tongs.

Prochaines étapes et possibilités futures

Maintenant que Karrierewege est disponible, il y a plein d'opportunités pour la recherche future. Le jeu de données pourrait être élargi pour inclure des données d'autres régions et langues. Ça le rendrait encore plus utile pour les prédictions de parcours professionnels à l'échelle mondiale. De plus, des défis comme les changements de carrière entre différentes industries pourraient être abordés pour améliorer la précision.

Considérations éthiques

Comme avec n'importe quel jeu de données, il y a des considérations éthiques à garder en tête. Si le jeu de données met trop en avant certains secteurs d'activité, cela pourrait entraîner des prédictions biaisées. C'est pour ça qu'il est important de surveiller et d'ajuster continuellement les données pour garantir l'équité. En mettant en place des mesures pour atténuer les biais, les créateurs espèrent créer des outils plus équitables pour les prédictions de carrière.

Conclusion

Karrierewege et sa version améliorée, Karrierewege+, apportent un vent de fraîcheur dans le domaine de la prédiction de parcours professionnels. En offrant un large jeu de données disponible au public lié à une taxonomie standardisée, ils ouvrent la voie à de nouvelles recherches et applications. À mesure que ce jeu de données sera utilisé, l'espoir est de voir plus de gens naviguer avec succès dans leurs carrières, comme trouver le meilleur chemin sur une carte.

En fin de compte, que tu sois un chercheur d'emploi cherchant ton prochain mouvement, un recruteur à la chasse de talents, ou juste un curieux, Karrierewege a beaucoup de potentiel pour faire des suppositions éclairées sur l'avenir du travail. Alors, levons un verre virtuel à l'avenir de la prédiction des parcours professionnels : qu'il soit radieux et plein d'opportunités !

Source originale

Titre: KARRIEREWEGE: A Large Scale Career Path Prediction Dataset

Résumé: Accurate career path prediction can support many stakeholders, like job seekers, recruiters, HR, and project managers. However, publicly available data and tools for career path prediction are scarce. In this work, we introduce KARRIEREWEGE, a comprehensive, publicly available dataset containing over 500k career paths, significantly surpassing the size of previously available datasets. We link the dataset to the ESCO taxonomy to offer a valuable resource for predicting career trajectories. To tackle the problem of free-text inputs typically found in resumes, we enhance it by synthesizing job titles and descriptions resulting in KARRIEREWEGE+. This allows for accurate predictions from unstructured data, closely aligning with real-world application challenges. We benchmark existing state-of-the-art (SOTA) models on our dataset and a prior benchmark and observe improved performance and robustness, particularly for free-text use cases, due to the synthesized data.

Auteurs: Elena Senger, Yuri Campbell, Rob van der Goot, Barbara Plank

Dernière mise à jour: 2024-12-19 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2412.14612

Source PDF: https://arxiv.org/pdf/2412.14612

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires