Prédire les changements de jobs des employés avec le machine learning
Utiliser l'apprentissage automatique pour prévoir les changements de poste des employés pour une meilleure planification RH.
― 6 min lire
Table des matières
Beaucoup d'entreprises veulent savoir si leurs employés vont chercher de nouveaux jobs ou rester là où ils sont. Cette compétence peut aider les départements des ressources humaines à mieux planifier et à garder les talents. Cet article parle de l'utilisation de l'apprentissage automatique (ML) pour deviner si un employé va changer de job.
Comprendre le Problème
Changer de job, c'est pas toujours facile. Les gens peuvent chercher de nouvelles opportunités pour diverses raisons, comme un meilleur salaire ou un poste plus intéressant. Le bon changement de job peut aider à construire une carrière réussie. Notre but est de prédire avec précision si les employés vont chercher de nouveaux jobs en utilisant l'apprentissage automatique.
Préparer les Données
Avant d'utiliser l'apprentissage automatique, il faut préparer les données. Ça veut dire les nettoyer et les transformer dans un format utilisable par les machines. Les données qu'on a utilisées viennent de sources publiques de ressources humaines et contiennent dix caractéristiques importantes. Ces caractéristiques incluent :
- Indice de développement urbain
- Genre
- Expérience pertinente
- Université inscrite
- Niveau d'éducation
- Discipline principale
- Total d'années d'expérience
- Taille de l'entreprise
- Cible (indiquant si quelqu'un veut changer de job)
Les employés sont triés en deux groupes : ceux qui veulent changer de job et ceux qui ne le veulent pas.
Gérer les Variables Categorielles
Dans nos données, certaines caractéristiques n'ont pas de valeur numérique. Par exemple, le genre est une catégorie plutôt qu'un nombre. La plupart des algorithmes d'apprentissage automatique peuvent pas utiliser ces catégories tant qu'elles ne sont pas transformées en nombres. Il y a plusieurs méthodes pour faire ça :
One-Hot Encoding : Cette méthode transforme chaque catégorie en colonnes binaires séparées (0 ou 1). Par exemple, le genre peut être changé en deux colonnes : une pour les hommes et une pour les femmes.
Réduction des Catégories : Si une catégorie a beaucoup d'options, il peut être utile de regrouper celles qui se ressemblent. Par exemple, si on a des quartiers de ville, on pourrait les combiner en zones plus larges.
Impact Encoding : Cette méthode utilise la relation entre les catégories et la variable cible. Elle détermine la valeur de chaque catégorie selon son lien avec le résultat.
Méthodes d'Embedding : Cette technique utilise l'apprentissage profond pour convertir les catégories en représentations numériques plus petites. Ça peut rendre les données plus faciles à gérer et à traiter.
Traiter les Données Déséquilibrées
Dans beaucoup de cas, les données qu'on a ne sont pas équilibrées. Par exemple, il pourrait y avoir beaucoup plus de personnes qui ne veulent pas changer de job que de celles qui le veulent. Ce déséquilibre peut nuire à la capacité de la machine à prédire avec précision.
Pour y remédier, on peut utiliser des techniques comme :
Suréchantillonnage : Ça consiste à créer plus d'exemples à partir du groupe minoritaire (ceux qui cherchent de nouveaux jobs).
Sous-échantillonnage : Ça consiste à réduire le nombre d'exemples du groupe majoritaire (ceux qui ne cherchent pas de nouveaux jobs).
Le suréchantillonnage peut aider à améliorer les prédictions de la machine, mais ça peut aussi causer des problèmes, comme le surapprentissage, où le modèle apprend trop des données d'entraînement.
Construire le Modèle
Après avoir préparé les données, on peut créer notre modèle. On utilise différents algorithmes d'apprentissage automatique, dont :
Régression Logistique (LR) : Cette approche étudie les relations entre diverses variables et la variable cible en utilisant une fonction mathématique spécifique.
Arbres de décision (DT) : Ce sont des modèles simples qui utilisent une structure en forme d'arbre pour faire des prédictions en séparant les données selon certaines règles.
Forêt Aléatoire (RF) : Cette méthode combine plusieurs arbres de décision pour améliorer la précision des prédictions.
XGBoost : Cette technique avancée utilise une méthode appelée boosting pour améliorer les prédictions en traitant les données en parallèle.
Évaluer le Modèle
Pour s'assurer que le modèle fonctionne bien, on doit évaluer sa performance. On va regarder quelques métriques clés, comme :
Matrice de Confusion : Ça montre à quel point notre modèle a bien marché, en indiquant combien de prédictions étaient correctes et incorrectes.
Précision et Rappel : La précision nous dit combien d'items sélectionnés étaient pertinents, tandis que le rappel nous dit combien d'items pertinents ont été sélectionnés.
Exactitude : Ça montre à quelle fréquence le modèle fait des prédictions correctes dans l'ensemble.
Résultats
Après avoir fait tourner nos modèles, on a trouvé qu'utiliser une technique appelée SMOTE (Synthetic Minority Oversampling Technique) a amélioré significativement nos prédictions. Cette approche rééquilibre le dataset, et notre modèle de Régression Logistique a performé le mieux parmi tous les modèles.
La performance a montré que le modèle SMOTE-LR avait le meilleur rappel et la meilleure exactitude. Ça veut dire qu'il était particulièrement bon pour trouver des gens qui voulaient changer de job.
Conclusion
Dans cette étude, on s'est concentré sur la prédiction des changements de job en utilisant l'apprentissage automatique. On a traversé plusieurs étapes, de la préparation des données à la construction et à l'évaluation des modèles. Nos résultats ont démontré que l'apprentissage automatique peut effectivement aider les départements des ressources humaines à identifier les employés qui cherchent à changer de job.
Travaux Futurs
À l'avenir, on prévoit d'utiliser des techniques d'apprentissage profond, comme les Réseaux Neurones Convolutionnels, pour améliorer encore notre capacité à prédire les changements de job. En utilisant des modèles plus avancés, on espère obtenir des résultats encore meilleurs et offrir des insights précieux aux équipes des ressources humaines.
Titre: Let's Predict Who Will Move to a New Job
Résumé: Any company's human resources department faces the challenge of predicting whether an applicant will search for a new job or stay with the company. In this paper, we discuss how machine learning (ML) is used to predict who will move to a new job. First, the data is pre-processed into a suitable format for ML models. To deal with categorical features, data encoding is applied and several MLA (ML Algorithms) are performed including Random Forest (RF), Logistic Regression (LR), Decision Tree (DT), and eXtreme Gradient Boosting (XGBoost). To improve the performance of ML models, the synthetic minority oversampling technique (SMOTE) is used to retain them. Models are assessed using decision support metrics such as precision, recall, F1-Score, and accuracy.
Auteurs: Rania Mkhinini Gahar, Adel Hidri, Minyar Sassi Hidri
Dernière mise à jour: 2023-09-15 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2309.08333
Source PDF: https://arxiv.org/pdf/2309.08333
Licence: https://creativecommons.org/publicdomain/zero/1.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.