Prédire les changements de jobs des employés avec le machine learning

Table des matières

Source originale

Beaucoup d'entreprises veulent savoir si leurs employés vont chercher de nouveaux jobs ou rester là où ils sont. Cette compétence peut aider les départements des ressources humaines à mieux planifier et à garder les talents. Cet article parle de l'utilisation de l'apprentissage automatique (ML) pour deviner si un employé va changer de job.

Comprendre le Problème

Changer de job, c'est pas toujours facile. Les gens peuvent chercher de nouvelles opportunités pour diverses raisons, comme un meilleur salaire ou un poste plus intéressant. Le bon changement de job peut aider à construire une carrière réussie. Notre but est de prédire avec précision si les employés vont chercher de nouveaux jobs en utilisant l'apprentissage automatique.

Préparer les Données

Avant d'utiliser l'apprentissage automatique, il faut préparer les données. Ça veut dire les nettoyer et les transformer dans un format utilisable par les machines. Les données qu'on a utilisées viennent de sources publiques de ressources humaines et contiennent dix caractéristiques importantes. Ces caractéristiques incluent :

Indice de développement urbain
Genre
Expérience pertinente
Université inscrite
Niveau d'éducation
Discipline principale
Total d'années d'expérience
Taille de l'entreprise
Cible (indiquant si quelqu'un veut changer de job)

Les employés sont triés en deux groupes : ceux qui veulent changer de job et ceux qui ne le veulent pas.

Gérer les Variables Categorielles

Dans nos données, certaines caractéristiques n'ont pas de valeur numérique. Par exemple, le genre est une catégorie plutôt qu'un nombre. La plupart des algorithmes d'apprentissage automatique peuvent pas utiliser ces catégories tant qu'elles ne sont pas transformées en nombres. Il y a plusieurs méthodes pour faire ça :

One-Hot Encoding : Cette méthode transforme chaque catégorie en colonnes binaires séparées (0 ou 1). Par exemple, le genre peut être changé en deux colonnes : une pour les hommes et une pour les femmes.
Réduction des Catégories : Si une catégorie a beaucoup d'options, il peut être utile de regrouper celles qui se ressemblent. Par exemple, si on a des quartiers de ville, on pourrait les combiner en zones plus larges.
Impact Encoding : Cette méthode utilise la relation entre les catégories et la variable cible. Elle détermine la valeur de chaque catégorie selon son lien avec le résultat.
Méthodes d'Embedding : Cette technique utilise l'apprentissage profond pour convertir les catégories en représentations numériques plus petites. Ça peut rendre les données plus faciles à gérer et à traiter.

Traiter les Données Déséquilibrées

Dans beaucoup de cas, les données qu'on a ne sont pas équilibrées. Par exemple, il pourrait y avoir beaucoup plus de personnes qui ne veulent pas changer de job que de celles qui le veulent. Ce déséquilibre peut nuire à la capacité de la machine à prédire avec précision.

Pour y remédier, on peut utiliser des techniques comme :

Suréchantillonnage : Ça consiste à créer plus d'exemples à partir du groupe minoritaire (ceux qui cherchent de nouveaux jobs).
Sous-échantillonnage : Ça consiste à réduire le nombre d'exemples du groupe majoritaire (ceux qui ne cherchent pas de nouveaux jobs).

Le suréchantillonnage peut aider à améliorer les prédictions de la machine, mais ça peut aussi causer des problèmes, comme le surapprentissage, où le modèle apprend trop des données d'entraînement.

Construire le Modèle

Après avoir préparé les données, on peut créer notre modèle. On utilise différents algorithmes d'apprentissage automatique, dont :

Régression Logistique (LR) : Cette approche étudie les relations entre diverses variables et la variable cible en utilisant une fonction mathématique spécifique.
Arbres de décision (DT) : Ce sont des modèles simples qui utilisent une structure en forme d'arbre pour faire des prédictions en séparant les données selon certaines règles.
Forêt Aléatoire (RF) : Cette méthode combine plusieurs arbres de décision pour améliorer la précision des prédictions.
XGBoost : Cette technique avancée utilise une méthode appelée boosting pour améliorer les prédictions en traitant les données en parallèle.

Évaluer le Modèle

Pour s'assurer que le modèle fonctionne bien, on doit évaluer sa performance. On va regarder quelques métriques clés, comme :

Matrice de Confusion : Ça montre à quel point notre modèle a bien marché, en indiquant combien de prédictions étaient correctes et incorrectes.
Précision et Rappel : La précision nous dit combien d'items sélectionnés étaient pertinents, tandis que le rappel nous dit combien d'items pertinents ont été sélectionnés.
Exactitude : Ça montre à quelle fréquence le modèle fait des prédictions correctes dans l'ensemble.

Résultats

Après avoir fait tourner nos modèles, on a trouvé qu'utiliser une technique appelée SMOTE (Synthetic Minority Oversampling Technique) a amélioré significativement nos prédictions. Cette approche rééquilibre le dataset, et notre modèle de Régression Logistique a performé le mieux parmi tous les modèles.

La performance a montré que le modèle SMOTE-LR avait le meilleur rappel et la meilleure exactitude. Ça veut dire qu'il était particulièrement bon pour trouver des gens qui voulaient changer de job.

Conclusion

Dans cette étude, on s'est concentré sur la prédiction des changements de job en utilisant l'apprentissage automatique. On a traversé plusieurs étapes, de la préparation des données à la construction et à l'évaluation des modèles. Nos résultats ont démontré que l'apprentissage automatique peut effectivement aider les départements des ressources humaines à identifier les employés qui cherchent à changer de job.

Travaux Futurs

À l'avenir, on prévoit d'utiliser des techniques d'apprentissage profond, comme les Réseaux Neurones Convolutionnels, pour améliorer encore notre capacité à prédire les changements de job. En utilisant des modèles plus avancés, on espère obtenir des résultats encore meilleurs et offrir des insights précieux aux équipes des ressources humaines.

Prédire les changements de jobs des employés avec le machine learning

Utiliser l'apprentissage automatique pour prévoir les changements de poste des employés pour une meilleure planification RH.

Comprendre le Problème

Préparer les Données

Gérer les Variables Categorielles

Traiter les Données Déséquilibrées

Construire le Modèle

Évaluer le Modèle

Résultats

Conclusion

Travaux Futurs

Sujets référencés

Prédire les changements de jobs des employés avec le machine learning

Utiliser l'apprentissage automatique pour prévoir les changements de poste des employés pour une meilleure planification RH.

#Comprendre le Problème

#Préparer les Données

#Gérer les Variables Categorielles

#Traiter les Données Déséquilibrées

#Construire le Modèle

#Évaluer le Modèle

#Résultats

#Conclusion

#Travaux Futurs

Sujets référencés

Comprendre le Problème

Préparer les Données

Gérer les Variables Categorielles

Traiter les Données Déséquilibrées

Construire le Modèle

Évaluer le Modèle

Résultats

Conclusion

Travaux Futurs