Prediciendo Cambios de Trabajo de Empleados con Aprendizaje Automático
Usando machine learning para predecir cambios de trabajo de los empleados y mejorar la planificación de RRHH.
― 5 minilectura
Tabla de contenidos
Muchas empresas quieren saber si sus empleados van a buscar nuevos trabajos o se quedarán donde están. Esta habilidad puede ayudar a los departamentos de recursos humanos a planear mejor y mantener el talento. Este artículo habla sobre cómo usar el aprendizaje automático (ML) para adivinar si un empleado cambiará de trabajo.
Entendiendo el Problema
Decidir cambiar de trabajo no siempre es fácil. La gente puede buscar nuevas oportunidades por varias razones, como mejor salario o un rol más interesante. El cambio de trabajo correcto puede ayudar a construir una carrera exitosa. Nuestro objetivo es predecir con precisión si los empleados buscarán nuevos trabajos usando aprendizaje automático.
Preparando los Datos
Antes de usar aprendizaje automático, hay que preparar los datos. Esto significa limpiarlos y cambiarlos a un formato que las máquinas puedan usar. Los datos que usamos provienen de fuentes públicas de recursos humanos y tienen diez características importantes. Estas características incluyen:
- Índice de Desarrollo de la Ciudad
- Género
- Experiencia Relevante
- Universidad en la que está inscrito
- Nivel Educativo
- Disciplina Principal
- Total de Años de Experiencia
- Tamaño de la Empresa
- Objetivo (indica si alguien quiere cambiar de trabajo)
Los empleados se dividen en dos grupos: los que quieren cambiar de trabajo y los que no.
Manejo de Variables Categóricas
En nuestros datos, algunas características no tienen un valor numérico. Por ejemplo, el género es una categoría en lugar de un número. La mayoría de los algoritmos de aprendizaje automático no pueden usar estas categorías hasta que se conviertan en números. Hay varios métodos para hacer esto:
One-Hot Encoding: Este método convierte cada categoría en columnas binarias (0 o 1) separadas. Por ejemplo, el género puede cambiar a dos columnas: una para hombres y otra para mujeres.
Reducción de Categorías: Si una categoría tiene muchas opciones, puede ser útil agrupar las similares. Por ejemplo, si tenemos distritos de la ciudad, podríamos combinarlos en áreas más amplias.
Impact Encoding: Este método usa la relación entre categorías y la variable objetivo. Determina cuán valiosa es cada categoría según su conexión con el resultado.
Métodos de Embedding: Esta técnica usa aprendizaje profundo para convertir categorías en representaciones numéricas más pequeñas. Puede hacer que los datos sean más fáciles de manejar y procesar.
Tratando con Datos Desbalanceados
En muchos casos, los datos que tenemos no están balanceados. Por ejemplo, podría haber muchas más personas que no quieren cambiar de trabajo en comparación con las que sí. Este desbalance puede perjudicar la capacidad de la máquina para predecir con precisión.
Para solucionarlo, podemos usar técnicas como:
Oversampling: Esto implica crear más ejemplos del grupo minoritario (los que buscan nuevos trabajos).
Undersampling: Esto implica reducir el número de ejemplos del grupo mayoritario (los que no buscan nuevos trabajos).
Usar oversampling puede ayudar a mejorar las predicciones de la máquina, pero también puede causar algunos problemas, como el sobreajuste, donde el modelo aprende demasiado de los datos de entrenamiento.
Construyendo el Modelo
Después de preparar los datos, podemos crear nuestro modelo. Usamos diferentes algoritmos de aprendizaje automático, incluyendo:
Regresión Logística (LR): Este enfoque estudia las relaciones entre varias variables y la variable objetivo usando una función matemática específica.
Árboles de Decisión (DT): Estos son modelos simples que usan una estructura tipo árbol para hacer predicciones al dividir los datos según ciertas reglas.
Bosque Aleatorio (RF): Este método combina muchos árboles de decisión para mejorar la precisión de las predicciones.
XGBoost: Esta técnica avanzada usa un método llamado boosting para mejorar las predicciones procesando datos en paralelo.
Evaluando el Modelo
Para asegurarnos de que el modelo funcione bien, debemos evaluar su rendimiento. Vamos a mirar algunas métricas clave, como:
Matriz de Confusión: Esto muestra cuán bien funcionó nuestro modelo, indicando cuántas predicciones fueron correctas e incorrectas.
Precisión y Recall: La precisión nos dice cuántos elementos seleccionados eran relevantes, mientras que el recall nos dice cuántos elementos relevantes fueron seleccionados.
Exactitud: Esto muestra con qué frecuencia el modelo hace predicciones correctas en general.
Resultados
Después de ejecutar nuestros modelos, encontramos que usar una técnica llamada SMOTE (Técnica de Sobremuestreo de Minorías Sintéticas) mejoró significativamente nuestras predicciones. Este enfoque equilibra el conjunto de datos, y nuestro modelo de Regresión Logística tuvo el mejor desempeño entre todos los modelos.
El rendimiento mostró que el modelo SMOTE-LR tuvo el recall y la exactitud más altos. Esto significa que fue especialmente bueno encontrando personas que querían cambiar de trabajo.
Conclusión
En este estudio, nos enfocamos en predecir cambios de trabajo usando aprendizaje automático. Pasamos por varios pasos, desde preparar los datos hasta construir y evaluar modelos. Nuestros resultados demostraron que el aprendizaje automático puede ayudar efectivamente a los departamentos de recursos humanos a identificar a los empleados que buscan cambiar de trabajo.
Trabajo Futuro
En el futuro, planeamos usar técnicas de aprendizaje profundo, como Redes Neuronales Convolucionales, para mejorar aún más nuestra capacidad de predecir cambios de trabajo. Al usar modelos más avanzados, esperamos lograr resultados aún mejores y ofrecer información valiosa a los equipos de recursos humanos.
Título: Let's Predict Who Will Move to a New Job
Resumen: Any company's human resources department faces the challenge of predicting whether an applicant will search for a new job or stay with the company. In this paper, we discuss how machine learning (ML) is used to predict who will move to a new job. First, the data is pre-processed into a suitable format for ML models. To deal with categorical features, data encoding is applied and several MLA (ML Algorithms) are performed including Random Forest (RF), Logistic Regression (LR), Decision Tree (DT), and eXtreme Gradient Boosting (XGBoost). To improve the performance of ML models, the synthetic minority oversampling technique (SMOTE) is used to retain them. Models are assessed using decision support metrics such as precision, recall, F1-Score, and accuracy.
Autores: Rania Mkhinini Gahar, Adel Hidri, Minyar Sassi Hidri
Última actualización: 2023-09-15 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2309.08333
Fuente PDF: https://arxiv.org/pdf/2309.08333
Licencia: https://creativecommons.org/publicdomain/zero/1.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.