Usando Modelos de Linguagem pra Prever a Saída de Funcionários
Um olhar sobre como os LLMs melhoram as previsões de turnover nas empresas.
Xiaoye Ma, Weiheng Liu, Changyi Zhao, Liliya R. Tukhvatulina
― 9 min ler
Índice
- Os Números Não Mentem (Ou Mentem?)
- Por Que as Pessoas Saem do Trabalho
- Métodos de Previsão Tradicionais
- O Aprendizado de Máquina Muda o Jogo
- Entram os Grandes Modelos de Linguagem
- O Conjunto de Dados em Detalhe
- Preparando os Dados
- Analisando o Desequilíbrio dos Dados
- Treinando os Modelos
- Ajustando o Modelo GPT-3.5
- Avaliando o Desempenho
- Olhando Pra Frente
- Fonte original
- Ligações de referência
A Rotatividade de Funcionários é um baita problema pra empresas. Trocar alguém que sai pode custar uma grana e é difícil perder talentos bons. Tradicionalmente, as empresas usavam estatísticas antigas pra prever quando os funcionários poderiam sair, mas esses métodos muitas vezes perdem a visão geral. Recentemente, o Aprendizado de Máquina (ML) revolucionou o negócio ao melhorar as previsões. Agora, grandes modelos de linguagem (LLMs) estão entrando no jogo, oferecendo uma chance de olhar mais a fundo nas comunicações dos funcionários, o que pode ajudar a identificar sinais de rotatividade que os métodos tradicionais podem não ver.
Neste texto, analisamos a eficácia de uma versão ajustada do modelo GPT-3.5 comparada a modelos ML comuns como Regressão Logística, Vizinhos Mais Próximos, Máquinas de Vetores de Suporte e alguns outros. Queríamos ver como cada modelo se saiu e que insights poderiam ajudar as empresas a manter os funcionários felizes.
Os Números Não Mentem (Ou Mentem?)
Prever a rotatividade de funcionários não é só olhar os números; é entender a história por trás deles. O conjunto de Dados de Atração de Funcionários da IBM contém informações sobre 1.470 funcionários, com detalhes sobre seus cargos, desempenhos, demografia e mais. Esses dados ajudam a perceber o que leva os funcionários a sair.
Nosso estudo revelou que o modelo GPT-3.5 Ajustado teve um desempenho impressionante, com uma precisão de 0.91, recall de 0.94 e um F1-score de 0.92. Em termos simples, esse modelo previu a rotatividade muito melhor que os modelos tradicionais. O melhor modelo clássico, a Máquinas de Vetores de Suporte, conseguiu um F1-score de apenas 0.82. Até alguns métodos de ensemble, como Random Forest e XGBoost, não conseguiram acompanhar o GPT-3.5.
Isso mostra que tem algo especial no que os LLMs podem fazer quando se trata de prever rotatividade. Eles conseguem aprofundar nos dados, captando nuances que modelos mais simples podem ignorar.
Por Que as Pessoas Saem do Trabalho
Entender porque as pessoas decidem deixar seus empregos é fundamental. Vários fatores contribuem pra rotatividade de funcionários. Motivos comuns incluem:
- Sem Crescimento Profissional: Os funcionários querem ver um caminho à frente. Se sentem que estão parados, podem procurar melhores oportunidades.
- Salário Ruim: Grana importa. Se os funcionários acham que estão mal pagos, podem pular pra uma oferta melhor.
- Equilíbrio Trabalho-Vida: Todo mundo gosta de ter uma vida além do trabalho. Se o trabalho consome tudo, os funcionários podem se sentir esgotados.
- Má Gestão: Um relacionamento ruim com o chefe pode fazer os funcionários saírem.
- Ofertas Melhores: Às vezes, é só um negócio melhor que chama a atenção.
Compreender esses motivos ajuda as empresas a implementar melhores estratégias de retenção, tornando mais difícil para os funcionários saírem.
Métodos de Previsão Tradicionais
No passado, prever a rotatividade de funcionários dependia da análise de dados históricos usando estatísticas. Essa abordagem geralmente envolvia examinar entrevistas de saída, pesquisas e outros registros pra encontrar padrões comuns de porque as pessoas saíram. As equipes de RH costumavam olhar para indicadores como tempo de serviço, desempenho e mudanças salariais.
Embora essas técnicas formassem a base das estratégias de retenção por anos, não eram perfeitas. Elas muitas vezes dependiam de dados retrospectivos, o que dificultava a adaptação rápida a mudanças no sentimento dos funcionários.
O Aprendizado de Máquina Muda o Jogo
A ascensão do aprendizado de máquina trouxe uma nova forma de enfrentar a rotatividade de funcionários. Modelos de ML podem analisar toneladas de dados pra descobrir padrões e tendências que métodos tradicionais não conseguem ver. Ao analisar fatores como satisfação do funcionário, desempenho e até tendências do setor, os modelos de ML oferecem uma visão mais completa dos riscos de rotatividade.
Esses modelos podem aprender com novos dados continuamente, melhorando sua precisão ao longo do tempo. Eles também podem identificar sinais de alerta sobre rotatividade, dando às organizações a chance de agir antes que seja tarde. Isso significa que as empresas podem personalizar programas de desenvolvimento para os funcionários ou reavaliar compensações com base nas informações obtidas através do ML.
Entram os Grandes Modelos de Linguagem
Recentemente, os LLMs surgiram como ferramentas poderosas em vários campos, incluindo gestão de recursos humanos. Esses modelos podem ir além dos números e se aprofundar no texto encontrado nas comunicações dos funcionários. Ao analisar a linguagem e o tom de emails, feedbacks e até mensagens de chat, os LLMs podem captar sutilezas sobre o sentimento dos funcionários.
Essa habilidade permite que as equipes de RH entendam melhor os sentimentos de sua força de trabalho. Tem nuvens escuras pairando sobre certos departamentos? A moral tá caindo? Os LLMs podem ajudar a esclarecer essas questões, permitindo que as empresas tomem decisões mais informadas sobre estratégias de retenção.
O Conjunto de Dados em Detalhe
Vamos dar uma olhada nos dados que temos. O conjunto de dados de Atração de Funcionários da IBM contém informações detalhadas sobre os funcionários, incluindo 35 atributos diferentes. Esses dados cobrem demografia, níveis de satisfação no trabalho e indicadores de desempenho, oferecendo uma visão abrangente da vida profissional de cada funcionário.
No total, são 1.470 registros. Cada registro conta uma parte da história das experiências dos funcionários em seus papéis, o que pode ajudar a descobrir potenciais motivos de porque eles podem sair.
Preparando os Dados
Antes de mergulharmos na análise, precisávamos limpar os dados. Algumas das características no conjunto de dados não forneciam informações úteis para prever a rotatividade e foram removidas. Por exemplo, características como Contagem de Funcionários e Horas Padrão continham valores constantes que não contribuíam pra nossa compreensão do comportamento dos funcionários.
Depois disso, lidamos com valores ausentes e garantimos que o conjunto de dados estivesse livre de duplicatas. Isso nos permitiu focar apenas nos atributos que importavam.
Analisando o Desequilíbrio dos Dados
Um problema chave que descobrimos foi que o conjunto de dados estava desequilibrado. Uma enorme 83,9% dos funcionários não tinham saído da empresa, enquanto apenas 16,1% saíram. Esse desbalanceamento pode dificultar o aprendizado eficaz dos modelos, pois eles podem ficar tendenciosos em relação à classe majoritária.
Pra resolver isso, usamos técnicas como superamostragem para a classe minoritária e algoritmos especializados pra garantir que o modelo não desenvolvesse um viés em relação à maioria. Assim, conseguimos garantir que nossas previsões sobre rotatividade fossem tão precisas quanto possível.
Treinando os Modelos
Com um conjunto de dados limpo e equilibrado, pudemos treinar vários modelos pra ver como eles previam a rotatividade de funcionários. Trabalhamos com vários modelos clássicos de aprendizado de máquina:
- Regressão Logística: Esse modelo olha pras probabilidades de diferentes resultados com base nas características de entrada.
- Vizinhos Mais Próximos (KNN): Esse modelo simples classifica com base na proximidade com dados semelhantes.
- Máquinas de Vetores de Suporte (SVM): SVMs separam classes encontrando o melhor hiperplano.
- Árvores de Decisão: Esse modelo visualiza decisões e resultados em um formato de árvore.
- Random Forest: Esse modelo combina várias árvores de decisão pra melhorar a precisão da previsão.
- AdaBoost: Esse modelo melhora as previsões focando em instâncias mal classificadas.
- XGBoost: Uma escolha popular pela sua rapidez e precisão em lidar com grandes conjuntos de dados.
Além dos modelos clássicos, também ajustamos o modelo GPT-3.5 pra ver como ele se sai prevendo rotatividade.
Ajustando o Modelo GPT-3.5
Pra ajustar o modelo GPT-3.5, preparamos um conjunto de dados que incluía pares de perguntas e respostas. O modelo aprendeu com esses dados pra fazer previsões sobre a rotatividade de funcionários.
O ajuste foi uma etapa crítica, pois permitiu que o modelo GPT-3.5 se adaptasse às especificidades do nosso conjunto de dados. Uma vez pronto, testamos o modelo contra nossos modelos clássicos de aprendizado de máquina.
Avaliando o Desempenho
Pra ver como cada modelo se saiu, olhamos métricas como precisão e recall. Esses números ajudam a determinar quão efetivamente um modelo pode prever a rotatividade de funcionários.
Na nossa análise, o modelo GPT-3.5 ajustado ficou por cima, mostrando métricas impressionantes. Os modelos clássicos também tiveram desempenhos sólidos, mas nenhum conseguiu igualar a precisão do modelo GPT-3.5.
Essa diferença destaca a força que os LLMs trazem quando se trata de tarefas de previsão, abrindo novas possibilidades para as empresas explorarem na gestão da força de trabalho.
Olhando Pra Frente
E aí, o que vem a seguir? Tem muitos caminhos pra explorar no futuro. Poderíamos investigar como diferentes conjuntos de características impactam o desempenho do modelo. Entender quais fatores são mais influentes na previsão de rotatividade poderia ajudar as organizações a melhorar ainda mais suas estratégias de retenção.
Além disso, investigar a interpretabilidade desses modelos em configurações práticas será essencial pra sua aceitação nos departamentos de RH. As pessoas querem saber porque um modelo fez uma determinada previsão, e conseguir explicar essas decisões pode ajudar na implementação de mudanças com base nas recomendações do modelo.
Em conclusão, aproveitar as capacidades dos LLMs como o GPT-3.5 pra prever a rotatividade de funcionários pode mudar drasticamente a forma como as organizações gerenciam sua força de trabalho. Enquanto as empresas tentam manter as melhores pessoas, a integração de ferramentas preditivas avançadas pode ser o ingrediente secreto pro sucesso. Quem diria que entender seus funcionários poderia ser tão simples quanto ler nas entrelinhas?
Título: Can Large Language Model Predict Employee Attrition?
Resumo: Employee attrition poses significant costs for organizations, with traditional statistical prediction methods often struggling to capture modern workforce complexities. Machine learning (ML) advancements offer more scalable and accurate solutions, but large language models (LLMs) introduce new potential in human resource management by interpreting nuanced employee communication and detecting subtle turnover cues. This study leverages the IBM HR Analytics Attrition dataset to compare the predictive accuracy and interpretability of a fine-tuned GPT-3.5 model against traditional ML classifiers, including Logistic Regression, k-Nearest Neighbors (KNN), Support Vector Machine (SVM), Decision Tree, Random Forest, AdaBoost, and XGBoost. While traditional models are easier to use and interpret, LLMs can reveal deeper patterns in employee behavior. Our findings show that the fine-tuned GPT-3.5 model outperforms traditional methods with a precision of 0.91, recall of 0.94, and an F1-score of 0.92, while the best traditional model, SVM, achieved an F1-score of 0.82, with Random Forest and XGBoost reaching 0.80. These results highlight GPT-3.5's ability to capture complex patterns in attrition risk, offering organizations improved insights for retention strategies and underscoring the value of LLMs in HR applications.
Autores: Xiaoye Ma, Weiheng Liu, Changyi Zhao, Liliya R. Tukhvatulina
Última atualização: 2024-11-02 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2411.01353
Fonte PDF: https://arxiv.org/pdf/2411.01353
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.