Navegando nas Classificações de Trabalho para Novos Formados
Esse estudo usa modelos avançados pra classificar vagas de emprego pra recém-formados.
― 7 min ler
Índice
À medida que a tecnologia muda o mercado de trabalho, os recém-formados muitas vezes enfrentam desafios na busca por empregos. Muitas vagas de nível básico agora pedem mais experiência do que antes, criando um abismo entre o que os formados têm e o que os empregadores querem. Este estudo de caso analisa o uso de programas de computador avançados para ajudar a classificar empregos como adequados ou não para os recém-formados. O objetivo é facilitar a busca por empregos adequados usando uma análise de texto inteligente.
O Problema
O mercado de trabalho pode parecer esmagador, especialmente para os recém-formados. Pesquisas mostram que muitos empregos de nível básico exigem vários anos de experiência, dificultando a entrada dos novos formados no mercado. Com mais de um milhão de anúncios de emprego no Reino Unido a cada trimestre, filtrar essas listagens para encontrar as oportunidades certas consome muito tempo e esforço.
Há um descompasso entre a educação e as exigências do mercado, o que pode prejudicar financeiramente os graduados. Muitos empregos não deixam claro quais qualificações são necessárias, gerando confusão. Este estudo de caso foca na tarefa de classificar empregos, determinando se as vagas são apropriadas para os recém-formados.
O Método
Para resolver esse problema, pesquisamos diferentes maneiras de classificar empregos usando um método chamado "engenharia de prompts". Essa técnica envolve criar perguntas ou prompts claros para modelos de linguagem avançados avaliarem as postagens de emprego.
Usamos dois tipos principais de programas de computador para este estudo. O primeiro grupo consiste em métodos tradicionais, como Máquinas de Vetores de Suporte (SVM), conhecidas por sua eficácia na análise de texto. O segundo grupo inclui Modelos de Linguagem de Grande Escala (LLMs), que podem gerar texto semelhante ao humano e entender melhor os contextos da linguagem.
Testamos especificamente duas versões do GPT-3.5, conhecidas como text-davinci-003 e gpt-3.5-turbo, para ver como se saíam na classificação de postagens de emprego.
Coleta e Preparação de Dados
Nosso estudo usou postagens de emprego do Reino Unido coletadas ao longo de dois anos. Especialistas humanos revisaram essas postagens, classificando-as em duas categorias: "Recém-Formado" para empregos adequados e "Não-Recém-Formado" para os que não eram. Garantimos uma classificação de alta qualidade através de um rigoroso processo, criando um conjunto de dados confiável para treinar os modelos.
O conjunto de dados continha um total de 10.000 postagens, com uma distribuição de cerca de 30% classificadas como Recém-Formado e 70% como Não-Recém-Formado. Esse processo de classificação foi vital porque ajuda o modelo a aprender com exemplos precisos.
Métricas de Avaliação
Para ver como nossos modelos se saíram, usamos uma medida chamada Precisão a 95% de Recall (P@95%R). A Precisão nos diz quão preciso o modelo é ao identificar empregos adequados, mantendo uma alta taxa de recall, o que significa que ele encontra a maioria dos empregos reais para recém-formados.
Manter uma alta taxa de recall é crucial porque queremos minimizar as chances de deixar de fora posições adequadas para os graduados. Também olhamos para métricas adicionais, como recall geral, para entender como os modelos se saíram em diferentes cenários.
Métodos Tradicionais vs. Modelos Avançados
Começamos testando métodos tradicionais, como buscas por palavras-chave e classificadores supervisionados. Verificações simples de palavras-chave envolviam escanear postagens de emprego em busca de frases comuns que indicassem serem posições de nível básico. Embora esse método tenha fornecido um benchmark básico, logo ficou claro que abordagens mais avançadas trariam melhores resultados.
Usando SVM, também geramos uma linha de base de desempenho, mas isso foi rapidamente superado por métodos de aprendizado profundo. Um modelo chamado DeBERTa-V3, ajustado para tarefas de classificação de texto, mostrou resultados impressionantes.
No entanto, o destaque notável foram os Modelos de Linguagem de Grande Escala (LLMs). Nossos testes revelaram que o gpt-3.5-turbo teve um desempenho excepcional, superando modelos anteriores em termos de precisão no limiar de recall de 95%.
O Impacto da Engenharia de Prompts
O coração do nosso estudo girou em torno do refinamento dos prompts que usamos para guiar os modelos. Mudanças pequenas na forma como formulamos nossas perguntas tiveram efeitos significativos em seu desempenho.
Por exemplo, começamos com um prompt básico perguntando se um emprego é adequado para um recém-formado. Depois, experimentamos perguntas mais estruturadas, fornecendo dois exemplos de empregos adequados. Surpreendentemente, esse método não teve resultados melhores do que a abordagem mais simples.
Em seguida, exploramos dar instruções explícitas ao modelo, definindo seu papel como um especialista em aconselhamento de carreira. Isso melhorou significativamente o desempenho em comparação com tentativas anteriores. Também tentamos guiar o raciocínio do modelo enfatizando que certos requisitos de trabalho, como estágios, ainda podem ser apropriados para graduados.
Principais Descobertas das Modificações de Prompts
Através de nossos experimentos, descobrimos que os prompts mais eficazes eram aqueles que combinavam instruções claras, templates estruturados para respostas e reforço positivo. Por exemplo, chamar o modelo por um nome e usar uma linguagem amigável aumentou sua disposição em seguir as instruções.
O prompt final que gerou o melhor desempenho criou um conjunto detalhado de instruções que esclareciam o papel do modelo, enquanto também estabelecia expectativas sobre como ele deveria analisar as postagens de emprego. Essa abordagem levou a altas taxas de precisão e recall, tornando o modelo muito mais confiável para filtrar postagens de emprego.
Resultados e Discussão
Os resultados do nosso estudo demonstram fortemente as vantagens de usar modelos de linguagem avançados e técnicas de engenharia de prompts eficazes. O modelo mais bem-sucedido, gpt-3.5-turbo, forneceu classificações precisas, mostrando uma notável melhoria em precisão em comparação com métodos tradicionais.
Embora modelos tradicionais como os SVM tenham estabelecido uma base sólida, tiveram dificuldades quando enfrentaram as complexidades das descrições de empregos modernas. Os LLMs, especialmente quando devidamente orientados por meio da engenharia de prompts, provaram ser superiores na análise de detalhes de empregos e na compreensão de sinais sutis na linguagem.
Além disso, pequenas modificações nos prompts geraram um grande impacto nas habilidades de classificação dos modelos. Por exemplo, instruções simples e formatos estruturados para respostas melhoraram dramaticamente o desempenho dos modelos.
Conclusão
Este estudo destaca o potencial dos modelos de linguagem modernos para resolver problemas do mundo real, como a classificação de empregos para recém-formados. Empregar técnicas de engenharia de prompts eficazes maximizou o desempenho desses modelos e demonstrou sua capacidade de simplificar o processo de busca por empregos.
Ao refinar nossa abordagem sobre como interagimos com esses modelos de linguagem, podemos fazer progressos significativos em ajudar novos graduados a encontrar oportunidades de emprego adequadas. À medida que a tecnologia evolui, novas pesquisas sobre técnicas de prompts e seu impacto no desempenho do modelo continuarão a descobrir novas possibilidades. Os insights obtidos com este estudo de caso contribuirão para o desenvolvimento contínuo de ferramentas voltadas a apoiar indivíduos na transição da educação para o mercado de trabalho.
Título: Large Language Models in the Workplace: A Case Study on Prompt Engineering for Job Type Classification
Resumo: This case study investigates the task of job classification in a real-world setting, where the goal is to determine whether an English-language job posting is appropriate for a graduate or entry-level position. We explore multiple approaches to text classification, including supervised approaches such as traditional models like Support Vector Machines (SVMs) and state-of-the-art deep learning methods such as DeBERTa. We compare them with Large Language Models (LLMs) used in both few-shot and zero-shot classification settings. To accomplish this task, we employ prompt engineering, a technique that involves designing prompts to guide the LLMs towards the desired output. Specifically, we evaluate the performance of two commercially available state-of-the-art GPT-3.5-based language models, text-davinci-003 and gpt-3.5-turbo. We also conduct a detailed analysis of the impact of different aspects of prompt engineering on the model's performance. Our results show that, with a well-designed prompt, a zero-shot gpt-3.5-turbo classifier outperforms all other models, achieving a 6% increase in Precision@95% Recall compared to the best supervised approach. Furthermore, we observe that the wording of the prompt is a critical factor in eliciting the appropriate "reasoning" in the model, and that seemingly minor aspects of the prompt significantly affect the model's performance.
Autores: Benjamin Clavié, Alexandru Ciceu, Frederick Naylor, Guillaume Soulié, Thomas Brightwell
Última atualização: 2023-04-18 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2303.07142
Fonte PDF: https://arxiv.org/pdf/2303.07142
Licença: https://creativecommons.org/licenses/by-nc-sa/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.