Organizando Anúncios de Emprego pra Ficar Mais Claro
Um novo método pra classificar anúncios de emprego melhora a compreensão do mercado de trabalho.
Maciej Beręsewicz, Marek Wydmuch, Herman Cherniaiev, Robert Pater
― 4 min ler
Índice
- A Necessidade de Classificação
- O que é um Classificador?
- A Mágica das Fontes de Dados
- A Estrutura Hierárquica
- O Papel da Linguagem
- O Desafio da Distribuição Long-Tail
- O Poder dos Transformers
- Treinando o Classificador
- Avaliação de Desempenho
- Resultados e Descobertas
- A Importância dos Dados Abertos
- Conclusão
- Fonte original
- Ligações de referência
Já tentou achar um emprego online? Se sim, deve ter percebido que os anúncios de emprego estão por toda parte, e nem todos são fáceis de entender. Esse texto é sobre como fazer sentido desses anúncios organizando eles em categorias. Imagina tentar encontrar um tipo específico de pizza em um mar de opções. Não seria mais fácil se estivessem organizados por coberturas e estilos? É isso que queremos fazer com os anúncios de emprego!
A Necessidade de Classificação
O mercado de trabalho é como um quebra-cabeça gigante, mas às vezes parece que você tá sem metade das peças. Precisamos saber que tipos de empregos existem, quantos são e quais habilidades estão em alta. É aí que entra o nosso classificador. Organizando os anúncios de emprego em categorias, podemos entender melhor o que tá rolando no mercado de trabalho.
O que é um Classificador?
Um classificador é como um assistente esperto que ajuda a organizar as coisas. Imagina um robô prestativo que dá uma olhada em diferentes anúncios de emprego e depois fala: “Ah, esse aqui é de um desenvolvedor de software, e esse aqui é de um padeiro.” O nosso classificador faz isso, mas precisa de uma ajudinha pra acertar.
A Mágica das Fontes de Dados
Agora, como treinamos esse classificador? A gente alimenta ele com dados-muitos e muitos anúncios de emprego! Coletamos informações de vários lugares, incluindo um banco de dados oficial que registra empregos. Pense nisso como um baú do tesouro cheio de oportunidades de trabalho esperando pra ser descoberto.
A Estrutura Hierárquica
Os empregos podem ser agrupados em uma hierarquia, meio como uma árvore genealógica. No topo, temos categorias amplas, como “Saúde” ou “Tecnologia.” Aí, abaixo disso, temos empregos mais específicos, como “Enfermeiro” ou “Engenheiro de Software.” Essa organização ajuda nosso classificador a dar previsões mais precisas.
O Papel da Linguagem
Nosso classificador é multilíngue, ou seja, ele entende anúncios de emprego em várias línguas. É como ter um tradutor que garante que todo mundo entenda o que tá sendo dito. Assim, conseguimos incluir anúncios de diferentes países, tornando nossas descobertas relevantes pra uma audiência maior.
O Desafio da Distribuição Long-Tail
Aqui tem uma coisa engraçada: no mundo do trabalho, algumas posições são super populares, enquanto outras quase não recebem atenção. É como um show onde o ator principal recebe todos os aplausos, mas o elenco de apoio tá só feliz de estar lá. Essa desigualdade é chamada de distribuição long-tail, e pode complicar as coisas pro nosso classificador.
O Poder dos Transformers
Pra ajudar nosso classificador a ficar super esperto, usamos uma tecnologia chamada transformers. Não, não estamos falando de robôs que viram carros! No mundo da programação, esses transformers analisam texto pra entender contexto e significado. Eles são como os sábios da linguagem.
Treinando o Classificador
Colocamos nosso classificador pra passar por um treinamento rigoroso, alimentando ele com milhares de anúncios de emprego pra aprender. Pense nisso como um estudante se preparando pra provas-muitas noites em claro e café! No final do treinamento, nosso classificador consegue identificar categorias de emprego com uma precisão impressionante.
Avaliação de Desempenho
Assim como um boletim escolar, avaliamos quão bem nosso classificador se saiu. Olhamos quão precisamente ele categorizou os anúncios de emprego e quantas vezes ele errou. Essas informações ajudam a entender onde ele brilha e onde precisa melhorar.
Resultados e Descobertas
Depois de todo o trabalho duro, encontramos algumas coisas interessantes! Nosso classificador se saiu bem no geral, especialmente com anúncios em polonês e inglês. Ele teve um pouco mais de dificuldade com idiomas que não viu tão frequentemente, parecido com tentar aprender um dialeto que você nunca ouviu antes.
Dados Abertos
A Importância dosNa nossa busca por conhecimento sobre anúncios de emprego, percebemos que dados abertos são cruciais. Compartilhando nossas descobertas e métodos, conseguimos permitir que outros aprendam com nosso trabalho. É como um chef compartilhando sua receita secreta, permitindo que todos desfrutem de uma fatia da torta!
Conclusão
Nosso trabalho mostra que os anúncios de emprego podem ser organizados de um jeito que os torna mais fáceis de entender. Isso ajuda não só quem tá procurando emprego, mas também fornece informações valiosas pros formuladores de políticas. Quem diria que anúncios de emprego poderiam ser tão poderosos? Com nosso classificador, estamos dando um grande passo pra deixar o mercado de trabalho mais claro pra todo mundo. Então vamos continuar organizando e classificando, um anúncio de emprego de cada vez!
Título: Multilingual hierarchical classification of job advertisements for job vacancy statistics
Resumo: The goal of this paper is to develop a multilingual classifier and conditional probability estimator of occupation codes for online job advertisements according in accordance with the International Standard Classification of Occupations (ISCO) extended with the Polish Classification of Occupations and Specializations (KZiS), which is analogous to the European Classification of Occupations. In this paper, we utilise a range of data sources, including a novel one, namely the Central Job Offers Database, which is a register of all vacancies submitted to Public Employment Offices. Their staff members code the vacancies according to the ISCO and KZiS. A hierarchical multi-class classifier has been developed based on the transformer architecture. The classifier begins by encoding the jobs found in advertisements to the widest 1-digit occupational group, and then narrows the assignment to a 6-digit occupation code. We show that incorporation of the hierarchical structure of occupations improves prediction accuracy by 1-2 percentage points, particularly for the hand-coded online job advertisements. Finally, a bilingual (Polish and English) and multilingual (24 languages) model is developed based on data translated using closed and open-source software. The open-source software is provided for the benefit of the official statistics community, with a particular focus on international comparability.
Autores: Maciej Beręsewicz, Marek Wydmuch, Herman Cherniaiev, Robert Pater
Última atualização: 2024-11-06 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2411.03779
Fonte PDF: https://arxiv.org/pdf/2411.03779
Licença: https://creativecommons.org/licenses/by-sa/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://lightcast.io/about/data
- https://www.cedefop.europa.eu/en/tools/skills-online-vacancies/occupations/
- https://statistics-awards.eu/
- https://www.gov.pl/web/edukacja/zawody-szkolnictwa-branzowego
- https://psz.praca.gov.pl/rynek-pracy/bazy-danych/klasyfikacja-zawodow-i-specjalnosci/wyszukiwarka-opisow-zawodow
- https://psz.praca.gov.pl/rynek-pracy/bazy-danych/infodoradca
- https://stat.gov.pl/Klasyfikacje/doc/kzs/slownik.html
- https://esco.ec.europa.eu/en/classification/occupation_main
- https://nabory.kprm.gov.pl
- https://warszawa.praca.gov.pl/zgloszenie-oferty-pracy
- https://www.gov.pl/web/edukacja/prognoza-zapotrzebowania-na-pracownikow-w-zawodach-szkolnictwa-branzowego-na-krajowym-i-wojewodzkim-rynku-pracy-2024
- https://oferty.praca.gov.pl/portal/index.cbop
- https://github.com/OJALAB/CBOP-datasets
- https://github.com/argosopentech/argos-translate
- https://github.com/OJALAB/job-ads-datasets/blob/main/data/codes-not-coveted.csv
- https://huggingface.co/allegro/herbert-base-cased
- https://huggingface.co/allegro/herbert-large-cased
- https://huggingface.co/FacebookAI/XLM-roberta-base
- https://huggingface.co/FacebookAI/XLM-roberta-large
- https://esco.ec.europa.eu/en/about-esco/data-science-and-esco/crosswalk-between-esco-and-onet
- https://github.com/OJALAB/job-ads-classifier
- https://repod.icm.edu.pl/dataset.xhtml?persistentId=doi:10.18150/OCUTSI
- https://colab.research.google.com/drive/1a425aagT0lczRxXPWoUlf5aFxUII37nh?usp=sharing