Organizando Anuncios de Trabajo para Más Claridad
Un nuevo método para clasificar anuncios de trabajo mejora la comprensión del mercado laboral.
Maciej Beręsewicz, Marek Wydmuch, Herman Cherniaiev, Robert Pater
― 5 minilectura
Tabla de contenidos
- La necesidad de clasificación
- ¿Qué es un clasificador?
- La magia de las fuentes de datos
- La estructura jerárquica
- El papel del lenguaje
- El desafío de la distribución de cola larga
- El poder de los transformadores
- Entrenando al clasificador
- Evaluación del rendimiento
- Resultados y hallazgos
- La importancia de los Datos Abiertos
- Conclusión
- Fuente original
- Enlaces de referencia
¿Alguna vez has tratado de buscar trabajo en línea? Si es así, te habrás dado cuenta de que los anuncios de trabajo están por todas partes y no todos son fáciles de entender. Este documento trata sobre cómo darle sentido a estos anuncios de trabajo organizándolos en categorías. Imagina tratar de encontrar un tipo específico de pizza entre un mar de opciones. ¿No sería más fácil si estuvieran organizados por ingredientes y estilos? ¡Eso es lo que queremos hacer con los anuncios de trabajo!
La necesidad de clasificación
El mercado laboral es como un rompecabezas gigante, pero a veces parece que te faltan la mitad de las piezas. Necesitamos saber qué tipos de trabajos hay, cuántos hay y qué habilidades están en demanda. Ahí es donde entra nuestro clasificador. Al organizar los anuncios de trabajo en categorías, podemos entender mejor lo que está pasando en el mercado laboral.
¿Qué es un clasificador?
Un clasificador es como un asistente inteligente que ayuda a organizar las cosas. Imagina un robot útil que mira diferentes anuncios de trabajo y dice: “Ah, este es para un desarrollador de software, y este es para un panadero.” Nuestro clasificador hace eso, pero necesita un poco de guía para acertar.
La magia de las fuentes de datos
Ahora, ¿cómo entrenamos a este clasificador? Le damos datos, ¡muchísimos anuncios de trabajo! Reunimos información de varios lugares, incluido una base de datos oficial que registra trabajos. Piensa en ello como un cofre del tesoro lleno de oportunidades laborales esperando ser descubiertas.
La estructura jerárquica
Los trabajos se pueden agrupar en una jerarquía, como un árbol genealógico. En la parte superior, tenemos categorías amplias, como “Salud” o “Tecnología.” Luego, debajo de ellas, tenemos trabajos más específicos, como “Enfermero” o “Ingeniero de Software.” Esta organización ayuda a nuestro clasificador a dar predicciones más precisas.
El papel del lenguaje
Nuestro clasificador es multilingüe, lo que significa que puede entender anuncios de trabajo en varios idiomas. Es como tener un traductor que se asegura de que todos comprendan lo que se dice. De esta manera, podemos incluir anuncios de trabajo de diferentes países, haciendo que nuestros hallazgos sean relevantes para una audiencia más amplia.
El desafío de la distribución de cola larga
Aquí hay algo curioso: en el mundo laboral, algunas posiciones son súper populares, mientras que otras apenas reciben atención. Es como un espectáculo donde el actor principal recibe todos los aplausos, pero el elenco de apoyo solo está feliz de estar allí. Esta desigualdad se llama distribución de cola larga, y puede complicar las cosas para nuestro clasificador.
El poder de los transformadores
Para ayudar a nuestro clasificador a volverse súper inteligente, usamos un tipo de tecnología llamada transformadores. No, no estamos hablando de robots que se convierten en autos. En el mundo de la codificación, estos transformadores analizan texto para entender el contexto y el significado. Son como los sabios ancianos del lenguaje.
Entrenando al clasificador
Ponemos nuestro clasificador a través de un entrenamiento riguroso, alimentándolo con miles de anuncios de trabajo para que aprenda. Piensa en ello como un estudiante que estudia para los exámenes-muchas noches sin dormir y café. Al final del entrenamiento, nuestro clasificador puede identificar categorías de trabajo con una precisión impresionante.
Evaluación del rendimiento
Al igual que un boletín escolar, evaluamos qué tan bien lo hizo nuestro clasificador. Miramos qué tan precisamente categorizó los anuncios de trabajo y cuántas veces cometió errores. Esta información nos ayuda a entender en qué brilla y en qué necesita mejorar.
Resultados y hallazgos
¡Después de todo el trabajo duro, encontramos cosas interesantes! Nuestro clasificador lo hizo bastante bien en general, especialmente con anuncios de trabajo en polaco e inglés. Le costó un poco más con idiomas que no vio con tanta frecuencia, similar a tratar de aprender un dialecto que nunca has escuchado antes.
Datos Abiertos
La importancia de losEn nuestra búsqueda de conocimiento sobre anuncios de trabajo, nos dimos cuenta de que los datos abiertos son cruciales. Al compartir nuestros hallazgos y métodos, permitimos que otros aprendan de nuestro trabajo. ¡Esto es como un chef compartiendo su receta secreta, permitiendo que todos disfruten de un pedazo del pastel!
Conclusión
Nuestro trabajo muestra que los anuncios de trabajo se pueden organizar de una manera que los hace más fáciles de entender. Esto no solo ayuda a los que buscan trabajo, sino que también proporciona información valiosa para los responsables de políticas. ¿Quién sabía que los anuncios de trabajo podían ser tan poderosos? Con nuestro clasificador, estamos dando un gran paso hacia hacer que el mercado laboral sea más claro para todos. ¡Así que sigamos organizando y clasificando, un anuncio de trabajo a la vez!
Título: Multilingual hierarchical classification of job advertisements for job vacancy statistics
Resumen: The goal of this paper is to develop a multilingual classifier and conditional probability estimator of occupation codes for online job advertisements according in accordance with the International Standard Classification of Occupations (ISCO) extended with the Polish Classification of Occupations and Specializations (KZiS), which is analogous to the European Classification of Occupations. In this paper, we utilise a range of data sources, including a novel one, namely the Central Job Offers Database, which is a register of all vacancies submitted to Public Employment Offices. Their staff members code the vacancies according to the ISCO and KZiS. A hierarchical multi-class classifier has been developed based on the transformer architecture. The classifier begins by encoding the jobs found in advertisements to the widest 1-digit occupational group, and then narrows the assignment to a 6-digit occupation code. We show that incorporation of the hierarchical structure of occupations improves prediction accuracy by 1-2 percentage points, particularly for the hand-coded online job advertisements. Finally, a bilingual (Polish and English) and multilingual (24 languages) model is developed based on data translated using closed and open-source software. The open-source software is provided for the benefit of the official statistics community, with a particular focus on international comparability.
Autores: Maciej Beręsewicz, Marek Wydmuch, Herman Cherniaiev, Robert Pater
Última actualización: 2024-11-06 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2411.03779
Fuente PDF: https://arxiv.org/pdf/2411.03779
Licencia: https://creativecommons.org/licenses/by-sa/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.
Enlaces de referencia
- https://lightcast.io/about/data
- https://www.cedefop.europa.eu/en/tools/skills-online-vacancies/occupations/
- https://statistics-awards.eu/
- https://www.gov.pl/web/edukacja/zawody-szkolnictwa-branzowego
- https://psz.praca.gov.pl/rynek-pracy/bazy-danych/klasyfikacja-zawodow-i-specjalnosci/wyszukiwarka-opisow-zawodow
- https://psz.praca.gov.pl/rynek-pracy/bazy-danych/infodoradca
- https://stat.gov.pl/Klasyfikacje/doc/kzs/slownik.html
- https://esco.ec.europa.eu/en/classification/occupation_main
- https://nabory.kprm.gov.pl
- https://warszawa.praca.gov.pl/zgloszenie-oferty-pracy
- https://www.gov.pl/web/edukacja/prognoza-zapotrzebowania-na-pracownikow-w-zawodach-szkolnictwa-branzowego-na-krajowym-i-wojewodzkim-rynku-pracy-2024
- https://oferty.praca.gov.pl/portal/index.cbop
- https://github.com/OJALAB/CBOP-datasets
- https://github.com/argosopentech/argos-translate
- https://github.com/OJALAB/job-ads-datasets/blob/main/data/codes-not-coveted.csv
- https://huggingface.co/allegro/herbert-base-cased
- https://huggingface.co/allegro/herbert-large-cased
- https://huggingface.co/FacebookAI/XLM-roberta-base
- https://huggingface.co/FacebookAI/XLM-roberta-large
- https://esco.ec.europa.eu/en/about-esco/data-science-and-esco/crosswalk-between-esco-and-onet
- https://github.com/OJALAB/job-ads-classifier
- https://repod.icm.edu.pl/dataset.xhtml?persistentId=doi:10.18150/OCUTSI
- https://colab.research.google.com/drive/1a425aagT0lczRxXPWoUlf5aFxUII37nh?usp=sharing