Jobanzeigen besser organisieren für mehr Klarheit
Eine neue Methode zur Klassifizierung von Stellenanzeigen verbessert das Verständnis des Arbeitsmarkts.
Maciej Beręsewicz, Marek Wydmuch, Herman Cherniaiev, Robert Pater
― 4 min Lesedauer
Inhaltsverzeichnis
- Der Bedarf an Klassifizierung
- Was ist ein Klassifizierer?
- Die Magie der Datenquellen
- Die hierarchische Struktur
- Die Rolle der Sprache
- Die Herausforderung der Langschwanzverteilung
- Die Kraft der Transformers
- Training des Klassifizierers
- Leistungsevaluation
- Ergebnisse und Erkenntnisse
- Die Bedeutung offener Daten
- Fazit
- Originalquelle
- Referenz Links
Hast du schon mal versucht, online nach einem Job zu suchen? Wenn ja, hast du vielleicht gemerkt, dass Jobanzeigen überall sind und nicht alle leicht zu verstehen sind. In diesem Papier geht’s darum, wie man diese Jobanzeigen sinnvoll kategorisieren kann. Stell dir vor, du versuchst, eine bestimmte Pizzasorte aus einem Meer von Optionen zu finden. Wäre es nicht einfacher, wenn sie ordentlich nach Belägen und Stilen sortiert wären? Das wollen wir mit Jobanzeigen machen!
Der Bedarf an Klassifizierung
Der Arbeitsmarkt ist wie ein riesiges Puzzle, aber manchmal fühlt es sich an, als fehlen einem die Hälfte der Teile. Wir müssen wissen, welche Arten von Jobs es gibt, wie viele es sind und welche Fähigkeiten gefragt sind. Da kommt unser Klassifizierer ins Spiel. Indem wir Jobanzeigen in Kategorien einteilen, können wir besser verstehen, was im Arbeitsmarkt passiert.
Was ist ein Klassifizierer?
Ein Klassifizierer ist wie ein smarter Assistent, der hilft, alles zu sortieren. Stell dir einen hilfsbereiten Roboter vor, der sich verschiedene Jobanzeigen anschaut und sagt: „Ah, diese hier ist für einen Softwareentwickler, und diese hier ist für einen Bäcker.“ Unser Klassifizierer macht genau das, braucht aber ein bisschen Anleitung, um es richtig zu machen.
Die Magie der Datenquellen
Wie trainieren wir jetzt diesen Klassifizierer? Wir füttern ihn mit Daten – ganz vielen Jobanzeigen! Wir haben Informationen aus verschiedenen Quellen gesammelt, einschliesslich einer offiziellen Datenbank, die Jobs aufzeichnet. Denk daran wie an eine Schatztruhe voller Jobmöglichkeiten, die nur darauf warten, entdeckt zu werden.
Die hierarchische Struktur
Jobs können in einer Hierarchie gruppiert werden, ähnlich wie ein Stammbaum. Ganz oben haben wir breite Kategorien wie „Gesundheitswesen“ oder „Technologie“. Darunter haben wir spezifischere Jobs wie „Krankenschwester“ oder „Softwareingenieur“. Diese Organisation hilft unserem Klassifizierer, genauere Vorhersagen zu treffen.
Die Rolle der Sprache
Unser Klassifizierer ist mehrsprachig, was bedeutet, dass er Jobanzeigen in verschiedenen Sprachen verstehen kann. Es ist wie ein Übersetzer, der dafür sorgt, dass jeder versteht, was gesagt wird. So können wir Jobanzeigen aus verschiedenen Ländern einbeziehen und unsere Ergebnisse für ein breiteres Publikum relevant machen.
Die Herausforderung der Langschwanzverteilung
Hier ist etwas Lustiges: In der Arbeitswelt sind manche Positionen super beliebt, während andere kaum Beachtung finden. Es ist wie eine Show, in der der Hauptdarsteller all den Applaus bekommt, während die Nebenrollen einfach froh sind, dabei zu sein. Diese Ungleichheit nennt man Langschwanzverteilung und sie kann es für unseren Klassifizierer knifflig machen.
Die Kraft der Transformers
Um unseren Klassifizierer richtig smart zu machen, nutzen wir eine Technologie namens Transformers. Nein, wir sprechen nicht von Robotern, die sich in Autos verwandeln! In der Programmierwelt analysieren diese Transformers Texte, um den Kontext und die Bedeutung zu verstehen. Sie sind wie die weise alten Weisen der Sprache.
Klassifizierers
Training desWir haben unseren Klassifizierer einem intensiven Training unterzogen und ihn mit Tausenden von Jobanzeigen gefüttert, damit er lernen kann. Denk daran wie an einen Schüler, der für Prüfungen paukt – viele Spätabende und Kaffee! Am Ende des Trainings kann unser Klassifizierer Jobkategorien mit beeindruckender Genauigkeit identifizieren.
Leistungsevaluation
Ähnlich wie bei einem Zeugnis haben wir ausgewertet, wie gut unser Klassifizierer abgeschnitten hat. Wir haben geschaut, wie genau er Jobanzeigen kategorisiert hat und wie oft er Fehler gemacht hat. Diese Informationen helfen uns zu verstehen, wo er glänzt und wo er sich verbessern muss.
Ergebnisse und Erkenntnisse
Nach all der harten Arbeit haben wir einige interessante Dinge entdeckt! Unser Klassifizierer hat insgesamt ziemlich gut abgeschnitten, besonders bei Jobanzeigen auf Polnisch und Englisch. Mit Sprachen, die er nicht so oft gesehen hat, hatte er etwas mehr Schwierigkeiten, ähnlich wie beim Lernen eines Dialekts, den man noch nie gehört hat.
Die Bedeutung offener Daten
Auf unserer Suche nach Wissen über Jobanzeigen haben wir erkannt, dass Offene Daten entscheidend sind. Indem wir unsere Ergebnisse und Methoden teilen, ermöglichen wir es anderen, von unserer Arbeit zu lernen. Das ist wie ein Koch, der sein geheimes Rezept teilt, damit jeder ein Stück vom Kuchen geniessen kann!
Fazit
Unsere Arbeit zeigt, dass Jobanzeigen so organisiert werden können, dass sie leichter zu verstehen sind. Das hilft nicht nur den Jobsuchenden, sondern liefert auch wertvolle Informationen für Entscheidungsträger. Wer hätte gedacht, dass Jobanzeigen so mächtig sein können? Mit unserem Klassifizierer machen wir einen grossen Schritt in Richtung einer klareren Arbeitsmarktübersicht für alle. Also lass uns weiter sortieren und klassifizieren, eine Jobanzeige nach der anderen!
Titel: Multilingual hierarchical classification of job advertisements for job vacancy statistics
Zusammenfassung: The goal of this paper is to develop a multilingual classifier and conditional probability estimator of occupation codes for online job advertisements according in accordance with the International Standard Classification of Occupations (ISCO) extended with the Polish Classification of Occupations and Specializations (KZiS), which is analogous to the European Classification of Occupations. In this paper, we utilise a range of data sources, including a novel one, namely the Central Job Offers Database, which is a register of all vacancies submitted to Public Employment Offices. Their staff members code the vacancies according to the ISCO and KZiS. A hierarchical multi-class classifier has been developed based on the transformer architecture. The classifier begins by encoding the jobs found in advertisements to the widest 1-digit occupational group, and then narrows the assignment to a 6-digit occupation code. We show that incorporation of the hierarchical structure of occupations improves prediction accuracy by 1-2 percentage points, particularly for the hand-coded online job advertisements. Finally, a bilingual (Polish and English) and multilingual (24 languages) model is developed based on data translated using closed and open-source software. The open-source software is provided for the benefit of the official statistics community, with a particular focus on international comparability.
Autoren: Maciej Beręsewicz, Marek Wydmuch, Herman Cherniaiev, Robert Pater
Letzte Aktualisierung: 2024-11-06 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2411.03779
Quell-PDF: https://arxiv.org/pdf/2411.03779
Lizenz: https://creativecommons.org/licenses/by-sa/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.
Referenz Links
- https://lightcast.io/about/data
- https://www.cedefop.europa.eu/en/tools/skills-online-vacancies/occupations/
- https://statistics-awards.eu/
- https://www.gov.pl/web/edukacja/zawody-szkolnictwa-branzowego
- https://psz.praca.gov.pl/rynek-pracy/bazy-danych/klasyfikacja-zawodow-i-specjalnosci/wyszukiwarka-opisow-zawodow
- https://psz.praca.gov.pl/rynek-pracy/bazy-danych/infodoradca
- https://stat.gov.pl/Klasyfikacje/doc/kzs/slownik.html
- https://esco.ec.europa.eu/en/classification/occupation_main
- https://nabory.kprm.gov.pl
- https://warszawa.praca.gov.pl/zgloszenie-oferty-pracy
- https://www.gov.pl/web/edukacja/prognoza-zapotrzebowania-na-pracownikow-w-zawodach-szkolnictwa-branzowego-na-krajowym-i-wojewodzkim-rynku-pracy-2024
- https://oferty.praca.gov.pl/portal/index.cbop
- https://github.com/OJALAB/CBOP-datasets
- https://github.com/argosopentech/argos-translate
- https://github.com/OJALAB/job-ads-datasets/blob/main/data/codes-not-coveted.csv
- https://huggingface.co/allegro/herbert-base-cased
- https://huggingface.co/allegro/herbert-large-cased
- https://huggingface.co/FacebookAI/XLM-roberta-base
- https://huggingface.co/FacebookAI/XLM-roberta-large
- https://esco.ec.europa.eu/en/about-esco/data-science-and-esco/crosswalk-between-esco-and-onet
- https://github.com/OJALAB/job-ads-classifier
- https://repod.icm.edu.pl/dataset.xhtml?persistentId=doi:10.18150/OCUTSI
- https://colab.research.google.com/drive/1a425aagT0lczRxXPWoUlf5aFxUII37nh?usp=sharing