Karrierewege: Die Zukunft der Vorhersage von Karrierepfaden
Ein neuer Datensatz verändert, wie wir Karriereentscheidungen vorhersagen.
Elena Senger, Yuri Campbell, Rob van der Goot, Barbara Plank
― 7 min Lesedauer
Inhaltsverzeichnis
- Was ist Karrierewege?
- Die Herausforderung von Jobtiteln und Lebensläufen
- Warum die Prognose von Karrierewegen wichtig ist
- Verknüpfung mit ESCO
- Erstellung des Datensatzes
- Synthese von Daten
- Qualitätskontrollmassnahmen
- Vergleich mit anderen Datensätzen
- Benchmarking und Modelltraining
- Nächste Schritte und Zukunftsmöglichkeiten
- Ethische Überlegungen
- Fazit
- Originalquelle
- Referenz Links
In der Welt der Jobsuche und Rekrutierung kann es echt knifflig sein, vorherzusagen, wohin jemand als Nächstes in seiner Karriere geht. Es ist wie zu versuchen, den nächsten Tanzschritt von jemandem zu erraten, der richtig gut tanzt – sie könnten dich überraschen! Der Bedarf an Tools, die helfen, Karrierebewegungen vorherzusagen, wächst, aber das Problem ist, dass wir oft nicht alle Daten haben, die wir brauchen. Zum Glück ist ein neuer Datensatz namens Karrierewege da, um zu helfen.
Was ist Karrierewege?
Karrierewege ist eine grosse Sammlung von über 500.000 Karrierepfaden. Das sind jede Menge Karriereschritte! Dieser Datensatz ist viel grösser als viele andere da draussen und ist eine wertvolle Ressource für jeden, der Einblicke in Karriereverläufe braucht. Die Ersteller haben diese Sammlung mit einem populären europäischen Klassifizierungssystem namens ESCO verknüpft. So wird es einfacher, Jobwechsel zu verstehen und vorherzusagen.
Die Herausforderung von Jobtiteln und Lebensläufen
Ein häufiges Problem auf dem Arbeitsmarkt ist, dass Lebensläufe oft Freitext-Jobs und Beschreibungen enthalten. Denk an Lebensläufe wie an ein Buffet; jeder hat unterschiedliche Geschmäcker, und nicht jeder serviert dasselbe Gericht. Um die Vorhersagen genauer zu machen, haben die Ersteller von Karrierewege eine clevere Lösung gefunden. Sie haben neue Jobtitel und Beschreibungen generiert, um die Lücken zu füllen. Das nennt sich Karrierewege+. Mit diesen neuen synthetischen Titeln und Beschreibungen ist es viel einfacher, Vorhersagen aus dem bunten Mix an Informationen in echten Lebensläufen zu machen.
Warum die Prognose von Karrierewegen wichtig ist
Die Vorhersage von Karrierewegen ist für viele Leute hilfreich. Jobsuchende wollen wissen, welche Optionen sie in der Zukunft haben könnten. Recruiter wollen die besten Kandidaten für Jobs finden. HR-Abteilungen wollen die Trends im Arbeitsmarkt im Auge behalten. Lehrer und Trainer suchen vielleicht nach Wegen, um Schülern die richtigen Fähigkeiten zu vermitteln. Alle diese Gruppen können von besseren Vorhersagen über Karrieren profitieren.
Allerdings war das Feld durch die Verfügbarkeit von Datensätzen mit detaillierten Karriereverläufen eingeschränkt. Die meisten vorhandenen Datensätze sind kleiner und nicht öffentlich zugänglich. Daher ist die Veröffentlichung von Karrierewege besonders spannend!
Verknüpfung mit ESCO
Die ESCO-Taxonomie steht für "Europäische Kompetenzen, Fertigkeiten, Qualifikationen und Berufe". Sie hilft dabei, Jobbegriffe und Fähigkeiten im europäischen Arbeitsmarkt zu standardisieren. Das ist ähnlich wie eine gemeinsame Sprache; es kann Gespräche über Jobs viel einfacher machen. Das ESCO-System umfasst Tausende von Jobtiteln und Fähigkeiten in 28 verschiedenen Sprachen. Als die Ersteller von Karrierewege beschlossen, ihren Datensatz mit ESCO zu verknüpfen, eröffneten sie wirklich viele Möglichkeiten für Forschung und Anwendung.
Erstellung des Datensatzes
Einen Datensatz wie Karrierewege zu erstellen, ist keine kleine Sache! Das Team dahinter hat anonymisierte Lebensläufe von der Bundesagentur für Arbeit als Ausgangspunkt verwendet. Sie fanden Lebensläufe von Personen, die Jobs in den unterschiedlichsten Branchen suchten. Trotzdem, wie ein Koch, der die Suppe probiert, bemerkten sie, dass der Datensatz einige Verzerrungen haben könnte. Zum Beispiel könnte er mehr zu Branchen mit höherer Arbeitslosigkeit tendieren als andere, oder der kulturelle Kontext könnte sich auf Deutschland konzentrieren.
Um dem entgegenzuwirken, haben sie die Jobtitel aus den Lebensläufen mit den entsprechenden Titeln im ESCO-System abgebildet. Diese sorgfältige Zuordnung hilft sicherzustellen, dass die gesammelten Daten nützlich und genau sind.
Synthese von Daten
Eine der herausragenden Funktionen von Karrierewege+ ist die Verwendung von synthetischen Daten. Um den Datensatz robuster und nützlicher zu machen, haben sie grosse Sprachmodelle eingesetzt, um neue Jobtitel und Beschreibungen zu generieren. Stell dir einen Koch vor, der coole neue Varianten klassischer Rezepte kreiert.
Sie haben zwei Ansätze verwendet:
- Jeder Jobtitel könnte mit bis zu sieben neuen Versionen erstellt werden. Dieser Ansatz zielt darauf ab, den Datensatz zu diversifizieren.
- Die gesamte Reihenfolge von Jobtiteln in einem Karriereweg könnte neu geschrieben werden. Diese Methode zielt auf Kontext und Kohärenz ab, wie eine Geschichte, die von Anfang bis Ende Sinn macht.
Durch die Verwendung dieser Methoden wollten die Ersteller ihren Datensatz bereichern und ihn noch repräsentativer für die reale Welt machen.
Qualitätskontrollmassnahmen
Um sicherzustellen, dass die neuen Daten von hoher Qualität sind, bewerteten die Entwickler die Jobtitel und Beschreibungen anhand mehrerer Kriterien. Sie schauten sich an:
- Richtigkeit: Sind die Titel echte Jobtitel, die Leute tatsächlich verwenden?
- Semantische Ähnlichkeit: vermitteln die neuen Titel eine ähnliche Bedeutung wie die Originale?
- Vielfalt: Sind einzigartige Titel enthalten oder wird immer wieder derselbe Titel wiederholt?
- Kohärenz: Passen die Titel gut zueinander innerhalb eines Karrierewegs?
Um diese Qualitäten zu testen, überprüfte ein Expertenteam manuell Muster, und sogar eine KI wurde hinzugezogen, um zu helfen. Die Kombination aus menschlichen und KI-Bewertungen half, ein umfassendes Bild der Datenqualität zu erhalten.
Vergleich mit anderen Datensätzen
Es gibt schon viele Datensätze für die Vorhersage von Karrierewegen, aber die meisten sind klein und privat. Die Daten von Karrierewege sind viel grösser und bieten eine bessere Chance für Modelle, zu lernen. Denk an ein grosses Buffet im Vergleich zu einem kleinen Snack. Je mehr Daten du hast, desto besser kannst du vorhersagen, was als Nächstes passieren könnte.
Karrierewege hat mehr einzigartige Jobtitel als viele kleinere Datensätze. Es deckt auch ein breiteres Spektrum von Branchen ab, von einfachen Berufen bis zu Dienstleistungsrollen. Dieser breite Umfang bietet ein besseres Verständnis des Arbeitsmarktes.
Benchmarking und Modelltraining
Um die Effektivität von Karrierewege zu demonstrieren, führte das Team Experimente mit bestehenden, hochmodernen Modellen durch. Sie wollten sehen, wie gut diese Modelle Karrierewege mithilfe ihres Datensatzes vorhersagen konnten.
Sie haben ihre Modelle optimiert, indem sie ihnen beigebracht haben, Verbindungen zwischen Karrierewegen und Jobtiteln zu finden. Die Ergebnisse waren vielversprechend! Modelle, die auf Karrierewege trainiert wurden, schnitten besser ab als solche, die auf kleineren Datensätzen trainiert wurden. Es ist wie einen Marathon mit den richtigen Schuhen zu laufen, anstatt es in Flip-Flops zu versuchen.
Nächste Schritte und Zukunftsmöglichkeiten
Jetzt, wo Karrierewege verfügbar ist, gibt es viele Möglichkeiten für zukünftige Forschung. Der Datensatz könnte erweitert werden, um Daten aus anderen Regionen und Sprachen einzuschliessen. Das würde ihn noch nützlicher für globale Karrierewegvorhersagen machen. Ausserdem könnten Herausforderungen wie Karrierewechsel zwischen verschiedenen Industrien angegangen werden, um die Genauigkeit zu verbessern.
Ethische Überlegungen
Wie bei jedem Datensatz gibt es auch ethische Überlegungen zu beachten. Wenn der Datensatz bestimmte Jobsektoren zu sehr hervorhebt, könnte das zu voreingenommenen Vorhersagen führen. Deshalb ist es wichtig, die Daten ständig zu überwachen und anzupassen, um Fairness zu gewährleisten. Durch die Umsetzung von Massnahmen zur Minderung von Vorurteilen hoffen die Ersteller, gerechtere Tools für Karrierevorhersagen zu schaffen.
Fazit
Karrierewege und seine verbesserte Version, Karrierewege+, bringen frischen Wind in das Feld der Karrierewegvorhersage. Indem sie einen grossen, öffentlich zugänglichen Datensatz anbieten, der mit einer standardisierten Taxonomie verknüpft ist, ebnen sie den Weg für neue Forschung und Anwendungen. Wenn dieser Datensatz genutzt wird, hofft man, dass mehr Menschen erfolgreich ihre Karrieren navigieren, wie wenn man die beste Route auf einer Karte findet.
Am Ende, egal ob du ein Jobsuchender bist, der seinen nächsten Schritt herausfinden möchte, ein Recruiter, der nach Talenten sucht, oder einfach nur ein neugieriger Zuschauer, Karrierewege hat viel Potenzial, um fundierte Vermutungen über die Zukunft der Arbeit zu machen. Also, lass uns ein virtuelles Glas auf die Zukunft der Karrierewegvorhersage erheben – möge sie hell und voller Möglichkeiten sein!
Originalquelle
Titel: KARRIEREWEGE: A Large Scale Career Path Prediction Dataset
Zusammenfassung: Accurate career path prediction can support many stakeholders, like job seekers, recruiters, HR, and project managers. However, publicly available data and tools for career path prediction are scarce. In this work, we introduce KARRIEREWEGE, a comprehensive, publicly available dataset containing over 500k career paths, significantly surpassing the size of previously available datasets. We link the dataset to the ESCO taxonomy to offer a valuable resource for predicting career trajectories. To tackle the problem of free-text inputs typically found in resumes, we enhance it by synthesizing job titles and descriptions resulting in KARRIEREWEGE+. This allows for accurate predictions from unstructured data, closely aligning with real-world application challenges. We benchmark existing state-of-the-art (SOTA) models on our dataset and a prior benchmark and observe improved performance and robustness, particularly for free-text use cases, due to the synthesized data.
Autoren: Elena Senger, Yuri Campbell, Rob van der Goot, Barbara Plank
Letzte Aktualisierung: 2024-12-19 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2412.14612
Quell-PDF: https://arxiv.org/pdf/2412.14612
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.
Referenz Links
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://esco.ec.europa.eu/en/about-esco/what-esco
- https://esco.ec.europa.eu/en/about-esco/esco-stakeholders
- https://huggingface.co/datasets/ElenaSenger/Karrierewege
- https://huggingface.co/datasets/ElenaSenger/Karrierewege_plus
- https://www.arbeitsagentur.de/bewerberboerse/
- https://web.arbeitsagentur.de/berufenet/
- https://esco.ec.europa.eu/en/about-esco/escopedia/escopedia/international-standard-classification-occupations-isco
- https://statistik.arbeitsagentur.de/DE/Statischer-Content/Grundlagen/Klassifikationen/Klassifikation-der-Berufe/KldB2010-Fassung2020/Arbeitsmittel/Umschluesselungstabellen.html
- https://huggingface.co/sentence-transformers/distiluse-base-multilingual-cased-v2
- https://huggingface.co/sentence-transformers/all-mpnet-base-v2