求人広告を整理してわかりやすくする
求人広告を分類する新しい方法が、雇用市場の理解を深める。
Maciej Beręsewicz, Marek Wydmuch, Herman Cherniaiev, Robert Pater
― 0 分で読む
目次
オンラインで仕事を探したことある?もしそうなら、求人広告がたくさんあって、全部がわかりやすいわけじゃないって気づいたかもしれない。この論文は、求人広告をカテゴリーに分けて理解する方法についてのものだよ。選択肢の海の中から特定のピザを見つけるのを想像してみて。トッピングやスタイルでうまく整理されてたら、もっと簡単だよね?それが求人広告でやりたいこと!
分類の必要性
仕事市場は巨大なパズルみたいだけど、時々、半分のピースが足りない気がする。どんな種類の仕事があるのか、どれくらいの数があって、どんなスキルが求められてるのかを知る必要がある。それが、私たちの分類器の出番なんだ。求人広告をカテゴリーに整理することで、仕事市場で何が起こってるかをよりよく理解できる。
分類器とは?
分類器は、物事を整理するのを手伝う賢いアシスタントみたいなもの。たとえば、異なる求人広告を見て、「あ、これはソフトウェア開発者のためのもので、これはパン屋のものだね」って言ってくれるお手伝いロボットを想像してみて。私たちの分類器はまさにそんな感じだけど、正しくやるためには少しガイダンスが必要なんだ。
データソースの魔法
じゃあ、どうやってこの分類器をトレーニングするの?データを与えるんだ、たくさんの求人広告を!いろんなところから情報を集めたよ、公式のデータベースからもね。求人の宝箱みたいなもので、発見されるのを待ってるんだ。
階層構造
仕事は家系図みたいに階層にグループ化できる。トップには「医療」や「テクノロジー」みたいな広いカテゴリーがあって、その下に「看護師」や「ソフトウェアエンジニア」みたいなもっと具体的な仕事がある。この整理があることで、私たちの分類器はより正確な予測ができるんだ。
言語の役割
私たちの分類器は多言語対応で、いろんな言語の求人広告を理解できる。まるでみんなが言ってることを理解できるようにする翻訳者のようだね。こうすることで、異なる国の求人広告も含められて、より広い聴衆に関連性のある発見ができるんだ。
ロングテール分布の課題
面白いことに、仕事の世界では、人気のあるポジションもあれば、ほとんど注目されないポジションもある。リーダー俳優が全ての拍手を受けるショーのようなもので、脇役たちはただそこにいることに満足してる。この不均衡をロングテール分布って呼んでて、私たちの分類器にとっては厄介なんだ。
トランスフォーマーの力
分類器を超賢くするために、トランスフォーマーっていう技術を使う。いや、ロボットが車に変身するってことじゃないよ!コーディングの世界では、これらのトランスフォーマーはテキストを分析して文脈や意味を理解するんだ。言語の賢者みたいな存在だね。
分類器のトレーニング
私たちは分類器を厳しいトレーニングにかけて、何千もの求人広告を与えて学習させたよ。学生が試験勉強するみたいに、遅くまで起きてコーヒーを飲んでね!トレーニングが終わる頃には、私たちの分類器はかなりの精度で仕事のカテゴリを特定できるようになるんだ。
パフォーマンス評価
学校の成績表みたいに、私たちは分類器の成績を評価したよ。どれだけ正確に求人広告をカテゴライズできたか、どれだけミスをしたかを見たんだ。この情報は、どこが得意でどこが改善すべきかを理解するのに役立つ。
結果と発見
頑張った結果、興味深いことがいくつかわかった!私たちの分類器は全体的にかなり良い結果を出したよ、特にポーランド語と英語の求人広告でね。あまり見かけない言語については少し苦労したけど、これは初めて聞く方言を学ぶみたいなもんだね。
オープンデータの重要性
求人広告の知識を追求する中で、オープンデータが重要だって気づいた。私たちの発見や方法を共有することで、他の人も私たちの仕事から学べるようになる。これはシェフが自分の秘密のレシピを共有するようなもので、みんながそのパイを楽しめるようにするんだ!
結論
私たちの仕事は、求人広告を理解しやすい形で整理できることを示してる。これが求職者を助けるだけでなく、政策立案者にとっても貴重な情報を提供するんだ。求人広告がこんなに力を持てるなんて誰が思った?私たちの分類器で、みんなにとって仕事市場をもっとわかりやすくする大きな一歩を踏み出してるんだ。だから、求人広告を一つずつ整理して分類し続けよう!
タイトル: Multilingual hierarchical classification of job advertisements for job vacancy statistics
概要: The goal of this paper is to develop a multilingual classifier and conditional probability estimator of occupation codes for online job advertisements according in accordance with the International Standard Classification of Occupations (ISCO) extended with the Polish Classification of Occupations and Specializations (KZiS), which is analogous to the European Classification of Occupations. In this paper, we utilise a range of data sources, including a novel one, namely the Central Job Offers Database, which is a register of all vacancies submitted to Public Employment Offices. Their staff members code the vacancies according to the ISCO and KZiS. A hierarchical multi-class classifier has been developed based on the transformer architecture. The classifier begins by encoding the jobs found in advertisements to the widest 1-digit occupational group, and then narrows the assignment to a 6-digit occupation code. We show that incorporation of the hierarchical structure of occupations improves prediction accuracy by 1-2 percentage points, particularly for the hand-coded online job advertisements. Finally, a bilingual (Polish and English) and multilingual (24 languages) model is developed based on data translated using closed and open-source software. The open-source software is provided for the benefit of the official statistics community, with a particular focus on international comparability.
著者: Maciej Beręsewicz, Marek Wydmuch, Herman Cherniaiev, Robert Pater
最終更新: 2024-11-06 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2411.03779
ソースPDF: https://arxiv.org/pdf/2411.03779
ライセンス: https://creativecommons.org/licenses/by-sa/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。
参照リンク
- https://lightcast.io/about/data
- https://www.cedefop.europa.eu/en/tools/skills-online-vacancies/occupations/
- https://statistics-awards.eu/
- https://www.gov.pl/web/edukacja/zawody-szkolnictwa-branzowego
- https://psz.praca.gov.pl/rynek-pracy/bazy-danych/klasyfikacja-zawodow-i-specjalnosci/wyszukiwarka-opisow-zawodow
- https://psz.praca.gov.pl/rynek-pracy/bazy-danych/infodoradca
- https://stat.gov.pl/Klasyfikacje/doc/kzs/slownik.html
- https://esco.ec.europa.eu/en/classification/occupation_main
- https://nabory.kprm.gov.pl
- https://warszawa.praca.gov.pl/zgloszenie-oferty-pracy
- https://www.gov.pl/web/edukacja/prognoza-zapotrzebowania-na-pracownikow-w-zawodach-szkolnictwa-branzowego-na-krajowym-i-wojewodzkim-rynku-pracy-2024
- https://oferty.praca.gov.pl/portal/index.cbop
- https://github.com/OJALAB/CBOP-datasets
- https://github.com/argosopentech/argos-translate
- https://github.com/OJALAB/job-ads-datasets/blob/main/data/codes-not-coveted.csv
- https://huggingface.co/allegro/herbert-base-cased
- https://huggingface.co/allegro/herbert-large-cased
- https://huggingface.co/FacebookAI/XLM-roberta-base
- https://huggingface.co/FacebookAI/XLM-roberta-large
- https://esco.ec.europa.eu/en/about-esco/data-science-and-esco/crosswalk-between-esco-and-onet
- https://github.com/OJALAB/job-ads-classifier
- https://repod.icm.edu.pl/dataset.xhtml?persistentId=doi:10.18150/OCUTSI
- https://colab.research.google.com/drive/1a425aagT0lczRxXPWoUlf5aFxUII37nh?usp=sharing