新卒のための職種のナビゲート
この研究は、最近の卒業生向けの求人情報を分類するために高度なモデルを使ってるんだ。
― 1 分で読む
テクノロジーが仕事市場を変える中、新卒の学生たちは就職活動に苦労することがよくあるよね。最近のエントリーレベルのポジションは、以前よりも多くの経験を求めるようになってきて、卒業生が持ってるものと雇用主が求めてるものの間にギャップができてる。このケーススタディでは、高度なコンピュータプログラムを使って、最近の卒業生に適しているかどうかの仕事を分類する方法を考えてるんだ。目的は、スマートなテキスト分析を使って、卒業生が適切な仕事を見つけやすくすることだよ。
問題
仕事市場は圧倒されるように感じることがある、特に新卒にはね。調査によると、多くのエントリーレベルの仕事が数年の経験を要求していて、新卒が就職するのはかなり難しい。イギリスだけでも毎四半期に100万件以上の求人があって、正しいチャンスを見つけるためには多くの時間と努力が必要なんだ。
教育と仕事の要件の間にミスマッチがあって、卒業生にとっては経済的にも痛手になりうる。多くの求人は必要な資格が明確に示されていなくて、混乱を招いてる。このケーススタディでは、求人が最近の卒業生に適しているかどうかを決める仕事の分類に焦点を当ててる。
方法
この問題に対処するために、「プロンプトエンジニアリング」という方法を使って、仕事を分類するいろんな方法を調べたんだ。このテクニックは、高度な言語モデルが求人情報を評価するための明確な質問やプロンプトを作成することを含んでる。
この研究では、2つの主要なタイプのコンピュータプログラムを使ったよ。最初のグループは、テキスト分析で効果的なことで知られる従来の方法、サポートベクターマシン(SVM)で、もう一つは、現代の大型言語モデル(LLMs)で、人間のようなテキストを生成し、言語の文脈をよりよく理解できるんだ。
特にGPT-3.5の2つのバージョン、text-davinci-003とgpt-3.5-turboをテストして、求人の分類がどれだけできるかを見たよ。
データ収集と準備
私たちの研究では、イギリスから集めた2年間の求人情報を使った。人間の専門家がこれらの情報をレビューして、「卒業生」に適した仕事と「非卒業生」に適さない仕事の2つのカテゴリに分類した。厳格なプロセスを通じて高品質な分類を確保し、モデルのトレーニングに信頼性の高いデータセットを作ったよ。
データセットには合計10,000件の求人が含まれていて、約30%が卒業生に分類され、70%が非卒業生として分類された。この分類プロセスは重要で、モデルが正確な例から学ぶ助けになるんだ。
評価指標
私たちのモデルがどれだけうまく機能したかを見るために、95%リコール(P@95%R)での精度という指標を使った。精度は、モデルが適切な仕事を特定する際の正確さを示すもので、高いリコール率を維持することが重要だよ。つまり、実際の卒業生求人の大部分を見つけられるってこと。
リコール率を高く保つことは、卒業生にとって適切なポジションを逃す可能性を最小限に抑えたいからね。また、全体のリコールのような追加の指標も見て、モデルがいろんなシナリオでどんなパフォーマンスをするかを理解したよ。
従来の方法と高度なモデル
私たちはまず、キーワード検索や監視付き分類器のような従来の方法をテストしたよ。簡単なキーワードチェックは、エントリーレベルのポジションを示す一般的なフレーズをスキャンすることを含んでた。この方法は基本的なベンチマークを提供したけど、すぐにより高度なアプローチがより良い結果をもたらすことが明らかになったんだ。
SVMを使ってベースラインのパフォーマンスを生成したけど、深層学習法によってすぐにそれを上回る結果が出た。テキスト分類タスク用にファインチューニングされたDeBERTa-V3モデルは、素晴らしい結果を見せたよ。
でも、特に目を引いたのは大型言語モデル(LLMs)。私たちのテストでは、GPT-3.5-turboが非常に優れたパフォーマンスを示し、95%リコールの閾値での精度が過去のモデルを上回ったんだ。
プロンプトエンジニアリングの影響
私たちの研究の核心は、モデルを導くために使ったプロンプトを洗練させることにあったよ。質問のフレーミングの小さな変更が、パフォーマンスに大きな影響を与えたんだ。
例えば、最初は「この仕事は最近の卒業生に適しているか?」という基本的なプロンプトから始めた。次に、適切な仕事の2つの例を提示することで、より構造化された質問を試してみた。驚くべきことに、この方法はシンプルなアプローチよりも良い結果を出さなかった。
次に、モデルに明示的な指示を与えて専門家としての役割を定義することで、パフォーマンスが大きく向上したよ。特にインターンシップのような特定の仕事要件が卒業生にとってまだ適切である可能性があることを強調することで、モデルの推論を導くことも試みた。
プロンプト修正からの重要な発見
実験を通じて、最も効果的なプロンプトは、明確な指示、回答のための構造化されたテンプレート、ポジティブな強化を組み合わせたものだとわかった。例えば、モデルに名前で呼びかけて親しみのある言葉を使うと、指示に従う意欲が増すんだ。
最も良いパフォーマンスを得られた最終プロンプトは、モデルの役割を明確にしつつ、求人情報を分析する方法に対する期待を設定した詳細な指示を作成した。このアプローチにより、高い精度とリコール率が得られ、求人情報のフィルタリングにおいてモデルが信頼できるものになったんだ。
結果と議論
私たちの研究の結果は、高度な言語モデルと効果的なプロンプトエンジニアリング技術の利点を強く示してる。最も成功したモデル、gpt-3.5-turboは、正確な分類を提供し、従来の方法に比べて精度が顕著に改善されたよ。
従来のモデルのSVMはしっかりした基盤を築いたけど、現代の仕事の説明の複雑さに直面すると劣ってしまった。LLMsは、特にプロンプトエンジニアリングを通じて適切に導かれた場合、仕事の詳細を分析し、言語の微妙な信号を理解する上で優れていることが証明された。
さらに、プロンプトの小さな修正がモデルの分類能力に大きな影響を与えたよ。例えば、シンプルな指示と構造化された回答形式が、モデルのパフォーマンスを劇的に向上させたんだ。
結論
この研究は、最近の卒業生のための仕事分類のような現実の問題に対処する際の現代的な言語モデルの可能性を強調してる。効果的なプロンプトエンジニアリング技術を使うことで、これらのモデルのパフォーマンスを最大化し、就職活動のプロセスを効率化できることを示してる。
これらの言語モデルとのインタラクションにおけるアプローチを洗練させることで、新卒が適切な雇用機会を見つける手助けをするうえで大きな前進ができるかもしれない。テクノロジーが進化する中で、プロンプト技術とモデルのパフォーマンスへの影響に関するさらなる研究は、新しい可能性を発見し続けるだろう。このケーススタディから得られた洞察は、教育から労働市場への移行を支援するツールの開発に貢献するものになるね。
タイトル: Large Language Models in the Workplace: A Case Study on Prompt Engineering for Job Type Classification
概要: This case study investigates the task of job classification in a real-world setting, where the goal is to determine whether an English-language job posting is appropriate for a graduate or entry-level position. We explore multiple approaches to text classification, including supervised approaches such as traditional models like Support Vector Machines (SVMs) and state-of-the-art deep learning methods such as DeBERTa. We compare them with Large Language Models (LLMs) used in both few-shot and zero-shot classification settings. To accomplish this task, we employ prompt engineering, a technique that involves designing prompts to guide the LLMs towards the desired output. Specifically, we evaluate the performance of two commercially available state-of-the-art GPT-3.5-based language models, text-davinci-003 and gpt-3.5-turbo. We also conduct a detailed analysis of the impact of different aspects of prompt engineering on the model's performance. Our results show that, with a well-designed prompt, a zero-shot gpt-3.5-turbo classifier outperforms all other models, achieving a 6% increase in Precision@95% Recall compared to the best supervised approach. Furthermore, we observe that the wording of the prompt is a critical factor in eliciting the appropriate "reasoning" in the model, and that seemingly minor aspects of the prompt significantly affect the model's performance.
著者: Benjamin Clavié, Alexandru Ciceu, Frederick Naylor, Guillaume Soulié, Thomas Brightwell
最終更新: 2023-04-18 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2303.07142
ソースPDF: https://arxiv.org/pdf/2303.07142
ライセンス: https://creativecommons.org/licenses/by-nc-sa/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。