Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Calcolo e linguaggio

Navigare nelle Classifiche Lavorative per Neolaureati

Questo studio utilizza modelli avanzati per classificare le offerte di lavoro per neolaureati.

― 6 leggere min


Aiuto nella ricerca diAiuto nella ricerca dilavoro per neolaureatidi lavoro per neolaureati.Usare modelli per classificare annunci
Indice

Con il cambiamento della tecnologia nel mercato del lavoro, i neolaureati spesso si trovano ad affrontare delle sfide nella ricerca di lavoro. Molti posti di lavoro per principianti ora richiedono più esperienza di prima, creando un divario tra quello che i laureati hanno e quello che vogliono i datori di lavoro. Questo studio di caso esplora l'utilizzo di programmi informatici avanzati per aiutare a classificare i lavori come adatti o meno per i neolaureati. L'obiettivo è rendere più facile per i laureati trovare lavori adatti usando un'analisi testuale intelligente.

Il Problema

Il mercato del lavoro può sembrare opprimente, soprattutto per i neolaureati. I sondaggi mostrano che molti lavori per principianti richiedono diversi anni di esperienza, rendendo difficile per i neolaureati entrare nel mondo del lavoro. Con oltre un milione di annunci di lavoro nel Regno Unito ogni trimestre, setacciare queste offerte per trovare le giuste opportunità richiede tempo e impegno.

C’è un disallineamento tra educazione e requisiti lavorativi, il che può danneggiare finanziariamente i laureati. Molti lavori non dichiarano chiaramente quali qualifiche sono necessarie, portando a confusione. Questo studio si concentra sul compito di classificazione dei lavori, determinando se le Offerte di lavoro siano appropriate per i neolaureati.

Il Metodo

Per affrontare questo problema, abbiamo esplorato diversi modi per classificare i lavori usando un metodo chiamato "prompt engineering." Questa tecnica consiste nel creare domande chiare o prompt per i modelli linguistici avanzati per valutare le offerte di lavoro.

Abbiamo usato due principali tipi di programmi informatici per questo studio. Il primo gruppo comprende metodi tradizionali come le Support Vector Machines (SVM), noti per la loro efficacia nell'analisi testuale. Il secondo gruppo include moderni Large Language Models (LLMs), che possono generare testi simili a quelli umani e comprendere meglio i contesti linguistici.

Abbiamo testato specificamente due versioni di GPT-3.5, conosciute come text-davinci-003 e gpt-3.5-turbo, per vedere quanto bene potessero classificare le offerte di lavoro.

Raccolta e Preparazione Dati

Il nostro studio ha utilizzato annunci di lavoro dal Regno Unito raccolti in due anni. Esperti umani hanno esaminato questi annunci, classificandoli in due categorie: "Laureato" per i lavori adatti ai neolaureati e "Non-Laureato" per quelli che non lo sono. Abbiamo garantito una classificazione di alta qualità attraverso un processo rigoroso, creando un dataset affidabile per addestrare i modelli.

Il dataset conteneva un totale di 10.000 annunci di lavoro, con una distribuzione di circa il 30% classificati come Laureato e il 70% come Non-Laureato. Questo processo di classificazione è stato fondamentale perché aiuta il modello ad apprendere da esempi accurati.

Metriche di Valutazione

Per vedere quanto bene hanno performato i nostri modelli, abbiamo utilizzato una misura chiamata Precision at 95% Recall (P@95%R). La Precisione ci dice quanto è accurato il modello nell'identificare lavori adatti mantenendo un alto tasso di richiamo, il che significa che trova la maggior parte dei lavori reali per laureati.

Mantenere un alto tasso di richiamo è cruciale perché vogliamo minimizzare le possibilità di perdere posizioni adatte per i laureati. Abbiamo anche esaminato metriche aggiuntive, come il richiamo complessivo, per capire come i modelli abbiano performato in diversi scenari.

Metodi Tradizionali vs. Modelli Avanzati

Abbiamo iniziato testando metodi tradizionali come le ricerche per parole chiave e i classificatori supervisionati. I semplici controlli delle parole chiave comportavano la scansione degli annunci di lavoro per frasi comuni che indicano che si tratta di posizioni entry-level. Anche se questo metodo forniva un benchmark di base, era chiaro che approcci più avanzati avrebbero prodotto risultati migliori.

Usando SVM, abbiamo anche generato una base di performance, ma questa è stata rapidamente superata dai metodi di deep learning. Un modello chiamato DeBERTa-V3, che è stato ottimizzato per compiti di classificazione testuale, ha mostrato risultati impressionanti.

Tuttavia, il punto culminante è stato rappresentato dai Large Language Models (LLMs). I nostri test hanno rivelato che GPT-3.5-turbo ha performato eccezionalmente bene, superando i modelli precedenti in termini di accuratezza al tasso di richiamo del 95%.

L'Impatto del Prompt Engineering

Il cuore del nostro studio ruotava attorno al perfezionamento dei prompt che abbiamo usato per guidare i modelli. Piccole modifiche nel modo in cui abbiamo formulato le nostre domande avevano effetti significativi sulle loro performance.

Ad esempio, abbiamo iniziato con un prompt di base chiedendo se un lavoro è adatto a un neolaureato. Abbiamo poi sperimentato domande più strutturate fornendo due esempi di lavori adatti. Sorprendentemente, questo metodo non ha prodotto risultati migliori rispetto all'approccio più semplice.

Successivamente, abbiamo esplorato il dare istruzioni esplicite al modello, definendo il suo ruolo come esperto in consigli di carriera. Questo ha notevolmente aumentato la performance rispetto ai tentativi precedenti. Abbiamo anche cercato di guidare il ragionamento del modello sottolineando che alcuni requisiti lavorativi, come gli stage, potrebbero comunque essere appropriati per i laureati.

Risultati Chiave dalle Modifiche ai Prompt

Attraverso i nostri esperimenti, abbiamo scoperto che i prompt più efficaci erano quelli che combinavano istruzioni chiare, modelli strutturati per le risposte e rinforzo positivo. Ad esempio, rivolgersi al modello con un nome e usare un linguaggio amichevole aumentava la sua disponibilità a seguire le istruzioni.

Il prompt finale che ha fornito la migliore performance ha creato un insieme dettagliato di istruzioni che chiariva il ruolo del modello mentre stabiliva anche le aspettative su come dovrebbe analizzare gli annunci di lavoro. Questo approccio ha portato a tassi di accuratezza e richiamo elevati, rendendo il modello molto più affidabile per filtrare gli annunci di lavoro.

Risultati e Discussione

I risultati del nostro studio mostrano chiaramente i vantaggi dell'uso di modelli linguistici avanzati e tecniche efficaci di prompt engineering. Il modello più riuscito, gpt-3.5-turbo, ha fornito classificazioni precise, mostrando un notevole miglioramento in accuratezza rispetto ai metodi tradizionali.

Sebbene i modelli tradizionali come le SVM abbiano fornito una solida base, sono risultati insufficienti di fronte alle complessità delle moderne descrizioni di lavoro. Gli LLM, specialmente quando guidati correttamente tramite il prompt engineering, si sono rivelati superiori nell'analizzare i dettagli dei lavori e comprendere segnali sottili nel linguaggio.

Inoltre, piccole modifiche nei prompt hanno creato un grande impatto sulle capacità di classificazione dei modelli. Ad esempio, istruzioni semplici e formati strutturati per le risposte hanno notevolmente migliorato la performance dei modelli.

Conclusione

Questo studio evidenzia il potenziale dei moderni modelli linguistici nell'affrontare problemi reali come la classificazione dei lavori per i neolaureati. L'impiego di tecniche efficaci di prompt engineering ha massimizzato le performance di questi modelli e dimostrato la loro capacità di semplificare il processo di ricerca di lavoro.

Affinando il nostro approccio su come interagire con questi modelli linguistici, possiamo fare progressi significativi nell'aiutare i neolaureati a trovare opportunità lavorative adatte. Con l'evoluzione della tecnologia, ulteriori ricerche sulle tecniche di prompt e il loro impatto sulle performance dei modelli continueranno a scoprire nuove possibilità. Le intuizioni guadagnate da questo studio di caso contribuiranno allo sviluppo continuo di strumenti volti a supportare gli individui nella transizione dall'istruzione al mondo del lavoro.

Fonte originale

Titolo: Large Language Models in the Workplace: A Case Study on Prompt Engineering for Job Type Classification

Estratto: This case study investigates the task of job classification in a real-world setting, where the goal is to determine whether an English-language job posting is appropriate for a graduate or entry-level position. We explore multiple approaches to text classification, including supervised approaches such as traditional models like Support Vector Machines (SVMs) and state-of-the-art deep learning methods such as DeBERTa. We compare them with Large Language Models (LLMs) used in both few-shot and zero-shot classification settings. To accomplish this task, we employ prompt engineering, a technique that involves designing prompts to guide the LLMs towards the desired output. Specifically, we evaluate the performance of two commercially available state-of-the-art GPT-3.5-based language models, text-davinci-003 and gpt-3.5-turbo. We also conduct a detailed analysis of the impact of different aspects of prompt engineering on the model's performance. Our results show that, with a well-designed prompt, a zero-shot gpt-3.5-turbo classifier outperforms all other models, achieving a 6% increase in Precision@95% Recall compared to the best supervised approach. Furthermore, we observe that the wording of the prompt is a critical factor in eliciting the appropriate "reasoning" in the model, and that seemingly minor aspects of the prompt significantly affect the model's performance.

Autori: Benjamin Clavié, Alexandru Ciceu, Frederick Naylor, Guillaume Soulié, Thomas Brightwell

Ultimo aggiornamento: 2023-04-18 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2303.07142

Fonte PDF: https://arxiv.org/pdf/2303.07142

Licenza: https://creativecommons.org/licenses/by-nc-sa/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili