Valutare i modelli linguistici negli esami professionali indonesiani
Questo studio valuta le prestazioni dei LLM sugli esami professionali indonesiani in diversi settori.
― 4 leggere min
Indice
Valutare la conoscenza nei modelli di linguaggio di grande dimensione (LLM) si è principalmente concentrato su materie scolastiche come matematica e scienze. Tuttavia, questo non mostra realmente quanto bene funzionano questi modelli per i lavori veri. Questo documento parla di un insieme di 8.834 domande a scelta multipla mirate a esaminare quanto bene gli LLM possono performare in esami professionali e di certificazione in Indonesia. Queste domande coprono vari ambiti come Sanità, Finanza, turismo, educazione e diritto. L'obiettivo è vedere quanto bene questi modelli capiscono i contesti locali e le competenze pratiche necessarie per il lavoro.
L'importanza di valutare gli LLM nei campi professionali
Con l'uso crescente degli LLM in settori come salute, educazione e finanza, è importante controllare quanto sanno dei vari ambiti lavorativi. Ad esempio, nella sanità, gli LLM devono seguire regole etiche e comprendere le malattie locali. Affidarsi a consigli di salute da un modello che non è stato testato sulle conoscenze è rischioso. Allo stesso modo, in educazione, questi modelli devono allinearsi con gli standard didattici locali.
Gli esami di certificazione professionale e vocazionale non sono stati il focus principale nelle precedenti valutazioni degli LLM. Anche se alcune banche dati includono piccole porzioni di domande professionali, molte non coprono questi settori importanti. Questo studio ha l'intenzione di colmare questa lacuna con un dataset che include diverse professioni rilevanti per il lavoro in Indonesia.
Dettagli del dataset
Il dataset include 8.834 domande raccolte da vari esami di competenza e test di certificazione in Indonesia. Si concentra specificamente su aree professionali come sanità, assicurazione, finanza, design, turismo, educazione e diritto. Queste aree sono fondamentali per comprendere le esigenze e le pratiche locali nel mercato del lavoro.
Molte delle domande includono anche contesti che riflettono situazioni locali. Ad esempio, le domande sulla sanità fanno spesso riferimento a problemi di salute comuni in Indonesia. Il documento mostra che un numero significativo di domande richiede conoscenze specifiche del paese, rendendole più impegnative per gli LLM.
Processo di raccolta dati
Per creare questo dataset, i ricercatori hanno raccolto domande da varie fonti pubbliche. La maggior parte di queste domande si trova in formati di file ed è stata estratta manualmente da insegnanti professionisti. Si sono concentrati su domande testuali escludendo quelle che includevano immagini. Dopo aver raccolto le domande, sono stati effettuati controlli per garantire alta qualità: le domande ripetitive e quelle senza risposte sono state rimosse.
Performance dei modelli di linguaggio di grande dimensione
I modelli sono stati testati per vedere quanto bene rispondevano alle domande nel dataset. Il metodo utilizzato ha coinvolto chiedere ai modelli di scegliere risposte basate sulla probabilità più alta. I risultati hanno mostrato che, anche se alcuni modelli si sono comportati ragionevolmente bene, la maggior parte non ha raggiunto punteggi sufficienti per molti campi professionali.
Il documento mette in evidenza che un modello, in particolare, GPT-4o, ha fatto abbastanza bene, raggiungendo un punteggio medio del 72,3%. Tuttavia, questo non è stato comunque sufficiente per alcuni esami, specialmente in finanza. Altri modelli hanno mostrato performance molto diverse, con punteggi di accuratezza che variavano dal 38% al 60%. Nessuno dei modelli focalizzati sull'Indonesia è riuscito a rispondere correttamente a molte domande.
Sfide affrontate dai modelli
Alcuni settori si sono rivelati particolarmente difficili per gli LLM. Ad esempio, le domande sulla sanità sono state spesso le più difficili, con i modelli che ottenevano solo circa il 37% di risposte corrette in media. L'analisi mostra anche che le domande contenenti contesto locale erano particolarmente impegnative. I modelli hanno avuto difficoltà significative con domande che coinvolgevano numeri, indicando una necessità di capacità più robuste nella gestione di problemi pratici.
Quando l'ordine delle opzioni di risposta è stato mescolato, ciò ha portato a un’instabilità nelle performance dei modelli, specialmente in finanza. Questo suggerisce che i modelli potrebbero non essere abbastanza affidabili per essere utilizzati come consulenza professionale in questi ambiti.
Conclusione
Il dataset creato in questo studio è una delle raccolte più complete di domande per esami professionali specifiche per vari settori lavorativi in Indonesia. Copre aree significative come sanità, finanza, campi creativi, turismo, educazione e diritto. Valutando le performance di più LLM utilizzando questo dataset, abbiamo scoperto che la maggior parte dei modelli non ha raggiunto punteggi sufficienti, evidenziando che non sono ancora pronti per essere utilizzati in ruoli professionali.
Raccogliere dati di questo tipo è essenziale per migliorare gli LLM affinché possano adattarsi a specifiche esigenze lavorative. Lo studio menziona anche alcune limitazioni, come l'esclusione di domande non testuali e il focus ristretto esclusivamente su esami in lingua indonesiana.
I risultati saranno significativi nel guidare future ricerche per migliorare le capacità degli LLM e garantire che siano meglio adattati alle applicazioni nel mondo reale, specialmente nel contesto delle professioni indonesiane. Assicurarsi che questi modelli comprendano le esigenze e le sfumature locali sarà un passo importante avanti nel loro sviluppo.
Titolo: Cracking the Code: Multi-domain LLM Evaluation on Real-World Professional Exams in Indonesia
Estratto: While knowledge evaluation in large language models has predominantly focused on academic subjects like math and physics, these assessments often fail to capture the practical demands of real-world professions. In this paper, we introduce IndoCareer, a dataset comprising 8,834 multiple-choice questions designed to evaluate performance in vocational and professional certification exams across various fields. With a focus on Indonesia, IndoCareer provides rich local contexts, spanning six key sectors: (1) healthcare, (2) insurance and finance, (3) creative and design, (4) tourism and hospitality, (5) education and training, and (6) law. Our comprehensive evaluation of 27 large language models shows that these models struggle particularly in fields with strong local contexts, such as insurance and finance. Additionally, while using the entire dataset, shuffling answer options generally maintains consistent evaluation results across models, but it introduces instability specifically in the insurance and finance sectors.
Autori: Fajri Koto
Ultimo aggiornamento: 2024-09-13 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2409.08564
Fonte PDF: https://arxiv.org/pdf/2409.08564
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.