Simple Science

Ciência de ponta explicada de forma simples

# Informática# Computação e linguagem

Avaliação de Modelos de Linguagem em Provas Vocacionais em Indonésio

Este estudo avalia o desempenho de LLM em exames profissionais indonésios em várias áreas.

― 5 min ler


LLMs e Exames VocacionaisLLMs e Exames Vocacionaisna Indonésiapapéis profissionais na Indonésia.Avaliação da prontidão dos LLMs para
Índice

Avaliar o conhecimento em grandes modelos de linguagem (LLMs) tem se concentrado mais em matérias escolares como matemática e ciências. Mas isso não mostra muito bem como esses modelos se saem em empregos reais. Esse artigo fala sobre um conjunto de 8.834 perguntas de múltipla escolha que examinam como os LLMs conseguem se sair em provas profissionais e de habilitação na Indonésia. As perguntas abordam várias áreas, como Saúde, Finanças, turismo, Educação e direito. O objetivo é ver como esses modelos entendem contextos locais e habilidades práticas para o trabalho.

A Importância de Avaliar os LLMs em Áreas Profissionais

Como os LLMs estão sendo cada vez mais usados em áreas como saúde, educação e finanças, é importante checar quanto eles sabem sobre campos de trabalho específicos. Por exemplo, na saúde, os LLMs precisam seguir regras éticas e entender doenças locais. Confiar em dicas de saúde de um modelo que não foi testado para conhecimento é arriscado. Da mesma forma, na educação, esses modelos devem estar alinhados com os padrões de ensino locais.

Exames de certificação profissional e vocacional não foram o foco principal em avaliações anteriores de LLMs. Enquanto alguns conjuntos de dados incluem uma pequena parte de perguntas profissionais, muitos não cobrem essas áreas importantes. Este estudo pretende preencher essa lacuna com um conjunto de dados que inclui várias profissões relevantes para o trabalho na Indonésia.

Detalhes do Conjunto de Dados

O conjunto de dados inclui 8.834 perguntas coletadas de diferentes exames de competência e testes de certificação na Indonésia. Ele foca especificamente em áreas profissionais como saúde, seguros, finanças, design, turismo, educação e direito. Essas áreas são vitais para entender as necessidades e práticas locais no mercado de trabalho.

Muitas das perguntas também trazem contextos que refletem situações locais. Por exemplo, as perguntas de saúde costumam se referir a problemas comuns de saúde encontrados na Indonésia. O artigo mostra que um número significativo de perguntas exige conhecimento específico do país, o que as torna mais desafiadoras para os LLMs.

Processo de Coleta de Dados

Para criar esse conjunto de dados, os pesquisadores coletaram perguntas de várias fontes públicas. A maioria dessas perguntas está em formatos de arquivo e foi extraída manualmente por professores profissionais. Eles focaram em perguntas baseadas em texto e excluíram qualquer uma com imagens. Após coletar as perguntas, foram feitos cheques para garantir alta qualidade: perguntas repetidas e aquelas sem respostas foram removidas.

Desempenho dos Grandes Modelos de Linguagem

Os modelos foram testados para ver como se saíram nas perguntas do conjunto de dados. O método usado envolveu pedir aos modelos para escolherem respostas com base na maior probabilidade. Os resultados mostraram que, enquanto alguns modelos se saíram razoavelmente bem, a maioria não alcançou notas suficientes em muitos campos profissionais.

O artigo destaca que um modelo, em particular, o GPT-4o, se saiu bem, alcançando uma média de 72,3%. No entanto, isso ainda não foi suficiente para certos exames, especialmente em finanças. Outros modelos variaram bastante em desempenho, com pontuações de precisão que iam de 38% a 60%. Nenhum dos modelos focados na Indonésia conseguiu responder corretamente a muitas perguntas.

Desafios Enfrentados pelos Modelos

Algumas áreas se mostraram particularmente difíceis para os LLMs. Por exemplo, as perguntas de saúde costumavam ser as mais difíceis, com os modelos acertando apenas cerca de 37% em média. A análise também mostra que perguntas com contexto local eram especialmente desafiadoras. Os modelos tiveram dificuldades significativas com perguntas que envolviam números, indicando a necessidade de capacidades mais robustas para lidar com problemas práticos.

Quando a ordem das opções de resposta foi embaralhada, isso levou a instabilidade no desempenho dos modelos, especialmente em finanças. Isso sugere que os modelos podem não ser confiáveis o suficiente para serem usados em conselhos profissionais nessas áreas.

Conclusão

O conjunto de dados criado neste estudo é uma das coleções mais completas de perguntas de exames profissionais específicas para vários setores de trabalho na Indonésia. Inclui áreas significativas como saúde, finanças, campos criativos, turismo, educação e direito. Ao avaliar o desempenho de vários LLMs usando esse conjunto de dados, descobrimos que a maioria dos modelos não atingiu as notas de aprovação, destacando que eles ainda não estão prontos para serem usados em funções profissionais.

Coletar esses dados é essencial para melhorar os LLMs, para que possam se adaptar a requisitos específicos de trabalho. O estudo também menciona algumas limitações, como a exclusão de perguntas não textuais e o foco estreito apenas em exames de língua indonésia.

As descobertas serão importantes para guiar trabalhos futuros para aprimorar as capacidades dos LLMs e garantir que eles sejam mais adequados para aplicações no mundo real, especialmente no contexto das profissões na Indonésia. Garantir que esses modelos entendam as necessidades e nuances locais será um passo importante em seu desenvolvimento.

Fonte original

Título: Cracking the Code: Multi-domain LLM Evaluation on Real-World Professional Exams in Indonesia

Resumo: While knowledge evaluation in large language models has predominantly focused on academic subjects like math and physics, these assessments often fail to capture the practical demands of real-world professions. In this paper, we introduce IndoCareer, a dataset comprising 8,834 multiple-choice questions designed to evaluate performance in vocational and professional certification exams across various fields. With a focus on Indonesia, IndoCareer provides rich local contexts, spanning six key sectors: (1) healthcare, (2) insurance and finance, (3) creative and design, (4) tourism and hospitality, (5) education and training, and (6) law. Our comprehensive evaluation of 27 large language models shows that these models struggle particularly in fields with strong local contexts, such as insurance and finance. Additionally, while using the entire dataset, shuffling answer options generally maintains consistent evaluation results across models, but it introduces instability specifically in the insurance and finance sectors.

Autores: Fajri Koto

Última atualização: 2024-09-13 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2409.08564

Fonte PDF: https://arxiv.org/pdf/2409.08564

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais do autor

Artigos semelhantes