Simple Science

Ciência de ponta explicada de forma simples

# Informática# Computação e linguagem

Apresentando o C-Eval: Uma Nova Ferramenta de Avaliação para Modelos de Linguagem Chinesa

O C-Eval avalia as habilidades de raciocínio e conhecimento dos LLMs em chinês.

― 6 min ler


C-Eval: Avaliando LLMsC-Eval: Avaliando LLMsChinesesem chinês.de raciocínio de modelos de linguagemNova ferramenta avalia as habilidades
Índice

À medida que os grandes modelos de linguagem (LLMs) evoluem rapidamente, há uma necessidade crescente de novos métodos de Avaliação que acompanhem esse progresso. Este artigo apresenta uma nova ferramenta projetada especificamente para avaliar LLMs em um contexto chinês. Essa ferramenta conta com um grande conjunto de questões de múltipla escolha em várias áreas e níveis de dificuldade, para avaliar as capacidades de Raciocínio e conhecimento desses modelos.

Importância de Novos Marcos

Os métodos de avaliação tradicionais se concentravam em tarefas simples, mas os LLMs mostraram que conseguem lidar com habilidades mais complexas, como conhecimento e raciocínio. Novos marcos foram propostos recentemente para abordar essa lacuna. Esses marcos visam explorar uma ampla gama de habilidades dos LLMs que vão além do que foi testado anteriormente.

A maioria desses novos marcos foi projetada para o inglês e não avalia adequadamente os modelos em outros idiomas. Portanto, há uma lacuna significativa na compreensão de como os LLMs se saem em chinês. Este conjunto de avaliação visa preencher essa lacuna.

Visão Geral do C-Eval

O C-Eval é um conjunto de avaliação em chinês que inclui 13.948 questões de múltipla escolha em 52 disciplinas diferentes. Essas disciplinas cobrem uma variedade de áreas, incluindo humanidades, ciências e engenharia, e estão divididas em quatro níveis de dificuldade: ensino fundamental, ensino médio, faculdade e profissional.

Além do conjunto principal, há um subconjunto de questões particularmente desafiadoras que exigem habilidades avançadas de raciocínio para serem respondidas. Esse subconjunto é crucial para avaliar as capacidades mais complexas dos LLMs.

Avaliação de LLMs

Uma avaliação completa dos principais LLMs revelou que apenas o GPT-4 alcançou mais de 60% de precisão média. Isso indica que ainda há muito espaço para melhoria entre os modelos atuais em relação às suas habilidades de raciocínio e conhecimento.

O objetivo dessa avaliação é destacar tanto os pontos fortes quanto as fraquezas dos modelos de base e incentivar seu crescimento para os usuários chineses.

Princípios de Design

O C-Eval foi projetado para ajudar os desenvolvedores a entender rapidamente as habilidades de seus modelos. Foca na avaliação de habilidades avançadas, como conhecimento do mundo e raciocínio. Essas capacidades são vitais para os LLMs em várias aplicações, especialmente em tarefas complexas onde habilidades de conversa simples não são suficientes.

Para garantir uma avaliação completa, as questões foram selecionadas de exames reais na China. O foco está em formatos de múltipla escolha, pois eles fornecem métricas claras, como precisão, facilitando a avaliação do Desempenho do modelo.

Coleta e Processamento de Dados

Seleção de Disciplinas

O C-Eval cobre quatro níveis de dificuldade e inclui disciplinas padrão do ensino fundamental e médio na China. No nível universitário, inclui disciplinas de diferentes áreas de estudo. Para certificações profissionais, incorpora qualificações comuns reconhecidas nacionalmente.

Fontes de Dados

Os dados são principalmente obtidos de exames simulados e Perguntas de exames passados de universidades respeitáveis. Para evitar contaminação de dados, o conjunto deliberadamente exclui questões comumente disponíveis de testes nacionais.

Processamento dos Dados

As questões coletadas passam por um rigoroso processo de processamento para garantir alta qualidade. Isso envolve análise, formatação e validação para manter a consistência. As questões são organizadas em categorias e submetidas a verificações humanas para confirmar sua precisão.

Geração de Explicações

O conjunto de avaliação inclui um método para gerar explicações para respostas corretas, promovendo compreensão e orientando os usuários. Essas explicações são criadas usando uma combinação de geração automática e revisão humana, garantindo sua qualidade.

Avaliando Raciocínio Avançado

Um marco separado foca em disciplinas de raciocínio avançado. Isso inclui tópicos de matemática e física que exigem habilidades cognitivas mais profundas. Esse marco é significativo porque mesmo os melhores modelos ainda enfrentam dificuldades de precisão nessas áreas.

Promoção da Cadeia de Pensamento

Para avaliar as habilidades de raciocínio dos LLMs, um método de promoção da cadeia de pensamento é empregado. Esse método incentiva os modelos a delinear seu processo de raciocínio antes de dar uma resposta. Embora essa abordagem tenha sido eficaz em alguns casos, não leva sempre a um desempenho melhor.

Comparação de Desempenho dos LLMs

O conjunto inclui avaliações de vários LLMs para fornecer uma compreensão abrangente de suas capacidades. Esses modelos são comparados com base em sua precisão média em diferentes disciplinas e tarefas.

Visão Geral do Desempenho Geral

No geral, o GPT-4 superou todos os outros modelos, indicando sua forte capacidade de raciocínio avançado. Outros modelos, como ChatGPT e Claude, mostraram níveis de desempenho mais baixos, especialmente em disciplinas desafiadoras.

Desempenho Few-Shot vs. Zero-Shot

A avaliação explora como a promoção few-shot pode ajudar a melhorar o desempenho do modelo em comparação com configurações zero-shot. Muitos modelos se beneficiaram da promoção few-shot, mas alguns até se saíram pior. Isso sugere nuances em como os modelos são otimizados para diferentes tarefas.

Diferenças de Desempenho

Ao comparar modelos orientados para o inglês com modelos orientados para o chinês, foram notadas lacunas de desempenho. Por exemplo, o GLM-130B fechou a lacuna em ciências sociais, mas teve dificuldade significativa em disciplinas STEM mais complexas.

Conclusões e Direções Futuras

O C-Eval é um passo vital para avaliar modelos de linguagem de forma eficaz em um contexto chinês. Ele destaca tanto as capacidades existentes quanto as áreas que precisam de melhorias.

Pesquisas futuras devem continuar a desenvolver métodos de avaliação para LLMs, indo além da mera precisão para incluir outros fatores, como segurança e justiça. Esses esforços garantirão que os LLMs atendam às necessidades dos usuários em aplicações do mundo real e avancem no desenvolvimento geral das tecnologias de IA.

Agradecimentos

O desenvolvimento do C-Eval envolveu os esforços combinados de pesquisadores e especialistas dedicados a melhorar as avaliações de modelos de linguagem. Seu trabalho árduo e insights foram fundamentais para criar este recurso para a comunidade de IA.

Fonte original

Título: C-Eval: A Multi-Level Multi-Discipline Chinese Evaluation Suite for Foundation Models

Resumo: New NLP benchmarks are urgently needed to align with the rapid development of large language models (LLMs). We present C-Eval, the first comprehensive Chinese evaluation suite designed to assess advanced knowledge and reasoning abilities of foundation models in a Chinese context. C-Eval comprises multiple-choice questions across four difficulty levels: middle school, high school, college, and professional. The questions span 52 diverse disciplines, ranging from humanities to science and engineering. C-Eval is accompanied by C-Eval Hard, a subset of very challenging subjects in C-Eval that requires advanced reasoning abilities to solve. We conduct a comprehensive evaluation of the most advanced LLMs on C-Eval, including both English- and Chinese-oriented models. Results indicate that only GPT-4 could achieve an average accuracy of over 60%, suggesting that there is still significant room for improvement for current LLMs. We anticipate C-Eval will help analyze important strengths and shortcomings of foundation models, and foster their development and growth for Chinese users.

Autores: Yuzhen Huang, Yuzhuo Bai, Zhihao Zhu, Junlei Zhang, Jinghan Zhang, Tangjun Su, Junteng Liu, Chuancheng Lv, Yikai Zhang, Jiayi Lei, Yao Fu, Maosong Sun, Junxian He

Última atualização: 2023-11-06 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2305.08322

Fonte PDF: https://arxiv.org/pdf/2305.08322

Licença: https://creativecommons.org/licenses/by-nc-sa/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes