Simple Science

Ciência de ponta explicada de forma simples

# Informática# Computação e linguagem

Apresentando o SciEval: um novo padrão para testes de LLM em ciência

O SciEval avalia modelos de linguagem nas suas habilidades de pesquisa científica com perguntas variadas.

― 7 min ler


SciEval: Repensando osSciEval: Repensando osTestes de Pesquisa em LLMlinguagem.habilidades científicas dos modelos deNovo sistema de avaliação foca nas
Índice

Recentemente, tem rolado um monte de interesse em usar grandes modelos de linguagem (LLMs) pra Pesquisa científica. Esses modelos conseguem gerar texto, responder Perguntas e dar uma força em várias tarefas. Muitos testes foram criados pra ver como esses modelos podem ajudar no trabalho científico. Mas, a maioria desses testes faz as mesmas perguntas que foram preparadas antes. Esse esquema pode dar ruim, já que as respostas já foram vistas e não avalia como os modelos lidam com perguntas mais criativas ou subjetivas.

Pra resolver esses problemas, a gente apresenta o SciEval, um jeito novo de testar os LLMs nas suas habilidades em pesquisa científica. O SciEval é amplo e olha pros diferentes aspectos das habilidades de pesquisa. Ele usa um método chamado taxonomia de Bloom, que divide o conhecimento em níveis diferentes. Assim, o SciEval consegue verificar como esses modelos se saem em várias áreas de investigação científica.

O que é SciEval?

O SciEval é uma ferramenta feita pra avaliar LLMs em ciência. Ela tem cerca de 18.000 perguntas difíceis de três matérias principais: química, física e biologia. Essas matérias são divididas em tópicos menores, permitindo uma Avaliação detalhada dos modelos. O SciEval tem três características principais:

  1. Avaliação Multinível: O SciEval analisa diferentes aspectos da capacidade de um modelo em ciência. Ele verifica Conhecimentos básicos, como o conhecimento é aplicado, como as contas são feitas e como os modelos se saem em tarefas de pesquisa. Cada uma dessas áreas se alinha a vários níveis da taxonomia de Bloom, deixando a avaliação mais completa.

  2. Mistura de Tipos de Perguntas: A avaliação inclui perguntas objetivas e subjetivas. Perguntas objetivas são tipo múltipla escolha e preencher lacunas, permitindo uma correção rápida. Perguntas subjetivas ajudam a medir como um modelo consegue raciocinar e aplicar conhecimento em ciência, que não dá pra ver com perguntas simples.

  3. Criação Dinâmica de Dados: Pra evitar o problema dos modelos verem as mesmas perguntas repetidamente, o SciEval usa novas perguntas, que são atualizadas regularmente com base em princípios científicos. Isso mantém a avaliação justa e garante que os modelos sejam testados com conhecimento atual.

Por que o SciEval é importante

Os testes existentes pra LLMs geralmente vêm de materiais educacionais, que podem não refletir com precisão o trabalho científico real. Muitos testes focam apenas em perguntas fixas, o que leva a uma falta de entendimento de como os LLMs podem responder a desafios reais de pesquisa. O SciEval busca preencher essa lacuna. Ele combina uma variedade de tipos de perguntas e um método que atualiza as perguntas de forma sistemática.

Usando esse novo método de avaliação, o SciEval dá uma visão melhor de como esses modelos funcionam na ciência. Ele pode mostrar os pontos fortes e fracos dos LLMs, guiando melhorias e aplicações de pesquisa melhores.

A Estrutura do SciEval

O SciEval usa a taxonomia de Bloom pra criar sua estrutura de avaliação. Esse método organiza o conhecimento em seis níveis: Lembrar, Entender, Aplicar, Analisar, Avaliar e Criar. No SciEval, a gente foca em quatro categorias principais:

  1. Conhecimento Básico: Essa área verifica se um modelo consegue lembrar e entender fatos científicos básicos.

  2. Aplicação do Conhecimento: Aqui, os modelos mostram como podem usar o conhecimento pra resolver problemas científicos.

  3. Cálculo Científico: Essa parte testa as habilidades do modelo em realizar Cálculos baseados em princípios científicos.

  4. Habilidade de Pesquisa: Esse nível examina o pensamento em níveis mais altos, incluindo a criação de experimentos e a análise de dados.

Estruturando a avaliação desse jeito, o SciEval consegue cobrir uma gama abrangente de habilidades necessárias pro trabalho científico.

Como o SciEval Foi Criado

Pra construir o conjunto de dados do SciEval, a gente seguiu um processo cuidadoso. A principal fonte de perguntas estáticas veio de um site colaborativo que cobre várias matérias, incluindo ciência. Esse site forneceu uma riqueza de material pra tirar ideias. Os dados foram filtrados pela qualidade, e algumas perguntas foram refinadas com a ajuda de LLMs pra garantir clareza e adequação.

Pra perguntas dinâmicas, a gente evitou usar dados estáticos. Em vez disso, criamos perguntas com base em princípios científicos reais pra manter as coisas frescas e relevantes. Atualizações regulares vão garantir que essas perguntas permaneçam atuais e úteis pras avaliações.

Além disso, a gente incluiu dados experimentais de experimentos científicos reais que são comumente ensinados nas universidades. Isso oferece um jeito prático de avaliar como os modelos podem processar e entender conceitos científicos.

Métodos de Avaliação

Pra avaliar os modelos usando o SciEval, a gente considerou diferentes configurações. Os modelos foram testados em um ambiente de só respostas, onde eles apenas davam respostas e não explicavam o raciocínio por trás delas. Eles também foram avaliados usando uma abordagem de cadeia de pensamento, onde tiveram que explicar seu processo de raciocínio. Isso permite ver não só se eles conseguem responder perguntas, mas também como chegam nessas respostas.

Modelos diferentes foram avaliados pra dar uma comparação das suas habilidades. Alguns modelos se saíram bem, principalmente os da série GPT, mostrando maior precisão nas suas respostas.

Principais Descobertas do SciEval

  1. Desempenho dos Modelos: Nossos testes revelaram que, enquanto alguns modelos como o GPT-4 se saíram muito bem, muitos outros tiveram dificuldade, especialmente em fazer cálculos científicos. Isso destaca a necessidade de desenvolvimento contínuo nessas áreas.

  2. Forças em Certas Áreas: Os modelos mostraram bom desempenho em responder perguntas de conhecimento básico, mas a habilidade deles em lidar com cálculos complexos e análise experimental foi mais fraca.

  3. Impacto dos Dados de Treinamento: Os resultados indicaram que modelos treinados em grandes conjuntos de dados científicos, como o Galactica, tendem a superar os outros. Isso sugere que a exposição a materiais científicos diversos pode melhorar o desempenho em tarefas científicas.

  4. Desafios com Perguntas Dinâmicas: Os modelos enfrentaram dificuldades com perguntas que foram geradas recentemente, especialmente em física. Isso sugere que os modelos podem precisar de um treinamento mais direcionado pra lidar melhor com essas perguntas.

  5. Desempenho Experimental: Em configurações experimentais, alguns modelos se saíram bem em entender princípios, mas tiveram dificuldade em analisar resultados. Isso indica uma lacuna entre conhecimento teórico e aplicação prática.

Conclusão

Resumindo, o SciEval é um passo importante na avaliação das capacidades dos modelos de linguagem em pesquisa científica. Ao incorporar uma variedade de tipos de perguntas, geração dinâmica de dados e um método de avaliação estruturado, ele oferece uma avaliação completa de como esses modelos podem funcionar em contextos científicos. À medida que a pesquisa usando modelos de linguagem continua a crescer, ferramentas como o SciEval vão ajudar a garantir que eles sejam testados de forma eficaz, levando a modelos melhores e aplicações mais confiáveis na ciência.

Fonte original

Título: SciEval: A Multi-Level Large Language Model Evaluation Benchmark for Scientific Research

Resumo: Recently, there has been growing interest in using Large Language Models (LLMs) for scientific research. Numerous benchmarks have been proposed to evaluate the ability of LLMs for scientific research. However, current benchmarks are mostly based on pre-collected objective questions. This design suffers from data leakage problem and lacks the evaluation of subjective Q/A ability. In this paper, we propose SciEval, a comprehensive and multi-disciplinary evaluation benchmark to address these issues. Based on Bloom's taxonomy, SciEval covers four dimensions to systematically evaluate scientific research ability. In particular, we design a "dynamic" subset based on scientific principles to prevent evaluation from potential data leakage. Both objective and subjective questions are included in SciEval. These characteristics make SciEval a more effective benchmark for scientific research ability evaluation of LLMs. Comprehensive experiments on most advanced LLMs show that, although GPT-4 achieves SOTA performance compared to other LLMs, there is still substantial room for improvement, especially for dynamic questions. The codes and data are publicly available on https://github.com/OpenDFM/SciEval.

Autores: Liangtai Sun, Yang Han, Zihan Zhao, Da Ma, Zhennan Shen, Baocai Chen, Lu Chen, Kai Yu

Última atualização: 2024-11-07 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2308.13149

Fonte PDF: https://arxiv.org/pdf/2308.13149

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes