Simple Science

Ciência de ponta explicada de forma simples

# Informática# Inteligência Artificial# Computação e linguagem

Novo Benchmark VisScience Avalia Aprendizado Multi-Modal

A VisScience testa grandes modelos em raciocínio científico usando texto e imagens.

Zhihuan Jiang, Zhen Yang, Jinhao Chen, Zhengxiao Du, Weihan Wang, Bin Xu, Jie Tang

― 5 min ler


VisScience Benchmark paraVisScience Benchmark paraAprendizado de IAraciocínio científico com novo padrão.Avaliação de modelos de IA em
Índice

Recentemente, criaram um novo padrão chamado VisScience pra testar como modelos de linguagem multi-modal grandes (MLLMs) conseguem resolver problemas científicos usando texto e imagens. Esse padrão é importante porque muitos testes existentes focam principalmente em matemática e não incluem outras matérias científicas como física e química. O VisScience pretende preencher essa lacuna, fornecendo uma Avaliação mais equilibrada das habilidades de Raciocínio Científico em diferentes áreas.

Visão Geral do Padrão

O VisScience tem 3.000 perguntas que cobrem três áreas principais: matemática, física e química. Cada uma dessas áreas tem 1.000 perguntas, distribuídas igualmente entre diferentes tópicos e níveis de dificuldade. As perguntas são feitas pra estudantes do ensino fundamental ao médio. O objetivo é avaliar como os MLLMs entendem e resolvem problemas apresentados tanto em texto quanto em formatos visuais.

Estrutura das Perguntas

As perguntas no padrão VisScience estão divididas em várias disciplinas dentro de cada área.

Matemática

A seção de matemática inclui seis tópicos:

  • Geometria plana
  • Geometria sólida
  • Funções e equações
  • Operações algébricas
  • Probabilidade e estatística
  • Matemática combinatória

Física

A seção de física é composta por oito tópicos:

  • Mecânica
  • Termodinâmica
  • Experimentos e métodos abrangentes
  • Movimento mecânico
  • Vibração e ondas
  • Óptica
  • Eletromagnetismo
  • Física moderna

Química

A seção de química compreende sete tópicos:

  • Experimentos químicos
  • Química orgânica
  • Composição de materiais
  • Eletroquímica
  • Reações químicas
  • Química inorgânica
  • Equilíbrio químico

Níveis de Dificuldade

As perguntas são feitas com cinco níveis de dificuldade:

  1. Básico
  2. Fácil
  3. Intermediário
  4. Avançado
  5. Especialista

Isso ajuda a garantir que os modelos sejam avaliados em problemas simples e complexos. Com perguntas em vários níveis, o padrão consegue medir melhor as habilidades dos modelos em enfrentar diferentes desafios científicos.

Importância da Aprendizagem Multi-modal

Aprendizagem multi-modal refere-se à capacidade de processar e entender informações apresentadas em formatos de texto e imagem. Por exemplo, uma pergunta pode incluir um diagrama ou um gráfico que o modelo precisa analisar junto com o texto escrito pra chegar à resposta certa. Essa abordagem reflete cenários do mundo real, onde a informação costuma ser apresentada de várias formas, tornando-se crucial para modelos educacionais.

Avaliação dos Modelos

Na fase de avaliação, 25 MLLMs diferentes foram testados usando o padrão VisScience. Esses modelos incluem tanto de código aberto quanto fechado, permitindo uma análise abrangente de seu desempenho. As avaliações mostram quão bem esses modelos conseguem lidar com a diversidade de tarefas de raciocínio científico apresentadas nas perguntas.

Resultados

Os resultados indicaram que os MLLMs de código fechado geralmente tiveram um desempenho melhor que os de código aberto. Por exemplo, as melhores pontuações registradas foram:

  • Matemática: 53,4% de precisão pelo Claude3.5-Sonnet
  • Física: 38,2% de precisão pelo GPT-4o
  • Química: 47,0% pelo Gemini-1.5-Pro

Essas descobertas destacam tanto as forças quanto as fraquezas dos MLLMs atuais, mostrando que ainda há espaço pra melhorar na resolução de tarefas de raciocínio científico.

Desafios no Raciocínio Científico

Um desafio comum enfrentado pelos modelos foram os erros de raciocínio, especialmente ao tentar resolver problemas que exigiam não só compreensão numérica, mas também conceitual. Os maiores erros foram encontrados em:

  • Matemática: 56,5%
  • Física: 50,1%
  • Química: 40,6%

Isso sugere que, enquanto os modelos podem realizar cálculos, eles têm mais dificuldade em interpretar informações visuais e aplicar esse conhecimento pra resolver problemas.

Processo de Coleta de Dados

As perguntas incluídas no padrão VisScience foram cuidadosamente coletadas de fontes educacionais K12. Um total de 450.000 perguntas foram inicialmente reunidas, das quais 3.000 perguntas de alta qualidade foram selecionadas. O processo de seleção garantiu uma ampla gama de tópicos e níveis de dificuldade.

Anotação de Dados

Pra garantir a qualidade das perguntas, foram realizados múltiplos cheques, incluindo revisões manuais pra verificar precisão e relevância. Esse processo envolveu confirmar que tanto o texto quanto o conteúdo visual associado eram apropriados e claros para o propósito educacional pretendido.

Comparação com Padrões Existentes

Comparado a padrões existentes, o VisScience se destaca por várias razões:

  • Cobre uma gama mais ampla de matérias, incluindo não só matemática, mas também física e química.
  • Fornece perguntas em inglês e chinês, permitindo uma avaliação mais global dos MLLMs.
  • Inclui uma seleção cuidadosa de perguntas de vários tópicos e níveis de dificuldade, em vez de focar apenas em uma área de assunto.

Implicações para Pesquisas Futuras

O desenvolvimento do VisScience abre novas avenidas para pesquisa em tecnologia educacional e IA. Os resultados podem orientar melhorias futuras no design dos MLLMs, ajudando a torná-los mais eficazes em entender e resolver problemas científicos complexos.

Conclusão

O padrão VisScience representa um grande passo à frente na avaliação de quão bem os MLLMs conseguem raciocinar em contextos científicos. Ao fornecer um conjunto diversificado de perguntas em várias matérias e níveis de dificuldade, oferece uma avaliação mais equilibrada e abrangente das capacidades dos modelos. As percepções obtidas dessa avaliação não só destacam as forças e fraquezas atuais, mas também abrem caminho pra futuros avanços tanto em ferramentas educacionais quanto em tecnologia de IA.

Fonte original

Título: VisScience: An Extensive Benchmark for Evaluating K12 Educational Multi-modal Scientific Reasoning

Resumo: Multi-modal large language models (MLLMs) have demonstrated promising capabilities across various tasks by integrating textual and visual information to achieve visual understanding in complex scenarios. Despite the availability of several benchmarks aims to evaluating MLLMs in tasks from visual question answering to complex problem-solving, most focus predominantly on mathematics or general visual understanding tasks. This reveals a critical gap in current benchmarks, which often overlook the inclusion of other key scientific disciplines such as physics and chemistry. To address this gap, we meticulously construct a comprehensive benchmark, named VisScience, which is utilized to assess the multi-modal scientific reasoning across the three disciplines of mathematics, physics, and chemistry. This benchmark comprises 3,000 questions drawn from K12 education - spanning elementary school through high school - equally distributed across three disciplines, with 1,000 questions per discipline. The questions within VisScience span 21 distinct subjects and are categorized into five difficulty levels, offering a broad spectrum of topics within each discipline. With VisScience, we present a detailed evaluation of the performance of 25 representative MLLMs in scientific reasoning. Experimental results demonstrate that closed-source MLLMs generally outperform open-source models. The best performance observed include a 53.4\% accuracy in mathematics by Claude3.5-Sonnet, 38.2\% in physics by GPT-4o, and 47.0\% in chemistry by Gemini-1.5-Pro. These results underscore the strengths and limitations of MLLMs, suggesting areas for future improvement and highlighting the importance of developing models that can effectively handle the diverse demands of multi-modal scientific reasoning.

Autores: Zhihuan Jiang, Zhen Yang, Jinhao Chen, Zhengxiao Du, Weihan Wang, Bin Xu, Jie Tang

Última atualização: 2024-12-02 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2409.13730

Fonte PDF: https://arxiv.org/pdf/2409.13730

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes