Novo Benchmark VisScience Avalia Aprendizado Multi-Modal
A VisScience testa grandes modelos em raciocínio científico usando texto e imagens.
Zhihuan Jiang, Zhen Yang, Jinhao Chen, Zhengxiao Du, Weihan Wang, Bin Xu, Jie Tang
― 5 min ler
Índice
- Visão Geral do Padrão
- Estrutura das Perguntas
- Matemática
- Física
- Química
- Níveis de Dificuldade
- Importância da Aprendizagem Multi-modal
- Avaliação dos Modelos
- Resultados
- Desafios no Raciocínio Científico
- Processo de Coleta de Dados
- Anotação de Dados
- Comparação com Padrões Existentes
- Implicações para Pesquisas Futuras
- Conclusão
- Fonte original
- Ligações de referência
Recentemente, criaram um novo padrão chamado VisScience pra testar como modelos de linguagem multi-modal grandes (MLLMs) conseguem resolver problemas científicos usando texto e imagens. Esse padrão é importante porque muitos testes existentes focam principalmente em matemática e não incluem outras matérias científicas como física e química. O VisScience pretende preencher essa lacuna, fornecendo uma Avaliação mais equilibrada das habilidades de Raciocínio Científico em diferentes áreas.
Visão Geral do Padrão
O VisScience tem 3.000 perguntas que cobrem três áreas principais: matemática, física e química. Cada uma dessas áreas tem 1.000 perguntas, distribuídas igualmente entre diferentes tópicos e níveis de dificuldade. As perguntas são feitas pra estudantes do ensino fundamental ao médio. O objetivo é avaliar como os MLLMs entendem e resolvem problemas apresentados tanto em texto quanto em formatos visuais.
Estrutura das Perguntas
As perguntas no padrão VisScience estão divididas em várias disciplinas dentro de cada área.
Matemática
A seção de matemática inclui seis tópicos:
- Geometria plana
- Geometria sólida
- Funções e equações
- Operações algébricas
- Probabilidade e estatística
- Matemática combinatória
Física
A seção de física é composta por oito tópicos:
- Mecânica
- Termodinâmica
- Experimentos e métodos abrangentes
- Movimento mecânico
- Vibração e ondas
- Óptica
- Eletromagnetismo
- Física moderna
Química
A seção de química compreende sete tópicos:
- Experimentos químicos
- Química orgânica
- Composição de materiais
- Eletroquímica
- Reações químicas
- Química inorgânica
- Equilíbrio químico
Níveis de Dificuldade
As perguntas são feitas com cinco níveis de dificuldade:
- Básico
- Fácil
- Intermediário
- Avançado
- Especialista
Isso ajuda a garantir que os modelos sejam avaliados em problemas simples e complexos. Com perguntas em vários níveis, o padrão consegue medir melhor as habilidades dos modelos em enfrentar diferentes desafios científicos.
Importância da Aprendizagem Multi-modal
Aprendizagem multi-modal refere-se à capacidade de processar e entender informações apresentadas em formatos de texto e imagem. Por exemplo, uma pergunta pode incluir um diagrama ou um gráfico que o modelo precisa analisar junto com o texto escrito pra chegar à resposta certa. Essa abordagem reflete cenários do mundo real, onde a informação costuma ser apresentada de várias formas, tornando-se crucial para modelos educacionais.
Avaliação dos Modelos
Na fase de avaliação, 25 MLLMs diferentes foram testados usando o padrão VisScience. Esses modelos incluem tanto de código aberto quanto fechado, permitindo uma análise abrangente de seu desempenho. As avaliações mostram quão bem esses modelos conseguem lidar com a diversidade de tarefas de raciocínio científico apresentadas nas perguntas.
Resultados
Os resultados indicaram que os MLLMs de código fechado geralmente tiveram um desempenho melhor que os de código aberto. Por exemplo, as melhores pontuações registradas foram:
- Matemática: 53,4% de precisão pelo Claude3.5-Sonnet
- Física: 38,2% de precisão pelo GPT-4o
- Química: 47,0% pelo Gemini-1.5-Pro
Essas descobertas destacam tanto as forças quanto as fraquezas dos MLLMs atuais, mostrando que ainda há espaço pra melhorar na resolução de tarefas de raciocínio científico.
Desafios no Raciocínio Científico
Um desafio comum enfrentado pelos modelos foram os erros de raciocínio, especialmente ao tentar resolver problemas que exigiam não só compreensão numérica, mas também conceitual. Os maiores erros foram encontrados em:
- Matemática: 56,5%
- Física: 50,1%
- Química: 40,6%
Isso sugere que, enquanto os modelos podem realizar cálculos, eles têm mais dificuldade em interpretar informações visuais e aplicar esse conhecimento pra resolver problemas.
Coleta de Dados
Processo deAs perguntas incluídas no padrão VisScience foram cuidadosamente coletadas de fontes educacionais K12. Um total de 450.000 perguntas foram inicialmente reunidas, das quais 3.000 perguntas de alta qualidade foram selecionadas. O processo de seleção garantiu uma ampla gama de tópicos e níveis de dificuldade.
Anotação de Dados
Pra garantir a qualidade das perguntas, foram realizados múltiplos cheques, incluindo revisões manuais pra verificar precisão e relevância. Esse processo envolveu confirmar que tanto o texto quanto o conteúdo visual associado eram apropriados e claros para o propósito educacional pretendido.
Comparação com Padrões Existentes
Comparado a padrões existentes, o VisScience se destaca por várias razões:
- Cobre uma gama mais ampla de matérias, incluindo não só matemática, mas também física e química.
- Fornece perguntas em inglês e chinês, permitindo uma avaliação mais global dos MLLMs.
- Inclui uma seleção cuidadosa de perguntas de vários tópicos e níveis de dificuldade, em vez de focar apenas em uma área de assunto.
Implicações para Pesquisas Futuras
O desenvolvimento do VisScience abre novas avenidas para pesquisa em tecnologia educacional e IA. Os resultados podem orientar melhorias futuras no design dos MLLMs, ajudando a torná-los mais eficazes em entender e resolver problemas científicos complexos.
Conclusão
O padrão VisScience representa um grande passo à frente na avaliação de quão bem os MLLMs conseguem raciocinar em contextos científicos. Ao fornecer um conjunto diversificado de perguntas em várias matérias e níveis de dificuldade, oferece uma avaliação mais equilibrada e abrangente das capacidades dos modelos. As percepções obtidas dessa avaliação não só destacam as forças e fraquezas atuais, mas também abrem caminho pra futuros avanços tanto em ferramentas educacionais quanto em tecnologia de IA.
Título: VisScience: An Extensive Benchmark for Evaluating K12 Educational Multi-modal Scientific Reasoning
Resumo: Multi-modal large language models (MLLMs) have demonstrated promising capabilities across various tasks by integrating textual and visual information to achieve visual understanding in complex scenarios. Despite the availability of several benchmarks aims to evaluating MLLMs in tasks from visual question answering to complex problem-solving, most focus predominantly on mathematics or general visual understanding tasks. This reveals a critical gap in current benchmarks, which often overlook the inclusion of other key scientific disciplines such as physics and chemistry. To address this gap, we meticulously construct a comprehensive benchmark, named VisScience, which is utilized to assess the multi-modal scientific reasoning across the three disciplines of mathematics, physics, and chemistry. This benchmark comprises 3,000 questions drawn from K12 education - spanning elementary school through high school - equally distributed across three disciplines, with 1,000 questions per discipline. The questions within VisScience span 21 distinct subjects and are categorized into five difficulty levels, offering a broad spectrum of topics within each discipline. With VisScience, we present a detailed evaluation of the performance of 25 representative MLLMs in scientific reasoning. Experimental results demonstrate that closed-source MLLMs generally outperform open-source models. The best performance observed include a 53.4\% accuracy in mathematics by Claude3.5-Sonnet, 38.2\% in physics by GPT-4o, and 47.0\% in chemistry by Gemini-1.5-Pro. These results underscore the strengths and limitations of MLLMs, suggesting areas for future improvement and highlighting the importance of developing models that can effectively handle the diverse demands of multi-modal scientific reasoning.
Autores: Zhihuan Jiang, Zhen Yang, Jinhao Chen, Zhengxiao Du, Weihan Wang, Bin Xu, Jie Tang
Última atualização: 2024-12-02 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2409.13730
Fonte PDF: https://arxiv.org/pdf/2409.13730
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://platform.openai.com/docs/models/gpt-3-5-turbo
- https://platform.openai.com/docs/models/gpt-4-turbo-and-gpt-4
- https://www.anthropic.com/api
- https://ai.google.dev/
- https://platform.openai.com/docs/models/gpt-4o
- https://help.aliyun.com/zh/dashscope/developer-reference/vl-plus-quick-start
- https://open.bigmodel.cn/dev/api
- https://platform.stepfun.com/docs/llm/vision
- https://github.com/X-PLUG/mPLUG-Owl
- https://github.com/deepseek-ai/DeepSeek-VL
- https://github.com/ml-lab/LLaMA-Adapter-2
- https://github.com/haotian-liu/LLaVA
- https://huggingface.co/Lin-Chen/ShareGPT4V-7B
- https://huggingface.co/Lin-Chen/ShareGPT4V-13B
- https://huggingface.co/THUDM/glm-4v-9b
- https://github.com/Alpha-VLLM/LLaMA2-Accessory/blob/main/SPHINX/README.md
- https://huggingface.co/OpenGVLab/InternVL-Chat-V1-5
- https://huggingface.co/OpenGVLab/InternVL-Chat-V1-2-Plus
- https://huggingface.co/internlm/internlm-xcomposer2-vl-7b
- https://huggingface.co/THUDM/cogvlm-chat-hf