Simple Science

Ciência de ponta explicada de forma simples

# Informática# Computação e linguagem

Avaliando as Habilidades de Raciocínio de Modelos de Linguagem Multimodais

Um estudo sobre MLLMs e como eles se saem em tarefas de raciocínio não verbal.

― 8 min ler


MLLMs Têm Dificuldade comMLLMs Têm Dificuldade comTarefas de Raciocíniomultimodais.habilidades de raciocínio dos modelosUm estudo revela fraquezas nas
Índice

Modelos de linguagem grandes (LLMs) estão sendo usados de novas maneiras, e agora existem modelos de linguagem multimodal (MLLMs) que misturam texto e imagens. Esses MLLMs tentam pensar de formas mais complexas usando os dois tipos de informação. Mas ainda não sabemos muito sobre quão bem eles conseguem raciocinar.

Neste estudo, olhamos para como MLLMs de Código aberto e fechado lidam com tarefas de raciocínio abstrato não verbal, que são problemas que exigem pensamento visual. Usamos testes chamados Matrizes Progressivas de Raven, que apresentam quebra-cabeças visuais e pedem a peça que falta. Nossos resultados mostraram que resolver esses quebra-cabeças é difícil para esses modelos, e notamos uma diferença significativa no desempenho entre os MLLMs de código aberto e fechado.

Além disso, encontramos fraquezas importantes tanto nas partes visuais quanto textuais dos modelos, o que os impediu de ter um bom desempenho. Para ajudar os MLLMs a se saírem melhor, testamos vários métodos, como o Chain-of-Thought prompting, que melhorou significativamente seu desempenho.

Modelos Fundamentais e Habilidades de Raciocínio

Modelos fundamentais, que incluem LLMs e modelos de visão grandes (LVMs), tiveram um grande impacto na inteligência artificial. Eles podem aprender com exemplos sem precisar ser treinados especificamente para cada tarefa e às vezes se saem até melhor que humanos em algumas áreas. Esses modelos lidam com dois tipos de inteligência: inteligência definida, que lembra conhecimento, e inteligência fluida, que envolve raciocínio novo e criativo.

Recentemente, houve um aumento no desenvolvimento de MLLMs, que podem processar tanto informações visuais quanto textuais. Isso abre a possibilidade de lidar com tarefas mais complexas envolvendo os dois tipos de entradas. Tarefas de raciocínio abstrato não verbal exigem o uso eficaz de informações visuais e textuais, e costumam ser usadas para medir inteligência fluida.

Embora estudos anteriores tenham olhado para como LVMs e LLMs se saem nessas tarefas isoladamente, este estudo foca no que acontece quando eles são combinados. A percepção visual nos ajuda a entender o mundo ao nosso redor, e a linguagem auxilia no raciocínio através de ideias.

Inspirados em trabalhos anteriores que estudaram como pistas visuais e verbais podem trabalhar juntas para melhorar o raciocínio, nos propusemos a responder a pergunta: "Os MLLMs mostram habilidades precisas de raciocínio abstrato não verbal?" Também exploramos as razões por trás de quaisquer problemas no raciocínio e testamos diferentes estratégias para melhorar o desempenho.

Contribuições do Estudo

Nós realizamos várias avaliações:

  1. Avaliamos as habilidades de raciocínio de 24 MLLMs diferentes, tanto de código aberto quanto fechado, usando três benchmarks diferentes baseados nas Matrizes Progressivas de Raven.
  2. Examinamos como os MLLMs podiam se sair quando usavam apenas texto ou apenas imagens para ver como os erros em um tipo de dado afetavam o desempenho geral.
  3. Investigamos como os MLLMs se saíram em cenários de zero-shot (sem treinamento) e few-shot (com algum treinamento), ajudando a pintar um quadro mais claro de como o entendimento verbal e visual deles se alinha.

O que descobrimos foi que os MLLMs de código aberto tiveram dificuldades significativas com raciocínio abstrato não verbal, enquanto modelos de código fechado como o GPT-4V mostraram algumas capacidades promissoras. No entanto, ambos os grupos tiveram fraquezas notáveis em raciocínio visual e verbal, o que explicou seus desempenhos ruins. Também descobrimos que os modelos de código fechado mostraram alguma correspondência entre seu entendimento textual e visual, permitindo melhorias notáveis por meio de prompts guiados e demonstrações.

Tarefas de Raciocínio Não Verbal

O benchmark IQ50 é um teste de raciocínio não verbal que inclui 50 quebra-cabeças visuais encontrados online. Cada quebra-cabeça consiste em imagens organizadas em uma grade com uma imagem faltando, e o objetivo é identificar qual das opções fornecidas completa melhor o quebra-cabeça. Cada quebra-cabeça também inclui texto para explicar o problema e dicas, então pudemos analisar como texto e imagens interagem nos processos de raciocínio.

RAVEN é outro conjunto de dados que usamos, que tem uma coleção maior de quebra-cabeças, contendo 70.000 amostras. Semelhante ao IQ50, os participantes devem escolher a imagem faltante com base na disposição em grade. Como avaliar todas as amostras não era viável, limitamos nossos testes a 500 exemplos de cada categoria.

Nós também compilamos um novo conjunto de dados do Exame Civil da China que consiste em problemas visuais apresentando 175 desafios de raciocínio. Esse conjunto de dados foi projetado para ser mais complexo e incluir vários padrões de raciocínio.

Escolhemos avaliar vários MLLMs de ponta que são ou de código aberto ou modelos ajustados por instrução. O objetivo era reunir insights sobre suas capacidades dentro do domínio de raciocínio abstrato não verbal.

Avaliação de Desempenho

Nossos métodos de avaliação incluíram não apenas pontuação automática, mas também inspeções manuais para garantir precisão e entendimento. Para pontuação automática, desenvolvemos um método para avaliar quão provável cada modelo escolheria uma opção particular com base nas respostas que geraram. As observações mostraram que nenhum modelo superou consistentemente as referências aleatórias.

Os modelos mostraram desempenhos variados em diferentes conjuntos de dados, com muitos alcançando apenas melhorias marginais em relação a adivinhações aleatórias. Alguns modelos de código aberto se saíram de maneira semelhante aos seus equivalentes de código fechado, mas havia uma clara falta de consistência e confiabilidade entre eles, especialmente ao lidar com o benchmark IQ50.

Também analisamos como o tamanho dos modelos afetou seu desempenho. Surpreendentemente, modelos maiores nem sempre se traduziram em melhores habilidades de raciocínio, levando-nos a questionar as verdadeiras capacidades de raciocínio desses MLLMs.

Inspeção Manual e Descobertas

Para obter insights mais profundos, inspecionamos manualmente as respostas geradas pelos modelos para avaliar coerência e correção. Essa inspeção revelou que apenas alguns modelos conseguiram dar respostas significativas que faziam sentido no contexto dos quebra-cabeças.

Nossas descobertas indicaram que os modelos frequentemente entendiam as formas nas imagens, mas lutavam com raciocínios mais profundos. Muitas respostas acabaram sendo excessivamente descritivas, focando no que o quebra-cabeça parecia em vez de como resolvê-lo.

Desafios no Raciocínio Visual e Textual

Como os MLLMs combinam informações visuais e textuais, erros em uma área podem afetar todo o processo. Durante os testes, fornecemos modelos com amostras apenas de texto para isolar suas habilidades de raciocínio textual. Descobrimos que modelos de código fechado geralmente se saíram melhor, particularmente o GPT-4V.

Nosso trabalho revelou uma clara lacuna nas habilidades de raciocínio entre modelos de código aberto e fechado. Modelos de código aberto pareciam não ter um entendimento adequado, enquanto modelos de código fechado mostraram um desempenho mais robusto, mas ainda falharam em superar consistentemente abordagens heurísticas básicas.

Melhorando os MLLMs

Para melhorar o desempenho dos MLLMs, exploramos diferentes técnicas de engenharia de prompts. Ao fornecer aos modelos uma orientação melhor através de prompts estruturados, observamos melhorias na precisão.

Testamos várias configurações, incluindo prompts que direcionavam a atenção para elementos específicos nos quebra-cabeças. Os resultados indicaram que usar dicas corretivas melhorou significativamente o desempenho em relação a outras estratégias de prompting.

Aprendizado em contexto, onde os modelos recebem exemplos para aprender durante o processo, também foi examinado. Nossos estudos encontraram resultados mistos, com alguns modelos se saindo bem e outros tendo dificuldade em entender os conceitos sendo demonstrados.

Conclusão

Este estudo avaliou as habilidades de raciocínio dos modelos de linguagem grandes multimodais em tarefas de raciocínio abstrato não verbal. Nossas descobertas revelaram que modelos de código aberto lutaram significativamente, enquanto modelos de código fechado como o GPT-4V mostraram algumas habilidades, mas ainda falharam em superar consistentemente heurísticas básicas.

Nossos experimentos destacaram áreas-chave onde os MLLMs ficam aquém, particularmente em perceber com precisão detalhes visuais e raciocinar através de informações textuais. Os resultados apontam para a necessidade de mais pesquisas para melhorar esses modelos, particularmente em avaliações de ancoragem, e possivelmente automatizar o processo de fornecer dicas corretivas.

Em conclusão, embora os MLLMs tenham mostrado potencial em várias tarefas, seu desempenho em medições de formas simples de inteligência indica áreas que exigem melhorias significativas. Trabalhos futuros devem considerar aplicações mais amplas dessas descobertas, testando outras tarefas de raciocínio para ver se desafios semelhantes existem em vários domínios.

Declaração de Ética

Este trabalho não tem considerações éticas.

Fonte original

Título: The Curious Case of Nonverbal Abstract Reasoning with Multi-Modal Large Language Models

Resumo: While large language models (LLMs) are still being adopted to new domains and utilized in novel applications, we are experiencing an influx of the new generation of foundation models, namely multi-modal large language models (MLLMs). These models integrate verbal and visual information, opening new possibilities to demonstrate more complex reasoning abilities at the intersection of the two modalities. However, despite the revolutionizing prospect of MLLMs, our understanding of their reasoning abilities is limited. In this study, we assess the nonverbal abstract reasoning abilities of open-source and closed-source MLLMs using variations of Raven's Progressive Matrices. Our experiments reveal the challenging nature of such problems for MLLMs while showcasing the immense gap between open-source and closed-source models. We also uncover critical shortcomings of visual and textual perceptions, subjecting the models to low-performance ceilings. Finally, to improve MLLMs' performance, we experiment with different methods, such as Chain-of-Thought prompting, leading to a significant (up to 100%) boost in performance. Our code and datasets are available at https://github.com/usc-isi-i2/isi-mmlm-rpm.

Autores: Kian Ahrabian, Zhivar Sourati, Kexuan Sun, Jiarui Zhang, Yifan Jiang, Fred Morstatter, Jay Pujara

Última atualização: 2024-08-22 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2401.12117

Fonte PDF: https://arxiv.org/pdf/2401.12117

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes