Avaliando as Habilidades de Perspectiva da IA
Este estudo analisa como a IA entende espaço e perspectiva em comparação com os humanos.
Bridget Leonard, Kristin Woodard, Scott O. Murray
― 6 min ler
Índice
Esse estudo analisa como os sistemas de IA multimodal conseguem entender espaço e perspectiva. Enquanto modelos de IA atuais, como o GPT-4o, podem coletar informações de imagens, eles costumam fazer isso de um jeito diferente do que humanos e animais pensam sobre espaço. Pra entender como essas limitações afetam a IA, essa pesquisa combina ideias da psicologia e ciências do desenvolvimento pra testar a habilidade do GPT-4o de adotar diferentes perspectivas.
Tomada de perspectiva?
O que éTomada de perspectiva é uma habilidade chave pra entender relacionamentos espaciais. Ela ajuda as pessoas a descobrirem como interagir com objetos no espaço, o que é importante pra se mover e em situações sociais. Sistemas de IA precisam de boas habilidades de tomada de perspectiva pra nos ajudar nas tarefas do dia a dia. Os pesquisadores normalmente dividem a tomada de perspectiva em dois níveis:
Nível 1: Reconhecer que outra pessoa pode ver algo diferente. Essa habilidade geralmente se desenvolve até os dois anos. Um exemplo de tarefa de Nível 1 é perguntar se um objeto é visível pra outra pessoa em uma cena.
Nível 2: Isso envolve entender como uma cena parece do ponto de vista de outra pessoa. As crianças começam a demonstrar habilidades de Nível 2 por volta dos quatro anos, mas essa capacidade continua a se desenvolver até a adolescência.
Uma habilidade específica relacionada à tomada de perspectiva é chamada de rotação mental. É quando uma pessoa imagina como um objeto se move no espaço pra vê-lo de outro ângulo. Pesquisadores usaram tarefas que pedem aos participantes que olhem números ou blocos de diferentes ângulos pra ver quão bem eles conseguem fazer a rotação mental.
Deficiências da IA Atual
Tem dois problemas principais na forma como os sistemas de IA entendem espaço:
- A IA às vezes pode depender demais da linguagem pra responder perguntas espaciais, o que pode inflar seu desempenho em testes espaciais.
- Quando os modelos de IA vão mal nesses testes, pode ser difícil entender o porquê, tornando complicado melhorá-los.
Por exemplo, uma versão só de texto do GPT-4 marcou 31,4 em um teste de compreensão espacial, enquanto uma versão multimodal marcou apenas um pouco mais, 42,6. Isso indica que o modelo multimodal não melhora significativamente a compreensão do espaço.
Além disso, um teste chamado BLINK, que focou na percepção visual, mostrou que o GPT-4v marcou apenas 51,26% em tarefas espaciais, o que não é muito melhor do que adivinhação aleatória e é significativamente inferior ao desempenho humano. Esses achados sugerem que a IA ainda tem um longo caminho pela frente antes de conseguir lidar com tarefas espaciais do mundo real de forma eficaz.
Analisando as Habilidades de Tomada de Perspectiva da IA
Pra entender melhor como a IA se sai em tarefas espaciais, esse estudo introduziu um padrão que avalia habilidades de tomada de perspectiva de Nível 1 e Nível 2. O padrão inclui três tarefas pra mirar habilidades específicas: tarefas de Nível 1, tarefas de Nível 2 com julgamentos espaciais e tarefas de Nível 2 com julgamentos visuais.
Os participantes do estudo usaram um avatar e vários objetos pra ver como a IA se saiu quando questionada sobre as Relações Espaciais entre aqueles objetos. As tarefas incluíam imagens de diferentes ângulos e perguntavam se o objeto estava na frente ou atrás, ou à esquerda ou à direita.
Pra ver se o processamento de linguagem ajudava a IA a resolver problemas espaciais, foi usado um tipo de prompt especial chamado "chain-of-thought prompting" nas tarefas de Nível 2. Essa abordagem incentivou a IA a analisar a imagem passo a passo.
Resultados do Estudo
Os resultados mostraram que o GPT-4o se saiu bem na maioria das tarefas, acertando quase todas as respostas quando as imagens eram apresentadas de certos ângulos. No entanto, teve dificuldade com ângulos específicos, que pode ser por causa das distrações nas imagens. O desempenho do GPT-4o caiu em tarefas que precisavam de rotação mental da imagem, especialmente quando a diferença de ângulo era grande.
Humanos geralmente demoram mais pra responder quando o ângulo entre o observador e o objeto aumenta. Isso foi testado em um grupo de participantes humanos como parte do estudo, confirmando que os tempos de resposta eram mais longos em ângulos maiores. O GPT-4o também demorou mais quando foi pedido pra rotacionar a imagem, mostrando que tem dificuldade com tarefas que exigem esse tipo de mudança mental.
Efeito da Linguagem no Desempenho
Usar chain-of-thought prompting melhorou o desempenho do GPT-4o em certas tarefas, especialmente aquelas que exigiam uma rotação completa de 180°. No entanto, não ajudou com ângulos intermediários, o que sugere que, embora a linguagem possa ajudar a transmitir algumas ideias sobre espaço, falta a profundidade necessária pra uma compreensão completa. Essa limitação explica por que a IA pode ter boas pontuações em alguns padrões espaciais sem realmente entender as relações espaciais.
Conclusão sobre a Tomada de Perspectiva da IA
O estudo demonstra que aplicar métodos de psicologia já estabelecidos ajuda a destacar onde sistemas de IA como o GPT-4o falham em raciocínio espacial. Ele descobriu que, enquanto o GPT-4o pode atingir habilidades de Nível 1 semelhantes às de uma criança pequena, ele tem dificuldades com tarefas de Nível 2 que exigem rotação mental.
Os achados também sugerem que o GPT-4o pode não depender de rotação mental como os humanos. Em vez disso, parece depender da informação das imagens, o que limita sua capacidade de compreender completamente as relações espaciais.
Direções Futuras
Embora haja apelos por melhorias no treinamento de dados pra avançar o desempenho da IA em tomada de perspectiva, esse estudo indica que o problema pode não ser só sobre os dados. Como a compreensão de Nível 2 se desenvolve em humanos ao longo de vários anos, isso pode apontar para desafios computacionais mais profundos no design da IA que precisam ser abordados.
Em resumo, esse estudo fornece insights sobre os pontos fortes e fracos dos sistemas de IA multimodal em entender espaço e perspectiva. Usando medidas bem estabelecidas da psicologia, criamos um método mais claro pra comparar as capacidades da IA com as habilidades cognitivas humanas. Essa pesquisa serve como uma base pra investigações futuras sobre como melhorar a compreensão da IA em tomada de perspectiva e raciocínio espacial.
Título: Failures in Perspective-taking of Multimodal AI Systems
Resumo: This study extends previous research on spatial representations in multimodal AI systems. Although current models demonstrate a rich understanding of spatial information from images, this information is rooted in propositional representations, which differ from the analog representations employed in human and animal spatial cognition. To further explore these limitations, we apply techniques from cognitive and developmental science to assess the perspective-taking abilities of GPT-4o. Our analysis enables a comparison between the cognitive development of the human brain and that of multimodal AI, offering guidance for future research and model development.
Autores: Bridget Leonard, Kristin Woodard, Scott O. Murray
Última atualização: 2024-09-20 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2409.13929
Fonte PDF: https://arxiv.org/pdf/2409.13929
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.