Simple Science

Ciência de ponta explicada de forma simples

# Biologia# Neurociência

Redes Neurais Profundas e Desafios de Reconhecimento de Formas

Pesquisas mostram porque as DNNs têm dificuldade em processar formas em comparação com os humanos.

― 10 min ler


DNNs têm dificuldade comDNNs têm dificuldade comreconhecimento de formasneurais.de processamento de formas das redesExplorando preconceitos nas habilidades
Índice

Avanços recentes em deep learning abriram novas portas para estudar como o cérebro funciona. Redes neurais profundas (DNNs) se tornaram bem habilidosas em tarefas como reconhecer imagens e gerar linguagem. Em alguns casos, essas redes conseguem até fazer essas tarefas melhor que os humanos. Para os pesquisadores em neurociência, ter modelos que imitam comportamentos complexos é uma ferramenta importante para entender os processos cerebrais.

As redes neurais profundas foram inicialmente inspiradas por redes biológicas no cérebro. Assim como o cérebro, essas redes são compostas por unidades simples que se conectam de maneiras complicadas. Essa estrutura permite que as DNNs representem ideias em vários níveis, desde funções específicas das unidades individuais até conceitos mais amplos sobre como o aprendizado molda a atividade cerebral. Essa abordagem tem sido particularmente bem-sucedida em entender como processamos informações visuais. As DNNs conseguem prever com precisão como nosso cérebro interpreta imagens e até criar imagens falsas para testar como neurônios específicos respondem.

No entanto, usar essas redes como modelos para o cérebro tem seus problemas. Críticos apontam que só porque uma DNN se sai bem em uma tarefa, isso não significa que usa as mesmas estratégias que os humanos. Embora as redes possam rotular imagens da mesma forma que uma pessoa faria, os métodos que empregam para chegar a essas conclusões podem ser bem diferentes. Embora as DNNs compartilhem algumas características com o córtex visual humano, elas carecem de recursos cruciais que contribuem para como vemos e interpretamos imagens. Evidências mostram que as DNNs processam imagens de forma diferente dos humanos; por exemplo, elas podem ser enganadas por imagens manipuladas, são menos resistentes a mudanças nas imagens e não exibem os princípios organizacionais que são fundamentais para a percepção humana.

Uma grande diferença é que os humanos dependem muito da forma de um objeto para identificá-lo, enquanto as redes neurais tendem a focar em textura e outros aspectos superficiais. Essa diferença destaca como as DNNs têm dificuldade em reconhecer a forma geral dos objetos como os humanos fazem.

Pesquisadores propuseram uma nova estratégia chamada "neuroconnectionismo", que vê essas diferenças não como falhas, mas como chances para mais pesquisas. Ao examinar por que as DNNs processam Formas de maneira diferente dos humanos, os cientistas esperam descobrir os componentes e mecanismos necessários para uma compreensão da forma mais parecida com a humana.

Investigando o Processamento de Forma em Redes Neurais

Evidências apontando para as limitações das DNNs no processamento de formas surgiram de vários estudos. Embora essas redes possam usar algumas informações sobre forma - por exemplo, identificando contornos básicos - elas têm dificuldade com formas globais quando as imagens estão distorcidas. Quando a forma é tão informativa quanto outra característica, como cor, as redes frequentemente priorizam a outra característica. Isso leva a uma tendência de redes treinadas em imagens reais favorecem a textura, o que foi documentado em vários estudos.

Essa preferência por textura em vez de forma é notável e chamou a atenção de especialistas em aprendizado de máquina. Para combater esse viés, várias estratégias foram propostas, como treinar com imagens estilizadas ou melhorar os dados de certas maneiras. No entanto, simplesmente aumentar a sensibilidade à forma pode não levar a um processamento genuíno de forma, já que é apenas uma métrica entre muitas.

Apesar das extensas pesquisas sobre por que as DNNs mostram um viés em relação à forma, ainda não há uma explicação clara. Duas hipóteses principais surgiram:

  1. Aprendizado de Atalho: Essa ideia sugere que as DNNs simplificam a tarefa focando nas características mais fáceis de aprender. Se outras características não oferecem poder preditivo adicional, elas podem ser ignoradas.

  2. Deficiências Arquitetônicas: Essa hipótese postula que as DNNs atuais carecem de certos componentes que permitem um processamento eficaz da forma. Estruturas específicas encontradas em sistemas biológicos, como conexões de feedback, podem ser necessárias.

Cada uma dessas hipóteses levanta mais perguntas. Com o aprendizado de atalho, a pergunta fundamental muda de por que as redes favorecem textura em vez de forma para por que reconhecer Texturas é mais simples para as DNNs. Enquanto isso, se há deficiências arquitetônicas, o que exatamente está faltando nessas redes que dificulta o processamento da forma?

Essas perguntas apresentam desafios, já que forma e textura não estão precisamente definidas, especialmente em imagens naturais. Embora reconheçamos intuitivamente formas, faltam definições formais que nos permitam testar se uma rede pode realmente processar uma forma específica.

Uma abordagem para lidar com essa questão é usar imagens artificiais que tenham formas e texturas geradas de maneira controlada. Por exemplo, pesquisadores criaram imagens onde manchas coloridas formam formas simples e examinaram quão bem humanos e DNNs podem distinguir categorias com base em diferentes características, como forma, cor ou textura. No geral, esse tipo de estudo foca em entender por que as redes neurais têm dificuldade em reconhecer formas.

Em uma série de experimentos, conjuntos de dados de imagens artificiais foram projetados onde características simples de forma, cor ou textura indicavam a categoria de um objeto. O objetivo era determinar os padrões de viés em várias redes neurais. Ao treinar redes em diferentes combinações de características, os pesquisadores descobriram que a maioria das redes mostrava os mesmos viéses em relação à cor e textura observados anteriormente em imagens naturais.

Experimentação com Redes Neurais

Experimento 1: Confirmando o Viés em Redes Neurais

No primeiro experimento, quatro conjuntos de dados de imagens artificiais foram criados, onde cada imagem apresentava um único objeto em um fundo cinza. O objetivo era avaliar se as redes treinadas nesses conjuntos demonstravam a mesma preferência por cor ou textura em vez de forma. Por exemplo, um conjunto de dados apresentava retângulos coloridos, onde a associação de classe dependia da forma (horizontal ou vertical) e da cor (vermelho, azul, verde ou magenta).

Os pesquisadores treinaram várias Arquiteturas de redes neurais em cada conjunto de dados e avaliaram seu desempenho em diferentes conjuntos de teste. Eles examinaram se as redes classificavam corretamente quando apenas uma característica estava visível e se mostravam viés em direção a uma característica quando ambas estavam disponíveis.

Os resultados indicaram que quase todas as redes padrão exibiram uma preferência clara por cor ou textura. Embora as redes tenham alcançado alta precisão ao treinar em conjuntos de dados de cor e textura, seu desempenho foi ruim quando testadas apenas com dados de forma. A maioria das redes mostrou níveis de desempenho próximos ao acaso, indicando que aprenderam a depender de cor ou textura em vez de forma.

A exceção foi uma arquitetura de rede específica, o spcConvNet, que se saiu melhor quando confrontada com dados de forma em comparação com cor ou textura. Isso sugeriu que mesmo em um conjunto de dados controlado, as redes exibiram viéses semelhantes aos vistos em imagens naturais.

Experimento 2: Classificação de Forma

O segundo experimento focou em saber se essas redes poderiam classificar imagens apenas pela forma quando nenhuma outra característica estava presente. Os pesquisadores treinaram as mesmas redes em versões apenas com forma dos conjuntos de dados. Isso permitiu um teste direto entre as duas hipóteses: se as redes poderiam superar suas capacidades de classificação de forma ou se sua arquitetura carecia fundamentalmente da capacidade de processar formas eficazmente.

Os resultados revelaram que a capacidade das redes de aprender a classificação baseada em forma estava intimamente ligada à sua arquitetura. Redes convolucionais se saíram bem em diferenciar formas, alcançando quase 100% de precisão em conjuntos de dados apenas com formas. No entanto, redes mais simples como perceptrons de múltiplas camadas e transformadores de visão tiveram dificuldades significativas com o reconhecimento de forma, indicando possíveis deficiências arquitetônicas nesses designs.

Investigando Dinâmicas de Aprendizado

Para entender como esses viéses se desenvolvem durante o processo de aprendizado, os pesquisadores analisaram as dinâmicas de aprendizado de uma rede convolucional através da lente do núcleo tangente neural (NTK). O NTK descreve como as redes aprendem e ajustam seus parâmetros com base em dados de entrada.

Durante o treinamento, a trajetória de aprendizado mostrou que as DNNs estavam mais alinhadas com redes que se especializavam em cor ou textura do que aquelas projetadas para processar formas. Essa descoberta indicou um viés na forma como as atualizações de peso eram aplicadas durante o aprendizado, sugerindo que o processo de descida de gradiente empurrou as redes a se concentrarem em características locais, enquanto negligenciavam características de forma mais amplas.

Isso levou a uma análise de agrupamento, onde os pesquisadores buscaram entender como o NTK se relacionava com classes de imagem. Suas observações revelaram que redes baseadas em cor e textura exibiam agrupamentos de imagem que se alinhavam bem com classes, enquanto redes baseadas em forma não experimentaram o mesmo grau de alinhamento.

Experimento 4: Competição Espacial

O experimento final envolveu a arquitetura spcConvNet, que mostrou anteriormente alguma sensibilidade à forma. Os pesquisadores repetiram a análise do NTK para ver o que tornava essa rede diferente. Eles descobriram que o mecanismo de competição espacial dentro do spcConvNet resultou em gradientes mais esparsos em comparação com as outras redes convolucionais. Essa esparsidade reduziu a probabilidade de formar agrupamentos de gradientes de imagem semelhantes, o que foi um fator significativo na determinação das dinâmicas de aprendizado da rede.

Isso significa que a estrutura única do spcConvNet permitiu que ela se envolvesse na classificação baseada em forma de maneira diferente de seus pares, apoiando ainda mais a ideia de que as dinâmicas de aprendizado são críticas para moldar como as DNNs processam características específicas.

Conclusão

Os achados desses experimentos esclarecem por que as redes neurais profundas tendem a favorecer características de superfície, como cor e textura, em vez de características de forma. Embora algumas arquiteturas, como transformadores de visão, pareçam estruturalmente incapazes de aprender forma de forma eficaz, redes convolucionais podem aprender a classificação baseada em forma - mas muitas vezes não o fazem devido a viéses nas dinâmicas de aprendizado.

As percepções obtidas aqui sugerem que, embora os elementos arquitetônicos desempenhem um papel, os algoritmos e métodos de aprendizado são cruciais para entender como essas redes funcionam. Os próximos passos para a pesquisa podem envolver a exploração de melhorias em algoritmos de aprendizado ou a introdução de componentes inspirados biologicamente em modelos, o que pode ajudar a diminuir a lacuna entre aprendizado de máquina e processamento visual humano.

Ao focar nessas áreas-chave, os pesquisadores esperam entender melhor e melhorar os modelos de deep learning, tornando-os mais alinhados com como nossos cérebros interpretam e processam informações.

Fonte original

Título: Teaching deep networks to see shape: Lessons from a simplified visual world.

Resumo: Deep neural networks have been remarkably successful as models of the primate visual system. One crucial problem is that they fail to account for the strong shape-dependence of primate vision. Whereas humans base their judgements of category membership to a large extent on shape, deep networks rely much more strongly on other features such as color and texture. While this problem has been widely documented, the underlying reasons remain unclear. We design simple, artificial image datasets in which shape, color, and texture features can be used to predict the image class. By training networks to classify images with single features and feature combinations, we show that some network architectures are unable to learn to use shape features, whereas others are able to use shape in principle but are biased towards the other features. We show that the bias can be explained by the interactions between the weight updates for many images in mini-batch gradient descent. This suggests that different learning algorithms with sparser, more local weight changes are required to make networks more sensitive to shape and improve their capability to describe human vision. Author summaryWhen humans recognize objects, the cue they rely on most is shape. In contrast, deep neural networks mostly use local features like color and texture to classify images. We investigated how this difference arises, using images of simple shapes like rectangles and the letters L and T, combined with color and texture features. By testing different feature combinations, we show that some networks are generally unable to learn about shape, whereas others could learn to recognize shapes in isolation, but ignored shape if another feature was present. We show that this bias for color and texture arises from the way in which networks are trained: by averaging the learning signal over many images, the training algorithm favors simple features that are relatively similar in many images and removes sparser, more varied shape features. These insights can help build networks that are more sensitive to shape and work better as models of human vision.

Autores: Christian Jarvers, H. Neumann

Última atualização: 2024-03-29 00:00:00

Idioma: English

Fonte URL: https://www.biorxiv.org/content/10.1101/2024.03.25.586544

Fonte PDF: https://www.biorxiv.org/content/10.1101/2024.03.25.586544.full.pdf

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao biorxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes