Simple Science

Ciência de ponta explicada de forma simples

# Informática# Visão computacional e reconhecimento de padrões# Aprendizagem de máquinas

Redes Neurais e a Lei do Fechamento

Investigando como redes neurais reconhecem formas com partes faltando.

Yuyan Zhang, Derya Soydaner, Fatemeh Behrad, Lisa Koßmann, Johan Wagemans

― 6 min ler


Redes Neurais TêmRedes Neurais TêmDificuldade comFechamentoreconhecer formas incompletas.Redes neurais precisam melhorar em
Índice

Redes neurais profundas são programas de computador que ajudam máquinas a reconhecer objetos. Mas será que elas veem objetos como a gente? Esse artigo vai explorar como essas redes lidam com a ideia de "Fechamento", que é uma maneira que nosso cérebro usa pra preencher as lacunas e ver formas completas, mesmo quando partes estão faltando.

O Cérebro vs. Redes Neurais

Nossos cérebros e redes neurais são construídos de maneiras diferentes. Enquanto os pesquisadores ainda tentam entender como o cérebro humano funciona, cientistas da computação buscam formas de entender as redes neurais. O objetivo não é fazer as redes neurais pensarem exatamente como os humanos, mas sim fazer com que elas realizem algumas das mesmas tarefas.

Curiosamente, mesmo que as redes neurais não tenham sido projetadas especificamente para imitar a percepção humana, às vezes elas agem de maneiras que são surpreendentemente parecidas. Elas podem mostrar alguns traços de como nossos cérebros organizam e interpretam informações visuais, seguindo regras conhecidas como leis de Gestalt.

O Que São as Leis de Gestalt?

As leis de Gestalt ajudam a explicar como percebemos as coisas visualmente. Simplificando, elas nos mostram como nossos cérebros agrupam diferentes elementos. Por exemplo:

  • Proximidade: Coisas que estão perto umas das outras tendem a ser vistas como um grupo.
  • Semelhança: Coisas que parecem similares também são agrupadas juntas.
  • Fechamento: Nossos cérebros gostam de preencher lacunas pra ver formas completas, mesmo que a gente só veja parte da forma.

Vamos focar na lei do fechamento, que é quando nossos cérebros preenchem partes que estão faltando em uma forma para que possamos vê-la como um todo.

O Que É a Lei do Fechamento?

A lei do fechamento é um truque legal que nossos cérebros fazem. Se vemos partes de uma forma, nossos cérebros vão "completar" isso. Por exemplo, se você vê um círculo mas a parte de cima está faltando, você ainda reconhece como um círculo. Essa habilidade de preencher as lacunas pode acontecer de duas maneiras:

  1. Integração de Contorno: Quando pontos ou linhas se juntam pra formar uma forma.
  2. Conclusão de Contorno: Quando nossos cérebros criam linhas suaves pra completar formas.

Também há casos em que o cérebro preenche formas que estão atrás de algo que bloqueia nossa visão, ou percebe contornos que na verdade não existem (como imaginar uma forma que não está desenhada).

Pesquisas Anteriores sobre Redes Neurais

Estudos anteriores examinaram como as redes neurais reagem às leis de Gestalt, especialmente à lei do fechamento. Em um estudo, pesquisadores treinaram redes neurais populares como AlexNet e Inception V1 com imagens de números e objetos do dia a dia. Eles observaram como essas redes conseguiam reconhecer formas mesmo quando partes estavam faltando. Descobriram que as redes ainda conseguiam se sair bem até cerca de 30% da forma estar faltando. Depois disso, ficou mais difícil pra elas reconhecerem as formas corretamente.

Outros estudos olharam para várias redes neurais e encontraram resultados mistos. Algumas redes conseguiram completar formas melhor que outras. No entanto, muitos testes anteriores usaram tipos limitados de formas e cenários, então foi complicado tirar conclusões firmes sobre suas habilidades de fechamento.

O Experimento

Pra investigar melhor como as redes neurais lidam com o fechamento, montamos um novo experimento. Criamos dois conjuntos de imagens: um com polígonos completos (formas com lados retos) e outro com as mesmas formas, mas com seções removidas. O objetivo era ver como as redes reagiriam a partes cada vez mais faltando nessas formas.

No nosso conjunto de treinamento, tivemos 320 polígonos completos com lados variando de 3 a 12. Também tivemos diferentes fundos e posições pras formas pra ver se esses aspectos afetariam o desempenho das redes.

No conjunto de teste, ajustamos o nível de remoção, ou seja, cortamos seções das formas pra que algumas partes ficassem invisíveis. O conjunto de teste incluía os mesmos polígonos, mas alguns estavam com 10%, 20% ou até 90% de suas bordas faltando. Queríamos ver como bem as redes poderiam reconhecer as formas conforme elas iam ficando mais incompletas.

Como Medimos o Fechamento

Pra checar se as redes mostraram o efeito de fechamento, olhamos quantas formas elas reconheceram corretamente em diferentes níveis de partes faltando. Se elas continuassem classificando as formas corretamente mesmo com mais bordas faltando, isso sugeriria que estavam preenchendo as lacunas.

O Que Encontramos

Aqui é onde fica interessante. Quando as redes viram formas completas, elas se saíram bem-VGG16 e SqueezeNet acertaram cerca de 90% das vezes. Outras redes, como AlexNet e ResNet50, também se saíram razoavelmente bem. No entanto, algumas redes, como EfficientNet e MobileNet, tiveram dificuldades e alcançaram apenas entre 40%-50% de Precisão com as formas completas. Claramente, aquelas redes não foram projetadas pra esse tipo de tarefa.

À medida que começamos a remover partes das formas, as coisas mudaram. Em geral, a precisão caiu à medida que aumentávamos a quantidade de partes faltando. No entanto, o que nos surpreendeu foi como o desempenho despencou rapidamente. Mesmo com apenas 10% das bordas removidas, as redes tiveram dificuldade em reconhecer as formas com precisão. Elas lutaram pra ficar acima do nível básico de adivinhação.

Os Detalhes do Desempenho

A maioria das redes se saiu bem identificando formas completas, desde que apenas uma pequena quantidade de bordas estivesse faltando. Mas assim que chegamos a cerca de 30% de remoção, muitas começaram a ter um desempenho ruim. Essa queda rápida mostra que essas redes podem não ser muito boas em preencher lacunas como os humanos.

Embora algumas redes tenham se saído melhor que outras, todas mostraram uma queda acentuada na precisão mesmo quando uma pequena parte da forma estava faltando. Parece que essas redes dependem muito de ver bordas completas pra funcionar direito.

Conclusão

No fim das contas, o desempenho mostrou que as redes neurais têm dificuldade em imitar as habilidades de fechamento semelhantes aos humanos. Elas podem ter algum sucesso com formas completas, mas uma vez que partes estão faltando, elas realmente têm problemas. A partir das nossas descobertas, podemos concluir que essas redes não mostram o efeito de fechamento como os humanos fazem, pelo menos com os métodos e dados disponíveis atualmente.

Então, enquanto essas redes podem ser incríveis em muitas coisas, quando se trata de preencher lacunas como nós fazemos, elas ainda têm que aprender bastante. O cérebro humano continua sendo o maior expert em fechamento!

Artigos semelhantes