Simple Science

Ciência de ponta explicada de forma simples

# Engenharia Eletrotécnica e Ciência dos Sistemas# Visão computacional e reconhecimento de padrões# Inteligência Artificial# Processamento de Imagem e Vídeo

Avançando o Reconhecimento de Imagens Através de Insights Humanos

Uma nova rede melhora o reconhecimento de imagem usando princípios do sistema visual humano.

Gianluca Carloni, Sara Colantonio

― 6 min ler


Nova Rede Melhora oNova Rede Melhora oReconhecimento de Imagensvisão humana.de imagens com IA usando princípios daA rede CoCoReco melhora a classificação
Índice

Esse artigo fala sobre uma nova abordagem pra reconhecimento de imagem, inspirada na forma como os humanos veem e entendem o mundo. O objetivo é melhorar os sistemas de Visão Computacional aprendendo com o sistema visual humano. As metas principais são três: explicar como os humanos processam informações visuais, apresentar um novo tipo de Rede Neural pra classificar imagens e mostrar um módulo que ajuda os computadores a entenderem o contexto. Ao observar como nossos cérebros funcionam, a gente consegue aprimorar como as máquinas reconhecem imagens.

O Sistema Visual Humano

Entender como o sistema visual humano funciona é fundamental. Antigamente, os cientistas achavam que havia dois caminhos principais no cérebro responsáveis por processar o que vemos. O primeiro caminho, chamado de Fluxo Ventral, foca em reconhecer objetos com base em características como cor e forma. Ele vai da parte de trás do cérebro (o córtex visual primário) até a parte da frente (o córtex pré-frontal), onde relacionamos o que vemos com nossas memórias e ações.

O segundo caminho, conhecido como Fluxo Dorsal, lida com onde os objetos estão no espaço e como interagimos com eles. Esse caminho também começa no córtex visual primário, mas vai pra uma parte diferente do cérebro (o lobo parietal). Enquanto o fluxo ventral responde à pergunta "O que é isso?", o fluxo dorsal aborda "Onde está isso?" ou "Como usamos isso?".

Os dois caminhos se comunicam, ou seja, não funcionam isoladamente. Por exemplo, enquanto o fluxo ventral diz o que um objeto é, o fluxo dorsal pode ajudar a guiar nossas ações em direção a esse objeto. Pesquisas recentes mostram que ambos os caminhos compartilham informações, o que nos ajuda a entender melhor o mundo ao nosso redor.

Contexto na Visão

O contexto tem um papel importante em como reconhecemos objetos. O ambiente ao redor de um objeto pode dar pistas sobre o que é. Por exemplo, se a gente vê algo no céu, é mais provável que pensemos que é um avião do que um porco. Considerando o contexto, nossos cérebros conseguem filtrar possibilidades e fazer julgamentos melhores sobre o que estão vendo.

Os sistemas de visão computacional também precisam entender o contexto pra melhorar sua capacidade de reconhecer objetos em imagens. Muitas soluções existentes tentam incorporar o contexto, mas muitas vezes acrescentam complexidade e custos computacionais. Esse artigo propõe um novo método que não aumenta o número de parâmetros aprendíveis, tornando-o mais eficiente.

A Rede Proposta

A nova rede, chamada CoCoReco, foi projetada pra classificar imagens imitando a forma como o cérebro humano funciona. Ela tem duas ramificações inspiradas nos caminhos ventral e dorsal. A estrutura do CoCoReco permite processar informações de diferentes partes do cérebro ao mesmo tempo, em vez de seguir um único caminho do começo ao fim.

O CoCoReco também implementa uma técnica chamada modulação de cima pra baixo. Isso significa que um entendimento de nível mais alto pode influenciar o processamento de níveis mais baixos. Por exemplo, informações do córtex pré-frontal podem ajudar a refinar como o sistema interpreta detalhes das áreas visuais anteriores, assim como nossos processos de pensamento podem moldar nossas percepções.

Blocos de Atenção

No coração do CoCoReco tem um módulo chamado Bloco de Atenção Contextual (CAB). Esse bloco melhora a capacidade da rede de considerar o contexto enquanto classifica imagens. Ele calcula pontuações de atenção que ajudam a focar em características significativas na imagem. Colocando múltiplos módulos CAB em pontos estratégicos da rede, o CoCoReco consegue construir uma hierarquia de atenção que reflete como os humanos priorizam informações.

Por exemplo, um CAB pode focar em um contexto geral a partir da entrada visual inicial, enquanto outro pode fornecer uma compreensão mais detalhada baseada em metas ou tarefas. Essa abordagem em camadas de atenção ajuda a rede a desenvolver um entendimento mais sutil das imagens, tornando-a capaz de reconhecer objetos com mais precisão.

Configuração Experimental

Pra testar como a rede CoCoReco funciona, foram realizados experimentos usando um conjunto de dados chamado ImagenetteV2. Esse conjunto contém fotos de dez categorias diferentes que são relativamente fáceis de classificar. As imagens foram processadas numa resolução específica, e o conjunto de dados foi dividido em conjuntos de treinamento, validação e teste pra avaliar o desempenho.

O objetivo principal do CoCoReco envolveu dois tipos de funções de perda durante o treinamento. Uma abordou a precisão das classificações, enquanto a outra focou em alinhar características de categorias semelhantes. Essa abordagem dupla ajudou a rede a aprender representações melhores dos objetos.

Resultados

Ao testar o CoCoReco contra outros modelos, ele consistentemente teve um desempenho melhor em termos de precisão e eficácia. Os resultados mostraram que o design único do CoCoReco, especialmente seu foco em contexto e caminhos duplos, levou a resultados de reconhecimento de imagem mais confiáveis.

Além da precisão, a qualidade das explicações fornecidas pelo CoCoReco também foi avaliada. Usando uma técnica chamada mapeamento de ativação de classe, o modelo conseguiu destacar as partes importantes das imagens que contribuíram para suas decisões. Comparado a outros métodos, as explicações do CoCoReco foram mais claras e focadas nos principais objetos sendo classificados, evitando distrações de características de fundo irrelevantes.

Por exemplo, ao identificar um cachorro, o CoCoReco enfatizou a cabeça do cachorro em vez de elementos não relacionados como pessoas ao fundo. Da mesma forma, ao classificar um peixe, ele focou na textura do peixe, ignorando outras características que poderiam estar presentes na cena.

Conclusão

Essa nova abordagem pra reconhecimento de imagem mostra potencial em avançar a visão computacional. Ao pegar pistas do sistema visual humano e enfatizar o contexto, a rede CoCoReco consegue se destacar em tarefas de classificação de imagem enquanto fornece explicações mais claras pra suas decisões. A capacidade de integrar compreensão contextual sem adicionar complexidade extra pode abrir caminho pra soluções de IA mais eficientes em várias aplicações.

No geral, o trabalho ilustra os benefícios de olhar pro design do cérebro humano em busca de inspiração, levando a melhorias nas capacidades de inteligência artificial que podem aprimorar como as máquinas percebem o mundo ao seu redor.

Fonte original

Título: Connectivity-Inspired Network for Context-Aware Recognition

Resumo: The aim of this paper is threefold. We inform the AI practitioner about the human visual system with an extensive literature review; we propose a novel biologically motivated neural network for image classification; and, finally, we present a new plug-and-play module to model context awareness. We focus on the effect of incorporating circuit motifs found in biological brains to address visual recognition. Our convolutional architecture is inspired by the connectivity of human cortical and subcortical streams, and we implement bottom-up and top-down modulations that mimic the extensive afferent and efferent connections between visual and cognitive areas. Our Contextual Attention Block is simple and effective and can be integrated with any feed-forward neural network. It infers weights that multiply the feature maps according to their causal influence on the scene, modeling the co-occurrence of different objects in the image. We place our module at different bottlenecks to infuse a hierarchical context awareness into the model. We validated our proposals through image classification experiments on benchmark data and found a consistent improvement in performance and the robustness of the produced explanations via class activation. Our code is available at https://github.com/gianlucarloni/CoCoReco.

Autores: Gianluca Carloni, Sara Colantonio

Última atualização: 2024-09-06 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2409.04360

Fonte PDF: https://arxiv.org/pdf/2409.04360

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Artigos semelhantes