Simple Science

Ciência de ponta explicada de forma simples

# Informática# Visão computacional e reconhecimento de padrões

Abordando a Oclusão Parcial no Reconhecimento de Imagens

A pesquisa melhora o reconhecimento de objetos bloqueados na visão computacional.

― 5 min ler


Melhorando o TratamentoMelhorando o Tratamentode Oclusão em IAde reconhecer objetos ocultos.A pesquisa melhora a capacidade da IA
Índice

Ver um objeto claramente em uma foto pode ser complicado às vezes, especialmente quando outros objetos estão bloqueando partes dele. Esse problema é chamado de "Oclusão Parcial" e acontece muito no dia a dia, tipo quando uma placa está parcialmente escondida por um carro ou uma pessoa tá na frente de outro objeto. Na visão computacional, que é como os computadores entendem informações visuais, reconhecer esses objetos parcialmente bloqueados é um baita desafio.

Importância de Resolver Problemas de Oclusão

Resolver a oclusão parcial é super importante em várias áreas, principalmente em veículos autônomos. Carros que dirigem sozinhos precisam reconhecer sinais de trânsito, pedestres e outros veículos, mesmo em situações difíceis onde esses objetos não estão totalmente visíveis. Uma solução pra lidar com oclusões pode melhorar como esses carros percebem o ambiente e reagem a diferentes situações, tornando-os mais seguros e confiáveis.

Criando um Conjunto de Dados Sintético

Pra estudar como diferentes modelos de computador conseguem reconhecer objetos parcialmente ocluídos, os pesquisadores precisam de um conjunto de dados legal. Mas, os conjuntos de dados que já existem geralmente não têm imagens onde os objetos estão parcialmente escondidos. Pra resolver isso, um novo conjunto de dados foi criado usando fotos do Stanford Car Dataset. Diversas formas e tamanhos de bloqueio foram adicionados a essas imagens pra simular oclusões parciais.

Analisando Diferentes Modelos de Computador

Depois que o conjunto de dados sintético ficou pronto, vários modelos de computador, conhecidos como Redes Neurais Convolucionais (CNNs), foram colocados à prova. As CNNs são as ferramentas mais populares pra classificação de imagens, mas frequentemente têm dificuldades com imagens ocluídas. Modelos famosos como VGG-19, ResNet, GoogleNet e DenseNet foram escolhidos pra essa análise.

A pesquisa visava responder várias perguntas importantes:

  1. Como o tamanho da oclusão afeta o desempenho dos diferentes modelos?
  2. Redes mais profundas têm um desempenho melhor quando enfrentam imagens ocluídas?
  3. Como os modelos treinados com imagens ocluídas se saem em imagens claras e vice-versa?

Metodologia: Treinando e Testando Modelos

A pesquisa seguiu um processo em duas etapas:

  1. Criando o Conjunto de Dados: A equipe focou em fazer um conjunto diverso de imagens com vários níveis de oclusão parcial. Eles adicionaram diferentes tipos de ruído visual a essas imagens pra ver como isso afetaria o treinamento e o desempenho do modelo.

  2. Treinando os Modelos: Várias arquiteturas de CNN foram treinadas usando esse novo conjunto de dados. Os modelos foram divididos em dois grupos: aqueles que foram pré-treinados em conjuntos de dados maiores e aqueles que foram treinados do zero.

Explorando Proporções e Tipos de Oclusão

Três maneiras diferentes de criar oclusões foram usadas no conjunto de dados:

  • Oclusão de pixel aleatório: Alterando aleatoriamente os valores dos pixels nas imagens.
  • Oclusão de pixel constante: Usando o mesmo valor pra todos os pixels nas imagens.
  • Oclusão de imagem colada: Colocando imagens reais sobre as imagens originais pra bloquear partes delas.

Diferentes tamanhos de oclusão também foram testados, variando de nenhuma oclusão até 33% da imagem bloqueada.

Avaliando o Desempenho do Modelo

O desempenho do modelo foi medido usando duas métricas principais: Precisão Top-1 e Precisão Top-5. A precisão top-1 verifica se a maior previsão do modelo corresponde ao rótulo correto, enquanto a precisão top-5 verifica se o rótulo correto aparece entre as cinco principais previsões.

Entendendo o Comportamento do Modelo com Oclusão

O desempenho dos modelos treinados com algumas oclusões foi observado de perto. Curiosamente, quando os modelos foram treinados com imagens com oclusões menores, eles se saíram razoavelmente bem em imagens com oclusões maiores. No entanto, modelos que só viram imagens claras antes tiveram dificuldade com imagens ocluídas.

Essa descoberta mostra que a exposição a qualquer forma de oclusão pode melhorar a capacidade de um modelo de se adaptar a situações difíceis. Assim, treinar com conjuntos de dados ocluídos pode aumentar significativamente a precisão ao detectar tanto objetos ocluídos quanto claros.

Efeitos de Diferentes Arquiteturas

Entre as arquiteturas de rede estudadas, vários fatores contribuíram para seu desempenho:

  • Modelos como ResNet-50 e ResNet-101 mostraram uma capacidade consistente de lidar melhor com imagens ocluídas do que outros.
  • A profundidade da rede não impactou significativamente o desempenho em casos de oclusão parcial. Isso significa que só adicionar mais camadas a um modelo não leva automaticamente a um reconhecimento melhor de objetos parcialmente escondidos.

Insights sobre Diferentes Tipos de Artefatos

Os experimentos também examinaram como diferentes tipos de ruído adicionado afetam os modelos. Os resultados indicaram que, embora houvesse variações leves no desempenho, todos os modelos mostraram comportamentos semelhantes em resposta a vários tipos de artefatos. Isso sugere que a natureza da oclusão pode não ser tão crítica quanto se pensava antes.

Conclusão e Direções Futuras

A pesquisa trouxe insights valiosos sobre como lidar com oclusões parciais em tarefas de reconhecimento de imagem. Confirmou que:

  • Modelos treinados com imagens ocluídas estão mais preparados pra reconhecer objetos, mesmo quando estão totalmente visíveis.
  • A exposição a diferentes formas de oclusão pode ajudar modelos a generalizar melhor.

Daqui pra frente, vai ser crucial validar esses achados usando conjuntos de dados do mundo real. O trabalho futuro deve focar em desenvolver modelos robustos que consigam lidar com diferentes tipos de oclusão de maneira eficaz. Isso será especialmente importante pra aplicações em direção autônoma e outras áreas onde o reconhecimento preciso de objetos é essencial pra segurança e funcionalidade.

Fonte original

Título: Now You See Me: Robust approach to Partial Occlusions

Resumo: Occlusions of objects is one of the indispensable problems in Computer vision. While Convolutional Neural Net-works (CNNs) provide various state of the art approaches for regular image classification, they however, prove to be not as effective for the classification of images with partial occlusions. Partial occlusion is scenario where an object is occluded partially by some other object/space. This problem when solved,holds tremendous potential to facilitate various scenarios. We in particular are interested in autonomous driving scenario and its implications in the same. Autonomous vehicle research is one of the hot topics of this decade, there are ample situations of partial occlusions of a driving sign or a person or other objects at different angles. Considering its prime importance in situations which can be further extended to video analytics of traffic data to handle crimes, anticipate income levels of various groups etc.,this holds the potential to be exploited in many ways. In this paper, we introduce our own synthetically created dataset by utilising Stanford Car Dataset and adding occlusions of various sizes and nature to it. On this created dataset, we conducted a comprehensive analysis using various state of the art CNN models such as VGG-19, ResNet 50/101, GoogleNet, DenseNet 121. We further in depth study the effect of varying occlusion proportions and nature on the performance of these models by fine tuning and training these from scratch on dataset and how is it likely to perform when trained in different scenarios, i.e., performance when training with occluded images and unoccluded images, which model is more robust to partial occlusions and soon.

Autores: Karthick Prasad Gunasekaran, Nikita Jaiman

Última atualização: 2023-04-25 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2304.11779

Fonte PDF: https://arxiv.org/pdf/2304.11779

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes