Simple Science

Ciência de ponta explicada de forma simples

# Informática# Visão computacional e reconhecimento de padrões

Um Novo Método para Ler Objetos Bimodais Embaçados

Câmeras baseadas em eventos melhoram a leitura de códigos de barras e sinais borrados.

― 8 min ler


Lendo Objetos BimodaisLendo Objetos BimodaisEmbaçados Rápidocenários de desfoque de movimento.Novo método melhora o reconhecimento em
Índice

Objetos bimodais, como códigos de barras e placas de trânsito, estão por toda parte na nossa vida. Eles usam padrões pretos e brancos bem definidos pra passar informações que as máquinas conseguem reconhecer fácil. Mas, quando esses objetos são capturados em movimento, as imagens podem ficar borradas, dificultando a leitura das informações que eles têm. Esse problema muitas vezes faz com que sistemas robóticos tenham que diminuir a velocidade ou parar pra garantir que consigam ler esses objetos com precisão. Nosso objetivo é desenvolver um método que permita que máquinas leiam rapidamente e com precisão esses objetos bimodais, mesmo quando as imagens estão borradas por causa do movimento.

Desfoque de Movimento e Objetos Bimodais

Quando uma pessoa ou uma máquina tira uma foto de um objeto em movimento, o desfoque de movimento pode acontecer. Isso significa que o objeto aparece meio borrado ou confuso na foto, o que afeta o quão bem os padrões podem ser vistos. Métodos tradicionais de conversão de imagens em forma binária, onde a imagem é simplificada pra só preto e branco, costumam ter dificuldades com imagens borradas. Eles falham em separar os padrões claramente, o que leva a imprecisões no reconhecimento das informações codificadas no objeto.

Nova Tecnologia: Câmeras baseadas em eventos

Avanços recentes na tecnologia de câmeras resultaram no desenvolvimento de câmaras baseadas em eventos. Essas câmeras capturam informações de uma forma diferente das câmeras padrão. Em vez de tirar uma foto completa de cada vez, elas detectam mudanças de brilho em velocidades muito altas, permitindo a coleta de dados mesmo durante movimentos rápidos. Essa capacidade pode ajudar a resolver os problemas de desfoque de movimento, fornecendo informações que podem ser usadas pra melhorar a clareza das imagens capturadas.

Nossa Abordagem: Reconstrução Binária Baseada em Eventos

No nosso trabalho, apresentamos um novo método chamado Reconstrução Binária Baseada em Eventos (RBBE). Esse método aproveita os dados rápidos coletados pelas câmeras baseadas em eventos pra gerar imagens binárias nítidas a partir de entradas borradas. O processo é dividido em três etapas principais:

  1. Estimativa de Limiar: Primeiro, estimamos um limiar ideal pra separar os dados binários. Isso é feito fundindo informações tanto das imagens borradas quanto dos eventos capturados pela câmera.

  2. Classificação de Pixels: Em seguida, analisamos e classificamos cada pixel na imagem com base nas informações coletadas tanto dos eventos quanto da imagem borrada. Isso ajuda a identificar quais pixels representam corretamente os padrões bimodais e quais não fazem isso por causa do desfoque de movimento.

  3. Geração de Vídeos Binários em Alta Taxa de Quadros: Finalmente, geramos vídeos binários em alta taxa de quadros que podem ser usados em várias aplicações, permitindo um processamento eficiente e reconhecimento rápido dos padrões.

Passo 1: Estimativa de Limiar

Pra converter efetivamente imagens borradas em forma binária, primeiro precisamos determinar o limiar certo. Se o limiar estiver ajustado muito alto ou muito baixo, corremos o risco de classificar mal os pixels e perder informações importantes. Ao combinar dados da câmera de eventos e da imagem borrada, conseguimos criar uma representação mais precisa dos padrões que estamos tentando reconhecer.

Fusão de Dados

A fusão de dados envolve misturar informações de diferentes fontes pra melhorar a qualidade da saída. No nosso caso, combinamos os dados da imagem borrada com eventos da câmera. Isso nos permite criar um histograma mais claro que representa melhor a distribuição dos valores dos pixels na imagem. Com esse histograma, podemos determinar o limiar ideal que separa melhor os padrões preto e branco.

Passo 2: Classificação de Pixels

Depois de estimar o limiar, o próximo passo é classificar cada pixel com base nos seus valores de intensidade. Essa classificação ajuda a identificar quais pixels representam verdadeiros padrões bimodais e quais foram classificados erradamente por causa do desfoque de movimento.

Pixels Verdadeiros vs. Pixels Falsos

Classificamos os pixels em dois grupos:

  • Pixels Verdadeiros: Esses são os pixels que representam corretamente os padrões bimodais e não são afetados significativamente pelo desfoque de movimento.

  • Pixels Falsos: Esses são os pixels que foram distorcidos pelo desfoque de movimento, levando a imprecisões na classificação.

Usando as informações dos dados de eventos, conseguimos determinar mais efetivamente o status de cada pixel. O objetivo é produzir uma imagem binária clara que represente com precisão os padrões bimodais.

Passo 3: Geração de Vídeos Binários em Alta Taxa de Quadros

Uma vez que temos uma imagem binária clara, podemos usá-la pra criar vídeos binários em alta taxa de quadros. Esses vídeos são cruciais pra aplicações que exigem processamento rápido, como rastreamento visual e navegação.

Integração Unidirecional

Pra gerar esses vídeos em alta taxa de quadros, desenvolvemos uma técnica chamada integração unidirecional. Esse método se concentra em integrar eventos positivos e negativos separadamente, o que reduz a influência de ruídos e artefatos que podem degradar a qualidade da imagem. Atualizando o status binário com base nos eventos integrados, conseguimos manter uma representação mais clara dos estados dos pixels.

Filtragem Mediana Assíncrona

Pra melhorar ainda mais a qualidade dos vídeos binários, incorporamos um filtro mediano assíncrono. Esse filtro opera atualizando a imagem binária em pequenas áreas locais, em vez de processar a imagem inteira de uma vez. Isso ajuda a eliminar ruídos de forma eficaz, preservando os detalhes importantes dos padrões bimodais.

Benefícios da Nossa Abordagem

Ao empregar esse novo método de reconstrução binária baseada em eventos, conseguimos vários benefícios chave:

  1. Processamento Eficiente: A abordagem permite processamento de imagens em tempo real, tornando-a adequada pra ambientes dinâmicos onde a velocidade é crucial.

  2. Saídas de Alta Qualidade: Nosso método gera imagens binárias nítidas e mantém os detalhes finos dos objetos bimodais, mesmo na presença de desfoque de movimento.

  3. Robustez em Diferentes Condições: O método funciona bem em uma variedade de condições de iluminação e níveis de contraste, mostrando sua adaptabilidade.

Aplicações

Nossa técnica pode ser aplicada em vários campos, incluindo:

  • Robótica: Aumentando a capacidade dos robôs de navegar e interagir com o ambiente ao ler marcadores e placas visuais em tempo real.

  • Realidade Aumentada: Melhorando o reconhecimento de objetos em aplicações de AR onde movimento e velocidade estão envolvidos.

  • Vigilância: Facilitando o reconhecimento de placas de veículos e outras informações importantes em cenários de movimento rápido.

Avaliação dos Resultados

Fizemos testes extensivos da nossa abordagem em diferentes conjuntos de dados que incluíam tanto dados do mundo real quanto sintéticos. Os resultados mostram que nosso método supera consistentemente técnicas tradicionais de binarização de imagem, especialmente em condições desafiadoras envolvendo desfoque de movimento.

Métricas Quantitativas

Avaliamos o desempenho do nosso método usando várias métricas:

  • Coeficiente de Correlação de Matthews (MCC): Mede a precisão da classificação binária, levando em conta verdadeiros positivos, verdadeiros negativos, falsos positivos e falsos negativos.

  • Relação Sinal-Ruído de Pico (PSNR): Indica a qualidade das imagens reconstruídas comparando a potência máxima do sinal com o ruído.

  • Métrica de Taxa Negativa (NRM): Avalia a capacidade do método de binarização em distinguir com precisão entre pixels bimodais.

Resultados Qualitativos

Comparações visuais com métodos de ponta destacam o desempenho superior da nossa técnica na geração de imagens binárias claras e precisas, mesmo quando começamos de entradas borradas.

Conclusão

Concluindo, nosso método de reconstrução binária baseada em eventos avança significativamente a capacidade de processar e classificar objetos bimodais capturados em movimento. Ao aproveitar as vantagens únicas das câmeras baseadas em eventos, conseguimos criar efetivamente imagens e vídeos binários de alta qualidade que são essenciais pra várias aplicações em alta velocidade. À medida que a tecnologia continua a evoluir, nosso método se destaca como uma solução promissora pra melhorar sistemas de reconhecimento visual em ambientes dinâmicos.

Fonte original

Título: Neuromorphic Synergy for Video Binarization

Resumo: Bimodal objects, such as the checkerboard pattern used in camera calibration, markers for object tracking, and text on road signs, to name a few, are prevalent in our daily lives and serve as a visual form to embed information that can be easily recognized by vision systems. While binarization from intensity images is crucial for extracting the embedded information in the bimodal objects, few previous works consider the task of binarization of blurry images due to the relative motion between the vision sensor and the environment. The blurry images can result in a loss in the binarization quality and thus degrade the downstream applications where the vision system is in motion. Recently, neuromorphic cameras offer new capabilities for alleviating motion blur, but it is non-trivial to first deblur and then binarize the images in a real-time manner. In this work, we propose an event-based binary reconstruction method that leverages the prior knowledge of the bimodal target's properties to perform inference independently in both event space and image space and merge the results from both domains to generate a sharp binary image. We also develop an efficient integration method to propagate this binary image to high frame rate binary video. Finally, we develop a novel method to naturally fuse events and images for unsupervised threshold identification. The proposed method is evaluated in publicly available and our collected data sequence, and shows the proposed method can outperform the SOTA methods to generate high frame rate binary video in real-time on CPU-only devices.

Autores: Shijie Lin, Xiang Zhang, Lei Yang, Lei Yu, Bin Zhou, Xiaowei Luo, Wenping Wang, Jia Pan

Última atualização: 2024-02-19 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2402.12644

Fonte PDF: https://arxiv.org/pdf/2402.12644

Licença: https://creativecommons.org/publicdomain/zero/1.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes