Simple Science

Ciência de ponta explicada de forma simples

# Informática# Visão computacional e reconhecimento de padrões

Otimizando o Uso de Energia em Sistemas de Processamento de Vídeo

Um novo algoritmo reduz o consumo de energia em aplicações de visão computacional.

― 7 min ler


Processamento de VídeoProcessamento de VídeoEficiente em Energiacomputacional.energia em sistemas de visãoNovos algoritmos reduzem os custos de
Índice

No mundo tecnológico de hoje, a visão computacional (CV) baseada em vídeo é usada em várias áreas, como carros autônomos e dispositivos inteligentes. Mas um grande problema é que esses sistemas costumam gastar muita energia. Isso acontece principalmente porque eles leem e processam cada pixel de um quadro de vídeo, mesmo que muitos desses pixels não sejam úteis para a tarefa. Isso pode levar a um desperdício de energia, especialmente em vídeos com movimento rápido.

O Problema com os Sistemas Atuais

Os métodos atuais de processamento de vídeo tentam economizar energia pulando alguns pixels ou quadros. No entanto, esses esforços geralmente não ajudam durante a fase de leitura do sensor. Isso significa que a otimização de energia não é totalmente alcançada. Além disso, os métodos existentes costumam demorar muito para processar, tornando-os inadequados para aplicações em tempo real.

O alto consumo de energia é um problema significativo em dispositivos que precisam de CV, como sistemas de vigilância ou veículos autônomos. Normalmente, muitos dados são processados mesmo quando pode não ser necessário. Para resolver isso, é essencial otimizar como os dados são processados na nível do sensor para permitir que tarefas avançadas de CV sejam executadas de forma eficiente.

Tentativas Recentes de Reduzir o Consumo de Energia

Algumas tentativas foram feitas para lidar com o problema de ler quadros desnecessários no processamento de vídeo. Esses métodos geralmente envolvem pular regiões com pouca mudança na cena. Mas ainda assim, eles precisam ler o quadro inteiro primeiro, o que não economiza energia durante a leitura do sensor e conversão do sinal analógico para digital.

Além disso, muitos métodos existentes dependem de informações de quadros anteriores para decidir quais regiões são importantes. Isso atrasa o processamento do quadro atual. Um exemplo inclui sistemas que comprimem imagens, mas também dependem de dados anteriores, o que pode atrasar as coisas.

A Necessidade de um Algoritmo de Mascaramento Inteligente

Há uma necessidade clara de uma forma mais inteligente de pular a leitura de pixels que não dependa de feedback de tarefas anteriores. Nós propomos usar um algoritmo leve de mascaramento de pixels que pode gerar máscaras em tempo real para identificar áreas importantes em uma cena. Esse algoritmo não dependerá de dados de quadros anteriores, tornando-o adequado para aplicações que precisam de respostas imediatas, como carros autônomos e realidade virtual.

Nossa abordagem envolve criar um sistema de hardware que seja flexível o suficiente para pular pixels não importantes durante a fase de leitura do sensor. Isso pode levar a economias significativas de energia. Vamos focar em desenvolver uma rede geradora de máscaras econômica, que utiliza um design baseado em tecnologia de transformer. Essa abordagem inovadora prevê a importância de seções no quadro sem usar muita energia.

Como a Geração de Máscaras Funciona

Nossa rede de geração de máscaras é construída em um modelo transformer. Ela funciona dividindo a imagem de entrada em partes menores. Cada parte é representada como um vetor, e dados adicionais são incluídos para ajudar a processar essas partes. O núcleo da rede é o que permite classificar quais pixels são significativos com base em Pontuações de Atenção.

As pontuações de atenção ajudam a determinar quais áreas são importantes em um determinado quadro. Se o algoritmo identificar uma seção como significativa, essa área será processada normalmente. Se não, ele pula a leitura dos pixels nessa parte, economizando energia.

O sistema calcula regularmente essas máscaras, permitindo que ele desenvolva uma compreensão abrangente do que é significativo na cena atual.

O Hardware de Sensor Reconfigurável

Para suportar o pulo de linhas e pixels desnecessários, criamos um sistema de sensor de imagem CMOS reconfigurável. Esse sistema pode operar em três modos: padrão, pulando linhas e pulando regiões.

No modo padrão, o sensor funciona como sistemas tradicionais, lendo cada pixel. No modo de pular linhas, linhas inteiras de pixels podem ser ignoradas. No modo de pular regiões, o sensor ignora certas áreas dentro de um quadro consideradas não importantes. Isso permite que o sistema use menos energia enquanto ainda captura dados essenciais.

Nosso design de hardware inovador integra componentes adicionais que permitem que nosso algoritmo de mascaramento funcione de forma eficiente. Assim, podemos facilmente pular pixels ou linhas com base no que o algoritmo identifica como crucial.

Melhorias na Eficiência Energética

A eficiência energética é um dos principais objetivos da nossa pesquisa. Ao usar ativamente nosso algoritmo de mascaramento, o sistema pode reduzir drasticamente o consumo de energia durante as fases de leitura e processamento do vídeo. Testamos nosso sistema em vários conjuntos de dados do mundo real, que mostraram resultados impressionantes. O sistema conseguiu economizar até 53% de energia sem comprometer a precisão em tarefas como direção autônoma e realidade aumentada.

Ao focar em economias de energia tanto no sensor quanto nos níveis de processamento, nossa abordagem demonstra o potencial para reduções significativas no uso de energia. Além disso, isso destaca a importância de integrar mudanças de hardware com algoritmos inteligentes.

Aplicações em Cenários do Mundo Real

Nosso sistema de sensor reconfigurável não é apenas um conceito teórico. Ele pode ser aplicado em vários cenários do mundo real, especialmente onde a eficiência energética é crucial. Por exemplo, em veículos autônomos, a capacidade de pular leituras de dados desnecessárias pode melhorar diretamente o desempenho e a segurança ao permitir que os sistemas do carro reajam mais rapidamente a eventos significativos.

Em aplicações de realidade aumentada, onde os usuários esperam uma experiência fluida, nosso sistema pode manter visuais de alta qualidade enquanto conserva a vida útil da bateria. Isso torna nossa tecnologia valiosa em dispositivos inteligentes e aplicações que exigem respostas em tempo real.

Resultados dos Testes

Testamos nosso sistema em conjuntos de dados populares de detecção de objetos, comparando seu desempenho com métodos existentes. Nossa abordagem não apenas manteve a precisão, mas também reduziu a carga de processamento na rede. Especificamente, conseguimos pular uma grande porcentagem de pixels enquanto mantivemos a queda de precisão mínima.

Ao avaliar rastreamento ocular, focamos nas tarefas de segmentação que consomem muito tempo. Nosso sistema se provou eficiente, alcançando uma precisão semelhante a outros métodos enquanto reduzia significativamente os custos de energia.

Conclusão

Em conclusão, nosso trabalho apresenta uma nova abordagem para visão computacional que combina com sucesso a eficiência energética com um processamento de dados preciso. Ao implementar um algoritmo de mascaramento inteligente junto com um sistema de sensor de imagem flexível, podemos reduzir significativamente o consumo de energia durante o processamento de vídeo.

Essa pesquisa abre portas para aplicações avançadas em áreas que dependem de visão computacional em tempo real, como veículos autônomos e tecnologia inteligente. Ao focar em um design e função inteligentes, acreditamos que esse método pode impactar muito o futuro da tecnologia de visão de baixo consumo, garantindo que os dispositivos possam funcionar de forma eficiente sem esgotar recursos.

Nossa abordagem mostra grande potencial para um futuro em que a visão computacional seja poderosa e amiga da energia, atendendo às crescentes demandas da tecnologia sem comprometer desempenho ou precisão.

Fonte original

Título: Energy-Efficient & Real-Time Computer Vision with Intelligent Skipping via Reconfigurable CMOS Image Sensors

Resumo: Current video-based computer vision (CV) applications typically suffer from high energy consumption due to reading and processing all pixels in a frame, regardless of their significance. While previous works have attempted to reduce this energy by skipping input patches or pixels and using feedback from the end task to guide the skipping algorithm, the skipping is not performed during the sensor read phase. As a result, these methods can not optimize the front-end sensor energy. Moreover, they may not be suitable for real-time applications due to the long latency of modern CV networks that are deployed in the back-end. To address this challenge, this paper presents a custom-designed reconfigurable CMOS image sensor (CIS) system that improves energy efficiency by selectively skipping uneventful regions or rows within a frame during the sensor's readout phase, and the subsequent analog-to-digital conversion (ADC) phase. A novel masking algorithm intelligently directs the skipping process in real-time, optimizing both the front-end sensor and back-end neural networks for applications including autonomous driving and augmented/virtual reality (AR/VR). Our system can also operate in standard mode without skipping, depending on application needs. We evaluate our hardware-algorithm co-design framework on object detection based on BDD100K and ImageNetVID, and gaze estimation based on OpenEDS, achieving up to 53% reduction in front-end sensor energy while maintaining state-of-the-art (SOTA) accuracy.

Autores: Md Abdullah-Al Kaiser, Sreetama Sarkar, Peter A. Beerel, Akhilesh R. Jaiswal, Gourav Datta

Última atualização: 2024-09-25 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2409.17341

Fonte PDF: https://arxiv.org/pdf/2409.17341

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes