Detecção Leve de Entregas para Câmeras de Casa Inteligente
Um novo sistema melhora a detecção de entregas usando câmeras de campainha inteligentes.
― 9 min ler
Nos últimos anos, a tecnologia de casas inteligentes se tornou comum, surgindo dispositivos como câmeras de campainha. Essas câmeras podem capturar vídeos e identificar eventos que acontecem na porta da frente, como entregas. No entanto, os sistemas atuais de detecção de entregas geralmente dependem de um alto poder computacional, tornando-os menos eficazes para dispositivos que têm recursos limitados, como as câmeras de campainha. Este artigo explora uma nova abordagem que visa desenvolver um sistema leve e eficiente para detectar entregas usando essas câmeras inteligentes.
O Desafio da Detecção de Entregas
Detecção de entregas se refere à capacidade de reconhecer quando pacotes, compras ou alimentos são entregues em uma casa. Embora pareça simples, isso traz desafios únicos. Primeiro, os pacotes vêm em diversos formatos e tamanhos, de grandes caixas de papelão a pequenos envelopes. Além disso, várias empresas de entrega, incluindo grandes companhias e negócios locais, mandam pessoas de entrega com uniformes e aparências diferentes. Essa diversidade dificulta a identificação correta dos eventos de entrega pelas câmeras.
Outro problema é o tempo. Algumas entregas acontecem rápido, enquanto outras demoram mais, dependendo de fatores como o tamanho do pacote e se é preciso comprovação fotográfica. A maioria das soluções atuais se concentra apenas em detectar pacotes e não o ato real de entrega. Isso significa que detalhes importantes, como se alguém está entregando um pacote ou apenas passando, podem ser perdidos.
Soluções Atuais e Suas Limitações
A maioria dos sistemas atuais de detecção de entregas requer recursos computacionais substanciais. Empresas como Ring e Nest usam soluções baseadas em nuvem, o que significa que dependem de servidores poderosos para processar os feeds de vídeo. Isso resulta em custos mais altos devido à necessidade de uso contínuo de internet e muitas vezes compromete a privacidade do usuário. Modelos pesados também podem ter dificuldades para identificar pacotes pequenos ou ocultos, tornando-os menos adequados para situações domésticas onde vários fatores, como iluminação ou ângulos, podem afetar a visibilidade.
Resumindo, enquanto os modelos atuais de detecção de pacotes funcionam razoavelmente bem, eles não capturam adequadamente os eventos mais dinâmicos de entrega. Isso destaca uma lacuna nas soluções que podem identificar o ato de entrega com precisão em dispositivos limitados.
Uma Solução Leve
Para desenvolver uma solução mais eficiente, propomos um sistema simples que pode funcionar com as câmeras de campainha existentes. Nossa abordagem utiliza Detecção de Movimento para identificar quando está havendo atividade. Isso é crucial porque restringe o foco do quadro de vídeo inteiro apenas para as áreas onde ocorrem movimentos. Isso ajuda a tornar os dados mais gerenciáveis para processamento.
Depois de detectar movimento, o sistema emprega um modelo leve conhecido como 3DCNN. Esse tipo de modelo pode analisar múltiplos quadros ao mesmo tempo para capturar o tempo e as mudanças da ação, que é essencial para distinguir eventos de entrega de atividades que não são de entrega.
Detecção e Rastreio de Movimento
A detecção de movimento é o primeiro passo na nossa abordagem. Focando apenas nos quadros onde ocorre movimento, conseguimos melhorar a precisão enquanto mantemos a tarefa computacional mais leve. Aplicamos uma técnica de detecção de movimento que separa objetos em movimento do fundo.
O algoritmo funciona modelando cada pixel em uma cena usando uma mistura de métodos estatísticos. Isso permite que o sistema identifique objetos em movimento de forma mais eficaz. Assim que um movimento significativo é detectado, o sistema pode dar zoom naquela área, aumentando a probabilidade de identificar com precisão se uma entrega ocorreu.
Construindo a Espinha Dorsal do Nosso Sistema
Para que nosso sistema funcione de forma eficiente nas câmeras de campainha, precisamos de um modelo de visão computacional que seja compacto e eficaz. O 3DCNN, projetado especificamente para ambientes móveis, pode analisar movimento e reconhecer ações. Comparado a modelos 2D tradicionais, os 3DCNNS consideram a dimensão temporal, permitindo o reconhecimento de padrões ao longo de vários quadros.
Experimentamos vários frameworks leves existentes e descobrimos que o MobileNetv2 atende melhor às nossas necessidades. Ele equilibra eficiência com capacidade, tornando-o adequado para lidar com dados de vídeo de câmeras de campainha sem sobrecarregá-las.
Projetando um Mecanismo de Atenção
Para melhorar ainda mais o desempenho do sistema sem aumentar a carga de processamento, integramos um mecanismo de atenção no processo de treinamento. Esse mecanismo funciona focando em áreas do vídeo onde pessoas são detectadas. Ao aprimorar o processo de aprendizado durante o treinamento, o sistema se torna melhor em identificar eventos de entrega.
Conforme o treinamento avança, o sistema gradualmente se baseia menos nesses pontos focais. Isso permite que o modelo aprenda a partir de um contexto mais amplo, enquanto ainda retém a capacidade de identificar indicadores-chave de entrega.
Aprendizado Baseado em Evidências para Precisão na Predição
Uma das maiores limitações dos modelos de aprendizado tradicionais é que eles se concentram em previsões sem considerar quão certos estão sobre essas previsões. Para resolver esse problema, adotamos uma estrutura baseada em 'evidências'.
Em nosso sistema, evidência se refere ao suporte que o modelo tem para suas previsões. À medida que o modelo aprende, ele coleta evidências sobre se um evento é uma entrega ou não, permitindo que ele tome decisões ponderadas. Ao incorporar esse recurso, podemos lidar com as incertezas nas previsões de forma mais eficaz.
Esse novo objetivo de aprendizado permite que o modelo forneça não apenas uma decisão, mas também um nível de confiança nessa decisão. Por exemplo, se um vídeo captura alguém se aproximando com um pacote, o sistema não só o identificará como uma entrega, mas também indicará quão certo está sobre essa identificação.
Preparando o Conjunto de Dados
Para treinar nosso sistema, precisávamos de um conjunto de dados curado que refletisse cenários de entrega da vida real. Dada a falta de Conjuntos de dados existentes que atendessem às nossas necessidades, coletamos nossas próprias amostras de vídeo através de câmeras de campainha instaladas em várias casas.
Durante esse processo, gravamos trechos de vídeo quando movimento foi detectado, garantindo que os vídeos incluíssem atividades relevantes para a detecção de entregas. Depois, anotamos os vídeos, indicando se os eventos de entrega ocorreram ou não, e reunimos detalhes mais finos sobre os horários de início e fim desses eventos.
Treinando e Testando o Sistema
Uma vez que o conjunto de dados foi coletado e anotado, pudemos começar a treinar nosso sistema. Durante o treinamento, empregamos várias técnicas para ajudar o modelo a aprender melhor. Por exemplo, usamos técnicas de aumento de dados, que alteravam ligeiramente as amostras de vídeo existentes para criar variações. Esse método ajudou o modelo a se tornar mais robusto na identificação de entregas.
À medida que avançávamos no processo de treinamento, monitoramos o desempenho do modelo usando diferentes métricas para avaliar sua precisão. Uma das métricas foi o score de precisão-recall, que reflete o quão bem o modelo diferencia eventos de entrega e não entrega.
Avaliando o Desempenho
Após o treinamento, testamos nosso sistema de detecção de entrega em um conjunto separado de clipes de vídeo. Os resultados mostraram melhorias significativas em comparação com o uso de modelos 2D tradicionais. Notavelmente, o modelo 3DCNN capturou os aspectos temporais dos eventos de forma mais eficaz, levando a uma precisão melhorada.
Além disso, a incorporação do nosso mecanismo de atenção e dos objetivos de aprendizado baseados em evidências aumentou ainda mais a precisão. Isso permitiu que o sistema tivesse menos falsos positivos, ou seja, era menos provável que identificasse erroneamente eventos que não eram de entrega como se fossem.
Eficiência e Aplicação no Mundo Real
Um dos fatores mais críticos para a tecnologia destinada ao uso doméstico é a eficiência. Nosso sistema foi projetado para ser leve, garantindo que pudesse funcionar suavemente em dispositivos como câmeras de campainha. Comparamos nosso sistema com modelos tradicionais em termos de velocidade de processamento, uso de recursos e eficácia.
Os resultados sugeriram que, embora nosso modelo possa levar um pouco mais de tempo para analisar eventos, ele alcançou uma precisão muito melhor. Esse equilíbrio é essencial para criar uma solução prática que os usuários domésticos possam confiar sem custos excessivos.
Conclusão
Resumindo, o desenvolvimento de um sistema leve de detecção de entregas representa um grande avanço para a tecnologia de casas inteligentes. Usando detecção de movimento, um modelo 3DCNN e técnicas de treinamento inovadoras, criamos um sistema que pode identificar com precisão o ato de entrega enquanto opera em dispositivos com poder computacional limitado.
As descobertas sugerem que nossa abordagem não só melhora a detecção de entregas, mas também aborda os desafios comuns associados aos sistemas existentes. À medida que os dispositivos de casas inteligentes continuam a evoluir, integrar soluções eficientes e eficazes para a detecção de entregas beneficiará os consumidores e aumentará a segurança domiciliar.
Nosso trabalho mostra potencial para desenvolvimentos futuros, permitindo refinamentos e melhorias na tecnologia de casas inteligentes. Por meio de pesquisa contínua e aplicação, nosso objetivo é garantir que os sistemas de detecção de entregas se tornem um recurso confiável na vida cotidiana.
Título: Lightweight Delivery Detection on Doorbell Cameras
Resumo: Despite recent advances in video-based action recognition and robust spatio-temporal modeling, most of the proposed approaches rely on the abundance of computational resources to afford running huge and computation-intensive convolutional or transformer-based neural networks to obtain satisfactory results. This limits the deployment of such models on edge devices with limited power and computing resources. In this work we investigate an important smart home application, video based delivery detection, and present a simple and lightweight pipeline for this task that can run on resource-constrained doorbell cameras. Our method relies on motion cues to generate a set of coarse activity proposals followed by their classification with a mobile-friendly 3DCNN network. To train we design a novel semi-supervised attention module that helps the network to learn robust spatio-temporal features and adopt an evidence-based optimization objective that allows for quantifying the uncertainty of predictions made by the network. Experimental results on our curated delivery dataset shows the significant effectiveness of our pipeline and highlights the benefits of our training phase novelties to achieve free and considerable inference-time performance gains.
Autores: Pirazh Khorramshahi, Zhe Wu, Tianchen Wang, Luke Deluccia, Hongcheng Wang
Última atualização: 2023-11-05 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2305.07812
Fonte PDF: https://arxiv.org/pdf/2305.07812
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.