Simple Science

Ciência de ponta explicada de forma simples

# Informática# Visão computacional e reconhecimento de padrões

Apresentando o Crowd-SAM: Uma Nova Abordagem para Detecção de Objetos em Cenários Cheios de Gente

Crowd-SAM melhora a detecção de objetos em ambientes movimentados com menos imagens rotuladas.

― 6 min ler


Crowd-SAM Melhora aCrowd-SAM Melhora aDetecção de Objetosexemplos rotulados.Segmentação eficiente com menos
Índice

A detecção de objetos é uma tarefa chave em várias áreas, como carros autônomos e câmeras de segurança. O objetivo é encontrar e identificar objetos em imagens, o que geralmente requer muitos exemplos rotulados para treinamento. Isso pode levar muito tempo, especialmente em cenas lotadas cheias de pessoas, veículos ou outros itens.

Um novo método usado para segmentar imagens é chamado de Segment Anything Model (SAM). Ele consegue identificar e segmentar objetos sem precisar de um treinamento extenso, o que é uma grande vantagem. No entanto, o SAM às vezes enfrenta dificuldades em situações lotadas onde os objetos se sobrepõem ou estão escondidos.

Neste artigo, apresentamos um novo sistema, o Crowd-SAM, baseado no conceito do SAM. O Crowd-SAM visa melhorar a performance do SAM em cenas lotadas, precisando apenas de um pequeno número de Imagens rotuladas e alguns parâmetros ajustáveis.

O Problema com Cenas Lotadas

Detectar objetos em cenas lotadas é desafiador. Isso geralmente envolve reconhecer e localizar muitos objetos semelhantes, como pessoas ou carros, onde alguns podem bloquear outros. Isso dificulta que métodos padrão de detecção de objetos, que normalmente dependem de um grande número de imagens rotuladas para treinamento, funcionem bem.

Os métodos atuais costumam se dividir em duas categorias: detectores de uma etapa e detectores de duas etapas. Detectores de uma etapa analisam a imagem inteira de uma vez para prever onde os objetos podem estar. Já os detectores de duas etapas funcionam em etapas, gerando áreas possíveis primeiro e depois analisando essas áreas em busca de objetos.

Apesar dos avanços nesses métodos, eles ainda exigem muitos dados rotulados, que são caros de obter. Por exemplo, leva mais de 42 segundos para rotular um único objeto. Considerando que imagens em conjuntos de dados como o CrowdHuman podem ter cerca de 22 objetos, o tempo e custo para conseguir essas rotulações rapidamente se acumulam.

Muitos pesquisadores estão buscando novas abordagens como aprendizado de poucos exemplos ou aprendizado fracamente supervisionado, que visam reduzir a necessidade de dados rotulados. Esses métodos usam dados rotulados e não rotulados, mas também adicionam complexidade ao processo.

Chega de Crowd-SAM

Com o Crowd-SAM, queremos oferecer uma solução mais inteligente para anotar imagens em ambientes lotados. Nosso método aproveita o SAM para oferecer segmentação eficiente enquanto minimiza a necessidade de rotulação humana extensa. A abordagem se baseia em duas partes principais: um Amostrador de Prompt Eficiente (EPS) e uma Rede de Discriminação Parte-Todo (PWD-Net).

O EPS ajuda a selecionar os melhores prompts-basicamente pontos direcionais usados para segmentação-para que eles foquem nas áreas mais importantes da imagem. O PWD-Net analisa esses prompts e seleciona a melhor máscara para cada objeto, melhorando a precisão, especialmente em situações difíceis onde os objetos se sobrepõem.

Como o Crowd-SAM Funciona

O Crowd-SAM começa gerando prompts para objetos em uma imagem. Esses prompts são espalhados pela cena para garantir que todas as áreas potenciais dos objetos sejam cobertas. O EPS então avalia esses pontos, focando naqueles que têm maior probabilidade de estar corretos. Filtrando os prompts desnecessários, ele acelera a análise e reduz a chance de erros.

Uma vez identificados os prompts promissores, o PWD-Net os utiliza para gerar Máscaras. Uma máscara é tipo um contorno que mostra onde um objeto está localizado. O PWD-Net usa tokens-tipos específicos de dados extraídos da imagem-para ajudar a determinar as melhores máscaras. Esses tokens permitem que o sistema avalie quão bem cada máscara representa um objeto real em vez do fundo.

Avaliação de Desempenho

O Crowd-SAM foi testado contra métodos existentes em benchmarks conhecidos para detecção de pedestres, como CrowdHuman e CityPersons. Os resultados mostram que ele tem desempenho comparável aos métodos tradicionais, mesmo usando apenas um pequeno número de imagens rotuladas.

Na verdade, com apenas 10 imagens rotuladas, o Crowd-SAM alcançou níveis de desempenho semelhantes aos modelos totalmente supervisionados, que exigem muitos mais dados de treinamento. Isso destaca a eficácia do Crowd-SAM em lidar com tarefas complexas com entradas limitadas.

Além disso, o Crowd-SAM não se limita a cenários lotados; ele também se destaca em conjuntos de dados mais simples. Isso indica que o método pode ser adaptado para uma variedade de aplicações além de ambientes lotados.

Vantagens do Crowd-SAM

Um dos maiores benefícios do Crowd-SAM é sua eficiência. Métodos tradicionais de detecção de objetos requerem muitos dados rotulados, que além de levar tempo, também costumam ter altos custos. Com o Crowd-SAM, menos exemplos rotulados são necessários, o que simplifica o processo de treinamento.

O uso do EPS e do PWD-Net também reduz as chances de erros quando os objetos estão próximos uns dos outros. Isso significa que até mesmo em imagens desafiadoras com muitos objetos sobrepostos, o Crowd-SAM ainda pode entregar resultados precisos sem precisar de tanta rotulação manual.

O Crowd-SAM também pode se adaptar a diferentes ambientes. Seja uma rua movimentada cheia de pessoas ou um espaço aberto com menos objetos, o sistema pode detectar e segmentar efetivamente diferentes tipos de objetos.

Desafios e Trabalhos Futuros

Apesar de suas forças, o Crowd-SAM ainda enfrenta alguns desafios. Embora funcione bem em muitas situações, pode haver casos em que mais refinamento seja necessário. Por exemplo, se os objetos forem muito semelhantes em aparência ou se estiverem muito encobertos, o sistema pode precisar de mais ajustes para manter a precisão.

Pesquisas futuras podem focar em melhorar os componentes do Crowd-SAM ou criar módulos adicionais para aumentar suas capacidades. Isso poderia incluir treinamento em conjuntos de dados mais variados para garantir que o Crowd-SAM possa lidar efetivamente com uma ampla gama de cenários.

Conclusão

O Crowd-SAM representa um grande avanço no campo da detecção de objetos, especialmente em ambientes lotados. Ao aproveitar modelos existentes como o SAM e introduzir novos componentes, o Crowd-SAM oferece uma maneira mais eficiente e eficaz de anotar e identificar objetos usando menos imagens rotuladas.

Esse método demonstra que é possível alcançar alto desempenho em ambientes desafiadores sem um processo de coleta de dados excessivo. À medida que a tecnologia continua a evoluir, sistemas como o Crowd-SAM terão um papel crucial em tornar a detecção de objetos mais acessível e eficiente em várias aplicações.

Fonte original

Título: Crowd-SAM: SAM as a Smart Annotator for Object Detection in Crowded Scenes

Resumo: In computer vision, object detection is an important task that finds its application in many scenarios. However, obtaining extensive labels can be challenging, especially in crowded scenes. Recently, the Segment Anything Model (SAM) has been proposed as a powerful zero-shot segmenter, offering a novel approach to instance segmentation tasks. However, the accuracy and efficiency of SAM and its variants are often compromised when handling objects in crowded and occluded scenes. In this paper, we introduce Crowd-SAM, a SAM-based framework designed to enhance SAM's performance in crowded and occluded scenes with the cost of few learnable parameters and minimal labeled images. We introduce an efficient prompt sampler (EPS) and a part-whole discrimination network (PWD-Net), enhancing mask selection and accuracy in crowded scenes. Despite its simplicity, Crowd-SAM rivals state-of-the-art (SOTA) fully-supervised object detection methods on several benchmarks including CrowdHuman and CityPersons. Our code is available at https://github.com/FelixCaae/CrowdSAM.

Autores: Zhi Cai, Yingjie Gao, Yaoyan Zheng, Nan Zhou, Di Huang

Última atualização: 2024-07-18 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2407.11464

Fonte PDF: https://arxiv.org/pdf/2407.11464

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes