Simple Science

Ciência de ponta explicada de forma simples

# Informática# Visão computacional e reconhecimento de padrões

Otimizando Detecção de Objetos com Melhorias no DETR

Melhorando a eficiência na detecção de objetos sem complicar as coisas.

― 6 min ler


Framework DETR LiberadoFramework DETR Liberadoda detecção de objetos.Novas melhorias aumentam o desempenho
Índice

A detecção de objetos é uma área chave na visão computacional que foca em encontrar e identificar objetos em imagens. O framework DETR (DEtection TRansformer) oferece uma nova abordagem para essa tarefa. Ele trata a detecção de objetos como uma tarefa de traduzir pixels em uma imagem em objetos reconhecidos. Esse método elimina a necessidade de designs complicados que dependem de características específicas dos objetos detectados.

No entanto, as versões anteriores do DETR tinham dificuldades com eficiência e precisão. Como resultado, muitas melhorias envolveram reintroduzir características complexas, como usar dados de imagem em múltiplas escalas e melhorar o processamento local. Isso cria um trade-off: enquanto essas mudanças podem aumentar a performance, elas também contradizem o objetivo original de simplicidade.

Nesta discussão, focamos em melhorar o DETR enquanto mantemos sua natureza direta. Nosso objetivo é desenvolver um sistema que não dependa de características complexas da imagem ou processamento local, mas que ainda seja competitivo com os principais sistemas de detecção.

Conceitos Principais

Para alcançar nosso objetivo, apresentamos duas tecnologias principais:

  1. Box-to-Pixel Relative Position Bias (BoxRPB): Essa abordagem ajuda o modelo de detecção a focar em áreas relevantes de uma imagem. Ao incorporar distâncias entre caixas delimitadoras e pixels da imagem, o modelo aprende onde concentrar sua atenção ao processar as informações.

  2. Masked Image Modeling (MIM): Essa técnica envolve pré-treinamento de um modelo em grandes conjuntos de dados sem precisar de rótulos específicos. Isso permite que o modelo aprenda com várias imagens, melhorando sua capacidade de identificar objetos dentro delas.

Ao combinar essas tecnologias com recentes avanços em treinamento, melhoramos significativamente a performance do framework DETR.

O Framework DETR Original

O detector DETR original consiste em três partes principais:

  1. Backbone Network: Essa componente extrai características da imagem de entrada. Métodos tradicionais usavam mapas de características em múltiplas escalas, mas o DETR simplificou isso usando uma única escala de uma rede backbone, como ResNet.

  2. Transformer Encoder: Essa parte refina as características da imagem extraídas. O encoder opera nos dados de imagem processados para melhorar sua qualidade.

  3. Global Transformer Decoder: Esse segmento extrai caixas delimitadoras das características processadas usando um conjunto de consultas de objetos. O decoder combina efetivamente as características da imagem com categorias de objetos específicas.

O framework DETR original é notável por sua simplicidade e eficiência. No entanto, ele sofre com problemas de performance, especialmente ao tentar detectar objetos de diferentes tamanhos e localizações.

Melhorias no Framework DETR

Propomos melhorias na arquitetura original do DETR enquanto preservamos sua natureza simples. Ao evitar características em múltiplas escalas e processamento local, criamos um design mais direto e eficiente.

Backbone e Técnicas de Treinamento Melhorados

Para construir sobre o framework original, começamos com uma rede backbone mais forte. Trocamos a tradicional ResNet por uma backbone de transformer Swin. Isso nos permite melhorar o processo de extração de características enquanto mantemos um design simples.

Também ajustamos o número de consultas de objetos e eliminamos taxas de dropout desnecessárias no decoder do transformer. Ao mesclar as redes backbone e encoder, simplificamos o cálculo, melhorando a eficiência geral.

Introduzindo BoxRPB

BoxRPB é uma melhoria chave que ajuda a focar a atenção em objetos específicos dentro de uma imagem. Ao calcular a relação geométrica entre caixas delimitadoras e pixels, guiamos o modelo a prestar atenção nas partes relevantes da imagem.

Esse conceito estende o viés de posição relativa usado em outros frameworks de visão. Usando as posições dos cantos das caixas delimitadoras, conseguimos maior precisão e eficiência. Nossos experimentos mostram que a incorporação do BoxRPB leva a um aumento significativo de precisão em comparação com a linha de base do DETR original.

Utilizando MIM Pré-Treinamento

O pré-treinamento MIM desempenha um papel crucial na melhoria da performance do framework DETR. Ao usar imagens não rotuladas para o treinamento, permitimos que o modelo aprenda mais sobre detalhes finos nas imagens. Essa abordagem melhora a capacidade do modelo de localizar e identificar objetos.

Nossos experimentos revelam que o pré-treinamento MIM pode levar a melhorias substanciais na precisão da detecção. Notavelmente, ajuda a remover a dependência de características em múltiplas escalas, permitindo um design mais eficiente sem sacrificar a performance.

Resultados Experimentais

Usando nosso framework DETR melhorado com a backbone Swin e as tecnologias introduzidas, conseguimos resultados impressionantes nas tarefas de detecção de objetos. Nosso modelo alcançou uma precisão de 63.9 mAP (mean Average Precision) no conjunto de dados Object365. Essa performance é competitiva com outros sistemas de detecção de objetos que ainda dependem muito de métodos complexos de extração de características.

Comparação com Métodos de Última Geração

Nosso DETR melhorado supera muitos métodos contemporâneos projetados para detecção de objetos. Especificamente, ele iguala ou supera a performance de sistemas que se concentram em características em múltiplas escalas e técnicas de extração regional. Esse sucesso destaca a eficácia de manter um design simples enquanto incorpora técnicas avançadas como BoxRPB e pré-treinamento MIM.

Implicações para Pesquisas Futuras

As conquistas do nosso framework DETR melhorado sinalizam uma mudança na forma como abordamos a detecção de objetos. Ao minimizar a dependência de características e designs complexos, podemos focar mais em desenvolver modelos fundamentais poderosos que melhorem a performance geral em tarefas de visão computacional.

Há um grande potencial para futuras pesquisas explorarem mais frameworks e métodos genéricos. Pesquisadores poderiam investigar a aplicação de princípios semelhantes em outras áreas dentro do reconhecimento visual e visão computacional.

Conclusão

Em resumo, apresentamos uma versão melhorada do framework DETR que mantém uma abordagem simples para a detecção de objetos. Ao introduzir tecnologias como BoxRPB e pré-treinamento MIM, conseguimos avanços notáveis em precisão enquanto eliminamos a necessidade de características complexas e processamento local.

Esse trabalho enfatiza o potencial de designs simples, mas eficazes, no campo da visão computacional. Esperamos que nossas descobertas inspirem futuros desenvolvimentos na detecção de objetos e ampliem o escopo de pesquisas na área.

Seguindo em frente, o foco em frameworks genéricos pode levar a soluções mais eficientes e poderosas em várias tarefas visuais, abrindo caminho para avanços nas tecnologias de visão computacional.

Fonte original

Título: DETR Doesn't Need Multi-Scale or Locality Design

Resumo: This paper presents an improved DETR detector that maintains a "plain" nature: using a single-scale feature map and global cross-attention calculations without specific locality constraints, in contrast to previous leading DETR-based detectors that reintroduce architectural inductive biases of multi-scale and locality into the decoder. We show that two simple technologies are surprisingly effective within a plain design to compensate for the lack of multi-scale feature maps and locality constraints. The first is a box-to-pixel relative position bias (BoxRPB) term added to the cross-attention formulation, which well guides each query to attend to the corresponding object region while also providing encoding flexibility. The second is masked image modeling (MIM)-based backbone pre-training which helps learn representation with fine-grained localization ability and proves crucial for remedying dependencies on the multi-scale feature maps. By incorporating these technologies and recent advancements in training and problem formation, the improved "plain" DETR showed exceptional improvements over the original DETR detector. By leveraging the Object365 dataset for pre-training, it achieved 63.9 mAP accuracy using a Swin-L backbone, which is highly competitive with state-of-the-art detectors which all heavily rely on multi-scale feature maps and region-based feature extraction. Code is available at https://github.com/impiga/Plain-DETR .

Autores: Yutong Lin, Yuhui Yuan, Zheng Zhang, Chen Li, Nanning Zheng, Han Hu

Última atualização: 2023-08-03 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2308.01904

Fonte PDF: https://arxiv.org/pdf/2308.01904

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes