Simple Science

Ciência de ponta explicada de forma simples

# Informática# Visão computacional e reconhecimento de padrões# Aprendizagem de máquinas

Melhorando a Detecção de Objetos com Triplo-Atenção

Uma nova abordagem melhora o modelo DETR através de aprendizado de atenção e compartilhamento de conhecimento.

― 5 min ler


Triple-Attention no DETRTriple-Attention no DETRtécnicas avançadas de atenção.Melhorando o desempenho do DETR com
Índice

Detecção de objetos é uma tarefa importante em visão computacional que envolve identificar e localizar objetos em imagens. Métodos tradicionais podem ser complicados e geralmente exigem várias etapas. Uma abordagem mais nova chamada Detection Transformer (DETR) simplifica esse processo usando uma arquitetura de transformer, que vê a detecção de objetos como um problema de prever um conjunto de objetos correspondendo-os a consultas treináveis.

O que é o DETR?

O DETR usa um modelo de transformer, que é um tipo de arquitetura de rede neural. Ele processa imagens de entrada através de uma configuração de codificador-decodificador. O codificador pega características da imagem e o decodificador traduz essas características em previsões de classes de objetos e suas localizações. Em vez de gerar muitas propostas de objetos potenciais, o DETR produz um número fixo de previsões usando um processo de correspondência para garantir que cada objeto seja representado de forma única.

Mecanismo de Atenção

Uma parte importante do DETR é o mecanismo de atenção. Especificamente, ele usa algo chamado atenção por produto escalar. Nesse sistema, três componentes estão envolvidos: consultas, chaves e valores. Consultas e chaves são comparadas para gerar pesos que ajudam a determinar quanto foco o modelo deve colocar em diferentes partes dos dados de entrada. Esses pesos são aplicados aos valores para gerar as características finais de saída.

Melhorando o Aprendizado da Atenção

Recentemente, houve avanços para melhorar como a atenção funciona dentro do framework do DETR. Alguns métodos focam em usar características em múltiplas escalas ou alterar como a atenção é estruturada, como separar a atenção de conteúdo e a atenção espacial.

Nossa Abordagem

Nosso trabalho apresenta uma nova perspectiva ao aproveitar o que chamamos de compartilhamento de conhecimento para melhorar o aprendizado de mapas de atenção e valores, o que, no final, melhora o desempenho do DETR. Aproveitamos informações da verdade de solo, especificamente uma máscara que distingue objetos do primeiro plano do fundo. Fazendo isso, conseguimos aumentar a qualidade dos pesos e valores aprendidos durante o treinamento.

Máscara de Verdade de Solo do Primeiro Plano-Fundo

A máscara de verdade de solo do primeiro plano-fundo é uma ferramenta simples, mas eficaz. Ela atribui um valor de 1 aos pixels dentro de uma caixa delimitadora representando um objeto e 0 para todo o resto. Essa máscara serve como guia para o processo de aprendizado, ajudando o modelo a focar nas características importantes associadas aos objetos.

Módulo de Triple-Atenção

Propondo um módulo de triple-atenção que consiste em um componente principal de atenção e dois componentes de professor. A atenção principal aprende da maneira padrão, enquanto os dois componentes de professor geram pesos e valores de alta qualidade usando a máscara de verdade de solo. As modificações permitem que a atenção principal se beneficie da informação de alta qualidade compartilhada, levando a previsões melhores.

Durante a fase de inferência, somente a atenção principal opera, garantindo que nossos ajustes não adicionem complexidade extra ao fazer previsões após o treinamento.

Estratégia de Compartilhamento de Conhecimento

Uma característica chave da nossa abordagem é como o conhecimento é compartilhado entre os componentes de atenção. Em vez de simplesmente imitar os componentes de professor, a atenção principal compartilha as informações aprendidas de verdade. Isso cria um fluxo de conhecimento mais eficiente, permitindo um desempenho melhor mesmo quando o modelo principal pode não ser tão complexo quanto os modelos de professor.

Validação Experimental

Para testar nosso método, realizamos experimentos em vários modelos semelhantes ao DETR, usando o reconhecido conjunto de dados COCO para detecção de objetos. Comparamos nossas versões modificadas com os métodos tradicionais do DETR, examinando seu desempenho em termos de precisão.

Resultados

Os resultados mostram consistentemente que nosso método de triple-atenção se sai melhor do que os métodos de base em diferentes configurações. Observamos que modelos com estruturas mais poderosas tendem a receber melhorias maiores da nossa abordagem. Além disso, ao usar cronogramas de treinamento mais curtos, os benefícios do nosso método se tornam ainda mais evidentes.

Efeito da Máscara de Verdade de Solo

Em nossos experimentos, analisamos como a inclusão da máscara de verdade de solo desde o início do treinamento impacta o aprendizado geral do modelo. Os componentes de professor usando essa máscara alcançaram precisão significativamente mais alta do que a atenção principal sem ela. Isso destaca claramente a importância da verdade de solo no aprendizado de mapas de atenção e valores eficazes.

Impacto do Compartilhamento de Conhecimento

Além disso, examinamos como nossa estratégia de compartilhamento de conhecimento se saiu em comparação com outros modelos que utilizaram sistemas de dual-atenção. Os resultados indicaram que nossa estrutura de triple-atenção levou às melhores melhorias, confirmando a eficácia de compartilhar tanto mapas de atenção quanto valores entre os componentes.

Conclusão

Resumindo, nosso método introduz uma nova estratégia para aumentar o desempenho do DETR ao focar no aprendizado de atenção. Usando a máscara de verdade de solo como uma ferramenta guia e implementando um módulo de triple-atenção, conseguimos melhorar significativamente a qualidade das previsões sem precisar de um modelo de professor complexo. As melhorias consistentes que alcançamos em diferentes modelos destacam o potencial dessa abordagem no campo da detecção de objetos.

Fonte original

Título: KS-DETR: Knowledge Sharing in Attention Learning for Detection Transformer

Resumo: Scaled dot-product attention applies a softmax function on the scaled dot-product of queries and keys to calculate weights and then multiplies the weights and values. In this work, we study how to improve the learning of scaled dot-product attention to improve the accuracy of DETR. Our method is based on the following observations: using ground truth foreground-background mask (GT Fg-Bg Mask) as additional cues in the weights/values learning enables learning much better weights/values; with better weights/values, better values/weights can be learned. We propose a triple-attention module in which the first attention is a plain scaled dot-product attention, the second/third attention generates high-quality weights/values (with the assistance of GT Fg-Bg Mask) and shares the values/weights with the first attention to improve the quality of values/weights. The second and third attentions are removed during inference. We call our method knowledge-sharing DETR (KS-DETR), which is an extension of knowledge distillation (KD) in the way that the improved weights and values of the teachers (the second and third attentions) are directly shared, instead of mimicked, by the student (the first attention) to enable more efficient knowledge transfer from the teachers to the student. Experiments on various DETR-like methods show consistent improvements over the baseline methods on the MS COCO benchmark. Code is available at https://github.com/edocanonymous/KS-DETR.

Autores: Kaikai Zhao, Norimichi Ukita

Última atualização: 2023-03-16 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2302.11208

Fonte PDF: https://arxiv.org/pdf/2302.11208

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes