Simple Science

Ciência de ponta explicada de forma simples

# Informática# Visão computacional e reconhecimento de padrões

Melhorando a Eficiência da Análise de Imagens com Poda de Tokens

Um novo método melhora os Transformers de Visão para uma melhor compreensão de imagens com menos recursos.

― 6 min ler


Poda de de tokens paraPoda de de tokens paraTransformers de Visãosignificativa.modelo de imagem de formaUm método pra melhorar a eficiência do
Índice

Transformadores Visuais (ViTs) são um tipo de modelo de computador que mostrou resultados incríveis em entender imagens. Porém, eles precisam de muito poder computacional, o que dificulta o uso em situações onde os recursos são limitados. Um dos motivos para eles consumirem tanta energia é o grande número de tokens que utilizam. Tokens são pequenas peças de informação que o modelo analisa pra entender uma imagem. Nem todo token é igualmente importante, então surge a pergunta: dá pra reduzir o número de tokens sem perder muita precisão?

Esse artigo explora um método chamado Poda de Tokens. Isso significa eliminar tokens desnecessários enquanto mantém os importantes, pra fazer o modelo funcionar mais rápido em tarefas como Detecção de Objetos e Segmentação de Instâncias. O objetivo é deixar o modelo leve, mas ainda assim com um bom desempenho.

Insights sobre Poda de Tokens

Através de pesquisas, descobrimos quatro principais insights sobre como fazer a poda de tokens da melhor maneira para tarefas que exigem um entendimento detalhado das imagens.

1. Preservar Tokens Podados

Em tarefas de imagem detalhadas, é vantajoso manter os tokens que foram podados em vez de removê-los completamente. Isso porque esses tokens ainda podem ser úteis mais tarde na tarefa, mesmo que não estejam sendo usados no momento. Ao manter os tokens podados, o modelo pode se referir a eles se necessário, o que pode levar a resultados melhores.

2. Reativar Tokens Quando Necessário

Não só é bom manter os tokens podados, mas às vezes também é útil trazê-los de volta. Isso significa que se o modelo perceber que precisa de mais informações, ele pode reativar alguns dos tokens que foram marcados como desnecessários anteriormente. Ao permitir que o modelo reative esses tokens, podemos melhorar o desempenho, especialmente em áreas desafiadoras da imagem.

3. Usar uma Taxa de Poda Dinâmica

Outro insight importante é que a taxa em que os tokens são podados não deve ser constante. Em vez disso, deve mudar com base na complexidade da imagem sendo analisada. Para imagens mais complicadas, o modelo deve manter mais tokens, enquanto imagens mais simples podem se sair bem com menos tokens. Essa abordagem dinâmica pode ajudar o modelo a manter sua precisão enquanto economiza em poder de processamento.

4. Um Modelo Simples Funciona

Descobrimos que um modelo simples e leve, composto por apenas algumas camadas, pode fazer um ótimo trabalho decidindo quais tokens podar. Isso é bom porque modelos mais complexos podem ser mais difíceis de gerenciar e acabar lentificando o sistema. Usando um modelo simples, conseguimos manter o design direto e eficiente.

O Transformador Visual Seletivo (SViT)

Com base nesses insights, propomos um novo modelo chamado Transformador Visual Seletivo (SViT). Esse modelo integra de forma eficaz as ideias que exploramos para a poda de tokens em tarefas como detecção de objetos e segmentação de instâncias. O SViT é projetado para ser simples mas eficaz, resultando em um desempenho melhor usando menos recursos.

Avaliação do SViT

Testamos o SViT no conjunto de dados COCO, que é amplamente utilizado para entender objetos e detalhes dentro de imagens. Os resultados foram promissores. O SViT reduziu a queda na precisão de um nível anterior de 1.5 para apenas 0.3 quando se tratou do desempenho de detecção de objetos e geração de máscaras de segmentação de instâncias. Além disso, conseguiu velocidades 34% mais rápidas para o modelo inteiro e 46% mais rápidas para a base comparado a modelos que usavam todos os tokens.

Comparação com Outras Abordagens

Em nosso trabalho, analisamos métodos existentes de poda de tokens e encontramos várias áreas para melhoria. Muitas técnicas de poda de tokens se concentraram apenas em tarefas de classificação. Nosso estudo visa estender esses métodos a tarefas mais abrangentes como detecção de objetos e segmentação de instâncias.

Métodos Existentes de Poda de Tokens

Anteriormente, os métodos para melhorar o desempenho dos Transformadores Visuais lidavam principalmente com classificação. Alguns modelos usavam sistemas complexos para decidir quais tokens eliminar, enquanto outros mesclavam tokens. Porém, as necessidades específicas de tarefas densas como a detecção de objetos em uma imagem foram amplamente ignoradas.

Revisitando esses métodos existentes, demonstramos que é possível adaptar e aplicar técnicas de poda de tokens a tarefas mais complexas e detalhadas sem sacrificar a precisão ou a velocidade.

Insights dos Experimentais

Através de vários experimentos, avaliamos a eficácia dos quatro insights mencionados anteriormente.

A Importância de Preservar Tokens

Testamos a diferença entre remover completamente os tokens podados e simplesmente mantê-los. Modelos que preservaram os tokens obtiveram resultados melhores em comparação com aqueles que não o fizeram. Essa descoberta foi significativa, pois mostra o valor de manter informações que podem ainda ser relevantes mais tarde no processamento da imagem.

Reativando Tokens

Quando permitimos que nosso modelo reativasse tokens podados, isso levou a mais melhorias na precisão. Essa flexibilidade permitiu que o modelo se adaptasse à sua compreensão da imagem em diferentes estágios, utilizando tokens que anteriormente foram considerados desnecessários, mas que depois se mostraram valiosos.

Taxas de Poda Dinâmicas vs. Fixas

Nossa exploração sobre taxas de poda dinâmicas também mostrou resultados promissores. Uma abordagem flexível à poda, baseada na complexidade de cada imagem, resultou em um desempenho melhor do que uma taxa constante. Isso permite que o modelo ajuste e aloque recursos de forma mais eficaz, obtendo insights mais detalhados de imagens complicadas.

A Eficácia de um Modelo Simples

Finalmente, verificamos que um modelo de duas camadas podia prever com sucesso quais tokens podar, sem a necessidade de sistemas mais complexos. Isso torna o SViT mais fácil de implementar e gerenciar enquanto ainda consegue resultados competitivos.

Conclusão

Neste trabalho, revisitamos o conceito de poda de tokens especificamente para Transformadores Visuais usados em tarefas que exigem um entendimento profundo, como detecção de objetos e segmentação de instâncias. Nossos quatro insights principais vão ajudar a melhorar como a poda de tokens é aplicada em tarefas densas.

Integrando esses insights no Transformador Visual Seletivo (SViT), demonstramos que é possível alcançar resultados excepcionais enquanto aceleramos significativamente os tempos de processamento. O SViT oferece um novo caminho que pode inspirar mais pesquisas nessa área.

À medida que a tecnologia continua a avançar, esperamos que sistemas como o SViT consigam tornar modelos de visão computacional mais rápidos, eficientes e acessíveis para uma gama mais ampla de aplicações.

Fonte original

Título: Revisiting Token Pruning for Object Detection and Instance Segmentation

Resumo: Vision Transformers (ViTs) have shown impressive performance in computer vision, but their high computational cost, quadratic in the number of tokens, limits their adoption in computation-constrained applications. However, this large number of tokens may not be necessary, as not all tokens are equally important. In this paper, we investigate token pruning to accelerate inference for object detection and instance segmentation, extending prior works from image classification. Through extensive experiments, we offer four insights for dense tasks: (i) tokens should not be completely pruned and discarded, but rather preserved in the feature maps for later use. (ii) reactivating previously pruned tokens can further enhance model performance. (iii) a dynamic pruning rate based on images is better than a fixed pruning rate. (iv) a lightweight, 2-layer MLP can effectively prune tokens, achieving accuracy comparable with complex gating networks with a simpler design. We assess the effects of these design decisions on the COCO dataset and introduce an approach that incorporates these findings, showing a reduction in performance decline from ~1.5 mAP to ~0.3 mAP in both boxes and masks, compared to existing token pruning methods. In relation to the dense counterpart that utilizes all tokens, our method realizes an increase in inference speed, achieving up to 34% faster performance for the entire network and 46% for the backbone.

Autores: Yifei Liu, Mathias Gehrig, Nico Messikommer, Marco Cannici, Davide Scaramuzza

Última atualização: 2023-12-12 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2306.07050

Fonte PDF: https://arxiv.org/pdf/2306.07050

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes