Apresentando o LW PLG-ViT: Um Transformer de Visão Leve
LW PLG-ViT oferece um desempenho eficiente para tarefas visuais em dispositivos com recursos limitados.
― 5 min ler
Índice
Nos últimos anos, os modelos de transformer ganharam bastante popularidade em tarefas de visão computacional. Mas esses modelos costumam ser grandes e complexos demais para aplicações em tempo real, principalmente em áreas como direção autônoma. Isso significa que eles não conseguem rodar de forma eficiente em dispositivos com poder de processamento limitado. Para resolver essa parada, a gente criou uma nova versão do Vision Transformer chamada Light-Weight Parallel Local-Global Vision Transformer (LW PLG-ViT). Nosso objetivo é fazer um modelo menor e mais eficiente que ainda tenha um bom desempenho em várias tarefas de reconhecimento visual.
Desafios com Modelos Existentes
As arquiteturas de transformer, apesar de poderosas, têm altas demandas computacionais e requisitos de memória. Esses fatores tornam elas menos adequadas para tarefas que precisam de respostas rápidas, como as de direção autônoma. Por outro lado, CNNs leves são frequentemente utilizadas para esses tipos de tarefa, mas nem sempre entregam a melhor performance. As tendências recentes mostraram promessas em criar modelos de transformer mais leves, mas muitos ainda não conseguem a eficiência necessária para ambientes com poucos recursos.
Visão Geral do LW PLG-ViT
Nosso LW PLG-ViT foi feito para funcionar de maneira eficiente em dispositivos com recursos limitados. Focamos em reduzir a complexidade do PLG-ViT original, que combina Mecanismos de Atenção Local e Global. O modelo original é conhecido pela sua precisão e eficácia; no entanto, ainda é pesado demais para muitas aplicações do dia a dia. Analisamos sua estrutura e identificamos os componentes que contribuem para seu alto custo computacional e uso de memória.
Principais Recursos do LW PLG-ViT
Fizemos várias mudanças na arquitetura original para deixar o LW PLG-ViT mais leve:
Tamanho Reduzido: Ao redesenhar várias partes do modelo original, conseguimos diminuir seu tamanho em cinco vezes com apenas uma leve queda na performance.
Duas Versões: Criamos duas versões do LW PLG-ViT: uma otimizada para precisão e outra para velocidade. Ambas mantêm um número compacto de parâmetros.
Atenção Local-Global Paralela: O modelo usa um mecanismo de atenção único que opera tanto em níveis locais quanto globais, encontrando um equilíbrio entre eficiência e performance.
Design Adaptativo: A arquitetura incorpora uma janela adaptativa de resolução para a atenção global, o que ajuda a manter a eficácia enquanto minimiza as demandas computacionais.
Melhorias em Relação aos Modelos Existentes
O LW PLG-ViT representa um grande avanço em comparação com os modelos anteriores de transformer leves. Enquanto outros esforços tentaram criar variantes leves, eles geralmente focam apenas na redução do número de camadas ou canais, o que pode limitar a eficácia. Nossa abordagem combina várias estratégias inovadoras para alcançar uma solução bem equilibrada.
Avaliando a Performance do Modelo
Fizemos avaliações extensas para medir o desempenho do nosso LW PLG-ViT em várias tarefas. Usamos benchmarks bem conhecidos como ImageNet-1K para classificação de imagens e COCO para detecção de objetos. Os resultados mostram que nosso modelo se sai excepcionalmente bem em comparação com CNNs tradicionais e outros modelos de transformer.
Classificação de Imagens
Para tarefas de classificação de imagens, utilizamos o conjunto de dados ImageNet-1K, que tem mais de um milhão de imagens em 1.000 categorias. Nosso modelo LW PLG-ViT alcança uma precisão impressionante e se compara favoravelmente a modelos de tamanho similar. Notavelmente, nossa versão otimizada para precisão mostra um desempenho melhor que modelos estabelecidos como EfficientNet, MobileViT e outros, mesmo tendo demandas computacionais mais baixas.
Detecção de Objetos
Para tarefas de detecção de objetos e segmentação de instâncias, usamos o conjunto de dados COCO, junto com conjuntos de dados especializados para direção autônoma, como BDD100k e SVIRO. O LW PLG-ViT demonstra desempenho superior, especialmente em dados do mundo real. Enquanto CNNs tradicionais podem ainda se destacar em certos cenários sintéticos, nosso modelo baseado em transformer brilha em ambientes desafiadores.
Detecção de Objetos Monoculares 3D
Também testamos nosso modelo na área de detecção de objetos monoculares 3D usando o conjunto de dados NuScenes. Aqui, o LW PLG-ViT tem um desempenho comparável a arquiteturas ResNet mais pesadas, provando que nosso design leve não compromete a capacidade. Nossos índices de precisão indicam que nosso modelo pode lidar efetivamente com tarefas normalmente reservadas para modelos com muito mais parâmetros.
Conclusão
Em resumo, o Light-Weight Parallel Local-Global Vision Transformer (LW PLG-ViT) é uma solução promissora para aplicações do mundo real que precisam de processamento de visão eficiente. Nossas inovações de design abrangentes nos permitem minimizar o tamanho e a complexidade do modelo enquanto mantemos uma performance sólida em várias tarefas. O sucesso do LW PLG-ViT confirma que modelos baseados em transformer podem se destacar tanto em precisão quanto em eficiência, tornando-os adequados para aplicações móveis, como direção autônoma.
Trabalhos Futuros
Com a demanda por modelos eficientes crescendo, há uma grande oportunidade para pesquisas contínuas que aprimorem e otimizem ainda mais o LW PLG-ViT. Iterações futuras podem aproveitar os avanços em técnicas de otimização de hardware e software para melhorar ainda mais o desempenho. Além disso, explorar modelos híbridos que combinem as forças de CNNs e transformers pode levar a novas descobertas em visão computacional. No geral, o LW PLG-ViT é um passo significativo para tornar modelos de visão poderosos acessíveis em dispositivos com recursos limitados, enquanto ainda atende às demandas de aplicações em tempo real.
Título: Light-Weight Vision Transformer with Parallel Local and Global Self-Attention
Resumo: While transformer architectures have dominated computer vision in recent years, these models cannot easily be deployed on hardware with limited resources for autonomous driving tasks that require real-time-performance. Their computational complexity and memory requirements limits their use, especially for applications with high-resolution inputs. In our work, we redesign the powerful state-of-the-art Vision Transformer PLG-ViT to a much more compact and efficient architecture that is suitable for such tasks. We identify computationally expensive blocks in the original PLG-ViT architecture and propose several redesigns aimed at reducing the number of parameters and floating-point operations. As a result of our redesign, we are able to reduce PLG-ViT in size by a factor of 5, with a moderate drop in performance. We propose two variants, optimized for the best trade-off between parameter count to runtime as well as parameter count to accuracy. With only 5 million parameters, we achieve 79.5$\%$ top-1 accuracy on the ImageNet-1K classification benchmark. Our networks demonstrate great performance on general vision benchmarks like COCO instance segmentation. In addition, we conduct a series of experiments, demonstrating the potential of our approach in solving various tasks specifically tailored to the challenges of autonomous driving and transportation.
Autores: Nikolas Ebert, Laurenz Reichardt, Didier Stricker, Oliver Wasenmüller
Última atualização: 2023-07-18 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2307.09120
Fonte PDF: https://arxiv.org/pdf/2307.09120
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.