Avanços nas Técnicas de Pré-treinamento para Transformadores de Visão
Apresentando Embedding Posicional Adversarial e MAE+ pra melhorar o treinamento de modelos de imagem.
― 6 min ler
Índice
A pré-treinamento de modelos em visão computacional virou um negócio importante, principalmente com a popularidade dos transformers. Esses modelos conseguem aprender com uma porção de dados sem precisar de informações rotuladas. Uma maneira eficaz de fazer isso é através de um método chamado Modelagem de Imagem Mascada (MIM). Nesse método, partes de uma imagem são ocultadas, e o modelo tem que prever essas partes com base nas seções visíveis. O objetivo é treinar o modelo para aprender recursos úteis das imagens que podem ser usados em outras tarefas, como classificação ou detecção.
O Que São Transformers Visuais?
Transformers visuais são um tipo de modelo que processa imagens de um jeito parecido com como transformers trabalham com texto. Eles dividem as imagens em pedaços menores, chamados patches, e tratam cada patch como se fosse uma palavra em uma frase. Essa abordagem permite que o modelo aprenda as relações entre diferentes partes da imagem de maneira eficiente.
Importância do Pré-Treinamento
O pré-treinamento ajuda os modelos a entenderem as características gerais das imagens sem precisar de grandes quantidades de dados rotulados. Ele permite que o modelo se torne bom em captar padrões, o que pode ser útil para uma variedade de tarefas em processamento de imagens.
Entre os métodos de pré-treinamento, o MIM se destaca porque permite que o modelo aprenda com a estrutura inerente das próprias imagens. Esse método tem mostrado grande potencial, mas ainda enfrenta desafios para garantir que o modelo não foque demais em características simples e fáceis de aprender.
Embedding Posicional Adversarial (AdPE)
Para superar alguns dos desafios enfrentados no MIM, introduzimos o Embedding Posicional Adversarial (AdPE). A ideia principal do AdPE é tornar a tarefa de prever as partes mascaradas de uma imagem mais desafiadora, distorcendo as informações de posição dos patches. Isso incentiva o modelo a aprender características mais complexas e gerais, em vez de apenas confiar em padrões locais.
Como Funciona o AdPE?
O AdPE introduz mudanças na maneira como representamos a posição de cada patch. Existem duas maneiras principais de fazer isso: alterando os embeddings de posição ou mudando as coordenadas espaciais dos patches. Ambos os métodos visam criar um cenário onde o modelo não pode depender de correlações simples entre patches vizinhos.
Embeddings Posicionais
Os embeddings posicionais são usados para informar ao modelo onde cada patch está localizado dentro da imagem. Ao perturbar esses embeddings, evitamos que o modelo preveja facilmente os patches mascarados com base em sua relação local com os patches vizinhos.
Coordenadas Espaciais
Em vez de apenas alterar os embeddings, mudanças também podem ser feitas diretamente nas coordenadas dos patches. Isso impacta de forma mais direta como o modelo percebe o layout espacial da imagem, forçando-o a aprender um contexto mais global em vez de apenas características locais.
Benefícios do AdPE
A introdução do AdPE faz com que o transformer visual foque mais na disposição geral das diferentes partes da imagem. Isso ajuda o modelo a encontrar e aprender características complexas que são úteis para tarefas posteriores, como classificação de imagens ou detecção de objetos. Como resultado, ele se sai melhor quando ajustado para tarefas específicas após o pré-treinamento.
MAE+ Base
Para melhorar ainda mais os resultados, também propomos uma nova base chamada MAE+. Essa nova abordagem se baseia nos métodos padrão de Autoencoders Mascados (MAE) ao incorporar a tokenização de múltiplas cropping. A ideia por trás disso é pegar várias crops de uma imagem durante o treinamento, o que ajuda o modelo a aprender a partir de diferentes perspectivas da mesma imagem.
Como o MAE+ Melhora o MAE?
O MAE+ permite que o modelo use tanto patches mascarados quanto não mascarados durante o pré-treinamento, o que resulta em uma melhor precisão durante a fase de ajuste. Usando crops que variam em escala, o modelo consegue aprender uma gama mais ampla de características presentes nas imagens.
Experimentos e Resultados
Realizamos experimentos usando vários conjuntos de dados, como o Imagenet1K, para avaliar como o AdPE e o MAE+ se saem em comparação com métodos tradicionais.
Desempenho no Imagenet1K
Nos nossos experimentos, descobrimos que tanto o AdPE quanto o MAE+ superaram significativamente métodos tradicionais como o MAE. As melhorias são evidentes na precisão dos modelos quando testados em várias tarefas após a fase de pré-treinamento.
Resultados de Transferência de Aprendizado
Além de testar no Imagenet1K, avaliamos os modelos em outros conjuntos de dados como ADE20K e COCO, o que nos permite ver como os modelos pré-treinados generalizam para novas tarefas. Os resultados mostram que os modelos pré-treinados com AdPE superam consistentemente seus pares, demonstrando sua eficácia em reter características úteis.
Visualizando Mapas de Atenção
Para entender como o modelo aprende com AdPE, podemos visualizar seus mapas de atenção. Esses mapas mostram onde o modelo está focando ao fazer previsões.
Comparação de Mapas de Atenção
Ao comparar os mapas de atenção dos modelos treinados com técnicas padrão de MIM aos treinados com AdPE, fica claro que o último tem um foco mais amplo. Em vez de apenas olhar para patches locais, o modelo treinado com AdPE aprende a prestar atenção a um contexto mais amplo. Isso é benéfico para entender as características e padrões maiores dentro de uma imagem.
Conclusão
Resumindo, o uso de Embeddings Posicionais Adversariais (AdPE) junto com a nova base MAE+ fornece um método robusto para o pré-treinamento de transformers visuais. Ao desafiar o modelo a aprender características globais mais complexas, garantimos que ele esteja melhor preparado para tarefas posteriores. Os resultados mostram que o AdPE melhora efetivamente as capacidades dos transformers visuais, levando a um desempenho melhor em vários conjuntos de dados e tarefas.
Trabalhos Futuros
Olhando para o futuro, mais pesquisas podem explorar como o AdPE pode ser integrado com outros tipos de redes neurais e como pode beneficiar áreas além da visão computacional. Ajustes na forma como formulamos embeddings posicionais e sistemas de coordenadas podem abrir novas possibilidades para melhorar o desempenho do modelo em diversos campos.
Esforços também podem se concentrar em otimizar a eficiência computacional dos métodos de treinamento para permitir aplicações mais amplas em cenários do mundo real. Ao refinarmos essas ideias, podemos trabalhar para criar modelos ainda mais poderosos e versáteis para compreensão e análise de imagens.
Essa exploração do AdPE e suas aplicações destaca a importância da inovação em aprendizado de máquina, especialmente em melhorar como os modelos aprendem e generalizam a partir de dados complexos. À medida que continuamos a ver avanços nessa área, o potencial para novas técnicas e metodologias continua vasto.
Título: AdPE: Adversarial Positional Embeddings for Pretraining Vision Transformers via MAE+
Resumo: Unsupervised learning of vision transformers seeks to pretrain an encoder via pretext tasks without labels. Among them is the Masked Image Modeling (MIM) aligned with pretraining of language transformers by predicting masked patches as a pretext task. A criterion in unsupervised pretraining is the pretext task needs to be sufficiently hard to prevent the transformer encoder from learning trivial low-level features not generalizable well to downstream tasks. For this purpose, we propose an Adversarial Positional Embedding (AdPE) approach -- It distorts the local visual structures by perturbing the position encodings so that the learned transformer cannot simply use the locally correlated patches to predict the missing ones. We hypothesize that it forces the transformer encoder to learn more discriminative features in a global context with stronger generalizability to downstream tasks. We will consider both absolute and relative positional encodings, where adversarial positions can be imposed both in the embedding mode and the coordinate mode. We will also present a new MAE+ baseline that brings the performance of the MIM pretraining to a new level with the AdPE. The experiments demonstrate that our approach can improve the fine-tuning accuracy of MAE by $0.8\%$ and $0.4\%$ over 1600 epochs of pretraining ViT-B and ViT-L on Imagenet1K. For the transfer learning task, it outperforms the MAE with the ViT-B backbone by $2.6\%$ in mIoU on ADE20K, and by $3.2\%$ in AP$^{bbox}$ and $1.6\%$ in AP$^{mask}$ on COCO, respectively. These results are obtained with the AdPE being a pure MIM approach that does not use any extra models or external datasets for pretraining. The code is available at https://github.com/maple-research-lab/AdPE.
Autores: Xiao Wang, Ying Wang, Ziwei Xuan, Guo-Jun Qi
Última atualização: 2023-03-13 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2303.07598
Fonte PDF: https://arxiv.org/pdf/2303.07598
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://www.michaelshell.org/
- https://www.michaelshell.org/tex/ieeetran/
- https://www.ctan.org/pkg/ieeetran
- https://www.ieee.org/
- https://www.latex-project.org/
- https://www.michaelshell.org/tex/testflow/
- https://www.ctan.org/pkg/ifpdf
- https://www.ctan.org/pkg/cite
- https://www.ctan.org/pkg/graphicx
- https://www.ctan.org/pkg/epslatex
- https://www.tug.org/applications/pdftex
- https://www.ctan.org/pkg/amsmath
- https://www.ctan.org/pkg/algorithms
- https://www.ctan.org/pkg/algorithmicx
- https://www.ctan.org/pkg/array
- https://www.ctan.org/pkg/subfig
- https://www.ctan.org/pkg/fixltx2e
- https://www.ctan.org/pkg/stfloats
- https://www.ctan.org/pkg/dblfloatfix
- https://www.ctan.org/pkg/endfloat
- https://www.ctan.org/pkg/url
- https://github.com/maple-research-lab/AdPE
- https://mirror.ctan.org/biblio/bibtex/contrib/doc/
- https://www.michaelshell.org/tex/ieeetran/bibtex/