Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Visión por Computador y Reconocimiento de Patrones# Inteligencia artificial# Aprendizaje automático

Avanzando Técnicas de Preentrenamiento para Transformadores de Visión

Presentamos el Embedding Posicional Adversarial y MAE+ para mejorar el entrenamiento de modelos de imágenes.

― 7 minilectura


Transformers mejorados aTransformers mejorados através de AdPElos transformadores de visión.significativamente el rendimiento deNuevos métodos mejoran
Tabla de contenidos

El preentrenamiento de modelos en visión por computadora se ha vuelto importante, especialmente con el auge de los transformadores. Estos modelos pueden aprender de muchos datos sin necesitar información etiquetada. Una forma efectiva de hacerlo es a través de un método llamado Modelado de Imágenes enmascaradas (MIM). En este método, se ocultan partes de una imagen, y el modelo tiene que predecir esas partes basándose en las secciones visibles. El objetivo es entrenar al modelo para aprender características útiles de las imágenes que luego se pueden aplicar a otras tareas como clasificación o detección.

¿Qué son los Transformadores de Visión?

Los transformadores de visión son un tipo de modelo que procesa imágenes de una manera similar a cómo los transformadores trabajan con texto. Dividen las imágenes en piezas más pequeñas, llamadas parches, y tratan cada parche como una palabra en una oración. Este enfoque permite que el modelo aprenda relaciones entre diferentes partes de la imagen de manera efectiva.

Importancia del Preentrenamiento

El preentrenamiento ayuda a los modelos a entender las características generales de las imágenes sin necesitar grandes cantidades de datos etiquetados. Permite que el modelo se vuelva bueno en captar patrones, lo cual puede ser útil para una variedad de tareas en el procesamiento de imágenes.

Entre los métodos de preentrenamiento, MIM se destaca porque permite que el modelo aprenda de la estructura inherente de las imágenes mismas. Este método ha mostrado gran promesa pero aún enfrenta desafíos para asegurar que el modelo no se enfoque demasiado en características simples y fáciles de aprender.

Embeddings Posicionales Adversariales (AdPE)

Para superar algunos de los desafíos que enfrenta MIM, presentamos el Embedding Posicional Adversarial (AdPE). La idea principal detrás de AdPE es hacer que la tarea de predecir las partes enmascaradas de una imagen sea más desafiante al distorsionar la información posicional de los parches. Esto anima al modelo a aprender características más complejas y generales, en lugar de simplemente depender de patrones locales.

¿Cómo Funciona AdPE?

AdPE introduce cambios en la forma en que representamos la posición de cada parche. Hay dos maneras principales de hacerlo: alterando los embeddings posicionales o cambiando las coordenadas espaciales de los parches. Ambos métodos buscan crear una situación en la que el modelo no pueda depender de correlaciones simples entre parches vecinos.

Embeddings Posicionales

Los embeddings posicionales se usan para informar al modelo dónde se encuentra cada parche dentro de la imagen. Al perturbar estos embeddings, evitamos que el modelo prediga fácilmente los parches enmascarados basándose en su relación local con parches vecinos.

Coordenadas Espaciales

En lugar de solo alterar los embeddings, también se pueden hacer cambios directamente en las coordenadas de los parches. Esto tiene un impacto más directo en cómo el modelo percibe la disposición espacial de la imagen, empujándolo a aprender un contexto más global en lugar de solo características locales.

Beneficios de AdPE

La introducción de AdPE permite que el transformador de visión se enfoque más en la disposición general de las diferentes partes de la imagen. Esto ayuda al modelo a encontrar y aprender características complejas que son útiles para tareas posteriores, como clasificación de imágenes o detección de objetos. Como resultado, funciona mejor cuando se ajusta finamente para tareas específicas después del preentrenamiento.

MAE+ Baseline

Para mejorar aún más los resultados, también proponemos una nueva línea base llamada MAE+. Este nuevo enfoque se basa en los métodos estándar de Autoencoder enmascarados (MAE) al incorporar tokenización de múltiples recortes. La idea detrás de esto es tomar múltiples recortes de una imagen mientras se entrena, lo que ayuda al modelo a aprender desde diferentes perspectivas de la misma imagen.

¿Cómo Mejora MAE+ a MAE?

MAE+ permite que el modelo use tanto parches enmascarados como no enmascarados durante el preentrenamiento, lo que lleva a una mejor precisión durante la etapa de ajuste fino. Al usar recortes que varían en escala, el modelo puede aprender de una gama más amplia de características presentes en las imágenes.

Experimentos y Resultados

Realizamos experimentos usando varios conjuntos de datos, como Imagenet1K, para evaluar qué tan bien funcionan AdPE y MAE+ en comparación con métodos tradicionales.

Rendimiento en Imagenet1K

En nuestros experimentos, encontramos que tanto AdPE como MAE+ superaron significativamente a los métodos tradicionales como MAE. Las mejoras son evidentes en la precisión de los modelos cuando se prueban en varias tareas después de la fase de preentrenamiento.

Resultados de Aprendizaje por Transferencia

Además de probar en Imagenet1K, evaluamos los modelos en otros conjuntos de datos como ADE20K y COCO, lo que nos permite ver qué tan bien los modelos preentrenados se generalizan a nuevas tareas. Los resultados muestran que los modelos preentrenados con AdPE consistentemente superan a sus contrapartes, demostrando su efectividad en retener características útiles.

Visualizando Mapas de Atención

Para entender qué tan bien aprende el modelo con AdPE, podemos visualizar sus mapas de atención. Estos mapas muestran dónde se está enfocando el modelo al hacer predicciones.

Comparación de Mapas de Atención

Al comparar los mapas de atención de modelos entrenados con técnicas MIM estándar con aquellos entrenados con AdPE, queda claro que los últimos tienen un enfoque más amplio. En lugar de solo observar parches locales, el modelo entrenado con AdPE aprende a prestar atención a un contexto más amplio. Esto es beneficioso para entender las características y patrones más grandes dentro de una imagen.

Conclusión

En resumen, el uso de Embeddings Posicionales Adversariales (AdPE) junto con la nueva línea base MAE+ proporciona un método robusto para el preentrenamiento de transformadores de visión. Al desafiar al modelo a aprender características globales más complejas, nos aseguramos de que esté mejor preparado para tareas posteriores. Los resultados demuestran que AdPE mejora efectivamente las capacidades de los transformadores de visión, llevando a un mejor rendimiento en varios conjuntos de datos y tareas.

Trabajo Futuro

Mirando hacia adelante, la investigación adicional puede explorar cómo AdPE puede integrarse con otros tipos de redes neuronales y cómo puede beneficiar áreas más allá de la visión por computadora. Los ajustes en la forma en que formulamos los embeddings posicionales y los sistemas de coordenadas pueden abrir nuevas avenidas para mejorar el rendimiento del modelo en varios campos.

Los esfuerzos también pueden centrarse en optimizar la eficiencia computacional de los métodos de entrenamiento para permitir aplicaciones más amplias en escenarios del mundo real. Al refinar estas ideas, podemos trabajar hacia la creación de modelos aún más potentes y versátiles para la comprensión y análisis de imágenes.

Esta exploración de AdPE y sus aplicaciones subraya la importancia de la innovación en el aprendizaje automático, particularmente en la mejora de cómo los modelos aprenden y generalizan a partir de datos complejos. A medida que continuamos viendo avances en esta área, el potencial para nuevas técnicas y metodologías sigue siendo vasto.

Fuente original

Título: AdPE: Adversarial Positional Embeddings for Pretraining Vision Transformers via MAE+

Resumen: Unsupervised learning of vision transformers seeks to pretrain an encoder via pretext tasks without labels. Among them is the Masked Image Modeling (MIM) aligned with pretraining of language transformers by predicting masked patches as a pretext task. A criterion in unsupervised pretraining is the pretext task needs to be sufficiently hard to prevent the transformer encoder from learning trivial low-level features not generalizable well to downstream tasks. For this purpose, we propose an Adversarial Positional Embedding (AdPE) approach -- It distorts the local visual structures by perturbing the position encodings so that the learned transformer cannot simply use the locally correlated patches to predict the missing ones. We hypothesize that it forces the transformer encoder to learn more discriminative features in a global context with stronger generalizability to downstream tasks. We will consider both absolute and relative positional encodings, where adversarial positions can be imposed both in the embedding mode and the coordinate mode. We will also present a new MAE+ baseline that brings the performance of the MIM pretraining to a new level with the AdPE. The experiments demonstrate that our approach can improve the fine-tuning accuracy of MAE by $0.8\%$ and $0.4\%$ over 1600 epochs of pretraining ViT-B and ViT-L on Imagenet1K. For the transfer learning task, it outperforms the MAE with the ViT-B backbone by $2.6\%$ in mIoU on ADE20K, and by $3.2\%$ in AP$^{bbox}$ and $1.6\%$ in AP$^{mask}$ on COCO, respectively. These results are obtained with the AdPE being a pure MIM approach that does not use any extra models or external datasets for pretraining. The code is available at https://github.com/maple-research-lab/AdPE.

Autores: Xiao Wang, Ying Wang, Ziwei Xuan, Guo-Jun Qi

Última actualización: 2023-03-13 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2303.07598

Fuente PDF: https://arxiv.org/pdf/2303.07598

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares