Avances en Transformers de Visión con Equivarianza por Desplazamiento
Nuevos métodos mejoran la precisión y consistencia en los modelos de reconocimiento de imágenes.
― 8 minilectura
Tabla de contenidos
La equivarianza a desplazamientos es un principio importante en cómo reconocemos objetos. Cuando vemos algo, su posición puede cambiar, pero seguimos sabiendo lo que es. Esta idea es clave para crear modelos que puedan identificar imágenes con precisión, incluso si están ligeramente desplazadas.
Recientemente, los Transformadores de Visión, un tipo de modelo usado para el reconocimiento de imágenes, han ganado popularidad. Estos modelos utilizan un operador de autoatención, que les permite procesar información de manera efectiva. Sin embargo, cuando se introducen ciertas partes de estos transformadores, como la incrustación de parches y la Codificación Posicional, pueden romper la equivarianza a desplazamientos. Esto significa que, cuando una imagen se mueve un poco, el modelo puede dar resultados inconsistentes.
Para ayudar a solucionar este problema, los investigadores han propuesto un nuevo enfoque llamado anclaje polifásico adaptativo. Este método se puede añadir a los modelos de transformadores de visión para ayudarles a mantener la equivarianza a desplazamientos en partes como la incrustación de parches y los mecanismos de atención. Usando una técnica llamada convolución de profundidad, también pueden codificar mejor la información posicional en el modelo.
Con este nuevo método, los transformadores de visión pueden alcanzar un 100% de consistencia cuando las imágenes de entrada son desplazadas. También pueden manejar cambios como el recorte y el volteo sin perder precisión. En pruebas, cuando los modelos originales experimentaron una caída en la precisión debido a pequeños desplazamientos, los nuevos modelos mantuvieron gran parte de su rendimiento.
Sesgo Inductivo en Redes Neuronales
El sesgo inductivo se refiere a las suposiciones hechas al diseñar modelos de aprendizaje automático para ayudarles a aprender mejor. Los humanos pueden reconocer objetos fácilmente, incluso si están distorsionados o movidos. Esta habilidad es algo que las redes neuronales convolucionales (CNN) han utilizado con gran efectividad. Estas CNN funcionan bien porque incorporan naturalmente la equivarianza a desplazamientos en su diseño.
En contraste, los transformadores de visión no son inherentemente equivariantes a desplazamientos. Su diseño incluye varias partes que interrumpen esta propiedad, como la incrustación de parches y la codificación posicional. Cuando se mueve una imagen, los tokens que la representan también cambian, lo que lleva a diferentes resultados del modelo.
Algunos investigadores han intentado combinar las fortalezas de las CNN y los transformadores de visión para abordar este problema. Si bien este enfoque ayuda en cierta medida, no resuelve completamente el problema. Los transformadores de visión originales ya utilizan algo de convolución en su diseño, pero la forma en que reducen los datos durante la incrustación de parches los hace menos confiables. Otros métodos, como el utilizado en CoAtNet, intentan combinar convolución de profundidad con mecanismos de atención, pero estos todavía luchan por mantener la equivarianza a desplazamientos.
Algoritmo de Anclaje Polifásico
El nuevo método propuesto, llamado algoritmo de anclaje polifásico, aborda directamente el problema de la equivarianza a desplazamientos. Al integrar este nuevo enfoque en los transformadores de visión, podrían volverse verdaderamente equivariantes a desplazamientos. Este algoritmo funciona seleccionando los valores polifásicos máximos como anclas para calcular la convolución estriada y los procesos de atención, asegurando que el modelo se comporte de manera consistente cuando las imágenes son desplazadas.
El algoritmo de anclaje polifásico ayuda desplazando las imágenes de entrada basándose en los valores máximos encontrados en los datos. Esto permite que los mecanismos de atención en el modelo funcionen correctamente, incluso cuando la entrada no está perfectamente alineada.
Abordando la Falta de Equivarianza a Desplazamientos
Para abordar la pérdida de equivarianza a desplazamientos en los transformadores de visión, es crucial mirar de cerca cada parte del modelo. Los diferentes componentes dentro del modelo tienen su propio impacto en si se mantiene o no la equivarianza a desplazamientos.
La capa de incrustación de parches, que convierte imágenes en trozos más pequeños, no mantiene la equivarianza a desplazamientos debido a la reducción de tamaño. Tanto los métodos de codificación posicional absoluta como relativa utilizados en los transformadores tampoco cumplen con este aspecto. Sin embargo, las capas de normalización y las capas MLP, que son parte del modelo, sí mantienen la equivarianza a desplazamientos intacta.
El desafío se hace particularmente pronunciado en las nuevas arquitecturas de transformadores, que a menudo utilizan mecanismos de atención subsampleados. Estas técnicas buscan reducir la complejidad computacional de procesar enormes cantidades de datos, pero a menudo sacrifican la equivarianza a desplazamientos al hacerlo.
Asegurando la Equivarianza a Desplazamientos en los Mecanismos de Atención
Para solucionar los problemas con la atención subsampleada, se ha propuesto el algoritmo de anclaje polifásico como una solución. Este método permite un procesamiento efectivo de los datos de entrada mientras mantiene la información espacial necesaria. Al hacerlo, promueve la equivarianza a desplazamientos en estos sistemas de atención.
El algoritmo aprovecha conceptos de muestreo adaptativo, asegurando cálculos eficientes mientras preserva las propiedades deseadas del modelo. Está diseñado para ser fácilmente integrado en varios tipos de operadores de atención, lo que lo convierte en una herramienta versátil para los desarrolladores de modelos.
Equivarianza a Desplazamientos en la Codificación Posicional
Otra parte importante a considerar es la codificación posicional, que proporciona a los modelos información sobre la posición de los píxeles. Los métodos tradicionales de codificación posicional no mantienen la equivarianza a desplazamientos. El nuevo enfoque propuesto utiliza convolución de profundidad con relleno circular para codificar mejor esta información posicional y mantener la equivarianza a desplazamientos.
Al asegurarse de que todos los componentes del modelo sean equivariantes a desplazamientos, el rendimiento general de los transformadores de visión puede mejorarse considerablemente. La combinación de anclaje polifásico y convolución de profundidad ayuda a crear un modelo más robusto que puede manejar las variaciones del mundo real en las imágenes.
Pruebas de los Nuevos Modelos
Para evaluar el éxito de estos nuevos métodos, se realizaron varias pruebas utilizando conjuntos de datos grandes como ImageNet-1k. Esto implicó evaluar varias arquitecturas de transformadores, incluidos los modelos originales y aquellos mejorados con la técnica de anclaje polifásico.
Los resultados mostraron que los nuevos modelos no solo retuvieron su precisión, sino que también demostraron mejor consistencia al tratar con imágenes que habían sido desplazadas, recortadas o volteadas. Específicamente, estos modelos lograron un notable 100% de consistencia durante pruebas que involucraron pequeños desplazamientos.
Robustez Bajo Transformaciones
La robustez de estos modelos se probó aún más aplicando varias transformaciones a las imágenes de entrada. Las pruebas incluyeron recortes aleatorios, volteo horizontal y borrado aleatorio de parches, revelando que los nuevos modelos mantuvieron su precisión y fiabilidad bajo estas condiciones también.
Al aplicar ataques de desplazamiento en casos específicos, donde las imágenes se desplazaron ligeramente para evaluar el rendimiento de los modelos, los nuevos transformadores de visión con anclaje polifásico mostraron resultados drásticamente mejorados en comparación con sus contrapartes originales.
Estabilidad de las Predicciones de Salida
También se tomaron medidas de estabilidad para evaluar cuán consistentes permanecieron los modelos bajo pequeños desplazamientos. El análisis se centró en la varianza de las predicciones de salida cuando la entrada fue desplazada por pequeñas cantidades, y los resultados mostraron que los modelos que utilizan el método de anclaje polifásico tenían casi cero varianza, indicando que sus predicciones permanecían sin cambios bajo ligeros desplazamientos.
También se realizaron pruebas de equivarianza a desplazamientos para evaluar qué tan bien las características derivadas de los modelos permanecían consistentes cuando las imágenes de entrada eran desplazadas. Los modelos modificados pasaron estas pruebas con éxito, solidificando la efectividad del enfoque de anclaje polifásico.
Conclusión
En resumen, el trabajo presentado destaca un avance significativo en el funcionamiento de los transformadores de visión al reintroducir el importante principio de la equivarianza a desplazamientos. Con los nuevos módulos y algoritmos adaptativos propuestos, los modelos ahora están mejor equipados para manejar variaciones en imágenes del mundo real.
Al asegurar la consistencia bajo diversas transformaciones y un mejor rendimiento, estos nuevos transformadores de visión tienen el potencial de establecer un nuevo estándar en tareas de reconocimiento de imágenes. La integración de anclaje polifásico y convolución de profundidad crea un enfoque más confiable que puede llevar a mayores avances en el campo de la visión por computadora en el futuro.
Si bien esta investigación se centró en demostrar la efectividad de los nuevos métodos, futuros trabajos pueden profundizar más en la optimización de estos modelos para un rendimiento aún mejor en aplicaciones prácticas, asegurando que puedan enfrentar tareas de reconocimiento visual cada vez más complejas.
Título: Reviving Shift Equivariance in Vision Transformers
Resumen: Shift equivariance is a fundamental principle that governs how we perceive the world - our recognition of an object remains invariant with respect to shifts. Transformers have gained immense popularity due to their effectiveness in both language and vision tasks. While the self-attention operator in vision transformers (ViT) is permutation-equivariant and thus shift-equivariant, patch embedding, positional encoding, and subsampled attention in ViT variants can disrupt this property, resulting in inconsistent predictions even under small shift perturbations. Although there is a growing trend in incorporating the inductive bias of convolutional neural networks (CNNs) into vision transformers, it does not fully address the issue. We propose an adaptive polyphase anchoring algorithm that can be seamlessly integrated into vision transformer models to ensure shift-equivariance in patch embedding and subsampled attention modules, such as window attention and global subsampled attention. Furthermore, we utilize depth-wise convolution to encode positional information. Our algorithms enable ViT, and its variants such as Twins to achieve 100% consistency with respect to input shift, demonstrate robustness to cropping, flipping, and affine transformations, and maintain consistent predictions even when the original models lose 20 percentage points on average when shifted by just a few pixels with Twins' accuracy dropping from 80.57% to 62.40%.
Autores: Peijian Ding, Davit Soselia, Thomas Armstrong, Jiahao Su, Furong Huang
Última actualización: 2023-06-12 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2306.07470
Fuente PDF: https://arxiv.org/pdf/2306.07470
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.