Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Visión por Computador y Reconocimiento de Patrones

FADE: Un nuevo método para la detección de anomalías en la fabricación

FADE detecta fallos en imágenes con muestras normales limitadas usando modelos de visión-lenguaje.

Yuanwei Li, Elizaveta Ivanova, Martins Bruveris

― 7 minilectura


FADE: Detección deFADE: Detección deAnomalías de NuevaGeneraciónmínimos.anomalías en la fabricación con datosMétodos avanzados para detectar
Tabla de contenidos

Detectar problemas en imágenes es clave, especialmente en la fabricación donde la calidad cuenta. Normalmente, los modelos se entrenan usando un montón de imágenes normales de un objeto. Pero, a veces no hay imágenes normales disponibles, o solo hay unas pocas. Esto es un verdadero desafío. Los avances recientes en modelos grandes que combinan visión y lenguaje han mostrado buenas señales en muchas tareas. Pero estos modelos no han sido diseñados específicamente para detectar problemas en imágenes. En este artículo, hablamos de un nuevo método llamado FADE, que usa estos modelos para detectar problemas en imágenes de manera efectiva, incluso cuando hay pocas o ninguna imagen normal.

Importancia de la Detección de Anomalías en la Fabricación

En la fabricación, es esencial identificar fallos o características inusuales en los productos. Este proceso, conocido como detección de anomalías, se enfoca en dos tareas principales: clasificar la imagen como normal o defectuosa y señalar exactamente dónde está el problema en la imagen. Los métodos tradicionales dependen mucho de tener una gran colección de imágenes normales para entrenar modelos específicos para diferentes objetos. Sin embargo, este enfoque puede ser impráctico debido al tiempo y los recursos necesarios para reunir muchas imágenes normales para cada tipo de objeto.

Desafíos en los Enfoques Actuales

La idea convencional de entrenar modelos solo funciona bien cuando hay un montón de muestras normales. Desafortunadamente, en el mundo real, no tener imágenes normales o tener solo un par de ellas es común. Muchos métodos actuales tienen dificultades en estos casos y a menudo no producen resultados precisos. Aunque los investigadores se están enfocando cada vez más en formas de abordar este problema, todavía hay mucho margen para mejorar.

Modelos Fundamentales y Su Potencial

Recientemente, los modelos grandes que combinan procesamiento visual y de lenguaje han mostrado excelentes resultados en diversas tareas. Estos modelos, conocidos como modelos fundamentales, se entrenan con enormes conjuntos de datos, lo que les permite aprender un amplio rango de conceptos. Pueden realizar tareas como identificar objetos en imágenes sin necesidad de más entrenamiento. Sin embargo, adaptar estos modelos específicamente para tareas de detección de anomalías aún requiere más trabajo, ya que no están diseñados para este propósito.

El Enfoque FADE

FADE significa Motor de Detección de Anomalías de Pocas Tomas/Cero Tomas. Utiliza un modelo de visión-lenguaje llamado CLIP, que se adapta para detectar problemas en entornos industriales. FADE mejora la identificación de anomalías al:

  1. Extraer características de la imagen en múltiples escalas para conectar mejor las imágenes con descripciones en lenguaje.
  2. Generar automáticamente textos relacionados con posibles anomalías en objetos industriales.
  3. Usar pistas visuales adicionales de las imágenes para mejorar los resultados de detección, tanto cuando no hay imágenes normales como cuando solo hay unas pocas.

En pruebas con conjuntos de datos estándar, FADE ha mostrado mejores resultados que los métodos existentes para identificar y localizar anomalías en imágenes.

Detección Guiada por Lenguaje y Visión

FADE puede usar el lenguaje para guiar la detección creando textos que describen cómo podría verse un objeto normal y una anomalía. Por ejemplo, en lugar de solo decir "dañado", un texto podría especificar "una superficie rayada". Esta precisión ayuda al modelo a entender qué debería buscar. El modelo compara las características de la imagen con estos textos para ver cuán bien coinciden.

Por otro lado, la detección guiada por visión compara parches de imagen tanto de imágenes normales como sospechosas. Al analizar los patrones visuales, el modelo puede identificar inconsistencias que podrían indicar problemas.

Mejoras en la Segmentación de Anomalías

Un enfoque principal de FADE es mejorar la segmentación, que señala las ubicaciones exactas de las anomalías en las imágenes. El enfoque utiliza una técnica llamada Módulo de Enfoque Total (GEM), que alinea mejor las características visuales con descripciones en lenguaje en comparación con los métodos tradicionales. Al agrupar efectivamente píxeles similares, el modelo mejora su capacidad para detectar problemas.

Además, FADE también emplea análisis a múltiples escalas. Esto significa que observa imágenes en varios tamaños, haciéndolo más capaz de detectar anomalías de diferentes dimensiones. Como resultado, ya sea que la anomalía sea grande o pequeña, FADE está diseñado para identificarla.

Utilizando ChatGPT para la Generación de Textos

Para mejorar aún más su capacidad de encontrar problemas, FADE utiliza ChatGPT, un modelo de lenguaje grande. En lugar de crear textos manualmente, lo cual puede llevar tiempo, FADE genera automáticamente una amplia variedad de textos. Esto ayuda a capturar anomalías específicas de manera precisa, asegurando que el modelo esté bien informado sobre qué buscar.

El Escenario de Pocas Tomas

En escenarios donde solo hay un pequeño número de imágenes normales disponibles, FADE aún puede funcionar bien. Construye un banco de memoria de características de imagen a partir de las imágenes normales disponibles. Al comparar estas características con las de la imagen de consulta, el modelo puede identificar posibles anomalías. Este enfoque permite que FADE funcione de manera efectiva, incluso en condiciones limitadas.

Evaluación del Rendimiento

FADE ha sido probado contra otros métodos líderes, demostrando resultados competitivos en varias métricas. En escenarios tanto de cero tomas como de pocas tomas, donde las imágenes normales son escasas, FADE ha mostrado mejoras significativas. Estos resultados son particularmente notables en conjuntos de datos más desafiantes, enfatizando la robustez y fiabilidad de FADE en comparación con los métodos tradicionales.

Resumen de Contribuciones

FADE aborda varios problemas relacionados con la detección de anomalías. Combina enfoques guiados por lenguaje y por visión, mejorando las capacidades de detección en general. Las mejoras incluyen el uso de incrustaciones mejor alineadas, la generación automática de textos diversos y el empleo de análisis a múltiples escalas. Estas contribuciones llevan a un mejor rendimiento en la identificación de anomalías en imágenes, haciéndolo una herramienta valiosa en el control de calidad de fabricación.

Direcciones Futuras

Aún hay mucho por explorar en el ámbito de la detección de anomalías. Aunque FADE ha mostrado resultados prometedores, hay áreas que requieren más investigación. Por ejemplo, la generación automática de textos puede ser inconsistente. Entender cómo diferentes textos afectan el rendimiento sería beneficioso. Además, se necesita investigación para determinar el uso óptimo de diferentes tipos de incrustaciones bajo diversas condiciones.

Otra área que vale la pena explorar es la expansión de los métodos de detección guiada por visión, particularmente en imágenes donde los parches pueden variar significativamente en apariencia. Encontrar nuevas formas de abordar estos desafíos puede llevar a mejores resultados de detección.

Conclusión

FADE representa un avance significativo en el campo de la detección de anomalías para la fabricación. Al usar efectivamente la guía de lenguaje y visión, mejora la capacidad de detectar fallos en imágenes incluso cuando se enfrenta a datos limitados. La combinación de técnicas avanzadas y modelos fundamentales ofrece una perspectiva prometedora para mejorar los procesos de control de calidad en diversas industrias.

Fuente original

Título: FADE: Few-shot/zero-shot Anomaly Detection Engine using Large Vision-Language Model

Resumen: Automatic image anomaly detection is important for quality inspection in the manufacturing industry. The usual unsupervised anomaly detection approach is to train a model for each object class using a dataset of normal samples. However, a more realistic problem is zero-/few-shot anomaly detection where zero or only a few normal samples are available. This makes the training of object-specific models challenging. Recently, large foundation vision-language models have shown strong zero-shot performance in various downstream tasks. While these models have learned complex relationships between vision and language, they are not specifically designed for the tasks of anomaly detection. In this paper, we propose the Few-shot/zero-shot Anomaly Detection Engine (FADE) which leverages the vision-language CLIP model and adjusts it for the purpose of industrial anomaly detection. Specifically, we improve language-guided anomaly segmentation 1) by adapting CLIP to extract multi-scale image patch embeddings that are better aligned with language and 2) by automatically generating an ensemble of text prompts related to industrial anomaly detection. 3) We use additional vision-based guidance from the query and reference images to further improve both zero-shot and few-shot anomaly detection. On the MVTec-AD (and VisA) dataset, FADE outperforms other state-of-the-art methods in anomaly segmentation with pixel-AUROC of 89.6% (91.5%) in zero-shot and 95.4% (97.5%) in 1-normal-shot. Code is available at https://github.com/BMVC-FADE/BMVC-FADE.

Autores: Yuanwei Li, Elizaveta Ivanova, Martins Bruveris

Última actualización: 2024-08-31 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2409.00556

Fuente PDF: https://arxiv.org/pdf/2409.00556

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Artículos similares