CORA: Mejorando las Técnicas de Detección de Vocabulario Abierto
CORA desarrolla nuevos métodos para mejorar la detección de objetos en imágenes.
― 6 minilectura
Tabla de contenidos
La Detección de vocabulario abierto (OVD) es una forma de encontrar objetos en imágenes que no forman parte de un conjunto previamente aprendido. Esto significa que el sistema puede identificar nuevos objetos que no ha visto antes. Muchos métodos recientes de OVD utilizan modelos entrenados tanto en imágenes como en texto, como CLIP, para ayudar a reconocer estos objetos novedosos. Sin embargo, hay dos desafíos principales al usar estos modelos para OVD: la forma en que los modelos son entrenados en imágenes completas en lugar de áreas específicas, y la dificultad para encontrar objetos que pertenecen a categorías desconocidas.
Para abordar estos problemas, presentamos un nuevo método llamado CORA. Este método modifica CLIP para OVD utilizando técnicas llamadas Region Prompting y Anchor Pre-Matching.
¿Qué es CORA?
CORA se basa en una arquitectura de detección que utiliza transformadores, específicamente un estilo similar a DETR (DEtection TRansformer). Permite que el modelo identifique y clasifique objetos en regiones específicas en lugar de solo en la imagen completa. Al usar Region Prompting, CORA reduce la brecha entre reconocer la imagen completa y las regiones específicas. Anchor Pre-Matching ayuda a identificar dónde podrían estar ubicados nuevos objetos sin necesidad de revisar repetidamente cada clase.
Evaluando CORA
Durante las pruebas en el benchmark COCO OVD, CORA logró una puntuación de 41.7 en una métrica que mide cuán bien detecta nuevas clases. Este resultado es mejor que cualquier método anterior, mejorando en 2.4 puntos sin necesidad de datos de entrenamiento adicionales. Cuando se dispuso de datos de entrenamiento adicionales, CORA alcanzó 43.1 en el mismo benchmark, mostrando su capacidad para aprender de información extra.
Entendiendo la Detección de Vocabulario Abierto
La detección de objetos es un área importante en visión por computadora, centrada en encontrar y reconocer objetos en imágenes. Los métodos tradicionales solo funcionan con un conjunto fijo de categorías, lo que significa que no pueden reconocer nuevas categorías sin entrenamiento y anotaciones adicionales.
En contraste, OVD permite a los sistemas detectar objetos de categorías en las que nunca fueron entrenados. Esta capacidad es importante para aplicaciones del mundo real donde constantemente aparecen nuevos objetos.
El progreso reciente en modelos a gran escala que aprenden de imágenes y texto, como CLIP, ha llevado a nuevas formas de abordar OVD. CLIP aprende a conectar imágenes con sus descripciones, lo que le permite reconocer objetos visual y lingüísticamente.
Desafíos en el Uso de CLIP para OVD
Aunque usar CLIP para OVD muestra promesas, existen desafíos significativos:
Desajuste de Distribución: CLIP está entrenado en imágenes completas, lo que significa que no está directamente adaptado para reconocer regiones específicas. Recortar regiones y tratarlas como imágenes separadas no funciona bien porque se pierde el contexto, lo que lleva a clasificaciones inexactas.
Generalización de la Localización de Objetos: El modelo necesita identificar nuevas clases, pero a menudo el entrenamiento se limita a unas pocas clases base. Esto dificulta encontrar objetos que pertenecen a nuevas categorías.
El Marco CORA
CORA está diseñado para mejorar cómo se aplica CLIP en tareas de OVD. Aquí están los dos componentes clave del marco CORA:
Region Prompting
Region Prompting es una técnica para ayudar a cerrar la brecha entre cómo CLIP procesa imágenes completas y cómo necesita lidiar con regiones específicas. Al ajustar las características de las regiones que se están analizando, CORA mejora la precisión de clasificación.
En este proceso, una imagen se codifica primero en un mapa de características. Luego, se identifican áreas específicas de esa imagen y sus características se mejoran utilizando prompts adicionales. Esta característica ajustada es lo que el modelo utiliza para clasificar las regiones.
Anchor Pre-Matching
Anchor Pre-Matching se centra en mejorar cómo el modelo localiza objetos en imágenes. Permite al modelo asociar consultas de objetos con regiones específicas teniendo en cuenta las clases a las que pertenecen. Este enfoque evita la necesidad de procesar cada clase individualmente.
En la práctica, el sistema empareja cajas de verdad terrestre con un conjunto de consultas de objetos. Cada consulta se asocia con una clase específica, lo que permite una localización de objetos más precisa sin repeticiones innecesarias en el procesamiento.
Resultados de CORA en los Benchmarks COCO y LVIS
CORA fue evaluada contra otros métodos utilizando los conjuntos de datos COCO y LVIS. En COCO, mejoró significativamente la precisión media general para nuevas categorías en comparación con métodos anteriores. Esto muestra que CORA puede aprender a identificar objetos incluso cuando pertenecen a clases en las que no fue entrenada directamente.
La evaluación en el conjunto de datos LVIS confirma aún más la capacidad de CORA para manejar de manera eficiente tanto clases de objetos comunes como raros, mostrando su versatilidad y efectividad en escenarios del mundo real.
Rendimiento en Clasificación de Regiones
Un aspecto importante de OVD es cuán bien el modelo puede clasificar regiones. En las pruebas, CORA demostró mejoras notables sobre simplemente recortar regiones de imágenes. En lugar de tratar las regiones como imágenes separadas, CORA procesa toda la imagen, lo que conserva un contexto valioso y mejora el rendimiento general.
Trabajos Relacionados en OVD
El campo de OVD ha ganado interés, llevando a varios métodos enfocados en mejorar las capacidades de detección. Algunos métodos anteriores se centraron en alinear características de región con etiquetas textuales directamente. Otros adoptaron enfoques novedosos, pero enfrentaron desafíos para manejar las categorías de objetos novedosos de manera eficiente.
Un cuerpo significativo de investigación ha explorado la afinación de prompts, donde los modelos se adaptan para ajustarse mejor a las tareas en cuestión. Este proceso de afinación puede mejorar el rendimiento al hacer uso de características aprendidas de una manera más enfocada.
Conclusión
CORA representa un avance significativo en la búsqueda de una detección efectiva de vocabulario abierto. Al adaptar el modelo CLIP a través de técnicas innovadoras como Region Prompting y Anchor Pre-Matching, aborda eficientemente algunos de los principales desafíos en el reconocimiento de nuevas categorías de objetos.
A medida que OVD sigue evolucionando, métodos como CORA allanan el camino hacia avances que pueden llevar a sistemas de detección de objetos más capaces y eficientes, mejorando en última instancia cómo las máquinas perciben e interactúan con el mundo que les rodea.
Título: CORA: Adapting CLIP for Open-Vocabulary Detection with Region Prompting and Anchor Pre-Matching
Resumen: Open-vocabulary detection (OVD) is an object detection task aiming at detecting objects from novel categories beyond the base categories on which the detector is trained. Recent OVD methods rely on large-scale visual-language pre-trained models, such as CLIP, for recognizing novel objects. We identify the two core obstacles that need to be tackled when incorporating these models into detector training: (1) the distribution mismatch that happens when applying a VL-model trained on whole images to region recognition tasks; (2) the difficulty of localizing objects of unseen classes. To overcome these obstacles, we propose CORA, a DETR-style framework that adapts CLIP for Open-vocabulary detection by Region prompting and Anchor pre-matching. Region prompting mitigates the whole-to-region distribution gap by prompting the region features of the CLIP-based region classifier. Anchor pre-matching helps learning generalizable object localization by a class-aware matching mechanism. We evaluate CORA on the COCO OVD benchmark, where we achieve 41.7 AP50 on novel classes, which outperforms the previous SOTA by 2.4 AP50 even without resorting to extra training data. When extra training data is available, we train CORA$^+$ on both ground-truth base-category annotations and additional pseudo bounding box labels computed by CORA. CORA$^+$ achieves 43.1 AP50 on the COCO OVD benchmark and 28.1 box APr on the LVIS OVD benchmark.
Autores: Xiaoshi Wu, Feng Zhu, Rui Zhao, Hongsheng Li
Última actualización: 2023-03-23 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2303.13076
Fuente PDF: https://arxiv.org/pdf/2303.13076
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.