Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática # Visión por Computador y Reconocimiento de Patrones

Avanzando en la percepción de imágenes con ChatRex

ChatRex mejora el reconocimiento y la comprensión de imágenes para aplicaciones del mundo real.

Qing Jiang, Gen Luo, Yuqin Yang, Yuda Xiong, Yihao Chen, Zhaoyang Zeng, Tianhe Ren, Lei Zhang

― 8 minilectura


ChatRex: Percepción de ChatRex: Percepción de imágenes de próxima generación reconocimiento de imágenes. ChatRex mejora la comprensión y
Tabla de contenidos

En el mundo de la visión por computadora, entender imágenes es un gran tema, como tratar de averiguar qué está haciendo tu gato cuando mira una pared en blanco. Los científicos han creado algo llamado Modelos de Lenguaje Grande Multimodal (MLLMs). Estas son máquinas elegantes que pueden hacer cosas increíbles con imágenes, pero tienen algunos tropezones. Pueden reconocer fotos, pero cuando se trata de realmente percibir lo que ven-como si esa forma borrosa es tu mascota o un calcetín al azar-se les complica.

Imagina pedirle a uno de estos modelos que encuentre múltiples objetos en una imagen. Un modelo popular llamado Qwen2-VL solo puede recordar con precisión alrededor del 43.9% de lo que ve, que no es gran cosa. Si lo piensas, es como encontrar solo 44 de 100 huevos de pascua escondidos-bastante decepcionante para un cazador de huevos experimentado.

La Misión

El objetivo aquí es hacer que estos modelos no solo sean mejores para entender imágenes, sino también para percibirlas con más precisión. Estamos presentando ChatRex, un nuevo modelo diseñado para trabajar de manera más inteligente, no más dura.

¿Cómo Funciona ChatRex?

En lugar de adivinar dónde están los objetos en una imagen de inmediato, ChatRex utiliza una táctica diferente. Tiene algo llamado una red de propuestas universal que sugiere dónde podrían estar las cosas, y luego ChatRex aclara los detalles. ¡Es como tener un amigo que señala la dirección general de la pizzería-todavía necesitas navegar por las calles para llegar allí!

En resumen, ChatRex toma las cajas que marcan los posibles objetos y las usa para averiguar qué son. Al final del día, es mucho más eficiente que intentar adivinar todo de una vez.

El Lado de los Datos

Ahora, ¿qué es un buen modelo sin buenos datos? Es como intentar cocinar una comida elegante sin ingredientes-¡buena suerte con eso! Para solucionar el problema de los datos, creamos el conjunto de datos Rexverse-2M, que es bastante amplio con millones de imágenes anotadas para varios detalles.

Este conjunto de datos no solo lanza imágenes al azar al modelo. Se centra en tareas específicas que requieren entender las imágenes a diferentes niveles. Así que, obtienes todo, desde un simple “Esto es un gato,” hasta “Este gato ama dormir en el sofá mientras trama la dominación mundial.”

¿Por Qué Necesitamos Esto?

Te podrías preguntar por qué todo esto importa. Bueno, piénsalo: si los robots pudieran entender las imágenes mejor, podrían ayudar en muchas aplicaciones del mundo real. Imagina coches autónomos que realmente pueden ver no solo a un peatón, sino también reconocer si están saludando, trotando o simplemente perdidos en sus pensamientos.

O, en tu vida diaria, ¿qué tal si tienes chatbots que pueden ayudarte mientras miran la imagen que subiste? “Oye, ¿puedes encontrar a mi perro en esta imagen?” Y ¡boom! El bot puede decirte exactamente dónde está Fido-probablemente persiguiendo esa ardilla otra vez.

Los Desafíos de la Percepción en MLLMs

A pesar de sus avances, los MLLMs a menudo tienen problemas con los detalles finos. Es como intentar recordar dónde estacionaste tu auto después de un largo día: probablemente recordarás el color o la marca, pero no el lugar preciso.

Aquí hay un par de desafíos:

  1. Conflictos de Modelado: A veces, la forma en que están diseñados los modelos hace que compitan por las tareas. Es como intentar decidir quién se sienta en el asiento delantero del auto-todos quieren tener voz, pero termina en caos.

  2. Falta de Datos Balanceados: No hay suficientes buenos datos para entrenar estos modelos adecuadamente. Imagina si estuvieras aprendiendo a malabarear usando solo una pelota de tenis. Serías un genio con eso, pero cuando se trata de cualquier otra cosa-como bolas de boliche o antorchas en llamas-¡te quedarías fuera de tu profundidad!

El Diseño Único de ChatRex

Lo que distingue a ChatRex es su diseño. Ha separado las tareas de percepción (encontrar e identificar objetos) y comprensión (saber qué son esos objetos).

Un Modelo de Dos Niveles

ChatRex está estructurado similar a un sándwich: tiene variadas capas para asegurar que rinda mejor. Tiene dos codificadores de visión diferentes. Uno ayuda con imágenes de baja resolución, mientras que el otro se encarga de imágenes de alta resolución. Cuanto mejor sea la entrada, mejor será la salida, como la diferencia entre leer un periódico y un lector electrónico con gráficos de alta definición.

Red de Propuestas Universal

En el corazón de ChatRex se encuentra la Red de Propuestas Universal (UPN). Piensa en ella como el equipo detrás del escenario durante un concierto, asegurándose de que todo esté en su lugar antes de que la banda suba al escenario. UPN identifica objetos candidatos potenciales, rastrea todo lo que necesita ser analizado, y prepara una lista para que ChatRex la digiera.

Construyendo un Conjunto de Datos de Calidad

Como se mencionó antes, nuestro nuevo conjunto de datos-Rexverse-2M-es crucial. Contiene millones de imágenes anotadas, creadas a través de un motor de datos automatizado. Este motor asegura que los datos sean capturados y etiquetados con precisión.

Tres Módulos Clave
  1. Generación de Descripciones de Imágenes: Este módulo genera descripciones que explican lo que sucede en cada imagen.
  2. Localización de Objetos: Esta parte identifica objetos específicos en la descripción y usa un modelo para crear cajas delimitadoras alrededor de estos elementos.
  3. Descripciones Regionales: Aquí producimos descripciones detalladas de regiones específicas en la imagen.

La combinación de estos módulos permite que el modelo lo acierte-como una compañía de baile bien coordinada que actúa a la perfección en el escenario.

Entrenando a ChatRex

Así como cualquier buen atleta entrena para el gran partido, ChatRex pasa por un meticuloso proceso de entrenamiento. Tiene dos etapas principales para construir sus capacidades de percepción y comprensión.

Etapa 1: Entrenamiento de Alineación

En la primera etapa, el objetivo es simple: alinear características visuales con características textuales. Se trata de asegurarse de que el modelo sepa cómo conectar lo visual con el lenguaje.

Etapa 2: Ajuste de Instrucciones Visuales

En la segunda etapa, las cosas se ponen un poco más emocionantes ya que ChatRex aprende a entender y responder a interacciones de los usuarios de manera conversacional.

Evaluando el Rendimiento

Ahora, suficiente charla sobre lo genial que es ChatRex-¿realmente funciona?

Pruebas de Detección de Objetos

ChatRex ha sido probado en numerosos conjuntos de datos, similar a cómo los estudiantes son evaluados en problemas de matemáticas. ¡Los resultados son prometedores! Muestra un rendimiento sólido en la detección de objetos en comparación con otros modelos existentes.

Por ejemplo, en pruebas en el conjunto de datos COCO, ChatRex logró un impresionante puntaje de Precisión Media Promedio (mAP) lo que indica que puede localizar y clasificar objetos con precisión.

Detección de Objetos Referidos

Cuando se trata de identificar un objeto basado en una descripción, ChatRex sigue brillando. Puede identificar elementos basándose únicamente en las palabras-lo que lo convierte en una estrella en la IA conversacional, capaz de discernir exactamente lo que estás buscando.

Comprensión y Referencias Multimodales Generales

ChatRex no se detiene solo en el reconocimiento; también destaca en la comprensión. Ha sido evaluado en diversos estándares académicos, demostrando que puede mantener el ritmo con otros modelos de alto nivel mientras ayuda a reducir esos molestos errores de alucinación.

Desafíos e Ideas

Aunque ChatRex presenta un avance, no está exento de obstáculos. Aún hay áreas de mejora, especialmente en la gestión de detecciones de objetos múltiples, ruido de señal y predicciones coordinadas.

¿Qué Sigue?

A medida que miramos hacia el futuro, hay potencial para modelos aún más inteligentes. Con avances en percepción y comprensión, podemos prever un tiempo en el que modelos al estilo de ChatRex nos asistan diariamente, ya sea en conducir, comprar, o simplemente navegar por el mundo que nos rodea.

Conclusión

En general, ChatRex es como el nuevo superhéroe en la ciudad, listo para enfrentar los desafíos de la percepción y comprensión en la visión por computadora. Al cerrar la brecha entre entender lo que significan los visuales y percibirlos con precisión, ChatRex abre la puerta a un mundo de posibilidades.

Y oye, si puede ayudarte a encontrar a tu mascota perdida en ese montón de ropa, ¡entonces estamos hablando de una magia seria aquí!

Al final, sabemos que la percepción y la comprensión van de la mano. Con las herramientas adecuadas y un poco de imaginación, el futuro se ve brillante para la visión por computadora. ¿Quién sabe? Tal vez algún día tengamos un asistente al estilo de ChatRex ayudándonos a navegar por la vida, ¡una imagen a la vez!

Fuente original

Título: ChatRex: Taming Multimodal LLM for Joint Perception and Understanding

Resumen: Perception and understanding are two pillars of computer vision. While multimodal large language models (MLLM) have demonstrated remarkable visual understanding capabilities, they arguably lack accurate perception abilities, e.g. the stage-of-the-art model Qwen2-VL only achieves a 43.9 recall rate on the COCO dataset, limiting many tasks requiring the combination of perception and understanding. In this work, we aim to bridge this perception gap from both model designing and data development perspectives. We first introduce ChatRex, an MLLM with a decoupled perception design. Instead of having the LLM directly predict box coordinates, we feed the output boxes from a universal proposal network into the LLM, allowing it to output the corresponding box indices to represent its detection results, turning the regression task into a retrieval-based task that LLM handles more proficiently. From the data perspective, we build a fully automated data engine and construct the Rexverse-2M dataset which possesses multiple granularities to support the joint training of perception and understanding. After standard two-stage training, ChatRex demonstrates strong perception capabilities while preserving multimodal understanding performance. The combination of these two capabilities simultaneously unlocks many attractive applications, demonstrating the complementary roles of both perception and understanding in MLLM. Code is available at \url{https://github.com/IDEA-Research/ChatRex}.

Autores: Qing Jiang, Gen Luo, Yuqin Yang, Yuda Xiong, Yihao Chen, Zhaoyang Zeng, Tianhe Ren, Lei Zhang

Última actualización: 2024-12-02 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2411.18363

Fuente PDF: https://arxiv.org/pdf/2411.18363

Licencia: https://creativecommons.org/licenses/by-nc-sa/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares