Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Inteligencia artificial# Visión por Computador y Reconocimiento de Patrones

Los Modelos de Lenguaje Visual Tienen Problemas con Tareas Visuales Básicas

Investigaciones muestran que los VLMs tienen mala precisión en tareas visuales simples en comparación con los humanos.

― 5 minilectura


Los VLMs fallan en tareasLos VLMs fallan en tareasvisuales básicas.contar.identificación de formas simples yLos modelos tienen problemas con la
Tabla de contenidos

Los modelos de lenguaje grandes que también pueden procesar imágenes están ganando popularidad. Estos modelos pueden manejar tareas que involucran tanto texto como imágenes. Sin embargo, nuestra investigación muestra que estos modelos tienen problemas con tareas visuales básicas que los humanos pueden realizar fácilmente.

Examinamos específicamente cuatro modelos de lenguaje de visión avanzados (VLMs) y probamos su habilidad en siete tareas visuales simples. Estas tareas incluían identificar si las Formas se superponen, contar ciertas formas e identificar letras que están rodeadas. A pesar de su capacidad para funcionar bien en entornos complejos, los VLMs mostraron un rendimiento deficiente en estas tareas básicas.

Resumen de Tareas

Creamos un conjunto de tareas para evaluar qué tan bien los VLMs pueden ver y entender información visual. Nuestras tareas involucraban formas simples como círculos y líneas, que son comunes en pruebas visuales humanas. Queríamos ver si los VLMs podían reconocer estas formas cuando estaban cerca o superpuestas.

Las tareas incluían:

  1. Contar intersecciones entre dos líneas.
  2. Determinar si dos círculos se superponen o se tocan.
  3. Identificar qué letra está rodeada en una palabra.
  4. Contar formas superpuestas, como círculos o pentágonos.
  5. Contar cuadrados anidados, donde un cuadrado está contenido dentro de otro.
  6. Contar filas y columnas en una cuadrícula.
  7. Seguir caminos de un solo color en un mapa de metro.

Resumen de Resultados

En todas las tareas, los VLMs lograron una Precisión promedio del 58.57%. Este rendimiento es significativamente inferior al nivel esperado de precisión para los humanos, que está cerca del 100%. El modelo con mejor rendimiento alcanzó solo un 74.94% de precisión.

Tarea 1: Contando Intersecciones de Líneas

En esta tarea, probamos si los VLMs podían contar cuántas veces se cruzan dos líneas. Creamos una variedad de imágenes con dos segmentos de línea y pedimos a los modelos que contaran sus intersecciones. Los resultados mostraron que los VLMs tenían una precisión promedio de solo 56.84%, lo cual está lejos de ser perfecto.

Tarea 2: Dos Círculos

Luego, examinamos si los modelos podían decir si dos círculos se estaban superponiendo o tocando. Nuevamente, los VLMs tuvieron dificultades, con la mejor precisión siendo solo del 92.78%. A menudo adivinaban mal, especialmente cuando los círculos estaban muy cerca.

Tarea 3: La Letra Rodeada

En esta tarea, probamos si los VLMs podían identificar qué letra estaba siendo rodeada en una palabra. Mientras que los modelos podían leer las letras correctamente cuando se presentaban solas, tuvieron problemas cuando un círculo cubría una letra. La precisión promedio fue de solo 81.39%. Los modelos a menudo adivinaban letras que estaban junto a la que estaba siendo rodeada.

Tarea 4: Contando Formas Superpuestas

Los VLMs también fueron probados en contar formas superpuestas como círculos y pentágonos. La precisión cayó significativamente, con los modelos logrando solo un 30.99% en contar pentágonos Superpuestos. Esto mostró que reconocer formas cuando se superponen es un desafío para estos modelos.

Tarea 5: Contando Cuadrados Anidados

Cuando se les pidió contar cuadrados que estaban anidados dentro de otros, los VLMs se desempeñaron un poco mejor pero aún así tuvieron una precisión media del 73.29%. Esta tarea destacó lo difícil que era para los modelos seguir formas cuando sus bordes estaban muy cerca, incluso si no se superponían.

Tarea 6: Contando Filas y Columnas en una Cuadrícula

A continuación, probamos a los VLMs en contar el número de filas y columnas en una cuadrícula. La precisión promedio para contar filas fue del 60.83%, mientras que fue mejor para contar columnas con un 70.53%. Sin embargo, ambas cifras aún estaban por debajo de lo que esperaríamos de un humano, que podría contar fácilmente filas y columnas.

Tarea 7: Siguiendo Caminos de un Solo Color

La última tarea involucró contar rutas entre estaciones en un mapa de metro. Esta tarea evalúa la capacidad de reconocer y seguir caminos distintos. Los VLMs tuvieron una precisión media de solo 42.06%, luchando significativamente a medida que aumentaba el número de caminos.

Discusión

Nuestros resultados demuestran una clara brecha entre cómo los humanos perciben y procesan tareas visuales simples y las habilidades de los VLMs actuales. Estos modelos son excelentes en tareas de lenguaje de alto nivel y pueden analizar imágenes complejas. Sin embargo, no logran identificar y contar correctamente formas básicas.

Esto indica que los VLMs pueden no estar realmente "viendo" imágenes de la misma manera que lo hacen los humanos. Su rendimiento sugiere que a menudo dependen de un proceso de extracción de características visuales antes de entender el aviso de texto, lo que puede llevar a confusión cuando las formas están muy juntas o superpuestas.

Para mejorar los VLMs, puede ser necesario desarrollar métodos que permitan una "fusión temprana" de información visual y textual, en lugar del método actual de "fusión tardía". Entrenar a los VLMs específicamente en tareas visuales de bajo nivel podría ayudar a mejorar sus capacidades visuales en general.

Conclusión

En resumen, aunque los VLMs muestran un potencial notable para manejar tareas complejas de imagen-texto, su rendimiento en tareas visuales básicas es preocupante. Tienen dificultades con tareas simples de identificación y conteo que cualquier humano, incluso un niño, podría lograr fácilmente.

Nuestros hallazgos abren preguntas significativas sobre cómo los VLMs procesan información visual y destacan la necesidad de más investigación en esta área. Mejorar sus capacidades visuales podría ser esencial para avanzar en el rendimiento de estos modelos en aplicaciones del mundo real.

Fuente original

Título: Vision language models are blind

Resumen: While large language models with vision capabilities (VLMs), e.g., GPT-4o and Gemini 1.5 Pro, are powering various image-text applications and scoring high on many vision-understanding benchmarks, we find that they are surprisingly still struggling with low-level vision tasks that are easy to humans. Specifically, on BlindTest, our suite of 7 very simple tasks such as identifying (a) whether two circles overlap; (b) whether two lines intersect; (c) which letter is being circled in a word; and (d) counting circles in an Olympic-like logo, four state-of-the-art VLMs are only 58.57% accurate on average. Claude 3.5 Sonnet performs the best at 74.94% accuracy, but this is still far from the human expected accuracy of 100%. Across different image resolutions and line widths, VLMs consistently struggle with tasks that require precise spatial information and recognizing geometric primitives that overlap or are close together. Code and data are available at: https://vlmsareblind.github.io

Autores: Pooyan Rahmanzadehgervi, Logan Bolton, Mohammad Reza Taesiri, Anh Totti Nguyen

Última actualización: 2024-07-25 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2407.06581

Fuente PDF: https://arxiv.org/pdf/2407.06581

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares