Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Recuperación de información# Inteligencia artificial# Bibliotecas digitales

Mejorando la búsqueda en Iconclass con imágenes y palabras

Un nuevo sistema permite a los usuarios buscar Iconclass usando texto e imágenes.

― 6 minilectura


Iconclass BúsquedaIconclass BúsquedaMultimodal Innovaciónacceso a las clasificaciones de arte.Nuevo motor de búsqueda mejora el
Tabla de contenidos

Las fuentes de terminología, como los vocabularios controlados y los sistemas de Clasificación, son importantes en la gestión digital del patrimonio cultural. Museos, bibliotecas y archivos usan estos recursos para describir sus colecciones. Un ejemplo es Iconclass, un sistema bien conocido para clasificar imágenes artísticas. Iconclass organiza ideas e imágenes en una jerarquía, permitiendo a los usuarios describir obras de arte y sus temas, como animales o figuras religiosas.

A pesar de su utilidad, muchas plataformas digitales que brindan acceso a estos sistemas de vocabulario hacen que sea difícil para los usuarios comunes encontrar lo que buscan. Las técnicas de búsqueda tradicionales a menudo dependen de palabras clave o coincidencias de términos específicos, lo que puede ser confuso para quienes no están familiarizados con los términos especializados usados en la clasificación del arte. Para mejorar la experiencia del usuario, se pueden emplear representaciones de palabras. Estas buscan convertir significados de palabras en formas más simples que se puedan igualar más fácilmente.

Este trabajo presenta un nuevo motor de búsqueda para Iconclass que permite a los usuarios Buscar usando tanto texto como imágenes. Este sistema utiliza un modelo llamado CLIP, que puede entender tanto imágenes como palabras para encontrar clasificaciones relevantes en Iconclass.

Búsqueda Multimodal en Iconclass

Hasta hace poco, la mayoría de los modelos de inteligencia artificial se enfocaban en procesar un tipo de entrada, como solo texto o solo imágenes. Sin embargo, los investigadores han comenzado a usar modelos que pueden trabajar con múltiples tipos de información. CLIP es uno de esos modelos que ha sido entrenado con millones de pares de imágenes y texto. Su objetivo es igualar imágenes con texto relevante, ayudando a los usuarios a encontrar lo que necesitan basándose en imágenes o palabras.

El nuevo sistema de búsqueda para Iconclass utiliza este modelo para ayudar a los usuarios a encontrar clasificaciones. Incluye una colección de 500,000 imágenes de obras de arte y una base de datos especial que ayuda a encontrar rápidamente similitudes entre imágenes y texto. Las imágenes están conectadas a notaciones específicas de Iconclass que las describen.

Cuando un usuario ingresa un texto o imagen, el sistema usa el modelo CLIP para convertir esa entrada en un formato con el que puede trabajar. Luego busca en la base de datos imágenes que sean más parecidas a la entrada, devolviendo una lista de imágenes similares junto con sus descripciones ordenadas por relevancia. Esto significa que los usuarios pueden encontrar no solo lo que escribieron, sino también imágenes y clasificaciones relacionadas, haciendo que el proceso sea más útil para quienes no están familiarizados con los términos artísticos.

Evaluación Basada en Preferencias

Actualmente, Iconclass permite búsquedas basadas en palabras clave usando técnicas tradicionales. Para evaluar la efectividad del nuevo sistema de búsqueda multimodal, se realizó una encuesta comparando los dos métodos de búsqueda. Los participantes utilizaron ambos sistemas sin saber cuál era cuál, y tuvieron que seleccionar sus preferencias basándose en diez imágenes de obras de arte y varias cadenas de consulta.

La encuesta involucró a diez voluntarios que revisaron los mejores resultados de ambos sistemas de búsqueda. Se les pidió seleccionar uno de los dos sistemas según dos criterios: cuán correctamente las clasificaciones devueltas coincidían con la imagen (precisión) y cuántas clasificaciones relevantes se proporcionaron (exhaustividad). Después de recoger y analizar las preferencias, resultó que aunque ninguno de los sistemas se destacó significativamente sobre el otro, la búsqueda multimodal fue frecuentemente preferida por su mayor variedad de resultados.

Los participantes notaron que la búsqueda basada en CLIP no se centraba únicamente en una clasificación exacta, sino que también ofrecía términos relacionados. Por ejemplo, al buscar con el término "Calle", los usuarios no solo recibieron la clasificación para calles, sino también categorías relacionadas como personas o animales que podrían aparecer en imágenes de calles. Esta capacidad de búsqueda ampliada ofreció una ventaja significativa para los usuarios que buscaban una variedad de clasificaciones relevantes.

Importancia del Contexto del Usuario

Al evaluar la efectividad de los sistemas de búsqueda como los de Iconclass, también es fundamental considerar los antecedentes de los usuarios. Las personas provienen de diferentes culturas y tienen distintos niveles de experiencia en arte e iconografía. Esta diversidad puede influir en cómo perciben los resultados de búsqueda y qué sistemas prefieren.

En la encuesta, las respuestas mostraron niveles variados de familiaridad con Iconclass y la historia del arte. Por ejemplo, algunos participantes se calificaron como principiantes, mientras que otros se sintieron bastante conocedores. Esta variación impacta en cómo los usuarios definen los "buenos" resultados, ya que alguien no familiarizado con la iconografía podría priorizar diferentes aspectos que un experto.

Dado este contexto, una encuesta basada en preferencias es útil para recoger información sobre las experiencias de los usuarios. Al pedir a los usuarios que comparen los resultados del método tradicional y del nuevo enfoque multimodal, los investigadores pueden entender mejor qué sistema satisface más efectivamente las necesidades de los usuarios.

Conclusión

El nuevo motor de búsqueda multimodal para Iconclass ofrece a los usuarios la posibilidad de buscar usando tanto texto como imágenes. Esta innovación es particularmente valiosa para aquellos que pueden no estar bien versados en el vocabulario específico o las clasificaciones utilizadas en el arte. Al aprovechar la tecnología moderna como el modelo CLIP, el sistema puede proporcionar una selección más amplia de clasificaciones relevantes basadas en las consultas de los usuarios.

Si bien la encuesta no mostró una preferencia clara por un sistema sobre el otro, destacó cómo la nueva búsqueda multimodal puede complementar los métodos existentes. Los usuarios generalmente encontraron que los resultados de la búsqueda multimodal eran más completos, mientras que las búsquedas tradicionales se consideraban más precisas.

El trabajo futuro se centrará en combinar las fortalezas de ambos sistemas. Esto podría implicar fusionar los resultados de la búsqueda tradicional basada en texto con los de la búsqueda multimodal para crear una base de datos aún más rica de clasificaciones. También se pueden introducir más características para mejorar la accesibilidad del usuario, ayudando a un público más amplio a interactuar con los materiales del patrimonio cultural sin esfuerzo.

Más de autores

Artículos similares