Automatizando el inventario de libros con coincidencia de imágenes
Un nuevo método mejora la coincidencia de libros para catálogos de bibliotecas usando técnicas avanzadas.
― 7 minilectura
Tabla de contenidos
Detectar y emparejar libros en imágenes con un catálogo es una tarea importante para las bibliotecas. Este proceso ayuda a llevar un control de los libros disponibles y a mejorar los servicios para los usuarios de las bibliotecas. El reto consiste en encontrar la mejor manera de conectar varias imágenes de libros con sus títulos correspondientes en un catálogo.
En lugar de tratar cada detección de libro como una tarea separada, un método más efectivo es ver el problema como uno en el que múltiples libros pueden coincidir con múltiples títulos. Este enfoque busca las mejores coincidencias generales entre los dos conjuntos de datos.
Para lograr esto, se utilizan técnicas avanzadas de procesamiento de imágenes. Un método implica segmentar imágenes para encontrar lomos de libros y usar reconocimiento óptico de caracteres (OCR) para leer el texto en esos lomos. Después de este primer paso, se aplica un enfoque de dos partes para emparejar el texto detectado con los títulos de los libros.
En la primera parte, se utiliza una tecnología moderna llamada CLIP para un emparejamiento rápido de textos e imágenes. En la segunda parte, se utiliza el Algoritmo Húngaro o un modelo basado en BERT para refinar este emparejamiento, especialmente al lidiar con casos difíciles de texto incorrecto o coincidencias incompletas.
Para probar la efectividad de este método, se creó un nuevo conjunto de imágenes de una biblioteca pública en España. Este conjunto incluye imágenes de estanterías con una variedad de títulos. Se proporcionaron dos listas de información sobre libros: una lista incluye alrededor de 15,000 títulos conocidos de la biblioteca, y otra lista más grande contiene más de dos millones de títulos para simular un escenario de emparejamiento más amplio.
Los investigadores realizaron pruebas en dos escenarios. El primer escenario se centró únicamente en el emparejamiento, utilizando imágenes donde los libros ya estaban detectados, y el objetivo era encontrar las mejores coincidencias de las listas objetivo. El segundo escenario incorporó tanto la detección como el emparejamiento, donde los libros debían ser identificados antes de poder ser emparejados con el catálogo.
Los resultados mostraron que tanto el Algoritmo Húngaro como el método basado en BERT funcionaron mejor que un método más simple de emparejamiento de cadenas. Sin embargo, a medida que aumentaba el tamaño de las listas objetivo o cuando la lista detectada estaba incompleta, se hicieron evidentes las limitaciones de estos algoritmos.
La gestión de las bibliotecas depende en gran medida de llevar un control de los libros. Los informes indican que las bibliotecas en todo el mundo gestionan millones de préstamos de libros cada año. Rastrear estos activos es crucial, pero a menudo implica chequeos de inventario que consumen mucho tiempo. Muchas bibliotecas usan etiquetas RFID, que pueden fallar en situaciones de mucha gente, lo que dificulta mantener registros precisos. Saber la ubicación de cada libro en tiempo real puede llevar a mejores servicios, pero el proceso tradicional de inventario manual sigue siendo común y pesado.
Además, las colecciones personales de libros de los individuos dan una idea de sus intereses. El fenómeno de los "shelfies", o fotos de las estanterías de libros de la gente, se volvió popular en tiempos recientes. Este contexto enfatiza la idea de emparejar imágenes con una lista abierta de títulos de libros posibles, a diferencia de las tareas de inventario convencionales.
Este trabajo se enfoca en la automatización del inventario de libros a partir de imágenes de estanterías. El objetivo es identificar libros dentro de las imágenes y luego emparejarlos con los títulos apropiados de un catálogo, tratándolo como un problema de emparejamiento de muchos a muchos.
Las técnicas existentes para analizar estanterías de libros suelen utilizar detección de bordes básica o métodos de aprendizaje profundo para identificar los lomos de libros. Después de detectar los lomos, se emplea la tecnología OCR para leer el texto y encontrar el título más cercano que coincida. Sin embargo, estos métodos a menudo luchan en situaciones reales debido a oclusiones o texto parcialmente visible.
Un enfoque de emparejamiento de muchos a muchos permite encontrar la mejor coincidencia general entre dos grupos de datos y es más complejo que simplemente emparejar cada libro individualmente. Se vuelve particularmente desafiante a medida que las colecciones crecen.
Esta investigación trata el proceso de inventario como un problema de emparejamiento de muchos a muchos. Usando tecnologías avanzadas de segmentación y OCR, se detectan los lomos de los libros y se extrae información relevante. Se prueban diferentes enfoques basados en escenarios específicos, incluido el método húngaro y un modelo basado en BERT específicamente entrenado para entradas de texto desafiantes.
Se construyó un nuevo conjunto de datos en una biblioteca pública, que consiste en numerosas imágenes que capturan varias secciones y títulos. Se definieron dos escenarios: el primer escenario involucra una lista conocida de títulos que refleja la colección de la biblioteca, mientras que el segundo escenario tiene como objetivo emparejar libros con una lista mucho más grande de títulos populares.
Las contribuciones clave incluyen la creación de un gran conjunto de datos de una biblioteca pública en Barcelona, que incluye títulos multilingües. El conjunto de datos abarca una amplia gama de libros, lo que permite un proceso de emparejamiento robusto. Cada imagen tiene anotaciones que indican qué libros son visibles, junto con dos listas de libros objetivo para fines de emparejamiento.
El proceso de compilar este conjunto de datos requirió un inventario detallado. Aunque se utilizó un método automático para generar anotaciones iniciales, era esencial una revisión manual para asegurar la precisión. El resultado es una colección de imágenes con datos verificados sobre qué libros están presentes.
Para evaluar el rendimiento, se establecieron métodos base. Un método básico involucró emparejamiento de cadenas difusas, que verifica el título más cercano en la lista basado en texto similar. Sin embargo, este método tiene limitaciones en precisión, especialmente al emparejar texto complejo de lomos con entradas de la base de datos.
Para mejorar los métodos de emparejamiento básicos, se propuso un enfoque de dos etapas. La primera etapa emplea CLIP para crear rápidamente una matriz de similitud para libros y posibles coincidencias. En la segunda etapa, se utiliza el método húngaro o BERT para refinar estas coincidencias, permitiendo una mejor precisión general y teniendo en cuenta posibles superposiciones.
En resumen, esta investigación introduce un método de dos etapas para el emparejamiento de muchos a muchos entre imágenes de libros y listas de títulos. Las contribuciones incluyen un nuevo conjunto de datos y una exploración de técnicas de emparejamiento que mejoran los enfoques tradicionales. Si bien todavía hay desafíos, especialmente con listas objetivo más grandes, los hallazgos apuntan a mejoras en la automatización de tareas de inventario de libros.
El objetivo es desarrollar más métodos para lograr un emparejamiento más rápido y preciso en escenarios de la vida real. El trabajo resalta la importancia de un seguimiento eficiente de libros en bibliotecas y los beneficios potenciales de sistemas automatizados para mejorar los servicios bibliotecarios.
Título: Image-text matching for large-scale book collections
Resumen: We address the problem of detecting and mapping all books in a collection of images to entries in a given book catalogue. Instead of performing independent retrieval for each book detected, we treat the image-text mapping problem as a many-to-many matching process, looking for the best overall match between the two sets. We combine a state-of-the-art segmentation method (SAM) to detect book spines and extract book information using a commercial OCR. We then propose a two-stage approach for text-image matching, where CLIP embeddings are used first for fast matching, followed by a second slower stage to refine the matching, employing either the Hungarian Algorithm or a BERT-based model trained to cope with noisy OCR input and partial text matches. To evaluate our approach, we publish a new dataset of annotated bookshelf images that covers the whole book collection of a public library in Spain. In addition, we provide two target lists of book metadata, a closed-set of 15k book titles that corresponds to the known library inventory, and an open-set of 2.3M book titles to simulate an open-world scenario. We report results on two settings, on one hand on a matching-only task, where the book segments and OCR is given and the objective is to perform many-to-many matching against the target lists, and a combined detection and matching task, where books must be first detected and recognised before they are matched to the target list entries. We show that both the Hungarian Matching and the proposed BERT-based model outperform a fuzzy string matching baseline, and we highlight inherent limitations of the matching algorithms as the target increases in size, and when either of the two sets (detected books or target book list) is incomplete. The dataset and code are available at https://github.com/llabres/library-dataset
Autores: Artemis Llabrés, Arka Ujjal Dey, Dimosthenis Karatzas, Ernest Valveny
Última actualización: 2024-07-29 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2407.19812
Fuente PDF: https://arxiv.org/pdf/2407.19812
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.