Simple Science

Ciência de ponta explicada de forma simples

# Informática# Visão computacional e reconhecimento de padrões# Recuperação de informação

Automatizando o Controle de Estoque de Livros com Reconhecimento de Imagens

Um novo método melhora a correspondência de livros para catálogos de bibliotecas usando técnicas avançadas.

― 7 min ler


Simplificando oSimplificando oEmparelhamento de Livrosna Bibliotecareconhecimento de imagem.acompanham os livros usandoMelhorando como as bibliotecas
Índice

Detectar e combinar livros em imagens com um catálogo é uma tarefa importante para bibliotecas. Esse processo ajuda a acompanhar os livros disponíveis e melhorar os serviços para quem usa a biblioteca. O desafio é encontrar a melhor forma de conectar várias imagens de livros com seus títulos correspondentes no catálogo.

Em vez de tratar cada detecção de livro como uma tarefa separada, um método mais eficaz é ver o problema como um em que vários livros podem combinar com vários títulos. Essa abordagem busca os melhores matches gerais entre os dois conjuntos de dados.

Para isso, são usadas técnicas avançadas de processamento de imagem. Um método envolve segmentar as imagens para encontrar as lombadas dos livros e usar reconhecimento óptico de caracteres (OCR) para ler o texto nessas lombadas. Depois desse passo inicial, uma abordagem em duas partes é aplicada para combinar o texto detectado com os títulos dos livros.

Na primeira parte, uma tecnologia moderna chamada CLIP é usada para fazer correspondências rápidas entre textos e imagens. Na segunda parte, ou o Algoritmo Húngaro ou um modelo baseado em BERT refinam essa correspondência, especialmente em casos difíceis de texto incorreto ou correspondências incompletas.

Para testar a eficácia desse método, foi criado um novo conjunto de imagens de uma biblioteca pública na Espanha. Esse conjunto inclui imagens de prateleiras com uma variedade de títulos. Duas listas de informações sobre os livros foram fornecidas: uma lista com cerca de 15.000 títulos conhecidos da biblioteca e outra maior com mais de dois milhões de títulos para simular um cenário de correspondência mais amplo.

Os pesquisadores realizaram testes em dois cenários. O primeiro cenário focou apenas na correspondência, usando imagens onde os livros já estavam detectados, e o objetivo era encontrar os melhores matches das listas-alvo. O segundo cenário incorporou tanto a detecção quanto a correspondência, onde os livros precisavam ser identificados antes de serem combinados ao catálogo.

Os resultados mostraram que tanto o Algoritmo Húngaro quanto o método baseado em BERT se saíram melhor do que um método mais simples de correspondência de strings. No entanto, à medida que o tamanho das listas-alvo aumentava ou quando a lista detectada estava incompleta, as limitações desses algoritmos ficaram evidentes.

A gestão das bibliotecas depende muito de manter o controle dos livros. Relatórios indicam que bibliotecas no mundo todo gerenciam milhões de empréstimos de livros a cada ano. Rastrear esses ativos é crucial, mas muitas vezes envolve checagens de inventário que tomam tempo. Muitas bibliotecas usam etiquetas RFID, que podem falhar em situações lotadas, dificultando manter registros precisos. Saber a localização de cada livro em tempo real pode levar a melhores serviços, mas o processo manual de inventário ainda é comum e pesado.

Além disso, as coleções pessoais de livros de indivíduos dão uma ideia dos interesses deles. O fenômeno dos "shelfies", ou fotos das prateleiras das pessoas, se tornou popular recentemente. Esse contexto enfatiza a ideia de combinar imagens com uma lista aberta de possíveis títulos de livros, ao contrário das tarefas de inventário convencionais.

Esse trabalho visa automatizar o inventário de livros a partir de imagens de prateleiras. O objetivo é identificar os livros dentro das imagens e, em seguida, combiná-los com os títulos apropriados de um catálogo, tratando como um problema de correspondência de muitos para muitos.

As técnicas existentes para analisar prateleiras de livros geralmente usam detecção de bordas básica ou métodos de aprendizado profundo para identificar as lombadas dos livros. Após detectar as lombadas, a tecnologia OCR é empregada para ler o texto e encontrar o título correspondente mais próximo. No entanto, esses métodos costumam enfrentar dificuldades em situações da vida real devido a obstruções ou texto parcialmente visível.

Uma abordagem de correspondência de muitos para muitos permite encontrar o melhor match geral entre dois grupos de dados e é mais complexa do que simplesmente combinar cada livro individualmente. Isso se torna particularmente desafiador à medida que as coleções crescem.

Essa pesquisa trata o processo de inventário como um problema de correspondência de muitos para muitos. Usando tecnologias avançadas de segmentação e OCR, as lombadas dos livros são detectadas e informações relevantes são extraídas. Diferentes abordagens são testadas com base em cenários específicos, incluindo o método húngaro e um modelo baseado em BERT especificamente treinado para entradas de texto desafiadoras.

Um novo conjunto de dados foi construído em uma biblioteca pública, consistindo em várias imagens capturando diferentes seções e títulos. Dois cenários foram definidos: o primeiro envolve uma lista conhecida de títulos que reflete a coleção da biblioteca, enquanto o segundo busca combinar livros a uma lista muito maior de títulos populares.

As principais contribuições incluem a criação de um grande conjunto de dados de uma biblioteca pública em Barcelona, que inclui títulos multilíngues. O conjunto abrange uma ampla gama de livros, possibilitando um robusto processo de correspondência. Cada imagem tem anotações indicando quais livros estão visíveis, junto com duas listas de livros-alvo para fins de correspondência.

O processo de compilação desse conjunto de dados exigiu um inventário detalhado. Embora um método automático tenha sido usado para gerar anotações iniciais, uma revisão manual foi essencial para garantir a precisão. O resultado é uma coleção de imagens com dados de verdade sobre quais livros estão presentes.

Para avaliar o desempenho, métodos básicos foram estabelecidos. Um método simples envolveu correspondência de strings difusas, que verifica o título mais próximo na lista com base em texto semelhante. No entanto, esse método tem limitações de precisão, especialmente ao combinar texto complexo de lombadas com entradas de banco de dados.

Para melhorar os métodos básicos de correspondência, uma abordagem em duas etapas foi proposta. A primeira etapa usa CLIP para criar rapidamente uma matriz de similaridade para livros e potenciais correspondências. Na segunda etapa, ou o método húngaro ou o BERT são usados para refinar essas correspondências, permitindo uma melhor precisão geral e levando em conta possíveis sobreposições.

Em resumo, essa pesquisa apresenta um método em duas etapas para correspondência de muitos para muitos entre imagens de livros e listas de títulos. As contribuições incluem um novo conjunto de dados e uma exploração de técnicas de correspondência que aprimoram abordagens tradicionais. Embora desafios permaneçam, especialmente com listas-alvo maiores, os achados apontam para melhorias na automação das tarefas de inventário de livros.

O objetivo é desenvolver ainda mais métodos para alcançar uma correspondência mais rápida e precisa em cenários da vida real. O trabalho destaca a importância do rastreamento eficiente de livros em bibliotecas e os benefícios potenciais de sistemas automatizados para melhorar os serviços das bibliotecas.

Fonte original

Título: Image-text matching for large-scale book collections

Resumo: We address the problem of detecting and mapping all books in a collection of images to entries in a given book catalogue. Instead of performing independent retrieval for each book detected, we treat the image-text mapping problem as a many-to-many matching process, looking for the best overall match between the two sets. We combine a state-of-the-art segmentation method (SAM) to detect book spines and extract book information using a commercial OCR. We then propose a two-stage approach for text-image matching, where CLIP embeddings are used first for fast matching, followed by a second slower stage to refine the matching, employing either the Hungarian Algorithm or a BERT-based model trained to cope with noisy OCR input and partial text matches. To evaluate our approach, we publish a new dataset of annotated bookshelf images that covers the whole book collection of a public library in Spain. In addition, we provide two target lists of book metadata, a closed-set of 15k book titles that corresponds to the known library inventory, and an open-set of 2.3M book titles to simulate an open-world scenario. We report results on two settings, on one hand on a matching-only task, where the book segments and OCR is given and the objective is to perform many-to-many matching against the target lists, and a combined detection and matching task, where books must be first detected and recognised before they are matched to the target list entries. We show that both the Hungarian Matching and the proposed BERT-based model outperform a fuzzy string matching baseline, and we highlight inherent limitations of the matching algorithms as the target increases in size, and when either of the two sets (detected books or target book list) is incomplete. The dataset and code are available at https://github.com/llabres/library-dataset

Autores: Artemis Llabrés, Arka Ujjal Dey, Dimosthenis Karatzas, Ernest Valveny

Última atualização: 2024-07-29 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2407.19812

Fonte PDF: https://arxiv.org/pdf/2407.19812

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes