Aperfeiçoando a Catalogação em Instituições Culturais
Um conjunto de dados tem como objetivo automatizar a marcação de metadados para organizações de patrimônio cultural.
― 8 min ler
Índice
- O que é o Conjunto de Dados EUFCC-340K?
- A Importância da Anotação Automática de Metadados
- Desafios na Anotação Automática de Metadados
- Como o Conjunto de Dados EUFCC-340K Aborda Esses Desafios
- Construindo Modelos pra Etiquetagem de Imagens
- Modelos Apenas de Visão
- Modelos Multi-Modais
- Avaliando o Desempenho dos Modelos
- Resultados dos Modelos
- Uma Ferramenta de Assistência para Catalogadores
- Resumo e Direções Futuras
- Fonte original
- Ligações de referência
GLAM é a sigla para Galerias, Bibliotecas, Arquivos e Museus. Esses lugares coletam e mantêm itens que são importantes para a cultura e história. Eles trabalham pra manter esses itens seguros e disponíveis pra pesquisadores e pro público. Mas, o processo de catalogação desses itens tem sido lento. Muitas vezes, exige que especialistas adicionem manualmente Metadados, que é a informação que descreve o conteúdo do item. Isso pode ser difícil de escalar e demora muito tempo.
Por causa desses desafios, rola a necessidade de ferramentas e sistemas melhores que possam ajudar a automatizar algumas dessas tarefas. O objetivo dessas ferramentas é facilitar a vida dos especialistas acelerando o processo de catalogação, enquanto ainda mantém um alto nível de precisão.
O que é o Conjunto de Dados EUFCC-340K?
Pra ajudar com essas necessidades, criamos um conjunto de dados chamado EUFCC-340K. Esse conjunto tem mais de 340.000 imagens coletadas de um recurso online central de materiais culturais chamado Europeana. As imagens no conjunto cobrem muitos tipos diferentes de itens, incluindo obras de arte, esculturas e têxteis. Cada imagem no conjunto é rotulada com várias tags que descrevem o conteúdo e o contexto da imagem.
O conjunto de dados é organizado em diferentes categorias, o que facilita a gestão e navegação. As categorias incluem Materiais, Tipos de Objetos, Disciplinas e Assuntos. Essas categorias seguem um sistema estruturado baseado no “Art & Architecture Thesaurus” (AAT), que é uma estrutura que descreve termos usados no campo da arte e cultura.
A Importância da Anotação Automática de Metadados
A anotação automática de metadados é o processo de usar tecnologia pra gerar os rótulos e tags das imagens sem intervenção humana. Isso pode ajudar muito as instituições GLAM a catalogar suas coleções mais rápido e com mais precisão. Muitos itens em uma coleção podem pertencer a várias categorias ou rótulos. Isso significa que uma única imagem pode ter muitas tags associadas a ela.
No passado, os especialistas eram os principais responsáveis por atribuir esses rótulos. Porém, o processo manual pode ser demorado, especialmente quando há muitos itens pra catalogar. Usando um conjunto de dados como o EUFCC-340K e modelos avançados de aprendizado de máquina, podemos automatizar grande parte desse processo. Isso permite que os especialistas se concentrem em tarefas mais complexas enquanto a tecnologia cuida da maior parte do trabalho.
Desafios na Anotação Automática de Metadados
Enquanto usar tecnologia pra anotação automática parece ótimo, vem com seu próprio conjunto de desafios. Um problema é que muitas vezes há várias tags a considerar pra cada item. O AAT tem milhares de termos, mas muitos desses termos podem não ter imagens suficientes pra treinar um modelo de maneira adequada. Isso pode ser problemático porque algumas categorias podem ter exemplos demais poucos, dificultando para os modelos aprenderem a rotular novas imagens com precisão.
Outro problema é que diferentes especialistas podem atribuir tags diferentes à mesma imagem. Por exemplo, um especialista pode escolher destacar um conjunto de características, enquanto outro pode achar outros aspectos da mesma imagem mais relevantes. Isso leva a anotações incompletas, onde os rótulos podem não cobrir tudo que é importante sobre um item.
Como o Conjunto de Dados EUFCC-340K Aborda Esses Desafios
Pra combater esses desafios, o conjunto de dados EUFCC-340K foi projetado especificamente para etiquetar imagens no contexto GLAM. Coletando imagens de várias instituições europeias, garantimos que o conjunto é diversificado e reflete os diferentes tipos de artefatos culturais que existem.
A estrutura hierárquica usada no conjunto é benéfica para modelos de aprendizado de máquina. Quando não há muitas imagens pra uma categoria específica, ter uma categoria de alto nível permite que os modelos ainda façam previsões baseadas em tags relacionadas. Usando essa hierarquia, podemos ajudar os modelos a entenderem melhor as relações entre as tags, tornando as previsões mais precisas, mesmo com dados limitados.
Construindo Modelos pra Etiquetagem de Imagens
Criamos diferentes modelos básicos pra testar quão bem eles poderiam rotular imagens usando o conjunto de dados EUFCC-340K. Os modelos variam de simples, que só analisam as imagens, a mais complexos, que também consideram descrições em texto.
Modelos Apenas de Visão
O primeiro tipo é chamado de modelos apenas de visão. Esses modelos se baseiam em uma estrutura de aprendizado profundo conhecida como Rede Neural Convolucional (CNN). As CNNs são ótimas pra analisar imagens e são usadas pra identificar diferentes características nas fotos. Estendemos esses modelos adicionando várias cabeças que se concentram em diferentes categorias de etiquetas, como Materiais, Tipos de Objetos, Disciplinas e Assuntos.
Modelos Multi-Modais
O segundo tipo de modelo integra tanto imagens quanto texto, conhecidos como modelos multi-modais. Um desses modelos se chama CLIP, que significa Pré-treinamento Contrastivo de Linguagem-Imagens. Esse modelo pode entender como imagens e texto se relacionam. Por exemplo, se uma imagem mostra uma escultura feita de bronze, o modelo pode identificá-la aprendendo a partir da tag "bronze".
Prompts de texto são usados pra conectar as tags às imagens, e diferentes estratégias são empregadas pra criar esses prompts. Treinando esse modelo pra vincular texto e imagens, exploramos várias maneiras de melhorar sua capacidade de fazer previsões precisas.
Avaliando o Desempenho dos Modelos
Pra ver quão bem esses modelos funcionam, precisávamos avaliar seu desempenho com base na capacidade de prever tags com precisão. Usamos várias métricas pra medir a eficácia de cada modelo. Essas métricas focam em quão bem os modelos conseguem identificar as tags certas e classificá-las.
Por exemplo, a R-Precisão avalia a capacidade do modelo de identificar tags relevantes entre as principais previsões. Isso nos ajuda a entender quão precisos os modelos são ao olhar para os rótulos mais relevantes que eles fornecem pra uma imagem.
Resultados dos Modelos
Quando testamos os modelos nas imagens do conjunto de dados EUFCC-340K, vimos alguns resultados interessantes. Os modelos que usavam apenas imagens se saíram bem nos dados de treinamento que eram semelhantes ao que tinham visto antes. Porém, eles tiveram mais dificuldades quando enfrentaram imagens diferentes dos exemplos de treinamento.
Por outro lado, os modelos multi-modais, especialmente os modelos CLIP, mostraram melhor generalização quando testados em novos tipos de imagens. Isso significa que eles conseguiram ir além dos dados de treinamento e ainda fazer previsões precisas. Além disso, os modelos que combinaram saídas de ambos os tipos se saíram até melhor, sugerindo que usar múltiplas abordagens pode melhorar o desempenho geral.
Uma Ferramenta de Assistência para Catalogadores
Pra aproveitar ao máximo os modelos, desenvolvemos uma ferramenta de assistência de anotação, projetada especificamente pros catalogadores em instituições GLAM. Essa ferramenta oferece uma interface fácil de usar pra ajudar especialistas a etiquetar imagens eficientemente.
A ferramenta apresenta a estrutura hierárquica de tags e mostra previsões baseadas nas imagens carregadas. Ela destaca as previsões mais relevantes, facilitando a navegação dos catalogadores por várias categorias. Ao simplificar esse processo, a ferramenta permite que os especialistas se concentrem em refinar os detalhes em vez de começar do zero.
Resumo e Direções Futuras
A pesquisa realizada através do conjunto de dados EUFCC-340K destaca o potencial de usar tecnologia pra melhorar a eficiência da catalogação nas instituições GLAM. O conjunto serve como um recurso valioso pra anotação automática, abordando os problemas comuns de dados esparsos e tags incompletas.
Enquanto nossos modelos fizeram avanços significativos, ainda há melhorias a serem feitas, especialmente no que diz respeito à generalização. Pesquisas futuras podem investigar outras formas de aprimorar os modelos e refinar a ferramenta de assistência pra ajudar ainda mais os catalogadores em seu trabalho.
Em conclusão, a integração de ferramentas avançadas no processo de catalogação oferece soluções promissoras pros desafios de longa data enfrentados pelas instituições GLAM. O conjunto de dados EUFCC-340K é um passo vital pra usar a tecnologia em apoio aos profissionais do patrimônio cultural e garantir que coleções valiosas possam ser facilmente acessadas por todos.
Título: EUFCC-340K: A Faceted Hierarchical Dataset for Metadata Annotation in GLAM Collections
Resumo: In this paper, we address the challenges of automatic metadata annotation in the domain of Galleries, Libraries, Archives, and Museums (GLAMs) by introducing a novel dataset, EUFCC340K, collected from the Europeana portal. Comprising over 340,000 images, the EUFCC340K dataset is organized across multiple facets: Materials, Object Types, Disciplines, and Subjects, following a hierarchical structure based on the Art & Architecture Thesaurus (AAT). We developed several baseline models, incorporating multiple heads on a ConvNeXT backbone for multi-label image tagging on these facets, and fine-tuning a CLIP model with our image text pairs. Our experiments to evaluate model robustness and generalization capabilities in two different test scenarios demonstrate the utility of the dataset in improving multi-label classification tools that have the potential to alleviate cataloging tasks in the cultural heritage sector.
Autores: Francesc Net, Marc Folia, Pep Casals, Andrew D. Bagdanov, Lluis Gomez
Última atualização: 2024-06-04 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2406.02380
Fonte PDF: https://arxiv.org/pdf/2406.02380
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.