Simple Science

Ciência de ponta explicada de forma simples

# Informática# Visão computacional e reconhecimento de padrões

Melhorando a Anotação de Imagens com o Sistema FullAnno

O FullAnno melhora as anotações de imagem pra um treinamento de modelo multimodal melhor.

Jing Hao, Yuxiang Zhao, Song Chen, Yanpeng Sun, Qiang Chen, Gang Zhang, Kun Yao, Errui Ding, Jingdong Wang

― 6 min ler


FullAnno: Anotação deFullAnno: Anotação deImagem de Outro Nívelmodelos.de imagem para treinamento avançado deFullAnno melhora a qualidade dos dados
Índice

Modelos de linguagem grandes que trabalham com imagens e texto, chamados de modelos de linguagem multimodal (MLLMs), estão ficando melhores em entender e criar conteúdo em diferentes tipos de dados. Esses modelos conseguem realizar várias tarefas que envolvem tanto imagens quanto texto. Porém, eles precisam de dados de boa qualidade para treinar de forma eficaz, especialmente durante uma fase chamada ajuste fino supervisionado (SFT).

O Desafio

Atualmente, muitos métodos para criar dados de treinamento de alta qualidade dependem de um modelo popular conhecido como GPT-4 Vision. Infelizmente, usar esse modelo nem sempre é prático para todo mundo porque tem custos e os comandos usados para guiá-lo costumam ser muito simples. Isso limita a escalabilidade, ou seja, é difícil produzir grandes quantidades de dados de treinamento úteis.

Para responder a esse problema, um novo sistema chamado FullAnno foi desenvolvido. Esse motor de dados gera anotações de imagens de alta qualidade e detalhadas. Anotações são descrições úteis que dizem ao modelo o que tem em uma imagem e onde diferentes elementos estão localizados. O FullAnno cria anotações que incluem quais objetos estão presentes, onde eles estão na imagem, e qualquer texto ou descrição relacionada a esses objetos.

Como o FullAnno Funciona

O FullAnno tem um método único de criar anotações conhecido como processo de Anotação em cascata. Isso significa que usa vários modelos especialistas que trabalham juntos, seguindo comandos detalhados para guiar a geração de descrições ricas das imagens.

Para testar suas capacidades, o FullAnno foi usado para re-anotar dois conjuntos de dados bem conhecidos chamados COCO e Visual Genome. Por meio desse processo, o número de objetos rotulados foi triplicado. Além disso, o comprimento das legendas que descrevem as imagens aumentou significativamente. Isso significa que o texto gerado agora fornece muito mais informações sobre a imagem.

Importância de Dados de Qualidade

No mundo dos grandes modelos multimodais, alinhar diferentes tipos de dados, como texto e imagens, é essencial. Porém, frequentemente falta emparelhamento de qualidade entre imagem e texto. Muitos especialistas concordam que ter dados de melhor qualidade é mais importante do que apenas ter muitos dados.

Pesquisas mostraram que substituir pares básicos de texto-imagem por legendas detalhadas pode levar a um desempenho melhor desses modelos. No entanto, muitos conjuntos de dados existentes tendem a fornecer descrições breves que não capturam completamente os detalhes de uma imagem. Isso é um problema porque essas legendas simplificadas podem levar a mal-entendidos sobre as imagens.

O Pipeline do FullAnno

O sistema FullAnno funciona em três etapas principais:

  1. Aumentando e Filtrando Anotações de Imagens: A primeira etapa envolve melhorar as anotações existentes usando modelos de detecção avançados. Esses modelos podem reconhecer texto dentro das imagens e localizar objetos. Embora essas anotações aprimoradas forneçam muitas informações valiosas, elas também podem conter erros. Para corrigir isso, um cuidadoso processo de filtragem é aplicado para remover qualquer detalhe incorreto ou desnecessário.

  2. Extraindo Informações de Texto: A segunda etapa usa Reconhecimento Óptico de Caracteres (OCR) para coletar qualquer texto dentro das imagens. Esse texto é importante para entender o que está acontecendo na imagem. Para garantir precisão, os resultados do OCR são verificados usando o modelo LLaVA, que checa e corrige o texto detectado.

  3. Integrando Anotações: A etapa final traz tudo junto usando um modelo de linguagem chamado GPT-3.5. Esse modelo ajuda a criar legendas detalhadas integrando todas as informações extraídas. Em vez de usar comandos simples, o modelo recebe detalhes abrangentes sobre os objetos, suas posições e qualquer texto ou descrição.

Usando essa abordagem estruturada, o FullAnno gera uma variedade de anotações visuais para cada imagem, incluindo legendas detalhadas, informações de texto, anotações de objetos e descrições de regiões.

Tipos de Anotações Geradas

Através do sistema FullAnno, cada imagem recebe quatro tipos de anotações:

  • Legenda Densa: Essa é uma descrição detalhada do que está acontecendo na imagem, incluindo atributos como cor e relacionamentos entre objetos. Isso ajuda o modelo a gerar legendas mais informativas.

  • Informação de Texto: Texto encontrado na imagem, como sinais ou etiquetas, é incorporado nas anotações. Isso adiciona mais contexto às legendas geradas.

  • Anotação de Objeto: Isso inclui informações detalhadas sobre as localizações de vários objetos na imagem. Isso ajuda a garantir que as descrições geradas sejam precisas e correspondam à localização dos objetos.

  • Descrição de Região: Isso fornece insights sobre áreas específicas da imagem, ajudando o modelo a entender como os objetos se relacionam espacialmente.

Melhoria do Conjunto de Dados

Os conjuntos de dados COCO e Visual Genome foram atualizados para melhorar a qualidade das anotações. Isso envolveu aumentar o número de objetos rotulados e adicionar detalhes como descrições de região e informações de OCR.

As anotações originais forneciam 1,47 milhão de caixas delimitadoras de objetos, mas após a re-anotação, esse número aumentou para mais de 4 milhões. Além disso, o comprimento médio das legendas foi expandido significativamente, fornecendo um contexto muito mais rico.

Eficácia dos Dados Aprimorados

Usando as anotações aprimoradas, testes foram realizados para ver como elas melhoraram a compreensão visual do modelo. Os mesmos métodos de treinamento foram seguidos e as mudanças mostraram claramente uma melhoria substancial no desempenho do modelo. As legendas detalhadas ajudaram o modelo a aprender a perceber melhor as imagens sem precisar aumentar a quantidade de dados.

Conclusão

O sistema FullAnno mostra grande potencial em melhorar a qualidade dos dados de treinamento para modelos de linguagem grande multimodal. Ao fornecer informações ricas e detalhadas de imagens, pode melhorar significativamente a maneira como esses modelos entendem e geram conteúdo. Esse trabalho pode ajudar em várias aplicações, desde tagueamento automático de imagens até melhores sistemas de reconhecimento de imagens, e, potencialmente, levar a avanços no campo da inteligência artificial.

No geral, o FullAnno não só aborda os desafios enfrentados na geração de dados, mas também visa expandir os limites do que esses modelos podem alcançar em entender melhor informações visuais e textuais complexas.

Fonte original

Título: FullAnno: A Data Engine for Enhancing Image Comprehension of MLLMs

Resumo: Multimodal Large Language Models (MLLMs) have shown promise in a broad range of vision-language tasks with their strong reasoning and generalization capabilities. However, they heavily depend on high-quality data in the Supervised Fine-Tuning (SFT) phase. The existing approaches aim to curate high-quality data via GPT-4V, but they are not scalable due to the commercial nature of GPT-4V and the simplicity of the prompts used to instruct the model. To this end, we devised the FullAnno system, which is a data engine that can generate large-scale, high-quality, and fine-grained image annotations consisting of the category and position of objects, region descriptions, text information, as well as image dense captions. This engine is characterized by its cascade annotation process, which involves multiple expert models and employs rich prompts to instruct LLMs in generating dense image captions. We re-annotated the COCO and Visual Genome datasets using our FullAnno system, tripling the number of object annotations and increasing the length of the original image captions by a factor of 15. Experiments show that the regenerated annotation can significantly enhance the capabilities of LLaVA-v1.5 on several benchmarks. The re-annotated data are available at: https://arcana-project-page.github.io

Autores: Jing Hao, Yuxiang Zhao, Song Chen, Yanpeng Sun, Qiang Chen, Gang Zhang, Kun Yao, Errui Ding, Jingdong Wang

Última atualização: 2024-09-20 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2409.13540

Fonte PDF: https://arxiv.org/pdf/2409.13540

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes