Simple Science

Ciência de ponta explicada de forma simples

# Informática# Visão computacional e reconhecimento de padrões# Aprendizagem de máquinas

Avanços em Aprendizado Auto-Supervisionado para Dados Visuais

Um novo método melhora o aprendizado de imagem usando raciocínio espacial.

― 11 min ler


Raciocínio Espacial emRaciocínio Espacial emAprendizadoAuto-Supervisionadocom novas técnicas de treino.Aumentando a representação de imagem
Índice

À medida que o aprendizado profundo vai saindo da pesquisa e entrando em uso prático, os métodos de pré-treinamento auto-supervisionados estão se tornando mais importantes. Essas técnicas, especialmente em imagens, ajudam a aproveitar bem as grandes quantidades de dados de imagens não rotuladas disponíveis, o que, por sua vez, ajuda a melhorar o desempenho em outras tarefas. Este artigo apresenta um novo método auxiliar de pré-treinamento que foca no Raciocínio Espacial.

O método sugerido usa uma versão flexível de aprendizado contrastivo, adicionando o raciocínio espacial como uma tarefa extra. O raciocínio espacial envolve fazer a rede prever as distâncias entre partes amostrais de uma imagem que não se sobrepõem. Essa abordagem incentiva a rede a aprender representações mais detalhadas dos objetos e como suas partes se relacionam entre si. Os experimentos mostram um aumento significativo no desempenho para tarefas em comparação com métodos similares, apontando para mais possibilidades de pesquisa em raciocínio espacial.

À medida que os modelos de aprendizado profundo continuam crescendo, com alguns contendo milhões de parâmetros, a quantidade crescente de dados não rotulados pede maneiras eficazes de reduzir a anotação manual. O pré-treinamento auto-supervisionado ajuda os modelos a aprender características importantes antes de ajustá-los em conjuntos de dados rotulados menores.

Existem dois tipos principais de métodos de aprendizado auto-supervisionado para imagens: generativos e Discriminativos. Os métodos generativos focam em reconstruir partes faltantes de uma imagem, o que normalmente leva a um desempenho melhor, mas exige redes maiores e mais dados. Por outro lado, os métodos discriminativos treinam o modelo para diferenciar entre várias características nos dados sem precisar de rótulos explícitos. Devido ao seu tamanho menor e eficiência no uso de dados, os métodos discriminativos são o foco aqui.

O aprendizado contrastivo é uma abordagem comum no aprendizado auto-supervisionado de imagens. Ele busca criar representações significativas diferenciando entre versões aumentadas da mesma imagem e imagens diferentes. Modelos de aprendizado profundo devem entender os significados das imagens para criar essas representações. Uma cabeça de classificação é usada para transformar o objetivo contrastivo em uma meta de classificação, permitindo que o método funcione sem tamanhos de lote grandes e mantenha um forte sinal de supervisão.

O processo original de aumento de imagens foi ampliado selecionando e redimensionando partes de imagens. Depois que as representações de ambas as partes e imagens são previstas pela mesma rede codificadora, elas são combinadas em pares por meio de métodos específicos. A agregação de partes não usa amostras negativas e padrão um rótulo positivo para o objetivo contrastivo. A agregação de imagens usa rótulos pseudo para distância, com base em se o par é positivo ou negativo.

Ao fazer bom uso dessa formulação flexível, a cabeça de classificação prevê a distância relativa entre duas partes escolhidas aleatoriamente da mesma imagem. Essa tarefa permite que a rede reconheça melhor o objeto principal e as relações espaciais entre suas partes, levando a representações significativas. Ao mesclar representações baseadas em partes e de imagem inteira, uma representação expandida é criada que supera outras em avaliações lineares, mesmo quando há limites nas imagens de treinamento e Aumentações.

Embora cálculos adicionais de partes durante a fase de inferência exijam mais recursos computacionais, o número de representações de partes pode ser ajustado para tarefas mais difíceis. Uma abordagem alternativa, chamada uso-aditivo-de-partes, evita computação extra durante a inferência. O código para esse trabalho será compartilhado no GitHub após a publicação.

Resumindo, as contribuições são as seguintes:

  • Um novo método chamado Raciocínio Espacial, facilmente integrado em frameworks existentes.
  • Representações visuais melhoradas em vários cenários de avaliação, exigindo menos computação durante o treinamento.
  • Desempenho que se adapta a diferentes necessidades computacionais durante a inferência.
  • Uma alternativa chamada uso-aditivo-de-partes que reduz a necessidade de computação extra durante a inferência, com apenas leve perda de desempenho.
  • Sugestões sobre os melhores tamanhos de partes e o número de partes a serem usadas durante o treinamento.

Trabalhos Relacionados

Avanços significativos foram feitos na criação de melhores representações por meio de pré-treinamento auto-supervisionado. Esses métodos podem ser classificados em abordagens generativas e discriminativas. Com as modernas arquiteturas de Vision Transformer (ViT), bons resultados foram alcançados usando métodos generativos. Por exemplo, modelos ViT podem reconstruir várias transformações das mesmas imagens. No entanto, os métodos generativos geralmente precisam de alta potência computacional, especialmente durante o treinamento.

Por outro lado, métodos discriminativos modernos, como MoCo v3 combinados com arquiteturas ViT, também mostram grande desempenho, mas exigem recursos computacionais consideráveis. Por exemplo, um modelo ViT básico tem 86 milhões de parâmetros, enquanto outros chegam a 300 milhões e usam tamanhos de lote grandes. O processo de treinamento para modelos ViT em tarefas generativas pode ser instável. Portanto, é muito mais eficaz treinar modelos de transformadores menores que podem usar dados de forma eficiente. Redes Neurais Convolucionais (CNNs), como as arquiteturas ResNet, oferecem desempenho competitivo, mesmo trabalhando com conjuntos de dados menores. As CNNs são mais adequadas para cenários com dados ou recursos computacionais limitados devido ao seu design, que permite que se concentrem em características e relações locais.

Pesquisas anteriores investigaram o uso de informações espaciais de partes para melhorar representações no aprendizado auto-supervisionado. Algumas abordagens usaram quebra-cabeças e treinaram redes neurais para descobrir a disposição correta das peças. Nosso método se destaca ao usar uma rede que recebe apenas informações limitadas sobre a imagem, permitindo que busque um raciocínio mais profundo sobre a estrutura de objetos parcialmente vistos.

Em tarefas de reconhecimento de objetos, focar apenas em um pequeno detalhe, como um padrão, pode não fornecer uma imagem completa. Usar métodos tradicionais como recorte pode ajudar a resolver isso. O Raciocínio Espacial visa criar sinais de supervisão mais fortes e representações mais significativas que incluam informações necessárias sobre o objeto e as relações espaciais entre as partes do objeto. O objetivo é prever as distâncias entre partes escolhidas aleatoriamente da mesma imagem.

Geração de Partes e Rótulos

Nos procedimentos padrão para raciocínio relacional, uma imagem é aumentada várias vezes, e todas as versões são alimentadas na rede junto com outras imagens no lote. O tamanho total do lote é então multiplicado pelo número de aumentos. Nosso método leva isso adiante criando posições aleatórias para as partes, garantindo que as duas primeiras partes não se sobreponham. Isso reduz soluções triviais. As partes são redimensionadas para caber no tamanho de entrada padrão e salvas com suas localizações alvo. Cada parte passa por transformações como alteração de cores e escala de cinza, enquanto as imagens de tamanho completo mantêm seu esquema de aumento.

Uma vez que as partes e suas localizações são geradas, elas são combinadas com os aumentos padrão da imagem. Uma versão diferente do nosso método preenche partes selecionadas de volta ao tamanho original em uma imagem preta, referida como uso-aditivo-de-partes.

Previsão de Posição de Partes

Durante o treinamento, as partes são alimentadas na codificadora junto com imagens aumentadas. O número de representações depende do número de aumentos, partes geradas para cada imagem e o tamanho do mini-lote. Após a agregação, duas representações são combinadas para entrada na cabeça de classificação. O número de pares gerados depende do tamanho do mini-lote, aumentos e partes. Uma função de agregação padrão cria pares, e para cada par positivo, um negativo é considerado.

O módulo de relação, adaptado de designs anteriores, é expandido para incluir múltiplos neurônios. Um neurônio classifica amostras positivas e negativas, enquanto outros preveem as coordenadas das distâncias. O foco principal é permitir que os gradientes fluam mesmo quando apenas pares de imagens aumentadas de tamanho inteiro são usados.

Requisitos de Cálculo Dinâmico na Avaliação

Durante a inferência, a imagem é dividida em partes do mesmo tamanho usado durante o treinamento. As partes escolhidas são combinadas com a representação da imagem completa. Embora a maioria dos experimentos utilize nove partes, o custo computacional aumenta com o número de partes. Usar apenas duas partes geradas durante o treinamento e menos aumentações ainda leva a um desempenho melhor em comparação com métodos que usam mais aumentações e partes.

O objetivo do raciocínio espacial é garantir que a rede gere representações a partir de partes de uma maneira que ajude a prever as distâncias com precisão. A rede codificadora deve entender qual parte do objeto é representada em cada parte. Essa informação aprimora a representação final combinada, levando a resultados mais significativos.

Tamanho de Partes e Número de Partes

Descobertas anteriores indicam que o tamanho das partes e o número de partes influenciam significativamente o desempenho. Os melhores resultados para tiny-imagenet foram encontrados com partes de 23 a 24 pixels. Partes menores não capturaram informações suficientes sobre o objeto, levando a resultados ruins, enquanto partes maiores facilitaram as tarefas, reduzindo a eficácia do sinal de supervisão.

Esta seção discute como o número de partes extraídas durante o treinamento afeta o desempenho. O número ideal de partes foi três, que equilibra o conteúdo de informação e o nível de desafio.

Uso-Aditivo-De-Partes

Os experimentos mostraram alguns limites com o raciocínio espacial, enfatizando a necessidade de controlar o número de partes durante o treinamento para reduzir o deslocamento de domínio. Para lidar com isso, uma abordagem alternativa chamada uso-aditivo-de-partes foi testada. Esse método preenche as partes de volta ao tamanho da imagem, permitindo o treinamento sem redimensionamento, o que pode ajudar a reduzir os efeitos do deslocamento de domínio. A nova abordagem permite processar uma imagem em uma única passagem para frente, simplificando o processo enquanto mantém informações essenciais.

Os resultados mostraram que com o uso-aditivo-de-partes, houve um aumento no desempenho durante a avaliação. No entanto, à medida que mais partes levaram a sobreposição, tornou-se mais difícil manter a eficácia. No geral, adicionar esse método fornece uma maneira simples de melhorar as representações. Embora tenha limitações em comparação com o método original de raciocínio espacial, reduz as necessidades de computação durante a inferência e é menos sensível às escolhas de hiperparâmetros.

Conclusão

Este trabalho demonstra que uma cabeça de relação pode ser usada para projetar o aprendizado do raciocínio espacial como um objetivo auxiliar de pré-treinamento. O método leva a melhores representações visuais enquanto reduz a carga computacional durante o treinamento. Os resultados mostram que o raciocínio espacial melhora significativamente a qualidade das representações em várias avaliações.

Embora o treinamento seja menos exigente computacionalmente, ainda há custos mais altos durante a inferência, e definir o número de partes requer atenção cuidadosa. O método alternativo de uso-aditivo-de-partes reduz o impacto dos deslocamentos de domínio e elimina a computação extra durante a inferência. Esforços futuros poderiam se concentrar em definir melhores técnicas de amostragem para tamanhos de partes e integrar o raciocínio espacial em mais frameworks padrão.

Informações Adicionais

Realizamos experimentos em dois nós diferentes usando diversos conjuntos de dados. Um nó contém uma única GPU RTX3080 para contagens menores de partes, enquanto o outro tem uma poderosa GPU A100. Os tempos de treinamento, taxas de aprendizado e estratégias de aumento permaneceram consistentes, com os únicos ajustes sendo a remoção de certos aumentos para partes. Cada conjunto de dados apresentou diferentes desafios para avaliar o desempenho e a eficácia do método proposto.

Os conjuntos de dados usados nos experimentos incluem CIFAR-100, CIFAR-10, tiny-ImageNet e STL-10, cada um apresentando características e dificuldades únicas para tarefas de reconhecimento de imagem. Essa variedade permite uma avaliação abrangente das capacidades do método em cenários do mundo real.

Fonte original

Título: From Patches to Objects: Exploiting Spatial Reasoning for Better Visual Representations

Resumo: As the field of deep learning steadily transitions from the realm of academic research to practical application, the significance of self-supervised pretraining methods has become increasingly prominent. These methods, particularly in the image domain, offer a compelling strategy to effectively utilize the abundance of unlabeled image data, thereby enhancing downstream tasks' performance. In this paper, we propose a novel auxiliary pretraining method that is based on spatial reasoning. Our proposed method takes advantage of a more flexible formulation of contrastive learning by introducing spatial reasoning as an auxiliary task for discriminative self-supervised methods. Spatial Reasoning works by having the network predict the relative distances between sampled non-overlapping patches. We argue that this forces the network to learn more detailed and intricate internal representations of the objects and the relationships between their constituting parts. Our experiments demonstrate substantial improvement in downstream performance in linear evaluation compared to similar work and provide directions for further research into spatial reasoning.

Autores: Toni Albert, Bjoern Eskofier, Dario Zanca

Última atualização: 2023-05-21 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2305.12384

Fonte PDF: https://arxiv.org/pdf/2305.12384

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes