Simple Science

Ciência de ponta explicada de forma simples

# Informática# Visão computacional e reconhecimento de padrões

Abordando o Reconhecimento de Cauda Longa em Aprendizado de Máquina

Explorando desafios e soluções para reconhecimento de cauda longa na classificação visual.

― 7 min ler


Enfrentando os desafiosEnfrentando os desafiosde reconhecimento decauda longadesbalanceados.classificação em conjuntos de dadosExaminando métodos pra melhorar a
Índice

No mundo real, a gente muitas vezes se depara com situações onde algumas classes têm muitos exemplos, enquanto outras têm bem poucos. Essa distribuição desigual é chamada de distribuição de cauda longa. Por exemplo, pensa em um banco de fotos de animais selvagens onde tem milhares de fotos de animais comuns, tipo gatos e cachorros, mas só poucas imagens de espécies raras. Isso cria desafios na hora de ensinar as máquinas a reconhecer essas diferentes categorias, um problema conhecido como Reconhecimento de cauda longa (LTR).

O Desafio dos Dados de Cauda Longa

A maioria dos modelos de aprendizado de máquina tem dificuldade com dados de cauda longa. Eles costumam se sair bem nas classes comuns (as classes "cabeça"), mas falham em reconhecer as classes mais raras (as classes "cauda"). Isso acontece porque o modelo aprende a focar no que vê com mais frequência. Quando um modelo aprende com dados desbalanceados, ele acaba se tornando tendencioso, ou seja, é mais provável que adivinhe corretamente as classes comuns enquanto ignora as raras. Isso dificulta a criação de modelos que consigam reconhecer tudo de maneira justa, especialmente quando tem poucos exemplos para aprender.

Métodos para Lidar com Dados de Cauda Longa

Os pesquisadores sugeriram vários métodos para enfrentar dados de cauda longa. Duas abordagens comuns são a reamostragem de características e a reponderação das classes.

  1. Reamostragem de Características: Esse método envolve equilibrar os dados de treino, seja adicionando mais exemplos das classes raras (sobreamostragem) ou reduzindo o número de exemplos das classes comuns (subamostragem). Algumas técnicas também tentam gerar novos exemplos para as classes raras usando exemplos disponíveis das classes comuns.

  2. Reponderação de Classes: Nessa abordagem, diferentes classes recebem pesos diferentes com base em quantos exemplos estão disponíveis. O modelo é então penalizado mais por errar nas classes comuns do que nas raras. Isso busca balancear a atenção que o modelo dá a cada classe durante o treinamento.

Embora esses métodos ajudem, eles são frequentemente testados em tipos de modelos mais antigos, como ResNet, e a eficácia deles com arquiteturas mais novas, como Transformadores de Visão (ViT), ainda não foi totalmente explorada.

A Ascensão dos Transformadores de Visão

Recentemente, os Transformadores de Visão surgiram como uma alternativa poderosa às redes neurais convolucionais tradicionais (CNNs). Eles mostraram um desempenho melhor em várias tarefas visuais. No entanto, pouca pesquisa foi feita sobre como eles lidam com dados de cauda longa.

Os Transformadores de Visão funcionam de maneira diferente das CNNs. Em vez de processar uma imagem como um todo, eles a dividem em pedaços menores ou "patches" e tratam esses patches como uma série de entradas. Isso permite que eles capturem relações entre diferentes partes da imagem. Embora se saiam bem em muitos cenários, treiná-los com dados de cauda longa pode ser desafiador.

Aprendendo com Pré-treinamento Não Supervisionado

Uma solução para melhorar o desempenho dos Transformadores de Visão é usar pré-treinamento não supervisionado. Isso significa treinar o modelo em uma grande quantidade de dados sem rótulos específicos, permitindo que ele aprenda características gerais das imagens. Depois desse pré-treinamento, o modelo pode ser ajustado com os dados específicos da tarefa real. Esse processo em duas etapas ajuda o modelo a aprender melhor e generalizar de forma mais eficaz em conjuntos de dados tanto de cauda longa quanto balanceados.

Introduzindo a Calibração da Distribuição Preditiva

Para avaliar melhor como os modelos estão indo com o reconhecimento de cauda longa, uma nova métrica chamada Calibração da Distribuição Preditiva (PDC) foi introduzida. Métricas tradicionais, como a precisão sozinha, não capturam totalmente o quão bem um modelo está classificando diferentes classes, especialmente em um cenário de cauda longa. O PDC visa fornecer uma visão mais clara do viés preditivo de um modelo comparando com que frequência o modelo prevê instâncias de cada classe em relação a quantas instâncias existem nos dados de treinamento.

Essa métrica olha para as contagens de previsão de cada classe e determina quão perto elas estão da distribuição esperada dessas classes com base nos rótulos de treinamento. Um gap maior significa um viés preditivo maior, que é o que queremos minimizar.

Importância da Avaliação Justa

Avaliar como os modelos lidam com dados de cauda longa é crucial. Métricas tradicionais de precisão podem mostrar que um modelo tem um desempenho alto simplesmente porque ele é bom em identificar classes comuns. Usar o PDC garante que os modelos também sejam avaliados pela capacidade de reconhecer classes raras, proporcionando uma avaliação mais equilibrada do desempenho deles.

Experimentos com Diferentes Conjuntos de Dados

Os pesquisadores realizaram vários experimentos usando conjuntos de dados de referência para ver como diferentes métodos funcionam com os Transformadores de Visão. Eles compararam métodos que usavam Transformadores de Visão com aqueles que usavam técnicas convencionais. Os resultados mostraram que, enquanto alguns métodos melhoraram o desempenho nas classes comuns, eles não ajudaram necessariamente o modelo a reconhecer melhor as classes raras.

Em particular, modelos que passaram por pré-treinamento não supervisionado exibiram um desempenho mais equilibrado entre as diferentes classes. Quando aplicaram o PDC junto com as medidas de precisão, descobriram que era útil para identificar quais modelos ainda mostravam viés preditivo em relação às classes comuns.

Entendendo o Comportamento do Modelo em Conjuntos de Dados de Cauda Longa

É crucial entender que modelos treinados em conjuntos de dados de cauda longa frequentemente favorecem as classes comuns. Por exemplo, se um modelo vê muitas fotos de cachorro, mas só algumas de gato, pode começar a prever que todas as novas imagens são de cachorros. Isso é viés preditivo, e é um hurdle significativo ao lidar com conjuntos de dados desbalanceados.

Ferramentas Visuais para Melhor Compreensão

Para ajudar na compreensão, alguns pesquisadores usam ferramentas visuais como matrizes de confusão. Essas matrizes fornecem uma visão geral de como um modelo está se saindo em cada classe. No entanto, muitas vezes elas não quantificam quanto viés preditivo o modelo ainda tem. É aí que o PDC se torna valioso, pois simplifica a comparação entre diferentes métodos e dá uma visão clara do viés preditivo de um modelo.

O Papel do Design dos Experimentos

Para os experimentos, os pesquisadores usaram dados com um número predefinido de classes, cada uma com várias quantidades de instâncias de treinamento. Eles se concentraram em conjuntos de dados estruturados para refletir cenários do mundo real, onde as distribuições de classes geralmente são desbalanceadas.

O uso de diferentes estratégias de treinamento permitiu que eles vissem quais abordagens se saíram bem de forma consistente entre os conjuntos de dados, confirmando quão crítico é escolher o modelo e a técnica de treinamento certa.

Conclusão

Resumindo, o reconhecimento de cauda longa continua sendo um problema desafiador, especialmente para os Transformadores de Visão. Embora métodos tradicionais tenham avançado, ainda há trabalho a ser feito. O pré-treinamento não supervisionado mostra promessas em melhorar o desempenho do modelo, e a introdução de métricas como o PDC permite uma melhor avaliação. À medida que a pesquisa avança, o objetivo final é construir modelos que consigam reconhecer todas as classes de forma justa, independentemente de quantos exemplos existem. Isso levará a aplicações de aprendizado de máquina mais robustas e confiáveis em várias áreas, incluindo tarefas de classificação visual.

Fonte original

Título: Rethink Long-tailed Recognition with Vision Transformers

Resumo: In the real world, data tends to follow long-tailed distributions w.r.t. class or attribution, motivating the challenging Long-Tailed Recognition (LTR) problem. In this paper, we revisit recent LTR methods with promising Vision Transformers (ViT). We figure out that 1) ViT is hard to train with long-tailed data. 2) ViT learns generalized features in an unsupervised manner, like mask generative training, either on long-tailed or balanced datasets. Hence, we propose to adopt unsupervised learning to utilize long-tailed data. Furthermore, we propose the Predictive Distribution Calibration (PDC) as a novel metric for LTR, where the model tends to simply classify inputs into common classes. Our PDC can measure the model calibration of predictive preferences quantitatively. On this basis, we find many LTR approaches alleviate it slightly, despite the accuracy improvement. Extensive experiments on benchmark datasets validate that PDC reflects the model's predictive preference precisely, which is consistent with the visualization.

Autores: Zhengzhuo Xu, Shuo Yang, Xingjun Wang, Chun Yuan

Última atualização: 2023-04-17 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2302.14284

Fonte PDF: https://arxiv.org/pdf/2302.14284

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes