Simple Science

Ciência de ponta explicada de forma simples

# Informática# Visão computacional e reconhecimento de padrões# Aprendizagem de máquinas

Abordando o Desbalanceamento de Dados em Aprendizado de Máquina Através de Recursos de Imagem

Este estudo apresenta um método pra melhorar o desempenho de modelos em conjuntos de dados desbalanceados.

― 8 min ler


Combatendo oCombatendo oDesbalanceamento de Dadosem MLprecisão do modelo.características de imagem melhora aUma nova abordagem usando
Índice

No campo de aprendizado de máquina, tem um problema comum chamado desbalanceamento de dados. Isso acontece quando alguns grupos de dados são muito mais comuns que outros. Isso rola por razões como o alto custo de coletar dados, as dificuldades em rotulá-los e as diferenças de onde os dados vêm. Na visão computacional, que lida com como os computadores "veem" e interpretam imagens, entender como as aparências visuais das imagens podem levar a preconceitos nos conjuntos de dados não é muito bem estudado.

Quando olhamos para imagens, muita coisa pode ser diferente além da rotulagem. Por exemplo, mesmo dentro da mesma categoria como “carro”, os veículos podem parecer muito diferentes dependendo da cor, do tamanho ou de como estão posicionados. Isso significa que só confiar em rótulos básicos não dá uma visão completa do que tem nas imagens. Em vez disso, podemos ter um entendimento mais profundo examinando as características-chave dessas imagens.

Este artigo apresenta uma nova maneira de enfrentar o problema do desbalanceamento de dados em aprendizado de máquina. A ideia é calcular quão provável é uma amostra com base em suas características visuais usando técnicas de aprendizado profundo que quebram as imagens em características. Agrupando essas características através de uma técnica chamada Agrupamento, podemos criar uma imagem mais clara de como os dados estão distribuídos. Essas Probabilidades são então usadas para ajustar como pesamos diferentes amostras durante o treinamento de modelos de aprendizado de máquina usando uma nova função de perda chamada Generalized Focal Loss.

A Generalized Focal Loss é útil em situações como a direção autônoma, onde certas classes, como "ciclistas", costumam estar sub-representadas nos conjuntos de dados. Os resultados mostram que esse novo método melhora significativamente a capacidade do modelo de detectar essas classes menos comuns. De fato, ele alcançou mais de 200% de melhoria no desempenho para detectar ciclistas dentro do conjunto de dados KITTI.

Um dos destaques dessa nova abordagem é que ela não depende de ter conjuntos de dados rotulados para funcionar. Em vez disso, ela trabalha diretamente com as imagens brutas, tornando-a versátil para uma gama de tarefas que podem não ter rótulos bem definidos. Métodos existentes geralmente assumem que todas as amostras de dados são igualmente importantes. No entanto, nosso método sugere uma estratégia diferente: dar mais atenção às amostras que são menos comuns, nivelando o campo de jogo.

Para explicar a abordagem proposta, aqui está uma explicação simples dos passos envolvidos:

  1. Extraindo Recursos da Imagem: Cada imagem passa por um modelo pré-treinado que extrai características-chave. Essas características ajudam a resumir a imagem de uma maneira que captura seus aspectos importantes.

  2. Agrupamento: As características extraídas são agrupadas com base em semelhanças visuais. Isso significa que imagens que se parecem são colocadas no mesmo grupo ou cluster.

  3. Calculando Probabilidades: Então olhamos para os tamanhos desses clusters para determinar quão provável é que uma amostra apareça no conjunto de dados. Clusters com muitas amostras serão mais comuns, enquanto aqueles com poucas amostras são menos prováveis.

  4. Reweighting das Perdas de Treinamento: Usando as probabilidades calculadas, ajustamos o processo de treinamento. Colocamos mais foco nessas amostras que são menos comuns para ajudar o modelo a aprender melhor com elas.

As principais contribuições deste trabalho incluem uma nova estrutura para criar um banco de informações de probabilidade de amostra agrupando as características visuais das imagens. Também introduz a Generalized Focal Loss, que ajuda a enfrentar o problema de dados desbalanceados, concentrando-se em amostras menos prováveis.

Para mostrar como esses métodos são eficazes, foram realizados experimentos usando conjuntos de dados bem conhecidos em direção autônoma, como KITTI e nuScenes. Os resultados não só provaram a eficácia da nova função de perda, mas também mostraram como ela complementa os métodos existentes.

Trabalhos Relacionados

No passado, pesquisadores tentaram enfrentar o desbalanceamento em conjuntos de dados através de vários métodos, como reamostragem baseada em classe e pesagem baseada em confiança.

Reamostragem Baseada em Classe: Esse método busca equilibrar os dados duplicando instâncias raras ou removendo algumas instâncias comuns do conjunto de dados. O problema com essa abordagem é que pode levar ao overfitting, onde o modelo aprende a reconhecer exemplos específicos em vez de padrões gerais.

Pesagem Baseada em Confiança: Essa estratégia se concentra em garantir que o modelo preste atenção a amostras difíceis de classificar. Uma abordagem comum é a focal loss, que reduz a contribuição da perda de exemplos bem classificados e a aumenta para os mal classificados. Outros métodos similares também mostraram potencial, mas principalmente focam nas frequências de classe.

Usando Recursos de Imagem: Embeddings de imagem são outro método usado para analisar distribuições de dados. Eles resumem imagens de uma maneira que imagens semelhantes ficam próximas em um espaço de alta dimensão, facilitando a visualização de como os dados estão espalhados.

Análise do Conjunto de Dados

Para entender a distribuição de dados, precisamos primeiro descobrir quão similares ou diferentes as amostras de dados são. Utilizando embeddings de características de imagem, podemos medir a distância entre frames de imagem. As características são agrupadas e podemos então ver quantas amostras caem em cada cluster, o que fornece uma visão sobre a probabilidade de ocorrência no conjunto de dados.

Neste estudo, dois conjuntos de dados foram analisados de perto: KITTI e nuScenes. A análise envolveu extrair embeddings de amostras de imagem e usar técnicas como t-SNE e HDBSCAN para agrupamento. Por meio desses métodos, a pesquisa buscou identificar quaisquer preconceitos nos conjuntos de dados com base na aparência das amostras.

Generalized Focal Loss

A Generalized Focal Loss é uma nova função de perda introduzida para lidar melhor com o desbalanceamento de dados, ajustando o peso de cada amostra com base em sua probabilidade de ocorrência. Isso significa que durante o treinamento, amostras que são menos prováveis de ocorrer no conjunto de dados carregam mais peso no cálculo da perda, pressionando o modelo a aprender mais com elas.

Em termos práticos, ao treinar modelos de detecção de objetos baseados em câmera, o peso da Generalized Focal Loss é calculado e integrado à perda total durante o treinamento. Esse ajuste não complica o modelo ou desacelera o processo, melhorando o desempenho especificamente em classes sub-representadas.

Detecção 3D de Objetos Baseada em Câmera

Para demonstrar ainda mais a eficácia da metodologia proposta, testes foram realizados em métodos de detecção de objetos 3D baseados em câmera bem considerados usando os conjuntos de dados mencionados anteriormente. Os resultados mostraram melhorias significativas no desempenho, especialmente para classes que eram menos frequentemente encontradas nos conjuntos de dados.

Em resumo, a nova abordagem para lidar com o desbalanceamento de dados usando probabilidades derivadas de características de imagem demonstrou ser eficaz em melhorar o desempenho de modelos de aprendizado de máquina, especialmente em campos como direção autônoma.

Quantificação de Preconceito em Conjuntos de Dados

A pesquisa também se aprofundou na quantificação do preconceito em conjuntos de dados analisando vários conjuntos de dados, incluindo Waymo e BDD100K. Essas análises destacaram a presença de preconceitos com base em características visuais, mostrando como os métodos propostos poderiam ajudar a abordar esses preconceitos de forma eficaz.

Ao ir além dos rótulos de classe tradicionais, os métodos introduzidos abrem novas avenidas para pesquisa e otimização em aprendizado de máquina, particularmente na lida com conjuntos de dados que podem não seguir padrões uniformes. O foco em entender e abordar as desigualdades dentro dos conjuntos de dados é um passo em direção a aplicações de aprendizado de máquina mais justas e eficazes.

Com ênfase nos dados visuais e nos preconceitos ocultos que vêm com isso, esta pesquisa pretende influenciar técnicas e estratégias futuras para um uso equitativo de conjuntos de dados em aprendizado de máquina.

Fonte original

Título: DatasetEquity: Are All Samples Created Equal? In The Quest For Equity Within Datasets

Resumo: Data imbalance is a well-known issue in the field of machine learning, attributable to the cost of data collection, the difficulty of labeling, and the geographical distribution of the data. In computer vision, bias in data distribution caused by image appearance remains highly unexplored. Compared to categorical distributions using class labels, image appearance reveals complex relationships between objects beyond what class labels provide. Clustering deep perceptual features extracted from raw pixels gives a richer representation of the data. This paper presents a novel method for addressing data imbalance in machine learning. The method computes sample likelihoods based on image appearance using deep perceptual embeddings and clustering. It then uses these likelihoods to weigh samples differently during training with a proposed $\textbf{Generalized Focal Loss}$ function. This loss can be easily integrated with deep learning algorithms. Experiments validate the method's effectiveness across autonomous driving vision datasets including KITTI and nuScenes. The loss function improves state-of-the-art 3D object detection methods, achieving over $200\%$ AP gains on under-represented classes (Cyclist) in the KITTI dataset. The results demonstrate the method is generalizable, complements existing techniques, and is particularly beneficial for smaller datasets and rare classes. Code is available at: https://github.com/towardsautonomy/DatasetEquity

Autores: Shubham Shrivastava, Xianling Zhang, Sushruth Nagesh, Armin Parchami

Última atualização: 2023-08-21 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2308.09878

Fonte PDF: https://arxiv.org/pdf/2308.09878

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes