Melhorando a Classificação Desequilibrada com o Método MixAnN
Um novo método melhora a classificação em conjuntos de dados desbalanceados ao combinar amostras.
― 8 min ler
Índice
- O Desafio dos Dados Desbalanceados
- O Conceito de Mistura de Dados
- Componentes Chave do Método Proposto
- O Processo de Mistura Iterativa
- Desafios no Processo de Mistura
- Utilizando o Processo de Tomada de Decisão
- Treinando a Estrutura
- Resultados Experimentais
- Comparação com Outras Técnicas
- Conclusão e Direções Futuras
- Fonte original
- Ligações de referência
Classificação desbalanceada é um problemão que rola em várias situações da vida real, onde uma classe tem muito mais dados que a outra. Tipo, na detecção de fraudes, tem várias transações normais mas só umas poucas fraudulentas. Esse desbalanceio dificulta o aprendizado dos modelos, que acabam favorecendo a classe maior.
Pra resolver isso, várias técnicas foram criadas. Um método popular é a super amostragem, que consiste em criar mais exemplos da classe minoritária pra equilibrar o conjunto de dados. Mas, isso ainda pode gerar problemas, principalmente quando os exemplos minoritários estão espalhados de várias formas, em vez de estarem agrupados.
Esse artigo fala sobre uma nova abordagem pra melhorar a classificação nessas situações, focando em como criar amostras sintéticas misturando dados de diferentes classes. Vamos dar uma olhada nos desafios envolvidos e como técnicas recentes ajudam a lidar com eles.
O Desafio dos Dados Desbalanceados
Conjuntos de dados desbalanceados estão por toda parte, afetando áreas como detecção de intrusões, fraude e detecção de falhas na manufatura. Nesses casos, ter muitos exemplos de uma classe (como transações normais) comparado a poucos de outra (como transações fraudulentas) pode causar problemas.
Quando se treina modelos com esses dados, os algoritmos geralmente aprendem a prever a classe majoritária muito bem, mas têm dificuldade com a classe minoritária. Isso resulta em um desempenho fraco na detecção de eventos que são menos comuns, mas mais críticos.
Muitas vezes, os pesquisadores recorrem a técnicas de super amostragem como SMOTE, que geram novas amostras misturando amostras existentes da classe minoritária. Mas, esses métodos podem criar pontos de dados enganosos, especialmente se as amostras minoritárias estiverem espalhadas por todo o espaço de recursos.
O Conceito de Mistura de Dados
Em vez de focar só na classe minoritária pra criar novas amostras, a gente pode misturar dados de ambas as classes. Isso permite uma representação melhor da fronteira de decisão entre as classes.
A abordagem que sugerimos envolve usar um método chamado MixAnN, que significa Misturando Anomalias e Normais. Esse método pega pares de amostras - uma da classe majoritária e uma da classe minoritária - e as mistura pra criar novas amostras.
O objetivo é melhorar a capacidade do classificador de diferenciar entre as duas classes. Ao combinar os pontos de dados, conseguimos gerar amostras mais informativas que ajudam a treinar melhor o modelo.
Componentes Chave do Método Proposto
A estrutura do MixAnN é baseada em várias ideias importantes:
Mistura Iterativa: O processo de mistura das amostras acontece em etapas, com cada iteração refinando ainda mais as amostras. Isso ajuda a explorar o espaço de features de forma eficaz.
Processo de Decisão de Markov (MDP): A mistura iterativa pode ser encarada como um problema de tomada de decisão. A estrutura do MDP permite que o sistema escolha as melhores ações a serem tomadas em cada etapa do processo de mistura.
Estrutura Ator-Crítico: Um tipo de aprendizado por reforço que consiste em dois componentes: um ator que escolhe ações e um crítico que avalia essas ações. Essa combinação ajuda a otimizar a estratégia de mistura com base no feedback recebido.
Cada um desses componentes tem um papel crucial em garantir que as amostras sintéticas geradas sejam benéficas para a tarefa de classificação.
O Processo de Mistura Iterativa
O primeiro passo no nosso método é definir como vamos misturar as amostras. Queremos generalizar as informações das classes rotuladas e criar novas amostras que capturem as características chave tanto da classe majoritária quanto da minoritária.
Em cada iteração, pegamos uma amostra de cada uma das duas classes. Então, determinamos quanto de cada amostra usar pra criar a nova amostra sintética. Essa proporção de mistura é importante, pois pode impactar a qualidade da amostra gerada.
O processo permite que a gente selecione amostras de forma adaptativa com base nas suas características e nas necessidades do modelo atual. Conforme fazemos mais iterações, as amostras ficam mais alinhadas com o que o modelo precisa pra treinar.
Desafios no Processo de Mistura
Desenvolver uma estrutura de mistura traz um conjunto de desafios próprios:
Selecionar Amostras Fonte: Escolher quais amostras misturar é crítico. Seleção aleatória pode introduzir ruído, especialmente em conjuntos de dados desbalanceados.
Determinar a Estratégia de Mistura: Não basta misturar amostras aleatoriamente. A proporção de mistura deve ser adaptada pra cada par de amostras fonte.
Coordenação do Modelo: O processo de mistura deve considerar o classificador subjacente pra guiar as estratégias de seleção e mistura de forma eficaz.
Superar esses desafios exige um planejamento e execução cuidadosos pra garantir que as amostras sintéticas geradas sejam de fato úteis.
Utilizando o Processo de Tomada de Decisão
Pra lidar com os desafios mencionados, podemos usar a estrutura do MDP. Aqui tá como funciona:
Estados: Cada estado no processo representa o cenário atual baseado nas duas amostras que estão sendo consideradas pra mistura.
Ações: As ações incluem escolher a proporção de mistura e a quantidade de amostras sintéticas a serem criadas.
Função de Recompensa: A função de recompensa mede quão efetiva a ação escolhida é em melhorar o desempenho do classificador.
Tratando o processo de mistura como um problema de tomada de decisão, podemos aplicar estratégias de aprendizado por reforço pra aprender políticas de mistura ótimas ao longo do tempo.
Treinando a Estrutura
Pra treinar nossa estrutura proposta, precisamos de um método pra avaliar e melhorar continuamente. Usando o modelo ator-crítico, podemos otimizar a estratégia de mistura com base nas recompensas recebidas durante o treinamento.
O ator aprende as melhores ações a serem tomadas em cada estado, enquanto o crítico avalia essas ações e fornece feedback. Isso cria um ciclo eficiente onde o modelo aprende com seus erros e melhora com o tempo.
O processo de treinamento envolve várias iterações até que o sistema converja pra uma estratégia eficiente de mistura de amostras.
Resultados Experimentais
Pra testar a eficácia da estrutura MixAnN, realizamos experimentos em vários conjuntos de dados de referência. O objetivo era ver quão bem esse método se saiu comparado a técnicas de aumento de dados existentes.
Avalíamos nosso modelo com base em métricas como precisão, recall e F1-score, focando na sua capacidade de detectar instâncias minoritárias com precisão enquanto também mantinha um equilíbrio com a classe majoritária.
Os resultados mostraram melhorias significativas em relação aos métodos tradicionais. O MixAnN consistentemente superou as técnicas de aumento existentes, demonstrando sua capacidade de gerar amostras sintéticas de alta qualidade.
Comparação com Outras Técnicas
Nos nossos achados, também comparamos o MixAnN com vários métodos de base.
Super Amostragem Tradicional: Técnicas como SMOTE muitas vezes têm dificuldades quando as amostras minoritárias não estão agrupadas. A abordagem do MixAnN de misturar amostras de ambas as classes se mostrou mais eficaz.
Abordagens Informadas por Rótulos: Enquanto esses métodos focam em utilizar rótulos existentes, muitas vezes negligenciam as relações entre as amostras. A habilidade do MixAnN de misturar amostras permitiu capturar informações mais sutis.
Essas comparações destacam a flexibilidade e adaptabilidade da estrutura MixAnN em lidar com tarefas de classificação desbalanceada.
Conclusão e Direções Futuras
A estrutura MixAnN oferece uma solução promissora pra enfrentar problemas de classificação desbalanceada, especialmente ao lidar com classes minoritárias diversas. Ao misturar iterativamente amostras e empregar técnicas de aprendizado por reforço, conseguimos criar dados de treinamento mais informativos que ajudam os classificadores a ter um desempenho melhor.
Olhando pra frente, há várias áreas pra explorar mais. Um desafio significativo é lidar com a questão da superconfiança em certos modelos, onde eles podem ficar muito certos de suas previsões.
Além disso, melhorias adicionais poderiam ser feitas pra aumentar a escalabilidade do MixAnN, potencialmente integrando métodos de subamostragem pra complementar o processo de mistura.
Esse trabalho abre caminho pra futuras pesquisas e aplicações em várias áreas onde conjuntos de dados desbalanceados são comuns, ajudando a melhorar a performance e a confiabilidade dos modelos.
Título: Tackling Diverse Minorities in Imbalanced Classification
Resumo: Imbalanced datasets are commonly observed in various real-world applications, presenting significant challenges in training classifiers. When working with large datasets, the imbalanced issue can be further exacerbated, making it exceptionally difficult to train classifiers effectively. To address the problem, over-sampling techniques have been developed to linearly interpolating data instances between minorities and their neighbors. However, in many real-world scenarios such as anomaly detection, minority instances are often dispersed diversely in the feature space rather than clustered together. Inspired by domain-agnostic data mix-up, we propose generating synthetic samples iteratively by mixing data samples from both minority and majority classes. It is non-trivial to develop such a framework, the challenges include source sample selection, mix-up strategy selection, and the coordination between the underlying model and mix-up strategies. To tackle these challenges, we formulate the problem of iterative data mix-up as a Markov decision process (MDP) that maps data attributes onto an augmentation strategy. To solve the MDP, we employ an actor-critic framework to adapt the discrete-continuous decision space. This framework is utilized to train a data augmentation policy and design a reward signal that explores classifier uncertainty and encourages performance improvement, irrespective of the classifier's convergence. We demonstrate the effectiveness of our proposed framework through extensive experiments conducted on seven publicly available benchmark datasets using three different types of classifiers. The results of these experiments showcase the potential and promise of our framework in addressing imbalanced datasets with diverse minorities.
Autores: Kwei-Herng Lai, Daochen Zha, Huiyuan Chen, Mangesh Bendre, Yuzhong Chen, Mahashweta Das, Hao Yang, Xia Hu
Última atualização: 2023-08-28 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2308.14838
Fonte PDF: https://arxiv.org/pdf/2308.14838
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://www.diffchecker.com/diff
- https://www.openml.org/
- https://github.com/Minqi824/ADBench
- https://github.com/yzhao062/pyod
- https://github.com/GuansongPang/deviation-network
- https://github.com/lukasruff/Deep-SAD-PyTorch
- https://github.com/shubhomoydas/ad_examples/tree/master/ad_examples/datasets/anomaly/toy2/fullsamples
- https://github.com/PyLink88/Recurrent-Autoencoder
- https://github.com/yzhao062/pyod/
- https://github.com/syorami/DDC-transfer-learning
- https://github.com/DMIRLAB-Group/SASA