Simple Science

Ciência de ponta explicada de forma simples

# Informática# Aprendizagem de máquinas

Avanços na Detecção de Anomalias em Dados Estruturados

Novos métodos melhoram a detecção de pontos de dados estranhos em conjuntos de dados estruturados usando deep learning.

― 8 min ler


Revisando as AbordagensRevisando as Abordagensde Detecção de Anomaliasem conjuntos de dados estruturados.Métodos inovadores melhoram a detecção
Índice

Nos últimos tempos, usar deep learning para dados estruturados virou um assunto quente. Mas aplicar essas técnicas em dados organizados, tipo tabelas, tem seus desafios. Enquanto o deep learning manda bem com dados não estruturados, ele costuma ter dificuldades com conjuntos de dados estruturados. Os pesquisadores tão tentando achar jeitos de usar modelos profundos de forma mais eficaz para dados estruturados, especialmente em tarefas como Detecção de Anomalias.

Detecção de anomalias significa identificar pontos de dados que não se encaixam no padrão dos dados normais. Por exemplo, pode ajudar a perceber invasões cibernéticas, fraudes com cartão de crédito ou condições médicas incomuns. Tem duas abordagens principais para detecção de anomalias: supervisionada e não supervisionada. Na detecção de anomalias supervisionada, um modelo aprende como é o dado normal só com exemplos normais e depois checa novos dados para encontrar pontos que não se encaixam. Já na detecção de anomalias não supervisionada, a ideia é encontrar anomalias sem saber antes o que é normal.

Apesar do poder dos métodos de deep learning, aplicar isso a dados estruturados ainda é complicado. As características específicas dos dados em tabelas dificultam a vida dos modelos de deep learning tradicionais. Estudos recentes focaram em criar novos métodos de treinamento e estruturas de modelo que levem essas características em consideração. As estratégias de detecção de anomalias mais eficazes usam essas particularidades, enquanto métodos mais gerais costumam falhar.

Noções Básicas de Detecção de Anomalias

Os algoritmos de detecção de anomalias geralmente são categorizados em vários tipos, incluindo estimação de densidade, classificação de uma classe e Métodos baseados em reconstrução.

  1. Estimativa de Densidade: Esse método estima a distribuição normal e sinaliza pontos de dados que caem em áreas de baixa probabilidade como anomalias.

  2. Classificação de Uma Classe: Essa abordagem identifica anomalias sem estimar a distribuição normal, definindo diretamente uma fronteira para distinguir pontos normais de anormais.

  3. Métodos Baseados em Reconstrução: Esses métodos aprendem a reconstruir dados normais. Se o modelo tem dificuldade em reconstruir um ponto de dado durante os testes, esse ponto é considerado uma anomalia.

O Papel das Relações Não Paramétricas

Pesquisas novas mostraram que relações não paramétricas - conexões entre pontos de dados - podem melhorar muito o desempenho dos modelos de deep learning. Modelos que levam essas relações em conta costumam mostrar resultados melhores em tarefas relacionadas a dados tabulares.

Alguns estudos focaram em como adicionar módulos que permitem que os modelos busquem e usem amostras relacionadas durante o treinamento pode ser bom. Esses módulos de recuperação podem melhorar o aprendizado usando relações entre as amostras. Isso significa que o modelo pode considerar tanto a relação entre as características dos dados quanto a relação entre diferentes amostras.

Os resultados sugerem que, para uma detecção de anomalias eficiente em dados tabulares, uma boa abordagem seria combinar tanto as relações de características quanto as relações de amostras durante o treinamento.

Tipos de Anomalias

É importante saber que as anomalias podem ser agrupadas em diferentes categorias:

  1. Anomalias de Dependência: Essas anomalias não seguem as relações esperadas entre as características. Identificá-las requer focar nas dependências entre as características.

  2. Anomalias Globais: Esses são pontos de dados incomuns que divergem significativamente do que é considerado normal.

  3. Anomalias Locais: Essas anomalias ocorrem quando um ponto de dado é diferente de seus vizinhos ao redor.

  4. Anomalias Agrupadas: Essas consistem em grupos de anomalias que compartilham características semelhantes.

Para encontrar efetivamente todos os tipos de anomalias, tanto as relações de características quanto as relações de amostras devem ser usadas.

Empregando Módulos de Recuperação Externos

Módulos de recuperação externos mostraram potencial para melhorar a performance dos métodos de detecção de anomalias. Esses módulos podem ser adicionados aos modelos existentes, melhorando a capacidade deles de detectar anomalias ao permitir que usem relações aprendidas tanto entre características quanto entre diferentes amostras.

Por exemplo, usar um modelo transformer com um módulo de recuperação pode ajudar a gerar melhores previsões ao tentar identificar anomalias em dados tabulares. O módulo de recuperação seleciona amostras relevantes que podem ajudar a fazer reconstruções mais precisas das características ocultas.

Abordagem de Reconstrução de Máscara

Uma metodologia chave nessa pesquisa é a abordagem de reconstrução de máscara. Isso envolve esconder aleatoriamente certas características de uma amostra de dados e treinar o modelo para prever essas características faltantes. O objetivo é ver quão bem o modelo pode reconstruir a amostra de dados original. Quanto melhor o desempenho do modelo, mais provável é que a amostra siga o padrão normal.

Durante os testes, o modelo usa uma série de máscaras predeterminadas. Para cada amostra, essa abordagem avalia quão bem o modelo prevê as características faltantes. O erro de reconstrução serve como base para determinar se uma amostra é normal ou uma anomalia.

Conjuntos de Dados Usados

Para avaliar a eficácia dos métodos propostos, foi usado uma ampla gama de conjuntos de dados tabulares. Esses conjuntos variam em características e fornecem um benchmark robusto para avaliar os métodos de detecção de anomalias.

Os conjuntos de dados incluem uma mistura de benchmarks de detecção de anomalias bem conhecidos e casos do mundo real. Cada conjunto vem com características e complexidades específicas, permitindo que as técnicas de modelagem sejam testadas sob várias condições.

Configuração Experimental

Nos experimentos, um subconjunto de amostras normais é selecionado para treinamento, enquanto um conjunto separado contendo tanto anomalias quanto amostras normais restantes é usado para validação. Essa divisão permite uma avaliação precisa da capacidade do modelo de detectar anomalias enquanto treina predominantemente em dados normais.

Os resultados foram avaliados usando métricas como a pontuação F1, que mede a precisão e robustez de um modelo, e AUROC, uma métrica que ilustra a capacidade do modelo de distinguir entre amostras normais e anormais.

Comparação de Desempenho

Os experimentos revelam que nem todos os mecanismos de recuperação têm o mesmo desempenho em aumentar as capacidades de detecção de anomalias. Em particular, certos modelos que incorporam estratégias de recuperação específicas mostraram melhorias marcantes em relação aos modelos padrão.

A comparação entre diferentes modelos destaca que o módulo de recuperação externo certo pode fazer uma diferença significativa. Na verdade, algumas ampliações específicas levaram a aumentos notáveis nas pontuações médias em conjuntos de dados testados.

Importância da Estratégia de Máscara

A estratégia de máscara usada durante o treinamento também pode afetar o quão bem o modelo se sai na prática. Ao escolher um conjunto consistente e determinístico de máscaras para testes, os modelos tiveram resultados melhores e mais confiáveis. Máscaras aleatórias introduziram variabilidade que não ajudou na identificação precisa de anomalias.

Além disso, usar consistentemente as mesmas máscaras permitiu uma melhor identificação de vários tipos de anomalias, garantindo que os modelos tenham uma chance justa de aprender com todos os dados disponíveis.

Desafios e Limitações

Embora esses modelos mostrem potencial, tem desafios a considerar. Notavelmente, a complexidade de integrar os módulos de recuperação pode levar a um uso maior de memória e tempos de processamento. Quando se trabalha com grandes conjuntos de dados, isso pode se tornar um fator limitante.

Além disso, as intricacies de ajustar hiperparâmetros para diferentes conjuntos de dados também podem ser difíceis. Cada conjunto pode exigir uma abordagem diferente para otimizar o desempenho, o que adiciona mais uma camada ao processo de modelagem.

Conclusão e Direções Futuras

Esse trabalho enfatiza a importância de combinar relações de amostra com dependências de características na detecção de anomalias em dados estruturados. A pesquisa demonstra como aproveitar módulos de recuperação pode melhorar os métodos de detecção de anomalias baseados em reconstrução, aprimorando, em última análise, o desempenho dos modelos.

Pesquisas futuras podem focar em refinar ainda mais esses mecanismos de recuperação. Também há potencial para explorar como essas abordagens podem ser adaptadas a métodos de detecção de anomalias profundos existentes, possivelmente melhorando sua eficácia em várias tarefas. As descobertas incentivam a exploração contínua dessa área inovadora, levando potencialmente a maneiras ainda melhores de lidar com a detecção de anomalias em conjuntos de dados estruturados.

Fonte original

Título: Retrieval Augmented Deep Anomaly Detection for Tabular Data

Resumo: Deep learning for tabular data has garnered increasing attention in recent years, yet employing deep models for structured data remains challenging. While these models excel with unstructured data, their efficacy with structured data has been limited. Recent research has introduced retrieval-augmented models to address this gap, demonstrating promising results in supervised tasks such as classification and regression. In this work, we investigate using retrieval-augmented models for anomaly detection on tabular data. We propose a reconstruction-based approach in which a transformer model learns to reconstruct masked features of \textit{normal} samples. We test the effectiveness of KNN-based and attention-based modules to select relevant samples to help in the reconstruction process of the target sample. Our experiments on a benchmark of 31 tabular datasets reveal that augmenting this reconstruction-based anomaly detection (AD) method with sample-sample dependencies via retrieval modules significantly boosts performance. The present work supports the idea that retrieval module are useful to augment any deep AD method to enhance anomaly detection on tabular data.

Autores: Hugo Thimonier, Fabrice Popineau, Arpad Rimmel, Bich-Liên Doan

Última atualização: 2024-07-22 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2401.17052

Fonte PDF: https://arxiv.org/pdf/2401.17052

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Artigos semelhantes