Simple Science

Ciência de ponta explicada de forma simples

# Informática# Aprendizagem de máquinas# Inteligência Artificial

Avaliação de Algoritmos de Detecção de Anomalias em Conjuntos de Dados Multivariados

Estudo analisa algoritmos pra detectar anomalias em diferentes conjuntos de dados.

― 5 min ler


Revisão do Algoritmo deRevisão do Algoritmo deDetecção de Anomaliasdetecção de anomalias eficaz.Avaliação dos melhores algoritmos para
Índice

A Detecção de Anomalias envolve encontrar pontos de dados que não se encaixam no padrão esperado de um conjunto de dados. Esses pontos estranhos, conhecidos como anomalias, podem aparecer por várias razões, incluindo erros na coleta de dados, comportamentos incomuns em sistemas ou mudanças inesperadas em um processo. Por exemplo, na química, um experimento mal executado pode causar uma anomalia, enquanto na medicina, uma doença rara pode levar a sintomas estranhos. Em práticas de manutenção, uma leitura incomum pode sugerir que um sistema está prestes a falhar.

Com o tempo, muitos algoritmos foram desenvolvidos para detectar essas anomalias, cada um com suas forças e fraquezas. Entender qual algoritmo usar pode ser complicado, especialmente para quem não é especialista na área. Este estudo avalia vários algoritmos de detecção de anomalias em conjuntos de dados multivariados do mundo real e discute quantos algoritmos diferentes são necessários para uma análise eficaz.

Visão Geral dos Algoritmos de Detecção de Anomalias

A detecção de anomalias não supervisionada é uma técnica chave em aprendizado de máquina, permitindo que pesquisadores identifiquem anomalias nos dados sem precisar de exemplos rotulados. Vários métodos foram criados para lidar com desafios distintos na detecção de anomalias. Alguns se concentram em problemas específicos, como manuseio de dados de alta dimensão, enquanto outros buscam bom desempenho com baixo uso de recursos.

O desafio para os usuários é escolher o algoritmo mais adequado dentre os muitos disponíveis, especialmente porque a eficácia desses algoritmos pode variar dependendo dos conjuntos de dados específicos. Estudos anteriores tentaram orientar os usuários comparando diferentes algoritmos, mas muitas dessas análises tiveram limites, examinando apenas um punhado de algoritmos em um número pequeno de conjuntos de dados.

Este trabalho busca preencher essa lacuna avaliando uma ampla gama de algoritmos de detecção de anomalias não supervisionados em uma coleção maior de conjuntos de dados do mundo real. Essa abordagem fornece diretrizes mais claras sobre quando usar algoritmos específicos com base em seus desempenhos.

Tipos de Anomalias

As anomalias podem ser categorizadas com base em suas características. Aqui, definimos alguns tipos principais:

Anomalias Locais

Anomalias locais são pontos de dados que são diferentes de seu arredor imediato. Elas existem em uma área de baixa densidade quando comparadas aos pontos de dados próximos.

Anomalias Globais

Anomalias globais são pontos que estão em uma região de baixa densidade em comparação com todo o conjunto de dados. Essas anomalias podem se destacar mais claramente em relação às anomalias locais.

Anomalias Agrupadas

Algumas anomalias não são isoladas, mas aparecem em pequenos grupos ou aglomerados. Esses agrupamentos podem esconder a presença de cada anomalia, dificultando a detecção.

Anomalias Isoladas

Anomalias isoladas são pontos de dados únicos que não têm outros pontos semelhantes nas proximidades. Elas são mais fáceis de identificar, mas podem não representar o comportamento mais amplo do conjunto de dados.

Avaliação dos Algoritmos

Ao avaliar a eficácia de vários algoritmos, usamos diferentes conjuntos de dados para analisar quão bem eles se saem na detecção de anomalias. O desempenho de cada algoritmo é medido usando pontuações derivadas de suas previsões. O estudo envolve mais do que apenas comparar resultados brutos; considera o comportamento desses algoritmos em diferentes cenários e conjuntos de dados.

Análise dos Resultados

Depois de realizar as avaliações, olhamos para o desempenho geral de cada algoritmo nos conjuntos de dados. Isso nos ajuda a desenvolver insights sobre quais algoritmos têm melhor desempenho em certas condições.

Descobrimos que alguns algoritmos consistentemente superam outros, indicando quais podem ser as melhores escolhas para certos tipos de anomalias. Por exemplo, um algoritmo chamado k-ésimo Vizinhos Mais Próximos (K-NN) se destaca pelo seu desempenho forte, especialmente quando há incerteza sobre os tipos de anomalias no conjunto de dados.

Recomendações para Usuários

Com base nas descobertas das avaliações, sugerimos que os usuários considerem alguns algoritmos-chave para suas tarefas de detecção de anomalias.

  1. Quando houver incerteza sobre os tipos de anomalias: Se os usuários não souberem se seu conjunto de dados contém anomalias locais ou globais, o algoritmo k-NN é uma escolha segura. Ele mostrou a capacidade de superar a maioria dos outros métodos.

  2. Para anomalias locais: Se os usuários tiverem certeza de que anomalias locais estão presentes, o algoritmo k-NN novamente se sai bem e é recomendado para essas situações.

  3. Para anomalias globais: Se o foco for exclusivamente na detecção de anomalias globais, o algoritmo Isolation Forest, especialmente sua versão estendida, é o melhor.

Conclusão

Em conclusão, a pesquisa enfatiza a necessidade de alguns algoritmos confiáveis que possam abordar efetivamente diferentes tipos de anomalias em conjuntos de dados multivariados. O k-NN, o Isolation Forest padrão e a versão estendida do Isolation Forest emergem como as principais recomendações.

Usando esses três algoritmos, os usuários podem conduzir a detecção de anomalias de forma eficaz, sem precisar se aprofundar nas complexidades de otimizar para cada situação diferente. Essa abordagem também permite uma reprodução mais fácil dos achados para novos estudos e aplicações em cenários do mundo real.

O estudo representa um avanço significativo na compreensão de como selecionar os métodos certos de detecção de anomalias para lidar com anomalias em vários conjuntos de dados. Pesquisas futuras podem expandir essas descobertas, potencialmente estendendo a análise para cobrir conjuntos de dados mais diversos, incluindo imagens ou dados de séries temporais, para aprimorar ainda mais a compreensão e as capacidades das técnicas de detecção de anomalias.

Fonte original

Título: Unsupervised anomaly detection algorithms on real-world data: how many do we need?

Resumo: In this study we evaluate 32 unsupervised anomaly detection algorithms on 52 real-world multivariate tabular datasets, performing the largest comparison of unsupervised anomaly detection algorithms to date. On this collection of datasets, the $k$-thNN (distance to the $k$-nearest neighbor) algorithm significantly outperforms the most other algorithms. Visualizing and then clustering the relative performance of the considered algorithms on all datasets, we identify two clear clusters: one with ``local'' datasets, and another with ``global'' datasets. ``Local'' anomalies occupy a region with low density when compared to nearby samples, while ``global'' occupy an overall low density region in the feature space. On the local datasets the $k$NN ($k$-nearest neighbor) algorithm comes out on top. On the global datasets, the EIF (extended isolation forest) algorithm performs the best. Also taking into consideration the algorithms' computational complexity, a toolbox with these three unsupervised anomaly detection algorithms suffices for finding anomalies in this representative collection of multivariate datasets. By providing access to code and datasets, our study can be easily reproduced and extended with more algorithms and/or datasets.

Autores: Roel Bouman, Zaharah Bukhsh, Tom Heskes

Última atualização: 2023-05-01 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2305.00735

Fonte PDF: https://arxiv.org/pdf/2305.00735

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes