Simple Science

Ciência de ponta explicada de forma simples

# Informática# Aprendizagem de máquinas

Usando Aprendizado de Máquina pra Melhorar a Detecção de Fraudes

Esse artigo fala sobre técnicas de Deep Learning pra melhorar a detecção de fraudes em e-commerce.

― 6 min ler


Deep Learning paraDeep Learning paraDetecção de Fraudetécnicas avançadas de dados.Transformando a detecção de fraudes com
Índice

A Detecção de Fraudes é uma parte crucial do e-commerce. Empresas como a Booking.com precisam de sistemas eficazes para identificar atividades fraudulentas e proteger seus usuários, mantendo a confiança. Este artigo discute como métodos modernos usando Deep Learning podem melhorar a detecção de fraudes, focando no uso de modelos Transformer em dados estruturados.

A Importância de uma Detecção de Fraude Eficaz

No mundo das transações online, ações fraudulentas, como reservas falsas ou golpes, acontecem. Essas ações podem resultar em perdas financeiras e afetar a reputação de uma empresa. Identificar rapidamente essas ações fraudulentas é necessário para garantir uma experiência segura para os usuários. Métodos tradicionais costumam ter dificuldades devido à complexidade das ações dos usuários e ao desbalanceamento entre atividades genuínas e fraudulentas.

Desafios Enfrentados na Detecção de Fraudes

Uma dificuldade grande nos sistemas de detecção de fraudes é o desbalanceamento entre casos genuínos e fraudulentos. Ações genuínas geralmente superam muito as fraudulentas, tornando difícil para os modelos aprenderem a identificar fraudes de forma eficaz. Além disso, o viés de seleção desempenha um papel significativo; os dados disponíveis para treinamento muitas vezes não representam a situação do mundo real enfrentada em produção. Isso significa que modelos treinados em dados tendenciosos podem não se sair bem quando confrontados com novos dados não vistos.

Abordagens Tradicionais para Detecção de Fraudes

Abordagens tradicionais para detecção de fraudes envolvem o uso de sistemas baseados em regras ou métodos clássicos de Machine Learning como Árvores de Decisão com Gradiente Aumentado (GBDTs). GBDTs têm sido bastante eficazes em várias aplicações, incluindo detecção de fraudes. No entanto, GBDTs podem ter dificuldades com conjuntos de dados estruturados que apresentam diversos tipos de entradas, como dados numéricos e categóricos.

Introdução aos Modelos Transformer

Modelos Transformer, que mostraram grande sucesso em áreas como Processamento de Linguagem Natural e Reconhecimento de Imagem, estão sendo explorados para tarefas de dados estruturados, como detecção de fraudes. Esses modelos utilizam um mecanismo de autoatenção que ajuda a capturar relacionamentos e interações entre diferentes características nos dados. O objetivo é criar uma representação mais poderosa dos dados que pode melhorar a precisão dos sistemas de detecção de fraudes.

Aprendizado Auto-Supervisionado para Melhor Desempenho

Transformers podem se beneficiar muito do Aprendizado Auto-Supervisionado (SSL), uma técnica que permite que modelos aprendam representações a partir de dados não rotulados. Isso é particularmente útil na detecção de fraudes, onde obter dados rotulados pode ser caro e demorado. O SSL ajuda o modelo a entender padrões e estruturas subjacentes nos dados, possibilitando um melhor desempenho quando finalmente treinado em exemplos rotulados.

O Papel do Pré-Treinamento em Modelos de Detecção de Fraude

Pré-treinamento envolve treinar um modelo em um grande conjunto de dados antes de ajustá-lo em um conjunto de dados menor e rotulado. Esse processo permite que o modelo desenvolva uma compreensão ampla dos dados, facilitando a adaptação à tarefa específica de detecção de fraudes. Ao aproveitar grandes quantidades de dados não rotulados, os modelos podem frequentemente alcançar melhores resultados do que aqueles treinados apenas em dados rotulados limitados.

Metodologia Proposta para Melhorar a Detecção de Fraudes

Nossa abordagem combina as forças dos modelos Transformer com estratégias eficazes de pré-treinamento. O objetivo é melhorar a detecção de fraudes no e-commerce usando dados tabulares, que contêm informações estruturadas sobre as ações dos usuários. Focamos em duas áreas principais: aproveitar o SSL e ajustar o modelo usando conjuntos de dados menores e rotulados.

A Estratégia do Grupo de Controle

Para lidar com o viés de seleção, propomos usar uma estratégia de Grupo de Controle (GC). Isso envolve amostrar aleatoriamente uma pequena proporção de dados para rotulação enquanto utiliza um conjunto de dados maior e tendencioso para pré-treinamento. Ao anotar apenas uma pequena parte dos dados, podemos minimizar os custos associados à rotulação enquanto maximizamos a utilidade dos dados disponíveis.

Configuração Experimental

Nossos experimentos utilizam conjuntos de dados internos contendo ações reais de usuários da Booking.com. Ao dividir os dados em conjuntos de treinamento, validação e teste com base no tempo, garantimos uma avaliação realista dos modelos. O treinamento envolve a aplicação de técnicas de Deep Learning com a arquitetura FT-Transformer, que é especificamente projetada para dados tabulares.

Resultados e Avaliação de Desempenho

O desempenho de diferentes modelos é medido usando pontuações de Precisão Média (AP), que consideram a capacidade do modelo de identificar ações fraudulentas de forma eficaz. Nossos achados indicam que modelos pré-treinados usando SSL superam métodos tradicionais de GBDT e aqueles treinados apenas em dados rotulados. Os resultados mostram que o pré-treinamento SSL reduz significativamente a quantidade de dados rotulados necessários para alcançar um desempenho satisfatório.

O Impacto de Grupos de Controle Menores

Também investigamos os efeitos de variar o tamanho do Grupo de Controle. Nossos experimentos revelam que utilizar o pré-treinamento SSL permite que os modelos tenham um bom desempenho mesmo com tamanhos de GC menores. Um Grupo de Controle maior tende a resultar em um melhor desempenho, mas os custos associados à anotação devem ser cuidadosamente equilibrados com os benefícios da precisão melhorada do modelo.

Direções Futuras

A pesquisa indica que há várias avenidas para explorar mais melhorias nos sistemas de detecção de fraudes. Trabalhos futuros poderiam incluir a integração de representações aprendidas a partir do SSL em modelos mais complexos, como aqueles que levam em conta sequências de transações ou modelos baseados em grafos. Isso permitiria uma compreensão mais nuançada do comportamento dos usuários e padrões de fraude.

Conclusão

Em resumo, utilizar abordagens avançadas de Deep Learning, especialmente modelos Transformer, oferece um caminho promissor para melhorar os sistemas de detecção de fraudes no e-commerce. Ao adotar estratégias como Aprendizado Auto-Supervisionado e o método do Grupo de Controle, as empresas podem aprimorar suas capacidades de detecção de fraudes enquanto gerenciam os custos de forma eficaz. Esta pesquisa contínua contribuirá para criar um ambiente online mais seguro para os usuários, ajudando a construir confiança e confiabilidade nas plataformas de e-commerce.

Fonte original

Título: Challenging Gradient Boosted Decision Trees with Tabular Transformers for Fraud Detection at Booking.com

Resumo: Transformer-based neural networks, empowered by Self-Supervised Learning (SSL), have demonstrated unprecedented performance across various domains. However, related literature suggests that tabular Transformers may struggle to outperform classical Machine Learning algorithms, such as Gradient Boosted Decision Trees (GBDT). In this paper, we aim to challenge GBDTs with tabular Transformers on a typical task faced in e-commerce, namely fraud detection. Our study is additionally motivated by the problem of selection bias, often occurring in real-life fraud detection systems. It is caused by the production system affecting which subset of traffic becomes labeled. This issue is typically addressed by sampling randomly a small part of the whole production data, referred to as a Control Group. This subset follows a target distribution of production data and therefore is usually preferred for training classification models with standard ML algorithms. Our methodology leverages the capabilities of Transformers to learn transferable representations using all available data by means of SSL, giving it an advantage over classical methods. Furthermore, we conduct large-scale experiments, pre-training tabular Transformers on vast amounts of data instances and fine-tuning them on smaller target datasets. The proposed approach outperforms heavily tuned GBDTs by a considerable margin of the Average Precision (AP) score. Pre-trained models show more consistent performance than the ones trained from scratch when fine-tuning data is limited. Moreover, they require noticeably less labeled data for reaching performance comparable to their GBDT competitor that utilizes the whole dataset.

Autores: Sergei Krutikov, Bulat Khaertdinov, Rodion Kiriukhin, Shubham Agrawal, Kees Jan De Vries

Última atualização: 2024-05-22 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2405.13692

Fonte PDF: https://arxiv.org/pdf/2405.13692

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes