Simple Science

Ciência de ponta explicada de forma simples

# Informática# Engenharia de software# Inteligência Artificial

Nova Abordagem para Detectar Esquemas Ponzi no Ethereum

O SourceP melhora a detecção de esquemas Ponzi em contratos inteligentes usando análise de código-fonte.

― 9 min ler


Detectando Esquemas PonziDetectando Esquemas Ponzicom SourcePcontratos inteligentes.através da análise do código fonte deA SourceP identifica esquemas Ponzi
Índice

À medida que a tecnologia blockchain vai ganhando popularidade, surgiram fraudes do tipo esquema Ponzi na plataforma Ethereum. Esses Esquemas Ponzi são gerenciados por Contratos Inteligentes e podem resultar em perdas significativas e efeitos negativos para os investidores. As formas atuais de identificar esses esquemas Ponzi inteligentes geralmente analisam detalhes técnicos como bytecode e comportamento de contas, mas esses métodos muitas vezes falham em identificar com precisão essas fraudes.

Reconhecendo a necessidade de melhores métodos de detecção, propomos o SourceP, uma nova técnica para identificar esquemas Ponzi na Ethereum. Essa abordagem utiliza o código-fonte dos contratos inteligentes, facilitando a coleta de dados e a análise de recursos. O SourceP transforma o código dos contratos em um gráfico visual que mostra como os dados fluem dentro do código e usa um modelo treinado para classificar se o contrato é um esquema Ponzi.

Nossos testes mostram que o SourceP tem uma taxa de recuperação de 87,2% e um F-score de 90,7%, o que significa que identifica esquemas Ponzi de forma eficaz, mantendo uma baixa taxa de alarmes falsos. Esse desempenho é melhor do que muitos métodos existentes e prova que usar o código-fonte e o fluxo de dados pode ajudar muito na detecção desses esquemas.

O que é Blockchain e Ethereum?

Blockchain é uma tecnologia que mantém registros de transações em uma rede descentralizada onde nenhuma entidade única a controla. Ela permite que os participantes da rede verifiquem transações sem precisar confiar uns nos outros, o que é crucial para sua segurança e confiabilidade. A blockchain tem muitas aplicações, incluindo áreas como Internet das Coisas, votação, saúde e até mesmo aplicações financeiras como finanças descentralizadas (DeFi) e tokens não fungíveis (NFTs).

Ethereum é uma plataforma blockchain popular que suporta contratos inteligentes, que são contratos autoexecutáveis com os termos diretamente escritos em código. Quando certas condições são atendidas, esses contratos executam automaticamente as ações acordadas, eliminando a necessidade de intermediários. Essa tecnologia abriu portas para aplicações descentralizadas (DApps), mas também forneceu um meio para golpistas criarem esquemas Ponzi.

Entendendo os Esquemas Ponzi

Esquemas Ponzi são um tipo de fraude que promete altos retornos com pouco risco. Eles funcionam usando o dinheiro de novos investidores para pagar retornos aos investidores anteriores. O esquema depende de atrair continuamente novos investidores, e quando esse fluxo para, toda a operação entra em colapso, deixando os que entraram por último com prejuízos.

Esses esquemas existem há mais de um século e agora encontraram seu caminho no espaço blockchain. O anonimato proporcionado pelos contratos inteligentes permite que golpistas atuem sem revelar suas identidades, tornando difícil rastrear as fraudes. De acordo com pesquisas, bilhões de dólares foram perdidos em esquemas Ponzi no espaço das criptomoedas, destacando a necessidade de métodos de detecção eficazes.

Desafios na Detecção

Métodos tradicionais para detectar esquemas Ponzi na Ethereum têm suas limitações. Muitas vezes, eles dependem da análise de bytecode ou comportamentos de transação, que podem ser facilmente manipulados. Além disso, coletar dados precisos sobre contas de usuários e padrões de transações pode ser difícil devido à natureza anônima da blockchain.

À medida que os contratos inteligentes evoluem, os métodos de detecção existentes perdem eficácia. Isso exige uma nova abordagem que possa se adaptar a essas mudanças e identificar com precisão os esquemas Ponzi usando dados mais confiáveis.

Apresentando o SourceP

O SourceP tem como objetivo melhorar a detecção de esquemas Ponzi inteligentes ao focar exclusivamente no código-fonte dos contratos inteligentes. Esse método começa convertendo o código do contrato em um gráfico de fluxo de dados (DFG), que ilustra como as variáveis no código interagem. O DFG fornece informações críticas sobre o comportamento do código, permitindo uma análise mais eficaz.

Usando um modelo pré-treinado, o SourceP aprende a partir do DFG para reconhecer padrões que indicam um esquema Ponzi. Essa abordagem oferece várias vantagens, incluindo a redução da dificuldade na coleta de dados e extração de recursos, mantendo uma alta precisão na detecção.

Visão Geral do Método

O método SourceP consiste em duas fases principais:

  1. Normalização da Entrada: Essa fase envolve a conversão do código-fonte dos contratos inteligentes em árvores de sintaxe abstrata (AST) e gráficos de fluxo de dados (DFG). O AST fornece informações estruturadas sobre o código, enquanto o DFG destaca como os dados e variáveis dentro do código interagem.

  2. Detecção de Esquemas Ponzi Inteligentes: Os dados transformados são então alimentados em um modelo pré-treinado. Esse modelo analisa o DFG e o código-fonte para classificar se o contrato é um esquema Ponzi.

Esse processo em duas etapas ajuda a identificar contratos fraudulentos de maneira eficiente, reduzindo a necessidade de uma análise manual extensa.

Geração do Gráfico de Fluxo de Dados

Na primeira etapa, o código-fonte é convertido em uma árvore de sintaxe abstrata (AST). Ferramentas como tree-sitter ajudam a construir o AST, que captura a sintaxe e a estrutura do código. No entanto, como o Solidity, a linguagem usada para contratos inteligentes da Ethereum, não tem suporte oficial no tree-sitter, uma versão especializada chamada tree-sitter-solidity é usada.

Em seguida, o AST é transformado em um gráfico de fluxo de dados (DFG). Nesse gráfico, cada variável se torna um nó, e arestas direcionadas ilustram como os valores são passados entre as variáveis. Essa representação permite que o SourceP entenda efetivamente as dependências e o fluxo de dados dentro do código do contrato.

Estrutura do Modelo

A estrutura do modelo do SourceP segue principalmente a arquitetura de um modelo pré-treinado bem conhecido chamado GraphCodeBERT. Esse modelo usa um Transformer bidirecional de múltiplas camadas que ajuda a entender as relações entre os tokens nos dados de entrada.

O DFG é usado como entrada para o modelo, permitindo que ele contextualize as variáveis e suas dependências. Cada variável possui embeddings especiais para indicar seu papel no fluxo de dados, o que ajuda ainda mais no processo de detecção.

O modelo processa a entrada através de várias camadas, aplicando mecanismos de atenção para capturar relações importantes. No final das camadas, o modelo fornece um rótulo previsto indicando se o contrato inteligente é um esquema Ponzi.

Tarefas do Modelo Pré-Treinado

O SourceP utiliza tarefas pré-treinadas específicas para melhorar sua precisão:

  1. Modelagem de Linguagem Mascarada (MLM): Essa tarefa oculta aleatoriamente tokens nos dados de entrada. O modelo aprende a prever os tokens originais com base no contexto, melhorando assim sua compreensão do código-fonte.

  2. Previsão de Arestas de Fluxo de Dados: Isso envolve ocultar certas conexões no DFG e treinar o modelo para prever se essas conexões existem. Ao fazer isso, o modelo se torna mais consciente das relações de dados no código.

  3. Alinhamento de Nós: Essa tarefa alinha a representação do código-fonte e do fluxo de dados, garantindo que o modelo possa conectar com precisão os tokens de código com suas variáveis correspondentes no DFG.

Essas tarefas, coletivamente, fortalecem a capacidade do SourceP de detectar esquemas Ponzi inteligentes de maneira eficaz.

Configuração do Experimento

Para avaliar o SourceP, foi utilizado um conjunto de dados composto por 6.498 contratos inteligentes. Dentre eles, 318 contratos foram rotulados como esquemas Ponzi, enquanto os restantes foram marcados como contratos não-Ponzi. Os contratos foram analisados para garantir uma rotulagem precisa, fornecendo uma base sólida para testar a eficácia do modelo.

O desempenho do modelo foi medido usando métricas comuns como precisão, taxa de recuperação e F-score. Essas métricas ajudam a entender como o SourceP identifica esquemas Ponzi enquanto minimiza falsos positivos.

Resultados e Discussão

Comparação de Desempenho

Ao comparar o SourceP com métodos existentes de ponta, ele demonstrou melhorias significativas em várias métricas. Especificamente, alcançou taxas de recuperação melhores, o que significa que conseguiu identificar corretamente uma porcentagem maior de esquemas Ponzi reais sem comprometer a precisão.

Esse desempenho indica que o SourceP fornece uma ferramenta confiável para detectar esquemas Ponzi, especialmente à medida que novos esquemas surgem e evoluem.

Sustentabilidade

A sustentabilidade é crucial para qualquer método de detecção. À medida que novos esquemas Ponzi são implantados, eles podem diferir significativamente dos mais antigos. O SourceP foi testado contra conjuntos de dados categorizados pela altura do bloco dos contratos inteligentes. Os resultados mostraram que ele manteve um desempenho alto mesmo ao detectar esquemas Ponzi mais novos, provando sua viabilidade a longo prazo.

Contribuições das Tarefas Pré-Treinadas

Foram realizados estudos de ablação para determinar o impacto das tarefas pré-treinadas e do DFG nos resultados de detecção. Os resultados indicaram quedas substanciais no desempenho quando esses elementos foram removidos, destacando sua importância na eficácia do SourceP.

Capacidade de Generalização

Para avaliar a generalização, o conjunto de dados foi dividido aleatoriamente em conjuntos de treinamento, validação e teste. O SourceP demonstrou bom desempenho na identificação de esquemas Ponzi em diferentes divisões, confirmando sua natureza robusta.

Conclusão

Em resumo, o SourceP representa um avanço significativo na detecção de esquemas Ponzi inteligentes na plataforma Ethereum. Ao focar exclusivamente no código-fonte e empregar uma abordagem de fluxo de dados, ele oferece uma solução inovadora para um problema urgente no espaço da blockchain.

Trabalhos futuros se concentrarão na ampliação do conjunto de dados, explorando como o SourceP pode se adaptar para detectar novos tipos de esquemas Ponzi e avaliando suas potenciais aplicações em outras áreas da segurança blockchain. O objetivo final é aprimorar a detecção e prevenção de fraudes financeiras dentro dos ecossistemas de blockchain, protegendo os usuários e promovendo uma comunidade blockchain mais saudável.

Fonte original

Título: SourceP: Detecting Ponzi Schemes on Ethereum with Source Code

Resumo: As blockchain technology becomes more and more popular, a typical financial scam, the Ponzi scheme, has also emerged in the blockchain platform Ethereum. This Ponzi scheme deployed through smart contracts, also known as the smart Ponzi scheme, has caused a lot of economic losses and negative impacts. Existing methods for detecting smart Ponzi schemes on Ethereum mainly rely on bytecode features, opcode features, account features, and transaction behavior features of smart contracts, which are unable to truly characterize the behavioral features of Ponzi schemes, and thus generally perform poorly in terms of detection accuracy and false alarm rates. In this paper, we propose SourceP, a method to detect smart Ponzi schemes on the Ethereum platform using pre-trained models and data flow, which only requires using the source code of smart contracts as features. SourceP reduces the difficulty of data acquisition and feature extraction of existing detection methods. Specifically, we first convert the source code of a smart contract into a data flow graph and then introduce a pre-trained model based on learning code representations to build a classification model to identify Ponzi schemes in smart contracts. The experimental results show that SourceP achieves 87.2% recall and 90.7% F-score for detecting smart Ponzi schemes within Ethereum's smart contract dataset, outperforming state-of-the-art methods in terms of performance and sustainability. We also demonstrate through additional experiments that pre-trained models and data flow play an important contribution to SourceP, as well as proving that SourceP has a good generalization ability.

Autores: Pengcheng Lu, Liang Cai, Keting Yin

Última atualização: 2024-02-29 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2306.01665

Fonte PDF: https://arxiv.org/pdf/2306.01665

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes