Detección de fraude en Finanzas Descentralizadas usando Aprendizaje Automático
Explorando métodos para detectar fraude en DeFi utilizando técnicas avanzadas de análisis de datos.
― 5 minilectura
Tabla de contenidos
- La necesidad de Detección de fraudes
- Usando Aprendizaje automático para la detección de fraudes
- Recolección de datos y Características
- Enfrentando datos desbalanceados
- Algoritmos de aprendizaje automático
- Resultados experimentales
- Importancia de las características
- Lecciones y trabajo futuro
- Conclusión
- Fuente original
- Enlaces de referencia
Desde que se introdujo Bitcoin en 2008, la tecnología blockchain ha demostrado que puede usarse para crear un sistema financiero que no depende de intermediarios de confianza. Esto permitió el desarrollo de las Finanzas Descentralizadas (DeFi). En DeFi, los usuarios pueden acceder a varios servicios financieros como préstamos, comercio e inversión, todo en una blockchain sin necesidad de bancos o corredores. Sin embargo, aunque hay muchas oportunidades en DeFi, también hay riesgos significativos, especialmente en lo que respecta al fraude y actividades maliciosas.
La necesidad de Detección de fraudes
Con el crecimiento de DeFi, ha aumentado el número de delitos financieros. Detectar a los actores malos temprano se vuelve crucial para mantener la seguridad e integridad del sistema financiero. La detección de fraudes en este espacio puede ayudar a proteger los fondos de los usuarios y mejorar la confianza en las plataformas DeFi.
Usando Aprendizaje automático para la detección de fraudes
Este documento presenta una forma de usar técnicas de aprendizaje automático para detectar fraudes en finanzas descentralizadas. El aprendizaje automático puede analizar grandes cantidades de datos e identificar patrones que podrían indicar comportamientos maliciosos. Al entrenar algoritmos en un conjunto de datos de Transacciones, estos modelos pueden aprender a reconocer actividades sospechosas.
Recolección de datos y Características
Para desarrollar un sistema efectivo de detección de fraudes, los investigadores reunieron una gran cantidad de datos. Se enfocaron en los principales protocolos DeFi, recolectando transacciones de más de 23 plataformas en un plazo desde mayo de 2019 hasta marzo de 2023. Esto resultó en más de 54 millones de transacciones vinculadas a aproximadamente 550,000 direcciones únicas.
La extracción de características es esencial para el éxito del aprendizaje automático. Los investigadores recolectaron un conjunto de características basadas en el comportamiento de las transacciones de los usuarios. Esto incluye tanto características transaccionales tradicionales como características específicas relacionadas con actividades DeFi. El objetivo era crear un conjunto de datos robusto que pudiera ayudar a identificar cuentas maliciosas.
Enfrentando datos desbalanceados
Un desafío en la detección de fraudes es la naturaleza desbalanceada de los datos. Hay significativamente más cuentas legítimas que fraudulentas. Para lidiar con esto, los investigadores utilizaron técnicas como SMOTE, que ayuda a balancear el conjunto de datos creando ejemplos sintéticos de la clase minoritaria (cuentas fraudulentas).
Algoritmos de aprendizaje automático
Los investigadores emplearon varios algoritmos de aprendizaje automático para clasificar las transacciones. Se probaron cinco modelos diferentes: Regresión Logística, Bosque Aleatorio, Máquina de Vectores de Soporte (SVM), XGBoost y una Red Neuronal Artificial (ANN). Cada modelo fue evaluado en base a su rendimiento usando métricas estándar como Precisión, Recall y F1-score.
Resultados experimentales
Los resultados mostraron que todos los modelos tuvieron un buen desempeño al identificar cuentas legítimas. Sin embargo, hubo diferencias notables en la identificación correcta de cuentas fraudulentas. Entre los modelos probados, XGBoost y la Red Neuronal destacaron, logrando altas puntuaciones en precisión y recall. Esto indica que fueron efectivos para reconocer actividades maliciosas mientras minimizaban los falsos positivos.
La introducción de características relacionadas con DeFi mejoró significativamente el rendimiento del modelo. En muchos casos, estas características proporcionaron un contexto vital que ayudó a identificar a los actores malos con más precisión.
Importancia de las características
Analizar la importancia de las características reveló que las relacionadas con DeFi contribuyeron significativamente a la efectividad de los modelos. Las características transaccionales tradicionales también fueron valiosas, pero las características relacionadas con DeFi proporcionaron información adicional que no era inmediatamente clara. Esto sugiere que incorporar un conjunto más amplio de características puede mejorar los sistemas de detección de fraudes.
Lecciones y trabajo futuro
Aplicar aprendizaje automático para detectar fraudes en DeFi es un esfuerzo prometedor. La investigación confirma que nuevas características derivadas de actividades DeFi ayudan a mejorar la clasificación. La capacidad de clasificar y detectar cuentas fraudulentas puede, en última instancia, mejorar la confianza de los usuarios en las finanzas descentralizadas.
Todavía queda trabajo por hacer. Investigaciones futuras podrían explorar métodos de aprendizaje automático más avanzados, incluyendo enfoques de aprendizaje profundo. Además, los investigadores planean investigar más técnicas de preprocesamiento y mejoras continuas que pueden mejorar la efectividad general del sistema.
Conclusión
La intersección de blockchain y la tecnología financiera presenta tanto oportunidades como desafíos. Mientras que las finanzas descentralizadas han abierto nuevas avenidas para los usuarios, también han atraído entidades maliciosas buscando explotar vulnerabilidades. Al aplicar técnicas de aprendizaje automático, podemos identificar y entender mejor estas amenazas.
Este trabajo muestra que es posible crear un sistema que no solo detecta fraudes, sino que también se adapta y mejora mediante la inclusión de nuevos datos y características. A medida que DeFi sigue creciendo, los esfuerzos en detección de fraudes serán cruciales para asegurar que este modelo financiero pueda prosperar de forma segura y protegida.
Título: Leveraging Machine Learning for Multichain DeFi Fraud Detection
Resumen: Since the inception of permissionless blockchains with Bitcoin in 2008, it became apparent that their most well-suited use case is related to making the financial system and its advantages available to everyone seamlessly without depending on any trusted intermediaries. Smart contracts across chains provide an ecosystem of decentralized finance (DeFi), where users can interact with lending pools, Automated Market Maker (AMM) exchanges, stablecoins, derivatives, etc. with a cumulative locked value which had exceeded 160B USD. While DeFi comes with high rewards, it also carries plenty of risks. Many financial crimes have occurred over the years making the early detection of malicious activity an issue of high priority. The proposed framework introduces an effective method for extracting a set of features from different chains, including the largest one, Ethereum and it is evaluated over an extensive dataset we gathered with the transactions of the most widely used DeFi protocols (23 in total, including Aave, Compound, Curve, Lido, and Yearn) based on a novel dataset in collaboration with Covalent. Different Machine Learning methods were employed, such as XGBoost and a Neural Network for identifying fraud accounts detection interacting with DeFi and we demonstrate that the introduction of novel DeFi-related features, significantly improves the evaluation results, where Accuracy, Precision, Recall, F1-score and F2-score where utilized.
Autores: Georgios Palaiokrassas, Sandro Scherrers, Iason Ofeidis, Leandros Tassiulas
Última actualización: 2023-05-17 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2306.07972
Fuente PDF: https://arxiv.org/pdf/2306.07972
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.
Enlaces de referencia
- https://cryptoscamdb.org/
- https://etherscan.io/
- https://cointelegraph.com/news/tether-blacklists-39-ethereum-addresses-worth-over-46-million
- https://github.com/MyEtherWallet/ethereum-lists/blob/master/src/addresses/addresses-darklist.json
- https://www.kaggle.com/datasets/vagifa/ethereum-frauddetection-dataset
- https://xblock.pro/tx/
- https://github.com/salam-ammari/Labeled-Transactions-based-Dataset-of-Ethereum-Network
- https://scikit-learn.org/
- https://www.covalenthq.com/