Simple Science

La science de pointe expliquée simplement

# Finance quantitative # Apprentissage automatique # Finance générale

Un aperçu complet des transactions Bitcoin

Explorer un nouveau jeu de données sur les transactions Bitcoin pour des insights plus poussés.

Hugo Schnoering, Michalis Vazirgiannis

― 9 min lire


Analyse du dataset de Analyse du dataset de transactions Bitcoin transaction de Bitcoin. Une plongée dans les énormes données de
Table des matières

Bitcoin a commencé en 2008, créé par quelqu'un qui se fait appeler Satoshi Nakamoto. C’était la première vraie tentative d’une monnaie numérique qui n’avait pas besoin d'une banque ou d'un gouvernement pour suivre les transactions. Au lieu de ça, ça a permis aux gens d’échanger de la valeur directement entre eux. Ce papier parle d'un énorme ensemble de données qui examine toutes les transactions faites avec Bitcoin, représentées sous forme de graphique. Alors, ça veut dire quoi ? Imagine ça comme une grande carte montrant qui envoie de l'argent à qui.

La Grande Image

Donc, Bitcoin vise à créer un nouveau type d'économie. Dans cette économie, tu peux garder ton argent et l'envoyer à quelqu'un d'autre sans avoir besoin d'une banque. Bitcoin fonctionne sur un ensemble de règles sur lesquelles tout le monde s'accorde. Contrairement à l'argent traditionnel, il n'y a pas d'autorité centrale qui gère l'inflation ou vérifie les transactions. À la place, Bitcoin utilise un réseau d'utilisateurs qui collaborent pour que tout fonctionne bien.

Depuis le lancement de Bitcoin, de plus en plus de gens ont commencé à l'utiliser. En 2023, environ 270 000 utilisateurs montaient chaque jour dans le train Bitcoin, bougeant un incroyable 8,6 trillions de dollars. C’est une sacrée pizza ! Les chercheurs s'intéressent aussi beaucoup à Bitcoin, avec des milliers d'études qui fleurissent chaque année pour chercher des réponses et des idées sur ce monde numérique.

L'ensemble de données

Malgré toutes les données publiques disponibles sur les transactions Bitcoin, trouver un ensemble de données solide pour la recherche, c'est comme chercher une aiguille dans une botte de foin. Beaucoup de gens se sont concentrés sur la sécurisation et l'utilité de Bitcoin, mais il y a encore pas mal de défis, comme la fraude et d'autres comportements sournois.

Ce papier présente un gros ensemble de données qui cartographie les transactions Bitcoin. Cet ensemble de données n'est pas juste quelques transactions minables – il inclut plus de 252 millions de Nœuds et 785 millions d'arêtes, ou connexions, sur presque 13 ans ! Cet ensemble de données est un gros coup car c’est le plus grand ensemble de données sur les transactions Bitcoin disponible au public, ce qui facilite la vie des chercheurs.

Le Graphique Expliqué

Dans ce graphique, chaque nœud représente un utilisateur identifiable, une organisation ou une institution impliquée dans Bitcoin, comme de vraies personnes ou des entreprises. Les arêtes représentent le flux d'argent entre ces nœuds. Bonne nouvelle : tout dans cet ensemble de données est horodaté, donc les chercheurs peuvent voir la chronologie des transactions, ce qui facilite l'étude des tendances au fil du temps.

Les Tâches Supervisées

Pour rendre l'analyse plus fluide, les chercheurs ont mis en place deux ensembles labellisés :

  1. Un avec 33 000 nœuds basés sur le type d'entités (comme des personnes ou des entreprises).
  2. Un autre avec près de 100 000 adresses Bitcoin étiquetées pour que tout le monde sache à qui elles appartiennent.

Cet ensemble de données est plus grand et meilleur que les précédents. Pour rendre les choses encore plus excitantes, les chercheurs ont entraîné différents modèles pour prédire les étiquettes des nœuds, afin d'établir une base pour les recherches futures. Pense à ça comme donner aux chercheurs une carte en se perdant dans une jungle numérique.

Pourquoi Bitcoin est-il Spécial ?

Bitcoin est très différent des monnaies classiques. Il utilise un truc appelé cryptographie asymétrique, où chaque utilisateur a une clé privée pour garder ses fonds en sécurité. Cette clé n’est jamais partagée avec qui que ce soit. Au lieu de ça, les gens interagissent en utilisant des adresses liées à leurs clés privées.

Chaque Bitcoin est sauvegardé dans ce qu’on appelle une Transaction Output (TXO). Une TXO a une valeur et un script de verrouillage qui nous dit comment l'utiliser. Exactement, tu peux pas juste entrer et le prendre ; tu dois suivre les règles !

Le Jeu des Transactions

Quand tu fais une transaction, tu prends quelques TXOs, les dépenses, et crées de nouveaux. Si le montant que tu dépenses est inférieur ou égal à celui que tu reçois, tout va bien. Dans ce jeu, la TXO passe de non dépensée à dépensée, prête pour une utilisation future.

La plupart des gens pensent aux transactions Bitcoin comme le fait de déplacer de l'argent. En réalité, c’est surtout changer les TXOs d'un endroit à un autre, remuant un peu les choses tout en gardant tout légal.

Construire le Graphique

En mettant sur pied cet énorme ensemble de données, les chercheurs ont dû extraire des données de la blockchain Bitcoin, qui est comme un registre public où toutes les transactions sont enregistrées. Les chercheurs ont installé un nœud Bitcoin spécial, téléchargé toutes les données de transaction, et ont commencé à trier.

Définir les Nœuds

Tout le Bitcoin existant est bloqué dans des TXOs non dépensés, et c’est là que les chercheurs ont eu l'idée des nœuds. Ils ont examiné les scripts de verrouillage qui gardent les fonds en sécurité et ont utilisé ça comme base pour identifier les vraies entités derrière chaque nœud.

En utilisant des astuces intelligentes de recherches précédentes, les chercheurs ont fait des connexions entre les scripts et ont identifié qui se cachait derrière l'argent. Au final, ils ont découvert plus de 874 millions de scripts, qu'ils ont regroupés en clusters représentant de vrais utilisateurs.

Tracer des Arêtes

Maintenant, en ce qui concerne la définition des connexions – ou arêtes – entre les nœuds, c'est là que le vrai plaisir commence. Quand les utilisateurs envoient et reçoivent de l'argent, les chercheurs doivent comprendre qui envoie et qui reçoit.

Si un nœud (l'expéditeur) envoie de la valeur à un autre nœud (le récepteur), ils créent une arête qui montre cette transaction. Il y a quelques transactions spéciales à surveiller, comme les transactions CoinJoin, qui mélangent de l'argent de différents utilisateurs pour garder ça privé. Celles-ci sont un peu compliquées, donc les chercheurs ont décidé de les laisser de côté lors de la construction de leur ensemble de données.

Caractéristiques Uniques de l'Ensemble de Données

L'ensemble de données n'est pas juste un gros tas de chiffres ; il a quelques caractéristiques cool. Chaque arête dans le graphique porte des informations sur les transactions, tandis que chaque nœud partage des idées sur le comportement des entités connectées.

Différents Types d'Entités

L'écosystème Bitcoin est plein de joueurs avec des rôles différents. Ça peut être des gens normaux, des entreprises, ou même des opérateurs louches. Beaucoup de recherches sont menées pour comprendre comment ces acteurs interagissent avec Bitcoin.

Pour étiqueter ces entités, les chercheurs ont utilisé des infos provenant de diverses sources, y compris des forums et des bases de données. Ils ont traité une gamme de types d'entités : des mineurs qui confirment les transactions aux échanges où les gens échangent des Bitcoins. Chaque entité obtient une petite étiquette sympa, donc c'est facile de savoir de quoi il s'agit.

BitcoinTalk – Notre Trésor

Pour trouver ces étiquettes, les chercheurs se sont tournés vers BitcoinTalk, un forum bouillonnant de discussions sur Bitcoin. Ils ont fouillé les messages et ont extrait des informations sur les adresses, le contexte et les activités liées aux transactions Bitcoin.

En grattant à travers ce forum, ils ont rassemblé un incroyable 14 millions de messages. Ça fait beaucoup de bavardages ! En utilisant une IA rusée, ils ont nettoyé les données, fait des connexions et attribué des étiquettes aux adresses.

Mettre Tout Ensemble

Une fois le graphique construit, les chercheurs ont entraîné plusieurs modèles pour prédire ce que représente chaque nœud en fonction de ses connexions et de ses caractéristiques. En faisant ça, ils ont testé à quel point l'ensemble de données pouvait aider à distinguer entre différents types d'utilisateurs.

Validation des Données

Pour s'assurer que tout était au point, les chercheurs ont vérifié à quel point ils pouvaient prédire des étiquettes basées sur les caractéristiques. Cela sert comme un moyen de valider l'ensemble de données en voyant s'il peut connecter des données hors chaîne (comme des discussions sur Internet) avec les données en chaîne (les transactions réelles).

Un Aperçu des Cas d'Utilisation

Cet ensemble de données n'est pas juste bon pour une seule chose. En plus de prédire des étiquettes, il y a plein d’autres manières de l'utiliser :

  • Analyser les Modèles d'Interaction : En étudiant comment les différents types d'entités interagissent au fil du temps, les chercheurs peuvent voir comment ces relations évoluent. Ça inclut des choses comme le blanchiment d'argent et des transactions louche.

  • Observer les Changements au Fil du Temps : Surveiller comment le graphique Bitcoin évolue peut en dire long sur la croissance et les tendances du réseau.

  • Comparer les Réseaux : Les chercheurs peuvent comparer Bitcoin à d'autres réseaux économiques, aidant à mieux comprendre ses caractéristiques uniques.

Obtenir l'Ensemble de Données

L'ensemble de données est disponible pour quiconque veut plonger dedans. Il contient un trésor d'informations, y compris des messages de BitcoinTalk, des adresses étiquetées, et l'ensemble du graphique stocké dans une base de données.

Pour Résumer

Voilà, c'est ça. Ce nouvel ensemble de données est comme une carte qui ouvre de nouveaux chemins pour la recherche sur les transactions Bitcoin. Ça aide les chercheurs à relier les points entre les utilisateurs, rendant plus facile d'étudier comment la valeur circule dans cette monnaie numérique.

Que tu sois un chercheur prêt à mettre ton chapeau d'explorateur ou juste quelqu'un de curieux sur le fonctionnement de Bitcoin, cet ensemble de données est une opportunité excitante d'en apprendre plus. Qui sait ? Peut-être que tu découvriras quelque chose de révolutionnaire que tout le monde a raté !

Source originale

Titre: Bitcoin Research with a Transaction Graph Dataset

Résumé: Bitcoin, launched in 2008 by Satoshi Nakamoto, established a new digital economy where value can be stored and transferred in a fully decentralized manner - alleviating the need for a central authority. This paper introduces a large scale dataset in the form of a transactions graph representing transactions between Bitcoin users along with a set of tasks and baselines. The graph includes 252 million nodes and 785 million edges, covering a time span of nearly 13 years of and 670 million transactions. Each node and edge is timestamped. As for supervised tasks we provide two labeled sets i. a 33,000 nodes based on entity type and ii. nearly 100,000 Bitcoin addresses labeled with an entity name and an entity type. This is the largest publicly available data set of bitcoin transactions designed to facilitate advanced research and exploration in this domain, overcoming the limitations of existing datasets. Various graph neural network models are trained to predict node labels, establishing a baseline for future research. In addition, several use cases are presented to demonstrate the dataset's applicability beyond Bitcoin analysis. Finally, all data and source code is made publicly available to enable reproducibility of the results.

Auteurs: Hugo Schnoering, Michalis Vazirgiannis

Dernière mise à jour: 2024-11-15 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2411.10325

Source PDF: https://arxiv.org/pdf/2411.10325

Licence: https://creativecommons.org/licenses/by-sa/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires