Simple Science

La science de pointe expliquée simplement

# Informatique# Calcul et langage# Recherche d'informations

Un nouveau jeu de données pour identifier les crimes financiers

Présentation d'un ensemble de données spécialisé pour suivre les individus et les organisations dans les crimes financiers.

Panagiotis Koletsis, Panagiotis-Konstantinos Gemos, Christos Chronis, Iraklis Varlamis, Vasilis Efthymiou, Georgios Th. Papadopoulos

― 7 min lire


Identifier les criminelsIdentifier les criminelsfinanciers efficacementavec des modèles avancés.acteurs de la criminalité financièreNouvelles méthodes pour suivre les
Table des matières

La criminalité financière est un vrai problème qui a augmenté ces dernières années, inquiétant tout le monde, des particuliers aux entreprises en passant par les gouvernements. Cette hausse inclut des activités comme le lavage d'argent et l'évasion des sanctions. Même si l'intérêt pour combattre ces problématiques grandit, il n'y a pas beaucoup de Jeux de données spécialisés pour aider ceux qui cherchent à comprendre ou à traiter ces questions. Cet article présente un nouveau jeu de données conçu pour aider à identifier les personnes et les Organisations impliquées dans des Crimes financiers à partir d'articles de presse.

Le besoin d'un nouveau jeu de données

Comme les crimes financiers continuent d'augmenter, c'est super important d'avoir des outils pour identifier les personnes et les organisations impliquées. Malheureusement, la plupart des recherches sur la finance se concentrent sur le marché boursier et ne s'attaquent pas spécifiquement à la criminalité financière. Pour combler cette lacune, on a créé un micro-jeu de données qui permet d'identifier les personnes et les organisations mentionnées dans des articles de presse en lien avec des crimes financiers. Ce jeu de données peut être utilisé par des experts qui enquêtent sur ce type de crimes.

Utilisation de grands modèles de langage

Les grands modèles de langage (LLMs) ont gagné en popularité grâce à leur capacité à réaliser différentes tâches en traitement de langage naturel. Ces modèles peuvent analyser des textes et reconnaître des Entités nommées, comme des personnes et des organisations. Une question clé est de savoir à quel point ces modèles sont efficaces lorsqu'on leur donne des instructions bien formulées. Étant donné le manque de recherche dans ce domaine de la criminalité financière, on s'est concentrés sur le développement d'un jeu de données spécialisé pour évaluer combien les LLMs peuvent bien identifier des personnes et des organisations dans de tels contextes.

Création du jeu de données

Le jeu de données qu'on a développé se compose d'articles liés à des crimes financiers où des personnes et des organisations sont mentionnées. Le processus consiste à rassembler des articles et à les annoter avec les noms des personnes et des organisations. On a utilisé une combinaison de méthodes manuelles et automatisées pour garantir l'exactitude. Au départ, on a utilisé un outil appelé spaCy pour l'annotation manuelle, puis on a vérifié les résultats avec un autre LLM, ChatGPT. Cette combinaison aide à s'assurer que les noms identifiés sont exacts et fiables.

Le jeu de données qu'on a créé inclut une large gamme d'articles, permettant différents scénarios de tests. Au total, on a collecté 15 articles et annoté 84 personnes et 128 organisations dans le jeu de données.

Amélioration du processus

Quand on travaille avec des LLMs, il peut y avoir des défis, comme des références ambiguës. Par exemple, une organisation peut être référencée de différentes manières dans un article. Pour y remédier, on a mis en place une méthode qui associe ces différentes références tout en s'assurant que leurs significations restent cohérentes. Ça aide à améliorer le processus d'identification et assure de meilleurs résultats lors de l'analyse des données.

Méthodes d'évaluation

Une fois le jeu de données créé, l'étape suivante était d'évaluer l'efficacité de nos méthodes pour identifier les entités nommées. On a utilisé des métriques standard comme l'exactitude, la précision, le rappel et le score F1 pour mesurer la performance des modèles. L'objectif n'était pas seulement de trouver des correspondances exactes, mais aussi d'évaluer à quel point les résultats étaient sémantiquement similaires, ce qui est crucial pour reconnaître différents noms ou termes désignant la même entité.

On a suivi un processus d'évaluation structuré nécessaire pour comprendre la performance de nos méthodes. Ce processus implique de passer chaque article à travers un modèle d'invite conçu pour les LLMs. Si les résultats ne sont pas satisfaisants, on a développé une deuxième couche qui s'assure que les réponses sont bien structurées, permettant d'isoler efficacement les informations utiles.

Configuration expérimentale

Dans les expériences, on a testé une gamme de modèles LLM, en particulier ceux ayant moins de dix milliards de paramètres. On voulait déterminer quels modèles performaient le mieux à identifier des personnes et des organisations dans notre jeu de données. Les résultats de ces expériences ont montré l'importance d'une bonne ingénierie des invites et comment de petits ajustements aux invites pouvaient améliorer les performances.

Nos découvertes ont mis en avant que même de légers changements pouvaient améliorer l'exactitude et la performance globale. On a aussi comparé nos méthodes avec un cadre largement utilisé appelé spaCy, connu pour sa rapidité. Notre méthode a surpassé spaCy dans l'identification des entités, bien que spaCy était plus rapide dans le traitement des articles.

Résultats et discussion

Quand on a comparé l'identification des individus et des organisations, on a trouvé que certains modèles fonctionnaient mieux que d'autres. Par exemple, un des modèles, Gemma2:9B, a montré des résultats impressionnants, atteignant de hauts scores F1, qui mesurent un équilibre entre précision et rappel. Cependant, le point clé était comment les différentes stratégies d'invite ont affecté les résultats.

L'utilisation de rôles et de contexte dans les invites a eu un impact significatif sur les résultats. En particulier, fournir un contexte a aidé le modèle à mieux identifier les organisations. La technique "Chain of Thought" a aussi prouvé son efficacité, permettant au modèle de raisonner mieux dans ses réponses.

Les résultats de nos expériences étaient révélateurs. Ils ont montré que tandis que certains modèles avaient du mal avec les tâches à accomplir, d'autres, comme Gemma2:9B, excellaient grâce à leurs capacités de structuration. Cela nous amène à penser que le choix minutieux des modèles et des invites est crucial pour obtenir des résultats optimaux.

Défis et directions futures

Bien qu'on ait obtenu de bons résultats, il reste plusieurs défis à relever. Par exemple, nos découvertes ont suggéré que les modèles plus grands ne donnaient pas toujours de meilleurs résultats. Les modèles de taille moyenne n'ont pas surpassé les plus petits, ce qui était surprenant. Plus de recherches sont nécessaires pour comprendre pourquoi ce schéma se produit et si un ajustement fin peut améliorer la performance de ces modèles plus grands.

À l'avenir, on vise à affiner encore notre jeu de données et à continuer de développer nos méthodes pour identifier les entités dans des articles liés à des crimes financiers. Cette recherche continue peut grandement aider ceux qui travaillent dans le domaine des enquêtes financières.

Conclusion

En résumé, notre travail visait à mieux comprendre comment identifier les individus et les organisations impliquées dans des crimes financiers en créant un jeu de données spécialisé. En utilisant des LLMs et en nous concentrant sur une ingénierie des invites efficace, on a pu obtenir des résultats prometteurs qui peuvent assister les experts dans la résolution de problèmes de criminalité financière.

Alors que les crimes financiers continuent de poser d'importants défis à l'échelle mondiale, il est essentiel d'avoir des outils et des méthodes efficaces en place. Notre recherche continue se concentrera sur l'amélioration de ces méthodes et l'exploration de nouvelles façons d'améliorer les capacités des LLMs dans ce domaine d'étude particulier.

Source originale

Titre: Entity Extraction from High-Level Corruption Schemes via Large Language Models

Résumé: The rise of financial crime that has been observed in recent years has created an increasing concern around the topic and many people, organizations and governments are more and more frequently trying to combat it. Despite the increase of interest in this area, there is a lack of specialized datasets that can be used to train and evaluate works that try to tackle those problems. This article proposes a new micro-benchmark dataset for algorithms and models that identify individuals and organizations, and their multiple writings, in news articles, and presents an approach that assists in its creation. Experimental efforts are also reported, using this dataset, to identify individuals and organizations in financial-crime-related articles using various low-billion parameter Large Language Models (LLMs). For these experiments, standard metrics (Accuracy, Precision, Recall, F1 Score) are reported and various prompt variants comprising the best practices of prompt engineering are tested. In addition, to address the problem of ambiguous entity mentions, a simple, yet effective LLM-based disambiguation method is proposed, ensuring that the evaluation aligns with reality. Finally, the proposed approach is compared against a widely used state-of-the-art open-source baseline, showing the superiority of the proposed method.

Auteurs: Panagiotis Koletsis, Panagiotis-Konstantinos Gemos, Christos Chronis, Iraklis Varlamis, Vasilis Efthymiou, Georgios Th. Papadopoulos

Dernière mise à jour: 2024-11-11 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2409.13704

Source PDF: https://arxiv.org/pdf/2409.13704

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires