Utiliser le Machine Learning pour détecter la fraude dans les achats
Cette étude examine l'efficacité de l'apprentissage automatique pour identifier la fraude dans les achats.
― 10 min lire
Table des matières
- Qu'est-ce que la Fraude dans les Achats ?
- La Nécessité du Machine Learning dans la Détection de la Fraude dans les Achats
- L'Évolution du Machine Learning
- Travaux Antérieurs sur la Détection de la Fraude
- Défis de la Recherche sur la Fraude dans les Achats
- Collecte de données pour l'Étude
- Sélection des Variables pour le Modèle
- Conception du Modèle de Réseau de neurones
- Mise en Œuvre et Test du Modèle
- Résultats de Précision et Évaluation de la Performance
- Directions de Recherche Future
- Conclusion
- Source originale
La fraude dans les achats est un gros souci qui touche plein d'entreprises sur les marchés libres. Ce crime implique des actes trompeurs de la part de personnes ou de groupes au sein des organisations pour obtenir des avantages injustes à travers les processus d'achat. Même si les entreprises ont des départements d'audit pour déceler cette fraude, elles s'appuient souvent énormément sur les rapports d'insiders, ce qui rend la gestion de la situation plutôt compliquée.
Avec l'aide d'une boîte appelée SF Express, notre équipe a regardé les données d'achats de 2015 à 2017 pour voir comment des techniques de machine learning pouvaient aider à détecter et classifier la fraude dans les achats. On s'est concentré sur la création de modèles qui utilisent des caractéristiques spécifiques des événements d'achat pour identifier des transactions suspectes. En testant nos modèles sur un gros ensemble de données, on a découvert qu'ils sont utiles pour repérer la fraude dans les achats, bien qu'il y ait encore des améliorations à faire.
Qu'est-ce que la Fraude dans les Achats ?
La fraude dans les achats, souvent appelée fraude contractuelle, est connue pour être un crime courant et coûteux au sein des organisations. Ça implique des actes de tromperie intentionnels pour obtenir des avantages dans des situations d'achat. Quelques exemples incluent la collusion entre fournisseurs et employés, les pots-de-vin et la création de fausses transactions. Ces actions peuvent entraîner des pertes financières importantes pour les entreprises et les agences gouvernementales.
Les entreprises et départements gouvernementaux dans le monde entier font face à des défis liés à la fraude dans les achats depuis longtemps. Des exemples de ces soucis incluent la collusion entre soumissionnaires, la corruption et des transactions falsifiées. Ces activités peuvent causer de gros dommages financiers aux organisations qui veulent acquérir des produits et services au meilleur prix.
Malgré la gravité de la fraude dans les achats, beaucoup de départements d'audit continuent de s'appuyer sur des méthodes traditionnelles comme la révision des rapports et des livres d'audit, qui peuvent ne pas être assez efficaces. Lors de discussions avec SF Express, on a appris que même cette grosse boîte de logistique express n’a pas la capacité de réaliser des audits de fraude proactifs, rendant les petites entreprises encore plus vulnérables.
La Nécessité du Machine Learning dans la Détection de la Fraude dans les Achats
La quantité croissante et la complexité des processus d'achat rendent difficile pour les départements d'audit de tout suivre manuellement. Le machine learning peut apporter une solution en analysant de grandes quantités de données et en identifiant des motifs et des relations entre les différentes étapes et éléments des achats.
Le machine learning permet de détecter la fraude dans les achats de manière plus efficace en utilisant des algorithmes pour analyser les données. Dans cette recherche, on vise à développer un modèle qui peut analyser les données d'achat pour informer les utilisateurs sur la probabilité de fraude juste avec quelques informations pertinentes.
L'Évolution du Machine Learning
Le machine learning est un domaine qui se concentre sur la capacité des ordinateurs à apprendre à partir de données sans être programmés explicitement. Il a des racines dans l'intelligence artificielle et a progressivement évolué pour résoudre des problèmes du monde réel en utilisant des modèles statistiques. Les types de problèmes que le machine learning traite incluent la classification, la régression, le clustering et l'estimation.
Les réseaux de neurones sont un sous-ensemble du machine learning qui consistant en plusieurs couches de nœuds interconnectés, leur permettant de traiter les données de manière plus efficace que les modèles traditionnels. Les avancées en puissance de calcul, notamment avec les GPU, ont considérablement amélioré les capacités de l'apprentissage profond, le rendant essentiel dans divers domaines.
Travaux Antérieurs sur la Détection de la Fraude
Il y a eu plusieurs efforts pour utiliser le machine learning, particulièrement les réseaux de neurones, dans la détection de la fraude dans divers domaines, comme les transactions par carte de crédit. Des recherches ont montré que les réseaux de neurones peuvent être efficaces pour identifier les transactions frauduleuses en utilisant des ensembles de données étiquetés pour l'entraînement et l'évaluation.
Transformer ces idées de détection de fraude par carte de crédit à la détection de fraude dans les achats offre des orientations précieuses. Le succès dans un domaine nous donne confiance que des méthodes similaires peuvent être appliquées dans nos processus d'audit, soulignant la nécessité de données fiables et de modèles bien structurés.
Défis de la Recherche sur la Fraude dans les Achats
La recherche sur la fraude dans les achats manque de l'attention qu'elle mérite dans les études de gestion des risques. L'efficacité des algorithmes de machine learning n'a pas encore été pleinement appliquée aux détections ou prévisions de fraude dans les achats. Les enquêtes manuelles nécessitent un nombre significatif de professionnels formés, ce qui peut ne pas être faisable pour beaucoup d'organisations.
Certaines études antérieures ont développé des modèles de gestion des risques pour la fraude dans les achats et ont montré leur efficacité. Cependant, ces études n'ont pas équipé efficacement les auditeurs pour adopter une approche plus agressive dans l'investigation des cas de fraude potentiels.
Cette recherche se concentre sur le marché chinois car les données que nous avons utilisées proviennent d'une entreprise chinoise, permettant d'intégrer les lois et régulations locales dans notre compréhension de la fraude dans les achats.
Collecte de données pour l'Étude
Pour créer un modèle de machine learning pour l'audit des achats, on avait besoin de dossiers historiques d'une entreprise. SF Express a fourni l'accès à sa base de données, y compris les dossiers d'achats depuis le 1er janvier 2015. Cet ensemble de données complet était crucial pour former le modèle efficacement.
Pour traiter le déséquilibre entre les cas positifs (achats frauduleux) et négatifs (achats légitimes), on a échantillonné un nombre égal de cas positifs et négatifs pour notre analyse. Cette représentation égale a amélioré la capacité du modèle à apprendre efficacement des deux types de données.
Sélection des Variables pour le Modèle
L'utilisation de l'interface utilisateur disponible dans le système SAP de SF a limité le nombre de variables que l'on pouvait analyser. Donc, on s'est concentré sur la sélection de variables d'entrée basées sur des critères spécifiques. Chaque variable devait être pertinente pour détecter la fraude, gérable en termes de calcul, et facilement compréhensible.
Quelques variables clés qu'on a incluses étaient :
- Numéro de Série d'Achat (PSN) : Identifie chaque transaction d'achat et aide à tracer des activités frauduleuses similaires.
- Numéro de Groupe d'Achat (PGN) : Relie des groupes spécifiques à des cas de fraude passés, permettant au modèle d'apprendre quels groupes peuvent être à risque plus élevé.
- Numéro de Groupe de Matériaux (MGN) : Indique que certains types de produits peuvent être liés à des risques plus élevés de fraude.
- Prix Net (NP) : Associe l'intention de profit à la fraude potentielle, car des profits plus importants peuvent motiver des actions malhonnêtes.
- Type de Fraude (FT) : Aide à classifier le type de fraude présente dans les cas déjà identifiés comme suspects.
En rassemblant un ensemble diversifié mais pertinent de variables d'entrée, on visait à permettre au modèle de détecter à la fois l'occurrence et les types de fraude dans les achats.
Conception du Modèle de Réseau de neurones
Le modèle de réseau de neurones qu'on a conçu fonctionne en traitant les entrées à travers plusieurs couches. Chaque couche ajuste ses paramètres pour améliorer les prévisions de sortie en utilisant une méthode appelée descente de gradient. En affinant ces paramètres de manière répétée, le modèle devient plus précis au fil du temps.
On a choisi une structure de réseau de perceptron multicouche (MLP) adaptée à notre format de données d'entrée. Le modèle est conçu pour séparer les achats suspects des non-suspects et classifier les types de fraude parmi les transactions suspectes.
Mise en Œuvre et Test du Modèle
On a choisi des bibliothèques populaires comme TensorFlow et Keras pour mettre en œuvre nos modèles. Normaliser les données d'entrée a garanti que le modèle fonctionne efficacement à travers les différentes échelles présentes dans notre ensemble de données d'achats.
Après avoir entraîné nos modèles en utilisant 50 000 échantillons, on a commencé à évaluer leur performance. On a utilisé des techniques de validation croisée pour mieux comprendre comment nos modèles performaient globalement.
Résultats de Précision et Évaluation de la Performance
Notre modèle binaire (pour détecter les achats suspects) et notre modèle multiclass (pour classifier les types de fraude) ont montré des taux de précision prometteurs. Les résultats de notre modèle binaire indiquaient qu'il pouvait attraper de manière fiable la plupart des cas de fraude dans les achats, performants mieux que les méthodes d'audit traditionnelles.
Le modèle multiclass a aussi atteint une précision notable dans la classification des différents types de fraudes, montrant son efficacité pour aider les auditeurs lors des enquêtes.
Directions de Recherche Future
En regardant vers l'avenir, plusieurs domaines nécessitent une exploration plus poussée. Améliorer les méthodes de collecte de données pour créer une base de données plus intégrée est crucial. De plus, augmenter le volume de cas de fraude disponibles pour former les modèles augmentera leur efficacité.
Les méthodes de normalisation doivent également être affinées pour garantir la cohérence à travers différents formats de données. À mesure que le machine learning devient plus intégré dans les pratiques d'audit, d'autres études aideront à découvrir les défis et les avantages potentiels qu'il apporte à la détection de la fraude.
Conclusion
Notre recherche démontre que le machine learning a un potentiel considérable pour transformer l'audit des achats. En utilisant des modèles avancés comme les réseaux de neurones, on peut mieux identifier et classer la fraude dans les achats, améliorant finalement l'efficacité et l'efficacité des départements d'audit.
La collaboration avec des entreprises comme SF Express a été inestimable, fournissant les données et les informations nécessaires pour explorer davantage ce domaine. À mesure que nous affinons nos modèles et mettons en œuvre des changements, on peut anticiper une amélioration significative dans la détection de la fraude dans les achats, ouvrant la voie à un environnement commercial plus fiable.
Titre: Automatic Procurement Fraud Detection with Machine Learning
Résumé: Although procurement fraud is always a critical problem in almost every free market, audit departments still have a strong reliance on reporting from informed sources when detecting them. With our generous cooperator, SF Express, sharing the access to the database related with procurements took place from 2015 to 2017 in their company, our team studies how machine learning techniques could help with the audition of one of the most profound crime among current chinese market, namely procurement frauds. By representing each procurement event as 9 specific features, we construct neural network models to identify suspicious procurements and classify their fraud types. Through testing our models over 50000 samples collected from the procurement database, we have proven that such models -- despite having space for improvements -- are useful in detecting procurement frauds.
Dernière mise à jour: 2023-04-20 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2304.10105
Source PDF: https://arxiv.org/pdf/2304.10105
Licence: https://creativecommons.org/licenses/by-sa/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.