Simple Science

La science de pointe expliquée simplement

# Informatique# Cryptographie et sécurité

Appariement de noms flous préservant la vie privée en finance

Une nouvelle méthode assure un appariement sécurisé des noms tout en protégeant les données sensibles.

― 8 min lire


Méthode de correspondanceMéthode de correspondancede noms sécuriséefinance.rapprochement de noms sécurisé enUne nouvelle approche pour un
Table des matières

Dans le monde d'aujourd'hui, les institutions financières dépendent beaucoup des données pour fonctionner efficacement, améliorer leurs services et prévenir des crimes comme la fraude. Partager des données entre différentes parties d'une entreprise ou entre différentes organisations peut aider à prendre des décisions rapides et bien informées, surtout pour détecter des problèmes comme le blanchiment d'argent. Mais les règles concernant la Vie privée compliquent souvent ce partage de données. Pour y remédier, des technologies protégeant la vie privée sont de plus en plus utilisées, permettant aux entreprises de récolter des informations tout en respectant les limites légales.

Cette discussion se concentre sur une situation où les régulations empêchent une partie de partager des infos sur des comptes spécifiques avec une autre partie, qu'elle soit interne ou externe. C’est particulièrement casse-tête car les noms des titulaires de compte peuvent être enregistrés différemment dans divers ensembles de données. Une nouvelle approche pour le matching sécurisé de noms flous est proposée, utilisant des techniques de cryptage avancées pour protéger la vie privée tout en comparant les noms à travers des ensembles de données de différentes institutions.

Le Besoin de Confidentialité dans le Partage des Données

Les organisations financières doivent naviguer à travers les régulations de confidentialité des données tout en exécutant leurs services efficacement. Partager les infos clients est essentiel pour des opérations comme la détection de fraude et la lutte contre le blanchiment d'argent. Cependant, plusieurs régulations limitent comment ces données peuvent être partagées, surtout à l'international.

Les méthodes existantes, connues sous le nom de Private Set Intersection (PSI) et fuzzy PSI, aident les organisations à trouver des Correspondances exactes et similaires sans divulguer d'infos sensibles. Ces méthodes impliquent généralement deux étapes : regrouper les éléments similaires et ensuite les matcher pour trouver des correspondances possibles.

Défis du Matching de Noms

Faire correspondre des noms est difficile parce qu'ils peuvent être enregistrés de plein de manières différentes. Un seul nom peut ne pas avoir une orthographe standard, ce qui complique l'identification d'une même personne à travers différents ensembles de données. Par exemple, les noms "Mary Janes" et "Marie Jones" pourraient désigner des individus différents plutôt que d'être des erreurs typographiques.

Pour s'attaquer à ces problèmes, les organisations utilisent une méthode appelée résolution d'entités, qui aide à identifier les enregistrements qui font référence aux mêmes individus réels. Ce processus est crucial pour la gestion des données et a des applications dans divers domaines comme la finance et la santé.

Dans le secteur financier, les variations sur la manière dont les noms des clients sont enregistrés peuvent entraîner des retards et un effort accru pour identifier et vérifier les comptes clients. Cela impacte non seulement l'efficacité mais peut aussi mener à des activités frauduleuses, où un client pourrait utiliser des variations de noms pour éviter la détection par les systèmes de sécurité.

Solutions Existantes et Limitations

Traditionnellement, les techniques de lien d'enregistrements s'appuient sur des identifiants uniques pour la comparaison entre ensembles de données. Cependant, les méthodes de correspondance floue utilisent des fonctions de proximité pour évaluer les similarités entre enregistrements. Ces approches impliquent souvent des techniques cryptographiques pour assurer la confidentialité des données.

Les méthodes de correspondance floue existantes impliquent généralement deux phases d'opération : le blocage et le matching. Bien que le Locality Sensitive Hashing (LSH) soit couramment utilisé dans ces méthodes pour améliorer l'efficacité, il n'offre pas intrinsèquement de protection à la vie privée. Par conséquent, des mesures de sécurité formelles sont nécessaires pour garder les données privées.

Des études récentes ont proposé diverses approches pour le matching flou de noms en utilisant des techniques de Secure Multi-Party Computation (SMPC). Cependant, ces solutions exposent souvent les éléments correspondants aux deux parties et entraînent des coûts de communication élevés. Cela peut poser problème dans des scénarios où la confidentialité est primordiale.

Notre Méthode Proposée

La méthode proposée introduit un nouveau schéma de préservation de la vie privée qui utilise des techniques de cryptage avancées pour faciliter le matching flou de noms tout en garantissant que les informations sensibles restent confidentielles. Cette approche utilise le cryptage homomorphe complet associé au Locality Sensitive Hashing pour permettre le partage d'informations importantes sans compromettre la vie privée.

Le cryptage homomorphe permet d'effectuer des calculs sur des données cryptées sans avoir à les déchiffrer. C'est particulièrement utile dans des scénarios avec des régulations strictes sur la vie privée, car ça minimise le risque d'exposer des informations sensibles.

De plus, on intègre un mécanisme de clustering pour optimiser l'efficacité du processus de matching. Le clustering aide à réduire l'espace de recherche global, ce qui entraîne des comparaisons de noms plus rapides et plus efficaces.

Contributions Clés

  1. Nouveau Schéma de Matching : Le schéma proposé combine les similarités cosinus cryptées avec la méthode MinHash pour faciliter les recherches approximatives sans révéler l'identité de chaque partie.

  2. Amélioration de la Praticité : En introduisant un clustering basé sur la similarité cosinus, le schéma réduit le temps nécessaire à la recherche et améliore les performances tout en maintenant la précision.

  3. Évaluation Approfondie : La méthode est testée sur divers ensembles de données, et les résultats montrent des améliorations significatives en termes d'efficacité de la communication et des calculs.

Comment le Schéma Fonctionne

Le schéma implique une série d'étapes qui garantissent que les deux parties peuvent exécuter en toute sécurité le matching flou de noms sans révéler d'informations sensibles.

  1. Encodage des Ensembles de Données : Les deux organisations commencent par encoder leurs ensembles de données en utilisant la méthode MinHash, qui génère des signatures uniques pour les noms.

  2. Partage Sécurisé : L'organisation query encrypt les requêtes et les partage avec l'organisation qui répond.

  3. Clustering : L'organisation qui répond regroupe ses données en clusters en fonction de la similarité de leurs signatures MinHash. Cela réduit le nombre de comparaisons nécessaires pendant le processus de matching.

  4. Matching Crypté : L'organisation qui répond effectue les calculs nécessaires sur les données cryptées et retourne les résultats à l'organisation query sans divulguer d'infos privées.

  5. Décodage des Résultats : L'organisation query déchiffre les résultats pour déterminer s'il y a des correspondances potentielles.

Analyse de Performance

Pour évaluer l'efficacité du schéma proposé, il est essentiel d'examiner ses performances en termes de vitesse, de précision et de coûts de communication.

  • Vitesse : L'approche de clustering réduit considérablement les temps de recherche en restreignant l'ensemble de données. Cela permet une identification plus rapide des correspondances potentielles.

  • Précision : Bien que le clustering puisse légèrement diminuer le rappel, il maintient une haute précision, ce qui signifie que lorsqu'une correspondance est trouvée, elle est probablement exacte.

  • Coûts de Communication : Les coûts de communication sont considérablement réduits par rapport aux méthodes qui n'utilisent pas le clustering, rendant le processus plus efficace et économique.

Étude Expérimentale

Plusieurs expériences ont été menées pour évaluer le schéma en utilisant différents ensembles de données. Par exemple, une expérience évalue les performances sur un ensemble de données d'enregistrements électoraux tandis qu'une autre se concentre sur des catalogues de bibliothèques. Des métriques telles que la précision, le rappel et les scores F1 sont calculées pour évaluer l'efficacité de l'approche.

Les résultats montrent qu'avec les bons paramètres, le schéma proposé offre des niveaux élevés de précision et de rappel, ce qui indique que la méthode de matching flou de noms est efficace même avec des variations dans la façon dont les noms sont présentés dans différents ensembles de données.

Conclusion

Cette étude met en avant l'importance de maintenir la vie privée des données tout en permettant un matching efficace des noms à travers des ensembles de données. La méthode proposée équilibre la conformité réglementaire avec le besoin de rapidité et de précision dans le traitement des données, ce qui en fait un outil précieux pour les institutions financières et d'autres organisations qui manipulent des informations sensibles.

Les travaux futurs vont développer ces résultats pour améliorer encore les taux de rappel, adapter le schéma à différents types de données, et explorer des technologies supplémentaires pour renforcer la vie privée afin de soutenir des opérations sécurisées dans divers secteurs.

L'intégration de ces méthodes assure non seulement la conformité aux régulations de la vie privée mais améliore également l'efficacité globale des opérations de données dans des environnements sensibles.

Source originale

Titre: Privacy-preserving Fuzzy Name Matching for Sharing Financial Intelligence

Résumé: Financial institutions rely on data for many operations, including a need to drive efficiency, enhance services and prevent financial crime. Data sharing across an organisation or between institutions can facilitate rapid, evidence-based decision-making, including identifying money laundering and fraud. However, modern data privacy regulations impose restrictions on data sharing. For this reason, privacy-enhancing technologies are being increasingly employed to allow organisations to derive shared intelligence while ensuring regulatory compliance. This paper examines the case in which regulatory restrictions mean a party cannot share data on accounts of interest with another (internal or external) party to determine individuals that hold accounts in both datasets. The names of account holders may be recorded differently in each dataset. We introduce a novel privacy-preserving scheme for fuzzy name matching across institutions, employing fully homomorphic encryption over MinHash signatures. The efficiency of the proposed scheme is enhanced using a clustering mechanism. Our scheme ensures privacy by only revealing the possibility of a potential match to the querying party. The practicality and effectiveness are evaluated using different datasets, and compared against state-of-the-art schemes. It takes around 100 and 1000 seconds to search 1000 names from 10k and 100k names, respectively, meeting the requirements of financial institutions. Furthermore, it exhibits significant performance improvement in reducing communication overhead by 30-300 times.

Auteurs: Harsh Kasyap, Ugur Ilker Atmaca, Carsten Maple, Graham Cormode, Jiancong He

Dernière mise à jour: 2024-11-08 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2407.19979

Source PDF: https://arxiv.org/pdf/2407.19979

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Articles similaires