Protéger la confidentialité dans les algorithmes de recherche de vérité
Une nouvelle méthode utilisant le MPC pour sécuriser les données tout en identifiant des informations précises.
― 8 min lire
Table des matières
Dans le monde d’aujourd'hui, les données viennent de plein de sources différentes, et parfois, ces sources peuvent être en désaccord sur les infos qu'elles fournissent. Ça peut rendre difficile de trouver la vérité, surtout quand on parle de données sensibles, comme les infos financières ou médicales. C'est super important de s'assurer que ces données restent privées et ne soient pas partagées avec d'autres tout en nous permettant de déterminer quelles infos sont exactes.
Pour résoudre ce problème, des chercheurs ont développé des méthodes appelées algorithmes de recherche de vérité. Ces algorithmes aident à évaluer et comparer les informations de différentes sources pour prédire la bonne réponse. Cependant, beaucoup des algorithmes existants ne protègent pas complètement la Confidentialité des données venant de ces sources. Cet article va parler d'une nouvelle façon d'utiliser une méthode sécurisée appelée Calcul multipartite (MPC) pour protéger ces données tout en trouvant la vérité.
Qu'est-ce que le calcul multipartite ?
Le calcul multipartite est une méthode qui permet à plusieurs parties de travailler ensemble sur un calcul sans révéler leurs données individuelles les unes aux autres. Imagine deux personnes qui veulent savoir le score total à partir de leurs propres scores sans se dire ce que ces scores sont. Elles peuvent utiliser le MPC pour trouver le score total sans partager d'infos personnelles.
Dans ce contexte, deux parties peuvent partager leurs évaluations en toute sécurité et calculer la valeur vraie d'une requête sans exposer leurs données privées. C'est particulièrement utile dans des situations où des infos sensibles sont en jeu, comme les demandes de prêt ou les dossiers médicaux.
Le besoin d'algorithmes de recherche de vérité
Quand il y a des rapports contradictoires de sources différentes, c'est crucial de déterminer ce qui est réellement vrai. Par exemple, si plusieurs banques ont des avis différents sur la solvabilité d'un emprunteur, un créancier a besoin d'un moyen pour évaluer sa confiance dans ces évaluations sans compromettre la confidentialité des banques.
Les algorithmes de recherche de vérité aident à faire ça. Ils prennent des infos de diverses sources et les analysent pour produire un résultat final plus fiable. Ces algorithmes évaluent la fiabilité de chaque source et combinent les infos pour arriver à une conclusion.
Défis avec les méthodes existantes
Malgré leur utilité, beaucoup des algorithmes de recherche de vérité actuels ne protègent pas adéquatement la vie privée des sources fournissant les données. Quand plusieurs parties révèlent leurs évaluations, ça peut mettre des infos sensibles en danger. Il faut une méthode qui permet la recherche de vérité sans exposer les données privées de n'importe quelle source.
C'est là que le MPC nouvellement conçu entre en jeu. Il permet le partage sécurisé d'infos tout en garantissant que l'entrée de chaque partie reste confidentielle.
La solution proposée
La méthode proposée implique un protocole MPC sécurisé qui utilise ce qu'on appelle le partage secret. Dans le partage secret, les données de chaque partie sont divisées en morceaux et partagées avec d'autres d'une manière où aucune partie unique ne peut reconstruire les données originales seule. Cette méthode garantit que les données restent confidentielles tout en permettant d'effectuer des calculs.
Le protocole se concentre sur les tests de pseudo-égalité pour aider les algorithmes de recherche de vérité. Les tests de pseudo-égalité sont utilisés pour évaluer si certaines conditions sont remplies dans les données sans révéler les données réelles. Ça aide à calculer des valeurs basées sur des conditions en toute sécurité.
Les avantages de la proposition
Cette approche garantit que :
- Confidentialité : Les données des sources restent privées et ne sont pas partagées avec des parties non autorisées.
- Fiabilité : La méthode maintient aussi la capacité d'évaluer la confiance qu'on peut placer dans les données de chaque source.
- Efficacité : Des variantes des algorithmes de recherche de vérité peuvent être mises en œuvre de manière à accélérer le calcul tout en utilisant le calcul multipartite sécurisé.
Mise en œuvre du protocole
Pour mettre en œuvre le nouveau protocole, plusieurs étapes sont nécessaires. D'abord, chaque source doit fournir ses évaluations en tant que données partagées. Ces données partagées sont ensuite traitées par des serveurs informatiques qui n'ont aucun intérêt à conspirer ou partager les données privées sous-jacentes.
Les étapes suivantes décrivent comment le protocole fonctionne :
- Partage de données : Chaque source fournit ses évaluations et les partage en toute sécurité sur deux serveurs informatiques.
- Calcul : Les serveurs informatiques utilisent les algorithmes de recherche de vérité, comme Cosine et 3-Estimates, pour analyser les données.
- Reconstruction des résultats : Après que les calculs sont terminés, les résultats sont renvoyés au client d'une manière qui garantit que les données originales restent confidentielles.
Algorithmes de recherche de vérité existants
Deux algorithmes de recherche de vérité bien connus sont Cosine et 3-Estimates.
Algorithme Cosine
L'algorithme Cosine fonctionne sur la base de la similarité des réponses reçues de différentes sources. L'algorithme évalue à quel point les réponses correspondent et met à jour le facteur de fiabilité de chaque source. En le faisant par itérations, il affine sa sortie et améliore l'exactitude.
Algorithme 3-Estimates
D'un autre côté, l'algorithme 3-Estimates prend en compte un facteur supplémentaire : la difficulté de répondre à la requête. Comme l'algorithme Cosine, il traite des entrées de diverses sources pour estimer une valeur de vérité et un facteur de fiabilité. Cet algorithme peut également fournir un score de difficulté, ce qui peut améliorer davantage l'évaluation des données.
Les deux algorithmes ont leurs forces, mais s'assurer de leur mise en œuvre dans un cadre sécurisé peut améliorer leur efficacité tout en préservant la vie privée.
Évaluation de la performance
Pour évaluer la performance des protocoles de calcul multipartite sécurisés, des expériences ont été réalisées en utilisant des ensembles de données réels. Les résultats ont montré que les nouvelles méthodes parviennent à produire des valeurs de vérité précises en comparaison avec des approches traditionnelles tout en garantissant la confidentialité des données.
Dans un test, l'algorithme 3-Estimates a été mis en œuvre sur un ensemble de données, où les prédictions faites par la méthode sécurisée ont été comparées à celles faites par un modèle régulier, non sécurisé. Les résultats ont montré que l'approche MPC avait des variations légères dans les prédictions, mais restait précise.
Dans une autre évaluation utilisant l'algorithme Cosine, la méthode sécurisée a fonctionné de manière comparable au modèle traditionnel, montrant seulement de petites différences. En utilisant la nouvelle méthode, l'efficacité des calculs s'est améliorée, avec des coûts de communication réduits associés aux calculs.
Conclusion
Le développement d'un protocole de calcul multipartite sécurisé pour les algorithmes de recherche de vérité est une avancée significative dans le traitement des données incertaines. Les méthodes proposées garantissent que la confidentialité des données est maintenue tout en permettant des évaluations précises des informations conflictuelles provenant de diverses sources. Cette approche ouvre la porte à la gestion sécurisée des informations sensibles dans différents domaines, y compris la finance et la santé, sans compromettre la vie privée des parties impliquées.
D'autres améliorations pourraient être apportées en combinant ces méthodes avec des techniques de préservation de la vie privée existantes. Cela améliorera non seulement la protection des données, mais aussi la sécurité générale et la précision du processus de recherche de vérité.
L'avenir de la gestion des données repose sur l'équilibre entre le besoin de précision de l'information et le respect absolu de la confidentialité et de la vie privée. Cette solution proposée met en lumière le potentiel de recherche et développement futur dans le domaine du traitement sécurisé des données.
Titre: Confidential Truth Finding with Multi-Party Computation (Extended Version)
Résumé: Federated knowledge discovery and data mining are challenged to assess the trustworthiness of data originating from autonomous sources while protecting confidentiality and privacy. Truth-finding algorithms help corroborate data from disagreeing sources. For each query it receives, a truth-finding algorithm predicts a truth value of the answer, possibly updating the trustworthiness factor of each source. Few works, however, address the issues of confidentiality and privacy. We devise and present a secure secret-sharing-based multi-party computation protocol for pseudo-equality tests that are used in truth-finding algorithms to compute additions depending on a condition. The protocol guarantees confidentiality of the data and privacy of the sources. We also present variants of truth-finding algorithms that would make the computation faster when executed using secure multi-party computation. We empirically evaluate the performance of the proposed protocol on two state-of-the-art truth-finding algorithms, Cosine, and 3-Estimates, and compare them with that of the baseline plain algorithms. The results confirm that the secret-sharing-based secure multi-party algorithms are as accurate as the corresponding baselines but for proposed numerical approximations that significantly reduce the efficiency loss incurred.
Auteurs: Angelo Saadeh, Pierre Senellart, Stéphane Bressan
Dernière mise à jour: 2023-05-24 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2305.14727
Source PDF: https://arxiv.org/pdf/2305.14727
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.