Simple Science

La science de pointe expliquée simplement

# Informatique# Cryptographie et sécurité# Informatique distribuée, parallèle et en grappes

Tapis : Un nouveau système pour la recherche collaborative

Tapis permet un partage de données sécurisé et efficace entre les chercheurs de différents endroits.

― 8 min lire


Tapis transforme laTapis transforme lacollaboration enrechercheinnovante.les institutions booste la rechercheLe partage de données sécurisé entre
Table des matières

Les recherches sur des trucs comme le changement climatique et la chasse aux planètes susceptibles d'accueillir la vie utilisent souvent des ordis et des ressources répartis dans différentes institutions. Ça veut dire que les chercheurs ne bossent pas qu'à un seul endroit ; ils utilisent des machines et des Données de plusieurs sites. Pour rendre tout ça plus simple et sécurisé, on a développé un nouveau système qui aide les chercheurs à utiliser ces ressources tout en gardant leurs données et secrets à l’abri.

Notre approche permet aux scientifiques de collaborer même s'ils ne sont pas au même endroit. C'est super important quand la recherche demande beaucoup de puissance de calcul. Parfois, les chercheurs doivent automatiser certaines parties de leur analyse pour ne pas avoir à tout superviser manuellement. Du coup, il est essentiel de s’assurer que les processus automatisés respectent les règles de Sécurité, surtout quand les données et ressources viennent de plusieurs sites.

Dans cette synthèse, on vous présente un cadre pratique conçu pour que les chercheurs puissent accéder à des ressources et les partager à travers différents lieux. On met en avant comment notre système fonctionne et on donne des exemples de comment il a aidé dans de vrais projets de recherche.

C'est quoi Tapis ?

Tapis est une plateforme qui aide les utilisateurs à gérer des données et des tâches de calcul. Pense à un outil pratique qui permet aux chercheurs de stocker et partager leurs données et de faire des calculs complexes sans se soucier de la technologie sous-jacente. Tapis garde une trace de ce qui se passe pendant ces processus, ce qui rend plus facile pour les chercheurs de répéter leurs analyses et de vérifier leurs résultats.

À l'origine, Tapis faisait partie d'un projet collaboratif, et maintenant, c'est utilisé par des milliers de chercheurs dans différents secteurs pour gérer leurs besoins en calcul et en données.

Gestion des données et exécution de programmes

Tapis offre un moyen de gérer des données et de faire tourner des programmes sur différentes ressources Informatiques. Les utilisateurs peuvent définir leurs systèmes, ce qui signifie qu'ils disent à Tapis comment se connecter à différents ordinateurs ou systèmes de stockage. Ces systèmes peuvent inclure des superordinateurs, des serveurs cloud, ou d'autres types de ressources.

Une fois les systèmes configurés, les utilisateurs peuvent aussi définir des applications, c'est-à-dire les programmes qui accomplissent les tâches de recherche. Tapis facilite le transfert de données entre les systèmes et fournit des outils pour exécuter des jobs, qui sont des tâches spécifiques que les utilisateurs veulent réaliser.

Traitement des données en temps réel

Tapis ne fait pas que gérer des données ; il facilite aussi l'analyse en temps réel. Par exemple, Tapis peut prendre des données en streaming de capteurs et les analyser tout de suite, ce qui est crucial pour de nombreux projets de recherche. Ces services en temps réel peuvent traiter de gros volumes de données rapidement, permettant aux chercheurs de travailler avec les infos les plus récentes.

En plus, Tapis a des fonctionnalités qui permettent aux utilisateurs de mettre en place des alertes ou des notifications basées sur des actions spécifiques, comme quand un job est terminé ou quand de nouvelles données sont disponibles. Ça facilite le fait de rester à jour sans avoir à surveiller constamment le système.

Sécurité et contrôle d'accès

L'une des principales préoccupations quand on gère des données sensibles, c'est la sécurité. Tapis s'attaque à ça en mettant en place un système d'autorisation robuste. Chaque utilisateur a des rôles et permissions spécifiques qui définissent ce qu'il peut accéder et quelles actions il peut faire.

Ça veut dire que même si plusieurs chercheurs travaillent ensemble, ils ne peuvent pas accéder aux données des autres à moins d'avoir une permission explicite. Cet accès contrôlé aide à maintenir la confidentialité et à sécuriser les infos sensibles.

Le système prend aussi en charge des contextes partagés, où les ressources peuvent être partagées entre utilisateurs temporairement. Ça permet aux chercheurs de collaborer sur des tâches sans accorder un accès permanent, tout en maintenant la sécurité tout en favorisant le travail d'équipe.

Structure d'authentification

Tapis utilise un système d'authentification en deux parties pour vérifier les utilisateurs. Quand un chercheur veut accéder à Tapis, il reçoit un token qui confirme son identité. Ce token contient des infos sur qui il est et ce qu'il est autorisé à faire dans le système.

L'authentification se fait de manière à ce que les chercheurs puissent utiliser leurs identifiants existants d'autres systèmes, comme Google ou GitHub, rendant le processus convivial. Ça veut dire que les chercheurs peuvent intégrer sans effort leurs connexions existantes dans Tapis sans avoir besoin de mémoriser de nouveaux mots de passe ou de créer des comptes supplémentaires.

Architecture flexible

Le design de Tapis est modulaire, ce qui veut dire que chaque composant fonctionne de manière indépendante mais collabore pour fournir une solution complète. Cette flexibilité permet à Tapis de s'adapter à différents besoins, que ce soit pour un petit projet ou une grande initiative de recherche.

De nouvelles fonctionnalités et services peuvent être ajoutés avec le temps sans perturber les opérations existantes. Ça veut dire qu'au fur et à mesure que la technologie évolue ou que les besoins des chercheurs changent, Tapis peut grandir et s'adapter en conséquence.

Collaboration multi-sites

Tapis est conçu pour soutenir la collaboration à travers plusieurs emplacements. Chaque institution participante peut faire tourner sa propre instance de Tapis, connue sous le nom de "site". Il y a un site principal qui supervise les autres, appelés sites associés. Cette structure permet aux institutions de garder le contrôle sur leurs propres données tout en profitant des ressources partagées.

Par exemple, une institution peut garder des données sensibles sur place, tout en accédant à de puissantes ressources de calcul depuis d'autres endroits. Cette configuration optimise la performance et la sécurité, surtout pour les organisations qui ont des exigences strictes en matière de confidentialité des données.

Cas d'utilisation et applications

Recherche climatique à Hawaï

Un des moyens par lesquels Tapis est utilisé, c'est par des chercheurs sur le climat à l'Université d'Hawaï. Ils collectent des données de différentes stations climatiques à travers les îles. Tapis aide ces chercheurs à mettre en place un système qui collecte et analyse automatiquement ces données en temps réel.

La plateforme effectue des vérifications de qualité pendant la collecte des données pour garantir leur précision. Les chercheurs peuvent ensuite visualiser et partager leurs résultats, ce qui rend plus facile pour tout le monde de comprendre les impacts du changement climatique dans leur région.

Recherche d'exoplanètes par la NASA

Un autre exemple, c'est le travail fait par la NASA pour découvrir des planètes en dehors de notre système solaire avec le spectromètre NEID. Les données collectées par cet outil doivent être traitées rapidement pour obtenir des infos précieuses sur les potentielles exoplanètes.

Tapis aide à rationaliser ce pipeline de traitement de données, transférant les données brutes vers des systèmes de calcul puissants pour analyse tout en gardant une trace de toutes les opérations. En utilisant Tapis, la NASA s'assure que l'analyse se déroule efficacement et se termine dans les délais nécessaires.

Conclusion

Tapis est un cadre puissant conçu pour aider les chercheurs à gérer et analyser des données à travers plusieurs institutions et emplacements. Son accent sur la sécurité, la flexibilité et la facilité d'utilisation en fait un outil idéal pour de nombreux domaines d'étude, de la science climatique à l'astronomie.

En offrant une approche décentralisée du partage de ressources, Tapis permet la collaboration tout en garantissant que les données sensibles restent protégées. Alors qu'il continue d'évoluer, Tapis a le potentiel de soutenir encore plus de projets de recherche innovants, ouvrant la voie à de futures découvertes et avancées.

Source originale

Titre: A Decentralized Authorization and Security Framework for Distributed Research Workflows

Résumé: Research challenges such as climate change and the search for habitable planets increasingly use academic and commercial computing resources distributed across different institutions and physical sites. Furthermore, such analyses often require a level of automation that precludes direct human interaction, and securing these workflows involves adherence to security policies across institutions. In this paper, we present a decentralized authorization and security framework that enables researchers to utilize resources across different sites while allowing service providers to maintain autonomy over their secrets and authorization policies. We describe this framework as part of the Tapis platform, a web-based, hosted API used by researchers from multiple institutions, and we measure the performance of various authorization and security queries, including cross-site queries. We conclude with two use case studies -- a project at the University of Hawaii to study climate change and the NASA NEID telescope project that searches the galaxy for exoplanets.

Auteurs: Richard Cardone, Smruti Padhy, Steven Black, Sean Cleveland, Joe Stubbs

Dernière mise à jour: 2023-05-13 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2304.08557

Source PDF: https://arxiv.org/pdf/2304.08557

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires