Évaluation des catalogues pour les artefacts sémantiques
Un modèle pour évaluer la qualité des catalogues d'artefacts sémantiques.
― 12 min lire
Table des matières
- La demande croissante de gestion des données dans la recherche
- Définir les artefacts sémantiques
- Où sont stockés les artefacts sémantiques
- Cadre de travail et question de recherche
- Évaluation des catalogues
- Dimensions et caractéristiques
- Évaluation des Catalogues
- Développements futurs
- Méthodologie pour identifier les dimensions et caractéristiques
- Conclusion
- Source originale
- Liens de référence
Cet article parle d'un modèle qui aide à évaluer la Qualité et l'efficacité des Catalogues qui stockent des artefacts sémantiques. Les artefacts sémantiques sont importants pour s'assurer que différents systèmes peuvent travailler ensemble et partager des informations. Le modèle examine différents aspects ou dimensions qui aident à évaluer ces catalogues en passant en revue la littérature existante et les avis d'experts.
On a évalué 26 catalogues différents pour montrer l'efficacité du modèle. Le modèle comprend 12 dimensions : Métadonnées, Ouverture, Qualité, Disponibilité, Statistiques, Identifiants Persistants (PID), Gouvernance, Communauté, Durabilité, Technologie, Transparence et Évaluation. Chaque dimension a plusieurs caractéristiques liées qui fournissent des critères de mesure. Ce modèle vise à donner des recommandations utiles sur la manière de gérer et de maintenir les artefacts sémantiques, aidant à résoudre les problèmes liés à l'Interopérabilité des systèmes.
La demande croissante de gestion des données dans la recherche
Avec l'essor des données ouvertes, de la science ouverte et des principes FAIR (Facile à trouver, Accessible, Interopérable et Réutilisable) dans la recherche, le besoin d'un bon stockage, gestion et partage des données est devenu plus crucial. En Europe, le Règlement Général sur la Protection des Données (RGPD) est devenu une réglementation importante pour la gestion des données, suscitant d'abord des inquiétudes chez les scientifiques sur la manière de se conformer sans freiner leur travail.
Le Cloud Européen de la Science Ouverte (EOSC) a été créé pour fournir un environnement sécurisé pour la gestion des données, garantissant la conformité avec le RGPD tout en empêchant les scientifiques de compter sur des serveurs de données étrangers pour éviter les lois européennes. L'EOSC a prioritisé la résolution des problèmes d'interopérabilité entre les différentes infrastructures, services et données que les chercheurs utilisent.
Le Cadre d'Interopérabilité de l'EOSC souligne les principes fondamentaux pour créer un système permettant le partage de données interopérables. Les composants essentiels qui permettent cette interopérabilité sont appelés artefacts sémantiques.
Définir les artefacts sémantiques
Les artefacts sémantiques peuvent inclure des classifications, des bases de données, des taxonomies et des ontologies utilisées pour organiser des informations et soutenir la gestion des connaissances. L'objectif est de façonner la structure sémantique de domaines spécifiques, facilitant la découverte et la récupération des ressources pour les humains et les machines.
Les définitions récentes décrivent les artefacts sémantiques comme des représentations formelles qui peuvent être facilement comprises par les machines, permettant leur partage et leur réutilisation. Ils peuvent prendre différentes formes, y compris des ontologies, des vocabulaires, des schémas de métadonnées et d'autres normes, et sont souvent stockés dans des formats comme RDF ou OWL.
Dans cet article, on définit un artefact sémantique comme une représentation formelle qui utilise les bons formats pour permettre le partage par les humains et les machines. Cette définition met aussi l'accent sur "l'actionnalité machine", signifiant que l'artefact peut être traité par des machines, assurant que son utilisation est claire et son but défini.
Où sont stockés les artefacts sémantiques
Les artefacts sémantiques sont souvent sauvegardés et partagés via divers services, comme des registres ou des dépôts. Ces services vont de simples descriptions de métadonnées à des fonctionnalités complexes qui aident les utilisateurs à trouver et à réutiliser ces artefacts au fil du temps.
Une bibliothèque d'ontologies est un service qui aide à gérer, adapter et standardiser des groupes d'ontologies. D'autres termes utilisés pour ces services incluent "collection", "liste" ou "registre". Cependant, beaucoup de ces services manquent de fonctionnalités supplémentaires au-delà des descriptions de base, comme l'analyse de contenu ou des fonctions de recherche.
Pour combler cette lacune, l'idée d'un dépôt d'ontologies a émergé. Ces dépôts offrent des fonctionnalités avancées qui permettent aux utilisateurs de chercher, explorer et gérer des métadonnées liées à des ontologies. À la fin des années 2000, le sujet a gagné une attention significative, menant à des initiatives visant à créer une infrastructure collaborative de dépôts d'ontologies.
Les termes "dépôt" et "registre" sont souvent utilisés de manière interchangeable, y compris ceux qui fournissent des normes de données plus larges. Une définition inclusive d'un catalogue d'artefacts sémantiques peut aussi inclure des pages web qui décrivent ces artefacts de manière lisible par l'homme.
Dans cet article, on définit un catalogue d'artefacts sémantiques comme un système en ligne qui promeut l'accessibilité, la découvrabilité et la préservation à long terme de ces artefacts.
Cadre de travail et question de recherche
Il y a deux ans, poussé par le Cadre d'Interopérabilité de l'EOSC, l'Association EOSC a promu la création de groupes de travail. Ces groupes sont composés d'experts pour développer des lignes directrices et des outils facilitant la mise en œuvre de l'EOSC. Les groupes de travail se concentrent sur quatre domaines principaux : métadonnées et qualité des données, carrières de recherche et programmes d'études, défis techniques, et durabilité de l'EOSC.
Le premier domaine aborde diverses dimensions pour assurer la découvrabilité et la qualité des objets de recherche, visant à développer des modèles pour évaluer la qualité des données. Le troisième domaine, qui est central à cet article, se concentre sur l'Interopérabilité Sémantique, garantissant que les données échangées entre les parties conservent leur format et leur signification.
Notre travail aide à relever les défis d'interopérabilité en identifiant les dimensions qui peuvent évaluer la maturité des catalogues contenant des artefacts sémantiques. Ces catalogues jouent un rôle vital pour garantir la disponibilité et la découvrabilité des artefacts sémantiques. Évaluer et améliorer leur maturité est essentiel pour la préservation à long terme de ces artefacts et l'interopérabilité globale des systèmes qu'ils soutiennent.
La question de recherche qui guide ce travail tourne autour de la manière de définir un modèle pour mesurer la maturité des catalogues contenant des artefacts sémantiques. Le but est de fournir des évaluations qui aident à améliorer ces catalogues pour une meilleure interopérabilité.
Évaluation des catalogues
Pour explorer notre question de recherche, on a d'abord rassemblé différentes définitions liées aux catalogues. On a analysé la littérature actuelle pour identifier un modèle qui pourrait mesurer, comparer et évaluer les catalogues disponibles. Le modèle de maturité qu'on présente inclut plusieurs dimensions qui permettent de catégoriser et d'évaluer la maturité des catalogues.
Dimensions et caractéristiques
À travers notre analyse, on a identifié 12 dimensions pour évaluer la maturité des catalogues d'artefacts sémantiques. Chaque dimension est accompagnée de plusieurs caractéristiques qui clarifient les critères d'évaluation.
Métadonnées (Me)
Cette dimension implique d'identifier le minimum de métadonnées nécessaires pour décrire avec précision un catalogue et ses artefacts sémantiques. Les aspects clés incluent l'utilisation de normes de métadonnées établies, la qualité de la documentation et le maintien des licences.
Ouverture (Op)
Cet aspect couvre les différentes formes d'ouverture, y compris l'ouverture technique (logiciels et protocoles) et l'aspect social, qui permet à quiconque intéressé de contribuer au catalogue.
Qualité (Qu)
Cette dimension examine les mécanismes en place pour vérifier et garantir la qualité des métadonnées au sein du catalogue. Cela inclut les revues par les pairs et les processus de curation.
Disponibilité (Av)
Cet aspect s'intéresse à la manière dont les métadonnées sont accessibles et s'il existe des mesures de confidentialité en raison de besoins légaux ou contexuels.
Statistiques (St)
Cette dimension suit la disponibilité des statistiques relatives au catalogue, aidant à surveiller son utilisation et sa croissance au fil du temps.
Identifiants Persistants (PID) (Pi)
Cet aspect se concentre sur l'utilisation d'identifiants persistants pour les métadonnées et les artefacts sémantiques, ce qui aide à un référencement efficace.
Gouvernance (Go)
Cette dimension couvre les règles régissant le catalogue, y compris la contribution de la communauté et la responsabilité de maintenir l'intégrité des métadonnées.
Communauté (Co)
Cet aspect aborde les mécanismes en place pour l'implication de la communauté, visant à comprendre les attentes des utilisateurs et à engager divers intervenants.
Durabilité (Su)
Cette dimension examine les modèles financiers qui soutiennent la maintenance à long terme du catalogue et de ses services.
Technologie (Te)
Cet aspect évalue les outils disponibles dans le catalogue pour les utilisateurs, tels que les API et les interfaces de recherche, afin d'améliorer leur expérience.
Transparence (Tr)
Cette dimension évalue la clarté des processus derrière la gouvernance et comment la curation des données est documentée.
Évaluation (As)
Cet aspect s'intéresse à savoir s'il existe des pratiques pour évaluer les catalogues par rapport aux dimensions et caractéristiques identifiées.
Évaluation des Catalogues
Ensuite, on a évalué un ensemble sélectionné de 26 catalogues liés aux artefacts sémantiques selon ces dimensions et leurs caractéristiques associées.
Métadonnées (Me)
Utiliser des vocabulaires standards pour les métadonnées est essentiel pour garantir l'interopérabilité entre les artefacts sémantiques. Cependant, seuls un nombre limité de catalogues appliquent actuellement des vocabulaires standards.
Ouverture (Op) et Qualité (Qu)
La plupart des catalogues maintenus par la communauté sont basés sur des outils open-source et permettent les contributions des utilisateurs, montrant un engagement envers le contrôle de la qualité. Cet accent sur la qualité est prometteur pour améliorer la fiabilité des données.
Disponibilité (Av) et PID (Pi)
La plupart des catalogues offrent un accès illimité, mais tous n'utilisent pas efficacement les identifiants persistants, ce qui met en évidence un domaine à améliorer en matière d'identification des ressources.
Statistiques (St)
La moitié des catalogues examinés fournissent des statistiques utiles, y compris des détails sur les artefacts sémantiques qu'ils détiennent et des informations sur l'engagement des utilisateurs.
Gouvernance (Go) et Communauté (Co)
De nombreux catalogues ont établi des cadres de gouvernance et des règles pour les contributions, promouvant l'engagement de la communauté. Cependant, certains sont plus fermés que d'autres.
Durabilité (Su)
La plupart des catalogues semblent financièrement stables, soutenus par des organisations, des communautés ou des projets de recherche spécifiques.
Technologie (Te)
La majorité des catalogues fournissent des outils technologiques essentiels tels que des interfaces de recherche web, améliorant l'expérience utilisateur et l'accessibilité.
Transparence (Tr)
Il y a un manque notable de documentation concernant les processus de curation, ce qui pourrait être amélioré pour favoriser la confiance dans les catalogues.
Évaluation (As)
Peu de catalogues proposent des méthodes d'auto-évaluation pour les critères de qualité, indiquant un besoin de pratiques d'évaluation plus standardisées.
Développements futurs
L'analyse révèle des domaines de force et des opportunités de croissance à travers les catalogues. Le modèle de maturité que nous avons créé est une étape fondamentale pour comprendre ces catalogues, mais il reste encore du travail à faire.
Les efforts futurs intégreront les dimensions identifiées dans ce modèle avec les recommandations d'autres groupes de travail impliqués dans l'EOSC. Cela inclura un accent sur la manière d'utiliser efficacement les artefacts sémantiques dans la recherche et le rôle des gestionnaires de données dans la gestion des métadonnées. Au final, l'objectif est de promouvoir l'adoption et la réutilisation efficaces des artefacts sémantiques au sein des communautés de recherche.
Méthodologie pour identifier les dimensions et caractéristiques
Le processus utilisé pour identifier les dimensions et caractéristiques du modèle de maturité a consisté en cinq étapes principales.
Analyse de la littérature existante
Les membres de l'équipe de recherche ont passé en revue divers documents qui fournissaient des idées sur les définitions et dimensions pertinentes pour les catalogues d'artefacts sémantiques. Ils ont compilé les résultats pour créer une compréhension partagée de la manière d'aborder le développement du modèle.
Collecte de catalogues
Ensuite, des catalogues potentiels ont été identifiés en fonction des connaissances et de l'expertise de l'équipe. Un processus de révision a permis de filtrer la sélection finale à 26 catalogues qui se concentraient principalement sur les artefacts sémantiques.
Mise en place de l'évaluation des catalogues
Un tableur structuré a été développé pour analyser les catalogues sélectionnés par rapport aux dimensions identifiées. Des examinateurs ont été assignés à des catalogues spécifiques pour évaluation, ce qui a conduit à des discussions et à l'affinement des caractéristiques identifiées.
Harmonisation et résumé
La dernière étape a impliqué une revue complète des résultats d'évaluation, fusionnant des caractéristiques similaires et assurant la cohérence à travers les dimensions. Le résultat a été un ensemble cohérent de caractéristiques pouvant être utilisé pour la comparaison et l'évaluation.
Conclusion
En conclusion, le modèle de maturité créé sert d'outil précieux pour évaluer les catalogues d'artefacts sémantiques. Il vise à améliorer la gestion et la préservation de ces artefacts, soutenant finalement une meilleure interopérabilité des systèmes. Cet effort continu renforcera les pratiques de gestion des données dans la recherche et favorisera un environnement plus ouvert et collaboratif pour le partage des connaissances.
Titre: A maturity model for catalogues of semantic artefacts
Résumé: This work presents a maturity model for assessing catalogues of semantic artefacts, one of the keystones that permit semantic interoperability of systems. We defined the dimensions and related features to include in the maturity model by analysing the current literature and existing catalogues of semantic artefacts provided by experts. In addition, we assessed 26 different catalogues to demonstrate the effectiveness of the maturity model, which includes 12 different dimensions (Metadata, Openness, Quality, Availability, Statistics, PID, Governance, Community, Sustainability, Technology, Transparency, and Assessment) and 43 related features (or sub-criteria) associated with these dimensions. Such a maturity model is one of the first attempts to provide recommendations for governance and processes for preserving and maintaining semantic artefacts and helps assess/address interoperability challenges.
Auteurs: Oscar Corcho, Fajar J. Ekaputra, Ivan Heibi, Clement Jonquet, Andras Micsik, Silvio Peroni, Emanuele Storti
Dernière mise à jour: 2024-03-24 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2305.06746
Source PDF: https://arxiv.org/pdf/2305.06746
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://ontolog.cim3.net/wiki/OntologySummit2008
- https://w3id.org/mobility
- https://www.eosc.eu
- https://eosc.eu/eosc-task-forces
- https://eosc.eu/advisory-groups/fair-metrics-and-data-quality
- https://eosc.eu/advisory-groups/pid-policy-implementation
- https://eosc.eu/sria-mar/
- https://www.eosc.eu/advisory-groups/semantic-interoperability
- https://www.rdaregistry.info/
- https://wit.istc.cnr.it/arco
- https://bioportal.bioontology.org/
- https://service.tib.eu/ts4tib/
- https://archivo.dbpedia.org/list
- https://lov.linkeddata.es/
- https://prefix.cc/
- https://op.europa.eu/en/web/eu-vocabularies/
- https://ontologydesignpatterns.org/
- https://www.sparontologies.net/
- https://fairsharing.org/
- https://agroportal.lirmm.fr/
- https://github.com/FoodOntology/joint-food-ontology-wg
- https://obofoundry.org/
- https://bartoc.org/
- https://www.ebi.ac.uk/ols/index
- https://ivoa.net/rdf/
- https://matportal.org/
- https://ecoportal.lifewatch.eu/
- https://www.loterre.fr/
- https://medportal.bmicc.cn/
- https://cor.esipfed.org/
- https://vocab.nerc.ac.uk/
- https://ontobee.org/
- https://www.hetop.eu/hetop/
- https://github.com/ontohub
- https://www.eosc.eu/advisory-groups/pid-policy-implementation
- https://prereview.org/preprints/doi-10.48550-arxiv.2305.06746
- https://doi.org/10.5281/zenodo.10625936
- https://doi.org/10.5281/zenodo.10618181
- https://credit.niso.org/