Nouvelle approche pour gérer des bases de connaissances inconsistantes
Une nouvelle méthode aide à gérer les contradictions dans les systèmes de connaissance en utilisant le raisonnement probabiliste.
― 10 min lire
Table des matières
Ces dernières années, gérer des infos incohérentes est devenu super important, surtout avec la montée du Web Sémantique. Le Web Sémantique relie des données de différentes sources, qui peuvent changer avec le temps et même se contredire. Du coup, gérer ces contradictions dans les Bases de connaissances est crucial.
Les méthodes traditionnelles pour raisonner sur les bases de connaissances partent souvent du principe que l'info est cohérente. Quand des Incohérences apparaissent, ces méthodes demandent aux utilisateurs de corriger les erreurs manuellement. Mais bon, ce n'est pas pratique et ça prend du temps, surtout pour des bases de connaissances grandes ou complexes.
Cet article parle d'une nouvelle méthode qui utilise le Raisonnement probabiliste pour gérer efficacement les bases de connaissances incohérentes. Cette méthode permet aux utilisateurs d'interroger une base de connaissance même quand elle contient des infos contradictoires. On va explorer la base théorique de cette méthode, son implémentation dans deux systèmes de raisonnement, et les résultats de différents tests pour évaluer son efficacité.
Contexte
Bases de Connaissances et Incohérence
Les bases de connaissances sont des collections structurées d'infos qui permettent un raisonnement automatisé. Elles contiennent des faits, des concepts, et leurs relations. Mais bon, quand ces bases grandissent et intègrent des infos de sources diverses, des incohérences peuvent surgir. Par exemple, il y a le classique problème du "pingouin qui vole", où une base de connaissance dit que tous les oiseaux peuvent voler, alors que les pingouins, qui sont des oiseaux, ne le peuvent pas. Cette contradiction rend la base de connaissance incohérente.
Approches Traditionnelles de Raisonnement
Traditionnellement, les raisonneurs partent du principe que les bases de connaissances sont cohérentes. Ils tirent des conclusions basées sur les infos fournies, souvent en utilisant des algorithmes conçus à cet effet. Quand ils rencontrent des contradictions, ils peuvent soit arrêter leurs opérations, soit demander aux utilisateurs d'identifier et de corriger les infos conflictuelles.
Mais ce processus peut être impraticable, surtout quand les bases de connaissances sont grandes ou évoluent constamment. Donc, il y a eu un besoin pour des méthodes qui peuvent tolérer des incohérences tout en permettant des requêtes significatives.
Raisonnement Probabiliste
Sémantique DISPONTE
Pour relever les défis posés par les bases de connaissances incohérentes, on explore une approche probabiliste. Plus précisément, on utilise la sémantique DISPONTE, qui attribue des valeurs de probabilité aux axiomes d'une base de connaissance. Ça veut dire qu'au lieu de juste considérer si un axiome est vrai ou faux, on peut évaluer à quel point il est probable qu'il soit vrai selon les preuves disponibles.
Par exemple, si une base de connaissance dit que "les pingouins sont des oiseaux" avec une haute probabilité, mais que l'affirmation "tous les oiseaux peuvent voler" est contredite par un autre fait, on peut quand même en tirer des informations utiles en considérant ces probabilités. En se concentrant sur les degrés de croyance de chaque axiome, la sémantique DISPONTE permet de raisonner même quand des contradictions existent.
Caractéristiques Clés de DISPONTE
La sémantique DISPONTE nous permet d'associer une valeur de probabilité à chaque axiome. Ces valeurs représentent notre croyance dans la vérité de cet axiome. Par exemple, on peut avoir de fortes preuves que "les pingouins ne volent pas", donnant à cette affirmation une valeur de probabilité élevée tout en reconnaissant que l'affirmation concernant tous les oiseaux volants a une probabilité plus basse en raison de la contradiction.
En plus, la capacité d'ajouter ces valeurs de probabilité sans affecter la syntaxe du langage de base de connaissance est cruciale. Ça assure qu'on peut maintenir la puissance expressive de la base de connaissance tout en intégrant un raisonnement probabiliste.
Implémentation
Raisonneurs TRILL et BUNDLE
Pour mettre en œuvre la sémantique DISPONTE, on a développé deux systèmes de raisonnement : TRILL et BUNDLE. TRILL est conçu pour travailler avec des bases de connaissances probabilistes, tandis que BUNDLE est un système plus large qui s'intègre avec des raisonneurs OWL (Web Ontology Language) établis.
TRILL
TRILL se concentre sur le raisonnement avec des bases de connaissances probabilistes utilisant la sémantique DISPONTE. Il inclut des algorithmes qui permettent aux utilisateurs de requêter des bases de connaissances même si elles contiennent des contradictions. En tirant parti des probabilités, TRILL renvoie des résultats qui indiquent le niveau de confiance des réponses.
BUNDLE
BUNDLE s'appuie sur les raisonneurs OWL existants et intègre le support pour la sémantique DISPONTE. Il permet aux utilisateurs de réaliser des requêtes à travers différentes bases de connaissances tout en tenant compte des incohérences. BUNDLE vise à fournir un environnement de raisonnement flexible qui intègre des approches traditionnelles et probabilistes.
Caractéristiques Clés des Implémentations
Les deux systèmes TRILL et BUNDLE supportent les fonctions critiques associées au raisonnement probabiliste, y compris :
- Évaluation de Requête : Les utilisateurs peuvent poser des requêtes à des bases de connaissances avec des incohérences, et les systèmes retournent des résultats basés sur les probabilités disponibles. 
- Justifications : Quand une incohérence est détectée, les deux systèmes peuvent identifier et renvoyer des justifications pour expliquer pourquoi un résultat a été produit. Les justifications aident les utilisateurs à comprendre la base logique des réponses et peuvent les guider pour résoudre les incohérences. 
- Intégration Flexible : Les implémentations permettent une intégration facile de nouveaux axiomes dans des bases de connaissances existantes sans révisions majeures à la logique sous-jacente. 
Test de l'Approche
Évaluation Empirique
Pour déterminer l'efficacité de notre méthode, on a mené une série de tests sur les systèmes TRILL et BUNDLE. Ces tests visaient à évaluer à quel point les systèmes gèrent les bases de connaissances incohérentes, la rapidité du traitement des requêtes, et la qualité des résultats fournis.
Scénarios de Test
On a créé plusieurs scénarios de test qui simulent des conditions du monde réel où des incohérences pourraient survenir. Chaque scénario impliquait différentes configurations de bases de connaissances, des nombres variés d'axiomes, et des niveaux de complexité différents.
Bases de Connaissance Cohérentes
Au départ, on a testé les systèmes avec des bases de connaissances cohérentes pour établir la performance de base. TRILL et BUNDLE ont tous deux montré des réponses rapides aux requêtes et ont retourné des résultats sans contradictions.
Bases de Connaissance Incohérentes
Ensuite, on a introduit des incohérences dans les bases de connaissances pour évaluer comment les systèmes s'adaptaient. Les résultats ont montré que les deux systèmes pouvaient toujours traiter les requêtes efficacement, fournissant des réponses basées sur les probabilités des axiomes impliqués.
Par exemple, en interrogeant sur les caractéristiques des pingouins dans une base de connaissance qui affirmait incorrectement que tous les oiseaux volent, TRILL et BUNDLE ont fourni des réponses qui prenaient en compte les probabilités associées. Cela a démontré l'efficacité de la sémantique DISPONTE dans la gestion des incohérences.
Métriques de Performance
On a évalué la performance de TRILL et BUNDLE en utilisant plusieurs métriques clés, y compris :
- Temps de Réponse : Mesurer combien de temps il a fallu aux systèmes pour traiter et retourner des réponses aux requêtes. 
- Exactitude : Évaluer si les résultats fournis par les systèmes étaient cohérents avec les probabilités attribuées aux axiomes. 
- Justifications Récupérées : Évaluer la quantité et la qualité des justifications fournies pour les réponses, surtout en cas d'incohérence. 
Ces métriques ont donné un aperçu de l'efficacité et de la fiabilité des deux systèmes de raisonnement lorsqu'il s'agit d'infos incohérentes.
Résultats
Conclusions Générales
Les résultats de nos tests révèlent plusieurs tendances significatives :
- Efficacité Sous Incohérence : Les deux systèmes TRILL et BUNDLE ont réussi à traiter des requêtes sur des bases de connaissances incohérentes, retournant des résultats reflétant les probabilités sous-jacentes. Ça indique que les systèmes peuvent gérer des scénarios du monde réel où des contradictions existent. 
- Temps de Réponse : Les temps de réponse sont restés raisonnables même avec des données incohérentes, bien que quelques variations aient été observées en fonction de la complexité et de la taille de la base de connaissance. En général, les bases plus petites et plus simples ont donné lieu à des réponses plus rapides. 
- Qualité des Justifications : Les justifications fournies ont été précieuses pour les utilisateurs qui tentaient de comprendre le processus de raisonnement derrière les sorties du système. Elles ont permis aux utilisateurs d'identifier et de traiter plus facilement les incohérences. 
Comparaison des Systèmes
En comparant TRILL et BUNDLE, plusieurs distinctions sont apparues :
- Flexibilité : BUNDLE a montré une plus grande flexibilité, car il pouvait s'intégrer avec divers raisonneurs OWL et gérer un éventail plus large de cas d'utilisation. En revanche, TRILL se spécialisait dans le raisonnement probabiliste. 
- Performance : TRILL a parfois surpassé BUNDLE dans des scénarios strictement probabilistes, surtout quand la base de connaissances était plus petite et avait moins d'axiomes. Cependant, BUNDLE excellait dans les scénarios nécessitant un raisonnement complexe en OWL grâce à son intégration avec des systèmes établis. 
- Scalabilité : BUNDLE a montré plus de scalabilité en naviguant dans des bases de connaissances plus grandes avec de nombreux axiomes, tandis que TRILL fonctionnait bien sur des ensembles de données plus petites. 
Conclusion
Le développement de TRILL et BUNDLE représente une avancée significative dans la gestion des bases de connaissances incohérentes en utilisant un raisonnement probabiliste. En tirant parti de la sémantique DISPONTE, ces systèmes permettent aux utilisateurs de requêter des données efficacement, même quand des contradictions surgissent.
Les résultats de nos tests soulignent la praticité de cette approche dans des applications réelles, démontrant à la fois les capacités des systèmes et l'utilité des sémantiques probabilistes dans la représentation des connaissances.
À mesure que le Web Sémantique continue d'évoluer, des outils qui peuvent gérer des incohérences dans les données tout en fournissant des informations précises et fiables resteront essentiels. Les recherches futures sont censées affiner encore ces méthodes, améliorer les algorithmes impliqués, et élargir la portée du raisonnement probabiliste dans divers domaines.
Titre: Exploiting Uncertainty for Querying Inconsistent Description Logics Knowledge Bases
Résumé: The necessity to manage inconsistency in Description Logics Knowledge Bases (KBs) has come to the fore with the increasing importance gained by the Semantic Web, where information comes from different sources that constantly change their content and may contain contradictory descriptions when considered either alone or together. Classical reasoning algorithms do not handle inconsistent KBs, forcing the debugging of the KB in order to remove the inconsistency. In this paper, we exploit an existing probabilistic semantics called DISPONTE to overcome this problem and allow queries also in case of inconsistent KBs. We implemented our approach in the reasoners TRILL and BUNDLE and empirically tested the validity of our proposal. Moreover, we formally compare the presented approach to that of the repair semantics, one of the most established semantics when considering DL reasoning tasks.
Auteurs: Riccardo Zese, Evelina Lamma, Fabrizio Riguzzi
Dernière mise à jour: 2024-09-10 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2306.09138
Source PDF: https://arxiv.org/pdf/2306.09138
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://www.overleaf.com/learn/latex/theorems_and_proofs
- https://link.springer.com/content/pdf/10.1007
- https://ncit.nci.nih.gov/ncitbrowser/
- https://si.washington.edu/projects/fma
- https://jfact.sourceforge.net/
- https://github.com/rzese/trill
- https://bitbucket.org/machinelearningunife/bundle/src/bundle_inc/
- https://lahdak.lri.fr/CQAPri
- https://doi.org/10.1007/978-3-319-24318-4
- https://doi.org/10.1007/978-3-319-49493-7
- https://proceedings.kr.org/2022/54/
- https://www.aaai.org/ocs/index.php/AAAI/AAAI14/paper/view/8231
- https://doi.org/10.1613/jair.1.11395
- https://doi.org/10.1007/978-3-030-65840-3
- https://doi.org/10.1016/j.artint.2019.103231
- https://doi.org/10.1613/jair.1.11852
- https://doi.org/10.1145/3106426.3106454
- https://www.aaai.org/ocs/index.php/IJCAI/IJCAI13/paper/view/6904
- https://doi.org/10.1007/978-3-030-00338-8
- https://doi.org/10.3233/978-1-61499-672-9-1414
- https://doi.org/10.1007/s10817-016-9386-0
- https://doi.org/10.1007/S10817-016-9386-0
- https://mcs.unife.it/~friguzzi/Papers/CotRigZes-SUM18.pdf
- https://doi.org/10.1007/978-3-030-00461-3
- https://www.aaai.org/ocs/index.php/AAAI/AAAI15/paper/view/9389
- https://doi.org/10.5555/3032027.3032070
- https://doi.org/10.1109/AIKE.2019.00027
- https://doi.org/10.1080/08839510903448692
- https://doi.org/10.5591/978-1-57735-516-8/IJCAI11-438
- https://doi.org/10.1007/978-3-642-39091-3
- https://doi.org/10.1016/j.websem.2005.06.005
- https://doi.org/10.1305/ndjfl/1093888404
- https://www.aaai.org/Library/KR/2008/kr08-035.php
- https://dl.acm.org/citation.cfm?id=3029947.3029959
- https://ijcai.org/Proceedings/03/Papers/015.pdf
- https://www.vldb.org/pvldb/vol1/1453894.pdf
- https://doi.org/10.14778/1453856.1453894
- https://doi.org/10.1017/S147106842200014X
- https://doi.org/10.1007/978-3-642-15918-3_9
- https://doi.org/10.1007/978-3-319-11558-0
- https://doi.org/10.1613/jair.577
- https://ceur-ws.org/Vol-353/MaHitzlerLin.pdf
- https://doi.org/10.1007/BF00258428
- https://ceur-ws.org/Vol-477/paper
- https://ceur-ws.org/Vol-573/paper
- https://www.booksonline.iospress.nl/Content/View.aspx?piid=17709
- https://doi.org/10.1016/j.ijar.2017.06.002
- https://doi.org/10.1007/978-3-642-33158-9
- https://doi.org/10.1002/int.20470
- https://doi.org/10.1007/978-3-319-13413-0
- https://doi.org/10.1007/978-3-642-39666-3
- https://doi.org/10.3233/SW-140154
- https://doi.org/10.1007/978-3-540-74782-6_11
- https://doi.org/10.1093/jigpal/jzp025
- https://doi.org/10.4230/LIPIcs.ICLP.2010.162
- https://doi.org/10.1017/S147106841100010X
- https://doi.org/10.7551/mitpress/4298.003.0069
- https://doi.org/10.1007/978-3-540-89704-0
- https://doi.org/10.1007/978-3-642-02959-2
- https://doi.org/10.1007/978-3-030-79876-5
- https://doi.org/10.1007/11814771
- https://doi.org/10.1109/SFCS.1989.63527
- https://doi.org/10.3233/978-1-61499-098-7-864
- https://doi.org/10.1007/s10472-016-9529-3
- https://doi.org/10.1016/j.websem.2021.100677
- https://doi.org/10.1017/S1471068418000480
- https://ebooks.iospress.nl/volume/probabilistic-semantic-web-reasoning-and-learning
- https://doi.org/10.3233/978-1-61499-734-4-i
- https://doi.org/10.1016/j.ijar.2013.09.005