Simple Science

La science de pointe expliquée simplement

# Informatique# Calcul et langage

Transformer des bases de connaissances ouvertes en bases fermées

Une nouvelle approche pour améliorer l'exactitude et l'utilité de la base de connaissances.

― 9 min lire


Transformer des bases deTransformer des bases deconnaissancesqualité et l'utilisabilité des données.De nouvelles méthodes améliorent la
Table des matières

Les bases de connaissances (KB) sont des collections d'infos qui aident les ordinateurs à comprendre et traiter des données. Elles jouent un rôle crucial dans les applis qui nécessitent du savoir, comme répondre à des questions, générer du texte et classer des images. Créer ces bases de connaissances automatiquement intéresse beaucoup les chercheurs à cause de la quantité énorme d'infos qu'on trouve dans les textes.

Un moyen de créer ces bases de connaissances, c'est d'utiliser une méthode appelée Extraction d'Information Ouverte (OpenIE). OpenIE extrait des infos des textes en identifiant les relations entre différentes entités. Par exemple, dans la phrase "Les chats chassent les souris", OpenIE peut extraire la relation : (chats, chassent, souris). Bien qu'OpenIE soit utile et puisse rassembler beaucoup d'infos, il a aussi tendance à inclure des erreurs et des ambiguïtés des textes d'origine.

Le défi des bases de connaissances ouvertes

Les bases de connaissances ouvertes sont formées à partir de ces infos extraites. Cependant, comme les infos ne sont pas toujours organisées de manière claire, travailler avec ces données peut être compliqué. OpenIE crée une variété de relations qui n'ont pas toujours des formes standard, rendant difficile l'utilisation de ces infos dans les applis. En revanche, les bases de connaissances fermées suivent une structure spécifique avec des définitions claires des relations, ce qui les rend plus faciles à utiliser.

L'objectif de transformer une base de connaissances ouverte en une fermée est de créer des infos plus précises et utilisables. Cela implique de faire correspondre les entrées moins organisées dans la KB ouverte à un cadre structuré, comme celui d'une KB fermée existante. Un exemple populaire de base de connaissances fermée est ConceptNet, qui propose un ensemble clair de relations et d'entités.

Pourquoi transformer les bases de connaissances ouvertes ?

Bien que les bases de connaissances ouvertes aient des avantages comme un bon rappel (capacité à rassembler beaucoup d'infos pertinentes), elles souffrent souvent de problèmes comme le bruit et des relations floues. Transformer une KB ouverte en une fermée peut aider à produire des données plus fiables tout en gardant les avantages d'un bon rappel.

Par exemple, si une KB ouverte a plusieurs entrées sur les poissons vivant dans l'eau, celles-ci peuvent être consolidées en une seule entrée dans une KB fermée, améliorant la clarté et réduisant la redondance. Les données transformées peuvent ensuite être utilisées dans diverses applis, comme des systèmes de questions-réponses et des outils de génération de texte.

Comment fonctionne la transformation

Pour convertir une KB ouverte en KB fermée, on peut voir ça comme une tâche de traduction. Ce processus implique plusieurs étapes :

  1. Alignement des entrées : D'abord, il faut faire correspondre les entrées de la base de connaissances ouverte avec celles de la base fermée. Cet alignement nous aide à voir quelles triples ouvertes correspondent à quelles triples fermées.

  2. Création d'un dataset : Une fois qu'on a les alignements, on peut créer un dataset qui aide à entraîner un modèle pour effectuer la correspondance. Ça peut être compliqué car on veut que notre modèle apprenne à traduire les infos efficacement du format ouvert au format fermé.

  3. Entraînement d'un modèle : Un modèle de langue génératif peut être entraîné pour prendre une entrée de connaissance ouverte et produire une ou plusieurs entrées correspondantes dans le format de connaissance fermée. Ce modèle apprend à faire ces transformations en se basant sur les exemples dans le dataset.

  4. Génération de sortie : Après l'entraînement, le modèle peut être utilisé pour générer des correspondances finales de la KB ouverte à la KB fermée. Il est crucial de s'assurer que les infos générées restent liées aux entrées d'origine.

  5. Évaluation des résultats : La dernière étape consiste à évaluer la qualité des correspondances générées. On vise à classer les résultats pour garantir que les infos les plus précises et pertinentes apparaissent en tête.

Avantages des Modèles génératifs

Utiliser un modèle génératif présente des avantages uniques. Contrairement aux méthodes traditionnelles qui reposent sur des règles fixes ou une annotation manuelle, un modèle génératif peut s'adapter aux nouvelles données et aux données non vues plus efficacement. Cela signifie qu'il peut gérer les variations de langue et de structure mieux que les systèmes qui se basent uniquement sur des règles.

De plus, le modèle génératif peut corriger les erreurs dans les triples ouverts d'origine. S'il y a des fautes ou des déclarations floues dans la KB ouverte, le modèle peut fournir des résultats plus clairs et précis dans la KB fermée. Cette capacité de nettoyage est cruciale car les bases de connaissances ouvertes contiennent souvent des inexactitudes.

Approches antérieures

Plusieurs méthodes ont été utilisées par le passé pour aborder le problème de la transformation des KB ouvertes en KB fermées. Quelques-unes de ces méthodes incluent :

  • Mapping manuel : Cela implique que des experts humains examinent et traduisent les relations du format ouvert au format fermé. Bien que précis, ce méthode est chronophage et non évolutive.

  • Systèmes basés sur des règles : Ces systèmes utilisent des règles prédéfinies pour mapper les relations. Ils peuvent être efficaces mais peinent souvent avec la complexité et la variabilité inhérentes au langage naturel.

  • Approches de classification : Certains chercheurs ont utilisé des classificateurs d'apprentissage automatique pour prédire comment les triples ouverts correspondent aux triples fermés. Bien que cela puisse fonctionner, ça échoue souvent à gérer des entrées diverses ou non vues.

Chacune de ces méthodes a ses inconvénients, soulignant le besoin d'une approche plus flexible et efficace, comme la traduction générative.

Traduction générative : Une nouvelle approche

L'approche de traduction générative proposée combine les avantages du bon rappel des KB ouvertes avec la précision des KB fermées. Ce processus comprend les étapes suivantes :

  1. Préparation des données : Créer et affiner un dataset pour que le modèle puisse apprendre. Cela implique d'aligner les entrées des deux bases de connaissances.

  2. Entraînement du modèle : Affiner un modèle de langue génératif, comme GPT-2, sur ce dataset. Le modèle apprend comment traduire entre les formats ouvert et fermé.

  3. Génération de correspondances : Utiliser le modèle entraîné pour générer des triples fermés potentiels à partir des triples ouverts. Le modèle peut créer plusieurs sorties, offrant une chance de trouver des correspondances variées et précises.

  4. Évaluation et classement : Évaluer les triples générés en fonction de leur fréquence dans la KB ouverte d'origine et de leur pertinence. Ce score aide à déterminer les meilleurs candidats pour inclusion dans la KB fermée.

  5. Finalisation : Les triples les plus pertinents et précis sont ensuite compilés dans la base de connaissances fermée finale qui peut être utilisée dans les applis.

Résultats de l'approche de traduction générative

La méthode de traduction générative a montré des résultats prometteurs. Elle surpasse les modèles traditionnels sur plusieurs aspects, y compris :

  • Meilleur rappel : L'approche peut maintenir une large gamme d'infos, assurant qu'un plus grand nombre de triples sont capturés.

  • Meilleure précision : Les résultats sont plus clairs et mieux structurés, entraînant moins d'ambiguïtés dans la base de connaissances.

  • Flexibilité : Le modèle génératif peut s'adapter à des constructions linguistiques diverses, le rendant adapté à une large variété de données d'entrée.

Évaluation de la qualité des bases de connaissances générées

Après avoir généré la KB fermée, il est essentiel d'évaluer sa qualité. Cela inclut de mesurer :

  • Mapping correct : Les triples générés sont-ils des représentations précises des triples ouverts d'origine ?

  • Véracité : Les infos dans les triples générés sont-elles correctes ?

  • Qualité globale : Comment la typicité des déclarations dans la nouvelle KB se compare-t-elle aux références existantes ?

Des évaluateurs humains peuvent évaluer la qualité des triples générés en examinant un échantillon des données. Cette évaluation manuelle fournit des insights précieux sur la manière dont le modèle génératif a réussi à créer une base de connaissances structurée et précise.

Apprendre des échecs

Il est important de reconnaître que toutes les tentatives de transformation ne réussiront pas. Certains triples générés peuvent ne pas s'aligner avec les résultats attendus en raison de relations complexes ou d'erreurs dans les données sources. Ces échecs peuvent donner des insights sur la manière d'améliorer le modèle.

Par exemple, si certains mappings échouent constamment à produire des résultats précis, les chercheurs peuvent explorer les caractéristiques spécifiques de ces cas et ajuster le processus d'entraînement ou modifier l'architecture du modèle en conséquence.

Conclusion

Transformer les bases de connaissances ouvertes en fermées est une tâche significative qui peut améliorer l'utilisabilité et l'exactitude des infos. L'approche de traduction générative présente une solution prometteuse, permettant flexibilité, précision et capacité à nettoyer les données bruyantes.

En tirant parti des modèles de langue génératifs, les chercheurs et développeurs peuvent améliorer la qualité des bases de connaissances utilisées dans diverses applis, des systèmes intelligents de questions-réponses aux outils de génération de texte sophistiqués. À mesure que le domaine continue d'évoluer, il y aura plus d'opportunités pour affiner ces méthodes, menant à des résultats encore meilleurs à l'avenir.

Source originale

Titre: Mapping and Cleaning Open Commonsense Knowledge Bases with Generative Translation

Résumé: Structured knowledge bases (KBs) are the backbone of many know\-ledge-intensive applications, and their automated construction has received considerable attention. In particular, open information extraction (OpenIE) is often used to induce structure from a text. However, although it allows high recall, the extracted knowledge tends to inherit noise from the sources and the OpenIE algorithm. Besides, OpenIE tuples contain an open-ended, non-canonicalized set of relations, making the extracted knowledge's downstream exploitation harder. In this paper, we study the problem of mapping an open KB into the fixed schema of an existing KB, specifically for the case of commonsense knowledge. We propose approaching the problem by generative translation, i.e., by training a language model to generate fixed-schema assertions from open ones. Experiments show that this approach occupies a sweet spot between traditional manual, rule-based, or classification-based canonicalization and purely generative KB construction like COMET. Moreover, it produces higher mapping accuracy than the former while avoiding the association-based noise of the latter.

Auteurs: Julien Romero, Simon Razniewski

Dernière mise à jour: 2023-06-22 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2306.12766

Source PDF: https://arxiv.org/pdf/2306.12766

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires