Simple Science

La science de pointe expliquée simplement

# Informatique# Calcul et langage# Multimédia

Présentation de MMPKUBase : un graphe de connaissances chinois

MMPKUBase propose plus de 52 000 sujets chinois avec plein d'images.

― 6 min lire


MMPKUBase : Une ressourceMMPKUBase : Une ressourcede connaissance chinoisechinoises de haute qualité.Une immense collection d'infos
Table des matières

Les Graphes de connaissances multimodaux sont des outils qui aident à organiser les infos en combinant différents types de données, comme du texte et des images. Ces graphes sont super utiles pour des tâches comme répondre à des questions et donner des recommandations. Cependant, il y a encore des soucis pour en créer, surtout pour la langue chinoise. Cet article présente MMPKUBase, un nouveau graphe de connaissances axé sur les infos chinoises, qui couvre plein de sujets comme les animaux et les plantes.

C'est quoi MMPKUBase ?

MMPKUBase est une grande collection d'infos sous forme de graphe de connaissances, spécialement conçu pour la langue chinoise. Il contient plus de 52 000 entrées et plus de 1,5 million d'images. Les sujets couverts varient énormément, incluant des oiseaux, des mammifères, des plantes, de l'architecture et des véhicules. L'un des principaux objectifs est de fournir des images fiables et de qualité pour que les utilisateurs puissent les utiliser dans diverses applis.

Pourquoi on a besoin de MMPKUBase ?

La demande d'infos de qualité en chinois a explosé, mais beaucoup de ressources existantes ne satisfont pas ce besoin. Alors que plein de graphes de connaissances sont dispo en anglais, le même niveau de qualité n'existe pas en chinois. Du coup, MMPKUBase vise à combler ce manque en offrant une ressource complète enrichie d'images sur divers sujets.

Comment MMPKUBase est construit ?

Construire MMPKUBase, ça passe par plusieurs étapes. D'abord, il y a la Collecte de données à partir de sources fiables. L'équipe choisit les sujets d'intérêt et recueille les images associées. Ensuite, elle filtre les images de mauvaise qualité ou non pertinentes pour garantir que la collection finale soit utile.

Collecte de données

Les données pour MMPKUBase proviennent de deux sources principales : une grande ressource de connaissances chinoises et un moteur de recherche d'images. La ressource de connaissances contient des millions d'entrées, tandis que le moteur d'images donne accès à des milliers d'images provenant de différentes pages web.

Sélection des sujets

Pour créer un graphe de connaissances utile, l'équipe a décidé de se concentrer sur des sujets spécifiques qui ont des représentations visuelles claires. Cette décision aide à s'assurer que les images incluses dans le graphe sont pertinentes et utiles. Parmi les sujets choisis, on trouve différents types d'oiseaux, de mammifères et diverses plantes.

Rassemblement d'images

Une fois les sujets sélectionnés, la prochaine étape est de collecter des images. L'équipe utilise les noms des sujets choisis comme requêtes de recherche pour trouver des images qui leur sont liées. Elle vise à rassembler jusqu'à 30 des meilleures images pour chaque sujet, en garantissant une sélection visuelle variée.

Contrôle de la qualité des images

Après avoir rassemblé des images, il est crucial de s'assurer qu'elles soient de haute qualité. Le processus de filtrage élimine les images qui peuvent embrouiller les utilisateurs ou mal représenter les sujets. Les images de mauvaise qualité, les fichiers corrompus ou les images non pertinentes sont retirés de la collection finale.

Processus de Filtrage d'images

Le filtrage d'images passe par plusieurs étapes. D'abord, toutes les images corrompues ou mal formatées sont supprimées. Ensuite, l'équipe utilise des méthodes avancées pour évaluer la pertinence des images restantes. Les images qui ne correspondent pas de près aux sujets sont également filtrées.

Utilisation de Techniques avancées

Pour améliorer la qualité des images dans MMPKUBase, l'équipe utilise des techniques avancées. L'une de ces techniques s'appelle l'apprentissage par contraste prototypique. Cette méthode aide à identifier quelles images sont les plus représentatives de sujets spécifiques. Une autre méthode utilisée s'appelle la forêt d'isolement, qui aide à détecter et enlever les images aberrantes qui ne s'intègrent pas bien avec le reste.

Apprentissage par contraste prototypique

Cette méthode fonctionne en regroupant des images similaires en fonction de leurs caractéristiques. Elle aide à créer une image plus claire de ce à quoi un sujet spécifique devrait ressembler. Par exemple, les images d'un certain oiseau peuvent être regroupées en fonction de caractéristiques distinctes, facilitant la recherche des meilleures visuelles pour ce sujet.

Forêt d'isolement

La technique de la forêt d'isolement identifie les images qui n'appartiennent à aucun groupe ou cluster. En isolant ces valeurs aberrantes, l'équipe peut s'assurer que la collection finale contient uniquement des images pertinentes et utiles. Cette méthode est particulièrement efficace pour gérer de grandes quantités de données d'images.

Finalisation du graphe de connaissances

La dernière étape pour créer MMPKUBase consiste à connecter les images avec les sujets pertinents dans un format structuré. Chaque sujet est lié à ses images correspondantes, créant ainsi un graphe complet que les utilisateurs peuvent explorer. Cela permet un accès facile à la fois aux infos textuelles et visuelles.

Accéder à MMPKUBase

Pour rendre MMPKUBase convivial, l'équipe a créé une plateforme facile à utiliser où les gens peuvent explorer le graphe de connaissances. Les utilisateurs peuvent rechercher des sujets spécifiques et voir les images et infos connexes. L'interface est conçue pour rendre la navigation simple, permettant à chacun de trouver rapidement ce dont il a besoin.

Recherche d'infos

Les utilisateurs peuvent saisir des requêtes dans une barre de recherche sur la plateforme pour chercher des sujets spécifiques. Par exemple, entrer le nom d'une marque de voiture affichera toutes les entrées et images pertinentes liées à cette marque. Cette fonctionnalité facilite l'accès aux infos dont les utilisateurs ont besoin.

Conclusion

MMPKUBase représente une avancée importante dans la création de graphes de connaissances multimodaux chinois de haute qualité. Avec plus de 52 000 sujets et plus de 1,5 million d'images, il fournit des infos précieuses couvrant un large éventail de sujets. L'utilisation de techniques avancées garantit que les données soient fiables et pertinentes, ce qui les rend adaptées à diverses applications.

Les efforts futurs se concentreront sur l'intégration de MMPKUBase dans des utilisations concrètes. En continuant d'élargir le graphe de connaissances pour inclure encore plus de sujets et d'images, il servira de ressource précieuse pour ceux qui cherchent à accéder à des infos de qualité en chinois.

Source originale

Titre: MMPKUBase: A Comprehensive and High-quality Chinese Multi-modal Knowledge Graph

Résumé: Multi-modal knowledge graphs have emerged as a powerful approach for information representation, combining data from different modalities such as text, images, and videos. While several such graphs have been constructed and have played important roles in applications like visual question answering and recommendation systems, challenges persist in their development. These include the scarcity of high-quality Chinese knowledge graphs and limited domain coverage in existing multi-modal knowledge graphs. This paper introduces MMPKUBase, a robust and extensive Chinese multi-modal knowledge graph that covers diverse domains, including birds, mammals, ferns, and more, comprising over 50,000 entities and over 1 million filtered images. To ensure data quality, we employ Prototypical Contrastive Learning and the Isolation Forest algorithm to refine the image data. Additionally, we have developed a user-friendly platform to facilitate image attribute exploration.

Auteurs: Xuan Yi, Yanzeng Li, Lei Zou

Dernière mise à jour: 2024-08-03 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2408.01679

Source PDF: https://arxiv.org/pdf/2408.01679

Licence: https://creativecommons.org/licenses/by-nc-sa/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires