Présentation de MMPKUBase : un graphe de connaissances chinois
MMPKUBase propose plus de 52 000 sujets chinois avec plein d'images.
― 6 min lire
Table des matières
- C'est quoi MMPKUBase ?
- Pourquoi on a besoin de MMPKUBase ?
- Comment MMPKUBase est construit ?
- Collecte de données
- Sélection des sujets
- Rassemblement d'images
- Contrôle de la qualité des images
- Processus de Filtrage d'images
- Utilisation de Techniques avancées
- Apprentissage par contraste prototypique
- Forêt d'isolement
- Finalisation du graphe de connaissances
- Accéder à MMPKUBase
- Recherche d'infos
- Conclusion
- Source originale
- Liens de référence
Les Graphes de connaissances multimodaux sont des outils qui aident à organiser les infos en combinant différents types de données, comme du texte et des images. Ces graphes sont super utiles pour des tâches comme répondre à des questions et donner des recommandations. Cependant, il y a encore des soucis pour en créer, surtout pour la langue chinoise. Cet article présente MMPKUBase, un nouveau graphe de connaissances axé sur les infos chinoises, qui couvre plein de sujets comme les animaux et les plantes.
C'est quoi MMPKUBase ?
MMPKUBase est une grande collection d'infos sous forme de graphe de connaissances, spécialement conçu pour la langue chinoise. Il contient plus de 52 000 entrées et plus de 1,5 million d'images. Les sujets couverts varient énormément, incluant des oiseaux, des mammifères, des plantes, de l'architecture et des véhicules. L'un des principaux objectifs est de fournir des images fiables et de qualité pour que les utilisateurs puissent les utiliser dans diverses applis.
Pourquoi on a besoin de MMPKUBase ?
La demande d'infos de qualité en chinois a explosé, mais beaucoup de ressources existantes ne satisfont pas ce besoin. Alors que plein de graphes de connaissances sont dispo en anglais, le même niveau de qualité n'existe pas en chinois. Du coup, MMPKUBase vise à combler ce manque en offrant une ressource complète enrichie d'images sur divers sujets.
Comment MMPKUBase est construit ?
Construire MMPKUBase, ça passe par plusieurs étapes. D'abord, il y a la Collecte de données à partir de sources fiables. L'équipe choisit les sujets d'intérêt et recueille les images associées. Ensuite, elle filtre les images de mauvaise qualité ou non pertinentes pour garantir que la collection finale soit utile.
Collecte de données
Les données pour MMPKUBase proviennent de deux sources principales : une grande ressource de connaissances chinoises et un moteur de recherche d'images. La ressource de connaissances contient des millions d'entrées, tandis que le moteur d'images donne accès à des milliers d'images provenant de différentes pages web.
Sélection des sujets
Pour créer un graphe de connaissances utile, l'équipe a décidé de se concentrer sur des sujets spécifiques qui ont des représentations visuelles claires. Cette décision aide à s'assurer que les images incluses dans le graphe sont pertinentes et utiles. Parmi les sujets choisis, on trouve différents types d'oiseaux, de mammifères et diverses plantes.
Rassemblement d'images
Une fois les sujets sélectionnés, la prochaine étape est de collecter des images. L'équipe utilise les noms des sujets choisis comme requêtes de recherche pour trouver des images qui leur sont liées. Elle vise à rassembler jusqu'à 30 des meilleures images pour chaque sujet, en garantissant une sélection visuelle variée.
Contrôle de la qualité des images
Après avoir rassemblé des images, il est crucial de s'assurer qu'elles soient de haute qualité. Le processus de filtrage élimine les images qui peuvent embrouiller les utilisateurs ou mal représenter les sujets. Les images de mauvaise qualité, les fichiers corrompus ou les images non pertinentes sont retirés de la collection finale.
Filtrage d'images
Processus deLe filtrage d'images passe par plusieurs étapes. D'abord, toutes les images corrompues ou mal formatées sont supprimées. Ensuite, l'équipe utilise des méthodes avancées pour évaluer la pertinence des images restantes. Les images qui ne correspondent pas de près aux sujets sont également filtrées.
Techniques avancées
Utilisation dePour améliorer la qualité des images dans MMPKUBase, l'équipe utilise des techniques avancées. L'une de ces techniques s'appelle l'apprentissage par contraste prototypique. Cette méthode aide à identifier quelles images sont les plus représentatives de sujets spécifiques. Une autre méthode utilisée s'appelle la forêt d'isolement, qui aide à détecter et enlever les images aberrantes qui ne s'intègrent pas bien avec le reste.
Apprentissage par contraste prototypique
Cette méthode fonctionne en regroupant des images similaires en fonction de leurs caractéristiques. Elle aide à créer une image plus claire de ce à quoi un sujet spécifique devrait ressembler. Par exemple, les images d'un certain oiseau peuvent être regroupées en fonction de caractéristiques distinctes, facilitant la recherche des meilleures visuelles pour ce sujet.
Forêt d'isolement
La technique de la forêt d'isolement identifie les images qui n'appartiennent à aucun groupe ou cluster. En isolant ces valeurs aberrantes, l'équipe peut s'assurer que la collection finale contient uniquement des images pertinentes et utiles. Cette méthode est particulièrement efficace pour gérer de grandes quantités de données d'images.
Finalisation du graphe de connaissances
La dernière étape pour créer MMPKUBase consiste à connecter les images avec les sujets pertinents dans un format structuré. Chaque sujet est lié à ses images correspondantes, créant ainsi un graphe complet que les utilisateurs peuvent explorer. Cela permet un accès facile à la fois aux infos textuelles et visuelles.
Accéder à MMPKUBase
Pour rendre MMPKUBase convivial, l'équipe a créé une plateforme facile à utiliser où les gens peuvent explorer le graphe de connaissances. Les utilisateurs peuvent rechercher des sujets spécifiques et voir les images et infos connexes. L'interface est conçue pour rendre la navigation simple, permettant à chacun de trouver rapidement ce dont il a besoin.
Recherche d'infos
Les utilisateurs peuvent saisir des requêtes dans une barre de recherche sur la plateforme pour chercher des sujets spécifiques. Par exemple, entrer le nom d'une marque de voiture affichera toutes les entrées et images pertinentes liées à cette marque. Cette fonctionnalité facilite l'accès aux infos dont les utilisateurs ont besoin.
Conclusion
MMPKUBase représente une avancée importante dans la création de graphes de connaissances multimodaux chinois de haute qualité. Avec plus de 52 000 sujets et plus de 1,5 million d'images, il fournit des infos précieuses couvrant un large éventail de sujets. L'utilisation de techniques avancées garantit que les données soient fiables et pertinentes, ce qui les rend adaptées à diverses applications.
Les efforts futurs se concentreront sur l'intégration de MMPKUBase dans des utilisations concrètes. En continuant d'élargir le graphe de connaissances pour inclure encore plus de sujets et d'images, il servira de ressource précieuse pour ceux qui cherchent à accéder à des infos de qualité en chinois.
Titre: MMPKUBase: A Comprehensive and High-quality Chinese Multi-modal Knowledge Graph
Résumé: Multi-modal knowledge graphs have emerged as a powerful approach for information representation, combining data from different modalities such as text, images, and videos. While several such graphs have been constructed and have played important roles in applications like visual question answering and recommendation systems, challenges persist in their development. These include the scarcity of high-quality Chinese knowledge graphs and limited domain coverage in existing multi-modal knowledge graphs. This paper introduces MMPKUBase, a robust and extensive Chinese multi-modal knowledge graph that covers diverse domains, including birds, mammals, ferns, and more, comprising over 50,000 entities and over 1 million filtered images. To ensure data quality, we employ Prototypical Contrastive Learning and the Isolation Forest algorithm to refine the image data. Additionally, we have developed a user-friendly platform to facilitate image attribute exploration.
Auteurs: Xuan Yi, Yanzeng Li, Lei Zou
Dernière mise à jour: 2024-08-03 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2408.01679
Source PDF: https://arxiv.org/pdf/2408.01679
Licence: https://creativecommons.org/licenses/by-nc-sa/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.