Apresentando o MMPKUBase: Um Gráfico de Conhecimento Chinês
MMPKUBase oferece mais de 52.000 assuntos chineses com imagens incríveis.
― 6 min ler
Índice
- O que é o MMPKUBase?
- Por que precisamos do MMPKUBase?
- Como é construído o MMPKUBase?
- Coleta de Dados
- Selecionando Tópicos
- Coletando Imagens
- Controle de Qualidade das Imagens
- Processo de Filtragem de Imagens
- Usando Técnicas Avançadas
- Aprendizado Contrastivo Prototipal
- Floresta de Isolamento
- Finalizando o Grafo de Conhecimento
- Acessando o MMPKUBase
- Buscando Informações
- Conclusão
- Fonte original
- Ligações de referência
Grafos de Conhecimento multimodal são ferramentas que ajudam a organizar informações combinando diferentes tipos de dados, como texto e imagens. Esses gráficos têm se mostrado úteis para tarefas como responder perguntas e dar recomendações. No entanto, ainda existem problemas na sua criação, especialmente em relação ao idioma chinês. Este artigo apresenta o MMPKUBase, um novo grafo de conhecimento focado em informações chinesas que inclui uma variedade de tópicos, como animais e plantas.
O que é o MMPKUBase?
O MMPKUBase é uma grande coleção de informações na forma de um grafo de conhecimento, projetado especificamente para o idioma chinês. Ele contém mais de 52.000 entradas e mais de 1,5 milhão de imagens. Os tópicos abrangem uma ampla gama, incluindo pássaros, mamíferos, plantas, arquitetura e veículos. Um dos principais objetivos é fornecer imagens confiáveis e de alta qualidade para os usuários acessarem e usarem em diversas aplicações.
Por que precisamos do MMPKUBase?
A demanda por informações de alta qualidade em chinês cresceu, mas muitos recursos existentes não atendem a essa necessidade. Embora existam muitos grafos de conhecimento disponíveis em inglês, o mesmo nível de qualidade não está presente no idioma chinês. Como resultado, o MMPKUBase visa preencher essa lacuna, oferecendo um recurso abrangente enriquecido com imagens relacionadas a vários assuntos.
Como é construído o MMPKUBase?
Construir o MMPKUBase envolve várias etapas. Primeiro, há a Coleta de Dados de fontes confiáveis. A equipe seleciona os tópicos de interesse e reúne imagens relacionadas. Depois, filtram as imagens de baixa qualidade ou irrelevantes para garantir que a coleção final seja útil.
Coleta de Dados
Os dados para o MMPKUBase vêm de duas fontes principais: um grande recurso de conhecimento chinês e um motor de busca de imagens. O recurso de conhecimento contém milhões de entradas, enquanto o motor de busca de imagens fornece acesso a inúmeras imagens de diferentes páginas da web.
Selecionando Tópicos
Para criar um grafo de conhecimento útil, a equipe decidiu focar em assuntos específicos que têm representações visuais claras. Essa decisão ajuda a garantir que as imagens incluídas no grafo sejam relevantes e úteis. Alguns dos tópicos escolhidos incluem diferentes tipos de pássaros, mamíferos e várias plantas.
Coletando Imagens
Uma vez que os tópicos são selecionados, o próximo passo é coletar imagens. A equipe usa os nomes dos assuntos escolhidos como consultas de busca para encontrar imagens relacionadas a eles. Eles buscam reunir até 30 das melhores imagens para cada assunto, garantindo que haja uma seleção diversificada de visuais.
Controle de Qualidade das Imagens
Depois de reunir as imagens, é importante garantir que elas sejam de alta qualidade. O processo de filtragem elimina imagens que podem confundir os usuários ou representar mal os assuntos. Imagens de baixa qualidade, arquivos corrompidos ou imagens não relacionadas são removidas da coleção final.
Processo de Filtragem de Imagens
A filtragem de imagens envolve várias etapas. Primeiro, qualquer imagem corrompida ou mal formatada é removida. Em seguida, a equipe usa métodos avançados para avaliar a relevância das imagens restantes. Imagens que não correspondem de perto aos assuntos também são filtradas.
Técnicas Avançadas
UsandoPara melhorar a qualidade das imagens no MMPKUBase, a equipe emprega técnicas avançadas. Uma dessas técnicas é conhecida como Aprendizado Contrastivo Prototipal. Esse método ajuda a identificar quais imagens são as mais representativas de assuntos específicos. Outro método utilizado é chamado de Floresta de Isolamento, que ajuda a detectar e remover imagens outliers que não se encaixam bem com o restante.
Aprendizado Contrastivo Prototipal
Esse método funciona agrupando imagens semelhantes com base em suas características. Ajuda a criar uma imagem mais clara de como um assunto específico deve parecer. Por exemplo, imagens de um determinado pássaro podem ser agrupadas com base em características distintas, facilitando a busca pelas melhores visuais para esse assunto.
Floresta de Isolamento
A técnica da Floresta de Isolamento identifica imagens que não pertencem a nenhum grupo ou cluster. Ao isolar esses outliers, a equipe pode garantir que a coleção final contenha apenas imagens relevantes e úteis. Esse método é especialmente eficaz para lidar com grandes quantidades de dados de imagem.
Finalizando o Grafo de Conhecimento
A última etapa na criação do MMPKUBase é conectar as imagens aos assuntos relevantes em um formato estruturado. Cada assunto é vinculado às suas imagens correspondentes, criando um grafo abrangente que os usuários podem explorar. Isso permite fácil acesso a informações tanto textuais quanto visuais.
Acessando o MMPKUBase
Para tornar o MMPKUBase amigável, a equipe criou uma plataforma de fácil utilização onde as pessoas podem explorar o grafo de conhecimento. Os usuários podem buscar assuntos específicos e visualizar as imagens e informações relacionadas. A interface foi projetada para facilitar a navegação, permitindo que qualquer um encontre o que precisa rapidamente.
Buscando Informações
Os usuários podem digitar consultas em uma barra de busca na plataforma para procurar assuntos específicos. Por exemplo, ao digitar o nome de uma marca de carro, todas as entradas e imagens relevantes conectadas a essa marca serão exibidas. Esse recurso torna simples para os usuários acessarem as informações que desejam.
Conclusão
O MMPKUBase representa um passo importante na criação de grafos de conhecimento multimodais de alta qualidade em chinês. Com mais de 52.000 assuntos e mais de 1,5 milhão de imagens, ele fornece informações valiosas cobrindo uma ampla gama de tópicos. O uso de técnicas avançadas garante que os dados sejam confiáveis e relevantes, tornando-o adequado para várias aplicações.
Os esforços futuros se concentrarão em integrar o MMPKUBase em usos do mundo real. Ao expandir continuamente o grafo de conhecimento para incluir ainda mais assuntos e imagens, ele servirá como um recurso valioso para quem busca acessar informações de alta qualidade em chinês.
Título: MMPKUBase: A Comprehensive and High-quality Chinese Multi-modal Knowledge Graph
Resumo: Multi-modal knowledge graphs have emerged as a powerful approach for information representation, combining data from different modalities such as text, images, and videos. While several such graphs have been constructed and have played important roles in applications like visual question answering and recommendation systems, challenges persist in their development. These include the scarcity of high-quality Chinese knowledge graphs and limited domain coverage in existing multi-modal knowledge graphs. This paper introduces MMPKUBase, a robust and extensive Chinese multi-modal knowledge graph that covers diverse domains, including birds, mammals, ferns, and more, comprising over 50,000 entities and over 1 million filtered images. To ensure data quality, we employ Prototypical Contrastive Learning and the Isolation Forest algorithm to refine the image data. Additionally, we have developed a user-friendly platform to facilitate image attribute exploration.
Autores: Xuan Yi, Yanzeng Li, Lei Zou
Última atualização: 2024-08-03 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2408.01679
Fonte PDF: https://arxiv.org/pdf/2408.01679
Licença: https://creativecommons.org/licenses/by-nc-sa/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.