Simple Science

Ciência de ponta explicada de forma simples

# Informática# Bibliotecas digitais# Inteligência Artificial

Aproveitando o Microsoft Academic Knowledge Graph para Pesquisa

Uma nova ferramenta facilita o acesso a dados científicos para os pesquisadores.

― 6 min ler


MAKG: Uma Nova FerramentaMAKG: Uma Nova Ferramentade Dadoscientíficos com facilidade.Acesse uma tonelada de dados
Índice

Todo ano, milhões de artigos científicos e trabalhos de Conferências são publicados. Atualmente, tem mais de 81 milhões de artigos de revistas e mais de 4 milhões de trabalhos de conferências disponíveis em várias áreas da ciência. Essa quantidade toda de informação pode ajudar novos sistemas e métodos nas bibliotecas digitais, facilitando pra galera encontrar estudos, artigos e pesquisadores relevantes.

Desafios no Acesso a Dados Científicos

Conseguir acesso a grandes conjuntos de dados sobre trabalhos científicos, pesquisadores e Instituições é, muitas vezes, complicado. Muitos provedores de dados não seguem as regras do World Wide Web Consortium (W3C) pra tornar os dados acessíveis. Muito poucos organizam suas informações de um jeito que facilite o acesso e a conexão com outras fontes de dados. Os conjuntos de dados existentes costumam ter limitações, como serem muito pequenos ou focados só em áreas específicas da ciência, ou estarem ultrapassados.

Apresentando o Microsoft Academic Knowledge Graph

Pra resolver esses desafios, um novo grande conjunto de dados foi criado, conhecido como Microsoft Academic Knowledge Graph (MAKG). Esse conjunto contém mais de 8 bilhões de dados relacionados a publicações científicas, pesquisadores, instituições, revistas e materiais de conferências. Ele é baseado no Microsoft Academic Graph, que é um recurso gigante de informações científicas.

Diferente do que o nome sugere, os dados não são apresentados como um grafo de conhecimento, mas em grandes arquivos de texto. Embora os dados sejam vastos e cubram muitas áreas de pesquisa, manuseá-los exige muito esforço e expertise. Pesquisadores em áreas como bibliotecas digitais e ciências sociais podem não ter as habilidades ou ferramentas necessárias pra trabalhar com esse tipo de dado.

Pra deixar esses dados mais amigáveis, o MAKG foi organizado no formato RDF, que facilita o acesso e o uso com tecnologias web comuns. Além disso, esses dados podem ser interligados a outros bancos de dados, tornando-os mais valiosos pra análise e pesquisa.

Benefícios do Microsoft Academic Knowledge Graph

O MAKG oferece várias vantagens. Ele permite explorar artigos, possibilitando receber atualizações a cada poucos meses. Também simplifica a integração de dados através do uso de RDF, permitindo que recursos se conectem facilmente a outros centros de dados. Além disso, os pesquisadores podem analisar dados pra medir o impacto dos artigos, recomendar estudos e Autores relevantes, e explorar como os tópicos de pesquisa mudam ao longo do tempo.

Esse grafo de conhecimento fornece dados sobre diferentes tipos de entidades, como:

  1. Artigos: O núcleo do MAKG, detalhando o título, data de publicação e contagem de citações.
  2. Autores: Informações sobre quem escreveu os artigos, suas afiliações e registros de publicações.
  3. Instituições: Dados sobre instituições de pesquisa e suas conexões com artigos e autores.
  4. Conferências: Detalhes de eventos acadêmicos onde artigos de pesquisa são apresentados.
  5. Áreas de Estudo: Classificação das áreas de pesquisa às quais os artigos pertencem.

Com essas conexões, os pesquisadores podem fazer análises detalhadas do cenário científico.

Criando o Microsoft Academic Knowledge Graph

Pra criar o MAKG, os dados do Microsoft Academic Graph original foram processados e convertidos para o formato RDF. Isso envolveu várias etapas importantes:

  1. Extraindo Metadados dos Artigos: As informações básicas sobre cada artigo foram coletadas e organizadas.
  2. Conectando Autores e Instituições: Foram feitas conexões entre autores e suas respectivas instituições usando um conjunto de dados que incluía detalhes de afiliação.
  3. Incorporando Informações de Conferências: Dados de conferências e revistas foram ligados aos artigos relevantes, fornecendo contexto sobre os locais de publicação.
  4. Organizando Áreas de Estudo: As áreas de pesquisa foram categorizadas com base em sua complexidade e associações com diferentes artigos.
  5. Estabelecendo Links de Citação: Informações sobre quais artigos citam outros foram documentadas pra criar uma rede de referências.

Essa transformação criou um conjunto rico de dados que pode ser acessado e usado pra diversos fins.

Ligando a Outras Fontes de Dados

O MAKG também conecta seus dados a outras fontes de dados conhecidas, como DBpedia e Wikidata. Isso significa que os pesquisadores podem facilmente conectar e cruzar informações de diferentes domínios. Isso abre possibilidades pra buscas mais amplas e análises mais abrangentes.

Usando o Microsoft Academic Knowledge Graph

O MAKG pode ser utilizado de várias formas:

  1. Consultas de Dados: Os usuários podem puxar informações específicas sobre artigos, autores e citações através de linguagens de consulta criadas pra recuperação de dados.
  2. Processamento de Linguagem Natural: O MAKG apoia tarefas como recomendações de citações, ajudando os usuários a encontrar artigos relevantes pro seu trabalho ou interesses.
  3. Funções de Biblioteca Digital: O MAKG pode ajudar em tarefas como análise de citações e acompanhamento do impacto das publicações.
  4. Ferramentas de Comparação: Serve como um recurso pra avaliar métodos e sistemas em pesquisa científica e manuseio de dados.

Uso Atual do Microsoft Academic Knowledge Graph

O MAKG já tá sendo usado pela comunidade acadêmica. Ele tem sido mencionado em vários estudos e análises de dados. Os usuários visitam o site do MAKG regularmente pra acessar seus recursos. Os dados têm implicações práticas em muitas áreas, incluindo educação, tecnologia e ciências sociais. Pesquisadores são incentivados a integrar o MAKG em seus projetos pra aproveitar a vasta quantidade de dados que ele possui.

Perspectivas Futuras

Olhando pra frente, existem planos de melhorar ainda mais o MAKG. Acredita-se que o estilo de trabalho dos pesquisadores vai evoluir devido à flexibilidade de usar dados interligados. Novas formas de publicação que incluem anotações e elementos interativos podem surgir, e o MAKG pode integrar facilmente esses avanços.

As aplicações potenciais pro MAKG são vastas. À medida que os pesquisadores continuam a explorar a riqueza de dados que ele contém, isso pode mudar significativamente como as informações científicas são geridas e acessadas.

Conclusão

O Microsoft Academic Knowledge Graph representa um avanço significativo na gestão de dados científicos. Com seu extenso banco de dados e potencial pra integração e análise, ele fornece recursos valiosos pra pesquisadores de várias disciplinas. Ao tornar esses dados mais acessíveis e amigáveis, o MAKG abre novas portas pra exploração científica e colaboração. Os pesquisadores são incentivados a explorar suas capacidades e aproveitar as informações disponíveis pra melhorar seu próprio trabalho.

Fonte original

Título: SemOpenAlex: The Scientific Landscape in 26 Billion RDF Triples

Resumo: We present SemOpenAlex, an extensive RDF knowledge graph that contains over 26 billion triples about scientific publications and their associated entities, such as authors, institutions, journals, and concepts. SemOpenAlex is licensed under CC0, providing free and open access to the data. We offer the data through multiple channels, including RDF dump files, a SPARQL endpoint, and as a data source in the Linked Open Data cloud, complete with resolvable URIs and links to other data sources. Moreover, we provide embeddings for knowledge graph entities using high-performance computing. SemOpenAlex enables a broad range of use-case scenarios, such as exploratory semantic search via our website, large-scale scientific impact quantification, and other forms of scholarly big data analytics within and across scientific disciplines. Additionally, it enables academic recommender systems, such as recommending collaborators, publications, and venues, including explainability capabilities. Finally, SemOpenAlex can serve for RDF query optimization benchmarks, creating scholarly knowledge-guided language models, and as a hub for semantic scientific publishing.

Autores: Michael Färber, David Lamprecht, Johan Krause, Linn Aung, Peter Haase

Última atualização: 2023-08-07 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2308.03671

Fonte PDF: https://arxiv.org/pdf/2308.03671

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Ligações de referência

Mais de autores

Artigos semelhantes