Das Microsoft Academic Knowledge Graph für Forschung nutzen
Ein neues Tool erleichtert Forschern den Zugang zu wissenschaftlichen Daten.
― 5 min Lesedauer
Inhaltsverzeichnis
- Herausforderungen beim Zugang zu wissenschaftlichen Daten
- Vorstellung des Microsoft Academic Knowledge Graph
- Vorteile des Microsoft Academic Knowledge Graph
- Erstellung des Microsoft Academic Knowledge Graph
- Verknüpfung mit anderen Datenquellen
- Nutzung des Microsoft Academic Knowledge Graph
- Aktuelle Nutzung des Microsoft Academic Knowledge Graph
- Zukunftsaussichten
- Fazit
- Originalquelle
- Referenz Links
Jedes Jahr werden Millionen von wissenschaftlichen Arbeiten und Konferenzartikeln veröffentlicht. Momentan gibt's mehr als 81 Millionen Zeitschriftenartikel und über 4 Millionen Konferenzpapiere in verschiedenen Wissenschaftsbereichen. Diese Fülle an Informationen kann neuen Systemen und Methoden in digitalen Bibliotheken helfen, damit Leute leichter relevante Studien, Papiere und Forscher finden.
Herausforderungen beim Zugang zu wissenschaftlichen Daten
Der Zugang zu grossen Datensätzen über wissenschaftliche Arbeiten, Forscher und Institutionen ist oft schwierig. Viele Datenanbieter halten sich nicht an die Regeln des World Wide Web Consortium (W3C), um Daten zugänglich zu machen. Nur wenige organisieren ihre Daten so, dass sie einfacher zugänglich und mit anderen Datenquellen verknüpfbar sind. Die vorhandenen Datensätze haben oft Einschränkungen, wie z.B. zu klein zu sein oder sich nur auf spezifische Wissenschaftsbereiche zu konzentrieren, oder sie sind veraltet.
Vorstellung des Microsoft Academic Knowledge Graph
Um diese Herausforderungen anzugehen, wurde ein neuer grosser Datensatz erschaffen, bekannt als Microsoft Academic Knowledge Graph (MAKG). Dieser Datensatz enthält über 8 Milliarden Datenstücke zu wissenschaftlichen Veröffentlichungen, Forschern, Institutionen, Zeitschriften und Konferenzmaterialien. Er basiert auf dem Microsoft Academic Graph, einer grossen Ressource für wissenschaftliche Informationen.
Anders als der Name vermuten lässt, werden die Daten nicht als Wissensgraph präsentiert, sondern in grossen Textdateien bereitgestellt. Obwohl die Daten umfangreich sind und viele Forschungsbereiche abdecken, erfordert der Umgang damit viel Aufwand und Expertise. Forscher in Bereichen wie digitale Bibliotheken und Sozialwissenschaften haben vielleicht nicht die nötigen Fähigkeiten oder Werkzeuge, um mit diesen Daten zu arbeiten.
Um diese Daten benutzerfreundlicher zu machen, wurde der MAKG in RDF-Format organisiert, was den Zugriff und die Nutzung mit gängigen Webtechnologien erleichtert. Ausserdem können diese Daten mit anderen Datenbanken verknüpft werden, was sie für Analysen und Forschungen wertvoller macht.
Vorteile des Microsoft Academic Knowledge Graph
Der MAKG bietet viele Vorteile. Er ermöglicht das Durchsuchen von Arbeiten und bietet alle paar Monate Updates. Ausserdem vereinfacht er die Integration von Daten durch die Nutzung von RDF, sodass Ressourcen leicht mit anderen Daten-Hubs verbunden werden können. Zudem können Forscher Daten analysieren, um die Auswirkungen von Arbeiten zu messen, relevante Studien und Autoren zu empfehlen und zu erkunden, wie sich Forschungsthemen im Laufe der Zeit verändern.
Dieser Wissensgraph bietet Daten zu verschiedenen Entitätstypen, wie zum Beispiel:
- Papiere: Der Kern des MAKG, der Titel, Veröffentlichungsdatum und Zitationszahlen umfasst.
- Autoren: Informationen darüber, wer die Papiere geschrieben hat, ihre Zugehörigkeiten und ihre Veröffentlichungsdaten.
- Institutionen: Daten über Forschungsinstitutionen und ihre Verbindungen zu Papieren und Autoren.
- Konferenzen: Details zu akademischen Veranstaltungen, auf denen Forschungspapiere präsentiert werden.
- Forschungsgebiete: Kategorisierung von Forschungsbereichen, zu denen die Papiere gehören.
Mit diesen Verbindungen können Forscher tiefere Analysen der wissenschaftlichen Landschaft durchführen.
Erstellung des Microsoft Academic Knowledge Graph
Um den MAKG zu erstellen, wurden Daten aus dem ursprünglichen Microsoft Academic Graph verarbeitet und in RDF-Format umgewandelt. Dies umfasste mehrere wichtige Schritte:
- Extraktion von Paper-Metadaten: Die grundlegenden Informationen zu jedem Papier wurden gesammelt und organisiert.
- Verknüpfen von Autoren und Institutionen: Verbindungen zwischen Autoren und ihren jeweiligen Institutionen wurden mithilfe eines Datensatzes, der Zugehörigkeitsdetails enthielt, hergestellt.
- Einbeziehung von Konferenzinformationen: Daten aus Konferenzen und Zeitschriften wurden mit den relevanten Papieren verknüpft, um den Kontext der Veröffentlichung zu schaffen.
- Organisieren von Forschungsfeldern: Forschungsfelder wurden basierend auf ihrer Komplexität und den Verbindungen zu verschiedenen Papieren kategorisiert.
- Einrichten von Zitationsverknüpfungen: Informationen darüber, welche Papiere andere Papiere zitieren, wurden dokumentiert, um ein Netz von Referenzen zu erstellen.
Diese Transformation schuf einen reichen Datensatz, der für viele Zwecke zugänglich und nutzbar ist.
Verknüpfung mit anderen Datenquellen
Der MAKG verknüpft seine Daten auch mit anderen bekannten Datenquellen wie DBpedia und Wikidata. Das bedeutet, dass Forscher Informationen aus verschiedenen Bereichen leicht verbinden und abgleichen können. Es eröffnet Möglichkeiten für umfassendere Suchen und Analysen.
Nutzung des Microsoft Academic Knowledge Graph
Der MAKG kann auf verschiedene Arten genutzt werden:
- Datenabfragen: Nutzer können spezifische Informationen über Papiere, Autoren und Zitationen durch Abfragesprachen abrufen, die für die Datenbeschaffung entwickelt wurden.
- Verarbeitung natürlicher Sprache: Der MAKG unterstützt Aufgaben wie Zitationsempfehlungen, die den Nutzern helfen, relevante Papiere zu finden, die zu ihrer Arbeit oder ihren Interessen passen.
- Funktionen digitaler Bibliotheken: Der MAKG kann bei Aufgaben wie der Zitationsanalyse und der Verfolgung der Auswirkungen von Veröffentlichungen helfen.
- Benchmarking-Tools: Er dient als Ressource zur Bewertung von Methoden und Systemen in der wissenschaftlichen Forschung und Datenverarbeitung.
Aktuelle Nutzung des Microsoft Academic Knowledge Graph
Der MAKG wird bereits von der akademischen Gemeinschaft genutzt. Er wurde in verschiedenen Studien und Datenanalysen zitiert. Nutzer besuchen regelmässig die Website des MAKG, um auf seine Ressourcen zuzugreifen. Die Daten haben praktische Auswirkungen in vielen Bereichen, einschliesslich Bildung, Technologie und Sozialwissenschaften. Forscher werden ermutigt, den MAKG in ihre Projekte zu integrieren, um die riesige Menge an Daten zu nutzen, die er bereitstellt.
Zukunftsaussichten
Blickt man in die Zukunft, gibt es Pläne, den MAKG weiter zu verbessern. Man stellt sich vor, dass sich die Arbeitsweise der Forscher aufgrund der Flexibilität der Nutzung verknüpfter Daten entwickeln wird. Neue Formen von Veröffentlichungen, die Annotationen und interaktive Elemente enthalten, könnten entstehen, und der MAKG kann diese Fortschritte leicht integrieren.
Die potenziellen Anwendungen des MAKG sind riesig. Während Forscher weiterhin den Reichtum an Daten erkunden, den er enthält, könnte dies erheblich verändern, wie wissenschaftliche Informationen verwaltet und abgerufen werden.
Fazit
Der Microsoft Academic Knowledge Graph stellt einen bedeutenden Fortschritt im Management wissenschaftlicher Daten dar. Mit seiner umfangreichen Datenbank und dem Potenzial für Integration und Analyse bietet er wertvolle Ressourcen für Forscher in verschiedenen Disziplinen. Indem dieser Datensatz zugänglicher und benutzerfreundlicher gemacht wird, öffnet der MAKG neue Türen für wissenschaftliche Erkundung und Zusammenarbeit. Forscher werden ermutigt, seine Möglichkeiten zu erkunden und die verfügbaren Informationen zu nutzen, um ihre eigene Arbeit zu verbessern.
Titel: SemOpenAlex: The Scientific Landscape in 26 Billion RDF Triples
Zusammenfassung: We present SemOpenAlex, an extensive RDF knowledge graph that contains over 26 billion triples about scientific publications and their associated entities, such as authors, institutions, journals, and concepts. SemOpenAlex is licensed under CC0, providing free and open access to the data. We offer the data through multiple channels, including RDF dump files, a SPARQL endpoint, and as a data source in the Linked Open Data cloud, complete with resolvable URIs and links to other data sources. Moreover, we provide embeddings for knowledge graph entities using high-performance computing. SemOpenAlex enables a broad range of use-case scenarios, such as exploratory semantic search via our website, large-scale scientific impact quantification, and other forms of scholarly big data analytics within and across scientific disciplines. Additionally, it enables academic recommender systems, such as recommending collaborators, publications, and venues, including explainability capabilities. Finally, SemOpenAlex can serve for RDF query optimization benchmarks, creating scholarly knowledge-guided language models, and as a hub for semantic scientific publishing.
Autoren: Michael Färber, David Lamprecht, Johan Krause, Linn Aung, Peter Haase
Letzte Aktualisierung: 2023-08-07 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2308.03671
Quell-PDF: https://arxiv.org/pdf/2308.03671
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.
Referenz Links
- https://www.openaire.eu/pausing-our-lod-services
- https://wikicite.org/
- https://m.wikidata.org/wiki/Wikidata:SPARQL_query_service/WDQS_backend_update/Blazegraph_failure_playbook
- https://www.dagstuhl.de/en/institute/news/2022/dblp-in-rdf
- https://semopenalex.org/
- https://research.com/university/materials-science/humboldt-university-of-berlin
- https://marius-project.org
- https://doi.org/10.5281/zenodo.7912776
- https://semopenalex.org/class/
- https://semopenalex.org/property/
- https://openalex.org/
- https://www.w3.org
- https://www.w3.org/2002/07/owl
- https://www.w3.org/1999/02/22-rdf-syntax-ns
- https://www.w3.org/2000/01/rdf-schema
- https://purl.org/dc/terms/
- https://purl.org/spar/cito/
- https://purl.org/spar/fabio/
- https://purl.org/spar/bido/
- https://purl.org/spar/datacite
- https://prismstandard.org/namespaces/basic/2.0/
- https://dbpedia.org/ontology/
- https://dbpedia.org/property/
- https://xmlns.com/foaf/0.1/
- https://www.w3.org/ns/org
- https://www.geonames.org/ontology
- https://www.w3.org/2004/02/skos/core
- https://github.com/metaphacts/semopenalex
- https://www.w3.org/TR/rdf11-concepts/
- https://github.com/RDFLib/rdflib/
- https://www.w3.org/TR/trig/
- https://semopenalex.org/author/A2430569270
- https://www.w3.org/2001/XMLSchema#
- https://www.w3.org/2004/02/skos/core#
- https://openalex.org/about
- https://aws.amazon.com/opendata/open-data-sponsorship-program/
- https://5stardata.info/
- https://semopenalex.s3.amazonaws.com/browse.html
- https://semopenalex.org/work/W4239696231
- https://semopenalex.org/sparql
- https://orcid.org/#1
- https://semopenalex.org
- https://w3id.org/SemOpenAlex
- https://github.com/metaphacts/semopenalex/
- https://creativecommons.org/publicdomain/zero/1.0/
- https://opensource.org/license/mit/
- https://www.microsoft.com/en-us/research/project/microsoft-academic-graph/
- https://opendatacommons.org/licenses/by/1-0/index.html
- https://github.com/michaelfaerber/MAG2RDF
- https://www.grid.ac/
- https://ma-graph.org
- https://w3id.org/makg/
- https://doi.org/10.5281/zenodo.2159723
- https://ma-graph.org/entity/2826592117
- https://ma-graph.org/sparql
- https://www.springernature.com/de/researchers/scigraph
- https://ma-graph.org/
- https://rdfs.org/sioc/ns
- https://purl.org/NET/c4dm/timeline.owl#
- https://purl.org/vocab/frbr/core#
- https://url.org/spar/cito/
- https://purl.org/spar/datacite/
- https://prismstandard.org/namespaces/1.2/basic/
- https://purl.org/spar/c4o/
- https://www.grid.ac/institutes/grid.446382.f
- https://clair.eecs.umich.edu/aan/index.php
- https://www.comp.nus.edu.sg/~sugiyama/Dataset2.html
- https://github.com/michaelfaerber/makg-linking
- https://dx.doi.org/
- https://www.w3.org/1999/02/22-rdf-syntax-ns#
- https://ma-graph.org/property/
- https://www.w3.org/ns/org#
- https://ma-graph.org/class/FieldOfStudy
- https://dbpedia.org/resource/
- https://docs.microsoft.com/en-us/academic-services/graph/get-started-setup-provisioning
- https://lov.okfn.org/vocommons/voaf
- https://www.w3.org/TR/void/
- https://ma-graph.org/usage-statistics/
- https://www.openacademic.ai/oag/