Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Computerwissenschaften# Digitale Bibliotheken# Rechnen und Sprache

Vorstellung von unarXive: Ein umfassendes akademisches Datenset

Ein neuer Datensatz verbessert die Forschung mit 1,9 Millionen akademischen Arbeiten und verbesserten Zitationsnetzwerken.

― 5 min Lesedauer


unarXive: AkademischeunarXive: AkademischeForschung auf ein neuesLevel hebenArbeiten analysieren.verändert, wie Forscher akademischeEin Datensatz, der die Art und Weise
Inhaltsverzeichnis

Grosse Sammlungen von wissenschaftlichen Arbeiten werden immer wichtiger, um Forschungstrends zu analysieren und das wissenschaftliche Arbeiten besser zu verstehen. Diese Sammlungen werden oft für verschiedene Aufgaben genutzt, wie zum Beispiel das Studieren von Zitierpraktiken und die Verarbeitung von Sprache in Forschungsartikeln. In letzter Zeit wächst das Interesse, Datensätze zu erstellen, die den Volltext wissenschaftlicher Publikationen enthalten, was detailliertere Analysen ermöglicht.

Der Bedarf an besseren Datensätzen

Obwohl es bereits mehrere Datensätze mit wissenschaftlichen Publikationen gibt, gibt es noch viele Probleme, die angegangen werden müssen. Dazu gehören Lücken im Themenbereich, die Vollständigkeit von Zitiernetzwerken und die Repräsentation verschiedener Inhaltsarten innerhalb der Arbeiten. Ein neuer Datensatz zielt darauf ab, diese Probleme zu lösen, indem er eine umfassendere Ressource für Forscher bereitstellt.

Überblick über den vorgeschlagenen Datensatz

Der neu vorgeschlagene Datensatz heisst unarXive. Er besteht aus einer grossen Anzahl wissenschaftlicher Arbeiten, insgesamt 1,9 Millionen Publikationen, und spannt sich über mehr als 32 Jahre. Dieser Datensatz enthält umfassendere Zitiernetzwerke im Vergleich zu älteren Versionen und bietet eine bessere Repräsentation der Dokumentenstruktur sowie nicht-textueller Inhalte wie mathematische Gleichungen und Tabellen.

Hauptmerkmale des Datensatzes

Umfassendes Zitiernetzwerk

Ein bedeutender Vorteil des neuen Datensatzes ist sein verbessertes Zitiernetzwerk. Das macht es einfacher zu analysieren, wie verschiedene Arbeiten einander referenzieren, was für bibliometrische Studien entscheidend ist.

Strukturierte Dokumentenrepräsentation

Der vorgeschlagene Datensatz behält die Struktur der Dokumente bei, einschliesslich Abschnitten und Unterabschnitten. Diese Organisation ist wichtig, um den Kontext der präsentierten Informationen zu verstehen. Er behält auch wesentliche nicht-textuelle Elemente wie mathematische Notation, Abbildungen und Tabellen bei.

Reichhaltigkeit des Inhalts

Der neue Datensatz bietet eine tiefere Repräsentation von wissenschaftlichen Arbeiten als frühere Datensätze. Es werden nicht nur Texte bereitgestellt; es werden Zitationen mit ihren Quellen verknüpft, Abbildungen mit ihren Beschriftungen verbunden und die Struktur der mathematischen Notation effektiv erfasst.

Bedeutung von nicht-textuellen Inhalten

Nicht-textuelle Elemente, wie Tabellen und Abbildungen, enthalten oft wertvolle Informationen, die helfen können, die Forschung besser zu verstehen. Durch die Einbeziehung dieser Elemente im unarXive-Datensatz können Forscher umfassendere Analysen durchführen, die alle Aspekte der wissenschaftlichen Arbeiten berücksichtigen.

Behebung aktueller Mängel

Die bestehenden Datensätze haben oft Einschränkungen, wie zu klein zu sein, ein fehlendes Zitiernetzwerk zu haben oder mathematische Notationen nicht richtig zu behandeln. Der unarXive-Datensatz zielt darauf ab, diese Mängel zu überwinden und eine viel nützlichere Ressource für Forscher bereitzustellen.

Vergleich mit anderen Datensätzen

Bei der Überprüfung bestehender Datensätze wird klar, dass vielen entweder Zitiernetzwerke oder strukturierte Inhalte fehlen. Einige bekannte Sammlungen erhalten nicht die notwendige Dokumentenstruktur für tiefere Analysen. Der unarXive-Datensatz schliesst diese Lücke, indem er zu den grössten verfügbaren gehört, sowohl Struktur als auch Zitiernetzwerke beibehält und sicherstellt, dass verschiedene Disziplinen wie Physik, Mathematik und Informatik gut vertreten sind.

Methodik zur Datensammlung

Der Prozess zur Erstellung des unarXive-Datensatzes umfasste mehrere wichtige Schritte, um die Qualität und Nützlichkeit der enthaltenen Informationen sicherzustellen. Diese Schritte beinhalteten das Parsen von wissenschaftlichen Arbeiten, das Verknüpfen von Referenzen und die Organisation der Daten in ein benutzerfreundliches Format.

Dokumentenparsing

Um die Quellmaterialien in ein verwendbares Format zu konvertieren, wurden die Dokumente in eine einheitliche Struktur verarbeitet. Dazu wurden Tools verwendet, um die wissenschaftlichen Formate in XML und dann in JSON umzuwandeln, was für verschiedene Anwendungen einfacher zu handhaben ist.

Referenzverlinkung

Ein weiterer wichtiger Teil des Prozesses war das Verknüpfen bibliografischer Referenzen mit den Arbeiten, die sie zitieren. Dabei wurden Referenzstrings geparsed, um Titel, Autoren und Publikationsdetails zu extrahieren. Die Referenzen wurden mit einer grossen Datenbank von Publikationen verglichen, um die Genauigkeit sicherzustellen.

Statistiken des Datensatzes

Der unarXive-Datensatz enthält insgesamt 1.881.346 wissenschaftliche Arbeiten. Diese Arbeiten halten eine riesige Menge an Inhalten, darunter über 182 Millionen Absätze und mehr als 63 Millionen Referenzen. Der Datensatz zeigt eine Vielzahl von Disziplinen, wobei der Schwerpunkt auf Physik, Mathematik und Informatik liegt.

Anwendungen des Datensatzes

Der unarXive-Datensatz kann auf vielfältige Weise eingesetzt werden. Forscher können das Zitierverhalten in verschiedenen Bereichen oder Sprachen analysieren und Software für Aufgaben wie das Zusammenfassen von Dokumenten oder die Überprüfung von Behauptungen in Forschungsarbeiten entwickeln.

Inhaltbasierte Zitierempfehlung

Eine spezifische Anwendung des Datensatzes ist die inhaltsbasierte Zitierempfehlung. Dabei werden geeignete Referenzen identifiziert, die in ein schriftliches Stück aufgenommen werden sollen, basierend auf dem bestehenden Text. Durch die Nutzung des Zitiernetzwerks können Maschinenlernmodelle trainiert werden, um diesen Prozess zu optimieren.

IMRaD-Klassifikation

Eine weitere Anwendung ist die Klassifizierung von Abschnitten wissenschaftlicher Arbeiten gemäss dem IMRaD-Format: Einführung, Methoden, Ergebnisse und Diskussion. Diese Klassifizierung kann den Schreibprozess unterstützen, indem sie Autoren anleitet, wo sie Informationen platzieren sollen.

Verteilung des Datensatzes

Der unarXive-Datensatz wird der Forschungsgemeinde über etablierte Kanäle zur Verfügung gestellt. Er folgt Prinzipien, die sicherstellen, dass die Daten leicht zugänglich und nutzbar sind, während die Lizenzvereinbarungen respektiert werden.

Offener vs. eingeschränkter Zugang

Der Datensatz wird in zwei Formaten angeboten: einem offenen Teil, der frei zugänglich ist, und einem grösseren kompletten Datensatz, der für Benutzer eingeschränkten Zugang erfordert. Dieser doppelte Ansatz ermöglicht ein Gleichgewicht zwischen Zugänglichkeit und der Einhaltung von Lizenzanforderungen, die mit dem Quellmaterial verbunden sind.

Zukünftige Entwicklungen

Da weiterhin neue Arbeiten veröffentlicht werden, wird der unarXive-Datensatz schrittweise aktualisiert. Diese fortlaufende Entwicklung stellt sicher, dass die Ressource relevant und von hoher Qualität in einer sich ständig verändernden akademischen Landschaft bleibt.

Fazit

Der unarXive-Datensatz stellt eine erhebliche Verbesserung gegenüber bestehenden Ressourcen dar, indem er kritische Mängel angeht und eine breitere Palette von Funktionen für Forscher bietet. Seine Komponenten erleichtern eine Vielzahl von Analysen und Anwendungen in der akademischen Landschaft und machen ihn zu einem bedeutenden Beitrag im Bereich der wissenschaftlichen Datensammlung und -verarbeitung. Mit dem Versprechen, kontinuierlich aktualisiert und verbessert zu werden, wird der unarXive-Datensatz für zukünftige Forschungsprojekte immer wertvoller.

Originalquelle

Titel: unarXive 2022: All arXiv Publications Pre-Processed for NLP, Including Structured Full-Text and Citation Network

Zusammenfassung: Large-scale data sets on scholarly publications are the basis for a variety of bibliometric analyses and natural language processing (NLP) applications. Especially data sets derived from publication's full-text have recently gained attention. While several such data sets already exist, we see key shortcomings in terms of their domain and time coverage, citation network completeness, and representation of full-text content. To address these points, we propose a new version of the data set unarXive. We base our data processing pipeline and output format on two existing data sets, and improve on each of them. Our resulting data set comprises 1.9 M publications spanning multiple disciplines and 32 years. It furthermore has a more complete citation network than its predecessors and retains a richer representation of document structure as well as non-textual publication content such as mathematical notation. In addition to the data set, we provide ready-to-use training/test data for citation recommendation and IMRaD classification. All data and source code is publicly available at https://github.com/IllDepence/unarXive.

Autoren: Tarek Saier, Johan Krause, Michael Färber

Letzte Aktualisierung: 2023-03-27 00:00:00

Sprache: English

Quell-URL: https://arxiv.org/abs/2303.14957

Quell-PDF: https://arxiv.org/pdf/2303.14957

Lizenz: https://creativecommons.org/licenses/by/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.

Mehr von den Autoren

Ähnliche Artikel