Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Bibliotecas digitales# Computación y lenguaje

Presentamos unarXive: Un conjunto de datos académicos completo

Un nuevo conjunto de datos mejora la investigación con 1.9 millones de trabajos académicos y redes de citas mejoradas.

― 7 minilectura


unarXive: Elevando launarXive: Elevando laInvestigación Académicaartículos académicos.cómo los investigadores analizanUn conjunto de datos que transforma
Tabla de contenidos

Las grandes colecciones de artículos académicos están ganando cada vez más importancia para analizar tendencias de investigación y entender el trabajo académico. Estas colecciones se utilizan en diversas tareas, como estudiar prácticas de citación y procesar el lenguaje en artículos de investigación. Recientemente, ha crecido el interés en crear conjuntos de datos que incluyan el texto completo de publicaciones académicas, lo que permite hacer análisis más detallados.

La necesidad de mejores conjuntos de datos

Aunque ya existen varios conjuntos de datos con publicaciones académicas, aún hay muchos problemas que se deben resolver. Estos incluyen lagunas en la variedad de temas cubiertos, la integridad de las redes de citación y la representación de diferentes tipos de contenido dentro de los artículos. Un nuevo conjunto de datos busca solucionar estos problemas al proporcionar un recurso más completo para los investigadores.

Visión general del conjunto de datos propuesto

El nuevo conjunto de datos propuesto se llama unarXive. Está construido a partir de un gran número de artículos académicos, totalizando 1.9 millones de publicaciones, y abarca más de 32 años. Este conjunto de datos incluye Redes de citas más completas en comparación con versiones anteriores y ofrece una mejor representación de la estructura del documento, así como contenido no textual, como ecuaciones matemáticas y tablas.

Características clave del conjunto de datos

Red de citación integral

Una de las ventajas significativas del nuevo conjunto de datos es su red de citación mejorada. Esto facilita analizar cómo diferentes artículos se citan entre sí, lo cual es clave para estudios bibliométricos.

Representación estructurada del documento

El conjunto de datos propuesto mantiene la estructura de los documentos, incluyendo secciones y subsecciones. Esta organización es crucial para entender el contexto de la información presentada. También mantiene elementos no textuales esenciales como notación matemática, figuras y tablas.

Riqueza de contenido

El nuevo conjunto de datos ofrece una representación más profunda de los artículos académicos que los conjuntos de datos anteriores. No solo proporciona texto; también vincula las citas con sus fuentes, conecta figuras con sus leyendas y captura efectivamente la estructura de la notación matemática.

Importancia del contenido no textual

Los elementos no textuales, como tablas y figuras, a menudo contienen información valiosa que puede ayudar a entender mejor la investigación. Al incluir estos elementos en el conjunto de datos unarXive, los investigadores pueden realizar análisis más completos que consideren todos los aspectos de los artículos académicos.

Abordando las deficiencias actuales

Los conjuntos de datos existentes a menudo tienen limitaciones, como ser demasiado pequeños, carecer de una red de citación o no manejar adecuadamente la notación matemática. El conjunto de datos unarXive busca superar estas deficiencias, proporcionando un recurso mucho más útil para los investigadores.

Comparación con otros conjuntos de datos

Al revisar los conjuntos de datos existentes, se hace evidente que muchos carecen de redes de citación o contenido estructurado. Algunas colecciones bien conocidas no mantienen la estructura del documento necesaria para un análisis más profundo. El conjunto de datos unarXive llena este vacío al ser uno de los más grandes disponibles, preservando tanto la estructura como las redes de citación, mientras asegura que varias disciplinas como física, matemáticas y ciencias de la computación estén bien representadas.

Metodología para la recopilación de datos

El proceso de creación del conjunto de datos unarXive implicó varios pasos clave para asegurar la calidad y utilidad de la información contenida. Estos pasos incluyeron analizar artículos académicos, vincular referencias y organizar los datos en un formato amigable para el usuario.

Análisis de documentos

Para convertir los materiales fuente en un formato utilizable, los documentos fueron procesados en una sola estructura uniforme. Esto implicó usar herramientas para convertir los formatos académicos a XML y luego a JSON, que es más fácil de manejar para diversas aplicaciones.

Vinculación de referencias

Otra parte crucial del proceso fue vincular las referencias bibliográficas con los artículos que citan. Esto implicó analizar cadenas de referencias para extraer títulos, autores y detalles de publicación. Las referencias fueron comparadas con una gran base de datos de publicaciones para asegurar la precisión.

Estadísticas del conjunto de datos

El conjunto de datos unarXive contiene un total de 1,881,346 artículos académicos. Estos artículos contienen una gran cantidad de contenido, incluyendo más de 182 millones de párrafos y más de 63 millones de referencias. El conjunto de datos muestra una variedad de disciplinas, enfocándose principalmente en física, matemáticas y ciencias de la computación.

Aplicaciones del conjunto de datos

El conjunto de datos unarXive puede ser utilizado de diversas maneras. Los investigadores pueden analizar el comportamiento de citación a través de diferentes campos o idiomas y desarrollar software para tareas como resumir documentos o verificar afirmaciones hechas en artículos de investigación.

Recomendación de citaciones basada en contenido

Una aplicación específica del conjunto de datos es la recomendación de citas basada en contenido. Esto implica identificar referencias adecuadas para incluir en un escrito basado en el texto existente. Al utilizar la red de citación, se pueden entrenar modelos de aprendizaje automático para mejorar este proceso.

Clasificación IMRaD

Otra aplicación es la clasificación de secciones de artículos académicos de acuerdo con el formato IMRaD: Introducción, Métodos, Resultados y Discusión. Esta clasificación puede ayudar en el proceso de escritura al guiar a los autores sobre dónde colocar la información.

Distribución del conjunto de datos

El conjunto de datos unarXive se pone a disposición de la comunidad investigadora a través de canales establecidos. Sigue principios que aseguran que los datos puedan ser fácilmente accedidos y utilizados, respetando acuerdos de licenciamiento.

Acceso abierto vs. restringido

El conjunto de datos se ofrece en dos formatos: un subconjunto abierto que puede ser accedido libremente y un conjunto de datos completo más grande que requiere acceso restringido para los usuarios. Este enfoque dual permite un balance entre la accesibilidad y el cumplimiento de los requisitos de licenciamiento asociados al material fuente.

Desarrollos futuros

A medida que se sigan publicando nuevos artículos, el conjunto de datos unarXive se actualizará de manera incremental. Este desarrollo continuo asegura que el recurso siga siendo relevante y de alta calidad en un panorama académico en constante cambio.

Conclusión

El conjunto de datos unarXive representa una mejora sustancial sobre los recursos existentes al abordar deficiencias críticas y ofrecer una gama más amplia de características para los investigadores. Sus componentes facilitan una amplia variedad de análisis y aplicaciones en el ámbito académico, convirtiéndolo en una contribución significativa al campo de la recopilación y procesamiento de datos académicos. Con la promesa de actualizaciones y mejoras continuas, el conjunto de datos unarXive se convertirá en un recurso cada vez más valioso para futuros esfuerzos de investigación.

Fuente original

Título: unarXive 2022: All arXiv Publications Pre-Processed for NLP, Including Structured Full-Text and Citation Network

Resumen: Large-scale data sets on scholarly publications are the basis for a variety of bibliometric analyses and natural language processing (NLP) applications. Especially data sets derived from publication's full-text have recently gained attention. While several such data sets already exist, we see key shortcomings in terms of their domain and time coverage, citation network completeness, and representation of full-text content. To address these points, we propose a new version of the data set unarXive. We base our data processing pipeline and output format on two existing data sets, and improve on each of them. Our resulting data set comprises 1.9 M publications spanning multiple disciplines and 32 years. It furthermore has a more complete citation network than its predecessors and retains a richer representation of document structure as well as non-textual publication content such as mathematical notation. In addition to the data set, we provide ready-to-use training/test data for citation recommendation and IMRaD classification. All data and source code is publicly available at https://github.com/IllDepence/unarXive.

Autores: Tarek Saier, Johan Krause, Michael Färber

Última actualización: 2023-03-27 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2303.14957

Fuente PDF: https://arxiv.org/pdf/2303.14957

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares