Presentamos unarXive: Un conjunto de datos académicos completo

Tabla de contenidos

La necesidad de mejores conjuntos de datos
Visión general del conjunto de datos propuesto
Características clave del conjunto de datos
Importancia del contenido no textual
Abordando las deficiencias actuales
Comparación con otros conjuntos de datos
Metodología para la recopilación de datos
Estadísticas del conjunto de datos
Aplicaciones del conjunto de datos
Distribución del conjunto de datos
Desarrollos futuros
Conclusión
Fuente original
Enlaces de referencia

Las grandes colecciones de artículos académicos están ganando cada vez más importancia para analizar tendencias de investigación y entender el trabajo académico. Estas colecciones se utilizan en diversas tareas, como estudiar prácticas de citación y procesar el lenguaje en artículos de investigación. Recientemente, ha crecido el interés en crear conjuntos de datos que incluyan el texto completo de publicaciones académicas, lo que permite hacer análisis más detallados.

La necesidad de mejores conjuntos de datos

Aunque ya existen varios conjuntos de datos con publicaciones académicas, aún hay muchos problemas que se deben resolver. Estos incluyen lagunas en la variedad de temas cubiertos, la integridad de las redes de citación y la representación de diferentes tipos de contenido dentro de los artículos. Un nuevo conjunto de datos busca solucionar estos problemas al proporcionar un recurso más completo para los investigadores.

Visión general del conjunto de datos propuesto

El nuevo conjunto de datos propuesto se llama unarXive. Está construido a partir de un gran número de artículos académicos, totalizando 1.9 millones de publicaciones, y abarca más de 32 años. Este conjunto de datos incluye Redes de citas más completas en comparación con versiones anteriores y ofrece una mejor representación de la estructura del documento, así como contenido no textual, como ecuaciones matemáticas y tablas.

Características clave del conjunto de datos

Red de citación integral

Una de las ventajas significativas del nuevo conjunto de datos es su red de citación mejorada. Esto facilita analizar cómo diferentes artículos se citan entre sí, lo cual es clave para estudios bibliométricos.

Representación estructurada del documento

El conjunto de datos propuesto mantiene la estructura de los documentos, incluyendo secciones y subsecciones. Esta organización es crucial para entender el contexto de la información presentada. También mantiene elementos no textuales esenciales como notación matemática, figuras y tablas.

Riqueza de contenido

El nuevo conjunto de datos ofrece una representación más profunda de los artículos académicos que los conjuntos de datos anteriores. No solo proporciona texto; también vincula las citas con sus fuentes, conecta figuras con sus leyendas y captura efectivamente la estructura de la notación matemática.

Importancia del contenido no textual

Los elementos no textuales, como tablas y figuras, a menudo contienen información valiosa que puede ayudar a entender mejor la investigación. Al incluir estos elementos en el conjunto de datos unarXive, los investigadores pueden realizar análisis más completos que consideren todos los aspectos de los artículos académicos.

Abordando las deficiencias actuales

Los conjuntos de datos existentes a menudo tienen limitaciones, como ser demasiado pequeños, carecer de una red de citación o no manejar adecuadamente la notación matemática. El conjunto de datos unarXive busca superar estas deficiencias, proporcionando un recurso mucho más útil para los investigadores.

Comparación con otros conjuntos de datos

Al revisar los conjuntos de datos existentes, se hace evidente que muchos carecen de redes de citación o contenido estructurado. Algunas colecciones bien conocidas no mantienen la estructura del documento necesaria para un análisis más profundo. El conjunto de datos unarXive llena este vacío al ser uno de los más grandes disponibles, preservando tanto la estructura como las redes de citación, mientras asegura que varias disciplinas como física, matemáticas y ciencias de la computación estén bien representadas.

Metodología para la recopilación de datos

El proceso de creación del conjunto de datos unarXive implicó varios pasos clave para asegurar la calidad y utilidad de la información contenida. Estos pasos incluyeron analizar artículos académicos, vincular referencias y organizar los datos en un formato amigable para el usuario.

Análisis de documentos

Para convertir los materiales fuente en un formato utilizable, los documentos fueron procesados en una sola estructura uniforme. Esto implicó usar herramientas para convertir los formatos académicos a XML y luego a JSON, que es más fácil de manejar para diversas aplicaciones.

Vinculación de referencias

Otra parte crucial del proceso fue vincular las referencias bibliográficas con los artículos que citan. Esto implicó analizar cadenas de referencias para extraer títulos, autores y detalles de publicación. Las referencias fueron comparadas con una gran base de datos de publicaciones para asegurar la precisión.

Estadísticas del conjunto de datos

El conjunto de datos unarXive contiene un total de 1,881,346 artículos académicos. Estos artículos contienen una gran cantidad de contenido, incluyendo más de 182 millones de párrafos y más de 63 millones de referencias. El conjunto de datos muestra una variedad de disciplinas, enfocándose principalmente en física, matemáticas y ciencias de la computación.

Aplicaciones del conjunto de datos

El conjunto de datos unarXive puede ser utilizado de diversas maneras. Los investigadores pueden analizar el comportamiento de citación a través de diferentes campos o idiomas y desarrollar software para tareas como resumir documentos o verificar afirmaciones hechas en artículos de investigación.

Recomendación de citaciones basada en contenido

Una aplicación específica del conjunto de datos es la recomendación de citas basada en contenido. Esto implica identificar referencias adecuadas para incluir en un escrito basado en el texto existente. Al utilizar la red de citación, se pueden entrenar modelos de aprendizaje automático para mejorar este proceso.

Clasificación IMRaD

Otra aplicación es la clasificación de secciones de artículos académicos de acuerdo con el formato IMRaD: Introducción, Métodos, Resultados y Discusión. Esta clasificación puede ayudar en el proceso de escritura al guiar a los autores sobre dónde colocar la información.

Distribución del conjunto de datos

El conjunto de datos unarXive se pone a disposición de la comunidad investigadora a través de canales establecidos. Sigue principios que aseguran que los datos puedan ser fácilmente accedidos y utilizados, respetando acuerdos de licenciamiento.

Acceso abierto vs. restringido

El conjunto de datos se ofrece en dos formatos: un subconjunto abierto que puede ser accedido libremente y un conjunto de datos completo más grande que requiere acceso restringido para los usuarios. Este enfoque dual permite un balance entre la accesibilidad y el cumplimiento de los requisitos de licenciamiento asociados al material fuente.

Desarrollos futuros

A medida que se sigan publicando nuevos artículos, el conjunto de datos unarXive se actualizará de manera incremental. Este desarrollo continuo asegura que el recurso siga siendo relevante y de alta calidad en un panorama académico en constante cambio.

Conclusión

El conjunto de datos unarXive representa una mejora sustancial sobre los recursos existentes al abordar deficiencias críticas y ofrecer una gama más amplia de características para los investigadores. Sus componentes facilitan una amplia variedad de análisis y aplicaciones en el ámbito académico, convirtiéndolo en una contribución significativa al campo de la recopilación y procesamiento de datos académicos. Con la promesa de actualizaciones y mejoras continuas, el conjunto de datos unarXive se convertirá en un recurso cada vez más valioso para futuros esfuerzos de investigación.

Presentamos unarXive: Un conjunto de datos académicos completo

Un nuevo conjunto de datos mejora la investigación con 1.9 millones de trabajos académicos y redes de citas mejoradas.

La necesidad de mejores conjuntos de datos

Visión general del conjunto de datos propuesto

Características clave del conjunto de datos

Red de citación integral

Representación estructurada del documento

Riqueza de contenido

Importancia del contenido no textual

Abordando las deficiencias actuales

Comparación con otros conjuntos de datos

Metodología para la recopilación de datos

Análisis de documentos

Vinculación de referencias

Estadísticas del conjunto de datos

Aplicaciones del conjunto de datos

Recomendación de citaciones basada en contenido

Clasificación IMRaD

Distribución del conjunto de datos

Acceso abierto vs. restringido

Desarrollos futuros

Conclusión

Enlaces de referencia

Temas referenciados

Presentamos unarXive: Un conjunto de datos académicos completo

Un nuevo conjunto de datos mejora la investigación con 1.9 millones de trabajos académicos y redes de citas mejoradas.

#La necesidad de mejores conjuntos de datos

#Visión general del conjunto de datos propuesto

#Características clave del conjunto de datos

#Red de citación integral

#Representación estructurada del documento

#Riqueza de contenido

#Importancia del contenido no textual

#Abordando las deficiencias actuales

#Comparación con otros conjuntos de datos

#Metodología para la recopilación de datos

#Análisis de documentos

#Vinculación de referencias

#Estadísticas del conjunto de datos

#Aplicaciones del conjunto de datos

#Recomendación de citaciones basada en contenido

#Clasificación IMRaD

#Distribución del conjunto de datos

#Acceso abierto vs. restringido

#Desarrollos futuros

#Conclusión

Enlaces de referencia

Temas referenciados

La necesidad de mejores conjuntos de datos

Visión general del conjunto de datos propuesto

Características clave del conjunto de datos

Red de citación integral

Representación estructurada del documento

Riqueza de contenido

Importancia del contenido no textual

Abordando las deficiencias actuales

Comparación con otros conjuntos de datos

Metodología para la recopilación de datos

Análisis de documentos

Vinculación de referencias

Estadísticas del conjunto de datos

Aplicaciones del conjunto de datos

Recomendación de citaciones basada en contenido

Clasificación IMRaD

Distribución del conjunto de datos

Acceso abierto vs. restringido

Desarrollos futuros

Conclusión